CN103076893A - 一种用于实现语音输入的方法与设备 - Google Patents

一种用于实现语音输入的方法与设备 Download PDF

Info

Publication number
CN103076893A
CN103076893A CN2012105928262A CN201210592826A CN103076893A CN 103076893 A CN103076893 A CN 103076893A CN 2012105928262 A CN2012105928262 A CN 2012105928262A CN 201210592826 A CN201210592826 A CN 201210592826A CN 103076893 A CN103076893 A CN 103076893A
Authority
CN
China
Prior art keywords
participle
information
character sequence
input character
network equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105928262A
Other languages
English (en)
Other versions
CN103076893B (zh
Inventor
陆阳阳
贾磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210592826.2A priority Critical patent/CN103076893B/zh
Publication of CN103076893A publication Critical patent/CN103076893A/zh
Priority to EP13869832.9A priority patent/EP2940551B1/en
Priority to JP2015549964A priority patent/JP6309539B2/ja
Priority to US14/412,374 priority patent/US10199036B2/en
Priority to PCT/CN2013/089721 priority patent/WO2014101687A1/zh
Application granted granted Critical
Publication of CN103076893B publication Critical patent/CN103076893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明的目的是提供一种用于实现语音输入的方法与设备,其中,在网络设备端根据语音识别模型,确定语音输入信息对应的输入字符序列,并通过确定所述输入字符序列中分词所对应的呈现概率信息,以获得所述分词的准确性信息,从而将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备;用户设备端根据所述分词的准确性信息,将所述输入字符序列提供给用户。与现有技术相比,本发明根据输入字符序列中分词的呈现概率信息来获得所述分词的准确性信息,提高了语音输入的准确性与灵活性,使得所述输入词条与用户的输入需求相匹配,提高了输入灵活度与个性化,还提高了输入法的输入效率,改善了用户体验。

Description

一种用于实现语音输入的方法与设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于实现语音输入的技术。
背景技术
随着语音识别技术的发展,语音输入所应用的领域越来越多。然而在很多情况下,语音输入仍然存在很多错误,例如对于同音字的识别与确定的不准确等,使得语音输入的准确性降低,影响了用户体验。
发明内容
本发明的目的是提供一种用于实现语音输入的方法与设备。
根据本发明的一个方面,提供了一种在网络设备端用于实现语音输入的方法,其中,该方法包括以下步骤:
a获取语音输入信息;
b根据语音识别模型,确定所述语音输入信息对应的输入字符序列;
c确定所述输入字符序列中分词所对应的呈现概率信息,以获得所述分词的准确性信息;
d将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。
根据本发明的另一方面,还提供了一种在用户设备端用于辅助实现语音输入的方法,其中,该方法包括以下步骤:
A获取网络设备所发送的语音输入信息所对应的输入字符序列,以及所述输入字符序列中分词的准确性信息;
B根据所述分词的准确性信息,将所述输入字符序列提供给用户。
根据本发明的再一方面,还提供了一种用于实现语音输入的网络设备,其中,该设备包括:
输入获取装置,用于获取语音输入信息;
序列确定装置,用于根据语音识别模型,确定所述语音输入信息对应的输入字符序列;
准确性确定装置,用于确定所述输入字符序列中分词所对应的呈现概率信息,以获得所述分词的准确性信息;
发送装置,用于将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。
根据本发明的又一方面,还提供了一种用于辅助实现语音输入的用户设备,其中,该设备包括:
序列获取装置,用于获取网络设备所发送的语音输入信息所对应的输入字符序列,以及所述输入字符序列中分词的准确性信息;
提供装置,用于根据所述分词的准确性信息,将所述输入字符序列提供给用户。
根据本发明的另一方面,还提供了一种用于实现语音输入的系统,包括如上述所述的网络设备及如上述所述的用户设备。
与现有技术相比,本发明通过在网络设备端根据语音识别模型,确定语音输入信息对应的输入字符序列,并通过确定所述输入字符序列中分词所对应的呈现概率信息,以获得所述分词的准确性信息,从而将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备;用户设备端根据所述分词的准确性信息,将所述输入字符序列提供给用户;从而根据输入字符序列中分词的呈现概率信息来获得所述分词的准确性信息,提高了语音输入的准确性与灵活性,使得所述输入词条与用户的输入需求相匹配,提高了输入灵活度与个性化,还提高了输入法的输入效率,改善了用户体验。
而且,本发明还可以在网络设备端获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求,并根据述访问请求,确定与所述至少一个分词相对应的一个或多个备选项,从而将所述一个或多个备选项发送至所述用户设备;在用户设备端将所述一个或多个备选项中至少一个提供给所述用户;进一步地,在网络设备端还可以结合所述至少一个分词的上下文信息,确定与所述至少一个分词相对应的一个或多个备选项;进一步地,在用户设备端,还可以根据用户对所述一个或多个备选项中至少一个的选择操作,替换所述输入字符序列中对应的分词,以获得更新后的所述输入字符序列。从而为用户提供了多种备选项,便于修正语音输入中的错误,提高了语音输入的准确性与灵活性,使得所述输入词条与用户的输入需求相匹配,提高了输入灵活度与个性化,还提高了输入法的输入效率,改善了用户体验。
而且,本发明还可以在网络设备端确定所述分词在所述输入字符序列中的条件概率,将所述条件概率作为所述分词的呈现概率信息,并根据所述条件概率确定所述分词的准确性信息;进一步地,还可以根据所述分词的呈现概率信息,以及所述分词对应的候选分词的呈现概率信息,确定所述呈现概率阈值;从而结合整个字符序列,提高了语音输入的准确性与灵活性,使得所述输入词条与用户的输入需求相匹配,提高了输入灵活度与个性化,还提高了输入法的输入效率,改善了用户体验。
而且,本发明还可以在网络设备端根据语音识别模型,并结合所述语音输入信息所对应的上下文信息,确定所述语音输入信息对应的输入字符序列;从而结合上下文信息,提高了所确定的输入字符序列的准确性,进而提高了语音输入的准确性与灵活性,使得所述输入词条与用户的输入需求相匹配,提高了输入灵活度与个性化,还提高了输入法的输入效率,改善了用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的一种用于实现语音输入的网络设备与用户设备示意图;
图2示出根据本发明一个优选实施例的一种用于实现语音输入的网络设备与用户设备示意图;
图3示出根据本发明另一个方面的一种由网络设备与用户设备配合实现的用于实现语音输入的方法流程图;
图4示出根据本发明一个优选实施例的一种由网络设备与用户设备配合实现的用于实现语音输入的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的一种用于实现语音输入的网络设备与用户设备示意图;其中,网络设备1包括输入获取装置11、序列确定装置12、准确性确定装置13、发送装置14;用户设备2包括序列获取装置21、提供装置22;网络设备1和用户设备2的各个装置之间互相配合,以实现语音输入。具体地,网络设备1中的输入获取装置11获取语音输入信息;序列确定装置12根据语音识别模型,确定所述语音输入信息对应的输入字符序列;准确性确定装置13确定所述输入字符序列中分词所对应的呈现概率信息,以获得所述分词的准确性信息;发送装置14将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备;相应地,用户设备2中的序列获取装置21获取网络设备所发送的语音输入信息所对应的输入字符序列,以及所述输入字符序列中分词的准确性信息;提供装置22根据所述分词的准确性信息,将所述输入字符序列提供给用户。
其中,所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述用户设备其包括但不限于任何一种可与用户通过键盘、遥控器、触摸板、或声控设备进行人机交互的电子产品,例如计算机、智能手机、PDA、游戏机、或IPTV等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解,其他的能够实现语音输入的网络设备与用户设备同样适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求,进行语音输入信息的获取、输入字符序列的确定、准确性信息的获取、输入字符序列以及分词准确性信息的发送与接收、输入字符序列的提供等,直至网络设备停止获取语音输入信息。
网络设备1中的输入获取装置11获取语音输入信息。具体地,输入获取装置11通过基于各种通信协议(Communications Protocol),通过各种数据传输接口,与第三方的语音输入信息数据库等进行交互,获取语音输入信息;或者所述输入获取装置11实时获取用户所输入的语音输入信息,或者与所述用户设备进行交互,获取用户所实时输入的语音输入信息等。其中,所述语音输入信息包括但不限于字、词、短句或长句等。
序列确定装置12根据语音识别模型,确定所述语音输入信息对应的输入字符序列。具体地,所述序列确定装置12通过根据预先设置或学习得到的语音识别模型,通过例如将语音输入信息进行切分,获得与所述语音输入信息相对应的一个或多个输入音节,将所述输入音节的特征矢量依次与所述语音识别模型中的模板等进行匹配,从而获得与所述音节对应的一个或多个分词或候选分词;依次对所述输入音节进行匹配,从而确定与所述语音输入信息相对应的输入字符序列,其中,所述输入字符序列中包括与所述语音输入信息相对应的多个分词或候选分词。在此,所述语音识别模型包括但不限于通用语音识别模型,或是仅与当前用户所对应的特定语音识别模型;所述语音识别模型通过语音训练所获得。例如,若所述语音输入信息对应句子“我带你去锦州”,序列确定装置12对所述语音输入信息进行切分,从而获得与所述语音输入信息相对应的多个分词;例如:我、带、你、去、锦州;其中,“带”的位置还可能有其他候选分词,如“代、待、呆(10%)”,“锦州”处也可能还有其他候选分词,如“金州、晋州”等。
准确性确定装置13确定所述输入字符序列中分词所对应的呈现概率信息,以获得所述分词的准确性信息。具体地,所述准确性确定装置13通过根据机器学习所获得的、或是通过查询相应的呈现概率信息数据库等所获得的信息,确定与所述输入字符序列中分词所对应的呈现概率信息;并根据所述呈现概率信息,通过直接将所述呈现概率信息作为所述分词的准确性信息的方式,获得所述分词的准确性信息;或者如基于所述分词在所述输入字符序列中的上下文信息,或是基于所述分词的词性信息等,对所述呈现概率信息进行处理,以获得所述分词的准确性信息。例如,继上例,准确性确定装置13通过与呈现概率信息数据库相交互,获得与所述语音输入信息对应句子“我带你去锦州”中的分词所对应的呈现概率信息(如括号中所示),我(90%)、带(40%)、你(90%)、去(98%)、锦州(40%),其中“带”的位置还可能有其他候选分词,如“代(30%)、待(20%)、呆(10%)”,“锦州”处也可能还有其他候选分词,如“金州(30%)、晋州(30%)”等;所述准确性确定装置13将所述呈现概率信息直接对应为所述分词的准确性信息。即如“我”的准确性信息为90%等。
发送装置14将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。具体地,所述发送装置14从所述准确性确定装置13中获取由一个或多个分词或候选分词所组成的输入字符序列,以及所述分词的准确性信息,通过基于各种通信协议,通过用户设备所提供的应用程序接口(API),或其他约定的通信方式的格式要求,将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。
相应地,用户设备2中的序列获取装置21获取网络设备所发送的语音输入信息所对应的输入字符序列,以及所述输入字符序列中分词的准确性信息。具体地,所述序列获取装置21通过基于各种通信协议,通过网络设备所提供的应用程序接口(API),或其他约定的通信方式的格式要求,从所述网络设备处接收由一个或多个分词或候选分词所组成的与所述语音输入信息所对应的输入字符序列,以及所述分词的准确性信息。
提供装置22根据所述分词的准确性信息,将所述输入字符序列提供给用户。具体地,所述提供装置22通过根据所述序列获取装置21中所获取的输入字符序列,以及所述输入字符序列中分词的准确性信息,通过将对应同一个输入音节的所述准确性信息最高的分词进行组合,从而生成提供给所述用户的输入字符序列;或者将对应同一个输入音节的所有分词或候选分词按照准确性从高到低进行排序后,生成供给所述用户的输入字符序列,其中,所述输入字符序列中包含所有匹配的分词等;并通过与所述用户进行交互,通过基于各种通信协议,通过用户所对应的用户设备所提供的应用程序接口(API)等方式,将所述输入字符序列提供给所述用户。在此,所述用户包括但不限于与提供所述语音输入信息相对应的用户,或者指定的用于接收所述语音输入信息的用户等。
优选地,所述准确性确定装置13还可以确定所述分词在所述输入字符序列中的条件概率,以作为所述分词的呈现概率信息;根据呈现概率阈值,基于所述分词的呈现概率信息,确定所述分词的准确性信息。具体地,所述准确性确定装置13还可以通过直接获取所述分词在所述输入字符序列中的条件概率;或者先获取所述输入字符序列出现的概率P(B),然后获取当所述输入字符序列中包含所述分词的概率P(AB),从而计算得到在所述输入字符序列中出现所述分词的条件概率P(A|B),将所述条件概率P(A|B)作为所述分词的呈现概率信息。所述准确性确定装置13通过根据预置的或机器学习等方式所获得呈现概率阈值,例如将所述呈现概率信息高于所述呈现概率阈值的一个或多个分词作为准确分词,若所述分词的呈现概率信息低于所述呈现概率阈值,则确定该分词为不准确分词,从而确定所述分词的准确性信息。
更优选地,所述网络设备1还包括阈值确定装置(未示出),其中,所述阈值确定装置根据所述分词的呈现概率信息,以及所述分词对应的候选分词的呈现概率信息,确定所述呈现概率阈值。具体地,所述阈值确定装置可以获取所述分词以及所述分词所对应的候选分词的呈现概率信息,通过例如对所述一个或多个分词以及候选分词的呈现概率进行平均、加权平均、取中值等方式,确定所述呈现概率阈值。例如,如所述分词以及候选分词的呈现概率信息为{40%,10%,10%,20%,20%},则可取阈值为30%-40%,而不必限定为50%;例如,若所述分词以及候选分词的呈现概率信息为{50%,45%,5%},则即使呈现概率阈值取50%,仍存在较大可能为错误等。
优选地,所述序列确定装置12还可以根据语音识别模型,并结合所述语音输入信息所对应的上下文信息,确定所述语音输入信息对应的输入字符序列。具体地,所述序列确定装置12通过例如结合所述语音输入信息所对应的上下文信息,确定所对应的语音识别模型,例如,根据所述上下文信息中的关键字判定相对应的不同领域的语音识别模型,然后根据所述语音识别模型,确定所述语音输入信息所对应的输入字符序列;或者利用通用的语音识别模型确定所述输入字符序列,并结合所述上下文信息对所述输入字符序列进行调整,例如提高上下文匹配的字符序列的权重或优先级等。其中,所述确定输入字符序列的方式与图1中所述序列确定装置12的确定方式相同或相似,故此处不再赘述,并通过引用的方式包含于此。
图2示出根据本发明一个优选实施例的一种用于实现语音输入的网络设备与用户设备示意图;其中,网络设备1包括输入获取装置11’、序列确定装置12’、准确性确定装置13’、发送装置14’、请求获取装置15’、备选确定装置16’、备选发送装置17’;用户设备2包括序列获取装置21’、提供装置22’、备选请求获取装置23’、访问请求发送装置24’、备选接收装置25’、备选提供装置26’;网络设备1和用户设备2的各个装置之间互相配合,以实现语音输入。具体地,网络设备1中的输入获取装置11’获取语音输入信息;序列确定装置12’根据语音识别模型,确定所述语音输入信息对应的输入字符序列;准确性确定装置13’确定所述输入字符序列中分词所对应的呈现概率信息,以获得所述分词的准确性信息;发送装置14’将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备;相应地,用户设备2中的序列获取装置21’获取网络设备所发送的语音输入信息所对应的输入字符序列,以及所述输入字符序列中分词的准确性信息;提供装置22’根据所述分词的准确性信息,将所述输入字符序列提供给用户;备选请求获取装置23’获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作;访问请求发送装置24’基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求;相应地,请求获取装置15’获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求;备选确定装置16’根据所述访问请求,确定与所述至少一个分词相对应的一个或多个备选项;备选发送装置17’将所述一个或多个备选项发送至所述用户设备;相应地,备选接收装置25’接收所述网络设备基于所述访问请求发送的一个或多个备选项;备选提供装置26’将所述一个或多个备选项中至少一个提供给所述用户。其中,网络设备1中的获取装置11’、序列确定装置12’、准确性确定装置13’、发送装置14’和用户设备2中的序列获取装置21’、提供装置22’分别与图1所示对应装置相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求,进行语音输入信息的获取、输入字符序列的确定、准确性信息的获取、输入字符序列以及分词准确性信息的发送与接收、输入字符序列的提供、备选请求操作的获取、备选访问请求的发送与接收、备选项的确定、备选项的发送与接收、备选项的提供等,直至网络设备停止获取语音输入信息。
备选请求获取装置23’获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作。具体地,备选请求获取装置23’基于各种通信协议,通过各种应用程序接口,从第三方设备中获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作;或者与用户直接交互,获取的请求操作。其中,所述请求操作包括但不限于输入、点击、触摸等。例如,继上例,备选请求获取装置23’与所述用户直接交互,获取所述用户通过点击等方式,所输入的对“锦州”的备选项的请求。
访问请求发送装置24’基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求。具体地,访问请求发送装置24’基于所述请求操作,通过基于各种通信协议,通过网络设备所提供的应用程序接口(API),或其他约定的通信方式的格式要求,将所述关于所述至少一个分词的备选项的访问请求发送至所述网络设备。
相应地,请求获取装置15’获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求。具体地,所述请求获取装置15’通过基于各种通信协议,通过用户设备所提供的应用程序接口(API),或其他约定的通信方式的格式要求,从所述用户设备处接收关于所述至少一个分词的备选项的访问请求。
备选确定装置16’根据所述访问请求,确定与所述至少一个分词相对应的一个或多个备选项。具体地,所述备选确定装置16’根据所述请求获取装置15’所获取的访问请求,根据所述访问请求中所需获取的分词,通过直接获取序列确定装置12’中对所述分词的候选分词,并将所述候选分词做为备选项;或者重新处理所述分词,以获得与所述至少一个分词相对应的一个或多个备选项。其中,所述处理方法与所述序列确定装置12’中的方法相同或相似,故此处不再赘述,并通过引用的方式包含于此。
备选发送装置17’将所述一个或多个备选项发送至所述用户设备。具体地,备选发送装置17’获取所述备选确定装置16’所确定的一个或多个备选项,通过基于各种通信协议,通过用户设备所提供的应用程序接口(API),或其他约定的通信方式的格式要求,将所述一个或多个备选项发送至所述用户设备。
相应地,用户设备端的备选接收装置25’接收所述网络设备基于所述访问请求发送的一个或多个备选项。具体地,备选接收装置25’通过基于各种通信协议,通过网络设备所提供的应用程序接口(API),或其他约定的通信方式的格式要求,从所述网络设备处接收基于所述访问请求发送的一个或多个备选项。
备选提供装置26’将所述一个或多个备选项中至少一个提供给所述用户。具体地,备选提供装置26’通过根据所述备选接收装置25’中所获取的一个或多个备选项,通过根据系统预置或用户设定的方式,将所述一个或多个备选项中至少一个,通过与所述用户进行交互提供给所述用户;或者基于各种通信协议,通过用户所对应的用户设备所提供的应用程序接口(API)等方式,将所述一个或多个备选项中至少一个提供给所述用户。在此,所述用户包括但不限于与提供所述语音输入信息相对应的用户,或者指定的用于接收所述语音输入信息的用户等。
优选地,所述网络设备1中的备选确定装置16’还可以根据所述访问请求,并结合所述至少一个分词的上下文信息,确定与所述至少一个分词相对应的一个或多个备选项。具体地,所述备选确定装置16’还可以根据所述访问请求中,通过结合所述访问请求中的分词的上下文信息,对所述至少一个分词相对应的一个或多个备选项进行确定。例如,根据上下文信息,通过结合如常用搭配、或语法等信息,将与所述上下文信息匹配程度较低的备选项进行筛除等;例如,对于语音输入信息“我带你去锦州”,若需获取备选项的分词是“锦州”,考虑到“去”这个方向词,则那么对应的备选项可能是“金州”、“晋州”,而不会包括“禁咒”。
优选地,所述用户设备2还包括操作获取装置(未示出)和替换装置(未示出),其中,操作获取装置获取用户对所述一个或多个备选项中至少一个的选择操作;替换装置根据所述选择操作所对应的备选项,替换所述输入字符序列中对应的分词,以获得更新后的所述输入字符序列。具体地,操作获取装置通过与用户直接交互,或者经由可以提供所述选择操作的第三方设别的应用程序接口等,获取用户对所述一个或多个备选项中至少一个的选择操作;例如,用户通过点击等方式选择了一个或多个备选项中的一个,则操作获取装置对所述选择操作以及其所选择的备选项进行获取。替换装置获取所述操作获取装置所选择的备选项,并利用所述备选项替换所述输入字符序列中对应的分词,以获得更新后的所述输入字符序列。例如,继上例,用户选择了备选项“金州”,从而替换装置利用“金州”替换掉所述“锦州”,更新后的输入字符序列为“我带你去金州”。
图3示出根据本发明另一个方面的一种由网络设备与用户设备配合实现的用于实现语音输入的方法流程图。具体地,在步骤s1中,网络设备1获取语音输入信息;在步骤s2中,网络设备1根据语音识别模型,确定所述语音输入信息对应的输入字符序列;在步骤s3中,网络设备1确定所述输入字符序列中分词所对应的呈现概率信息,以获得所述分词的准确性信息;在步骤s4中,网络设备1将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备;相应地,在步骤s4中,用户设备2获取网络设备所发送的语音输入信息所对应的输入字符序列,以及所述输入字符序列中分词的准确性信息;在步骤s5中,用户设备2根据所述分词的准确性信息,将所述输入字符序列提供给用户。
上述各步骤之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各步骤分别实时地或者按照设定的或实时调整的工作模式要求,进行语音输入信息的获取、输入字符序列的确定、准确性信息的获取、输入字符序列以及分词准确性信息的发送与接收、输入字符序列的提供等,直至网络设备停止获取语音输入信息。
在步骤s1中,网络设备1获取语音输入信息。具体地,在步骤s1中,网络设备1通过基于各种通信协议(Communications Protocol),通过各种数据传输接口,与第三方的语音输入信息数据库等进行交互,获取语音输入信息;或者在步骤s1中,网络设备1实时获取用户所输入的语音输入信息,或者与所述用户设备进行交互,获取用户所实时输入的语音输入信息等。其中,所述语音输入信息包括但不限于字、词、短句或长句等。
在步骤s2中,网络设备1根据语音识别模型,确定所述语音输入信息对应的输入字符序列。具体地,在步骤s2中,网络设备1通过根据预先设置或学习得到的语音识别模型,通过例如将语音输入信息进行切分,获得与所述语音输入信息相对应的一个或多个输入音节,将所述输入音节的特征矢量依次与所述语音识别模型中的模板等进行匹配,从而获得与所述音节对应的一个或多个分词或候选分词;依次对所述输入音节进行匹配,从而确定与所述语音输入信息相对应的输入字符序列,其中,所述输入字符序列中包括与所述语音输入信息相对应的多个分词或候选分词。在此,所述语音识别模型包括但不限于通用语音识别模型,或是仅与当前用户所对应的特定语音识别模型;所述语音识别模型通过语音训练所获得。例如,若所述语音输入信息对应句子“我带你去锦州”,在步骤s2中,网络设备1对所述语音输入信息进行切分,从而获得与所述语音输入信息相对应的多个分词;例如:我、带、你、去、锦州;其中,“带”的位置还可能有其他候选分词,如“代、待、呆(10%)”,“锦州”处也可能还有其他候选分词,如“金州、晋州”等。
在步骤s3中,网络设备1确定所述输入字符序列中分词所对应的呈现概率信息,以获得所述分词的准确性信息。具体地,在步骤s3中,网络设备1通过根据机器学习所获得的、或是通过查询相应的呈现概率信息数据库等所获得的信息,确定与所述输入字符序列中分词所对应的呈现概率信息;并根据所述呈现概率信息,通过直接将所述呈现概率信息作为所述分词的准确性信息的方式,获得所述分词的准确性信息;或者如基于所述分词在所述输入字符序列中的上下文信息,或是基于所述分词的词性信息等,对所述呈现概率信息进行处理,以获得所述分词的准确性信息。例如,继上例,在步骤s3中,网络设备1通过与呈现概率信息数据库相交互,获得与所述语音输入信息对应句子“我带你去锦州”中的分词所对应的呈现概率信息(如括号中所示),我(90%)、带(40%)、你(90%)、去(98%)、锦州(40%),其中“带”的位置还可能有其他候选分词,如“代(30%)、待(20%)、呆(10%)”,“锦州”处也可能还有其他候选分词,如“金州(30%)、晋州(30%)”等;在步骤s3中,网络设备1将所述呈现概率信息直接对应为所述分词的准确性信息。即如“我”的准确性信息为90%等。
在步骤s4中,网络设备1将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。具体地,在步骤s4中,网络设备1从所述步骤s3中获取由一个或多个分词或候选分词所组成的输入字符序列,以及所述分词的准确性信息,通过基于各种通信协议,通过用户设备所提供的应用程序接口(API),或其他约定的通信方式的格式要求,将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。
相应地,在步骤s4中,用户设备2获取网络设备所发送的语音输入信息所对应的输入字符序列,以及所述输入字符序列中分词的准确性信息。具体地,在步骤s4中,用户设备2通过基于各种通信协议,通过网络设备所提供的应用程序接口(API),或其他约定的通信方式的格式要求,从所述网络设备处接收由一个或多个分词或候选分词所组成的与所述语音输入信息所对应的输入字符序列,以及所述分词的准确性信息。
在步骤s5中,用户设备2根据所述分词的准确性信息,将所述输入字符序列提供给用户。具体地,在步骤s5中,用户设备2通过步骤s4中所获取的输入字符序列,以及所述输入字符序列中分词的准确性信息,通过将对应同一个输入音节的所述准确性信息最高的分词进行组合,从而生成提供给所述用户的输入字符序列;或者将对应同一个输入音节的所有分词或候选分词按照准确性从高到低进行排序后,生成供给所述用户的输入字符序列,其中,所述输入字符序列中包含所有匹配的分词等;并通过与所述用户进行交互,通过基于各种通信协议,通过用户所对应的用户设备所提供的应用程序接口(API)等方式,将所述输入字符序列提供给所述用户。在此,所述用户包括但不限于与提供所述语音输入信息相对应的用户,或者指定的用于接收所述语音输入信息的用户等。
优选地,在步骤s3中,网络设备1还可以确定所述分词在所述输入字符序列中的条件概率,以作为所述分词的呈现概率信息;根据呈现概率阈值,基于所述分词的呈现概率信息,确定所述分词的准确性信息。具体地,在步骤s3中,网络设备1还可以通过直接获取所述分词在所述输入字符序列中的条件概率;或者先获取所述输入字符序列出现的概率P(B),然后获取当所述输入字符序列中包含所述分词的概率P(AB),从而计算得到在所述输入字符序列中出现所述分词的条件概率P(A|B),将所述条件概率P(A|B)作为所述分词的呈现概率信息。在步骤s3中,网络设备1通过根据预置的或机器学习等方式所获得呈现概率阈值,例如将所述呈现概率信息高于所述呈现概率阈值的一个或多个分词作为准确分词,若所述分词的呈现概率信息低于所述呈现概率阈值,则确定该分词为不准确分词,从而确定所述分词的准确性信息。
更优选地,该方法还包括步骤s11(未示出),其中,在步骤s11中,网络设备1根据所述分词的呈现概率信息,以及所述分词对应的候选分词的呈现概率信息,确定所述呈现概率阈值。具体地,在步骤s11中,网络设备1可以获取所述分词以及所述分词所对应的候选分词的呈现概率信息,通过例如对所述一个或多个分词以及候选分词的呈现概率进行平均、加权平均、取中值等方式,确定所述呈现概率阈值。例如,如所述分词以及候选分词的呈现概率信息为{40%,10%,10%,20%,20%},则可取阈值为30%-40%,而不必限定为50%;例如,若所述分词以及候选分词的呈现概率信息为{50%,45%,5%},则即使呈现概率阈值取50%,仍存在较大可能为错误等。
优选地,在步骤s2中,网络设备1还可以根据语音识别模型,并结合所述语音输入信息所对应的上下文信息,确定所述语音输入信息对应的输入字符序列。具体地,在步骤s2中,网络设备1通过例如结合所述语音输入信息所对应的上下文信息,确定所对应的语音识别模型,例如,根据所述上下文信息中的关键字判定相对应的不同领域的语音识别模型,然后根据所述语音识别模型,确定所述语音输入信息所对应的输入字符序列;或者利用通用的语音识别模型确定所述输入字符序列,并结合所述上下文信息对所述输入字符序列进行调整,例如提高上下文匹配的字符序列的权重或优先级等。其中,所述确定输入字符序列的方式与图31中所述步骤s2的确定方式相同或相似,故此处不再赘述,并通过引用的方式包含于此。
图4示出根据本发明一个优选实施例的一种由网络设备与用户设备配合实现的用于实现语音输入的方法流程图。具体地,在步骤s1’中,网络设备1获取语音输入信息;在步骤s2’中,网络设备1根据语音识别模型,确定所述语音输入信息对应的输入字符序列;在步骤s3’中,网络设备1确定所述输入字符序列中分词所对应的呈现概率信息,以获得所述分词的准确性信息;在步骤s4’中,网络设备1将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备;相应地,在步骤s4’中,用户设备2获取网络设备所发送的语音输入信息所对应的输入字符序列,以及所述输入字符序列中分词的准确性信息;在步骤s5’中,用户设备2根据所述分词的准确性信息,将所述输入字符序列提供给用户;在步骤s6’中,用户设备2获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作;在步骤s7’中,用户设备2基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求;相应地,在步骤s7’中,网络设备1获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求;在步骤s8’中,网络设备1根据所述访问请求,确定与所述至少一个分词相对应的一个或多个备选项;在步骤s9’中,网络设备1将所述一个或多个备选项发送至所述用户设备;相应地,在步骤s9’中,用户设备2接收所述网络设备基于所述访问请求发送的一个或多个备选项;在步骤s10’中,用户设备2将所述一个或多个备选项中至少一个提供给所述用户。其中,步骤s1’、步骤s2’、步骤s3’、步骤s4’、步骤s5’分别与图3所示对应步骤相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
上述各步骤之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各步骤分别实时地或者按照设定的或实时调整的工作模式要求,进行语音输入信息的获取、输入字符序列的确定、准确性信息的获取、输入字符序列以及分词准确性信息的发送与接收、输入字符序列的提供、备选请求操作的获取、备选访问请求的发送与接收、备选项的确定、备选项的发送与接收、备选项的提供等,直至网络设备停止获取语音输入信息。
在步骤s6’中,用户设备2获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作。具体地,在步骤s6’中,用户设备2基于各种通信协议,通过各种应用程序接口,从第三方设备中获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作;或者与用户直接交互,获取的请求操作。其中,所述请求操作包括但不限于输入、点击、触摸等。例如,继上例,在步骤s6’中,用户设备2与所述用户直接交互,获取所述用户通过点击等方式,所输入的对“锦州”的备选项的请求。
在步骤s7’中,用户设备2基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求。具体地,访在步骤s7’中,用户设备2基于所述请求操作,通过基于各种通信协议,通过网络设备所提供的应用程序接口(API),或其他约定的通信方式的格式要求,将所述关于所述至少一个分词的备选项的访问请求发送至所述网络设备。
相应地,在步骤s7’中,网络设备1获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求。具体地,在步骤s7’中,网络设备1通过基于各种通信协议,通过用户设备所提供的应用程序接口(API),或其他约定的通信方式的格式要求,从所述用户设备处接收关于所述至少一个分词的备选项的访问请求。
在步骤s8’中,网络设备1根据所述访问请求,确定与所述至少一个分词相对应的一个或多个备选项。具体地,在步骤s8’中,网络设备1根据步骤s7’所获取的访问请求,根据所述访问请求中所需获取的分词,通过直接步骤s2’中对所述分词的候选分词,并将所述候选分词做为备选项;或者重新处理所述分词,以获得与所述至少一个分词相对应的一个或多个备选项。其中,所述处理方法与所述步骤s2’中的方法相同或相似,故此处不再赘述,并通过引用的方式包含于此。
在步骤s9’中,网络设备1将所述一个或多个备选项发送至所述用户设备。具体地,在步骤s9’中,网络设备1获取所述步骤s8’所确定的一个或多个备选项,通过基于各种通信协议,通过用户设备所提供的应用程序接口(API),或其他约定的通信方式的格式要求,将所述一个或多个备选项发送至所述用户设备。
相应地,在步骤s9’中,用户设备2接收所述网络设备基于所述访问请求发送的一个或多个备选项。具体地,在步骤s9’中,用户设备2通过基于各种通信协议,通过网络设备所提供的应用程序接口(API),或其他约定的通信方式的格式要求,从所述网络设备处接收基于所述访问请求发送的一个或多个备选项。
在步骤s10’中,用户设备2将所述一个或多个备选项中至少一个提供给所述用户。具体地,在步骤s10’中,用户设备2通过根据步骤s9’中所获取的一个或多个备选项,通过根据系统预置或用户设定的方式,将所述一个或多个备选项中至少一个,通过与所述用户进行交互提供给所述用户;或者基于各种通信协议,通过用户所对应的用户设备所提供的应用程序接口(API)等方式,将所述一个或多个备选项中至少一个提供给所述用户。在此,所述用户包括但不限于与提供所述语音输入信息相对应的用户,或者指定的用于接收所述语音输入信息的用户等。
优选地,在步骤s8’中,网络设备1还可以根据所述访问请求,并结合所述至少一个分词的上下文信息,确定与所述至少一个分词相对应的一个或多个备选项。具体地,在步骤s8’中,网络设备1还可以根据所述访问请求中,通过结合所述访问请求中的分词的上下文信息,对所述至少一个分词相对应的一个或多个备选项进行确定。例如,根据上下文信息,通过结合如常用搭配、或语法等信息,将与所述上下文信息匹配程度较低的备选项进行筛除等;例如,对于语音输入信息“我带你去锦州”,若需获取备选项的分词是“锦州”,考虑到“去”这个方向词,则那么对应的备选项可能是“金州”、“晋州”,而不会包括“禁咒”。
优选地,该方法还包括步骤s12’(未示出)和步骤s13’(未示出),其中,在步骤s12’中,用户设备2获取用户对所述一个或多个备选项中至少一个的选择操作;在步骤s13’中,用户设备2根据所述选择操作所对应的备选项,替换所述输入字符序列中对应的分词,以获得更新后的所述输入字符序列。具体地,在步骤s12’中,用户设备2通过与用户直接交互,或者经由可以提供所述选择操作的第三方设别的应用程序接口等,获取用户对所述一个或多个备选项中至少一个的选择操作;例如,用户通过点击等方式选择了一个或多个备选项中的一个,则在步骤s12’中,用户设备2对所述选择操作以及其所选择的备选项进行获取。在步骤s13’中,用户设备2获取所述步骤s12’所选择的备选项,并利用所述备选项替换所述输入字符序列中对应的分词,以获得更新后的所述输入字符序列。例如,继上例,用户选择了备选项“金州”,从而在步骤s13’中,用户设备2利用“金州”替换掉所述“锦州”,更新后的输入字符序列为“我带你去金州”。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (19)

1.一种在网络设备端用于实现语音输入的方法,其中,该方法包括以下步骤:
a获取语音输入信息;
b根据语音识别模型,确定所述语音输入信息对应的输入字符序列;
c确定所述输入字符序列中分词所对应的呈现概率信息,以获得所述分词的准确性信息;
d将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。
2.根据权利要求1所述的方法,其中,该方法还包括:
-获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求;
x根据所述访问请求,确定与所述至少一个分词相对应的一个或多个备选项;
-将所述一个或多个备选项发送至所述用户设备。
3.根据权利要求2所述的方法,其中,所述步骤x包括:
-根据所述访问请求,并结合所述至少一个分词的上下文信息,确定与所述至少一个分词相对应的一个或多个备选项。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤c包括:
-确定所述分词在所述输入字符序列中的条件概率,以作为所述分词的呈现概率信息;
-根据呈现概率阈值,基于所述分词的呈现概率信息,确定所述分词的准确性信息。
5.根据权利要求4所述的方法,其中,该方法还包括:
-根据所述分词的呈现概率信息,以及所述分词对应的候选分词的呈现概率信息,确定所述呈现概率阈值。
6.根据权利要求1至5中任一项所述的方法,其中,所述步骤b包括:
-根据语音识别模型,并结合所述语音输入信息所对应的上下文信息,确定所述语音输入信息对应的输入字符序列。
7.一种在用户设备端用于辅助实现语音输入的方法,其中,该方法包括以下步骤:
A获取网络设备所发送的语音输入信息所对应的输入字符序列,以及所述输入字符序列中分词的准确性信息;
B根据所述分词的准确性信息,将所述输入字符序列提供给用户。
8.根据权利要求7所述的方法,其中,该方法还包括:
-获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作;
-基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求;
-接收所述网络设备基于所述访问请求发送的一个或多个备选项;
-将所述一个或多个备选项中至少一个提供给所述用户。
9.根据权利要求8所述的方法,其中,该方法还包括:
-获取用户对所述一个或多个备选项中至少一个的选择操作;
-根据所述选择操作所对应的备选项,替换所述输入字符序列中对应的分词,以获得更新后的所述输入字符序列。
10.一种用于实现语音输入的网络设备,其中,该设备包括:
输入获取装置,用于获取语音输入信息;
序列确定装置,用于根据语音识别模型,确定所述语音输入信息对应的输入字符序列;
准确性确定装置,用于确定所述输入字符序列中分词所对应的呈现概率信息,以获得所述分词的准确性信息;
发送装置,用于将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。
11.根据权利要求10所述的网络设备,其中,该设备还包括:
请求获取装置,用于获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求;
备选确定装置,用于根据所述访问请求,确定与所述至少一个分词相对应的一个或多个备选项;
备选发送装置,用于将所述一个或多个备选项发送至所述用户设备。
12.根据权利要求11所述的网络设备,其中,所述备选确定装置用于:
-根据所述访问请求,并结合所述至少一个分词的上下文信息,确定与所述至少一个分词相对应的一个或多个备选项。
13.根据权利要求10至12中任一项所述的网络设备,其中,所述准确性确定装置用于:
-确定所述分词在所述输入字符序列中的条件概率,以作为所述分词的呈现概率信息;
-根据呈现概率阈值,基于所述分词的呈现概率信息,确定所述分词的准确性信息。
14.根据权利要求13所述的网络设备,其中,该设备还包括:
阈值确定装置,用于根据所述分词的呈现概率信息,以及所述分词对应的候选分词的呈现概率信息,确定所述呈现概率阈值。
15.根据权利要求10至14中任一项所述的网络设备,其中,所述序列确定装置用于:
-根据语音识别模型,并结合所述语音输入信息所对应的上下文信息,确定所述语音输入信息对应的输入字符序列。
16.一种用于辅助实现语音输入的用户设备,其中,该设备包括:
序列获取装置,用于获取网络设备所发送的语音输入信息所对应的输入字符序列,以及所述输入字符序列中分词的准确性信息;
提供装置,用于根据所述分词的准确性信息,将所述输入字符序列提供给用户。
17.根据权利要求16所述的用户设备,其中,该设备还包括:
备选请求获取装置,用于获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作;
访问请求发送装置,用于基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求;
备选接收装置,用于接收所述网络设备基于所述访问请求发送的一个或多个备选项;
备选提供装置,用于将所述一个或多个备选项中至少一个提供给所述用户。
18.根据权利要求17所述的用户设备,其中,该设备还包括:
操作获取装置,用于获取用户对所述一个或多个备选项中至少一个的选择操作;
替换装置,用于根据所述选择操作所对应的备选项,替换所述输入字符序列中对应的分词,以获得更新后的所述输入字符序列。
19.一种用于实现语音输入的系统,包括如权利要求10至15中任一项所述的网络设备及如权利要求16至18中任一项所述的用户设备。
CN201210592826.2A 2012-12-31 2012-12-31 一种用于实现语音输入的方法与设备 Active CN103076893B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201210592826.2A CN103076893B (zh) 2012-12-31 2012-12-31 一种用于实现语音输入的方法与设备
EP13869832.9A EP2940551B1 (en) 2012-12-31 2013-12-17 Method and device for implementing voice input
JP2015549964A JP6309539B2 (ja) 2012-12-31 2013-12-17 音声入力を実現する方法および装置
US14/412,374 US10199036B2 (en) 2012-12-31 2013-12-17 Method and device for implementing voice input
PCT/CN2013/089721 WO2014101687A1 (zh) 2012-12-31 2013-12-17 一种用于实现语音输入的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210592826.2A CN103076893B (zh) 2012-12-31 2012-12-31 一种用于实现语音输入的方法与设备

Publications (2)

Publication Number Publication Date
CN103076893A true CN103076893A (zh) 2013-05-01
CN103076893B CN103076893B (zh) 2016-08-17

Family

ID=48153449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210592826.2A Active CN103076893B (zh) 2012-12-31 2012-12-31 一种用于实现语音输入的方法与设备

Country Status (5)

Country Link
US (1) US10199036B2 (zh)
EP (1) EP2940551B1 (zh)
JP (1) JP6309539B2 (zh)
CN (1) CN103076893B (zh)
WO (1) WO2014101687A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014101687A1 (zh) * 2012-12-31 2014-07-03 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
CN105159473A (zh) * 2015-08-17 2015-12-16 百度在线网络技术(北京)有限公司 一种语言模型计算处理方法及系统
CN105700704A (zh) * 2016-03-21 2016-06-22 深圳五洲无线股份有限公司 小尺寸屏幕下的文字输入方法和装置
CN106816148A (zh) * 2015-11-30 2017-06-09 三星电子株式会社 语音识别设备和方法
CN107068145A (zh) * 2016-12-30 2017-08-18 中南大学 语音评测方法及系统
CN109543174A (zh) * 2017-09-21 2019-03-29 广州腾讯科技有限公司 文本选择方法、装置、计算机可读存储介质和计算机设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9990564B2 (en) * 2016-03-29 2018-06-05 Wipro Limited System and method for optical character recognition
CN107516176B (zh) 2016-06-17 2021-03-19 菜鸟智能物流控股有限公司 物流信息处理方法及装置
CN108241438B (zh) * 2016-12-23 2022-02-25 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
US11875798B2 (en) * 2021-05-03 2024-01-16 International Business Machines Corporation Profiles for enhanced speech recognition training

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1197962A (zh) * 1997-03-14 1998-11-04 欧姆龙株式会社 语言识别装置、方法及存储语言识别装置程序的记录媒体
US20060015336A1 (en) * 2004-07-19 2006-01-19 Sarangarajan Parthasarathy System and method for spelling recognition using speech and non-speech input
CN101276585A (zh) * 2007-03-28 2008-10-01 哈曼贝克自动系统股份有限公司 多语言非母语语音识别
CN101309327A (zh) * 2007-04-16 2008-11-19 索尼株式会社 语音聊天系统、信息处理装置、话语识别和关键字检测
CN102063195A (zh) * 2010-04-06 2011-05-18 百度在线网络技术(北京)有限公司 一种用于供用户进行中英文混合输入的方法与设备
CN102385619A (zh) * 2011-10-19 2012-03-21 百度在线网络技术(北京)有限公司 一种根据语音输入信息提供访问建议的方法与设备

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57195300A (en) 1981-05-26 1982-11-30 Sanyo Electric Co Voice recognition unit
EP0302614B1 (en) * 1987-07-16 1993-03-10 Fujitsu Limited Speech recognition device
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
US5233681A (en) * 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
JPH0689302A (ja) * 1992-09-08 1994-03-29 Hitachi Ltd 辞書メモリ
WO1994014270A1 (en) * 1992-12-17 1994-06-23 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5467425A (en) * 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
JP3758241B2 (ja) * 1996-08-01 2006-03-22 三菱電機株式会社 音声情報検索装置
US6269335B1 (en) * 1998-08-14 2001-07-31 International Business Machines Corporation Apparatus and methods for identifying homophones among words in a speech recognition system
US6356866B1 (en) * 1998-10-07 2002-03-12 Microsoft Corporation Method for converting a phonetic character string into the text of an Asian language
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
EP1189203B1 (en) * 2000-09-18 2006-05-17 L & H Holdings USA, Inc. Homophone selection in speech recognition
US20020184019A1 (en) 2001-05-31 2002-12-05 International Business Machines Corporation Method of using empirical substitution data in speech recognition
US20030078777A1 (en) * 2001-08-22 2003-04-24 Shyue-Chin Shiau Speech recognition system for mobile Internet/Intranet communication
JP4072718B2 (ja) * 2002-11-21 2008-04-09 ソニー株式会社 音声処理装置および方法、記録媒体並びにプログラム
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
JP4012143B2 (ja) * 2003-12-16 2007-11-21 キヤノン株式会社 情報処理装置およびデータ入力方法
US8825379B2 (en) * 2005-01-05 2014-09-02 Sirius Xm Connected Vehicle Services Inc. Systems and methods for off-board voice-automated vehicle navigation
KR100679044B1 (ko) * 2005-03-07 2007-02-06 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
US20080130699A1 (en) 2006-12-05 2008-06-05 Motorola, Inc. Content selection using speech recognition
JP5207642B2 (ja) * 2007-03-06 2013-06-12 ニュアンス コミュニケーションズ,インコーポレイテッド 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
US7844456B2 (en) * 2007-03-09 2010-11-30 Microsoft Corporation Grammar confusability metric for speech recognition
JP4412504B2 (ja) * 2007-04-17 2010-02-10 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識用プログラム
US8457946B2 (en) * 2007-04-26 2013-06-04 Microsoft Corporation Recognition architecture for generating Asian characters
US7953598B2 (en) * 2007-12-17 2011-05-31 Verizon Patent And Licensing Inc. Grammar weighting voice recognition information
US9177551B2 (en) * 2008-01-22 2015-11-03 At&T Intellectual Property I, L.P. System and method of providing speech processing in user interface
US20090228273A1 (en) * 2008-03-05 2009-09-10 Microsoft Corporation Handwriting-based user interface for correction of speech recognition errors
US8224656B2 (en) * 2008-03-14 2012-07-17 Microsoft Corporation Speech recognition disambiguation on mobile devices
JP4709887B2 (ja) * 2008-04-22 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
US8762153B2 (en) * 2008-08-18 2014-06-24 At&T Intellectual Property I, L.P. System and method for improving name dialer performance
US8494852B2 (en) * 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US9069755B2 (en) * 2010-03-11 2015-06-30 Microsoft Technology Licensing, Llc N-gram model smoothing with independently controllable parameters
CN102299934A (zh) 2010-06-23 2011-12-28 上海博路信息技术有限公司 一种基于云模式和语音识别的语音输入方法
US8473289B2 (en) * 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
KR101208166B1 (ko) * 2010-12-16 2012-12-04 엔에이치엔(주) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
KR101233561B1 (ko) 2011-05-12 2013-02-14 엔에이치엔(주) 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법
JP5752488B2 (ja) 2011-05-31 2015-07-22 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
US8706472B2 (en) * 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US9620122B2 (en) * 2011-12-08 2017-04-11 Lenovo (Singapore) Pte. Ltd Hybrid speech recognition
US8346563B1 (en) * 2012-04-10 2013-01-01 Artificial Solutions Ltd. System and methods for delivering advanced natural language interaction applications
US9431012B2 (en) * 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
CN103076893B (zh) 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1197962A (zh) * 1997-03-14 1998-11-04 欧姆龙株式会社 语言识别装置、方法及存储语言识别装置程序的记录媒体
US20060015336A1 (en) * 2004-07-19 2006-01-19 Sarangarajan Parthasarathy System and method for spelling recognition using speech and non-speech input
CN101276585A (zh) * 2007-03-28 2008-10-01 哈曼贝克自动系统股份有限公司 多语言非母语语音识别
CN101309327A (zh) * 2007-04-16 2008-11-19 索尼株式会社 语音聊天系统、信息处理装置、话语识别和关键字检测
CN102063195A (zh) * 2010-04-06 2011-05-18 百度在线网络技术(北京)有限公司 一种用于供用户进行中英文混合输入的方法与设备
CN102385619A (zh) * 2011-10-19 2012-03-21 百度在线网络技术(北京)有限公司 一种根据语音输入信息提供访问建议的方法与设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014101687A1 (zh) * 2012-12-31 2014-07-03 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
US10199036B2 (en) 2012-12-31 2019-02-05 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for implementing voice input
CN105159473A (zh) * 2015-08-17 2015-12-16 百度在线网络技术(北京)有限公司 一种语言模型计算处理方法及系统
CN105159473B (zh) * 2015-08-17 2018-02-13 百度在线网络技术(北京)有限公司 一种语言模型计算处理方法及系统
CN106816148A (zh) * 2015-11-30 2017-06-09 三星电子株式会社 语音识别设备和方法
CN106816148B (zh) * 2015-11-30 2022-04-22 三星电子株式会社 语音识别设备和方法
CN105700704A (zh) * 2016-03-21 2016-06-22 深圳五洲无线股份有限公司 小尺寸屏幕下的文字输入方法和装置
CN105700704B (zh) * 2016-03-21 2018-08-28 深圳五洲无线股份有限公司 小尺寸屏幕下的文字输入方法和装置
CN107068145A (zh) * 2016-12-30 2017-08-18 中南大学 语音评测方法及系统
CN107068145B (zh) * 2016-12-30 2019-02-15 中南大学 语音评测方法及系统
CN109543174A (zh) * 2017-09-21 2019-03-29 广州腾讯科技有限公司 文本选择方法、装置、计算机可读存储介质和计算机设备
CN109543174B (zh) * 2017-09-21 2023-05-09 广州腾讯科技有限公司 文本选择方法、装置、计算机可读存储介质和计算机设备

Also Published As

Publication number Publication date
US10199036B2 (en) 2019-02-05
WO2014101687A1 (zh) 2014-07-03
EP2940551A4 (en) 2016-08-03
CN103076893B (zh) 2016-08-17
EP2940551B1 (en) 2018-11-28
JP2016505893A (ja) 2016-02-25
EP2940551A1 (en) 2015-11-04
JP6309539B2 (ja) 2018-04-11
US20150302852A1 (en) 2015-10-22

Similar Documents

Publication Publication Date Title
CN103076893A (zh) 一种用于实现语音输入的方法与设备
KR101909807B1 (ko) 메시지 입력 방법 및 장치
US9047868B1 (en) Language model data collection
CN102254557B (zh) 基于自然语音识别的导航方法和系统
CN103187052B (zh) 一种建立用于语音识别的语言模型的方法及装置
CN103365833B (zh) 一种基于上下文场景的输入候选词提示方法及系统
CN110795542B (zh) 对话方法及相关装置、设备
CN103699530A (zh) 根据语音输入信息在目标应用中输入文本的方法与设备
CN105556594A (zh) 声音识别处理装置、声音识别处理方法以及显示装置
CN107112008A (zh) 基于预测的序列识别
CN105448292A (zh) 一种基于场景的实时语音识别系统和方法
CN103956169A (zh) 一种语音输入方法、装置和系统
CN103226393A (zh) 一种输入方法和设备
CN107331389A (zh) 基于场境的语音识别语法选择方法和系统
CN102306171A (zh) 一种用于提供网络访问建议和网络搜索建议的方法与设备
CN102810117A (zh) 一种用于提供搜索结果的方法与设备
CN111445903B (zh) 企业名称识别方法及装置
CN110879837B (zh) 一种信息处理方法及装置
CN103092928B (zh) 语音查询方法及系统
CN104462058B (zh) 字符串识别方法及装置
CN103092826A (zh) 一种根据用户的输入信息构建输入词条的方法与设备
JP2008287210A5 (zh)
CN103546623A (zh) 用于发送语音信息及其文本描述信息的方法、装置与设备
CN102298617A (zh) 一种用于获取目标页面的方法与设备
CN103076894A (zh) 一种用于根据对象标识信息构建输入词条的方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant