CN103076893A

CN103076893A - 一种用于实现语音输入的方法与设备

Info

Publication number: CN103076893A
Application number: CN2012105928262A
Authority: CN
Inventors: 陆阳阳; 贾磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2013-05-01
Anticipated expiration: 2032-12-31
Also published as: US10199036B2; WO2014101687A1; EP2940551A4; CN103076893B; EP2940551B1; JP2016505893A; EP2940551A1; JP6309539B2; US20150302852A1

Abstract

本发明的目的是提供一种用于实现语音输入的方法与设备，其中，在网络设备端根据语音识别模型，确定语音输入信息对应的输入字符序列，并通过确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息，从而将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备；用户设备端根据所述分词的准确性信息，将所述输入字符序列提供给用户。与现有技术相比，本发明根据输入字符序列中分词的呈现概率信息来获得所述分词的准确性信息，提高了语音输入的准确性与灵活性，使得所述输入词条与用户的输入需求相匹配，提高了输入灵活度与个性化，还提高了输入法的输入效率，改善了用户体验。

Description

一种用于实现语音输入的方法与设备

技术领域

本发明涉及互联网技术领域，尤其涉及一种用于实现语音输入的技术。

背景技术

随着语音识别技术的发展，语音输入所应用的领域越来越多。然而在很多情况下，语音输入仍然存在很多错误，例如对于同音字的识别与确定的不准确等，使得语音输入的准确性降低，影响了用户体验。

发明内容

本发明的目的是提供一种用于实现语音输入的方法与设备。

根据本发明的一个方面，提供了一种在网络设备端用于实现语音输入的方法，其中，该方法包括以下步骤：

a获取语音输入信息；

b根据语音识别模型，确定所述语音输入信息对应的输入字符序列；

c确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息；

d将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。

根据本发明的另一方面，还提供了一种在用户设备端用于辅助实现语音输入的方法，其中，该方法包括以下步骤：

A获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息；

B根据所述分词的准确性信息，将所述输入字符序列提供给用户。

根据本发明的再一方面，还提供了一种用于实现语音输入的网络设备，其中，该设备包括：

输入获取装置，用于获取语音输入信息；

序列确定装置，用于根据语音识别模型，确定所述语音输入信息对应的输入字符序列；

准确性确定装置，用于确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息；

发送装置，用于将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。

根据本发明的又一方面，还提供了一种用于辅助实现语音输入的用户设备，其中，该设备包括：

序列获取装置，用于获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息；

提供装置，用于根据所述分词的准确性信息，将所述输入字符序列提供给用户。

根据本发明的另一方面，还提供了一种用于实现语音输入的系统，包括如上述所述的网络设备及如上述所述的用户设备。

与现有技术相比，本发明通过在网络设备端根据语音识别模型，确定语音输入信息对应的输入字符序列，并通过确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息，从而将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备；用户设备端根据所述分词的准确性信息，将所述输入字符序列提供给用户；从而根据输入字符序列中分词的呈现概率信息来获得所述分词的准确性信息，提高了语音输入的准确性与灵活性，使得所述输入词条与用户的输入需求相匹配，提高了输入灵活度与个性化，还提高了输入法的输入效率，改善了用户体验。

而且，本发明还可以在网络设备端获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求，并根据述访问请求，确定与所述至少一个分词相对应的一个或多个备选项，从而将所述一个或多个备选项发送至所述用户设备；在用户设备端将所述一个或多个备选项中至少一个提供给所述用户；进一步地，在网络设备端还可以结合所述至少一个分词的上下文信息，确定与所述至少一个分词相对应的一个或多个备选项；进一步地，在用户设备端，还可以根据用户对所述一个或多个备选项中至少一个的选择操作，替换所述输入字符序列中对应的分词，以获得更新后的所述输入字符序列。从而为用户提供了多种备选项，便于修正语音输入中的错误，提高了语音输入的准确性与灵活性，使得所述输入词条与用户的输入需求相匹配，提高了输入灵活度与个性化，还提高了输入法的输入效率，改善了用户体验。

而且，本发明还可以在网络设备端确定所述分词在所述输入字符序列中的条件概率，将所述条件概率作为所述分词的呈现概率信息，并根据所述条件概率确定所述分词的准确性信息；进一步地，还可以根据所述分词的呈现概率信息，以及所述分词对应的候选分词的呈现概率信息，确定所述呈现概率阈值；从而结合整个字符序列，提高了语音输入的准确性与灵活性，使得所述输入词条与用户的输入需求相匹配，提高了输入灵活度与个性化，还提高了输入法的输入效率，改善了用户体验。

而且，本发明还可以在网络设备端根据语音识别模型，并结合所述语音输入信息所对应的上下文信息，确定所述语音输入信息对应的输入字符序列；从而结合上下文信息，提高了所确定的输入字符序列的准确性，进而提高了语音输入的准确性与灵活性，使得所述输入词条与用户的输入需求相匹配，提高了输入灵活度与个性化，还提高了输入法的输入效率，改善了用户体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个方面的一种用于实现语音输入的网络设备与用户设备示意图；

图2示出根据本发明一个优选实施例的一种用于实现语音输入的网络设备与用户设备示意图；

图3示出根据本发明另一个方面的一种由网络设备与用户设备配合实现的用于实现语音输入的方法流程图；

图4示出根据本发明一个优选实施例的一种由网络设备与用户设备配合实现的用于实现语音输入的方法流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出根据本发明一个方面的一种用于实现语音输入的网络设备与用户设备示意图；其中，网络设备1包括输入获取装置11、序列确定装置12、准确性确定装置13、发送装置14；用户设备2包括序列获取装置21、提供装置22；网络设备1和用户设备2的各个装置之间互相配合，以实现语音输入。具体地，网络设备1中的输入获取装置11获取语音输入信息；序列确定装置12根据语音识别模型，确定所述语音输入信息对应的输入字符序列；准确性确定装置13确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息；发送装置14将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备；相应地，用户设备2中的序列获取装置21获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息；提供装置22根据所述分词的准确性信息，将所述输入字符序列提供给用户。

其中，所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述用户设备其包括但不限于任何一种可与用户通过键盘、遥控器、触摸板、或声控设备进行人机交互的电子产品，例如计算机、智能手机、PDA、游戏机、或IPTV等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解，其他的能够实现语音输入的网络设备与用户设备同样适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

上述各装置之间是持续不断工作的，在此，本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求，进行语音输入信息的获取、输入字符序列的确定、准确性信息的获取、输入字符序列以及分词准确性信息的发送与接收、输入字符序列的提供等，直至网络设备停止获取语音输入信息。

网络设备1中的输入获取装置11获取语音输入信息。具体地，输入获取装置11通过基于各种通信协议(Communications Protocol)，通过各种数据传输接口，与第三方的语音输入信息数据库等进行交互，获取语音输入信息；或者所述输入获取装置11实时获取用户所输入的语音输入信息，或者与所述用户设备进行交互，获取用户所实时输入的语音输入信息等。其中，所述语音输入信息包括但不限于字、词、短句或长句等。

序列确定装置12根据语音识别模型，确定所述语音输入信息对应的输入字符序列。具体地，所述序列确定装置12通过根据预先设置或学习得到的语音识别模型，通过例如将语音输入信息进行切分，获得与所述语音输入信息相对应的一个或多个输入音节，将所述输入音节的特征矢量依次与所述语音识别模型中的模板等进行匹配，从而获得与所述音节对应的一个或多个分词或候选分词；依次对所述输入音节进行匹配，从而确定与所述语音输入信息相对应的输入字符序列，其中，所述输入字符序列中包括与所述语音输入信息相对应的多个分词或候选分词。在此，所述语音识别模型包括但不限于通用语音识别模型，或是仅与当前用户所对应的特定语音识别模型；所述语音识别模型通过语音训练所获得。例如，若所述语音输入信息对应句子“我带你去锦州”，序列确定装置12对所述语音输入信息进行切分，从而获得与所述语音输入信息相对应的多个分词；例如：我、带、你、去、锦州；其中，“带”的位置还可能有其他候选分词，如“代、待、呆(10％)”，“锦州”处也可能还有其他候选分词，如“金州、晋州”等。

准确性确定装置13确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息。具体地，所述准确性确定装置13通过根据机器学习所获得的、或是通过查询相应的呈现概率信息数据库等所获得的信息，确定与所述输入字符序列中分词所对应的呈现概率信息；并根据所述呈现概率信息，通过直接将所述呈现概率信息作为所述分词的准确性信息的方式，获得所述分词的准确性信息；或者如基于所述分词在所述输入字符序列中的上下文信息，或是基于所述分词的词性信息等，对所述呈现概率信息进行处理，以获得所述分词的准确性信息。例如，继上例，准确性确定装置13通过与呈现概率信息数据库相交互，获得与所述语音输入信息对应句子“我带你去锦州”中的分词所对应的呈现概率信息(如括号中所示)，我(90％)、带(40％)、你(90％)、去(98％)、锦州(40％)，其中“带”的位置还可能有其他候选分词，如“代(30％)、待(20％)、呆(10％)”，“锦州”处也可能还有其他候选分词，如“金州(30％)、晋州(30％)”等；所述准确性确定装置13将所述呈现概率信息直接对应为所述分词的准确性信息。即如“我”的准确性信息为90％等。

发送装置14将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。具体地，所述发送装置14从所述准确性确定装置13中获取由一个或多个分词或候选分词所组成的输入字符序列，以及所述分词的准确性信息，通过基于各种通信协议，通过用户设备所提供的应用程序接口(API)，或其他约定的通信方式的格式要求，将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。

相应地，用户设备2中的序列获取装置21获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息。具体地，所述序列获取装置21通过基于各种通信协议，通过网络设备所提供的应用程序接口(API)，或其他约定的通信方式的格式要求，从所述网络设备处接收由一个或多个分词或候选分词所组成的与所述语音输入信息所对应的输入字符序列，以及所述分词的准确性信息。

提供装置22根据所述分词的准确性信息，将所述输入字符序列提供给用户。具体地，所述提供装置22通过根据所述序列获取装置21中所获取的输入字符序列，以及所述输入字符序列中分词的准确性信息，通过将对应同一个输入音节的所述准确性信息最高的分词进行组合，从而生成提供给所述用户的输入字符序列；或者将对应同一个输入音节的所有分词或候选分词按照准确性从高到低进行排序后，生成供给所述用户的输入字符序列，其中，所述输入字符序列中包含所有匹配的分词等；并通过与所述用户进行交互，通过基于各种通信协议，通过用户所对应的用户设备所提供的应用程序接口(API)等方式，将所述输入字符序列提供给所述用户。在此，所述用户包括但不限于与提供所述语音输入信息相对应的用户，或者指定的用于接收所述语音输入信息的用户等。

优选地，所述准确性确定装置13还可以确定所述分词在所述输入字符序列中的条件概率，以作为所述分词的呈现概率信息；根据呈现概率阈值，基于所述分词的呈现概率信息，确定所述分词的准确性信息。具体地，所述准确性确定装置13还可以通过直接获取所述分词在所述输入字符序列中的条件概率；或者先获取所述输入字符序列出现的概率P(B)，然后获取当所述输入字符序列中包含所述分词的概率P(AB)，从而计算得到在所述输入字符序列中出现所述分词的条件概率P(A|B)，将所述条件概率P(A|B)作为所述分词的呈现概率信息。所述准确性确定装置13通过根据预置的或机器学习等方式所获得呈现概率阈值，例如将所述呈现概率信息高于所述呈现概率阈值的一个或多个分词作为准确分词，若所述分词的呈现概率信息低于所述呈现概率阈值，则确定该分词为不准确分词，从而确定所述分词的准确性信息。

更优选地，所述网络设备1还包括阈值确定装置(未示出)，其中，所述阈值确定装置根据所述分词的呈现概率信息，以及所述分词对应的候选分词的呈现概率信息，确定所述呈现概率阈值。具体地，所述阈值确定装置可以获取所述分词以及所述分词所对应的候选分词的呈现概率信息，通过例如对所述一个或多个分词以及候选分词的呈现概率进行平均、加权平均、取中值等方式，确定所述呈现概率阈值。例如，如所述分词以及候选分词的呈现概率信息为{40％，10％，10％，20％，20％}，则可取阈值为30％-40％，而不必限定为50％；例如，若所述分词以及候选分词的呈现概率信息为{50％，45％，5％}，则即使呈现概率阈值取50％，仍存在较大可能为错误等。

优选地，所述序列确定装置12还可以根据语音识别模型，并结合所述语音输入信息所对应的上下文信息，确定所述语音输入信息对应的输入字符序列。具体地，所述序列确定装置12通过例如结合所述语音输入信息所对应的上下文信息，确定所对应的语音识别模型，例如，根据所述上下文信息中的关键字判定相对应的不同领域的语音识别模型，然后根据所述语音识别模型，确定所述语音输入信息所对应的输入字符序列；或者利用通用的语音识别模型确定所述输入字符序列，并结合所述上下文信息对所述输入字符序列进行调整，例如提高上下文匹配的字符序列的权重或优先级等。其中，所述确定输入字符序列的方式与图1中所述序列确定装置12的确定方式相同或相似，故此处不再赘述，并通过引用的方式包含于此。

图2示出根据本发明一个优选实施例的一种用于实现语音输入的网络设备与用户设备示意图；其中，网络设备1包括输入获取装置11’、序列确定装置12’、准确性确定装置13’、发送装置14’、请求获取装置15’、备选确定装置16’、备选发送装置17’；用户设备2包括序列获取装置21’、提供装置22’、备选请求获取装置23’、访问请求发送装置24’、备选接收装置25’、备选提供装置26’；网络设备1和用户设备2的各个装置之间互相配合，以实现语音输入。具体地，网络设备1中的输入获取装置11’获取语音输入信息；序列确定装置12’根据语音识别模型，确定所述语音输入信息对应的输入字符序列；准确性确定装置13’确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息；发送装置14’将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备；相应地，用户设备2中的序列获取装置21’获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息；提供装置22’根据所述分词的准确性信息，将所述输入字符序列提供给用户；备选请求获取装置23’获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作；访问请求发送装置24’基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求；相应地，请求获取装置15’获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求；备选确定装置16’根据所述访问请求，确定与所述至少一个分词相对应的一个或多个备选项；备选发送装置17’将所述一个或多个备选项发送至所述用户设备；相应地，备选接收装置25’接收所述网络设备基于所述访问请求发送的一个或多个备选项；备选提供装置26’将所述一个或多个备选项中至少一个提供给所述用户。其中，网络设备1中的获取装置11’、序列确定装置12’、准确性确定装置13’、发送装置14’和用户设备2中的序列获取装置21’、提供装置22’分别与图1所示对应装置相同或基本相同，故此处不再赘述，并通过引用的方式包含于此。

上述各装置之间是持续不断工作的，在此，本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求，进行语音输入信息的获取、输入字符序列的确定、准确性信息的获取、输入字符序列以及分词准确性信息的发送与接收、输入字符序列的提供、备选请求操作的获取、备选访问请求的发送与接收、备选项的确定、备选项的发送与接收、备选项的提供等，直至网络设备停止获取语音输入信息。

备选请求获取装置23’获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作。具体地，备选请求获取装置23’基于各种通信协议，通过各种应用程序接口，从第三方设备中获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作；或者与用户直接交互，获取的请求操作。其中，所述请求操作包括但不限于输入、点击、触摸等。例如，继上例，备选请求获取装置23’与所述用户直接交互，获取所述用户通过点击等方式，所输入的对“锦州”的备选项的请求。

访问请求发送装置24’基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求。具体地，访问请求发送装置24’基于所述请求操作，通过基于各种通信协议，通过网络设备所提供的应用程序接口(API)，或其他约定的通信方式的格式要求，将所述关于所述至少一个分词的备选项的访问请求发送至所述网络设备。

相应地，请求获取装置15’获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求。具体地，所述请求获取装置15’通过基于各种通信协议，通过用户设备所提供的应用程序接口(API)，或其他约定的通信方式的格式要求，从所述用户设备处接收关于所述至少一个分词的备选项的访问请求。

备选确定装置16’根据所述访问请求，确定与所述至少一个分词相对应的一个或多个备选项。具体地，所述备选确定装置16’根据所述请求获取装置15’所获取的访问请求，根据所述访问请求中所需获取的分词，通过直接获取序列确定装置12’中对所述分词的候选分词，并将所述候选分词做为备选项；或者重新处理所述分词，以获得与所述至少一个分词相对应的一个或多个备选项。其中，所述处理方法与所述序列确定装置12’中的方法相同或相似，故此处不再赘述，并通过引用的方式包含于此。

备选发送装置17’将所述一个或多个备选项发送至所述用户设备。具体地，备选发送装置17’获取所述备选确定装置16’所确定的一个或多个备选项，通过基于各种通信协议，通过用户设备所提供的应用程序接口(API)，或其他约定的通信方式的格式要求，将所述一个或多个备选项发送至所述用户设备。

相应地，用户设备端的备选接收装置25’接收所述网络设备基于所述访问请求发送的一个或多个备选项。具体地，备选接收装置25’通过基于各种通信协议，通过网络设备所提供的应用程序接口(API)，或其他约定的通信方式的格式要求，从所述网络设备处接收基于所述访问请求发送的一个或多个备选项。

备选提供装置26’将所述一个或多个备选项中至少一个提供给所述用户。具体地，备选提供装置26’通过根据所述备选接收装置25’中所获取的一个或多个备选项，通过根据系统预置或用户设定的方式，将所述一个或多个备选项中至少一个，通过与所述用户进行交互提供给所述用户；或者基于各种通信协议，通过用户所对应的用户设备所提供的应用程序接口(API)等方式，将所述一个或多个备选项中至少一个提供给所述用户。在此，所述用户包括但不限于与提供所述语音输入信息相对应的用户，或者指定的用于接收所述语音输入信息的用户等。

优选地，所述网络设备1中的备选确定装置16’还可以根据所述访问请求，并结合所述至少一个分词的上下文信息，确定与所述至少一个分词相对应的一个或多个备选项。具体地，所述备选确定装置16’还可以根据所述访问请求中，通过结合所述访问请求中的分词的上下文信息，对所述至少一个分词相对应的一个或多个备选项进行确定。例如，根据上下文信息，通过结合如常用搭配、或语法等信息，将与所述上下文信息匹配程度较低的备选项进行筛除等；例如，对于语音输入信息“我带你去锦州”，若需获取备选项的分词是“锦州”，考虑到“去”这个方向词，则那么对应的备选项可能是“金州”、“晋州”，而不会包括“禁咒”。

优选地，所述用户设备2还包括操作获取装置(未示出)和替换装置(未示出)，其中，操作获取装置获取用户对所述一个或多个备选项中至少一个的选择操作；替换装置根据所述选择操作所对应的备选项，替换所述输入字符序列中对应的分词，以获得更新后的所述输入字符序列。具体地，操作获取装置通过与用户直接交互，或者经由可以提供所述选择操作的第三方设别的应用程序接口等，获取用户对所述一个或多个备选项中至少一个的选择操作；例如，用户通过点击等方式选择了一个或多个备选项中的一个，则操作获取装置对所述选择操作以及其所选择的备选项进行获取。替换装置获取所述操作获取装置所选择的备选项，并利用所述备选项替换所述输入字符序列中对应的分词，以获得更新后的所述输入字符序列。例如，继上例，用户选择了备选项“金州”，从而替换装置利用“金州”替换掉所述“锦州”，更新后的输入字符序列为“我带你去金州”。

图3示出根据本发明另一个方面的一种由网络设备与用户设备配合实现的用于实现语音输入的方法流程图。具体地，在步骤s1中，网络设备1获取语音输入信息；在步骤s2中，网络设备1根据语音识别模型，确定所述语音输入信息对应的输入字符序列；在步骤s3中，网络设备1确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息；在步骤s4中，网络设备1将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备；相应地，在步骤s4中，用户设备2获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息；在步骤s5中，用户设备2根据所述分词的准确性信息，将所述输入字符序列提供给用户。

上述各步骤之间是持续不断工作的，在此，本领域技术人员应理解“持续”是指上述各步骤分别实时地或者按照设定的或实时调整的工作模式要求，进行语音输入信息的获取、输入字符序列的确定、准确性信息的获取、输入字符序列以及分词准确性信息的发送与接收、输入字符序列的提供等，直至网络设备停止获取语音输入信息。

在步骤s1中，网络设备1获取语音输入信息。具体地，在步骤s1中，网络设备1通过基于各种通信协议(Communications Protocol)，通过各种数据传输接口，与第三方的语音输入信息数据库等进行交互，获取语音输入信息；或者在步骤s1中，网络设备1实时获取用户所输入的语音输入信息，或者与所述用户设备进行交互，获取用户所实时输入的语音输入信息等。其中，所述语音输入信息包括但不限于字、词、短句或长句等。

在步骤s2中，网络设备1根据语音识别模型，确定所述语音输入信息对应的输入字符序列。具体地，在步骤s2中，网络设备1通过根据预先设置或学习得到的语音识别模型，通过例如将语音输入信息进行切分，获得与所述语音输入信息相对应的一个或多个输入音节，将所述输入音节的特征矢量依次与所述语音识别模型中的模板等进行匹配，从而获得与所述音节对应的一个或多个分词或候选分词；依次对所述输入音节进行匹配，从而确定与所述语音输入信息相对应的输入字符序列，其中，所述输入字符序列中包括与所述语音输入信息相对应的多个分词或候选分词。在此，所述语音识别模型包括但不限于通用语音识别模型，或是仅与当前用户所对应的特定语音识别模型；所述语音识别模型通过语音训练所获得。例如，若所述语音输入信息对应句子“我带你去锦州”，在步骤s2中，网络设备1对所述语音输入信息进行切分，从而获得与所述语音输入信息相对应的多个分词；例如：我、带、你、去、锦州；其中，“带”的位置还可能有其他候选分词，如“代、待、呆(10％)”，“锦州”处也可能还有其他候选分词，如“金州、晋州”等。

在步骤s3中，网络设备1确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息。具体地，在步骤s3中，网络设备1通过根据机器学习所获得的、或是通过查询相应的呈现概率信息数据库等所获得的信息，确定与所述输入字符序列中分词所对应的呈现概率信息；并根据所述呈现概率信息，通过直接将所述呈现概率信息作为所述分词的准确性信息的方式，获得所述分词的准确性信息；或者如基于所述分词在所述输入字符序列中的上下文信息，或是基于所述分词的词性信息等，对所述呈现概率信息进行处理，以获得所述分词的准确性信息。例如，继上例，在步骤s3中，网络设备1通过与呈现概率信息数据库相交互，获得与所述语音输入信息对应句子“我带你去锦州”中的分词所对应的呈现概率信息(如括号中所示)，我(90％)、带(40％)、你(90％)、去(98％)、锦州(40％)，其中“带”的位置还可能有其他候选分词，如“代(30％)、待(20％)、呆(10％)”，“锦州”处也可能还有其他候选分词，如“金州(30％)、晋州(30％)”等；在步骤s3中，网络设备1将所述呈现概率信息直接对应为所述分词的准确性信息。即如“我”的准确性信息为90％等。

在步骤s4中，网络设备1将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。具体地，在步骤s4中，网络设备1从所述步骤s3中获取由一个或多个分词或候选分词所组成的输入字符序列，以及所述分词的准确性信息，通过基于各种通信协议，通过用户设备所提供的应用程序接口(API)，或其他约定的通信方式的格式要求，将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。

相应地，在步骤s4中，用户设备2获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息。具体地，在步骤s4中，用户设备2通过基于各种通信协议，通过网络设备所提供的应用程序接口(API)，或其他约定的通信方式的格式要求，从所述网络设备处接收由一个或多个分词或候选分词所组成的与所述语音输入信息所对应的输入字符序列，以及所述分词的准确性信息。

在步骤s5中，用户设备2根据所述分词的准确性信息，将所述输入字符序列提供给用户。具体地，在步骤s5中，用户设备2通过步骤s4中所获取的输入字符序列，以及所述输入字符序列中分词的准确性信息，通过将对应同一个输入音节的所述准确性信息最高的分词进行组合，从而生成提供给所述用户的输入字符序列；或者将对应同一个输入音节的所有分词或候选分词按照准确性从高到低进行排序后，生成供给所述用户的输入字符序列，其中，所述输入字符序列中包含所有匹配的分词等；并通过与所述用户进行交互，通过基于各种通信协议，通过用户所对应的用户设备所提供的应用程序接口(API)等方式，将所述输入字符序列提供给所述用户。在此，所述用户包括但不限于与提供所述语音输入信息相对应的用户，或者指定的用于接收所述语音输入信息的用户等。

优选地，在步骤s3中，网络设备1还可以确定所述分词在所述输入字符序列中的条件概率，以作为所述分词的呈现概率信息；根据呈现概率阈值，基于所述分词的呈现概率信息，确定所述分词的准确性信息。具体地，在步骤s3中，网络设备1还可以通过直接获取所述分词在所述输入字符序列中的条件概率；或者先获取所述输入字符序列出现的概率P(B)，然后获取当所述输入字符序列中包含所述分词的概率P(AB)，从而计算得到在所述输入字符序列中出现所述分词的条件概率P(A|B)，将所述条件概率P(A|B)作为所述分词的呈现概率信息。在步骤s3中，网络设备1通过根据预置的或机器学习等方式所获得呈现概率阈值，例如将所述呈现概率信息高于所述呈现概率阈值的一个或多个分词作为准确分词，若所述分词的呈现概率信息低于所述呈现概率阈值，则确定该分词为不准确分词，从而确定所述分词的准确性信息。

更优选地，该方法还包括步骤s11(未示出)，其中，在步骤s11中，网络设备1根据所述分词的呈现概率信息，以及所述分词对应的候选分词的呈现概率信息，确定所述呈现概率阈值。具体地，在步骤s11中，网络设备1可以获取所述分词以及所述分词所对应的候选分词的呈现概率信息，通过例如对所述一个或多个分词以及候选分词的呈现概率进行平均、加权平均、取中值等方式，确定所述呈现概率阈值。例如，如所述分词以及候选分词的呈现概率信息为{40％，10％，10％，20％，20％}，则可取阈值为30％-40％，而不必限定为50％；例如，若所述分词以及候选分词的呈现概率信息为{50％，45％，5％}，则即使呈现概率阈值取50％，仍存在较大可能为错误等。

优选地，在步骤s2中，网络设备1还可以根据语音识别模型，并结合所述语音输入信息所对应的上下文信息，确定所述语音输入信息对应的输入字符序列。具体地，在步骤s2中，网络设备1通过例如结合所述语音输入信息所对应的上下文信息，确定所对应的语音识别模型，例如，根据所述上下文信息中的关键字判定相对应的不同领域的语音识别模型，然后根据所述语音识别模型，确定所述语音输入信息所对应的输入字符序列；或者利用通用的语音识别模型确定所述输入字符序列，并结合所述上下文信息对所述输入字符序列进行调整，例如提高上下文匹配的字符序列的权重或优先级等。其中，所述确定输入字符序列的方式与图31中所述步骤s2的确定方式相同或相似，故此处不再赘述，并通过引用的方式包含于此。

图4示出根据本发明一个优选实施例的一种由网络设备与用户设备配合实现的用于实现语音输入的方法流程图。具体地，在步骤s1’中，网络设备1获取语音输入信息；在步骤s2’中，网络设备1根据语音识别模型，确定所述语音输入信息对应的输入字符序列；在步骤s3’中，网络设备1确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息；在步骤s4’中，网络设备1将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备；相应地，在步骤s4’中，用户设备2获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息；在步骤s5’中，用户设备2根据所述分词的准确性信息，将所述输入字符序列提供给用户；在步骤s6’中，用户设备2获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作；在步骤s7’中，用户设备2基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求；相应地，在步骤s7’中，网络设备1获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求；在步骤s8’中，网络设备1根据所述访问请求，确定与所述至少一个分词相对应的一个或多个备选项；在步骤s9’中，网络设备1将所述一个或多个备选项发送至所述用户设备；相应地，在步骤s9’中，用户设备2接收所述网络设备基于所述访问请求发送的一个或多个备选项；在步骤s10’中，用户设备2将所述一个或多个备选项中至少一个提供给所述用户。其中，步骤s1’、步骤s2’、步骤s3’、步骤s4’、步骤s5’分别与图3所示对应步骤相同或基本相同，故此处不再赘述，并通过引用的方式包含于此。

上述各步骤之间是持续不断工作的，在此，本领域技术人员应理解“持续”是指上述各步骤分别实时地或者按照设定的或实时调整的工作模式要求，进行语音输入信息的获取、输入字符序列的确定、准确性信息的获取、输入字符序列以及分词准确性信息的发送与接收、输入字符序列的提供、备选请求操作的获取、备选访问请求的发送与接收、备选项的确定、备选项的发送与接收、备选项的提供等，直至网络设备停止获取语音输入信息。

在步骤s6’中，用户设备2获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作。具体地，在步骤s6’中，用户设备2基于各种通信协议，通过各种应用程序接口，从第三方设备中获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作；或者与用户直接交互，获取的请求操作。其中，所述请求操作包括但不限于输入、点击、触摸等。例如，继上例，在步骤s6’中，用户设备2与所述用户直接交互，获取所述用户通过点击等方式，所输入的对“锦州”的备选项的请求。

在步骤s7’中，用户设备2基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求。具体地，访在步骤s7’中，用户设备2基于所述请求操作，通过基于各种通信协议，通过网络设备所提供的应用程序接口(API)，或其他约定的通信方式的格式要求，将所述关于所述至少一个分词的备选项的访问请求发送至所述网络设备。

相应地，在步骤s7’中，网络设备1获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求。具体地，在步骤s7’中，网络设备1通过基于各种通信协议，通过用户设备所提供的应用程序接口(API)，或其他约定的通信方式的格式要求，从所述用户设备处接收关于所述至少一个分词的备选项的访问请求。

在步骤s8’中，网络设备1根据所述访问请求，确定与所述至少一个分词相对应的一个或多个备选项。具体地，在步骤s8’中，网络设备1根据步骤s7’所获取的访问请求，根据所述访问请求中所需获取的分词，通过直接步骤s2’中对所述分词的候选分词，并将所述候选分词做为备选项；或者重新处理所述分词，以获得与所述至少一个分词相对应的一个或多个备选项。其中，所述处理方法与所述步骤s2’中的方法相同或相似，故此处不再赘述，并通过引用的方式包含于此。

在步骤s9’中，网络设备1将所述一个或多个备选项发送至所述用户设备。具体地，在步骤s9’中，网络设备1获取所述步骤s8’所确定的一个或多个备选项，通过基于各种通信协议，通过用户设备所提供的应用程序接口(API)，或其他约定的通信方式的格式要求，将所述一个或多个备选项发送至所述用户设备。

相应地，在步骤s9’中，用户设备2接收所述网络设备基于所述访问请求发送的一个或多个备选项。具体地，在步骤s9’中，用户设备2通过基于各种通信协议，通过网络设备所提供的应用程序接口(API)，或其他约定的通信方式的格式要求，从所述网络设备处接收基于所述访问请求发送的一个或多个备选项。

在步骤s10’中，用户设备2将所述一个或多个备选项中至少一个提供给所述用户。具体地，在步骤s10’中，用户设备2通过根据步骤s9’中所获取的一个或多个备选项，通过根据系统预置或用户设定的方式，将所述一个或多个备选项中至少一个，通过与所述用户进行交互提供给所述用户；或者基于各种通信协议，通过用户所对应的用户设备所提供的应用程序接口(API)等方式，将所述一个或多个备选项中至少一个提供给所述用户。在此，所述用户包括但不限于与提供所述语音输入信息相对应的用户，或者指定的用于接收所述语音输入信息的用户等。

优选地，在步骤s8’中，网络设备1还可以根据所述访问请求，并结合所述至少一个分词的上下文信息，确定与所述至少一个分词相对应的一个或多个备选项。具体地，在步骤s8’中，网络设备1还可以根据所述访问请求中，通过结合所述访问请求中的分词的上下文信息，对所述至少一个分词相对应的一个或多个备选项进行确定。例如，根据上下文信息，通过结合如常用搭配、或语法等信息，将与所述上下文信息匹配程度较低的备选项进行筛除等；例如，对于语音输入信息“我带你去锦州”，若需获取备选项的分词是“锦州”，考虑到“去”这个方向词，则那么对应的备选项可能是“金州”、“晋州”，而不会包括“禁咒”。

优选地，该方法还包括步骤s12’(未示出)和步骤s13’(未示出)，其中，在步骤s12’中，用户设备2获取用户对所述一个或多个备选项中至少一个的选择操作；在步骤s13’中，用户设备2根据所述选择操作所对应的备选项，替换所述输入字符序列中对应的分词，以获得更新后的所述输入字符序列。具体地，在步骤s12’中，用户设备2通过与用户直接交互，或者经由可以提供所述选择操作的第三方设别的应用程序接口等，获取用户对所述一个或多个备选项中至少一个的选择操作；例如，用户通过点击等方式选择了一个或多个备选项中的一个，则在步骤s12’中，用户设备2对所述选择操作以及其所选择的备选项进行获取。在步骤s13’中，用户设备2获取所述步骤s12’所选择的备选项，并利用所述备选项替换所述输入字符序列中对应的分词，以获得更新后的所述输入字符序列。例如，继上例，用户选择了备选项“金州”，从而在步骤s13’中，用户设备2利用“金州”替换掉所述“锦州”，更新后的输入字符序列为“我带你去金州”。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种在网络设备端用于实现语音输入的方法，其中，该方法包括以下步骤：

a获取语音输入信息；

2.根据权利要求1所述的方法，其中，该方法还包括：

-获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求；

x根据所述访问请求，确定与所述至少一个分词相对应的一个或多个备选项；

-将所述一个或多个备选项发送至所述用户设备。

3.根据权利要求2所述的方法，其中，所述步骤x包括：

-根据所述访问请求，并结合所述至少一个分词的上下文信息，确定与所述至少一个分词相对应的一个或多个备选项。

4.根据权利要求1至3中任一项所述的方法，其中，所述步骤c包括：

-确定所述分词在所述输入字符序列中的条件概率，以作为所述分词的呈现概率信息；

-根据呈现概率阈值，基于所述分词的呈现概率信息，确定所述分词的准确性信息。

5.根据权利要求4所述的方法，其中，该方法还包括：

-根据所述分词的呈现概率信息，以及所述分词对应的候选分词的呈现概率信息，确定所述呈现概率阈值。

6.根据权利要求1至5中任一项所述的方法，其中，所述步骤b包括：

-根据语音识别模型，并结合所述语音输入信息所对应的上下文信息，确定所述语音输入信息对应的输入字符序列。

7.一种在用户设备端用于辅助实现语音输入的方法，其中，该方法包括以下步骤：

8.根据权利要求7所述的方法，其中，该方法还包括：

-获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作；

-基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求；

-接收所述网络设备基于所述访问请求发送的一个或多个备选项；

-将所述一个或多个备选项中至少一个提供给所述用户。

9.根据权利要求8所述的方法，其中，该方法还包括：

-获取用户对所述一个或多个备选项中至少一个的选择操作；

-根据所述选择操作所对应的备选项，替换所述输入字符序列中对应的分词，以获得更新后的所述输入字符序列。

10.一种用于实现语音输入的网络设备，其中，该设备包括：

输入获取装置，用于获取语音输入信息；

11.根据权利要求10所述的网络设备，其中，该设备还包括：

请求获取装置，用于获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求；

备选确定装置，用于根据所述访问请求，确定与所述至少一个分词相对应的一个或多个备选项；

备选发送装置，用于将所述一个或多个备选项发送至所述用户设备。

12.根据权利要求11所述的网络设备，其中，所述备选确定装置用于：

13.根据权利要求10至12中任一项所述的网络设备，其中，所述准确性确定装置用于：

14.根据权利要求13所述的网络设备，其中，该设备还包括：

阈值确定装置，用于根据所述分词的呈现概率信息，以及所述分词对应的候选分词的呈现概率信息，确定所述呈现概率阈值。

15.根据权利要求10至14中任一项所述的网络设备，其中，所述序列确定装置用于：

16.一种用于辅助实现语音输入的用户设备，其中，该设备包括：

17.根据权利要求16所述的用户设备，其中，该设备还包括：

备选请求获取装置，用于获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作；

访问请求发送装置，用于基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求；

备选接收装置，用于接收所述网络设备基于所述访问请求发送的一个或多个备选项；

备选提供装置，用于将所述一个或多个备选项中至少一个提供给所述用户。

18.根据权利要求17所述的用户设备，其中，该设备还包括：

操作获取装置，用于获取用户对所述一个或多个备选项中至少一个的选择操作；

替换装置，用于根据所述选择操作所对应的备选项，替换所述输入字符序列中对应的分词，以获得更新后的所述输入字符序列。

19.一种用于实现语音输入的系统，包括如权利要求10至15中任一项所述的网络设备及如权利要求16至18中任一项所述的用户设备。