CN107678561A

CN107678561A - 基于人工智能的语音输入纠错方法及装置

Info

Publication number: CN107678561A
Application number: CN201710909466.7A
Authority: CN
Inventors: 李快
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2018-02-09
Also published as: US20190103097A1; US10839794B2

Abstract

本发明提出一种基于人工智能的语音输入纠错方法及装置，其中，方法包括：接收当前用户输入的语音，对语音进行识别获取当前识别文本；获取当前识别文本中需要修改的第一短语的至少一个候选短语并展示给当前用户；探测当前用户的选取操作；其中，选取操作用于从所有的候选短语中选取出一个作为目标候选短语；利用目标候选短语修正当前识别文本中的第一短语，获取到目标识别文本。通过本方法，能够针对识别结果中可能存在的错误自动为用户提供相应的修改候选项，根据用户选取的内容对识别结果中的错误进行修正，使语音输入具备纠错能力，提高语音输入的准确性，提升用户体验，解决现有技术中用户手动修改识别错误的内容操作时间长的技术问题。

Description

基于人工智能的语音输入纠错方法及装置

技术领域

本发明涉及语言处理技术领域，尤其涉及一种基于人工智能的语音输入纠错方法及装置。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中，人工智能最重要的方面就是语音识别技术。

语音输入能够将使用者输入的语音信息转换为文本信息，简单易用，极大地提高了输入速度，因而受到广大用户的喜爱。采用现有的语音输入技术输入文本信息时，当使用者说话语速较快或者说话声音较轻时，容易导致语音识别结果不准确。此外，语音识别技术所采用的解码算法也可能导致识别出的文本信息与用户语音输入的内容不匹配。

由于现有的语音输入技术不具有纠错能力，当根据用户输入的语音信息识别出的文本信息中存在与语音信息不一致的内容时，往往需要用户手动修改识别错误的内容，增加了用户的操作时间，用户体验差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的语音输入纠错方法，能够针对识别结果中可能存在的错误自动为用户提供相应的修改候选项，根据用户从修改候选项中选取的内容对识别结果中的错误进行修正，使语音输入具备纠错能力，提高语音输入的准确性，提升用户体验，解决现有技术中用户手动修改识别错误的内容操作时间长的技术问题。

本发明的第二个目的在于提出一种基于人工智能的语音输入纠错装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机程序产品。

本发明的第五个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种基于人工智能的语音输入纠错方法，包括：

接收当前用户输入的语音，对所述语音进行识别获取当前识别文本；

获取所述当前识别文本中需要修改的第一短语的至少一个候选短语并展示给所述当前用户；

探测所述当前用户的选取操作；其中，所述选取操作用于从所有的候选短语中选取出一个作为目标候选短语；

利用所述目标候选短语修正所述当前识别文本中的所述第一短语，获取到目标识别文本。

本发明实施例的基于人工智能的语音输入纠错方法，通过接收当前用户输入的语音，对语音进行识别获取当前识别文本，获取当前识别文本中需要修改的第一短语的至少一个候选短语并展示给当前用户，探测当前用户从所有的候选短语中选取出的一个作为目标候选短语，利用目标候选短语修正当前识别文本中的第一短语，获取到目标识别文本。由此，能够针对识别结果中可能存在的错误自动为用户提供相应的修改候选项，根据用户从修改候选项中选取的内容对识别结果中的错误进行修正，使语音输入具备纠错能力，提高语音输入的准确性，提升用户体验。与现有技术相比，通过获取当前识别文本中需要修改的第一短语的至少一个候选短语并展示给当前用户，由用户从中选择目标候选短语，以利用目标候选短语修正识别结果中的第一短语，无需用户通过打字的方式输入正确的短语，节省了用户的操作时间，从而能够解决现有技术中用户手动修改识别错误的内容操作时间长的技术问题。

为达上述目的，本发明第二方面实施例提出了一种基于人工智能的语音输入纠错装置，包括：

语音识别模块，用于对当前用户输入的语音进行识别，获取当前识别文本；

学习模块，用于获取所述当前识别文本中需要修改的第一短语的至少一个候选短语并展示给所述当前用户；

探测模块，用于探测所述当前用户的选取操作；其中，所述选取操作用于从所有的候选短语中选取出一个作为目标候选短语；

修正模块，用于利用所述目标候选短语修正所述当前识别文本中的所述第一短语，获取到目标识别文本。

本发明实施例的基于人工智能的语音输入纠错装置，通过接收当前用户输入的语音，对语音进行识别获取当前识别文本，获取当前识别文本中需要修改的第一短语的至少一个候选短语并展示给当前用户，探测当前用户从所有的候选短语中选取出的一个作为目标候选短语，利用目标候选短语修正当前识别文本中的第一短语，获取到目标识别文本。由此，能够针对识别结果中可能存在的错误自动为用户提供相应的修改候选项，根据用户从修改候选项中选取的内容对识别结果中的错误进行修正，使语音输入具备纠错能力，提高语音输入的准确性，提升用户体验。与现有技术相比，通过获取当前识别文本中需要修改的第一短语的至少一个候选短语并展示给当前用户，由用户从中选择目标候选短语，以利用目标候选短语修正识别结果中的第一短语，无需用户通过打字的方式输入正确的短语，节省了用户的操作时间，从而能够解决现有技术中用户手动修改识别错误的内容操作时间长的技术问题。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括：处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如第一方面实施例所述的基于人工智能的语音输入纠错方法。

为达上述目的，本发明第四方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，以用于实现如第一方面实施例所述的基于人工智能的语音输入纠错方法。

为达上述目的，本发明第五方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面实施例所述的基于人工智能的语音输入纠错方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明一实施例提出的基于人工智能的语音输入纠错方法的流程示意图；

图2(a)为百度输入法的输入界面图；

图2(b)为语音输入过程中百度输入法的显示界面示意图；

图3(a)为向用户展示候选短语的示意图一；

图3(b)为向用户展示候选短语的示意图二；

图3(c)为向用户展示候选短语的示意图三；

图4为本发明另一实施例提出的基于人工智能的语音输入纠错方法的流程示意图；

图5为本发明又一实施例提出的基于人工智能的语音输入纠错方法的流程示意图；

图6为本发明一实施例提出的基于人工智能的语音输入纠错装置的结构示意图；

图7为本发明另一实施例提出的基于人工智能的语音输入纠错装置的结构示意图；

图8为本发明又一实施例提出的基于人工智能的语音输入纠错装置的结构示意图；

图9为本发明一实施例提出的计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于人工智能的语音输入纠错方法及装置。

语音输入具有简单易用、输入速度快等优点，且无需用户掌握汉语拼音知识，深受用户喜爱。

然而，当用户使用语音输入的语速较快或者声音较轻时，又或者由于语音输入自身的解码算法问题，容易导致识别出的文本内容与用户希望输入的内容之间存在出入。由于现有的语音输入不具备纠错能力，当识别出的文本内容中存在错误时，需要用户手动修改错误内容，用户操作时间长，体验不佳。

针对上述问题，现有的解决方案是通过输入语音修改指令对识别结果进行修改，这种修改方式的操作路径较长，用户需要学习修改指令的表达，学习成本高，而且指令容易识别错误，导致无法准确修改错误内容，严重影响用户体验。

针对上述问题，本发明实施例提出了一种基于人工智能的语音输入纠错方法，以针对识别出的文本结果中的错误内容向用户提供修改候选项，用户只需从修改候选项中选择正确的内容即可完成对错误内容的修改，节省用户的操作时间，提升用户体验。

图1为本发明一实施例提出的基于人工智能的语音输入纠错方法的流程示意图。如图1所示，该基于人工智能的语音输入纠错方法包括以下步骤：

步骤101，接收当前用户输入的语音，对语音进行识别获取当前识别文本。

当用户利用具有语音输入功能的输入法进行语音输入时，可以通过触发输入法中的语音输入按键的方式进行语音输入。输入法接收当前用户输入的语音后，可以采用相关的语音识别技术对接收到的语音进行识别，以获取对应的当前识别文本。

以百度输入法为例，图2(a)为百度输入法的输入界面图。如图2(a)所示，百度输入法中提供有语音输入按键21，用户长按该语音输入按键21的同时进行说话，可以输入语音信息。用户输入语音信息的过程中，百度输入法的显示界面如图2(b)所示，此时图2(b)中的语音输入按键22处于被按压状态。在如图2(b)所示的界面中，显示有提示信息“倾听中，松手结束”，以提醒用户输入法当前处于接收语音信息的状态中，当用户输入完成时，松开对语音输入按键22的按压即可。输入法接收到当前用户输入的语音之后，通过对接收到的语音信息进行识别，可以获取到对应的识别文本。

步骤102，获取当前识别文本中需要修改的第一短语的至少一个候选短语并展示给当前用户。

当输入法对接收到的当前用户输入的语音进行识别获取到对应的当前识别文本之后，可以进一步获取当前识别文本中需要修改的第一短语的至少一个候选短语并展示给当前用户。

其中，第一短语为输入法从当前识别文本中判断出的可能与用户输入的语音信息不一致的字或词语。对应地，当第一短语为一个字时，至少一个候选短语也都为字；当第一短语为词语时，至少一个候选短语也都为词语。

输入法接收到当前用户输入的语音信息之后，根据语音信息识别出对应的当前识别文本，并从当前识别文本中查找出可能存在的识别错误的第一短语，进而确定与第一短语对应的至少一个候选短语。输入法向用户展示当前识别文本的同时，将确定的至少一个候选短语展示给当前用户。

举例而言，图3(a)为向用户展示候选短语的示意图一。如图3(a)所示，输入法识别出的当前识别文本为“开4四特别耗流量”，并为可能识别错误的字“四”提供了“4”、“g”和“是”三个候选字。

图3(b)为向用户展示候选短语的示意图二。如图3(b)所示，输入法根据用户输入的语音识别出的当前识别文本为“每天都有免费的车企”，并为可能识别错误的词语“车企”提供了一个候选词语“车骑”。

步骤103，探测当前用户的选取操作；其中，选取操作用于从所有的候选短语中选取出一个作为目标候选短语。

用户查看显示界面中显示的当前识别文本以及至少一个候选短语，当用户发现当前识别文本中显示的第一短语与其本意不一致时，可以从显示的所有候选短语中选取一个作为目标候选短语，以将当前识别文本中的第一短语替换为目标候选短语。

步骤104，利用目标候选短语修正当前识别文本中的第一短语，获取到目标识别文本。

当用户从显示的至少一个候选短语中选定目标候选短语之后，输入法利用该目标候选短语修正当前识别文本中的第一短语，获取到目标识别文本。

以图3(a)为例，当用户选择候选短语“g”作为目标候选短语时，将当前识别文本“开4四特别耗流量”中的第一短语“四”利用“g”替换，可以得到目标识别文本“开4g特别耗流量”。

图3(c)为向用户展示候选短语的示意图三。如图3(c)所示，输入法根据当前用户输入的语音识别出的当前识别文本为“今天晚上开会吗”，并为可能识别错误的第一短语“会”提供了一个候选短语“黑”。若用户确定当前识别文本无误，则当前识别文本即为目标识别文本，用户可以直接点击发送按键31发送该识别文本；若用户确定当前识别文本有误，且认为“会”应该替换为“黑”，则用户可以点击选择候选短语中的“黑”，则输入法将当前识别文本中的“会”替换为“黑”，得到目标识别文本“今天晚上开黑吗”。

从图3(a)、图3(b)和图3(c)所示的示例中可以看出，在所展示的最后一个候选短语下发，还提供了“删除”选项，当用户选择该“删除”选项时，则与候选短语对应的第一短语被删除。以图3(b)为例，当用户点击“删除”时，第一短语“车企”将被删除。

本实施例的基于人工智能的语音输入纠错方法，通过接收当前用户输入的语音，对语音进行识别获取当前识别文本，获取当前识别文本中需要修改的第一短语的至少一个候选短语并展示给当前用户，探测当前用户从所有的候选短语中选取出的一个作为目标候选短语，利用目标候选短语修正当前识别文本中的第一短语，获取到目标识别文本。由此，能够针对识别结果中可能存在的错误自动为用户提供相应的修改候选项，根据用户从修改候选项中选取的内容对识别结果中的错误进行修正，使语音输入具备纠错能力，提高语音输入的准确性，提升用户体验。

与现有技术相比，通过获取当前识别文本中需要修改的第一短语的至少一个候选短语并展示给当前用户，由用户从中选择目标候选短语，以利用目标候选短语修正识别结果中的第一短语，无需用户通过打字的方式输入正确的短语，节省了用户的操作时间，从而能够解决现有技术中用户手动修改识别错误的内容操作时间长的技术问题。

为了更加清楚地描述上述实施例中获取当前识别文本中需要修改的第一短语的至少一个候选短语的具体实现过程，本发明实施例提出了另一种基于人工智能的语音输入纠错方法，图4为本发明另一实施例提出的基于人工智能的语音输入纠错方法的流程示意图。

如图4所示，在如图1所示实施例的基础上，步骤102中所述的获取当前识别文本中需要修改的第一短语的至少一个候选短语，可以具体通过以下步骤实现：

步骤201，将当前识别文本切分成多个短语。

本实施例中，输入法根据当前用户输入的语音识别出当前识别文本之后，可以进一步对当前识别文本进行切分，将当前识别文本切分成多个短语。

作为一种示例，可以采用相关的分词技术对当前识别文本进行切分获得多个短语。此处需要说明的是，分词技术为现有的比较成熟的技术，为避免赘余，此处不作详细说明。

步骤202，根据预先构建的短语对表，从所有的短语中确定第一短语，以及第一短语对应的至少一个目标短语对；其中，目标短语对包括与第一短语一致的原始短语和修改短语，以及原始短语与修改短语之间的第一概率。

其中，第一概率是根据原始短语在所采集的样本语料中出现的次数与被修改为修改短语的次数确定的。

本实施例中，可以采集大量用户的修改轨迹作为样本语料，修改轨迹中包括由原始短语组成的原始识别文本和由至少一个修改短语和原始短语组成的修改识别文本。在获取到修改轨迹后，可以对修改轨迹进行统计，从所有的修改轨迹中提取出短语对。预先构建一个短语对表，关于短语对表获取的过程，参见下面实施例中相关内容的记载，此处不再赘述。

在获取到短语对表之后，将对当前识别文本进行切分获得的多个短语和短语对表进行匹配查询，从所有的短语中确定出可能存在错误的第一短语，并获取与第一短语对应的至少一个目标短语对。其中，目标短语对中的原始短语为第一短语。

本实施例中，在统计短语对表的过程中，针对同一个原始短语，可以统计出在短语对表中出现的次数，以及该原始短语在样本语料中出现的次数，基于这两个次数可以计算出第一概率。短语对表中不仅包括原始短语、修改短语，还包括第一概率。

步骤203，根据预先构建的语言模型，获取第一识别文本的第二概率。

其中，第一识别文本为由目标短语对中修改短语替换当前识别文本中的第一短语后得到的文本。

当针对一个第一短语获取的目标短语对为多个时，为了对目标短语对进行筛选，以从中挑选出语义与当前识别文本较为接近的目标短语对，可以将当前识别文本中的第一短语分别替换为多个目标短语对中修改短语，得到多个第一识别文本。进一步地，将第一识别文本输入预先构建的语言模型中，可以获取第一识别文本的第二概率。

作为一种示例，可以使用n-gram语言模型，通过对n-gram语言模型进行训练，得到训练后的n-gram语言模型，基于训练后的n-gram语言模型，可以得到所输入句子的得分。其中，n-gram语言模型可以采用1-5元文法中的任意一种。以n-gram语言模型采用5元文法为例，假设第一识别文本为“今天免费的水果没有迟到啊”，则基于5元语言模型可以得到该第一识别文本的得分(即第二概率)为：

P(今天免费的水果没有迟到啊)＝p(今|<B>)*p(天|<B>今)…p(啊|没有迟到)。

此处需要说明的是，预先构建的语言模型可以单独存在，也可以作为短语对表的功能模块集成于短语对表中。比如，当短语对表为对数线性模型时，由于对数线性模型可以方便灵活地添加子模型，可以将预先构建的语言模型作为子模型添加至对数线性模型中。

步骤204，根据第一概率和第二概率，从所有的目标短语对中确定出候选短语。

作为一种可能的实现方式，可以针对每个目标短语对，将第一概率和第二概率进行解码计算，得到与目标短语对对应的第三概率，进而将所有目标短语对的第三概率进行排序，按序选取候选短语。

其中，根据第一概率和第二概率计算获得第三概率的方式可以有多种，本实施例中，可以将第一概率和第二概率送入解码器中进行解码运算，解码器中可以采用一种动态规划解码算法进行解码运算，得到最优的解码结果。其中，动态规划算法可以为CKY(Cocke–Younger–Kasami algorithm)解码算法。

具体地，可以对第三概率按照从大到小的顺序进行排序，在选择候选短语时，可以根据目标短语对的个数选择预设个数的候选短语。比如，当目标短语对的个数不大于三个时，可以选择所有的目标短语对中包含的修改短语作为候选短语；当目标短语对的个数超过三个时，可以选择将前三个目标短语对中包含的修改短语作为候选短语。

作为一种示例，选用统计机器翻译中的对数线性模型作为机器学习模型，该对数线性模型中包含翻译模型、语言模型、注音模型以及其他对候选有影响的特征。首先可以基于最小误差来训练各个模型的权重。进一步地，在对数线性模型训练完成后，基于对数线性模型对采集的样本语料即修改轨迹进行统计，获取到短语对表。当将识别出的当前识别文本后，就可以利用对数线性模型来对语音的识别文本进行纠错。其中，该对数线性模型的表示式如公式(1)所示。

其中，表示目标语言片段，即对识别文本进行改正后的句子；f₁ ^J为给定源语言片段，即根据用户输入的语音识别出的句子；表示基于和f₁ ^J所得的某一模型的模型得分，λ_m为模型得分对应的权重；为基于和f₁ ^J所得的概率；表示给定源语言片段对应的最优的目标语言片段。

将对当前识别文本进行切分获得的多个短语分别输入至上述对数线性模型中，可以确定可能存在错误的第一短语，以及第一短语的候选短语。

本实施例的基于人工智能的语音输入纠错方法，通过将当前识别文本切分成多个短语，并从多个短语中确定出第一短语，进而获取第一短语对应的修改短语和第一概率，根据预先构建的语言模型，获取第一识别文本的第二概率，根据第一概率和第二概率，从所有的目标短语对中确定出候选短语，能够使确定的候选短语与当前识别文本之间具有较高的语义相关性，进而提高向用户展示的候选短语的准确性。

为了能够顺利地使用预先构建的短语对表确定第一短语，以及获取第一短语对应的修改短语和第一短语与修改短语之间的第一概率，本发明实施例中，需要先对短语对表进行训练。从而，本发明实施例提出了另一种基于人工智能的语音输入纠错方法，图5为本发明又一实施例提出的基于人工智能的语音输入纠错方法的流程示意图。

如图5所示，在如图4所示实施例的基础上，在步骤202之前，还可以包括以下步骤：

步骤301，采集历史的修改轨迹作为样本语料。

其中，修改轨迹中包括由原始短语组成的原始识别文本和由至少一个修改短语和原始短语组成的修改识别文本。

举例而言，原始识别文本“今天免费的水果没有迟到啊”与修改识别文本“今天免费的水果没有吃到啊”构成一条修改轨迹。其中，“吃”为修改短语。

步骤302，从修改轨迹中提取短语对。

其中，短语对中包括原始短语，和与之对应的修改短语，该原始短语为组成原始识别文本的至少一个原始短语中，被用户修改为修改短语的原始短语。

本实施例中，可以从当前用户的历史输入行为中采集历史修改轨迹作为样本语料，和/或，采集所有用户的历史修改轨迹作为样本语料，并从修改轨迹中提取出短语对。

作为一种示例，从修改轨迹中提取短语对时，可以采用相关的短语对抽取算法，比如由Philipp Koehn等人提出的短语对抽取算法完成短语对的抽取。

举例而言，对于由原始识别文本“今天免费的水果没有迟到啊”和修改识别文本“今天免费的水果没有吃到啊”构成的一条修改轨迹，可以从中提取出短语对“迟-吃”；对于由原始识别文本“我看过依天屠龙记”和修改识别文本“我看过倚天屠龙记”构成的一条修改轨迹，可以从中提取出短语对“依-倚”。

此处需要说明的是，本发明主要解决的是语音输入中语音识别错误的问题，对于漏字、多字的情况不予处理，在抽取短语对时，应当满足的约束条件为原始识别文本和修改识别文本的句子长度等长，从而，提取的短语对中，原始短语和修改短语等长。

步骤303，统计每个短语对出现的次数，以及短语对中原始短语在样本语料中出现的次数。

步骤304，根据短语对出现的次数和原始短语在修改轨迹的次数，获取短语对对应的第一概率。

本实施例中，从修改轨迹中提取出短语对之后，可以针对每个短语对，统计该短语对出现的次数，并统计该短语对中的原始短语在样本语料中出现的次数。进而，针对每个短语对，求取该短语对出现的次数与该短语对中的原始短语在样本语料中出现的次数的比值，得到该短语对对应的第一概率。

步骤305，利用每个短语对和每个短语对对应的第一概率，构成短语对表。

本实施例中，针对每个短语对，得到该短语对的第一概率之后，即可利用该短语对和该短语对的第一概率，构成短语对表。

进一步地，为了获得较优的短语对表，在本发明实施例一种可能的实现方式中，可以先从所有的短语对中剔除不符合预设条件的短语对，再利用剩余的短语对以及对应的第一概率构成短语对表。

作为一种示例，可以利用注音模型剔除短语对中不符合预设条件的短语对。具体地，获取每个短语对中原始短语的第一拼音串和修改短语的第二拼音串，将第一拼音串与第二拼音串进行比较，获取两个拼音串之间的距离，将两个拼音串之间的距离与预设的阈值比较，如果大于预设的阈值，则将该短语对作为剔除短语对，进而利用除剔除短语对之外的短语对和除剔除短语对之外的短语对对应的第一概率，形成短语对表。

本实施例的基于人工智能的语音输入纠错方法，通过采集历史的修改轨迹作为样本语料，从修改轨迹中提取短语对，统计每个短语对出现的次数，以及短语对中原始短语在样本语料中出现的次数，根据短语对出现的次数和原始短语在修改轨迹中出现的次数，获取短语对对应的第一概率，利用每个短语对和每个短语对对应的第一概率，构成短语对表，能够训练获得短语对表，为后续根据短语对表确定第一短语及第一短语对应的至少一个目标短语对奠定基础。

本发明实施例中，预先构建的短语对表为一个闭环模型，一方面，利用该短语对表，可以确定当前识别文本的第一短语以及对应的至少一个候选短语，用户可以根据展示的候选短语对当前识别文本进行修正，以获取到目标识别文本。另一方面，用户从展示的候选短语中选取目标候选短语以修正当前识别文本中的第一短语，得到目标识别文本的过程中，输入法对第一短语和目标候选短语进行记录，形成反馈信息，进而利用反馈信息更新短语对表。

通过不断地采集用户使用语音输入过程中的第一短语和目标候选短语，以对短语对表进行训练更新，能够使语音输入的纠错能力随着时间的推移不断地增强，为用户提供更加准确的候选短语预测。

为了实现上述实施例，本发明还提出一种基于人工智能的语音输入纠错装置，图6为本发明一实施例提出的基于人工智能的语音输入纠错装置的结构示意图。

如图6所示，该基于人工智能的语音输入纠错装置50包括：语音识别模块510、学习模块520、探测模块530，以及修正模块540。其中，

语音识别模块510，用于对当前用户输入的语音进行识别，获取当前识别文本。

学习模块520，用于获取当前识别文本中需要修改的第一短语的至少一个候选短语并展示给当前用户。

探测模块530，用于探测当前用户的选取操作；其中，选取操作用于从所有的候选短语中选取出一个作为目标候选短语。

修正模块540，用于利用目标候选短语修正当前识别文本中的第一短语，获取到目标识别文本。

进一步地，在本发明实施例一种可能的实现方式中，如图7所示，在如图6所示实施例的基础上，学习模块520包括：

切分单元521，用于将当前识别文本切分成多个短语。

训练单元522，用于采集历史的修改轨迹作为样本语料；其中，修改轨迹中包括由原始短语组成的原始识别文本和由至少一个修改短语和原始短语组成的修改识别文本；从修改轨迹中提取短语对；统计每个短语对出现的次数，以及短语对中原始短语在样本语料中出现的次数；根据短语对出现的次数和原始短语在修改轨迹中出现的次数，获取短语对对应的第一概率；利用每个短语对和每个短语对对应的第一概率，构成短语对表。

进一步地，为了获得较优的短语对表，在本发明实施例一种可能的实现方式中，训练单元522利用每个短语对和每个短语对对应的第一概率构成短语对表时，可以先获取每个短语对中原始短语的第一拼音串和修改短语的第二拼音串；将第一拼音串与第二拼音串进行比较，获取两个拼音串之间的距离；进而将两个拼音串之间的距离与预设的阈值进行比较，如果大于预设的阈值，则将短语对作为剔除短语对；利用除剔除短语对之外的短语对和除剔除短语对之外的短语对对应的第一概率，形成短语对表。

学习单元523，用于根据预先构建的短语对表，从所有的短语中确定第一短语，以及第一短语对应的至少一个目标短语对；目标短语对包括与第一短语一致的原始短语和修改短语，以及原始短语与修改短语之间的第一概率。

获取单元524，用于根据预先构建的语言模型，获取第一识别文本的第二概率。

确定单元525，用于根据第一概率和第二概率，从所有的目标短语对中确定出候选短语。

具体地，确定单元525用于针对每个目标短语对，将第一概率和第二概率进行解码计算，得到目标短语对对应的第三概率；将所有目标短语对的第三概率进行排序，按序选取候选短语。

本发明实施例中，预先构建的短语对表为一个闭环模型，一方面，利用该短语对表，可以确定当前识别文本的第一短语以及对应的至少一个候选短语，用户可以根据展示的候选短语对当前识别文本进行修正，以获取到目标识别文本。另一方面，可以记录用户从展示的候选短语中选取目标候选短语以修正当前识别文本中的第一短语，得到目标识别文本的过程，进而利用记录的数据对短语对比进行更新。从而，在本发明实施例一种可能的实现方式中，如图8所示，在如图7所示实施例的基础上，该基于人工智能的语音输入纠错装置50还可以包括：

更新模块550，用于对第一短语和目标候选短语进行记录，形成反馈信息；利用反馈信息更新短语对表。

需要说明的是，前述对基于人工智能的语音输入纠错方法实施例的解释说明，也适用于本实施例的基于人工智能的语音输入纠错装置，其实现原理类似，此处不再赘述。

本实施例的基于人工智能的语音输入纠错装置，通过接收当前用户输入的语音，对语音进行识别获取当前识别文本，获取当前识别文本中需要修改的第一短语的至少一个候选短语并展示给当前用户，探测当前用户从所有的候选短语中选取出的一个作为目标候选短语，利用目标候选短语修正当前识别文本中的第一短语，获取到目标识别文本。由此，能够针对识别结果中可能存在的错误自动为用户提供相应的修改候选项，根据用户从修改候选项中选取的内容对识别结果中的错误进行修正，使语音输入具备纠错能力，提高语音输入的准确性，提升用户体验。与现有技术相比，通过获取当前识别文本中需要修改的第一短语的至少一个候选短语并展示给当前用户，由用户从中选择目标候选短语，以利用目标候选短语修正识别结果中的第一短语，无需用户通过打字的方式输入正确的短语，节省了用户的操作时间，从而能够解决现有技术中用户手动修改识别错误的内容操作时间长的技术问题。

为了实现上述实施例，本发明还提出一种计算机设备，包括：处理器和存储器；其中，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现如前述实施例所述的基于人工智能的语音输入纠错方法。

图9为本发明一实施例提出的计算机设备的结构示意图，示出了适于用来实现本申请实施方式的示例性计算机设备60的框图。图9显示的计算机设备60仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机设备60以通用计算设备的形式表现。计算机设备60的组件可以包括但不限于：一个或者多个处理器或者处理单元606，系统存储器610，连接不同系统组件(包括系统存储器610和处理单元606)的总线608。

总线608表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，ISA)总线、微通道体系结构(Micro Channel Architecture，MAC)总线、增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnection，PCI)总线。

计算机设备60典型地包括多种计算机系统可读介质，这些介质可以是任何能够被计算机设备60访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器610可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)611和/或高速缓存存储器612。计算机设备60可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统613可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory，CD-ROM)、数字多功能只读光盘(Digital Video Disc Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线608相连。系统存储器610可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。

具有一组(至少一个)程序模块6140的程序/实用工具614，可以存储在例如系统存储器610中，这样的程序模块6140包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块6140通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备60也可以与一个或多个外部设备70(例如键盘、指向设备、显示器100等)通信，还可与一个或者多个使得用户能与该计算机设备80交互的设备通信，和/或与使得该计算机设备60能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口602进行。并且，计算机设备60还可以通过网络适配器600与一个或者多个网络(例如局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器600通过总线608与计算机设备60的其它模块通信。应当明白，尽管图9中未示出，可以结合计算机设备60使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、独立磁盘冗余阵列(Redundant Array of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理单元606通过运行存储在系统存储器610中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例所述的基于人工智能的语音输入纠错方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当计算机程序产品中的指令由处理器执行时，以用于实现如前述实施例所述的基于人工智能的语音输入纠错方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施例所述的基于人工智能的语音输入纠错方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的语音输入纠错方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述当前识别文本中需要修改的第一短语的至少一个候选短语，包括：

将所述当前识别文本切分成多个短语；

根据预先构建的短语对表，从所有的短语中确定所述第一短语，以及所述第一短语对应的至少一个目标短语对；所述目标短语对包括与所述第一短语一致的原始短语和修改短语，以及所述原始短语与所述修改短语之间的第一概率；所述第一概率是根据所述原始短语在所采集的样本语料中出现的次数与被修改为所述修改短语的次数确定的；

根据预先构建的语言模型，获取第一识别文本的第二概率；其中，所述第一识别文本为由所述目标短语对中所述修改短语替换所述当前识别文本中的所述第一短语后得到的文本；

根据所述第一概率和所述第二概率，从所有的所述目标短语对中确定出候选短语。

3.根据权利要求2所述的方法，其特征在于，所述根据预先构建的短语对表，从所有的短语中确定所述第一短语，以及所述第一短语对应的修改短语和所述第一短语与所述修改短语之间的第一概率之前，还包括：

采集历史的修改轨迹作为所述样本语料；其中，所述修改轨迹中包括由所述原始短语组成的原始识别文本和由至少一个所述修改短语和所述原始短语组成的修改识别文本；

从所述修改轨迹中提取所述短语对；

统计每个短语对出现的次数，以及所述短语对中原始短语在所述样本语料中出现的次数；

根据所述短语对出现的次数和所述原始短语在所述修改轨迹中出现的次数，获取所述短语对对应的所述第一概率；

利用每个短语对和每个短语对对应的所述第一概率，构成所述短语对表。

4.根据权利要求3所述的方法，其特征在于，所述利用每个短语对和每个短语对对应的所述第一概率，构成所述短语对表，包括：

获取每个短语对中所述原始短语的第一拼音串和所述修改短语的第二拼音串；

将所述第一拼音串与所述第二拼音串进行比较，获取两个拼音串之间的距离；

如果所述距离大于预设的阈值，则将所述短语对作为剔除短语对；

利用除所述剔除短语对之外的所述短语对和除所述剔除短语对之外的所述短语对对应的所述第一概率，形成所述短语对表。

5.根据权利要求2所述的方法，其特征在于，所述根据所述第一概率和所述第二概率，从所有的所述目标短语对中确定出候选短语，包括：

针对每个目标短语对，将所述第一概率和所述第二概率进行解码计算，得到所述目标短语对对应的第三概率；

将所有目标短语对的第三概率进行排序，按序选取所述候选短语。

6.根据权利要求3所述的方法，其特征在于，所述利用所述目标候选短语修正所述当前识别文本中的所述第一短语，获取到所述目标识别文本之后，还包括：

对所述第一短语和所述目标候选短语进行记录，形成反馈信息；

利用所述反馈信息更新所述短语对表。

7.一种基于人工智能的语音输入纠错装置，其特征在于，包括：

8.一种计算机设备，其特征在于，包括：处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-6中任一项所述的基于人工智能的语音输入纠错方法。

9.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由处理器执行时，以用于实现如权利要求1-6中任一项所述的基于人工智能的语音输入纠错方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的基于人工智能的语音输入纠错方法。