CN103366741B

CN103366741B - 语音输入纠错方法及系统

Info

Publication number: CN103366741B
Application number: CN201210101294.8A
Authority: CN
Inventors: 蔡洪滨; 李曜; 陈良军; 何昕
Original assignee: SHANGHAI GUOKE ELECTRONIC CO Ltd
Current assignee: SHANGHAI GEAK ELECTRONICS Co.,Ltd.
Priority date: 2012-03-31
Filing date: 2012-03-31
Publication date: 2019-05-17
Anticipated expiration: 2032-03-31
Also published as: CN103366741A

Abstract

本发明涉及一种语音输入纠错方法及系统，所述方法包括：将输入的语音转化成识别文本和识别网络；根据所述识别网络生成词汇网络；获取所述识别文本中待修正内容；以及获取修改备选项替换或重录指令，若为修改备选项替换指令，则根据所述词汇网络生成对应于所述待修正内容的修改备选项，并从所述修改备选项中选择正确内容替换所述待修正内容；若为重录指令，则重新获取对应于所述待修正内容的语音并修正所述待修正内容，本发明不仅可以提供修改备选项以修改所述识别文本中的出错部分，也可通过重录部分语音来修改所述识别文本中的出错部分。

Description

语音输入纠错方法及系统

技术领域

本发明属于语音识别领域，特别涉及一种语音输入纠错方法及系统。

背景技术

语音输入是通过语音识别将人说话的内容转换为文本的一种输入方式。由于在实际应用中，语音识别面对的环境十分复杂，需要处理各种不同领域的说话内容，识别性能很难达到百分之百，所以对于文本准确性要求较高的应用而言，识别结果文本的修改显得格外重要，目前常见的语音输入纠错方法包括：用户自行编辑文本；用户通过移动光标选择有错误的文本以获得候选；用户通过整句重说的方式进行纠错等，这些方法通常会使用户感到明显的不流畅感。

因此，目前亟需一种方便流畅的修改方法以提高输入效率，从而提升用户体验。

发明内容

本发明的目的在于提供一种语音输入纠错方法及系统，不仅可以提供修改备选项以修改所述识别文本中的出错部分，也可通过重录部分语音来修改所述识别文本中的出错部分。

为解决上述问题，本发明提供一种语音输入纠错方法，包括：

将输入的语音转化成识别文本和识别网络；

根据所述识别网络生成词汇网络；

获取所述识别文本中待修正内容；以及

获取修改备选项替换或重录指令，若为修改备选项替换指令，则根据所述词汇网络生成对应于所述待修正内容的修改备选项，并从所述修改备选项中选择正确内容替换所述待修正内容；若为重录指令，则重新获取对应于所述待修正内容的语音并修正所述待修正内容。

进一步的，在上述方法中，通过触摸控制操作获取所述识别文本中待修正内容、获取修改备选项替换或重录指令、从所述修改备选项中选择正确内容替换所述待修正内容以及重新获取对应于所述待修正内容的语音并修正所述待修正内容。

进一步的，在上述方法中，通过预设的自适应声学模型和自然语言模型将输入的语音转化成识别文本和识别网络。

进一步的，在上述方法中，所述重新获取对应于所述待修正内容的语音并修正所述待修正内容的步骤包括：重新获取对应于所述待修正内容的语音并将所述重新获取的语音转化为新的识别文本和新的识别网络，根据所述新的识别文本或新的识别网络修正所述待修正内容。

进一步的，在上述方法中，根据所述待修正内容在所述识别文本中的上下文信息将所述重新获取的语音转化为新的识别文本和新的识别网络。

进一步的，在上述方法中，所述根据所述新的识别文本和新的识别网络修正所述待修正内容的步骤包括：

判断所述新的识别文本是否正确；

若正确，则将所述新的识别文本替换所述待修正内容；

若不正确，根据所述新的识别网络生成新的词汇网络，并获取修改备选项替换或重录指令，若为修改备选项替换指令，则根据所述新的词汇网络生成对应于所述待修正内容的新的修改备选项，并从所述新的修改备选项中选择正确内容替换所述待修正内容；若为重录指令，则重新获取对应于所述待修正内容的语音并修正所述待修正内容。

进一步的，在上述方法中，所述识别网络包括对应所述语音的最佳文本序列和候选文本序列。

进一步的，在上述方法中，所述识别文本为所述最佳文本序列。

进一步的，在上述方法中，所述词汇网络包括根据所述最佳文本序列和候选文本序列生成的多个基本的词汇单元。

进一步的，在上述方法中，所述候选文本序列的词汇单元与所述最佳文本序列的词汇单元一一对应。

根据本发明的另一面，提供一种语音输入纠错系统，包括：

识别引擎模块，用于将输入的语音转化成识别文本和识别网络；以及

修正模块，用于根据所述识别网络生成词汇网络，获取所述识别文本中待修正内容，并获取修改备选项替换或重录指令；若为修改备选项替换指令，则根据所述词汇网络生成对应于所述待修正内容的修改备选项，并从所述修改备选项中选择正确内容替换所述待修正内容；若为重录指令，则重新获取对应于所述待修正内容的语音并修正所述待修正内容。

进一步的，在上述系统中，识别引擎模块包括：

声学模型单元，用于预设自适应声学模型；

语言模型单元，用于预设自然语言模型；

转化单元，用于通过所述自适应声学模型和自然语言模型将输入的语音转化成识别文本和识别网络或将重新获取的语音转化成新的识别文本和新的识别网络。

进一步的，在上述系统中，所述修正模块包括：

词汇网络单元，用于根据所述识别网络生成词汇网络或根据所述新的识别网络生成新的词汇网络；

修正定位单元，用于获取所述识别文本中待修正内容；

候选单元，用于根据所述词汇网络生成对应于所述待修正内容的修改备选项或根据所述新的词汇网络生成对应于所述待修正内容的新的修改备选项；

第一判断单元，用于获取修改备选项替换或重录指令，若为修改备选项替换指令，则通知替换单元处理，若为重录指令，则通知重录单元处理；

替换单元，用于从所述修改备选项或新的修改备选项中选择正确内容替换所述待修正内容，以及用于将所述新的识别文本替换所述待修正内容；

重录单元，用于重新获取对应于所述待修正内容的语音并发送到所述识别引擎模块处理。

进一步的，在上述系统中，所述修正模块还包括第二判断单元，用于判断所述新的识别文本是否正确，若正确，则通知所述替换单元处理；若不正确，则通知重录单元处理。

与现有技术相比，本发明通过将输入的语音转化成识别文本和识别网络，然后根据所述识别网络生成词汇网络，再获取所述识别文本中待修正内容，进而获取修改备选项替换或重录指令，若为修改备选项替换指令，则根据所述词汇网络生成对应于所述待修正内容的修改备选项，并从所述修改备选项中选择正确内容替换所述待修正内容；若为重录指令，则重新获取对应于所述待修正内容的语音并修正所述待修正内容，这样不仅可以提供修改备选项以修改所述识别文本中的出错部分，也可通过重录部分语音来修改所述识别文本中的出错部分。

另外，通过触摸控制操作获取所述识别文本中待修正内容、获取修改备选项替换或重录指令、从所述修改备选项中选择正确内容替换所述待修正内容以及重新获取对应于所述待修正内容的语音并修正所述待修正内容，用户只需要在设备的触摸屏上进行划动，即可选定需要进行纠错的识别文本，同时弹出修改备选项及重新录音的按键，使用户可以快速选择正确的输入文本，或只需要重新说被识别错的部分文本即可进行纠错，使纠错速度比现有技术更高，操作更方便。

此外，通过根据所述待修正内容在所述识别文本中的上下文信息将所述重新获取的语音转化为新的识别文本和新的识别网络，能够将原有的上下文引入第二次语音识别过程中以提高识别可靠性。

附图说明

图1是本发明实施例的语音输入纠错方法的流程图；

图2是本发明实施例的识别文本展示界面图；

图3是本发明实施例的识别文本纠错界面图；

图4是本发明实施例的语音输入纠错实现图；

图5是本发明实施例的语音输入纠错系统的功能模块图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1～4所示，本发明提供一种语音输入纠错方法，包括：

步骤S1，将输入的语音转化成识别文本和识别网络，具体的，可通过预设的自适应声学模型和自然语言模型将输入的语音转化成识别文本和识别网络，所述识别网络可包括对应所述语音的最佳文本序列和候选文本序列，可选的，所述识别文本为所述最佳文本序列，例如一输入语音转化成的识别网络如下：

今天下雨所以我不出门了

今天不下雨所以我不出门了

今天下雨所以我不想出门了

其中，可将第一句“今天下雨以我不出门了”作为所述最佳文本序列和所述识别文本，第二句“今天不下雨所以我不出门了”和第三句“今天下雨所以我不想出门了”作为所述候选文本序列；

步骤S2，根据所述识别网络生成词汇网络，具体的，所述词汇网络包括根据所述最佳文本序列和候选文本序列生成的多个基本的词汇单元，所述候选文本序列的词汇单元与所述最佳文本序列的词汇单元一一对应，即利用语音识别产生的所述识别网络，将用户的输入语音识别成一个个基本的词汇单元，并通过动态匹配方法，将若干个候选文本序列中的每个词汇单元都一一对应到最佳候选序列中的一个词汇单元上，例如，上述三个句子生成的词汇网络如下：

今天|下雨|所以|我|不|出门|了

今天|不下雨|所以|我|不|出门|了

今天|下雨|所以|我|不想|出门|了

其中，上述词汇网络中用竖线隔开是就是一个个词汇单元，最佳文本序列(第一句)里的“下雨”词汇单元与候选句(第二句和第三句)里的“不下雨”和“下雨”对应；

步骤S3，获取所述识别文本中待修正内容，具体的，可通过触摸控制操作获取所述识别文本中待修正内容，例如：

用户启动语音输入，说“我女儿三岁了，她喜欢玩拼图游戏”；

在如图2所示的界面上所述识别文本显示为：“我女儿三岁了，他喜欢玩平图游戏”；

用户想修改“他”为“她”，可用手指或手写笔在“他”字上面轻轻滑动，如图线条21表示用户手指(或手写笔)在屏幕上滑动轨迹；

步骤S4，获取修改备选项替换或重录指令，若为修改备选项替换指令，则执行步骤S5；若为重录指令，则执行步骤S6，具体的，通过检测上述步骤S3中滑动轨迹，确定哪部分识别文本需要纠错，可通过触摸控制操作获取修改备选项替换或重录指令，如可相应弹出修改备选项和重新录音按键以供用户选择进入；

步骤S5，根据所述词汇网络生成对应于所述待修正内容的修改备选项，并从所述修改备选项中选择正确内容替换所述待修正内容，具体的，所述修改备选项可为若干词汇单元，即与所述最佳文本序列中所述待修正内容的词汇单元一一对应的所述候选文本序列的词汇单元，用户在进行修改时，只能看到最佳文本序列，用户可以充分利用触摸屏的特点进行触控修改，当确定所述识别文本中待修正内容后，基于上述识别网络生成的一一对应的词汇网络，如上述“今天|下雨|所以|我|不|出门|了”的例子中，当需要修改“下雨”这个词时，可根据词汇网络为用户提供“不下雨”作为修改备选项供用户选择为正确内容替换所述待修正内容，具体可通过触摸控制操作从所述修改备选项中选择正确内容替换所述待修正内容，又如上述“我女儿三岁了，他喜欢玩平图游戏”的例子中“他”错误的情况下，可在如图3所示的纠错界面上自动弹出一个有“她”和“它”字的菜单31作为修改备选项供用户选择；

步骤S6，重新获取对应于所述待修正内容的语音并修正所述待修正内容，具体的，可通过触摸控制操作重新获取对应于所述待修正内容的语音并修正所述待修正内容，本步骤是先将所述重新获取的语音转化为新的识别文本和新的识别网络，然后根据所述新的识别文本或新的识别网络修正所述待修正内容，可选的，本步骤中可以根据所述待修正内容在所述识别文本中的上下文信息将所述重新获取的语音转化为新的识别文本和新的识别网络，即用户如果发现提供的修改备选项中没有所需要的正确识别结果时，也可以发出重录指令如点击识别键，重新说一遍识别不正确的部分，识别系统将根据上一遍识别结果的上下文信息，把本次识别的识别网络限制在较小的范围内，从而提高识别精度，获得更可靠的识别结果，例如上述例子的“我女儿三岁了，他喜欢玩平图游戏”中“他”错误的情况下，当修改备选项中没有正确的内容可以替换待修正内容时，用户可以在如图3所示的纠错界面上点击录音键32重新说一个“她”字，根据重新输入的语音本步骤会在原有的上下文将被引入第二次识别的基础上重新给出修改备选项，提高识别可靠性，本步骤可具体包括：

步骤S61，重新获取对应于所述待修正内容的语音并将所述重新获取的语音转化为新的识别文本和新的识别网络；

步骤S62，判断所述新的识别文本是否正确，若正确，则执行步骤S63；若不正确，则执行步骤S64～步骤S65，并根据步骤S65的判断结果执行步骤S66或重新从步骤S61开始执行；

步骤S63，将所述新的识别文本替换所述待修正内容；

步骤S64，根据所述新的识别网络生成新的词汇网络；

步骤S65，获取修改备选项替换指令或重录指令，若为修改备选项替换指令，则执行步骤S66，若为重录指令，则重新从步骤S61开始执行；

步骤S66，根据所述新的词汇网络生成对应于所述待修正内容的新的修改备选项，并从所述新的修改备选项中选择正确内容替换所述待修正内容。

详细的，如图4所示，本方法的实现原理为识别引擎通过自适应声学模型和自己语言模型对输入语音进行识别生成识别文本和识别网络，然后根据所述识别网络生成所述词汇网络和上下文信息，在确定需要纠错的文本之后，可根据所词汇网络生成需要纠错的文本的修改备选项，以供用户选择来替换需要纠错的文本，或根据上下文信息对需要纠错的文本进行重新录音来替换需要纠错的文本。

本发明提供了一种语音输入结果的补充修改方法，可利用连续语音识别产生的词汇网络，并结合自然语言处理技术，实现对用户输入的快速纠正，另外，本发明还结合了触摸控制对识别文本进行纠错，用户只需要在触摸屏上进行划动，即可选定需要进行纠错的文本，同时弹出如修改备选项及重新录音的按键，使用户可以快速选择正确的输入文本，或只需要重新说被识别错的部分文本即可进行纠错，纠错速度比现有方法更高，操作更方便。

如图5所示，本发明还提供另一种语音输入纠错系统，包括识别引擎模块51和修正模块52。

识别引擎模块51用于将输入的语音转化成识别文本和识别网络，具体的，所述识别引擎模块51包括声学模型单元511、语言模型单元512和转化单元513，

声学模型单元511用于预设自适应声学模型。

语言模型单元512用于预设自然语言模型。

转化单元513用于通过所述自适应声学模型和自然语言模型将输入的语音转化成识别文本和识别网络或将重新获取的语音转化成新的识别文本和新的识别网络，具体的，可根据所述待修正内容在所述识别文本中的上下文信息将所述重新获取的语音转化为新的识别文本和新的识别网络，能够将原有的上下文引入第二次语音识别过程中以提高识别可靠性。

修正模块52用于根据所述识别网络生成词汇网络，获取所述识别文本中待修正内容，并获取修改备选项替换或重录指令；若为修改备选项替换指令，则根据所述词汇网络生成对应于所述待修正内容的修改备选项，并从所述修改备选项中选择正确内容替换所述待修正内容；若为重录指令，则重新获取对应于所述待修正内容的语音并修正所述待修正内容，这样不仅可以提供修改备选项以修改所述识别文本中的出错部分，也可通过重录部分语音来修改所述识别文本中的出错部分，具体的，所述修正模块52包括词汇网络单元521、修正定位单元522、候选单元523、第一判断单元524、替换单元525重录单元526和第二判断单元527，

词汇网络单元521用于根据所述识别网络生成词汇网络或根据所述新的识别网络生成新的词汇网络。

修正定位单元522用于获取所述识别文本中待修正内容，具体的，可通过触摸控制操作获取所述识别文本中待修正内容。

候选单元523用于根据所述词汇网络生成对应于所述待修正内容的修改备选项或根据所述新的词汇网络生成对应于所述待修正内容的新的修改备选项。

第一判断单元524用于获取修改备选项替换或重录指令，若为修改备选项替换指令，则通知替换单元525处理，若为重录指令，则通知重录单元526处理，具体的，可以通过触摸控制操作获取修改备选项替换或重录指令，这样用户只需要在设备的触摸屏上进行划动，即可选定需要进行纠错的识别文本，同时弹出修改备选项及重新录音的按键，使用户可以快速选择正确的输入文本，或只需要重新说被识别错的部分文本即可进行纠错，使纠错速度比现有技术更高，操作更方便。

替换单元525用于从所述修改备选项或新的修改备选项中选择正确内容替换所述待修正内容，以及用于将所述新的识别文本替换所述待修正内容，具体的可通过触摸控制操作从所述修改备选项或新的修改备选项中选择正确内容替换所述待修正内容，以及将所述新的识别文本替换所述待修正内容。

重录单元526用于重新获取对应于所述待修正内容的语音并发送到所述识别引擎模块51处理，具体的，可通过触摸控制操作重新获取对应于所述待修正内容的语音并发送到所述识别引擎模块51处理。

第二判断单元527用于判断所述新的识别文本是否正确，若正确，则通知所述替换单元525处理；若不正确，则通知重录单元526处理。

本发明通过将输入的语音转化成识别文本和识别网络，然后根据所述识别网络生成词汇网络，再获取所述识别文本中待修正内容，进而获取修改备选项替换或重录指令，若为修改备选项替换指令，则根据所述词汇网络生成对应于所述待修正内容的修改备选项，并从所述修改备选项中选择正确内容替换所述待修正内容；若为重录指令，则重新获取对应于所述待修正内容的语音并修正所述待修正内容，这样不仅可以提供修改备选项以修改所述识别文本中的出错部分，也可通过重录部分语音来修改所述识别文本中的出错部分。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种语音输入纠错方法，其特征在于，包括：

将输入的语音转化成识别文本和识别网络；

根据所述识别网络生成词汇网络；

获取所述识别文本中待修正内容；以及

获取修改备选项替换或重录指令，若为修改备选项替换指令，则根据所述词汇网络生成对应于所述待修正内容的修改备选项，并从所述修改备选项中选择正确内容替换所述待修正内容；若为重录指令，则重新获取对应于所述待修正内容的语音，并根据所述待修正内容在所述识别文本中的上下文信息将所述重新获取的语音转化为新的识别文本和新的识别网络，根据所述新的识别文本或新的识别网络修正所述待修正内容。

2.如权利要求1所述的语音输入纠错方法，其特征在于，通过触摸控制操作获取所述识别文本中待修正内容、获取修改备选项替换或重录指令、从所述修改备选项中选择正确内容替换所述待修正内容以及重新获取对应于所述待修正内容的语音并修正所述待修正内容。

3.如权利要求1所述的语音输入纠错方法，其特征在于，通过预设的自适应声学模型和自然语言模型将输入的语音转化成识别文本和识别网络。

4.如权利要求1所述的语音输入纠错方法，其特征在于，所述根据所述新的识别文本和新的识别网络修正所述待修正内容的步骤包括：

判断所述新的识别文本是否正确；

若正确，则将所述新的识别文本替换所述待修正内容；

5.如权利要求1所述的语音输入纠错方法，其特征在于，所述识别网络包括对应所述语音的最佳文本序列和候选文本序列。

6.如权利要求5所述的语音输入纠错方法，其特征在于，所述识别文本为所述最佳文本序列。

7.如权利要求6所述的语音输入纠错方法，其特征在于，所述词汇网络包括根据所述最佳文本序列和候选文本序列生成的多个基本的词汇单元。

8.如权利要求7所述的语音输入纠错方法，其特征在于，所述候选文本序列的词汇单元与所述最佳文本序列的词汇单元对应。

9.一种语音输入纠错系统，其特征在于，包括：

修正模块，用于根据所述识别网络生成词汇网络，获取所述识别文本中待修正内容，并获取修改备选项替换或重录指令；若为修改备选项替换指令，则根据所述词汇网络生成对应于所述待修正内容的修改备选项，并从所述修改备选项中选择正确内容替换所述待修正内容；若为重录指令，则重新获取对应于所述待修正内容的语音，并根据所述待修正内容在所述识别文本中的上下文信息将所述重新获取的语音转化为新的识别文本和新的识别网络，根据所述新的识别文本或新的识别网络修正所述待修正内容。

10.如权利要求9所述的语音输入纠错系统，其特征在于，识别引擎模块包括：

声学模型单元，用于预设自适应声学模型；

语言模型单元，用于预设自然语言模型；

11.如权利要求10所述的语音输入纠错系统，其特征在于，所述修正模块包括：

修正定位单元，用于获取所述识别文本中待修正内容；

12.如权利要求11所述的语音输入纠错系统，其特征在于，所述修正模块还包括第二判断单元，用于判断所述新的识别文本是否正确，若正确，则通知所述替换单元处理；若不正确，则通知重录单元处理。