CN110600005B

CN110600005B - 语音识别纠错方法及装置、计算机设备和记录介质

Info

Publication number: CN110600005B
Application number: CN201810606039.6A
Authority: CN
Inventors: 李健; 葛斯函; 尹路通; 薛思皓; 段全盛
Original assignee: NIO Anhui Holding Co Ltd
Current assignee: NIO Holding Co Ltd
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2023-09-19
Anticipated expiration: 2038-06-13
Also published as: CN110600005A

Abstract

本发明涉及语音识别结果的纠错方法和装置、计算机设备、记录介质。该语音识别结果的纠错方法包括：步骤S1：以词语为单位将作为所述语音识别结果的语句拆分成若干个词语；步骤S2：对拆分得到的每个词语进行扩展，以获得每个词语对应的候选词语集合；步骤S3：利用所述每个词语对应的候选词语集合来构建与所述语句对应的候选语句集合；步骤S4：基于训练好的语言模型和音节相似度模型来对所述候选语句集合中的每一个候选语句进行评估；以及步骤S5：根据步骤S4中的评估结果来从所述候选语句集合中确定最优的候选语句作为纠错后的语音识别结果。

Description

语音识别纠错方法及装置、计算机设备和记录介质

技术领域

本发明属于语音识别技术领域，涉及一种语音识别纠错方法及装置、计算机设备和记录介质。

背景技术

随着语音识别技术的发展，语音识别技术的应用领域越来越广，使用语音进行交互的用户也越来越多。然而，由于各种外部环境因素，在语音识别过程中出现语音识别错误是难以避免的，而语音识别错误会影响后续的语义理解模型及对话逻辑处理、进而极大地影响整个语音对话系统的效果及体验。因此，迫切地需要在语音识别结果中定位并纠正语音识别错误。可是，现有的语音识别模型的更新周期往往较长，无法方便快速地解决语音识别错误。

发明内容

本发明是为了克服上述缺点的一个或多个、或其它缺点而完成的，所采用的技术方案如下。

按照本发明的一个方面，提供一种语音识别结果的纠错方法，其包括：步骤S1：以词语为单位将作为所述语音识别结果的语句拆分成若干个词语；步骤S2：对拆分得到的每个词语进行扩展，以获得每个词语对应的候选词语集合；步骤S3：利用所述每个词语对应的候选词语集合来构建与所述语句对应的候选语句集合；步骤S4：基于训练好的语言模型和音节相似度模型来对所述候选语句集合中的每一个候选语句进行评估；以及步骤S5：根据步骤S4中的评估结果来从所述候选语句集合中确定最优的候选语句作为纠错后的语音识别结果。

进一步地，在根据本发明的一个方面中，利用所述每个词语对应的候选词语集合来构建与所述语句对应的候选语句集合包括：对于每个词语，获取所述词语前缀的候选语句集合；将所述词语对应的候选词语集合与所述词语前缀的候选语句集合组合形成待筛选的候选语句集合；对所述筛选的候选语句集合进行评估；以及选取满足预设条件的语句作为候选语句集合。

进一步地，在根据本发明的一个方面中，所述训练好的语言模型通过以下步骤获得：收集各种对话场景下的语料的步骤；清洗语料的步骤；以及以词语为单位将经清洗的语料拆分成若干个词语来训练语言模型的步骤。

进一步地，在根据本发明的一个方面中，所述训练好的音节相似度模型通过以下步骤获得：收集各种语音识别语料的步骤；利用深度神经网络来获得音节的表示的步骤；以及计算音节相似度的步骤。

进一步地，在根据本发明的一个方面中，在所述步骤S2中，使用同音词扩展、模糊音词扩展、白名单扩展的方式来对拆分得到的每个词语进行扩展。

按照本发明的另一个方面，提供一种语音识别结果的纠错装置，其包括：第1单元，以词语为单位将作为所述语音识别结果的语句拆分成若干个词语；第2单元，对拆分得到的每个词语进行扩展，以获得每个词语对应的候选词语集合；第3单元，利用所述每个词语对应的候选词语集合来构建与所述语句对应的候选语句集合；第4单元，基于训练好的语言模型和音节相似度模型来对所述候选语句集合中的每一个候选语句进行评估；以及第5单元，根据所述第4单元中的评估结果来从所述候选语句集合中确定最优的候选语句作为纠错后的语音识别结果。

进一步地，在根据本发明的另一个方面中，所述第3单元包括：前缀获取模块，对于每个词语，获取所述词语前缀的候选语句集合；语句组合模块，将所述词语对应的候选词语集合与所述词语前缀的候选语句集合组合形成待筛选的候选语句集合；语句评估模块，对所述筛选的候选语句集合进行评估；以及语句选取模块，选取满足预设条件的语句作为候选语句集合。

进一步地，在根据本发明的另一个方面中，所述训练好的语言模型通过以下单元获得：用于收集各种对话场景下的语料的单元；用于清洗语料的单元；以及用于以词语为单位将经清洗的语料拆分成若干个词语来训练语言模型的单元。

进一步地，在根据本发明的另一个方面中，所述训练好的音节相似度模型通过以下单元获得：用于收集各种语音识别语料的单元；用于利用深度神经网络来获得音节的表示的单元；以及用于计算音节相似度的单元。建立音节与向量的映射关系的单元；以及利用深度神经网络获得音节相似度的单元。

进一步地，在根据本发明的另一个方面中，在所述第2单元中，使用同音词扩展、模糊音词扩展、白名单扩展的方式来对拆分得到的每个词语进行扩展。

按照本发明的又一个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现根据本发明的一个方面的方法的步骤。

按照本发明的再一个方面，提供一种记录介质，其上存储有计算机程序，该程序可被计算机执行以实现根据本发明的一个方面的方法的步骤。

根据本发明，能够方便快速地纠正语音识别结果中的错误。

附图说明

图1是根据本发明的一个实施方式的语音识别结果的纠错方法的示例流程图。

图2是根据本发明的一个实施例的语音识别结果的拆分和扩展结果的示意图。

图3是根据本发明的一个实施方式的语音识别结果的纠错装置的示例框图。

图4是根据本发明的一个实施方式的用于执行根据本发明的一个实施方式的语音识别结果的纠错方法的计算机设备的示例框图。

具体实施方式

以下将结合附图对本发明涉及的语音识别结果的纠错方法及装置、计算机设备和记录介质作进一步的详细描述。需要注意的是，以下的具体实施方式是示例性而非限制的，其旨在提供对本发明的基本了解，并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。

下文参考本发明实施例的方法和装置的框图说明、框图和/或流程图来描述本发明。将理解这些流程图说明和/或框图的每个框、以及流程图说明和/或框图的组合可以由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以构成机器，以便由计算机或其它可编程数据处理设备的处理器执行的这些指令创建用于实施这些流程图和/或框和/或一个或多个流程框图中指定的功能/操作的部件。

可以将这些计算机程序指令存储在计算机可读存储器中，这些指令可以指示计算机或其它可编程处理器以特定方式实现功能，以便存储在计算机可读存储器中的这些指令构成包含实施流程图和/或框图的一个或多个框中指定的功能/操作的指令部件的制作产品。

可以将这些计算机程序指令加载到计算机或其它可编程数据处理器上以使一系列的操作步骤在计算机或其它可编程处理器上执行，以便构成计算机实现的进程，以使计算机或其它可编程数据处理器上执行的这些指令提供用于实施此流程图和/或框图的一个或多个框中指定的功能或操作的步骤。还应该注意在一些备选实现中，框中所示的功能/操作可以不按流程图所示的次序来发生。例如，依次示出的两个框实际可以基本同时地执行或这些框有时可以按逆序执行，具体取决于所涉及的功能/操作。

图1是根据本发明的一个实施方式的语音识别结果的纠错方法的示例流程图。如图1所示，该方法S100包括以下步骤：以词语为单位将作为语音识别结果的语句拆分成若干个词语（步骤S1）。

在一个示例中，例如，用户所说的句子为“遮阳帘打开”，被语音对话系统错误地识别为“这样连打开”。在获得该语音识别结果后，以词语为单位对该语音识别结果进行拆分，例如如图2所示将“这样连打开”拆分成“这样”、“连”、“打开”3个词语。

在一个实施例中，如图1所示，所述方法S100还可以包括如下步骤：对拆分得到的每个词语进行扩展，以获得每个词语对应的候选词语集合（步骤S2）。

在上述示例中，对拆分得到的词语“这样”、“连”、“打开”中的每一个进行扩展，例如，如图2所示，将词语“这样”扩展成“遮阳”、“遮掩”等词以获得“这样”对应的候选词语集合，将词语“连”扩展成“帘”、“脸”等词以获得“连”对应的候选词语集合，将词语“打开”扩展成“大开”、“大楷”等词以获得“打开”对应的候选词语集合。

需要说明的是，在如图2所示的上述示例中，主要是采用同音词扩展方式来对拆分得到的词语“这样”、“连”、“打开”中的每一个进行扩展，但本发明不限于此，还可以使用模糊音词扩展、白名单扩展等扩展方式，其中模糊音词扩展是在前后鼻音、声调、翘舌音平舌音方面的相似扩展，白名单扩展可以根据需要预先设置和/或根据需要进行后续修改。

在一个实施例中，如图1所示，所述方法S100还可以包括如下步骤：利用上述每个词语对应的候选词语集合来构建与上述语句对应的候选语句集合（步骤S3）。

在上述示例中，利用上述词语“这样”、“连”、“打开”中的每一个对应的上述候选词语集合来构建与“这样连打开”这一语句对应的候选语句集合。例如，如图2的连线所示，构建得到与“这样连打开”对应的“这样连大开”、“这样连大楷”、“这样帘打开”、“这样帘大开”、“这样帘大楷”、“这样脸打开”、“这样脸大开”、“这样脸大楷”、“遮阳连打开”、“遮阳连大开”、“遮阳连大楷”、“遮阳帘打开”、“遮阳帘大开”、“遮阳帘大楷”、“遮阳脸打开”、“遮阳脸大开”、“遮阳脸大楷”、“遮掩连打开”、“遮掩连大开”、“遮掩连大楷”、“遮掩帘打开”、“遮掩帘大开”、“遮掩帘大楷”、“遮掩脸打开”、“遮掩脸大开”、“遮掩脸大楷”、等语句。

在一个实施例中，如图1所示，所述方法S100还可以包括如下步骤：基于预先训练好的语言模型和音节相似度模型来对所述候选语句集合中的每一个候选语句进行评估（步骤S4）。

在上述示例中，对上述构建得到的一系列语句进行评估，其中，评估可以包括两部分，第一部分是语言模型评分，其中，使用预先训练好的语言模型进行评分，第二部分是音节相似度评分，其中，使用预先训练好的音节相似度模型进行评分，其中，所述语言模型评分的大小主要反映句子的通顺程度，所述音节相似度模型评分的大小主要评估纠错后的句子和纠错前的句子在发音上的差异大小。综合来讲，与原句子发音越近且越通顺的句子最终得分更高。语言模型评分的计算可以基于n-gram统计得到的后验概率，音节相似度评分的计算是基于音节向量表示的余弦距离，从音节到向量的映射是通过深度神经网络训练得到的。

可选地，所述预先训练好的语言模型通过以下步骤获得：收集各种对话场景下的语料的步骤；清洗语料的步骤；以及以词语为单位将经清洗的语料拆分成若干个词语来训练语言模型的步骤，其中，可以统计语料中1-gram到4-gram所有词频，并使用Kneser–Neysmoothing进行平滑处理得到最终n-gram语言模型。

可选地，所述预先训练好的音节相似度模型通过以下步骤获得：收集各种语音识别语料的步骤；建立音节与向量的映射关系的步骤；以及利用深度神经网络来获得音节相似度的步骤，在该步骤中，具体地，可以通过深度神经网络训练一个区分不同音节的分类器，然后，将神经网络中的编码层的结果作为音节的向量表达，也就是可以通过这个深度神经网络将音节映射到向量空间，然后音节相似度就可以通过对应的向量的余弦值来度。

在一实施例中，步骤3包括对于每个词语，获取该词语前缀的候选语句集合，将该词语的候选词语集合与该词语前缀的候选语句集合组合形成待筛选的候选语句集合，对该筛选的候选语句集合进行评估，选取满足预设条件的语句作为新的候选语句集合。其中，预设条件例如可以包括评估靠前的若干语句或高于某一评估值的语句。以上述“这样连打开”语句为例，对于第一个词“这样”，因为其是第一个词，获取其前缀的候选语句集合为空，将“这样”对应的候选词语集合组合成待筛选的候选语句集合（“这样”，“遮阳”，“遮掩”），对该待筛选的候选语句集合（“这样”，“遮阳”，“遮掩”）进行评估，选取满足预设条件的语句作为新的候选语句集合（“这样”，“遮阳”，“遮掩”）。这里由于是第一个词比较特殊，可以将词语候选集合直接作为候选语句集合，而无需组合和评估。对于第二个词“连”，获取其前缀的候选语句集合为（“这样”，“遮阳”，“遮掩”），将该词对应的候选词语集合(“连”，“帘”，“脸”等)与其前缀的候选语句集合（“这样”，“遮阳”，“遮掩”）组合形成待筛选的候选语句集合（“这样连”、 “这样帘”、 “这样脸”、 “遮阳连”、 “遮阳帘”、 “遮阳脸”、 “遮掩连”、 “遮掩帘”、“遮掩脸”等），对该待筛选的候选语句集合进行评估，选取例如以下句子作为新的候选语句集合（“这样连”、“遮阳帘”）。对于第三个词“打开”，重复上述的过程，得到新的句子候选集合（“遮阳帘打开”、“遮阳帘大开”）。由于第三个词是最后一个词，这里也可以只进行组合的步骤而不进行评估的步骤，在S4步骤再对最终的句子候选集合进行评估。上述只是举例，对于涉及更多词语的语句，也是类似处理。要说明的是，这里针对待筛选的句子候选集合进行评估可采用上面针对S4描述的方案，在此不再赘述。

以上实施例的步骤S3中，采用启发式搜索策略，按拆分的词语结点逐步动态生成候选句子前缀，较差的候选结果在前期就可以被淘汰，从而大大降低搜索空间，提升纠错效率低。

在一个实施例中，如图1所示，所述方法S100还可以包括如下步骤：根据上述步骤S4中的评估结果来从上述候选语句集合中确定最优的候选语句作为纠错后的语音识别结果（步骤S5）。

在上述示例中，根据在上述步骤S4中的评估结果，从上述构建得到的一系列语句中确定最优的候选语句即“遮阳帘打开”作为纠错后的语音识别结果。

接下来，参照图3来说明用于执行图1中所示出的方法的语音识别结果的纠错装置。

如图3所示，该装置100包括第1单元101，其被配置成，以词语为单位将作为语音识别结果的语句拆分成若干个词语。

在一个实施例中，如图3所示，所述装置100还可以包括第2单元，其被配置成，对拆分得到的每个词语进行扩展，以获得每个词语对应的候选词语集合。

在一个实施例中，如图3所示，所述装置100还可以包括第3单元，其被配置成，利用上述每个词语对应的候选词语集合来构建与上述语句对应的候选语句集合。

在一个实施例中，如图3所示，所述装置100还可以包括第4单元，其被配置成，基于预先训练好的语言模型和音节相似度模型来对所述候选语句集合中的每一个候选语句进行评估。

在上述示例中，对上述构建得到的一系列语句进行评估，其中，评估可以包括两部分，第一部分是使用预先训练好的语言模型进行评分，第二部分是使用预先训练好的音节相似度模型进行评分，其中，所述语言模型的评分主要反映句子的通顺程度，所述音节相似度模型的评分主要反映句子与原始识别句子在音节上的差距。

可选地，所述预先训练好的语言模型通过以下步骤获得：收集各种对话场景下的语料的步骤；清洗语料的步骤；以及以词语为单位将经清洗的语料拆分成若干个词语来训练语言模型的步骤。

可选地，所述预先训练好的音节相似度模型通过以下步骤获得：收集各种语音识别语料的步骤；建立音节与向量的映射关系的步骤；以及利用深度神经网络来获得音节相似度的步骤。

需要说明的是，训练好的语言模型和音节相似度模型也可以直接下载至本发明的装置100中来进行评估。

在一个实施例中，如图3所示，所述装置100还可以包括第5单元，其被配置成，根据上述第4单元中的评估结果来从上述候选语句集合中确定最优的候选语句作为纠错后的语音识别结果。

在一实施例中，所述第3单元包括：前缀获取模块，对于每个词语，获取所述词语前缀的候选语句集合；语句组合模块，将所述词语对应的候选词语集合与所述词语前缀的候选语句集合组合形成待筛选的候选语句集合；语句评估模块，对所述筛选的候选语句集合进行评估；以及语句选取模块，选取满足预设条件的语句作为候选语句集合。详细描述可参见上述步骤描述，在此不再赘述。采用启发式搜索策略，按拆分的词语结点逐步动态生成候选句子前缀，较差的候选结果在前期就可以被淘汰，从而大大降低搜索空间，提升纠错效率低。

需要说明的是，尽管以上是以中文语言类型的语音识别应用来示例说明本发明的语音识别纠错方法和装置的，但是，将理解到，对于中文语言类型之外的其他语言类型（例如，英语）或者多种混合的语言类型，在以上示例教导的情况下，可以类似地的原理进行语音识别的纠错，当然，对于不同的语言类型，需要建立或训练得到相应的语言模型和音节相似度模型，从而提高评估的准确性，在词语扩展过程中，可以采用类似同音词扩展方式进行，也可以根据语言类型的发音特点，采用相应的扩展方式进行词语扩展；还例如，对于不同的语言类型，其可以根据语言类型特点将语句拆分成若干个词语，例如，英语中以每个单词为单元进行拆分，每个单词即对应词语，其拆分过程相对简答。

虽然在此之前以语音识别结果的纠错方法和装置的实施方式为中心进行了说明，但是本发明不限定于这些实施方式，也可以将本发明实施为以下方式：包含上述方法的语音识别结果的纠错方法的方式或者包含上述装置的语音识别结果的纠错装置的方式或者用于执行上述方法的计算机设备或者用于执行上述方法的计算机程序的方式或者用于实现上述装置的功能的计算机程序的方式或者记录有该计算机程序的计算机可读取的记录介质的方式。

在图4中示出了根据本发明的一个实施方式的用于执行根据本发明的一个实施方式的语音识别结果的纠错方法的计算机设备的示例框图。如图4所示，计算机设备200包括存储器201和处理器202。虽然未图示，但是计算机设备200还包括存储在存储器201上并可在处理器202上运行的计算机程序。所述处理器执行所述程序时实现例如如图1所示的根据本发明的一个实施方式的语音识别结果的纠错方法的各个步骤。

另外，如上所述，本发明也可以被实施为一种记录介质，在其中存储有用于使计算机执行根据本发明的一个实施方式的语音识别结果的纠错方法的程序。

在此，作为记录介质，能采用盘类（例如，磁盘、光盘等）、卡类（例如，存储卡、光卡等）、半导体存储器类（例如，ROM、非易失性存储器等）、带类（例如，磁带、盒式磁带等）等各种方式的记录介质。

通过在这些记录介质中记录使计算机执行上述实施方式中的语音识别结果的纠错方法的计算机程序或使计算机实现上述实施方式中的语音识别结果的纠错装置的功能的计算机程序并使其流通，从而能使成本的低廉化以及可携带性、通用性提高。

而且，在计算机上装载上述记录介质，由计算机读出在记录介质中记录的计算机程序并储存在存储器中，计算机所具备的处理器（CPU：Central Processing Unit（中央处理单元）、MPU：Micro Processing Unit（微处理单元））从存储器读出该计算机程序并执行，由此，能执行上述实施方式中的语音识别结果的纠错方法并能实现上述实施方式中的语音识别结果的纠错装置的功能。

本领域普通技术人员应当了解，本发明不限定于上述的实施方式，本发明可以在不偏离其主旨与范围内以许多其它的形式实施。因此，所展示的示例与实施方式被视为示意性的而非限制性的，在不脱离如所附各权利要求所定义的本发明精神及范围的情况下，本发明可能涵盖各种的修改与替换。

Claims

1.一种语音识别结果的纠错方法，其特征在于，包括：

步骤S1：以词语为单位将作为所述语音识别结果的语句拆分成若干个词语；

步骤S2：对拆分得到的每个词语进行扩展，以获得每个词语对应的候选词语集合；

步骤S3：利用所述每个词语对应的候选词语集合来构建与所述语句对应的候选语句集合，其中所述步骤S3包括：

对于每个词语，获取所述词语前缀的候选语句集合，

将所述词语对应的候选词语集合与所述词语前缀的候选语句集合组合形成待筛选的候选语句集合，

对所述待筛选的候选语句集合进行评估，以及

选取满足预设条件的语句作为候选语句集合；

步骤S4：基于训练好的语言模型和音节相似度模型来对所述候选语句集合中的每一个候选语句进行评估；以及

步骤S5：根据步骤S4中的评估结果来从所述候选语句集合中确定最优的候选语句作为纠错后的语音识别结果。

2.根据权利要求1所述的纠错方法，其特征在于，所述训练好的语言模型通过以下步骤获得：

收集各种对话场景下的语料的步骤；

清洗语料的步骤；以及

以词语为单位将经清洗的语料拆分成若干个词语来训练语言模型的步骤。

3.根据权利要求1所述的纠错方法，其特征在于，所述训练好的音节相似度模型通过以下步骤获得：

收集各种语音识别语料的步骤；

建立音节与向量的映射关系的步骤；以及

利用深度神经网络来获得音节相似度的步骤。

4.根据权利要求1至3的任一项所述的纠错方法，其特征在于，

在所述步骤S2中，使用同音词扩展、模糊音词扩展、白名单扩展的方式来对拆分得到的每个词语进行扩展。

5.一种语音识别结果的纠错装置，其特征在于，包括：

第1单元，以词语为单位将作为所述语音识别结果的语句拆分成若干个词语；

第2单元，对拆分得到的每个词语进行扩展，以获得每个词语对应的候选词语集合；

第3单元，利用所述每个词语对应的候选词语集合来构建与所述语句对应的候选语句集合，其中，所述第3单元包括：

前缀获取模块，对于每个词语，获取所述词语前缀的候选语句集合，

语句组合模块，将所述词语对应的候选词语集合与所述词语前缀的候选语句集合组合形成待筛选的候选语句集合，

语句评估模块，对所述待筛选的候选语句集合进行评估，以及

语句选取模块，选取满足预设条件的语句作为候选语句集合；

第4单元，基于训练好的语言模型和音节相似度模型来对所述候选语句集合中的每一个候选语句进行评估；以及

第5单元，根据所述第4单元中的评估结果来从所述候选语句集合中确定最优的候选语句作为纠错后的语音识别结果。

6.根据权利要求5所述的纠错装置，其特征在于，所述训练好的语言模型通过以下单元获得：

用于收集各种对话场景下的语料的单元；

用于清洗语料的单元；以及

用于以词语为单位将经清洗的语料拆分成若干个词语来训练语言模型的单元。

7.根据权利要求5所述的纠错装置，其特征在于，所述训练好的音节相似度模型通过以下单元获得：

用于收集各种语音识别语料的单元；

建立音节与向量的映射关系的步骤；以及

利用深度神经网络来获得音节相似度的步骤。

8.根据权利要求5至7的任一项所述的纠错装置，其特征在于，

在所述第2单元中，使用同音词扩展、模糊音词扩展、白名单扩展的方式来对拆分得到的每个词语进行扩展。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现根据权利要求1至4中的任一项所述的方法的步骤。

10.一种记录介质，其上存储有计算机程序，其特征在于，该程序可被计算机执行以实现根据权利要求1至4中的任一项所述的方法的步骤。