CN114333795A

CN114333795A - 语音识别方法和装置、计算机可读存储介质

Info

Publication number: CN114333795A
Application number: CN202111592910.XA
Authority: CN
Inventors: 艾坤; 梅林海; 刘权; 陈志刚; 王智国; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-04-12

Abstract

本申请公开了一种语音识别方法和装置、计算机可读存储介质，属于语音交互技术领域。所述语音识别方法先根据语音信息获取第一文本，并获取第一语义；其中第一文本包括第一实体文本序列，第一语义包括与第一实体文本序列对应的第一实体语义，且第一实体语义有对应的实体类型标签；再判断第一语义是否符合预设标准；若是，将第一语义作为语音识别结果；否则，将第一文本中的第一实体文本序列替换为对应的发音编码序列，并为发音编码序列添加实体类型标签，以获得纠错文本；根据发音编码序列获得第二实体文本序列，并使实体类型标签与第二实体文本序列相匹配，以获得第二文本；利用第二文本获取语音识别结果。本申请提高语音识别及语义理解的准确性。

Description

语音识别方法和装置、计算机可读存储介质

技术领域

本申请涉及语音交互技术领域，特别是涉及一种语音识别方法和装置、计算机可读存储介质。

背景技术

随着语音交互技术的发展，相关的语音交互应用越来越广泛。语音交互中，需要根据用户输入的语音信息获得语义信息，从而根据语义信息对用户做出响应。但是如果用户输入的语音信息中部分关键信息有错误，则会获得错误的语义信息，后端在接收到错误的语义信息后无法给出用户期望的响应，造成交互失败。

发明内容

本申请主要解决的技术问题是提供一种语音识别方法和装置、计算机可读存储介质，能够提高语音识别及语义理解的准确性。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音识别方法，包括：

根据语音信息获取第一文本，并根据所述第一文本获取第一语义；其中，所述第一文本包括第一实体文本序列，所述第一语义包括与所述第一实体文本序列对应的第一实体语义，且所述第一实体语义具有对应的实体类型标签；

判断所述第一语义是否符合预设标准；

若是，则将所述第一语义作为所述语音识别结果；

否则，将所述第一文本中的所述第一实体文本序列替换为对应的发音编码序列，并为所述发音编码序列添加所述实体类型标签，以获得纠错文本；根据所述发音编码序列获得第二实体文本序列，并使所述实体类型标签与所述第二实体文本序列相匹配，以获得第二文本；利用所述第二文本获取所述语音识别结果。

其中，所述根据所述发音编码序列获得第二实体文本序列，并使所述实体类型标签与所述第二实体文本序列相匹配，以获得第二文本的步骤，包括：

对纠错模型进行训练；

将所述纠错文本输入所述纠错模型，并将所述纠错模型的输出作为所述第二文本。

其中，所述对纠错模型进行训练的步骤，包括：

提供第一训练文本，所述第一训练文本中包括发音编码样本序列，且所述发音编码样本序列带有与之匹配的文本标注样本序列和类型标注样本序列；

将所述第一训练文本输入至所述纠错模型中获得第一预测结果；

基于所述第一训练文本和所述第一预测结果调整所述纠错模型中参数的值，以使得所述第一预测结果向第一期望文本靠近，所述第一期望文本包括所述文本标注样本序列和所述类型标注样本序列。

其中，所述对纠错模型进行训练的步骤之前，还包括：

对预训练语言模型进行训练；

利用训练后的所述预训练语言模型的参数初始化所述纠错模型中编码层的参数。

其中，所述对预训练语言模型进行训练的步骤，包括：

提供初始文本，所述初始文本中包含多个文字，且所述初始文本表达正确的语义；

获得所述初始文本中每个文字被替换为预设集合内任一其他文字的第一概率，并以所述第一概率将所述初始文本中至少一个文字替换为所述预设集合内的其他文字，以获得第二训练文本；

将所述第二训练文本输入至所述预训练语言模型中获得第二预测结果；

基于所述初始文本和所述第二预测结果调整所述预训练语言模型中参数的值，以使得所述第二预测结果向所述初始文本靠近。

其中，所述获得所述初始文本中每个文字被替换为预设集合内任一其他文字的第一概率的步骤，包括：

针对所述初始文本中的每一文字，获得当前文字与所述预设集合内任一其他文字之间的发音相似度和含义相似度；

获得与所述当前文字相关的所有所述发音相似度的第一和值、以及与所述当前文字相关的所有所述含义相似度的第二和值；

获得所述当前文字与另一文字之间的发音相似度与所述第一和值的第一比值、以及所述当前文字与所述另一文字之间的含义相似度与所述第二和值的第二比值；

获得所述第一比值与第一概率的第一乘积、以及所述第二比值与第二概率的第二乘积，并将所述第一乘积和所述第二乘积之和作为所述第一概率；其中，所述第一概率和所述第二概率之和小于1。

其中，所述第一实体语义属于集合类实体或者特征类实体，所述第一实体文本序列包括第一集合实体文本序列和第一特征实体文本序列，所述第一集合实体文本序列的语义理解结果为属于所述集合类实体的第一实体语义，所述第一特征实体文本序列的语义理解结果为属于所述特征类实体的第一实体语义；所述利用所述第二文本获取所述语音识别结果的步骤，包括：

根据所述第二文本获取第二语义，并判断所述第二文本与所述第一文本之间的差异是否仅与所述第一特征实体文本序列相关；

若是，则将所述第二语义作为所述语音识别结果；

否则，响应于所述第二语义符合所述预设标准，将所述第二语义作为所述语音识别结果，响应于所述第二语义不符合所述预设标准，将所述第一语义作为所述语音识别结果。

其中，所述第一语义还包括第一意图语义，所述第一意图语义是对所述第一文本进行意图语义理解获得的，所述根据所述第二文本获取第二语义的步骤，包括：

对所述第二文本进行意图语义理解以获得第二意图语义，以及根据相互匹配的所述第二实体文本序列和所述实体类型标签获得第二实体语义；

将所述第二意图语义和所述第二实体语义组合以获得所述第二语义。

其中，所述第一语义包括第一意图语义和所述第一实体语义的组合，所述第一实体语义属于集合类实体或者特征类实体；所述判断所述第一语义是否符合预设标准的步骤，包括：

判断所述第一语义包括的组合是否在预设的合理组合列表中；

若不在，则判定所述第一语义不符合所述预设标准；

若在，则进一步判断是否同时满足，所述第一实体语义均属于所述集合类实体，且所述第一实体语义在预设的集合类实体列表中；若同时满足，则判定所述第一语义符合所述预设标准；若不是同时满足，则判定所述第一语义不符合所述预设标准。

其中，所述利用所述第二文本获取语音识别结果的步骤之前，还包括：

判断所述第二文本中的字符及字符顺序是否与所述第一文本匹配；

若是，则不执行所述利用所述第二文本获取语音识别结果的步骤，并将所述第一语义作为所述语音识别结果；

否则，执行所述利用所述第二文本获取语音识别结果的步骤。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音识别装置，包括：

第一语义获取模块，用于根据语音信息获取第一文本，并根据所述第一文本获取第一语义；其中，所述第一文本包括第一实体文本序列，所述第一语义包括与所述第一实体文本序列对应的第一实体语义，且所述第一实体语义具有对应的实体类型标签；

第一判断模块，用于判断所述第一语义是否符合预设标准；

响应模块，用于在所述第一语义符合所述预设标准时，将所述第一语义作为所述语音识别结果；以及用于在所述第一语义不符合所述预设标准时，将所述第一文本中的所述第一实体文本序列替换为对应的发音编码序列，并为所述发音编码序列添加所述实体类型标签，以获得纠错文本；根据所述发音编码序列获得第二实体文本序列，并使所述实体类型标签与所述第二实体文本序列相匹配，以获得第二文本；利用所述第二文本获取所述语音识别结果。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音识别装置，包括存储器和处理器，所述存储器存储有程序指令，所述处理器能够执行所述程序指令，以实现上述技术方案所述的语音识别方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，所述存储介质上存储有程序指令，所述程序指令能够被处理器执行，以实现上述技术方案所述的语音识别方法。

本申请的有益效果是：本申请提供的语音识别方法首先根据语音信息获取第一文本，并根据第一文本获取第一语义；其中，第一文本包括第一实体文本序列，第一语义包括与第一实体文本序列对应的第一实体语义，且第一实体语义具有对应的实体类型标签；然后判断第一语义是否符合预设标准；若是，则将第一语义作为语音识别结果；否则，将第一文本中的第一实体文本序列替换为对应的发音编码序列，并为发音编码序列添加实体类型标签，以获得纠错文本；根据发音编码序列获得第二实体文本序列，并使实体类型标签与第二实体文本序列相匹配，以获得第二文本；利用第二文本获取语音识别结果。可见，本申请对不符合预设标准的第一语义对应的第一文本进行纠错处理以获得第二文本，且聚焦于与语义相关的第一实体文本序列的纠错而非全部文本序列，再根据纠错后的第二文本获得语音识别结果，使得语音识别结果的准确性更高。而且，对第一文本进行纠错时，不仅对第一实体文本序列进行纠错，还对其实体类型标签进行纠错，使得预测生成的第二实体文本序列可以受到实体类型标签约束，进一步提高语音识别及语义理解的准确性。

附图说明

为了更清楚地说明本申请实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1为本申请语音识别方法一实施方式的流程示意图；

图2为训练纠错模型一实施方式的流程示意图；

图3为训练纠错模型另一实施方式的流程示意图；

图4为图3中步骤S31一实施方式的流程示意图；

图5为图4中步骤S42一实施方式的流程示意图；

图6为图1中步骤S14一实施方式的流程示意图；

图7为图6中步骤S61一实施方式的流程示意图；

图8为图1中步骤S14另一实施方式的流程示意图；

图9为图1中步骤S12一实施方式的流程示意图；

图10为本申请语音识别方法另一实施方式的流程示意图；

图11为本申请语音识别装置一实施方式的结构示意图；

图12为图11中响应模块一实施方式的结构示意图；

图13为图11中第一判断模块一实施方式的结构示意图；

图14为本申请语音识别装置一实施方式的结构示意图；

图15为本申请计算机可读存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。

请参阅图1，图1为本申请语音识别方法一实施方式的流程示意图，该语音识别方法包括如下步骤。

步骤S11，根据语音信息获取第一文本，并根据第一文本获取第一语义；其中，第一文本包括第一实体文本序列，第一语义包括与第一实体文本序列对应的第一实体语义，且第一实体语义具有对应的实体类型标签。

本实施方式提供的语音识别方法可应用于一语音识别装置，该装置采集到用户发出的语音信息之后，首先通过语音转化模型将该语音信息转化成文本信息，即第一文本，而后通过语义理解模型将第一文本转化成语义信息，即第一语义。

其中，语音转化模型为现有技术中成熟的语音转化技术，转化获得的第一文本包括第一实体文本序列和其他文本序列，其他文本序列指口语等无意义的文本序列，去除这些其他文本序列之外的即为第一实体文本序列，包括用于进行语义理解的关键信息。

其中，语义理解模型为现有技术中成熟的语义理解技术，获得的第一语义包括第一意图语义和第一实体语义，第一意图语义为根据上下文进行意图语义理解获得的，第一实体语义则是与第一实体文本序列对应的语义理解结果，且第一实体语义具有对应的实体类型标签，表征第一实体文本序列的实体类型。

例如，用户给出一段语音信息，期望表达的意思是“播放刘德华的忘情水”，对应的正确的第一语义可以表示为：intent＝play,slot＝song:忘情水|artist:刘德华。其中，“刘德华”和“忘情水”都是第一实体语义，其对应的实体类型分别是“artist”和“song”。

步骤S12，判断第一语义是否符合预设标准。若是，则执行下述步骤S13，否则，执行下述步骤S14。

用户给出的语音信息可能不是非常准确，或者表述不够清楚，若直接根据第一语义做出响应，可能不是用户期望的响应。本实施方式在获得第一语义之后先判断该第一语义是否符合预设标准，再根据不同的判断结果做出不同的响应，提高给出用户期望的响应的概率。具体的判断方法将在下面描述。

步骤S13，将第一语义作为语音识别结果。

如果第一语义符合预设标准，说明步骤S11获得的第一语义较大概率是符合用户期望的，直接将其作为语音识别结果，并据其做出响应。

步骤S14，将第一文本中的第一实体文本序列替换为对应的发音编码序列，并为发音编码序列添加实体类型标签，以获得纠错文本；根据发音编码序列获得第二实体文本序列，并使实体类型标签与第二实体文本序列相匹配，以获得第二文本；利用第二文本获取语音识别结果。

如果第一语义不符合预设标准，说明步骤S11获得的第一语义较大概率是不符合用户期望的，需要对其纠错后再做出响应。本实施方式在第一文本的基础上进行纠错，获得第二文本，再进一步利用第二文本获得语音识别结果。具体地，本实施方式将第一文本中的第一实体文本序列替换为对应的发音编码序列，并为发音编码序列添加实体类型标签，以获得纠错文本；在纠错文本的基础上，根据发音编码序列获得第二实体文本序列，并使实体类型标签与第二实体文本序列相匹配，从而获得第二文本。

例如，根据用户给出的语音信息获得的第一文本是“播放柳德化的忘情水”，其中的第一实体文本序列有“柳德化”和“忘情水”，将其替换为对应的发音编码序列“liudehua”和“wangqingshui”，并为发音编码序列“liudehua”添加实体类型标签“artist“，为发音编码序列”wangqingshui“添加实体类型标签“song“，得到纠错文本”播放artist(liudehua)的song(wangqingshui)“。

然后根据发音编码序列获得第二实体文本序列。根据第一语义添加的实体类型标签也可能发生错误，例如第一实体文本序列“柳德化”对应了错误的实体类型标签为“song“，本实施方式进一步使实体类型标签与第二实体文本序列相匹配，例如将第一实体文本序列“柳德化”对应的实体类型标签纠正为“artist“。具体可利用训练过的神经网络模型获得更接近发音编码序列、且更接近用户意图的第二实体文本序列及对应的实体类型标签，提高语音识别结果的准确性。即通过如下步骤获得第二文本：

步骤一，对纠错模型进行训练。

步骤二，将纠错文本输入纠错模型，并将纠错模型的输出作为第二文本。

纠错模型包括但不限于seq2seq模型，训练之后，能够按照上述纠错过程，对纠错文本进行纠错，获得第二文本。具体的训练过程将在下面描述。

本实施方式对不符合预设标准的第一语义对应的第一文本进行纠错处理以获得第二文本，且聚焦于与语义相关的第一实体文本序列的纠错而非全部文本序列，再根据纠错后的第二文本获得语音识别结果，且预测生成的第二实体文本序列可以受到实体类型标签约束，使得语音识别及语义理解的准确性更高。

在一个实施方式中，请参阅图2，图2为训练纠错模型一实施方式的流程示意图，即可通过如下步骤对纠错模型进行训练。

步骤S21，提供第一训练文本，第一训练文本中包括发音编码样本序列，且发音编码样本序列带有与之匹配的文本标注样本序列和类型标注样本序列。

基于神经网络模型例如seq2seq模型构建初始的纠错模型之后，提供第一训练文本，第一训练文本中包括发音编码样本序列，且发音编码样本序列带有与之匹配的文本标注样本序列和类型标注样本序列。纠错模型主要包括编码(Encoder)层和解码(Decoder)层，编码层用于将输入编码为输入语义表示向量，解码层用于根据输入语义表示向量输出相应的输出语义表示向量，从而实现根据一个语言序列预测出另一个语言序列。本实施方式训练纠错模型，期望获得的预测结果是将发音编码样本序列替换为与之匹配的文本标注样本序列和类型标注样本序列，从而获得纠错后的第二文本。

步骤S22，将第一训练文本输入至纠错模型中获得第一预测结果。

提供第一训练文本之后，将其输入至上述纠错模型中，获得第一预测结果。便于后续对比第一预测结果与期望的预测结果之间的差异，从而调整模型参数。

步骤S23，基于第一训练文本和第一预测结果调整纠错模型中参数的值，以使得第一预测结果向第一期望文本靠近，第一期望文本包括文本标注样本序列和类型标注样本序列。

进一步根据第一训练文本和第一预测结果调整纠错模型中参数的值，以使得纠错模型的第一预测结果向第一期望文本靠近。可以理解的是，训练过程可能会经过多次参数调整，直至符合预期。

本实施方式利用神经网络技术训练纠错模型，便于对第一文本进行纠错，结果准确性更高，能够获得更加准确的第二文本，从而提高语音识别及语义理解的准确性。

在一个实施方式中，请参阅图3，图3为训练纠错模型另一实施方式的流程示意图，即还可通过如下步骤对纠错模型进行训练。

步骤S31，对预训练语言模型进行训练。

如前所述，本申请对第一文本中表征关键信息的第一实体文本序列进行纠错，具体为先替换成发音编码序列，再利用纠错模型进行纠错，纠错过程包括一定概率替换发音相近或者含义相近的文字。本实施方式首先对预训练语言模型进行训练，使得纠错模型具有更大概率替换发音相近或者含义相近的文字的功能，从而提高纠错的准确性。具体的训练过程将在下面描述。

步骤S32，利用训练后的预训练语言模型的参数初始化纠错模型中编码层的参数。

完成预训练语言模型的训练之后，进一步利用其参数初始化纠错模型中编码层的参数，使得纠错模型继承预训练语言模型的近音近义字替换功能。

步骤S33，对纠错模型进行训练。

然后对纠错模型进行训练，具体可参阅上述步骤S21-S23，此处不再赘述。

本实施方式利用完成训练的预训练语言模型初始化纠错模型的编码层参数，让纠错模型在近音近义字替换方面的学习能力更强大，从而在完成纠错模型的训练之后，获得更准确的第二文本。

在一个实施方式中，请参阅图4，图4为图3中步骤S31一实施方式的流程示意图，可通过如下步骤对预训练语言模型进行训练。

步骤S41，提供初始文本，初始文本中包含多个文字，且初始文本表达正确的语义。

本实施方式包括但不限于使用MLM(Mask Language Model)任务进行预训练语言模型的训练。首先获得初始文本，其中包含多个文字，能够表达正确语义。

步骤S42，获得初始文本中每个文字被替换为预设集合内任一其他文字的第一概率，并以第一概率将初始文本中至少一个文字替换为预设集合内的其他文字，以获得第二训练文本。

预设集合例如为常用字的集合，将表达正确语义的初始文本中的文字替换为其他文字，使其大概率表达错误的语义，从而利用其训练预训练语言模型，期望预训练语言模型预测出表达正确语义的初始文本。其中，初始文本中的文字被替换为对应更大第一概率的其他文字。

具体请参阅图5，图5为图4中步骤S42一实施方式的流程示意图，可通过如下步骤获得初始文本中每个文字被替换为预设集合内任一其他文字的第一概率。

步骤S51，针对初始文本中的每一文字，获得当前文字与预设集合内任一其他文字之间的发音相似度和含义相似度。

假设预设集合内有m个文字，用文字a表示当前文字，α_aj和β_aj分别为文字a与预设集合其他文字之间的发音相似度和含义相似度，其中，j为2至m中的正整数。

步骤S52，获得与当前文字相关的所有发音相似度的第一和值、以及与当前文字相关的所有含义相似度的第二和值。

即第一和值为

第二和值为

步骤S53，获得当前文字与另一文字之间的发音相似度与第一和值的第一比值、以及当前文字与另一文字之间的含义相似度与第二和值的第二比值。

用文字b表示另一文字，文字a与文字b的发音相似度为α_ab，内容相似度为β_ab，则第一比值为

第二比值为

步骤S54，获得第一比值与第一概率的第一乘积、以及第二比值与第二概率的第二乘积，并将第一乘积和第二乘积之和作为第一概率；其中，第一概率和第二概率之和小于1。

第一概率p1为对当前文字进行近音字替换的概率，第二概率p2为对当前文字进行近义字替换的概率，则文字a被替换成文字b的第一概率P_ab可用如下公式(1)表示：

本实施方式通过上述第一概率的定义，使得预训练语言模型能够以更高的概率学习到近音字或者近义字，从而提高纠错模型这方面的学习能力。

步骤S43，将第二训练文本输入至预训练语言模型中获得第二预测结果。

本实施方式对预训练语言模型进行训练，期望获得的预测结果是将第二训练文本中的文字以更高概率替换为其近音字或者近义字，从而提高纠错模型这方面的学习能力，获得表达正确语义的预测结果。获得第二训练文本之后，将其输入至上述预训练语言模型中，获得第二预测结果。便于后续对比第二预测结果与期望的预测结果之间的差异，从而调整模型参数。

步骤S44，基于初始文本和第二预测结果调整预训练语言模型中参数的值，以使得第二预测结果向初始文本靠近。

进一步根初始文本和第二预测结果调整预训练语言模型中参数的值，以使得预训练语言模型的第二预测结果向初始文本靠近，即以更高概率替换为近音字或者近义字，表达正确的语义。可以理解的是，训练过程可能会经过多次参数调整，直至符合预期。

本实施方式利用神经网络技术对预训练语言模型进行训练，使其能够对输入其中的文本中的文字进行近音字或者近义字替换，获得表达正确语义的预测结果，从而提高纠错模型这方面的学习能力，提高语音识别及语义理解的准确性。

在一个实施方式中，请参阅图6，图6为图1中步骤S14一实施方式的流程示意图，可通过如下步骤利用第二文本获取语音识别结果。

步骤S61，根据第二文本获取第二语义，并判断第二文本与第一文本之间的差异是否仅与第一特征实体文本序列相关。若是，则执行下述步骤S62，否则，执行下述步骤S63。

如前所述，第一文本包括第一实体文本序列和其他文本序列，第一语义包括的第一实体语义是与第一实体文本序列对应的语义理解结果，且第一实体语义具有对应的实体类型标签，表征第一实体文本序列的实体类型。该实体类型包括集合类型和特征类型，即第一实体语义属于集合类实体或者特征类实体，且第一实体文本序列包括第一集合实体文本序列和第一特征实体文本序列，第一集合实体文本序列的语义理解结果为属于集合类实体的第一实体语义，第一特征实体文本序列的语义理解结果为属于特征类实体的第一实体语义。例如“城市”、“歌手”等属于集合类实体，“时间”、“地点”等属于特征类实体。

第二文本在对第一文本中的第一实体文本序列及对应的实体类型标签进行纠错获得的，本实施方式在获得第二文本之后，利用语义理解装置对第二文本进行语义理解以获得第二语义，同时，判断第二文本与第一文本之间的差异是否仅与第一特征实体文本序列相关，即判断纠错过程是否仅对属于特征类实体的第一实体文本序列进行了纠错，便于根据不同的判断结果获得不同的语音识别结果。

步骤S62，将第二语义作为语音识别结果。

如果第二文本与第一文本之间的差异仅与第一特征实体文本序列相关，说明仅对属于特征类实体的第一实体文本序列进行了纠错，大概率上这种纠错是可信的，不易发生错误，本实施方式在这种情况下直接认可第二语义，将其作为语音识别结果。

步骤S63，响应于第二语义符合预设标准，将第二语义作为语音识别结果，响应于第二语义不符合预设标准，将第一语义作为语音识别结果。

如果第二文本与第一文本之间的差异不是仅与第一特征实体文本序列相关，说明还对属于集合类实体的第一实体文本序列以及其进行了纠错，本实施方式在这种情况下不直接认可这种纠错，而是进一步判断根据纠错后的第二文本获得的第二语义是否符合上述预设标准。在符合的情况下认为第二语义是可信的，将其作为语音识别结果。在不符合的情况下则仍将根据纠错前的第一文本获得的第一语义作为语音识别结果。具体的判断第二语义是否符合上述预设标准的过程将在下面描述。

本实施方式根据纠错的具体内容及第二语义设置了认可最终的语音识别结果的方式，提高了获得更准确语音识别及语义理解的概率。

在一个实施方式中，请参阅图7，图7为图6中步骤S61一实施方式的流程示意图，可通过如下步骤根据第二文本获取第二语义。

步骤S71，对第二文本进行意图语义理解以获得第二意图语义，以及根据相互匹配的第二实体文本序列和实体类型标签获得第二实体语义。

第二文本在对第一文本中的第一实体文本序列及对应的实体类型标签进行纠错获得的，较大概率上其能够反映准确的语音识别结果，本实施方式在获得第二文本之后，首先利用语义理解装置对其进行意图语义理解以获得第二意图语义，相当于是对第一语义中的第一意图语义进行纠错。且获得纠错后的第二文本之后，根据其中相互匹配的第二实体文本序列和实体类型标签已经可以获得纠错后的第二实体语义，可以直接与第二意图语义组合获得第二语义。

步骤S72，将第二意图语义和第二实体语义组合以获得第二语义。

直接将第二意图语义和第二实体语义组合以获得第二语义，较大概率上能够反映准确的语音识别结果。

本实施方式根据纠错后的第二文本获得第二意图语义，对第一意图语义进行了纠错，同时，获得第二文本的过程即相当于对第一实体语义进行了纠错，因此，组合第二意图语义和第二实体语义获得的第二语义提高了语音识别及语义理解的准确性。

在一个实施方式中，请参阅图8，图8为图1中步骤S14另一实施方式的流程示意图，本实施方式包括上述步骤S61-S63，且在步骤S61之前，还包括如下步骤。

步骤S81，判断第二文本中的字符及字符顺序是否与第一文本匹配。若是，则执行下述步骤S82。否则，执行下述步骤S83。

本实施方式在获得纠错后的第二文本之后，首先判断第二文本中的字符及字符顺序是否与第一文本匹配，从而可以在进一步利用第二文本获得第二语义之前预判第一语义是否是准确的。

步骤S82，不执行利用第二文本获取语音识别结果的步骤，并将第一语义作为语音识别结果。

如果第二文本中的字符及字符顺序与第一文本匹配，说明纠错过程并预测出的结果与纠错前是一致的，也就是说第一文本较大概率上是准确的，本实施方式在这种情况下直接将第一语义作为语音识别结果，提高语音识别过程的效率。

步骤S83，执行利用第二文本获取语音识别结果的步骤。即执行上述步骤S61-S63，将第一语义或者第二语义作为语音识别结果。

如果第二文本中的字符及字符顺序与第一文本不匹配，说明纠错过程确实对第一文本进行了纠错，也就是说第一文本较大概率上是不准确的，本实施方式在这种情况下进一步利用第二文本获得语音识别结果，具体可参阅上述步骤S61-S63，此处不再赘述。

本实施方式根据第二文本和第一文本的对比，预判第一语义是否准确，从而执行不同的步骤，提高语音识别及语义理解过程的效率和准确性。

在一个实施方式中，请参阅图9，图9为图1中步骤S12一实施方式的流程示意图，可通过如下步骤判断第一语义是否符合预设标准。

步骤S91，判断第一语义包括的组合是否在预设的合理组合列表中。若不在，则执行下述步骤S92。若在，则执行下述步骤S93。

如前所述，第一语义包括第一意图语义和第一实体语义的组合，第一实体语义属于集合类实体或者特征类实体。本申请是否对第一文本纠错取决于第一语义是否符合预设标准，具体地，首先判断第一语义包括的组合是否在预设的合理组合列表中，该合理组合列表可预先设置在语音识别装置中，包括了常见的各种合理组合。

步骤S92，判定第一语义不符合预设标准。

如果第一语义包括的组合不在上述合理组合列表中，则直接认定第一语义是不符合预设标准的，需要对其进行纠错，以获得准确的语音识别结果，具体纠错过程可参阅上述各实施方式。

步骤S93，进一步判断是否同时满足，第一实体语义均属于集合类实体，且第一实体语义在预设的集合类实体列表中。若同时满足，则执行下述步骤S94。若不是同时满足，则执行下述步骤S95。

如果第一语义包括的组合在上述合理组合列表中，还需进一步判断是否同时满足两个条件，一是第一实体语义均属于集合类实体，二是第一实体语义在预设的集合类实体列表中，从而判断是否需要对第一语义进行纠错。其中集合类实体列表可预先设置在语音识别装置中，包括了常见的属于集合类实体的第一实体语义。

步骤S94，判定第一语义符合预设标准。

如果同时满足上述两个条件，本实施方式判定第一语义是符合预设标准的，不需要进行纠错，直接将第一语义作为语音识别结果。

步骤S95，判定第一语义不符合预设标准。

如果不是同时满足上述两个条件，本实施方式判定第一语义是不符合预设标准的，需要对其进行纠错，以获得准确的语音识别结果，具体纠错过程可参阅上述各实施方式。

本实施方式通过判断第一语义是否符合预设标准来确定是否需要进行纠错，从而将第一语义或者第二语义作为语音识别结果，能够提高语音识别及语义理解过程的效率和准确性。

上述部分实施方式中，还需要判断第二语义是否符合预设标准，具体可采用与步骤S91-S95相同的流程进行判断，此处不再赘述。

下面结合一个具体的应用场景说明本申请语音识别方法的流程，请参阅图10，图10为本申请语音识别方法另一实施方式的流程示意图，该语音识别方法包括如下步骤。

步骤S101，根据语音信息获取第一文本，并根据第一文本获取第一语义。

具体可参阅上述步骤S11，例如用户给出语音信息，想要询问“下周三北京的天气怎么样”，据此获得的第一文本是“夏周三背景的天气怎么样”，对应的第一语义将“夏周三”理解为标准类第一实体文本序列，并添加了“daytime”的实体类型标签，将“背景”理解为集合类第一实体文本序列，并添加了“city”的实体类型标签。

步骤S102，判断第一语义是否符合预设标准。若是，则执行下述步骤S103，否则，执行下述步骤S104。

具体可参阅上述步骤S91-S95，上述第一语义不符合预设标准，跳转至步骤S104，执行纠错过程。

步骤S103，将第一语义作为语音识别结果。

步骤S104，对第一文本进行纠错获得第二文本，并根据第二文本获得第二语义。

具体为先根据第一文本获得纠错文本“daytime(xiazhousan)city(beijing)的天气怎么样”，再利用纠错模型对第一文本中的第一实体文本序列和对应的实体类型标签均进行纠错，得到第二文本“datetime(下周三)city(北京)的天气怎么样”，再据其获得第二语义。具体细节可参阅上述各相关实施方式的描述。

步骤S105，判断第二语义是否符合预设标准。若是，则执行下述步骤S106，否则，执行上述步骤S103。

具体可参阅上述步骤S91-S95，上述第二语义符合预设标准，跳转至步骤S106，获得语音识别结果。

步骤S106，将第二语义作为语音识别结果。

本实施方式能够提高语音识别及语义理解的准确性。基于同样的发明构思，本申请还提供一种语音识别装置，请参阅图11，图11为本申请语音识别装置一实施方式的结构示意图，该语音识别装置包括第一语义获取模块11、第一判断模块12和响应模块13。其中，第一语义获取模块11用于根据语音信息获取第一文本，并根据第一文本获取第一语义；其中，第一文本包括第一实体文本序列，第一语义包括与第一实体文本序列对应的第一实体语义，且第一实体语义具有对应的实体类型标签。

其中，第一判断模块12用于判断第一语义是否符合预设标准。响应模块13用于在第一语义符合预设标准时，将第一语义作为语音识别结果；以及用于在第一语义不符合预设标准时，将第一文本中的第一实体文本序列替换为对应的发音编码序列，并为发音编码序列添加实体类型标签，以获得纠错文本；根据发音编码序列获得第二实体文本序列，并使实体类型标签与第二实体文本序列相匹配，以获得第二文本；利用第二文本获取语音识别结果。

本实施方式对不符合预设标准的第一语义对应的第一文本进行纠错处理以获得第二文本，且聚焦于与语义相关的第一实体文本序列的纠错而非全部文本序列，再根据纠错后的第二文本获得语音识别结果，且预测生成的第二实体文本序列可以受到实体类型标签约束，再进一步根据第二语义是否符合预设标准来获得最终的语音识别结果，使得语音识别及语义理解的准确性更高。

在一个实施方式中，请参阅图12，图12为图11中响应模块一实施方式的结构示意图，响应模块13包括执行模块131、纠错模块132和第二语义获取模块133。执行模块131用于在第一语义符合预设标准时，将第一语义作为语音识别结果。纠错模块132包括替换模块1321和第一神经网络模块1322，替换模块1321用于在第一语义不符合预设标准时，将第一文本中的第一实体文本序列替换为对应的发音编码序列，并为发音编码序列添加实体类型标签，以获得纠错文本。第一神经网络模块1322用于在替换模块1321获得纠错文本之后，根据发音编码序列获得第二实体文本序列，并使实体类型标签与第二实体文本序列相匹配，以获得第二文本。第二语义获取模块133用于利用第二文本获取语音识别结果。

其中，第一神经网络模块1322包括第一训练模块13221和第一输入输出模块13222，第一训练模块13221用于对纠错模型进行训练，第一输入输出模块13222用于将纠错文本输入纠错模型，并将纠错模型的输出作为第二文本。

具体地，第一训练模块13221用于提供第一训练文本，第一训练文本中包括发音编码样本序列，且发音编码样本序列带有与之匹配的文本标注样本序列和类型标注样本序列；将第一训练文本输入至纠错模型中获得第一预测结果；基于第一训练文本和第一预测结果调整纠错模型中参数的值，以使得第一预测结果向第一期望文本靠近，第一期望文本包括文本标注样本序列和类型标注样本序列。

本实施方式能够提高语音识别及语义理解的准确性。

在一个实施方式中，请继续参阅图12，纠错模块132还包括第二训练模块1323和初始化模块1324。在第一训练模块13221对纠错模型进行训练之前，第二训练模块1323用于对预训练语言模型进行训练。初始化模块1324用于利用训练后的预训练语言模型的参数初始化纠错模型中编码层的参数。

具体地，第二训练模块1323用于提供初始文本，初始文本中包含多个文字，且初始文本表达正确的语义；获得初始文本中每个文字被替换为预设集合内任一其他文字的第一概率，并以第一概率将初始文本中至少一个文字替换为其他文字，以获得第二训练文本；将第二训练文本输入至预训练语言模型中获得第二预测结果；基于初始文本和第二预测结果调整预训练语言模型中参数的值，以使得第二预测结果向初始文本靠近。

具体地，第二训练模块1323用于针对初始文本中的每一文字，获得当前文字与预设集合内任一其他文字之间的发音相似度和含义相似度；获得与当前文字相关的所有发音相似度的第一和值、以及与当前文字相关的所有含义相似度的第二和值；获得当前文字与另一文字之间的发音相似度与第一和值的第一比值、以及当前文字与另一文字之间的含义相似度与第二和值的第二比值；获得第一比值与第一概率的第一乘积、以及第二比值与第二概率的第二乘积，并将第一乘积和第二乘积之和作为第一概率；其中，第一概率和第二概率之和小于1。

本实施方式能够提高语音识别及语义理解的准确性。

在一个实施方式中，第二语义获取模块133包括第一分析模块1331和调用模块1332。其中，第一实体语义属于集合类实体或者特征类实体，第一实体文本序列包括第一集合实体文本序列和第一特征实体文本序列，第一集合实体文本序列的语义理解结果为属于集合类实体的第一实体语义，第一特征实体文本序列的语义理解结果为属于特征类实体的第一实体语义。

第一分析模块1331具体用于根据第二文本获取第二语义，并判断第二文本与第一文本之间的差异是否仅与第一特征实体文本序列相关。调用模块1332用于在该差异仅与第一特征实体文本序列相关时，调用执行模块131将第二语义作为语音识别结果；以及在该差异不是仅与第一特征实体文本序列相关时，响应于第二语义符合预设标准，调用执行模块131将第二语义作为语音识别结果，响应于第二语义不符合预设标准，调用执行模块131将第一语义作为语音识别结果。

其中，第一语义还包括第一意图语义，第一意图语义是对第一文本进行意图语义理解获得的，第一分析模块1331具体还用于对第二文本进行意图语义理解以获得第二意图语义，以及根据相互匹配的第二实体文本序列和实体类型标签获得第二实体语义；并将第二意图语义和第二实体语义组合以获得第二语义。

本实施方式能够提高语音识别及语义理解的准确性。

在一个实施方式中，请继续参阅图12，响应模块13还包括第二判断模块134，用于在第二语义获取模块133利用第二文本获取语音识别结果之前，判断第二文本中的字符及字符顺序是否与第一文本匹配；并在匹配时，直接将第一语义作为语音识别结果，并通知第二语义获取模块133不执行利用第二文本获取语音识别结果的步骤；在不匹配时，通知第二语义获取模块133执行利用第二文本获取语音识别结果的步骤。

本实施方式能够提高语音识别及语义理解的准确性。

在一个实施方式中，请参阅图13，图13为图11中第一判断模块一实施方式的结构示意图，第一判断模块12包括第二分析模块121和报告模块122。其中，第一语义包括第一意图语义和第一实体语义的组合，第一实体语义属于集合类实体或者特征类实体。

具体地，第二分析模块121用于判断第一语义包括的组合是否在预设的合理组合列表中。报告模块122用于在该组合不在合理组合列表中时，判定第一语义不符合预设标准；用于在该组合在合理组合列表中时，进一步判断是否同时满足，第一实体语义均属于集合类实体，且第一实体语义在预设的集合类实体列表中；以及用于在同时满足时，判定第一语义符合预设标准，且在不是同时满足时，判定第一语义不符合预设标准。

本实施方式能够提高语音识别及语义理解的准确性。

基于同样的发明构思，本申请还提供一种语音识别装置，请参阅图14，图14为本申请语音识别装置一实施方式的结构示意图，该语音识别装置包括存储器141和处理器142，其中，存储器141存储有程序指令，处理器142能够执行该程序指令，以实现上述任一实施方式所述的语音识别方法。具体请参阅上述实施方式，此处不再赘述。

此外，本申请还提供一种计算机可读存储介质，请参阅图15，图15为本申请计算机可读存储介质一实施方式的结构示意图，该存储介质150上存储有程序指令151，该程序指令151能够被处理器执行，以实现上述任一实施方式所述的语音识别方法。具体请参阅上述实施方式，此处不再赘述。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音识别方法，其特征在于，包括：

判断所述第一语义是否符合预设标准；

若是，则将所述第一语义作为所述语音识别结果；

2.根据权利要求1所述的语音识别方法，其特征在于，所述根据所述发音编码序列获得第二实体文本序列，并使所述实体类型标签与所述第二实体文本序列相匹配，以获得第二文本的步骤，包括：

对纠错模型进行训练；

3.根据权利要求2所述的语音识别方法，其特征在于，所述对纠错模型进行训练的步骤，包括：

4.根据权利要求2所述的语音识别方法，其特征在于，所述对纠错模型进行训练的步骤之前，还包括：

对预训练语言模型进行训练；

5.根据权利要求4所述的语音识别方法，其特征在于，所述对预训练语言模型进行训练的步骤，包括：

6.根据权利要求5所述的语音识别方法，其特征在于，所述获得所述初始文本中每个文字被替换为预设集合内任一其他文字的第一概率的步骤，包括：

7.根据权利要求1所述的语音识别方法，其特征在于，所述第一实体语义属于集合类实体或者特征类实体，所述第一实体文本序列包括第一集合实体文本序列和第一特征实体文本序列，所述第一集合实体文本序列的语义理解结果为属于所述集合类实体的第一实体语义，所述第一特征实体文本序列的语义理解结果为属于所述特征类实体的第一实体语义；所述利用所述第二文本获取所述语音识别结果的步骤，包括：

若是，则将所述第二语义作为所述语音识别结果；

8.根据权利要求7所述的语音识别方法，其特征在于，所述第一语义还包括第一意图语义，所述第一意图语义是对所述第一文本进行意图语义理解获得的，所述根据所述第二文本获取第二语义的步骤，包括：

9.根据权利要求1所述的语音识别方法，其特征在于，所述第一语义包括第一意图语义和所述第一实体语义的组合，所述第一实体语义属于集合类实体或者特征类实体；所述判断所述第一语义是否符合预设标准的步骤，包括：

若不在，则判定所述第一语义不符合所述预设标准；

10.根据权利要求1所述的语音识别方法，其特征在于，所述利用所述第二文本获取语音识别结果的步骤之前，还包括：

11.一种语音识别装置，其特征在于，包括：

第一判断模块，用于判断所述第一语义是否符合预设标准；

12.一种语音识别装置，其特征在于，包括存储器和处理器，所述存储器存储有程序指令，所述处理器能够执行所述程序指令，以实现权利要求1-10任一项所述的语音识别方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质上存储有程序指令，所述程序指令能够被处理器执行，以实现权利要求1-10任一项所述的语音识别方法。