CN115376491A

CN115376491A - 一种语音置信度计算方法、系统、电子设备及介质

Info

Publication number: CN115376491A
Application number: CN202210797323.2A
Authority: CN
Inventors: 杨恒杰
Original assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Current assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-11-22
Anticipated expiration: 2042-07-06
Also published as: CN115376491B

Abstract

本发明涉及一种语音置信度计算方法、系统、电子设备及介质，包括步骤：获取待处理语音；根据待处理语音，通过编码器，确定输出特征，输出特征表征了编码器提取出的语音的音频特征；根据输出特征，通过声学解码器，确定待处理语音对应的多个目标转译文本，以及每个目标转译文本对应的目标声学得分；根据输出特征和各个目标转译文本，通过语言解码器，确定每个目标转译文本对应的语言得分；根据输出特征、各个目标声学得分和各个语言得分，通过语音置信度模型，确定待处理语音的置信度。现有技术只利用了解码器输出的N个最优得分即判断出语音识别的置信度，缺少了更为丰富的声学编码和语言信息的问题。

Description

一种语音置信度计算方法、系统、电子设备及介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音置信度计算方法、系统、电子设备及介质。

背景技术

ASR(Automatic Speech Recognition,自动语音识别)是一种将人的语音转换为可编辑文本的技术，广泛应用于：人机对话、会议记录、实时翻译等场景，随着人工智能技术的发展，以端到端为基础的语音识别技术逐渐成为目前的主流框架，但在该框架下，针对自然嘈杂场景下的语音、未知方言、未知外语等语音，仍然会出现错误转译结果，因此，需要计算语音的置信度来获取语音转换为可编辑文本的准确性。

目前主流的语音置信度计算方法是采用基于字密度置信度去计算，这种方法的缺点在于只利用了解码器输出的N个最优得分(AM Nbest score) 即判断出语音识别的置信度，缺少了更为丰富的信息，使得确定的置信度不够准确。

发明内容

为了克服现有技术只利用了解码器输出的N个最优得分即判断出语音识别的置信度，缺少了更为丰富的声学编码和语言信息的问题，本发明提供了一种语音置信度计算方法、系统、电子设备及介质。

第一方面，为了解决上述技术问题，本发明提供了一种语音置信度计算方法，包括以下步骤：

获取待处理语音；

根据待处理语音，通过编码器，确定输出特征，输出特征表征了编码器提取出的语音的音频特征；

根据输出特征，通过声学解码器，确定待处理语音对应的多个目标转译文本，以及每个目标转译文本对应的目标声学得分，对于每个目标声学得分，目标声学得分表征了待处理语音转译为目标转译文本的概率；

根据输出特征和各个目标转译文本，通过语言解码器，确定每个目标转译文本对应的语言得分，对于每个语言得分，语言得分表征了目标转译文本对应的权重；

根据输出特征、各个目标声学得分和各个语言得分，通过语音置信度模型，确定待处理语音的置信度。

本发明提供的一种语音置信度计算方法的有益效果是：通过编码器得到输出特征，通过声学解码器得到目标转译文本的目标声学得分，以及语言解码器得到目标转译文本的语言得分，通过输出特征、目标声学得分和语言得分得到待处理语言的置信度，解决了现有技术只利用了解码器输出的N个最优得分即判断出语音识别的置信度，缺少了更为丰富信息，使得确定的置信度不够准确的问题。

在上述技术方案的基础上，本发明的一种语音置信度计算方法还可以做如下改进。

进一步，上述根据输出特征，通过声学解码器，确定语音对应的多个目标转译文本，以及每个目标转译文本对应的目标声学得分，包括：

根据输出特征，通过声学解码器，确定语音对应的多个第一转译文本，以及每个第一转译文本对应的第一声学得分；

获取各个第一声学得分中前N个第一声学得分作为目标声学得分，并将各个目标声学得分所对应的第一转译文本作为对应的目标转译文本。

采用上述进一步方案的有益效果是：输出特征通过声学解码器后，会得到多个第一转译文本，以及每个第一转译文本对应的第一声学得分，由于第一声学得分越大，表明待处理语音转译为该第一声学得分对应的第一转译文本的概率越大，因此，仅获取前N个第一声学得分作为目标声学得分，并将目标声学得分所对应的第一转译文本作为对应的目标转译文本。

进一步，上述根据输出特征、各个目标声学得分和各个语言得分，通过语音置信度模型，确定语音的置信度，包括：

根据各个目标声学得分，得到第一向量，第一向量中每个元素表征了任一目标声学得分；

根据各个语言得分，得到第二向量，第二向量中每个元素表征了任一语言得分；

根据输出特征，得到第三向量，第三向量中每个元素表征了输出特征中的任一特征；

根据第一向量、第二向量和第三向量，将第一向量、第二向量和第三向量进行特征串联，得到输入向量；

根据输入向量，通过语音置信度模型，确定待处理语音的置信度。

采用上述进一步方案的有益效果是：将输出特征、各个目标声学得分和各个语言得分均转换为向量(即第一向量、第二向量和第三向量)，通过第一向量、第二向量和第三向量之间的特征串联，得到输入向量，将输入向量输入语音置信模型，就能得到待处理语音的置信度，由于输入向量融合了输出特征、各个目标声学得分和各个语言得分，因此，丰富了其声学编码和语言信息，使得获取的待处理语音的置信度更准确。

进一步，该方法还包括：

根据置信度，确定置信度对应的目标分数，目标分数为0-1的概率值。

采用上述进一步方案的有益效果是：用户能够直接通过目标分数的大小判断待处理语音的置信度的得分情况，更加直观。

进一步，上述根据置信度，确定置信度对应的目标分数，包括：

根据置信度，通过第一公式，确定目标分数，其中，第一公式为：

其中，f(x)表示目标得分，x表示置信度。

采用上述进一步方案的有益效果是：将置信度直接输入第一公式中，将置信度通过第一公式映射到范围为0-1的概率上，使得用户能够更加直观的观察待处理语音识别的置信度的得分情况。

第二方面，本发明提供了一种语音置信度计算系统，包括：

获取模块，用于获取待处理语音；

第一确定模块，用于根据待处理语音，通过编码器，确定输出特征，输出特征表征了编码器提取出的语音的音频特征；

第二确定模块，用于通过声学解码器，确定待处理语音对应的多个目标转译文本，以及每个目标转译文本对应的目标声学得分，对于每个目标声学得分，目标声学得分表征了待处理语音转译为目标转译文本的概率；

第三确定模块，用于根据输出特征和各个目标转译文本，通过语言解码器，确定每个目标转译文本对应的语言得分，对于每个语言得分，语言得分表征了目标转译文本对应的权重；

第四确定模块，用于根据输出特征、各个目标声学得分和各个语言得分，通过语音置信度模型，确定待处理语音的置信度。

本发明提供的一种语音置信度计算系统的有益效果是：通过编码器得到输出特征，弥补了现有技术缺少的的语言信息，通过声学解码器得到目标转译文本的目标声学得分，以及语言解码器得到目标转译文本的语言得分，弥补了现有技术缺少的的声学编码信息，最后通过输出特征、目标声学得分和语言得分得到待处理语言的置信度，解决了现有技术只利用了解码器输出的N个最优得分即判断出待处理语音的置信度，缺少了更为丰富的声学编码和语言信息的问题。

第三方面，本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并在处理器上运行的程序，处理器执行程序时实现如上述的一种语音置信度计算方法的步骤。

第四方面，本发明还提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在终端设备上运行时，使得终端设备执行如上述的一种语音置信度计算方法的步骤。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面结合附图和实施例对本发明作进一步说明。

图1为本发明实施例的一种语音置信度计算方法的流程示意图；

图2为本发明实施例的一种语音置信度计算系统的结构示意图。

具体实施方式

下列实施例是对本发明的进一步解释和补充，对本发明不构成任何限制。

以下结合附图描述本发明实施例的一种语音置信度计算系统。

如图1所示，本发明实施例的一种语音置信度计算方法，包括以下步骤：

S1，获取待处理语音。

S2，根据待处理语音，通过编码器，确定输出特征，输出特征表征了编码器提取出的语音的音频特征。

可选的，编码器是基于conformer模型训练得到的。

可选的，输出特征为T*D维的特征矩阵。

S3，根据输出特征，通过声学解码器，确定待处理语音对应的多个目标转译文本，以及每个目标转译文本对应的目标声学得分，对于每个目标声学得分，目标声学得分表征了待处理语音转译为目标转译文本的概率。

可选的，声学解码器是基于连结时序分类模型训练得到的。声学解码器的作用是将语音转译为转译文本，转移文本指的是将语音转化的文本，声音解码器还可根据语音，得到语音转译为转译文本的概率，声学解码器可基于现有的模型训练方式训练得到，在此不再赘述。

可选的，根据所述输出特征，通过声学解码器，确定所述语音对应的多个目标转译文本，以及每个所述目标转译文本对应的目标声学得分，包括：

根据输出特征，通过声学解码器，确定待处理语音对应的多个第一转译文本，以及每个第一转译文本对应的第一声学得分；

本实施例中，由于第一声学得分越大，表明待处理语音转译为该第一声学得分所对应的第一转移文本的概率就越大，因此，将第一声学得分进行分值由大到小排序后，排名靠后的第一声学得分不具备参考意义，仅取各个第一声学得分中前N个第一声学得分作为目标声学得分即可，数值 N可由实验或经验而定。

本实施例中，得到多个目标声学得分后，将目标声学得分采用第一向量进行表示，其中，第一向量为1*N维向量。

S4，根据输出特征和各个目标转译文本，通过语言解码器，确定每个目标转译文本对应的语言得分，对于每个语言得分，语言得分表征了目标转译文本对应的权重。

可选的，语言解码器是基于transformer模型训练得到的。语言解码器的作用是得到每个目标转译文本对应的语言得分，对于每个语言得分，该语言得分表征了目标转译文本对于待处理语音的重要程度，语音解码器可基于现有的模型训练方式训练得到，在此不再赘述。

本实施例中，得到多个语言得分后，将语言得分采用第二向量进行表示，其中，第二向量为1*N维向量表示。

S5，根据输出特征、各个目标声学得分和各个语言得分，通过语音置信度模型，确定待处理语音的置信度。

其中，语音置信度模型的作用是根据输出特征、各个目标声学得分和各个语言得分，得到待处理语音的置信度，语音置信度模型可基于现有的模型训练方式训练得到，在此不再赘述。

可选的，上述根据所述输出特征、各个所述目标声学得分和各个所述语言得分，通过语音置信度模型，确定所述语音的置信度，包括：

根据任意一个矩阵，通过第二公式，可得到矩阵中每个节点的输出值，其中，第二公式为：

其中，softmax(Z_i)表示矩阵Z中每个节点i的输出值，C表示矩阵 z中节点的总个数，通过第二公式，将矩阵中每个节点的输出值转换为在 [0,1]且和为1的概率分布上，矩阵中每个节点表征矩阵中的一个元素；

基于上述方案，预先定义第一参数矩阵和第二参数矩阵，其中，第一参数矩阵为da*D维矩阵，第二参数矩阵为1*da维矩阵，由于输出特征为T*D维的特征矩阵，因此，需要先将特征矩阵进行降维，先变为da*n 维的矩阵，再将da*n维的矩阵变为1*n维的矩阵，而1*n维矩阵即为权重向量，具体如下：

根据第二公式再结合双曲函数可得到第三公式，根据特征矩阵、第一参数矩阵和第二参数矩阵，通过第三公式，得到权重向量，其中，第三公式为：

其中，tanh(x)表示双曲函数，x表示特征矩阵中的任意一个元素， W_S1表示第一参数矩阵，W_S2表示第二参数矩阵，E表示特征矩阵，E^T表示转置后的特征矩阵，

表示权重向量；

将权重向量

与特征矩阵E进行加权即可得到特征矩阵经过降维后对应的1*D维的第三向量；

此时，可将输出特征、各个目标声学得分和各个语言得分进行串联 (实质是将第一向量、第二向量、第三向量进行特征串联)，得到输入向量。

可选的，该方法还包括：

可选的，根据置信度，通过第一公式，确定目标分数，其中，第一公式为：

其中，f(x)表示目标得分，x表示置信度。

本实施例中，将置信度输入第一公式中，第一公式将置信度映射到范围0到1的概率上，目标分数越大，表明了待处理语音识别的置信度更高。

如图2所示，本发明实施例的一种语音置信度计算系统，包括：

获取模块202，用于获取待处理语音；

第一确定模块203，用于根据待处理语音，通过编码器，确定输出特征，输出特征表征了编码器提取出的语音的音频特征；

第二确定模块204，用于通过声学解码器，确定待处理语音对应的多个目标转译文本，以及每个目标转译文本对应的目标声学得分，对于每个目标声学得分，目标声学得分表征了待处理语音转译为目标转译文本的概率；

第三确定模块205，用于根据输出特征和各个目标转译文本，通过语言解码器，确定每个目标转译文本对应的语言得分，对于每个语言得分，语言得分表征了目标转译文本对应的权重；

第四确定模块206，用于根据输出特征、各个目标声学得分和各个语言得分，通过语音置信度模型，确定待处理语音的置信度.

可选的，第二确定模块204通过第一单元获得目标转译文本和目标声学得分，其中，第一单元具体用于：

可选的，第四确定模块206用于通过第二单元确定待处理语音的置信度，其中，第二单元，具体用于：

根据输出特征、各个目标声学得分和各个语言得分，通过注意力特征融合机制，依次将输出特征、各个目标声学得分和各个语言得分进行串联，得到输入向量；

可选的，该系统还包括：

第五确定模块，用于根据置信度，确定置信度对应的目标分数，目标分数为0-1的概率值。

可选的，第五确定模块用于通过第三单元确定目标分数，其中，第三单元，具体用于：

其中，f(x)表示目标得分，x表示置信度。

本发明实施例的一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，所述处理器执行所述程序时实现上述一种语音置信度计算方法的部分或全部步骤。

其中，电子设备可以选用电脑，相对应地，其程序为电脑软件，且上述关于本发明的一种电子设备中的各参数和步骤，可参考上文中一种语音置信度计算方法的实施例中的各参数和步骤，在此不做赘述。

所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音置信度计算方法，其特征在于，包括以下步骤：

获取待处理语音；

根据所述待处理语音，通过编码器，确定输出特征，所述输出特征表征了所述编码器提取出的所述语音的音频特征；

根据所述输出特征，通过声学解码器，确定所述待处理语音对应的多个目标转译文本，以及每个所述目标转译文本对应的目标声学得分，对于每个所述目标声学得分，所述目标声学得分表征了所述待处理语音转译为所述目标转译文本的概率；

根据所述输出特征和各个所述目标转译文本，通过语言解码器，确定每个所述目标转译文本对应的语言得分，对于每个所述语言得分，所述语言得分表征了所述目标转译文本对应的权重；

根据所述输出特征、各个所述目标声学得分和各个所述语言得分，通过语音置信度模型，确定所述待处理语音的置信度。

2.根据权利要求1所述的方法，其特征在于，所述根据所述输出特征，通过声学解码器，确定所述语音对应的多个目标转译文本，以及每个所述目标转译文本对应的目标声学得分，包括：

根据所述输出特征，通过声学解码器，确定所述待处理语音对应的多个第一转译文本，以及每个所述第一转译文本对应的第一声学得分；

获取各个所述第一声学得分中前N个第一声学得分作为目标声学得分，并将各个所述目标声学得分所对应的第一转译文本作为对应的目标转译文本。

3.根据权利要求1所述的方法，其特征在于，所述根据所述输出特征、各个所述目标声学得分和各个所述语言得分，通过语音置信度模型，确定所述语音的置信度，包括：

根据各个所述目标声学得分，得到第一向量，所述第一向量中每个元素表征了任一目标声学得分；

根据各个所述语言得分，得到第二向量，所述第二向量中每个元素表征了任一语言得分；

根据输出特征，得到第三向量，所述第三向量中每个元素表征了输出特征中的任一特征；

根据所述第一向量、第二向量和第三向量，将所述第一向量、第二向量和第三向量进行特征串联，得到输入向量；

根据所述输入向量，通过语音置信度模型，确定所述待处理语音的置信度。

4.根据权利要求1所述的方法，其特征在于，还包括：

根据所述置信度，确定所述置信度对应的目标分数，所述目标分数为0-1的概率值。

5.根据权利要求4所述的方法，其特征在于，所述根据所述置信度，确定所述置信度对应的目标分数，包括：

根据置信度，通过第一公式，确定所述目标分数，其中，第一公式为：

其中，所述f(x)表示目标得分，x表示置信度。

6.一种语音置信度计算系统，其特征在于，包括：

获取模块，用于获取待处理语音；

第一确定模块，用于根据所述待处理语音，通过编码器，确定输出特征，所述输出特征表征了所述编码器提取出的所述语音的音频特征；

第二确定模块，用于通过声学解码器，确定所述待处理语音对应的多个目标转译文本，以及每个所述目标转译文本对应的目标声学得分，对于每个所述目标声学得分，所述目标声学得分表征了所述待处理语音转译为所述目标转译文本的概率；

第三确定模块，用于根据所述输出特征和各个所述目标转译文本，通过语言解码器，确定每个所述目标转译文本对应的语言得分，对于每个所述语言得分，所述语言得分表征了所述目标转译文本对应的权重；

第四确定模块，用于根据所述输出特征、各个所述目标声学得分和各个所述语言得分，通过语音置信度模型，确定所述待处理语音的置信度。

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述的一种语音置信度计算方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如权利要求1至6任一项所述的一种语音置信度计算方法的步骤。