CN114387949A

CN114387949A - 一种语音识别的置信度估计方法、装置及计算机设备

Info

Publication number: CN114387949A
Application number: CN202210019192.5A
Authority: CN
Inventors: 张钰辉; 赵茂详; 李全忠; 何国涛; 蒲瑶
Original assignee: Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Current assignee: Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2022-04-22

Abstract

本发明公开了一种语音识别的置信度估计方法、装置及设备，包括：获取待估计语句；将待估计语句送入声学模型进行计算和解码，以获取待估计语句中每个音素对应声学模型状态的后验值；将音素的后验值送入预先构建的音素模糊矩阵，计算单音素置信度；根据单音素置信度计算待估计语句的置信度。本发明通过利用音素模糊矩阵，来进行单音素置信度的计算，以得到整体语音的置信度，解决了在现有的置信度计算方法中，存在计算置信度效果不理想、计算量大、影响准确率等问题。

Description

一种语音识别的置信度估计方法、装置及计算机设备

技术领域

本发明涉及人工智能领域，尤其涉及一种语音识别的置信度估计方法、装置及计算机设备。

背景技术

随着人工智能及语音识别技术的不断发展，以及提高人机交互效率的需求的日益增长，对语音识别的置信度提出了更高的要求。

置信度包括准确率和拒识能力，准确率是把人类说话发出的“语音”转换为对应形式的“文字”，拒识能力是对如噪音等的非预期输入进行识别及排除。

置信度可以反映识别结果的可靠程度，在语音识别的现有的置信度计算方法中，存在计算置信度效果不理想、计算量大、影响准确率等问题。

发明内容

本申请实施例通过提供一种语音识别的置信度估计方法、装置及计算机设备，解决了现有技术中语音识别中置信度计算效果不理想的问题。

第一方面，本申请实施例提供了一种语音识别的置信度估计方法，包括：

获取待估计语句；

将所述待估计语句送入声学模型进行计算和解码，以获取所述待估计语句中每个音素对应所述声学模型状态的后验值作为识别结果；

将所述音素的后验值送入预先构建的音素模糊矩阵，计算单音素置信度；

根据所述单音素置信度计算所述识别结果的置信度。

在其中一个实施例中，所述将所述待估计语句送入声学模型进行计算和解码，以获取所述待估计语句中每个音素对应所述声学模型状态的后验值，包括：

将所述待估计语句的语言信号分帧后转换成特征序列；

将所述特征序列中后验概率最大的词序列作为每个音素对应声学模型状态的后验值。

在其中一个实施例中，所述预先构建的音素模糊矩阵包括：所述音素模糊矩阵对于每一个音素选取与其相似度较高的音素作为其模糊音素。

在其中一个实施例中，所述计算单音素置信度，包括：

对所述每个音素及其所述模糊音素的后验值加权，所述加权系数为其模糊系数，得到所述每个音素对应的声学置信度。

在其中一个实施例中，所诉根据所述单音素置信度计算所述识别结果的置信度包括：

根据所述每个音素对应的声学置信度，计算所述识别结果的声学模型置信度；

根据所述识别结果的声学模型置信度，计算所述识别结果的语言模型置信度；

根据所述识别结果的语言模型置信度，计算所述识别结果的置信度。

在其中一个实施例中，所述计算所述识别结果的声学模型置信度包括：

基于每个音素对应的帧长加权其声学置信度计算得到所述识别结果的声学模型置信度。

在其中一个实施例中，所述计算所述识别结果的语言模型置信度包括：

对于所述识别结果，计算整个所述识别结果的语言模型的得分，并根据所述待估计语句的词组个数进行平均值计算，所述计算结果作为所述识别结果的语言模型置信度。

在其中一个实施例中，所述计算所述识别结果的置信度，包括：

加权计算所述声学模型置信度和所述语言模型置信度，作为所述识别结果的置信度。

本发明通过提供一种语音识别的置信度计算方法，通过利用音素模糊矩阵，计算出单音素的置信度，以此为基础，进行整体语句的置信度计算，解决了在现有语音识别的置信度计算方法中，存在计算置信度效果不理想、计算量大、影响准确率等问题，实现了提高语音识别置信度的计算效果、减缩了语音识别置信度计算的计算量，使语音识别置信度计算更便捷、准确以及高效。

第二方面，本发明提供一种语音识别的置信度估计装置，包括：

接收模块，所述接收模块用于获取所述待估计语句；

特征提取模块，所述特征提取模块用于将所述待估计语句送入声学模型进行计算和解码，以获取所述待估计语句中每个音素对应所述声学模型状态的后验值；

音素模糊模块，所述音素模糊模块将所述音素的后验值送入预先构建的音素模糊矩阵，计算单音素置信度；

计算模块，所述计算模块根据所述单音素置信度计算所述待估计语句的置信度。

第三方面，本发明提供一种计算机设备，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现如上述提供的任意一种语音识别的置信度检测方法。

附图说明

图1为本发明第一实施例提供的一种语音识别的置信度估计方法示意图；

图2为本发明第二实施例提供的一种语音识别的置信度估计方法的步骤S2的具体流程示意图；

图3为本发明第三实施例提供的一种语音识别的置信度估计方法的步骤S4的具体流程示意图；

图4为本发明提供的一种语音识别的置信度估计装置示意图；

图5为本发明提供的一种计算机设备结果示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

参阅图1所示，图1是本发明第一实施例提供的一种语音识别的置信度估计方法示意图。

本发明提供提供一种语音识别的置信度估计方法，包括以下步骤：

步骤S1：获取待估计语句；

具体地，待估计语句是需要进行置信度估计的语句，这种语句通常是人声。

更具体地，当有人说话发出人声时，就会产生待估计语句，待估计语句将由接收人声的设备进行获取，可以理解的是，这里不限制获取待估计语句的设备。

步骤S2：将待估计语句送入声学模型进行计算和解码，以获取待估计语句中每个音素对应声学模型状态的后验值作为识别结果；

具体地，在解码步骤中，除了需要用到声学模型，还需要用到语言模型和发音词典；声学模型和语言模型是从大量的训练数据集中得到的统计模型；发音词典描述了每个词对应的音素序列；解码过程就是在声学模型，语言模型和发音辞典的约束下，将音频特征后验概率最大的词序列作为解码的识别结果，即对每个音素对应声学模型状态的后验值进行计算和记录。

步骤S3：将音素的后验值送入预先构建的音素模糊矩阵，计算单音素置信度；

具体地，音素模糊矩阵是对于每一个音素选取与其相似度较高的音素作为其模糊音素；例如：对于音素“C”，其对应的模糊音素分别为：模糊音素“CH”，其模糊系数为0.73；模糊音素“Z”，其模糊系数为0.51；模糊音素“S”，其模糊系数为0.50。

可以理解的是，在音素模糊矩阵中，对于任意一个音素，其对应的模糊音素越接近原有的音素，其模糊音素的模糊系数就越接近1。

更具体地，单音素的置信度计算方法为：对每个音素及其模糊音素的后验值加权，加权系数为其模糊系数，得到每个音素对应的声学置信度。

可以理解的是，利用音素模糊矩阵来对单音素的置信度进行计算，可以实现高效、便捷的效果。

步骤S4：根据单音素置信度计算识别结果的置信度；

具体地，待估计语句的置信度可以根据待估计语句的语言模型的置信度计算得出，而待估计语句的语言模型的置信度可以根据待估计语句的声学模型的置信度计算得出，待估计语句的声学模型的置信度可以根据待估计语句的单音素置信度计算得出；可以理解的是，当获得了单音素对应的声学置信度，便可以通过计算得到待估计语句的置信度。

更具体地，对每个音素及其模糊音素的后验值加权，加权系数为其模糊系数，得到每个音素对应的声学置信度。

在本实施例中，通过音素模糊矩阵，计算得到单音素的置信度，以此为基础，计算待估计语句的置信度，解决了在现有的置信度计算方法中，存在计算置信度效果不理想、计算量大、影响准确率等问题。

参阅图2所示，图2是本发明第二实施例提供的一种语音识别的置信度估计方法的步骤S2流程示意图。

步骤S21：将待估计语句的语言信号分帧后转换成特征序列；

具体地，将待估计语句的语言信号分帧后转换成特征序列大致有两种方式，分别为：非参数解卷，即倒谱分析，代表作为MFCC；参数解卷，即线性预测解卷，代表作为PLP。

更具体地，非参数解卷就是把卷积这种非线性问题转换到线性问题上解决：在频谱上做log对数，此时再在加性的对数频谱上做DCT或DFT，就得到了倒谱。

更具体地，线性预测分析，是在P阶上通过若干个语音采样信号的线性组合逼近原始信号，使得与原始信号的最小均方误差最小，求得一组唯一预测系数。

步骤S22：将特征序列中后验概率最大的词序列作为每个音素对应声学模型状态的后验值；

参阅图3所示，图3是本发明第三实施例提供的一种语音识别的置信度估计方法的步骤S4流程示意图。

步骤S41：根据每个音素对应的声学置信度，计算识别结果的声学模型置信度；

具体地，基于每个音素对应的帧长加权其声学置信度计算得到识别结果的声学模型置信度。

可以理解的是，在不同的应用场景中，为避免个别音素的影响，可以选取识别结果局部的置信度作为声学模型置信度；例如，选取最小的相邻8个音素的置信度加权计算作为识别结果的声学模型置信度。

步骤S42：根据识别结果的声学模型置信度，计算识别结果的语言模型置信度；

具体地，识别结果的语言模型置信度可以根据识别结果的声学模型置信度计算得到，并且根据识别结果的语言模型置信度可以计算得到识别结果的置信度。

更具体地，对于识别结果，计算整个识别结果的语言模型的得分，并根据待估计语句的词组个数进行平均值计算，计算结果作为识别结果的语言模型置信度。

步骤S43：根据识别结果的语言模型置信度，计算识别结果的置信度；

具体地，加权计算所述声学模型置信度和所述语言模型置信度，作为所述识别结果的置信度。

可以理解的是，识别结果的置信度反映了识别结果的可靠程度，在本发明提供的一种语音识别的置信度估计方法中，以得分的形式对识别结果的置信度进行估计，得分的高低反映识别结果准确度的高低。

参阅图4，图4是本发明提供的一种语音识别的置信度估计装置示意图。

本发明提供一种语音识别的置信度估计装置，包括以下部分：

接收模块1，接收模块用于获取待估计语句；

特征提取模块2，特征提取模块用于将待估计语句送入声学模型进行计算和解码，以获取待估计语句中每个音素对应声学模型状态的后验值；

音素模糊模块3，音素模糊模块将音素的后验值送入预先构建的音素模糊矩阵，计算单音素置信度；

计算模块4，计算模块根据单音素置信度计算待估计语句的置信度。

参阅图5，图5是本发明提供的一种计算机设备结果示意性框图。

本发明提供一种计算机设备，包括存储器和处理器：

存储器用于存储计算机程序；

处理器用于执行计算机程序并在执行所述计算机程序时实现如上述提供的一种语音识别的置信度计算方法。

在发明提供的一种计算机设备中，处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行上述任意一种语音识别的置信度估计方法。

内存储器为非易失性存储介质中医用药塞外观瑕疵检测方法的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行上述任意一种语音识别的置信度估计方法。

网络接口用于进行网络通信，如发送分配的任务等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域技术人员可以理解，上述计算机设备内的结构，仅仅是与本申请方案相关的部分结构，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比上述更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任意一种语音识别的置信度估计方法。该程序执行时可包括本发明提供的一种语音识别的置信度估计方法各实施例中的部分或全部步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于ROM/RAM、磁盘或光盘等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

在本实施例中，图像获取方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别的置信度估计方法，其特征在于，包括：

获取待估计语句；

根据所述单音素置信度计算所述识别结果的置信度。

2.如权利要求1所述的一种基于音素模糊的置信度估计方法，其特征在于，所述将所述待估计语句送入声学模型进行计算和解码，以获取所述待估计语句中每个音素对应所述声学模型状态的后验值，包括：

将所述待估计语句的语言信号分帧后转换成特征序列；

3.如权利要求1所述的一种基于音素模糊的置信度估计方法，其特征在于，所述预先构建的音素模糊矩阵包括：

所述音素模糊矩阵对于每一个音素选取与其相似度较高的音素作为其模糊音素。

4.如权利要求3所述的一种基于音素模糊的置信度估计方法，其特征在于，所述计算单音素置信度，包括：

5.如权利要求4所述的一种基于音素模糊的置信度估计方法，其特征在于，所诉根据所述单音素置信度计算所述识别结果的置信度包括：

6.如权利要求5所述的一种基于音素模糊的置信度估计方法，其特征在于，所述计算所述识别结果的声学模型置信度包括：

7.如权利要求5所述的一种基于音素模糊的置信度估计方法，其特征在于，所述计算所述识别结果的语言模型置信度包括：

8.如权利要求5所述的一种基于音素模糊的置信度估计方法，其特征在于，所述计算所述识别结果的置信度，包括：

9.一种语音识别的置信度估计装置，其特征在于，包括：

接收模块，所述接收模块用于获取所述待估计语句；

10.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至8中任一项所述的语音识别的置信度估计方法。