CN111145748A

CN111145748A - 音频识别置信度确定方法、装置、设备及存储介质

Info

Publication number: CN111145748A
Application number: CN201911395044.8A
Authority: CN
Inventors: 雷延强
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-12
Anticipated expiration: 2039-12-30
Also published as: CN111145748B

Abstract

本申请实施例公开了一种音频识别置信度确定方法、装置、设备及存储介质，涉及语音识别技术领域，其包括：获取音频数据的音频识别结果，所述音频识别结果包含识别得到的至少一个文字结果以及每个音素的音素参数；根据所述音频识别结果确定音素时长特征和/或音素似然特征；将所述音素时长特征和/或所述音素似然特征输入至神经网络模型中，并根据输出结果确定所述音频数据的置信度。采用上述方法，可以解决现有技术中语音识别结果易受客观因素的影响，出现执行错误指令的技术问题。

Description

音频识别置信度确定方法、装置、设备及存储介质

技术领域

本申请实施例涉及语音识别技术领域，尤其涉及一种音频识别置信度确定方法、装置、设备及存储介质。

背景技术

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术已经被广泛应用于各类智能设备，例如，将语音识别技术应用于智能音响中。此时，用户可以通过说话的方式向智能音响发出指令，如通过设定命令词唤醒智能音响。相应的，智能音响接收到用户的音频数据后，对音频数据进行识别，以执行对应的指令。发明人在实现本发明的过程中，发现现有技术存在如下缺陷：语音识别结果易受到麦克风性能、外界环境噪声等客观因素的影响，经常会出现误识别的现象，即语音识别结果准确度低，进而出现智能设备执行错误指令的现象。

发明内容

本申请提供了一种音频识别置信度确定方法、装置、设备及存储介质，以解决现有技术中语音识别结果易受客观因素的影响，出现执行错误指令的技术问题。

第一方面，本申请实施例提供了一种音频识别置信度确定方法，包括：

获取音频数据的音频识别结果，所述音频识别结果包含识别得到的至少一个文字结果以及所述音频数据中每个音素的音素参数；

根据所述音频识别结果确定音素时长特征和/或音素似然特征；

将所述音素时长特征和/或所述音素似然特征输入至神经网络模型中，并根据输出结果确定所述音频数据的置信度。

进一步的，所述音素参数包括：音素的持续时间，所述音素时长特征包括：每个所述音素的持续时长、每个所述音素的归一化时长以及全部所述音素的持续总时长中的至少一项。

进一步的，所述音素参数包括：音素在每帧下的语音特征以及所述音素在每帧下所述文字结果中的最优分类结果，所述音素的持续时间内包含多个帧；

所述根据所述音频识别结果确定音素似然特征包括：

根据所述语音特征和所述最优分类结果计算所述音素在对应帧下的最优音素似然；

根据所述最优音素似然得到音素似然特征。

进一步的，所述音素似然特征包括：每个所述音素的最小似然；

所述根据所述最优音素似然得到音素似然特征包括：

在所述音素的持续时间内各帧对应的全部所述最优音素似然中，选择数值最小的最优音素似然作为对应音素的最小似然。

进一步的，所述音素参数还包括：音素在每帧下对应的最大分类结果，所述音素似然特征包括：每个所述音素的似然差异；

根据所述语音特征和所述最优分类结果计算所述音素在对应帧下的最优音素似然时，还包括：

根据所述语音特征和所述最大分类结果计算所述音素在对应帧下的最大音素似然；

所述根据所述最优音素似然得到音素似然特征包括：

将所述最大音素似然与对应帧下的所述最优音素似然作差，以得到对应帧下的似然差异；

在所述音素的持续时间内各帧对应的全部所述似然差异中，选择最小似然差异作为所述音素的似然差异。

进一步的，所述音素似然特征包括：所述文字结果中相邻文字的音素似然；

所述根据所述最优音素似然得到音素似然特征包括：

计算所述音素的持续时间内各帧对应的全部所述最优音素似然的似然均值；

获取所述文字结果中的相邻文字；

获取所述相邻文字中各音素的似然均值以及音素权重；

根据各所述音素的似然均值和所述音素权重得到所述相邻文字的音素似然。

进一步的，所述音素似然特征还包括：每个所述音素的似然均值。

进一步的，所述获取音频数据的音频识别结果包括:

获取音频数据；

将所述音频数据输入深度神经网络-隐马尔可夫模型中，以得到所述音频数据的音频识别结果。

进一步的，所述神经网络模型为深度神经网络模型，所述深度神经网络模型包含2个隐层，每个所述隐层中设置32个节点。

进一步的，所述音频数据包含至少一个命令词，所述输出结果包括：所述命令词的可靠程度和所述命令词的不可靠程度。

进一步的，所述根据输出结果确定所述音频数据的置信度之后，还包括：

根据所述置信度确定所述命令词的执行策略。

第二方面，本申请实施例还提供了一种音频识别置信度确定装置，包括：

结果获取模块，用于获取音频数据的音频识别结果，所述音频识别结果包含识别得到的至少一个文字结果以及所述音频数据中每个音素的音素参数；

特征确定模块，用于根据所述音频识别结果确定音素时长特征和/或音素似然特征；

置信度确定模块，用于将所述音素时长特征和/或所述音素似然特征输入至神经网络模型中，并根据输出结果确定所述音频数据的置信度。

第三方面，本申请实施例还提供了一种音频识别置信度确定设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的音频识别置信度确定方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的音频识别置信度确定方法。

上述音频识别置信度确定方法、装置、设备及存储介质，通过对音频数据进行语音识别，以得到音频识别结果，之后，基于音频识别结果得到音素时长特征和/或音素似然特征，并通过神经网络模型识别音素时长特征和/或音素似然特征以得到音频数据的置信度的技术手段，可以解决现有技术中语音识别结果易受客观因素的影响，出现执行错误指令的技术问题。通过音素时长特征和/或音素似然特征对音频识别结果进行置信度计算，可以确定音频识别结果的可靠程度，进而确定是否执行对应的指令。尤其对于语音唤醒设备的场景，可以降低误唤醒的概率，提升用户的使用体验。进一步的，音素时长特征和音素似然特征的特征维度较低，对于深度神经网络模型的要求不高，且音素时长特征和音素似然特征可以基于音频识别结果得到，无需增加语音识别计算的复杂度。

附图说明

图1为本申请一个实施例提供的一种音频识别置信度确定方法的流程图；

图2为本申请一个实施例提供的一种音频识别置信度确定方法的流程图；

图3为本申请一个实施例提供的分类结果示意图；

图4为本申请一个实施例提供的一种音频识别置信度确定装置的结构示意图；

图5为本申请一个实施例提供的一种音频识别置信度确定设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

实施例中提供的音频识别置信度确定方法可以由音频识别置信度确定设备执行，该音频识别置信度确定设备可以通过软件和/或硬件的方式实现，该音频识别置信度确定设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。例如，音频识别置信度确定设备可以是电脑、手机、平板、交互智能平板、智能镜、智能钟表、智能音响以及智能电视机等智能设备。该音频识别置信度确定设备设置有音频采集装置(如麦克风)可以进行语音数据的采集，还具有语音识别功能，以使用户可以通过发出语音命令的方式向音频识别置信度确定设备发出控制指令。

图1为本申请一个实施例提供的一种音频识别置信度确定方法的流程图。参考图1，该音频识别置信度确定方法具体包括：

步骤110、获取音频数据的音频识别结果，音频识别结果包含识别得到的至少一个文字结果以及音频数据中每个音素的音素参数。

示例性的，音频数据是指音频识别置信度确定设备通过音频采集装置采集的语音数据。一个实施例中，音频数据为用户发出的、包含命令词的语音数据。其中，命令词是指可以控制音频识别置信度确定设备执行对应指令的词汇。不同指令可以对应不同的命令词。举例而言，设定唤醒音频识别置信度确定设备的命令词为“小源”，此时，用户可以发出包含“小源”的语音数据，以向音频识别置信度确定设备发出唤醒指令。

音频识别结果是指对音频数据进行语音识别后得到的识别结果。语音识别采用的具体技术手段实施例不做限定。音频识别结果包含音频数据的文字结果，即语音转文字的结果，该文字结果可以体现音频数据包含的命令词。音频识别结果还包括音素的音素参数。其中，音素参数是指识别过程中得到的与音素有关的参数，如每个音素在音频数据中的持续时间以及音频数据中每一帧对应的语音特征及分类结果等至少一个内容可以认为是音素参数。本实施例中，音素为音频识别结果中的最小单位，也可以理解为建模单元。音素的具体组成方式可以根据实际情况设定，例如，组成文字的声母和韵母可以认为是一个音素，举例，文字“虹”中的声母“h”为一个音素、韵母“ong”为另一个音素。再如，组成文字的拼音中每个发音动作为一个音素，举例，文字“虹”中发音动作包括“h”“o”“n”“g”，即文字“虹”包含四个音素。

可以理解，音频识别结果所包含的内容与采用的语音识别技术有关。一个实施例中，采用深度神经网络-隐马尔可夫模型(DNN-HMM)识别音频数据得到音频识别结果。此时，得到的音频识别结果包含文字结果、每个文字在音频数据中的起始时刻位置以及终止时刻位置、每个音素在音频数据中的持续时间以及音频数据中每一帧对应的语音特征及分类结果等内容。一般而言，语音识别过程中会产生多个文字结果，其中一个是最优的文字结果，实施例中，将最优的文字结果作为音频识别结果进行输出，即实施例中提及的文字结果是指输出的最优文字结果。其中，该文字结果中包含识别得到的命令词。若语音识别过程中产生的全部文字结果中均不包含任何命令词，则可以认为语音识别失败，并提醒用户重新输入音频数据。可以理解，在语音识别过程中，同一时间下产生的不同文字结果对应的音素相同。

步骤120、根据音频识别结果确定音素时长特征和/或音素似然特征。

音素时长特征是指根据音素的持续时间得到的与时间有关的特征，其具体内容可以结合实际情况设定，此时，音素参数包括：音素的持续时间，即音素在音频数据中的持续时长，其可以根据音素的起始时间、结束时间确定。一个实施例中，音素参数包括：音素的持续时间，音素时长特征包括每个音素的持续时长、每个音素的归一化时长以及全部音素的持续总时长中的至少一项。可以理解，音频数据中重复音素互相独立。例如，音频数据包含8个音素，无论音频数据中是否包含重复音素，音素时长特征均包含8个音素对应的持续时长。

示例性的，归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量。实施例中，对每个音素的持续时长进行归一化处理，以得到对应音素的归一化时长。可选的，各归一化时长全部落入设定的范围，如各归一化时长全部位于[0,1]或[-1,1]之间。需要说明，归一化的计算方法实施例不做限定，如采用线性函数归一化方法进行归一化处理。可以理解，每个音素均有对应的归一化时长。

一个实施例中，将音频数据中全部音素的持续时长相加，便可以得到全部音素的持续总时长。例如，音频数据包含8个音素，将8个音素的持续时长相加后便可以得到持续总时长。

可以理解，实际应用中，音素时长特征还可以包含其他内容，实施例对此不做限定。音素时长特征主要基于音素的持续时间确定。

音素似然特征用于体现音素的似然相关特征，音素似然特征可以通过音频识别结果中的文字结果和音素的音素参数得到，通过音素似然特征可以描述音素识别准确程度。音素似然特征的具体内容可以根据实际情况设定，如音素似然特征包括音素的最小似然、音素的似然差异、音素的似然均值以及相邻文字的音素似然等中至少一项。

一个实施例中，音素的持续时长内包含多个帧，每个帧可以得到一个音素的似然。若文字结果为多个，那么，音素在每个文字结果的同一帧下，均可以得到一个音素似然。例如，文字结果为3个，那么某个音素在同一帧下有3个音素似然，且3个音素似然分别对应一个文字结果。实施例中，以一个文字结果为例。示例性的，音素参数包括语音特征和分类结果，此时，计算音素的似然前，先确定每个音素在当前帧的语音特征以及分类结果。其中，语音特征具备将语音信号转换为计算机能够处理的语音特征向量、符合或类似人耳的听觉感知特性以及在一定程度上能够增强语音信号、抑制非语音信号的条件。语音特征可以采用线性预测倒谱系数(Linear Predictive Cepstral Coefficient，LPCC)、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等方法确定。典型的，预先设置音素的不同分类。其中，分类方式实施例不做限定，例如，每个音素对应的不同声调分为一类。又如，基于隐马尔可夫进行语音识别时，将每个音素对应的每个声调分为三类。之后，通过DNN-HMM处理时，可以确定每个音素在每帧下的分类结果。可以理解，由于语音识别过程中会产生不同的文字结果，此时，不同文字结果中同一音素的声调等内容可能不同，即同一帧下不同文字结果中的相同音素可能会有不同分类结果。因此，可以根据实际情况设定输出的分类结果的种类，如，输出各音素在文字结果中对应的每一帧的分类结果，和/或，输出各音素每一帧下的最大分类结果，和/或，输出各音素每一帧下的最小分类结果等。可以理解，同理可知，语音识别过程中不同文字结果下同一帧对应的音素的语音特征可能相同或不同，因此，可以根据实际情况设定输出的语音特征的种类，实施例中，以同一帧下音素在不同文字结果中的语音特征相同为例。之后，通过计算音素在当前帧下的分类结果属于语音特征的概率得到音素的似然。可以理解，由于，同一帧下相同音素可能会有不同的语音特征和/或分类结果，因此同一帧下音素可以计算得到多个似然结果。

进一步的，通过音素的似然可以得到音频似然特征。例如，音素似然特征为音素的最小似然，此时，可以确定某个音素的持续时长内各帧下输出的文字结果中对应的音素似然，并选择最小的音素似然作为该音素的最小似然。再如，音素似然特征为音素的似然差异。此时，可以获取同一帧下某个音素在文字结果中的分类结果以及最大的分类结果，并分别计算两个分类结果对应的音素似然，以得到该帧下的似然差异。之后，在音素持续时长内各帧对应的似然差异中，选择最小的似然差异作为该音素的似然差异。又如，音素似然特征包含音素的似然均值。此时，在文字结果中，确定每个音素在持续时长内各帧下的音素似然，并计算每个音素对应的各音素似然的均值以作为当前音素的似然均值。还如，音素似然特征包含文字结果中相邻文字的音素似然。此时，获取文字结果中相邻文字包含的音素，并得到各音素对应的似然均值。之后，根据似然均值以及对应音素的权重确定相邻文字的音素似然。

可以理解，实际应用中可以根据需求选择得到音素时长特征和/或音素似然特征，并设置音素时长特征和/或音素似然特征包含的具体内容。

步骤130、将音素时长特征和/或音素似然特征输入至神经网络模型中，并根据输出结果确定音频数据的置信度。

具体的，神经网络模型可以为深度神经网络模型，其具体的网络结构实施例不做限定。将音素时长特征和/或音素似然特征作为深度神经网络模型的输入，通过深度神经网络模型得到音频数据的置信度。可以理解，输入特征的维度越高，神经网络模型得到的结果准确度越高。可选的，神经网络模型可以直接输出音频数据的置信度分数，其中，置信度分数越高说明，说明音频数据的可靠程度越高。还可选的，神经网络模型可以输出音频数据的可靠分数和不可靠分数，可靠分数越高说明音频数据的置信度越高。

进一步的，通过音频数据的置信度可以确定音频识别结果的可靠程度，进而通过音频数据的置信度确定是否执行音频数据对应的指令。

上述，通过对音频数据进行语音识别，以得到音频识别结果，之后，基于音频识别结果得到音素时长特征和/或音素似然特征，并通过神经网络模型识别音素时长特征和/或音素似然特征以得到音频数据的置信度的技术手段，可以解决现有技术中语音识别结果易受客观因素的影响，出现执行错误指令的技术问题。通过音素时长特征和/或音素似然特征对音频识别结果进行置信度计算，可以确定音频识别结果的可靠程度，进而确定是否执行对应的指令。尤其对于语音唤醒设备的场景，可以降低误唤醒的概率，提升用户的使用体验。

图2为本申请一个实施例提供的一种音频识别置信度确定方法的流程图。本实施例是在上述实施例的基础上进行具体化。本实施例中，音频数据包含至少一个命令词。

参考图2，本实施例提供的音频识别置信度确定方法包括：

步骤210、获取音频数据。

具体的，实时获取音频采集装置采集的语音数据，之后，根据语音数据的间隔时间确定语音数据的起始位置和结束位置，进而根据起始位置和结果位置得到一段音频数据。

步骤220、将音频数据输入深度神经网络-隐马尔可夫模型中，以得到音频数据的音频识别结果。

具体的，DNN-HMM的网络结构以及参数可以根据实际情况设定，实施例对此不做限定。DNN-HMM在识别过程中可以利用帧的上下文信息，且可以识别深层非线性特征变换，得到比较优质的音频识别结果。

其中，音频识别结果包含识别得到的至少一个文字结果以及所述音频数据中每个音素的音素参数，音素参数包括：音素在每帧下的语音特征以及音素在每帧下文字结果中的最优分类结果，音素的持续时间内包含多个帧。具体的，每个音素的持续时长可以包含多个帧。每帧下的音素在文字结果中具有对应的语音特征和分类结果。实施例中，将基于文字结果得到的分类结果记为音素的最优分类结果。此时，每一帧内的音素均对应一个最优分类结果和语音特征。

步骤230、根据音频识别结果确定音素时长特征。

实施例中，音素时长特征包括每个音素的持续时长、每个音素的归一化时长以及全部音素的持续总时长。

步骤240、根据语音特征和最优分类结果计算音素在对应帧下的最优音素似然。

具体的，将基于最优分类结果得到的音素似然记为最优音素似然。一个实施例中，采用概率函数计算最优分类结果属于语音特征的概率，并作为音素在对应帧下的最优音素似然。其中，概率函数的具体计算公式实施例不做限定。例如，某个音素的持续时长记为T，T内包含多个帧，此时，第t帧下音素的语音特征记为o_t，第t帧下音素的最优分类结果记为q_t。相应的，第t帧下的最优音素似然可以表示为p(o_t/q_t),p为概率函数。或者，最优音素似然还可以为log(p(o_t/q_t))，其中，log的底数可以根据实际情况设定，如log的底数可以为10或e。按照上述方式便可以得到音素的持续时长内每个帧对应的最优音素似然。

步骤250、根据最优音素似然得到音素似然特征。

根据最优音素似然可以体现文字结果中各音素的似然，进而可以得到对应的音素似然特征，其中，不同音素似然特征对应的计算方式不同。实施例中，以音素似然特征包括：每个音素的最小似然、每个音素的似然差异、文字结果中相邻文字的音素似然以及每个音素的似然均值中的至少一项为例，进行描述。

一个实施例中，音素似然特征包括：每个音素的最小似然，此时，步骤250具体包括步骤251：

步骤251、在音素的持续时间内各帧对应的全部最优音素似然中，选择数值最小的最优音素似然作为对应音素的最小似然。

具体的，由于每个音素的持续时长包含多个帧，因此，可以确定持续时长内各帧下音素在文字结果中的最优音素似然，即确定音素的持续时长内的全部最优音素似然，之后，选择数值最小的最优音素似然作为音素的最小似然。可以理解，音频识别结果越准确，文字结果中音素的最优音素似然越高。此时，选择各音素数值最小的最优音素似然，可以理解为选择准确度低的音素似然作为后续神经网络模型的输入数据，这样使得模型的输出结果更可靠。

举例而言，文字结果中第t帧下音素的分类结果记为s_t，那么该音素的持续时长内最小似然可以表示为minp(o_t/s_t),或者min[log(p(o_t/s_t))]。

一个实施例中，音素参数还包括：音素在每帧下对应的最大分类结果，音素似然特征包括：每个音素的似然差异。其中，语音识别过程中同一帧内音素在不同文字结果下具有不同的分类结果，最大分类结果是指上述不同的分类结果中，数值最大的分类结果。此时，步骤240还包括：根据语音特征和最大分类结果计算音素在对应帧下的最大音素似然。

具体的，将基于最大分类结果计算得到音素似然记为最大音素似然。举例而言，图3为本申请一个实施例提供的分类结果示意图。参考图3，当前音素的持续时长内包含5个帧，且每个音素可能有6个不同的分类。此时，文字结果下每帧的最优分类结果如线条1所示。最大分类结果如线条2所示。需要说明，图3中音素在各帧下的最大分类结果与最优分类结果均不相同，实际应用中，音素在各帧下的最大分类结果与最优分类结果可以相同或不同。此时，可以基于最大分类结果计算得到音素在当前帧下的最大音素似然，基于最优分类结果计算得到音素在当前帧下的最优音素似然。最大音素似然的计算方式与最优音素似然的计算方式相同。此时，第t帧下的最大音素似然可以表示为maxp(o_t/q_t)或者max[log(p(o_t/q_t))]。

相应的，步骤250具体包括步骤252-步骤253：

步骤252、将最大音素似然与对应帧下的最优音素似然作差，以得到对应帧下的似然差异。

每个帧下的音素对应一个最大音素似然以及基于最优音素似然。之后，将最大音素似然与同一帧下的最优音素似然作差，便可以得到音素在当前帧下的似然差异。其中，通过似然差异体现语音识别过程中产生的各文字结果的差异程度，进而使神经网络模型通过差异程度确定音频数据的置信度。此时，第t帧下的似然差异可以表示为maxp(o_t/q_t)-p(o_t/s_t)或者max[log(p(o_t/q_t))]-log(p(o_t/s_t))。

步骤253、在音素的持续时间内各帧对应的全部似然差异中，选择最小似然差异作为音素的似然差异。

以图3为例，音素的持续时长包含5个帧，那么，该音素的持续时长内共有5个似然差异。之后，选择5个似然差异中的最小值作为该音素的似然差异。

一个实施例中，音素似然特征包括：文字结果中相邻文字的音素似然时，步骤250具体包括步骤254-步骤步骤257：

步骤254、计算音素的持续时间内各帧对应的全部最优音素似然的似然均值。

具体的，确定文字结果中各音素在每帧下的最优音素似然。之后，将某个音素的持续时长内各最优音素似然相加，得到文字结果中该音素的音素似然和值。之后，将音素似然和值与持续时长内帧的个数相除，以得到该音素的似然均值。举例而言，用h_i表示第i个音素，用p(h_i)表示第i个音素的似然均值，此时，

或者是，

其中，

为第i个音素的持续时长。

步骤255、获取文字结果中的相邻文字。

其中，相邻文字的划分规则可以根据实际情况设定。例如，将文字结果中相邻的两个文字划分为相邻文字。举例而言，文字结果为“小源小源”，此时，相邻文字包括“小源”、“源小”、“小源”三个。再如，将文字结果中除了单独文字和全部文字外的所有情况下的相邻文字均作为文字结果的相邻文字。举例而言，文字结果为“小源小源”，此时，相邻文字包括“小源”、“源小”、“小源”三个2相邻文字，以及“小源小”、“源小源”两个3相邻文字。

步骤256、获取相邻文字中各音素的似然均值以及音素权重。

将每个相邻文字作为一组，并获取一组相邻文字中每个音素的似然均值和音素权重。其中，每个音素均有一个音素权重。音素权重通过对应音素所属文字在音频数据中的频率决定。频率越高，说明文字出现次数越多，该文字包含的音素对应的权重越小。可以理解，某些情况下，一个文字包含多个音素，此时，一个文字包含的多个音素的音素权重可以相同或不同。例如，某个文字包含声母和韵母两个音素，此时，韵母的音素权重可以大于声母的音素权重。实际应用中，可以根据需求设置音素的音素权重。

步骤257、根据各音素的似然均值和音素权重得到相邻文字的音素似然。

具体的，将相邻文字中每个音素的似然均值与音素权重相乘，之后，将相乘结果相加，并将相加结果记为相邻文字的音素似然。举例而言，相邻文字包含n个音素且分别记为h₁、h₂、……、h_n-1、h_n，相邻文字的音素似然记为p(h₁h₂……h_n-1h_n)，此时，

其中，p(h_i)表示第i个音素的似然均值，ω_i表示第i个音素的似然权重。可以理解，相邻文字的音素似然考虑到了相邻文字的特征，使得后续得到的置信度结果更为准确。

可以理解，相邻文字的音素似然除了通过似然均值计算外，还可以通过音素的最大似然(即文字结果中持续时长内数值最大的最优音素似然)或最小似然(即文字结果中持续时长内数值最小的最优音素似然)得到。

一个实施例中，音素似然特征包括：每个音素的似然均值。其中，似然均值的计算方式与步骤254中的计算方式相同，在此不做赘述。

可以理解，音素似然特征和音素时长特征的计算顺序实施例不做限定。上述顺序仅用于解释实现过程，而非对计算顺序的限定。实际应用中，可以结合实际情况设置音素似然特征，例如，音素似然特征可以包括：每个音素的最小似然和每个音素的似然差异。又如，音素似然特征可以包括：每个音素的最小似然和文字结果中相邻文字的音素似然。

步骤260、将音素时长特征和音素似然特征输入至神经网络模型中，并根据输出结果确定音频数据的置信度。

一个实施例中，神经网络模型为深度神经网络模型，深度神经网络模型包含2个隐层，每个隐层中设置32个节点。其中，隐层也可以理解为隐藏层，其是指深度神经网络模型中除了输入层和输出层以外的其他各层。通过隐层数量可以确定本实施例中采用的深度神经网络模型为小型的神经网络模型。隐层中使用的各参数可以根据实际情况设定，实施例对此不做限定。

具体的，将音素时长特征和音素似然特征作为神经网络模型的输入，以得到输出结果。可以理解，音素时长特征和音素似然特征包含的数据特征越多，对应的输出结果的可靠程度越高。

一个实施例中，由于音频数据包含至少一个命令词，因此，设定输出结果包括命令词的可靠程度和命令词的不可靠程度。其中，可靠程度和不可靠程度的相加结果为1，即可靠程度越大，相应的不可靠程度越小。根据可靠程度和不可靠程度可以确定音频数据的置信度。其中，置信度确定方式实施例不做限定。例如，将可靠程度作为音频数据的置信度。

步骤270、根据置信度确定命令词的执行策略。

具体的，确定音频数据的置信度的过程可以认为是对音频识别结果进行验证的过程。之后，根据置信度便可以确定命令词的执行策略。例如，设置置信度阈值，当音频数据的置信度达到置信度阈值时，确定执行该命令词。否则，不执行该命令词。再如，通过比较命令词可靠程度和不可靠程度的大小确定执行策略。可靠程度大于不可靠程度，则执行该命令词，否则，不执行该命令词。

下面对本实施例提供的音频识别置信度确定方法进行示例性描述。

示例一、通过DNN-HMM识别音频数据，以得到音频识别结果，其中，通过音频识别结果确定音频数据包含8个音素。之后，分别确定8个音素对应的持续时长、归一化时长，以及8个音素的持续总时长，即音素时长特征包含8+8+1＝17个维度的特征。之后，计算8个音素的最小似然以及似然差值。之后，将17个维度的音素时长特征、8个维度的最小似然以及8个维度的似然差异作为深度神经网络模型的输入，以得到音频数据中命令词的可靠程度和不可靠程度，进而确定命令词的执行策略。

示例二、通过DNN-HMM识别音频数据，以得到音频识别结果，其中，通过音频识别结果确定音频数据包含4个文字，4个文字共8个音素。之后，分别确定8个音素对应的持续时长、归一化时长，以及8个音素的持续总时长，即音素时长特征包含8+8+1＝17个维度的特征。之后，计算8个音素的最小似然。进一步的，4个文字中共有5组相邻文字，之后，计算5组相邻文字的音素似然。然后，将17个维度的音素时长特征、8个维度的最小似然以及5个维度的相邻文字的音素似然作为深度神经网络模型的输入，以得到音频数据中命令词的可靠程度和不可靠程度，进而确定命令词的执行策略。

上述，通过获取音频数据，并通过DNN-HMM对音频数据进行语音识别，以得到音频识别结果，之后，基于音频识别结果中每个音素的持续时间得到音素时长特征，通过每个音素的语音特征和分类结果得到音素似然，进而得到音素似然特征，通过神经网络模型识别音素时长特征和音素似然特征以得到音频数据中命令词的可靠程度和不可靠程度，进而确定命令词的执行策略的技术手段，可以解决现有技术中语音识别结果易受客观因素的影响，出现执行错误指令的技术问题。通过音素时长特征和音素似然特征对音频识别结果进行置信度计算，可以确定音频识别结果的可靠程度，进而确定是否执行对应的指令，降低了执行错误指令的概率。并且，音素时长特征和音素似然特征的特征维度较低，对于深度神经网络模型的要求不高，且音素时长特征和音素似然特征可以基于音频识别结果得到，无需增加语音识别计算的复杂度。

图4为本申请一个实施例提供的一种音频识别置信度确定装置的结果示意图。参考图4，音频识别置信度确定装置包括：结果获取模块301、特征确定模块302以及置信度确定模块303。

其中，结果获取模块301，用于获取音频数据的音频识别结果，所述音频识别结果包含识别得到的至少一个文字结果以及所述音频数据中每个音素的音素参数；特征确定模块302，用于根据所述音频识别结果确定音素时长特征和/或音素似然特征；置信度确定模块303，用于将所述音素时长特征和/或所述音素似然特征输入至神经网络模型中，并根据输出结果确定所述音频数据的置信度。

在上述实施例的基础上，所述音素参数包括：音素的持续时间，所述音素时长特征包括：每个所述音素的持续时长、每个所述音素的归一化时长以及全部所述音素的持续总时长中的至少一项。

在上述实施例的基础上，所述音素参数包括：音素在每帧下的语音特征以及所述音素在每帧下所述文字结果中的最优分类结果，所述音素的持续时间内包含多个帧，所述特征确定模块302包括：时长特征确定单元，用于根据所述音频识别结果确定音素时长特征；似然计算单元，用于根据所述语音特征和所述最优分类结果计算所述音素在对应帧下的最优音素似然；特征计算单元，用于根据所述最优音素似然得到音素似然特征。

在上述实施例的基础上，所述音素似然特征包括：每个所述音素的最小似然；所述特征计算单元具体用于：在所述音素的持续时间内各帧对应的全部所述最优音素似然中，选择数值最小的最优音素似然作为对应音素的最小似然。

在上述实施例的基础上，所述音素参数还包括：音素在每帧下对应的最大分类结果，所述音素似然特征包括：每个所述音素的似然差异；所述似然计算单元，还用于根据所述语音特征和所述最大分类结果计算所述音素在对应帧下的最大音素似然；相应的，所述特征计算单元包括：差异计算子单元，用于将所述最大音素似然与对应帧下的所述最优音素似然作差，以得到对应帧下的似然差异；似然选择子单元，在所述音素的持续时间内各帧对应的全部所述似然差异中，选择最小似然差异作为所述音素的似然差异。

在上述实施例的基础上，所述音素似然特征包括：所述文字结果中相邻文字的音素似然；所述特征计算单元包括：均值计算子单元，用于计算所述音素的持续时间内各帧对应的全部所述最优音素似然的似然均值；相邻文字货获取子单元，用于获取所述文字结果中的相邻文字；权重获取子单元，用于获取所述相邻文字中各音素的似然均值以及音素权重；相邻似然计算子单元，用于根据各所述音素的似然均值和所述音素权重得到所述相邻文字的音素似然。

在上述实施例的基础上，所述音素似然特征包括：每个所述音素的似然均值。

在上述实施例的基础上，结果获取模块301包括：音频获取单元，用于获取音频数据；识别结果得到单元，用于将所述音频数据输入深度神经网络-隐马尔可夫模型中，以得到所述音频数据的音频识别结果，所述音频识别结果包含识别得到的至少一个文字结果以及音频数据中每个音素的音素参数。

在上述实施例的基础上，所述神经网络模型为深度神经网络模型，所述深度神经网络模型包含2个隐层，每个所述隐层中设置32个节点。

在上述实施例的基础上，所述音频数据包含至少一个命令词，所述输出结果包括：所述命令词的可靠程度和所述命令词的不可靠程度。

在上述实施例的基础上，还包括：策略确定模块，用于根据输出结果确定所述音频数据的置信度之后，根据所述置信度确定所述命令词的执行策略。

本申请实施例提供的音频识别置信度确定装置包含在音频识别置信度确定设备中，且可用于执行上述任意实施例提供的音频识别置信度确定方法，具备相应的功能和有益效果。

值得注意的是，上述音频识别置信度确定装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

图5为本申请一个实施例提供的一种音频识别置信度确定设备的结构示意图。如图5所示，该音频识别置信度确定设备包括处理器40、存储器41、输入装置42、输出装置43和音频采集装置44；音频识别置信度确定设备中处理器40的数量可以是一个或多个，图5中以一个处理器40为例；音频识别置信度确定设备中的处理器40、存储器41、输入装置42、输出装置43和音频采集装置44可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的音频识别置信度确定方法对应的程序指令/模块(例如，音频识别置信度确定装置中的结果获取模块301、特征确定模块302和置信度确定模块303)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行音频识别置信度确定设备的各种功能应用以及数据处理，即实现上述的音频识别置信度确定方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据音频识别置信度确定设备的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至音频识别置信度确定设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置42可用于接收输入的数字或字符信息，以及产生与音频识别置信度确定设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备、播放器等音频播放设备。音频采集装置44可以包括麦克风等，用于采集音频数据。

上述音频识别置信度确定设备可以用于执行上述任意实施例提供的音频识别置信度确定方法，具备相应的功能和有益效果。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种音频识别置信度确定方法，该方法包括：

当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本申请任意实施例所提供的音频识别置信度确定方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种音频识别置信度确定方法，其特征在于，包括：

2.根据权利要求1所述的音频识别置信度确定方法，其特征在于，所述音素参数包括：音素的持续时间，所述音素时长特征包括：每个所述音素的持续时长、每个所述音素的归一化时长以及全部所述音素的持续总时长中的至少一项。

3.根据权利要求1所述的音频识别置信度确定方法，其特征在于，所述音素参数包括：音素在每帧下的语音特征以及所述音素在每帧下所述文字结果中的最优分类结果，所述音素的持续时间内包含多个帧；

所述根据所述音频识别结果确定音素似然特征包括：

根据所述最优音素似然得到音素似然特征。

4.根据权利要求3所述的音频识别置信度确定方法，其特征在于，所述音素似然特征包括：每个所述音素的最小似然；

所述根据所述最优音素似然得到音素似然特征包括：

5.根据权利要求3所述的音频识别置信度确定方法，其特征在于，所述音素参数还包括：音素在每帧下对应的最大分类结果，所述音素似然特征包括：每个所述音素的似然差异；

所述根据所述最优音素似然得到音素似然特征包括：

6.根据权利要求3所述的音频识别置信度确定方法，其特征在于，所述音素似然特征包括：所述文字结果中相邻文字的音素似然；

所述根据所述最优音素似然得到音素似然特征包括：

获取所述文字结果中的相邻文字；

获取所述相邻文字中各音素的似然均值以及音素权重；

7.根据权利要求3所述的音频识别置信度确定方法，其特征在于，所述音素似然特征包括：每个所述音素的似然均值。

8.根据权利要求1所述的音频识别置信度确定方法，其特征在于，所述获取音频数据的音频识别结果包括:

获取音频数据；

9.根据权利要求1所述的音频识别置信度确定方法，其特征在于，所述神经网络模型为深度神经网络模型，所述深度神经网络模型包含2个隐层，每个所述隐层中设置32个节点。

10.根据权利要求1所述的音频识别置信度确定方法，其特征在于，所述音频数据包含至少一个命令词，所述输出结果包括：所述命令词的可靠程度和所述命令词的不可靠程度。

11.根据权利要求10所述的音频数据置信度确定方法，其特征在于，所述根据输出结果确定所述音频数据的置信度之后，还包括：

根据所述置信度确定所述命令词的执行策略。

12.一种音频识别置信度确定装置，其特征在于，包括：

13.一种音频识别置信度确定设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一所述的音频识别置信度确定方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-11中任一所述的音频识别置信度确定方法。