CN115881097B

CN115881097B - 语音识别结果的确认方法、装置、计算机设备及存储介质

Info

Publication number: CN115881097B
Application number: CN202310149052.4A
Authority: CN
Inventors: 李�杰; 王广新; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-07-18
Anticipated expiration: 2043-02-22
Also published as: CN115881097A

Abstract

本申请涉及智能语音技术领域，特别是一种误唤醒的识别方法、装置、计算机设备及存储介质，所述方法包括如下步骤：获取语音内容，基于所述语音内容获得对应的解码矩阵；获取所述语音内容的语音识别结果，基于所述语音识别结果获取对应的音素；将所述解码矩阵与所述音素对齐，获取所述语音识别结果的关键音素和非关键音素；获取所述关键音素和所述非关键音素的特征值；根据所述关键音素的特征值和所述非关键音素的特征值确定所述语音内容是否为正确的唤醒指令。本发明提高了语音识别的准确率和降低误唤醒率，给用户带来了更好的使用体验。

Description

语音识别结果的确认方法、装置、计算机设备及存储介质

技术领域

本申请涉及智能语音技术领域，特别是一种误唤醒的识别方法、装置、计算机设备及存储介质。

背景技术

目前在各种智能语音识别产品中，广泛存在唤醒词误识别的问题，比如语音控制家电命令词误触等，当用户发出唤醒词对应的语音指令时，电子设备可以从休眠状态中被唤醒并作出指定响应，而在日常使用的时候，当用户在聊天过程中说到了唤醒词，或跟唤醒词发音非常接近的词，则会很容易导致触发误唤醒，在一般现有技术中，通常采用优化唤醒模型的方法来降低误唤醒的触发率，但是这种通过优化唤醒模型来降低误唤醒的触发率的方法，耗费精力较大，但是效果不明显，影响用户的体验，所以如何提高语音识别的准确率和降低误唤醒率是急需解决的问题，给用户带来良好的使用体验。

发明内容

本申请一种在误唤醒的识别方法、装置、计算机设备及存储介质，旨在解决现有技术中存在的“语音识别的误唤醒率高”的技术问题。

为此，本申请提出一种误唤醒的识别方法，包括：

获取语音内容，基于所述语音内容获得对应的解码矩阵；

获取所述语音内容的语音识别结果，基于所述语音识别结果获取对应的音素；

将所述解码矩阵与所述音素对齐，获取所述语音识别结果的关键音素和非关键音素；

获取所述关键音素和所述非关键音素的特征值；

根据所述关键音素的特征值和所述非关键音素的特征值确定所述语音内容是否为正确的唤醒指令。

进一步地，所述获取语音内容，基于所述语音内容获得对应的解码矩阵，包括：

获取所述语音内容对应的语音波形，基于语音识别模型获取所述语音波形对应的解码矩阵。

进一步地，所述获取所述语音内容的语音识别结果，基于所述语音识别结果获取对应的音素，包括：

提取所述语音识别结果的特征，得到所述语音识别结果的声学特征；

基于声学模型获取所述语音识别结果对应的音素。

进一步地，所述将所述解码矩阵与所述音素对齐，获取所述语音识别结果的关键音素和非关键音素，包括：

在所述音素上插入预设字符生成音素序列；

基于维特比算法和ctc对齐准则获取所述音素序列的最大解码路径；

根据所述最大解码路径获取语音识别结果的关键音素。

进一步地，所述获取所述关键音素和所述非关键音素的特征值的步骤，包括：

获取所述语音识别内容的所有所述关键音素的关键音素得分；

根据所有所述关键音素的关键音素得分获取所有所述关键音素的关键音素的特征值；

将所有所述关键音素的关键音素的特征值进行求和，得到第一统计值；

将所述第一统计值作为所述关键音素的特征值。

进一步地，所述获取所述关键音素和所述非关键音素的特征值的步骤之后，包括：

获取所述语音识别内容的所有所述非关键音素的关键音素得分；

根据所有所述非关键音素的关键音素得分获取所有所述非关键音素的关键音素的特征值；

将所有所述非关键音素的关键音素的特征值进行求和，得到第二统计值；

将所述第二统计值作为所述非关键音素的特征值。

进一步地，所述根据所述关键音素的特征值和所述非关键音素的特征值确定所述语音内容是否为正确的唤醒指令，包括：

比较所述关键音素的特征值和所述非关键音素的特征值的大小；

将所述关键音素的特征值和所述非关键音素的特征值中的较大值设为判定值

判断所述判定值是否大于第二阈值；

若大于，则所述语音内容不是正确的唤醒指令；

若小于，则所述语音内容是正确的唤醒指令。

一种误唤醒的识别装置，包括：

获取解码矩阵模块：获取语音内容，基于所述语音内容获得对应的解码矩阵；

获取音素模块：获取所述语音内容的语音识别结果，基于所述语音识别结果获取对应的音素；

获取关键音素模块：将所述解码矩阵与所述音素对齐，获取所述语音识别结果的关键音素和非关键音素；

获取特征值模块：获取所述关键音素和所述非关键音素的特征值；

判断模块：根据所述关键音素的特征值和所述非关键音素的特征值确定所述语音内容是否为正确的唤醒指令。

本申请提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

附图说明

图1为本申请一实施例的一种误唤醒的识别方法流程示意图；

图2为本申请一实施例的一种误唤醒的识别装置结构示意图；

图3为本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例

仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一种误唤醒的识别方法，包括：

S10：获取语音内容，基于所述语音内容获得对应的解码矩阵；

S20：获取所述语音内容的语音识别结果，基于所述语音识别结果获取对应的音素；

S30：将所述解码矩阵与所述音素对齐，获取所述语音识别结果的关键音素和非关键音素；

S40:获取所述关键音素和所述非关键音素的特征值；

S50：根据所述关键音素的特征值和所述非关键音素的特征值确定所述语音内容是否为正确的唤醒指令。

如上述步骤S10所述，获取语音内容，基于所述语音内容获得对应的解码矩阵；

本实施例中，所述语音内容是用户实际说出的话，所述解码矩阵的行表示时间，列表示音素的概率分布，获取到用户的语音内容的御用波形，语音波形输入至语音识别模型，得到了所述语音内容对应的解码矩阵，具体地，在一实施例中，当用户说出“播放音乐”，将“播放音乐对应的语音波形输入至”语音识别模型，获得“播放音乐”对应的解码矩阵，在另一实施例中，若用户说的是“请帮我开空调，温度调整至26度”，当用户说的语音内容过长时，可以设置语义识别模型每60ms的语音数据输出一行结果，语音识别本质上是一种模式识别的过程，未知语音的模式与已知语音的参考模式逐一进行比较，最佳匹配的参考模式被作为识别结果，语音识别的目的就是让机器赋予人的听觉特性，听懂人说什么，并作出相应的动作。目前大多数语音识别技术是基于统计模式的，从语音产生机理来看，语音识别可以分为语音层和语言层两部分。通过上述方式，获取了用户的语音内容对应的解码矩阵。

如上述步骤S20所述：获取所述语音内容的语音识别结果，基于所述语音识别结果获取对应的音素；

本实施例中，所述获取所述语音内容的语音识别结果，基于所述语音识别结果获取对应的音素，包括：提取所述语音识别结果的特征，得到所述语音识别结果的声学特征；基于声学模型获取所述语音识别结果对应的音素。获取用户的语音识别结果，根据识别结果获取对应的音素，所述音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位，根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类。在pypinyin中，如啊（aa a），爱（aa ai ），代（d ai），具体地，在一实施例中，当用户说出“播放视频”，但语音识别结果为“播放音乐”，则通过声学模型获取到所述“播放音乐”对应的音素为b o f ang ii in vv ve。通过上述方式，获取了语音识别结果对应的音素序列。

如上述步骤S30所述：将所述解码矩阵与所述音素对齐，获取所述语音识别结果的关键音素和非关键音素；

本实施例中，将语音内容对应的解码矩阵和语音内容的识别结果对应的音素通过维特比算法，结合ctc的对齐准则作对齐，获取了识别结果对应的关键音素，具体地吗，在一实施例中，当用户说出“播放音乐”的语音内容时，所述语音内容对应的音素b对应的解码矩阵的位置为matrix[0]["b"]，matrix为解码矩阵，通过ctc的对齐准则，获取每个路径中音素的概率值，将概率值最大的路径最为最大路径，所述最大路径中的音素作为关键音素，通过上述方式，获取了语音识别结果对应的关键音素。

如上述步骤S40所述：获取所述关键音素和所述非关键音素的特征值；

本实施例中，所述特征值是关键音素得分满足多少阈值集合条件时的计数值，特征值时反应语音内容是否误识别的标准，具体地，在一实施例中，当用户说出“播放音乐”，在解码矩阵的第2行，关键音素为b时，b的得分为10分时，阈值集合为60，45，30，20，5，将关键音素的得分依次与阈值集合进行比较，在该实施例中，关键音素b的得分满足小于阈值集合里的4个阈值，当满足一个阈值条件时，则关键音素对应的特征值加1，所以关键音素b对应的特征值为4，阈值集合可以自定义，通过上述方式，获取了关键音素的特征值，根据特征值进一步确定语音内容是否为正确的唤醒指令。

如上述步骤S50所述：根据所述关键音素的特征值和所述非关键音素的特征值确定所述语音内容是否为正确的唤醒指令。

本实施例中，所述根据所述关键音素的特征值和所述非关键音素的特征值确定所述语音内容是否为正确的唤醒指令，包括：判断所述关键音素的特征值是否大于第二阈值；若大于，则所述语音内容不是正确的唤醒指令；若小于，则所述语音内容是正确的唤醒指令。通过判断特征值是否满足第二阈值确定语音内容是否为正确的唤醒指令，具体地，在一实施例中，当用户说出“播放音乐”时，语音识别结果为“播放视频”，将用户说出的语音内容对应的解码矩阵，与语音识别结果“播放视频”对应的音素进行对齐，获取每个关键音素的特征值，取最大特征值，判断最大特征值是否大于第二阈值，若大于，则表示此次识别为误识别，不执行用户语音识别结果对应的操作，若小于，则表示不是误识别，此次语音识别结果正确，执行语音识别结果对应的操作，所述第二阈值根据用户的需要可以自行设定，在该实施例中，特征值为5，第二阈值为4，此时特征大于第二阈值，则表示此次识别为误识别，将用户说出的“播放音乐”误识别为“播放视频”，不执行此次识别结果对应的操作，通过上述方式，确定了语音内容是否为误唤醒，提高了识别的准确率，给用户提供更好的服务体验。

在一个实施例中，所述获取语音内容，基于所述语音内容获得对应的解码矩阵，包括：

本实施例中，所述语音波形为当识别到用户发出语音时，将用户的语音内容对应的波形输入至语音识别模型中，获取语音对应的解码矩阵，所述获取语音波形包括：获取语音内容对应的文本信息；从文本信息中提取条件特征；将条件特征输入训练得到的波形生成模型，对条件特征进行处理，得到语音波形；波形生成模型包括先验分布估计网络和波形生成网络，先验分布估计网络在训练阶段用于学习自然语音波形的编码信息，波形生成网络用于根据条件特征和先验分布估计网络的输出结果生成语音波形，最后通过语音识别模型得到波形的解码矩阵，所述获取矩阵解码的过程即指语音技术中的识别过程，得到解码矩阵包括针对输入的语音信号，根据己经训练好的 HMM 声学模型、语言模型及字典建立一个识别网络，根据搜索算法在该网络中寻找最佳的一条路径，这个路径就是能够以最大概率输出该语音信号的词串，这样就确定这个语音样本所包含的文字了。所以解码操作即指搜索算法：是指在解码端通过搜索技术寻找最优词串的方法。通过上述方式，获取到用户语音内容对应的解码矩阵。

在一个实施例中，所述获取所述语音内容的语音识别结果，基于所述语音识别结果获取对应的音素，包括：

基于声学模型获取所述语音识别结果对应的音素。

本实施例中，当识别到语音内容时，提取语音识别结果对应的特征，得到声学特征，所述声学特征，指表示语音声学特性的物理量，也是声音诸要素声学表现的统称。如表示音色的能量集中区、共振峰频率、共振峰强度和带宽，以及表示语音韵律特性的时长、基频、平均语声功率等，将语音内容的声学特征通过声学模型得到语音识别结果对应的音素，所述声学模型是语音识别系统中最为重要的部分之一，主流系统多采用隐马尔科夫模型进行建模。隐马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。

在一个实施例中，所述将所述解码矩阵与所述音素对齐，获取所述语音识别结果的关键音素和非关键音素，包括：

在所述音素上插入预设字符生成音素序列；

根据所述最大解码路径获取语音识别结果的关键音素。

本实施例中，所述预设字符是指blank空格键，当用户说出语音内容时，获取语音内容识别的结果，根据声学模型获取到识别结果对应的音素，在音素序列上插入预设字符生成新的音素序列，将语音识别内容对应的解码序列与音素序列作对齐，根据维特比算法得到音素序列的最大解码路径，将最大解码路径中的音素作为关键音素，具体地，在一实施例中，当用户说出“播放音乐”，“播放音乐”对应的音素为b o f ang ii in vv ve，在每个音素中间以及首尾插入blank的音素列，在该实施例中，生成长度为17的音素列，则可以插入9个blank预设字符，在该实施例中生成音素列blankb blank o blank f blank angblank ii blank in blankvv blank ve blank，则解码矩阵的行表示时间维度，列表示音素列的概率分布，解码矩阵的第一行的位置，第一行的可能位置只有blank 和 b ,此处的值为matrix[0][“blank”]matrix[0]["b"]，其中matrix 为解码矩阵，从解码矩阵的第2行开始，根据ctc的对齐准则，blank只能跳到blank 或 b ，b 只能跳到 b blank或o，以第2行中的b 为例，它只能来自于blank或者b，故此处的值赋值为matrix[0]["blank"]*matrix[1]["b"]和matrix[0]["b"]*matrix[1]["b"]的最大值，此处的回溯值记作matrix[0]["blank"]和 matrix[0]["b"]最大值的位置，根据维特比算法，回溯得到最大路径，将最大路径中的音素作为关键音素。所述维特比算法是一种动态规划算法用于寻找最有可能产生观测事件序列的维特比路径-隐含状态序列，特别是在马尔可夫信息源上下文和隐马尔可夫模型中。所述CTC全称Connectionisttemporal classification,是一种常用在语音识别、文本识别等领域的算法，用来解决输入和输出序列长度不一、无法对齐的问题，在CRNN中，它实际上就是模型对应的损失函数。通过上述方式，获取到了用户语言内容识别结果的关键音素，为进一步获取关键音素的特征值提供支持，进一步提高识别的准确率。

在一个实施例中，所述对获取所述关键音素和所述非关键音素的特征值的步骤，包括：

将所述第一统计值作为所述关键音素的特征值。

本实施例中，依次将每一个关键音素的得分与依次与阈值集合里的任意一个阈值进行比较，统计每一个关键音素满足预设阈值集合里的阈值个数，得到第一统计值，将所有的关键音素的第一统计值进行比较，获取第一统计值最大的关键音素，将的关键音素最大的第一统计值作为关键音素的特征值，具体地，在一实施例中，用户说出“播放音乐”，将“播放音乐”[b o f ang ii in vv ve]的关键音素的得分与阈值集合依次进行比较，在该实施例中，若关键音素的b得分为30时，阈值集合为50，40，30，20，10，阈值集合由用户自行设定，将关键音素的得分依次与阈值集合中的阈值进行比较，当关键音素的得分小于阈值集合里面的阈值时，则对该关键音素b的特征值进行阶梯计数，即对特征值加1，在该实施例中，关键音素b的得分30分别小于阈值集合中的50和40，则关键音素的特征值为2，在本实施例中，“播放音乐”的关键音素为b，f，y，y，对“播放音乐”的每个关键音素的特征值进行求和，在该实施例中，关键音素f的特征值为3，关键音素y的特征值为4，关键音素y的特征值为4，则“播放音乐”所有关键音素的特征值的和为13，则“播放音素”中其他的音素为非关键音素，将非关键音素的得分依次与阈值集合进行比较，得到非关键音素的特征值，具体地，在一实施例中，非关键音素o的得分为130时，阈值集合为 30，60 ，80，120，则非关键音素o的特征值为4，依次获得每个非关键音素的得分，将每个非关键音素的得分与阈值集合比较得到特征值，在本实施例中，最终计算得到非关键音素的特征值的和为10，非关键因素的特征值小于关键音素特征值，则将关键音素的特征值作为参考值，用来确定是否为误识别，通过上述方式获取到每个关键音素的特征值，进一步根据特征值确定用户的语音内容的识别结果是否为正确的唤醒指令，减少误识别的唤醒率。

在一个实施例中，所述获取所述关键音素和所述非关键音素的特征值的步骤之后，包括：

将所述第二统计值作为所述非关键音素的特征值。

本实施例中，通过用户语音内容对应的解码矩阵与识别语音内容到的识别结果对应的音素进行ctc对齐，通过维特比算法获取关键音素，通过关键音素的位置获取非关键音素的得分，具体地，在一实施例中，当用户说出“播放音乐”，若在矩阵的第三行非关键音素为b，b的位置在39，则通过array[t][39]获取非关键音素的得分，array表示解码矩，t表示b对应的那一行，在该实施例中，通过array[3][39]获取非关键音素在第三行第39列的位置非关键音素b的得分，所述得分值直接通过维特比算法得出，在另一实施例中，非关键音素a的得分为90时，阈值集合为 20，70 ，80，150，当非关键音素每大于阈值集合里的一个阈值时，则特征值加1，则非关键音素a的特征值为3，将每个非关键音素的得分与阈值集合比较得到非关键音素的特征值，依次累加所有非关键音素的特征值，得到第二统计值，该实施例中，第二统计值为15，通过上述方式，直接通过取关键的位置获取了非关键音素的得分。

在一个实施例中，所述根据所述关键音素的特征值和所述非关键音素的特征值确定所述语音内容是否为正确的唤醒指令，包括：

判断所述判定值是否大于第二阈值；

若大于，则所述语音内容不是正确的唤醒指令；

若小于，则所述语音内容是正确的唤醒指令。

本实施例中，通过判断判定值是否大于第二阈值确定语音内容是否为正确的唤醒指令，具体地，在一实施例中，关键音素的特征值为13，非关键音素的特征值为10，第二阈值为20，则判定值为关键音素的特征值，将判定值与第二阈值比较，在该实施例中，判定值小于第二阈值，则表示用户说出的语音内容与语音识别的结果是一致的，则用户的语音内容是正确的唤醒指令，则执行用户语音内容对应的操作。在另一实施例中，得到关键音素的特征值为6，第二阈值为5，在该实施例中，关键音素的特征值大于第二阈值，则表示用户的语音内容是错误的唤醒指令，则用户的语音内容与识别到的语音结果不一致，此时则不执行识别结果对应的唤醒指令。通过上述方式，确定了用户的语音内容是否为正确的唤醒指令，减少了误唤醒次数，提高产品的智能化。

参照图2，本申请实施例提供一种误唤醒的识别装置，包括：

获取解码矩阵模块10：获取语音内容，基于所述语音内容获得对应的解码矩阵；

获取音素模块20：获取所述语音内容的语音识别结果，基于所述语音识别结果获取对应的音素；

获取关键音素模块30：将所述解码矩阵与所述音素对齐，获取所述语音识别结果的关键音素和非关键音素；

获取特征值模块40：获取所述关键音素和所述非关键音素的特征值；

判断模块50：根据所述关键音素的特征值和所述非关键音素的特征值确定所述语音内容是否为正确的唤醒指令。

如上所述，可以理解地，本申请中提出的所述的量化因子的搜索装置的各组成部分可以实现如上误唤醒的识别方法任一项的功能。

在一个实施例中，所述获取解码矩阵模块10还包括执行：

在一个实施例中，所述获取音素模块20还包括执行：

基于声学模型获取所述语音识别结果对应的音素。

在一个实施例中，所述获取关键音素模块30还包括执行：

在所述音素上插入预设字符生成音素序列；

根据所述最大解码路径获取语音识别结果的关键音素。

在一个实施例中，所述获取特征值模块40还包括执行：

将所述第一统计值作为所述关键音素的特征值。

在一个实施例中，所述获取特征值模块40还包括执行：

将所述第二统计值作为所述非关键音素的特征值。

在一个实施例中，所述判断模块50还包括执行：

判断所述判定值是否大于第二阈值；

若大于，则所述语音内容不是正确的唤醒指令；

若小于，则所述语音内容是正确的唤醒指令。

参照图3，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于决策树的数据计算方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种误唤醒的识别方法。上述处理器执行上述一种误唤醒的识别方法，所述方法包括如下步骤：本申请涉及智能语音技术领域，特别是一种误唤醒的识别方法、装置、计算机设备及存储介质，所述方法包括如下步骤：获取语音内容，基于所述语音内容获得对应的解码矩阵；获取所述语音内容的语音识别结果，基于所述语音识别结果获取对应的音素；将所述解码矩阵与所述音素对齐，获取所述语音识别结果的关键音素和非关键音素；获取所述关键音素和所述非关键音素的特征值；根据所述关键音素的特征值和所述非关键音素的特征值确定所述语音内容是否为正确的唤醒指令。本发明提高了语音识别的准确率和降低误唤醒率，给用户带来了更好的使用体验。

本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现误唤醒的识别方法，其中所述方法包括的步骤分别与执行前述实施方式的误唤醒的识别方法的步骤一一对应，在此不再赘述。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被所述处理器执行时实现一种在误唤醒的识别方法，所述方法包括如下步骤：本申请涉及智能语音技术领域，特别是一种误唤醒的识别方法、装置、计算机设备及存储介质，所述方法包括如下步骤：获取语音内容，基于所述语音内容获得对应的解码矩阵；获取所述语音内容的语音识别结果，基于所述语音识别结果获取对应的音素；将所述解码矩阵与所述音素对齐，获取所述语音识别结果的关键音素和非关键音素；获取所述关键音素和所述非关键音素的特征值；根据所述关键音素的特征值和所述非关键音素的特征值确定所述语音内容是否为正确的唤醒指令。本发明提高了语音识别的准确率和降低误唤醒率，给用户带来了更好的使用体验。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音识别结果的确认方法，其特征在于，所述方法包括：

获取语音内容，基于所述语音内容获得对应的解码矩阵；

获取所述关键音素的特征值和所述非关键音素的特征值；

根据所述关键音素的特征值和所述非关键音素的特征值确定所述语音内容与语音识别的结果是否一致；

所述将所述解码矩阵与所述音素对齐，获取所述语音识别结果的关键音素和非关键音素，包括：

在所述音素上插入预设字符生成音素序列；

根据所述最大解码路径获取语音识别结果的关键音素；其中，所述非关键音素是所述音素序列中除所述关键音素外的其他音素。

2.根据权利要求1所述的语音识别结果的确认方法，其特征在于，所述获取语音内容，基于所述语音内容获得对应的解码矩阵，包括：

3.根据权利要求1所述的语音识别结果的确认方法，其特征在于，所述获取所述语音内容的语音识别结果，基于所述语音识别结果获取对应的音素，包括：

基于声学模型获取所述语音识别结果对应的音素。

4.根据权利要求1所述的语音识别结果的确认方法，其特征在于，所述获取所述关键音素和所述非关键音素的特征值的步骤，包括：

获取所述语音识别内容的所有所述关键音素的得分；

根据所有所述关键音素的得分获取所有所述关键音素的特征值；

将所有所述关键音素的特征值进行求和，得到第一统计值；

将所述第一统计值作为所述关键音素的特征值。

5.根据权利要求1所述的语音识别结果的确认方法，其特征在于，所述获取所述关键音素和所述非关键音素的特征值的步骤之后，包括：

获取所述语音识别内容的所有所述非关键音素的得分；

根据所有所述非关键音素的得分获取所有所述非关键音素的特征值；

将所有所述非关键音素的特征值进行求和，得到第二统计值；

将所述第二统计值作为所述非关键音素的特征值。

6.根据权利要求1所述的语音识别结果的确认方法，其特征在于，所述根据所述关键音素的特征值和所述非关键音素的特征值确定所述语音内容与语音识别的结果是否一致，包括：

判断所述判定值是否大于第二阈值；

若大于，则所述语音内容与所述语音识别的结果不一致；

若小于，则所述语音内容与所述语音识别的结果一致。

7.一种语音识别结果的确认装置，所述的语音识别结果的确认装置用于执行根据权利要求1-6中任一项所述的语音识别结果的确认方法，其特征在于，包括：

判断模块：根据所述关键音素的特征值和所述非关键音素的特征值确定所述语音内容与语音识别的结果是否一致。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项语音识别结果的确认方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项语音识别结果的确认方法的步骤。