CN117456996A

CN117456996A - 语音识别方法及装置、存储介质、电子设备

Info

Publication number: CN117456996A
Application number: CN202311460472.0A
Authority: CN
Inventors: 李若愚; 方瑞东; 吴人杰; 林聚财; 黄惠祥; 史巍; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-01-26

Abstract

本申请公开了一种语音识别方法及装置、存储介质、电子设备，其中，该方法包括：通过语音识别模块对待识别音频数据进行语音识别，得到参考识别结果；通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇，其中，所述预设条件包括：所述目标词汇位于预设词汇集合中；将所述目标词汇确定为所述待识别音频数据的语音识别结果。通过上述步骤，解决了流式语音识别易受到噪声的影响，识别率低，并且输出结果容易出现不完整的问题。

Description

语音识别方法及装置、存储介质、电子设备

技术领域

本申请涉及语音识别领域，具体而言，涉及一种语音识别方法及装置、存储介质、电子设备。

背景技术

语音识别技术是一种将人类语音转换为文本的技术，可分为流式和非流式语音识别。其涉及到数字信号处理、机器学习、深度学习、语言学、声学等多个领域的知识，是一门综合性的技术。

非流式语音识别是指将整段语音作为一个完整的输入进行识别。在开始识别之前，需要等待所有的语音输入都传输完毕，然后进行识别处理。这种方式适用于离线场景或者对实时性要求不高的应用。非流式语音识别的优点是可以在整个语音输入完成后进行全局优化和上下文理解，有利于提高识别准确率。

流式语音识别是指在实时接收和处理语音输入的过程中进行识别。它允许在用户还在说话的同时进行识别，实现边说边识别的功能。这种方式适用于实时交互式应用。流式语音识别的优点是具有较低的延迟，可以实时地提供部分识别结果，从而支持实时反馈和交互。但流式语音识别易受到噪声的影响，识别率低，并且输出结果容易出现不完整。

针对相关技术中，流式语音识别易受到噪声的影响，识别率低，并且输出结果容易出现不完整的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种语音识别方法及装置、存储介质、电子设备，以至少解决流式语音识别易受到噪声的影响，识别率低，并且输出结果容易出现不完整的问题。

根据本申请实施例的一个实施例，提供了一种语音识别方法，包括：通过语音识别模块对待识别音频数据进行语音识别，得到参考识别结果；通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇，其中，所述预设条件包括：所述目标词汇位于预设词汇集合中；将所述目标词汇确定为所述待识别音频数据的语音识别结果。

可选地，通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇，包括：重复执行以下步骤，直至确定从所述参考识别结果中确定满足预设条件的目标词汇：在确定所述参考识别结果中的当前识别词汇的词属性为目标属性、且缓存池中不存在词汇的情况下，将所述当前识别词汇缓存至所述后处理模块的缓存池中，并将所述参考识别结果中所述当前识别词汇的下一个识别词汇确定为当前识别词汇；在确定所述参考识别结果中的当前识别词汇的词属性与所述缓存池中的词汇的词属性相同的情况下，将所述缓存池中的词汇替换为所述当前识别词汇，并将所述参考识别结果中所述当前识别词汇的下一个识别词汇确定为当前识别词汇；在确定所述参考识别结果中的当前识别词汇的词属性与所述缓存池中的词汇的词属性相匹配的情况下，将所述当前识别词汇与所述缓存池中的词汇进行组合，得到组合词汇，并在所述组合词汇位于所述预设词汇集合中的情况下，将所述组合词汇确定为所述目标词汇；在所述组合词汇不位于所述预设词汇集合中的情况下，将所述参考识别结果中所述当前识别词汇的下一个识别词汇确定为当前识别词汇。

可选地，通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇，包括：在所述参考识别结果中存在参考词汇、且所述参考词汇的出现次数大于第一阈值的情况下，确定所述参考词汇在所述参考识别结果中的起始位置和结束位置，其中，所述参考词汇位于所述位于预设词汇集合中；获取所述待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列，并根据所述音素序列确定对应的语音帧的声学分；在所述声学分大于第二阈值的情况下，将所述参考词汇确定为所述目标词汇。

可选地，获取所述待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列，并根据所述音素序列确定对应的语音帧的声学分，包括：调用所述语音识别模块中的目标声学模型，获取所述待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列；通过所述目标声学模型根据所述音素序列确定对应的语音帧的声学分。

可选地，通过语音识别模块对待识别音频数据进行语音识别，包括：使用数据处理模块对所述待识别音频数据进行数据处理，得到所述待识别音频数据的音频特征数据，其中，所述数据处理包括以下至少之一：分帧、加窗、预加重、增加随机扰动；将所述音频特征数据输入至所述语音识别模块，以通过语音识别模块对待识别音频数据进行语音识别。

可选地，通过语音识别模块对待识别音频数据进行语音识别之前，所述方法还包括：获取通用声学模型，并使用所述预设词汇集合对应的音频数据和所述音频数据的标注数据对所述通用声学模型进行微调处理，得到目标声学模型；以及根据所述预设词汇集合训练得到语言模型；根据所述目标声学模型和所述语言模型的识别算法，确定解码图，其中，所述解码图中具有音素和词汇之间的转移路径，其中，所述语音识别模块中具有所述目标声学模型和所述解码图。

可选地，通过语音识别模块对待识别音频数据进行语音识别，得到参考识别结果，包括：通过所述语音识别模块中的目标声学模型对所述待识别音频数据进行识别处理，得到音素分布概率；通过所述语音识别模块中的解码器，根据所述音素分布概率和所述语音识别模块中存储的解码图，确定所述参考识别结果，其中，所述解码图中具有音素和词汇之间的转移路径。

根据本申请的另一个实施例，提供了一种语音识别装置，包括：识别模块，用于通过语音识别模块对待识别音频数据进行语音识别，得到参考识别结果；第一确定模块，用于通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇，其中，所述预设条件包括：所述目标词汇位于预设词汇集合中；第二确定模块，用于将所述目标词汇确定为所述待识别音频数据的语音识别结果。

根据本申请的又一个实施例，还提供了一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述任一项方法实施例中的步骤。

根据本申请的又一个实施例，还提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行上述任一项方法实施例中的步骤。

通过本申请，在通过语音识别模块对待识别音频数据进行语音识别，得到参考识别结果后，通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇，其中，预设条件包括：目标词汇位于预设词汇集合中，将所述目标词汇确定为所述待识别音频数据的语音识别结果。由于使用了后处理模块对语音识别模块输出的识别结果进行了筛选处理，进而解决了流式语音识别易受到噪声的影响，识别率低，并且输出结果容易出现不完整的问题，进而达到了提高语音识别的精确性的效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的一种语音识别方法的移动终端的硬件结构框图；

图2是本申请实施例的一种语音识别方法的流程图；

图3是本申请实施例的一种语音识别模块的设计流程图；

图4是本申请实施例的一种语音识别方法的整体流程图；

图5是本申请实施例的一种后处理模块的处理流程图；

图6是本申请实施例的一种语音识别装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本申请实施例的一种语音识别方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的语音识别方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种语音识别方法，包括但不限于应用在上述计算机终端，图2是根据本申请实施例的一种语音识别方法的流程图，该流程包括如下步骤：

步骤S202，通过语音识别模块对待识别音频数据进行语音识别，得到参考识别结果；

需要说明的是，上述语音识别模块是一种进行流式语音识别的识别模块。上述参考识别结果中包括进行流式语音识别得到的多个词汇。

需要说明的是，语音识别模块用于实现待识别音频数据中位于预设词汇集合中的词汇，包括但不限于唤醒词、命令词、关键词等。

步骤S204，通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇，其中，所述预设条件包括：所述目标词汇位于预设词汇集合中。

需要说明的是，后处理模块为语音识别模块的后处理模块，用于对语音识别模块输出的识别结果进行识别后处理，以提高识别准确性。

步骤S206，将所述目标词汇确定为所述待识别音频数据的语音识别结果。

通过上述步骤，在通过语音识别模块对待识别音频数据进行语音识别，得到参考识别结果后，通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇，其中，预设条件包括：目标词汇位于预设词汇集合中，将所述目标词汇确定为所述待识别音频数据的语音识别结果。由于使用了后处理模块对语音识别模块输出的识别结果进行了筛选处理，进而解决了流式语音识别易受到噪声的影响，识别率低，并且输出结果容易出现不完整的问题，进而达到了提高语音识别的精确性的效果。

在一个示例性的实施例中，上述步骤S204包括：重复执行以下步骤S11-S14，直至确定从所述参考识别结果中确定满足预设条件的目标词汇：

步骤S11：在确定所述参考识别结果中的当前识别词汇的词属性为目标属性、且缓存池中不存在词汇的情况下，将所述当前识别词汇缓存至所述后处理模块的缓存池中，并将所述参考识别结果中所述当前识别词汇的下一个识别词汇确定为当前识别词汇；

目标属性包括但不限于：“名词”、“动词”、“形容词”、“主语”等。

需要说明的是，目标属性是预设词汇集合中的词汇的初始词的属性。例如，如果预设词汇集合为：打开软件、打开记事本、关闭软件、关闭记事本、切换音乐；则目标属性为动词。

作为一种可选的示例，假设目标属性为动词，参考识别结果中的当前识别词汇为“打开”，则“打开”的词属性和目标属性一致，那么将“打开”存入后处理模块的缓存池中。

步骤S12：在确定所述参考识别结果中的当前识别词汇的词属性与所述缓存池中的词汇的词属性相同的情况下，将所述缓存池中的词汇替换为所述当前识别词汇，并将所述参考识别结果中所述当前识别词汇的下一个识别词汇确定为当前识别词汇；

作为一种可选的示例，假设参考识别结果的当前识别词汇为“关闭”，缓存池中的词汇为“打开”，那么将缓存池中“打开”替换为“关闭”。

步骤S13：在确定所述参考识别结果中的当前识别词汇的词属性与所述缓存池中的词汇的词属性相匹配的情况下，将所述当前识别词汇与所述缓存池中的词汇进行组合，得到组合词汇，并在所述组合词汇位于所述预设词汇集合中的情况下，将所述组合词汇确定为所述目标词汇。

步骤S14：在所述组合词汇不位于所述预设词汇集合中的情况下，将所述参考识别结果中所述当前识别词汇的下一个识别词汇确定为当前识别词汇。

在一个示例性的实施例中，如果缓存池中的词属性为动词“关闭”，当前识别词汇为名词“音乐”，则确定当前识别词汇的词属性和缓存池中的词属性匹配，得到组合词汇“关闭音乐”，而由于“关闭音乐”不在预设词汇集合中，进而丢弃当前识别词汇；并继续参考识别结果中的当前识别词汇的下一个识别词汇的判断过程，如果下一个识别词汇为“软件”，其可以与缓存池中的“关闭”匹配，进而得到组合词汇“关闭软件”，此时的组合词汇在预设词汇集合中，进而将“关闭软件”确定为目标词汇。

也就是说，在本实施例中，参考识别结果中的流式输出结果A会与目标属性进行匹配，若流式输出结果A为目标属性，则将结果存入缓存池，等待后续流式输出结果B。若后续流式输出结果B与缓存池中初始词A属性一致，则将缓存池清空，将后续流式输出结果B作为新的初始词存入缓存池。若后续流式输出结果B能与缓存池中初始词A属性匹配，则判断缓存池中的初始词与后续流式输出结果B组合AB是否为限定词，若是，则将结果AB输出，清空缓存池；若不是，则将B丢弃，等待后续流式输出结果C，重复上述判断。

例如，以如下预设词汇集合为例：“打开软件”、“打开记事本”、“关闭软件”、“关闭记事本”、“切换音乐”。划分可得动词：“打开”、“关闭”“切换”，名词：“软件”、“记事本”、“音乐”。其中目标属性为动词。

以如下输出结果为例：语音识别模块的流式输出结果为“打开”，词语属性为“动词”，为目标属性；将“打开”存入缓存池；后续输出结果为“关闭”，词语属性为“动词”，与缓存池中的词属性一致，将缓存池清空，将“关闭”存入缓存池；后续输出结果为“音乐”，词语属性为“名词”，与缓存池中初始词的词语属性匹配，结果组合“关闭音乐”不属于限定词，将“音乐”丢弃，缓存池中仍为“关闭”；后续输出结果为“记事本”，词语属性为“名词”，与缓存池中初始词的词语属性匹配，结果组合“关闭记事本”在预设词汇结合中，则将其作为最终的识别结果输出，并清空缓存池。

在一个示例性的实施例中，上述步骤S204，还可以通过以下步骤S21-S23实现：

步骤S21：在所述参考识别结果中存在参考词汇、且所述参考词汇的出现次数大于第一阈值的情况下，确定所述参考词汇在所述参考识别结果中的起始位置和结束位置，其中，所述参考词汇位于所述位于预设词汇集合中；

步骤S22：获取所述待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列，并根据所述音素序列确定对应的语音帧的声学分；

在一个示例性的实施例中，上述步骤S22，还可以通过以下方式实现：调用所述语音识别模块中的目标声学模型，获取所述待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列；通过所述目标声学模型根据所述音素序列确定对应的语音帧的声学分。

也就是说，在本实施例中，后处理模块可以通过调用语音识别模块中的目标声学模型，进而确定获取待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列，根据音素序列确定对应的语音帧的声学分。

步骤S23：在所述声学分大于第二阈值的情况下，将所述参考词汇确定为所述目标词汇。

也就是说，在本实施例中，后处理模块以语音识别模块的参考识别结果为输入，逐一检查输入中是否包含配置的限定词(即预设词汇集合中的词)，若包含，则获取限定词在参考识别结果中的起始位置，并记录该限定词的出现次数，若大于设定阈值M(即上述第一阈值)，则获取限定词起始位置到结束位置的音素序列，计算这部分音素序列对应的帧的声学分，如果声学分大于设定阈值N(即上述第二阈值)，则认为识别出目标词汇，并输出目标词汇。

为了更好的理解，以下进行具体说明：以如下限定词为例：“打开软件”，以如下参考识别结果为例，“SIL”、“SIL打开”、“SIL打开软件”、“SIL打开软件SIL”，其中“SIL”表示静音时的输出结果。

但输入为“SIL”，“SIL打开”时，与限定词不匹配，则继续等待流式识别结果；当输入为“SIL打开软件”，与限定词匹配，出现次数为1，设定阈值M为1，出现次数不满足大于M，继续等待流式识别结果，输入为“SIL打开软件SIL”，与限定词匹配，出现次数加1，满足大于M，获取限定词的起始位置到结束位置所在帧的声学分，设定阈值N为最优声学分的0.7，满足识别结果声学分大于最优声学分*0.7，认为识别结果为命令词“打开软件”，作为最终识别结果输出。

需要说明的是，本申请的后处理模块无需准备数据，无需训练模型，资源消耗少，具有更强的泛用性。

在一个示例性的实施例中，上述步骤S202还可以通过以下步骤S31-S32实现：

步骤S31：使用数据处理模块对所述待识别音频数据进行数据处理，得到所述待识别音频数据的音频特征数据，其中，所述数据处理包括以下至少之一：分帧、加窗、预加重、增加随机扰动；

需要说明的是，音频特征数据是指从待识别音频数据中提取的数值化的特征，用与描述待识别音频数据的不同方面。音频特征包括但不限于：梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，简称为mfcc)特征、说话人相关的身份向量(IdentityVector，简称为ivector)特征、基音频率(pitch)特征、感知线性预测(Perceptual LinearPredictive，简称为plp)特征。

需要说明的是，加窗是为了解决语音信号在时域上的突变问题，并减少频谱泄露，其主要是通过将语音信号的每一帧乘以一个窗函数来实现，常用的窗函数包括矩形窗、汉明窗、海宁窗等。通过加窗处理，可以使语音信号在频域上更加平滑和连续，方便进行后续的频谱分析和特征提取。

需要说明的是，预加重是指在某一部分的数据中，对其中一些样本进行加权处理，使其在训练过程中的重要性提前被放大。

需要说明的是，增加随机扰动是通过在原始语音信号上引入一些随机变化，以模拟真实世界中的环境噪声、语音变化等因素，从而使得语音识别系统能够更好地适应各种复杂的语音场景。

步骤S32：将所述音频特征数据输入至所述语音识别模块，以通过语音识别模块对待识别音频数据进行语音识别。

在一个示例性的实施例中，在上述步骤S202之前，还包括以下步骤S41-S42：

步骤S41：获取通用声学模型，并使用所述预设词汇集合对应的音频数据和所述音频数据的标注数据对所述通用声学模型进行微调处理，得到目标声学模型；以及根据所述预设词汇集合训练得到语言模型；

需要说明的是，上述通用声学模型是一种预训练模型，可以利用大量开源音频数据和语料库训练得到；上述语言模型为对预设词汇集合进行数学统计得到的。

需要说明的是，预设词汇集合中的词汇为语音识别需要识别的词语，包括但不限于唤醒词、命令词、关键词等。对预设词汇集合对应的音频数据进行标注以及处理，得到预设词汇集合中的词汇的特征以及标签数据，用于对通用声学模型的模型参数进行微调。

需要说明的是，声学模型可以对说话人的语音进行特征提取和模式识别，从而实现语音到文本的转换，其主要负责将输入的语音信号转化为声学特征，如音频的梅尔频谱系数等；而语言模型根据语言规则和统计概率建立的模型，用于预测和评估一串词语或句子的合理性和流畅度。它通过计算不同词语的概率分布，对识别候选结果进行排序和选择，主要用于根据语言的统计规律，预测出在给定上下文中最有可能出现的词序列。

步骤S42：根据所述目标声学模型和所述目标语言模型的识别算法，确定解码图，其中，所述解码图中具有音素和词汇之间的转移路径；其中，所述语音识别模块中具有所述目标声学模型和所述解码图。

需要说明的是，可以将目标声学模型和目标语言模型进行复合操作以获得解码图。

在本实施例中，语音识别模块为与预设词汇集合对应的语音识别模块，进而可以提高对预设词汇集合中的词汇的识别准确率。

在一个示例性的实施例中，上述步骤S202可以通过以下步骤S51-S52实现：

步骤S51：通过所述语音识别模块中的目标声学模型对所述待识别音频数据进行识别处理，得到音素分布概率；

步骤S52：通过所述语音识别模块中的解码器，根据所述音素分布概率和所述语音识别模块中存储的解码图确定所述参考识别结果，其中，所述解码图中具有音素和词汇之间的转移路径。

需要说明的是，语音识别过程中，可以先对输入的音频数据进行输入前处理，包括分帧、加窗、特征提取等步骤，进而将其送入语音识别模块的目标声学模型中，获取音素概率分布，并将该音素概率分布与解码图送入解码器，进而获得解码器输出的参考识别结果。

显然，上述所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。为了更好的理解上述方法，以下结合实施例对上述过程进行说明，但不用于限定本发明实施例的技术方案，具体地：

本申请中记载的获取语音识别的方法，从总体上来看包含两大模块即：语音识别模块和后处理模块。具体的：

1、语音识别模块

具体的，图3示意出了一种语音识别模块的设计流程图，如图3所示、利用大量开源音频数据和语料库训练声学模型和语言模型，得到能够进行大规模语音识别的预训练模型；采集限定词音频数据并对音频数据进行数据标注，以此数据对预训练模型进行微调；将调整好的声学模型与语言模型进行复合操作获得解码图。

在语音识别过程中，对输入的音频数据进行前处理，包括分帧、加窗、特征提取等步骤，送入声学模型获取音素概率分布，将该分布与解码图送入解码器，流式输出解码结果。

2、后处理模块(即语音识别结果后处理模块)

对需要识别的限定词按照词语属性划分，解码结果(相当于上述实施例中的参考识别结果)作为输入，与限定词的划分结果匹配，对符合条件的结果作为语音识别结果输出，不符合条件的结果进行清空、替换等操作。

作为一种可选地示例，图4示意出了一种语音识别方法的整体流程图，包括：数据处理模块、语音识别模块、后处理模块。

模块一：数据处理模块

数据处理模块用于对输入的音频数据进行处理，最终得到音频数据的特征。数据处理包括但不限于分帧、加窗、预加重、增加随机扰动等；输出的音频特征包括但不限于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，简称为mfcc)特征、说话人相关的身份向量(Identity Vector，简称为ivector)特征、基音频率(pitch)特征、感知线性预测(Perceptual Linear Predictive，简称为plp)特征等。

模块二：语音识别模块

首先，语音识别模块需要利用开源音频数据和语料库训练出大规模的声学模型与语言模型。对音频数据采用与数据处理模块相同的方式处理，获取其特征，然后利用这些特征对声学模型的训练，得到神经网络模型；采用开源大规模语料库训练语言模型，包括但不限于基于n个连续的词出现的概率建模语言的统计特性(ngram)语言模型、循环神经网络语言模型等。

其次，采集限定词音频数据，限定词为语音识别需要识别的词语，包括但不限于唤醒词、命令词、关键词等。对这些音频数据进行标注以及处理，得到限定词的特征以及标签数据，用于训练预训练模型，对预训练模型的参数进行微调。

最后，将微调后的模型进行复合操作，得到解码图，即所述语言识别模块。

模块三：后处理模块

该模块包含以下方法：

(1)首先对限定词按照词语属性进行划分，选用的词语属性包括但不限于“动词”、“名词”、“形容词”、“主语”、“谓语”、“宾语”等，视限定词的情况而定。语音识别模块的解码结果作为后处理模块的输入，与限定词的划分结果匹配，对符合条件的结果作为语音识别结果输出，不符合条件的结果进行清空、替换等操作。

在一个示例性的实施例中，以如下限定词为例：“打开软件”、“打开记事本”、“关闭软件”、“关闭记事本”、“切换音乐”。以“动词”、“名词”的方式进行划分可得动词：“打开”、“关闭”“切换”，名词：“软件”、“记事本”、“音乐”。

语言识别模块的流式输出结果A会与限定词的划分进行匹配，若流式输出结果与初始词属性一致，则将结果存入缓存池，等待后续识别输出结果B。若后续识别结果B与缓存池中初始词A属性一致，则将缓存池清空，将后续识别结果B作为新的初始词存入缓存池。若后续识别结果B能与缓存池中初始词A属性匹配，则判断缓存池中的初始词与后续识别结果组合AB是否为限定词，若是，则将结果AB输出，清空缓存池；若不是，则将B丢弃，等待后续流式输出结果C，重复上述判断。

在一个示例性的实施例中，以如下限定词为例：“打开软件”、“打开记事本”、“关闭软件”、“关闭记事本”、“切换音乐”。划分可得动词：“打开”、“关闭”“切换”，名词：“软件”、“记事本”、“音乐”。其中初始词属性为动词。

在一个示例性的实施例中，以如下输出结果为例：语言识别模块流式输出结果为“打开”，词语属性为“动词”，与限定词的初始词属性一致；将“打开”存入缓存池；后续输出结果为“关闭”，词语属性为“动词”，与限定词的初始词属性一致，将缓存池清空，将“关闭”存入缓存池；后续输出结果为“音乐”，词语属性为“名词”，与缓存池中初始词的词语属性匹配，结果组合“关闭音乐”不属于限定词，将“音乐”丢弃，缓存池中仍为“关闭”；后续输出结果为“记事本”，词语属性为“名词”，与缓存池中初始词的词语属性匹配，结果组合“关闭记事本”属于限定词，将其作为最终的识别结果输出，并清空缓存池。

(2)以语音识别模块的解码结果作为输入，逐一检查输入中是否包含配置的限定词，若包含，则获取限定词在解码结果中的起始位置，并记录该限定词的出现次数，若大于设定阈值M，则获取限定词起始点到结束点的音素序列，计算这部分音素序列对应帧的声学分，大于设定阈值N则认为识别到该命令词，并输出。作为一种可选地示例，图5示意出了后处理模块的方法流程图。

在一个示例性的实施例中，以如下限定词为例：“打开软件”，以如下输出结果为例，“SIL”、“SIL打开”、“SIL打开软件”、“SIL打开软件SIL”，其中“SIL”表示静音时的输出结果。

输入为SIL，“SIL打开”时，与限定词不匹配，继续等待解码结果；当输入“SIL打开软件”，与限定词匹配，出现次数为1，设定阈值M为1，出现次数不满足大于M，继续等待解码结果，输入为“SIL打开软件SIL”，与限定词匹配，出现次数加1，满足大于M，获取限定词起始点到结束点的所在帧声学分，设定阈值N为最优声学分的0.7，满足解码结果声学分大于最优声学分*0.7，认为解码结果为命令词“打开软件”，作为最终识别结果输出。

需要说明的是，上述两种后处理方法(1)(2)，可以单独使用也可以配合使用。

需要说明的是，通过本申请的语音识别方法，可以达成如下效果：

1、通过添加语音识别后处理模块，依据词语属性匹配解决流式语音识别输出结果不完整、识别率低等问题。

2、本申请中的后处理模块无需准备数据，无需训练模型，资源消耗少，具有更强的泛用性。

简而言之，本申请提出一种获取语音识别结果的方法，可分为语音识别模块和语音识别后处理模块。语音识别模块通过大规模开源数据训练得到预训练模型，再使用采集得到的限定词数据对预训练模型进行微调；语音识别后处理模块通过对识别结果进行词语属性划分与匹配，将符合匹配规则的结果作为语音识别的最终结果输出；

此外，本申请还提出一种基于词语属性划分与匹配的语音识别后处理方法，按照词语属性划分语音识别的限定词，语音识别模块的输出结果按照词语属性与限定词匹配，符合匹配规则的结果作为语音识别的最终结果输出。

此外，本申请还提出一种基于获取限定词所在帧声学分的语音识别后处理方法，获取识别结果中限定词的帧位置，并计算这部分帧的声学分，若大于设定阈值，认为识别到限定词，以该结果作为语音识别的最终结果输出。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

在本实施例中还提供了一种语音识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是本申请实施例的一种语音识别装置的结构框图，如图6所示，该装置包括：

识别模块62，用于通过语音识别模块对待识别音频数据进行语音识别，得到参考识别结果；

第一确定模块64，用于通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇，其中，所述目标词汇位于预设词汇集合中；

第二确定模块66，用于将所述目标词汇确定为所述待识别音频数据的语音识别结果。

通过上述装置，在通过语音识别模块对待识别音频数据进行语音识别，得到参考识别结果后，通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇，其中，预设条件包括：目标词汇位于预设词汇集合中，将所述目标词汇确定为所述待识别音频数据的语音识别结果。由于使用了后处理模块对语音识别模块输出的识别结果进行了筛选处理，进而解决了流式语音识别易受到噪声的影响，识别率低，并且输出结果容易出现不完整的问题，进而达到了提高语音识别的精确性的效果。

在一个示例性的实施例中，第一确定模块64，还用于重复执行以下步骤，直至确定从所述参考识别结果中确定满足预设条件的目标词汇：在确定所述参考识别结果中的当前识别词汇的词属性为目标属性、且缓存池中不存在词汇的情况下，将所述当前识别词汇缓存至所述后处理模块的缓存池中，并将所述参考识别结果中所述当前识别词汇的下一个识别词汇确定为当前识别词汇；在确定所述参考识别结果中的当前识别词汇的词属性与所述缓存池中的词汇的词属性相同的情况下，将所述缓存池中的词汇替换为所述当前识别词汇，并将所述参考识别结果中所述当前识别词汇的下一个识别词汇确定为当前识别词汇；在确定所述参考识别结果中的当前识别词汇的词属性与所述缓存池中的词汇的词属性相匹配的情况下，将所述当前识别词汇与所述缓存池中的词汇进行组合，得到组合词汇，并在所述组合词汇位于所述预设词汇集合中的情况下，将所述组合词汇确定为所述目标词汇；在所述组合词汇不位于所述预设词汇集合中的情况下，将所述参考识别结果中所述当前识别词汇的下一个识别词汇确定为当前识别词汇。

在一个示例性的实施例中，第一确定模块66，还用于在所述参考识别结果中存在参考词汇、且所述参考词汇的出现次数大于第一阈值的情况下，确定所述参考词汇在所述参考识别结果中的起始位置和结束位置，其中，所述参考词汇位于所述位于预设词汇集合中；获取所述待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列，并根据所述音素序列确定对应的语音帧的声学分；在所述声学分大于第二阈值的情况下，将所述参考词汇确定为所述目标词汇。

在一个示例性的实施例中，第一确定模块66，还用于获取所述待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列，并根据所述音素序列确定对应的语音帧的声学分，调用所述语音识别模块中的目标声学模型，获取所述待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列；通过所述目标声学模型根据所述音素序列确定对应的语音帧的声学分。

在一个示例性的实施例中，识别模块62，还用于通过语音识别模块对待识别音频数据进行语音识别，使用数据处理模块对所述待识别音频数据进行数据处理，得到所述待识别音频数据的音频特征数据，其中，所述数据处理包括以下至少之一：分帧、加窗、预加重、增加随机扰动；将所述音频特征数据输入至所述语音识别模块，以通过语音识别模块对待识别音频数据进行语音识别。

在一个示例性的实施例中，所述装置还包括：处理模块，用于通过语音识别模块对待识别音频数据进行语音识别之前，获取通用声学模型，并使用所述预设词汇集合对应的音频数据和所述音频数据的标注数据对所述通用声学模型进行微调处理，得到目标声学模型；以及根据所述预设词汇集合训练得到语言模型；根据所述目标声学模型和所述语言模型的识别算法，确定解码图，其中，所述解码图中具有音素和词汇之间的转移路径；其中，所述语音识别模块中具有所述目标声学模型和所述解码图。

在一个示例性的实施例中，识别模块62，还用于通过所述语音识别模块中的目标声学模型对所述待识别音频数据进行识别处理，得到音素分布概率；通过所述语音识别模块中的解码器，根据所述音素分布概率和所述语音识别模块中存储的解码图确定所述参考识别结果，其中，所述解码图中具有音素和词汇之间的转移路径。

该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本申请的实施例还提供了一种电子设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

通过语音识别模块对待识别音频数据进行语音识别，得到参考识别结果；

通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇，其中，所述预设条件包括：所述目标词汇位于预设词汇集合中；将所述目标词汇确定为所述待识别音频数据的语音识别结果。

2.根据权利要求1所述的方法，其特征在于，通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇，包括：

重复执行以下步骤，直至确定从所述参考识别结果中确定满足预设条件的目标词汇：

在确定所述参考识别结果中的当前识别词汇的词属性为目标属性、且缓存池中不存在词汇的情况下，将所述当前识别词汇缓存至所述后处理模块的缓存池中，并将所述参考识别结果中所述当前识别词汇的下一个识别词汇确定为当前识别词汇；

在确定所述参考识别结果中的当前识别词汇的词属性与所述缓存池中的词汇的词属性相同的情况下，将所述缓存池中的词汇替换为所述当前识别词汇，并将所述参考识别结果中所述当前识别词汇的下一个识别词汇确定为当前识别词汇；

在确定所述参考识别结果中的当前识别词汇的词属性与所述缓存池中的词汇的词属性相匹配的情况下，将所述当前识别词汇与所述缓存池中的词汇进行组合，得到组合词汇，并在所述组合词汇位于所述预设词汇集合中的情况下，将所述组合词汇确定为所述目标词汇；

在所述组合词汇不位于所述预设词汇集合中的情况下，将所述参考识别结果中所述当前识别词汇的下一个识别词汇确定为当前识别词汇。

3.根据权利要求1所述的方法，其特征在于，通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇，包括：

在所述参考识别结果中存在参考词汇、且所述参考词汇的出现次数大于第一阈值的情况下，确定所述参考词汇在所述参考识别结果中的起始位置和结束位置，其中，所述参考词汇位于所述位于预设词汇集合中；获取所述待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列，并根据所述音素序列确定对应的语音帧的声学分；在所述声学分大于第二阈值的情况下，将所述参考词汇确定为所述目标词汇。

4.根据权利要求3所述的方法，其特征在于，获取所述待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列，并根据所述音素序列确定对应的语音帧的声学分，包括：

调用所述语音识别模块中的目标声学模型，获取所述待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列；

通过所述目标声学模型根据所述音素序列确定对应的语音帧的声学分。

5.根据权利要求1所述的方法，其特征在于，通过语音识别模块对待识别音频数据进行语音识别，包括：

使用数据处理模块对所述待识别音频数据进行数据处理，得到所述待识别音频数据的音频特征数据，其中，所述数据处理包括以下至少之一：分帧、加窗、预加重、增加随机扰动；

将所述音频特征数据输入至所述语音识别模块，以通过语音识别模块对待识别音频数据进行语音识别。

6.根据权利要求1所述的方法，其特征在于，通过语音识别模块对待识别音频数据进行语音识别之前，所述方法还包括：

获取通用声学模型，并使用所述预设词汇集合对应的音频数据和所述音频数据的标注数据对所述通用声学模型进行微调处理，得到目标声学模型；以及根据所述预设词汇集合训练得到语言模型；

根据所述目标声学模型和所述语言模型的识别算法，确定解码图，其中，所述解码图中具有音素和词汇之间的转移路径；

其中，所述语音识别模块中具有所述目标声学模型和所述解码图。

7.根据权利要求1所述的方法，其特征在于，通过语音识别模块对待识别音频数据进行语音识别，得到参考识别结果，包括：

通过所述语音识别模块中的目标声学模型对所述待识别音频数据进行识别处理，得到音素分布概率；

通过所述语音识别模块中的解码器，根据所述音素分布概率和所述语音识别模块中存储的解码图确定所述参考识别结果，其中，所述解码图中具有音素和词汇之间的转移路径。

8.一种语音识别装置，其特征在于，包括：

识别模块，用于通过语音识别模块对待识别音频数据进行语音识别，得到参考识别结果；

第一确定模块，用于通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇，其中，所述预设条件包括：所述目标词汇位于预设词汇集合中；

第二确定模块，用于将所述目标词汇确定为所述待识别音频数据的语音识别结果。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7任一项中的步骤。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中的步骤。