CN112634908A

CN112634908A - 一种语音识别方法、装置、设备及存储介质

Info

Publication number: CN112634908A
Application number: CN202110253178.7A
Authority: CN
Inventors: 王桑; 李成飞; 杨嵩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-04-09
Anticipated expiration: 2041-03-09
Also published as: CN112634908B

Abstract

本发明提供了一种语音识别方法、装置、设备及存储介质，其中语音识别方法包括：获取包含若干音频片段的第一音频片段集合；对每段所述音频片段分别识别出多个最优识别结果；基于所述最优识别结果，将第一音频片段集合中，最优识别结果同时包括至少一个表示噪声的识别结果和至少一个表示静音的识别结果对应的音频片段作为强噪声片段过滤，获得第二音频片段集合；对所述第二音频片段集合中的每段音频片段进行语音识别，输出语音识别结果。本发明能够有效解决强噪声及突发强噪声对语音识别结果造成的影响，提高了语音识别的准确率。

Description

一种语音识别方法、装置、设备及存储介质

技术领域

本发明涉及语音识别方法，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术

近几年语音识别技术快速发展，识别准确率得到大幅提升。在语音识别的应用场景中由于各种噪声的存在，特别是强噪声环境下语音识别的准确率会受到较大影响。

发明内容

为了解决上述技术问题的至少一个，本发明提供了一种语音识别方法、装置、设备及存储介质。

本发明的技术方案是这样实现的：

一种语音识别方法，包括：

获取包含若干音频片段的第一音频片段集合；

对每段所述音频片段分别识别出多个最优识别结果；

基于所述最优识别结果，将第一音频片段集合中，最优识别结果同时包括至少一个表示噪声的识别结果和至少一个表示静音的识别结果对应的音频片段作为强噪声片段过滤，获得第二音频片段集合；

对所述第二音频片段集合中的每段音频片段进行语音识别，输出语音识别结果。

进一步地，作为强噪声片段的所述音频片段的最优识别结果还同时包括至少一个高频词，所述高频词为预先统计的在语音识别结果中出现概率超过预设第一阈值的词。

进一步地，对每段所述音频片段分别识别出多个最优识别结果，包括：

分别对每段所述音频片段进行语言识别，获取每段所述音频片段的多个优选识别路径；

获取每个所述优选识别路径对应的识别结果作为最优识别结果，得到每段所述音频片段的多个最优识别结果。

进一步地，分别对每段所述音频片段进行语言识别，获取每段所述音频片段的多个优选识别路径，包括：

分别对每段所述音频进行语音识别，获取每段所述音频片段的全部识别路径；

基于声学模型，获取每个所述识别路径的声学模型得分；

基于语言模型，获取每个所述识别路径的语言模型得分；

由所述声学模型得分和所述语言模型得分加权计算，获取每个识别路径的评分结果；

基于评分结果，对每段所述音频片段对应的所有所述识别路径由高到低进行排序，并依据排序结果选取前多个所述识别路径作为该段所述音频片段的多个优选识别路径。

进一步地，对所述第二音频片段集合中的每段音频片段进行语音识别，输出语音识别结果，包括：

对所述第二音频片段集合中的每段音频片段进行语音识别，获取所述第二音频片段集合中的每段所述音频片段的词级识别结果；

过滤所述词级识别结果中的误识别内容，输出语音识别结果。

进一步地，所述词级识别结果中包括词的置信度；

过滤所述词级识别结果中的误识别内容，包括：

将所述置信度小于预设第二阈值的词作为强噪声干扰的词过滤。

进一步地，获取包含若干音频片段的第一音频片段集合，包括：

基于切割规则，对待识别的音频进行切割，获取包含若干音频片段的待识别音频片段集合；

过滤所述待识别音频片段集合中的长时静音片段，获得包含若干音频片段的第一音频片段集合。

进一步地，所述基于切割规则，对待识别的音频进行切割，获取包含若干音频片段的待识别音频片段集合；包括：

获取待识别的所述音频的每一帧数据的判别信息，其中，所述判别信息包括静音和非静音；

若待识别的所述音频中，连续数帧音频数据的所述判别信息为静音，且连续帧数大于或等于预设第三阈值，则记录所述连续数帧音频数据的开始时间和结束时间，作为所述音频的切割点；

基于所述切割点，对待识别的所述音频进行切割。

一种语音识别装置，包括：

语音获取模块，用于获取包含若干音频片段的第一音频片段集合；

语音识别模块，用于对每段所述音频片段分别识别出多个最优识别结果；

强噪声过滤模块，基于所述最优识别结果，将第一音频片段集合中，最优识别结果同时包括至少一个表示噪声的识别结果和至少一个表示静音的识别结果对应的音频片段作为强噪声片段过滤，获得第二音频片段集合；

结果输出模块，用于对所述第二音频片段集合中的每段音频片段进行语音识别，输出语音识别结果。

进一步地，所述强噪声过滤模块具体用于：

基于所述最优识别结果，将第一音频片段集合中，最优识别结果同时包括至少一个表示噪声的识别结果、至少一个表示静音的识别结果和至少一个高频词对应的音频片段作为强噪声片段过滤，获得所述第二音频片段集合，其中，所述高频词为预先统计的在语音识别结果中出现概率超过预设第一阈值的词。

进一步地，所述结果输出模块，具体用于：

一种可读存储介质，其上具有可执行指令，当可执行指令被执行时，使得计算机执行如前述的语音识别方法中的步骤。

一种语音识别设备，所述设备包括处理器和存储器，所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时执行如前述的语音识别方法中的步骤。

上述技术方案中的优点或有益效果至少包括：

本申请的技术方案可通过将音频分割成若干音频片段，通过对每段音频片段进行语音识别，获得每段音频片段的多个最优识别结果，再将最优识别结果中同时包括至少一个表示噪声的识别结果和至少一个表示静音的识别结果对应的音频片段作为强噪声片段过滤，从而降低强噪声对后续语音识别结果的影响，提高了语音识别的准确率。

附图说明

附图示出了本发明的示例性实施方式，并与其说明一起用于解释本发明的原理，其中包括了这些附图以提供对本发明的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本发明的语音识别方法的流程示意图；

图2是本发明的语音识别装置的逻辑示意图。

具体实施方式

下面结合附图和实施方式对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本发明。

需要说明的是，文中的步骤编号，仅为了方便具体实施例的解释，不作为限定步骤执行先后顺序的作用。本实施例提供的方法可以由相关的服务器执行，且下文均以服务器或计算机等电子设备作为执行主体为例进行说明。

实施例一

参照图1，本实施例提供一种语音识别方法，包括：

获取包含若干音频片段的第一音频片段集合；

对每段音频片段分别识别出多个最优识别结果；

基于最优识别结果，过滤第一音频片段集合中的强噪声片段，获得第二音频片段集合；

对第二音频片段集合中的每段音频片段进行语音识别，输出语音识别结果。

其中，强噪声片段指的是不包含语音只包含强噪声的音频片段。由于噪声和语音之间的共性，特别是强噪声特征明显、声强较大，即便是通过传统的降噪算法对音频进行噪声消除也很难有效对消除强噪声的影响。因此，本发明的实施例通过将音频分割成若干音频片段，通过对每段音频片段进行语音识别，获得每段音频片段的多个最优识别结果，再基于最优识别结果，过滤第一音频片段集合中的强噪声片段，从而降低强噪声对后续语音识别结果的影响，提高了语音识别的准确率。

作为本实施例的优选实施方式，对每段音频片段分别识别出多个最优识别结果，包括：

分别对每段音频片段进行语言识别，获取每段音频片段的多个优选识别路径；

获取每个优选识别路径对应的识别结果作为最优识别结果，得到每段音频片段的多个最优识别结果。

其中，分别对每段音频片段进行语言识别，获取每段音频片段的多个优选识别路径，包括：

分别对每段音频进行语音识别，获取每段音频片段的全部识别路径；

基于声学模型，获取每个识别路径的声学模型得分；

基于语言模型，获取每个识别路径的语言模型得分；

由声学模型得分和语言模型得分加权计算，获取每个识别路径的评分结果；

基于评分结果，对每段音频片段对应的所有识别路径由高到低进行排序，并依据排序结果选取前多个识别路径作为该段音频片段的多个优选识别路径。

其中，对每段音频片段进行语言识别，获取每段音频片段的全部识别路径；可通过语音识别系统实现，当前主流的语音识别系统，一般包括：声学模型、语言模型、解码器等模块。其中，声学模型用来构建输入语音和输出声学单元之间的概率映射关系。语言模型用来根据语言客观事实而进行的语言抽象数学建模，用来描述不同字词之间的概率搭配关系；解码器主要完成的工作包括：给定输入特征序列的情况下，由声学模型、声学上下文、发音词典和语言模型等四种知识源组成的Search Space（搜索空间）中，通过Viterbi（维特比）搜索，寻找最佳词串作为识别结果，获取最佳词串的路径即为识别路径，基于此，在本实施例中，可通过将每段音频片段输入语音识别系统中，进行语音识别，获取对应的识别路径。

本实施例基于声学模型，获取每个识别路径的声学模型得分；基于语言模型，获取每个识别路径的语言模型得分；最后，由声学模型得分和语言模型得分加权计算，获取每个识别路径的评分结果；评分由以下公式获得：

S=α（AMscore）+β（LMscore）；

S为识别路径的评分结果；AMscore为声学模型得分；LMscore为语音模型得分；α为声学模型得分权重；β为语言模型得分权重。

针对强噪声的识别，由于语音识别系统一般没有针对噪声和静音去做单独的训练，因此，当强噪声片段通过语音识别系统进行识别时，在语音模型中，由于强噪声和静音之间的共性特征，当音频片段中没有语音内容仅包含强噪声时，强噪声的识别结果容易出现表示噪声的识别结果，也容易出现表示静音的识别结果；而在声学模型中没有为噪声单独定义一种发音表示，由于强噪声的特征明显，与正常语音的声学特征较为相似，因此一般声学模型对强噪声并不敏感，无法很好区分出强噪声。

由于识别路径的评分包括声学模型得分与语言模型得分，因此，在声学模型得分相近时，语言模型得分越高识别路径的评分越高，因此，表示噪声的识别结果对应的识别路径的评分结果和表示静音的识别结果对应的评论路径的评分结果，均容易获得较高的评分；语音识别系统返回多个最优识别结果时，也容易出现同时包括表示噪声的识别结果和表示静音的识别结果；因此，本发明的实施例中，基于最优识别结果，过滤第一音频片段集合中的强噪声片段，获得第二音频片段集合，包括：

将第一音频片段集合中，最优识别结果同时包括至少一个表示噪声的识别结果和至少一个表示静音的识别结果对应的音频片段作为强噪声片段过滤。

作为本实施例的例举，在语言模型中使用“spoken_noise”表示噪声，“sil”表示静音，本实施例中，对每段音频片段分别识别出多个最优识别结果（即Nbest识别结果），Nbest中的N是一个参数，根据实验分析，N为一个较小的值时，强噪声片段的Nbest结果中同时包含“spoken_noise”，“sil”两种解码结果。本发明的实施例中，基于实验获得，当N=5是一个比较合理的参数，这里根据评分排序，输出评分最高的5条识别结果保证Nbest识别结果的参考性较高。

举例来说明：

某条音频片段的Nbest识别结果为：

嗯

spoken_noise

sil

啊

我的

当N=5时Nbset结果中同时存在“spoken_noise”，“sil”两种解码结果，因此判定该音频片段为强噪声片段，可将该片段过滤。

此外，根据以上实施例，本发明基于实验分析，当音频片段中没有语音内容仅包含强噪声时，语音识别系统也很容易返回语言模型中出现概率较大的词作为识别结果。

正如以上实施例所述，语言模型中不会针对大量单独噪声或静音去做训练，因此语言模型中噪声或静音出现的概率远小于“嗯”等常用词出现的概率。

在声学模型中没有为噪声单独定义一种发音表示，而是用“sil”同时表征噪声与静音。

由于语音识别中，识别路径的评分包括声学模型得分与语言模型得分，声学模型得分相近时，语言模型得分越高识别路径的评分越高，因此没有上下文的前提下，语言模型中出现概率越高的词越容易作为突发强噪声的误识别结果。因此，语音识别系统很容易将突发强噪声片段识别为“嗯”等语言模型中出现概率较高的词。

因此，本实施例中，通过预设第一阈值，定义在语音识别结果中出现概率超过第一阈值的为高频词，若某个音频片段的Nbest结果中，还同时包括至少一个高频词的识别结果；则可提高该音频片段为强噪声片段的可信度。

作为本实施例的优选实施方式，对第二音频片段集合中的每段音频片段进行语音识别，输出语音识别结果，包括：

对第二音频片段集合中的每段音频片段进行语音识别，获取第二音频片段集合中的每段音频片段的词级识别结果；

过滤词级识别结果中的误识别内容，输出语音识别结果。

词级识别结果中包括词的置信度；

过滤词级识别结果中的误识别内容，包括：

将置信度小于预设第二阈值的词作为强噪声干扰的词过滤。

在经过对强噪声进行过滤后，由于语音识别系统存在一定的误识别率，因此，需要针对识别结果进一步过滤；本发明的实施例利用基于HMM-DNN（隐马尔可夫模型与深度神经网络）架构的语音识别系统对第二音频片段集合进行语音识别，输出语音识别结果，同时输出语音识别结果对应的每个词的置信度。

经过分析，在音频片段中由于突发强噪声引起的误识别内容所对应的语音识别置信度较低。因此，根据预设的第二阈值，将置信度小于预设第二阈值的词作为强噪声干扰的词过滤。

本发明的实施例中，用主流的语音识别工具Kaldi进行语音识别模型的搭建。语音识别置信度的计算方法也可以利用Kaildi中已经实现的方法进行计算，HMM-DNN语音识别系统是大词汇量的连续语音识别系统，可以输出识别结果中每个词所对应的语音识别置信度，这里的大词汇量连续语音识别系统指的是该系统可以对覆盖大量词汇的连续不间断的语音进行识别。利用语音识别系统输出音频片段对应的识别结果的同时输出识别结果中每个词的语音识别置信度。例如：

某音频片段的识别结果为：

我在北京上学

识别结果中每个词的语音识别置信度为：

我(0.95) 在(0.9)北京(0.92) 上学(0.95)

如上所示，识别结果为：“我在北京上学”，其中识别结果中“我”的置信度为0.95，“在”的置信度为0.9…，语音识别结果中每个词的语音识别置信度用于衡量在语音识别结果中该词是否识别准确，置信度越高代表在识别结果中该词越有可能是正确的，其中置信度的大小在【0，1】区间内。

这里的第二阈值是一个可调的参数，本实施例中认为第二阈值等于0.4是一个合理的参数。举例子：

语音识别结果及识别结果中每个词的置信度为：

对(0.92) 这(0.25)数学课(0.95)我(0.9)要(0.85)讲(0.85)全等(0.87)三角形(0.95)

识别结果中“这”对应的语音置信度较低，通过阈值限制语音识别结果后，识别结果为：

对数学课我要讲全等三角形

返回音频片段的新的语音识别结果作为最终的识别结果。

作为本实施例的优选实施方式，获取包含若干音频片段的第一音频片段集合，包括：

获取待识别的音频的每一帧数据的判别信息，其中，判别信息包括静音和非静音；

过滤待识别音频片段集合中的长时静音片段，获得包含若干音频片段的第一音频片段集合。

切割规则包括：若待识别的音频中，连续数帧音频数据均判别为静音，且连续帧数大于或等于预设第三阈值，则记录该连续数帧音频数据的开始时间和结束时间，作为音频的切割点，长时静音片段为该连续数帧音频数据的音频片段，即长时静音片段为不包括语音数据的音频片段。

本发明的实施例，可利用语音端点检测技术，根据语音的一些时域或频域特征对语音和静音进行区分，判断音频中的每一帧数据是语音还是静音，从声音信号流里识别和消除长时间的静音段，以达到语音识别前对静音段的过滤。

根据实验，本实施例中，基于实验获得，在本实施例中，第三阈值设置为20帧较为合理，即当语音活动检测判定连续20帧以上为静音时，我们记录该静音段的开始时间和结束时间，作为音频的切割点。

基于本实施例的语音识别方法，能够有效解决强噪声及突发强噪声对语音识别结果造成的影响，提高了语音识别的准确率。

实施例二

参照图2，本实施例提供一种语音识别装置，其特征在于，包括：

一种语音识别装置，包括：

语音识别模块，用于对每段音频片段分别识别出多个最优识别结果；

强噪声过滤模块，用于基于最优识别结果，过滤第一音频片段集合中的强噪声片段，获得第二音频片段集合；

结果输出模块，用于对第二音频片段集合中的每段音频片段进行语音识别，输出语音识别结果。

作为本实施例的优选实施方式，强噪声过滤模块具体用于：

基于每段音频片段的最优识别结果，分别判断每段音频片段是否为强噪声片段；

若该段音频片段的多个最优识别结果中，同时包括至少一个表示噪声的识别结果和至少一个表示静音的识别结果，则该段音频片段为强噪声片段，否则为正常音频片段；

将强噪声片段过滤，获得第二音频片段集合。

进一步地，结果输出模块，具体用于：

过滤词级识别结果中的误识别内容，输出语音识别结果。

本实施例的原理和效果与实施例一中的一致，本实施例不再重复描述。

实施例三

本发明还提供一种存储介质，其上具有可执行指令，当可执行指令被执行时，使得计算机执行上述任意一种实施方式中的方法的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例四

本发明还提供一种语音识别设备，设备包括处理器和存储器，存储器中存储有适于处理器执行的计算机程序指令，计算机程序指令被处理器运行时执行上述任意一种实施方式中的方法的步骤。设备可依托现有的计算机、手机、平板等电子设备，通过载入可实现上述任意一种实施方式中的方法的程序实现。

应理解的是，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

本发明的流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

本发明在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

本发明术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本发明，而并非是对本发明的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本发明的范围内。

Claims

1.一种语音识别方法，其特征在于，包括：

获取包含若干音频片段的第一音频片段集合；

对每段所述音频片段分别识别出多个最优识别结果；

2.如权利要求1所述的方法，其特征在于，作为强噪声片段的所述音频片段的最优识别结果还同时包括至少一个高频词，所述高频词为预先统计的在语音识别结果中出现概率超过预设第一阈值的词。

3.如权利要求1所述的方法，其特征在于，对每段所述音频片段分别识别出多个最优识别结果，包括：

4.如权利要求3所述的方法，其特征在于，分别对每段所述音频片段进行语言识别，获取每段所述音频片段的多个优选识别路径，包括：

基于声学模型，获取每个所述识别路径的声学模型得分；

基于语言模型，获取每个所述识别路径的语言模型得分；

5.如权利要求1所述的方法，其特征在于，

对所述第二音频片段集合中的每段音频片段进行语音识别，输出语音识别结果，包括：

6.如权利要求5所述的方法，其特征在于，

所述词级识别结果中包括词的置信度；

过滤所述词级识别结果中的误识别内容，包括：

7.如权利要求1所述的方法，其特征在于，

获取包含若干音频片段的第一音频片段集合，包括：

8.如权利要求7所述的方法，其特征在于，所述基于切割规则，对待识别的音频进行切割，获取包含若干音频片段的待识别音频片段集合；包括：

基于所述切割点，对待识别的所述音频进行切割。

9.一种语音识别装置，其特征在于，包括：

强噪声过滤模块，用于基于所述最优识别结果，将第一音频片段集合中，最优识别结果同时包括至少一个表示噪声的识别结果和至少一个表示静音的识别结果对应的音频片段作为强噪声片段过滤，获得第二音频片段集合；

10.如权利要求9所述的装置，其特征在于，所述结果输出模块，具体用于：

11.一种可读存储介质，其特征在于，其上具有可执行指令，当可执行指令被执行时，使得计算机执行如权利要求1-8任一项所述的语音识别方法中的步骤。

12.一种语音识别设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时执行如权利要求1-8任一项所述的语音识别方法中的步骤。