CN112002307B

CN112002307B - 一种语音识别方法和装置

Info

Publication number: CN112002307B
Application number: CN202010901270.5A
Authority: CN
Inventors: 胡正伦; 陈江; 朱敏贤
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2023-11-21
Anticipated expiration: 2040-08-31
Also published as: CN112002307A

Abstract

本申请公开了一种语音识别方法和装置，其中所述方法包括：采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权重向量，其中，所述噪声权重向量携带对应音频帧所表征的时间信息；在将所述音频帧的音频特征信息输入语音识别器时，获取与各音频特征信息时间上对齐的噪声权重向量作为所述语音识别器的环境噪声嵌入，以指导所述语音识别器在进行语音识别时根据所述噪声权重向量选择高信噪比的音频特征信息进行决策，改善低信噪比下语音识别率下降的问题，提高语音识别率，提升语音识别在噪声环境的鲁棒性。

Description

一种语音识别方法和装置

技术领域

本申请实施例涉及自然语言处理技术，尤其涉及一种语音识别方法和装置。

背景技术

语音识别(Automatic Speech Recognition，简称ASR)是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转换为相应的文本或命令的技术。随着信息技术的发展，语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音识别技术的应用场景也变得越来越广泛，例如语音识别技术可以应用在字幕添加、识别谈话中的敏感内容、人机交互等场景。

随着ASR技术的发展，在安静场景下进行的语音识别已经具有相当满意的效果，然而在噪声场景下识别率会大幅下降。

在一种相关技术中，关于噪声场景下的语音识别，可以在ASR前端使用多麦克风语音增强算法来提升语音识别器的性能。然而，该方案并不适用于只有一个麦克风可用的业务场景。而针对只有一个麦克风可用的业务场景，可以使用单通道语音增强(SE)算法提高识别率，但单通道语音增强算法往往会引起失真，造成与ASR训练及测试场景不匹配，导致ASR系统的识别率较低。

在其他相关技术中，还可以通过增加训练数据来提升ASR系统的识别率，但在真实使用场景中往往存在不同程度的环境噪声、混响等无法通过数据增强来完善描述的场景。

发明内容

本申请提供一种语音识别方法和装置，以解决现有技术中在噪声场景下进行语音识别时识别率较低，训练和测试场景不匹配的问题。

第一方面，本申请实施例提供了一种语音识别方法，所述方法包括：

采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权重向量，其中，所述噪声权重向量携带对应音频帧所表征的时间信息；

在将所述音频帧的音频特征信息输入语音识别器时，获取与各音频特征信息时间上对齐的噪声权重向量作为所述语音识别器的环境噪声嵌入，以指导所述语音识别器在进行语音识别时根据所述噪声权重向量选择高信噪比的音频特征信息进行决策。

第二方面，本申请实施例还提供了一种语音识别装置，所述装置包括：

噪声权重确定模块，用于采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权重向量，其中，所述噪声权重向量携带对应音频帧所表征的时间信息；

噪声嵌入模块，用于在将所述音频帧的音频特征信息输入语音识别器时，获取与各音频特征信息时间上对齐的噪声权重向量作为所述语音识别器的环境噪声嵌入，以指导所述语音识别器在进行语音识别时根据所述噪声权重向量选择高信噪比的音频特征信息进行决策。

第三方面，本申请实施例还提供了一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的方法。

本申请具有如下有益效果：

在本实施例中，通过将自注意力机制与语音识别器相结合在噪声环境中进行语音识别，采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权重向量以后，在将各音频帧的音频特征信息输入至语音识别器时，将时间对齐的噪声权重向量作为语音识别器的环境噪声嵌入，使得语音识别器更容易学习到语音特征与噪声的关系，从而在进行语音识别时根据噪声权重向量选择高信噪比的音频特征信息进行决策，改善低信噪比下语音识别率下降的问题，提高语音识别率，提升语音识别在噪声环境的鲁棒性。

附图说明

图1是本申请实施例一提供的一种语音识别方法实施例的流程图；

图2是本申请实施例一中的音频帧序列示意图；

图3是本申请实施例二提供的另一种语音识别方法实施例的流程图；

图4是本申请实施例二中的噪声分类模型示意图；

图5是本申请实施例二中的噪声分类模型与语音解码器结合的示意图；

图6是本申请实施例三提供的一种语音识别装置实施例的结构框图；

图7是本申请实施例四提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

实施例一

图1为本申请实施例一提供的一种语音识别方法实施例的流程图，该实施例着重于在语音识别过程中的抗噪处理，以在噪声场景下提高语音识别的识别率。该方法可以应用在具有语音识别功能的应用程序上，例如在音视频直播应用程序上针对吵杂环境的语音识别。

本实施例具体可以包括如下步骤：

步骤110，采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权重向量。

自注意力机制(Self-attention Mechanism)是注意力(Attention)机制中的一种，注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐，从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征，而自注意力机制是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。在本实施例中，在语音识别中引入自注意力机制，来确定待识别的音频帧序列中各音频帧的噪声权重向量。

其中，噪声权重向量携带对应音频帧所表征的时间信息，其可以用于表征该时间信息的音频帧的噪声强度，音频帧的噪声强度越强，其噪声权重向量越大。

例如，如图2所示的音频帧序列包括五帧，各帧的噪声强度为第五帧>第四帧>第三帧>第二帧＝第一帧，其噪声权重向量的大小排序为：w₅>w₄>w₃>w₂＝w₁。

在一种实施方式中，步骤110进一步可以包括如下步骤：

步骤110-1，获取待识别的音频帧序列中各音频帧的频域特征信息。

示例性地，频域特征信息可以包括但不限于如下的一种或结合：FFT(fastFourier transform，快速傅里叶变换)特征、MFCC(Mel Frequency CepstrumCoefficient，梅尔频率倒谱系数)特征、FBank(Filter Bank，滤波器组)特征、LPC(LinearPrediction Coefficient，线性预测系数)特征，等等。

在一种实现中，MFCC特征的获取方式可以如下：先对待识别语音进行预加重、分帧和加窗；对每一个短时分析窗，通过FFT得到对应的频谱(获得分布在时间轴上不同时间窗内的频谱，即FFT特征为频谱特征)；将上面的频谱通过Mel滤波器组得到Mel频谱(通过Mel频谱，将线形的自然频谱转换为体现人类听觉特性的Mel频谱)；在Mel频谱上面进行倒谱分析(取对数，做逆变换，实际逆变换是通过DCT(Discrete Cosine Transform，离散余弦变换)来实现，取DCT后的第2个到第13个系数作为MFCC系数)，获得Mel频率倒谱系数MFCC，这个MFCC就是这帧语音的特征(倒谱分析，获得MFCC作为语音特征)。

Filter bank和MFCC的计算步骤基本一致，但没有做IDFT(Inverse DiscreteFourier Transform，离散傅里叶逆变换)。

对语音信号进行LPC分析的基本思想是：一个语音的采样能够用过去若干个语音采样的线性组合来逼近，通过线性预测到的采样在最小均方误差意义上逼近实际语音采样，可以求取一组唯一的预测系数。预测系数就是线性组合中所用的加权系数，这种线性预测分析最早是用于语音编码中。

步骤110-2，分别将各音频帧的频域特征信息输入至已训练的噪声分类模型中，并获取所述噪声分类模型的隐藏层输出的各音频帧的隐层状态信息。

在该步骤中，音频帧输入至噪声分类模型的隐藏层后，由隐藏层将该音频帧映射为隐层状态信息(hidden state)。当噪声分类模型中有多个隐藏层时，隐层状态信息表示最后一个隐藏层的输出。

若当前处理的音频帧对应的时间信息为t，即t时刻的音频帧对应的隐层状态信息为h_t，则，待识别的音频帧序列经过隐藏层的映射可以输出隐层状态信息序列H＝{h₁,h₂,…h_N}。

步骤110-3，对所述隐层状态信息进行处理，得到对应音频帧的噪声权重向量。

在该步骤中，对隐层状态信息序列H＝{h₁,h₂,…h_N}中的各个隐层状态信息进行处理，可以得到携带时间信息的噪声权重向量序列W＝{w₁,w₂,...w_N}，其中， w₁表示第一帧的噪声权重向量，w₂表示第二帧的噪声权重向量，以此类推。

在一种例子中，上述对隐层状态信息进行的处理可以包括但不限于：归一化处理。例如，可以按照如下公式计算音频帧的噪声权重向量w_t：

其中，为h_t的转置，u为可通过反向传播学习的参数，目的是通过此参数决定每个时间点的隐层状态信息对于输出的重要性。

步骤120，在将所述音频帧的音频特征信息输入语音识别器时，获取与各音频特征信息时间上对齐的噪声权重向量作为所述语音识别器的环境噪声嵌入，以指导所述语音识别器在进行语音识别时根据所述噪声权重向量选择高信噪比的音频特征信息进行决策。

在该步骤中，将自注意力机制结合语音识别器进行噪声环境下的语音识别。当获得各音频帧的噪声权重向量以后，可以将各音频帧的音频特征信息以及时间上对齐的噪声权重向量输入至语音识别器中，上述时间上对齐是指，例如，第一帧的音频特征信息与w₁对齐。

基于接收到的音频特征信息以及噪声权重向量，语音识别器无需大量训练数据即可通过该噪声权重向量确定帧级别下语音特征和噪声之间的关系，从而便于语音识别器在进行语音识别时选择高信噪比的音频特征信息进行决策。

作为一种示例，音频特征信息可以包括但不限于MFCC特征。

在一种实施方式中，可以将各音频帧的音频特征信息以及对应的噪声权重向量输入至语音识别器的声学模型中，由所述声学模型根据各音频帧的噪声权重向量确定各音频帧的识别权重向量，并选择识别权重向量高的音频特征信息进行语音识别。

在该实施例中，语音识别器的声学模型的输入可以包括音频帧序列中各音频帧的音频特征信息以及时间上对齐的噪声权重向量。声学模型根据各音频帧的噪声权重向量可以确定各音频帧的识别权重向量，在一种实现中，声学模型可以计算数值1与噪声权重向量的差值，作为音频帧的识别权重向量，即识别权重向量＝1-w_t，噪声越大，音频帧的识别权重向量越小。

确定各音频帧的识别权重向量以后，声学模型可以在提取上下文特征时，选择识别权重向量高的音频特征信息进行语音识别，以提高识别率。

实施例二

图3为本申请实施例二提供的另一种语音识别方法实施例的流程图，该实施例在实施例一的基础上，对通过自注意力机制提升编码器的编码效果的过程进行说明，具体可以包括如下步骤：

步骤310，获取待识别的音频帧序列中各音频帧的频域特征信息。

示例性地，频域特征信息可以包括但不限于如下的一种或结合：FFT特征、 MFCC特征、FBank特征、LPC特征，等等。

步骤320，分别将各音频帧的频域特征信息输入至已训练的噪声分类模型中，并获取所述噪声分类模型的隐藏层输出的各音频帧的隐层状态信息。

在该步骤中，本实施例上述所指的编码器可以为噪声分类模型，噪声分类模型可以是一种深度神经网络多分类器，如图4的噪声分类模型示意图所示，噪声分类模型的输入是音频帧序列，输出为该音频帧序列对应的噪声分类类别 (即图4中的黑色圈)，如干净、白噪声、汽车噪声、机器噪声等。

在本实施例中，噪声分类模型的作用之一是提取对语音识别结果有帮助的隐层状态信息，其中，该隐层状态信息为噪声分类模型的隐藏层对输入的各音频帧的频域特征信息进行映射，并输出的信息。

步骤330，对所述隐层状态信息进行处理，得到对应音频帧的噪声权重向量。

在本实施例中，一方面，噪声权重向量可以用于表征该时间信息的音频帧的噪声强度，音频帧的噪声强度越强，其噪声权重向量越大。另一方面，噪声权重向量还可以用于表征对应的音频帧对噪声分类的贡献度。

步骤340，计算所述音频帧序列中各音频帧的隐层状态信息与时间对齐的噪声权重向量的加权平均值，作为所述音频帧序列的上下文向量。

在该步骤中，通过对各音频帧的隐层状态信息与时间对齐的噪声权重向量加权平均的方式，可以得到当前音频帧序列的抽象特征表示，即上下文向量c。可以通过如下公式计算上下文向量c：

步骤350，将所述上下文向量作为池化层特征更新所述噪声分类模型。

如图4所示，根据自注意力机制获得当前音频帧序列的上下文向量c以后，可以将上下文向量c可以作为噪声分类模型的池化层更新噪声分类模型，此时的池化层可以称为自注意池化(self attention pooling)层。由于上下文向量c是通过不同的噪声权重向量(即动态权重)计算得到的，相比于传统的池化层中对每一音频帧的特征平均化，即为每个音频帧分配了相等的权重的做法，更能凸显强噪声帧的音频特征，更易于训练网络且能保留时间序列上依赖关系信息，使噪声分类模型的分类性能最大化。

步骤360，在将所述音频帧的音频特征信息输入语音识别器时，获取与各音频特征信息时间上对齐的噪声权重向量作为所述语音识别器的环境噪声嵌入，以指导所述语音识别器在进行语音识别时根据所述噪声权重向量选择高信噪比的音频特征信息进行决策。

在一种例子中，如图5所示，在将音频帧序列各音频帧的音频特征信息输入语音识别器时，各音频帧的噪声权重向量w_t可以作为语音识别器的环境噪音嵌入，以指导语音识别器在进行语音识别时选择高信噪比的音频特征信息进行决策。

在一种实施方式中，步骤360可以包括如下步骤：

将各音频帧的音频特征信息以及对应的噪声权重向量输入至语音识别器的声学模型中，由所述声学模型根据各音频帧的噪声权重向量确定各音频帧的识别权重向量，并选择识别权重向量高的音频特征信息进行语音识别。

在一种实施方式中，可以由所述声学模型计算数值1与所述音频帧的噪声权重向量的差值，作为该音频帧的识别权重向量。

在该实施例中，噪声权重向量越大的音频帧，其识别权重向量越小，根据识别权重向量可以指导声学模型采用识别权重向量大的音频特征信息，避免受到噪声大的音频帧的影响，并且有利用前后文修正错误。

在一种例子中，针对应用程序对语音进行审核的场景，如果低信噪比下违规信号和背景噪声信号能量接近，而背景噪声通常是时变，可以可利用噪声权重向量，判定噪声大的字识别权重向量较低，指导语音识别器利用前后文修正信噪比高导致识别错误的字。

在本实施例中，噪声分类模型提取出对语音识别结果有帮助的隐层状态信息以后，根据隐层状态信息确定各音频帧的噪声权重向量，并根据各音频帧的噪声权重向量计算音频帧序列的上下文向量，作为训练噪声分类模型的参数，以实现动态权重分配，相比于平均池化的方式更易于训练网络且能保留时间序列上的依赖关系信息，更能凸显强噪声帧的音频特征，使噪声分类模型的性能最大化。

另外，噪声分类模型的将携带时间信息的噪声权重向量输出给语音识别器作为环境噪声嵌入，性能越好的噪声分类模型越能有效提取出、对语音识别器输出正确文字有帮助的隐层状态信息，从而得到越能体现噪声强度的噪声权重向量，该噪声权重向量提供给语音识别器以后，语音识别器根据各音频帧的音频特征信息以及噪声权重向量确定音频特征和噪声的关系，以便于在进行语音识别时选择高信噪比的音频特征信息进行决策，提高语音识别在噪声环境的鲁棒性。

实施例三

图6为本申请实施例三提供的一种语音识别装置实施例的结构框图，该装置可以包括：

噪声权重确定模块610，用于采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权重向量，其中，所述噪声权重向量携带对应音频帧所表征的时间信息；

噪声嵌入模块620，用于在将所述音频帧的音频特征信息输入语音识别器时，获取与各音频特征信息时间上对齐的噪声权重向量作为所述语音识别器的环境噪声嵌入，以指导所述语音识别器在进行语音识别时根据所述噪声权重向量选择高信噪比的音频特征信息进行决策。

在一种实施方式中，所述噪声权重确定模块610可以包括如下子模块：

频域特征信息获取子模块，用于获取待识别的音频帧序列中各音频帧的频域特征信息；

隐层状态信息确定子模块，用于分别将各音频帧的频域特征信息输入至已训练的噪声分类模型中，并获取所述噪声分类模型的隐藏层输出的各音频帧的隐层状态信息；

噪声权重向量确定子模块，用于对所述隐层状态信息进行处理，得到对应音频帧的噪声权重向量。

在一种实施方式中，所述装置还包括如下模块：

上下文向量确定模块，用于计算所述音频帧序列中各音频帧的隐层状态信息与时间对齐的噪声权重向量的加权平均值，作为所述音频帧序列的上下文向量；

分类模型更新模块，用于将所述上下文向量作为池化层特征更新所述噪声分类模型。

在一种实施方式中，所述噪声嵌入模块620还用于：

由所述声学模型计算数值1与所述音频帧的噪声权重向量的差值，作为该音频帧的识别权重向量。

需要说明的是，本申请实施例所提供的语音识别装置可执行本申请任意实施例所提供的语音识别方法，具备执行方法相应的功能模块和有益效果。

实施例四

图7为本申请实施例六提供的一种服务器的结构示意图，如图7所示，该服务器包括处理器710、存储器720、输入装置730和输出装置740；服务器中处理器710的数量可以是一个或多个，图7中以一个处理器710为例；服务器中的处理器710、存储器720、输入装置730和输出装置740可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器720作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述的方法。

存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器720可进一步包括相对于处理器710 远程设置的存储器，这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可用于接收输入的数字或字符信息，以及产生与服务器的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

实施例五

本申请实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行实施例一至实施例二中任一实施例中的方法。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

值得注意的是，上述装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权重向量，包括：

获取待识别的音频帧序列中各音频帧的频域特征信息；

分别将各音频帧的频域特征信息输入至已训练的噪声分类模型中，并获取所述噪声分类模型的隐藏层输出的各音频帧的隐层状态信息；

对所述隐层状态信息进行处理，得到对应音频帧的噪声权重向量。

3.根据权利要求2所述的方法，其特征在于，在所述采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权重向量之后，还包括：

计算所述音频帧序列中各音频帧的隐层状态信息与时间对齐的噪声权重向量的加权平均值，作为所述音频帧序列的上下文向量；

将所述上下文向量作为池化层特征更新所述噪声分类模型。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述在将所述音频帧的音频特征信息输入语音识别器时，获取与各音频特征信息时间上对齐的噪声权重向量作为所述语音识别器的环境噪声嵌入，以指导所述语音识别器在进行语音识别时根据所述噪声权重向量选择高信噪比的音频特征信息进行决策，包括：

5.根据权利要求4所述的方法，其特征在于，所述由所述声学模型根据各音频帧的噪声权重向量确定各音频帧的识别权重向量包括：

6.一种语音识别装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述噪声权重确定模块包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。