CN111179920A

CN111179920A - 一种端到端远场语音识别方法及系统

Info

Publication number: CN111179920A
Application number: CN201911415037.XA
Authority: CN
Inventors: 黎塔; 邬龙; 张鹏远; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-19
Anticipated expiration: 2039-12-31
Also published as: CN111179920B

Abstract

本发明提供一种端到端远场语音识别方法及系统。在一个实施例中，将多通道信号的频谱特征和空间特征进行融合，并输入掩蔽网络中计算多通道信号的掩蔽值；根据所述掩蔽值计算多通道信号的波束形成系数，并根据所述波束形成系数对多通道语音信号进行增强；将增强后的多通道信号输入到编码解码网络中进行声学建模和优化，并在优化过程中加入最大信噪比准则进行联合优化；将优化后的多通道信号作为最终识别结果，并输出。通过将神经网络波束形成和声学建模结合进行联合优化以及将最大信噪比优化准则和语音识别准则进行联合优化。解决了前端语音增强和语音识非一致优化的问题。

Description

一种端到端远场语音识别方法及系统

技术领域

本发明涉及语音识别技术领域,尤其涉及一种端到端远场语音识别方法及系统。

背景技术

语音识别技术是将输入的语音转换成文本的重要技术，虽然神经网络声学模型很大程度上降低了近场语音识别系统的识别错误率，但识别系统对远场语音的识别准确率仍远低于对近场语音的识别准确率。远场语音中存在的背景噪声、混响以及人声干扰是影响语音识别技术广泛实用化的一个关键因素。

迄今为止，前人已经提出不少旨在提高远场语音识别性能的方法。这些方法大致可以概括成三类：一是采用两阶段训练算法，即先对语音信号进行增强，然后将增强后的信号进行后端声学建模；二是直接利用远场语音数据训练声学模型，并在训练过程中加入混响信息等以及使用更复杂的神经网络结构来进行声学建模；三是将语音信号增强和声学建模放在一个框架里面进行联合优化。

为此本发明提出一种基于空间特征和最大信噪比准则的端到端远场语音识别方法。首先将多通道语音的频谱特征和空间特征进行融合作为时频掩蔽网络的输入，然后利用估计出来的掩蔽值来计算波束形成的系数，进而进行多通道语音增强。最后，将增强后的信号送入基于连接主义分类和注意力机制的编码解码网络中进行声学建模，并在优化过程中加入最大信噪比准则进行联合优化，最终得到识别的结果。

发明内容

有鉴于此，本申请实施例提供了一种端到端远场语音识别方法及系统。

第一方面，本发明申请提供一种端到端远场语音识别方法，包括：

将多通道信号的频谱特征和空间特征进行融合，并输入掩蔽网络中计算多通道信号的掩蔽值；

根据所述掩蔽值计算多通道信号的波束形成系数，并根据所述波束形成系数对多通道语音信号进行增强；

将增强的多通道信号输入到编码解码网络中进行声学建模和优化，并在优化过程中加入最大信噪比准则进行联合优化；

将优化后的多通道信号作为最终识别结果，并输出。

可选地，所述空间特征包括：幅值平方相干系数、多通道相位差和多通道幅度差中的一种或多种。

可选地，所述计算多通道信号的掩蔽值包括：分别计算多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值。

可选地，所述根据所述掩蔽值计算多通道信号的波束形成系数包括：

分别对多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值求平均值；

根据多通道语音信号和多通道噪声信号的平均掩蔽值计算多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵；

根据所述多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵计算多通道信号的波束形成系数。

可选地，所述编码解码网络为基于连接主义和注意力机制的编码解码网络。

第二方面，本发明申请提供一种端到端语音识别系统，包括：

采集单元：用于获取多通道信号，并将多通道信号的频谱特征和空间特征进行融合后输入掩蔽网络中；

处理单元：用于计算多通道信号的掩蔽值；根据所述掩蔽值计算多通道信号的波束形成系数，并根据所述波束形成系数对多通道语音信号进行增强；将增强的多通道信号输入到编码解码网络中进行声学建模和优化，并在优化过程中加入最大信噪比准则进行联合优化。

输出单元：用于将优化后的多通道信号最终识别结果，并输出。

本申请实施例提供端到端远场语音识别方法系统。在一个实施例中，首先将多通道语音的频谱特征和空间特征进行融合作为时频掩蔽网络的输入，然后利用估计出来的掩蔽值来计算波束形成的系数，进而进行多通道语音增强。最后，将增强后的信号送入基于连接主义分类和注意力机制的编码解码网络中进行声学建模，并在优化过程中加入最大信噪比准则进行联合优化，最终得到识别的结果。通过将神经网络波束形成和声学建模结合进行联合优化以及将最大信噪比优化准则和语音识别准则进行联合优化。解决了前端语音增强和语音识非一致优化的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明申请一种端到端远场语音识别系统的结构示意图；

图2为本发明申请一种端到端远场语音识别系统的又一结构示意图；

图3为本发明申请一种端到端远场语音识别方法的流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

图1为本发明申请一种端到端远场语音识别系统的结构示意图，参见图1，本申请实施例中的一种端到端远场语音识别系统包括：采集单元101、处理单元102和输出单元103。

采集单元101用于采集多通道信号，并将多通道信号的频谱特征和空间特征进行融合后输入到掩蔽网络中。

为了进一步提高系统性能，将空间特征和频谱特征进行融合，从而提高掩蔽网络估计的精度。在一个可能的实施例中，针对远场信号中的散射噪声(背景噪声、混响)以及直达声，提出了三种空间特征：

幅值平方相干系数：

其中，

和ICC(i,j,t,f)分别代表信号的自相关矩阵和信号的相关系数。MSC(t,f)代表幅值平方相干系数。

多通道相位差：

多通道幅度差：

幅值相关特征主要从时频点相关性的角度区分散射噪声和直达声。而多通道相位差和幅度差主要反映直达声的方向。

处理单元102包括：第一处理单元1021、第二处理单元1022和第三处理单元1023。

第一处理单元102用于计算多通道信号的掩蔽值。将多通道信号的频谱特征和空间特征进行融合后输入到掩蔽网络后，分别计算多通道信号和多通道噪声信号的掩蔽值。其中对第C个多通道信号和第C个多通道噪声信号的掩蔽网络和掩蔽值的计算如下：

其中，BLSTM^S()和BLSTM^N()分别代表信号和噪声掩蔽估计网络。

和

分别代表第c个通道信号和噪声掩蔽值。

对C个通道的掩蔽值求平均：

在得到每个通道的掩蔽值之后，计算多通道语音信号和多通道噪声信号的功率谱矩阵如下：

其中

代表了C个通道的短时傅里叶变化。

根据计算出的多通道语音信号和多通道噪声信号的功率谱矩阵，对多通道信号的波束形成系数的估计如下：

其中，u是波束形成的参考向量，估计如下：

v_c＝W^Ttanh(W_qq_c+W_rr_c+b) (18)

其中，q_c、r_c、v_c为在形成通道信号掩蔽估计网络和通道噪声掩蔽估计网络过程中中间层的输出特征，并将其作为波束形成系数估计过程中的输入特征。

根据计算得到的多通道信号的波束形成系数对多通道语音信号进行增强。增强后的多通道信号Y表示为：

Y＝G^HX (20)

其中，X为输入信号，G是波束形成系数矩阵。

进一步地，输出信号的能量可以表示为：

Φ_YY＝G^HXX^HG

＝G^HΦ_XXG

＝G^HΦ_SSG+G^HΦ_NNG (21)

其中，G^HΦ_SSG和G^HΦ_NNG分别代表干净信号的能量和噪声的能量，因此信噪比可以表示为：

第三处理单元103用于对增强后的多通道信号进行声学建模。将增强后的多通道信号送入基于连接主义和注意力机制的编码解码网络中进行声学建模。

在一个可能的实施例中，对基于连接主义和注意力机制的编码解码网络的准则进行联合优化，在训练过程中，利用连接主义分类准则的前后向算法来强制输入语音特征和输出标签之间的单调对齐。优化准则如下所示：

L_MTL＝λL_ctc+(1-λ)L_attention (23)

其中，λ是插值系数，L_ctc和L_attention分别是连接主义分类准则和基于注意力编解码器准则。

将公式(22)加入到公式(23)中，得到最终的代价函：

根据公式(24)中的代价函数对多通道信号进行优化，得到最终的识别结果。

在一个可能的实施例中，对于连接主义分类准则而言，为了解决输出序列长度小于输入序列长度的问题，在输出符号集中加入一个blank符号，并允许blank符号的重复出现。连接主义分类准则预测整个输出序列的条件概率：

通过帧之间相互独立的假设公式(8)可以分解成：

其中x代表输入语音特征，y代表输出序列。L代表输出符号集合，T代表语音总帧数。π_1:T＝(π₁,...,π_T)代表每一帧的输出符号，π_t∈L'并且L'＝L∪blank。P(π_t|x)是t时刻的条件概率。B是映射函数，完成输出路径到输出符号序列的映射。

对于基于注意力机制的编码解码网络而言，它并未有任何条件独立的假设直接估计最终的后验概率。它使用了两个网络：编码网络和解码网络。编码网络的作用是将输入特征x映射成隐含层向量h，解码网络的作用是将隐含层向量h解码成输出符号序列y。因此后验概率可以表示为：

其中，c_u是输入特征x的函数。U是输出序列的长度和输入帧长不相等。因此，P(y_u|y_1:u-1,c_u)可以表示为：

h_t＝Encoder(x) (28)

a_ut＝Attend(s_u-1,a_u-1,h_t) (29)

P(y_u|y_1:u-1,c_u)＝Decoder(y_u-1,s_u-1,c_u) (31)

其中，Encoder()和Decoder()分别表示编码网络和解码网络。s是解码网络的隐含状态向量，h是编码网络的隐含状态向量。Attend()是注意力网络，注意力权重a_ut计算如下：

e_ut＝Score(s_u-1,a_u-1,h_t) (32)

其中，Score()既可以是基于内容的注意力也可以是基于位置的注意力：

e_ut＝v^Ttanh(Ks_u-1+Wh_t) (34)

e_ut＝v^Ttanh(Ks_u-1+Q(F*a_u-1)+Wh_t) (35)

在本申请实施例中，通过将空间特征和频谱特征进行融合，从而提高掩蔽网络估计的精度。将神经网络波束形成和声学建模结合进行联合优化、将最大信噪比准则和语音识别准则进行联合优化解决了前端语音增强和语音识别非一致优化的问题。

在一个可能的实施例中，本发明申请一种远场语音识别系统的基本框架还可以如图2所示。

图3为本发明申请一种远场语音识别方法的流程示意图，如图3所示，包括步骤：

步骤S301：将多通道信号的频谱特征和空间特征进行融合，并输入掩蔽网络中计算多通道信号的掩蔽值。

其中，多通道信号的空间特征包括：幅值平方相干系数、多通道相位差和多通道幅度差。幅值相关特征主要从时频点相关性的角度区分散射噪声和直达声。而多通道相位差和幅度差主要反映直达声的方向，因此将不同空间特征进行融合并输入到掩蔽网络中可以进一步提高掩蔽网络的估计精度。

分别计算多通道语音信号和多通道噪声信号的的掩蔽估计网络和掩蔽值，其计算公式与公式(7)～(10)相同。对多个多通道语音信号和多通道噪声信号的掩蔽值求平均值，其计算公式与公式(11)～(12)相同。

步骤S302：根据所述掩蔽值计算多通道语音信号的波束形成系数，并根据所述波束形成系数对多通道语音信号增强。

在得到每个通道信号的掩蔽值之后，根据该掩蔽值可以计算出相应通道语音信号和噪声信号的功率谱矩阵。根据计算出的通道语音信号和噪声信号的功率谱矩阵，计算通道信号的波束形成的系数。并根据计算得到的多通道信号的波束形成系数对多通道语音信号进行增强。

通过增强后的多通道信号，计算出多通道信号的信噪比。

步骤S303：将增强的信号输入到编码解码网络中进行声学建模和优化，并在优化过程中加入最大信噪比准则进行联合优化。

将增强后的多通道语音信号输入到基于连接主义和注意力机制的编码解码网络。并对连接主义分类准则和编解码网络的准则进行联合优化。在训练过程中，利用连接主义分类准则的前后向算法来强制输入语音特征和输出标签之间的单调对齐，其优化准则和公式(23)相同。

将步骤S302中计算得出的多通道信号的信噪比即公式(22)加入到公式(23)中得到最终的代价函数。

根据代价函数对多通道信号进行优化，得到最终的识别结果。

步骤S304：将优化后的多通道信号最终识别结果，并输出。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种端到端远场语音识别方法，包括：

将优化后的多通道信号作为最终识别结果，并输出。

2.根据权利要求1所述的方法，其特征在于，所述空间特征包括：幅值平方相干系数、多通道相位差和多通道幅度差中的一种或多种。

3.根据权利要求1所述的方法，其特征在于，所述计算多通道信号的掩蔽值包括：分别计算多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值。

4.根据权利要求1或3所述的方法，其特征在于，所述根据所述掩蔽值计算多通道信号的波束形成系数包括：

5.根据权利要求1所述的方法，其特征在于，所述编码解码网络为基于连接主义和注意力机制的编码解码网络。

6.一种端到端语音识别系统，包括：

处理单元：用于计算多通道信号的掩蔽值；根据所述掩蔽值计算多通道信号的波束形成系数，并根据所述波束形成系数对多通道语音信号进行增强；将增强的多通道信号输入到编码解码网络中进行声学建模和优化，并在优化过程中加入最大信噪比准则进行联合优化；

7.根据权利要求6所述的系统，其特征在于，所述空间特征包括：幅值平方相干系数、多通道相位差和多通道幅度差中的一种或多种。

8.根据权利要求6所述的系统，其特征在于，所述计算多通道信号的掩蔽值包括：分别计算多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值。

9.根据权利要求6或8所述的系统，其特征在于，所述根据所述掩蔽值计算多通道信号的波束形成系数包括：

10.根据权利要求6所述的系统，其特征在于，所述编码解码网络为基于连接主义和注意力机制的编码解码网络。