CN111524519B

CN111524519B - 采用高级特征融合的端到端多通道语音识别方法

Info

Publication number: CN111524519B
Application number: CN202010468201.XA
Authority: CN
Inventors: 郭武; 刘谭
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2022-09-30
Anticipated expiration: 2040-05-28
Also published as: CN111524519A

Abstract

本发明公开了一种采用高级特征融合的端到端多通道语音识别方法，包括：对于多通道语音输入，采用与通道数目相同的编码器单独对一个通道的语音输入进行编码；所述编码器为多层金字塔结构的神经网络，神经网络最后一层输出的声学特征序列称为高级特征序列；对于每一通道的高级特征序列，通过得分函数来计算相应的注意力权重，从而将所有通道的高级特征序列融合为一个增强的高级特征序列；将所述增强的高级特征序列输入至解码器，由解码器根据之前预测到的字符以及当前输入的所述增强的高级特征序列中当前字符来计算当前当前字符的概率分布，最终得到所述增强的高级特征序列的识别结果。该方法能够达到相对单通道语音输入的识别率更高的目的。

Description

采用高级特征融合的端到端多通道语音识别方法

技术领域

本发明涉及语音信号处理领域，尤其涉及一种采用高级特征融合的端到端多通道语音识别方法。

背景技术

近年来，随着神经网络在语音识别领域中的广泛应用，语音识别系统的性能得到了显著的改善。目前主流的语音识别系统主要有两种，一种是基于HMM的语音识别系统，另一种则是端到端语音识别系统。相比于基于HMM的语音识别系统，端到端语音识别系统结构更加简单，通过神经网络直接把输入语音特征序列转化成文字序列，不需要HMM系统的一套发音词典、决策树、字级别标注对齐信息，由于其实现简单且性能优异，因此成为了当前研究的热点。

基于注意力机制的“编码-解码”框架是端到端语音识别系统中一种主流的结构，它包括编码网络、解码网络和注意力计算网络，编码网络首先将输入的声学特征序列转化成高级特征序列，然后注意力计算网络计算解码器当前位置与高级特征序列每个元素的注意力权重，即相关程度，将这些元素加权求和得到一个上下文向量(Context Vector)，最后解码网络根据之前的预测结果和上下文向量预测当前位置的标签分布概率。

语音识别系统在近场干净语音识别任务上已经实现了很高的准确率，进入了实用阶段；但是在远场语音识别任务中性能不佳。多通道语音识别系统综合利用每个麦克风采集的信息，对信号进行增强，提高了远场语音识别准确率，因此被广泛应用到远场语音识别任务中。传统的综合多通道语音的方法是基于语音增强实现的，利用波束形成(beamforming)算法，例如延迟相加(Delay-sum)、最小方差无失真响应(MVDR)等对多通道语音信号进行增强，但是这些算法需要知道关于麦克风阵列的先验知识，比如阵列的形状、到声源的距离等，而且其实现过程并不是以语音识别准确率为目标。

基于注意力机制的多通道语音融合方法已经被应用到语音识别系统，如文献(Braun S,Neil D,Anumula J,et al.Multi-channelattention for end-to-end speechrecognition[J].2018Interspeech,2018:17-21)，使用基于注意力机制的多通道语音融合方法在声学特征层面进行融合，即根据每个通道语音的声学特征质量，为其分配一个权重，再将所有通道的声学特征加权求和，得到一个增强的声学特征，输入到端到端语音识别系统中。相比于每个通道语音单独训练识别的结果，该系统在识别准确率上有了一定的提升。然而在深度网络中存在内部协变量移位(Internal Covariate Shift)的问题，不同通道语音特征的差异性会随着网络的加深而发生变化。因此单纯的在输入特征层面对不同通道的特征进行融合无法利用各通道深层特征的信息。

发明内容

本发明的目的是提供一种采用高级特征融合的端到端多通道语音识别方法，在端到端识别框架，将多通道语音信号作为输入，完成语音识别的任务，能够达到相对单通道语音输入的识别率更高的目的。

本发明的目的是通过以下技术方案实现的：

一种采用高级特征融合的端到端多通道语音识别方法，包括：

对于多通道语音输入，采用与通道数目相同的编码器单独对一个通道的语音输入进行编码；所述编码器为多层金字塔结构的神经网络，神经网络最后一层输出的声学特征序列称为高级特征序列；对于每一通道的高级特征序列，通过得分函数来计算相应的注意力权重，从而将所有通道的高级特征序列融合为一个增强的高级特征序列；

将所述增强的高级特征序列输入至解码器，由解码器根据之前预测到的字符以及输入的所述增强的高级特征序列来计算当前字符的概率分布，最终得到所述增强的高级特征序列的识别结果。

由上述本发明提供的技术方案可以看出，通过注意力机制动态地为每个通道的高级特征分配注意力权重，将所有通道的高级特征加权求和，使得各个通道的高级特征互补，得到一个增强的高级特征序列，从而提高识别性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的典型的LAS结构图；

图2为本发明实施例提供的一种采用高级特征融合的端到端多通道语音识别方法的结原理图；

图3为本发明实施例提供的多通道高级特征融合示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

由于噪声和回声的影响，单一通道的远场语音特征经过编码器生成的高级特征会受到干扰，降低了识别的准确率。语音识别的声学建模方法是通过大量的语音数据来训练一个概率模型，测试的语音进入这个概率模型之后，通过解码输出就是对应的文本。在实际应用中，采用麦克风阵列来同时采集语音，并将多通道的语音信号用于语音识别的建模，从理论上而言，可以提升识别准确率，关键是如何利用这多路信号进行识别的建模。

目前，基于深度学习的语音识别系统成为了主流，而采用端到端技术也就是直接输入语音输出文本的识别技术，由于系统实现简单，性能几乎与传统方法相当甚至更好，解码速度快，成为了研究的热点；采用单路语音输入的端到端识别器已经基本成熟。本发明就是在端到端识别框架，将多通道语音信号作为输入，完成语音识别的任务，从而达到相对单通道语音输入的识别率更高的目的。

所述的端到端识别框架是指基于“编码-解码”的端到端识别框架，具体而言，就是采用注意力(Attention)机制的端到端系统，又被称为LAS(Listen attend and Spell)端到端构架。在LAS框架的编码器我们实现将多通道的语音输入进行融合，通过注意力机制来实现不同通道的加权合成一个更优的编码输入，从而达到优于单通道输入的信号，获得更高的识别准确率。

“编码-解码”框架(Encoder-Decoder)由编码器(Encoder)和解码器(Decoder)组成，是一种端到端的框架结构，直接进行序列转换。在语音识别模型训练中，输入就是一段语音对应的声学特征参数，输出就是这段语音对应的文本；在识别解码中，将训练好的模型输入语音对应的声学特征参数，通过搜索算法可以得到对应的文本。在语音识别中通常采用LSTM网络作为Encoder(编码器)和Decoder(解码器)。

在Encoder-Decoder框架中，Encoder端的输入是语音的声学特征序列X＝{x₁,x₂,…x_T}，Encoder将原始的声学特征序列编码成高级特征序列H＝{h₁,h₂,…h_U}：

H＝Encoder(X)

在每个时刻，Decoder端根据Encoder的输出H和前一时刻的标签y_i-1来预测当前时刻标签的概率分布：

c_i＝AttentionContext(s_i,H)

P(y_i|X,y＜i)＝Decoder(y_i-1,c_i)

其中，c_i是上下文向量，s_i是Decoder当前时刻的隐状态，AttentionContext函数计算s_i和Encoder输出H每个元素之间的注意力权重，将h_u加权求和得到c_i：

e_i,u＝<s_i,h_u>

c_i＝∑_uα_i,uh_u

其中，<>是用来计算s_i和h_u相关性的函数，α_i,u则是h_u对应的注意力权重。

LAS(Listen attend and Spell)结构是一种典型的编码-解码框架，可以应用在很多模式识别中，典型的有语音识别，机器翻译。如图1所示，LAS包含了两个组件：Listener和Speller，Listener对应的是Encoder，Speller对应的是Decoder。输入就是语音特征X＝{x₁,x₂,…x_T}，输出是对应的文本序列Y＝{y₁,y₂,…y_s}

Listener采用三层金字塔结构的BLSTM(pBLSTM)，每层帧数递减2倍，从而使得最上层的运算降低到只有原来的1/8。任一编码器第j层第i时刻的隐状态

来自于第j层第i-1时刻的隐状态

和第j-1层第2i时刻的隐状态

与第2i+1时刻的隐状态

Speller采用两层BLSTM，每次基于之前的输出字符和Listener的输出计算当前字符的分布概率P（y_i)：

c_i＝AttentionContext(s_i,H)

s_i＝RNN(s_i-1,y_i-1,c_i-1)

P(y_i|X,y＜i)＝CharacterDistribution(s_i,c_i)

其中，s_i代表当前时刻Speller的隐状态，y_i-1代表前一个预测字符。CharacterDistribution函数是一个带有softmax输出层的多层感知器，RNN函数是一个两层的LSTM。

本发明所提出的采用高级特征融合的端到端多通道语音识别方法就是以LAS结构为基础实现的。具体来说：

图2为实现本发明相关的方案的原理图，其中的编码器为多层金字塔结构的双向长短时记忆网络，实现方式及相关原理与图1中的编码器(Listener组件)相同，故不再赘述。

在本发明实施例中，将最后一层输出的隐状态序列表示为{h₁,h₂,…,h_U}，U为序列长度，也即总时刻数，高级特征序列H＝{h₁,h₂,…,h_U}。由于本发明实施例考虑多通道输入，因而将第l个通道的高级特征序列记为

并且，通过自动选择权重，将将各通道形成的高级特征序列进行融合生成一个更稳健的高级特征序列(也即增强的高级特征序列)。

如图3所示，为多通道高级特征融合示意图，图3仅示例性的以二通道为例进行说明，在实际应用中具体的通道数目C可根据实际情况考虑，按照图3所示的原理即可实现多通道高级特征的融合。

在多通道高级特征融合过程中，将每个通道的语音特征

输入到对应的Encoder中，得到其对应的高级特征序列

Hl＝Encoder(X^l)

对于其中的每一个高级特征

计算注意力权重，再将所有通道的高级特征加权求和，得到增强的高级特征序列：

其中，C表示通道总数，Z表示得分函数，

表示通过得分函数Z计算出的高级特征

的得分；注意力权重

是所有通道的得分经过softmax函数得到，这样就可以使得

u＝1，2，…，U，U为增强的高级特征序列长度；m_u为增强的高级特征序列M＝{m₁，m₂，…，m_U}中的一个高级特征。

本发明实施例中，所述得分函数可以通过神经网络来实现，所述神经网络可以Z包含三个线性层和一个非线性层：

其中，

表示前一个高级特征的注意力权重，相邻两个高级特征之间存在一定的联系，引入前一个高级特征的注意力权重可以更准确的计算当前高级特征的注意力权重；W_*表示权重参数，*＝f，h，a。通过上述可以看出，得分函数先将

和

映射到同一个维度为Dms(Dimensionof mapping space)的空间进行相加，经过一个非线性函数后再映射到一个得分。

之后，将增强的高级特征序列M输入到Decoder进行解码，即可得到对应的文本，原理与前述介绍的LAS结构中的解码器过程相同，即：

基于之前的输出字符和Listener的输出计算当前字符的分布概率：

c_u＝AttentionContext(s_u，M)

s_u＝RNN(s_u-1，y_u-1，c_u-1)

P(y_u|X，y＜u)＝CharacterDistribution(s_u，c_u)

其中，c_u是上下文向量，s_u代表当前时刻解码器的隐状态，y_u-1代表前一个预测字符；CharacterDistribution函数是一个带有softmax输出层的多层感知器，RNN函数是一个两层的LSTM，u＝1时，初始的s₀与c₀为随机值，X包含所有通道输入的语音特征X＝{X¹，X²，…X^C}。

图1与图2中解码器的sos，eos，分别是start of sequence,end of sequence的简写，在训练的时候需要标注一句话的开始和结尾；此外，输入输出序列的数目不一定相等，因此使用了不同的角标。

本发明实施例提供的上述方案，相对于传统的端到端语音识别建模方法主要具有如下优点：

1)相较于传统的波束形成算法，该发明动态地根据每个通道的高级特征质量为其分配注意力权重，可选择地提取质量好的高级特征，融合后得到更高质量的高级特征，提高了系统的识别性能。同时，每个通道高级特征的权重是由注意力机制自动得到，不需要任何关于麦克风阵列的先验信息。

2)相较于基于声学特征融合的多通道语音识别系统，本发明利用了每个通道的高级特征信息，相对底层特征信息而言，鲁棒性更强。

本领域技术人员可以理解，此处所说的高级特征信息与底层特征信息是相对概念，神经网络是多层结构，传统方案采用底层输出的特征进行融合，本申请所述的高级特征是高层输出的特征信息。

如之前所述，本发明实施例提供的方案中，对编码器生成的高层特征进行融合，而不是简单地将底层的声学特征进行融合，从而保证融合后的高层特征更加稳健；在融合的权重中，采用注意力机制来动态生成各通道对应的融合权重，同时实现了自动的通道选择，不需要任何麦克风阵列的信息。为了验证本发明所提出方法的有效性，设计了如下实验。

1、实验设置。

在中文数据集King-ASR-120上进行实验，选择两个麦克风的语音进行实验。所有语音数据均为16KHZ采样率，16bit量化的格式存储。本实验中以汉字为建模单位，转录文本所形成的字典共包含3896个单元。挑选了66318条语音作为训练集，4319条语音作为开发集，5200条语音作为测试集。

本实验采用的声学特征是108维的MFCC特征，由36维的MFCC特征结合其一阶差分和二阶差分所形成。以pytorch、kaldi作为实验平台，比较了不同模型的实验结果，探究本文所提出的方法的性能。

2、实验结果

本实验中总共测试了4个系统模型：LAS，LAS-AF(LAS based on acousticfeature fusion)，LAS-AVG(LAS based on acoustic feature fusion using averageweight)，LAS-HLF(LAS based on high level feature fusion)。所有的模型都包含一个相同参数的LAS结构，LAS中的Listener是由三层双向LSTM网络组成，每层隐藏节点均为512。Speller由两层双向LSTM和一个全连接层组成，每层LSTM隐藏节点数均为1024，全连接层输出节点为3898，所有可学习参数均是通过ADAM优化器进行优化。

1)LAS模型是在单通道数据上采用标准的编解码机制进行语音识别，其结果作为基线。

2)LAS-AF是文献(Braun S,Neil D,Anumula J,et al.Multi-channelattentionfor end-to-end speech recognition[J].2018Interspeech,2018:17-21)提出的一种结构，是在声学特征层面进行融合的多通道语音识别系统，由前端特征增强部分和后端识别部分组成。前端特征增强部分利用注意力机制为每个通道的声学特征分配权重，将所有通道声学特征加权求和得到增强的声学特征，再将增强的声学特征送到后端进行识别。该系统的后端识别部分采用的是LAS结构。

3)LAS-AVG与LAS-AF结构相似，不同的是前端特征增强部分，它将每个通道声学特征的注意力权重设成固定的相同的值1/C，C是总通道数，这仅仅是作为一种对比系统。

4)LAS-HLF就是本发明所提出的基于高级特征融合的多通道语音识别方法对应的系统结构(也即图2所示结构)。

各个系统模型的实验结果如表1所示，其中的“CH1”“CH2”分别表示第一通道、第二通道的数据，各系统模型的参数都已经调节到最优的情况。采用字错误率(CER％)来衡量系统的性能，数值越小表示识别性能越高。

模型	训练数据	测试数据	字错误率(CER％)
				LAS	CH1	CH1	17.75％
LAS	CH2	CH2	15.32％
				LAS-AVG	CH1，CH2	CH1，CH2	15.86％
LAS-AF	CH1，CH2	CH1，CH2	14.09％
				LAS-HLF	CH1，CH2	CH1，CH2	13.47％

表1不同系统模型的实验结果

由于LAS-AVG模型只是简单地将两个通道的声学特征进行求和平均，这是一种很直接的算法，所以性能较差。LAS-AF模型是在声学特征层面进行融合，综合利用多通道语音信息，动态地为每个通道的声学特征分配注意力权重，其字错误率达降低到14.09％，要高于每个通道数据独立训练、识别的准确率。相比于LAS-AF，LAS-HLF利用了高级特征的信息，进一步提高了识别性能，CER进一步下降了0.62％。

本实验中对于注意力权重的计算，是通过将上一个高级特征的注意力权重和当前高级特征映射到同一维度为Dms的空间，如前文提供的

计算公式，进行相加再映射到一维空间得到的。Dms作为一个超参，对实验结果是有直接影响的，表2列出了不同的Dms情况下的实验结果。

Dms	字错误率(CER％)
		250	14.19
300	13.47
		384	13.68
512	13.81
		768	14.17

表2不同Dms取值的实验结果

可以看出，Dms为300时，系统性能最佳，CER为13.47％。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。