CN110383377A

CN110383377A - 语音识别系统

Info

Publication number: CN110383377A
Application number: CN201880015644.4A
Authority: CN
Inventors: 渡部晋治; 落合翼; 堀贵明; J·R·赫尔歇
Original assignee: Mitsubishi Corp
Current assignee: Mitsubishi Corp
Priority date: 2017-03-13
Filing date: 2018-02-23
Publication date: 2019-10-25
Anticipated expiration: 2038-02-23
Also published as: CN110383377B; JP6808069B2; WO2018168509A1; EP3596730A1; JP2020503570A; EP3596730B1; US20180261225A1; US11133011B2

Abstract

一种语音识别系统包括接收包括语音信号的声信号的多个麦克风；从声信号生成多通道输入的输入接口；存储多通道语音识别网络的一个或多个储存器，其中，多通道语音识别网络包括从多通道输入生成时间‑频率掩模的掩模估计网络；被训练为使用时间‑频率掩模从多通道输入中选择基准通道输入并且基于基准通道输入生成增强语音数据集的波束形成器网络；以及被训练为将增强语音数据集变换为文本的编码器‑解码器网络。系统还包括与一个或多个储存器关联地使用多通道语音识别网络以从多通道输入生成文本的一个或多个处理器；和渲染文本的输出接口。

Description

语音识别系统

技术领域

本发明总体涉及语音处理，更具体地涉及多通道语音识别。

背景技术

现有自动语音识别(ASR)系统基于单独组成部分(包括声模型、语音学模型以及语言模型)的复杂混合。这种系统通常基于与隐马尔可夫模型组合的深度神经网络声模型，以表示语言和语音学上下文相关状态及其与声信号的时间对齐(DNN-HMM)。

作为另选方案，流线型语音识别方案已经引起极大的研究兴趣。该方案通过将上述混合架构归入到神经网络中来将其简化。例如，基于注意力的编码器-解码器框架使用递归神经网络(RNN)的集合集成所有这些组成部分，RNN从声特征序列映射到文字标记序列。参见Chorowski“End-to-end Continuous Speech Recognition using Attention-basedRecurrent NN”(2014年)。

然而，现有的端到端框架为了在有噪环境中实现良好的性能而仅集中于干净语音，无法适用于多通道声信号。

发明内容

一些实施方式的目的是提供用于自动语音识别(ASR)的系统和方法，该系统和方法适于识别语音并将所识别语音从多个麦克风的多通道声信号转换成文本。根据实施方式，训练多通道端到端语音识别框架，以将具有语音信号的多通道声信号直接转化为文本。在这种情况下，多通道端到端框架将基于最终ASR目标(诸如词语/文字错误率(WER/CER))来优化包括波束形成的整个推导过程。

和独立对于语音识别任务基于信号电平损失函数优化延迟相加和滤波相加的传统波束形成方法不同，根据本发明的一些实施方式的多通道端到端框架并入神经波束形成机制，作为可微组成部分，以允许端到端系统内的多通道语音增强的联合优化，以改善ASR目标。换言之，根据一些实施方式的多通道端到端框架包括网络，该网络首先估计时间-频率掩模，这些时间-频率掩模用于计算与功率频谱密度(SPD)矩阵有关的预期语音和噪声统计，这些矩阵与语音和噪声信号相关。在这种情况下，语音和噪声统计是时间不变特征。使用这些统计，基于MVDR(最小方差无失真响应)形式化计算滤波系数，然后将所估计的滤波系数应用于多通道有噪语音，以增强语音信号。

一些实施方式的另一个目的是提供一种适于在有噪环境中识别语音的语音识别系统。一些实施方式的另一个目的是用以端到端方式训练的神经网络执行语音识别。

一些实施方式基于以下认识：具有波束形成的多通道语音增强技术可以改善在存在背景噪声时的语音识别。进一步地，认识到波束形成可以使用使得波束形成可微的神经网络来执行。由此，波束形成神经网络可以与被训练为识别干净语音的神经网络集成。这样，被设计为增强语音信号的神经网络与被设计为识别语音的神经网络组合，以形成包括由子网络的组合形成的单个神经网络的多通道端到端语音识别系统。子网络可以包括掩模估计网络、滤波估计网络、波束形成器网络、包括基于注意力的编码器解码器网络的编码器解码器网络。

在一些实施方式中，波束形成器网络可以包括掩模估计网络和滤波估计网络。进一步地，波束形成器网络可以被训练为使用时间-频率掩模从来自多个麦克风的多通道输入中选择基准通道输入，并且基于基准通道输入生成增强语音数据集。

一些实施方式基于以下理解：这些网络可以单独训练，例如，波束形成神经网络可以被训练为从有噪语音产生干净语音，并且语音识别神经网络可以被训练为识别干净语音并将干净语音转换成文本。然而，这种训练需要表示干净语音的地面实况数据。例如，认识到诸如延迟相加和滤波相加的波束形成技术可以独立于语音识别任务而基于信号电平损失函数来优化。

一些实施方式并入神经波束形成机制作为可微组成部分，以允许端到端系统内的多通道语音增强的联合优化，以改善ASR目标。这样，根据一些实施方式的多通道端到端语音识别系统适于包括语音信号的有噪背景。例如，一些实施方式以端到端方式联合训练两个子网络，以识别有噪语音并将其转换成文本。

这种联合训练可以提高多通道端到端语音识别系统的性能，因为多通道端到端框架允许基于最终ASR(诸如词语/文字错误率(WER/CER))来优化包括波束形成的整个推导过程。

根据本发明的实施方式，包括波束形成器网络和掩模估计网络的多通道端到端语音识别系统可以减少中央处理单元(CPU)使用或图形处理单元(GPU)使用、功耗和/或网络带宽使用。

将参照附图进一步说明本所公开的实施方式。所示附图不一定是等比例，重点反而一般置于例示本所公开实施方式的原理。

附图说明

[图1]图1示出了根据本发明的一些实施方式的用于语音识别的语音识别系统的框图。

[图2]图2是例示了根据本发明的一些实施方式的基于注意力的编码器-解码器网络的框图。

[图3A]图3A是例示了根据本发明的一些实施方式的使用滤波估计网络的波束形成的框图。

[图3B]图3B是例示了根据本发明的一些实施方式的使用掩模估计网络和MVDR形式化的波束形成的框图。

[图4]图4是例示了根据本发明的实施方式的用于在图3B的波束形成中计算滤波系数的整个过程的框图。

[图5]图5示出了根据本发明的实施方式的指示CHiME-4语料库的文字错误率的实验结果。

[图6]图6示出了根据本发明的实施方式的指示三个系统的识别性能的比较的、AMI语料库的实验结果。

[图7]图7示出了根据本发明的实施方式的指示CHiME-4验证准确度的影响的实验结果。

[图8A]图8A是根据本发明的实施方式的指示具有第5通道有噪信号的CHiME-4话语的对数幅度谱图的图。

[图8B]图8B是根据本发明的实施方式的指示用BeamformIT的增强信号的对数幅度谱图的图。

[图8C]图8C是根据本发明的实施方式的指示用MASK_NET(ATT)的增强信号的对数幅度谱图的图。

[图9]图9是例示了根据本发明的实施方式的端到端ASR系统的框图。

具体实施方式

虽然以上所识别的附图阐述本所公开的实施方式，但如讨论中注释的，还预期其他实施方式。本公开用表示的方式提出例示性实施方式，而不是用限制的方式提出例示性实施方式。本领域技术人员可以设计落在本所公开实施方式的原理的范围和精神内的大量其他修改和实施方式。

以下描述仅提供了示例性实施方式，并且不旨在限制本公开的范围、应用范围或构造。相反，示例性实施方式的以下描述将向本领域技术人员提供用于实现一个或多个示例性实施方式的启用描述。预期可以在不偏离如在所附权利要求中阐述的公开的主题的精神和范围的情况下对元件的功能和结构进行各种变更。

在以下描述中给出具体细节，以提供实施方式的彻底理解。然而，本领域普通技术人员可以理解，实施方式可以在没有这些具体细节的情况下实践。例如，所公开主题中的系统、处理以及其他元素可以被示出为框图形式的组成部分，以不使实施方式不必要详细地模糊。在其他情况下，可以在没有不必要细节的情况下示出公知处理、结构以及技术，以避免使实施方式模糊。进一步地，各种附图中同样的附图标记指示同样的元件。

而且，独立实施方式可以被描述为被描绘为流程图、数据流程图、结构图或框图的处理。虽然流程图可以将操作描述为顺序处理，但操作中的许多可以并行或同时执行。另外，操作的顺序可以重新排列。处理可以在其操作完成时终止，但可以具有不讨论或在附图中不包括的另外步骤。此外，不是任何特定描述的处理中的所有操作都可以发生在所有实施方式中。处理可以对应于方法、函数、过程、子例程、子程序等。当处理对应于函数时，函数的终止可以对应于函数到调用函数或主函数的返回。

此外，所公开主题的实施方式可以至少部分手动或自动二者之一地实现。手动或自动实现可以通过使用机器、硬件、软件、固件、中间件、微代码、硬件描述语言或其任意组合来执行或至少辅助。当在软件、固件、中间件或微代码中实现时，执行必要任务的程序代码或代码段可以存储在机器可读介质中。处理器可以执行必要任务。

图1示出了根据一些实施方式的用于语音识别的语音识别系统100的框图。系统100包括：处理器102，该处理器被构造为执行所存储的指令；以及存储器104，该存储器存储可由处理器执行的、与自动语音识别(ASR)网络、编码器解码器网络110、波束形成器网络112、掩模估计网络114以及滤波估计网络115有关的指令。处理器102可以是单核处理器、多核处理器、图形处理单元(GPU)、计算聚类器或任意数量的其他构造。存储器104可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪存或任意其他合适的存储系统。存储器104还可以包括硬盘驱动器、光盘驱动器、拇指驱动器、驱动器阵列或其任意组合。处理器102借助总线106连接到一个或多个输入和输出接口/装置。

存储器104存储被训练为将多通道语音信号变换成文本的神经网络108，并且执行所存储指令的处理器102使用从存储器104检索的神经网络108执行语音识别。神经网络108被训练为将多通道有噪语音信号变换成文本。神经网络108可以包括基于注意力的编码器解码器ASR网络110，作为被设计为增强语音信号并被训练为从多通道信号选择单通道信号的第一神经子网络。神经网络108还包括波束形成器网络112、掩模估计网络114以及滤波估计网络115，作为第二子网络，其中，两个网络114和115可以被设计为与编码器解码器网络110集成以进行语音识别，并且被训练为从多通道信号的语音特征识别文本。进一步地，为了执行准确的语音识别，波束形成器网络112可以用于从麦克风120确定基准话筒，以从多通道语音信号确定主语音信号。第一子网络和第二子网络可以联合训练，以形成多通道端到端语音识别系统100。

在一个实施方式中，神经网络108还包括特征提取器(未示出)，该特征提取器被构造为从要由第二子网络使用的单通道信号提取语音特征。特征提取器是可微函数，由此，可以连接到单个端到端神经网络中。可微函数的示例包括通道信号的幅度的梅尔(Mel)函数和通道信号的幅度的巴克(bark)函数。

在一个实现中，可微函数是被训练为从通道信号提取语音特征的第三神经子网络。在该实现中，第三子网络与第一子网络和第二子网络联合训练。

可微函数可以使用梯度下降方法使得函数的输出接近给定输入的目标输出来优化。函数还可以使用成对的输入和目标输出样本来近似为未知映射函数，使得所有输入样本尽可能正确地映射到对应目标样本。

因为可微函数的组成也可微，所以我们可以组合级联的处理模块，各个处理模块被设计为可微函数，以联合优化它们。

神经网络是可微函数。在本发明中，端到端多通道语音识别的所有组成部分可以用包括多个神经网络的可微函数来实现。

系统100包括接受多通道语音信号的输入接口和渲染所识别文本的输出接口。输入接口的示例包括将声音转换成多通道语音信号138的多个麦克风120。另外或另选地，输入接口可以包括网络接口控制器(NIC)130，该NIC适于借助总线106将系统100连接到网络136。借助网络136，可以下载并存储多通道语音信号138以另外处理。

输出接口的示例包括显示接口122、成像接口126以及打印机接口130。例如，系统100可以借助总线106链接到适于将系统100连接到显示装置124的显示接口122，其中，显示装置124可以包括计算机监视器、摄像头、电视、投影仪或移动装置、以及其他。

另外或另选地，系统100可以连接到适于将系统连接到成像装置128的成像接口126。成像装置128可以包括摄像头、计算机、扫描仪、移动装置、网络摄像头或其任意组合。另外或另选地，系统100可以连接到适于将系统100连接到打印装置132的打印机接口131。打印装置132可以包括液体喷墨打印机、固体喷墨打印机、大规模商用打印机、热打印机、UV打印机或染料升华打印机、以及其他。

图2示出了根据实施方式的被设计为生成文字序列(文本)的基于注意力的编码器-解码器网络200的示意图。在这些实施方式中，网络200包括编码器网络(编码器)210和基于注意力的解码器神经网络(注意力解码器)240。编码器网络210将输入序列O 220变换成高级特征序列H 230，然后解码器网络240借助注意力机制生成文字序列Y 245。

具体地，基于注意力的编码器-解码器神经网络200允许处理变化长度的序列。编码器-解码器神经网络包括这里分别被称为编码器210和解码器240的两个递归神经网络(RNN)以及连接编码器和解码器的注意力机制230。

给定语音特征的T长度序列网络200生成输出标签的N长度序列(文字序列)Y＝{y_n∈V|n＝1,…,N}。在一些实施方式中，语音特征o_t是输入时间步t的D_O维特征向量(例如，对数梅尔滤波器组)，并且y_n是标签集合V中的输出时间步n的标签符号(例如，文字)。

首先，编码器210将输入序列Ot 220变换225成L长度高级特征序列其中，h_l是编码器顶层的时间步l的D_H维状态向量227。在这种情况下，应用二次采样技术来根据预定采样比减小输入序列o_t 220的长度。

在一些实施方式中，编码器是双向长短期存储(BLSTM)递归网络。为了减小输入序列长度，一些实现向一些层应用二次采样技术。因此，l表示从t二次采样的帧索引，并且L小于T。

接着，注意力解码器网络240的注意力机制基于L维注意力权重向量a_n∈[0,1]^L235将所有编码器输出H集成到D_H维上下文向量中，该权重向量表示输出时间步n编码器输出的软对齐。例如，一个实施方式使用具有a_n的基于注意力的机制，并且c_n被形式化为如下：

f_n＝F*a_n-1, (1)

k_n,l＝w^Ttanh(V^Ss_n+V^Hh_l+V^Ff_n,l+b), (2)

其中，是可训练权重矩阵，是可训练偏差向量，是可训练卷积滤波器。是从n处的上解码器网络获得的D_S维隐藏状态向量，并且α表示卷积运算。

然后，注意力解码器网络240如下递增地更新隐藏状态s_n并生成输出标签y_n245：

s_n＝Update(s_n-1,c_n-1,y_n-1), (4)

y_n＝Generate(s_n,c_n), (5)

其中，Generate(·)和Update(·)函数分别由前馈网络和基于LSTM的递归网络组成。

现在，我们将这些过程总结如下：

H＝Encoder(O), (7)

c_n＝Attention(a_n-1,s_n,H), (8)

y_n＝Decoder(c_n,y_1:n-1), (9)

其中，Encoder(·)＝BLSTM(·)，Attention(·)对应于方程(1)-(3)，并且Decoder(·)对应于方程(4)和(5)。这里，用于句首(sos)250和句末(eos)255的特殊令牌添加到标签集合V。解码器用(sos)标签250开始递归计算，并且继续生成输出标签245，直到发出(eos)标签255。

在一个实施方式中，基于交叉熵准则，如下使用方程(6)限定损失函数：

其中，Y^*是输出标签的整个序列的地面实况，并且是到输出时间步n-1的其子序列的地面实况。

因此，可以优化包括编码器210和注意力解码器240的整个网络，以使用整个序列的地面实况生成正确的标签序列。

神经波束形成器(波束形成器网络)

下文中详细描述神经波束形成器。而且，神经波束形成器可以被称为波束形成器网络。波束形成是从多个麦克风的信号选择基准麦克风信号的过程。

神经波束形成器可以与编码器-解码器网络集成。根据本公开的实施方式，可以将频率域波束形成器用于实现多通道神经处理中的显著计算复杂性降低、计算能力降低引导，而不是使用时域波束形成器。因此，各个波束形成器网络使用频率域数据集。这可以减少中央处理单元(CPU)使用或图形处理单元(GPU)使用、功耗和/或网络带宽使用。

例如，一些实现使用频率域波束形成器而不是使用时域波束形成器，来实现多通道神经处理中的计算复杂性降低。

在频率域表示中，滤波相加波束形成器通过如下应用线性滤波器来获得增强信号：

其中，x_t,f,c∈C是时间-频率块(t,f)处的第c通道有噪信号的STFT系数。g_t,f,c∈C是对应波束形成滤波系数。是增强STFT系数，并且C是通道的数量。

一些实施方式使用方程(11)来实现不同类型的神经波束形成器。第一类型实现第一滤波估计神经网络，并且第二类型实现掩模估计神经网络。滤波估计神经网络与掩模估计神经网络之间的差异之一是如何计算滤波系数g_t,f,c。

滤波估计网络

图3A是例示了根据本发明的一些实施方式的使用滤波估计网络300的波束形成的框图。在这种情况下，滤波估计网络300根据一些实施方式直接估计滤波系数。例如，一个实施方式直接估计时变滤波系数作为网络的输出。F是STFT特征的维数。

滤波估计网络300使用单实值BLSTM网络310来在每一个时间步处预测复值滤波系数的实部和虚部。因此，一个实现引入多个(2×C)输出层来对于各通道单独计算滤波系数的实部和虚部。然后，网络如下对于第c通道输出时间步t处的时变滤波系数

其中，是BLSTM网络的D_Z维输出向量的序列。是对于BLSTM网络的2FC维实值向量的输入特征。这通过并置所有通道中的所有STFT系数的实部和虚部来获得。和是滤波系数的实部和虚部，和是对于第c通道的输出层的权重矩阵，并且和是它们对应的偏差向量。使用所估计的滤波器g_t,c，基于方程(11)获得增强STFT系数

该方法由于其形式化而具有几个可能的问题。第一个问题是所估计滤波器的高灵活性，这些滤波器由从少量观察估计的大量不受约束变量(2TFC)组成。这引起诸如训练困难和过拟合的问题。第二个问题是网络结构取决于通道的数量和顺序。因此，在我们改变麦克风构造时，必须训练新滤波估计网络。

掩模估计网络

图3B是例示了根据本发明的一些实施方式的使用包括BLSTM掩模360和MVDR形式化模块370的掩模估计网络350的波束形成的框图。在这种情况下，掩模估计网络350使用BLSTM 360估计时间-频率掩模，然后使用MVDR模块370基于最小方差无失真响应(MVDR)形式化确定滤波系数。有利地，掩模估计网络基于有根据的阵列信号处理原则来约束所估计的滤波器。

在一个实施方式中，网络估计时间-频率掩模，这些时间-频率掩模用于基于MVDR形式化来计算时不变滤波系数而且，基于掩模的波束形成方法已经在有噪语音识别基准中实现很好的性能。因此，本发明的一个实施方式使用基于掩模的MVDR波束形成器(基于掩模的MVDR波束形成器网络)，在该波束形成器中，整体过程被形式化为用于随后的端到端语音识别系统的可微网络。

根据实施方式的掩模估计网络350如下计算方程(11)中的时不变滤波系数

其中，Φ^S(f)∈C^C×C和Φ^N(f)∈C^C×C分别是对于语音和噪声信号的跨通道功率谱密度(PSD)矩阵(还被称为空间协方差矩阵)。u∈R^C是表示基准麦克风的独热向量，并且Tr(·)是矩阵的迹运算。注意，虽然算式包含矩阵求逆，但通道的数量较小，因此可以高效地计算正向传递和导数。

PSD矩阵如下使用相对于时间-频率掩模的期望来估计：

其中，是各时间-频率块的所观测信号的空间向量，和分别是对于语音和噪声的时间-频率掩模。表示共轭转置。

掩模估计网络

图4是例示了根据本发明的实施方式的用于在图3B的波束形成中计算滤波系数的整个过程的框图。

在这种情况下，掩模估计使用两个实值BLSTM网络405和410。BLSTM网络405用于生成语音掩模，并且BLSTM网络410用于生成噪声掩模。BLSTM网络405和410中的每一个分别如下在步骤S1和S1’中输出与语音信号和噪声信号有关的时间-频率掩模：

其中，是获得对第c通道的输入STFT的语音掩模的、BLSTM网络D_Z维向量的输出序列。是用于噪声掩模的BLSTM输出序列。是2F维实值向量的输入特征。这可以通过并置第c通道处的所有STFT特征的实部和虚部来获得。和分别是时间步t处的每一个第c通道的所估计语音和噪声掩模。W^S，是分别最终输出语音和噪声掩模的、输出层的权重矩阵，并且b^S,b^N∈R^F是它们对应的偏差向量。

在对于各通道计算语音和噪声掩模之后，如下获得平均掩模：

这些平均后的掩模用于如在方程(16)和(17)中描述的分别在步骤S2和S2’中估计PSD矩阵。PSD矩阵表示通道之间的相关信息。为了从在3维空间(例如，房间)中设置的多个麦克风选择基准麦克风，与语音信号有关的空间相关提供更多有用信息，因此，我们仅将语音PSD矩阵Φ^S(f)用作步骤S3中的特征。进一步地，在步骤S4中对于语音和噪声掩模从BLSTM网络405提前去时间平均的状态向量在下一步骤S5中，根据方程(15)使用基准麦克风向量u估计基准麦克风。应注意，如在以下章节中讨论的，基准麦克风向量u来自时不变特征向量q_c和PSD特征向量r_c。在步骤S5中的基于以注意力为基础的神经网络415(注意力机制)的基准麦克风(基准通道或基准通道输入)的选择之后，在步骤S6中基于MVDR形式化使用掩模估计网络420计算滤波系数向端到端ASR系统430输出在步骤S6中计算的滤波系数，以执行来自多通道输入的语音识别。下面讨论多通道输入的形式化过程。

在一些情况下，与语音信号相关的PSD矩阵可以被称为语音统计，并且与噪声信号相关的PSD矩阵可以被称为噪声统计。进一步地，麦克风空间地设置在3D空间中，并且多个麦克风中的每一个可以对应于通道。因此，多个麦克风生成多通道信号，并且一个麦克风提供一个通道，并且主通道信号(基准麦克风)可以使用语音统计或语音和噪声统计来选择。应注意，语音和噪声统计是时不变特征，使得与时变信号处理相比，可以简化基准麦克风(基准通道)选择处理。

基于注意力的基准选择

基于注意力的编码器-解码器神经网络可以包括编码器神经网络和基于注意力的解码器神经网络，其中，编码器和解码器神经网络是递归神经网络(RNN)。在一些情况下，编码器神经网络可以被称为编码器网络，并且解码器神经网络可以被称为解码器网络。在这种情况下，向网络中的一些层应用二次采样技术，以减小输入序列长度，该长度与输入(输入数据)的数量相关。编码器网络可以包括双向长短期存储递归网络。进一步地，解码器网络可以包括基于LSTM的递归网络，作为前馈网络。

为了在神经波束形成器框架(波束形成器网络)中并入基准麦克风选择，实施方式将柔性最大值传输函数用于从注意力机制(被称为基于注意力的网络的基于注意力的神经网络)导出的方程(15)中的向量u。在该方法中，如下从时不变特征向量q_c和r_c估计基准麦克风向量u：

其中，是可训练权重参数，是可训练偏差向量。β是锐化因数。我们使用两种特征：1)对于方程(18)和(20)中的语音和噪声掩模从BLSTM网络提取的时间平均状态向量即，

和2)将空间信息并入到注意力机制中的PSD特征r_c∈R^2F。以下方程表示如何计算r_c：

其中，是方程(16)中的语音PSD矩阵Φ^S(f)的第c行和第c′列中的条目。PSD矩阵表示通道之间的相关信息。为了选择基准麦克风，与语音信号有关的空间相关提供更多有用信息，因此，我们仅将语音PSD矩阵Φ^S(f)用作特征。

注意，在该基于掩模估计的MVDR波束形成器中，可以与方程(12)不同地使用相同BLSTM网络来单独计算各通道的掩模，并且掩模估计网络独立于通道。类似地，基准选择网络还独立于通道，并且波束形成器网络在不重新训练或重新构造网络的情况下用任意数量和顺序的通道处理输入信号。

多通道端到端ASR

多通道端到端语音识别系统将不同的微分组成部分集成在单个神经架构中。例如，多通道端到端自动语音识别(ASR)系统的一个实现包括神经波束形成器，作为语音增强部分，并且包括基于注意力的编码器-解码器，作为语音识别部分。

从多通道输入生成输出标签的序列的整个过程如下形式化：

Enhance(·)是用滤波估计网络300或掩模估计网络350基于方程(11)由神经波束形成器实现的语音增强函数。

Feature(·)是特征提取函数。在这种情况下，我们使用正规化的对数梅尔滤波器组变换来获得从增强的STFT系数计算的作为基于注意力的编码器-解码器200的输入：

其中，p_t∈R^F是时间步t处的增强信号的功率谱的实值向量，Mel(·)是D_O×F梅尔矩阵乘法的运算，并且Norm(·)是全局均值方差正规化的运算，使得其均值和方差变成0和1。Encoder(·)、Attention(·)以及Decoder(·)分别在方程(7)、(8)以及(9)中限定，像增强对数梅尔滤波器组的特征的序列作为输入。显著地，所有过程，诸如增强、特征提取、编码器、注意力以及解码器与不同的图联系。由此，实施方式可以优化整个推导，以生成正确的标签序列。以端到端方式联合训练神经网络108执行优化。

联合训练

在一些实施方式中，以端到端方式训练神经网络108，以减小有噪多通道语音信号的识别与和有噪多通道语音信号对应的地面实况文本之间的误差。

训练神经网络涉及计算与人工神经网络中的连接关联的权重值。为此，除非这里另外陈述，否则训练包括电子地计算用于完全连接网络、插值以及卷积中的连接的权重值。

示例性构造

一些实施方式将40维对数梅尔滤波器组系数用作用于有噪和增强语音信号这两者的输入特征向量(D_O＝40)。一个实施方式在编码器中使用具有320个单元的4层BLSTM(D_H＝320)，并且在解码器中使用具有320个单元的1层LSTM(D_S＝320)。在编码器中，实施方式对第一和第二层的隐藏状态二次采样，并且将每隔一个的隐藏状态用于随后层的输入。因此，编码器的输出层处的隐藏状态的数量减少至L＝T/4。在每一个BLSTM层之后，实施方式将具有320个单元的线性投影层用于组合前向和后向LSTM输出。对于注意力机制，使用具有宽度100(D_f＝100)的10个定心卷积滤波器(D_F＝10)来提取卷积特征。一些实现将注意力内积维数设置为320(D_W＝320)，并且使用锐化因数α＝2。为了在有噪环境中促进优化，一个实施方式使用联合联结主义时间分类(CTC)注意力多任务损失函数，并且将CTC损失权重设置为0.1。

对于解码，一些实施方式在各输出步骤处用束尺寸20使用束搜索方法来降低计算成本。CTC分数还可以用于用0.1权重对假设重新评分。一个实施方式将长度惩罚项用于解码目标，并且将惩罚权重设置为0.3。一些实施方式追求不使用任何外部词典或语言模型的纯端到端设置，并且将CER用作评价矩阵。

一些实现使用256个STFT系数，并且从具有10ms移位的25ms宽汉明窗口计算偏移(F＝257)。滤波和掩模估计网络这两者可以使用没有二次采样技术的具有320个单元的类似的3层BLSTM(D_Z＝320)。对于基准选择注意力机制，一些实施方式使用与编码器-解码器网络的注意力内积维数和锐化因数相同的注意力内积维数(D_V＝320)和锐化因数β＝2。

共享构造

在一些构造中，所有参数为了优化凭借梯度裁剪用使用AdaDelta的均匀分布的范围[-0.1,0.1]来初始化，一些实现初始化AdaDelta超参数ρ＝0.95和ε＝1^-8。一旦验证集合上的损失劣化，则这些实现在各随后时期通过将AdaDelta超参数ε乘以0.01来减小它。例如，训练过程可以在15个时期之后停止。在训练期间，一些实施方式采用多条件训练策略，即，除了使用借助神经波束形成器实现的增强特征的优化之外，这些实施方式还在不借助神经波束形成器的情况下将有噪多通道语音数据用作编码器-解码器网络的输入。整个网络在没有任何预训练过程的情况下从头开始训练。神经网络可以通过使用Chainer来实现。

实现的示例设置

图5示出了根据本发明的实施方式的指示CHiME-4语料库的文字错误率的实验结果。该图示出了具有以下五个系统的CHiME-4的识别性能：NOISY、BEAMFORMIT、FILTER NET、MASK NET(REF)以及MASK NET(ATT)。NOISY和BEAMFORMIT是基线单通道端到端系统，它们不在它们的框架中包括语音增强部分。它们的端到端网络仅通过遵循传统多条件训练策略用有噪语音数据来训练。在解码期间，NOISY将来自CHiME-4中的“隔离1通道轨迹”的单通道有噪语音数据用作输入，而BEAMFORMIT将用领域中已知的BeamformIt从5通道信号获得作为延迟相加波束形成器的增强语音数据用作输入。

FILTER NET、MASK NET(REF)以及MASK NET(ATT)是上述的多通道端到端系统。为了评价基准选择的有效性，我们准备基于用基于注意力的基准选择的基于掩模的波束形成器的MASK NET(ATT)。换言之，波束形成器网络是掩模估计网络。进一步地，用第5通道的MASK NET(REF)用作固定基准麦克风，该麦克风位于平板装置的中心正面上。

在图5中还示出了BEAMFORMIT、FILTER NET、MASK NET(REF)以及MASK NET(ATT)胜过NOISY，这确认组合语音增强与基于注意力的编码器解码器框架的有效性。MASK NET(REF)和MASK NET(ATT)的比较为了基准选择验证了基于注意力的机制的使用。基于在章节3.1中描述的滤波估计网络的FILTER NET与NOISY相比还提高了性能，但差于MASK NET(ATT)。这是因为由于缺乏限制而难以优化滤波估计网络来估计滤波系数，并且需要某一仔细的优化。最后，MASK NET(ATT)实现比BEAMFORMIT更佳的识别性能，这证明比语音增强和(端到端)语音识别的流水线组合强的我们的联合集成的有效性。

进一步地，下面描述多通道端到端框架的有效性。图6示出了根据实施方式的指示三个系统的识别性能的比较的、AMI语料库的实验结果。

在这种情况下，图6示出了指示以下三个系统的识别性能的比较的、AMI语料库的实验结果：NOISY、BEAMFORMIT以及MASK NET(ATT)。在NOISY中，我们将来自AMI中的第1通道的有噪语音数据用作到系统的输入。图6还指示，即使在AMI中，我们提出的MASK NET(ATT)也实现比基于注意力的基线(NOISY和BEAMFORMIT)更佳的识别性能，这也确认我们提出的多通道端到端框架的有效性。注意，即使用增强信号，BEAMFORMIT也差于NOISY。该现象有时在由于唯一语音增强引起的失真在没有重新训练的情况下劣化性能的有噪语音识别中观察到。我们的端到端系统联合优化语音增强部分与ASR目标，并且可以避免这种劣化。

图7示出了根据本发明的实施方式的指示CHiME-4验证准确度的影响的实验结果。图7示出了CHiME-4验证准确度对通道的数量和顺序的影响。验证准确度在解码器的递归文字生成期间在方程(10)中以地面实况标签y*_1:n-1为条件来计算。表的第二列表示通道索引，这些通道索引用作相同MASK NET(ATT)网络的输入。

5_6_4_3_1和3_4_1_5_6的比较示出了通道的顺序不影响MASK NET(ATT)的识别性能。另外，即使当我们将更少的三个或四个通道用作输入时，MASK NET(ATT)仍然胜过NOISY(单通道)。这些结果确认根据本公开的多通道端到端系统可以在没有任何重新构造和重新训练的情况下用任意数量和顺序的通道处理输入信号。

由波束形成器网络处理的特征的视觉化

我们将分析用根据本发明的实施方式的神经波束形成器(波束形成器网络)的、我们开发的语音增强组成部分的行为。

图8A至图8C指示具有第5通道有噪信号、用BeamformIt的增强信号(相关技术)以及用我们提出的MASK NET(ATT)的增强信号的相同CHiME-4话语的谱图。

图8A是指示具有第5通道有噪信号的CHiME-4话语的对数幅度谱图的图，图8B是指示用BeamformIt的增强信号的对数幅度谱图的图，并且图8C是指示用MASK NET(ATT)的增强信号的对数幅度谱图的图。在图中，提取与有噪和增强信号有关的正方形区域并在图的侧面处示出。

我们可以确认BeamformIt和MASK NET(ATT)通过整体消除模糊的灰色区域与第5通道信号相比成功抑制噪声。另外，通过集中于黑框的内部，在第5通道信号中破坏的谐波结构在BeamformIt和MASK NET(ATT)中恢复。该结果暗示我们提出的MASK NET(ATT)成功学习与传统波束形成器类似的噪声抑制函数，但它基于端到端ASR目标来优化，而不将干净数据明确地用作目标。

有噪语音识别的计算成本的降低

进一步地，本发明可以降低有噪语音识别的计算成本，因此，它减少中央处理单元(CPU)使用或图形处理单元(GPU)使用、功耗、和/或网络带宽使用。

通常，在语音识别中，仅搜索少量的词语/文字序列假设来对于给定语音输入找到最可能的词语/文字序列。例如，使用束搜索方法，在该方法中，首先对更短的假设评分，并且仅通过向各有前景的假设的末尾添加词语/文字来扩展具有前N个最高分数的有前景假设，其中，N是束尺寸。在重复该假设扩展和评分直到假设具有特定长度之后，从所有评分假设当中选择最佳评分假设，作为语音识别结果。束搜索的计算成本远少于列举所有可能假设并对其评分的完全搜索。

然而，如果在语音信号中存在背景噪声，则束搜索方法可能不能识别有前景的假设，因为噪声信号增大语音特征的模糊性，并且分数接近彼此。在这种情况下，无法找到实际上具有最佳分数的假设，因为在它的长度短的同时它可能被修剪。为了确保找到最佳假设，需要通过增大束尺寸来扩展更多假设。这明显增加语音识别的计算成本。因为本发明包含联合训练的波束形成器网络(这通过抑制噪声降低语音特征的模糊性)，所以即使对于有噪语音，我们也不必增加数量N来找到最佳假设。

图9是例示了根据本发明的实施方式的由多通道端到端语音识别系统900执行的端到端多通道语音识别的图。

多通道端到端自动语音识别(ASR)系统900包括连接到接口911的多个麦克风910。多通道ASR系统900还包括第一特征提取器920、掩模估计网络930、波束形成器(BF)网络940、第二特征提取器950以及端到端ASR神经网络(ASR网络)960。第一特征提取器920、掩模估计网络930、BF网络940以及第二特征提取器950是在ASR系统900的一个或多个存储器或储存器(未示出)中存储的程序模块，并且在由系统900中的一个或多个处理器(未示出)执行时根据程序模块的程序代码执行数据处理。

掩模估计网络930包括预训练的掩模数据集，这些数据集已经通过使用预定掩模估计地面实况输入数据训练掩模估计网络930来获得。

波束形成器网络940包括预训练的波束形成器数据集，这些数据集已经通过使用预定波束形成器地面实况输入数据训练BF网络940来获得。

ASR网络960包括预训练的ASR数据集，这些数据集已经通过使用预定ASR地面实况输入数据训练ASR网络960来获得。

接口911将从麦克风910提供的声语音和有噪信号转换成多通道数字输入数据(多通道输入)912。在这种情况下，多通道输入912分别对应于麦克风910的输出。在一些情况下，麦克风910可以是麦克风的阵列或设置在三维(3D)空间中的预定位置处。

多通道输入912引入到第一特征提取器920中，该第一特征提取器基于短期傅里叶变换(STFT)算法从独立麦克风910的输出提取信号特征921。使用掩模估计网络930处理多通道输入912的信号特征921，并且掩模估计网络930估计并生成包括语音相关掩模和噪声相关掩模的掩模931，这些掩模是与基于MVDR形式化来计算时不变滤波系数的、对应于各通道的时间-频率掩模。分别由通道的数量对语音相关掩模和噪声相关掩模求平均，以估计在方程(16)和(17)中表达的PSD矩阵。由此，掩模931是平均后的语音相关掩模和平均后的噪声掩模(未示出)。在这种情况下，使用预定地面实况数据集预训练掩模估计网络930。

进一步地，基于在BF网络940中包括的MVDR估计模块用掩模931处理所提取的特征921，以计算BF滤波系数941。在这种情况下，滤波系数941是与用于语音和噪声信号的跨通道功率谱密度(PSD)矩阵(特征)对应的时不变滤波系数在波束形成器处理942中由BF网络940用特征921处理所计算的滤波系数941，以生成波束形成后的语音数据集943。在这种情况下，波束形成后的语音数据集943是单通道的增强语音数据集。进一步地，第二特征提取器950从BF语音数据集提取特征，并且向端到端ASR网络(ASR网络)960提供所提取的特征951。最后，ASR网络960通过处理所提取的特征951来输出文本970。

在训练端到端ASR系统900的同时，预定端到端地面实况数据集直接(而不是使用所提取的特征921)引入到掩模估计网络930中，并且每一个地面实况数据集获得输出文本970与其对应地面实况之间的误差，并且执行后向传播处理，直到处理整个预定端到端地面实况数据集。借助使用预定端到端地面实况数据集的端到端训练处理获得的掩模估计网络930、BF网络940以及ASR网络960的网络参数存储到一个或多个储存器980中，作为端到端多通道识别训练集。

在根据一个实施方式的另一个端到端ASR系统中，端到端ASR系统可以包括由总线连接到只读存储器(ROM)和存储器的处理器。训练系统还可以包括：显示器，该显示器向用户呈现信息；和多个输入装置，该多个输入装置包括键盘、鼠标以及可以经由输入/输出端口附接的其他装置。还可以附接诸如其他定点装置或语音传感器或图像传感器的其他输入装置。其他定点装置包括平板电脑、数字小键盘、触摸屏、触摸屏覆盖、跟踪球、操纵杆、光笔、拇指旋轮等。I/O可以连接到通信线路、磁盘储存器、输入装置、输出装置或其他I/O设备。存储器包括包含显示屏的像素强度值的显示缓冲器。显示器从显示缓冲器定期读取像素值，显示缓冲器将这些值显示到显示屏上。像素强度值可以表示灰度或颜色。

存储器包括数据库、训练器、神经网络、预处理器。数据库可以包括历史数据、训练数据、测试数据。数据库还可以包括来自使用神经网络的运算、训练或保持模式的结果。上面已经详细描述了这些元素。

在存储器中还示出的是操作系统。操作系统的示例包括AIX、OS/2以及DOS。在存储器中示出的其他元素包括装置驱动器，这些装置驱动器解释由诸如键盘和鼠标的装置生成的电信号。存储器中还示出了工作存储区域。工作存储区域可以由在存储器中示出的元素中的任意一个来使用。工作存储区域可以由神经网络、训练器、操作系统以及其他功能来使用。工作存储区域可以在元素之间和元素内分区。工作存储区域可以用于通信、缓冲、临时存储或程序运行同时的数据的存储。

本公开的上述实施方式可以以大量方式中的任意一个来实现。例如，实施方式可以使用硬件、软件或其组合来实现。当在软件中实现时，可以在任意合适的处理器或处理器的集合上执行软件代码，而不管处理器是设置在单个计算机中还是分布在多个计算机之间。这种处理器可以被实现为集成电路，一个或多个处理器在集成电路部件中。但处理器可以使用任意合适格式的电路来实现。

而且，这里所概述的各种方法或处理可以被编码为可在采用各种操作系统或平台中的任意一个的一个或更多个处理器上执行的软件。另外，这种软件可以使用若干合适的编程语言和/或编程或脚本工具中的任意一个来书写，而且可以被编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。通常，在各种实施方式中，可以根据期望组合或分配程序模块的功能。

而且，本公开的实施方式可以被具体实施为示例已经被提供的方法。被执行以方法的一部分的动作可以以任意合适的方式来排序。因此，可以构造以下实施方式：虽然动作在例示性实施方式中被示出为顺序动作，但动作以与所例示的不同顺序来执行，这可以包括同时执行一些动作。进一步地，序数措辞(诸如“第一”、“第二”)在权利要求中用于修改权利要求元素本身不暗示一个权利要求元素超过另一个权利要求元素的任何优先权、在先或顺序或执行方法动作的时间顺序，而是仅用作区分具有特定名称的一个权利要求元素与具有相同名称(但用于序数术语)的另一个元素以区分权利要求元素的标签。

Claims

1.一种语音识别系统，该语音识别系统包括：

多个麦克风，该多个麦克风接收包括语音信号的声信号；

输入接口，该输入接口从所述声信号生成多通道输入；

一个或多个储存器，该一个或多个储存器存储多通道语音识别网络，其中，所述多通道语音识别网络包括：

掩模估计网络，该掩模估计网络从所述多通道输入生成时间-频率掩模；

波束形成器网络，该波束形成器网络被训练为使用所述时间-频率掩模从所述多通道输入中选择基准通道输入，并且基于所述基准通道输入生成增强语音数据集；以及

编码器-解码器网络，该编码器-解码器网络被训练为将所述增强语音数据集变换为文本；一个或多个处理器，该一个或多个处理器与所述一个或多个储存器关联地使用所述多通道语音识别网络以从所述多通道输入生成所述文本；以及

输出接口，该输出接口渲染所述文本。

2.根据权利要求1所述的语音识别系统，其中，所述掩模估计网络包括第一掩模网络和第二掩模网络，其中，所述第一掩模网络被训练为生成所述多通道输入的语音掩模，并且所述第二掩模网络被训练为生成所述多通道输入的噪声掩模。

3.根据权利要求1所述的语音识别系统，其中，所述第一掩模网络和所述第二掩模网络与所述波束形成器网络集成。

4.根据权利要求1所述的语音识别系统，其中，所述编码器-解码器网络是基于注意力的编码器-解码器网络。

5.根据权利要求1所述的语音识别系统，其中，所述波束形成器网络使用频率域数据集。

6.根据权利要求1所述的语音识别系统，其中，所述多通道语音识别网络包括第一特征提取器，其基于短期傅里叶变换算法从所述多通道输入提取信号特征。

7.根据权利要求6所述的语音识别系统，其中，所述第一特征提取器将对数梅尔滤波器组系数用于所述信号特征。

8.根据权利要求1所述的系统，其中，所述波束形成器网络和所述编码器-解码器网络被联合优化。

9.根据权利要求1所述的系统，其中，所述波束形成器网络使用语音功率谱密度(PSD)矩阵。

10.根据权利要求1所述的系统，其中，所述掩模估计网络是双向长短期存储递归神经网络。

11.根据权利要求1所述的系统，其中，所述多通道语音识别网络还包括连接到所述掩模估计网络的第一特征提取器，其中，所述第一特征提取器是可微函数。

12.根据权利要求11所述的系统，其中，所述可微函数是通道信号的幅度的巴克函数。

13.根据权利要求1所述的系统，其中，所述输入接口是麦克风的阵列，并且其中，所述输出接口包括显示装置。

14.根据权利要求1所述的系统，其中，以端到端方式训练所述神经网络，以减小有噪多通道语音信号的识别与和所述有噪多通道语音信号对应的地面实况文本之间的误差。

15.一种非暂时计算机可读存储介质，该非暂时计算机可读存储介质实施程序，该程序可由处理器执行以执行方法，所述方法包括以下步骤：

从输入接口接收多通道语音信号；

使用多通道语音识别神经网络执行语音识别，该多通道语音识别神经网络包括被训练为确定将多通道信号设置为单通道信号的第一麦克风数据的波束形成器网络和被训练为从所述单通道信号的语音特征识别文本的识别子网络，其中，增强子网络和所述识别子网络被联合训练；以及

向输出接口提供所述识别出的文本。