CN110992974A

CN110992974A - 语音识别方法、装置、设备以及计算机可读存储介质

Info

Publication number: CN110992974A
Application number: CN201911164974.2A
Authority: CN
Inventors: 张策; 黄斌; 李鑫; 白锦峰; 陈旭; 贾磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2020-04-10
Anticipated expiration: 2039-11-25
Also published as: US11620983B2; JP7434137B2; US20210158799A1; CN110992974B; JP2021086154A

Abstract

本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从第二麦克风采集的第二语音信号，其中麦克风阵列包括至少两个麦克风，例如两个、三个或者六个麦克风等。方法还包括通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征，然后基于所提取的增强特征来获得语音识别结果。不同于传统的基于数字信号处理的语音增强方式，本公开的实施例通过神经网络来直接提取多通道语音信号的增强特征，能够解决语音增强和语音识别优化目标不一致的问题，从而能够联合优化语音增强和语音识别等目标，实现了语音增强和识别的端到端建模，提高了语音识别的准确率。

Description

语音识别方法、装置、设备以及计算机可读存储介质

技术领域

本公开的实施例总体上涉及计算机技术领域，并且更具体地涉及语音技术领域。

背景技术

语音识别是指通过计算机把语音信号转换为对应的文本或字符的过程，是实现人与机器交互的主要途径之一。近年来，随着深度学习技术在语音识别领域的广泛引用，语音识别的准确率得到了极大的提升。此外，由于智能设备的不断普及，使用语音进行识别的场合已经变得非常丰富。例如，语音识别技术已经广泛应用于智能家居、车载语音、智能办公等行业和场景。语音识别技术结合自然语言处理和语音合成等技术，可以产生更多复杂应用，例如智能音箱、会议同声传译、智能客服助理等。

根据声源与拾取器之间距离，语音识别可以分为近场语音识别和远场语音识别。近场语音识别是指使得计算机能够在近距离条件下识别语音，例如在使用语音输入法的过程中。远场语音识别是指使得能够在远距离条件下识别语音，例如在智能音箱或者车载导航的过程中。在远场语音识别场景中，由于真实环境中存在大量的环境噪声和混响等，导致拾取信号的质量下降，因而远场语音识别的准确率比近场语音识别的准确率要低。在远场环境下，目标声源距离拾音器较远致使目标信号衰减严重，加上环境嘈杂并且干扰信号众多，最终导致信噪比较低，语音识别性能较差。一般来说，用户站在几米远处与智能音箱进行语音交互就是一个典型的远场语音识别应用场景。

发明内容

根据本公开的示例实施例，提供了一种语音识别方法、装置、设备以及计算机可读存储介质。

在本公开的第一方面中，提供了一种语音识别方法。该方法包括：获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从麦克风阵列中的第二麦克风采集的第二语音信号，其中第二麦克风不同于第一麦克风；通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征；以及基于增强特征获得语音识别结果。

在本公开的第二方面中，提供了一种语音识别装置。该装置包括：语音信号获得模块，被配置为获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从麦克风阵列中的第二麦克风采集的第二语音信号，其中第二麦克风不同于第一麦克风；增强特征提取模块，被配置为通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征；以及语音识别模块，被配置为基于增强特征获得语音识别结果。

在本公开的第三方面中，提供了一种电子设备，其包括一个或多个处理器以及存储装置，其中存储装置用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行，使得电子设备实现根据本公开的实施例的各种方法和/或过程。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的实施例的各种方法和/或过程。

应当理解，本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了传统的语音识别过程的示意图；

图2示出了根据本公开的实施例的示例语音识别场景的示意图；

图3示出了根据本公开的实施例的语音识别方法的流程图；

图4示出了根据本公开的实施例的语音增强和识别一体化模型的架构的示意图；

图5示出了根据本公开的实施例的基于复数卷积神经网络的语音增强和识别一体化模型的处理过程的示意图；

图6示出了根据本公开的实时模拟远场语音信号的过程的示意图；

图7示出了根据本公开的实施例的语音识别装置的框图；以及

图8示出了能够实施本公开的多个实施例的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。

典型的语音识别场景包括目标声源、非目标声源(例如噪声源)、拾音器(例如麦克风或麦克风阵列)、以及语音识别软件系统。以家居场景下的智能音箱产品为例，目标声源是朝着智能音箱发出声音的用户；非目标声源是周围环境的声音干扰，例如家电噪声等；拾音器和语音识别软件系统是智能音箱的硬件和软件部分。在拾音器拾取到的信号中，来自目标声源的信号被称为目标信号，来自非目标声源的信号被称为干扰信号。目标信号强度与干扰信号强度的比值被称为信噪比。目前，语音识别技术在高信噪比场景(例如近场语音识别场景)下表现良好，但在低信噪比场景下(远场语音识别场景)，往往表现不稳定。

为了提高远场语音识别的准确率，通常会使用麦克风阵列作为拾音器，以便提高语音采集的质量。然后，利用多通道语音信号处理技术，增强目标信号，提升语音识别精度。图1示出了传统的语音识别过程的示意图，针对所获得的语音信号110，在框120处通过数字信号处理来对语音信号110进行增强，在框130处，对增强后的语音信号进行语音识别，并获得识别结果140。在训练过程中，后端语音识别利用增强后的语音信号来训练后端识别模型。

传统的前端语音增强目的是利用数字信号处理技术来增强目标信号，得到更加清晰的语音。前端语音增强通常包括到达方向估计(DOA)和波束成形(BF)。DOA技术主要用于估计目标声源的方向，BF技术则利用目标声源的方位信息来增强目标信号，抑制干扰信号。常用的DOA技术包括基于到达时延的定向算法、基于空间谱估计的定向算法等。常用的BF技术有最小方差无畸变响应波束成形(MVDR BF)、线性约束最小方差波束成形(LCMV BF)和广义旁瓣消除波束成形(GSC BF)等。由此可见，传统的前端语音增强本质上都是保护目标声源方向信号(例如来自目标扇区内的语音)，并尽可能的抑制非目标方向信号(例如来自目标扇区外的语音)。此外，一些改进方法试图通过其他技术改进前端语音增强，然而这些改进方法仍然从信号处理的Filter-and-Sum方法出发，需要假设目标声源和噪声源的方位不一致，通过空间滤波和频域滤波，从多通道语音中抽取出多个方向的特征，其本质上还是依赖于传统的数字信号处理技术。

然而，传统的基于数字信号处理的语音增强方法存在一些缺陷，致使语音识别的错误率相对较高。一方面，前端语音增强和后端训练优化的目标的不统一，前端语音增强过程的优化过程独立于后端识别过程，其优化目标更多是从信噪比的角度，保留目标信号，抑制干扰噪声。该优化目标与后端识别的最终目标(提高语音识别准确率)不一致，目标的不统一很可能导致前端增强的优化结果在最终目标上并非最优。也就是说，传统的基于数字信号处理的语音增强算法，无法与后端语音识别的神经网络进行联合学习和共同优化。另外，二者缺乏统一的优化方法，不存在把DOA和BF的优化目标与语音识别的目标对齐的方案。另一方面，在传统的前端语音增强过程中，波束形成强烈依赖定位方向，并且依赖一些先验假设。基于数字信号处理的波束形成必须先估计出目标声源的方向，保护目标声源的同时抑制该方向以外的其他信号。而在实际应用场景中，一旦出现定位错误，那么就可能会错误地增强干扰信号，抑制目标信号，进而影响到后续的唤醒和识别性能。此外，通过一些技术去逼近信号处理波束也会受限于信号处理方法的一些弊端，影响语音识别的准确率。

为此，本公开的实施例提出了一种基于神经网络的语音增强和识别端到端的模型架构以及语音识别方案。不同于传统的基于数字信号处理的语音增强方式，本公开的实施例通过神经网络来提取多通道语音信号的增强特征，能够解决语音增强和语音识别优化目标不一致的问题，从而能够联合优化语音增强和语音识别等目标，实现了语音增强和识别的端到端建模，提高了语音识别的准确率。

因此，根据本公开的实施例，通过采用端到端训练，声源定位和波束生成可以同时进行。由于训练中穷举了大量的目标信号和干扰信号的组合场景，因此当点噪音源和波束方向同方向的时候，本公开的实施例的方案性能不会急剧下降；并且识别率在麦克风的任何方向上基本能保持一致。同时，基于传统的信号处理方法，首次唤醒是单麦克信号的唤醒，唤醒率低，波束唤醒只能在第二次唤醒和第一次唤醒同方向才能用。而对于本公开的实施例的语音增强和识别一体化模型来说，首次唤醒就可以达到波束唤醒的精度，并且唤醒后可以在各个角度都进行高精度识别，有效地保证了语音识别系统的准确性和鲁棒性。

此外，在本公开的一些实施例中，可以采用复数卷积神经网络(CNN)直接对原始的多通道语音信号进行多尺度多层次的信息抽取，在保留相位信息的前提下，实现前端波束形成和增强特征提取，进而实现语音增强和识别的一体化建模。传统的方法在傅里叶变换后通常直接丢弃相位信息，相反，本公开的实施例能够从语音信号的相位中学习到额外的信息，以用于训练神经网络模型，进一步提高语音识别的准确率。

另外，在本公开的一些实施例中，可以基于近场语音信号实时模拟远场语音信号。不同于通过传统的人工录制房间冲击响应和离线加噪的方式，本公开的实施例可以使用实时模拟/在线仿真和加噪技术的结合，能够在训练过程中实时随机模拟海量的房间冲击响应、噪声和语音的组合，极大的丰富了数据的多样性，使得模型能够从更加丰富的数据中获得更好的泛化性能。因此，本公开的实施例能够快速获得大量的远场语音信号训练数据，进而通过机器学习训练提高语音识别模型的准确率。

以下将参考附图2-8详细描述本公开的实施例的一些示例实现。

图2示出了根据本公开的实施例的示例语音识别场景200的示意图。应当理解，示例语音识别场景200仅为本公开的实施例可以实现是一个示例场景，而不用于限制本公开的保护范围。

如图2所示，在示例语音识别场景200中，用户205正对着其用户设备210进行语音输入，在本公开的一些实施例中，用户设备210可以为智能音箱，其可以包括多个扬声器、多个麦克风211和212，多个麦克风211和212可以组成麦克风阵列，以便提高语音识别的信号采集质量。应当理解，虽然在本公开的一些实施例中以智能音箱作为用户设备的一个示例，但是其可以为能够采集语音信号的任何电子设备，包括但不限于智能手机、平板电脑、台式计算机、笔记本计算机、智能可穿戴设备(诸如智能手表、智能眼镜)、导航设备、多媒体播放器设备、教育设备、游戏设备、智能音箱，等等。

用户205在进行语音输入时，场景200中的电视机208也在发出声音，对于用户设备210而言，用户205发出的声音是需要识别的声音，因而用户205为目标声源，而电视机208发出的声音是不需要考虑的噪声，因而电视机208为非目标声源。

不同于传统的基于数字信号处理的语音增强，本公开的实施例对麦克风211和212采集的原始语音信号进行建模，以训练出语音增强和识别一体化模型220，然后，通过语音增强和识别一体化模型220来获得对应的识别结果230。在语音增强和识别一体化模型220中，可以包括基于复数CNN的增强特征提取模块和基于注意力模型的语音识别模块，这两个模块直接对麦克风阵列语音信号建模，一方面不用再依赖数字信号处理技术，另一方面能有效利用大数据和神经网络的优势，直接用数据驱动的方式自动优化网络权重，能够实现比人工精细设计的信号滤波器更好的效果。因此，这种端到端建模的方式，解决了传统的信号前端语音增强和后端语音识别优化目标不统一的问题，在一些实施例中，其可以联合优化语音增强、降噪、声源定位、唤醒和识别多个目标，降低了整个系统的复杂度，性能远超传统单独建模优化的方法。

在图2的示例语音识别场景200中，语音增强和识别一体化模型220可以被完全部署在用户设备本地、或者完全被部署在服务器侧、或者一部分被部署在用户设备本地另一部分被部署在服务器侧或云中。本公开的实施例不限制语音增强和识别一体化模型220的部署方式和位置。在用户设备和服务器协作部署语音增强和识别一体化模型220的情况下，用户设备侧可以部署基于复数CNN的增强特征提取模块，而服务器侧可以部署基于注意力模型的语音识别模块，用户设备在提取出语音信号的增强特征之后，可以将增强特征从用户设备发送到服务器，以供服务器侧执行进一步语音识别。

在不同的场景中，针对所获得的语音识别结果，可以存在不同的处理方式。例如，在语音输入的场景下，在获得语音识别结果之后，可以在用户设备210的显示器上实时地显示识别结果，在流式语音识别时，显示器上所显示的识别结果也在动态地变化，使得用户能够实时知晓所识别的结果，提升用户体验。在一些实施例中，用户设备210也可以不包括显示器；相反，用户设备210可以通过其音频输出设备(例如扬声器)来输出识别结果。在智能音箱的场景中，服务器可以基于识别结果直接执行进一步的动作，例如，当用户的语音是播放一首歌曲时，服务器根据用户意图将歌曲的音频文件发送到用户设备210以通过扬声器进行播放。

图3示出了根据本公开的实施例的语音识别方法300的流程图。应当理解，方法300可以由用户设备、服务器或者其组合来执行。

在框302，获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从麦克风阵列中的第二麦克风采集的第二语音信号，其中第二麦克风不同于第一麦克风。例如，参考图2，语音增强和识别一体化模型220从麦克风211和212分别获得采集的原始语音信号。在一些实施例中，当用户设备210中的麦克风阵列包括3个麦克风时，可以从3个麦克风同时获得3路通道的语音信号。在一些实施例中，当用户设备210中的麦克风阵列包括6个麦克风时，可以从6个麦克风同时获得6路通道的语音信号。

在框304，通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征，诸如多维的特征向量。例如，语音增强和识别一体化模型220通过神经网络直接处理各个通道的语音信号，而不使用传统的数字信号处理技术，因而无需语音识别学科的先验假设。通过这种方式，语音增强和识别一体化模型220中的各个模块的优化目标能够统一，其优化准则都是提高语音识别的准确率或降低语音识别的错误率。在本公开的一些实施例中，神经网络可以为复数CNN网络，进而能够考虑到麦克风阵列采集到的语音信号中的相位信息，使用复数的形式进行特征提取时的运算。

在框306，基于增强特征，获得语音识别结果。例如，语音增强和识别一体化模型220根据提取到的增强特征，使用神经网络模型来获得对应的语音识别结果。在麦克风阵列中包括大于两个麦克风的情形下，根据大于两路的语音信号来获得对应的识别结果。

因此，不同于传统的基于数字信号处理的语音增强方式，本公开的实施例的方法300通过神经网络来提取多通道语音信号的增强特征，能够解决语音增强和语音识别优化目标不一致的问题，从而能够联合优化语音增强和语音识别等目标，实现了语音增强和识别的端到端建模，提高了语音识别的准确率。

图4示出了根据本公开的实施例的语音增强和识别一体化模型220的架构的示意图。如图4所示，为了实现语音增强和语音识别，语音增强和识别一体化模型220需要包括增强特征提取模块420和语音识别模块450。可选地，语音增强和识别一体化模型220还可以包括用于在线模拟远场语音信号的实时模拟模块410、用于增强用户体验而通过指示灯提醒用户的声源定位模块430、以及用于唤醒后端识别过程的唤醒模块440。语音增强和识别一体化模型220是一种端到端的模型架构，在训练过程中，其训练数据为远场语音信号和对应的字符，此外，本公开的实施例提出了一种在线实时模拟远场语音信号的方式，这样，其训练数据可以为录制的近场语音信号和对应的字符。在使用阶段，语音增强和识别一体化模型220直接获得并处理麦克风阵列所采集的原始语音信号，然后输出对应的识别结果。

实时模拟模块410能够将近场语音信号模拟为远场语音信号，并且加入随机的干扰声源，由此产生大量的远场语音信号以用于模型训练。以下参考图6描述了将近场语音信号实时模拟成远场语音信号的示例实现。

在一些实施例中，增强特征提取模块420可以通过复数CNN来实现。通过使用复数CNN来进行特征增强，能够保留麦克风阵列中的相位信息，因为在麦克风阵列场景中，每个语音信号的相位信息和幅度同等重要，而相位信息是通过复数中的虚部来表示的。然后，通过对复数CNN输出的增强特征取模，再将复数域特征转换成实数形式的增强特征。

声源定位模块430能够输出目标声源的定位信息，从而可以在用户对应的方向点亮指示灯，以提醒用户系统已感知到对应方向(即用户所处的方向)的语音信号，提高用户体验。唤醒模块440用于在待机状态下进行监控，以判断用户是否正在与用户设备进行语音交互，例如，当判断出用户说出的是预定义的词语时(例如“小度小度”、“你好小度”等)，可以唤醒后端的语音识别过程，而无需针对采集的所有语音信号都启动后端的语音识别，这是因为语音识别的启动成本较高。因此，通过唤醒判断，能够降低语音识别的成本。

语音识别模块450根据增强特征来获得语音识别结果。在一些实施例中，语音识别模块450可以为流式多级的截断注意力(Streaming Multi-Layer Truncated Attention，简称为SMLTA)模型，其为一种基于CTC(链接时序分类)和注意力的流式语音识别模型，其中流式表示可以直接对语音的小片段(而不是必须整句)，进行一个个片段地增量解码，多级表示堆叠多层注意力模型，而截断则表示利用CTC模型的尖峰信息，把语音切割成一个一个小片段，注意力模型建模和解码可以在这些小片段上展开。SMLTA将传统的全局的注意力建模转换成局部注意力建模，所以这个过程也是一个可以流式实现的过程，无论多长的句子，都可以通过截段来实现流式解码和精准的局部注意力建模，因而实现了流式解码。其中，CTC模型是一种端到端的模型，其被用于大规模词汇量的语音识别，混合深度神经网络(DNN)+隐马尔科夫模型(HMM)的声学模型结构完全被统一的神经网络结构所替代，大大简化了声学模型的结构和训练难度，使得语音识别系统的准确率得到提升。

图5示出了根据本公开的实施例的基于复数CNN的语音增强和识别一体化模型的处理过程500的示意图，其可以基于图4中所示出的架构。

在本公开的一些实施例中，在语音增强和识别一体化模型220的训练阶段，实时模拟模块410在线模拟远场语音信号以用于后续的机器学习训练。在语音增强和识别一体化模型220的使用阶段，直接从麦克风阵列获得多通道的原始语音信号。

在获得输入的语音信号之后，在框501，对每路语音信号分别进行复数傅里叶变换(FFT)，将时域信号转换成频域信号。然后，增强特征提取模块420使用复数CNN对FFT后的各路语音信号进行复数卷积、复数偏置和复数线性变换操作，以获得复数特征。由于采用复数CNN直接对原始的多通道语音信号进行多尺度多层次的信息抽取，在保留相位信息的前提下，实现前端波束形成和增强特征提取，因而能够从语音信号的相位中学习到额外的信息，进一步提高语音识别的准确率。

由于语音识别模块450通常仅支持实数操作，因而在框502，对复数CNN输出的增强特征进行取模，将复数域特征转换成实数形式的增强特征530。根据本公开的实施例的架构，所提取的增强特征530可以供声源定位模块430、唤醒模块440、以及语音识别模块450这三个模块共享，作为这些模块的输入特征。

继续参考图5，声源定位模块430可以由3层基于门的循环神经网络(GatedRecurrent Unit，简称为GRU)构成，并通过一层Softmax来生成DOA输出503，例如，可以输出目标声源的方向信息，进而可以点亮对应方向的提示灯，以便提升用户体验。唤醒模块440主要由多层(例如N层)分组卷积神经网络构成，并通过一层Softmax来生成唤醒输出504。唤醒输出504可以包括采集到的语音信号是否为唤醒词的判断，如果是唤醒词，则可以启动语音识别模块450处的识别过程。

语音识别模块450包括低帧率特征提取模块(例如，针对移动端设计的网络结构MobileNet)、长短时记忆网络(LSTM)、以及SMLTA模型。MobileNet能够实现特征压缩的功能，传统的方法传输的是合成的语音信号，而本公开的实施例是传输增强特征，如果不进行压缩，则可能需要占用更大的网络带宽或者造成更长的延迟。为了解决这个问题，本公开的实施例使用MobileNet对增强特征530进行压缩，使得压缩后的特征的大小始终为预定大小。通过这种方式，针对包括2个或者3个等麦克风的麦克风阵列，所传输的增强特征的大小和传统的方法相同，避免了由于网络传输而造成的延迟。因此，从多通道语音中提取出的增强特征带宽与单路压缩语音相当，相比多通道语音而言，既节省了带宽，又通过上传神经网络的中间特征的方式保护了用户隐私。

语音增强和识别一体化模型220在训练时，采用多个损失函数同时优化的策略对网络进行联合训练，不同损失函数可以采用不用加权系数。在一些实施例中，在实际的部署时，还可以采用端和云分布式部署的策略，其中端上包括波束形成、增强特征提取、定位和唤醒等功能。由于复数CNN模型很小，并且卷积算子更通用，因而适合并行和硬件加速，能够在端上实时完成计算。增强特征提取模块可以由若干层深度可分离卷积(DepthwiseSeparable Convolution)所组成，其模型参数也很小。

应当理解，图5中所示出的网络结构和数值可以根据实际情况而调整。同时，为了实现在线实时解码，上述GRU、LSTM等循环神经网络可以为单向。因此，本公开的实施例利用复数CNN来对原始的麦克风阵列信号建模，能够实现定向、唤醒和识别的端到端联合训练。

一般来说，为了实现端到端训练，神经网络的输入需为原始的麦克阵列语音信号，而由于用户隐私和传输带宽等原因，实际中很难获取大量的这种真实数据。传统的训练数据收集方法通常是在实际场景下录制多个房间的冲击响应(RIR)，这种方法不仅低效而且成本高，很难遍历所有场景。其中，冲击响应能够模拟在随机选择的配置下对于语音的响应。

远程语音场景的语音的传播通常与麦克风阵列结构、房间尺寸、声源与拾音器间距等参数都有关联，这些参数的变化导致远场多通道数据场景复杂，多通道远场语音信号的训练数据较难采集。为此，本公开的实施例提出了一种在线实时模拟远场语音信号，能够通过随机的多项参数配置，获得大量的远场语音信号训练数据。

图6示出了根据本公开的实时模拟远场语音信号的过程600的示意图，其可以由上文的实时模拟模块410来实现。本公开的实施例的语音增强和识别一体化模型220需要针对目标用户设备或目标产品的麦克风阵列中的麦克风数目，来适应性地进行训练。也就是说，当目标产品中有2个麦克风时，就使用2路远场语音信号来训练模型；当目标产品中有3个麦克风时，就使用3路远场语音信号来训练模型；当目标产品中有6个麦克风时，就使用6路远场语音信号来训练模型。根据本公开的实施例，在训练过程中根据随机模拟的房间冲击响应、噪声和语音，实时生成远场多通道语音信号，从而使得基于大规模数据的语音增强和识别端到端训练成为可能。

图6示出了基于录制的近场语音信号S(t)，通过随机加噪实时模拟多通道远场语音信号Y₁(t)和Y₂(t)。首先，在框605，随机设定房间大小(即长宽高)和墙壁反射系数等房间配置，并且随机将指定尺寸的麦克风置放在房间内的合理位置。在框610将目标声源随机摆放着房间内的一合理位置，并且在框620将点噪声源随机摆放着房间内的另一合理位置。另外，在框615，提供录制的近场语音信号S(t)，在框625，提供将随机选择的噪声信号N(t)。

然后，根据房间配置、麦克风位置以及目标声源位置，生成冲击响应R₁₁(t)和R₁₂(t)，根据房间配置、麦克风位置以及点噪声源位置，生成冲击响应R₂₁(t)和R₂₂(t)。接下来，将近场语音信号S(t)和冲击响应R₁₁(t)和R₁₂(t)进行卷积以得到语音远场信号，并且将随机选择的噪声信号N(t)和冲击响应R₂₁(t)和R₂₂(t)进行卷积以得到噪声远场信号。然后，在框628，通过信噪比控制，将语音远场信号和噪声远场信号按比叠加，得到带噪声的双通道远场语音信号Y₁(t)和Y₂(t)，如631和632所示。以下通过式(1)和(2)示出了计算双通道远场语音信号Y₁(t)和Y₂(t)的示例过程，其中α表示信噪比。

Y₁(t)＝S(t)＊R₁₁(t)+αN(t)＊R₂₁(t) (1)

Y₂(t)＝S(t)＊R₁₂(t)+αN(t)＊R₂₂(t) (2）

因此，本公开的实施例使用在线实时模拟和加噪技术，能够在训练过程中实时随机模拟海量的房间冲击响应、噪声和语音的组合，极大的丰富了数据的多样性，使得模型能够从更加丰富的数据中获得更好的泛化性能。

图7示出了根据本公开的实施例的语音识别装置700的框图。如图7所示，装置700包括语音信号获得模块710、增强特征提取模块720以及语音识别模块730。语音信号获得模块710被配置为获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从麦克风阵列中的第二麦克风采集的第二语音信号，其中第二麦克风不同于第一麦克风。增强特征提取模块720被配置为通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征。语音识别模块730被配置为基于增强特征，获得语音识别结果。

在一些实施例中，其中增强特征提取模块720包括：傅里叶变换模块，被配置为对第一语音信号和第二语音信号分别进行复数傅里叶变换；卷积处理模块，被配置为通过复数卷积神经网络对经变换的第一语音信号和第二语音信号进行复数卷积、复数偏置和复数线性变换操作以获得复数特征；以及转换模块，被配置为将复数特征转换成实数形式的增强特征。

在一些实施例中，其中语音识别模块730包括：字符输出模块，被配置为通过流式多级的截断注意力模型确定与第一语音信号和第二语音信号相对应的字符输出。

在一些实施例中，其中语音识别模块730还包括：特征压缩模块，被配置为基于预定的大小，对增强特征进行压缩；以及特征提供模块，被配置为向流式多级的截断注意力模型提供压缩后的增强特征。

在一些实施例中，装置700还包括：方向确定模块，被配置为基于增强特征，确定与第一语音信号和第二语音信号相关联的目标声源的方向；以及提示灯点亮模块，被配置为点亮与所确定的方向相关联的提示灯。

在一些实施例中，装置700还包括：唤醒判断模块，被配置为基于增强特征，确定第一语音信号和第二语音信号是否涉及唤醒词；以及识别启动模块，被配置为根据确定第一语音信号和第二语音信号涉及唤醒词，启动字符识别过程。

在一些实施例中，其中增强特征提取模块720包括：信号获得模块，被配置为获得从麦克风阵列中的第三麦克风采集的第三语音信号；以及特征提取模块，被配置为通过神经网络提取与第一语音信号的、第二语音信号和第三语音信号相关联的增强特征。

在一些实施例中，装置700还包括：多通道远场语音信号获得模块，被配置为获得与麦克风阵列中的麦克风相同数目的多通道远场语音信号，多通道远场语音信号至少包括第一远场语音信号和第二远场语音信号；以及训练模块，被配置为使用多通道远场语音信号来训练端到端语音增强和识别一体化模型。

在一些实施例中，其中多通道远场语音信号获得模块包括：实时模拟模块，被配置为基于近场语音信号，通过随机加噪实时模拟多通道远场语音信号。

在一些实施例中，其中实时模拟模块730包括：随机设置模块，被配置为随机设置以下模拟参数：房间的配置、麦克风阵列在房间中的位置、目标声源在房间中的位置、噪声源在房间中的位置，房间的配置包括长宽高和墙壁反射系数。

在一些实施例中，其中实时模拟模块730还包括：冲击响应生成模块，被配置为基于模拟参数，生成针对近场语音信号的第一组冲击响应以及针对随机选择的噪声信号的第二组冲击响应。

在一些实施例中，其中实时模拟模块730还包括：第二多通道远场语音信号获得模块，被配置为基于近场语音信号、第一组冲击响应、噪声信号、第二组冲击响应、以及信噪比，生成多通道远场语音信号。

应当理解，图7中所示出的语音信号获得模块710、增强特征提取模块720以及语音识别模块730可以被包括单个或多个电子设备中。而且，应当理解，图7中所示出的模块可以执行参考本公开的实施例的方法和/或过程中的步骤和/或动作。

因此，不同于传统的基于数字信号处理的语音增强，本公开的实施例通过神经网络来提取多通道语音信号的增强特征，能够解决语音增强和语音识别优化目标不一致的问题，从而能够联合优化语音增强和语音识别等目标，实现了语音增强和识别的端到端建模，提高了语音识别的准确率。

此外，根据本公开的一些实施例，利用复数CNN直接对原始的多通道语音信号进行多尺度多层次的信息抽取，在保留相位信息的前提下，实现前端波束形成和增强特征提取，进而实现语音增强和识别的一体化建模。该实现无需任何数字信号处理和语音识别学科的先验假设，整个优化过程只有一个准则语音识别字错误率。另外，本公开的实施例完全数据驱动，通过轻松便捷的模拟过程，从近场数据就可以建立所有远场训练，在发明人十万小时级别的产品测试中，获得了远超传统的数字信号处理+语音识别独立优化的性能，显著降低了识别错误率。

图8示出了可以用来实施本公开的实施例的示例设备800的示意性框图。应当理解，设备800可以为用于实现本公开所描述的语音识别装置700、或者用户设备、或者服务器。如图所示，设备800包括中央处理单元(CPU)801，其可以根据被存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。如图8所示，输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元801执行上文所描述的各个方法和过程，例如方法300。例如，在一些实施例中，方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由CPU 801执行时，可以执行上文描述的方法的一个或多个动作或步骤。备选地，在其他实施例中，CPU 801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)，等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各动作或步骤，但是这应当理解为要求这样动作或步骤以所示出的特定次序或以顺序次序执行，或者要求所有图示的动作或步骤应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开的实施例，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种语音识别方法，包括：

获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从所述麦克风阵列中的第二麦克风采集的第二语音信号，所述第二麦克风不同于所述第一麦克风；

通过神经网络提取与所述第一语音信号的和所述第二语音信号相关联的增强特征；以及

基于所述增强特征，获得语音识别结果。

2.根据权利要求1所述的方法，其中通过神经网络提取与所述第一语音信号的和所述第二语音信号相关联的增强特征包括：

对所述第一语音信号和所述第二语音信号分别进行复数傅里叶变换；

通过复数卷积神经网络对经变换的第一语音信号和第二语音信号进行复数卷积、复数偏置和复数线性变换操作以获得复数特征；以及

将所述复数特征转换成实数形式的所述增强特征。

3.根据权利要求2所述的方法，其中获得语音识别结果包括：

由流式多级的截断注意力模型基于所述增强特征来确定与所述第一语音信号和所述第二语音信号相对应的字符输出。

4.根据权利要求3所述的方法，其中获得语音识别结果还包括：

基于预定的大小，对所述增强特征进行压缩；以及

向所述流式多级的截断注意力模型提供压缩后的增强特征。

5.根据权利要求2所述的方法，还包括：

基于所述增强特征，确定与所述第一语音信号和所述第二语音信号相关联的目标声源的方向；以及

点亮与所确定的方向相关联的提示灯。

6.根据权利要求2所述的方法，还包括：

基于所述增强特征，确定所述第一语音信号和所述第二语音信号是否涉及唤醒词；以及

根据确定所述第一语音信号和所述第二语音信号涉及唤醒词，启动字符识别过程。

7.根据权利要求1所述的方法，其中通过神经网络提取与所述第一语音信号的和所述第二语音信号相关联的增强特征包括：

获得从所述麦克风阵列中的第三麦克风采集的第三语音信号；以及

通过神经网络提取与所述第一语音信号的、所述第二语音信号和第三语音信号相关联的增强特征。

8.根据权利要求1所述的方法，还包括：

获得与所述麦克风阵列中的麦克风相同数目的多通道远场语音信号，所述多通道远场语音信号至少包括第一远场语音信号和第二远场语音信号；以及

使用所述多通道远场语音信号来训练端到端语音增强和识别一体化模型。

9.根据权利要求8所述的方法，其中获得与所述麦克风阵列中的麦克风相同数目的多通道远场语音信号包括：

基于近场语音信号，通过随机加噪实时模拟所述多通道远场语音信号。

10.根据权利要求9所述的方法，其中通过随机加噪实时模拟所述多通道远场语音信号包括：

随机设置以下模拟参数：房间的配置、麦克风阵列在所述房间中的位置、目标声源在所述房间中的位置、噪声源在所述房间中的位置，所述房间的配置包括长宽高和墙壁反射系数。

11.根据权利要求10所述的方法，其中通过随机加噪实时模拟所述多通道远场语音信号还包括：

基于所述模拟参数，生成针对所述近场语音信号的第一组冲击响应以及针对随机选择的噪声信号的第二组冲击响应。

12.根据权利要求11所述的方法，其中通过随机加噪实时模拟所述多通道远场语音信号还包括：

基于所述近场语音信号、所述第一组冲击响应、所述噪声信号、所述第二组冲击响应以及信噪比，生成所述多通道远场语音信号。

13.一种语音识别装置，包括：

语音信号获得模块，被配置为获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从所述麦克风阵列中的第二麦克风采集的第二语音信号，所述第二麦克风不同于所述第一麦克风；

增强特征提取模块，被配置为通过神经网络提取与所述第一语音信号的和所述第二语音信号相关联的增强特征；以及

语音识别模块，被配置为基于所述增强特征，获得语音识别结果。

14.根据权利要求13所述的装置，其中所述增强特征提取模块包括：

傅里叶变换模块，被配置为对所述第一语音信号和所述第二语音信号分别进行复数傅里叶变换；

卷积处理模块，被配置为通过复数卷积神经网络对经变换的第一语音信号和第二语音信号进行复数卷积、复数偏置和复数线性变换操作以获得复数特征；以及

转换模块，被配置为将所述复数特征转换成实数形式的所述增强特征。

15.根据权利要求14所述的装置，其中所述语音识别模块包括：

字符输出模块，被配置为通过流式多级的截断注意力模型基于所述增强特征来确定与所述第一语音信号和所述第二语音信号相对应的字符输出。

16.根据权利要求15所述的装置，其中所述语音识别模块还包括：

特征压缩模块，被配置为基于预定的大小，对所述增强特征进行压缩；以及

特征提供模块，被配置为向所述流式多级的截断注意力模型提供压缩后的增强特征。

17.根据权利要求14所述的装置，还包括：

方向确定模块，被配置为基于所述增强特征，确定与所述第一语音信号和所述第二语音信号相关联的目标声源的方向；以及

提示灯点亮模块，被配置为点亮与所确定的方向相关联的提示灯。

18.根据权利要求14所述的装置，还包括：

唤醒判断模块，被配置为基于所述增强特征，确定所述第一语音信号和所述第二语音信号是否涉及唤醒词；以及

识别启动模块，被配置为根据确定所述第一语音信号和所述第二语音信号涉及唤醒词，启动字符识别过程。

19.根据权利要求13所述的装置，其中所述增强特征提取模块包括：

信号获得模块，被配置为获得从所述麦克风阵列中的第三麦克风采集的第三语音信号；以及

特征提取模块，被配置为通过神经网络提取与所述第一语音信号的、所述第二语音信号和第三语音信号相关联的所述增强特征。

20.根据权利要求13所述的装置，还包括：

多通道远场语音信号获得模块，被配置为获得与所述麦克风阵列中的麦克风相同数目的多通道远场语音信号，所述多通道远场语音信号至少包括第一远场语音信号和第二远场语音信号；以及

训练模块，被配置为使用所述多通道远场语音信号来训练端到端语音增强和识别一体化模型。

21.根据权利要求20所述的装置，其中所述多通道远场语音信号获得模块包括：

实时模拟模块，被配置为基于近场语音信号，通过随机加噪实时模拟所述多通道远场语音信号。

22.根据权利要求21所述的装置，其中所述实时模拟模块包括：

随机设置模块，被配置为随机设置以下模拟参数：房间的配置、麦克风阵列在所述房间中的位置、目标声源在所述房间中的位置、噪声源在所述房间中的位置，所述房间的配置包括长宽高和墙壁反射系数。

23.根据权利要求22所述的装置，其中所述实时模拟模块还包括：

冲击响应生成模块，被配置为基于所述模拟参数，生成针对所述近场语音信号的第一组冲击响应以及针对随机选择的噪声信号的第二组冲击响应。

24.根据权利要求23所述的装置，其中所述实时模拟模块还包括：

第二多通道远场语音信号获得模块，被配置为基于所述近场语音信号、所述第一组冲击响应、所述噪声信号、所述第二组冲击响应、以及信噪比，生成所述多通道远场语音信号。

25.一种电子设备，所述电子设备包括：

一个或多个处理器；以及

存储装置，其用于存储一个或多个程序，所述一个或多个程序当被所述一个或多个处理器执行，使得所述电子设备实现根据权利要求1-12中任一项所述的方法。

26.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-12中任一项所述的方法。