CN107112025A

CN107112025A - 用于恢复语音分量的系统和方法

Info

Publication number: CN107112025A
Application number: CN201580060446.6A
Authority: CN
Inventors: C·艾文达诺; J·伍德拉夫
Original assignee: Knowles Electronics LLC
Current assignee: Knowles Electronics LLC
Priority date: 2014-09-12
Filing date: 2015-09-11
Publication date: 2017-08-29
Also published as: US20160078880A1; US9978388B2; DE112015004185T5; WO2016040885A1

Abstract

一种用于恢复因噪声降低或噪声消除而失真的音频信号的失真语音分量的方法，该方法包括：确定音频信号中的失真频率区和不失真频率区。失真频率区包括音频信号的存在语音失真的区域。利用模型执行迭代，以完善对失真频率区处的音频信号的预测。所述模型被设置成修改音频信号，并且可以包括利用干净或未损坏的音频信号的频谱包络训练的深度神经网络。在每次迭代之前，将不失真频率区的音频信号恢复至第一次迭代之前音频信号的值；而失真频率区的音频信号在第一次迭代时从零开始完善。当不失真频率区的音频信号的差异满足预定义标准时，迭代结束。

Description

用于恢复语音分量的系统和方法

相关申请的交叉引用

本申请要求保护2014年9月12日提交的美国临时申请No.62/049988的权益。前述申请的主题出于所有目的通过引用而并入于此。

技术领域

本申请总体上涉及音频处理，并且更具体地，涉及用于恢复噪声被抑制的音频信号的失真语音分量的系统和方法。

背景技术

在音频处理系统中广泛使用噪声降低以抑制或消除用于发送语音的音频信号中的不希望噪声。然而，在噪声消除和/或抑制之后，与噪声纠缠在一起的语音在噪声降低系统中易于被过度衰减或消除。

有一些大脑的模型解释了如何利用经由反馈机制感知地取代输入的内部表述来恢复声音。神经科学已经描述了称为大脑的收敛发散区(CDZ)模型的一个示例性模型，并且尝试解释在人类语音感知中发现的频谱完成和音素恢复现象等。

发明内容

提供本发明内容以通过简化形式介绍选择的概念，其在下面详细描述中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或基本特征，也不是旨在被用作在确定所要求保护的主题的范围的辅助。

提供了用于恢复音频信号的失真语音分量的系统和方法。一种示例性方法包括：确定所述音频信号中的失真频率区和不失真频率区。所述失真频率区包括所述音频信号的存在语音失真的区域。该方法包括：利用用于完善对所述失真频率区处的所述音频信号的预测的模型执行一次或更多次迭代。所述模型可被设置成修改所述音频信号。

在一些实施方式中，所述音频信号包括通过对包括语音的声学信号进行噪声降低或噪声消除中的至少一种而获取的噪声被抑制的音频信号。所述声学信号在所述失真频率区衰减或消除。

在一些实施方式中，所述用于完善对所述失真频率区处的所述音频信号的的预测的模型包括利用干净的音频信号或未损坏的音频信号的频谱包络训练的深度神经网络。所完善的预测可以被用于恢复所述失真频率区中的语音分量。

在一些实施方式中，所述失真频率区处的所述音频信号在第一次迭代之前被设置成零。在执行所述迭代中的每一次迭代之前，所述不失真频率区处的所述音频信号在第一次迭代之前被恢复至初始值。

在一些实施方式中，该方法还包括：比较每一次迭代之前和之后的所述不失真频率区处的所述音频信号，以确定差异。在某些实施方式中，如果所述差异满足预定标准，则所述方法允许结束所述一次或更多次迭代。所述预定标准可以根据所述音频信号的能量的下限和上限来限定。

根据本公开另一示例性实施方式，用于恢复音频信号的失真语音分量的方法的步骤被存储在包括指令的非暂时性机器可读介质上，所述指令在通过一个或更多个处理器实现时执行所述步骤。

根据结合附图的下列描述，本公开和方面的其它示例性实施方式将变得清楚。

附图说明

实施方式在附图的图中通过示例而非限制的方式进行例示，其中，相同标记指示相似部件。

图1是例示可以实践本技术的环境的框图。

图2是例示根据示例性实施方式的音频装置的框图。

图3是例示根据示例性实施方式的音频处理系统的模块的框图。

图4是例示根据示例性实施方式的用于恢复音频信号的语音分量的方法的流程图。

图5是根据示例性实施方式的可用于实现本技术的方法的计算机系统。

具体实施方式

本文公开的技术涉及用于恢复音频信号的失真语音分量的系统和方法。本技术的实施方式可以利用被设置成接收和/或提供音频的任何音频装置(诸如蜂窝电话、可佩戴装置、电话听筒、耳机以及会议系统，但不限于此)来实践。应当明白，虽然本技术的一些实施方式将参照蜂窝电话的操作来描述，但本技术可以利用任何音频装置来实践。

音频装置可以包括射频(RF)接收器、发送器及收发器、有线和/或无线电信和/或联网装置、放大器、音频和/或视频播放器、编码器、解码器、扬声器、输入部、输出部，存储装置以及用户输入装置。音频装置可以包括输入装置，诸如按钮、开关、按键、键盘、轨迹球、滑块、触摸屏、一个或更多个麦克风、陀螺仪、加速度计、全球定位系统(GPS)接收器等。音频装置可以包括输出装置，诸如LED指示器、视频显示器、触摸屏、扬声器等。在一些实施方式中，移动装置包括可佩戴装置和手持装置，诸如有线和/或无线遥控器、笔记本计算机、平板计算机、平板电话、智能电话、个人数字助理、媒体播放器、移动电话等。

在不同实施方式中，音频装置可以在固定和便携式环境中工作。固定环境可以包括住宅和商业建筑物或结构物等。例如，固定的实施方式可以包括：客厅、卧室、家庭影院、会议室、礼堂、商业场所等。便携式环境可以包括：移动中的车辆、移动中的人、其它运输工具等。

根据示例性实施方式，用于恢复音频信号的失真语音分量的方法包括确定该音频信号中的失真频率区和不失真频率区的步骤。失真频率区包括音频信号中的存在语音失真的区域。该方法包括利用用于完善对失真频率区处的音频信号的预测的模型来执行一次或更多次迭代的步骤。该模型可以被设置成修改该音频信号。

下面参照图1，示出了其中可以实践用于恢复音频信号的失真语音分量的方法的环境100。该示例环境100可以包括至少可工作以接收音频信号的音频装置104。音频装置104还可工作以处理和/或记录/存储所接收的音频信号。

在一些实施方式中，音频装置104包括一个或更多个声学传感器，例如，麦克风。在图1的示例中，音频装置104包括主麦克风(M1)106和辅麦克风108。在不同实施方式中，麦克风106和108被用于检测声学音频信号(例如，来自用户102的口头交流)和噪声110两者。该口头交流可以包括关键词、讲话、唱歌等。

噪声110是环境100中存在的不需要的声音，其可以例如通过诸如麦克风106和108的传感器检测到。在固定环境中，噪声源可以包括街道噪声、环境噪声、来自移动装置的声音(如音频)、来自除了预定演讲者以外的其它实体的讲话等。噪声110可以包括混响和回声。移动环境可能会遇到某些种类的噪声，这些噪声是由其操作及其操作环境引起的，例如，道路、轨道、轮胎/车轮、风扇、刮水片、发动机、排气装置、娱乐系统、通信系统、竞争扬声器、风、雨、波浪、其它车辆、外部等噪声。由麦克风106和108检测的声信号可以被用于将希望的语音与噪声110分离。

在一些实施方式中，音频装置104连接至基于云的计算资源160(也称为计算云)。在一些实施方式中，计算云160包括一个或更多个服务器机群/集群(包括计算机服务器集合)，并且该计算机云与网络交换机和/或路由器处于同一位置。计算云160可工作为通过网络(例如，因特网、移动电话(蜂窝电话)网络等)传送一个或更多个服务。在某些实施方式中，音频信号的至少部分处理在计算云160中远程地执行。音频装置104可工作为向计算云160发送数据(例如，记录的声信号)、请求计算服务并接收计算结果。

图2是示例音频装置104的框图。如图所示，音频装置104包括接收器200、处理器202、主麦克风106、辅麦克风108、音频处理系统210以及输出装置206。根据音频装置104的工作需要，音频装置104可以包括进一步的或不同的组件。类似地，音频装置104可以包括较少的组件来执行与图2描绘的那些类似或等同的功能。例如，音频装置104在一些实施方式中包括单个麦克风，而在其它实施方式中包括两个或更多个麦克风。

在不同实施方式中，接收器200可以被设置成与诸如因特网、广域网(WAN)、局域网(LAN)、蜂窝网络等的网络通信，以接收音频信号。然后，将接收到的音频信号转发至音频处理系统210。

在不同实施方式中，处理器202包括硬件和/或软件，处理器202可工作以执行存储在存储器(图2中未例示)中的指令。示例性处理器202使用浮点运算、复数运算以及包括噪声抑制和恢复音频信号中的失真语音分量的其它运算。

音频处理系统210可被设置成，经由至少一个麦克风(例如，图1和图2的示例中的主麦克风106和辅麦克风108)从声源接收声信号，并处理声信号分量。示例系统中的麦克风106和108间隔开一段距离，使得从某些方向碰撞到装置上的声波在两个或更多个麦克风处表现出不同的能级。在被麦克风106和108接收之后，该声信号可以被转换成电信号。这些电信号然后可以通过模数转换器(未示出)转换成数字信号以用于根据一些实施方式进行处理。

在不同实施方式中，在麦克风106和108是间隔小(例如，隔开1至2厘米)的全向麦克风，可以使用波束形成技术来仿真向前和向后的定向麦克风响应。可以利用仿真的向前和向后的定向麦克风来获取电平差。该电平差可以被用于在例如时-频域中区分语音和噪声，这可用于噪声和/或回声降低。在一些实施方式中，一些麦克风主要被用于检测语音，而其它麦克风主要被用于检测噪声。在不同实施方式中，一些麦克风被用于检测噪声和语音两者。

噪声降低可以由音频处理系统210基于麦克风间的电平差、级别显著性(levelsalience)、音高显著性(pitch salience)、信号类型分类、扬声器标识来执行。在不同实施方式中，噪声降低包括噪声消除和/或噪声抑制。

在一些实施方式中，输出装置206是向收听者提供音频输出的任何装置(例如，声源)。例如，输出装置206可以包括扬声器、class-D输出、耳机的听筒或音频装置104上的听筒(handset)。

图3是示出根据示例性实施方式的音频处理系统210的模块的框图。图3的音频处理系统210可以提供图2的音频处理系统210的更多细节。音频处理系统210包括频率分析模块310、噪声降低模块320、语音恢复模块330以及重建模块340。可以从接收器200或麦克风106和108接收输入信号。

在一些实施方式中，音频处理系统210可工作为接收包括一个或更多个时域输入音频信号的音频信号，在图3的示例中描绘为从图1中的主麦克风(M1)和辅麦克风(M2)接收。输入的音频信号被提供给频率分析模块310。

在一些实施方式中，频率分析模块310可工作为接收输入的音频信号。频率分析模块310从时域输入音频信号生成频率子带，并输出频率子带信号。在一些实施方式中，频率分析模块310可工作为计算或确定所接收的音频信号的语音分量，例如，频谱包络和激发。

在不同实施方式中，噪声降低模块320包括多个模块并从频率分析模块310接收音频信号。噪声降低模块320可工作为执行音频信号中的噪声降低来生成噪声被抑制的信号。在一些实施方式中，噪声降低包括减法噪声消除或乘法噪声抑制。通过示例而非限制的方式，噪声降低方法在2008年6月30日提交的主题为“System and Method for ProvidingNoise Suppression Utilizing Null Processing Noise Subtraction”的美国专利申请No.12/215,980中和在2007年1月29日提交的主题为“System and Method for UtilizingOmni-Directional Microphones for Speech Enhancement”的美国专利申请No.11/699,732(美国专利No.8,194,880)中进行了描述，其出于上述目的通过引用其全部内容而并入于此。噪声降低模块320向语音恢复模块330提供经转换的噪声被抑制的信号。在噪声被抑制的信号中，因为噪声降低变换了音频信号的频率，可以消除或过度衰减一个或更多个语音分量。

在一些实施方式中，语音恢复模块330从噪声降低模块320接收噪声抑制信号。语音恢复模块330被设置成恢复噪声被抑制的信号中的损坏的语音分量。在一些实施方式中，语音恢复模块330包括被训练用于恢复损坏频率区中的语音分量的深度神经网络(DNN)315。在某些实施方式中，DNN 315被设置成自动编码器。

在不同实施方式中，DNN 315利用机器学习进行训练。DNN 315是一种前馈人工神经网络，在其输入与输出之间具有超过一层的隐藏单元。DNN 315可以通过接收干净音频信号或未损坏音频信号的频谱包络的一个或更多个帧的输入特征来训练。在训练过程中，DNN315可以提取干净或未损坏的频谱包络的所学习的高阶频谱时间特征。在不同实施方式中，在语音恢复模块330中使用利用干净或未损坏包络的频谱包络训练的DNN 315来完善对特别适于恢复失真频率区中的语音分量的干净语音分量的预测。通过示例而非限制的方式，关于深度神经网络的示例性方法还在共同受让的、2015年2月4日提交的主题为“Noise-Robust Multi-Lingual Keyword Spotting with a Deep Neural Network BasedArchitecture”的美国专利申请No.14/614,348和2015年6月9日提交的主题为“Key ClickSuppression”的美国专利申请No.14/745,176中进行了描述，其全部内容通过引用而并入于此。

在工作期间，语音恢复模块330可以向抑制了噪声的信号的存在语音失真的频率区(失真区)分配零值。在图3的示例中，噪声被抑制的信号进一步提供给DNN 315的输入部以接收输出信号。输出信号包括对失真区的初始预测，这可能不是很准确。

在一些实施方式中，为改进初始预测，进一步应用迭代反馈机制。输出信号350可选地反馈回DNN 315的输入部，以接收输出信号的下一次迭代，将初始的噪声被抑制的信号保持在输出信号的不失真区。为了防止系统发散，可以在每次迭代之后将不失真区的输出与输入进行比较，并且可以基于输入的音频信号中的能量向所估计的不失真频率区处的能量应用上限和下限。在不同实施方式中，应用若干次迭代来改进预测的准确度，直到满足针对特定应用期望的准确度水平为止，例如，响应于不失真区处的音频信号的差异满足针对特定应用的预定义标准，不进一步迭代。

在一些实施方式中，重建模块340可工作为从语音恢复模块330接收具有恢复的语音分量的噪声被抑制的信号，并将恢复的语音分量重建成单个音频信号。

图4是示出根据示例实施方式的用于恢复音频信号的失真语音分量的方法400的流程图。方法400可以利用语音恢复模块330来执行。

该方法可以在框402中开始，其中，确定音频信号中的失真频率区和不失真的频率区。失真语音区是例如因噪声降低而导致存在语音失真的区域。

在框404中，方法400包括：利用模型来执行一次或更多次迭代，以完善对失真频率区处的音频信号的预测。该模型可以被设置成修改该音频信号。在一些实施方式中，该模型包括利用干净或未损坏信号的频谱包络训练的深度神经网络。在某些实施方式中，第一次迭代之前，对失真频率区处的音频信号的预测被设置成零。在执行每次迭代之前，将不失真频率区的音频信号恢复至第一次迭代之前的音频信号的值。

在框406中，该方法包括：比较每一次迭代之前和之后的不失真区的音频信号，以确定差异。

在框408中，如果该差异满足预定义标准，则停止迭代。

一些示例实施方式包括语音动力学。针对语音动力学，音频处理系统210可以被提供有多个连续的音频信号帧并被训练以输出相同数量的帧。在一些实施方式中包括语音动力学用于强制时间平滑度并允许恢复较长的失真区域。

使用各种实施方式来为许多应用提供改进，如噪声抑制、带宽扩展、语音编码以及语音合成。另外，该方法和系统服从于传感器融合，以使在一些实施方式中，可以将该方法和系统扩展成包括其他非声学传感器信息。关于传感器融合的示例性方法还在共同受让的、2014年11月19日提交的主题为“Method for Modeling User Possession of MobileDevice for User Authentication Framework”的美国专利申请No.14/548,207和2014年7月14日提交的主题为“Selection of System Parameters Based on Non-AcousticSensor Information”的美国专利申请No.14/331,205中进行了描述，其全部内容通过引用而并入于此。

用于恢复噪声降低的语音的各种方法还在共同受让的、2013年1月28日提交的主题为“Restoration of Noise Reduced Speech”的美国专利申请No.13/751,907(美国专利No.8,615,394)中进行了描述，其全部内容通过引用而并入于此。

图5例示了可以用于实现本发明的一些实施方式的示例性计算机系统500。图5的计算机系统500可以在诸如计算系统、网络、服务器或其组合的背景下实现。图5的计算机系统500包括一个或更多个处理器单元510和主存储器520。主存储器520部分地存储用于由处理器单元510执行的指令和数据。在这个示例中，主存储器520在工作中时存储可执行代码。图5的计算机系统500还包括：海量数据存储部530、便携式存储装置540、输出装置550、用户输入装置560、图形显示系统570以及外围装置580。

图5所示的组件被描绘为经由单个总线590连接。这些组件可以通过一个或更多个数据传输装置连接。处理器单元510和主存储器520经由本地微处理器总线连接，而海量数据存储部530、外围装置580、便携式存储装置540以及图形显示系统570经由一个或更多个输入/输出(I/O)总线连接。

可利用磁盘驱动器、固态驱动器或光盘驱动器来实现的海量数据存储部530是用于存储供处理器单元510使用的数据和指令的非易失性存储装置。海量数据存储部530存储用于实现本公开的实施方式的系统软件，用于将该软件加载到主存储器520中。

便携式存储装置540结合便携式非易失性存储介质(诸如闪速驱动器、软盘、光盘、数字视频盘或通用串行总线(USB)存储装置)工作，以向图5的计算机系统500输入并从图5的计算机系统500输出数据和代码。用于实现本公开的实施方式的系统软件存储在这种便携式介质上，并且经由便携式存储装置540输入至计算机系统500。

用户输入装置560可以提供用户接口的一部分。用户输入装置560可以包括一个或多个麦克风、用于输入字母数字和其它信息的诸如键盘的字母数字小键盘、或者诸如鼠标、轨迹球、触控笔或光标方向键的指示装置。用户输入装置560还可以包括触摸屏。另外，如图5所示的计算机系统500包括输出装置550。合适的输出装置550包括扬声器、打印机、网络接口以及监视器。

图形显示系统570包括液晶显示器(LCD)或其它合适的显示装置。图形显示系统570可设置成接收文本和图形信息并处理该信息以输出至显示装置。

外围装置580可以包括任何类型的计算机支持装置以向计算机系统500添加附加功能。

设置在图5的计算机系统500中的组件是通常在可以适用于本公开的实施方式的计算机系统中发现的那些，并且旨在表示本领域公知的这种计算机组件的广泛类别。由此，图5的计算机系统500可以是个人计算机(PC)、手持计算机系统、电话、移动计算机系统、工作站、平板、平板电话、移动电话、服务器、迷你计算机、大型计算机、可佩戴装置、或者任何其它计算机系统。计算机还可以包括不同的总线配置、联网平台、多处理器平台等。可以使用各种操作系统，包括UNIX、LINUX、WINDOWS、MAC OS、PALM OS、QNX ANDROID、IOS、CHROME、TIZEN以及其它合适的操作系统。

针对各种实施方式的处理可以按基于云的软件来实现。在一些实施方式中，计算机系统500被实现为基于云的计算环境，如在计算云内工作的虚拟机。在其它实施方式中，计算机系统500本身可以包括基于云的计算环境，其中，按分布式方式执行计算机系统500的功能。由此，在被设置为计算云时，计算机系统500可以包括各种形式的多个计算装置，如下更详细描述的那样。

一般来说，基于云的计算环境是通常将一大组处理器(如在网络服务器内)的计算能力相结合的资源和/或组合一大组计算机存储器或存储装置的存储容量的资源。提供基于云的资源的系统可以由其所有者专门使用，或者这种系统可以被在该计算基础设施内部署应用以获得大的计算或存储资源的益处的外部用户访问。

云例如可以由包括诸如计算机系统500的多个计算装置的网络服务器的网络形成，其中每个服务器(或至少其中的多个)提供处理器和/或存储资源。这些服务器可以管理由多个用户(例如，云资源客户或其他用户)提供的工作负载。通常，每个用户有时显著地将工作负载需求放在实时变化的云上。这些变化的性质和范围通常取决于与用户相关联的业务类型。

上面参照示例实施方式对本技术进行了描述。因此，针对本示例实施方式的其它变型例旨在被本公开所覆盖。

Claims

1.一种用于恢复音频信号的失真语音分量的方法，该方法包括：

确定所述音频信号中的失真频率区和不失真频率区，所述失真频率区包括所述音频信号的存在语音失真的区域；以及

利用模型执行一次或更多次迭代，以完善对所述失真频率区处的所述音频信号的预测，所述模型被设置成修改所述音频信号。

2.根据权利要求1所述的方法，其中，所述音频信号包括通过对包含语音的声信号进行噪声降低或噪声消除中的至少一种而获取的噪声被抑制的音频信号。

3.根据权利要求2所述的方法，其中，所述声信号在所述失真频率区被衰减或消除。

4.根据权利要求1所述的方法，其中，所述模型包括利用干净的音频信号或未损坏的音频信号的频谱包络训练的深度神经网络。

5.根据权利要求1所述的方法，其中，所完善的预测被用于恢复所述失真频率区中的语音分量。

6.根据权利要求1所述的方法，其中，所述失真频率区处的所述音频信号在所述一次或更多次迭代中的第一次迭代之前被设置成零。

7.根据权利要求1所述的方法，其中，在执行所述一次或更多次迭代中的每一次迭代之前，所述不失真频率区处的所述音频信号被恢复至所述音频信号在所述一次或更多次迭代中的第一次迭代之前的值。

8.根据权利要求1所述的方法，所述方法还包括：在执行所述一次或更多次迭代中的每一次迭代之后，比较所述迭代之前和之后的所述不失真频率区处的所述音频信号，以确定差异。

9.根据权利要求8所述的方法，所述方法还包括：如果所述差异满足预定标准，则结束所述一次或更多次迭代。

10.根据权利要求9所述的方法，其中，所述预定标准根据所述音频信号的能量的下限和上限来限定。

11.一种用于恢复音频信号的失真语音分量的系统，该系统包括：

至少一个处理器；以及

存储器，该存储器以通信方式与所述至少一个处理器联接，所述存储器存储指令，所述指令在由所述至少一个处理器执行时执行以下方法，该方法包括：

12.根据权利要求11所述的系统，其中，所述音频信号包括通过对包含语音的声信号进行噪声降低或噪声消除中的至少一种而获取的噪声被抑制的音频信号。

13.根据权利要求12所述的系统，其中，所述声信号在所述失真频率区被衰减或消除。

14.根据权利要求11所述的系统，其中，所述模型包括深度神经网络。

15.根据权利要求14所述的系统，其中，所述深度神经网络利用干净的音频信号或未损坏的音频信号的频谱包络训练。

16.根据权利要求15所述的系统，其中，所述失真频率区处的所述音频信号在所述一次或更多次迭代中的第一次迭代之前被设置成零。

17.根据权利要求11所述的系统，其中，在执行所述一次或更多次迭代中的每一次迭代之前，所述不失真频率区处的所述音频信号被恢复至所述一次或更多次迭代中的第一次迭代之前的值。

18.根据权利要求11所述的系统，所述系统还包括，在执行所述一次或更多次迭代中的每一次迭代之后，比较所述迭代之前和之后的所述不失真区处的所述音频信号，以确定差异。

19.根据权利要求18所述的系统，所述系统还包括：如果所述差异满足预定标准，则结束所述一次或更多次迭代，所述预定标准根据所述音频信号的能量的下限和上限来限定。

20.一种非暂时性计算机可读存储介质，该非暂时性计算机可读存储介质上包含有指令，所述指令在由至少一个处理器执行时执行以下方法的步骤，该方法包括：