CN112687284A

CN112687284A - 混响语音的混响抑制方法及装置

Info

Publication number: CN112687284A
Application number: CN202011521566.0A
Authority: CN
Inventors: 李军锋; 孙兴伟; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-04-20
Anticipated expiration: 2040-12-21
Also published as: CN112687284B

Abstract

本发明提供了一种混响语音的混响抑制方法及装置，应用于接收语音的终端，包括：利用编码器模型获得混响语音时域信号的幅度谱对应的多个尺度下的编码特征；根据混响时间对多个尺度的编码特征进行加权处理；根据加权处理后的编码特征，利用解码器模型获得新的幅度谱；对新的幅度谱进行相关计算，获得混响语音时域信号经过混响抑制后的直达语音时域信号；本发明通过混响时间对多个尺度的编码特征进行处理，使本方案可以适应不同环境下混响抑制，提高了进行混响抑制的模型的鲁棒性。

Description

混响语音的混响抑制方法及装置

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种混响语音的混响抑制方法及装置。

背景技术

语音混响抑制技术主要是去除语音信号中的混响语音，提高语音的质量和可懂度，从而在语音识别和人耳理解方面取得更好的表现。

由于混响语音信号对应于无混响语音信号和房间冲激响应的卷积，因此，现有技术中的一种混响抑制方法是通过估计房间冲激响应的逆滤波器实现混响抑制。

现有技术中的另一种混响抑制方法是基于深度神经网络的混响抑制方法。其通过训练神经网络模型进行掩蔽估计或谱映射，从混响语音中获得混响抑制后的直达声信号。

基于深度神经网络的混响抑制方法相对于前者的方法，在混响抑制程度上存在优势。但是在模型的输入特征的利用中，没有考虑通过结合环境信息来动态选择多个尺度的包含语音信号上下文信息的编码特征，导致模型对于不同环境变化的鲁棒性欠佳。

发明内容

本发明实施例提供了一种混响语音的混响抑制方法及装置，利用混响时间调整混响抑制模型，使其对混响语音信号的混响抑制的鲁棒性得以提高，解决上述存在的技术问题。

第一方面，本发明提供一种混响语音的混响抑制方法，应用于接收语音的终端，所述方法包括：

接收混响语音时域信号，将所述混响语音时域信号转换到频域中，并获取混响语音频域信号对应的第一幅度谱和相位值；

将所述第一幅度谱输入编码器模型，获得编码器模型输出的多个尺度的编码特征；

利用多个尺度的加权系数对所述多个尺度的编码特征进行加权求和处理；所述多个尺度的加权系数根据所述混响语音时域信号对应的混响时间，利用混响时间注意力模型获得；

将处理后的编码特征输入解码器模型，获得解码器模型输出的第二幅度谱；

根据所述相位值和所述第二幅度谱，获得所述混响语音时域信号对应的直达语音时域信号；

其中，所述编码器模型由多个并行的卷积神经网络模型组成，所述混响时间注意力模型由全连接神经网络模型组成，所述解码器模型由转置卷积卷积神经网络组成。

由上，利用混响语音时域信号对应的混响时间对获得的多个尺度的编码特征进行特征选择，采用混响时间注意力机制提高了各个模型对不同环境的泛化能力，使得本发明的混响抑制方法可以适应不同的环境，提供了混响抑制的鲁棒性。

在一种可能的实施方式中，所述将所述混响语音时域信号转换到频域中包括：

对所述混响语音时域信号进行分帧处理，以及对分帧处理后的信号进行加窗处理；

对加窗处理后的信号做傅里叶变换中，获得混响语音频域信号。

在一种可能的实施方式中，所述对所述混响语音的时域信号进行分帧处理包括：

以固定的帧长度在所述混响语音时域信号中截取信号；

当所述混响语音时域信号中剩余信号的长度小于所述帧长度时，对所述混响语音时域信号中剩余信号做补零处理。

在一种可能的实施方式中，所述对分帧处理后的信号进行加窗处理包括：

将分帧处理后的信号与汉宁窗函数相乘，获得加窗处理后的信号。

在一种可能的实施方式中，所述方法还包括：

根据混响语音样本及其对应的直达语音样本，采用梯度下降法迭代训练所述编码器模型、混响时间注意力模型和解码器模型。

在一种可能的实施方式中，所述编码器模型中卷积神经网络模型的个数与所述尺度的个数相同，且在频率维度上，各卷积神经网络模型的卷积核大小均不相同；

所述全连接神经网络的输出层的神经元个数与所述尺度的个数相同。

在一种可能的实施方式中，所述根据所述相位值和所述第二幅度谱，获得所述混响语音时域信号对应的直达语音时域信号包括：

根据所述相位值和所述第二幅度谱，获得所述混响语音时域信号对应的直达语音频域信号，对所述直达语音频域信号做傅里叶逆变换，获得所述直达语音时域信号。

第二方面，本发明还提供一种混响语音的混响抑制装置，应用于接收语音的终端，所述装置包括：

处理单元，用于接收混响语音时域信号，将所述混响语音时域信号转换到频域中，并获取混响语音频域信号对应的第一幅度谱和相位值；

编码单元，用于将所述第一幅度谱输入编码器模型，获得编码器模型输出的多个尺度的编码特征；

特征处理单元，用于利用多个尺度的加权系数对所述多个尺度的编码特征进行加权求和处理；所述多个尺度的加权系数根据所述混响语音时域信号对应的混响时间，利用混响时间注意力模型获得；

解码单元，用于将处理后的编码特征输入解码器模型，获得解码器模型输出的第二幅度谱；

计算单元，用于根据所述相位值和所述第二幅度谱，获得所述混响语音时域信号对应的直达语音时域信号；

在一种可能的实施方式中，所述处理单元具体用于：

以固定的帧长度在所述混响语音时域信号中截取信号；

在一种可能的实施方式中，所述装置还包括：

模型训练单元，用于根据混响语音样本及其对应的直达语音样本，采用梯度下降法迭代训练所述编码器模型、混响时间注意力模型和解码器模型。

在一种可能的实施方式中，所述计算单元具体用于：

附图说明

图1是房间内混响语音信号的形成示意图；

图2是本发明实施例提供的训练混响抑制模型的方流程图；

图3是本发明实施例提供的对混响语音时域信号进行混响抑制的流程图；

图4是本发明实施例提供的混响抑制的装置结构示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本发明实施例中的技术方案进行描述。

在本发明实施例的描述中，“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本发明实施例的描述中，术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B这三种情况。另外，除非另有说明，术语“多个”的含义是指两个或两个以上。例如，多个系统是指两个或两个以上的系统，多个屏幕终端是指两个或两个以上的屏幕终端。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1示出了房间内混响语音信号的形成示意图。如图1所示，房间内的声源端发出的语音在房间内进行传播，最终到达接收终端。其中，到达接收终端的语音是由两部分语音叠加而成的混合语音，一部分是经过房间内的墙壁面和/或建筑物反射后的语音，另一部分是没有经过反射的语音。

声源端发出的语音在房间内传播时，会在各个方向上被房间内的墙壁面和各个建筑物不断地反射，同时，语音的声波能量会被墙壁面和/或建筑物不断地吸收，并呈现逐渐衰减的趋势。因此，接收终端接收到的经过墙壁面和/或建筑物的反射和能量吸收的语音称之为混响语音，可以想到的是，没有经过墙壁面和/或建筑物的反射和能量吸收的语音，称之为直达语音。

由上可知，混响语音和直达语音相比之下，两者存在一定的差异。一方面体现在与声源端发出的语音的相似度上；直达语音由于没有受到干扰或受到的干扰很小，更加接近声源端发出的语音，与其具有较高的相似度；而混响语音则偏离声源端发出的语音，与其相似度较低。另一方面体现在到达接收终端的时间上；直达语音到达接收终端的时间要小于混响语音达到接收终端的时间；而混响语音由于是经过反射到达接收终端的，所以时间要大一些，但反射的时间是小于50ms的。如果反射时间大于50ms，则对接收终端来说，该声音为回声。

对接收终端来说，混响语音和直达语音的叠加会对接收终端识别声源端的语音造成影响。当用户作为声源端、手机作为接收端时，当用户通过手机与其他接收终端进行语音通话时，手机发送给其他接收终端的语音信号包含了：直接到达手机麦克风的语音和经过反射和能量衰减后到达手机麦克风的语音。由于其他接收终端接收到的语音存在混响，会影响用户之间的通话体验。类似的，以用户对手机进行语音控制为例，用户作为声源端发出语音指令，手机作为接收终端接收语音指令；由于接收到的语音中存在混响声，会导致手机对指令识别错误，影响用户的语音控制体验。

为克服常规的通过深度学习模型进行混响抑制的不足，本发明实施例中进行混响抑制的模型的包括编码器模型、混响时间注意力模型和解码器模型，三个模型均采用深度学习模型。

本发明实施例分为两个阶段，第一个阶段是选择语音样本训练编码器模型、混响时间注意力模型和解码器模型，第二个阶段是利用训练好的模型在实际场景中进行混响抑制。

在介绍训练三个模型的过程之前，先对这三个模型的功能和结构做如下介绍。

(一)编码器模型

编码器模型用于获得混响语音频域信号的幅度谱对应的多个尺度的编码特征，编码特征包含频域信号的上下文信息。

在本发明实施例中，编码器模型由四个并行的卷积神经网络模型组成。卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表。编码器模型中的每个卷积神经网络模型中均具有五层卷积层，且五层卷积层的输出通道数分别为16、32、64、128和256。每个卷积神经网络模型中卷积核的移动步长在频率维度上均为2，在时间维度上均为1。四个卷积神经网络模型中卷积核的大小在频率维度上不同，在时间维度上相同；其中，四个卷积神经网络模型中卷积核的大小在频率维度上分别为5、9、13和17，在时间维度上均为3。每一个卷积层的输出上使用批归一化处理，然后使用线性修正单元作为激活函数，激活函数表达式为f(x)＝max(0,x)，x为卷积层的输出值。由于四个卷积神经网络模型中卷积核的大小在频率维度上存在的差异，导致四个神经网络模型输出的结果不同，进而可通过该编码器模型，获得混响语音频域信号对应的四个不同尺度的编码特征。

(二)混响时间注意力模型

混响时间注意力模型用于获得混响时间对应的加权系数。

在本发明实施例中，混响时间注意力模型实际是一个全连接神经网络模型。该模型包含三层全连接层，全连接层的每一个神经元都与上一层的所有神经元相连，用来把前面提取到的特征综合起来。混响时间注意力模型中的三层全连接层的神经元个数分别为16、64和4；前两层的激活函数采用线性修正单元，输出层采用Softmax激活函数，其表达式为

x_i为输出层第i个神经元的输出值，x_j为输出层第j个神经元的输出值；可以看出，输出层的4个神经元与编码器模型的四个输出一一对应。

(三)解码器模型

解码器模型用于根据编码器模型输出的多个尺度的编码特征和混响时间注意力模型输出的多个尺度对应的加权系数，输出直达语音频域信号对应的幅度谱。

在本发明实施例中，解码器模型由一个包含五层转置卷积层的卷积神经网络模型组成。转置卷积的处理过程与卷积核的大小和步长有关联。在本发明实施例中，每个转置卷积层的输出通道数分别为256、128、64、32和16；卷积核的移动步长在频率维度上均为2，在时间维度上均为1；卷积核的大小在频率维度上均为1，在时间维度上均为3；同样地，每一个转置卷积层的输出上使用批归一化处理，然后使用线性修正单元激活函数。

接下来，结合上述三个模型，对本发明实施例的混响抑制模型的训练过程做具体介绍。

图2示出了本发明实施例提供的训练混响抑制模型的方流程图。如图2所示，混响抑制模型的训练过程包括步骤T1～步骤T4。

步骤T1、将混响语音时域信号样本及其对应的直达语音时域信号样本转换到频域中，并计算混响语音频域信号样本对应的幅度谱和相位值、以及直达语音频域信号样本对应的幅度谱。

其中，混响语音时域信号样本和直达语音时域信号样本一一对应，两者为同一语音的两种形式。幅度谱表征的是频域信号的幅值随频率的分布情况。对两个样本做频域转换的方法相同，以混响语音时域信号样本为例，通过对混响语音时域信号样本依次做分帧、加窗和傅里叶变换处理，获得混响语音时域信号样本对应的混响语音频域信号样本。

在一个可能的示例中，上述步骤T1中频域转换的三个环节的具体方法如下：

1)首先以320个采样点为一帧，对混响语音时域信号做分帧处理；

2)然后对每一帧时域信号进行加窗，加窗函数采用汉宁窗；汉宁窗是窗函数的一种，可以看成是升余弦窗的一个特例。汉宁窗可以看作是3个矩形时间窗的频谱之和，适用于非周期性的连续信号。

3)最后对加窗后的每一帧时域信号做傅里叶变换，获得混响语音时域信号样本对应的混响语音频域信号样本；其中，描述频域信号时，以频率作为自变量，以组成信号的各个频率成分的幅值作为因变量建立的频域函数。

步骤T2、初始化编码器模型、混响时间注意力模型和解码器模型的模型参数。

步骤T3、利用编码器模型、混响时间注意力模型和解码器模型，获得直达语音频域信号对应的幅度谱估计值。

步骤T4、计算直达语音频域信号对应的幅度谱估计值与步骤T1获得的直达语音频域信号对应的幅度谱之间的误差，根据误差与误差阈值的差值，采用梯度下降法调整编码器模型、混响时间注意力模型和解码器模型的模型参数，返回步骤T3。

选取多个样本，重复执行上述过程，以充分利用深度神经网络的泛化能力，提高模型识别的准确度。

在本发明的实施例中，上述混响抑制模型训练中的步骤T3可通过如下的步骤T301～步骤T304实现，下面详细介绍其执行过程。

步骤T301将混响语音频域信号样本对应的幅度谱输入编码器模型，获得混响语音频域信号样本对应的四个多个尺度的编码特征。

步骤T302、将混响语音时域信号对应的混响时间样本输入混响时间注意力模型，获得混响时间样本对应的四个加权系数。

步骤T303、按照四个加权系数，对四个多个尺度的编码特征做加权求和处理，获得混响语音频域信号样本对应的加权编码特征。

具体地，加权求和处理的过程如公式(1)所示。

F_W＝(W₁*F₁+W₂*F₂+W₃*F₃+W₄*F₄)/4 (1)

公式(1)中，F_W为加权后的编码特征，F₁～F₄为四个尺度的编码特征，W₁～W₄为四个尺度对应的加权系数。

步骤T304、将混响语音频域信号样本对应的加权编码特征输入解码器模型，获得直达语音频域信号对应的幅度谱估计值。

上述步骤T303按照混响时间得到的加权系数，对多个尺度的编码特征进行动态选择，将混响语音的环境信息考虑在内，可提高混响抑制模型应对不同环境变化的鲁棒性。

在训练好上述三个模型之后，可采用训练好的模型对待处理的混响语音时域信号进行混响抑制。下面以用户通过手机与其他终端通话场景为例，对本发明进行混响抑制的方法做进一步说明。

图3示出了本发明实施例提供的对混响语音时域信号进行混响抑制的流程图。如图4所示，利用上述训练好的编码器模型、混响时间注意力模型和解码器模型进行混响抑制的过程如下书的步骤S1～步骤S4。

步骤S1.接收手机中麦克风采集的混响语音时域信号，将混响语音时域信号转换到频域中获得混响语音频域信号对应的第一幅度谱、相位值和混响时间。其中，频域转换的过程同图2所示的步骤T1中的三个环节的具体方法，此处不再叙述。

步骤S2.将第一幅度谱输入编码器模型，获得编码器模型输出的多个尺度的编码特征；以及将混响时间输入混响时间注意力模型，获得混响时间注意力模型输出的多个尺度的加权系数。

步骤S3.按照多个尺度的加权系数，对多个尺度的编码特征做加权求和处理，获得加权编码特征。其中，加权求和处理是按照公式(1)所示进行的。

步骤S4.将加权编码特征输入解码器模型，获得第二幅度谱。其中，第二幅度谱相当于待处理的混响语音时域信号对应的直达语音频域信号的幅度谱。

步骤S5.根据相位值P_R和第二幅度谱|X_D|，按公式(2)获得直达语音频域信号X_D；

公式(2)中，e为自然常数，j为虚数单位。

步骤S6.在获得直达语音频域信号之后，对其做傅里叶逆变换，获得直达语音时域信号。

本发明通过利用由卷积神经网络组成的解码器模型提取多个尺度的编码特征，同时使用基于全连接网络组成的混响时间注意力模块从混响时间中获得一组加权系数对编码特征进行加权，达到结合环境信息动态选择多尺度特征的目的。通过在训练样本中包含足够多的混响数据，可以充分利用神经网络的泛化能力，并结合多尺度特征动态选择提高模型的鲁棒性，实现在不同的环境中都有良好的混响抑制效果。

与上述方法实施例对应的，本发明还提供了一种混响语音的混响抑制装置，如图4所示，该装置包括：

在一种可能的实施方式中，所述处理单元具体用于：

以固定的帧长度在所述混响语音时域信号中截取信号；

在一种可能的实施方式中，所述装置还包括：

在一种可能的实施方式中，所述计算单元具体用于：

本发明的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

可以理解的是，在本发明的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本发明的实施例的范围。

Claims

1.一种混响语音的混响抑制方法，应用于接收语音的终端，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述混响语音时域信号转换到频域中包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述混响语音的时域信号进行分帧处理包括：

以固定的帧长度在所述混响语音时域信号中截取信号；

4.根据权利要求2所述的方法，其特征在于，所述对分帧处理后的信号进行加窗处理包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述编码器模型中卷积神经网络模型的个数与所述尺度的个数相同，且在频率维度上，各卷积神经网络模型的卷积核大小均不相同；

7.根据权利要求1所述的方法，其特征在于，所述根据所述相位值和所述第二幅度谱，获得所述混响语音时域信号对应的直达语音时域信号包括：

8.一种混响语音的混响抑制装置，应用于接收语音的终端，其特征在于，所述装置包括：