CN113470685B

CN113470685B - 语音增强模型的训练方法和装置及语音增强方法和装置

Info

Publication number: CN113470685B
Application number: CN202110790054.2A
Authority: CN
Inventors: 韩润强; 张晨; 吕新亮; 郑羲光
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2024-03-12
Anticipated expiration: 2041-07-13
Also published as: CN113470685A

Abstract

本公开关于一种语音增强模型的训练方法和装置及语音增强方法和装置，所述训练方法包括：获取多个方位的含噪语音样本和多个方位的纯净语音样本，其中，含噪语音样本是纯净语音样本添加噪声数据得到的；将含噪语音样本转化成的频域复数信号输入第一神经网络，得到估计的复数特征；将估计的复数特征转化成的实数特征输入第二神经网络，得到估计的掩膜，掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；根据估计的掩膜和频域复数信号，确定估计的增强语音，并根据估计的增强语音和纯净语音样本确定语音增强模型的损失函数；通过根据损失函数调整第一神经网络和第二神经网络的参数，对语音增强模型进行训练。

Description

语音增强模型的训练方法和装置及语音增强方法和装置

技术领域

本公开涉及音频技术领域，尤其涉及一种语音增强模型的训练方法和装置及语音增强方法和装置。

背景技术

现有会议麦克风系统，一类是使用多个指向性麦克风，在不同方向上获得一个信噪比增益，通过麦克风选择算法选到高信噪比的麦克风信号，来获得质量更好的输入信号。另一类是采用传统波束形成算法，将麦克风阵列波束指向说话人方向以获得更高信噪比信号。然而这些方法难以有效区分噪音和语音，因而并不能预知增强的是否是语音信号，信噪比提升有限，同时对于噪声与语音在同一方向以及散射噪声的场景，并不能有效提升语音质量。

发明内容

本公开提供一种语音增强模型的训练方法和装置及语音增强方法和装置，以至少解决相关技术中的信噪比提升有限、难以有效提升语音质量的问题，也可不解决任何上述问题。

根据本公开的第一方面，提供了一种语音增强模型的训练方法，所述语音增强模型包括第一神经网络和第二神经网络，所述训练方法包括：获取多个方位的含噪语音样本和所述多个方位的纯净语音样本，其中，所述含噪语音样本是所述纯净语音样本添加噪声数据得到的；将所述含噪语音样本转化成的频域复数信号输入所述第一神经网络，得到估计的复数特征，其中，所述估计的复数特征包含所述频域复数信号的方向信息；将所述估计的复数特征转化成的实数特征输入所述第二神经网络，得到估计的掩膜，掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；根据所述估计的掩膜和所述频域复数信号，确定估计的增强语音，并根据所述估计的增强语音和所述纯净语音样本确定所述语音增强模型的损失函数；通过根据所述损失函数调整所述第一神经网络和所述第二神经网络的参数，对所述语音增强模型进行训练。

可选地，所述根据所述估计的增强语音和所述纯净语音样本确定所述语音增强模型的损失函数，包括：根据所述估计的增强语音和所述纯净语音样本计算与尺度无关的信噪比，并取负值，得到所述损失函数。

可选地，所述训练方法还包括：获取所述多个方位的真实声源方向信息，声源方向信息表示纯净语音信号的方向信息；所述将所述估计的复数特征转化成的实数特征输入所述第二神经网络，得到估计的掩膜，还包括：得到估计的声源方向信息；所述根据所述估计的增强语音和所述纯净语音样本确定所述语音增强模型的损失函数，包括：根据所述估计的增强语音和所述纯净语音样本确定第一损失函数；根据所述估计的声源方向信息和所述真实声源方向信息确定第二损失函数；根据所述第一损失函数和所述第二损失函数确定所述损失函数。

根据本公开的第二方面，提供了一种语音增强方法，应用于拾音设备，所述拾音设备包括麦克风阵列，所述语音增强方法包括：获取麦克风阵列的第一含噪语音信号；将所述第一含噪语音信号转化成的频域复数信号输入语音增强模型中的第一神经网络，得到估计的复数特征，其中，所述估计的复数特征包含所述频域复数信号的方向信息，所述语音增强模型包括所述第一神经网络和第二神经网络；将所述估计的复数特征转化成的实数特征输入所述第二神经网络，得到估计的掩膜，掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；根据所述估计的掩膜和所述频域复数信号，得到所述第一含噪语音信号的第一增强语音。

可选地，所述将所述估计的复数特征转化成的实数特征输入所述第二神经网络，得到估计的掩膜，还包括：得到估计的声源方向信息，声源方向信息表示纯净语音信号的方向信息。

可选地，所述拾音设备还包括与所述麦克风阵列相连接的至少一个扩展麦克风，所述语音增强方法还包括：对接收到的所述至少一个扩展麦克风的至少一个第二含噪语音信号执行基于深度学习的噪声抑制处理，得到至少一个第二增强语音；输出所述第一增强语音或所述至少一个第二增强语音中的一个第二增强语音。

可选地，所述输出所述第一增强语音或所述至少一个第二增强语音中的一个第二增强语音，包括：确定所述第一增强语音的第一信噪比和所述至少一个第二增强语音的至少一个第二信噪比；根据所述第一信噪比和所述至少一个第二信噪比的大小关系，输出所述第一增强语音和所述至少一个第二增强语音中信噪比大的增强语音。

根据本公开的第三方面，提供了一种语音增强模型的训练装置，所述语音增强模型包括第一神经网络和第二神经网络，所述训练装置包括：获取单元，被配置为：获取多个方位的含噪语音样本和所述多个方位的纯净语音样本，其中，所述含噪语音样本是所述纯净语音样本添加噪声数据得到的；第一估计单元，被配置为：将所述含噪语音样本转化成的频域复数信号输入所述第一神经网络，得到估计的复数特征，其中，所述估计的复数特征包含所述频域复数信号的方向信息；第二估计单元，被配置为：将所述估计的复数特征转化成的实数特征输入所述第二神经网络，得到估计的掩膜，掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；计算单元，被配置为：根据所述估计的掩膜和所述频域复数信号，确定估计的增强语音，并根据所述估计的增强语音和所述纯净语音样本确定所述语音增强模型的损失函数；调参单元，被配置为：通过根据所述损失函数调整所述第一神经网络和所述第二神经网络的参数，对所述语音增强模型进行训练。

可选地，所述计算单元还被配置为：根据所述估计的增强语音和所述纯净语音样本计算与尺度无关的信噪比，并取负值，得到所述损失函数。

可选地，所述获取单元还被配置为：获取所述多个方位的真实声源方向信息，声源方向信息表示纯净语音信号的方向信息；所述第二估计单元还被配置为：得到估计的声源方向信息；所述计算单元还被配置为：根据所述估计的增强语音和所述纯净语音样本确定第一损失函数；根据所述估计的声源方向信息和所述真实声源方向信息确定第二损失函数；根据所述第一损失函数和所述第二损失函数确定所述损失函数。

根据本公开的第四方面，提供了一种语音增强装置，应用于拾音设备，所述拾音设备包括麦克风阵列，所述语音增强装置包括：获取单元，被配置为：获取麦克风阵列的第一含噪语音信号；第一估计单元，被配置为：将所述第一含噪语音信号转化成的频域复数信号输入语音增强模型中的第一神经网络，得到估计的复数特征，其中，所述估计的复数特征包含所述频域复数信号的方向信息，所述语音增强模型包括所述第一神经网络和第二神经网络；第二估计单元，被配置为：将所述估计的复数特征转化成的实数特征输入所述第二神经网络，得到估计的掩膜，掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；增强单元，被配置为：根据所述估计的掩膜和所述频域复数信号，得到所述第一含噪语音信号的第一增强语音。

可选地，所述第二估计单元还被配置为：得到估计的声源方向信息，声源方向信息表示纯净语音信号的方向信息。

可选地，所述拾音设备还包括与所述麦克风阵列相连接的至少一个扩展麦克风，所述语音增强装置还包括：第二增强单元，被配置为：对接收到的所述至少一个扩展麦克风的至少一个第二含噪语音信号执行基于深度学习的噪声抑制处理，得到至少一个第二增强语音；输出单元，被配置为：输出所述第一增强语音或所述至少一个第二增强语音中的一个第二增强语音。

可选地，所述输出单元还被配置为：确定所述第一增强语音的第一信噪比和所述至少一个第二增强语音的至少一个第二信噪比；根据所述第一信噪比和所述至少一个第二信噪比的大小关系，输出所述第一增强语音和所述至少一个第二增强语音中信噪比大的增强语音。

根据本公开的第五方面，提供了一种电子设备，所述电子设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的语音增强模型的训练方法或语音增强方法。

根据本公开的第六方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的语音增强模型的训练方法或语音增强方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的语音增强模型的训练方法或语音增强方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的实施例的语音增强模型的训练方法和装置及语音增强方法和装置，为语音增强模型配置了第一神经网络和第二神经网络。其中，第一神经网络能够处理频域复数信号，利用频域相位差提取方向信息，更好地区分语音和噪声。第二神经网络能够从实数角度继续进行数据处理，从而更全面地区分各个方位上的语音和噪声。由于最终估计的掩膜是频域复数信号先后经过第一神经网络和第二神经网络计算得到的掩膜，一方面能够有效区分语音和噪声，进而有针对性地增强语音，充分提升信噪比，得到噪声环境下的高质量语音；另一方面，由于在同一方向下也能够区分语音和噪声，因而能够应用于噪声与语音在同一方向以及散射噪声的场景，有效提升语音质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的拾音设备的示意图。

图2是示出根据本公开的示例性实施例的拾音设备的算法示意图。

图3是示出根据本公开的示例性实施例的麦克风阵列的语音增强方法的实现框图。

图4是示出根据本公开的示例性实施例的语音增强模型的训练方法的流程图

图5是示出根据本公开的示例性实施例的语音增强方法的流程图。

图6是示出根据本公开的示例性实施例的语音增强模型的训练装置的框图。

图7是示出根据本公开的示例性实施例的语音增强装置的框图。

图8是根据本公开的示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

在会议室中多人开会的情况下，如果采用普通的电脑或者手机，往往收音效果不好，因为这些设备的拾音是按照近距离场景设计的，距离远会导致拾音信噪比很低，使得会议远端参与人很难听清楚，会议的体验很差。市场上有一些传统会议麦克风硬件，他们大多采用传统信号处理的方式，使用指向性麦克风指向不同方向。当会议室中某个人说话时，指向这个方向的麦克风能获得最高的信噪比，通过麦克风选择算法，选定这个麦克风以获得高一些的信噪比。有一些系统采用额外扩展麦克风，或者采用多个会议硬件级联的方式。然而，这类系统方案难以有效区分噪音和语音，首先对信噪比的提升有限，其次，对于同时有多个说话人，以及噪声和说话人在同一方向这两种场景，它都不能很好地处理。

近年来，深度学习算法开始应用于语音信号处理中，上述这些问题，可以通过引入深度学习的方式，和现有算法融合，设计出一套性能更好，用户体验大大提升的拾音系统来。

图1是示出根据本公开的示例性实施例的拾音设备的示意图。

参照图1，硬件方面，拾音设备100包括两大部分，一个是主麦克风阵列101，其上面具备一个圆形的麦克风阵列，可以有三个及以上麦克风，用来利用波束形成算法(beamforming)实现语音增强，还可确定相应的声源位置信息。主麦克风阵列101上同时拥有扬声器，用以播放远端声音。拾音设备100还包括至少一个扩展麦克风，例如图1所示的第一扩展麦克风102a和第二扩展麦克风102b，主麦克风阵列101能够单独工作，也可以连接一个或者多个扩展麦克风协同工作。

参照图2，算法方面，从硬件采集到的麦克风信号，首先经过线性AEC(AcousticEcho Cancellation，声学回声消除)和NLP(Non-Linear Processing，非线性处理)模块，去除回声信号。接下来，主麦克风阵列信号，经过基于深度学习的beamforming以及DOA(Direction Of Arrival，声源定位)模块，输出增强后的信号以及主要说话人所对应的声源方向信息。如果接有扩展麦克风，那么，扩展麦克风信号进入基于深度学习的NS(NoiseSuppression，噪声抑制)模块，输出对应数量的扩展麦克风增强后的信号。由于最终只能输出一路信号，可运用麦克风选路算法，对主麦克风阵列输出信号以及其他扩展麦克风输出信号进行信噪比估计，选择信噪比最高的信号，再经过AGC(Automatic Gain Control，自动增益控制)模块，作为最终输出信号。此外，上面所提到的DOA输出，可以作为一个辅助手段，提示现在主麦克风阵列正在增强的信号方向。

下面，将参照图3至图8具体描述根据本公开的示例性实施例的语音增强模型的训练方法和训练装置以及语音增强方法和语音增强装置。

参照图3，先对麦克风阵列中的多个麦克风采集声音而生成的含噪语音信号做STFT(Short-Time Fourier Transform，短时傅里叶变换)，转化为频域复数信号，然后进入复数DNN(Deep Neural Networks，深度神经网络)网络，充分利用不同麦克风的含噪语音信号的频域相位差提取方向信息，能够更好地区分语音和噪声。经过这个网络之后，输出中间状态的复数特征，借助复数特征可向后续的计算传递提取的方向信息，再将复数特征转为实数特征，并输入实数DNN网络，最终这个网络输出短时傅里叶变换信号的幅度mask值，和原始的频域复数信号相乘，做ISTFT(Inverse Short-Time Fourier Transform，短时傅里叶逆变换)后，即可输出增强之后的信号。同时，实数DNN网络还输出DOA值，展示给用户，便于用户直观了解当前语音增强的方向。

可基于训练样本，利用损失函数，对语音增强模型中的复数DNN网络和实数DNN网络一起进行训练，以更新复数DNN网络和实数DNN网络的参数。在对语音增强模型训练之后，可将训练好的语音增强模型投入实际应用场景进行使用。

图4是示出根据本公开的示例性实施例的语音增强模型的训练方法的流程图，语音增强模型包括第一神经网络(例如为前述复数DNN网络)和第二神经网络(例如为前述实数DNN网络)。

参照图4，在步骤401，获取多个方位的含噪语音样本、多个方位的纯净语音样本和多个方位的真实声源方向信息。其中，含噪语音样本是纯净语音样本添加噪声数据得到的，声源方向信息表示纯净语音信号的方向信息。

该步骤可获取训练语音增强模型所需的样本。具体来说，可采样房间冲击响应(RIR，Room Impulse Response)、近场纯净语音和噪声数据进行卷积，分别得到各个方位的纯净语音样本和噪声数据。这个纯净语音样本作为语音增强模型的一个目标，房间冲击响应(也就是真实声源方向信息)则作为语音增强模型的另一个目标，而纯净语音样本和噪声数据的混合作为训练时输入的含噪语音样本，模拟了麦克风阵列中的多个麦克风采集到的信号。

可以理解的是，含噪语音样本可以是单个方位的纯净语音样本和多个方位的噪声数据混合而来，以模拟散射噪声的场景；含噪语音样本也可以是单个方位的纯净语音样本和相应方位的噪声数据混合而来，以模拟噪声和语音在同一方向的场景；含噪语音样本还可以是单个方向的纯净语音样本和其他方向的噪声数据混合而来，以模拟噪声和语音在不同方向的场景。相应地，一个含噪语音样本中的语音来自于一个确定的方位，某一方位的含噪语音样本就是该含噪语音样本中的语音来自于该方位，多个方位的含噪语音样本就是指全部含噪语音样本对应的全部语音方位可涵盖多个方位，以确保训练出的语音增强模型在对多个方位的语音均敏感，有助于提升语音增强效果。

在步骤402，将含噪语音样本转化成的频域复数信号输入第一神经网络，得到估计的复数特征。其中，估计的复数特征包含频域复数信号的方向信息。

通过将含噪语音样本先转化成频域复数信号，能够方便地利用不同方位的信号之间的频域相位差提取方向信息，第一神经网络则可处理该频域复数信号，充分利用方向信息更好地区分语音和噪声。

具体来说，可对含噪语音样本做STFT变换，得到频域复数信号。需说明的是，复数特征作为语音增强模型执行运算时产生的中间状态参数，仅具有复数的数据类型，与频域复数信号在取值上完全不同，即第一神经网络并非用于调整频域复数信号的取值，而是输出一个能够传递方向信息并可区分语音和噪声的中间状态参数。

在步骤403，将估计的复数特征转化成的实数特征输入第二神经网络，得到估计的掩膜和估计的声源方向信息。其中，掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值。

通过将复数特征转化成实数特征，可以从实数角度继续进行数据处理，从而更全面地区分各个方位上的语音和噪声。第二神经网络估计的掩膜可用于后续计算，得到估计的增强语音，实现语音增强，第二神经网络估计的声源方向信息则可用于指示所增强的语音的方向，便于用户直观了解增强了哪个方向上的语音。

具体来说，将复数特征转化为实数特征时，可以求取复数特征的模，得到幅度谱，也可进一步计算模的平方，得到功率谱，还可进一步对功率谱进行log变换，得到log域功率谱，本公开的示例性实施例对此不做限制。

在步骤404，根据估计的掩膜和频域复数信号，确定估计的增强语音，并根据估计的增强语音和纯净语音样本确定语音增强模型的第一损失函数。

由于估计的掩膜是频域复数信号先后经过第一神经网络和第二神经网络计算得到的掩膜，一方面能够有效区分语音和噪声，进而有针对性地增强语音，充分提升信噪比，得到噪声环境下的高质量语音；另一方面，由于在同一方向下也能够区分语音和噪声，因而能够应用于噪声与语音在同一方向以及散射噪声的场景，有效提升语音质量。具体地，可将估计的掩膜与原始的频域复数信号相乘，再做ISTFT，即可得到估计的增强语音。

训练过程中，还将估计的增强语音与作为目标的纯净语音样本做对比，确定第一损失函数，以作为模型调参的基准。可选地，确定第一损失函数的方法具体可为：根据估计的增强语音和纯净语音样本计算与尺度无关的信噪比(SISNR，Scale-Invariant Signal-Noise Ratio)，并取负值，得到第一损失函数。SISNR可体现估计的增强语音与纯净语音样本在方向和模上的接近程度，二者越接近，SISNR越大，通过对SISNR取负值得到第一损失函数，则可通过使第一损失函数最小化，完成语音增强模型的训练。SISNR的具体计算方法是已有技术，在此不再赘述。

在步骤405，根据估计的声源方向信息和真实声源方向信息确定第二损失函数。由于语音增强模型还可估计声源方向信息，故还需确定相应的第二损失函数。可选地，可计算估计的声源方向信息和真实声源方向信息的均方误差(MSE，Mean Square Error)，作为第二损失函数。

可以理解的是，此处将步骤405放在步骤404之后是为了集中描述损失函数，并非对执行的先后顺序的限制。实际训练时，在步骤403得到估计的声源方向信息后即可相应计算第二损失函数。

在步骤406，根据第一损失函数和第二损失函数确定损失函数。

将第一损失函数与第二损失函数相结合，可得到训练所使用的损失函数，以保证训练出的语音增强模型能够同时预测出较为准确的增强语音和声源方向信息。可选地，可计算第一损失函数和第二损失函数的加权和，作为损失函数。第一损失函数和第二损失函数的权重可作为超参数，根据训练结果灵活调整，有助于训练出更准确有效的语音增强模型。

在步骤407，通过根据损失函数调整第一神经网络和第二神经网络的参数，对语音增强模型进行训练。

根据本公开的示例性实施例，在实际训练中，在步骤401可同时获取多条含噪语音样本，以执行批量样本的训练。在这情况下，在步骤402，可根据多条含噪语音样本获得多个频域复数信号，并将多个频域复数信号输入第一神经网络，得到多个估计的复数特征。在步骤403，可将多个估计的复数特征转化成的多个实数特征输入到第二神经网络，得到多个估计的掩膜和多个估计的声源方向信息。在步骤404，可计算出多个估计的增强语音，并分别计算多个估计的增强语音和相应的纯净语音样本的SISNR，以获得多个SISNR，并对多个SISNR求平均，作为第一损失函数。在步骤405，可分别计算多个估计的声源方向信息和相应的真实声源方向信息的均方误差，以获得多个均方误差，并对多个均方误差求平均，获得平均均方误差，作为第二损失函数。在步骤406，对第一损失函数和第二损失函数加权求和，作为损失函数。从而，在步骤407，可根据损失函数调整第一神经网络和第二神经网络的参数，对语音增强模型进行训练。

图5是示出根据本公开的示例性实施例的语音增强方法的流程图，该语音增强方法应用于包括麦克风阵列的拾音设备，该语音增强方法使用的语音增强模型包括第一神经网络(例如为前述复数DNN网络)和第二神经网络(例如为前述实数DNN网络)。

参照图5，在步骤501，获取麦克风阵列的第一含噪语音信号。

麦克风阵列具有多个单指向性麦克风，可相应采集到多个对应于不同方位的麦克风信号，这多个麦克风信号共同组成了第一含噪语音信号，可作为语音增强的对象。

在步骤502，将第一含噪语音信号转化成的频域复数信号输入语音增强模型中的第一神经网络，得到估计的复数特征。其中，估计的复数特征包含频域复数信号的方向信息。

通过将第一含噪语音信号先转化成频域复数信号，能够方便地利用不同方位的麦克风信号之间的频域相位差提取方向信息，第一神经网络则可处理该频域复数信号，充分利用方向信息更好地区分语音和噪声。

具体来说，可对第一含噪语音信号做STFT变换，得到频域复数信号。需说明的是，复数特征作为语音增强模型执行运算时产生的中间状态参数，仅具有复数的数据类型，与频域复数信号在取值上完全不同，即第一神经网络并非用于调整频域复数信号的取值，而是输出一个能够传递方向信息并可区分语音和噪声的中间状态参数。

在步骤503，将估计的复数特征转化成的实数特征输入第二神经网络，得到估计的掩膜。其中，掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值。

通过将复数特征转化成实数特征，可以从实数角度继续进行数据处理，从而更全面地区分各个方位上的语音和噪声。第二神经网络估计的掩膜可用于后续计算，得到估计的增强语音，实现语音增强。

进一步地，在步骤503中还可得到估计的声源方向信息，声源方向信息表示纯净语音信号的方向信息，也就是下文步骤504中得到的第一增强语音的方向信息。通过估计出纯净语音信号的声源方向信息，可在输出第一增强语音的同时输出估计的声源方向信息，以提示麦克风阵列正在增强的信号方向，便于用户直观了解。输出估计的声源方向信息的方式，例如可为在拾音设备上配置环形灯带，点亮对应方向的灯带，例如还可为对不同方向配置不同的名称(例如序号、东南西北方位)，语音播报对应方向的名称，该名称可为默认名称，也可由用户设置。

在步骤504，根据估计的掩膜和频域复数信号，得到第一含噪语音信号的第一增强语音。

由于估计的掩膜是频域复数信号先后经过第一神经网络和第二神经网络计算得到的掩膜，一方面能够有效区分语音和噪声，进而有针对性地增强语音，充分提升信噪比，得到噪声环境下的高质量语音；另一方面，由于在同一方向下也能够区分语音和噪声，因而能够应用于噪声与语音在同一方向以及散射噪声的场景，有效提升语音质量。具体地，可将估计的掩膜与原始的频域复数信号相乘，再做ISTFT，即可得到估计的第一增强语音。

可选地，拾音设备还包括与麦克风阵列相连接的至少一个扩展麦克风，也就是说，麦克风阵列可连接至少一个扩展麦克风，完成协同工作。此时，本公开的示例性实施例的语音增强方法还包括：对接收到的至少一个扩展麦克风的至少一个第二含噪语音信号执行基于深度学习的噪声抑制处理，得到至少一个第二增强语音；输出第一增强语音或至少一个第二增强语音中的一个第二增强语音。

扩展麦克风可以延伸到麦克风阵列的拾音范围之外，从而提升整个拾音设备的拾音范围和拾音质量。通过对扩展麦克风采集的第二含噪语音信号执行基于深度学习的噪声抑制处理，可对第二含噪语音信号进行有效的语音增强，获得相应的第二增强语音，提升语音质量。基于深度学习的噪声抑制处理是已有技术，在此不再赘述。此外，通过选择并输出一路增强语音，可避免输出多路增强语音造成输出混乱。

可选地，输出第一增强语音或至少一个第二增强语音中的一个第二增强语音，包括：确定第一增强语音的第一信噪比和至少一个第二增强语音的至少一个第二信噪比；根据第一信噪比和至少一个第二信噪比的大小关系，输出第一增强语音和至少一个第二增强语音中信噪比大的增强语音。

通过运用麦克风选路算法，对第一增强语音和至少一个第二增强语音进行信噪比估计，选择输出信噪比最高的一个增强语音，可确保输出的增强语音质量相对较佳，有助于提升语音质量。可选地，估计信噪比时，可对增强语音利用滑动平均来追踪最低能量，得到噪声估计，然后用增强语音减去噪声估计得到语音估计，由此语音估计除以噪声估计，就可以得到信噪比估计。进一步地，对选路后所得的增强语音，可先经过AGC模块，再最终输出。

根据本公开的示例性实施例，利用基于深度学习的Deep Beamforming输出基于麦克风阵列的第一增强语音，和扩展麦克风的Deep NS结合，通过麦克风选路算法，最终输出一个高质量增强后的信号。它和传统AEC、AGC相结合，最终形成一套新型的拾音设备处理系统。另外，在麦克风阵列做Deep Beamforming的相同语音增强模型中，输出估计的声源位置信息，可直观提示用户正在增强的方向。

图6是示出根据本公开的示例性实施例的语音增强模型的训练装置的框图，语音增强模型包括第一神经网络(例如为前述复数DNN网络)和第二神经网络(例如为前述实数DNN网络)。

参照图6，根据本公开的示例性实施例的语音增强模型的训练装置600可包括获取单元601、第一估计单元602、第二估计单元603、计算单元604和调参单元605。

获取单元601可获取多个方位的含噪语音样本、多个方位的纯净语音样本和多个方位的真实声源方向信息。其中，含噪语音样本是纯净语音样本添加噪声数据得到的，声源方向信息表示纯净语音信号的方向信息。

具体来说，可采样房间冲击响应(RIR，Room Impulse Response)、近场纯净语音和噪声数据进行卷积，分别得到各个方位的纯净语音样本和噪声数据。这个纯净语音样本作为语音增强模型的一个目标，房间冲击响应(也就是真实声源方向信息)则作为语音增强模型的另一个目标，而纯净语音样本和噪声数据的混合作为训练时输入的含噪语音样本，模拟了麦克风阵列中的多个麦克风采集到的信号。

第一估计单元602可将含噪语音样本转化成的频域复数信号输入第一神经网络，得到估计的复数特征。其中，估计的复数特征包含频域复数信号的方向信息。

第二估计单元603可将估计的复数特征转化成的实数特征输入第二神经网络，得到估计的掩膜和估计的声源方向信息。其中，掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值。

计算单元604可根据估计的掩膜和频域复数信号，确定估计的增强语音，并根据估计的增强语音和纯净语音样本确定语音增强模型的第一损失函数。

计算单元604还可根据估计的声源方向信息和真实声源方向信息确定第二损失函数。由于语音增强模型还可估计声源方向信息，故还需确定相应的第二损失函数。可选地，可计算估计的声源方向信息和真实声源方向信息的均方误差(MSE，Mean Square Error)，作为第二损失函数。

可以理解的是，实际训练时，在第二估计单元603得到估计的声源方向信息后，计算单元604即可相应计算第二损失函数。

计算单元604还可根据第一损失函数和第二损失函数确定损失函数。

调参单元605可通过根据损失函数调整第一神经网络和第二神经网络的参数，对语音增强模型进行训练。

根据本公开的示例性实施例，在实际训练中，获取单元601可同时获取多个方位的样本，且获取的每个方位的含噪语音样本均可包括多条含噪语音样本，以执行批量样本的训练。在这情况下，第一估计单元602可根据多条含噪语音样本获得多个频域复数信号，并将多个频域复数信号输入第一神经网络，得到多个估计的复数特征。第二估计单元603可将多个估计的复数特征转化成的多个实数特征输入到第二神经网络，得到多个估计的掩膜和多个估计的声源方向信息。计算单元604可计算出多个估计的增强语音，并分别计算多个估计的增强语音和相应的纯净语音样本的SISNR，以获得多个SISNR，并对多个SISNR求平均，作为第一损失函数。计算单元604还可分别计算多个估计的声源方向信息和相应的真实声源方向信息的均方误差，以获得多个均方误差，并对多个均方误差求平均，获得平均均方误差，作为第二损失函数。计算单元604还对第一损失函数和第二损失函数加权求和，作为损失函数。从而，调参单元605可根据损失函数调整第一神经网络和第二神经网络的参数，对语音增强模型进行训练。

图7是示出根据本公开的示例性实施例的语音增强装置的框图，该语音增强装置应用于包括麦克风阵列的拾音设备，该语音增强装置使用的语音增强模型包括第一神经网络(例如为前述复数DNN网络)和第二神经网络(例如为前述实数DNN网络)。

参照图7，语音增强装置700包括获取单元701、第一估计单元702、第二估计单元703和第一增强单元704。

获取单元701可获取麦克风阵列的第一含噪语音信号。

第一估计单元702可将第一含噪语音信号转化成的频域复数信号输入语音增强模型中的第一神经网络，得到估计的复数特征。其中，估计的复数特征包含频域复数信号的方向信息。

第二估计单元703可将估计的复数特征转化成的实数特征输入第二神经网络，得到估计的掩膜。其中，掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值。

进一步地，第二估计单元703还可得到估计的声源方向信息，声源方向信息表示纯净语音信号的方向信息，也就是下文第一增强单元704得到的第一增强语音的方向信息。通过估计出纯净语音信号的声源方向信息，可在输出第一增强语音的同时输出估计的声源方向信息，以提示麦克风阵列正在增强的信号方向，便于用户直观了解。输出估计的声源方向信息的方式，例如可为在拾音设备上配置环形灯带，点亮对应方向的灯带，例如还可为对不同方向配置不同的名称(例如序号、东南西北方位)，语音播报对应方向的名称，该名称可为默认名称，也可由用户设置。

第一增强单元704可根据估计的掩膜和频域复数信号，得到第一含噪语音信号的第一增强语音。

可选地，拾音设备还包括与麦克风阵列相连接的至少一个扩展麦克风，也就是说，麦克风阵列可连接至少一个扩展麦克风，完成协同工作。此时，本公开的示例性实施例的语音增强装置还包括第二增强单元和输出单元。第二增强单元可对接收到的至少一个扩展麦克风的至少一个第二含噪语音信号执行基于深度学习的噪声抑制处理，得到至少一个第二增强语音；输出单元可输出第一增强语音或至少一个第二增强语音中的一个第二增强语音。

可选地，输出单元可确定第一增强语音的第一信噪比和至少一个第二增强语音的至少一个第二信噪比，根据第一信噪比和至少一个第二信噪比的大小关系，输出第一增强语音和至少一个第二增强语音中信噪比大的增强语音。

图8是根据本公开的示例性实施例的电子设备的框图。

参照图8，电子设备800包括至少一个存储器801和至少一个处理器802，所述至少一个存储器801中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器802执行时，执行根据本公开的示例性实施例的语音增强模型的训练方法或语音增强方法。

作为示例，电子设备800可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备800并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备800还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备800中，处理器802可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器802可运行存储在存储器801中的指令或代码，其中，存储器801还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器801可与处理器802集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器801可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器801和处理器802可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器802能够读取存储在存储器中的文件。

此外，电子设备800还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备800的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的语音增强模型的训练方法或语音增强方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品包括计算机指令，计算机指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的语音增强模型的训练方法或语音增强方法。

根据本公开的示例性实施例的语音增强模型的训练方法和装置及语音增强方法和装置，为语音增强模型配置了第一神经网络和第二神经网络。其中，第一神经网络能够处理频域复数信号，利用频域相位差提取方向信息，更好地区分语音和噪声。第二神经网络能够从实数角度继续进行数据处理，从而更全面地区分各个方位上的语音和噪声。由于最终估计的掩膜是频域复数信号先后经过第一神经网络和第二神经网络计算得到的掩膜，一方面能够有效区分语音和噪声，进而有针对性地增强语音，充分提升信噪比，得到噪声环境下的高质量语音；另一方面，由于在同一方向下也能够区分语音和噪声，因而能够应用于噪声与语音在同一方向以及散射噪声的场景，有效提升语音质量。此外，通过与扩展麦克风的Deep NS、传统AEC、AGC相结合，能够形成一套新型的拾音设备处理系统，有效提升语音质量。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音增强模型的训练方法，其特征在于，所述语音增强模型包括第一神经网络和第二神经网络，所述训练方法包括：

获取多个方位的含噪语音样本、所述多个方位的纯净语音样本和所述多个方位的真实声源方向信息，其中，所述含噪语音样本是所述纯净语音样本添加噪声数据得到的，声源方向信息表示纯净语音信号的方向信息；

将所述含噪语音样本转化成的频域复数信号输入所述第一神经网络，得到估计的复数特征，其中，所述估计的复数特征包含所述频域复数信号的方向信息；

将所述估计的复数特征转化成的实数特征输入所述第二神经网络，得到估计的掩膜和估计的声源方向信息，掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；

根据所述估计的掩膜和所述频域复数信号，确定估计的增强语音，并根据所述估计的增强语音和所述纯净语音样本确定所述语音增强模型的损失函数；

通过根据所述损失函数调整所述第一神经网络和所述第二神经网络的参数，对所述语音增强模型进行训练。

2.如权利要求1所述的训练方法，其特征在于，所述根据所述估计的增强语音和所述纯净语音样本确定所述语音增强模型的损失函数，包括：

根据所述估计的增强语音和所述纯净语音样本计算与尺度无关的信噪比，并取负值，得到所述损失函数。

3.如权利要求1所述的训练方法，其特征在于，

所述根据所述估计的增强语音和所述纯净语音样本确定所述语音增强模型的损失函数，包括：

根据所述估计的增强语音和所述纯净语音样本确定第一损失函数；

根据所述估计的声源方向信息和所述真实声源方向信息确定第二损失函数；

根据所述第一损失函数和所述第二损失函数确定所述损失函数。

4.一种语音增强方法，应用于拾音设备，所述拾音设备包括麦克风阵列，其特征在于，所述语音增强方法包括：

获取麦克风阵列的第一含噪语音信号；

将所述第一含噪语音信号转化成的频域复数信号输入语音增强模型中的第一神经网络，得到估计的复数特征，其中，所述估计的复数特征包含所述频域复数信号的方向信息，所述语音增强模型包括所述第一神经网络和第二神经网络；

将所述估计的复数特征转化成的实数特征输入所述第二神经网络，得到估计的掩膜，掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；

根据所述估计的掩膜和所述频域复数信号，得到所述第一含噪语音信号的第一增强语音，

其中，所述语音增强模型是利用如权利要求1至3中的任一权利要求所述的语音增强模型的训练方法训练得到的。

5.如权利要求4所述的语音增强方法，其特征在于，所述将所述估计的复数特征转化成的实数特征输入所述第二神经网络，得到估计的掩膜，还包括：

得到估计的声源方向信息，声源方向信息表示纯净语音信号的方向信息。

6.如权利要求4或5所述的语音增强方法，其特征在于，所述拾音设备还包括与所述麦克风阵列相连接的至少一个扩展麦克风，所述语音增强方法还包括：

对接收到的所述至少一个扩展麦克风的至少一个第二含噪语音信号执行基于深度学习的噪声抑制处理，得到至少一个第二增强语音；

输出所述第一增强语音或所述至少一个第二增强语音中的一个第二增强语音。

7.如权利要求6所述的语音增强方法，其特征在于，所述输出所述第一增强语音或所述至少一个第二增强语音中的一个第二增强语音，包括：

确定所述第一增强语音的第一信噪比和所述至少一个第二增强语音的至少一个第二信噪比；

根据所述第一信噪比和所述至少一个第二信噪比的大小关系，输出所述第一增强语音和所述至少一个第二增强语音中信噪比大的增强语音。

8.一种语音增强模型的训练装置，其特征在于，所述语音增强模型包括第一神经网络和第二神经网络，所述训练装置包括：

获取单元，被配置为：获取多个方位的含噪语音样本、所述多个方位的纯净语音样本和所述多个方位的真实声源方向信息，其中，所述含噪语音样本是所述纯净语音样本添加噪声数据得到的，声源方向信息表示纯净语音信号的方向信息；

第一估计单元，被配置为：将所述含噪语音样本转化成的频域复数信号输入所述第一神经网络，得到估计的复数特征，其中，所述估计的复数特征包含所述频域复数信号的方向信息；

第二估计单元，被配置为：将所述估计的复数特征转化成的实数特征输入所述第二神经网络，得到估计的掩膜和估计的声源方向信息，掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；

计算单元，被配置为：根据所述估计的掩膜和所述频域复数信号，确定估计的增强语音，并根据所述估计的增强语音和所述纯净语音样本确定所述语音增强模型的损失函数；

调参单元，被配置为：通过根据所述损失函数调整所述第一神经网络和所述第二神经网络的参数，对所述语音增强模型进行训练。

9.如权利要求8所述的训练装置，其特征在于，所述计算单元还被配置为：根据所述估计的增强语音和所述纯净语音样本计算与尺度无关的信噪比，并取负值，得到所述损失函数。

10.如权利要求8所述的训练装置，其特征在于，

所述计算单元还被配置为：

11.一种语音增强装置，应用于拾音设备，所述拾音设备包括麦克风阵列，其特征在于，所述语音增强装置包括：

获取单元，被配置为：获取麦克风阵列的第一含噪语音信号；

第一估计单元，被配置为：将所述第一含噪语音信号转化成的频域复数信号输入语音增强模型中的第一神经网络，得到估计的复数特征，其中，所述估计的复数特征包含所述频域复数信号的方向信息，所述语音增强模型包括所述第一神经网络和第二神经网络；

第二估计单元，被配置为：将所述估计的复数特征转化成的实数特征输入所述第二神经网络，得到估计的掩膜，掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；

第一增强单元，被配置为：根据所述估计的掩膜和所述频域复数信号，得到所述第一含噪语音信号的第一增强语音，

12.如权利要求11所述的语音增强装置，其特征在于，所述第二估计单元还被配置为：得到估计的声源方向信息，声源方向信息表示纯净语音信号的方向信息。

13.如权利要求11或12所述的语音增强装置，其特征在于，所述拾音设备还包括与所述麦克风阵列相连接的至少一个扩展麦克风，所述语音增强装置还包括：

第二增强单元，被配置为：对接收到的所述至少一个扩展麦克风的至少一个第二含噪语音信号执行基于深度学习的噪声抑制处理，得到至少一个第二增强语音；

输出单元，被配置为：输出所述第一增强语音或所述至少一个第二增强语音中的一个第二增强语音。

14.如权利要求13所述的语音增强装置，其特征在于，所述输出单元还被配置为：

15.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到3中的任一权利要求所述的语音增强模型的训练方法或如权利要求4到7中的任一权利要求所述的语音增强方法。

16.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到3中的任一权利要求所述的语音增强模型的训练方法或如权利要求4到7中的任一权利要求所述的语音增强方法。