CN114302286A

CN114302286A - 一种通话语音降噪方法、装置、设备及存储介质

Info

Publication number: CN114302286A
Application number: CN202111659316.8A
Authority: CN
Inventors: 苏梦娜; 陈轶博; 李政
Original assignee: Shanghai Xiaodu Technology Co Ltd
Current assignee: Shanghai Xiaodu Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-08

Abstract

本公开提供了一种通话语音降噪方法、装置、设备及存储介质，涉及计算机技术领域，尤其涉及语音技术领域。具体实现方案为：获取通话语音信号和参考信号，通话语音信号包括外置双麦前端信号和内置麦信号；对外置双麦前端信号进行第一前期处理，得到第一前期处理后信号；对内置麦信号进行第二前期处理，得到第二前期处理后信号；利用深度神经网络DNN降噪模型，对第一前期处理后信号进行降噪处理，得到第一降噪信号；根据语音活动检测信息，对第二前期处理后信号进行降噪处理，得到第二降噪信号，语音活动检测信息来自于DNN降噪模型的输出；对第一降噪信号和所述第二降噪信号进行频谱融合，得到降噪输出语音信号。

Description

一种通话语音降噪方法、装置、设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及语音技术领域的一种通话语音降噪方法、装置、设备及存储介质。

背景技术

语音降噪是耳机产品一直致力于解决和优化的技术问题，现有的通话降噪耳机主要采用以下两种语音降噪处理方案：

1、外置阵列信号处理结合反馈麦的方法进行语音降噪，该方法采用基于外置传感器阵列对说话人语音进行增强，并融合反馈麦，利用反馈麦高信噪比的特性来提升环境噪声和风噪下的通话效果。

2、基于辅助传感器的方法进行语音降噪，采用例如振动传感器或者加速度传感器(如骨导传感器)等提取佩戴者语音。

发明内容

本公开提供了一种用于提升通话语音降噪效果的通话语音降噪方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种通话语音降噪方法，包括：

获取通话语音信号和参考信号，通话语音信号包括外置双麦前端信号和内置麦信号；

对外置双麦前端信号进行第一前期处理，得到第一前期处理后信号；

对内置麦信号进行第二前期处理，得到第二前期处理后信号；

利用深度神经网络DNN降噪模型，对第一前期处理后信号进行降噪处理，得到第一降噪信号；

根据语音活动检测信息，对第二前期处理后信号进行降噪处理，得到第二降噪信号，语音活动检测信息来自于DNN降噪模型的输出；

对第一降噪信号和第二降噪信号进行频谱融合，得到降噪输出语音信号。

根据本公开的另一方面，提供了一种通话语音降噪装置，包括：

信号获取模块，用于获取通话语音信号和参考信号，通话语音信号包括外置双麦前端信号和内置麦信号；

第一前期处理模块，用于对外置双麦前端信号进行第一前期处理，得到第一前期处理后信号；

第二前期处理模块，用于对内置麦信号进行第二前期处理，得到第二前期处理后信号；

第一降噪模块，用于利用深度神经网络DNN降噪模型，对第一前期处理后信号进行降噪处理，得到第一降噪信号；

第二降噪模块，用于根据语音活动检测信息，对第二前期处理后信号进行降噪处理，得到第二降噪信号，语音活动检测信息来自于DNN降噪模型的输出；

融合模块，用于对第一降噪信号和第二降噪信号进行频谱融合，得到降噪输出语音信号。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开的通话语音降噪方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开的通话语音降噪方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本公开的通话语音降噪方法。

根据本公开的另一方面，提供了一种耳机，包括：至少一个处理器；以及存储器和麦克风，其中，处理器、存储器与麦克风通信互联；存储器存储有可被至少一个处理器执行的指令，麦克风用于采集通话语音信号；指令被至少一个处理器执行，以使至少一个处理器能够执行本公开的通话语音降噪方法。

在本公开中，采用DNN降噪模型和反馈麦融合的方式，对通话语音信号进行外置双麦前端信号和内置麦信号分别降噪处理后获得的降噪信号进行频谱融合，获得降噪输出语音，从而提供了一种降噪效果更优的通话语音降噪方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为根据本公开第一实施例的通话语音降噪方法的流程示意图一；

图2是根据本公开第一实施例的通话语音降噪方法的流程示意图二；

图3是本公开DNN降噪模型的训练流程示意图；

图4是根据本公开第二实施例的通话语音降噪方法的流程示意图；

图5是根据本公开第三实施例的通话语音降噪方法的流程示意图；

图6是根据本公开第四实施例的通话语音降噪方法的流程示意图；

图7是根据本公开第五实施例的通话语音降噪装置的结构示意图；

图8是用来实现本公开实施例的通话语音降噪方法的电子设备的框图；

图9是用来实现本公开的实施例的一种耳机的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1为根据本公开第一实施例的通话语音降噪方法的流程示意图一，如图1所示，该方法采用DNN降噪模型和反馈麦融合的方式，对通话语音信号进行外置双麦前端信号和内置麦信号分别降噪处理后获得的降噪信号进行频谱融合，获得降噪输出语音，从而提供了一种降噪效果更优的通话语音降噪方法。

图2为根据本公开第一实施例的通话语音降噪方法的流程示意图二，如图2所示，结合图1，该方法主要包括：

步骤S101，获取通话语音信号和参考信号，通话语音信号包括外置双麦前端信号和内置麦信号。

本实施例中的真无线立体声(TWS，True Wireless Stereo)耳机采用三麦融合的拓扑架构，即TWS耳机中共设置有三个麦克风，分别为ffmic、talkmic和fbmic。其中，ffmic和talkmic设置于耳机外侧，ffmic也称单前馈麦克风，用于收集环境中的噪声，并在主要噪声信号到达人耳前，对其进行检测和噪声消除；talkmic为普通的用户通话时使用的麦克风，用于收集人声；fbmic也称单后馈麦克风，设置于耳机内侧，用于对ffmic未消除的噪声进行二次消除。

在通话过程中，TWS耳机接收到ffmic、talkmic、fbmic和ref四路信号，外置双麦前端信号包括ffmic信号和talkmic信号，ffmic信号来自ffmic收集的环境噪声，talkmic信号来自talkmic收集的人声；内置麦信号为fbmic信号，来自fbmic接收到的ffmic处理后的噪声；参考信号为ref信号，可来自耳机中设置的参考传声器或非声学传感器，本实施例并不限定参考信号的来源。

步骤S102，对外置双麦前端信号进行第一前期处理，得到第一前期处理后信号。

在本实施例中，在对外置双麦前端信号进行深度神经网络(DNN，Deep NeuralNetworks)降噪之前，需要对耳机接收到的外置双麦前端信号进行前期处理。由于TWS耳机具有一定的隔离度，因此外置双麦前端信号的回声残留相对音箱等其他语音设备较小。基于上述特性，对外置双麦前端信号的前期处理主要有阵列处理、风噪估计和回声消除等处理步骤，这些处理用于对ffmic收集的环境噪声和talkmic收集的人声进行初步净化。

步骤S103，对内置麦信号进行第二前期处理，得到第二前期处理后信号。

在本实施例中，在对内置麦信号进行降噪之前，需要对耳机设备接收到的内置麦信号进行前期处理，因为内置麦信号来自ffmic处理后的信号，所以无需对其进行阵列处理和风噪估计，但由于内置麦信号存在回声大，内噪听感差等问题，需要对其进行回声消除处理，用于对耳机设备收集到的内置麦信号进行初步净化。

步骤S104，利用深度神经网络DNN降噪模型，对第一前期处理后信号进行降噪处理，得到第一降噪信号。

在对外置双麦前端信号进行处理，得到第一前期处理后信号之后，便可对第一前期处理后信号进行DNN降噪。将第一前期处理后信号输入训练得到的DNN降噪模型，输出降噪处理后的第一降噪信号。

具体地，DNN降噪模型可以为LSTM模型、双向LSTM模型、门控循环单元(GRU，GateRecurrent Unit)模型等。本实施例中，采用双层GRU模型，主要是考虑到GRU模型具有记忆能力，在逐帧进行语音降噪时，GRU模型能够观察到一段时间的语谱信息，从而能够更好的区分语音和噪声。

步骤S105，根据语音活动检测信息，对第二前期处理后信号进行降噪处理，得到第二降噪信号，语音活动检测信息来自于DNN降噪模型的输出。

在对内置麦信号进行处理，得到第二前期处理后信号之后，便可对第二前期处理后信号进行降噪处理，此处并非直接利用DNN降噪模型进行降噪，而是根据DNN降噪模型输出的语音活动检测(VAD，Voice Activity Detection)信息对第二前期处理后信号进行降噪处理。

具体地，可根据VAD信息检测第二前期处理后信号中的语音信号和非语音信号，然后在语音信号段和非语音信号段进行不同的降噪处理，最终达到较好的语音降噪效果。

步骤S106，对第一降噪信号和第二降噪信号进行频谱融合，得到降噪输出语音信号。

经上述步骤S104和步骤S105后，得到第一降噪信号和第二降噪信号，之后需要对两种信号进行融合处理，得到降噪输出语音信号后，将降噪输出语音信号输出至人耳。

具体地，可根据融合频段和融合因子对第一降噪信号和第二降噪信号进行频率融合，融合频段和融合因子可根据具体信号而定，本实施例不做限定。

在本实施例中，采用三麦融合的降噪策略，通过对外置双麦前端信号和内置麦信号分别进行前期处理和降噪处理，得到第一降噪信号和第二降噪信号，并对上述两种信号进行融合处理，得到降噪输出语音信号，达到提升通话降噪效率的效果，极大地提高了用户的体验感。

基于上述实施例，为了获得降噪效果更好的DNN降噪模型，在接收通话语音之前需要通过单通道DNN训练方式进行DNN降噪模型的训练，具体结合图3描述如下：

图3为本公开DNN降噪模型的训练流程示意图，如图3所示，具体包括：

步骤S201，获取干净语音数据和噪声语音数据。

本实施例中，在训练DNN降噪模型之前，需要收集原始语料，包括不同年龄段、性别语种的干净语音数据和地铁、人声、车载、风噪、咖啡厅、健身房、键盘声等不同类型的噪声语音数据。

步骤S202，对干净语音数据和噪声语音数据进行数据增强，得到模拟通话语音数据。

具体地，在获得干净语音数据和噪声语音数据之后，为了尽可能模拟真实采集到的信号，首先对干净语音数据加混响，之后将其按照不同的信噪比与噪声语音数据叠加，最后通过EQ均衡器模拟麦克风接收频响对信号的调制。

具体地，EQ均衡器模拟麦克风接收频响对信号的调制在消音池里通过白噪声完成，在消音室中放置人工头，将耳机佩戴于人工耳上，通过人工口播放白噪声，采集耳机ffmic、talkmic、fbmic接收到的音频信号，从而计算人工口到ffmic、talkmic、fbmic的传递函数。进行数据增强时，利用该传递函数和干净语音数据卷积，得到与耳机声学特性相近的训练数据，即模拟通话语音数据。

步骤S203，提取模拟通话语音数据的声学特征。

收集到模拟通话语音数据之后，需要将其转化为DNN可以识别的声学特征，包括预加重、减均值和分帧加窗等信号处理算法，声学特征代表语音的特点，噪声和语音的声学特征具有较大的差异，提取到合适的声学特征能够减小模型学习难度，提升降噪效果。

具体地，本实施例采用64维Fbank特征，在对模拟通话语音数据进行分帧加窗、离散傅里叶变换(DFT，Discrete Fourier Transform)、滤波和求取对数功率之后，得到模拟通话语音数据的64维Fbank特征声学特征。

步骤S204，标定单通道DNN训练的训练目标。

本实施例中，在训练DNN降噪模型之前，需要对DNN降噪模型进行Label标定，Label标定表征模型学习的目标。本实施例中的Label为根据信噪比计算的理想比值掩蔽(IRM，Ideal Ratio Mask)，具体地，本实施例中采用IRM＿MASK表征干净语音数据和带噪语音数据的幅度比，将其与带噪语音数据相乘能够反解出干净语音数据。

步骤S205，根据声学特征和训练目标，利用DNN训练得到DNN降噪模型。

在本实施例中，在对模拟通话语音数据提取完声学特征之后，根据声学特征，对所述模拟通话语音数据进行DNN正向传播，得到IRM的估计值，然后计算IRM的估计值与训练目标Label之间的误差，根据误差对模拟通话语音数据进行反向传播，更新DNN降噪模型各节点的权值，最后在误差小于预设的误差阈值时，将停止对DNN降噪模型的更新，完成DNN降噪模型的训练。具体地，本实施例采用双层GRU模型。

在本实施例中，利用深度神经网络DNN能够区分语音和噪声的声学特性，训练出DNN降噪模型，DNN降噪模型可从模拟通话语音数据中将干净语音数据分离出来，达到更好地区分干净语音数据和噪声语音数据的效果，可以进一步地提高TWS耳机的通话降噪效率。

图4为本公开第二实施例的通话语音降噪方法的流程示意图，如图4所示，结合图1，步骤S102具体包括：

步骤S301，根据外置双麦前端信号进行线性阵列处理，得到第一处理信号。

具体地，对外置双麦前端信号进行线性阵列处理可采用波束形成技术、零点形成技术、空间谱估计、信号源估计等方法，本实施例中采用波束形成技术，主要是对外置双麦前端信号进行增强处理，并将处理后的ffmic信号和talkmic信号波束形成为一路信号。线性阵列处理可以增强所需要的有用信号，抑制无用的干扰和噪声，并提取有用的信号特征以及信号所包含的信息，线性阵列处理并不破坏外置双麦前端信号和参考信号之间的相关性。

步骤S302，根据外置双麦前端信号和第一处理信号进行风噪估计及消除处理，得到第二处理信号。

具体地，进行风噪估计首先需要计算外置双麦前端信号与第一处理信号的信号参数，包括相关性、谱质心和能量，然后根据相关性和谱质心进行风噪/非风噪判决，如果判定是风噪，根据能量将风噪分为小风噪、中风噪和大风噪，最后根据风噪类型对外置双麦前端信号与第一处理信号进行风噪消除处理，得到第二处理信号。

步骤S303，根据第二处理信号和参考信号进行回声消除处理，得到第三处理信号。

在本实施例中，对进行回声消除后的第二处理信号和参考信号一起进行回音消除处理，进行回声消除处理的方法主要有谱减法、最小均方(LMS，Least Mean Square)算法、分块LMS(Block LMS)算法、归一化最小均方(NLMS，Normalized Least Mean Squares)算法等，本实施例并不限定回声消除的方法。

步骤S304，对第三处理信号进行非线性阵列处理，得到第一前期处理后信号。

具体地，对经回声消除处理后的第三处理信号进行非线性阵列处理，进一步对外置双麦降噪信号进行信号增强处理。

本实施例中，将阵列增强线性处理和非线性处理分为两部分，首先对外置双麦前端信号进行阵列增强线性处理，这样不破坏外置双麦前端信号与参考信号之间的相关性，然后将波束形成后的一路信号进行风噪估计和消除处理、回声消除处理，最后对其进行非线性阵列信号处理，以上处理步骤可以将回声消除处理从多次转换为一次，能够节省回声消除计算的时间，从而提高TWS耳机的通话续航时间。

图5为本公开第三实施例的通话语音降噪方法的流程示意图，如图5所示，结合图1，步骤S103具体包括：

步骤S401，利用回声消除滤波器对内置麦信号进行初次回声消除处理，得到第一回声消除信号。

具体地，在对内置麦信号进行第二前期处理时，首先采用大量回声数据离线生成一个回声消除滤波器，在一阶段使用该回声消除滤波器处理内置麦信号，减少内置麦信号中的回声成分。

步骤S402，基于第一回声消除信号和参考信号之间的相关性，对第一回声消除信号进行再次回声消除处理，得到所述第二前期处理后信号。

在本实施例中，采用两阶段回声消除算法对内置麦信号进行回声消除处理，首先采用回声消除滤波器对内置麦信号进行回声消除，然后基于与参考信号之间的相关性对内置麦信号再次进行回声消除。通过上述回声消除处理，能够确保内置麦信号在单讲下回声消除无残留，双讲下近段语音无损伤，从而保证用户的通话质量。

图6为本公开第四实施例的通话语音降噪方法的流程示意图，如图6所示，结合图1，步骤S105具体包括：

步骤S501，根据语音活动检测信息，判断第二前期处理后信号是否处于非语音区。

在本实施例中，通过DNN降噪模型输出的语音活动检测(VAD，Voice ActivityDetection)信息的值判断第二前期处理后信号处于非语音区还是语音区，在VAD的值为0的时候，第二前期处理后信号处于非语音区，在VAD的值为1的时候，第二前期处理后信号处于语音区。

步骤S502，估计内置麦处理信号处于语音区时的语音功率谱、以及内置麦处理信号处于非语音区时的噪声功率谱。

步骤S503，根据噪声功率谱和语音功率谱，计算得到第二前期处理后信号的信噪比。

具体地，计算第二前期处理后信号的信噪比的公式为：

其中，Ps为语音功率谱、Pn为噪声功率谱。

步骤S504，利用信噪比对第二前期处理后信号进行降噪处理，得到第二降噪信号。

具体地，在计算得到第二前期处理后信号的信噪比之后，利用信噪比估计降噪增益，完成降噪。

在本实施例中，首先通过DNN降噪模型输出的VAD信息的值，判断第二前期处理后信号处于非语音区还是语音区，然后计算语音区的语音功率谱和非语音区的噪声功率谱，计算出信噪比，最后利用信噪比完成第二前期处理后信号的降噪，通过上述实施例，可以进一步提高通话语音的降噪效率。

具体地，在本公开第一实施例步骤S104之后，还可以进行如下步骤：

步骤S1040，根据第一前期处理后信号和第一降噪信号进行信噪比估计，得到第一降噪信号的信噪比，根据信噪比确定第一降噪信号的噪声类型，噪声类型包括瞬态噪声、稳态噪声、弱噪声和强噪声。

具体地，本公开第一实施例步骤S106具体包括：

根据风噪类型和噪声类型，对第一降噪信号和第二降噪信号进行频谱融合，得到降噪输出语音信号。

具体地，瞬态噪声直接进行波束形成处理，稳态噪声进行噪声强度检测，弱噪直接进行波束形成处理，强噪声和fbmic回声消除处理后的信号进行通道融合；风噪进行风噪强度判断，弱风噪2k以下信号进行通道融合，中风噪4k以下进行信号融合，强风噪用fbmic回声消除处理后的信号替换。

通过对不同的风噪类型和噪声类型进行不同的融合处理，可以达到更好的融合效果，进而得到噪声更小的降噪输出语音信号，提高TWS耳机的通话语音降噪效率。

图7为本公开第五实施例的通话语音降噪装置的结构示意图，如图7所示，该装置主要包括：

信号获取模块10，用于获取通话语音信号和参考信号，通话语音信号包括外置双麦前端信号和内置麦信号；第一前期处理模块20，用于对外置双麦前端信号进行第一前期处理，得到第一前期处理后信号；第二前期处理模块30，用于对内置麦信号进行第二前期处理，得到第二前期处理后信号；第一降噪模块40，用于利用深度神经网络DNN降噪模型，对第一前期处理后信号进行降噪处理，得到第一降噪信号；第二降噪模块50，用于根据语音活动检测信息，对第二前期处理后信号进行降噪处理，得到第二降噪信号，语音活动检测信息来自于DNN降噪模型的输出；融合模块60，用于对第一降噪信号和第二降噪信号进行频谱融合，得到降噪输出语音信号。

在一可实施方式中，该装置还包括：DNN降噪模型训练模块，用于训练DNN降噪模型；进一步地，DNN降噪模型训练模块还包括：

语音数据获取子模块，用于获取干净语音数据和噪声语音数据；数据增强子模块，用于对干净语音数据和噪声语音数据进行数据增强，得到模拟通话语音数据；声学特征提取子模块，用于提取模拟通话语音数据的声学特征；标定子模块，用于标定单通道DNN训练的训练目标；训练子模块，用于根据声学特征和训练目标，通过DNN训练得到DNN降噪模型。

进一步地，训练子模块包括：估计值计算单元，用于根据声学特征，对模拟通话语音数据进行DNN正向传播，得到理想比值掩蔽IRM的估计值；误差计算单元，用于计算IRM的估计值与训练目标之间的误差；权值更新单元，用于根据误差对模拟通话语音数据进行反向传播，更新DNN降噪模型各节点的权值；判断单元，用于在误差小于预设的误差阈值时，停止对DNN降噪模型的更新。

在一可实施方式中，第一前期处理模块20包括：线性阵列处理子模块，用于根据外置双麦前端信号进行线性阵列处理，得到第一处理信号；风噪估计及消除子模块，用于根据外置双麦前端信号和第一处理信号进行风噪估计及消除处理，得到第二处理信号；回声消除子模块，用于根据第二处理信号和参考信号进行回声消除处理，得到第三处理信号；非线性阵列处理子模块，用于对第三处理信号进行非线性阵列处理，得到第一前期处理后信号。

进一步地，风噪估计和消除模块包括：参数计算子模块，用于计算外置双麦前端信号与第一处理信号的信号参数，信号参数包括相关性、谱质心和能量；风噪类型判断子模块，用于根据信号参数确定风噪类型，风噪类型包括非风噪、小风噪、中风噪和大风噪；风噪消除子模块，用于根据风噪类型对外置双麦前端信号与第一处理信号进行风噪消除处理，得到第二处理信号。

在一可实施方式中，第一降噪模块40还包括：第一信噪比计算子模块，用于根据第一前期处理后信号和第一降噪信号进行信噪比估计，得到第一降噪信号的信噪比；噪声类型判断子模块，用于根据信噪比确定第一降噪信号的噪声类型。

在一可实施方式中，融合模块60进一步用于根据风噪类型和噪声类型，对第一降噪信号和所述第二降噪信号进行频谱融合，得到降噪输出语音信号。

在一可实施方式中，第二前期处理模块30还包括：初次回声消除子模块，用于利用回声消除滤波器对内置麦信号进行初次回声消除处理，得到第一回声消除信号；再次回声消除子模块，用于基于第一回声消除信号和参考信号之间的相关性，对第一回声消除信号进行再次回声消除处理，得到第二前期处理后信号。

在一可实施方式中，第二降噪模块50还包括：语音区判断子模块，用于根据语音活动检测信息，判断第二前期处理后信号是否处于非语音区；功率谱估计子模块，用于估计内置麦处理信号处于语音区时的语音功率谱、以及内置麦处理信号处于非语音区时的噪声功率谱；第二信噪比计算子模块，用于根据噪声功率谱和语音功率谱，计算得到第二前期处理后信号的信噪比；降噪处理子模块，用于利用信噪比对第二前期处理后信号进行降噪处理，得到第二降噪信号。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质、一种计算机程序产品和一种耳机。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如通话语音降噪方法。例如，在一些实施例中，通话语音降噪方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的通话语音降噪方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行通话语音降噪方法。

图9示出了本公开的实施例提供的一种耳机的框图，如图9示，该耳机包括：至少一个处理器900；以及存储器901和麦克风902，其中，处理器900、存储器901与麦克风902通信互联；存储器901存储有可被至少一个处理器900执行的指令，麦克风902用于采集通话语音信号；指令被至少一个处理器900执行，以使至少一个处理器900能够执行通话语音降噪方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种通话语音降噪方法，包括：

获取通话语音信号和参考信号，所述通话语音信号包括外置双麦前端信号和内置麦信号；

对所述外置双麦前端信号进行第一前期处理，得到第一前期处理后信号；

对所述内置麦信号进行第二前期处理，得到第二前期处理后信号；

利用深度神经网络DNN降噪模型，对所述第一前期处理后信号进行降噪处理，得到第一降噪信号；

根据语音活动检测信息，对所述第二前期处理后信号进行降噪处理，得到第二降噪信号，所述语音活动检测信息来自于所述DNN降噪模型的输出；

对所述第一降噪信号和所述第二降噪信号进行频谱融合，得到降噪输出语音信号。

2.根据权利要求1所述的方法，其中，所述DNN降噪模型通过以下单通道DNN训练方式得到；

获取干净语音数据和噪声语音数据；

对所述干净语音数据和所述噪声语音数据进行数据增强，得到模拟通话语音数据；

提取所述模拟通话语音数据的声学特征；

标定单通道DNN训练的训练目标；

根据所述声学特征和所述训练目标，通过DNN训练得到所述DNN降噪模型。

3.根据权利要求2所述的方法，其中，所述根据声学特征和训练目标，通过DNN训练得到所述DNN降噪模型，包括：

根据所述声学特征，对所述模拟通话语音数据进行DNN正向传播，得到理想比值掩蔽IRM的估计值；

计算所述IRM的估计值与所述训练目标之间的误差；

根据所述误差对所述模拟通话语音数据进行反向传播，更新所述DNN降噪模型各节点的权值；

在所述误差小于预设的误差阈值时，停止对所述DNN降噪模型的更新。

4.根据权利要求1所述的方法，其中，所述对外置双麦前端信号进行第一前期处理，得到第一前期处理后信号，包括：

根据所述外置双麦前端信号进行线性阵列处理，得到第一处理信号；

根据所述外置双麦前端信号和所述第一处理信号进行风噪估计及消除处理，得到第二处理信号；

根据所述第二处理信号和所述参考信号进行回声消除处理，得到第三处理信号；

对所述第三处理信号进行非线性阵列处理，得到所述第一前期处理后信号。

5.根据权利要求4所述的方法，其中，所述根据外置双麦前端信号和第一处理信号进行风噪估计及消除处理，得到第二处理信号，包括：

计算所述外置双麦前端信号与所述第一处理信号的信号参数，所述信号参数包括相关性、谱质心和能量；

根据所述信号参数确定风噪类型，所述风噪类型包括非风噪、小风噪、中风噪和大风噪；

根据所述风噪类型对所述外置双麦前端信号与所述第一处理信号进行风噪消除处理，得到所述第二处理信号。

6.根据权利要求5所述的方法，其中，在所述利用DNN降噪模型，对所述第一前期处理后信号进行降噪处理，得到第一降噪信号之后，所述方法还包括：

根据所述第一前期处理后信号和所述第一降噪信号进行信噪比估计，得到所述第一降噪信号的信噪比；

根据所述信噪比确定所述第一降噪信号的噪声类型。

7.根据权利要求6所述的方法，其中，所述对第一降噪信号和所述第二降噪信号进行频谱融合，得到降噪输出语音信号，包括：

根据所述风噪类型和所述噪声类型，对所述第一降噪信号和所述第二降噪信号进行频谱融合，得到所述降噪输出语音信号。

8.根据权利要求1所述的方法，其中，所述对内置麦信号进行第二前期处理，得到第二前期处理后信号，包括：

利用回声消除滤波器对所述内置麦信号进行初次回声消除处理，得到第一回声消除信号；

基于所述第一回声消除信号和所述参考信号之间的相关性，对所述第一回声消除信号进行再次回声消除处理，得到所述第二前期处理后信号。

9.根据权利要求1或4所述的方法，其中，所述根据语音活动检测信息，对所述第二前期处理后信号进行降噪处理，得到第二降噪信号，包括：

根据所述语音活动检测信息，判断所述第二前期处理后信号是否处于非语音区；

估计所述内置麦处理信号处于语音区时的语音功率谱、以及所述内置麦处理信号处于非语音区时的噪声功率谱；

根据所述噪声功率谱和所述语音功率谱，计算得到所述第二前期处理后信号的信噪比；

利用所述信噪比对所述第二前期处理后信号进行降噪处理，得到所述第二降噪信号。

10.一种通话语音降噪装置，包括：

信号获取模块，用于获取通话语音信号和参考信号，所述通话语音信号包括外置双麦前端信号和内置麦信号；

第一前期处理模块，用于对所述外置双麦前端信号进行第一前期处理，得到第一前期处理后信号；

第二前期处理模块，用于对所述内置麦信号进行第二前期处理，得到第二前期处理后信号；

第一降噪模块，用于利用深度神经网络DNN降噪模型，对所述第一前期处理后信号进行降噪处理，得到第一降噪信号；

第二降噪模块，用于根据语音活动检测信息，对所述第二前期处理后信号进行降噪处理，得到第二降噪信号，所述语音活动检测信息来自于所述DNN降噪模型的输出；

融合模块，用于对所述第一降噪信号和所述第二降噪信号进行频谱融合，得到降噪输出语音信号。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。

14.一种耳机，包括：

至少一个处理器；以及存储器和麦克风，其中，所述处理器、所述存储器与所述麦克风通信互联；

所述存储器存储有可被所述至少一个处理器执行的指令，所述麦克风用于采集通话语音信号；

所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求19中任一项所述的方法。