CN114530160A - 模型训练方法、回声消除方法、系统、设备及存储介质 - Google Patents
模型训练方法、回声消除方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN114530160A CN114530160A CN202210176223.8A CN202210176223A CN114530160A CN 114530160 A CN114530160 A CN 114530160A CN 202210176223 A CN202210176223 A CN 202210176223A CN 114530160 A CN114530160 A CN 114530160A
- Authority
- CN
- China
- Prior art keywords
- signal
- echo cancellation
- model
- echo
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 131
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000003062 neural network model Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 34
- 238000012360 testing method Methods 0.000 claims description 33
- 238000001514 detection method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 11
- 230000000873 masking effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000003321 amplification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种模型训练方法、回声消除方法、系统、设备及存储介质,包括:获取历史训练数据,该历史训练数据包括近端信号和远端信号以及近端语音信号,该近端信号为包含近端噪音信号、近端语音信号以及回声信号的混合信号;基于历史训练数据训练神经网络模型,以得到回声消除模型;该回声消除模型以近端信号和远端信号为输入,以消除回声后得到的近端语音信号为输出。本发明通过获取近端信号和远端信号以及近端语音信号的历史训练数据,基于历史训练数据训练神经网络模型,以得到回声消除模型,实现了利用回声消除模型对输入的近端信号和远端信号进行回声消除,进而得到消除回声后的近端语音信号,提高了回声消除的准确性以及回声消除的效率。
Description
技术领域
本发明涉及回声消除技术领域,特别涉及一种模型训练方法、回声消除方法、系统、设备及存储介质。
背景技术
声学回声(Acoustic Echo)是一种在语音通信中的常见问题,以呼叫中心的场景为例,当客人和客服通话时,客服的声音被客人的麦克风接受,导致客服在耳麦中听到了自己被延迟的声音。客人声道的语音混杂了客服的说话内容,导致依赖该音频的语音转文字和声纹识别任务受到严重干扰。
目前传统的基于滤波器的回声消除方法,是将滤波后的远端信号视为估计的回声,再从近端信号中减去估计的回声,最终得到消除回声后的近端语音。而这种方法虽然可以消除线性回声,但依赖于时延估计、端点检测等模块,如果时延估计或端点检测的结构不准确,不仅会导致回声的估计错误,且在近端信号中减去估计回声时因错误导致更糟糕的结果。并且这种模拟回声通路的滤波方法,不适合消除非线性回声,需要针对残留回声进行再一次的消除。
发明内容
本发明要解决的技术问题是为了克服现有技术中现有的回声消除方法存在回声消除不精准、消除效率低的缺陷,提供一种模型训练方法、回声消除方法、系统、设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明第一方面提供了一种模型训练方法,所述模型训练方法包括:
获取历史训练数据,所述历史训练数据包括近端信号和远端信号以及近端语音信号,所述近端信号为包含近端噪音信号、近端语音信号以及回声信号的混合信号;
基于所述历史训练数据训练神经网络模型,以得到回声消除模型;
所述回声消除模型以所述近端信号和所述远端信号为输入,以消除回声后得到的近端语音信号为输出。
较佳地,所述获取历史训练数据的步骤之后,所述模型训练方法还包括:
对所述历史训练数据进行静音检测去除处理,以得到去除静音后的历史训练数据。
较佳地,所述模型训练方法还包括:
从所述历史训练数据中获取测试数据;
利用所述测试数据测试所述回声消除模型的预测结果,以得到所述测试数据对应的预测近端语音信号;
获取所述测试数据对应的真实近端语音信号;
基于所述预测近端语音信号与所述真实近端语音信号计算所述回声消除模型的损失函数值;
基于所述损失函数值优化所述回声消除模型。
本发明第二方面提供了一种模型训练系统,所述模型训练系统包括:
第一获取模块,用于获取历史训练数据,所述历史训练数据包括近端信号和远端信号以及近端语音信号,所述近端信号为包含近端噪音信号、近端语音信号以及回声信号的混合信号;
训练模块,用于基于所述历史训练数据训练神经网络模型,以得到回声消除模型;
所述回声消除模型以所述近端信号和所述远端信号为输入,以消除回声后得到的近端语音信号为输出。
较佳地,所述模型训练系统还包括:
处理模块,用于对所述历史训练数据进行静音检测去除处理,以得到去除静音后的历史训练数据。
较佳地,所述模型训练系统还包括:
第二获取模块,用于从所述历史训练数据中获取测试数据;
测试模块,用于利用所述测试数据测试所述回声消除模型的预测结果,以得到所述测试数据对应的预测近端语音信号;
第三获取模块,用于获取所述测试数据对应的真实近端语音信号;
计算模块,用于基于所述预测近端语音信号与所述真实近端语音信号计算所述回声消除模型的损失函数值;
优化模块,用于基于所述损失函数值优化所述回声消除模型。
本发明第三方面提供了一种回声消除方法,所述回声消除方法包括:
获取待处理的近端信号;
将所述待处理的近端信号输入利用如第一方面所述的模型训练方法训练得到的回声消除模型,以输出消除回声后的近端语音信号。
本发明第四方面提供了一种回声消除系统,所述回声消除方法包括:
待处理信号获取模块,用于获取待处理的近端信号;
输入模块,用于将所述待处理的近端信号输入利用如第二方面所述的模型训练系统训练得到的回声消除模型,以输出消除回声后的近端语音信号。
本发明第五方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的模型训练方法,或执行如第三方面所述的回声消除方法。
本发明第六方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的模型训练方法,或执行如第三方面所述的回声消除方法。
本发明的积极进步效果在于:
本发明通过获取近端信号和远端信号以及近端语音信号的历史训练数据,基于历史训练数据训练神经网络模型,以得到回声消除模型,实现了利用回声消除模型对输入的近端信号和远端信号进行回声消除,进而得到消除回声后的近端语音信号,提高了回声消除的准确性以及回声消除的效率。
附图说明
图1为本发明实施例1的模型训练方法的第一流程图。
图2为本发明实施例1的模型训练方法的第二流程图。
图3为本发明实施例1的模型训练方法的第三流程图。
图4为本发明实施例2的模型训练系统的模块示意图。
图5为本发明实施例3的电子设备的结构示意图。
图6为本发明实施例5的回声消除方法的流程图。
图7为本发明实施例6的回声消除系统的模块示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种模型训练方法,如图1所示,该模型训练方法包括:
步骤101、获取历史训练数据,该历史训练数据包括近端信号和远端信号以及近端语音信号,该近端信号为包含近端噪音信号、近端语音信号以及回声信号的混合信号;
本实施例中,得到近端信号的公式为:
y(n)=s(n)+v(n)+d(n) (1)
其中,y(n)表示近端信号,v(n)表示近端噪音信号,s(n)表示近端语音信号,d(n)表示回声信号,可以用d(n)=f(x(n)),f()为回声信道,x(n)表示远端信号。
需要说明的是,对于真实数据,无需考虑远端信号和回声信号的关系,但回声消除任务的数据稀缺、录制困难,需要考虑信号的合成。
本实施例中,对于信号的合成,由上述公式(1)可知,x(n)、s(n)的获取比较简单,而复杂的地方在于如何通过x(n)获得d(n),也就是如何模拟回声信道。在获得回声信号后,可以通过将近端语音和回声信号按照制定信噪比混合的方式,获得近端信号。而回声信号的获取,常见方法是通过房间脉冲响应RIR的方法来模拟,单纯使用此类卷积的方法合成的回声信号缺少非线性,因此需要在合成回声信号时增加非线性,模拟扬声器的失真和其他复杂情况。例如使用非线性函数、模拟因放大产生的削波,或采用深度学习的方法对音频进行非线性变换。
步骤102、基于历史训练数据训练神经网络模型,以得到回声消除模型;
本实施例中,回声消除模型以近端信号和远端信号为输入,以消除回声后得到的近端语音信号为输出。
本实施例中,在训练神经网络模型以得到回声消除模型的过程中,将近端信号和远端信号的特征在归一化之后进行串联,输入回声消除模型中进行掩码估计后输出掩码,在特征上进行掩蔽,再将特征还原到时域。
在一可实施的方案中,如图2所示,该模型训练方法还包括:
步骤1010、对历史训练数据进行静音检测去除处理,以得到去除静音后的历史训练数据;
本实施例中,若获取的历史训练数据中的近端语音信号中存在时间较长的静音,会导致同时未添加回声信号,进而导致近端信号y(n)的值为0,从而导致loss(损失函数)异常。因此在模型训练时需要保证历史训练数据中的近端语音信号中无过长的静音段,具体地,可以对历史训练数据中的近端语音信号进行静音检测,计算历史训练数据中的近端语音信号的能量值,并将该能量值与设置的能量阈值进行比较,在该能量值大于能量阈值的情况下,则确定该近端语音信号中存在静音段,并抛弃能量较低的部分(即去除近端语音信号中的静音)。需要说明的是,能量阈值根据实际情况进行设置,例如,能量阈值可以设置为0.99,也可以设置为其他数值,此处不做具体限定。
步骤102具体为:步骤102’、基于去除静音后的历史训练数据训练神经网络模型,以得到回声消除模型。
在一可实施的方案中,如图3所示,该模型训练方法还包括:
步骤103、从历史训练数据中获取测试数据;
步骤104、利用测试数据测试回声消除模型的预测结果,以得到测试数据对应的预测近端语音信号;
步骤105、获取测试数据对应的真实近端语音信号;
步骤106、基于预测近端语音信号与真实近端语音信号计算回声消除模型的损失函数值;
步骤107、基于损失函数值优化回声消除模型。
需要说明的是,在深度学习中,模型的损失函数起到衡量预测结果偏差的程度,达到了优化的目标。
本实施例采用的是SNR(信噪比)损失函数,也可以采用其他损失函数,而SNR信噪比是通信中的一个常见概念,用于衡量信号和噪声的比例。SNR 损失函数借用了信噪比的概念,SNR损失函数的计算公式为:
其中,SNR表示回声消除模型的损失函数值,表示真实近端语音信号, X表示预测近端语音信号,E表示真实近端语音信号和预测近端语音信号之间的误差值,SNR越大表示真实近端语音信号和预测近端语音信号之间的误差越小,回声消除模型的效果越佳。
需要说明的是,模型在训练中需注意loss=inf的问题,而该问题是由 SNR损失函数的定义导致的,当分母为0时,会导致inf(函数值下界)的问题。
本实施例通过获取近端信号和远端信号以及近端语音信号的历史训练数据,基于历史训练数据训练神经网络模型,以得到回声消除模型,实现了利用回声消除模型对输入的近端信号和远端信号进行回声消除,进而得到消除回声后的近端语音信号,提高了回声消除的准确性以及回声消除的效率。
实施例2
本实施例提供一种模型训练系统,如图4所示,该模型训练系统包括:
第一获取模块1,用于获取历史训练数据,该历史训练数据包括近端信号和远端信号以及近端语音信号,该近端信号为包含近端噪音信号、近端语音信号以及回声信号的混合信号;
本实施例中,得到近端信号的公式为:
y(n)=s(n)+v(n)+d(n) (1)
其中,y(n)表示近端信号,v(n)表示近端噪音信号,s(n)表示近端语音信号,d(n)表示回声信号,可以用d(n)=f(x(n)),f()为回声信道,x(n)表示远端信号。
需要说明的是,对于真实数据,无需考虑远端信号和回声信号的关系,但回声消除任务的数据稀缺、录制困难,需要考虑信号的合成。
本实施例中,对于信号的合成,由上述公式(1)可知,x(n)、s(n)的获取比较简单,而复杂的地方在于如何通过x(n)获得d(n),也就是如何模拟回声信道。在获得回声信号后,可以通过将近端语音和回声信号按照制定信噪比混合的方式,获得近端信号。而回声信号的获取,常见方法是通过房间脉冲响应RIR的方法来模拟,单纯使用此类卷积的方法合成的回声信号缺少非线性,因此需要在合成回声信号时增加非线性,模拟扬声器的失真和其他复杂情况。例如使用非线性函数、模拟因放大产生的削波,或采用深度学习的方法对音频进行非线性变换。
训练模块2,用于基于历史训练数据训练神经网络模型,以得到回声消除模型;
本实施例中,回声消除模型以近端信号和远端信号为输入,以消除回声后得到的近端语音信号为输出。
本实施例中,在训练神经网络模型以得到回声消除模型的过程中,将近端信号和远端信号的特征在归一化之后进行串联,输入回声消除模型中进行掩码估计后输出掩码,在特征上进行掩蔽,再将特征还原到时域。
在一可实施的方案中,如图4所示,该模型训练系统还包括:
处理模块3,用于对历史训练数据进行静音检测去除处理,以得到去除静音后的历史训练数据。
本实施例中,若获取的历史训练数据中的近端语音信号中存在时间较长的静音,会导致同时未添加回声信号,进而导致近端信号y(n)的值为0,从而导致loss异常。因此在模型训练时需要保证历史训练数据中的近端语音信号中无过长的静音段,具体地,可以对历史训练数据中的近端语音信号进行静音检测,计算历史训练数据中的近端语音信号的能量值,并将该能量值与设置的能量阈值进行比较,在该能量值大于能量阈值的情况下,则确定该近端语音信号中存在静音段,并抛弃能量较低的部分(即去除近端语音信号中的静音)。需要说明的是,能量阈值根据实际情况进行设置,例如,能量阈值可以设置为0.99,也可以设置为其他数值,此处不做具体限定。
本实施例中,训练模块2,具体用于基于去除静音后的历史训练数据训练神经网络模型,以得到回声消除模型。
在一可实施的方案中,如图4所示,该模型训练系统还包括:
第二获取模块4,用于从历史训练数据中获取测试数据;
测试模块5,用于利用测试数据测试回声消除模型的预测结果,以得到测试数据对应的预测近端语音信号;
第三获取模块6,用于获取测试数据对应的真实近端语音信号;
计算模块7,用于基于预测近端语音信号与真实近端语音信号计算回声消除模型的损失函数值;
优化模块8,用于基于损失函数值优化回声消除模型。
需要说明的是,在深度学习中,模型的损失函数起到衡量预测结果偏差的程度,达到了优化的目标。
本实施例采用的是SNR损失函数,也可以采用其他损失函数,而SNR 信噪比是通信中的一个常见概念,用于衡量信号和噪声的比例。SNR损失函数借用了信噪比的概念,SNR损失函数的计算公式为:
其中,SNR表示回声消除模型的损失函数值,表示真实近端语音信号, X表示预测近端语音信号,E表示真实近端语音信号和预测近端语音信号之间的误差值,SNR越大表示真实近端语音信号和预测近端语音信号之间的误差越小,回声消除模型的效果越佳。
需要说明的是,模型在训练中需注意loss=inf的问题,而该问题是由 SNR损失函数的定义导致的,当分母为0时,会导致inf的问题。
本实施例通过获取近端信号和远端信号以及近端语音信号的历史训练数据,基于历史训练数据训练神经网络模型,以得到回声消除模型,实现了利用回声消除模型对输入的近端信号和远端信号进行回声消除,进而得到消除回声后的近端语音信号,提高了回声消除的准确性以及回声消除的效率。
实施例3
图5为本发明实施例3提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现实施例1的模型训练方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/ 或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1的模型训练方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等) 通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器36 通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现实施例1所提供的模型训练方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例1所述的模型训练方法。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
实施例5
本实施例提供一种回声消除方法,如图6所示,该回声消除方法包括:
步骤201、获取待处理的近端信号;
本实施例中,在呼叫中心的场景下,声学回声是由于客人的设备问题导致的,也就是客人声道传输的是近端信号,而客服声道传输的是远端信号。
在具体实施过程中,上游传过来的是bytes(字节)型的音频流,但回声消除模型的输入是float(浮点)型的,因此需要对两个声道的音频流进行数据转换。另外,呼叫中心每天的通话量十分可观,而回声信号相对来说较少,若对全量通话进行回声消除,则是对资源的一种浪费。因此需要在回声消除前进行回声检测,只对认为有回声问题的通话应用回声检测。在呼叫中心的场景下,客人和客服并不会长时间同时说话,因此可以将客人、客服同时说话时间占客服说话时间的比例作为衡量该通通话出现回声情况的可能性值(即概率值)。当该概率值大于设定的回声概率阈值时,则确定该通通话中存在回声信号的情况,即可获取到待处理的近端信号和远端信号,以便后续将该通通话输入回声消除模型进行回声消除。
需要说明的是,回声概率阈值根据实际情况进行设置,例如该回声概率阈值可以设置为0.75,也可以设置为其他数值,此处不做具体限定。
步骤202、将待处理的近端信号输入利用实施例1的模型训练方法训练得到的回声消除模型,以输出消除回声后的近端语音信号。
在具体实施过程中,本实施例中的回声消除模型采用mask(掩蔽)的方式,对混有回声信号的近端信号进行两次回声消除,第一次回声消除是基于傅里叶变换得到的频域特征,并用原始的相位和掩蔽后的幅度对时域信号进行重构。具体地,回声消除模型对输入的近端信号和远端信号进行分帧和快速傅里叶变换。对于8000hz的采样率来说,设置帧长为256,帧移为64。在傅里叶变换之后,分别获得了近端信号和远端信号的幅度谱mag和相位谱phase。在对幅度谱进行遮蔽之前,回声消除模型需要对近端信号和远端信号的幅度谱mag_x和mag_y进行归一化,这种归一化的方法适合分离类的任务。
近端信号和远端信号的幅度谱在归一化后进行拼接,然后计算掩码。回声消除模型中计算近端信号和远端信号掩码的部分由两层双向LSTM组成,后接全连接,最后用sigmod输出掩码。得到于幅度谱尺度一致的掩码后,回声消除模型将掩码和近端信号的幅度谱进行点乘,即进行第一次掩蔽。回声消除模型利用掩蔽后的幅度谱与近端信号的相位谱进行逆傅里叶变换,将近端信号从频域转换回时域。
第二次回声消除是基于通过卷积得到的深度特征,在掩蔽后使用卷积对时域信号进线重构,并使用overlap and add(重叠相加)的算法消除分帧导致的帧和帧之前的重叠部分,输出近端语音信号。具体地,采用两个1D卷积网络对经过一次掩蔽的近端信号与远端信号进行特征提取。对深度特征应用instant layer normalization(即时归一化)后拼接,然后估计掩码,获得掩码后的深度特征。此时近端信号的原始深度特征是由1D卷积计算得到的,相应的,也用1D卷积去还原深度特征,将其还原到时域。但此时获得的帧级的时域信号仍然和目标近端语音信号有差别,原因在于相邻帧之间有重叠的地方。考虑到这些重叠的地方,使用overlap and add的方法对近端语音信号进行加权平均,也就是对重叠区域内的近端语音信号进行平均,重构近端语音信号。
需要说明的是,本实施例通过回声消除模型可以直接接收近端信号和远端信号,并输出近端语音信号,提高了回声消除的效率。
本实施例通过回声消除模型对混有回声信号的近端信号进行两次回声消除,并且两次回声消除结合了时频特征和深度特征的优点,能够更好地更精准地进行回声消除,而基于深度学习的回声消除模型的双消除实现了在真实场景下的不同时延、背景噪音、非线性失真、单双讲的情况下均有较好的回声消除效果,同时由于将特征提取嵌入到回声消除模型中,因此部署简单,无需考虑不同平台的声学特征提取,提高了回声消除的效率以及回声消除的准确度。
实施例6
本实施例提供一种回声消除系统,如图7所示,该回声消除系统包括:
待处理信号获取模块61,用于获取待处理的近端信号;
本实施例中,在呼叫中心的场景下,声学回声是由于客人的设备问题导致的,也就是客人声道传输的是近端信号,而客服声道传输的是远端信号。
在具体实施过程中,上游传过来的是bytes型的音频流,但回声消除模型的输入是float型的,因此需要对两个声道的音频流进行数据转换。另外,呼叫中心每天的通话量十分可观,而回声信号相对来说较少,若对全量通话进行回声消除,则是对资源的一种浪费。因此需要在回声消除前进行回声检测,只对认为有回声问题的通话应用回声检测。在呼叫中心的场景下,客人和客服并不会长时间同时说话,因此可以将客人、客服同时说话时间占客服说话时间的比例作为衡量该通通话出现回声情况的可能性值(即概率值)。当该概率值大于设定的回声概率阈值时,则确定该通通话中存在回声信号的情况,即可获取到待处理的近端信号和远端信号,以便后续将该通通话输入回声消除模型进行回声消除。
需要说明的是,回声概率阈值根据实际情况进行设置,例如该回声概率阈值可以设置为0.75,也可以设置为其他数值,此处不做具体限定。
输入模块62,用于将待处理的近端信号输入利用实施例2的模型训练系统训练得到的回声消除模型,以输出消除回声后的近端语音信号。
在具体实施过程中,本实施例中的回声消除模型采用mask的方式,对混有回声信号的近端信号进行两次回声消除,第一次回声消除是基于傅里叶变换得到的频域特征,并用原始的相位和掩蔽后的幅度对时域信号进行重构。具体地,回声消除模型对输入的近端信号和远端信号进行分帧和快速傅里叶变换。对于8000hz的采样率来说,设置帧长为256,帧移为64。在傅里叶变换之后,分别获得了近端信号和远端信号的幅度谱mag和相位谱phase。在对幅度谱进行遮蔽之前,回声消除模型需要对近端信号和远端信号的幅度谱mag_x和mag_y进行归一化,这种归一化的方法适合分离类的任务。
近端信号和远端信号的幅度谱在归一化后进行拼接,然后计算掩码。回声消除模型中计算近端信号和远端信号掩码的部分由两层双向LSTM组成,后接全连接,最后用sigmod输出掩码。得到于幅度谱尺度一致的掩码后,回声消除模型将掩码和近端信号的幅度谱进行点乘,即进行第一次掩蔽。回声消除模型利用掩蔽后的幅度谱与近端信号的相位谱进行逆傅里叶变换,将近端信号从频域转换回时域。
第二次回声消除是基于通过卷积得到的深度特征,在掩蔽后使用卷积对时域信号进线重构,并使用overlap and add的算法消除分帧导致的帧和帧之前的重叠部分,输出近端语音信号。具体地,采用两个1D卷积网络对经过一次掩蔽的近端信号与远端信号进行特征提取。对深度特征应用instant layer normalization后拼接,然后估计掩码,获得掩码后的深度特征。此时近端信号的原始深度特征是由1D卷积计算得到的,相应的,也用1D卷积去还原深度特征,将其还原到时域。但此时获得的帧级的时域信号仍然和目标近端语音信号有差别,原因在于相邻帧之间有重叠的地方。考虑到这些重叠的地方,使用overlap andadd的方法对近端语音信号进行加权平均,也就是对重叠区域内的近端语音信号进行平均,重构近端语音信号。
需要说明的是,本实施例通过回声消除模型可以直接接收近端信号和远端信号,并输出近端语音信号,提高了回声消除的效率。
本实施例通过回声消除模型对混有回声信号的近端信号进行两次回声消除,并且两次回声消除结合了时频特征和深度特征的优点,能够更好地更精准地进行回声消除,而基于深度学习的回声消除模型的双消除实现了在真实场景下的不同时延、背景噪音、非线性失真、单双讲的情况下均有较好的回声消除效果,同时由于将特征提取嵌入到回声消除模型中,因此部署简单,无需考虑不同平台的声学特征提取,提高了回声消除的效率以及回声消除的准确度。
实施例7
本发明实施例7提供的一种电子设备的结构示意图,该实施例中的电子设备的结构示意图与图5的结构相同。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现实施例5的回声消除方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/ 或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例5的回声消除方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等) 通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器36 通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例8
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现实施例5所提供的回声消除方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例5所述的回声消除方法。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (10)
1.一种模型训练方法,其特征在于,所述模型训练方法包括:
获取历史训练数据,所述历史训练数据包括近端信号和远端信号以及近端语音信号,所述近端信号为包含近端噪音信号、近端语音信号以及回声信号的混合信号;
基于所述历史训练数据训练神经网络模型,以得到回声消除模型;
所述回声消除模型以所述近端信号和所述远端信号为输入,以消除回声后得到的近端语音信号为输出。
2.如权利要求1所述的模型训练方法,其特征在于,所述获取历史训练数据的步骤之后,所述模型训练方法还包括:
对所述历史训练数据进行静音检测去除处理,以得到去除静音后的历史训练数据。
3.如权利要求1所述的模型训练方法,其特征在于,所述模型训练方法还包括:
从所述历史训练数据中获取测试数据;
利用所述测试数据测试所述回声消除模型的预测结果,以得到所述测试数据对应的预测近端语音信号;
获取所述测试数据对应的真实近端语音信号;
基于所述预测近端语音信号与所述真实近端语音信号计算所述回声消除模型的损失函数值;
基于所述损失函数值优化所述回声消除模型。
4.一种模型训练系统,其特征在于,所述模型训练系统包括:
第一获取模块,用于获取历史训练数据,所述历史训练数据包括近端信号和远端信号以及近端语音信号,所述近端信号为包含近端噪音信号、近端语音信号以及回声信号的混合信号;
训练模块,用于基于所述历史训练数据训练神经网络模型,以得到回声消除模型;
所述回声消除模型以所述近端信号和所述远端信号为输入,以消除回声后得到的近端语音信号为输出。
5.如权利要求4所述的模型训练系统,其特征在于,所述模型训练系统还包括:
处理模块,用于对所述历史训练数据进行静音检测去除处理,以得到去除静音后的历史训练数据。
6.如权利要求4所述的模型训练系统,其特征在于,所述模型训练系统还包括:
第二获取模块,用于从所述历史训练数据中获取测试数据;
测试模块,用于利用所述测试数据测试所述回声消除模型的预测结果,以得到所述测试数据对应的预测近端语音信号;
第三获取模块,用于获取所述测试数据对应的真实近端语音信号;
计算模块,用于基于所述预测近端语音信号与所述真实近端语音信号计算所述回声消除模型的损失函数值;
优化模块,用于基于所述损失函数值优化所述回声消除模型。
7.一种回声消除方法,其特征在于,所述回声消除方法包括:
获取待处理的近端信号;
将所述待处理的近端信号输入利用如权利要求1-3中任一项所述的模型训练方法训练得到的回声消除模型,以输出消除回声后的近端语音信号。
8.一种回声消除系统,其特征在于,所述回声消除方法包括:
待处理信号获取模块,用于获取待处理的近端信号;
输入模块,用于将所述待处理的近端信号输入利用如权利要求4-6中任一项所述的模型训练系统训练得到的回声消除模型,以输出消除回声后的近端语音信号。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-3中任一项所述的模型训练方法,或执行如权利要求7所述的回声消除方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的模型训练方法,或执行如权利要求7所述的回声消除方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210176223.8A CN114530160A (zh) | 2022-02-25 | 2022-02-25 | 模型训练方法、回声消除方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210176223.8A CN114530160A (zh) | 2022-02-25 | 2022-02-25 | 模型训练方法、回声消除方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114530160A true CN114530160A (zh) | 2022-05-24 |
Family
ID=81625109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210176223.8A Pending CN114530160A (zh) | 2022-02-25 | 2022-02-25 | 模型训练方法、回声消除方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114530160A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115113855A (zh) * | 2022-05-31 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、电子设备和存储介质 |
CN117437929A (zh) * | 2023-12-21 | 2024-01-23 | 睿云联(厦门)网络通讯技术有限公司 | 一种基于神经网络的实时回声消除方法 |
-
2022
- 2022-02-25 CN CN202210176223.8A patent/CN114530160A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115113855A (zh) * | 2022-05-31 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、电子设备和存储介质 |
CN115113855B (zh) * | 2022-05-31 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、电子设备、存储介质和产品 |
CN117437929A (zh) * | 2023-12-21 | 2024-01-23 | 睿云联(厦门)网络通讯技术有限公司 | 一种基于神经网络的实时回声消除方法 |
CN117437929B (zh) * | 2023-12-21 | 2024-03-08 | 睿云联(厦门)网络通讯技术有限公司 | 一种基于神经网络的实时回声消除方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7313518B2 (en) | Noise reduction method and device using two pass filtering | |
US6263307B1 (en) | Adaptive weiner filtering using line spectral frequencies | |
US5706395A (en) | Adaptive weiner filtering using a dynamic suppression factor | |
CN108604452B (zh) | 声音信号增强装置 | |
US20130231925A1 (en) | Monaural Noise Suppression Based on Computational Auditory Scene Analysis | |
US8218780B2 (en) | Methods and systems for blind dereverberation | |
CN114530160A (zh) | 模型训练方法、回声消除方法、系统、设备及存储介质 | |
CN112820315B (zh) | 音频信号处理方法、装置、计算机设备及存储介质 | |
Kumar | Real-time performance evaluation of modified cascaded median-based noise estimation for speech enhancement system | |
Kumar | Comparative performance evaluation of MMSE-based speech enhancement techniques through simulation and real-time implementation | |
CN111883154A (zh) | 回声消除方法及装置、计算机可读的存储介质、电子装置 | |
Morita et al. | Robust voice activity detection based on concept of modulation transfer function in noisy reverberant environments | |
CN114333893A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN117219102A (zh) | 一种基于听觉感知的低复杂度语音增强方法 | |
CN109215635B (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 | |
Schröter et al. | CLC: complex linear coding for the DNS 2020 challenge | |
CN113744762B (zh) | 一种信噪比确定方法、装置、电子设备和存储介质 | |
CN112489669B (zh) | 一种音频信号处理方法、装置、设备和介质 | |
CN114360572A (zh) | 语音去噪方法、装置、电子设备及存储介质 | |
JP2024502287A (ja) | 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム | |
CN114333892A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN114827363A (zh) | 用于通话过程中消除回声的方法、设备和可读存储介质 | |
CN114333891A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
Unoki et al. | MTF-based power envelope restoration in noisy reverberant environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |