CN111048061A - 回声消除滤波器的步长获取方法、装置及设备 - Google Patents
回声消除滤波器的步长获取方法、装置及设备 Download PDFInfo
- Publication number
- CN111048061A CN111048061A CN201911382763.6A CN201911382763A CN111048061A CN 111048061 A CN111048061 A CN 111048061A CN 201911382763 A CN201911382763 A CN 201911382763A CN 111048061 A CN111048061 A CN 111048061A
- Authority
- CN
- China
- Prior art keywords
- signal
- sample
- echo cancellation
- echo
- cancellation filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000010606 normalization Methods 0.000 claims abstract description 74
- 238000003062 neural network model Methods 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000001228 spectrum Methods 0.000 claims abstract description 15
- 230000005236 sound signal Effects 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 13
- 230000001105 regulatory effect Effects 0.000 claims description 11
- 238000004088 simulation Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 238000002592 echocardiography Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 208000013407 communication difficulty Diseases 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1785—Methods, e.g. algorithms; Devices
- G10K11/17853—Methods, e.g. algorithms; Devices of the filter
- G10K11/17854—Methods, e.g. algorithms; Devices of the filter the filter being an adaptive filter
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
Abstract
本申请提供了一种回声消除滤波器的步长获取方法、装置、设备及可读存储介质,将第一信号与第二信号进行能量规整,将能量规整后的信号的频谱,输入预设的神经网络模型,得到神经网络模型输出的步长参数,进一步,依据步长参数,获取回声消除滤波器的步长。综上,本申请利用神经网络模型输出的步长参数,得到回声消除滤波器的步长,其中,神经网络模型经过大量的训练数据进行训练得到,该神经网络模型能够对非线性的数据进行学习,得到最优的输出值。相对于现有技术,本申请实施例中获取的步长具有高准确性以及最优性。
Description
技术领域
本申请涉及信号处理技术领域,更具体地说,涉及一种回声消除滤波器的步长获取方法、装置、设备及可读存储介质。
背景技术
回声消除应用非常广泛,无论是通信领域,例如手机免提、还是具备播放功能的智能硬件领域,例如智能音响、智能电视等,只要扬声器与麦克风存在耦合,麦克风将拾取扬声器发出的信号及其混响,产生回声。由扬声器到麦克风之间的回声如果不及时消除,会对系统产生较大的影响。例如,在通信领域,如果近端说话人和远端说话人的声音同时传向远端,经过网络传输产生时延,则远端说话人会听到自己的回声,造成沟通困难。在智能硬件领域,例如对智能电视、音响等能够播放声音的智能交互系统进行语音控制,若播放的声音和说话人一同传入识别系统,造成识别系统的错误识别。
自适应滤波器是回声消除的常用组件,基本原理如图1所示,自适应滤波器接收远端输入信号(如扬声器输出的远端讲话人的语音,称为参考信号X),并依据远端输入信号和传递函数估计回声信号,得到远端输入信号的估计回声信号(称为回声预测信号Hf)。近端输入的信号(如麦克风采集的声音信号,称为麦克信号Y)包括近端输入的语音信号(如麦克风采集的平滑的声音信号,称为语音信号C)以及远端输入信号经回声环境传输形成的回声信号H。实际中,近端输入的信号Y中还包括噪声信号Z。自适应滤波器从近端输入的信号中去除估计的回声信号,使得输出信号E中不包括远端输入信号的回声信号。
自适应滤波器通过算法自适应地更新传递函数(即用于回声估计的函数),步长越大,更新越快。现有技术中,通常使用信号之间的线性相关性更新步长,而在双讲、噪声干扰严重以及非线性较为严重的情况下,相关性计算会受到严重影响,进而降低步长估计的准确性。
发明内容
有鉴于此,本申请提供了一种回声消除滤波器的步长获取方法、装置、设备及可读存储介质,以提高步长估计的准确性。如下:
一种回声消除滤波器的步长获取方法,所述回声消除滤波器用于消除系统的回声,所述系统包括声音输出单元和声音采集单元,所述方法包括:
将第一信号与第二信号进行能量规整,其中,所述第一信号为所述声音输出单元输出的声音信号和/或所述回声消除滤波器预测出的回声预测信号,所述第二信号为所述回声消除滤波器输出的回声消除信号和/或所述声音采集单元采集到的声音信号;
将能量规整后的信号的频谱,输入预设的神经网络模型,得到所述神经网络模型输出的步长参数,所述能量规整后的信号包括能量规整后的所述第一信号以及能量规整后的所述第二信号;
依据所述步长参数,获取所述回声消除滤波器的步长。
可选地,将所述第一信号和所述第二信号进行能量规整的过程,包括:
获取第一数值,所述第一数值为预设的参考信号的能量与所述声音输出单元输出的声音信号的能量比值;
依据所述第一数值,确定第二数值;
将所述第二数值与所述第一信号的乘积,作为能量规整后的所述第一信号,将所述第二数值与所述第二信号的乘积,作为能量规整后的所述第二信号。
可选地,步长参数包括步长值;
所述依据所述步长参数,获取所述回声消除滤波器的步长,包括:将所述步长值作为所述回声消除滤波器的步长。
可选地,步长参数包括泄露因子或残留回声;
所述依据所述步长参数,获取所述回声消除滤波器的步长,包括:
依据所述泄露因子或所述残留回声,计算得到所述回声消除滤波器的步长值。
可选地,预设的神经网络模型的训练过程包括:
获取样本第一信号和样本第二信号,所述样本第一信号为所述声音输出单元输出的样本声音信号和/或所述回声消除滤波器预测出的样本回声预测信号,所述样本第二信号为所述回声消除滤波器输出的样本回声消除信号和/或所述声音采集单元采集到的样本声音信号;
使用能量规整后的所述样本第一信号的频谱、能量规整后的所述样本第二信号的频谱、以及标注参数,训练所述神经网络模型,所述标注参数包括样本步长参数,所述样本步长参数依据所述样本回声消除信号和所述样本回声预测信号确定。
可选地,样本采集信号的获取方法包括:
获取样本语音信号和样本噪声信号;
通过使用所述声音采集单元采集所述声音输出单元输出的样本声音信号,或者,对所述声音输出单元输出的样本声音信号进行仿真变换,得到样本回声信号;
依据预设信号回声比,叠加所述样本回声信号和所述样本语音信号,得到叠加信号;
将所述叠加信号和所述噪声信号叠加,得到所述样本采集信号。
可选地,回声消除滤波器在t+1时刻输出的样本回声消除信号,依据所述回声消除滤波器在t时刻确定的所述步长获取;
所述回声消除滤波器在t+1时刻预测出的样本预测回声信号,依据所述回声消除滤波器在t时刻确定的所述步长获取。
一种回声消除滤波器的步长获取装置,所述回声消除滤波器用于消除系统的回声,所述系统包括声音输出单元和声音采集单元,所述装置包括:
能量规整单元,用于将第一信号与第二信号进行能量规整,其中,所述第一信号为所述声音输出单元输出的声音信号和/或所述回声消除滤波器预测出的回声预测信号,所述第二信号为所述回声消除滤波器输出的回声消除信号和/或所述声音采集单元采集到的声音信号;
模型预测单元,用于将能量规整后的信号的频谱,输入预设的神经网络模型,得到所述神经网络模型输出的步长参数,所述能量规整后的信号包括能量规整后的所述第一信号以及能量规整后的所述第二信号;
步长获取单元,用于依据所述步长参数,获取所述回声消除滤波器的步长。
一种回声消除滤波器的步长获取设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的回声消除滤波器的步长获取方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如上所述的回声消除滤波器的步长获取方法的各个步骤。
由上述技术方案可以看出,本申请实施例提供的回声消除滤波器的步长获取方法,利用神经网络模型输出的步长参数,得到回声消除滤波器的步长,其中,神经网络模型经过大量的训练数据进行训练得到,该神经网络模型能够对非线性的数据进行学习,得到最优的输出值。相对于现有技术,本申请实施例中获取的步长具有高准确性以及最优性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为示例了一种自适应滤波器的回声消除原理图;
图2为本申请实施例提供的一种回声消除滤波器的步长获取方法的流程示意图;
图3为本申请实施例提供的一种神经网络模型的训练方法的流程示意图;
图4为本申请实施例提供的一种回声消除滤波器的步长获取装置的结构示意图;
图5为本申请实施例提供的一种回声消除滤波器的步长获取设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图2为本申请实施例提供的一种回声消除滤波器的步长获取方法的流程示意图,其中,回声消除滤波器用于消除系统的回声,声音输出单元可以为扬声器或其他声音输出设备,声音采集单元可以为麦克风或者其他声音采集设备。
本申请实施例为便于描述,将任一帧的频点数记为k,帧数记为n(n为大于0的整数),并以获取第n帧回声信号对应的步长为例,对步长获取方法进行介绍。如图2所示,本方法具体可以包括以下步骤:
S201、将第一信号和第二信号进行能量规整。
因为现有的计算步长的方式,将声音输出单元输出的声音信号X(n)假设为常数,而在实际中,X(n)通常不是常数,所以,导致步长估计结果不准确,因此,本实施例中,在进行步长估计之前,先对信号进行能量规整,以使得假设成立,以提高步长估计的准确性。
具体地,第一信号为声音输出单元输出的声音信号X(n),例如图1所示的由扬声器输出的参考信号(下文简称参考信号)。或第一信号为回声消除滤波器预测出的回声预测信号Hf(n),例如图1所示的由自适应滤波器得到的远端输入信号的估计回声信号(下文简称预测信号)。
第二信号为声音采集单元采集到的声音信号Y(n),例如图1所示的由麦克风采集得到的麦克信号(下文简称麦克信号)。或,第二信号为回声消除滤波器输出的回声消除信号E(n),例如图1所示的由自适应滤波器从近端输入的信号中去除回声预测信号,得到的输出信号(下文简称输出信号)。可以理解的是,麦克信号中包括麦克风采集到的噪声信号、参考信号在回声环境中传输形成的回声信号、以及语音信号。
需要说明的是,在可选的情况下,第一信号可以包括参考信号X(n)和预测信号Hf(n)。第二信号可以包括麦克信号Y(n)和输出信号E(n)。
以第n帧为例,将第一信号和第二信号进行能量规整的方法可以包括:
获取第一数值,第一数值为预设的参考信号的能量与参考信号X(n)(无论X(n)是否包括在第一信号中)的能量的比值。将第二数值与第一信号的乘积,作为能量规整后的第一信号。其中,第二数值依据第一数值确定。
具体的,预设的参考信号记为Xref,第一数值记为Ner(n)。则第一数值的计算方法如下:
Ner(n)=||Xref||2/||X(n)||2
本实施例中,第二数值为Ner 1/2(n),则以第一信号为参考信号X(n)为例,能量规整后的参考信号X'(n)的计算方法如下:
X'(n)=[Ner(n)]1/2X(n)
其中,X'(n)为能量规整之后的参考信号。
进一步,将第二数值与第二信号的乘积,作为能量规整后的第二信号,以第二信号为麦克信号Y(n)为例,能量规整后的麦克信号为Y'(n),如下:
Y'(n)=[Ner(n)]1/2Y(n)
其中:Y'(n)为能量规整之后的麦克信号。
S202、将能量规整后的信号的频谱,输入预设的神经网络模型,得到神经网络模型输出的步长参数。
其中,能量规整后的信号包括能量规整后的第一信号以及能量规整后的第二信号。依据神经网络模型的训练过程不同,神经网络模型输出的步长参数可以为步长值、泄露因子或残留回声。所以本实施例中,得到神经网络模型输出的步长参数的具体方法可以为以下任意一种:
第一种、将能量规整后的第一信号,例如能量规整后的参考信号X'(n)、以及能量规整后的第二信号,例如能量规整后的麦克信号Y'(n)、和能量规整后的输出信号E'(n)输入至神经网络模型,得到神经网络模型输出的步长值。
第二种、将能量规整后的第一信号,例如能量规整后的参考信号X'(n)、以及能量规整后的第二信号,例如能量规整后的麦克信号Y'(n)、和能量规整后的输出信号E'(n)输入至神经网络模型,得到神经网络模型输出的泄露因子。
第三种、将能量规整后的第一信号,例如能量规整后的参考信号X'(n)、以及能量规整后的第二信号,例如能量规整后的麦克信号Y'(n)和能量规整后的输出信号E'(n)输入至神经网络模型,得到神经网络模型输出的残留回声。
需要说明的是,在步长参数为步长值的情况下,直接将步长值作为回声消除滤波器的步长。在步长参数为泄露因子或残留回声的情况下,还可以包括以下步骤:
S203、依据步长参数,获取回声消除滤波器的步长值。
具体的,在步长参数为泄露因子的情况下,依据泄露因子计算得到步长值,计算方法如下:
首先依据泄露因子计算残留回声,如下:
在步长参数为残留回声的情况下,依据残留回声计算得到步长,计算方法如下:
由上述技术方案可以看出,本申请实施例提供的回声消除滤波器的步长获取方法,利用神经网络模型输出的步长参数,得到回声消除滤波器的步长,其中,神经网络模型经过大量的训练数据进行训练得到,该神经网络模型能够对非线性的数据进行学习,得到最优的输出值。并且,使用能量规整后的信号作为模型的输入,能够进一步提高结果的准确性。综上,相对于现有技术,本申请实施例中获取的步长具有高准确性以及最优性。
例如,传统的回声消除方法是将回声路径建模为线性系统,但由于功放和扬声器等组件存在非线性工作区,当残留回声中若存在大量的非线性成分时,会影响滤波器收敛,导致步长预测准确性低。但是,本实施例中的神经网络模型经过大量的训练数据进行训练得到,并且对复杂的非线性映射学习能力强,从而可以精准估计出不同状态下的最优的步长参数,基于最优的步长参数,本实施例进一步可以得到准确性高的最优步长的估计。
图3为本申请实施例提供的一种神经网络模型的训练过程,其中,神经网络模型可以采用两层长短期记忆网络(LSTM,Long Short-Term Memory)模型,具体可以包括:
S301、获取样本第一信号和样本第二信号。
具体地,样本第一信号为声音输出单元输出的样本声音信号(下文简称样本参考信号),或样本第一信号为回声消除滤波器预测出的样本回声预测信号,(下文简称样本预测信号)。
样本第二信号为声音采集单元采集到的样本声音信号(下文简称样本麦克信号)。或,样本第二信号为回声消除滤波器输出的样本回声消除信号(下文简称样本输出信号)。可以理解的是,样本麦克信号中包括麦克风采集到的样本噪声信号、样本参考信号在回声环境中传输形成的样本回声信号、以及样本语音信号。
需要说明的是,在可选的情况下,样本第一信号包括样本参考信号和样本预测信号。样本第二信号包括样本麦克信号和样本输出信号。
其中,样本参考信号的获取方法为,在回声环境中,由采集声音输出单元播放声音信号,并直接采集播放的声音信号作为样本参考信号。
样本麦克信号的获取方法包括S1~S2,如下:
S1、获取样本语音信号、样本噪声信号和样本回声信号。
其中,样本语音信号可以为预设的语音信号,获取方法可以为由仿真软件生成仿真语音信号得到样本语音信号,或者,样本语音信号可以由声音采集单元现场采集近端发出的语音得到。
样本噪声信号可以为平稳噪声,例如回声环境中的空调噪声,也可以为非平稳噪声,例如回声环境中的咳嗽声或键盘敲击声音。本实施例可以在回声环境中设置噪声源(如空调、或实验人员),采集噪声源发出的实际的噪声信号作为样本噪声信号,也可以由仿真软件生成仿真噪声信号作为样本噪声信号。
样本回声信号为声音输出单元输出的样本参考信号经过回声环境传播,形成的回声信号。
本实施例中样本回声信号的获取方法可以为:在不同的回声环境中,使用声音采集单元采集声音输出单元输出的样本参考信号。其中,声音采集单元和声音输出单元的距离可以设置为10~20cm,并且,可以设置声音采集单元和声音输出单元不同的相对位置,保证采集的样本回声信号的多样性。
可以理解的是,这种方法需要经过大量的实验获取样本参考信号在回声环境中传输形成的实际的回声信号。
另外,本实施例还可以对样本参考信号进行仿真变换,得到样本回声信号。
例如,利用房间冲激响应软件生成每一样本参考信号对应的样本回声信号。并且,可以利用模型生成不同房间尺寸、吸声系数、反射系数、混响时间的冲激响应,由此仿真得到每一样本参考信号在不同回声环境下传播形成的样本回声信号。
S2、依据预设信号回声比,叠加样本回声信号和样本语音信号,得到叠加信号。并且,将叠加信号和噪声信号叠加,得到样本麦克信号。
本实施例将任一样本回声信号与任一样本语音信号按照信号回声比进行叠加,得到一个叠加信号。需要说明的是,任一样本回声信号可以和任一样本语音信号分别按照不同的信号回声比叠加,得到多个叠加信号。
可以理解的是,本步骤将任一叠加信号与任一噪声信号按照预设的信噪比进行叠加,得到一个样本采集信号。需要说明的是,任一叠加信号可以和任一噪声信号分别按照不同的信噪比叠加,得到样本麦克信号。
例如,样本噪声信号为z(t),样本回声信号为h(t),样本语音信号为c(t),样本回声信号h(t)依据样本参考信号x(t)得到。则,h(t)本申请实施例可以按照回声比P叠加c(t)和h(t)得到叠加信号d(t),进一步按照信噪比Q叠加z(t)和d(t)得到样本麦克信号y(t)。
需要说明的是,任一样本采集信号中包括:样本参考信号的样本回声信号、样本噪声信号、和样本语音信号,或者,样本采集信号中也可以不包括样本噪声信号。
上述得到多个样本参考信号以及多个样本麦克信号。本实施例由样本参考信号和样本麦克信号的时域信号,通过分帧、加窗、以及快速傅里叶变换得到样本参考信号和样本麦克信号的频域信号,即样本参考信号x(k,n)和样本麦克信号y(k,n)。其中,n为帧数,k为频点。
以样本参考信号x(n),样本麦克信号y(n)为例,本实施例中的样本输出信号和样本预测信号的获取方法包括:
将能量规整后的样本参考信号x(n)和能量规整后的样本麦克信号y(n)输入至回声消除滤波器,得到回声消除滤波器中的预测模块依据x(n)估计得到的样本预测信号hf(n)以及由回声消除滤波器依据y(n)和hf(n)输出的样本输出信号e(n)。
S302、使用能量规整后的样本第一信号的频谱、能量规整后的样本第二信号的频谱、以及标注参数,训练神经网络模型。其中,标注参数为样本步长参数,样本步长参数包括样本步长值、样本泄露因子、或样本残留回声。
具体地,根据神经网络模型的输出不同,训练神经网络模型的具体实施例方式可以包括多种,本实施例以帧数为n,频点为k为例,介绍以下可选的三种。
第一种训练方式:
输入数据为能量规整后的样本参考信号、能量规整后的样本麦克信号、和能量规整后的样本输出信号,标注参数为样本步长值。其中,样本步长值为依据样本回声消除信号和样本回声预测信号计算得到的最优步长值。
本实施例中,样本步长值μopt(k,n)的计算方法包括A1~A3,如下:
A1、利用相关性计算样本预测信号中样本残留回声的样本泄露因子η(n),如下:
其中,RDE(k,n)为样本预测信号hf(n)与样本输出信号e(n)的互相关系数,RDD(k,n)为样本预测信号hf(n)的自相关系数。
需要说明的是,泄露因子指的是残留回声与预测信号的比值,即残留的回声,残留的回声越大,需要的步长也越大。
A3、基于样本残留回声与样本输出信号计算样本步长值μopt(k,n)。
具体地,回声消除滤波器的步长更新公式为:
其中,hf(n+1)为第n+1帧的样本预测信号,hf(n)为第n帧的样本预测信号e(n),x(n)为第n帧的样本参考信号,||x(n)||2为第n帧的样本参考信号的能量。
进一步由上式得到:
最优步长值的推导通常使得回声消除滤波器朝失调减小的方向更新,如下:
E{||hΔ(n+1)||2}≤E{||hΔ(n)||2}
其中,hΔ(n+1)为第n+1帧的预测误差,hΔ(n)为第n帧的预测误差,E{}为期望函数。
结合上述两个公式,得到:
求导得到:
其中,eμ(n)为残留回声信号,μopt(n)为第n帧的最优步长值。
若假设噪声信号和残留回声信号独立,且将x(n)替换为能量规整后的样本参考信号x'(n),则满足||x(n)||2是常数,所以进一步得到:
基于上述的推导过程可知,样本残留回声与样本输出信号的能量的比值即为最优步长值,也就是本实施的样本步长值,如下:
对于第n帧,输入数据为能量规整后的样本参考信号x'(k,n),能量规整后的样本麦克信号y'(k,n)、和能量规整后的样本输出信号e'(k,n),目标输出信号为μopt(k,n)。则神经网络模型的损失函数为:
Loss=∑|μopt(k,n)-μ'opt(k,n)|2
其中,μopt(k,n)为样本步长值,μ'opt(k,n)为模型的输出的预测步长值。
需要说明的是,使用多组训练数据依据第一种训练方式得到训练好的神经网络模型,在实际测试过程中,将能量规整后的参考信号X'(n)、能量规整后的麦克信号Y'(n)、和能量规整后的输出信号E'(n)输入,可以得到神经网络模型输出的步长值,可以理解的是,该步长值即为最优步长值。
第二种训练方式:
输入数据为能量规整后的样本参考信号、能量规整后的样本麦克信号、和能量规整后的样本输出信号,标注参数为样本泄露因子。其中,样本泄露因子为依据样本输出信号和样本预测信号计算得到的计算泄露因子。
则,对于第n帧,输入数据为能量规整后的样本参考信号x'(k,n),能量规整后的样本麦克信号y'(k,n)和能量规整后的样本输出信号e'(k,n),目标输出信号为样本泄露因子η(k,n),则神经网络模型的损失函数为:
Loss=∑|η(k,n)-η'(k,n)|2
其中,η(k,n)为计算的样本残留回声,计算方法可以参考上述A1,η'(k,n)为模型的输出的预测泄露因子。
需要说明的是,使用多组训练数据依据第二种训练方式得到训练好的神经网络模型,在实际测试过程中,将能量规整后的参考信号X'(n)、能量规整后的麦克信号Y'(n)、和能量规整后的输出信号E'(n)输入,可以得到神经网络模型输出的泄露因子。本实施例进一步基于该泄露因子和输出信号E(n)可以得到步长值。可以理解的是,该步长值即为最优步长值。
第三种训练方式:
输入数据为能量规整后的样本参考信号、能量规整后的样本麦克信号、和能量规整后的样本输出信号,标注参数为样本残留回声。其中,样本残留回声为依据样本输出信号和样本预测信号计算得到的计算残留回声。
则,对于第n帧,输入数据为能量规整后的样本参考信号x'(k,n)、能量规整后的样本麦克信号y'(k,n)、和能量规整后的样本输出信号e'(k,n),目标输出信号为样本残留回声则神经网络模型的损失函数为:
需要说明的是,使用多组训练数据依据第三种训练方式得到训练好的神经网络模型,在实际测试过程中,将能量规整后的参考信号X'(n)和能量规整后的麦克信号Y'(n)和能量规整后的输出信号E(n)输入,可以得到神经网络模型输出的残留回声。本实施例进一步基于该残留回声和输出信号E(n)可以得到步长值。可以理解的是,该步长值即为最优步长值。
需要说明的是,还可以包括其他的训练方式,本申请实施例不做限定。可以理解的是,以任一种方法训练得到的神经网络模型实际测试过程的输入输出数据与训练过程一致。训练过程中样本第一信号和样本第二信号的规整方法可以参照S201将第一信号和第二信号进行能量规整的方法。在此不做赘述。
进一步,由于在模型训练过程中,t时刻的步长影响回声消除滤波器预测t+1时刻的样本预测信号,进而影响t+1时刻的样本输出信号,所以,本申请实施例可以由神经网络模型输出t时刻的步长。
S301中,获取样本输出信号以及样本预测信号的方法还可以包括:
将t+1时刻的样本参考信号和样本麦克信号记为输入至回声消除滤波器,并依据回声消除滤波器在t时刻确定的步长,获取回声消除滤波器在t+1时刻输出的样本输出信号。依据回声消除滤波器在t时刻确定的步长,获取回声消除滤波器在t+1时刻预测出的样本预测信号。
其中,回声消除滤波器在t时刻确定的步长为基于神经网络模型优化后的步长值,为最优步长值。
由此,本实施例可以实现神经网络模型的在线化,进一步提高了步长的准确性以及最优性。并且,本方法基于神经网络模型获取步长,在实际的模型测试过程中,由于参考信号的幅度是时变的,如果对于每一帧信号做幅度变换,回声消除滤波器系数会出现问题,不断重新收敛。所以本实施例在依据获取的步长更新回声消除滤波器时,输入的是规整后的参考信号以及麦克信号,由此,保证回声消除滤波器的更新的稳定性,进一步保证步长的估计准确性。
本申请实施例还提供了一种回声消除滤波器的步长获取装置,下面对本申请实施例提供的回声消除滤波器的步长获取装置进行描述,下文描述的回声消除滤波器的步长获取装置与上文描述的回声消除滤波器的步长获取方法可相互对应参照。
请参阅图4,示出了本申请实施例提供的一种回声消除滤波器的步长获取装置的结构示意图,如图4所示,该装置可以包括:
能量规整单元401,用于将第一信号与第二信号进行能量规整,其中,所述第一信号为所述声音输出单元输出的声音信号和/或所述回声消除滤波器预测出的回声预测信号,所述第二信号为所述回声消除滤波器输出的回声消除信号和/或所述声音采集单元采集到的声音信号;
模型预测单元402,用于将能量规整后的信号的频谱,输入预设的神经网络模型,得到所述神经网络模型输出的步长参数,所述能量规整后的信号包括能量规整后的所述第一信号以及能量规整后的所述第二信号;
步长获取单元403,用于依据所述步长参数,获取所述回声消除滤波器的步长。
可选地,能量规整单元用于将第一信号与第二信号进行能量规整,包括:能量规整单元具体用于:
获取第一数值,所述第一数值为预设的参考信号的能量与所述声音输出单元输出的声音信号的能量比值;
依据所述第一数值,确定第二数值;
将所述第二数值与所述第一信号的乘积,作为能量规整后的所述第一信号,将所述第二数值与所述第二信号的乘积,作为能量规整后的所述第二信号。
可选地,步长参数包括步长值;
步长获取单元用于依据所述步长参数,获取所述回声消除滤波器的步长,包括:
步长获取单元具体用于:将所述步长值作为所述回声消除滤波器的步长。
可选地,步长参数包括泄露因子或残留回声;
步长获取单元用于依据所述步长参数,获取所述回声消除滤波器的步长,包括:
步长获取单元具体用于:依据所述泄露因子或所述残留回声,计算得到所述回声消除滤波器的步长值。
可选地,本装置还包括模型训练单元,用于训练预设的神经网络模型,包括:模型训练单元具体用于:
获取样本第一信号和样本第二信号,所述样本第一信号为所述声音输出单元输出的样本声音信号和/或所述回声消除滤波器预测出的样本回声预测信号,所述样本第二信号为所述回声消除滤波器输出的样本回声消除信号和/或所述声音采集单元采集到的样本声音信号;
使用能量规整后的所述样本第一信号的频谱、能量规整后的所述样本第二信号的频谱、以及标注参数,训练所述神经网络模型,所述标注参数包括样本步长参数,所述样本步长参数依据所述样本回声消除信号和所述样本回声预测信号确定。
可选地,模型训练单元用于获取样本采集信号,包括:模型训练单元具体用于:
获取样本语音信号和样本噪声信号;
通过使用所述声音采集单元采集所述声音输出单元输出的样本声音信号,或者,对所述声音输出单元输出的样本声音信号进行仿真变换,得到样本回声信号;
依据预设信号回声比,叠加所述样本回声信号和所述样本语音信号,得到叠加信号;
将所述叠加信号和所述噪声信号叠加,得到所述样本采集信号。
可选地,回声消除滤波器在t+1时刻输出的样本回声消除信号,依据所述回声消除滤波器在t时刻确定的所述步长获取;
所述回声消除滤波器在t+1时刻预测出的样本预测回声信号,依据所述回声消除滤波器在t时刻确定的所述步长获取。
本申请实施例还提供了一种回声消除滤波器的步长获取设备,请参阅图5,示出了该回声消除滤波器的步长获取设备的结构示意图,该设备可以包括:至少一个处理器501,至少一个通信接口502,至少一个存储器503和至少一个通信总线504;
在本申请实施例中,处理器501、通信接口502、存储器503、通信总线504的数量为至少一个,且处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信;
处理器501可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器503可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器用于执行程序,实现如上所述的回声消除滤波器的步长获取方法。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的计算机程序,计算机程序被处理器执行时,实现如上所述的回声消除滤波器的步长获取方法。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种回声消除滤波器的步长获取方法,所述回声消除滤波器用于消除系统的回声,所述系统包括声音输出单元和声音采集单元,其特征在于,所述方法包括:
将第一信号与第二信号进行能量规整,其中,所述第一信号为所述声音输出单元输出的声音信号和/或所述回声消除滤波器预测出的回声预测信号,所述第二信号为所述回声消除滤波器输出的回声消除信号和/或所述声音采集单元采集到的声音信号;
将能量规整后的信号的频谱,输入预设的神经网络模型,得到所述神经网络模型输出的步长参数,所述能量规整后的信号包括能量规整后的所述第一信号以及能量规整后的所述第二信号;
依据所述步长参数,获取所述回声消除滤波器的步长。
2.根据权利要求1所述方法,其特征在于,将所述第一信号和所述第二信号进行能量规整的过程,包括:
获取第一数值,所述第一数值为预设的参考信号的能量与所述声音输出单元输出的声音信号的能量比值;
依据所述第一数值,确定第二数值;
将所述第二数值与所述第一信号的乘积,作为能量规整后的所述第一信号,将所述第二数值与所述第二信号的乘积,作为能量规整后的所述第二信号。
3.根据权利要求1所述方法,其特征在于,所述步长参数包括步长值;
所述依据所述步长参数,获取所述回声消除滤波器的步长,包括:将所述步长值作为所述回声消除滤波器的步长。
4.根据权利要求1所述方法,其特征在于,所述步长参数包括泄露因子或残留回声;
所述依据所述步长参数,获取所述回声消除滤波器的步长,包括:
依据所述泄露因子或所述残留回声,计算得到所述回声消除滤波器的步长值。
5.根据权利要求3或4所述方法,其特征在于,所述预设的神经网络模型的训练过程包括:
获取样本第一信号和样本第二信号,所述样本第一信号为所述声音输出单元输出的样本声音信号和/或所述回声消除滤波器预测出的样本回声预测信号,所述样本第二信号为所述回声消除滤波器输出的样本回声消除信号和/或所述声音采集单元采集到的样本声音信号;
使用能量规整后的所述样本第一信号的频谱、能量规整后的所述样本第二信号的频谱、以及标注参数,训练所述神经网络模型,所述标注参数包括样本步长参数,所述样本步长参数依据所述样本回声消除信号和所述样本回声预测信号确定。
6.根据权利要求5所述的方法,其特征在于,所述样本采集信号的获取方法包括:
获取样本语音信号和样本噪声信号;
通过使用所述声音采集单元采集所述声音输出单元输出的样本声音信号,或者,对所述声音输出单元输出的样本声音信号进行仿真变换,得到样本回声信号;
依据预设信号回声比,叠加所述样本回声信号和所述样本语音信号,得到叠加信号;
将所述叠加信号和所述噪声信号叠加,得到所述样本采集信号。
7.根据权利要求5所述的方法,其特征在于,所述回声消除滤波器在t+1时刻输出的样本回声消除信号,依据所述回声消除滤波器在t时刻确定的所述步长获取;
所述回声消除滤波器在t+1时刻预测出的样本预测回声信号,依据所述回声消除滤波器在t时刻确定的所述步长获取。
8.一种回声消除滤波器的步长获取装置,所述回声消除滤波器用于消除系统的回声,所述系统包括声音输出单元和声音采集单元,其特征在于,所述装置包括:
能量规整单元,用于将第一信号与第二信号进行能量规整,其中,所述第一信号为所述声音输出单元输出的声音信号和/或所述回声消除滤波器预测出的回声预测信号,所述第二信号为所述回声消除滤波器输出的回声消除信号和/或所述声音采集单元采集到的声音信号;
模型预测单元,用于将能量规整后的信号的频谱,输入预设的神经网络模型,得到所述神经网络模型输出的步长参数,所述能量规整后的信号包括能量规整后的所述第一信号以及能量规整后的所述第二信号;
步长获取单元,用于依据所述步长参数,获取所述回声消除滤波器的步长。
9.一种回声消除滤波器的步长获取设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~7中任一项所述的回声消除滤波器的步长获取方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~7中任一项所述的回声消除滤波器的步长获取方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911382763.6A CN111048061B (zh) | 2019-12-27 | 2019-12-27 | 回声消除滤波器的步长获取方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911382763.6A CN111048061B (zh) | 2019-12-27 | 2019-12-27 | 回声消除滤波器的步长获取方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111048061A true CN111048061A (zh) | 2020-04-21 |
CN111048061B CN111048061B (zh) | 2022-12-27 |
Family
ID=70240664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911382763.6A Active CN111048061B (zh) | 2019-12-27 | 2019-12-27 | 回声消除滤波器的步长获取方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111048061B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420073A (zh) * | 2020-10-12 | 2021-02-26 | 北京百度网讯科技有限公司 | 语音信号处理方法、装置、电子设备和存储介质 |
WO2022017040A1 (zh) * | 2020-07-21 | 2022-01-27 | 思必驰科技股份有限公司 | 语音合成方法及系统 |
JP2022020055A (ja) * | 2020-10-27 | 2022-01-31 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声処理方法、装置及び音声処理モデルの生成方法、装置 |
CN115762552A (zh) * | 2023-01-10 | 2023-03-07 | 阿里巴巴达摩院(杭州)科技有限公司 | 训练回声消除模型的方法、回声消除方法及对应装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101888455A (zh) * | 2010-04-09 | 2010-11-17 | 熔点网讯(北京)科技有限公司 | 一种频域自适应回声抵消方法 |
US20160240184A1 (en) * | 2013-10-02 | 2016-08-18 | Universiti Putra Malaysia | Method and apparatus for nonlinear compensation in an active noise control system |
CN107123430A (zh) * | 2017-04-12 | 2017-09-01 | 广州视源电子科技股份有限公司 | 回声消除方法、装置、会议平板及计算机存储介质 |
US20190074025A1 (en) * | 2017-09-01 | 2019-03-07 | Cirrus Logic International Semiconductor Ltd. | Acoustic echo cancellation (aec) rate adaptation |
CN109584896A (zh) * | 2018-11-01 | 2019-04-05 | 苏州奇梦者网络科技有限公司 | 一种语音芯片及电子设备 |
-
2019
- 2019-12-27 CN CN201911382763.6A patent/CN111048061B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101888455A (zh) * | 2010-04-09 | 2010-11-17 | 熔点网讯(北京)科技有限公司 | 一种频域自适应回声抵消方法 |
US20160240184A1 (en) * | 2013-10-02 | 2016-08-18 | Universiti Putra Malaysia | Method and apparatus for nonlinear compensation in an active noise control system |
CN107123430A (zh) * | 2017-04-12 | 2017-09-01 | 广州视源电子科技股份有限公司 | 回声消除方法、装置、会议平板及计算机存储介质 |
US20190074025A1 (en) * | 2017-09-01 | 2019-03-07 | Cirrus Logic International Semiconductor Ltd. | Acoustic echo cancellation (aec) rate adaptation |
CN109584896A (zh) * | 2018-11-01 | 2019-04-05 | 苏州奇梦者网络科技有限公司 | 一种语音芯片及电子设备 |
Non-Patent Citations (1)
Title |
---|
CHRISTINA BREINING等: "Applying a neural network for step-size control in echo cancellation", 《IWAENC》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022017040A1 (zh) * | 2020-07-21 | 2022-01-27 | 思必驰科技股份有限公司 | 语音合成方法及系统 |
US11842722B2 (en) | 2020-07-21 | 2023-12-12 | Ai Speech Co., Ltd. | Speech synthesis method and system |
CN112420073A (zh) * | 2020-10-12 | 2021-02-26 | 北京百度网讯科技有限公司 | 语音信号处理方法、装置、电子设备和存储介质 |
CN112420073B (zh) * | 2020-10-12 | 2024-04-16 | 北京百度网讯科技有限公司 | 语音信号处理方法、装置、电子设备和存储介质 |
JP2022020055A (ja) * | 2020-10-27 | 2022-01-31 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声処理方法、装置及び音声処理モデルの生成方法、装置 |
JP7291190B2 (ja) | 2020-10-27 | 2023-06-14 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声処理方法、装置及び音声処理モデルの生成方法、装置 |
CN115762552A (zh) * | 2023-01-10 | 2023-03-07 | 阿里巴巴达摩院(杭州)科技有限公司 | 训练回声消除模型的方法、回声消除方法及对应装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111048061B (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111048061B (zh) | 回声消除滤波器的步长获取方法、装置及设备 | |
EP3703052B1 (en) | Echo cancellation method and apparatus based on time delay estimation | |
CN111161752B (zh) | 回声消除方法和装置 | |
KR101153093B1 (ko) | 다감각 음성 향상을 위한 방법 및 장치 | |
CN112863535B (zh) | 一种残余回声及噪声消除方法及装置 | |
JP5452655B2 (ja) | 音声状態モデルを使用したマルチセンサ音声高品質化 | |
CN111312273A (zh) | 混响消除方法、装置、计算机设备和存储介质 | |
RU2407074C2 (ru) | Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи | |
CN103067322A (zh) | 评估单通道音频信号中的音频帧的语音质量的方法 | |
CN107408394A (zh) | 确定在主信道与参考信道之间的噪声功率级差和声音功率级差 | |
CN112687276B (zh) | 一种音频信号处理方法、装置及存储介质 | |
CN111261179A (zh) | 回声消除方法及装置和智能设备 | |
Lv et al. | A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation | |
CN112997249B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
JP2004078021A (ja) | 収音方法、収音装置、および収音プログラム | |
KR101537653B1 (ko) | 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템 | |
Zhang et al. | Blind estimation of reverberation time in occupied rooms | |
Sharma et al. | Development of a speech separation system using frequency domain blind source separation technique | |
KR102295993B1 (ko) | 음성 스펙트럼 감쇠율들의 통계치를 이용한 잔향시간 추정 방법 | |
CN117202021A (zh) | 一种音频信号处理方法、系统及电子设备 | |
CN115762552A (zh) | 训练回声消除模型的方法、回声消除方法及对应装置 | |
Talmon et al. | Identification of the relative transfer function between sensors in the short-time Fourier transform domain | |
CN117789743A (zh) | 回声抑制方法、回声抑制模型训练方法及相关设备 | |
CN115631761A (zh) | 回声消除装置、方法、计算机设备及存储介质 | |
CN116246606A (zh) | 一种基于卷积循环神经网络的主动噪声控制系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |