CN113744748A - 一种网络模型的训练方法、回声消除方法及设备 - Google Patents

一种网络模型的训练方法、回声消除方法及设备 Download PDF

Info

Publication number
CN113744748A
CN113744748A CN202110904295.5A CN202110904295A CN113744748A CN 113744748 A CN113744748 A CN 113744748A CN 202110904295 A CN202110904295 A CN 202110904295A CN 113744748 A CN113744748 A CN 113744748A
Authority
CN
China
Prior art keywords
signal
loss
sensitive mask
phase sensitive
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110904295.5A
Other languages
English (en)
Inventor
吴人杰
黄景标
林聚财
殷俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202110904295.5A priority Critical patent/CN113744748A/zh
Publication of CN113744748A publication Critical patent/CN113744748A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种循环神经网络模型的训练方法、回声消除方法、终端设备和计算机可读存储介质,该方法包括:获取样本信号,样本信号包括麦克风信号以及与麦克风信号相对应的参考信号;对样本信号进行特征提取,得到第一声学特征和第二声学特征,第一声学特征为麦克风信号的声学特征,第二声学特征为参考信号的声学特征;将第一声学特征和第二声学特征输入初始循环神经网络模型,输出相位敏感掩膜的预测值,相位敏感掩膜是麦克风信号中回声消除信号的频谱占比,频谱包括幅度谱和相位谱;计算相位敏感掩膜的损失,以调整初始循环神经网络模型的参数,得到循环神经网络模型。通过上述方式,本申请能够提高回声消除能力。

Description

一种网络模型的训练方法、回声消除方法及设备
技术领域
本申请涉及回声消除技术领域,特别是涉及一种循环神经网络模型的训练方法、回声消除方法、终端设备和计算机可读存储介质。
背景技术
在视频会议系统中,由于麦克风和扬声器的升学耦合,往往会产生影响语音交互的声学回声。传统的回声消除中,首先会通过有限长度的线性滤波器来估计声学环境中扬声器到麦克风的声学路径以对线性回声进行消除,再施加一个增益值以去除剩下的残余回声。但在信回比低、非线性失真强的场景中,传统的回声消除算法无法准确估计残余回声,从而导致视频会议系统无法抑制残余回声且造成近端语音失真。
发明内容
本申请主要解决的技术问题是提供一种循环神经网络模型的训练方法、回声消除方法、终端设备和计算机可读存储介质,能够提高回声消除能力。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种循环神经网络模型的训练方法,该方法包括:获取样本信号,样本信号包括麦克风信号以及与麦克风信号相对应的参考信号;对样本信号进行特征提取,得到第一声学特征和第二声学特征,第一声学特征为麦克风信号的声学特征,第二声学特征为参考信号的声学特征;将第一声学特征和第二声学特征输入初始循环神经网络模型,输出相位敏感掩膜的预测值,相位敏感掩膜是麦克风信号中回声消除信号的频谱占比,频谱包括幅度谱和相位谱;计算相位敏感掩膜的损失,以调整初始循环神经网络模型的参数,得到循环神经网络模型。
其中,计算相位敏感掩膜的损失,包括:获取相位敏感掩膜的参考目标值;计算相位敏感掩膜的预测值与相位敏感掩膜的参考目标值之间的差值,将差值作为相位敏感掩膜的损失;或利用损失函数计算相位敏感掩膜的损失。
其中,计算相位敏感掩膜的损失,包括:获取相位敏感掩膜的参考目标值;分别计算第一损失和第二损失,第一损失为利用损失函数计算出的相位敏感掩膜的损失,第二损失为相位敏感掩膜的预测值与相位敏感掩膜的参考目标值之间的差值;对第一损失和第二损失进行加权融合,得到相位敏感掩膜的损失。
其中,对第一损失和第二损失进行加权融合,包括:损失函数包括回声返回损失增益函数和信号失真比函数,第一损失为回声返回损失增益函数的损失与信号失真比函数的损失的加权融合;若相位敏感掩膜的目的是用于处理残余回声,则回声返回损失增益函数的损失的权重大于信号失真比函数的损失的权重;若相位敏感掩膜的目的是用于降低信号的失真度,则回声返回损失增益函数的损失的权重小于信号失真比函数的损失的权重。
其中,相位敏感掩膜的参考目标值为:
Figure BDA0003201058810000021
|V|为近端信号的幅度谱,θV为近端信号的相位谱,|D|为麦克风信号的幅度谱,θD为麦克风信号的相位谱。
其中,对样本信号进行特征提取,得到第一声学特征和第二声学特征,包括:将麦克风信号和参考信号的时域信号进行分帧和加窗处理,得到分帧加窗后的麦克风信号和参考信号;对分帧加窗后的麦克风信号和参考信号进行傅里叶变换,得到对应麦克风信号和参考信号的频域信号;对麦克风信号和参考信号的频域信号进行特征提取,得到第一声学特征和第二声学特征。
其中,循环神经网络模型为门控循环单元网络、长短期记忆网络中的至少一种。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种回声消除方法,该方法包括:获取麦克风信号以及与麦克风信号相对应的参考信号;对麦克风信号和参考信号进行特征提取,得到第一声学特征和第二声学特征,第一声学特征为麦克风信号的声学特征,第二声学特征为参考信号的声学特征;将第一声学特征和第二声学特征输入循环神经网络模型,得到相位敏感掩膜,相位敏感掩膜是麦克风信号中回声消除信号的频谱占比,频谱包括幅度谱和相位谱;利用相位敏感掩膜对第一声学特征进行声学掩蔽,得到回声消除信号。
其中,循环神经网络模型是利用上述的循环神经网络模型的训练方法训练得到。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种终端设备,该终端设备包括处理器和存储器,存储器存储有程序指令,处理器用于执行程序指令以实现上述的循环神经网络模型的训练方法或上述的回声消除方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质存储有程序指令,程序指令能够被执行以实现上述的循环神经网络模型的训练方法或上述的回声消除方法。
本申请的有益效果是:区别于现有技术的情况,本申请提供一种循环神经网络模型的训练方法,该方法包括:获取样本信号,样本信号包括麦克风信号以及与麦克风信号相对应的参考信号;对样本信号进行特征提取,得到第一声学特征和第二声学特征,第一声学特征为麦克风信号的声学特征,第二声学特征为参考信号的声学特征;利用初始循环神经网络模型对第一声学特征和第二声学特征进行处理,得到相位敏感掩膜,相位敏感掩膜是麦克风信号中近端信号的频谱占比,频谱包括幅度谱和相位谱;计算相位敏感掩膜的损失,以调整初始循环神经网络模型的参数,得到循环神经网络模型;通过初始循环神经网络模型对第一声学特征和第二声学特征进行处理以得到相位敏感掩膜,并通过计算相位敏感掩膜的损失以得到循环神经网络。当该循环神经网络应用于回声消除中,可提取得到逼近于近端信号的相位敏感掩膜,通过相位敏感掩膜对麦克风信号进行声学掩蔽,从而抑制麦克风信号中的回声以得到近端信号,提高了回声消除能力。
进一步地,由于在相位敏感掩膜的损失计算中引入了回声返回损失增益函数和信号失真比函数,所以后续在对循环神经网络模型具体运用时,利用其对麦克风信号的第一声学特征和参考信号的第二声学特征进行处理,能够得到逼近于近端信号相位敏感掩膜的回声消除信号相位敏感掩膜(回声消除信号逼近于近端信号,回声消除信号的相位敏感掩膜逼近于近端信号的相位敏感掩膜),相位敏感掩膜中引入了回声返回损失增益函数和信号失真比函数。因此,利用相位敏感掩膜对麦克风信号进行声学掩蔽时,能够将麦克风信号中的回声信号抑制消除,提升了在单讲场景下去除残余回声的能力,同时能够保证了在双讲场景下的近端语音信号不失真。
附图说明
图1是本申请提供的循环神经网络模型的训练方法一实施例的流程示意图;
图2是本申请提供的从声音信号中提取声学特征一实施例的流程示意图;
图3是本申请提供的计算相位敏感掩膜的损失以得到循环神经网络模型一实施例的流程示意图;
图4是本申请提供的计算相位敏感掩膜的损失以得到循环神经网络模型另一实施例的流程示意图;
图5是本申请提供的回声消除方法一实施例的流程示意图;
图6是本申请提供的相位敏感掩膜的示意图;
图7是本申请提供的终端设备一实施例的结构示意图;
图8是本申请提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。
需要说明的是,若本申请实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本申请提供一种回声消除方法,通过相位敏感掩膜对麦克风信号的声学特征进行声学掩蔽,从而得到回声消除信号的声学特征,并通过回声消除信号的声学特征重建回声消除信号,进而得到回声消除信号。其中,相位敏感掩膜是通过循环神经网络模型训练得到的,具体如何得到循环神经网络模型将结合如下实施例进行详细说明。
请参阅图1,图1是本申请提供的循环神经网络模型的训练方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施例包括:
步骤S11:获取样本信号。
其中,样本信号包括麦克风信号以及与该麦克风信号相对应的参考信号。麦克风信号为通过麦克风或者其他声音采集设备所采集到的声音信号,也即在进行回声消除时所接收的声音信号,参考信号为麦克风信号中的回声信号。
例如,在音视频即时通信过程中,通信双方同时配备有麦克风和扬声器,近端的语音通过近端扬声器播出,然后通过电话线或者互联网传递至远端并通过远端扬声器播出,远端麦克风拾取播出的声音并通过远端扬声器播出,然后通过电话线或者互联网传递至近端,并通过近端扬声器播出,此时近端麦克风采集到的该回传至近端的声音信号即为回声信号,因此麦克风所采集到的信号不仅包括用户所发出的近端语音信号,还包括从远端传输过来经近端扬声器播出的回声信号。
在一实施方式中,具体可以通过麦克风等声音采集设备采集当前环境的麦克风信号和与采集的麦克风信号相对应的参考信号。可以理解地,在其他实施方式中,也可以直接读取本地存储或云端存储的麦克风信号以及与麦克风信号对应的参考信号,在此不做具体限定。
步骤S12:对样本信号进行特征提取,得到第一声学特征和第二声学特征。
本实施方式中,通过对样本信号进行特征提取,从而得到第一声学特征和第二声学特征,第一声学特征为麦克风信号的声学特征,第二声学特征为参考信号的声学特征。在一实施方式中,可通过傅里叶变换(FFT,Fast Fourier Transform)从麦克风信号和参考信号中提取声学特征,得到第一声学特征和第二声学特征。可以理解地,在其他实施方式中,也可通过其他方式从麦克风信号和参考信号中提取声学特征,可根据实际使用需要具体设置,在此不做具体限定。
其中,声音信号的声学特征能够表征声音信号的数据特征。在一实施方式中,可将幅度谱作为麦克风信号和参考信号的声学特征,也就是说,从麦克风信号和参考信号中提取各自的幅度谱作为各自的声学特征,即麦克风信号的幅度谱为第一声学特征,参考信号的幅度谱为第二声学特征。可以理解地,在其他实施方式中,也可将麦克风信号和参考信号的其他特征作为声学特征,可根据实际使用需要具体设置,在此不做具体限定。
步骤S13:将第一声学特征和第二声学特征输入初始循环神经网络模型,输出相位敏感掩膜的预测值。
本实施方式中,初始循环神经网络模型能够对麦克风信号的第一声学特征和参考信号的第二声学特征进行处理,得到相位敏感掩膜的预测值(PSM,Phase SensitiveMask)。
其中,经过初始循环神经网络模型输出的相位敏感掩膜的预测值为:
PSMe=F(|X|,|D|)
其中,|X|为参考信号的幅度谱,|D|为麦克风信号的幅度谱,F为循环神经网络模型,PSMe为相位敏感掩膜的预测值。
具体地,将第一声学特征和第二声学特征输入至初始循环神经网络模型中,得到相位敏感掩膜的预测值,由于初始循环神经网络模型还未训练完成,经过初始循环神经网络模型处理后输出的相位敏感掩膜的预测值可能与近端信号对应的相位敏感掩膜的真实值存在差异,所以经过初始循环神经网络模型输出的相位敏感掩膜不能作为最终值,而需要进一步地对初始循环神经网络模型的参数进行调整,以使经过初始循环神经网络模型输出的相位敏感掩膜逼近于近端信号的相位敏感掩膜。
步骤S14:计算相位敏感掩膜的损失,以调整初始循环神经网络模型的参数,得到循环神经网络模型。
由于在实际回声消除过程中无法直接采集得到近端信号,但是能够根据循环神经网络模型得到逼近于近端信号相位敏感掩膜的回声消除信号相位敏感掩膜,并通过回声消除信号的相位敏感掩膜重建此回声消除信号,所以通过训练初始循环神经网络模型,使其输出的相位敏感掩膜能够逼近于或近似于近端信号的相位敏感掩膜,从而后续在对循环神经网络模型的应用中,能够直接通过循环神经网络模型得到逼近于或者近似于近端信号的相位敏感掩膜,进而通过该相位敏感掩膜得到回声消除信号,实现回声消除。基于此,会根据实际情况预先设置近端信号的相位敏感掩膜的参考目标值,而经过初始循环神经网络模型输出的相位敏感掩膜值的预测值与相位敏感掩膜的参考目标值存在差异,即PSMe与PSM存在差异,所以为了提高初始循环神经网络模型输出的相位敏感掩膜的准确性,即使得初始循环神经网络模型输出的相位敏感掩膜值接近于近端信号的相位敏感掩膜的参考目标值,在本实施方式中,通过计算相位敏感掩的损失,以获知相位敏感掩膜的损失,从而根据该损失调整初始循环神经网络模型的参数,使得训练完成的初始循环神经网络模型能够对第一声学特征和第二声学特征进行处理后,得到逼近于近端信号的相位敏感掩膜,此训练完成的初始循环神经网络模型即为步骤S14中所提及的循环神经网络模型。其中,近端信号的相位敏感掩膜即相位敏感掩膜的参考目标值的计算公式为:
Figure BDA0003201058810000071
其中,|V|为近端信号的幅度谱,θV为近端信号的相位谱,|D|为麦克风信号的幅度谱,θD为麦克风信号的相位谱。
在一实施方式中,可通过计算单一的相位敏感掩膜的预测值和相位敏感掩膜的参考目标值之间的损失,以调整初始循环神经网络模型的参数,从而得到循环神经网络模型。可以理解地,在其他实施方式中,也可利用损失函数计算相位敏感掩膜的损失或者通过计算相位敏感掩膜的预测值和相位敏感掩膜的参考目标值之间的损失和利用损失函数计算相位敏感掩膜的损失之间的总损失,以调整初始循环神经网络模型的参数,从而得到循环神经网络模型,具体如何计算相位敏感掩膜的损失可根据使用需要设置,在此不做具体限定。
在一实施方式中,循环神经网络模型可以是门控循环单元网络。可以理解地,在其他实施方式中,循环神经网络模型也可以是长短期记忆网络或者其他神经网络,可根据实际使用需要具体设置,在此不做具体限定。
请参阅图2,图2是本申请提供的从声音信号中提取声学特征一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图2所示的流程顺序为限。如图2所示,本实施例中,通过傅里叶变换的方式从样本信号中进行幅度谱提取,得到第一幅度谱和第二幅度谱,具体包括:
步骤S21:将麦克风信号和参考信号的时域信号进行分帧和加窗处理,得到分帧加窗后的麦克风信号和参考信号。
其中,时域信号是描述数学函数或物理信号对时间的关系,是信号唯一实际存在的域,因此在获取到麦克风信号和参考信号时就可以获得麦克风信号和参考信号对应的时域信号。
本实施方式中,会先对麦克风信号和参考信号对应的时域信号进行分帧处理,由于傅里叶变换要求输入的信号是平稳的,所以需要对时域信号进行分帧处理以保证截取并输入至傅里叶变换的信号为平稳的信号。其中,对时域信号进行分帧的帧长不做具体限定,可根据实际使用需要具体设置。例如,每一帧的帧长可以20毫秒、30毫秒等。
进一步地,本实施方式中,对截取出来的一帧信号,在做傅里叶变换前,还需要进行加窗处理,以让该帧信号的幅度在两端渐变到零。由于信号两端的幅度被削弱,所以为了弥补两端,可以将相邻两帧做帧移处理,以使相邻两帧重叠,例如,相邻两帧的重叠可以10毫秒等。在一实施方式中,窗函数可以为汉宁窗。可以理解地,在其他实施方式中,也可使用其他窗函数对信号进行加窗处理,可根据实际使用需要具体设置,在此不做具体限定。
步骤S22:对分帧加窗后的麦克风信号和参考信号进行傅里叶变换,得到对应麦克风信号和参考信号的频域信号。
本实施方式中,对经过分帧和加窗处理后的时域信号进行傅里叶变换,得到对应麦克风信号和参考信号的频域信号。其中,可通过频域信号分析信号的频率成分,在频域上对信号进行处理。
步骤S23:对麦克风信号和参考信号的频域信号进行特征提取,得到第一声学特征和第二声学特征。
本实施方式中,将幅度谱作为声音信号的声学特征,并通过对麦克风信号和参考信号的频域信号进行特征提取,以得到第一声学特征和第二声学特征。由于频域信号为复数,所以对频域信号的特征提取,实则为对频域信号的实部和虚部进行提取,并通过提取得到的实部和虚部进行计算,从而得到频域信号的幅度谱。其中,计算频域信号的幅度谱的公式为:
Figure BDA0003201058810000091
其中,XRe为频域信号的实部,XIm为频域信号的虚部,|X|为频域信号的幅度谱。
考虑到麦克风信号的第一声学特征即第一幅度谱和参考信号的第二声学特征即第二幅度谱在数值上可能会存在较大的差异,在一实施方式中,将麦克风信号的第一幅度谱和参考信号的第二幅度谱进行归一化处理,从而将第一幅度谱和第二幅度谱映射到0-1范围之内进行处理,便于后续快速对第一幅度谱和第二幅度谱进行处理。
请参阅图3,图3是本申请提供的计算相位敏感掩膜的损失以得到循环神经网络模型一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图3所示的流程顺序为限。如图3所示,本实施例中,通过计算相位敏感掩膜的预测值与相位敏感掩膜的参考目标值之间的损失,得到循环神经网络模型,具体包括:
步骤S31:获取相位敏感掩膜的参考目标值。
本实施方式中,相位敏感掩膜的参考目标值是用户根据近端信号具体设置的。其中,相位敏感掩膜的参考目标值的公式为:
Figure BDA0003201058810000101
其中,|V|为近端信号的幅度谱,θV为近端信号的相位谱,|D|为麦克风信号的幅度谱,θD为麦克风信号的相位谱。
步骤S32:计算相位敏感掩膜的预测值与相位敏感掩膜的参考目标值之间的差值,将差值作为相位敏感掩膜的损失,以调整初始循环神经网络模型的参数,得到循环神经网络模型。
本实施方式中,将麦克风信号的第一声学特征和参考信号的第二声学特征输入至初始循环神经网络模型中,以得到相位敏感掩膜的预测值。通过计算相位敏感掩膜的预测值与相位敏感掩膜的参考目标值之间的损失即通过计算得到两者之间的差值,并将计算得到的差值即损失反向传播至初始循环神经网络模型中,调整初始循环神经网络模型的参数,经过重复多轮的迭代训练,使得相位敏感掩膜的预测值与相位敏感掩膜的参考目标值之间的差值最小化,当差值不再下降,说明此时初始循环神经网络模型已经对提取的声学特征完成拟合,最终输出训练好的初始循环神经网络模型即循环神经网络模型。其中,相位敏感掩膜的预测值的公式以及相位敏感掩膜的参考目标值与相位敏感掩膜的预测值之间的差值的公式分别为:
PSMe=F(|X|,|D|)
L1=PSMt-PSMe
其中,|X|为参考信号的幅度谱,|D|为麦克风信号的幅度谱,F为循环神经网络模型,PSMe为相位敏感掩膜的预测值,PSMt为相位敏感掩膜的参考目标值,L1为相位敏感掩膜的差值。
本实施例中是通过计算相位敏感掩膜的预测值与相位敏感掩膜的参考目标值之间的损失以进行参数调整而得到循环神经网络模型,所以在对循环神经网络模型具体运用时,利用其对麦克风信号的第一声学特征和参考信号的第二声学特征进行处理,能够得到逼近于近端信号相位敏感掩膜的估计信号相位敏感掩膜(估计信号逼近于近端信号,估计信号的相位敏感掩膜逼近于近端信号的相位敏感掩膜),由于估计信号的相位敏感掩膜逼近于近端信号的相位敏感掩膜,所以估计信号的相位敏感掩膜实则为回声消除信号的相位敏感掩膜,此时通过回声消除信号的相位敏感掩膜重建回声消除信号,从而实现回声消除。
请参阅图4,图4是本申请提供的计算相位敏感掩膜的损失以得到循环神经网络模型另一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图4所示的流程顺序为限。如图4所示,本实施例中,通过计算相位敏感掩膜的总损失,以调整初始循环神经网络模型的参数而得到循环神经网络模型,使得通过循环神经网络模型生成的相位敏感掩膜能够抑制麦克风信号中的残余回声且不会造成近端语音失真,具体包括:
步骤S41:获取相位敏感掩膜的参考目标值。
步骤S41与步骤S31类似,在此不再赘述。
步骤S42:分别计算第一损失和第二损失。
本实施方式中,第一损失为利用损失函数计算出的相位敏感掩膜的损失,第二损失为相位敏感掩膜的预测值与相位敏感掩膜的参考目标值之间的差值。
在一实施方式中,损失函数包括回声返回损失增益函数或信号失真比函数,或者损失函数同时包括回声返回损失增益函数和信号失真比函数。可以理解地,在其他实施方式中,损失函数也可包括其他函数,可根据实际使用需要具体设置,在此不做具体限定。其中,相位敏感掩膜的参考目标值为近端信号的相位敏感掩膜,所以在当损失函数为回声返回损失增益函数和信号失真比函数时,近端信号中并不存在信号失真和回声,所以设定近端信号的相位敏感掩膜在两个损失函数上的参考目标值即近端信号在两个损失函数上的参考目标值均为零。其中,回声返回损失增益的参考目标值和信号失真比的参考目标值分别为:
ERLEt=0
SDRt=0
其中,ERLEt为回声返回损失增益函数的参考目标值,SDRt为信号失真比函数的参考目标值。
进一步地,为了计算得到第一损失,即相位敏感掩膜在损失函数上的损失,需要通过循环神经网络模型得到相位敏感掩膜的预测值,并通过相位敏感掩膜的预测值获得其在损失函数上的预测值,再通过计算相位敏感掩膜预测值在损失函数上的预测值与损失函数的参考目标值之间的差值,从而得到第一损失。
具体地,首先,将麦克风信号和参考信号输入至循环神经网络模型中以得到相位敏感掩膜的预测值;其次,通过相位敏感掩膜的预测值得到其对应的回声消除信号,所以计算相位敏感掩膜预测值在损失函数上的预测值等同于计算回声消除信号在损失函数上的预测值;最后,通过回声消除信号在损失函数上的预测值和近端信号在损失函数上的参考目标值得到各损失函数上的损失。在一具体的实施方式中,损失函数包括回声返回损失增益函数和信号失真比函数,那么估计信号在回声返回损失增益函数和信号失真比函数上的预测值分别为:
Figure BDA0003201058810000121
Figure BDA0003201058810000122
其中,E[·]表示求平均操作,d为时域上的麦克风信号,v为时域上的近端信号,
Figure BDA0003201058810000123
为时域上的回声消除信号,
Figure BDA0003201058810000124
为回声消除信号的幅度谱。
通过计算得到回声消除信号在回声返回损失增益函数和信号失真比函数上的预测值,那么回声消除信号在回声返回损失增益函数和信号失真比函数上的损失分别为:
La=ERLEt-ERLEe
Lb=SDRt-SDRe
其中,La为回声消除信号在回声返回损失增益函数上的损失,ERLEt为近端信号在回声返回损失增益函数上的参考目标值,ERLEe为回声消除信号在回声返回损失增益函数上的预测值,Lb为回声消除信号在信号失真比函数上的损失,SDRt为近端信号在信号失真比函数上的参考目标值,SDRe为回声消除信号在信号失真比函数上的预测值。
在一实施方式中,可通过对回声消除信号在回声返回损失增益函数上的损失和回声消除信号在信号失真比函数上的损失加权融合得到第一损失。在其他实施方式中,也可通过对回声消除信号在回声返回损失增益函数上的损失和回声消除信号在信号失真比函数上的损失进行其他方式处理以得到第一损失,具体的处理方式可根据实际使用需要设置,在此不做具体限定。
步骤S43:对第一损失和第二损失进行加权融合,得到相位敏感掩膜的损失,以调整初始循环神经网络模型的参数,得到循环神经网络模型。
本实施方式中,将麦克风信号的第一声学特征和参考信号的第二声学特征输入至初始循环神经网络模型中,以得到相位敏感掩膜的预测值。通过对第一损失和第二损失进行加权融合,得到相位敏感掩膜的损失,也就是说,相位敏感掩膜的损失为相位敏感掩膜的预测值与相位敏感掩膜的参考目标值之间的差值以及相位敏感掩膜在损失函数上的损失,也即相位敏感掩膜的损失为上述两者相加得到的总损失。在获取到相位敏感掩膜的总损失后,将其反向传播至初始循环神经网络模型中,调整初始循环神经网络模型的参数,经过反复多轮的迭代训练,使得相位敏感掩膜的损失最小化,当损失值不再下降,说明此时初始循环神经网络模型已经对提取的声学特征完成拟合,最终输出训练好的初始循环神经网络模型即循环神经网络模型。可以理解地,在其他实施方式中,也可通过对第一损失和第二损失进行其他方式处理以得到相位敏感掩膜的损失,具体的处理方式可根据实际使用需要设置,在此不做具体限定。
在一实施方式中,通过对第一损失和第二损失进行加权求和,得到相位敏感掩膜的总损失,其中,相位敏感掩膜的总损失的公式为:
Lsum=α(ERLEt-ERLEe)+β(SDRt-SDRe)+γ(PSMt-PSMe)
其中,Lsum相位敏感掩膜的总损失,α、β、γ分别为回声消除信号在回声返回损失增益函数上的损失的权重、回声消除信号在信号失真比函数上的损失的权重和第二损失的权重。
由于在回声返回损失增益函数的损失值、信号失真比函数的损失值以及相位敏感掩膜的预测值和参考目标值之间的损失值在大小范围上存在差异,所以需要对三者进行归一化处理。基于此,引入α、β、γ,使总损失统一在相同数量级上。在一具体的实施方式中,在回声返回损失增益函数的损失值以及信号失真比函数的损失值的数量级为10,而相位敏感掩膜的预测值和参考目标值之间的损失值的数量级为0.1或0.01,因此为了将总损失统一在相同数量级上,α可以为0.1,β可以为0.1,γ可以为10或100。
由于在相位敏感掩膜的损失计算中引入了回声返回损失增益函数和信号失真比函数,所以后续在对循环神经网络模型具体运用时,利用其对麦克风信号的第一声学特征和参考信号的第二声学特征进行处理,能够得到逼近于近端信号相位敏感掩膜的回声消除信号相位敏感掩膜(回声消除信号逼近于近端信号,回声消除信号的相位敏感掩膜逼近于近端信号的相位敏感掩膜),相位敏感掩膜中引入了回声返回损失增益函数和信号失真比函数,因此,后续利用相位敏感掩膜对麦克风信号进行声学掩蔽时,能够将麦克风信号中的回声信号抑制消除。
其中,若相位敏感掩膜的目的是用于处理残余回声,则回声返回损失增益函数的损失的权重α大于信号失真比函数的损失的权重β,即α>β,提升了在单讲场景下去除残余回声的能力。其中,不对回声返回损失增益函数的损失的权重α和信号失真比函数的损失的权重β进行限定,可根据实际使用场景具体设置,例如,α=0.5,β=0.1。
若相位敏感掩膜的目的是用于降低信号的失真度,则回声返回损失增益函数的损失的权重α小于信号失真度比函数的损失的权重β,即α<β,从而保证了在双讲场景下近端语音不失真。其中,不对回声返回损失增益函数的损失的权重α和信号失真比函数的损失的权重β进行限定,可根据实际使用场景具体设置,例如,α=0.1,β=0.5。
请参阅图5,图5是本申请提供的回声消除方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图5所示的流程顺序为限。如图5所示,本实施例包括:
步骤S51:获取麦克风信号以及与麦克风信号相对应的参考信号。
步骤S51与步骤S11类似,在此不再赘述。
步骤S52:对麦克风信号和参考信号进行特征提取,得到第一声学特征和第二声学特征。
步骤S52与步骤S12类似,在此不再赘述。
步骤S53:将第一声学特征和第二声学特征输入循环神经网络模型,得到相位敏感掩膜。
在一实施方式中,循环神经网络模型是由上述任一实施例的循环神经网络模型的训练方法训练得到的。在实际应用中,应用训练所得的循环神经网络模型对麦克风信号的第一声学特征和参考信号的第二声学特征进行处理,以得到回声消除信号的相位敏感掩膜,通过循环神经网络模型获得的回声消除信号的相位敏感掩膜逼近于麦克风信号中近端信号的相位敏感掩膜。可以理解地,在其他实施方式中,也可以应用利用其他训练方式得到的循环神经网络模型对麦克风信号的第一声学特征和参考信号的第二声学特征进行处理,可根据实际使用需要具体设置,在此不做具体限定。其中,估计信号的相位敏感掩膜的公式为:
PSMe=F(|X|,|D|)
其中,F为循环神经网络模型,|X|为参考信号的幅度谱,|D|为麦克风信号的幅度谱,PSMe为回声消除信号的相位敏感掩膜。
步骤S54:利用相位敏感掩膜对第一声学特征进行声学掩蔽,得到回声消除信号。
本实施方式中,利用相位敏感掩膜对第一声学特征进行声学掩蔽,得到回声消除信号。需要说明的是,如果相位敏感掩膜是通过图3所示实施例的循环神经网络得到的话,此处利用相位敏感掩膜对第一声学特征进行声学掩蔽,实际是对麦克风信号中的回声信号进行了消除;而如果相位敏感掩膜是通过图4所示实施例的循环神经网络得到的话,此处利用相位敏感掩膜对第一声学特征进行声学掩蔽,实际是对麦克风信号中的回声进行了抑制消除,提升了在单讲场景下去除残余回声的能力,同时能够保证在双讲场景下的近端语音信号不失真。
具体地,由于第一声学特征为麦克风信号的幅度谱,回声消除信号的相位敏感掩膜等同于近端信号的相位敏感掩膜,所以通过循环神经网络模型获得的相位敏感掩膜对麦克风信号的幅度谱进行声学掩蔽后,能够得到掩蔽后的幅度谱即回声消除信号的幅度谱,由于回声消除信号逼近于近端信号,所以回声消除信号的幅度谱等同于近端信号的幅度谱。
其中,回声消除信号的幅度谱的公式为:
Figure BDA0003201058810000161
其中,
Figure BDA0003201058810000162
为回声消除信号的幅度谱,|D|为麦克风信号的幅度谱,PSMe为回声消除信号的相位敏感掩膜。
举例来说,如图6所示,图6是本申请提供的相位敏感掩膜的示意图。在声学掩蔽中,将麦克风信号的幅度谱与回声消除信号的相位敏感掩膜相乘,以将麦克风信号中的回声信号进行了去除,从而得到回声消除信号的幅度谱,由于去除了麦克风信号中的回声,所以回声消除信号即为麦克风信号中的近端信号,回声消除信号的幅度谱即为麦克风信号中的近端信号的幅度谱。请结合参看图6,图中黑色的点表示值为0,认为该黑色点对应为回声信号,所以将黑色点的表示值与麦克风信号的幅度谱相乘后,则把回声信号进行了去除;图6中颜色越亮的点的表示值接近于1,认为该点对应为回声消除信号,所以将该亮点的表示值与麦克风信号的幅度谱相乘以后,则保留回声消除信号。基于此,通过将麦克风信号的幅度谱与回声消除信号的相位敏感掩膜相乘,从而将麦克风信号中的回声去除并保留了回声消除信号。
进一步地,利用相位敏感掩膜对第一声学特征进行声学掩蔽后,得到的是回声消除信号的幅度谱,所以需要基于回声消除信号的幅度谱重建回声消除信号。具体地,将掩蔽后的第一声学特征进行逆傅里叶变换,得到回声消除信号,由于相位敏感掩膜中引入了信号的相位信息,所以能够根据掩蔽后的第一声学特征更好地重建回声消除信号。
请参阅图7,图7是本申请提供的终端设备一实施例的结构示意图。本实施方式中,终端设备60包括处理器61和存储器63。
处理器61还可以称为CPU(Central Processing Unit,中央处理单元)。处理器61可能是一种集成电路芯片,具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器61也可以是任何常规的处理器61等。
终端设备60中的存储器63用于存储处理器61运行所需的程序指令。
处理器61用于执行程序指令以实现上述本申请循环神经网络模型的训练方法或回声消除方法任一实施例及任意不冲突的组合所提供的方法。
请参阅图8,图8是本申请提供的计算机可读存储介质一实施例的结构示意图。本申请实施例的计算机可读存储介质70存储有程序指令71,该程序指令71被执行时实现本申请循环神经网络模型的训练方法或回声消除方法任一实施例以及任意不冲突的组合所提供的方法。其中,该程序指令71可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质70中,以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质70包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (11)

1.一种循环神经网络模型的训练方法,其特征在于,所述方法包括:
获取样本信号,所述样本信号包括麦克风信号以及与所述麦克风信号相对应的参考信号;
对所述样本信号进行特征提取,得到第一声学特征和第二声学特征,所述第一声学特征为所述麦克风信号的声学特征,所述第二声学特征为所述参考信号的声学特征;
将所述第一声学特征和所述第二声学特征输入初始循环神经网络模型,输出相位敏感掩膜的预测值,相位敏感掩膜是所述麦克风信号中回声消除信号的频谱占比,所述频谱包括幅度谱和相位谱;
计算相位敏感掩膜的损失,以调整所述初始循环神经网络模型的参数,得到循环神经网络模型。
2.根据权利要求1所述的循环神经网络模型的训练方法,其特征在于,所述计算相位敏感掩膜的损失,包括:
获取所述相位敏感掩膜的参考目标值;
计算所述相位敏感掩膜的预测值与所述相位敏感掩膜的参考目标值之间的差值,将所述差值作为所述相位敏感掩膜的损失;或
利用损失函数计算所述相位敏感掩膜的损失。
3.根据权利要求1所述的循环神经网络模型的训练方法,其特征在于,所述计算所述相位敏感掩膜的损失,包括:
获取所述相位敏感掩膜的参考目标值;
分别计算第一损失和第二损失,所述第一损失为利用损失函数计算出的所述相位敏感掩膜的损失,所述第二损失为所述相位敏感掩膜的预测值与所述相位敏感掩膜的参考目标值之间的差值;
对所述第一损失和所述第二损失进行加权融合,得到所述相位敏感掩膜的损失。
4.根据权利要求3所述的循环神经网络模型的训练方法,其特征在于,所述对所述第一损失和所述第二损失进行加权融合,包括:
所述损失函数包括回声返回损失增益函数和信号失真比函数,所述第一损失为所述回声返回损失增益函数的损失与所述信号失真比函数的损失的加权融合;
若所述相位敏感掩膜的目的是用于处理残余回声,则所述回声返回损失增益函数的损失的权重大于所述信号失真比函数的损失的权重;
若所述相位敏感掩膜的目的是用于降低信号的失真度,则所述回声返回损失增益函数的损失的权重小于所述信号失真比函数的损失的权重。
5.根据权利要求2或3所述的循环神经网络模型的训练方法,其特征在于,
所述相位敏感掩膜的参考目标值为:
Figure FDA0003201058800000021
其中,|V|为近端信号的幅度谱,θV为近端信号的相位谱,D为麦克风信号的幅度谱,θD为麦克风信号的相位谱。
6.根据权利要求1所述的循环神经网络模型的训练方法,其特征在于,所述对所述样本信号进行特征提取,得到第一声学特征和第二声学特征,包括:
将所述麦克风信号和所述参考信号的时域信号进行分帧和加窗处理,得到分帧加窗后的所述麦克风信号和所述参考信号;
对所述分帧加窗后的麦克风信号和参考信号进行傅里叶变换,得到对应所述麦克风信号和所述参考信号的频域信号;
对所述麦克风信号和所述参考信号的频域信号进行特征提取,得到所述第一声学特征和所述第二声学特征。
7.根据权利要求1所述的循环神经网络模型的训练方法,其特征在于,
所述循环神经网络模型为门控循环单元网络、长短期记忆网络中的至少一种。
8.一种回声消除方法,其特征在于,所述方法包括:
获取麦克风信号以及与所述麦克风信号相对应的参考信号;
对所述麦克风信号和所述参考信号进行特征提取,得到第一声学特征和第二声学特征,所述第一声学特征为所述麦克风信号的声学特征,所述第二声学特征为所述参考信号的声学特征;
将所述第一声学特征和所述第二声学特征输入循环神经网络模型,得到相位敏感掩膜,所述相位敏感掩膜是所述麦克风信号中回声消除信号的频谱占比,所述频谱包括幅度谱和相位谱;
利用所述相位敏感掩膜对所述第一声学特征进行声学掩蔽,得到回声消除信号。
9.根据权利要求8所述的回声消除方法,其特征在于,
所述循环神经网络模型是利用如权利要求1-7任一项所述的循环神经网络模型的训练方法训练得到。
10.一种终端设备,其特征在于,所述终端设备包括处理器和存储器,所述存储器存储有程序指令,所述处理器用于执行所述程序指令以实现如权利要求1-7或8、9中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序指令,所述程序指令能够被执行以实现如权利要求1-7或8、9中任一项所述的方法。
CN202110904295.5A 2021-08-06 2021-08-06 一种网络模型的训练方法、回声消除方法及设备 Pending CN113744748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110904295.5A CN113744748A (zh) 2021-08-06 2021-08-06 一种网络模型的训练方法、回声消除方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110904295.5A CN113744748A (zh) 2021-08-06 2021-08-06 一种网络模型的训练方法、回声消除方法及设备

Publications (1)

Publication Number Publication Date
CN113744748A true CN113744748A (zh) 2021-12-03

Family

ID=78730583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110904295.5A Pending CN113744748A (zh) 2021-08-06 2021-08-06 一种网络模型的训练方法、回声消除方法及设备

Country Status (1)

Country Link
CN (1) CN113744748A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114171043A (zh) * 2021-12-06 2022-03-11 北京百度网讯科技有限公司 回声的确定方法、装置、设备以及存储介质
CN115116471A (zh) * 2022-04-28 2022-09-27 腾讯科技(深圳)有限公司 音频信号处理方法和装置、训练方法、设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100888049B1 (ko) * 2008-01-25 2009-03-10 재단법인서울대학교산학협력재단 부분 마스킹 효과를 도입한 음성 강화 방법
CN109841226A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
WO2020042706A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
US20200312345A1 (en) * 2019-03-28 2020-10-01 Samsung Electronics Co., Ltd. System and method for acoustic echo cancelation using deep multitask recurrent neural networks
CN111951819A (zh) * 2020-08-20 2020-11-17 北京字节跳动网络技术有限公司 回声消除方法、装置及存储介质
CN111968658A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 语音信号的增强方法、装置、电子设备和存储介质
CN112259112A (zh) * 2020-09-28 2021-01-22 上海声瀚信息科技有限公司 一种结合声纹识别和深度学习的回声消除方法
CN112614500A (zh) * 2019-09-18 2021-04-06 北京声智科技有限公司 回声消除方法、装置、设备及计算机存储介质
CN112750449A (zh) * 2020-09-14 2021-05-04 腾讯科技(深圳)有限公司 回声消除方法、装置、终端、服务器及存储介质
CN113192527A (zh) * 2021-04-28 2021-07-30 北京达佳互联信息技术有限公司 用于消除回声的方法、装置、电子设备和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100888049B1 (ko) * 2008-01-25 2009-03-10 재단법인서울대학교산학협력재단 부분 마스킹 효과를 도입한 음성 강화 방법
CN109841226A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
WO2020042706A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
US20200312345A1 (en) * 2019-03-28 2020-10-01 Samsung Electronics Co., Ltd. System and method for acoustic echo cancelation using deep multitask recurrent neural networks
CN112614500A (zh) * 2019-09-18 2021-04-06 北京声智科技有限公司 回声消除方法、装置、设备及计算机存储介质
CN111968658A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 语音信号的增强方法、装置、电子设备和存储介质
CN111951819A (zh) * 2020-08-20 2020-11-17 北京字节跳动网络技术有限公司 回声消除方法、装置及存储介质
CN112750449A (zh) * 2020-09-14 2021-05-04 腾讯科技(深圳)有限公司 回声消除方法、装置、终端、服务器及存储介质
CN112259112A (zh) * 2020-09-28 2021-01-22 上海声瀚信息科技有限公司 一种结合声纹识别和深度学习的回声消除方法
CN113192527A (zh) * 2021-04-28 2021-07-30 北京达佳互联信息技术有限公司 用于消除回声的方法、装置、电子设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHENGGANG ZHANG ET AL.: "A Robust and Cascaded Acoustic Echo Cancellation Based on Deep Learning", 《INTERSPEECH》, 29 October 2020 (2020-10-29) *
IVRY, AMIR ET AL.: "Deep residual echo suppression with a tunable tradeoff between signal distortion and echo suppression", 《ICASSP》, 25 June 2021 (2021-06-25) *
XINQUAN ZHOU ET AL.: "Residual acoustic echo suppression based on efficient multi-task convolutional neural network", 《ARXIV》, 6 November 2020 (2020-11-06) *
杨舜尧;: "基于麦克与压电装置的综合降噪研究", 辽宁师专学报(自然科学版), no. 01, 25 March 2017 (2017-03-25) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114171043A (zh) * 2021-12-06 2022-03-11 北京百度网讯科技有限公司 回声的确定方法、装置、设备以及存储介质
CN115116471A (zh) * 2022-04-28 2022-09-27 腾讯科技(深圳)有限公司 音频信号处理方法和装置、训练方法、设备及介质
CN115116471B (zh) * 2022-04-28 2024-02-13 腾讯科技(深圳)有限公司 音频信号处理方法和装置、训练方法、设备及介质

Similar Documents

Publication Publication Date Title
CN109727604B (zh) 用于语音识别前端的频域回声消除方法及计算机储存介质
CN111341336B (zh) 一种回声消除方法、装置、终端设备及介质
US9100466B2 (en) Method for processing an audio signal and audio receiving circuit
Enzner et al. Acoustic echo control
US9768829B2 (en) Methods for processing audio signals and circuit arrangements therefor
JP4210521B2 (ja) 雑音低減法および装置
US8724798B2 (en) System and method for acoustic echo cancellation using spectral decomposition
EP3080975B1 (en) Echo cancellation
CN110176244B (zh) 回声消除方法、装置、存储介质和计算机设备
JP4377952B1 (ja) 適応フィルタ及びこれを有するエコーキャンセラ
CN112863535B (zh) 一种残余回声及噪声消除方法及装置
WO2006111369A1 (en) A method and device for removing echo in an audio signal
Schwarz et al. Spectral feature-based nonlinear residual echo suppression
CN108172231A (zh) 一种基于卡尔曼滤波的去混响方法及系统
CN111768796A (zh) 一种声学回波消除与去混响方法及装置
CN108010536B (zh) 回声消除方法、装置、系统及存储介质
JP2004537219A (ja) 高調波計算のための非線形エコーサプレッサを備えたエコーキャンセラ
CN113744748A (zh) 一种网络模型的训练方法、回声消除方法及设备
JP3507020B2 (ja) 反響抑圧方法、反響抑圧装置及び反響抑圧プログラム記憶媒体
CN110956975A (zh) 回声消除方法及装置
CN109215672B (zh) 一种声音信息的处理方法、装置及设备
JP4155774B2 (ja) エコー抑制システム及び方法
CN113689878A (zh) 回声消除方法、回声消除装置及计算机可读存储介质
EP2716023B1 (en) Control of adaptation step size and suppression gain in acoustic echo control
CN111756906B (zh) 一种语音信号的回声抑制方法、装置和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination