CN110100457A - 基于噪声时变环境的加权预测误差的在线去混响算法 - Google Patents
基于噪声时变环境的加权预测误差的在线去混响算法 Download PDFInfo
- Publication number
- CN110100457A CN110100457A CN201780080144.4A CN201780080144A CN110100457A CN 110100457 A CN110100457 A CN 110100457A CN 201780080144 A CN201780080144 A CN 201780080144A CN 110100457 A CN110100457 A CN 110100457A
- Authority
- CN
- China
- Prior art keywords
- variance
- signal
- input signal
- estimation
- predictive filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 67
- 238000001914 filtration Methods 0.000 claims abstract description 41
- 230000005236 sound signal Effects 0.000 claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims abstract description 14
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 23
- 230000008859 change Effects 0.000 claims description 16
- 230000002708 enhancing effect Effects 0.000 claims description 9
- 230000003139 buffering effect Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 13
- 230000015654 memory Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 238000012679 convergent method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
用于处理多声道音频信号的系统和方法包括:接收多声道时域音频输入,将输入信号变换成多个多声道频域、k个间隔的欠采样子带信号,缓冲和延迟每个声道,保存频谱帧中的每个处的用于预测滤波器估计的频谱帧的子集,估计频谱帧中的每个处的频域信号的方差,使用递归最小二乘方(RLS)算法以在线方式适应性地估计预测滤波器,使用估计的预测滤波器对每个声道进行线性滤波,对线性滤波的输出信号非线性滤波以减少残余混响和估计的方差,从而产生非线性滤波的输出信号,以及合成非线性滤波的输出信号以重构去混响的时域多声道音频信号。
Description
相关申请的交叉引用
本申请要求于2016年12月23日提交的并且标题为“基于噪声时变环境的加权预测误差的在线去混响算法”的美国临时专利申请No.62/438860的权益和优先权,所述申请通过引用以其整体并入本文中。
技术领域
本申请总体上涉及音频处理,并且更具体地涉及多声道音频信号的去混响。
背景技术
混响减少解决方案在音频信号处理领域中是已知的。许多常规方法不适合用于实时应用中。例如,混响减少解决方案可需要数据的长缓冲以补偿混响的效应或以估计房间脉冲响应(RIR)的逆滤波器。适合于实时应用的方法在高混响和特别是高的非平稳环境中没有以合理的方式良好地执行。另外,这样的解决方案需要大量的存储器,并且对于许多低功率设备而言不是计算上高效的。
一种常规解决方案基于加权预测误差(WPE),其假设混响过程的自回归模型,即,假设能够从混响麦克风信号的先前样本预测特定时间的混响分量。期望信号可以被估计为模型的预测误差。引入固定延迟以避免语音信号的短时相关的失真。该算法不适合于实时处理,并且在噪声条件下没有以明确的方式对输入信号建模。而且,WPE方法具有高复杂性并且不是在线多输入多输出(MIMO)解决方案。WPE方法已经被扩展以用于MIMO并且被一般化以在噪声条件下使用。然而,这样的修改不适合于时变环境。已经提出了对时变环境的进一步修改,其包括用于线性滤波的WPE和波束成形与基于维纳滤波的非线性滤波的最优组合。然而,这样的提议仍然不是实时的,并且由于其高复杂性而不适合于在低功率设备中使用。
通常,对于在在线和实时应用中的使用,常规方法在复杂性和实用性上受到限制。与批处理不同,在工业中针对许多实际应用使用实时或在线处理。因此,存在对用于在线和实时去混响的改进的系统和方法的需要。
发明内容
公开了包括基于用于噪声时变环境的加权预测误差的在线去混响的实施例的系统和方法。在各种实施例中,用于处理多声道音频信号的方法包括:接收包括时域多声道音频信号的输入信号;将输入信号变换为包括多个多声道频域、k个间隔的欠采样子带信号的频域输入信号;缓冲和延迟频域输入信号的每个声道;保存在频谱帧中的每个处的预测滤波器估计的频谱帧的子集;以及通过使用递归最小二乘方(RLS)算法来估计频谱帧中的每个处的频域输入信号的方差,适应性地以在线方式估计预测滤波器。该方法还包括使用估计的预测滤波器对频域输入信号的每个声道进行线性滤波,以产生线性滤波的输出信号;非线性地对线性滤波的输出信号进行滤波以减少残余混响和估计的方差;产生非线性滤波的输出信号;以及合成非线性滤波的输出信号以重构去混响的时域多声道音频信号,其中输出声道的数目等于输入声道的数目。
在各种实施例中,方法还可包括估计频域输入信号的方差,还包括估计干净语音方差、估计噪声方差和/或估计残余语音方差。在各种实施例中,方法可还包括使用适应性RLS算法,通过将稀疏性施加到相关矩阵而独立于频域输入信号的每个频率窗口(bin)来估计在每个帧处的预测滤波器。
在各种实施例中,输入信号包括至少一个目标信号,并且非线性滤波计算每个目标信号的增强的语音信号以减少残余混响和背景噪声。方差估计过程可包括基于先前估计的预测滤波器估计新的干净语音方差,使用具有调谐参数的固定指数衰减加权函数来估计新的残余混响方差以定制音频解决方案,以及使用单麦克风噪声方差估计方法估计每个声道的噪声方差并且随后计算平均值,从而估计噪声方差。方法还可以检测突然的改变以在扬声器移动的情况下重置预测滤波器和相关矩阵。
在各种实施例中,音频处理系统包括音频输入、子带分解模块、缓冲器、方差估计器、预测滤波器估计器、线性滤波器、非线性滤波器和合成器。音频输入可操作为接收时域多声道音频信号。子带分解模块可操作为将输入信号变换成频域输入信号,所述频域输入信号包括多个多声道频域、k个间隔的欠采样子带信号。缓冲器可操作为缓冲和延迟频域输入信号的每个声道,从而保存在频谱帧中的每个处的用于预测滤波器估计的频谱帧的子集。
在各种实施例中,方差估计器可操作为估计频谱帧中的每个处的频域输入信号的方差。方差估计器还可以可操作为估计干净语音方差、噪声方差和/或残余语音方差。方差估计器还可以可操作为基于先前估计的预测滤波器来估计新的干净语音方差;使用具有调谐参数的固定指数衰减加权函数来估计新的残余混响方差以定制音频解决方案;以及使用单麦克风噪声方差估计方法来估计每个声道的噪声方差并且随后计算平均值,从而估计噪声方差。方差估计器还可以可操作为检测由于扬声器移动的改变以及重置预测滤波器和相关矩阵。
在一个或多个实施例中,预测滤波器估计器可操作为通过使用递归最小二乘方(RLS)算法来以在线方式适应性地估计预测滤波器。预测滤波器还可以可操作为使用适应性RLS算法,以通过将稀疏性施加到相关矩阵而独立于频域输入信号的每个频率窗口来估计每个帧处的预测滤波器。
在各种实施例中,线性滤波器可操作为使用估计的预测滤波器对频域输入信号的每个声道进行线性滤波以产生线性滤波的输出信号。非线性滤波器可操作为非线性地对线性滤波的输出信号进行滤波以减少残余混响和估计的方差,从而产生非线性滤波的输出信号。在一个实施例中,时域多声道音频信号包括至少一个目标信号,并且非线性滤波器还可操作为针对每个目标信号计算增强的语音信号,并且减少残余混响和背景噪声。合成器可操作为合成非线性滤波的输出信号以重构去混响的时域多声道音频信号,其中输出声道的数目等于输入声道的数目。
本发明的范围由权利要求限定,所述权利要求通过引用并入本部分中。通过考虑以下一个或多个实施例的具体实施方式,本领域技术人员将被给予对本发明的实施例的更完整的理解以及其附加优点的实现。将对首先将被简要描述的附图的图进行参考。
附图说明
参考以下附图和随后的具体实施方式,可以更好地理解本公开的各方面及其优点。应当领会的是,相同的参考标号用于标识一个或多个附图中图示的相同的元件,其中其中的示出是出于图示本公开的实施例的目的,而不是出于限制本公开的目的。附图中的部件不一定按比例,而是将重点放在清楚地图示本公开的原理上。
图1是根据本公开的实施例的语音去混响系统的框图。
图2是根据本公开的实施例的包括语音去混响的音频处理系统的框图。
图3图示了根据本公开的实施例的具有延迟的缓冲器。
图4是根据本公开的实施例的用于确定方差的流程图。
图5是根据本公开的实施例的音频处理系统的框图。
具体实施方式
根据本公开的各种实施例,提供了用于多声道音频信号的去混响的系统和方法。
通常,对于在在线和实时应用中的使用,常规方法在复杂性和实用性上受到限制。与批处理不同,在工业中针对许多实际应用使用实时或在线处理。已经针对这些应用开发了在线适应性算法,诸如用于开发适应性WPE方法的递归最小二乘方(RLS)方法,或者其中使用同时估计干净语音信号和时变声学系统的多麦克风算法的卡尔曼滤波器方法。采用递归期望最大化方案来以在线方式获得干净语音信号和声学系统二者。然而,在基于RLS和基于卡尔曼滤波器的算法中,所述方法在高度非平稳条件下表现不佳。另外,对于许多应用而言,卡尔曼和RLS算法二者具有超出合理程度的计算复杂性和存储使用。另外,尽管它们快速收敛到稳定的解,但是算法可能对突然的改变太敏感并且可能需要改变检测器来将相关矩阵和滤波器重置为它们的初始值。
本文中公开了用于使用子带域的去混响的在线多输入多输出(MIMO)实施例。在各种实施例中,在线估计适配成无目的地缩短麦克风与未知数目的源的集合之间的房间脉冲响应(RIR)的多声道线性预测滤波器。在一个实施例中,RLS算法用于快速收敛。然而,使用RLS的一些方法可通过高计算复杂性来表征。在各种环境中,可能期望低计算复杂性和低存储消耗。在本文中所公开的系统和方法的各种实施例中,通过将稀疏性施加到相关矩阵来降低存储使用和计算复杂性。在一个实施例中,提出一种新方法,其用于识别时变环境中的扬声器或音频源的移动,包括重新初始化预测滤波器和改进时变环境中的收敛速度。
在各种真实世界环境中,语音源可以与环境噪声混合。记录的语音信号典型地包括不想要的噪声,这可能降级用于语音应用(诸如IP语音(VoIP)通信)的语音可懂度,并且可以降低诸如电话、膝上型计算机和语音控制的器具之类的设备的语音识别性能的表现。解决噪声干扰问题的一种方法是使用麦克风阵列和波束成形算法,其可以利用噪声源的空间多样性来检测或提取期望的源信号并且来抑制不想要的干扰。波束成形表示一类这样的多声道信号处理算法,并且建议空间滤波,该空间滤波将增加灵敏度的波束指向期望的源位置,同时抑制源自其它位置的信号。
在室内环境中,当信号源较接近麦克风时,噪声抑制方法可能较有效,这可被称为近场场景。然而,当增加源与麦克风之间的距离时,噪声抑制可能较复杂。
参考图1,信号源110(诸如人类扬声器)位于与环境102(诸如房间)中的麦克风阵列120相距一定距离的位置处。麦克风阵列120收集在信号源110与麦克风阵列120之间的直接路径中接收的期望信号104。麦克风阵列120还从噪声源130收集噪声,包括噪声干扰140和离开墙壁、天花板和/或环境102中的其它对象的信号反射150。
诸如声源定位、波束成形和自动语音识别(ASR)之类的许多麦克风阵列处理技术的性能在混响环境中可能是可感知地降级的,诸如图1中所图示。例如,混响可造成直接声音的时间和频谱特性的模糊。噪声混响环境中的语音增强可能需要解决渲染且非平稳的语音信号、可随时间显著改变的噪声信号以及可能较长和/或具有非最小相位的声学声道的脉冲响应。在各种应用中,脉冲响应的长度取决于混响时间,并且许多方法可能无法在高混响时间的情况下工作。本文中所公开的是用于噪声鲁棒多声道语音去混响的系统和方法,所述系统和方法减少混响的效应,同时产生去混响语音信号的多声道估计。
用于解决混响的常规方法对于许多应用具有使所述方法不适合的限制。例如,计算复杂性对于需要实时、在线处理的许多真实世界情况而言可能使算法变得不切实际。这样的算法还可能需要高存储消耗,这种高存储消耗不适合于可能需要存储高效算法的嵌入式设备。在真实环境中,混响语音信号通常被非平稳的加性背景噪声污染,这可能极大地恶化那些未以明确方式解决其模型中的非平稳噪声的去混响算法的性能。许多去混响方法使用需要大量输入数据以产生良好性能的批量方法。然而,在诸如VoIP和助听器的应用中,I/O延时是不期望的。
许多常规的去混响方法产生作为输入麦克风阵列中的麦克风的较少数目的去混响的信号,并且不保存在各种麦克风位置处的到达时间差(TDOA)。然而,在一些应用中,源定位算法可以基于在麦克风位置处的TDOA而明确地或隐含地进行。常规去混响方法的其它缺点可包括需要知道声源的数目的算法和非快速收敛的方法,因此使算法对新的改变作出响应减慢。
本文中公开的实施例解决了常规系统的限制,这些常规系统提供在工业中的不同应用中使用的解决方案。在一个实施例中,算法提供快速收敛并且不提供延迟,这使得对于如VOIP的应用而言是可期望的。盲方法使用多声道输入信号来缩短未知数目的源的集合之间的MIMO RIR。使用子带域多声道线性预测滤波器,并且算法独立地估计每个频带的滤波器。该方法的一个优点是其可以保存麦克风位置处的TDOA以及源与麦克风之间的线性关系,这在需要做进一步处理以定位和减少噪声和干扰的情况下是有益的。另外,算法可以通过分离地估计每个麦克风的预测滤波器来产生与麦克风一样多的去混响信号。还可在模型中考虑加性背景噪声以使用适应性算法来以在线方式适应性地估计预测滤波器。以此方式,算法可以适应性地估计噪声的功率谱密度(PSD)。
本公开的实施例提供了优于常规方法的许多优点。各种实施例提供不具有延时的实时去混响。公开了MIMO算法,因此其可以容易地与其它多声道信号处理块集成,例如,以用于进行噪声减少或源定位。本文中公开的实施例在存储和计算上是高效的,其需要较少的MIPS。该解决方案对于时变环境是鲁棒的并且是快速收敛的。在各种实施例中,可跳过非线性滤波以进一步减小噪声和残余混响,从而允许算法来提供线性处理,所述线性处理对于需要线性度的一些应用来说可能是至关重要的。该解决方案对于非平稳噪声是鲁棒的,并且在高混响条件下可以良好地执行。解决方案可以是单声道和多声道二者,并且可以扩展用于多于一个源的情况。
现在将描述本公开的实施例。如图1中所图示,语音去混响系统100可处理来自麦克风阵列120的信号并且产生可用于本文中所描述的各种目的输出信号(例如,增强的语音信号)。参考图2,将描述根据本公开的实施例的包括语音去混响的音频处理系统。系统200包括子带分解模块210、缓冲器220、方差估计部件230、预测滤波器240、线性滤波器250、非线性滤波器260和合成器270。
从麦克风阵列接收的音频信号202被提供给子带分解模块210,其执行子带分析以在子带帧中变换时域信号。缓冲器220存储用于所有声道的子带信号的最后Lk帧(过去帧的数目是子带相关的)。方差估计部件230估计当前帧的方差以用于预测滤波器估计和非线性滤波。预测滤波器估计部件240使用快速收敛的适应性在线方法。线性滤波部件250减少了大部分混响。非线性滤波部件260减少残余混响和噪声。合成器270将增强的子带域信号变换到时域。
在操作中,麦克风阵列202接收多个输入信号。假设第i个声道的输入信号由xi[n]表示,其中i=1……M,其中M是感测多个不同音频源NS的麦克风的数目。然后,输入信号可以被建模为
所有源的向量(干净语音)
第i个麦克风和每个源之间的房间脉冲响应(RIR)
vi[n]→第i个麦克风的背景噪声
在短时傅立叶变换(STFT)域中的接收的信号可以近似地建模为
其中Li是STFT域中的RIR的长度,l是帧索引,并且k是频率窗口索引。第i个接收的输入信号可以被分离成早期反射部分(期望信号)和后期混响部分如
其中D是早期反射的抽头长度(tap-length)。目标是要通过减少噪声条件下的第二后期混响项(Ri(l,k))和第三项(Vi(l,k))来提取(3)中的第一项(Yi(l,k))。
在一个或多个实施例中,为了估计后期混响部分,连同源信号一起估计RIR的后期反射。为了使这个任务较容易,通过如下给出的那样将(3)转换成较容易的多声道自回归模型来执行去混响。
在(4)中,要估计的唯一未知参数是预测滤波器
(Wl(l′,k)=[Wil(l′,k),...,WiM(l′,k)]T,M×1向量以及X(l-l′,k)=[Xl(l-l′,k),...,XM(l-l′,k)]T,M×1向量)。
在一个或多个实施例中,为了估计预测滤波器,使用最大似然(ML)方法。在一个实施例中,预测滤波器基于以下假设:(1)接收的语音信号具有高斯概率密度函数(pdf),并且接收的语音的干净部分具有带有时变方差的零均值。而且,假设噪声具有零均值;(2)输入信号的帧是独立随机变量;以及(3)RIR不改变或者它们缓慢地改变。
考虑以上假设,可以如下写出用于T帧的输入信号的pdf:
是M×1向量。
X(l,k)=[X1(l,k),X2(l,k),...,XM(l,k)]T是M×1向量。
其中μ(l,k)是均值并且∑(l,k)是M×M空间相关矩阵。
如上所述,ML方法用于估计预测滤波器,并且因此使用(5)中的pdf的对数的ML函数将被认为是要最大化的成本函数。
是成本函数
根据以上假设,均值可以近似地获得为
为了能够以在线方式实际上估计预测滤波器,进一步假设的是相关滤波器可由按比例的单位矩阵近似如下:
现在方差尺度σ(l,k)可以获得为
其中σreverb(l,k)和σnoise(l,k)分别是第j个源信号的方差、残余混响方差和噪声方差。
针对单声道的情况的等式(6)可以使用(8)作为加权均方误差(MSE)最优化问题来简化:
对于单麦克风的情况,
其中e(l,k)是误差信号。
在一个或多个实施例中,为了以在线方式估计预测滤波器,MSE成本函数将通过选择预测滤波器W1(l′,k)来最小化,从而在新数据到达时更新滤波器。在此实施例中,递归最小二乘方(RLS)滤波器用于估计预测滤波器。为了这样做,使用遗忘因子(0<λ≤1)来将成本函数修订为
一个目标是以高效方式最小化以上成本函数并且减少噪声和混响二者。下面我们将描述在图2的实施例中示出的用于实现该目标的所提出的系统。
如图2中所示出,输入信号202首先被变换为子带频域,因为其在(4)中通过子带分解模块210给出。由于混响时间是频率相关的并且用于不同麦克风的RIR的长度近似相同,所以预测滤波器的抽头的数目被假设为独立于声道,但是取决于频率。因此Li在(4)中被Lk取代为
为了降低存储消耗并改进系统的性能,对于较高频率窗口使用较短的长度并且对于较低频率窗口使用较长的长度。
在子带分解220之后,每个麦克风的输入信号被提供给具有延迟230的缓冲器,并且对于帧l和频率窗口k,其实施例在图3中示出。第k个频率窗口的缓冲器大小是Lk。如从该图中清楚的那样,对于每个声道,具有延迟D的信号的最近Lk帧将被保持在该缓冲器中。
(11)中的RLS滤波器更新的最终成本函数具有由方差估计器230估计的方差σ(l,k)。根据(9),方差具有三个分量。
参考图4,将描述用于高效地估计每个分量的方法400。在步骤402中,估计早期反射的方差。在一个实施例中,从输入语音中减去后期混响,然后在所有声道上对其进行平均。
其中对于后期混响,我们使用当前预测滤波器。
在步骤404中,估计残余混响的方差。根据(12),可以使用以下等式来估计该方差:
其中是第l帧的残余后期混响权重,其是未知参数。在一个实施例中,以如下在线方式估计残余混响权重:
其中β和w0是遗忘因子(非常接近于1)和用于残余权重初始化的数目。ε是非常小的数目以避免除以零。该方法在不同的混响环境中提供了良好的性能,但是其取决于实施方式具有一些缺点。首先,为了估计未知残余混响权重以供方差估计,其使方法增加了额外的复杂性。第二,可能需要额外的存储,这对于许多低存储设备(例如,移动电话)是不可期望的。第三,其适合于静态环境,并且性能可能在快速时变环境中降低。
为了解决这些问题,替换方法使用具有指数衰减函数的固定残余混响权重,如下给出:
其中b和η分别是瑞利分布参数和大约0.01的小的数。根据抽头的数目Lk,残余混响权重可以看起来像高斯pdf。实验结果示出,相比之下该替换方法仅在一定程度上次优,但在时变环境中具有较低的计算复杂性和较快的收敛。
在步骤406中,使用高效实时单声道方法来估计噪声方差συ(l,k),并且在所有声道上对噪声方差估计进行平均以获得关于噪声方差συ(l,k)的单个值。
返回参考图2,方差估计部件230的输出被提供给预测滤波器估计部件240。预测滤波器估计部件240基于最大化接收的频谱的对数pdf(即,使用最大似然(ML)算法)来处理信号,并且pdf是具有在(7)-(9)中给出的均值和方差的高斯pdf。
以向量形式重写(7)中的均值μi(l,k)提供:
其中wi l(k)是用于频带k和第i声道的预测滤波器。现在,(11)中的误差可以被重写为:
在一个实施例中,为了针对第l个帧以在线方式估计Wi l(k),预测滤波器Wi(k)应当针对所有频率和声道由零值初始化,然后(11)中的成本函数的梯度(其是Lk*M个数字的向量)应当被计算。使用RLS算法的更新规则可概括如下:
初始化→wm(0,k)=0并且Φ(0,k)=γIMγ是正则化因子
其中Φ(l,k)是(LkM×LkM)相关矩阵。
在此实施例中,RLS算法具有快速收敛速率且其通常胜过其它适应性算法,但其取决于应用具有两个缺点。首先,算法具有作为未知参数的预测滤波器和相关矩阵二者。相关矩阵是复矩阵,并且对于K个频带具有K×(LkM×LkM)个复数。这可能需要比较大量的存储,并且因此RLS算法可能不适合于需要低存储的特定应用。而且,这种算法的计算复杂性对于这样的应用可能是不合理的。第二,RLS算法可以通过利用相关矩阵来高效地朝着精确解收敛。然而,在时变条件下,这可能导致性能问题,这是因为算法花费更多的时间来跟踪突然的改变。下面,公开了向两个问题提供解决方案的实施例。
在一个实施例中,RLS算法的复杂性降低。(19)中给出的相关矩阵也可以重写如下:
计算上,(20)中的相关矩阵的更新的主要部分是要注意的是,相关矩阵在其主对角线上具有实数,并且针对两个声道情况(M=2)具有如下给出的对称矩阵形式:针对两个声道M=2的情况
在(21)中,要注意的是,Ф(l,k)的最重要的分量是和的主对角线。其它分量具有接近于零的大小。通过针对矩阵维持是实数值的这些对角线以及针对维持复数值,RLS算法的性能将不会显著地影响结果。在一个实施例中,通过维持如上所述的对角线的值并使其它分量为零来使相关矩阵较稀疏。例如,对于两声道(M=2)的情况,该方法将减少对于从到的所有频率的Φ(l,k)的数目分量。如上所述的大多数分量现在是实数值,其不仅减少存储使用的量,而且降低了数值复杂性,这是因为矩阵是较稀疏的并且乘法的数目减少。
在另一实施例中,改进了RLS算法在时变环境中的性能。采用RLS算法来开发适应性WPE方法的在线适应性算法在T.Yoshioka、H.Tachibana、T.Nakatani、M.Miyoshi的“具有说话者位置变化检测能力的语音信号自适应去混响”Proc.Int.Conf.Acoust.,Speech,Signal Process.(2009),pp.3733-3736中描述,其通过引用并入本文中。如该论文中所示出,RLS算法在每次突然的改变之后放大信号。为了改进在他的论文中描述的检测的性能,使用由零初始化的每个声道的长度Nf的二进制缓冲器。该缓冲器将包含对包括当前帧的最后Nf帧的二进制决策。为了在每个帧处更新此缓冲器,对针对在(18)中的ei(l,k)具有负值的频率的数(其被称为每个声道的Fi,i=1,......,M)进行计数。将Fi与阈值τ1进行比较。如果Fi>τ1,则以一更新缓冲器,否则将其设置为零。如果用于任何声道的此缓冲器中一的数目已超过阈值τ2,则识别突然的改变。在检测发生之后,RLS方法的预测滤波器和相关矩阵将重置到它们的初始值,如之前所讨论的。
在240中估计预测滤波器之后,每个声道中的输入信号由线性滤波器250滤波。在一个实施例中,如下计算预测滤波器:
在线性滤波之后,非线性滤波260执行为
如果期望使用非线性滤波来计算第j个源的增强的语音信号则计算为
其中是(9)中给出的第j个源的对应方差,并且其可以使用如M.Togami、Y.Kawaguchi、R.Takeda、Y.Obuchi和N.Nukaga的“用于时变声学转移函数的基于概率视角的优化的语音去混响”,IEEE Trans.Audio,Speech,Lang,Process.,vol.21,no.7,pp.1369–1380,Jul.2013中所示出的源分离方法来计算,其通过引用以其整体并入本文中。
在应用滤波之后,通过应用重叠相加技术,随后是反向短时快速傅里叶变换(ISTFT),将针对每个带的增强的语音频谱从频域变换到时域。
本文中描述的实施例被配置用于以数字信号处理器或其它较小平台的存储器和MIPS限制操作,对于数字信号处理器或其它较小平台,已知的计算解决方案通常是不切实际的。因此,本公开提供了适合于在消费者电子市场和其它相关应用的语音控制应用中使用的、具有鲁棒性的去混响。例如,可以利用本文中描述的系统来实现诸如使用语音命令的智能TV、汽车工业中的语音控制应用和其它潜在应用之类的家用电器的语音控制。使用本文中所描述的实施例,自动语音识别可在能够抑制当目标扬声器处于离麦克风远距离处时的非平稳干扰噪声的廉价设备上实现高性能。
图5是根据本公开的示例性实施方式的用于处理音频数据的音频处理系统的图。音频处理系统510通常对应于图2的架构,并且可以共享本文中先前描述的任何功能性。音频处理系统510可实现于硬件中或实现为硬件与软件的组合,并且可被配置用于数字信号处理器、通用计算机或其它适合平台上的操作。
如图5中所示出,音频处理系统510包括存储器520和处理器540。另外,音频处理系统510包括子带分解模块522、具有延迟模块524的缓冲器、方差估计模块526、预测滤波器估计模块528、线性滤波器模块530、非线性滤波器模块532和合成模块534,其中的一些或全部可存储在存储器520中。图5中还示出了音频输入560(诸如麦克风阵列或其它音频输入)以及模数转换器550。模数转换器550可操作为接收音频输入以及将音频信号提供到处理器540以用于如本文中所描述的处理。在各种实施例中,音频处理系统510还可以包括数模转换器570和音频输出590,诸如一个或多个扬声器。
在一些实施例中,处理器540可以执行存储在存储器520中的机器可读指令(例如,软件、固件或其它指令)。在此方面,处理器540可执行本文中所描述的各种操作、过程和技术中的任何。在其它实施例中,处理器540可以被代替和/或补充有专用硬件部件以执行本文中描述的各种技术的任何期望的组合。存储器520可以被实现为存储各种机器可读指令和数据的机器可读介质。例如,在一些实施例中,存储器520可以存储操作系统,以及作为可以由处理器540读取和执行以执行本文中描述的各种技术的机器可读指令的一个或多个应用。在一些实施例中,存储器520可以被实现为非易失性存储器(例如,闪速存储器、硬盘驱动器、固态驱动器或其它非暂态机器可读介质)、易失性存储器或其组合。
在所图示的实施例中,模块522-534由处理器540控制。子带分解模块522可操作为接收包括目标音频信号的多个音频信号,并且将接收的信号中的每个变换到子带频域中。具有延迟524的缓冲器可操作为接收多个子带频域信号以及生成多个缓冲的输出。方差估计模块526可操作为估计用于如本文中所描述的RLS滤波器的成本函数的方差分量。根据本文中所描述的实施例,预测滤波器估计模块528可操作为使用具有快速收敛的适应性在线方法。线性滤波器模块530可操作为减少混响的一方,尤其是可通过线性滤波来减少的后期混响。非线性滤波器模块532可操作为减少来自多声道音频信号的残余混响和噪声。合成模块534可操作为将增强的子带域信号变换到时域。
由音频处理系统510表示的解决方案存在若干优点。首先,该解决方案是通用框架,其可以适应于多个场景并且针对所实施计算环境的特定硬件限制而定制。本解决方案能够在提供的性能与较复杂的现有技术离线解决方案可比的同时以在线处理方式运行。例如,当麦克风-源距离大时,即使仅使用两个麦克风也可分离高度混响的源。在一些实施方式中,音频处理系统510可配置成选择性地识别相对于选择性音频处理系统510处于运动中的目标音频信号的源。
前述公开不旨在将本发明限制于所公开的精确形式或特定使用领域。因此,要预测到的是,根据本公开,无论在本文中明确描述或暗示,本公开的各种替换实施例和/或修改是可能的。已经像这样描述了本公开的实施例,本领域的普通技术人员将认识到的是,在不脱离本公开的范围的情况下,可以在形式和细节上做出改变。因此,本公开仅受权利要求限制。
Claims (18)
1.一种用于处理多声道音频信号的方法,包括:
接收包括时域多声道音频信号的输入信号;
将所述输入信号变换为频域输入信号,所述频域输入信号包括多个多声道频域、k个间隔的欠采样子带信号;
缓冲和延迟所述频域输入信号的每个声道,保存频谱帧中的每个处的用于预测滤波器估计的所述频谱帧的子集;
估计所述频谱帧中的每个处的所述频域输入信号的方差;
通过使用递归最小二乘方(RLS)算法以在线方式适应性地估计所述预测滤波器;
使用所述估计的预测滤波器对所述频域输入信号的每个声道线性滤波,以产生线性滤波的输出信号;
非线性地对所述线性滤波的输出信号滤波以减少残余混响和所估计的方差,从而产生非线性滤波的输出信号;以及
合成所述非线性滤波的输出信号以重构去混响的时域多声道音频信号,其中输出声道的数目等于输入声道的数目。
2.根据权利要求1所述的方法,其中估计所述频域输入信号的所述方差还包括估计干净语音方差。
3.根据权利要求2所述的方法,其中估计所述频域输入信号的所述方差还包括估计噪声方差。
4.根据权利要求3所述的方法,其中估计所述频域输入信号的所述方差还包括估计残余语音方差。
5.根据权利要求1所述的方法,其中适应性地估计还包括:通过将稀疏性施加到相关矩阵来使用适应性RLS算法,独立于所述频域输入信号的每个频率窗口估计每个帧处的所述预测滤波器。
6.根据权利要求1所述的方法,其中所述输入信号包括至少一个目标信号;并且其中所述非线性滤波针对每个目标信号计算增强的语音信号。
7.根据权利要求6所述的方法,其中所述非线性滤波减少残余混响和背景噪声。
8.根据权利要求1所述的方法,其中估计所述频域输入信号的所述方差还包括:
基于先前估计的预测滤波器估计新的干净语音方差;
使用具有用于定制音频解决方案的调谐参数的固定指数衰减加权函数来估计新的残余混响方差;以及
使用单麦克风噪声方差估计方法以估计每个声道的噪声方差并且随后计算平均值,从而估计所述噪声方差。
9.根据权利要求8所述的方法,其还包括检测突然的改变以在扬声器移动的情况下重置所述预测滤波器和相关矩阵。
10.一种音频处理系统,包括:
音频输入,其可操作为接收时域多声道音频信号;
子带分解模块,其可操作为将输入信号变换为频域输入信号,所述频域输入信号包括多个多声道频域、k个间隔的欠采样子带信号;
缓冲器,其可操作为缓冲和延迟所述频域输入信号的每个声道,从而保存频谱帧中的每个处的用于预测滤波器估计的所述频谱帧的子集;
方差估计器,其可操作为估计所述频谱帧中的每个处的所述频域输入信号的方差;
预测滤波器估计器,其可操作为通过使用递归最小二乘方(RLS)算法以在线方式适应性地估计所述预测滤波器;
线性滤波器,其可操作为使用所述估计的预测滤波器对所述频域输入信号的每个声道线性滤波,从而产生线性滤波的输出信号;
非线性滤波器,其可操作为非线性地对所述线性滤波的输出信号滤波以减少残余混响和所估计的方差,从而产生非线性滤波的输出信号;以及
合成器,其可操作为合成所述非线性滤波的输出信号以重构去混响的时域多声道音频信号,其中输出声道的数目等于输入声道的数目。
11.根据权利要求10所述的音频处理系统,其中所述方差估计器还可操作为估计干净语音方差。
12.根据权利要求11所述的音频处理系统,其中所述方差估计器还可操作为估计噪声方差。
13.根据权利要求12所述的音频处理系统,其中所述方差估计器还可操作为估计残余语音方差。
14.根据权利要求10所述的音频处理系统,其中所述预测滤波器估计器还可操作为通过将稀疏性施加到相关矩阵来使用适应性RLS算法,独立于所述频域输入信号的每个频率窗口估计每个帧处的所述预测滤波器。
15.根据权利要求10所述的音频处理系统,其中所述时域多声道音频信号包括至少一个目标信号;以及
其中所述非线性滤波器还可操作为针对每个目标信号计算增强的语音信号。
16.根据权利要求15所述的音频处理系统,其中所述非线性滤波器可操作为减少残余混响和背景噪声。
17.根据权利要求10所述的音频处理系统,其中所述方差估计器还可操作为:
基于先前估计的预测滤波器估计新的干净语音方差;
使用具有用于定制音频解决方案的调谐参数的固定指数衰减加权函数来估计新的残余混响方差;以及
使用单麦克风噪声方差估计方法估计每个声道的噪声方差,并且随后计算平均值,从而估计所述噪声方差。
18.根据权利要求10所述的音频处理系统,其中所述方差估计器还可操作为检测由于扬声器移动的改变以及重置所述预测滤波器和所述相关矩阵。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662438860P | 2016-12-23 | 2016-12-23 | |
US62/438860 | 2016-12-23 | ||
PCT/US2017/068362 WO2018119470A1 (en) | 2016-12-23 | 2017-12-22 | Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110100457A true CN110100457A (zh) | 2019-08-06 |
CN110100457B CN110100457B (zh) | 2021-07-30 |
Family
ID=62627432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780080144.4A Active CN110100457B (zh) | 2016-12-23 | 2017-12-22 | 基于噪声时变环境的加权预测误差的在线去混响算法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10446171B2 (zh) |
JP (1) | JP7175441B2 (zh) |
CN (1) | CN110100457B (zh) |
DE (1) | DE112017006486T5 (zh) |
WO (1) | WO2018119470A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110718230A (zh) * | 2019-08-29 | 2020-01-21 | 云知声智能科技股份有限公司 | 一种消除混响的方法和系统 |
CN112653979A (zh) * | 2020-12-29 | 2021-04-13 | 苏州思必驰信息科技有限公司 | 自适应去混响方法和装置 |
CN113393853A (zh) * | 2021-04-29 | 2021-09-14 | 青岛海尔科技有限公司 | 混合声信号的处理方法及装置、存储介质及电子装置 |
CN114616622A (zh) * | 2019-11-15 | 2022-06-10 | 高通股份有限公司 | 对非线性变换信号的线性化 |
CN114813129A (zh) * | 2022-04-30 | 2022-07-29 | 北京化工大学 | 基于wpe与emd的滚动轴承声信号故障诊断方法 |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10097919B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Music service selection |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
CN107316649B (zh) * | 2017-05-15 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音识别方法及装置 |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) * | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
KR102076760B1 (ko) * | 2018-09-19 | 2020-02-12 | 한양대학교 산학협력단 | 다채널 마이크를 이용한 칼만필터 기반의 다채널 입출력 비선형 음향학적 반향 제거 방법 |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11222651B2 (en) * | 2019-06-14 | 2022-01-11 | Robert Bosch Gmbh | Automatic speech recognition system addressing perceptual-based adversarial audio attacks |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
WO2021022390A1 (zh) * | 2019-08-02 | 2021-02-11 | 锐迪科微电子(上海)有限公司 | 主动降噪系统和方法及存储介质 |
CN110738684A (zh) * | 2019-09-12 | 2020-01-31 | 昆明理工大学 | 一种基于相关滤波融合卷积残差学习的目标跟踪方法 |
CN110660405B (zh) * | 2019-09-24 | 2022-09-23 | 度小满科技(北京)有限公司 | 一种语音信号的提纯方法及装置 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
JP7486145B2 (ja) * | 2019-11-21 | 2024-05-17 | パナソニックIpマネジメント株式会社 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
CN111220974B (zh) * | 2019-12-10 | 2023-03-24 | 西安宁远电子电工技术有限公司 | 一种低复杂度的基于调频步进脉冲信号的频域拼接方法 |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
CN111599374B (zh) * | 2020-04-16 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种单通道语音去混响方法及装置 |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
CN112565119B (zh) * | 2020-11-30 | 2022-09-27 | 西北工业大学 | 一种基于时变混合信号盲分离的宽带doa估计方法 |
US20240105202A1 (en) | 2021-02-04 | 2024-03-28 | Nippon Telegraph And Telephone Corporation | Reverberation removal device, parameter estimation device, reverberation removal method, parameter estimation method, and program |
CN113160842B (zh) * | 2021-03-06 | 2024-04-09 | 西安电子科技大学 | 一种基于mclp的语音去混响方法及系统 |
CN113299301A (zh) * | 2021-04-21 | 2021-08-24 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
CN113506582B (zh) * | 2021-05-25 | 2024-07-09 | 北京小米移动软件有限公司 | 声音信号识别方法、装置及系统 |
CN113571076A (zh) * | 2021-06-16 | 2021-10-29 | 北京小米移动软件有限公司 | 信号处理方法、装置、电子设备和存储介质 |
CN114792524B (zh) * | 2022-06-24 | 2022-09-06 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、程序产品、计算机设备和介质 |
CN116047413B (zh) * | 2023-03-31 | 2023-06-23 | 长沙东玛克信息科技有限公司 | 一种封闭混响环境下的音频精准定位方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1898943A (zh) * | 2003-11-06 | 2007-01-17 | 赫伯特·比希纳 | 用于处理输入信号的设备和方法 |
CN101874412A (zh) * | 2007-10-03 | 2010-10-27 | 奥迪康有限公司 | 具有预测和抵消声反馈的反馈布置的助听器系统、方法及使用 |
US20120275613A1 (en) * | 2006-09-20 | 2012-11-01 | Harman International Industries, Incorporated | System for modifying an acoustic space with audio source content |
CN103517185A (zh) * | 2012-06-26 | 2014-01-15 | 鹦鹉股份有限公司 | 对在嘈杂环境中操作的多话筒音频设备的声信号降噪的方法 |
CN103828392A (zh) * | 2012-01-30 | 2014-05-28 | 三菱电机株式会社 | 混响抑制装置 |
CN104115223A (zh) * | 2012-02-17 | 2014-10-22 | 株式会社日立制作所 | 混响去除参数估计装置以及方法、混响/回波去除参数估计装置、混响去除装置、混响/回波去除装置、以及混响去除装置在线会议系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7167568B2 (en) | 2002-05-02 | 2007-01-23 | Microsoft Corporation | Microphone array signal enhancement |
US7352858B2 (en) | 2004-06-30 | 2008-04-01 | Microsoft Corporation | Multi-channel echo cancellation with round robin regularization |
US8180068B2 (en) | 2005-03-07 | 2012-05-15 | Toa Corporation | Noise eliminating apparatus |
JP5227393B2 (ja) | 2008-03-03 | 2013-07-03 | 日本電信電話株式会社 | 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体 |
GB2459512B (en) * | 2008-04-25 | 2012-02-15 | Tannoy Ltd | Control system for a transducer array |
JP5113794B2 (ja) * | 2009-04-02 | 2013-01-09 | 日本電信電話株式会社 | 適応マイクロホンアレイ残響抑圧装置、適応マイクロホンアレイ残響抑圧方法及びプログラム |
US8553898B2 (en) | 2009-11-30 | 2013-10-08 | Emmet Raftery | Method and system for reducing acoustical reverberations in an at least partially enclosed space |
EP2869297B1 (en) | 2012-07-02 | 2020-02-19 | Panasonic Intellectual Property Management Co., Ltd. | Active noise reduction device and active noise reduction method |
KR101401120B1 (ko) | 2012-12-28 | 2014-05-29 | 한국항공우주연구원 | 신호 처리 장치 및 방법 |
US9654894B2 (en) * | 2013-10-31 | 2017-05-16 | Conexant Systems, Inc. | Selective audio source enhancement |
-
2017
- 2017-12-22 DE DE112017006486.4T patent/DE112017006486T5/de active Pending
- 2017-12-22 US US15/853,693 patent/US10446171B2/en active Active
- 2017-12-22 JP JP2019534198A patent/JP7175441B2/ja active Active
- 2017-12-22 CN CN201780080144.4A patent/CN110100457B/zh active Active
- 2017-12-22 WO PCT/US2017/068362 patent/WO2018119470A1/en active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1898943A (zh) * | 2003-11-06 | 2007-01-17 | 赫伯特·比希纳 | 用于处理输入信号的设备和方法 |
US20120275613A1 (en) * | 2006-09-20 | 2012-11-01 | Harman International Industries, Incorporated | System for modifying an acoustic space with audio source content |
CN101874412A (zh) * | 2007-10-03 | 2010-10-27 | 奥迪康有限公司 | 具有预测和抵消声反馈的反馈布置的助听器系统、方法及使用 |
CN103828392A (zh) * | 2012-01-30 | 2014-05-28 | 三菱电机株式会社 | 混响抑制装置 |
CN104115223A (zh) * | 2012-02-17 | 2014-10-22 | 株式会社日立制作所 | 混响去除参数估计装置以及方法、混响/回波去除参数估计装置、混响去除装置、混响/回波去除装置、以及混响去除装置在线会议系统 |
CN103517185A (zh) * | 2012-06-26 | 2014-01-15 | 鹦鹉股份有限公司 | 对在嘈杂环境中操作的多话筒音频设备的声信号降噪的方法 |
Non-Patent Citations (3)
Title |
---|
ANTE JUKIĆ ; TOON VAN WATERSCHOOT ; TIMO GERKMANN ; SIMON DOCLO: "Group sparsity for mimo speech dereverberation", 《2015 IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS (WASPAA)》 * |
BOAZ SCHWARTZ ; SHARON GANNOT ; EMANUËL A. P. HABETS: "Online Speech Dereverberation Using Kalman Filter and EM Algorithm", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
PIET SOMMEN ; KEES JANSE: "The undersampled wireless acoustic sensor network scenario: Some preliminary results and open research issues", 《2009 IEEE PACIFIC RIM CONFERENCE ON COMMUNICATIONS, COMPUTERS AND SIGNAL PROCESSING》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110718230A (zh) * | 2019-08-29 | 2020-01-21 | 云知声智能科技股份有限公司 | 一种消除混响的方法和系统 |
CN110718230B (zh) * | 2019-08-29 | 2021-12-17 | 云知声智能科技股份有限公司 | 一种消除混响的方法和系统 |
CN114616622A (zh) * | 2019-11-15 | 2022-06-10 | 高通股份有限公司 | 对非线性变换信号的线性化 |
CN112653979A (zh) * | 2020-12-29 | 2021-04-13 | 苏州思必驰信息科技有限公司 | 自适应去混响方法和装置 |
CN113393853A (zh) * | 2021-04-29 | 2021-09-14 | 青岛海尔科技有限公司 | 混合声信号的处理方法及装置、存储介质及电子装置 |
CN114813129A (zh) * | 2022-04-30 | 2022-07-29 | 北京化工大学 | 基于wpe与emd的滚动轴承声信号故障诊断方法 |
CN114813129B (zh) * | 2022-04-30 | 2024-03-26 | 北京化工大学 | 基于wpe与emd的滚动轴承声信号故障诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
DE112017006486T5 (de) | 2019-09-12 |
US10446171B2 (en) | 2019-10-15 |
JP2020503552A (ja) | 2020-01-30 |
WO2018119470A1 (en) | 2018-06-28 |
CN110100457B (zh) | 2021-07-30 |
US20180182410A1 (en) | 2018-06-28 |
JP7175441B2 (ja) | 2022-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110100457A (zh) | 基于噪声时变环境的加权预测误差的在线去混响算法 | |
US10123113B2 (en) | Selective audio source enhancement | |
CN110088834B (zh) | 用于语音去混响的多输入多输出(mimo)音频信号处理 | |
JP7324753B2 (ja) | 修正された一般化固有値ビームフォーマーを用いた音声信号のボイス強調 | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
Braun et al. | Linear prediction-based online dereverberation and noise reduction using alternating Kalman filters | |
CN110517701B (zh) | 一种麦克风阵列语音增强方法及实现装置 | |
US11373667B2 (en) | Real-time single-channel speech enhancement in noisy and time-varying environments | |
RU2768514C2 (ru) | Процессор сигналов и способ обеспечения обработанного аудиосигнала с подавленным шумом и подавленной реверберацией | |
US10726857B2 (en) | Signal processing for speech dereverberation | |
KR20120066134A (ko) | 다채널 음원 분리 장치 및 그 방법 | |
JP6987075B2 (ja) | オーディオ源分離 | |
Nesta et al. | A flexible spatial blind source extraction framework for robust speech recognition in noisy environments | |
Habets et al. | Dereverberation | |
CN110111802B (zh) | 基于卡尔曼滤波的自适应去混响方法 | |
EP2774147A1 (en) | Audio signal noise attenuation | |
Doclo et al. | Combined frequency-domain dereverberation and noise reduction technique for multi-microphone speech enhancement | |
US20230306980A1 (en) | Method and System for Audio Signal Enhancement with Reduced Latency | |
Srinivasan et al. | Multichannel parametric speech enhancement | |
Corey et al. | Relative transfer function estimation from speech keywords | |
Tang et al. | A Time-Varying Forgetting Factor-Based QRRLS Algorithm for Multichannel Speech Dereverberation | |
Kim et al. | Generalized optimal multi-microphone speech enhancement using sequential minimum variance distortionless response (MVDR) beamforming and postfiltering | |
Tonelli | Blind reverberation cancellation techniques | |
Kim et al. | Online speech dereverberation using RLS-WPE based on a full spatial correlation matrix integrated in a speech enhancement system | |
Kim | Interference suppression using principal subspace modification in multichannel Wiener filter and its application to speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |