CN111512367B - 提供处理的降噪且混响降低的音频信号的信号处理器和方法 - Google Patents
提供处理的降噪且混响降低的音频信号的信号处理器和方法 Download PDFInfo
- Publication number
- CN111512367B CN111512367B CN201880073959.4A CN201880073959A CN111512367B CN 111512367 B CN111512367 B CN 111512367B CN 201880073959 A CN201880073959 A CN 201880073959A CN 111512367 B CN111512367 B CN 111512367B
- Authority
- CN
- China
- Prior art keywords
- reverberation
- signal
- noise
- signal processor
- coefficients
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 148
- 230000002829 reductive effect Effects 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 title claims abstract description 120
- 230000009467 reduction Effects 0.000 claims abstract description 222
- 230000003111 delayed effect Effects 0.000 claims abstract description 36
- 238000004590 computer program Methods 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 56
- 239000013598 vector Substances 0.000 claims description 47
- 239000011159 matrix material Substances 0.000 claims description 42
- 238000001914 filtration Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 abstract description 59
- 238000012545 processing Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 21
- 230000001364 causal effect Effects 0.000 description 10
- 230000009977 dual effect Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 101150026109 INSR gene Proteins 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 8
- 239000000654 additive Substances 0.000 description 7
- 230000000996 additive effect Effects 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000007493 shaping process Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000007430 reference method Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 201000007201 aphasia Diseases 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
用于基于一个或多个输入音频信号来提供一个或多个处理的音频信号的信号处理器被配置为使用输入音频信号和利用降噪获得的延迟的降噪混响信号来估计自回归混响模型的系数。信号处理器被配置为使用输入音频信号和自回归混响模型的估计的系数来提供降噪混响信号。信号处理器被配置为使用降噪混响信号和自回归混响模型的估计的系数来导出降噪且混响降低的输出信号。方法和计算机程序包括相似的功能。
Description
技术领域
根据本发明的实施例涉及一种用于提供处理的音频信号的信号处理器。
根据本发明的其他实施例涉及一种用于提供处理的音频信号的方法。
根据本发明的另外的实施例涉及用于执行所述方法的计算机程序。
根据本发明的实施例涉及一种利用减少控制来在线去混响和降噪(例如,使用并行结构)的方法和设备。
根据本发明的其他实施例涉及使用备选的卡尔曼滤波器的基于线性预测的在线去混响和降噪。
根据本发明的实施例涉及一种用于降噪且降低混响的信号处理器、方法和计算机程序。
背景技术
音频信号处理、语音通信和音频传输是不断发展的技术领域。但是,在处理音频信号时,通常发现噪声和混响会降低音频质量。
例如,在远距离的语音通信场景中,所需的语音源离捕获设备很远,与所需的语音等级相比,由于较高程度的混响和噪声,语音质量和清晰度通常会降低。
同样,在远距离交谈的场景中,语音识别器的性能也会大大降低([15]、[34])。
因此,在嘈杂环境中进行具有高感知质量的实时逐帧处理的去混响仍然是一项具有挑战性且部分尚未解决的任务。
最新的多通道去混响算法基于空间频谱滤波([2]、[27])、系统识别([25]、[26]),声学通道反演([20]、[22])或使用自回归(AR)混响模型的线性预测([21]、[29]、[32])。通过对每个短时傅立叶变换(STFT)域频带使用多通道自回归(MAR)模型,成功实现了基于线性预测的方法的应用。基于MAR模型的方法的优点是它们对于多个源均有效,它们可以直接估计有限长度的去混响滤波器,所需的滤波器相对较短,并且适合作为波束成形算法的预处理技术。MAR信号模型的一个巨大挑战是加性噪声的集成,必须预先消除加性噪声([30]、[32]),而又不破坏混响信号的相邻时间帧之间的关系。在[33]中,提出了一种称为盲脉冲响应缩短的多通道线性预测方法的通用框架,该框架旨在缩短每个麦克风中的混响尾音,并在保持所需信号的麦克风之间的相关性的同时,产生与输入通道相同数量的输出。
由于基于多通道线性预测框架的第一个解决方案是批处理算法,因此人们做出了进一步的努力来开发适用于实时处理的在线算法([4、12、13、31、35])。然而,据我们所知,仅在[31]中才考虑到在线解决方案中减少加性噪声。
鉴于常规解决方案,期望在降低音频信号的噪声和混响时提供改进的在复杂性、稳定性和信号质量之间权衡的这样一种概念。
发明内容
根据本发明的实施例创建了一种信号处理器,该信号处理器用于基于输入音频信号(例如,单通道或多通道输入音频信号)(或一般而言,基于一个或多个输入音频信号)提供处理的音频信号(例如,可以是单通道音频信号或多通道音频信号的降噪且混响降低的音频信号)(或一般而言,一个或多个处理的音频信号)。信号处理器被配置为使用输入音频信号(例如,有噪声且混响的输入音频信号或多个有噪声且混响的输入音频信号,或者直接是例如来自一个或多个麦克风的观测信号y(n))(或一般而言,使用一个或多个输入音频信号)和通过使用降噪(或降噪级)获得的(一个或多个)延迟的降噪混响信号(或降噪级)来估计(例如,多通道)自回归混响模型的系数(例如,AR系数或MAR系数)。例如,延迟的降噪混响信号可以包括(一个或多个)过去的降噪混响信号,其可以由表示。例如,系数的估计可以由信号处理器的AR系数估计级或MAR系数估计级来执行。
此外,信号处理器被配置为使用输入音频信号(例如,可以是有噪声且混响的输入音频信号或例如可以是来自一个或多个麦克风的有噪声的观测信号y(n))和自回归混响模型(可以是多通道自回归混响模型)的估计的系数(并且其中估计的系数可以例如与当前帧相关联,并且可以例如被称为“MAR系数”)来提供(例如,当前帧的)降噪混响信号(或一般而言,一个或多个降噪混响信号)。此外,被配置为提供降噪混响信号的信号处理器的部分可以被认为是“降噪级”。
此外,信号处理器被配置为使用降噪(混响)信号(或一般而言,一个或多个降噪混响信号)和自回归混响模型(或多通道自回归混响模型)的估计的系数来提供降噪且混响降低的输出信号(或一般而言,一个或多个降噪且混响降低的输出信号)。这可以例如使用混响估计和信号减法来执行。
根据本发明的该实施例基于以下发现:通过基于延迟且降噪的混响信号(可以与一个或多个先前帧相关联)来估计与特定帧相关联的自回归混响模型的系数,可以克服在一些常规解决方案中发现的因果问题;以及可以使用输入音频信号和自回归混响模型的估计的系数(与当前帧相关联的、且基于与一个或多个先前帧相关联的降噪(特别的是混响)信号(例如,由降噪级提供)获得的)来提供当前帧的降噪混响信号。因此,由于可以分别并且交替地执行自回归混响模型的系数的估计和降噪混响信号的估计,因此可以将计算复杂度保持在较小的水平。换句话说,与对自回归混响模型的系数和降噪混响信号进行联合估计相比,可以更有效地对自回归混响模型的系数和降噪混响信号分别进行估计,而且其比降噪且混响降低的音频信号的联合(单步)估计更有效。然而,已经发现,在自回归混响模型的系数的估计中考虑通过使用降噪获得的延迟的(或等效地,过去的)降噪混响信号会产生相当良好的对自回归混响模型的系数的估计,因此不会严重降低处理的信号(输出信号)的音频质量。从而,可以交替地估计自回归混响模型的系数和降噪混响信号的帧,同时仍然获得良好的音频质量。
因此,复杂度、稳定性和信号质量之间的权衡可以被认为是良好的。
在优选实施例中,信号处理器被配置为估计多通道自回归混响模型的系数。已经发现,本文描述的概念非常适合于多通道信号的处理,并且带来了这种多通道信号的复杂性的特定改进。
在优选实施例中,信号处理器被配置为使用与输入音频信号的当前处理部分(例如,具有帧索引n的时间帧)相关联的自回归混响模型的估计的系数,以便产生与输入音频信号的当前处理部分(例如,具有帧索引n的时间帧)相关联的降噪混响信号。因此,提供与当前处理部分相关联的降噪混响信号可以依赖于与输入音频信号的当前处理部分相关联的自回归混响模型的系数的先前估计,或者与当前处理部分(或帧)相关联的自回归混响模型的系数的估计可以在提供与当前处理部分(或帧)相关联的降噪混响信号之前进行。因此,当处理具有帧索引n的音频帧时,可以首先执行自回归混响模型的系数的估计(例如,使用过去的降噪但混响的信号),然后可以执行提供与当前处理帧相关联的降噪混响信号。已经发现,这种顺序的处理导致特别好的结果,而相反的顺序通常将不能很好地执行。
在优选实施例中,信号处理器被配置为使用与(或基于)输入音频信号(例如,输入信号y(n))的先前处理部分(例如,具有帧索引n-1的帧)相关联的一个或多个延迟降噪混响信号(或替代地,降噪混响信号)以估计与输入音频信号的当前处理部分(例如,具有帧索引n)相关联的自回归混响模型的系数。通过使用与输入音频信号的先前处理部分(或帧)相关联的降噪混响信号来估计与输入音频信号的当前处理部分(或帧)相关联的自回归混响模型的系数,可以避免因果关系问题,因为通常可以在估计与输入音频信号的当前处理部分(或帧)相关联的自回归混响模型的系数之前,提供与先前处理帧相关联的降噪混响信号。而且,已经发现,使用与输入音频信号的先前处理部分相关联的降噪混响信号导致自回归混响模型的系数的足够好的估计。
在优选实施例中,信号处理器被配置为交替地提供自回归混响模型(或多通道自回归混响模型)的估计的系数和降噪混响信号部分。此外,信号处理器被配置为使用(优选地,多通道)自回归混响模型的估计的系数(或者,替代地,先前估计的系数)来提供降噪混响信号部分。此外,信号处理器被配置为使用一个或多个延迟的降噪混响信号(或,替代地,先前提供的降噪混响信号部分)来估计多通道自回归混响模型的系数。通过进行这种交替提供自回归混响模型的估计的系数和降噪混响信号部分,可以保持较低的计算复杂度,并且仍然可以获得几乎没有延迟的结果。而且,可以避免可能由多通道自回归混响模型的系数和降噪混响信号部分的联合估计引起的计算不稳定性。
在优选实施例中,信号处理器可以被配置为应用使成本函数最小化的算法(例如,卡尔曼滤波器、递归最小二乘滤波器或归一化最小均方(NLMS)滤波器),以便估计(优选地,多通道)自回归混响模型的系数。已经发现,使用这种算法非常适合于估计自回归混响模型的系数。例如,可以如方程式(15)中所示定义成本函数,并且最小化可以例如满足方程式(17)中所示的功能或使误差矩阵的迹最小化,如方程式(19)中所示。成本函数的最小化例如可以遵循方程式(20)至(25)。成本函数的最小化也可以使用算法1的步骤4至6。
在一个优选实施例中,用于估计自回归混响模型的系数的成本函数(例如,在使成本函数最小化的算法中)是针对自回归混响模型的系数的均方误差的期望值,例如,如公式(19)所示。因此,可以实现预期自回归混响模型的系数非常适合引起混响的声学环境。应当注意的是,例如,在单独的准备步骤(例如,使用一个或多个方程式(26)至(29))中估计MAR系数噪声和有噪声的去混响信号(状态噪声和观测噪声)的预期统计特性。
在一个优选实施例中,信号处理器可以被配置为在假设降噪混响信号是固定的假设下(例如,不受与输入音频信号的当前处理部分相关联的自回归混响模型的系数的影响)应用使成本函数最小化的算法,以便估计(优选地,多通道)自回归混响模型的系数。通过做出这样的假设,可以显著地降低计算复杂度,并且还可以避免计算的不稳定性。例如,方程式(20)至(25)的算法做出这样的假设。
在一个优选实施例中,信号处理器被配置为应用使成本函数最小化的算法(例如,卡尔曼滤波器或递归最小二乘滤波器或NLMS滤波器),以便估计降噪混响信号。例如,可以如方程式(16)中所示定义成本函数,并且最小化可以例如如方程式(18)中所示实现功能或如方程式(30)中所示使误差矩阵的迹最小化。成本函数的最小化例如可以遵循方程式(31)至(36)。
在一个优选实施例中,信号处理器被配置为应用使成本函数最小化的算法(例如,卡尔曼滤波器、递归最小二乘滤波器或NLMS滤波器),以便估计降噪混响信号。已经发现,例如在已知或已估计噪声的统计特性的情况下,使用这种算法来使成本函数最小化对于确定降噪混响信号也是非常有效的。此外,如果将相似算法(例如,使成本函数最小化的算法)用于自回归混响模型的系数的估计以及用于降噪混响信号的估计两者,则可以大大改善计算复杂度。例如,可以使用根据方程式(31)至(36)的算法,其中可以根据方程式(37)至(42)中的一个或多个来确定要在所述算法中使用的参数。同样,可以使用算法1的步骤7到9来执行功能。
在一个优选实施例中,用于估计(可选地降噪的)混响信号的成本函数是(可选地,降噪的)混响信号的均方误差的期望值。已经发现这种成本函数(例如,根据方程式(16)或根据方程式(30))提供了良好的结果,并且可以使用合理的计算量来进行评估。此外,应该注意的是,例如,如果关于噪声的统计特性(例如,噪声协方差矩阵)以及可能也关于期望的信号(例如,期望的语音协方差矩阵)的信息(或假设)可用的话,则可以对降噪混响信号的均方误差进行估计。
在一个优选实施例中,信号处理器被配置为在自回归混响模型的系数是固定的假设下(例如,不受与输入音频信号的当前处理部分相关联的降噪混响信号的影响),应用使成本函数最小化的算法,以便估计(可选地,降噪的)混响信号。已经发现,这种“理想”假设(例如,在根据方程式(31)至(36)的计算中做出的)不会显著地降低降噪的混响信号的估计结果,但是大大减少了计算工作量(例如,与降噪混响信号和自回归混响模型的系数的联合估计相比,或与降噪且混响降低的输出信号的直接估计(在单步过程中)相比)。
此外,该假设允许采用交替过程,其中以单独的方式估计降噪混响信号和自回归混响模型的系数(例如,通过交替执行算法1的步骤4至6和步骤7至9)。
在一个优选实施例中,信号处理器被配置为基于(优选地,多通道)自回归混响模型的估计的系数以及基于与输入音频信号的先前处理部分(例如,帧)相关联的一个或多个延迟的降噪混响信号(或替代地,基于降噪混响信号)来确定混响分量(例如,通过使用自回归混响的估计的系数对降噪混响信号进行滤波)。此外,信号处理器优选地被配置为从与输入音频信号的当前处理部分(例如,帧)相关联的降噪混响信号中(至少部分地)消除(例如,减去)混响分量,以便获得降噪和混响降低的输出信号(例如,期望的语音信号)。这可以例如使用方程式(44)来执行。
已经发现,基于降噪混响信号来确定混响分量带来了良好的结果。例如,从有噪声的观测y(n)和过去的无噪声信号X(n-D)来估计混响滤波器(MAR系数)是有利的。而且,优选地假设噪声没有混响特性。由于仅需过去的无噪声信号X(n-D)来估计MAR系数,因此所使用的概念可以以因果方式工作,并在保持良好效果的同时,使计算量相当缓慢。
在优选实施例中,信号处理器被配置为执行输入音频信号和降噪混响信号的加权组合(例如,根据方程式44),并且还在加权组合中包括混响分量(例如,使得执行输入音频信号、降噪混响信号和混响分量的加权组合)。换句话说,通过输入信号、降噪信号和混响分量的加权组合来获得降噪且混响降低的信号。因此,可以微调信号特性,例如混响量和降噪量。因此,可以根据当前情况的要求调整处理的音频信号(例如,降噪且混响降低的音频信号)的信号特性。
在优选实施例中,信号处理器被配置为在加权组合中还包括混响分量的整形版本(例如,使得执行输入音频信号、降噪混响信号、混响分量的整形版本以及还有混响分量本身的加权组合)。例如,这可以如描述“利用减少控制的在线去混响和降噪(使用并行结构)的方法和设备”的章节的最后一个方程式所示。因此,可以对残余混响进行进一步的频谱和动态整形。因此,相对于要达到的结果具有更大程度的灵活性。
在优选实施例中,信号处理器被配置为估计输入音频信号的噪声分量的统计(例如,协方差)(或统计性质)。例如,输入音频信号的噪声分量的这种统计在降噪混响信号的估计(或提供)中可能是有用的。而且,因为输入音频信号的噪声分量的统计可以用作所述成本函数的一部分,所以对输入音频信号的噪声分量的统计的估计(或确定)可以促进成本函数的表述。
在优选实施例中,信号处理器被配置为在非语音时间段(例如,使用语音检测器检测的非语音时间段)期间中估计输入音频信号的噪声分量的统计(例如,协方差)(或统计特性)。已经发现,可以通过合理的工作量来检测非语音时间段,并且还已经发现,在非语音时间段期间存在的噪声通常也存在于语音时段中而没有太多变化。因此,可以有效地获得噪声成分的统计,该统计可用于提供降噪混响信号。
在优选实施例中,信号处理器被配置为使用卡尔曼滤波器估计建模的(优选地,多通道)自回归混响的系数。已经发现,这样的卡尔曼滤波器允许有效的计算并且很好地适应信号处理任务的要求。例如,可以使用根据方程式(20)至(25)的实施方式。
在优选实施例中,信号处理器被配置为基于以下项来估计(优选地,多通道)自回归混响模型的系数:(优选地,多通道)自回归混响模型的系数的矢量(例如,与音频信号的先前处理部分相关联)的估计误差矩阵;(优选地,多通道)自回归混响模型的系数的矢量的不确定性噪声的估计协方差(例如方程式(26)所示出的);(优选地,多通道)自回归混响模型的(估计的)系数的先前矢量(例如,与输入音频信号的先前处理部分或版本相关联);延迟降噪混响信号的一个或多个延迟的降噪混响信号(例如,与输入音频信号的先前部分或帧相关联的(过去)降噪混响信号,表示为);与输入音频信号的有噪声(例如,非降噪)但混响降低(或无混响)的信号分量相关联的估计协方差;以及输入音频信号。已经发现,基于这些输入变量来估计自回归混响模型的系数不仅计算效率高,而且带来了自回归混响模型的系数的准确估计。
在优选实施例中,信号处理器被配置为使用卡尔曼滤波器来估计降噪混响信号。已经发现,使用这种卡尔曼滤波器(其可以实现如方程式31至36中给出的功能)对于估计降噪混响信号也是有利的。而且,将卡尔曼滤波器用于自回归混响模型的系数的估计和用于降噪混响信号的估计两方面都可以提供良好的结果。
在优选实施例中,信号处理器被配置为基于以下项来估计降噪混响信号:降噪混响信号(例如,与输入音频的先前处理部分或帧相关联)的估计误差矩阵;期望的语音信号(例如,如方程式37到42中给出的与输入音频信号的当前处理部分或帧相关联)的估计协方差;降噪混响信号的一个或多个先前估计(例如,与输入音频信号的一个或多个先前处理部分或帧相关联);(优选地,多通道)自回归混响模型的多个系数(例如,与输入音频信号的当前处理部分或帧相关联,例如,定义矩阵F(n));与输入音频信号相关联的估计的噪声协方差;以及输入音频信号。已经发现,基于这些量来估计降噪混响信号既在计算效率上高效,又提供了音频信号的良好质量。
在优选实施例中,信号处理器被配置为基于对以下项的加权组合(例如,根据方程式28)来获得与输入音频信号的有噪声但混响降低(或无混响)的信号分量相关联的估计协方差:使用输入音频信号的有噪声但混响降低(或无混响)的信号分量(例如,与根据方程式29的输入音频信号的先前处理部分或帧相关联)的先前估计递归地确定的递归协方差估计;以及所述输入音频信号的有噪声但混响降低(或无混响)的信号分量(例如,与输入音频信号的当前处理部分相关联)的(例如,中间)估计的外积。例如,作为卡尔曼滤波过程中的一种新事物,可以获得有噪声但混响降低的信号分量的中间估计(例如,根据方程式(22))。例如,中间估计可以是使用预测系数的预测(例如,由方程式(21)确定)。
已经发现,这样的概念以合理的计算复杂度提供了与有噪声但混响降低的(或无混响的)信号分量相关联的协方差的良好估计。
在优选实施例中,期望的信号加噪声的递归协方差估计基于对输入音频信号的有噪声但混响降低(或无混响)的信号分量的估计,其中有噪声但混响降低的信号分量的估计是使用(优选地,多通道)自回归混响模型的最终估计的系数并使用降噪混响信号的最终估计计算出的(例如,根据方程式(29)且结合的定义)。替代地或附加地,信号处理器被配置为基于(优选地,多通道)自回归混响模型的系数的中间估计(例如,预测)来获得输入音频信号的有噪声但混响降低的信号分量的外积(例如,在卡尔曼滤波过程中)(例如,为了获得协方差估计)(例如,根据方程式(21)获得)。通过使用这样的概念,例如,当与e(n)和的定义结合使用时,根据下面描述的方程式(28)和(29),可以有效地获得估计的协方差。
在一个优选实施例中,信号处理器被配置为基于对以下项的加权组合来获得与输入音频信号的有噪声但混响降低(或无混响)的信号分量相关联的估计的协方差:使用输入音频信号的降噪且混响降低的信号分量(例如,与输入音频信号的先前处理部分或帧相关联)的先前估计递归地确定的递归协方差估计(例如,可以将其视为递归的后验最大似然估计);以及基于输入音频信号的当前处理部分的协方差的先验估计(例如,根据方程式(41)获得)。以这种方式,可以以适度的计算复杂度获得与输入音频信号的降噪且混响降低的信号分量相关联的协方差的有意义的估计。例如,使用方程式(37)中描述的方法允许使用卡尔曼滤波器来降噪,并具有良好的结果。
在优选实施例中,信号处理器被配置为基于对输入音频信号的降噪且混响降低(或无混响)的信号分量的估计获得递归协方差估计,降噪且混响降低(或无混响)的信号分量的估计是使用(优选地,多通道)自回归混响模型的最终估计的系数并使用降噪混响(输出)信号的最终估计计算出的(例如,使用方程式(38))。替代地或附加地,信号处理器被配置为使用输入信号的维纳滤波来获得协方差的先验估计(例如,如方程式(41)所示),其中,根据以下项确定维纳滤波操作:关于输入音频信号的协方差信息;关于输入音频信号的混响分量的协方差信息;以及关于所述输入音频信号的噪声分量的协方差信息(例如如在方程式(42)中所示)。已经发现,这些概念有助于有效地计算与降噪且混响降低的信号分量有关的估计协方差。
此处描述的信号处理器以及权利要求中定义的信号处理器可以单独或组合使用本文描述的任何特征、功能和细节来进行补充。可以独立地使用有关计算不同参数的细节。此外,可以独立地使用有关各个处理步骤的细节。
根据本发明的另一个实施例创建了一种用于基于输入音频信号(例如,单通道或多通道输入音频信号)提供处理的音频信号(例如,可以是单通道音频信号或多通道音频信号的降噪且混响降低的音频信号)的方法。该方法包括:使用(通常是有噪声且混响的)输入音频信号(或多个输入音频信号)(例如,直接来自观测信号y(n))和利用降噪(降噪级)而获得的延迟(或过去)的降噪混响信号(例如,过去的降噪混响信号)来对(优选地,但不必要是,多通道)自回归混响模型的系数(例如,AR系数或MAR系数)进行估计。该功能可以例如由AR系数估计级执行。
此外,该方法包括:使用(通常是有噪声且混响的)输入音频信号(例如,有噪声的观测信号y(n))和(优选地,多通道)自回归混响模型的估计的系数(例如,与当前帧关联)来提供(例如,当前帧的)降噪混响信号。自回归混响模型的估计的系数可以例如是“MAR系数”。此外,提供降噪混响信号的功能可以例如由降噪级执行。
该方法还包括:使用降噪混响信号和(优选地,多通道)自回归混响模型的估计的系数来导出降噪且混响降低的输出信号。
该方法基于与上述信号处理器相同的考虑,因此上述说明也适用。
而且,该方法可以由本文关于信号处理器描述的任何特征、功能和细节单独地或组合地补充。
根据本发明的另一实施例创建一种计算机程序,当计算机程序在计算机上运行时,该计算机程序用于执行本文所述的方法。
附图说明
随后将参考附图描述根据本发明的实施例,其中:
图1示出了根据本发明实施例的信号处理器的示意框图;
图2示出了在噪声环境中用于MAR(多通道自回归)系数估计的传统结构;
图3示出了根据本发明的设备(或信号处理器)(实施例2)的示意框图;
图4示出了根据本发明的设备(或信号处理器)(实施例3)的示意框图;
图5示出了根据本发明的设备(或信号处理器)(实施例4)的示意框图;
图6示出了混响信号、多通道自回归系数和噪声观测的生成模型的示意图;
图7示出了根据本发明实施例的包括所提出的并行双卡尔曼滤波器结构的设备(或信号处理器)的示意框图;
图8示出了根据参考文献[31]的常规顺序降噪和去混响结构的示意框图;
图9是提出的用于控制噪声减少βv和混响减少βr的量的结构的示意框图;
图10示出了使用测量的RIR针对变化的麦克风数量的客观测量的示意图,其中iSNR=10dB,L=15,没有减少控制(βv=βr=0);
图11示出了针对变化的滤波器长度L的客观测量的图形表示,其中参数iSNR=15dB,M=2,没有减少控制(βv=βr=0);
图12示出了一个模拟鞋盒式房间中8-13秒之间移动源的短期测量的图形表示,其中T60=500ms,iSNR=15dB,M=2,L=15,βv=-15dB,βr,min=-15dB;
图13示出了针对变化的控制参数βv和βr,MIN的降噪且混响降低的图示,其中iSNR=15dB,M=2,L=12;以及
图14示出了根据本发明实施例的用于基于输入音频信号来提供处理的音频信号的方法的流程图。
具体实施方式
1.根据图1的实施例
图1示出了根据本发明的实施例的信号处理器100的示意框图。信号处理器100被配置为接收输入音频信号110,并且被配置为基于输入音频信号提供处理的音频信号112,该处理的音频信号112例如可以是降噪且混响降低的音频信号。应当注意,输入音频信号110可以是单通道音频信号,但是优选地是多通道音频信号。类似地,处理的音频信号112可以是单通道音频信号,但是优选地是多通道音频信号。信号处理器100可以例如包括系数估计块或系数估计单元120,系数估计块或系数估计单元120被配置为使用单通道或多通道输入音频信号110和延迟的降噪混响信号122来估计自回归混响模型的系数124(例如,多通道自回归混响模型的AR系数或MAR系数)。
例如,对自回归混响模型的系数的估计120可以接收输入音频信号110和延迟的降噪混响信号122。
信号处理器100还包括降噪单元或降噪块130,降噪单元或降噪块130接收输入音频信号110,并且提供降噪(但通常是混响或无混响降低的)信号132。降噪单元或降噪块130被配置为使用(通常为有噪声且混响的)输入音频信号110和由估计块或估计单元120提供的自回归混响模型的估计的系数124来提供降噪(但通常为混响的)信号。
在此应该注意,降噪130可以例如使用自回归混响模型的系数124,该系数是基于先前确定的降噪混响信号132(可能结合输入音频信号110)而获得的。
装置100可选地包括延迟块或延迟单元140,延迟块或延迟单元140可以被配置为获得由降噪单元或降噪块130提供的降噪混响信号132,以提供其延迟版本122作为输出。因此,自回归混响模型的系数的估计120可以对先前获得的(导出的)降噪混响信号(由降噪块130提供或导出)和输入音频信号110进行操作。
装置100还包括用于导出降噪且混响降低的输出信号的块或单元150,该输出信号可以用作处理的音频信号112。模块或单元150优选地从降噪块或降噪单元130接收降噪混响信号132以及估计块或估计单元120提供的自回归混响模型的系数124。因此,块或单元150可以例如从降噪混响信号132中去除或降低混响。例如,可以将适当的滤波与消除操作(例如,在频谱域中)结合使用以实现此目的,其中自回归混响模型的系数124可以确定滤波(用于估计混响)。
关于设备100,应当注意,将功能分离成块或单元可以被认为是有效但是任意的选择。只要保持基本功能,在此描述的功能也可以不同地分配给硬件设备。另外,应当注意,这些块或单元可以是重用相同硬件的软件块或软件单元(例如,微处理器)。
关于装置100的功能,可以说降噪功能(降噪块或降噪单元130)与自回归混响模型的系数的估计(估计块或估计单元120)之间的分离提供了相当小的计算复杂度,并且仍然允许获得足够好的音频质量。即使从理论上来说,最好使用联合成本函数来估计降噪且混响降低的输出信号,但已经发现,使用单独的成本函数分别进行降噪和对自回归混响模型的系数的估计仍然可以提供合理的良好结果,同时可以减少复杂性并避免稳定性问题。而且,已经发现,由于假设自回归混响模型的系数124是已知的,则只需很少的努力就可以从降噪(但混响或无混响降低的)信号132导出降噪且混响降低的输出信号(即,处理的音频信号112),因此降噪混响信号132用作非常好的中间质量。
然而,应当注意,图1中描述的设备100可以由以下描述的特征、功能和细节中的任何一个单独地或组合地补充。
2.根据图3、图4和图5的实施例
在下文中,将参考图3、图4和图5描述一些另外的实施例。然而,在将描述实施例的细节之前,将描述关于常规解决方案的一些信息并且将定义信号模型。
一般而言,将描述用于在线去混响和降噪(使用并行结构)的方法和设备(可选地具有减少控制)。
2.1引言
本发明的以下实施例在声场处理领域中,例如用于去除来自一个或多个麦克风的混响噪声。
在远距离的语音通信场景中,所需的语音源距离捕获设备很远,与所需的语音等级相比,由于较高程度的混响和噪声,语音质量和清晰度以及语音识别器的性能通常会下降。
短时傅立叶变换(STFT)域中基于每个频带的自回归(AR)模型的去混响方法已显示出优于其他混响模型的效果。基于此模型的去混响方法通常使用与线性预测相关的方法来解决该问题。此外,一般的多通道自回归(MAR)模型对多个源均有效,并且可以进行公式化,使其在输出端提供与输入端相同数量的通道。由于所得到的增强过程(即跨多个STFT帧的每个频带的线性滤波器)不会改变所需信号的空间相关性,因此增强适合作为进一步阵列处理技术的预处理。
虽然大多数基于MAR模型的现有技术都是批处理算法[Nakatani 2010,Yoshioka2009,Yoshioka 2012],但在[Yoshioka 2013,Togami 2019,Jukic 2016]中已经提出一些在线算法。然而,仅在[Togami 2015]中解决了使用在线算法在嘈杂环境中的挑战性问题。
已经发现,在嘈杂的环境中,通常可以通过以下方法解决该问题:首先执行降噪步骤,然后执行基于线性预测的方法来估计MAR系数(也称为房间回归系数),然后对信号进行滤波。
在本发明的实施例中,提出了一种新颖的并行结构(而不是顺序结构)来直接从观测到的麦克风信号估计MAR系数和去噪信号。并行结构可以对可能随时间变化的MAR系数进行全因果估计,并解决了模棱两可的问题,即应首先执行相关级(MAR系数估计级或降噪级)中的哪一个。此外,并行结构使创建输出信号的可能性成为可能,其中可以有效地控制残留混响和噪声的量。
2.2定义和常规解决方案
2.2.1信号模型
以下小节总结了基于多通道自回归模型在嘈杂环境中去混响的常规方法。
使用该模型,我们假设可以将矢量y(k,n)=[Y1(k,n),...,YM(k,n)]T中写入的具有频率和时间索引为k和n的时频域Ym(k,n)(对于m={1,...,M})中的麦克风信号描述为:
y(k,n)=x(k,n)+v(k,n)
其中矢量x(k,n)表示麦克风处的混响语音信号,矢量v(k,n)表示加性噪声。混响语音信号矢量x(k,n)建模为多通道自回归过程:
其中,矢量s(k,n)表示麦克风处的早期语音信号,并且矩阵Cl(k,n)(对于l={D,...,L})包含MAR系数。帧数L描述了建模混响所必需的长度,而延迟D<L控制了后期混响的开始时间并且根据本发明的一个方面应当选择为使得包含在s(k,n)中的直接声音与后期混响之间没有相关性。
本发明(或其实施例)的目的(和概念)是通过估计分别由和表示的混响无噪声语音信号和MAR系数来获得早期语音信号s(k,n)。根据本发明的一个方面,使用这些估计,通过线性滤波过程估计期望的信号矢量s(k,n):
为了符号简化,在下面的公式中省略了频率索引k,我们使用矩阵符号重新构造了观测到的麦克风信号:
其中
c(n)=Vec{[CL(n),...,CD(n)]T},
在常规解决方案中,将MAR系数建模为确定性变量,这意味着c(n)的平稳性。在[Braun2016]中,引入了一个潜在的随时间变化的MAR系数的随机模型,更具体地来说是一阶Markov模型:
c(n)=c(n-1)+w(n)
其中,w(n)是对系数的传播不确定性进行建模的随机噪声。但是,在[Braun2016]中,仅在假设没有加性噪声情况下给出解决方案。
2.2.2顺序在线解决方案
在[Yoshioka2009,Togami2013]中提出了一种用于在批处理算法中估计变量x(k,n)和c(n)的方法,其中假设系数c(n)是固定的。然而,已经发现,在通常的现实应用中,声学场景(即,MAR系数c(n))可以随时间变化。在[Togami2015]中提出了在嘈杂环境中解决MAR系数估计问题的唯一在线解决方案,尽管假设MAR系数是固定的。
用于估计AR信号和AR参数的类似问题的常规方法使用如图2所示的顺序结构,例如常规的在线方法[Togami2015]。首先,降噪级202试图从观测到的信号y(n)中去除噪声,并且在第二步骤203中,从第一级的输出信号估计AR系数c(n)。已经发现,这种结构是次优的,这有两个原因:1)MAR参数估计级203假定所估计的信号是无噪声的,这在实践中通常是不可能的。2)为了在降噪级202中使用MAR系数的信息,必须假定这些系数是固定的,因为需要假设c(n)=c(n-1)以将估计的MAR系数从MAR系数估计级反馈到降噪级。
总而言之,图2示出了在噪声环境中用于MAR系数估计的传统结构的示意框图。装置200包括噪声统计估计201、降噪202、AR系数估计203和混响估计204。
换句话说,块201至204是常规顺序降噪和混响系统的块。
2.3根据本发明的实施例
在下文中,将描述根据本发明的三个实施例。图3示出了根据本发明的实施例2的示意框图。图4示出了根据本发明的实施例3的示意框图。图5示出了根据本发明的实施例4的示意框图。
在下文中,将提供附图和块号的简要描述。
应当注意,块301至305是所提出的降噪去混响系统的块。还应当注意,在根据图3、图4和图5的实施例中,相同的附图标记用于相同的块(或具有相同功能的块)。
在下文中,作为本发明的实施例,提出了通过在存在加性噪声的情况下以因果在线方式估计MAR系数和混响信号来解决去混响问题的解决方案。可以由计算块301预先估计空间噪声统计,例如,如[Gerkmann 2012]中所提出的。
2.3.1实施例2:用于估计AR系数和期望信号的并行结构
图3示出了根据本发明的实施例的设备(或信号处理器)的示意框图(或者通常,是所提出的发明的实施例的框图)。
根据图3的设备300被配置为接收输入信号310,该输入信号可以是单通道音频信号或多通道音频信号。装置300还被配置为提供处理的音频信号312,该音频信号312可以是降噪且混响降低的信号。可选地,装置300可以包括噪声统计估计301,该噪声统计估计301可以被配置为基于输入音频信号310来导出关于噪声统计的信息。例如,噪声统计估计301可以估计在没有语音信号(例如,在语音暂停期间)的情况下的噪声统计。
装置300还包括降噪303,该降噪303接收输入音频信号310、关于噪声统计的信息301a和自回归混响模型的系数302a(由自回归系数估计302提供)。降噪303提供降噪(但通常是混响的)信号303a。
装置300还包括自回归系数估计302(AR系数估计),该自回归系数估计302被配置为接收输入音频信号301和由降噪303提供的降噪(但通常是混响的)信号303a的延迟版本(或过去版本)。此外,自回归系数估计302被配置为提供自回归混响模型的系数302a。
装置300可选地包括延迟器320,该延迟器320被配置为从由降噪303提供的降噪(但通常是混响的)信号303a中导出延迟版本320a。
装置300还包括混响估计304,该混响估计304被配置为接收由降噪303提供的降噪(但通常是混响的)信号303a的延迟版本320a。此外,混响估计304还从自回归系数估计302接收自回归混响模型的系数302a。混响估计304提供估计的混响信号304a。
装置300还包括信号减法器330,该信号减法器330被配置为从由降噪303提供的降噪(但通常是混响的)信号303a中去除(或减去)估计的混响信号304a,从而获得处理的音频信号312,处理的音频信号312通常是降噪且混响降低的。
在下文中,将更详细地描述根据图3的设备300的功能。特别地,应当注意,自回归系数估计302使用输入信号310和降噪303的降噪(但通常是混响的)输出信号303a(或更确切地说,其延迟版本320a)两者。因此,可以与降噪303分开地执行自回归系数估计302,其中降噪303仍然可以利用自回归混响模型的系数302a,并且其中自回归系数估计302仍可以利用降噪303提供的降噪信号303a。最终可以从降噪303提供的降噪(但通常是混响的)信号303a中消除混响。
在下文中,将换种形式再次描述设备300的功能。
通过使用交替的最小化过程来估计MAR系数c(n)和混响信号x(n)(以和表示的估计),我们获得了一个三步过程,其中在第一步(块302)中,直接从观测到的信号y(n)中估计MAR系数仅需要与矩阵X(n-D)中包含的过去的混响信号有关的信息。在第二步骤(块303)中,执行降噪以从有噪声的观测y(n)估计混响信号x(n)。降噪步骤需要了解MAR系数c(n)(由于并行结构来自302的MAR系数可用作当前估计)和来自301的噪声统计信息。
c(n)和x(n)的在线估计可以由递归估计器(例如卡尔曼滤波器)执行,而所需协方差可以以最大似然来估计。第3节中描述了如何计算c(n)和x(n)的具体的示例,并解释了“使用交替卡尔曼滤波器的基于线性预测的在线去混响和降噪”。
然而,也可以替代地在块302和303中使用其他估计方法,例如递归最小二乘、NLMS等。噪声协方差矩阵Φv(n)=E{v(n)vH(n)}(其可以由信息301a请求)应该优选地预先已知,并且可以例如在没有语音的时间段期间进行估计。[Gerkmann2012,Taseska2012]中描述了使用语音存在概率来进行301中的噪声统计估计的合适方法。
2.3.2实施例3和4:减少控制
在下文中,将描述根据图4和图5的实施例。
图4示出了根据本发明实施例的设备或信号处理器400的示意框图。信号处理器400包括降噪303和混响估计304。降噪303提供降噪(但通常是混响的)信号303a。混响估计304提供混响信号304a。例如,设备400的降噪303可以包括与设备300的降噪303相同的功能(可能结合块301)。
此外,设备400的混响估计304可以例如与块302和320的功能相组合地执行设备300的混响估计304的功能。
此外,装置400被配置为将输入信号410的缩放版本(其可以对应于输入信号310)与降噪(但通常是混响的)信号303a的缩放版本以及还与由混响估计304提供的混响信号304a的缩放版本进行组合。例如,输入信号410可以用缩放因子βv缩放。此外,降噪303提供的降噪信号303a可以用因子(1-βv)缩放。另外,混响信号304a可以用因子(1-βr)缩放。例如,输入信号410的缩放版本410a和降噪信号303a的缩放版本303b可以以相同符号组合。相反,混响信号304a的缩放版本304b可以从信号410a、303b之和中减去,由此获得输出信号412。总而言之,输入信号的缩放版本410a可以与降噪信号303a的缩放版本303b组合,以及可以通过减去由混响估计304获得的混响信号304a的缩放版本304b来去除混响的至少一部分。
因此,可以以期望的方式调节输出信号412的特性。可以通过适当地选择比例因子,例如βv和βr,来调节降噪程度和混响降低程度。
图5示出了根据本发明的实施例的另一设备或信号处理器的示意框图。
根据图5的设备或信号处理器500类似于根据图4的设备或信号处理器400,使得参考以上说明,并且使得相同的部件将不再被描述。
然而,设备500还包括混响整形305,其接收由混响估计提供的混响信号304a。混响整形305提供整形的混响信号305a。
根据图5所示的概念,从缩放的噪声减小信号303b和缩放的输入信号410a之和中减去混响信号304a。因此,获得中间信号520。此外,将整形的混响信号305a的缩放版本305b添加到中间信号520,以获得输出信号512。
但是,信号410a、303b、304a和305b的直接组合也是可能的(不使用中间信号)。
因此,设备500允许调整输出信号512的特性。例如,可以通过从信号303b、410a之和中减去(估计的)混响信号304a来去除(至少在很大程度上)原始的混响。因此,可以添加修改的(整形的)混响信号305b(例如在可选的缩放之后),从而获得输出信号512。因此,可以获得具有整形的混响并且具有可调节的降噪程度的输出信号。
在下文中,将换种形式总结根据图4和图5的实施例。
图3中所示的并行结构(进行了一些扩展和修正)提供了一种简单有效的方法来控制混响和噪声的减少量。在语音通信场景中可能需要这样的控制,以例如出于感知原因保持一些残余噪声和混响,或者掩盖由减少算法产生的伪音。
我们定义(所需的)新的输出信号:
z(n)=s(n)+βrr(n)+βvv(n)
其中βr和βv是残余混响和噪声的控制参数。通过重新排列方程式并用可用的估计替换未知变量,如图4所示,我们可以通过以下方程式计算受控的输出信号,例如,输出信号(412):
在图4中省略了处理块301和302(但是可以可选地添加)。
3.根据图7和9的实施例
在下文中,将描述用于使用交替卡尔曼滤波器的基于线性预测的在线去混响和降噪的其他实施例。
例如,将描述使用线性卡尔曼滤波器的基于线性预测的在线去混响和降噪。
3.1简介与概述
在下文中,将描述根据本发明的实施例的基本概念的概述。
短时傅立叶变换(STFT)域中基于多通道线性预测的混响已被证明是非常有效的。但是,已经发现在存在噪声情况下使用这种方法,特别是在在线处理的情况下使用这种方法,仍然是一个具有挑战性的问题。为了解决这个问题,提出了一种交替最小化算法,该算法由两个交互式卡尔曼滤波器组成,以估计无噪声混响信号和多通道自回归(MAR)系数。然后,通过使用估计的MAR系数对无噪声信号(或降噪信号)进行滤波,即可获得所需的去混响信号。
已经发现,用于类似问题的现有顺序增强结构具有因果关系问题,即最佳降噪级和混响级均取决于彼此的当前输出。为了克服这个因果关系问题,开发了一种新颖的并行双卡尔曼结构,该结构使用交替卡尔曼滤波器解决了该问题。已经发现,当处理MAR系数不稳定的时变声学场景时,这种因果关系很重要。
使用模拟和测量的声脉冲响应对提出的方法进行评估,并将其与基于相同信号模型的方法进行比较。另外,描述了独立地控制混响和噪声的减少量的方法(和概念)。
总而言之,根据本发明的实施例可以用于去混响。根据本发明的实施例使用多通道线性预测和自回归模型。根据本发明的实施例使用卡尔曼滤波器,优选地结合交替最小化。
在本申请中(并且特别是在本部分中),提出了一种基于MAR混响模型的方法(和概念),以使用在线算法来减少混响和噪声。提出的解决方案优于[3]中提出的无噪声解决方案,在该解决方案中,MAR系数由时变一阶马尔可夫模型建模。为了获得期望的去混响语音信号,可以估计MAR系数和无噪声的混响语音信号。
所提出的解决方案与传统解决方案相比具有以下优点:首先,与[8]和[17]中提出的用于降噪的顺序信号和自回归(AR)参数估计方法相比,提出了并行估计结构作为使用例如两个交互式卡尔曼滤波器的交替的最小化算法来估计MAR系数和无噪声混响信号。与顺序结构(其中降噪级将使用过时的MAR系数)相反,该并行结构允许完全因果关系估计链。
其次,在提出的方法中,我们(可选地)假设随机随时间变化的MAR过程,而不是像在[31]中提出的期望最大化(EM)算法中那样计算随时间变化的线性滤波器和随时间变化的非线性滤波器。第三,所提出的算法和概念不需要每个时间帧进行多次迭代,而是可以是随时间收敛的自适应算法。最后,作为可选扩展,还提出了一种独立控制混响和噪声的减少量的方法。
本节的其余部分安排如下:
在第2小节中,给出了混响信号、噪声观测值和MAR系数的信号模型,并表述问题。在第3小节中,作为交替最小化问题的一部分,导出了两个交替的卡尔曼滤波器,以估计MAR系数和无噪声信号。第4小节介绍了一种控制混响和噪声的减少的可选方法。在第5小节中,对提出的方法和概念进行了评估,并与最新方法进行了比较。第6小节提供了一些结论。
在实施例中,估计量可以可选地代替理想量。
3.2信号模型和问题表述
例如,我们假设M个麦克风的阵列具有任意方向性和任意几何形状。麦克风信号在STFT域中由Ym(k,n)(对于m∈{1,,M})给出,其中k和n分别表示频率和时间索引。以矢量表示,麦克风信号可以写为y(k,n)=[Y1(k,n),,YM(k,n)]T。我们假设麦克风信号矢量由
y(k,n)=x(k,n)+v(k,n) (1)
组成,其中矢量x(k,n)和v(k,n)分别包含每个麦克风处的混响语音和加性噪声。
A.多通道自回归混响模型
如[21、32、33]中提出的,我们将混响语音信号矢量x(k,n)建模为MAR过程
其中矢量s(k,n)=[S1(k,n),,SM(k,n)]T包含每个麦克风Sm(k,n)所需的早期语音,以及M×M矩阵Cl(k,n),l∈{D,D+1,,L}包含从x(k,n)的过去帧预测后期混响分量r(k,n)的MAR系数。期望的早期语音s(k,n)是这种自回归过程的新事物(在线性预测术语中也称为预测误差)。延迟D≥1的选择确定了我们希望在所需信号中保留多少个早期反射,并且应根据STFT帧之间的重叠量进行选择,以使包含在s(k,n)中的直接声音与后期混响r(k,n)之间几乎没有相关性。长度L>D确定用于预测混响信号的过去帧的数量。
我们假设所需的早期语音矢量和噪声矢量是圆形复零均值高斯随机变量,具有各自的协方差矩阵Φs(k,n)=E{s(k,n)sH(k,n)}和Φv(k,n)=E{v(k,n)vH(k,n)}。此外,我们假设s(k,n)和v(k,n)在时间上不相关,并且两个变量相互不相关。
B.用两种简洁的符号表示的信号模型
为了制定成本函数,根据本发明的概念在第3小节中将其分解为两个子成本函数,我们首先引入两个等效可用的矩阵符号来描述观测到的信号矢量(1)。为了更紧凑的表示,在说明书的其余部分中省略了频率指数k。让我们先定义量
c(n)=Vec{[CL(n) ... CD(n)]T} (4)
其中IM是M×M单位矩阵,表示Kronecker乘积,并且运算符Vec{·}将矩阵的列顺序地堆积为矢量。因此,c(n)是长度为Lc=M2(L-D+1)的列矢量,而X(n)是大小为M×Lc的稀疏矩阵。使用定义(3)和(4)以及信号模型(1)和(2),观测到的信号矢量为
第二个紧凑表示分别使用带下划线的变量表示的堆叠的矢量(它们是长度为ML的列矢量)
x(n)=[xT(n-L+1) ... xT(n)]T (6)
s(n)=[O1×M(L-1) sT(n)]T (7)
以及传播和观测矩阵
H=[OM×M(L-1) IM] (9)
其中ML×ML传播矩阵F(n)在底部M行中包含MAR系数Cl(n),OA×B表示大小为A×B的零矩阵,而H为M×ML选择矩阵。使用(8)和(9),我们可以可选地将(2)和(1)重构为
x(n)=F(n)x(n-1)+s(n) (10)
y(n)=Hx(n)+v(n) (11)
注意,(5)和(11)使用不同的表示法是等效的。
C.MAR系数的随机状态空间模型
为了对可能随时间变化的声学环境和由于STFT域模型[3]的模型误差而引起的MAR系数的不稳定性进行建模,我们使用一阶Markov模型来描述MAR系数矢量[6]
c(n)=A c(n-1)+w(n) (12)
图6示出了观测信号的生成过程以及混响信号和MAR系数的潜在(隐藏)过程。
参考图6,可以看出输入信号s(n)被由系数c(n)定义的滤波器的输出信号覆盖。因此,获得信号x(n)。具有系数c(n)的滤波器接收信号x(n)的延迟版本和期望的早期语音信号s(n)之和作为输入信号。滤波器的系数c(n)可以是随时间变化的,其中假设先前的一组滤波器系数由矩阵A缩放并且受到“过程噪声”w(n)的影响。
此外,在y(n)的信号模型中,假设将背景噪声信号v(n)添加到混响信号x(n)。
但是,应该注意的是,如图6所示的混响信号、多通道自回归系数和噪声观测的生成模型应仅作为示例。
D.问题表述
我们的目标是获得早期语音信号s(n)的估计。代替直接估计s(n),我们建议首先估计由和表示的无噪声混响信号x(n)和MAR系数c(n)。然后我们可以通过对混响信号以有限MIMO滤波器的方式应用MAR系数来获得所需信号的估计,即
在下面的小节中,我们展示了如何联合地估计x(n)和c(n)。
3.3通过交替最小化进行MMSE估计
在下文中,将描述根据本发明实施例的概念。
通过使成本函数最小化,可以在MMSE意义上估计堆叠的混响语音信号矢量x(n)和MAR系数矢量c(n)(封装在F(n)中)。
根据本发明的一个方面,为了简化估计问题(14),以获得封闭形式的解,我们求助于交替最小化技术[23],该技术将每个变量的成本函数分别最小化,同时将另一个变量保持固定并使用可用的估计。两个子成本函数(假定各自的另一个变量固定)由下式给出:
注意,为了在帧n处求解(15),知道延迟的堆叠矢量x(n-D)以构造X(n-D)就足够了,因为在时间帧n处的信号模型(5)仅取决于x(n)的过去值(D≥1)。因此我们可以说明给定的信号模型
Jc(c(n)|x(n))=Jc(c(n)|x(n-D))
通过用可用的估计替换成本函数(15)和(16)对x(n)和c(n)的确定性依存关系,我们自然可以得出每个时间步长n的交替最小化过程:
在一些实施例中,在(18)之前求解(17)的顺序在系数c(n)随时间变化的情况下尤其重要。尽管不能保证全局成本函数(14)收敛到全局最小值,但如果(15)和(16)分别减小,则全局成本函数(14)收敛到局部最小值。对于给定的信号模型,可以使用卡尔曼滤波器[14]来求解(15)和(16)。
通过(13)估计所需信号矢量s(n)的结果过程(或概念)产生以下三个步骤,这些步骤也在图7中概述:
1.从有噪声的观测信号(例如,y(n))和延迟的无噪声信号x(n′)(对于n′∈{1,n-1,...,n-D})(假设是确定的且已知)中估计MAR系数c(n)。实际上,这些信号由在步骤2中从第二卡尔曼滤波器获得的估计代替。
2.通过利用自回归模型估计混响麦克风信号x(n)。该步骤被认为是降噪级。在此,假定MAR系数c(n)是确定的并且是已知的。实际上,从步骤1获得MAR系数作为估计获得的卡尔曼滤波器类似于[30]中使用的卡尔曼平滑器。
在某些情况下,降噪级需要进行二阶噪声统计,如图7中的灰色估计块所示。存在估计二阶噪声统计的复杂方法,例如[9、19、28]。在下文中,我们假设噪声统计是已知的。
在下文中,将参考图7描述可能的简单实施例和一些可选细节,图7示出了(根据本发明的实施例)所提出的并行双卡尔曼滤波器结构的框图。这里应该注意,如图7所示的三步过程确保了所有块在每个时间步长n都没有延迟地接收当前参数估计。对于灰噪声估计块(例如,用于噪声统计估计),存在几种合适的解决方案,其在本申请的范围之外。
可以看出,根据图7的信号处理器或装置700包括噪声统计估计701、AR系数估计702(其可以例如包括或使用卡尔曼滤波器)和降噪703(其可以例如包括或使用利用混响AR信号模型的卡尔曼滤波器)。此外,设备700包括混响估计704。设备700被配置为接收输入信号710并提供输出信号712。
例如,噪声统计估计701可以接收输入信号710,并基于该信号提供噪声统计信息701a,该噪声统计信息也可以用фv(n)来指定(例如,根据“算法1”的步骤3)。
AR系数估计702可以例如接收输入信号710以及降噪(但通常是混响的)信号720a的延迟版本(其例如用指定(或者可以由表示))。例如,AR系数估计702将根据有噪声的观测信号(例如,y(n))和延迟降噪(或无噪声)信号来进行MAR系数c(n)的估计。例如,AR系数估计702可以被配置为执行由方程式(20)至(25)和/或根据“算法1”的步骤4至6定义的功能,其中AR系数估计滤波器702还可以获得不确定度фw(n)和协方差фu(n)的协方差估计。
降噪703接收输入信号710、噪声统计信息701a和估计的MAR系数信息702a(也用指定)。而且,降噪703可以例如提供对降噪(但通常是混响的)信号703a的估计,该信号也被指定为例如,降噪703可以执行由方程式(31)至(36)定义的功能,和/或根据“算法1”的步骤7至9的功能。此外,应当注意,可以由AR系数估计702执行“算法1”的步骤4至6。
此外,应当注意,延迟块720可以从降噪信号703a导出延迟版本720a。
因此,混响估计器和减法器可以例如执行“算法1”的步骤10。
关于装置700的功能,应当注意,装置700可以可替代地使用不同的概念来用于降噪信号的估计703和MAR系数的估计702。
另一方面,例如,相对于卡尔曼滤波和/或相对于统计参数的估计,如фu(n)、фw(n)、фs(n)、фv(n),装置700可以用本文所述的任何特征、功能和细节来补充。
然而,应当注意,参照图7描述的任何细节都应被认为是可选的。
所提出的结构克服了用于AR信号和参数估计的常用顺序结构的因果关系问题[8]、[31],其中每个估计步骤都需要彼此进行当前估计。对于给定的信号模型,这种传统的顺序结构如图8所示,在这种情况下,降噪级将接收延迟的MAR系数。在时变系数c(n)的情况下,这将不是最佳的。
与相关的状态参数估计方法[8]、[17]相比,我们所希望的信号不是状态变量,而是从两个状态估计中获得的信号(13)。
在下文中,将描述关于MAR系数的估计以及关于降噪的附加(可选)细节。另外,将描述关于参数的估计的一些细节。但是,应注意,所有这些细节都应视为可选的。可选地将细节以单独或组合方式添加到在此描述的并且在权利要求中限定的实施例中。
A.MAR系数的最佳顺序估计
在该小节中,给定如图7所示估计的延迟混响信号x(n)的知识,我们导出卡尔曼滤波器以估计MAR系数。
1)用于MAR系数估计的卡尔曼滤波器
让我们假设,我们具有矩阵X(n-D)中包含的过去的混响信号的知识。在下文中,我们分别将(12)和(5)视为状态方程和观测方程。假设w(n)和u(n)是互不相关的零均值高斯噪声过程,我们可以通过使误差矩阵的迹最小化来获得MAR系数矢量的最佳顺序估计
例如,使用众所周知的卡尔曼滤波器方程式[3、14]来获得解。
其中K(n)被称为卡尔曼增益,e(n)为预测误差。注意,预测误差是使用预测的MAR系数对早期语音加上噪声矢量u(n)的估计,即,e(n)=u(n|n-1)。
2)参数估计
使用小节3.B中描述的第二卡尔曼滤波器估计仅包含混响信号x(n)的延迟帧的矩阵X(n-D)。
如果后续估计的系数之间的差为零,则η是一个小的正数,以对MAR系数的连续变化建模。
实际上,(27)中的算术平均值可以由递归平均值代替,从而得出递归估计
其中只能针对先前帧计算的递归协方差估计是通过
获得的,α是递归平均因子。
B.最佳顺序降噪
在此小节中,给定如图7所示估计的当前MAR系数c(n)的知识,我们导出第二卡尔曼滤波器以估计无噪声混响信号矢量x(n)。
1)降噪的卡尔曼滤波器
通过分别假设给定的MAR系数c(n)和矩阵F(n),并考虑包含x(n)的最新L帧的堆叠混响信号矢量x(n)作为状态变量,我们认为(10)和(11)作为状态方程和观测方程。由于对s(n)和(7)的假设,s(n)也是零均值高斯随机变量,并且其协方差矩阵Φ s (n)=E{s(n)s H(n)}在右下角包含Φs(n),而在其他位置为零。
假设s(n)和v(n)是互不相关的零均值高斯噪声过程,则可以通过使误差矩阵的迹最小化来获得x(n)的最佳顺序估计:
通过预测给出了用于估计状态矢量x(n)的标准卡尔曼滤波方程
并且更新
其中Kx(n)和ex(n)是卡尔曼增益和降噪卡尔曼滤波器的预测误差。
2)参数估计
假定噪声协方差矩阵Φv(n)是已知的。对于固定噪声,可以例如使用[9、19、28]中提出的方法从语音缺失期间的麦克风信号中估计出来。
此外,我们应该估计Φ s (n),即,期望的语音协方差矩阵Φs(n)。为了减少由卡尔曼滤波器执行的降噪过程引起的音乐音调,我们使用决策导向方法[7]来估计当前语音协方差矩阵Φs(n),在这种情况下,这是在先前帧处的后验估计与在当前帧处的先验估计之间的加权。决策导向估计由
给出,其中,γ是决策导向的加权参数。为了减少音乐音调,通常选择该参数以将更多的权重加在先前的后验估计上。
递归后验ML估计是通过
获得的,其中α是递归平均因子。
通过在(11)中插入(10),我们可以将观测到的信号矢量重写为
其中,所有三个组成部分互不相关。注意,后期混响r(n)的所有分量的估计现已可用。在给定当前可用信息的情况下,使用MMSE估计器对Φs(n)的瞬时估计通过以下获得:
MWF滤波器矩阵由
C.算法概述
完整的算法示例在以下“算法1”中概述。
卡尔曼滤波器的初始化并不重要。如果可以使用状态变量的良好初始估计,则可以改善初始收敛级,但是在实践中该算法始终收敛并且保持稳定。
尽管所提出的算法非常适合实时处理应用,但是计算复杂度很高。复杂度取决于每个频率的麦克风M的数量和滤波器长度M以及频带的数量。
3.4.减少控制
在某些应用中,对减少不期望的声音分量(例如混响和噪声)进行独立控制是有益的。因此,我们展示了如何(可选地)计算替代输出信号z(n),在此我们可以控制混响和噪声的减少。换句话说,本小节中描述的功能可以认为是可选的。
所需的受控输出信号为
z(n)=s(n)+βrr(n)+βvv(n) (43)
其中βr和βv是混响和噪声的衰减因子。通过使用(5)重新排列(43)并用可用的估计替换未知变量,我们可以通过以下方式计算所需的受控输出信号:
通常,语音增强算法会在干扰减少量和伪音(例如语音失真或音乐音调)之间进行权衡。为了在MAR系数估计卡尔曼滤波器快速适应并表现出高预测误差的期间减少可听见的伪音,我们可以选择地使用由(24)给出的估计误差协方差矩阵来自适应地控制混响衰减因子βr。如果卡尔曼滤波器的误差很高,我们希望衰减因子βr接近1。例如,我们建议通过启发式选择的映射函数来计算在时间帧n处的混响衰减因子
其中固定的下限βr,min限制了允许的混响衰减,而系数μr根据卡尔曼误差来控制衰减。
所提出的具有减少控制的系统的结构如图9所示。这里省略了噪声估计块,因为它也可以集成在降噪块中。
换句话说,图9示出了根据本发明实施例的设备或信号处理器900。设备900被配置为接收输入信号910并基于输入信号提供处理的信号或输出信号912。设备包括降噪903和混响估计904。此外,应当注意,降噪903可以提供降噪信号903a,降噪信号903a可以通过缩放因子(1-βv)进行缩放,以获得降噪信号903a的缩放版本903b。类似地,混响估计904可以被配置为提供(估计的)混响信号904a,该混响信号904a可以例如通过缩放因子(1-βr)进行缩放以获得缩放的混响信号904b。此外,输入信号910例如通过缩放因子βv缩放以获得缩放的输入信号。此外,缩放的输入信号、缩放的降噪信号903b和缩放的混响信号904b被组合从而获得输出信号912,其中缩放的混响信号904例如可以从缩放的输入信号910a与缩放的降噪信号903b之和中减去。
应当注意,装置900的功能可以类似于上述装置400的功能。因此,输入信号910可以对应于输入信号410,输出信号912可以对应于输出信号412,降噪903可以对应于降噪303,混响估计904可以对应于混响估计304,缩放的输入信号910a可以对应于缩放的输入信号410a,降噪信号903a可以对应于降噪信号303a,缩放的降噪信号903b可以对应于降噪信号303b,混响信号904a可以对应于混响信号304a以及缩放的混响信号904b可以对应于缩放的混响信号304b。
此外,设备900的整体功能可以类似于设备400的整体功能,除非在此提及差异。
降噪903可以例如包括降噪703的功能。混响估计可以(例如当与AR系数估计702和延迟器720结合时)例如包括混响估计704的功能。此外,降噪903可以例如接收噪声统计信息,例如噪声统计信息701,并且还可以接收估计的AR系数或MAR系数,例如系数702a。
因此,例如可以通过设置参数βv和βr来调整输出信号912的特性。
可选地,参数βr可以是随时间变化的并且可以例如根据方程式(45)来计算。
3.5评估
在本小节中,我们通过与3.5-B小节中介绍的两种参考方法进行比较,使用3.5-A小节中描述的实验设置来评估提出的系统。结果显示在3.5-C小节中。
A.实验设置(可选)
通过将RIR(房间脉冲响应)与来自[5]的消声语音信号进行卷积来生成混响信号。我们使用了两种不同的RIR:在以色列Bar-Ilan大学的具有可变声学特性的声学实验室中测量的RIR,或使用图像方法[1]对移动源进行模拟的RIR。在移动源的情况下,模拟的RIR有助于评估,因为在这种情况下,可以额外生成仅包含直接声音和早期反射的RIR,以获得用于评估的目标信号。
在模拟和测量的情况下,我们使用线性麦克风阵列,该阵列具有最多M=4个全向麦克风,麦克风之间的间距为{11,7,14}cm。请注意,除3.5-C1小节外,在所有实验中,仅使用2个间距为11cm的麦克风。将静态粉红噪声或记录的串音噪声添加到具有一定iSNR(输入信噪比)的混响信号。我们使用16kHz的采样频率,STFT参数是32ms长度、50%重叠和FFT长度为1024个样本的平方根Hann窗口。取决于重叠的延迟被设置为D=2。递归平均因子为τ=25ms,其中Δt=16ms是帧移位,决策导向加权因子为γ=0.98,我们选择η=10-4。我们给出的结果没有RC(即,βv=βr=0),以及有RC(针对βv和βr,min使用不同的设置,其中在(45)中我们选择μr=-10dB)。
为了进行评估,目标信号被生成为直接语音信号,并在直接声音峰值后具有早期反射达到32ms(相当于D=2帧的延迟)。根据倒谱距离(CD)[16]、语音质量的感知评估(PESQ)[11]、频率加权分段信干比(fwSSIR)[18](其中混响和噪声被视为干扰)以及归一化语音混响调制比(SRMR)[24]来评估处理的信号。在去混响的背景下,这些措施已显示出产生与所感知的混响量和整体质量之间的合理关联[10、15]。CD更多地反映了整体质量,并且对语音失真敏感,而PESQ、SIR和SRMR对混响/干扰降低更为敏感。我们只显示第一个麦克风的结果,因为所有其他麦克风都表现出相同的行为。
B参考方法(可选)
为了示出所提出的方法(双卡尔曼)的有效性和性能,我们将其与以下两种方法进行了比较:
·单卡尔曼:如[3]中所提出的,单个Kalman滤波器可在不降噪的情况下估计MAR系数。原始算法假定没有加性噪声。但是,它仍然可以用于从噪声信号中估计MAR系数,然后获得去混响但仍然有噪声的滤波的信号作为输出。
·MAP-EM:在[31]中提出的方法中,使用基于MAP估计的贝叶斯方法估计MAR系数,然后使用EM算法估计无噪声的期望的信号。该算法是在线的,但是EM过程需要大约每帧20次迭代才能收敛。
C.结果
1)对麦克风数量的依赖:我们根据麦克风M的数量研究了提出的算法的性能。总长度为34s的期望的信号由两个不同位置的非并发扬声器组成:在第一个15s期间第一个扬声器是活动的,而15s后,第二个扬声器是活动的。每个扬声器信号与不同位置处测量的具有T60=630ms的RIR卷积。静态粉红噪声被添加到的混响信号,具有iSNR=15dB。图10示出了用于变化数量的麦克风M的CD、PESQ、SIR和SRMR。用于噪声混响输入信号的度量被表示为浅灰色虚线,而目标信号的SRMR(即,早期语音)被表示为深灰色点划线。对于M=1,CD大于输入信号的CD,这表明总体质量下降,而PESQ、SIR和SRMR仍在输入(即,混响和噪声降低)上有所改善。通过增加麦克风数量,所有措施的性能均得到提高。
2)取决于滤波器长度
使用具有不同混响时间的RIR来研究滤波器长度L的影响。与第一个实验一样,两个非并发扬声器在不同位置是活动的,并添加了固定的粉红噪声,iSNR=15dB。图11显示了与未处理的麦克风信号相比,客观度量的改进。正值表示所有相对度量的改进,其中Δ表示改进。考虑到给定的STFT参数,混响时间T60=(480,630,940}s(秒)对应于滤波器长度L={30,39,58}帧。我们可以观测到最佳的CD、PESQ和SIR值取决于混响时间,但最佳值是在对应的混响时间长度的25%左右获得的。相反,SRMR随着L的增加而单调增长。值得一提的是,随着L的增加,混响降低会变得进展飞快。如果通过选择太大的L而降低进展太快,则期望的语音会失真,因为ACD表示负值。
3)与传统方法的比较
针对变化的iSNR中的两种噪声类型,对提出的算法和两种参考算法进行了评估。与第一个实验中一样,使用T60=630ms的测量RIR,期望的信号由位于不同位置的两个并发扬声器组成,总长度为34s。添加了固定的粉红噪声或记录的串音噪声,iSNR是变化的。表1是使用测量的RIR针对变化的iSNR(静止噪声)的客观测量的表格表示,M=2,L=12,βv=-10dB,βr,min=-15dB。表2示出了使用测量的RIR针对变化的iSNR(气泡噪声)的客观测量的表格表示,其中M=2,L=12,,βv=-10dB,βr,min=-15dB。表1和表2分别示出了与未处理的麦克风信号相比,在稳定的粉红噪声和串音噪声中,客观度量的改进。请注意,尽管串音噪声不是短期稳定的,但我们使用了噪声协方差矩阵的稳定长期估计,这在实践中很实用。表1和表2作为附录附在本文最后。
可以看出,在所有条件下,不具有RC或具有RC的提出的算法都优于两种竞争算法。RC在干扰减少和所需信号失真之间进行权衡。CD作为语音失真的指示符,在使用RC时始终较好,而其他主要反映干扰减少量的度量在没有RC的固定噪声的情况下始终可以获得略高的结果。在串音噪声中,具有RC的双卡尔曼在低iSNR时比没有RC时具有更高的PESQ。这表明RC可以通过在具有挑战的iSNR条件下以及在存在噪声协方差估计误差的情况下掩盖伪音来帮助改善质量。在高iSNR条件下,双卡尔曼的性能与预期的单卡尔曼的性能相似。
4)跟踪移动扬声器
基于图像方法[1、36],在鞋盒室中以T60=500ms(毫秒)使用模拟RIR对移动源进行了模拟:期望的源首先位于位置A,然后在时间间隔[8,13]s内期望的源从位置A连续移动到位置B,然后在其余时间一直停留在该位置。位置A和B相距2m(米)。
图12示出了针对此动态方案的CD、PESQ、SIR和SRMR的分段改进。在该实验中,仅通过模拟直到第二阶的墙壁反射来生成用于评估的目标信号。
我们观测到,在移动过程中所有度量均会减少,而在扬声器已经到达位置B之后,这些度量又会再次达到很高的改进。所有方法的收敛表现相似,而不具有RC和具有RC的双卡尔曼性能最佳。在移动时间段期间内,MAP-EM有时会产生较高的fwSSIR和SRMR,但代价是CD和PESQ差得多。减少控制会改进CD,以使CD改进始终保持为正(值),这表示RC可以减少语音失真和伪音。值得一提的是,即使在语音源移动过程中混响降低效果不太明显,双卡尔曼算法也会变得稳定,以及PESQ、SIR和SRMR的改进始终为正(值),而ΔCD通过使用RC始终为正(值)。使用移动扬声器的真实录音也对此进行了验证。
5)减少控制的评价
在本小节中,我们将通过所提出的系统在降噪和混响方面评估RC的性能。在附录中,示出了如何针对所提出的双卡尔曼滤波器系统计算在用RC zv(n)和zr(n)处理后的残余噪声和混响信号。然后通过以下方式计算降噪和混响降低度量:
在此实验中,我们使用声学实验室中测量的RIR在T60=630ms的情况下模拟了单个扬声器处于固定位置的场景。在图13中,示出了五个不同的衰减因子设置:没有减少控制(βv=βr,min=0);中度设置(βv=βr,min=-7dB),仅降低混响或仅降低噪声;以及更强的衰减设置(βv=βr,min=-15dB)。我们可以观测到,降噪度量仅在语音暂停期间才产生所需的降噪级别。混响减少度量令人惊讶地表明只有在没有语音的情况下才能实现较大的降低。这并不意味着残余的混响在语音存在期间更容易听见,因为语音的直接声音会感知地掩盖残余的混响。在最初的5秒钟内,因为在初始收敛期间卡尔曼滤波器误差很高,我们可以观测到由于自适应混响衰减因子(45)引起的混响降低。
3.6结论
在下文中,将提供关于该小节中描述的实施例的一些结论。
根据本发明的概念,作为一个实施例,描述了基于两个相互作用的卡尔曼滤波器的交替最小化算法,用于估计多通道自回归参数和混响信号,以降低来自每个麦克风信号(例如,用作输入信号的多通道麦克风信号)的噪声和混响。所提出的使用例如递归卡尔曼滤波器的解决方案适用于在线处理应用。
在各种实验中都示出了与类似的在线方法相比其有效性和优越性能。
另外,描述了一种独立地控制噪声和混响的降低的方法和概念,以掩盖可能的伪音,并且将输出信号调整达到可感知的要求。例如,可以将控制噪声和混响降低的方法和概念与用于估计多通道自回归参数和混响信号(例如,作为可选扩展)的概念结合使用。
3.7.附录:残余噪声和混响的计算
在下文中,将描述用于计算残余噪声和混响的一些概念,这些概念可以例如在根据本发明的概念的评估中使用。然而,可选地,这里描述的概念也可以用在根据本发明的其中需要关于处理的信号的附加信息的实施例中。
残余噪声和混响的计算
为了计算在所提出的系统的输出处的噪声和混响的残余功率,可以将这些信号传播通过系统。
通过仅使输入v(n)处的噪声而不是如图7所示的y(n)传播通过双卡尔曼系统,我们获得输出它是中包含的残余噪声。通过也考虑RC,在输出信号z(n)中噪声v(n)的残余贡献为zv(n)。通过检查(32)、(34)和(36),噪声通过以下方程式通过降噪卡尔曼滤波器
利用RC,残余噪声类似于(44)由以下方程式
给出。残余混响zr(n)的计算更加困难。为了从此计算中去除噪声,我们首先通过降噪级馈送oracle混响无噪声信号矢量x(n):
其中zr(n)表示RC输出z(n)中的残余混响。通过使用(53)和oracle期望的信号矢量s(n)的知识,我们可以计算混响信号
根据(53)和(54)的差值并使用(55),我们可以得到残余混响信号为:
现在,我们可以分析输出处的残余噪声和/或混响的功率,并将其与输入处的它们的各自功率进行比较。
4.结论
在下文中,将提供一些结论。
根据本发明的实施例可以可选地包括一个或多个以下特征:
·接收至少一个麦克风信号,或备选地接收至少两个麦克风信号(可选)。
·将一个或多个麦克风信号转换为时频域或其他合适的域(可选)。
·估计噪声协方差矩阵(可选)。
·使用并行估计结构来联合地估计MAR系数和无噪声混响信号。
·使用降噪级的有噪声的混响输入信号和延迟的估计混响输出信号估计MAR系数。
·降噪级在每个帧中接收当前的MAR系数估计(可选)。
·通过对无噪声混响信号(或,备选地,多个无噪声混响信号)进行滤波来计算输出信号(或,备选地,多个输出信号)(可选)。
·根据估计的信号分量计算受控的输出信号(或多个输出信号),以设置残余噪声和混响的量(可选)。
·通过将一个或多个具有一定电平的处理/整形的混响信号添加到估计的去混响信号(或,备选地,多个估计的去混响信号)来可选地计算修改后的输出信号(或,备选地,多个输出信号),从而在输出信号处获得不同的混响特性。
为了进一步得出结论,在本说明书中,在“具有减少控制的去混响和降噪的方法和装置(使用并行结构)”(第2节)和“基于使用交替卡尔曼滤波器在线去混响和降噪的线性预测”一章中描述了不同的发明实施例和发明方面(第3节)。
另外,进一步的实施例由所附权利要求书和其他部分(例如,在“发明概述”部分和在第1节中)定义。
应当注意,由权利要求限定的任何实施例可以由本文描述的任何细节(例如,特征和功能)来补充。而且,在上述部分中描述的实施例可以单独使用,并且还可以由另一节中的任何特征或由权利要求中包括的任何特征来补充。
另外,应注意,本文所述的各个方面可单独或组合使用。因此,可以将细节添加到所述各个方面中的每个方面,而无需将细节添加到所述方面中的另一个。
还应该注意,本公开明确或隐含地描述了可在音频编码器(用于提供输入音频信号的编码表示的设备)和音频解码器(用于基于编码表示提供音频信号的解码表示的设备)中使用的特征。因此,本文描述的任何特征可以在音频编码器的上下文中和在音频解码器的上下文中使用。
此外,本文公开的与方法有关的特征和功能也可以用在设备(配置为执行这种方法或功能)中。此外,本文所公开的关于设备的任何特征和功能也可以在相应的方法中使用。换句话说,本文公开的方法可以由关于装置描述的任何特征和功能来补充,反之亦然。另外,如将在“实施方案备选”部分中描述的,本文中描述的任何特征和功能可以以硬件和软件(或使用硬件和/或软件)、或者甚至硬件和软件的组合来实施。
而且,应当注意,可以例如(但不是必须)针对每个频带或针对每个频率段或针对不同的频率区域来执行本文所述的处理。
应当注意,本发明的方面涉及一种用于具有减少控制的在线去混响和降噪的方法和装置。
根据本发明的实施例创建了用于联合地去混响和降噪的新颖的并行结构。例如,使用具有随时间变化的系数的窄带多通道自回归混响模型对混响信号进行建模,这考虑了非平稳声学环境。与现有的顺序估计结构相反,根据本发明的实施例并行地估计无噪声混响信号和自回归房间系数,从而不需要关于平稳房间系数的假设。另外,提出了一种独立控制噪声和混响的降低水平的方法。
5.根据图14的方法
图14示出了根据本发明实施例的方法1400的流程图。
用于基于输入音频信号来提供处理的音频信号的方法1400包括:使用输入音频信号和通过使用降噪级而获得的延迟的降噪混响信号来估计1410自回归混响模型的系数。
该方法还包括使用输入音频信号和自回归混响模型的估计的系数来提供1420降噪混响信号。
该方法还包括使用降噪混响信号和自回归混响模型的估计的系数来导出1430降噪且混响降低的输出信号。
方法1400可以可选地由本文中所描述的任何特征、功能和细节来单独或组合地补充。
6.实施方案备选
尽管已经在设备的上下文中描述了一些方面,但是很明显,这些方面也代表了对相应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对相应装置的相应块或项或特征的描述。方法步骤中的一些或全部可以由(或使用)硬件设备(例如,微处理器、可编程计算机或电子电路)执行。在一些实施例中,最重要的方法步骤中的一个或多个可以由这样的设备执行。
取决于某些实施要求,本发明的实施例可以以硬件或软件来实施。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,其能够与可编程计算机系统协作以便执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传送计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储器设备等。装置或系统可以例如包括用于向接收器传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。
本文描述的装置或本文描述的装置的任何组件可以至少部分地以硬件和/或软件来实现。
本文描述的方法可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行。
本文描述的方法或本文描述的装置的任何组件可以至少部分地由硬件和/或软件执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是,本文中描述的布置和细节的修改和变化对于本领域的其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
参考文献
[Yoshioka2009]T.Yoshioka,T.Nakatani,and M.Miyoshi,“Integrated speechenhancement method using noise suppression and dereverberation,”IEEETrans.Audio,Speech,Lang.Process.,vol.17,no.2,pp.231-246,Feb 2009.
[Togami2013]M.Togami and T.Kawaguchi,“Noise robust speechdereverberation with Kalman smoother,”in Proc.IEEE Intl.Conf.on Acoustics,Speech and Signal Processing(ICASSP),May 2013,pp.7447-7451.
[Yoshioka2013]T.Yoshioka and T.Nakatani,“Dereverberation forreverberation-robust microphone arrays,”in Proc.European Signal ProcessingConf.(EUSIPCO),Sept 2013,pp.1-5.
[Togami2015]M.Togami,“Multichannel online speech dereverberationunder noisy environments,”in Proc.European Signal Processing Conf.(EUSIPCO),Nice,France,Sep.2015,pp.1078-1082.
[Yoshioka2012]T.Yoshioka and T.Nakatani,“Generalization of multi-channel linear prediction methods for blind MIMO impulse responseshortening,”IEEE Trans.Audio,Speech,Lang.Process.,vol.20,no.10,pp.2707-2720,Dec.2012.
[Nakatani2010]T.Nakatani,T.Yoshioka,K.Kinoshita,M.Miyoshi,andJ.Biing-Hwang,“Speech dereverberation based on variance-normalized delayedlinear prediction,”IEEE Trans.Audio,Speech,Lang.Process.,vol.18,no.7,pp.1717-1731,2010.
[Jukic2016]A.Jukic,Z.Wang,T.van Waterschoot,T.Gerkmann,and S.Doclo,“Constrained multi-channel linear prediction for adaptive speechdereverberation,”in Proc.Intl.Workshop Acoust.Signal Enhancement(IWAENC),Xi’an,China,Sep.2016.
[Braun2016]S.Braun and E.A.P.Habets,“Online dereverberation fordynamic scenarios using a Kalman filter with an autoregressive models,”IEEESignal Process.Lett.,vol.23,no.12,pp.1741-1745,Dec.2016.
[Gerkmann2012]T.Gerkmann and R.C.Hendriks,“Unbiased MMSE-based noisepower estimation with low complexity and low tracking delay,”IEEETrans.Audio,Speech,Lang.Process.,vol.20,no.4,pp.1383-1393,May 2012.
[Taseska2012]M.Taseska and E.A.P.Habets,“MMSE-based blind sourceextraction in diffuse noise fields using a complex coherence-based SAPestimator,”inProc.Intl.Workshop Acoust.Signal Enhancement(IWAENC),Aachen,Germany,Sep.2012.
[1]J.B.Allen and D.A.Berkley,“Image method for efficiently simulatingsmall-room acoustics,”J.Acoust.Soc.Am.,vol.65,no.4,pp.943-950,Apr.1979.
[2]S.Braun and E.A.P.Habets,“A multichannel diffuse power estimatorfor dereverberation in the presence of multiple sources,”EURASIP Journal onAudio,Speech,and Music Processing,vol.2015,no.1,pp.1-14,2015.
[3]S.Braun and E.A.P.Habets,“Online dereverberation for dynamicscenarios using a Kalman filter with an autoregressive models,”IEEE SignalProcess.Lett.,vol.23,no.12,pp.1741-1745,Dec.2016.
[4]T.Dietzen,A.Spriet,W.Tirry,S.Doclo,M.Moonen,and T.van Waterschoot,“Partitioned block frequency domain Kalman filter for multi-channel linearprediction based blind speech dereverberation,”inProc.Intl.WorkshopAcoust.Signal Enhancement(IWAENC),Xi’an,China,Sep.2016.
[5]E.B.Union.(1988)Sound quality assessment material recordings forsubjective tests.[Online].Available:http://tech.ebu.ch/publications/sqamcd
[6]G.Enzner and P.Vary,“Frequency-domain adaptive Kalman filter foracoustic echo control in hands-free telephones,”Signal Processing,vol.86,no.6,pp.1140-1156,2006.
[7]Y.Ephraim and D.Malah,“Speech enhancement using a minimum-meansquare error short-time spectral amplitude estimator,”IEEE Trans.Acoust.,Speech,Signal Process.,vol.32,no.6,pp.1109-1121,Dec.1984.
[8]S.Gannot,D.Burshtein,and E.Weinstein,“Iterative and sequentialKalman filter-based speech enhancement algorithms,”IEEE Trans.Speech AudioProcess.,vol.6,no.4,pp.373-385,Jul.1998.
[9]T.Gerkmann and R.C.Hendriks,“Unbiased MMSE-based noise powerestimation with low complexity and low tracking delay,”IEEE Trans.Audio,Speech,Lang.Process.,vol.20,no.4,pp.1383-1393,May 2012.
[10]S.Goetze,A.Warzybok,I.Kodrasi,J.O.Jungmann,B.Cauchi,J.Rennies,E.A.P.Habets,A.Mertins,T.Gerkmann,S.Doclo,and B.Kollmeier,“A study on speechquality and speech intelligibility measures for quality assessment of single-channel dereverberation algorithms,”in Proc.Intl.Workshop Acoust.SignalEnhancement(IWAENC),Sep.2014,pp.233-237.
[11]ITU-T,Perceptual evaluation of speech quality(PESQ),an objectivemethod for end-to-end speech quality assessment of narrowband telephonenetworks and speech codecs,International Telecommunications Union(ITU-T)Recommendation P.862,Feb.2001.
[12]A.Jukic,Z.Wang,T.van Waterschoot,T.Gerkmann,and S.Doclo,“Constrained multi-channel linear prediction for adaptive speechdereverberation,”in Proc.Ihtl.Workshop Acoust.Signal Enhancement(IWAENC),Xi’an,China,Sep.2016.
[13]A.Jukic,T.van Waterschoot,and S.Doclo,“Adaptive speechdereverberation using constrained sparse multichannel linear prediction,”IEEESignal Process.Lett.,vol.24,no.1,pp.101-105,Jan 2017.
[14]R.E.Kalman,“A new approach to linear filtering and predictionproblems,”Trans.of the ASME Journal of Basic Engineering,vol.82,no.Series D,pp.35-45,1960.
[15]K.Kinoshita,M.Delcroix,S.Gannot,E.A.P.Habets,R.Haeb-Umbach,W.Kellermann,V.Leutnant,R.Maas,T.Nakatani,B.Raj,A.Sehr,and T.Yoshioka,“Asummary of the REVERB challenge:state-of-the-art and remaining challenges inreverberant speech processing research,”EURASIP Journal on Advances in SignalProcessing,vol.2016,no.1,p.7,Jan 2016.
[16]N.Kitawaki,H.Nagabuchi,and K.Itoh,“Objective quality evaluationfor low bit-rate speech coding systems,”IEEE J.Sel.Areas Commun.,vol.6,no.2,pp.262-273,1988.
[17]D.Labarre,E.Grivel,Y.Berthoumieu,E.Todini,and M.Najim,“Consistentestimation of autoregressive parameters from noisy observations based on twointeracting Kalman filters,”Signal Processing,vol.86,no.10,pp.2863-2876,2006,special Section:Fractional Calculus Applications in Signals and Systems.
[18]P.C.Loizou,Speech Enhancement Theory and Practice.1em plus 0.5emminus 0.4em Taylor&Francis,2007.
[19]R.Martin,“Noise power spectral density estimation based onoptimal smoothing and minimum statistics,”IEEE Trans.Speech Audio Process.,vol.9,pp.504-512,Jul.2001.
[20]M.Miyoshi and Y.Kaneda,“Inverse filtering of room acoustics,”IEEETrans.Acoust.,Speech,Signal Process.,vol.36,no.2,pp.145-152,Feb.1988.
[21]T.Nakatani,T.Yoshioka,K.Kinoshita,M.Miyoshi,and J.Biing-Hwang,“Speech dereverberation based on variance-normalized delayed linearprediction,”IEEE Trans.Audio,Speech,Lang.Process.,vol.18,no.7,pp.1717-1731,2010.
[22]P.A.Naylor and N.D.Gaubitch,Eds.,Speech Dereverberation.1em plus0.5em minus 0.4em London,UK:Springer,2010.
[23]U.Niesen,D.Shah,and G.W.Wornell,“Adaptive alternatingminimization algorithms,”IEEE Transactions on Information Theory,vol.55,no.3,pp.1423-1429,March 2009.
[24]J.F.Santos,M.Senoussaoui,and T.H.Falk,“An updated objectiveintelligibility estimation metric for normal hearing listeners under noiseand reverberation,”in Proc.Intl.Workshop Acoust.Signal Enhancement (IWAENC),Antibes,France,Sep.2014.
[25]D.Schmid,G.Enzner,S.Malik,D.Kolossa,and R.Martin,“VariationalBayesian inference for multichannel dereverberation and noise reduction,”IEEETrans.Audio,Speech,Lang.Process.,vol.22,no.8,pp.1320-1335,Aug 2014.
[26]B.Schwartz,S.Gannot,and E.Habets,“Online speech dereverberationusing Kalman filter and EM algorithm,”IEEE Trans.Audio,Speech,Lang.Process.,vol.23,no.2,pp.394-406,2015.
[27]O.Schwartz,S.Gannot,and E.Habets,“Multi-microphone speechdereverberation and noise reduction using relative early transfer functions,”IEEE Trans.Audio,Speech,Lang.Process.,vol.23,no.2,pp.240-251,Jan.2015.
[28]M.Taseska and E.A.P.Habets,“MMSE-based blind source extraction indiffuse noise fields using a complex coherence-based a priori SAP estimator,”in Proc.Intl.Workshop Acoust.Signal Enhancement(IWAENC),Sep.2012.
[29]M.Togami,Y.Kawaguchi,R.Takeda,Y.Obuchi,and N.Nukaga,“Optimizedspeech dereverberation from probabilistic perspective for time varyingacoustic transfer function,”IEEE Trans.Audio,Speech,Lang.Process.,vol.21,no.7,pp.1369-1380,Jul.2013.
[30]M.Togami and Y.Kawaguchi,“Noise robust speech dereverberationwith Kalman smoother,”in Proc.IEEE Intl.Conf.on Acoustics,Speech and SignalProcessing(ICASSP),May 2013,pp.7447-7451.
[31]M.Togami,“Multichannel online speech dereverberation under noisyenvironments,”in Proc.European Signal Processing Conf.(EUSIPCO),Nice,France,Sep.2015,pp.1078-1082.
[32]T.Yoshioka,T.Nakatani,and M.Miyoshi,“Integrated speechenhancement method using noise suppression and dereverberation,”IEEETrans.Audio,Speech,Lang.Process.,vol.17,no.2,pp.231-246,Feb 2009.
[33]T.Yoshioka and T.Nakatani,“Generalization of multi-channel linearprediction methods for blind MIMO impulse response shortening,”IEEETrans.Audio,Speech,Lang.Process.,vol.20,no.10,pp.2707-2720,Dec.2012.
[34]T.Yoshioka,A.Sehr,M.Delcroix,K.Kinoshita,R.Maas,T.Nakatani,andW.Kellermann,“Making machines understand us in reverberant rooms:Robustnessagainst reverberation for automatic speech recognition,”IEEE SignalProcessing Magazine,vol.29,no.6,pp.114-126,Nov 2012.
[35]T.Yoshioka and T.Nakatani,“Dereverberation for reverberation-robust microphone arrays,”in Proc.European Signal Processing Conf.(EUSIPCO),Sept 2013,pp.1-5.
[36][Online].Available:http://www.audiolabs-erlangen.de/fau/ professor/habets/software/signal-generator。
表1
用于使用测量的RIR针对变化的iSNR(平稳噪声)的客观度量M=2,L=12,βv=-10dB,βr,min=-15dB
表2
用于使用测量的RIR针对变化的iSNR(平稳噪声)的客观度量M=2,L=12,βv=-10dB,βr,min=-15dB
Claims (26)
10.根据权利要求9所述的信号处理器(100;300;400;500;700;900),其中,用于估计所述混响信号(x(n))的成本函数是混响信号(x(n))的均方误差的期望值。
15.根据权利要求1所述的信号处理器(100;300;400;500;700;900),其中,所述信号处理器被配置为估计所述输入音频信号的噪声分量的统计(301a;701a;Φv(n))。
16.根据权利要求1所述的信号处理器(100;300;400;500;700;900),其中,所述信号处理器被配置为在非语音时间段期间估计所述输入音频信号的噪声分量的统计(301a;701a;Φv(n))。
24.根据权利要求23所述的信号处理器(100;300;400;500;700;900),其中,所述信号处理器被配置为基于对所述输入音频信号的降噪且混响降低的信号分量的估计获得递归协方差估计其中,所述降噪且混响降低的信号分量的估计是使用所述自回归混响模型的最终估计的系数并使用降噪混响输出信号的最终估计计算出的;和/或
其中,根据关于所述输入音频信号的协方差信息(Φy(n))、根据关于所述输入音频信号的混响分量的协方差信息(Φr(n))以及根据关于所述输入音频信号的噪声分量的协方差信息(Φv(n))来确定维纳滤波操作。
26.一种计算机可读存储介质,存储有计算机程序,当所述计算机程序在计算机上运行时,用于执行根据权利要求25所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17192396 | 2017-09-21 | ||
EP17192396.4 | 2017-09-21 | ||
EP18158479.8 | 2018-02-23 | ||
EP18158479.8A EP3460795A1 (en) | 2017-09-21 | 2018-02-23 | Signal processor and method for providing a processed audio signal reducing noise and reverberation |
PCT/EP2018/075529 WO2019057847A1 (en) | 2017-09-21 | 2018-09-20 | SIGNAL PROCESSOR AND METHOD FOR PROVIDING A TREATED AUDIO SIGNAL REDUCING NOISE AND REVERB |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111512367A CN111512367A (zh) | 2020-08-07 |
CN111512367B true CN111512367B (zh) | 2023-03-14 |
Family
ID=60001661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880073959.4A Active CN111512367B (zh) | 2017-09-21 | 2018-09-20 | 提供处理的降噪且混响降低的音频信号的信号处理器和方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11133019B2 (zh) |
EP (2) | EP3460795A1 (zh) |
JP (1) | JP6894580B2 (zh) |
CN (1) | CN111512367B (zh) |
BR (1) | BR112020005809A2 (zh) |
RU (1) | RU2768514C2 (zh) |
WO (1) | WO2019057847A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220042165A (ko) | 2019-08-01 | 2022-04-04 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 공분산 평활화를 위한 시스템 및 방법 |
CN111933170B (zh) * | 2020-07-20 | 2024-03-29 | 歌尔科技有限公司 | 语音信号的处理方法、装置、设备及存储介质 |
CN112017680B (zh) * | 2020-08-26 | 2024-07-02 | 西北工业大学 | 一种去混响方法及装置 |
CN112017682B (zh) * | 2020-09-18 | 2023-05-23 | 中科极限元(杭州)智能科技股份有限公司 | 一种单通道语音同时降噪和去混响系统 |
CN113160842B (zh) * | 2021-03-06 | 2024-04-09 | 西安电子科技大学 | 一种基于mclp的语音去混响方法及系统 |
CN113115196B (zh) * | 2021-04-22 | 2022-03-29 | 东莞市声强电子有限公司 | 降噪耳机的智能测试方法 |
US20230230599A1 (en) * | 2022-01-20 | 2023-07-20 | Nuance Communications, Inc. | Data augmentation system and method for multi-microphone systems |
CN114928659B (zh) * | 2022-07-20 | 2022-09-30 | 深圳市子恒通讯设备有限公司 | 一种多路复用通信的排气消声方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004295039A (ja) * | 2003-03-28 | 2004-10-21 | Nippon Telegr & Teleph Corp <Ntt> | 入力信号推定方法、及び装置、入力信号推定プログラムならびにその記録媒体 |
CN101477801A (zh) * | 2009-01-22 | 2009-07-08 | 东华大学 | 一种检测和消除数字音频信号中脉冲噪声的方法 |
JP2010044150A (ja) * | 2008-08-11 | 2010-02-25 | Nippon Telegr & Teleph Corp <Ntt> | 残響除去装置、残響除去方法、そのプログラムおよび記録媒体 |
CN103430574A (zh) * | 2011-03-02 | 2013-12-04 | 弗兰霍菲尔运输应用研究公司 | 用于确定对于混响感知水平的度量的装置与方法、音频处理器及用于处理信号的方法 |
WO2013189199A1 (zh) * | 2012-06-18 | 2013-12-27 | 歌尔声学股份有限公司 | 一种单通道语音去混响的方法和装置 |
CN103632675A (zh) * | 2012-08-24 | 2014-03-12 | 奥迪康有限公司 | 个人通信中降噪和回波消除时的噪声估计 |
CN105165026A (zh) * | 2012-12-21 | 2015-12-16 | 弗劳恩霍夫应用研究促进协会 | 使用多个瞬时到达方向估计的知情空间滤波的滤波器及方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE506034C2 (sv) | 1996-02-01 | 1997-11-03 | Ericsson Telefon Ab L M | Förfarande och anordning för förbättring av parametrar representerande brusigt tal |
EP2013869B1 (en) | 2006-05-01 | 2017-12-13 | Nippon Telegraph And Telephone Corporation | Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics |
EP2058804B1 (en) * | 2007-10-31 | 2016-12-14 | Nuance Communications, Inc. | Method for dereverberation of an acoustic signal and system thereof |
JP5227393B2 (ja) | 2008-03-03 | 2013-07-03 | 日本電信電話株式会社 | 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体 |
WO2009110574A1 (ja) | 2008-03-06 | 2009-09-11 | 日本電信電話株式会社 | 信号強調装置、その方法、プログラム及び記録媒体 |
US8948410B2 (en) | 2008-12-18 | 2015-02-03 | Koninklijke Philips N.V. | Active audio noise cancelling |
EP2463856B1 (en) * | 2010-12-09 | 2014-06-11 | Oticon A/s | Method to reduce artifacts in algorithms with fast-varying gain |
JP5897343B2 (ja) | 2012-02-17 | 2016-03-30 | 株式会社日立製作所 | 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム |
-
2018
- 2018-02-23 EP EP18158479.8A patent/EP3460795A1/en not_active Withdrawn
- 2018-09-20 CN CN201880073959.4A patent/CN111512367B/zh active Active
- 2018-09-20 RU RU2020113933A patent/RU2768514C2/ru active
- 2018-09-20 WO PCT/EP2018/075529 patent/WO2019057847A1/en active Search and Examination
- 2018-09-20 JP JP2020516618A patent/JP6894580B2/ja active Active
- 2018-09-20 BR BR112020005809-2A patent/BR112020005809A2/pt unknown
- 2018-09-20 EP EP18769221.5A patent/EP3685378B1/en active Active
-
2020
- 2020-03-19 US US16/824,421 patent/US11133019B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004295039A (ja) * | 2003-03-28 | 2004-10-21 | Nippon Telegr & Teleph Corp <Ntt> | 入力信号推定方法、及び装置、入力信号推定プログラムならびにその記録媒体 |
JP2010044150A (ja) * | 2008-08-11 | 2010-02-25 | Nippon Telegr & Teleph Corp <Ntt> | 残響除去装置、残響除去方法、そのプログラムおよび記録媒体 |
CN101477801A (zh) * | 2009-01-22 | 2009-07-08 | 东华大学 | 一种检测和消除数字音频信号中脉冲噪声的方法 |
CN103430574A (zh) * | 2011-03-02 | 2013-12-04 | 弗兰霍菲尔运输应用研究公司 | 用于确定对于混响感知水平的度量的装置与方法、音频处理器及用于处理信号的方法 |
WO2013189199A1 (zh) * | 2012-06-18 | 2013-12-27 | 歌尔声学股份有限公司 | 一种单通道语音去混响的方法和装置 |
CN103632675A (zh) * | 2012-08-24 | 2014-03-12 | 奥迪康有限公司 | 个人通信中降噪和回波消除时的噪声估计 |
CN105165026A (zh) * | 2012-12-21 | 2015-12-16 | 弗劳恩霍夫应用研究促进协会 | 使用多个瞬时到达方向估计的知情空间滤波的滤波器及方法 |
Non-Patent Citations (2)
Title |
---|
Multichannel Audio Source Separation With Probabilistic Reverberation Priors;Simon Leglaive;《IEEE/ACM Transactionson Audio,speech,and Language Processing》;20161231;全文 * |
音视频联合说话人定位与跟踪方法研究;金乃高;《中国优秀硕士学位论文全文数据库》;20080815(第8期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
EP3685378B1 (en) | 2021-10-13 |
EP3460795A1 (en) | 2019-03-27 |
US11133019B2 (en) | 2021-09-28 |
RU2020113933A3 (zh) | 2021-10-21 |
JP2020537172A (ja) | 2020-12-17 |
RU2020113933A (ru) | 2021-10-21 |
BR112020005809A2 (pt) | 2020-09-24 |
CN111512367A (zh) | 2020-08-07 |
WO2019057847A1 (en) | 2019-03-28 |
EP3685378A1 (en) | 2020-07-29 |
US20200219524A1 (en) | 2020-07-09 |
RU2768514C2 (ru) | 2022-03-24 |
JP6894580B2 (ja) | 2021-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111512367B (zh) | 提供处理的降噪且混响降低的音频信号的信号处理器和方法 | |
Braun et al. | Linear prediction-based online dereverberation and noise reduction using alternating Kalman filters | |
Kinoshita et al. | Neural Network-Based Spectrum Estimation for Online WPE Dereverberation. | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
KR20180115984A (ko) | 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치 | |
Habets | Speech dereverberation using statistical reverberation models | |
Jukić et al. | Adaptive speech dereverberation using constrained sparse multichannel linear prediction | |
Ghribi et al. | A wavelet-based forward BSS algorithm for acoustic noise reduction and speech enhancement | |
Grancharov et al. | On causal algorithms for speech enhancement | |
Parchami et al. | Speech dereverberation using weighted prediction error with correlated inter-frame speech components | |
Habets et al. | Dereverberation | |
Zhou et al. | Speech dereverberation with a reverberation time shortening target | |
Saleem et al. | Deep neural network based supervised speech enhancement in speech-babble noise | |
Thüne et al. | Maximum-likelihood approach with Bayesian refinement for multichannel-Wiener postfiltering | |
Elshamy et al. | An iterative speech model-based a priori SNR estimator | |
Parchami et al. | Speech dereverberation using linear prediction with estimation of early speech spectral variance | |
KR20160045692A (ko) | 가청 신호의 후기 잔향을 억제하기 위한 방법 | |
Tashev et al. | Data driven suppression rule for speech enhancement | |
US20230306980A1 (en) | Method and System for Audio Signal Enhancement with Reduced Latency | |
Tsilfidis et al. | Binaural dereverberation | |
Mahbub et al. | Single-channel acoustic echo cancellation in noise based on gradient-based adaptive filtering | |
Parchami et al. | Speech reverberation suppression for time-varying environments using weighted prediction error method with time-varying autoregressive model | |
Fischer et al. | Single-microphone speech enhancement using MVDR filtering and Wiener post-filtering | |
Peng et al. | A perceptually motivated LP residual estimator in noisy and reverberant environments | |
Li et al. | Adaptive dereverberation using multi-channel linear prediction with deficient length filter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |