CN103348408A - 噪声和位置外信号的组合抑制 - Google Patents
噪声和位置外信号的组合抑制 Download PDFInfo
- Publication number
- CN103348408A CN103348408A CN201280008266XA CN201280008266A CN103348408A CN 103348408 A CN103348408 A CN 103348408A CN 201280008266X A CN201280008266X A CN 201280008266XA CN 201280008266 A CN201280008266 A CN 201280008266A CN 103348408 A CN103348408 A CN 103348408A
- Authority
- CN
- China
- Prior art keywords
- frequency
- gain
- band
- signal
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001629 suppression Effects 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 248
- 230000008569 process Effects 0.000 claims abstract description 39
- 238000001228 spectrum Methods 0.000 claims description 225
- 230000006870 function Effects 0.000 claims description 114
- 230000005764 inhibitory process Effects 0.000 claims description 113
- 238000006243 chemical reaction Methods 0.000 claims description 107
- 238000012545 processing Methods 0.000 claims description 103
- 230000000694 effects Effects 0.000 claims description 101
- 238000005070 sampling Methods 0.000 claims description 90
- 230000014509 gene expression Effects 0.000 claims description 73
- 238000002156 mixing Methods 0.000 claims description 66
- 238000001514 detection method Methods 0.000 claims description 58
- 230000003595 spectral effect Effects 0.000 claims description 50
- 238000001914 filtration Methods 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 30
- 230000002123 temporal effect Effects 0.000 claims description 28
- 230000015572 biosynthetic process Effects 0.000 claims description 24
- 230000004048 modification Effects 0.000 claims description 17
- 238000012986 modification Methods 0.000 claims description 17
- 230000033001 locomotion Effects 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 13
- 238000009499 grossing Methods 0.000 claims description 11
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 238000002592 echocardiography Methods 0.000 abstract description 6
- 230000008447 perception Effects 0.000 description 43
- 230000008859 change Effects 0.000 description 25
- 230000035945 sensitivity Effects 0.000 description 22
- 238000003860 storage Methods 0.000 description 20
- 238000005259 measurement Methods 0.000 description 19
- 230000008901 benefit Effects 0.000 description 17
- 238000013461 design Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 17
- 230000005236 sound signal Effects 0.000 description 14
- 238000009826 distribution Methods 0.000 description 13
- 230000002829 reductive effect Effects 0.000 description 13
- 230000003044 adaptive effect Effects 0.000 description 11
- 230000008878 coupling Effects 0.000 description 10
- 238000010168 coupling process Methods 0.000 description 10
- 238000005859 coupling reaction Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000009792 diffusion process Methods 0.000 description 9
- 230000007704 transition Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000007493 shaping process Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 7
- 230000004907 flux Effects 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000000750 progressive effect Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 3
- 230000003750 conditioning effect Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000010363 phase shift Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- NJXWZWXCHBNOOG-UHFFFAOYSA-N 3,3-diphenylpropyl(1-phenylethyl)azanium;chloride Chemical compound [Cl-].C=1C=CC=CC=1C(C)[NH2+]CCC(C=1C=CC=CC=1)C1=CC=CC=C1 NJXWZWXCHBNOOG-UHFFFAOYSA-N 0.000 description 2
- 101000806846 Homo sapiens DNA-(apurinic or apyrimidinic site) endonuclease Proteins 0.000 description 2
- 101000893549 Homo sapiens Growth/differentiation factor 15 Proteins 0.000 description 2
- 101000692878 Homo sapiens Regulator of MON1-CCZ1 complex Proteins 0.000 description 2
- 101000835083 Homo sapiens Tissue factor pathway inhibitor 2 Proteins 0.000 description 2
- 102100026436 Regulator of MON1-CCZ1 complex Human genes 0.000 description 2
- 102100026134 Tissue factor pathway inhibitor 2 Human genes 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000000638 stimulation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- -1 ... Proteins 0.000 description 1
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 206010021403 Illusion Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000014155 detection of activity Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 101150105899 ppiB gene Proteins 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005654 stationary process Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
系统、方法、体现在计算机可读介质中的逻辑和包括当被执行时执行方法的指令的计算机可读介质。该方法处理(a)多个输入信号,例如,来自多个空间分离的麦克风的信号;以及,针对回声抑制,(b)一个或多个参考信号,例如,来自一个或多个扬声器或者将由一个或多个扬声器渲染并且可能引起回声的信号。该方法处理输入信号和一个或多个参考信号,以按集成的方式执行同时的噪声抑制和位置外信号抑制,并且在一些版本中,进行回声抑制。
Description
相关专利申请
本申请要求于2011年2月10日提交的美国临时申请No.61/441,611的优先权,其内容通过引用的方式完整地并入本文。
本申请涉及以案卷参考编号D09110BWO01提交的题为“POST-PROCESSING INCLUDING MEDIAN FILTERING OFNOISE SUPPRESSION GAINS”的共同提交的国际申请No.PCT/US_/___,其也要求于2011年2月10日提交的美国临时申请No.61/441,611的优先权。该国际申请No.PCT/US_/___的内容通过引用的方式完整地并入本文。
本申请涉及均于2011年2月10日提交的以下美国临时专利申请:
●发明人Jon C.Taenzer的题为“VECTOR NOISECANCELLATION”、案卷:60175-0060、客户参考编号A09070USP1的美国临时专利申请No.61/441,396。
●发明人Jon C.Taenzer和Steven H.Puthuff的题为“VECTORNOISE CANCELLATION”、案卷:60175-0087、客户参考编号A09071USP1的美国临时专利申请No.61/441,397。
●发明人Jon C.Taenzer的题为“MULTI-CHANNEL WINDNOISE SUPPRESSION SYSTEM AND METHOD”、案卷:435372-000052、客户参考编号D10025USP1的美国临时专利申请No.61/441,528。
●发明人Glenn N.Dickins和Leif Jonas Samuelsson的题为“SYSTEM AND METHOD FOR WIND DETECTION ANDSUPPRESSION”、案卷:435372-000053、客户参考编号D10089USP1的美国临时专利申请No.61/441,551,该临时专利申请No.61/441,551在本文中称作“Wind Detection/Suppression Application”。
●发明人Leif Jonas Samuelsson的题为“SPATIALADAPTATION FOR MULTI-MICROPHONE SOUND CAPTURE”、案卷:435372-000054、客户参考编号D11008USP1的美国临时专利申请No.61/441,633。
技术领域
概括地说,本发明涉及声学信号处理,具体地说,涉及处理声音信号以抑制诸如噪声、回声和位置外信号等不期望的信号。
背景技术
声学信号处理如今可以应用于改善例如来自麦克风的声音信号的质量。举例说明,诸如头戴式耳机等的很多设备在存在回声源(例如,扬声器)的情况下操作。此外,来自麦克风的信号可能出现在嘈杂的环境中(例如,出现在汽车中)或者在存在其它噪声的情况下出现。此外,可能存在来自于干扰位置的声音,例如,其他人进行的位置外的交谈或者位置外的干扰、风等。因此,声学信号处理是本发明的重要领域。
围绕声学噪声降低和回声抑制的很多现有技术关心参数的数值估计以及使用诸如最小均方误差(MMSE)之类的统计规则的统计上最佳的抑制规则。这些方法忽略了听觉感知的复杂度,因此假设MMSE标准与人类监听器的偏好很好地匹配。
用于处理噪声、回声和空间选择性的已知处理方法和系统通常基于不同的特征级联不同的抑制系统。通过某种方式针对每一个抑制系统的任务或抑制功能来优化该抑制系统,并且在将通过每一个抑制系统的信号传递到下一个抑制系统之前,该抑制系统直接作用于该信号。虽然这可以减小设计复杂度,但是这产生了在性能方面不够好的结果。例如,空间抑制系统可能由于空间不确定性而引起对不期望的噪声信号的某一级别的调制。如果这种空间抑制系统与噪声降低系统级联,则噪声的波动将增加噪声估计的不确定性,因此降低性能。在这种简单的级联中,空间信息不可用于噪声抑制,因此来自期望的空间位置的一些噪声型信号可能被不必要地衰减。如果首先出现噪声抑制,则出现类似的问题。这类问题对于任何两输入(两信道)空间抑制系统特别普遍。在仅两个传感器的情况下,一旦存在多于一个的处于类似级别的空间分立的源,空间位置的估计就变得非常有噪声。
当添加针对回声控制的要求时,出现其它问题。在回声控制之前的动态抑制元件可能使回声估计不稳定。首先进行回声控制的替换形式增加了计算复杂度。期望产生这样的系统,该系统可以保持稳定的操作并且避免在存在语音、噪声和回声的情况下输出的不自然的声音,特别是当期望的信号中的功率变低或者与不期望的信号是相当的时。
实际上,声学处理系统的相当大的一部分性能、鲁棒性和感知质量来自启发式的、相互关联的组件和调谐。
附图说明
图1示出了本发明的系统实施方式的简化框图。
图2示出了本发明的一个方法实施方式的简化流程图。
图3A示出了根据本发明的一个或多个实施方式的特征的被加窗以生成根据变换而经变换的值的采样的时间帧的简化框图。
图3B示出了将频格(frequency bin)带化(banding)为多个频带(frequency band)的简化框图。
图3C示出了将计算出的增益应用于采样的输入数据的频格的简化框图。
图3D示出了将输出频格转换为输出采样的帧的合成过程的简化框图。
图3E是根据本发明的一些实施方式的特征的输出级的简化框图,该输出级可以作为图3D级的添加或其替换而被包括并且将复值频格重新格式化为适合后续处理(例如,音频编解码器)的变换需要。
图4描绘了根据本发明的一些实施方式的用于带化一组变换频格的带化矩阵的二维图形表示。
图5在线性刻度和对数刻度上描绘了处于频域中的频带的示例性形状。图5还示出了根据本发明的一些实施方式的示例性的带通滤波器的总和。
图6示出了带化的示例性实施方式的多个滤波频带的时域滤波表示。
图7示出了根据本发明的一些实施方式的用于带化为多个频带的归一化增益。
图8A和图8B示出了频带中的信号功率(或者其它频域幅度度量)最终到期望的信号功率(或者其它频域幅度度量)的估计的两个分解。
图9A、图9B和图9C分别示出了针对漫射噪声和语音信号的随时间的比率、相位和相干空间特征的概率密度函数。
图10示出了根据本发明的实施方式的图1的增益计算器129的实施方式的简化框图。
图11示出了根据本发明的实施方式的增益计算步骤和针对包括后置处理的实施方式的图2的后置处理步骤以及计算和合并额外的回声增益的可选择步骤的流程图。
图12示出了针对噪声信号和语音信号的情况的给定的频带中的信号功率的比例直方图形式的概率密度函数。
图13示出了图12的分布以及根据本发明的可替换的实施方式确定的四个抑制增益函数。
图14示出了图12的直方图以及根据本发明的可替换的实施方式确定的S型增益曲线和修改的S型增益曲线。
图15示出了在应用图14的S型增益曲线和修改的S型增益曲线以后图12的概率密度函数所发生的情况。
图16示出了根据本发明的实施方式的一个处理装置实施方式的简化框图,该处理装置实施方式包括具有一个或多个处理器和存储子系统的处理系统,该处理装置用于处理多个音频输入和一个或多个参考信号输入。
具体实施方式
概述
本发明的实施方式包括方法、系统或装置,配置有指令的有形计算机可读存储介质,所述指令当由处理系统的至少一个处理器执行时,使得处理硬件执行方法,以及可以在一个或多个计算机可读有形介质中编码并且当被执行以执行方法时被配置的逻辑。该方法用于处理多个输入信号(例如,麦克风信号),以同时抑制噪声、位置外的信号和在一些实施方式中的回声。
本发明的实施方式在采样的帧中逐帧地处理经采样的数据。在这种逐帧的处理的上下文中的术语“瞬时”意味着针对当前的帧。
特定的实施方式包括一种系统,其包括输入处理器,用于接受多个经采样的输入信号并且针对多个频带形成所述输入信号的下混频带化瞬时频域幅度度量。在一个实施方式中,所述输入处理器包括用于变换到频格的输入变换器、用于形成下混频(例如,波束成形)信号的下混频器(例如,波束成形器)和用于形成频带的频谱带化元件。在一些实施方式中,在变换之前执行下混频(例如,波束成形),而在其它实施方式中,变换在下混频(例如,波束成形)之前。
一个系统实施方式包括带化空间特征估计器,其用于例如在变换之后(而在其它实施方式中,在变换之前)根据多个经采样的输入信号来估计带化空间特征。
系统的包括回声抑制的版本包括用于接受一个或多个参考信号的参考信号输入处理器、变换器和用于形成一个或多个参考信号的带化频域幅度度量表示的频谱带化元件。系统的这些版本包括基于自适应确定的滤波系数的回声的带化频域幅度度量表示的预测器。为了自适应地确定滤波系数,噪声估计器确定噪声的带化频谱幅度度量的估计。语音活动检测器(VAD)使用噪声的带化频谱幅度度量、由信号频谱估计器确定的下混频信号的带化频谱幅度量的估计和先前预测的回声频谱内容以确定是否存在语音。在一些实施方式中,带化信号是下混频信号的带化频谱幅度度量的足够准确的估计,使得不使用信号频谱估计器。VAD的输出由自适应滤波器更新器使用以确定是否更新滤波系数,所述更新基于噪声的带化频谱幅度度量的估计和下混频信号的带化频谱幅度度量的估计以及先前预测的回声频谱内容。
系统还包括增益计算器,其用于计算抑制概率指标例如作为增益,其在一个实施方式中包括位置外的信号概率指标(例如,使用空间特征中的两个或更多个确定的位置外增益)以及噪声抑制概率指标(例如,使用噪声频谱内容确定的噪声抑制增益)。在一些实施方式中,噪声频谱内容的估计是噪声频谱内容的空间选择性估计。在包括回声抑制的一些实施方式中,噪声抑制概率指标(例如,抑制增益)包括回声抑制。在一个实施方式中,增益计算器还用于将原始抑制概率指标(例如,抑制增益)组合为针对每一个频带的第一组合增益。在一些实施方式中,增益计算器还用于对频带的第一组合增益执行后置处理,以生成针对每一个频带的经后置处理的增益。根据该版本,后置处理包括以下各项中的一项或多项:在一些实施方式中以依赖于频带的方式确保最小的增益;在一些实施方式中,通过对组合增益进行中值滤波来确保不存在离群或孤立的增益;并且在一些实施方式中,通过执行时间平滑来确保平滑,以及在一些实施方式中,进行带间平滑。在包括后置处理的一些实施方式中,这种后置处理包括使用空间特征中的两个或更多个来进行空间选择性的语音活动检测,以生成信号分类,使得根据信号分类来进行后置处理。
在一些实施方式中,增益计算器进一步计算额外的回声抑制概率指标,例如,回声抑制增益。在一个实施方式中,该额外的回声抑制增益与其它增益进行组合(在包括后置处理的实施方式中,在后置处理之前)以形成第一组合增益,其是最终增益。在另一个实施方式中,额外的回声抑制概率指标(例如,抑制增益)与包括后置处理的实施方式中的后置处理的结果进行组合(以其它方式与第一组合增益进行组合)以生成最终增益。
系统还包括噪声抑制器,其对最终增益进行插值以产生最终频格增益,并且应用最终频格增益以对下混频信号的频格数据执行抑制从而形成经抑制的信号数据。系统还包括以下各项中的一项或两项:a)用于生成时域输出采样的输出合成器和变换器,以及b)用于生成适合于由后续编解码器或处理级使用的输出频格的输出重映射。
特定的实施方式包括包含以下各项的系统:用于接受多个采样的输入信号并且针对多个频带形成所述输入信号的下混频带化瞬时频域幅度度量的模块。在一个实施方式中,用于接受和形成的模块包括用于变换到频格的模块、用于下混频(例如,进行波束成形)以形成下混频的(例如波束成形的)信号的模块和用于带化以形成频带的模块。在一些实施方式中,在变换之前执行波束成形,而在其它实施方式中,变换是在下混频之前,例如,在波束成形之前。
一个系统实施方式包括用于从多个经采样的输入信号确定带化空间特征的模块。
包括回声抑制的一些系统实施方式包括用于接受一个或多个参考信号并且用于形成所述一个或多个参考信号的带化频域幅度度量表示的模块,以及用于预测回声的带化频域幅度度量表示的模块。在一些实施方式中,用于预测的模块包括用于自适应地确定回声滤波系数的模块,其被耦合到用于确定噪声的带化频谱幅度的估计的模块,用于使用下混频信号的带化频谱幅度度量的估计进行语音活动检测(VAD)的模块,以及用于基于下混频信号的带化频谱幅度度量的估计和噪声的带化频谱幅度度量的估计以及先前预测的回声频谱内容来更新滤波系数的模块。用于更新的模块根据用于语音活动检测的模块的输出来进行更新。
一个系统实施方式还包括用于计算抑制概率指标(例如,抑制增益)的模块,该抑制增益包括使用空间特征中的两个或更多个确定的位置外的信号增益和使用估计噪声频谱内容确定的噪声抑制概率指标(例如,噪声抑制增益)。在一些实施方式中,噪声频谱内容的估计是噪声频谱内容的空间选择性估计。在包括回声抑制的一些实施方式中,噪声抑制概率指标(例如,噪声抑制增益)包括回声抑制。用于计算的模块的计算包括将原始抑制概率指标(例如,抑制增益)进行组合以形成针对每一个频带的第一组合增益。在包括后置处理的一些实施方式中,用于计算的模块还包括用于对频带的第一组合增益执行后置处理以生成针对每一个频带的经后置处理的增益的模块。根据实施方式,后置处理包括以下各项中的一项或多项:在一些实施方式中,以取决于频带的方式确保最小增益;在一些实施方式中,通过对组合的增益执行中值滤波确保不存在离群的或孤立的增益;以及在一些实施方式中,通过执行时间平滑和/或在一些实施方式中通过执行带间平滑来确保平滑。在包括后置处理的一些实施方式中,用于后置处理的模块包括用于使用空间特征中的两个或更多个来进行空间选择性语音活动检测以生成空间分类使得根据信号分类来进行后置处理的模块。
在一些实施方式中,用于计算的模块包括用于计算额外的回声抑制概率指标(例如,抑制增益)的模块。在一些实施方式中,将额外的回声抑制增益与增益进行组合(在包括后置处理的实施方式,在后置处理之前)以形成第一组合的增益,其中,对第一组合增益进行后置处理从而形成最终增益,并且在其它实施方式中,将额外的回声抑制概率指标(例如,抑制增益)与包括后置处理的实施方式中的后置处理的结果(以其它方式与第一组合增益)进行组合以生成最终增益。
一个系统实施方式还包括用于对最终增益插值为频格增益并且应用最终的频格增益以对下混频信号的频格数据执行抑制以形成经抑制的信号数据的模块。一个系统实施方式还包括用于应用以下各项中的一个或两个的模块:a)用于生成输出采样的输出合成和变换,以及b)用于生成输出频格的输出重映射。
特定的实施方式包括处理装置,该处理装置包括处理系统并且被配置为抑制包括噪声和位置外信号的不期望的信号,所述处理装置被配置为:接受多个经采样的输入信号并且形成针对多个频带的所述输出信号的下混频带化瞬时频域幅度度量,所述形成包括变换为针对一组频格的复值频域值。处理装置被进一步配置为根据多个经采样的输入信号确定带化空间特征;计算第一组抑制概率指标,其包括使用空间特征中的两个或更多个确定的位置外的抑制概率指标,以及使用噪声频谱内容的估计确定的针对每一个频带的噪声抑制概率指标;对第一组概率指标进行组合以确定针对每一个频带的第一组合增益;以及应用根据第一组合增益确定的经插值的最终增益,以对下混频信号的频格数据执行抑制,以形成经抑制的信号数据。在处理装置的一些实施方式中,噪声频谱内容的估计是使用空间特征中的两个或更多个确定的噪声频谱内容的空间选择性估计。
特定的实施方式包括操作处理系统以抑制噪声和位置外信号并且在一些实施方式中抑制回声的方法。该方法包括:在处理装置中接受多个采样的输入信号以及针对多个频带形成所述输入信号的下混频带化瞬时频域幅度度量,所述形成包括下混频(例如,变换)为针对一组频格的复值频域值。在一个实施方式中,所述形成包括将输入信号变换为频格,下混频(例如,波束成形)频率数据,以及进行带化。在可替换的实施方式中,下混频可以在变换之前,使得对单个下混频信号进行变换。
该方法包括根据多个经采样的输入信号来确定带化的空间特征。
在包括同时的回声抑制的实施方式中,方法包括接受一个或多个参考信号,并且形成所述一个或多个参考信号的带化频域幅度度量表示。在一个实施方式中,该表示是总和。此外,在包括回声抑制的实施方式中,方法包括使用自适应更新的回声滤波系数来预测回声的带化频域幅度度量表示,该系数是使用噪声的带化频谱幅度度量的估计、先前预测的回声频谱内容和下混频信号的带化频谱幅度度量的估计来更新的。在一个实施方式中,下混频信号的带化频谱幅度度量的估计是输入信号的下混频带化瞬时频域幅度度量,而在其它实施方式中,使用信号频谱估计。在一个实施方式中,控制预测滤波器的更新还包括使用下混频信号的带化频谱幅度度量的估计、噪声的带化频谱幅度度量的估计和先前预测的回声频谱内容来进行语音活动检测—VAD。语音活动检测的结果确定是否存在对滤波系数的更新。滤波系数的更新基于下混频信号的带化频谱幅度度量的估计和噪声的带化频谱幅度度量的估计以及先前预测的回声频谱内容。
方法包括计算原始抑制概率指标,例如抑制增益,其包括使用空间特征中的两个或更多个确定的位置外信号增益和使用噪声频谱内容的估计确定的噪声抑制概率指标,例如,噪声抑制增益;以及将原始抑制概率指标(例如,抑制增益)进行组合以确定针对每一个频带的第一组合增益。在一些实施方式中,噪声频谱内容的估计是噪声频谱内容的空间选择性估计。在一些实施方式中,噪声抑制概率指标(例如,抑制增益)包括回声的抑制,并且其计算还使用预测的回声频谱内容。
在一些实施方式中,方法还包括执行使用空间特征中的两个或更多个确定的空间选择性语音活动检测以生成信号分类,例如,输入音频信号是否是语音。在一些实施方式中,使用风检测使得信号分类还包括输入音频信号是否是风。
该方法的一些实施方式还包括对频带的第一组合增益执行后置处理,以生成针对每一个频带的经后置处理的增益。在一些实施方式中,后置处理包括以下各项中的一项或多项:例如以依赖于频带的方式确保最小增益;通过对组合增益执行中值滤波来确保不存在孤立或离群的增益,以及通过执行时间平滑和/或带间平滑来确保平滑。在一个实施方式中,后置处理是根据信号分类的。
在包括回声抑制的一个实施方式中,该方法包括计算额外的回声抑制概率指标,例如,抑制增益。在一个实施方式中,将额外的回声抑制增益与其它原始抑制增益进行组合以形成第一组合增益,并且(如果包括后置处理,则经后置处理的)第一组合增益形成针对每一个频带的最终增益。在其它实施方式中,将额外的回声抑制增益与(如果包括后置处理,则经后置处理的)第一组合增益进行组合以生成针对每一个频带的最终增益。
该方法包括对最终增益进行插值以产生最终频格增益,并且应用最终频格增益以对下混频信号的频格数据执行抑制以形成经抑制的信号数据,并且应用以下各项中的一项或两项:a)用于生成输出采样的输出合成和变换,以及b)用于生成输出频格的输出重映射。
特定的实施方式包括操作处理装置以抑制不期望的信号的方法,该不期望的信号包括噪声。特定的实施方式还包括包含处理系统的处理装置,其中,处理装置被配置为执行方法。该方法包括:在处理装置中接受至少一个经采样的输入信号;以及针对多个频带形成所述至少一个输入信号的带化瞬时频域幅度度量,所述形成包括变换为针对一组频格的复值频域值。该方法还包括计算第一组一个或多个抑制概率指标,其包括使用噪声频谱内容的估计确定的噪声抑制概率指标;以及将第一组概率指标进行组合以确定针对每一个频带的第一组合增益;以及应用根据第一组合增益确定的经插值的最终增益以对至少一个输入信号的频格数据执行抑制从而形成经抑制的信号数据。针对每一个频带的噪声抑制概率指标能够表示为针对频带的带化瞬时幅度度量的噪声抑制增益函数。针对每一个频带,针对噪声预期带化瞬时幅度度量值的第一值范围,并且针对期望的输入预期带化瞬时幅度度量值的第二值范围。针对频带的噪声抑制增益函数被配置为:具有相应的最小值;在第一范围内具有相对恒定的值或相对小的负梯度;在所述第二范围内具有相对恒定的增益;以及具有从所述第一范围到所述第二范围的平滑过渡。
特定的实施方式包括操作处理系统以抑制不期望的信号的方法。该方法包括:在处理装置中接受至少一个经采样的输入信号;以及针对多个频带形成所述至少一个输入信号的带化瞬时频域幅度度量,所述形成包括变换为针对一组频格的复值频域值;计算第一组一个或多个抑制概率指标,其包括使用噪声频谱内容的估计确定的噪声抑制概率指标;以及将第一组概率指标进行组合以确定针对每一个频带的第一组合增益。该方法的一些实施方式还包括对频带的第一组合增益执行后置处理以生成针对每一个频带的经后置处理的增益,所述后置处理包括以下各项中的一项或多项:确保针对每一个频带的最小增益;以及应用根据经后置处理的增益确定的经插值的最终增益以对至少一个输入信号的频格数据执行抑制从而形成经抑制的信号数据。在一些版本中,后置处理包括以下各项中的一项或多项:对增益执行中值滤波;对增益执行带间平滑;以及对增益执行时间平滑。
特定的实施方式包括操作处理系统以处理至少一个经采样的输入信号的方法。该方法包括:在处理装置中接受至少一个经采样的输入信号以及针对多个频带形成至少一个输入信号的带化瞬时频域幅度度量,所述形成包括变换为针对一组频格的复值频域值并且带化为多个频带。该方法还包括计算每一个频带的增益以实现噪声减小和/或在带化是感知带化的情况下,实现以下各项中的一项或多项:基于感知域的调整、基于感知域的动态范围控制和基于感知域的动态均衡。在一些实施方式中,方法还包括对频带的增益执行后置处理,以生成针对每一个频带的经后置处理的增益;后置处理包括对频带的增益进行中值滤波,以及应用根据(如果包括后置处理,则经后置处理的)增益确定的经插值的最终增益,以执行噪声减小和/或在带化是感知带化的情况下,对频格数据执行以下各项中的一项或多项:基于感知域的调整、基于感知域的动态范围控制和基于感知域的动态均衡,以形成经处理的信号数据。该方法的一些版本还包括执行以下各项中的至少一项:语音活动检测和风活动检测,以进行信号分类,其中,中值滤波取决于信号分类。
特定的实施方式包括操作处理系统以抑制不期望的信号的方法,该方法包括:在处理装置中接受多个经采样的输入信号;以及形成针对多个频带的输入信号的下混频带化瞬时频域幅度度量,所述形成包括变换为针对一组频格的复值频域值。该方法还包括根据多个经采样的输入信号来确定带化的空间特征;计算第一组抑制概率指标,其包括使用空间特征中的两个或更多个确定的位置外抑制概率指标以及使用噪声频谱内容的估计确定的噪声抑制概率指标;将第一组概率指标进行组合以确定针对每一个频带的第一组合增益。(如果包括后置处理,则在后置处理以后的)第一组合增益形成针对每一个频带的最终增益;以及应用根据第一组合增益确定的经插值的最终增益。对最终增益进行插值产生了应用于下混频信号的频格数据以形成经抑制的信号数据的最终频格增益。噪声频谱内容的估计是使用空间特征中的两个或更多个确定的噪声频谱内容的空间选择性估计。在一些版本中,噪声频谱内容的估计是由具有由至少一个最小跟踪器的泄露速率参数定义的跟踪速率的泄露最小跟踪器来确定的。在特定的版本中,泄露最小跟踪器的至少一个泄露速率参数是由语音活动检测确定的语音存在的概率来控制的。
特定的实施方式包括操作处理装置以抑制不期望的信号的方法,该方法包括:在处理装置中接受多个经采样的输入信号;以及针对多个频带形成所述输入信号的下混频带化瞬时频域幅度度量,所述形成包括变换为针对一组频格的复值频域值;以及根据多个经采样的输入信号来确定带化空间特征。该方法还包括计算第一组抑制概率指标,其包括使用空间特征中的两个或更多个确定的位置外抑制概率指标以及使用噪声频谱内容的估计确定的噪声抑制概率指标;在处理装置中接受一个或多个参考信号;形成所述一个或多个参考信号的带化频域幅度度量表示;以及使用自适应确定的回声滤波系数来预测回声的带化频域幅度度量表示。该方法还包括根据下混频带化瞬时频域幅度度量、使用通用语音活动检测方法的相应实例化来确定语音活动的多个指示,通用语音活动检测方法是由一组参数来控制的,并且使用噪声频谱内容的估计、回声的带化频域幅度度量表示以及带化空间特征,这组参数包括噪声频谱内容的估计是否是空间选择性的、实例化确定语音活动是哪一种指示是由参数的选择来控制的、语音活动。该方法还包括将第一组概率指标进行组合以确定针对每一个频带的第一组合增益;以及应用根据(如果包括后置处理,则经后置处理的)增益确定的插值的最终增益来对下混频信号的频格数据执行抑制从而形成经抑制的信号数据。在方法的不同步骤中应用通用语音活动检测方法的不同实例化。在一些版本中,噪声频谱内容的估计是使用空间特征中的两个或更多个而确定的噪声频谱内容的空间选择性估计。
特定的实施方式包括有形的计算机可读存储介质,其配置有指令,所述指令当由处理系统的至少一个处理器执行时,使得处理硬件执行本文所描述的方法。
特定的实施方式包括逻辑,该逻辑可以编码在一个或多个计算机可读有形介质中以执行本文所描述的方法。
特定的实施方式可以提供这些方面、特征或优点中的全部、一些或不提供这些方面、特征或优点。特定的实施方式可以提供一个或多个其它方面、特征或优点,根据本文的附图、描述和权利要求,这些方面、特征或优点中的一个或多个对于本领域技术人员而言将是显而易见的。
特定的示例性实施方式
本文描述了一种方法,其处理:(a)多个输入信号,例如,来自多个空间分离的麦克风的信号;和针对回声抑制,(b)一个或多个参考信号,例如,来自一个或多个扬声器或者由一个或多个扬声器渲染的并且可能引起回声的信号。通常存在声音源,例如,作为麦克风阵列的人声源的人。该方法处理输入信号和一个或多个参考信号以以集成的方式执行同时的噪声抑制、回声抑制和位置外的信号抑制。本文还描述了一种接受多个输入信号和一个或多个参考信号以处理输入信号和所述一个或多个参考信号从而以集成的方式执行同时的噪声抑制、回声抑制和位置外的信号抑制的系统。还描述了其上有编码的指令的至少一个存储介质,这些指令当由处理系统的一个或多个处理器执行时,引起对多个输入信号(例如,麦克风信号)和(例如针对一个或多个扬声器或者来自一个或多个扬声器的)一个或多个参考信号的处理从而以集成的方式执行同时的噪声抑制、回声抑制和位置外的信号抑制。
频域中的抑制
围绕确定和应用一组抑制概率指标描述了本发明的实施方式,其中,这组抑制概率指标例如被表示为应用于多个频带处的信号的频谱值的针对多个频带中的每一个的抑制增益。频谱值表示频谱内容。在本文所描述的很多实施方式中,频谱内容涉及功率谱。然而,本发明不限于处理功率谱值。更确切地说,可以使用任何取决于频谱幅度的度量。例如,如果直接使用幅度频谱,则这种频谱内容有时称作频谱包络。因此,通常不是使用短语“功率谱”,而是在描述中使用短语“功率谱(或者其它幅度度量频谱)”。
一些常用的符号的列表
B:频谱值的数量,也称作频带的数量。在一个实施方式中,B个频带处于其间隔是单调非递减的频率处。频带的至少90%包括来自多于一个的频格的贡献,并且在优选的实施方式中,每一个频带包括来自两个或更多个频格的贡献。在一些特定的实施方式中,频带是以对数型的方式单调递增的。在一些特定的实施方式中,它们处于心理声学刻度上,也即是说,频带相距与心理声学临界间隔有关的刻度,在本文中,将这种带化称作“感知带化”。
b:从1至B的频带号。
fc(b):频带b的中心频率。
N:在变换到频域以后的频格的数量。
M:帧中的采样的数量,例如,通过适当的窗加窗的采样的数量。
T:通过M个采样的帧采样的声音的时间间隔。
f0:针对帧的M个采样的采样频率。
P:诸如麦克风输入信号等的输入信号的数量。
Q:参考输入的数量。
Xp,n:按照递增频格顺序n(n=0,...N-1)的、被表示为xp,m,m=0,...M-1(p=1,...P)的P个(麦克风)输入采样中第p个输入M采样帧的N个复值频格。
R′b:根据例如频格Xp,n和具有要素wb,n的加权矩阵Wb形成的P个输入信号的带化协方差矩阵。
Yn:M个采样的最近长度为T的帧(当前帧)的下混频(例如,波束成形)信号(与噪声和回声组合)的N个频格。这是例如通过下混频(例如,波束成形)输入的经变换的信号频格或者通过在采样域中进行下混频(例如,波束成形)并且变换经下混频(例如,波束成形)的信号采样而确定的。
Y′b:频带b中的最近长度为T的帧(当前帧)的(与噪声和回声结合的)经下混频(例如,波束成形)的信号中的瞬时(带化)频谱内容,例如,瞬时频谱功率(或者其它频域幅度度量)。这是例如通过将经下混频(例如,波束成形)的经转换的信号频格带化为频带来确定的。
Xn:例如通过将表示一个或多个参考输入的信号变换为频带而获得的M个采样的最近长度为T的帧(当前帧)的参考输入的N个频格。
x′b:频带b中的最近长度为T的帧(当前帧)的参考输入瞬时频谱内容,例如,瞬时功率(或者其它频域幅度度量)。这是通过将表示一个或多个参考输入的信号变换和带化为频带来确定的。
X′b,l:针对长度为T的帧的索引l(l=0,...,L-1)的频带b中的参考输入瞬时功率频谱内容,例如,功率(或其它频域幅度度量),其中,帧索引l表示M个输入采样帧中有多少个在过去的帧索引,也即是说,第l个先前帧,其中,l=0是M个采样的最近长度为T的帧,使得X′b=X′b,0。
E′b:频带b中的预测回声频谱内容,例如,功率谱(或者其它幅度度量频谱)。
p′b:根据瞬时带化功率Y′b确定的频带b中最近的帧(当前帧)的信号估计频谱内容,例如,功率谱(或者其它幅度度量频谱)。在带化是使用心理声学设计的对数型的一些实施方式中,Y′b可以是P′b的足够好的估计。
N′b:频带b中的噪声估计频谱内容,例如,功率谱(或者其它幅度度量频谱)。这用于例如语音活动检测并且用于更新回声频谱内容的自适应预测的滤波系数。
S:根据VAD确定的语音活动。当S超过阈值时,该信号被假设为语音。
描述
图1示出了系统100的实施方式的框图,系统100接受:多个(表示为P个)输入信号101,例如,来自不同的相应空间位置处的麦克风(未示出)的麦克风输入,其中输入信号表示为MIC1、……、MIC P;和多个(表示为Q个)参考输入102,表示为REF1、……、REF Q,例如,将在Q个扬声器上渲染的Q个输入102或者从Q个扬声器获得的信号。信号101和102具有采样值的形式。在本发明的一些实施方式中,P=l,即,仅存在一个麦克风输入。当存在位置外的信号抑制时,P≥2,因此存在至少两个信号输入,例如,麦克风输入。类似地,在一些实施方式中,例如,在不存在回声抑制的实施方式中,Q=0,因此不存在参考输入。当存在回声抑制时,Q≥1。图1中所示的系统100以集成的方式执行同时的噪声抑制和位置外的信号抑制,并且在一些实施方式中,还执行同时的回声抑制。
一个这样的实施方式包括系统100,系统100包括输入处理器103、107、109,其用于接受多个采样的输入信号,并且针对多个(B个)频带形成输入信号101的下混频的带化瞬时频域幅度度量110。在一个实施方式中,输入处理器103、107、109包括用于变换到频格的输入变换器103、诸如用于形成下混频(例如波束成形)的信号108(其被表示为Yn,n=0,...,N-l)的下混频器(例如,波束成形器)107,和用于形成表示为Y’n,b=l,...,B的频带的频谱带化元件109。在一些实施方式中,在变换之前执行波束成形,而在如图1中所示的其它实施方式中,变换在下混频(例如,波束成形)之前。
一个系统实施方式包括带化空间特征估计器105,其用于例如在变换之后(而在其它实施方式中,在变换之前)从多个经采样的输入信号来估计带化空间特征106。
系统100的包括回声抑制的版本包括用于接受一个或多个参考信号的参考信号输入处理器111、变换器113和用于形成一个或多个参考信号的带化频域幅度度量表示116的频谱带化元件115。系统100的这些版本包括基于自适应确定的滤波系数的回声118的带化频域幅度度量表示的预测器117。为了自适应地确定滤波系数,噪声估计器123确定噪声124的带化频谱幅度度量的估计。语音活动检测器(VAD)124使用噪声124的带化频谱幅度度量、由信号频谱估计器121确定的下混频信号122的带化频谱幅度量的估计和先前预测的回声频谱内容118来产生语音检测输出。在一些实施方式中,带化信号110是下混频信号122的带化频谱幅度度量的足够准确的估计,使得不使用信号频谱估计器121。VAD125的结果由自适应滤波器更新器127使用以确定是否基于下混频信号122(或110)和噪声124的带化频谱幅度度量的估计和先前预测的回声频谱内容118来更新滤波系数128。
系统100还包括增益计算器129,其用于计算抑制概率指标例如作为增益,其在一个实施方式中包括位置外的信号概率指标(例如,使用空间特征106中的两个或更多个确定的增益)以及噪声抑制概率指标,(例如,使用空间选择性噪声频谱内容确定的增益)。在包括回声抑制的一些实施方式中,噪声抑制增益包括回声抑制。在一个实施方式中,增益计算器129还用于将原始抑制增益组合为针对每一个频带的第一组合增益。
在一些实施方式中,增益计算器129还用于对频带的第一组合增益执行后置处理,以生成针对每一个频带的经后置处理的增益130。根据该实施方式,后置处理包括以下各项中的一项或多项:在一些实施方式中以取决于频带的方式确保最小的增益;在一些实施方式中,通过对组合增益进行中值滤波来确保不存在离群或孤立的增益;并且在一些实施方式中,通过执行时间平滑来确保平滑,以及在一些实施方式中,进行带间平滑。在一些实施方式中,后置处理包括使用空间特征106中的两个或更多个来进行空间选择性的语音活动检测,以生成信号分类,使得根据信号分类来进行后置处理。
在一些实施方式中,增益计算器129进一步计算额外的回声抑制增益。在一个实施方式中,该额外的回声抑制增益与其它增益进行组合(如果包括后置处理,则在后置处理之前)以形成第一组合增益。在另一个实施方式中,额外的回声抑制增益与第一组合增益进行组合(如果包括后置处理,则在后置处理以后)以生成针对每一个频带的最终增益。
系统100还包括噪声抑制器131,其用于应用增益130(如果包括后置处理,则在后置处理以后)以对下混频信号的频格数据执行抑制从而形成抑制的信号数据132。系统100还在133中包括以下各项中的一项或两项:a)用于生成输出采样的输出合成器和变换器,以及b)用于生成输出频格的输出重映射。
本发明的系统实施方式包括包含以下各项的系统:用于接受103多个经采样的输入信号101并且针对多个频带形成103、107、109的输入信号101的下混频带化瞬时频域幅度度量110的模块。在一个实施方式中,用于接受和形成的模块包括用于变换到频格的模块103、用于进行波束成形以形成经下混频(例如波束成形)的信号的模块107和用于带化(109)以形成频带的模块。在一些实施方式中,在变换之前执行波束成形,并且在其它实施方式中,变换是在下混频(例如,波束成形)之前。
一个系统实施方式包括用于从多个经采样的输入信号确定105带化的空间特征106的模块。
包括回声抑制的系统实施方式包括用于接受213一个或多个参考信号并且用于形成215、217一个或多个参考信号的带化频域幅度度量表示116的模块,以及用于预测117、123、125、127回声118的带化频域幅度度量表示的模块。在一些实施方式中,用于预测117、123、125、127的模块包括:用于自适应地确定125、127回声滤波系数128的模块,其被耦合到用于确定123噪声124的带化频谱幅度度量的估计的模块;用于使用下混频信号122的带化频谱幅度度量的估计进行语音活动检测(VAD)的模块;以及用于更新127滤波系数128的模块。VAD的输出被耦合到用于更新的模块,并且如果用于更新的模块更新滤波系数,则确定VAD的输出。基于下混频信号122和噪声124的带化频谱幅度度量的估计和先前预测的回声频谱内容118来更新滤波系数。
一个系统实施方式还包括用于计算129抑制增益的模块,该抑制增益包括使用空间特征106中的两个或更多个而确定的位置外的信号增益和使用空间选择性噪声频谱内容确定的噪声抑制增益。在包括回声抑制的一些实施方式中,噪声抑制增益包括回声抑制。用于计算129的模块的计算包括将原始抑制增益组合为针对每一个频带的第一组合增益。
在一些实施方式中,用于计算129的模块还包括用于对频带的第一组合增益执行后置处理以生成针对每一个频带的后置处理的增益130的模块。在一些实施方式中,后置处理包括以下各项中的一项或多项:例如以取决于频带的方式确保最小增益;通过对组合增益执行中值滤波确保不存在孤立增益,以及通过执行时间和/或带间平滑确保平滑。在一些实施方式中,用于后置处理的模块包括用于使用空间特征106中的两个或更多个进行空间选择性语音活动检测以生成空间分类使得根据空间分类来进行后置处理的模块。
在一些实施方式中,用于计算129的模块包括用于计算额外的回声抑制增益的模块。在一些实施方式中,将额外的回声抑制增益与增益进行组合(如果包括后置处理,则在后置处理之前)以形成频带的第一组合增益以用作针对每一个频带的最终增益,并且在其它实施方式中,将每一个频带中的额外的回声抑制增益与第一组合增益进行组合(如果包括后置处理,则经后置处理)以形成针对每一个频带的最终增益。
一个系统实施方式还包括用于将最终增益插入最终的频格增益并且应用最终的频格增益以对下混频信号的频格数据执行抑制以形成经抑制的信号数据132的模块131。一个系统实施方式还包括用于应用以下各项中的一个或两个的模块133:a)用于生成输出采样135的输出合成和变换,以及b)用于生成输出频格135的输出重映射(注意,相同的参考数字用于输出采样发生器和输出频格发生器二者)。
图2示出了操作处理装置100以抑制多个(表示为P个)信号输入101(例如,来自不同相应空间位置处的麦克风的麦克风输入,所述输入信号被表示为MIC1,...,MIC P)中的噪声和位置外的信号以及在一些实施方式中的回声的方法200的流程图。在包括回声抑制的实施方式中,方法200包括处理多个(表示为Q个)参考输入102(表示为REF1,...,REF Q),例如,要在Q个扬声器上渲染的Q个输入或者从Q个扬声器获得的信号。这些信号具有采样值的形式。在一些实施方式中,使用与从另一个源获得的预期的回声有关的组合的幅度度量的估计是足够的。该系统以集成的方式执行同时的噪声抑制、位置外的信号抑制和在一些实施方式中的回声抑制。
在一个实施方式中,方法200包括:在处理装置中接受201多个经采样的输入信号101以及针对多个频带形成203、207、209输入信号101的下混频带化瞬时频域幅度度量110,所述形成包括变换203为针对一组频格的复值频域值。在一个实施方式中,所述形成包括在203中将输入信号变换为频格,下混频(例如,波束成形)频率数据,以及在207中进行带化。在可替换的实施方式中,下混频可以在变换之前,使得对单个下混频信号进行变换。在可替换的实施方式中,系统可以利用带化回声参考的估计或者由实现的系统中的另一个处理组件或源提供的回声参考的频域频谱的类似表示。
该方法包括在205中从多个经采样的输入信号来确定带化的空间特征106。
在包括同时的回声抑制的实施方式中,方法包括接受213一个或多个参考信号,并且在215和217中形成一个或多个参考信号的带化频域幅度度量表示116。在一个实施方式中,表示是总和。此外,在包括回声抑制的实施方式中,方法包括在221中使用自适应确定的回声滤波系数128来预测回声118的带化频域幅度度量表示。在一个实施方式中,预测还包括使用下混频信号122的带化频谱幅度度量的估计、噪声124的带化频谱幅度度量的估计和先前预测的回声频谱内容118来进行语音活动检测—VAD。系数128是不限日期的,或者不是依照语音活动检测的结果的。更新使用噪声124的带化频谱幅度度量的估计、先前预测的回声频谱内容118和下混频信号122的带化频谱幅度度量的估计。在一个实施方式中,下混频信号的带化频谱幅度度量的估计是输入信号的下混频带化瞬时频域幅度度量110,而在其它实施方式中,使用信号频谱估计。
在一些实施方式中,方法200包括:a)在223中计算原始抑制增益,其包括使用空间特征106中的两个或更多个确定的位置外信号增益和使用空间选择性噪声频谱内容确定的噪声抑制;以及b)将原始抑制增益组合为针对每一个频带的第一组合增益。在一些实施方式中,噪声抑制增益包括回声的抑制,并且其计算223还使用预测的回声频谱内容118。
在一些实施方式中,方法200还包括使用空间特征106中的两个或更多个执行空间选择性语音活动检测以生成信号分类,例如,是否是语音。在一些实施方式中,使用风检测使得信号分类还包括信号是否是风。
在一些实施方式中,方法200还包括对频带的第一组合增益执行后置处理,以生成针对每一个频带的后置处理增益130。在一些实施方式中,后置处理包括以下各项中的一项或多项:例如以取决于频带的方式确保最小增益;通过对组合增益执行中值滤波来确保不存在孤立增益,以及通过执行时间和/或带间平滑来确保平滑。在一个实施方式中,后置处理是依据信号分类的。
在包括回声抑制的一个实施方式中,该方法包括在226中计算额外的回声抑制增益。在一个实施方式中,在用作针对每一个频带的最终增益的第一组合增益中包括额外的回声抑制增益,并且在其它实施方式中,将额外的回声抑制增益与第一组合增益进行组合(如果包括后置处理,则经后置处理)以生成针对每一个频带的最终增益。
该方法包括在227中应用最终增益,其包括对频格数据的增益进行插值以对下混频信号的频格数据执行抑制从而形成抑制的信号数据132。在229中还应用以下各项中的一项或两项:a)用于生成输出采样的输出合成和变换,以及b)用于生成输出频格的输出重映射。
通常,P≥2且Q≥l。然而,本文所公开的方法、系统和装置可以按比例缩小以针对P=l、Q≥1和P≥2、Q=0的更简单的情况保持有效。本文公开的方法和装置甚至针对P=1、Q=0工作地相当好。虽然该最终的实施例是本发明的简化和可能不重要的实施方式,但是应当注意到,所提出的框架缩放的能力是有利的,并且此外,如果输入信号或参考中的一个或多个例如由于传感器或麦克风的故障而变为损坏或不可用,则实际上可能需要简化的信号操作情况。
虽然针对包括抑制的所有方面(其包括同时的回声、噪声和位置外抑制)的整个方法(图2)、系统或装置(图1)呈现了本发明,或者作为包括指令的计算机可读存储介质(该指令当由处理系统(参见图16及其描述)的一个或多个处理器执行时使包括处理系统的处理装置执行诸如图2的方法等的方法)呈现了本发明,但是应当注意到,示例性的实施方式还提供了用于更简单的应用和情形的可伸缩的解决方案。例如,当在单个装置(例如,诸如蓝牙头戴式耳机等的设备)上需要发送侧(噪声抑制、回声抑制和空间选择性)和接收侧(仅噪声)时,可能存在很大的益处,并且,在执行一个或多个存储介质中存储的代码的处理系统上执行所述方法的情况下,在相同的一个或多个存储介质中共享针对用于不同方面的代码存在益处。
一个实施方式包括同时的噪声抑制、回声抑制和位置外抑制,而另一个实施方式包括同时的噪声抑制和位置外抑制。本文的大部分描述假设同时的噪声抑制、回声抑制和位置外抑制,并且如何修改任何实施方式以不包括回声抑制对于本领域技术人员而言将是清楚的。
参考信号和输入信号
Q个参考信号表示与麦克风阵列处的潜在回声有关的一组音频信号。在典型的情况下,麦克风阵列可以是头戴式耳机、个人移动设备或固定麦克风阵列的麦克风阵列。参考可以与用于驱动以下各项的信号相对应:头戴式耳机或个人移动设备上的一个或多个扬声器、或者在扬声器阵列或者环绕立体声配置中使用的一个或多个扬声器、或者在诸如膝上型计算机或平板电脑等的便携式设备上的扬声器。应当注意的是,本申请不限于这些场景,然而,该方法的属性非常适合于每一个参考对麦克风阵列中心的响应在增益和延迟上是类似的环境。参考信号还可以表示在实际的扬声器馈源之前的信号表示,例如,在它被渲染并且发送到多声道扬声器输出之前的原始音频流。所提出的方法提供了用于鲁棒回声控制的解决方案,其还允许回声路径中的适度的空间和时间变化,其包括对于采样偏移、不连续和时间漂移是鲁棒的。
参考输入可以表示产生潜在的回声的输出扬声器馈源或者可替换地将用于在适当的渲染之后产生扬声器输出的源。该系统将在任何一种情况下很好地工作,然而,在一些实施方式中,在渲染之前使用初始独立且可能不相关的源是优选的。如果渲染是线性的并且具有恒定的或慢时变的增益,则在本发明中给出的自适应框架能够管理多声道回声源的变化和复杂度。使用组件音频源而不是渲染的扬声器馈源可以有利地避免由于信号相关而引起的回声参考的组合中的问题。下面在本发明中进一步讨论用于多声道回声抑制的回声参考和鲁棒的组合。
在一组实施方式中,系统的输出是表示在移除噪声、回声和不是源自期望的位置的声音分量之后所关注的分离的语音或信号的单个信号。在另一个实施方式中,系统的输出是表示在移除噪声、回声和不是源自期望的位置的声音分量之后所关注的分离的语音或信号的一组重映射的频率分量。这些频率分量例如具有可以由后续压缩(编码)方法或额外的处理组件使用的形式。
系统100和方法200的处理中的每一个是以基于帧的方式(也称作基于块的方式)对每一个处理时刻的具有M个输入采样的帧(也称作具有M个输入采样的块)执行的。例如麦克风输入的P个输入由一个或多个时频变换器103独立地变换以产生一组P个频域表示。到频域表示的变换通常将具有一组N个线性间隔的频格,每一个频格在每一个处理时刻具有单个复值。应当注意的是,通常N≥M,使得在每一个时刻,对M个新的音频数据采样进行处理以产生N个复值频域表示数据点。复值频域表示中的增加的数据允许对适合于噪声、回声和空间选择性算法的音频信号进行一定程度的分析和处理,以实现合理的相位估计。
组合参考信号
在一个实施方式中,使用简单的时域求和来组合Q个参考输入。这在每一个处理时刻产生了具有M个实值采样的单个参考信号。发明人已经发现,系统能够通过仅使用单个组合的参考来针对多声道回声实现抑制。虽然本发明不取决于对为什么实现该结果的任何推理,但是应当认识到,由于在抑制框架内使用回声、噪声和信号的带化幅度度量表示的固有鲁棒性以及从基于时间帧的处理所提供的更广泛的时间分辨率,我们认为,仅使用单个组合的参考就起作用。该方法允许某一定时和增益不确定性或者误差裕量。对于8-32ms的合理帧大小和3dB的回声估计裕量,这涉及扬声器对麦克风的响应的变化,这等同于扬声器之间的相对距离具有几米(例如,2-8米)改变。对于大多数家庭和单用户应用,发现这一点是符合要求的,并且这一点应当甚至对于更大的电影院或扬声器阵列配置保持有效。
在一个实施方式中,例如在时域中使用求和来组合Q个参考输入,以产生将用于回声控制的单个参考信号。在一些实施方式中,该求和可以在变换之后发生或者可以在可以对Q个参考信号的功率谱(或者其它幅度度量谱)进行组合的带化级处发生。在功率域中组合信号具有以下优点:避免在Q个信号上的相关内容进行破坏性(抵消)或建设性的组合的效果。由于预期的声学回声路径的固有的复杂度,因此参考信号的这种“同相”或精确的相位对准组合不可能在麦克风处跨越时间和/或频率广泛地且持续地发生。而直接组合方法可以在单信道参考功率估计及其用作回声预测器的能力中产生偏移。实际上,未发现这一点是针对典型的多声道内容的严重问题。单声道时域求和以非常低的复杂度提供了有效的性能。在声道之间预期大量相关的内容并且可能存在相反的相位和时间对准的内容的概率是合理的情况下,可以通过对参考声道中的一个或多个使用去相关滤波来减小回声控制性能的损失的可能性。在本领域中常用的这种滤波的一个实施例是时间延迟。针对本发明的这些实施方式建议2-5ms的时间延迟。另一个实施例是块相移(bulk phase shift),例如,希尔伯特变换或90度相移。
变换到频域
本发明存在取决于在具有离散时间间隔的信号域中工作的能力的很多方面,其中,在这些离散时间间隔处,对估计和处理控制进行更新,并且存在一定程度的跨频率的分离。这些方法通常称作在频域中执行的滤波器组或变换和处理。对于本领域技术人员应当显而易见的是,存在很多可能的框架。下一部分阐述一般的框架和针对将在本文所描述的各个示例性实施方式中使用的这种信号处理的一些优选的实施方式。
本发明的实施方式逐帧地处理数据,其中,在变换中使用的每一个连续的采样帧与通过某一方式使用的先前的采样帧重叠。这种重叠的帧处理在音频信号处理中是常见的。在这种逐帧处理的上下文中,本文使用的术语“瞬时”意味着针对当前帧。
图3A至图3E示出了本发明的实施方式的要素中的一些的一些细节。图3A示出了放置在长度为2N的缓冲器中的具有M个输入采样的帧(块),其中,该缓冲器具有2N-M个先前的采样并且根据加窗函数被加窗而生成根据变换而变换的2N个值,其中,额外的扭转函数如下所述。这导致了N个复值频格。图3B示出了N个频格到多个(B个)频带的转换。下面更详细地描述带化为B个频带。本发明的一个方面是确定针对B个频带的一组B个抑制增益。增益的确定包含了例如指示位置外信号的统计空间信息。
图3C示出了对于B个增益进行插值以产生一组N个增益,这组N个增益然后应用于输入数据的N个频格。本发明的一些实施方式包括对原始增益进行后置处理以确保稳定性。基于信号分类,例如,依据(空间选择性的)语音活动和风活动中的一个或多个的信号分类,来控制后置处理。因此,根据信号活动分类来选择所应用的后置处理。后置处理包括防止增益下降至低于某一预先指定(取决于频带)的最小点,防止的方式取决于活动分类、可以如何通过取决于活动分类的方式有效地消除由于一个或多个孤立的增益值引起的音乐噪声,以及可以如何使用取决于活动分类的平滑的类型和量来平滑增益。
应用抑制增益的结果导致N个输出频格。图3D描述了将N个输出频格转换为具有M个输出采样的帧的合成过程,并且图3D通常涉及逆变换和加窗重叠相加操作。
作为产生输出采样的替代,针对其它处理需要,可以取而代之地或者还期望确定变换域数据。图3E是可以将来自图3C的N个复值频格重新格式化以适应后续处理(例如,音频编解码器)的变换需要从而节省处理时间并且减小信号延迟的可选择的输出级。例如,在一些应用中,不使用图3D的处理,这是因为将以某一方式对输出进行编码。在这些情况下,应用图3E中所示的重映射操作。
返回图3A,为了计算效率,使用例如通过快速傅里叶变换(FFT)实现的离散有限长度傅里叶变换(DFT)是实现向频域的变换的一种有效的方式。由于变换窗中的信号是某种周期或重复方式的的隐含假设,因此例如通常通过FFT实现的离散有限长度傅里叶变换通常称作循环变换。可以通过缓冲、窗、扭转(实值到复值的变换)和例如FFT的DFT来表示循环变换的最一般的形式。在DFT之后的可选的复扭转可以用于调节频域表示以匹配具体的变换定义。这一类的变换包括修改的DFT(MDFT)、短时傅里叶变换(STFT)和具有更长的窗和包绕的共轭正交镜像滤波器(CQMF)。为了严格符合诸如修改的离散余弦变换(MDCT)和修改的离散正弦变换(MDST)等的标准变换,使用了频域频格的额外的复扭转,然而,这不会改变变换的潜在的频率分辨率或处理能力,因此可以留到处理链结束时并且如果需要的话在重映射中应用。
在一些实施方式中,下面的变换和逆变换对用于图3A的正变换和图3D的逆变换。
其中,i2=–1,un和vn是适合的窗函数,xn表示最后2N个输入采样,xN-1表示最近的采样,Xn以递增频率顺序表示的N个复值频格。在最后两个等式行中表示了图3D的逆变换或合成。yn表示在视情况针对设计的窗进行重叠、相加和丢弃之前通过单独的逆变换产生的2N个输出采样。应当注意的是,该变换具有作为块乘法和FFT的有效的实现。
在图3D的与合成有关的更详细的过程中,为了重构最终的输出,将采样yn添加到从前面的变换(称作重叠和相加方法)剩余的采样集。对于本领域技术人员而言应当明显的是,该重叠和组合的过程取决于帧大小、变换大小和窗函数,并且应当被设计为在不在频域中对信号Xn进行任何处理或修改的情况下实现对输入信号的准确重构。
注意,为了方便的目的,在上面对变换的表达中使用xn和Xn。在本发明的其它部分中,Xn,n=0,…,N–1表示代表参考信号的信号的频格,Yn,n=0,…,N–1表示下混频输入信号的频格。
对于给定的采样速率f0,每隔表示时间间隔(其被表示为T,即,M/f0)的M个采样执行变换。虽然对于本发明而言不是限制性的,但是通常对于f0=8000Hz或f0=16000Hz的语音应用,常用的变换大小对于功率为2是最佳的,即,N=128、256或512。对于M=N的采样情况,采样速率和帧大小的这些组合导致T=8,16,32或64ms的有效时间间隔或者变换域采样间隔。在一个实施方式中,f0=16000Hz的采样速率与N=512的帧和变换大小一起使用从而提供32ms的变换时间间隔。这在频域中提供了良好的分辨率,但是可能由于64ms的成帧和处理而呈现不期望的延迟。对于需要更低的延迟和减小的计算复杂度的应用,另一个实施方式是f0=8000Hz的采样速率和N=128的帧大小,其中,帧间隔是16ms。由于系统帧匹配的原因或者为了实现更精细的时间分辨率和略微改善的性能,该变换可以更频繁地运行或者“被过采样”。在一个实施方式中,M=90的帧大小与N=128的变换在f0=8000Hz处一起使用,其中,帧大小被选择为与在典型的蓝牙耳机中使用的常用帧大小30合理对齐。
窗函数un和vn对变换频率分辨率的更精细的细节和经处理的数据的相邻时间帧之间的活动的过渡和插值具有影响。因为以重叠的方式处理变换,因此窗函数控制该重叠的属性。本领域技术人员应当知道,存在与信号处理的这一方面有关的很多窗函数的可能性,其中每一个具有不同的属性和折中。在一个实施方式中,针对上面的变换提出的窗是正弦窗族,它的一个提出的实施方式是:
可以看出,该窗在2N个采样的整个范围上延伸。使用该采样窗和该一般的方法通常被称作变换和信号分析的短时傅里叶变换(STFT)方法。
对于本领域技术人员应当显而易见的是,图3A和图3D的分析和合成窗(也称作原型滤波器)可以具有与本文给出的实施例相比更大或更小的长度。可以以上文提出的具有一组零系数(零填充)的一般形式来表示更小的窗。通常通过应用窗并且然后将信号折叠到2N个采样的变换处理范围中来实现更长的窗。已知窗设计影响诸如以下各项等的某些方面:频率分辨率、频域频格的独立性和处理失真。
本领域技术人员还应当清楚的是,本发明不限于使用任何特定或具体类型的变换。该方法需要对信号进行一定程度的频率和时间分析,如在针对块时段和所需的频率分辨率的一般提出的实施方式中所指示的。
由适当的窗实现或近似的一般属性是在应用输入窗和输出窗并且在间隔M之后的重叠以后,在不随时间对M个采样帧进行调制的情况下实现恒定的增益。
unvn+un+Mvn+M=k
其中,k是缩放常数,并且通过在如下讨论的实施方式中提供的单位变换,有用的需要是k=1也用于实现单位系统增益。
应当注意的是,可以在执行本文使用的变换时使用标准的复值快速傅里叶变换,使得该完整的变换具有使用一组复杂的分块乘法和标准FFT的有效实现。虽然并不旨在是限制性的使得其它实施方式可以使用其它设计,但是该设计有助于通过利用针对目标处理器平台的任何标准的现有最优化的FFT实现来携带变换或滤波器组。
本领域技术人员应当清楚的是,存在通过输入和输出窗的变型和帧大小和定位(M)和扭转表示的很多变换族。如果窗不是次优的,则主要特征是频率采样分辨率(N)、潜在的频率分辨率(与输入窗的宽度和形状有关)和帧大小或者变换(M)之间的步幅。
注意,针对诸如麦克风输入等的输入中的每一个,窗和复杂的扭转可以是不同的,以实现将在下混频(例如,波束成形)中以及在位置推断中使用的适合的时间延迟。为了简单起见,忽略这些细节,并且本领域技术人员将理解这些细节。
在一些方面,如果已知帧大小(或步幅),则可以独立于变换来合理地执行该方法,以便相应地更新所有的处理时间常数。然而,对于人类声音,针对16kHz的采样速率使用N=128..512的变换大小或者针对8kHz的采样速率使用N=64..256的变换大小来实现用于在更低的语音频谱中获得回声、噪声和波束分离的适当程度的频率分辨率。这表示8..32ms的变换帧大小或时间间隔。针对M=N,可以实现具有边际改进的操作,这是因为如果M减小,则实现了输出增益平滑,然而,计算复杂度直接与1/M有关。
针对P个输入(例如,麦克风输入)中的每一个的N个复值频格直接用于产生对活动的空间概率的一组位置估计。这在图1中被示出为带化空间特征估计器105并且在图2中被示出为步骤205。在讨论了通过例如波束成形进行下混频以后,在下面更详细地描述元件105和步骤205的细节和操作。
例如通过波束成形进行下混频
例如使用下混频器(例如,波束成形器107)对P个输入中的每一个的N个复值频格进行组合,以得到单个频域信道。这在方法200中被示出为波束成形步骤207。虽然本发明使用任何下混频信号工作,但是在一些实施方式中,下混频器是被设计为实现针对期望的位置的某一空间选择性的波束成形器107。在一个实施方式中,波束成形器107是线性时不变过程,即,通常通过针对每一个输入信道的一组复值的取决于频率的增益定义的被动波束成形器。可以包括更长时间范围的滤波,以产生选择性的时间和空间波束成形器。可能的波束成形结构包括P个信号的实值增益和组合,例如,在两个麦克风的情况下,这可以是简单的求和或差分。因此,本文使用的术语波束成形意味着下混频,并且可以包括某一空间选择性。
在一些实施方式中,波束成形器107(和波束成形步骤207)可以包括随时间对空间选择性进行自适应跟踪,在该情况下,视情况对波束成形器的增益(也称作波束成形器权重)进行更新,以在所关注的源的估计的位置中跟踪某一空间选择性。在一些实施方式中,跟踪足够慢,使得可以在所关注的时间段期间认为时变过程的波束成形器107是静态的。因此,为了简化并且为了分析短时系统性能,假设该分量是时不变的是足够的。
针对诸如波束成形器107等的下混频器以及步骤207的其它可能性包括使用针对每一个处理频格导出的复值的取决于频率的增益(混合系数)。这种滤波器可以被设计为实现相对恒定的或者在不同的频率上适当控制的某一定向性。通常,诸如波束成形器107等的下混频器将被设计或适配为与通过任何一个麦克风输入信号实现的信噪比相比,在期望的信号的信噪比方面实现改善。
注意,波束成形是已经很好地研究了的问题,并且存在很多用于实现用于产生来自波束成形器107和步骤207的下混频(例如,波束成形)的信号的适当的波束成形器或线性麦克风阵列过程的技术。
为了讨论波束成形,参见下面的书:Van Trees,H.L.,Detection,estimation,and modulation theory:{IV}Optimum Array Processing.2002,New York:Wiley,and Johnson,D.H.and D.E.Dudgeon,ArraySignal Processing:Concepts and Techniques.1993:Prentice Hall。
在一个实施方式中,通过波束成形器107进行的波束成形207包括对来自不期望的信号的源的一个或多个已知的位置的特定信号进行置零或抵消,这些不期望的信号例如是回声、噪声或其它不期望的信号。虽然“置零”建议减小为零,但是在本描述中,“置零”意味着减小敏感度;本领域技术人员将理解的是,通常,“完美的”置零实际上是不可实现的。此外,波束成形器的线性过程仅能够对少量(P-1个)独立定位的源进行置零。线性波束成形器的限制是由如下作为本发明的一些实施方式的一部分来描述的更有效的空间抑制来补充的。麦克风阵列对预期的主要回声路径的空间响应的位置可以是已知的并且相对恒定的。举例说明,通过利用在刚性结构中具有麦克风和扬声器的固定相对几何结构的便携式设备,是已知回声的源来自扬声器的。在这种情况下,或者在存在预期的且良好定位的噪声源的情况下,在一些实施方式中,波束成形器被设计为置零,即,提供对来自不期望的信号的源的已知位置的声音的零或低相对灵敏度。
可以在包括例如使用波束成形器107对空间选择性进行随时间的自适应跟踪的系统或方法中使用本发明的实施方式,其中波束成形器107可以视情况被更新以在所关注的源的估计的位置中跟踪某一空间选择性。因为与时间T相比,这种跟踪通常是相当慢的时变过程,因此为了分析系统性能,假设波束成形器107和波束成形207中的每一个是时不变的是足够的。
对于两麦克风阵列的实施例,其中期望的声音源位于阵列的宽侧处,即,处于垂直等分线处,一个实施方式针对波束成形器107使用确定两个输入信道的简单求和的被动波束成形器107。对于放置在用户的头一侧的两麦克风阵列的实施例,波束成形207的一个实施方式包括引入相对延迟并且对来自麦克风的两个输入信号进行差分。这实质上近似超心型麦克风方向性模式。在这两个两麦克风实施例中,用于实现单个中间信号的所设计的P个麦克风输入的混合针对期望的源具有优选的灵敏度。
在一些可替换的实施方式中,诸如波束成形器107的波束成形207等的下混频器通过一组复值权重对各组输入(作为频格)进行加权。在一个实施方式中,根据最大比合并(MRC)来确定波束成形器107的波束成形权重。在另一个实施方式中,波束成形器107使用利用迫零确定的权重。这些方法在本领域中是已知的。
虽然本文描述的本发明的实施方式产生了单个输出信道,并且因此产生了单个中间信号,但是本领域技术人员将理解到,该方法的概括用于运行本文描述的处理的多个独立的或部分有关的实例以产生多个输出。每一个实例将从来自麦克风阵列的输入信号得到唯一的相关联的混合或波束,其包括每一个实例可以仅对单个麦克风信号起作用的可能性。因此,对于本领域技术人员而言,如何如此概括为具有多个输出信道的系统和方法将是简单的。
带化为频带
迄今描述的是在频域以频格的形式产生两个信号:例如来自麦克风阵列的下混频(波束成形)的信号,以及从组合所有回声参考输入而产生的经变换的信号。
对于提出的发明的抑制部分,导致计算一组抑制增益的大多数分析仅需要信号功率频谱(或者其它幅度测量谱)的表示。在一些实施方式中,不是使用每一个频格,而是将多个频格进行组合以形成多个(B个)频带。每一个频带包含来自多于一个或更多个频格的贡献,其中,频带中的至少90%具有来自两个或更多个频格的贡献,频格的数量随着频率是非递减的,使得与更低的频带相比,更高的频带具有来自更多的频格的贡献。图3B示出了通过带化元件109和115和带化步骤209和217实现的N个频格到多个(B个)频带的转换。本发明的一个方面是确定针对B个频带的一组(B个)抑制增益。确定增益包括统计空间信息。
虽然针对中间信号需要原始频域表示数据(这是因为这将在针对时域的信号合成中使用),但是不需要回声参考的原始频域系数,并且可以在计算功率谱(或者其它幅度度量谱)以后丢弃原始频域系数。如前所述,需要麦克风输入的整组(P个)频域表示,以推断输入音频信号的空间特征。
在一个实施方式中,B个频带集中在分离是单调非递减的频率处。在一些特定的实施方式中,频带分离是以对数型的方式单调递增的。感知地激发这种对数型方式。在一些特定的实施方式中,它们处于心理声学尺度,也即是说,频带是临界分离的,或者遵循根据比例因子与临界间隔相关的间隔。
在一个实施方式中,元件109和115以及步骤209和217的带化被设计为沿着人类的内耳中的底膜在特定的位置处仿真频率响应。带化109、115、209、217可以包括一组线性滤波器,其带宽和间隔在等效矩形带宽(ERB)频率尺度上是恒定的,如由Moore,Glasberg and Baer(B.C.J.Moore,B.Glasberg,T.Baer,"A Model for the Prediction ofThresholds,Loudness,and Partial Loudness,"J.of the AudioEngineering Society(AES),Volume45Issue4pp.224-240;April1997)定义的。
存在很多关于哪一种感知尺度更匹配人类感知、并且因此将在产生与客观的响度结果匹配的客观的响度测量时导致改进的性能的研究,可以在减小的性能的情况下采用Bark频率尺度。
本领域技术人员认为,ERB频率尺度更匹配人类感知。也可以在可能减小的性能的情况下使用Bark频率尺度。发明人的论点是感知尺度的细节对本文给出的系统的整体性能是次要的。如示例性的实施方式中阐述的,利用本文提供的推荐,处理频带相对于临界感知频带的数量和间隔是设计的考虑,然而,与开发的感知模型的精确匹配或一致性不是必需的系统性能。
因此,在一些实施方式中,针对下混频(例如,波束成形)的输入信号并且针对参考输入获得的单个信道中的每一个被简化为一组(B个)频谱功率(或者其它频域幅度度量),例如,心理声学尺度上的B个此类的值。根据变换的潜在的频率分辨率,B个频带可以在对数频率尺度上完全等间距。在本文中,将所有此类对数型带化称作“感知带化”。在一些实施方式中,每一个频带应当具有约0.5至2ERB的有效带宽,其中,一个具体的实施方式使用0.7ERB的带宽。在一些实施方式中,每一个频带具有0.25至1Bark的有效带宽。一个具体的实施方式使用0.5Bark的带宽。
在更低的频率处,发明人发现保持最小的频带大小以覆盖多个频格是有用的,这是因为这在可能与诸如短时傅里叶变换等的变换一起发生的时间到频带的分析以及在频率到时间的合成中避免了时间混叠和循环失真的问题。应当注意的是,诸如复杂的正交镜像滤波器等的某些变换或子带化滤波器组可以避免这些问题中的很多问题。此外,发明人发现,用于功率(或者其它频域幅度度量)表示和增益插值的带化的特性形状和重叠相对平滑是有利的。
在一些实施方式中,使用从约100Hz开始的通带来对音频进行高通滤波。在该情况下,观测到诸如麦克风信号等的输入通常非常嘈杂(具有弱信噪比),并且由于固定长度N的变换变得越来越难以实现感知间隔。
1ERB滤波器的带宽由下式给出:
ERB(f)=0.108f+24.7.
整合该式并且考虑在约100Hz处的第一频带中心,下面的表达可以用于1ERB的频带中心间隔:
fC≈320e 0.108b-250
其中,fC(b)的单位是Hz,并且频带号b在1至B的范围内。
在16kHz处N=512变换的情况下,这产生了中心频率在100Hz至4000Hz的范围内的B=30个频带,其中,最低的频带中心在100Hz,同时仍然具有大于2个频格的带宽。
针对元件109、115和步骤209、217的特定的感知带化是建议性的,而并不旨在将本发明限制于这种带化。此外,带化109、115和步骤209、217不需要是对数的或者对数型的。然而,由于与听力和感知的属性有关的原因,为了实现计算效率并且改善频带上的统计估计的稳定性,对数带化被建议并且是有效的。对数带化方法显著地减小了复杂度,并且稳定在更高频率处发生的功率估计和相关联的处理。
可以利用带化滤波器进行软重叠来实现元件109、115和步骤209、217的带化,其中,这组带化滤波器也称作分析滤波器组。每一个带化滤波器的形状应当被设计为使与每一个频带相关联的时域滤波器的时间范围是最小化的。元件109、115和步骤209、217的带化操作可以由将频格功率(或者其它频域幅度度量)作为带化功率(或者其它频域幅度度量)的B*N个实值矩阵来表示。虽然不是必需的,但是可以将该矩阵限制为正值,这是因为这避免了任何负频带功率(或者其它频域幅度度量)的问题。为了减小计算负载,该矩阵应当相当稀疏,其中,频带仅取决于其中心频率周围的频格。用于在频域和时域上都实现紧凑形式的最佳滤波器形状是Gaussian(高斯)。具有相同的二次主瓣但是更快速地截止为零的替换形式是升余弦。在每一个频带延伸至相邻频带的中心的情况下,升余弦还在对频带求和时提供了单位增益。因为针对更小的频带升余弦变得尖锐,因此在频格上包括诸如[1 2 1]/4和[1 4 6 4 1]/16等的额外的扩频内核是适合的。这在更高的频率处对更宽的频带具有可忽略的影响,然而,它提供了软化,因此在更低的频率处限制了相关联的带通滤波器的时间扩展。
图4描绘了用于将16kHz的采样频率处的N=512个点的复值变换带化为如在本发明的一些实施方式中使用的B=30个频带的带化矩阵的二维图。在这些实施方式中,该矩阵用于对从N个频格到B个频带的功率(或者其它频域幅度度量)进行求和。该矩阵的变换用于将B个抑制增益插值为一组(N个)增益以应用于变换频格。
图5在线性尺度和对数尺度上描绘了频域中的B个频带的示例性形状。可以看出,B个频带在对数尺度上近似均匀地间隔,其中,较低的频带变得略微更宽。术语对数型用于这种行为。此外,图5还示出了示例性的带通滤波器的总和。可以看出,这在频谱上具有单位增益,其中,高通特性在100Hz周围具有截止频率。高频陆架(shelf)和带化不是本文给出的实施方式的必不可少的组成部分,而是对于所关注的信号是语音输入的情况,用于对典型的麦克风输入信号使用的建议的特征。
图6示出了带化元件109、115和步骤209、217的示例性实施方式的滤波器频带中的多个的时域滤波器表示。在该示例性的实施方式中,在构造带化矩形系数时应用额外的平滑内核[1 2 1]/4。可以看出,将滤波器范围约束至时间零周围的时间窗一半的中心处。该属性是由具有与单个频格相比更宽的滤波器频带并且在该实施例中在确定带化矩阵时使用额外的平滑内核引起的。
虽然本发明不限于这些实施方式,但是已经发现,由于当针对滤波器组应用任意一组增益时的循环卷积,因此将滤波器范围约束至时间窗的一半的中心的属性减小了失真。这在使用相同的带化来确定信号的带化功率(或者其它频域幅度度量)并且用于元件131、步骤225的如图3C中所示的在针对单独的频格应用带化增益时使用的插值的操作时特别重要。
在实现中,针对带化功率(或者其它频域幅度度量)表示使用匹配的分析和插值是方便的。然而,在一些实施方式中,为了实现频率上的更精细的分析和更平滑的应用的处理增益的不同特性,分析和插值带化可以是不同的。发明人已经发现,当将滤波器范围约束至时间窗的一半的中心被用于对带化处理增益(元件131、步骤225)进行插值从而产生在使用上文建议的变换或者类似的短时傅里叶变换时应用的频格增益时,这在带化矩阵中是固有地特别有利的。
元件109、115和步骤209、217的带化用于多个目的:
●通过对变换频格进行分组,存在更少的参数来估计信号活动。在一个示例性的实施方式中,B=30个频带,这显著小于N=512个频格。这是显著的计算节省。
●通过将变换频格分组为频带,更多的数据被使用来形成每一个频带的估计,这降低了估计过程的统计不确定性。这对于确定下文所描述的空间概率性指标特别有用。
●在一些感知带化实施方式中,心理声学标准用于带化,并且由此产生的带化以某一对准或缩放方式与监听者的临界听力带宽有关。可论证地,相比与此,以更精细的分辨率控制频谱具有很少的优点,这是因为每一个频带中的感知的活动将由该频带中的最强的源主导。最强的源还将主导参数估计。通过这种方式,对变换的适当带化提供了一定程度的信号估计和掩蔽,该掩蔽与固有的心理声学模型匹配,因此在抑制框架中利用掩蔽。分析的频格扩展和输出的增益约束均用于避免尝试抑制已经掩蔽的信号。频带的平滑重叠进一步提供了实现与计算增益类似的结果从而实现将考虑监听者的心理声学掩蔽效果的噪声抑制的机制。
●带化的抑制增益的带化和插值提供了平滑,因此避免了跨频率的在频域中应用于N个频格的由此产生的增益的任何剧烈的变化。在一些实施方式中,可以将约束应用于带化设计,以确保与带通滤波器有关的所有时域滤波器具有紧凑的形式,其长度在理想情况下小于N。当将在变换域中应用频带增益时,该设计减小了来自循环卷积的失真。
虽然对于本发明不是必需的,但是一些实施方式包括在每一个频带中对功率(或者幅度的其它度量)进行缩放,以实现某一额定的绝对参考。这已经被发现对于抑制是有用的,以便促进将残余噪声抑制到相对于听力阈值的跨频率的恒定功率值。一种提出的用于归一化频带的方法是进行缩放,使得1kHz的频带具有来自输入的单位能量增益,而其它频带被缩放为使得具有匹配听力的阈值的相对频谱的噪声源将是白噪声或者在频带上具有恒定的功率。在某种意义上,这是在分析之前对频带上进行的预加强滤波,其使得更低的频带和更高的频带的灵敏度下降。因为如果将残余噪声控制为在频带上是恒定的,则这在接近听力阈值时实现了感知白噪声,因此该归一化是有用的。在这个意义上,它通过衰减频带以实现感知上低的或不可听见的噪声电平而不是独立于噪声的可听性在每一个频带中进行数值优化,提供了实现对信号的足够的但不过量的减小的方式。
听力的平均阈值的近似值为:
其中,Tq是以dB声压级(SPL)为单位的听力阈值,其在2kHz处近似为0dB。例如,参见Terhardt,E.,Calculating Virtual Pitch.HearingResearch,vol.1:pp.155–182,1979。通过对具有先前定义的频带增益的适合的频格频率处计算的该表达的功率进行求和,获得表示听力阈值的带化频谱形状的一组频带功率。通过使用这一步骤,可以为每一个频带计算归一化增益。因为听力阈值在非常低的频率处快速地增加,因此针对归一化的增益建议约–10dB..–20dB的合理极限。
图7示出了用于如上文所描述的带化为30个频带的归一化增益。注意,1kHz的频带是频带13,因此具有0dB的增益。
用Yn表示M个采样的最近的长度为T的帧(当前帧)的(与噪声和回声组合的)经下混频(例如,波束成形)的信号的频格。针对在步骤209中执行的元件109,给定变换输出(频格Yn),计算带化功率的最终表达是:
其中,Y′b是下混频(波束成形)的信号的带化瞬时功率,Wb是来自图7的归一化增益,wb,n是来自图4和图5所示的带化矩阵的要素。
类似地,频谱带化元件115的操作217使用归一化增益Wb和具有要素wb,n的带化矩阵形成组合的参考信号的带化瞬时功率X′b。
注意,当针对数量使用下标b时,在频带b中对数量进行带化。还应当注意,不论在带化域中何时使用素数(prime),它是子带功率的测量,或者通常是幅度的任何度量。因此,可以基于频域复系数(具体地说,它们的幅度)来将素数符号归一化为任何度量。在一个可替换的实施方式中,使用1-范数,即,使用频谱频带的幅度(也称作包络),并且瞬时下混频信号的频谱幅度的表达变为:
其中,针对组合的瞬时参考频谱幅度X′b具有类似表达。在一些实施方式中,通过将特定的频带中使用的频格上的加权幅度与指数p组合,然后应用另一指数1/q来获得有用的度量。我们将此称作pq度量,并且注意,如果p=q,则这定义了频域系数的向量的范数。凭借加权矩阵wb,n,每一个频带具有不同的度量。针对每一个频带中的瞬时下混频信号度量的表达变为:
其中,针对组合的瞬时参考频谱幅度X′b具有类似表达。
虽然在本文所描述的实施方式中,使用了信号功率和信号功率谱,即,p=2且q=1,但是例如本文使用的方程和定义等的表述可以被容易地修改以使用任何其它pq度量,例如,使用幅度或幅度的某一其它度量,并且对于本领域普通技术人员而言,如何执行这种修改将是简单的。因此,虽然本文使用的术语可能提及“功率(或者其它频域幅度度量)”,但是方程通常是针对功率的,并且对于本领域普通技术人员而言,如何针对任何其它pq度量修改方程和实现将是简单的。
注意,在本文的描述中,可能并不总是包括频格域或带化域中的信号的明确的符号,这是因为根据上下文,这对于本领域技术人员是明显的。通常,由素数和下标b表示的信号是带化频域幅度测量。还应当注意的是,可以组合两个增益并且注意增益矩阵非常稀疏来进一步优化元件109、115的带化步骤205、217,并且这种优化对于本领域技术人员而言将是显而易见的,并且包括在本文的带化表示的范围内。抑制
在每一个M采样帧点,方法实施方式和系统实施方式的目的包括确定包含在该频带中的总功率谱(或者其它幅度度量频谱)中的带化下混频音频信号的各个分量的估计。它们被确定为功率谱(或者其它幅度度量谱)。在下文中更详细地描述了波束成形的信号Y′b的频带中的分量的确定。
此外,通过步骤205中的带化空间特征估计器105确定的称作空间概率性指标的统计空间属性用于将信号空间分离为源自期望的位置的分量和不是源自期望的位置的分量。
空间概率性指标的估计和总信号频谱的分量的估计是相互关联的。
还应当注意的是,波束成形器107和波束成形步骤207可以提供一定程度的空间选择性。这可以实现对位置外信号功率的一定抑制并且实现对噪声和回声的一定抑制。
确定波束成形的信号Y′b的频带中的分量
通过应用一组取决于频率的增益来执行抑制,这组取决于频率的增益通常作为N个频域系数上的实系数,如针对本文呈现的实施方式所建议的。通过分析诸如功率谱(或者其它幅度度量频谱)等的信号特征来在带化域中计算抑制增益。用P′b表示频带b中的带化下混频(例如,波束成形)的信号功率的总功率谱(或者其它幅度度量频谱)。图8A和图8B示出了P′b中的各个分量的分解,并且下文是在与估计本发明的实施方式中的分量相关联的假设的情况下对P′b中的信号分量的简洁描述。
●表示为N′b的噪声:N′b是功率谱(或者其它幅度度量频谱)分量,其是合理地恒定的或者没有短时通量,如本领域技术人员通常理解的,通量是功率谱(或者其它幅度度量频谱)如何快速地随时间改变的测量。
●表示为E′b的回声是功率谱(或者其它幅度度量频谱)分量,其具有在考虑到参考信号功率谱(或者其它幅度度量频谱)的短(0.25–0.5s)时间窗的情况下可合理地预测的通量。
●表示为Power′OutOfBeam的位置外功率:也称作波束外功率和位置外功率。这被定义为功率或功率谱(或者其它幅度度量谱)分量,其具有在将从期望的位置潜在地入射的输入麦克风信号上不具有适当的相位或幅度映射的通量。
●表示为Power′Desired的期望的信号功率:这是P′b的不是噪声N′b、回声E′b或Power′OutOfBeam的剩余部分。
图8A和图8B示出了频带中的信号功率(或者其它频域幅度度量)的两个分解。图8A示出了从下混频(例如,波束成形)的信号的功率谱估计分离回声功率和噪声功率得到残留信号功率,并且进一步分离得到作为残留信号功率的一部分的期望的位置内(in-position)信号。图8B示出了频带b中的总功率空间分离为总位置内功率和总位置外功率,并且总位置内功率分离为没有来自位置内功率的位置内回声功率分量和位置内噪声功率分量的、期望的信号的功率的估计。
本发明的实施方式使用用于产生针对期望的信号中的功率的估计的一些边界的可用信息,并且相应地产生可以用于影响同时的组合抑制的一组频带增益。
通过图8A和图8B显而易见的是,期望的信号功率是1)以残留功率为边界的(从上文可知),即,总功率P′b减去噪声功率N′b并且减去回声功率E′b,以及2)以总功率P′b的、被估计为在位置内的部分为边界的(从上文可知),即,未位置外的功率Power′OutOfBeam的部分。
估计信号频谱P′b(元件121、步骤211)
参照图1,信号功率(或其它频域幅度度量)估计器121在每一个频带b中生成总信号功率(或幅度的其它度量)的估计。本发明的实施方式包括在元件121、步骤211中确定总信号功率谱(或者其它幅度度量频谱)和噪声功率谱(或者其它幅度度量频谱)。这是对下混频(例如,波束成形)的瞬时信号功率Y′b执行的。因为下混频(例如,波束成形207)是在所关注的持续时间的线性和时不变过程,因此来自输入Xp,n的噪声和回声的统计到下混频器(例如,波束成形器107)的输出的映射并且最终的其带化版本Y′b在所关注处持续时间也是时不变的。因此,如下假定是合理的:初始波束成形器在用于估计统计(例如,功率谱)的观测的时间期间是线性和时不变过程,因此在波束成形之前相对于潜在的信号条件的估计的属性由于波束成形器在信号条件下快速适配而并不改变。
这种估计的变型取决于信号被观测的时间的长度。对于16kHz处的更长的变换块,例如,N>512,立即的频带功率(或者其它频域幅度度量)是足够的。对于16kHz处的更短的变换块N≤512,虽然不是必要的,但是一些额外的平滑或平均是优选的。根据帧大小M,一个实施方式使用一阶滤波器平滑信号功率(或者频域幅度度量)估计,来确定功率估计P′b。在一个实施方式中,在估计器121、步骤211中执行的频带b中的总功率频谱估计P′b是:
P′b=αP,b(Y′b+Y′min)+(1-αP,b)P′bPREV,
其中,P′bPREV是先前的(例如,最近)确定的信号功率(或者其它频域幅度度量)估计,αP,b是时间信号估计时间常数,并且Y′min是偏移。可替换的实施方式使用不同的平滑方法,并且可以不包括偏移。适合于信号估计时间常数αP,b的范围被发现在20至200ms之间。在一些实施方式中,使用更窄的范围40至120ms。在一个实施方式中,添加偏移Y′min,以避免零级功率谱(或者其它幅度度量频谱)估计。可以测量或者可以基于先验知识来选择Y′min。例如,Y′min可以与听力的阈值或设备噪声阈值有关。
注意,在一些实施方式中,瞬时功率(或者其它频域幅度度量)Y′b是信号功率频(或其它频域幅度度量)谱P′b的足够准确的估计,使得元件121未被使用,但是Y′b用于P′b。在根据基于心理声学的标准(例如,使用上文所描述的对数型带化)选择带化滤波器和频带时,这尤其如此。.因此,在本文呈现的使用P′b的公式中,一些实施方式取而代之的使用Y′b。
自适应回声预测步骤221
方法200包括步骤221:使用自适应确定的回声滤波系数执行回声的预测(参见回声频谱预测滤波器117)、使用预测的回声频谱内容和总信号功率执行噪声频谱估计(参见噪声估计器123)、使用信号频谱内容、噪声频谱内容和回声频谱内容来更新语音活动回声检测器(VAD)(参见元件125)、以及基于VAD输出和信号频谱内容、噪声频谱内容和回声频谱内容来适配回声滤波器系数(参见更新滤波器117的系数的自适应滤波器更新器127)。
元件117的瞬时回声预测(步骤221的一部分)
由于与一个或多个参考信号有关的信号的声学复制,因此在麦克风处产生了回声。假设存在Q个参考信号,例如,针对环绕立体声Q=5,并且通常Q≥1。例如,通常经由一组一个或多个扬声器来渲染潜在的回声源。在一个实施方式中,求和器用于确定Q个渲染的参考信号的直接和,以生成总参考,来用于针对抑制的回声谱内容预测。在一个实施方式中,可以通过单个非定向麦克风来获得这种求和或分组的回声参考,该回声参考具有与输入麦克风的信号相比远远更大的回声电平和远远更低的期望信号电平。在一些配置中,这些信号以预呈现的形式可用。例如,转换为模拟信号然后向一组一个或多个扬声器呈现的数字信号可以是可用的。举另一个例子,模拟扬声器的信号可以是可用的。在一些实施方式中,不是使用呈现的信号,即,不是使用来自扬声器的声波,而是使用电子信号(模拟的或数字的),并且由求和器111在数字域或模拟域中直接求和,以提供单个实值参考信号的M采样帧。发明人已经发现,使用信号预呈现提供了优势。
方法200的步骤213包括对Q个参考信号进行接受(并且求和)。步骤215包括例如使用时频变换器113或运行变换方法指令的处理器来将总参考变换为频格。步骤217包括例如使用频谱带化器115生成表示为X′b的变换瞬时功率或其它度量,来进行带化以形成变换的参考的B个频带。这用于使用自适应滤波器预测回声频谱内容。
有很多可能性来使自适应滤波器预测回声功率频谱(或其它幅度度量频谱)频带。本领域技术人员将熟悉自适应滤波器理论。例如,参见Haykin, S., Adaptive Filter Theory Fourth ed. 2001, New Jersey:Prentice Hall。当在本发明的实施方式中应用自适应滤波器时,由于带化的功率频谱(或者其它幅度度量频谱)是正实值信号并且因此不是零均值的,因此可能存在一些复杂状况。因为每一个处理帧表示M个采样,因此用于预测频谱的滤波器长度将相对较短(以16kHz采样,M=320,长度为10至20个触头表示覆盖大多数语音回声场景的200至400ms)。因此,简单的归一化最小均方自适应滤波器是适合的。在一个实施方式中,通过将自适应滤波器的系数限制为正,来针对功率谱(或者其它幅度度量频谱)预测进行额外的且合理的约束。
按照惯例,用整数l表示过去的M输入采样帧的数量(M)的表示。因此,通过l=0来表示当前的帧。
在一个实施方式中,自适应滤波器包括通过使用L触头自适应滤波器来确定针对频带b表示为T′b的瞬时回声功率谱(或者其它幅度度量频谱),其中,通过下式来表示T′b:
其中,当前帧是X′b=X′b,0,其中,X′b,0,…,X′b,1,…X′b,L-1是(组合的)带化的参考信号X′b的L个最近的帧,其包括当前帧X′b=X′b,0,并且其中,针对给定的频带b的L个滤波系数分别是用Fb,0,…,Fb,l,…Fb,L-1来表示的。这些滤波系数是通过自适应滤波系数更新器127来确定的。滤波系数需要初始化,并且在一个实施方式中,系数被初始化为0,并且在另一个实施方式中,系数被初始化为预期的回声路径的先验估计。一种选择是初始化系数,以产生具有相对高的值(大于任何预期的回声路径)的初始回声功率估计,这有助于回声的激进的起始位置,并且避免了低估的回声触发VAD并且阻碍自适应的问题。
自适应地更新L个滤波系数使用来自当前时间帧的信号功率(或者其它频域幅度度量)频谱估计P′b和来自当前时间帧的噪声功率(或者其它频域幅度度量)频谱估计N′b。在一些实施方式中,Y′b是对P′b的合理的良好估计,因此用于确定L个滤波系数而不是P′b(其在任何情况下是根据Y′b来确定的)。
一个实施方式包括通过回声预测滤波器117对瞬时回声进行时间平滑,以确定回声频谱估计E′b。在一个实施方式中,以如下方式使用一阶时间平滑滤波器:
E′b=T′b针对T′b≥E′bPrev,以及
E′b=αE,bT′b+(1-αE,b)E′bPrev针对T′b<E′bPrev
其中,E′bPrev是(例如在最近)先前确定的回声频谱估计,或者其它先前确定的估计,并且αE,b是一阶平滑时间常数。在一个实施方式中,时间常数不是取决于频带的,而在其它实施方式中,其是取决于频带的。0至200ms之间的任何值可以工作。针对这些时间常数的建议从0至200ms不等,并且在一个实施方式中,发明人使用15至200ms的值作为取决于频率的时间常数实施方式,而在另一个实施方式中,使用30ms的不取决于频率的值。
噪声功率(或者其它频域幅度度量)频谱估计器123
表示为N′b的噪声功率谱(或者其它幅度度量频谱)被估计为随时间相对固定的或缓慢改变的信号的分量。
本发明的不同实施方式可以使用不同的噪声估计方法,并且发明人已经发现泄漏最小跟踪器是特别有效的。
在很多应用中,简单的噪声估计算法可以提供适当的性能。这种算法的一个实施例是最小统计量。参见R.Martin,“Spectral SubtractionBased on Minimum Statistics,”in Proc.Euro.Signal Processing Conf.(EUSIPCO),1994,pp.1182–1185。当所关注的信号具有较高的通量并且(如在语音的情况下那样)通常合理地在任何所关注的频带中下降为零功率时,使用最小统计量(最小跟踪器)是适当的。
虽然该方法适合于简单的噪声抑制(其中,信号分量的估计仅包括噪声和期望的信号),但是发明人已经发现,回声的存在可能引起对噪声分量的过高估计。由于该原因,本发明的一个实施方式包括回声选通噪声估计:更新噪声估计N′b,并且当与先前的噪声估计相比预测的回声电平显著时,停止更新噪声估计。也即是说,噪声估计器123提供了当与先前估计的噪声频谱内容相比预测的回声频谱内容显著时选通的估计。
可以改进基于历史窗的简单的最小跟踪器。来自这种简单的最小跟踪器的估计可以在功率的极值进入和离开历史窗时突然跳变。简单的最小跟踪器方法还在每一个频带中为信号功率的历史值消耗相当大的内存。不是具有窗上的最小值(例如,如在上面的Martin参考文献中),本发明的一些实施方式使用“泄露”最小跟踪器,其具有由至少一个最小的跟踪器泄露速率参数定义的跟踪速率。在一个实施方式中,“泄露”最小跟踪器具有由一个最小跟踪器速率参数定义的指数跟踪。
用表示噪声频谱N′b的先前估计。在一个实施方式中,由元件123并且在步骤221中通过具有指数增长的最小跟踪方法来确定噪声频谱估计。为了避免可能的偏置,通过存在与先前的噪声估计相当或更大的回声来选通最小的跟踪器。
在一个实施方式中,
否则
其中,αN,b是指定最小跟踪器可以增加至以跟踪噪声中的任意增长的随时间的速率的参数。
根据最小跟踪器将跟踪的随时间的速率来最佳地表达参数αN,b。可以用dB/sec来表达速率,其然后提供了用于确定αN,b的值的机制。范围是1至30dB/sec。在一个实施方式中,使用了值20dB/sec。
在一个实施方式中,最小跟踪器的一个或多个泄露速率参数是由通过语音活动检测(VAD)确定的语音存在的概率来控制的。如果语音的概率建议语音存在的概率更高,则泄漏是慢一比特,并且如果可能存在不存在语音的概率,则泄漏得更快。在一个实施方式中,当检测到语音时,使用速率10dB/sec,否则,使用值20dB/sec。下面针对元件125来描述VAD的一个实施方式。可以使用其它VAD,并且如本描述中更进一步详细描述的,本发明的一个方面是包括多个VAD,每一个VAD由较小的一组调谐参数来控制,这组调谐参数单独地控制灵敏度和选择性(其包括空间选择性),这些参数是根据在其中使用VAD的抑制元件来调谐的。
虽然一个实施方式使用最小跟踪器来进行噪声估计,但是可替换的实施方式可以使用从给定的频带中的输入信号功率的均值或时间平均获得的噪声估计器。发明人发现了当与其它此类方法相比时,最小跟踪器在消除偏置和稳定回声预测的自适应方面更有效。
用于回声更新125的语音活动检测器(VAD)
在一个实施方式中,VAD元件125按如下方式确定表示为S的总信号活动电平:
其中,βN,βB>1分别是针对噪声端回声的裕量,Y′sens是可设定的灵敏度偏差。这些参数通常可以在频带上改变。本文宽松地使用术语VAD或语音活动检测器。在技术上,测量S是指示具有超过噪声和回声的当前估计预定的量(用βN,βB>1指示的)的信号(用Y′b指示的)的频带的数量的测量。因为噪声估计是每一个频带中的固定的或恒定的噪声功率(或者其它频域幅度度量)的估计而不是真实的“语音”活动测量,因此测量S是高于预期的噪声和回声的瞬时或短时信号通量的测量。
在回声更新语音活动检测器125和滤波器更新器127中导出的VAD用于控制回声预测的自适应的特定目的。具有这种目的的VAD或检测器通常称作双向通话检测器。
在一个实施方式中,βN,βE的值在1与4之间。在特定的实施方式中,βN,βE均为2。Y′sens被设置约为通过典型的组件上的试验获得的预期的麦克风和系统噪声电平。可替换地,技术人员可以使用听力的阈值来确定Ysens的值。
检测语音活动,例如,以确定是否通过值S中的表示为Sthresh的阈值来更新回声预测滤波系数适配器127的预测滤波系数。在一些实施方式中,可以相对于S来实现自适应的速率的连续改变。
回声更新语音活动检测器125中的操作已经被发现为是用于语音或本地信号活动检测的简单的但有效的方法。因为βN>1且βE>1,因此每一个频带必须具有比噪声和回声的估计相比更大的某一瞬时信号内容。βN,βE的典型值约为2。利用约为2的所建议的值βN,βE,针对信号电平参数S的贡献需要至少3dB的信噪比。如果当前的信号电平相对于噪声和回声估计较大,则总和项针对每一个频带具有最大值1。S的表达的分母中的灵敏度偏移防止S并且因此防止任何导出的活动检测器(例如,VAD125)在低信号电平处注册。因此,针对S的B个频带上的总和将表示具有“相当大”的本地信号的频带的数量。它是不期望来自噪声和回声估计(所述估计被假设为一旦系统收敛,就是合理的)的信号。在一些实施方式中,如先前所描述的,建议的与听力的频带大小和阈值有关的缩放产生了VAD表达的有效平衡,其中,每一个频带具有类似的灵敏度和可感知的加权贡献,而不用针对每一个频带单独地调谐VAD参数。
本领域技术人员将清楚的是,通过选择不同组的参数βN,βE,Ysens,Sthresh,可以容易地产生针对整个信号强度的各个分量的不同灵敏度的不同VAD。如下文所讨论的,可以针对更特定于位置的VAD使用VAD中的空间信息。在增益计算器129的实施方式中并且在增益计算步骤223中使用这种特定于位置的VAD。
通过活动阈值选通的回声预测滤波系数适配器
在一个实施方式中,更新器127的回声滤波系数更新被选通,其中,更新在预期回声与预期的噪声和当前输入功率相比是较大的时发生,如由VAD125确定的并且由本地信号活动S的较低值指示的。
如果本地信号活动电平较低,例如,低于预定的阈值Sthresh,(即如果S<Sthresh),则可以按如下方式更新自适应滤波系数:
其中,γN是被调谐以确保噪声与回声估计之间的稳定性的调谐参数。γN的典型值是1.4(+3dB)。可以使用值1至4的范围。μ是影响回声估计的收敛速率和稳定性的调谐参数。在不同的实施方式中,可以使用0与1之间的值。在一个实施方式中,μ=0.1,其与帧大小M无关。X′sens被设置为避免针对较小的参考信号的不稳定自适应。在一个实施方式中,X′sens与听力的阈值有关。在另一个实施方式中,X′sen是低于参考信号的dB的预先选择的dB数量,因此是相对于参考信号的预期功率(或者其它频域幅度度量)来设置的,例如,比参考信号中的预期功率(或者其它频域幅度度量)X′b低30至60dB。在一个实施方式中,它比参考信号中的预期功率(或者其它频域幅度度量)低30dB。针对Sthresh的值的选择取决于频带的数量。Sthresh在1与B之间,并且针对到8kHz具有24个频带的一个实施方式中,适当的范围被发现在2与8之间,其中,特定的实施方式使用值4。
较低的阈值可能防止自适应滤波器正确地跟踪回声路径的改变,这是因为回声估计可能低于输入回声,并且将阻止自适应。更高的阈值将允许更快速的初始收敛,然而,因为将需要较大的本地信号来使得通过回声预测控制VAD125进行检测,因此滤波器更新将在双向通话期间被破坏。
在其它实施方式中,可以将独立于频带的加权因子引入回声更新语音活动检测器125,使得在频率上对基于瞬时信噪比的各个频带贡献进行加权,以得到针对信号活动的检测的贡献。在用于检测语音活动的基于感知的(例如,对数型带化)的情况下,发明人已经发现具有均匀的加权是可接受的。然而,对于特定的应用或者为了提高对某些预期激励的灵敏度,可以引入取决于频带的加权函数。
已经发现,本文针对基于VAD的回声滤波器更新给出的方法是用于控制自适应和预测回声电平的复杂度非常低但是有效的方法。还发现该方法在避免由于潜在的模糊带化估计引起的噪声和回声估计的偏置方面相当有效。所提出的方法有效地处理噪声与回声估计之间的交互,并且已经发现在广泛的应用中是鲁棒且有效的。即使该方法略微非常规(其原因在于噪声估计方法和回声预测方法可能不是已知的最广泛接受的和建立的方法),该方法被发现良好地工作,并且允许以系统的方式使用简单但鲁棒的技术,从而有效地减小和控制任何误差或偏置。然而,本发明不限于所使用的特定噪声估计方法或者所使用的特定的回声预测方法。
为了开始回声跟踪,可能必须强制针对多个信号处理间隔适配滤波器值或者初始化滤波器的值以达到期望的结果。回声更新语音活动检测器125中的信号检测假设回声滤波器117已经合理地收敛。如果回声预测低估了回声,并且具体地说,当在初始化时或者在跟踪到没有任何回声以后Fb,l=0,未被很好地估计的回声的突然开始可以选通自适应,因此变得阻塞的。针对该问题的解决方案是当一些参考信号开始时首先或者重复地强制进行自适应,或者将回声滤波器初始化为预期的回声路径的上限的预期值。
注意,对回声功率频谱(或者其它幅度度量频谱)进行估计,并且该估计在时间和频率上具有通过变换和带化设置的分辨率。回声参考仅需要是准确的,并且具有与该表示类似的分辨率。这在如上文所讨论地混合Q个参考输入方面提供了一定的灵活性。对于M=N=256,发明人发现,由于重叠的时间帧,和约16-32ms的时间变化是可容忍的,并且信号频率的约10%的频率变化是可容忍的。发明人还发现,由于在VAD和抑制公式中使用的回声估计缩放的抑制规则和建议的值,因此还存在约3-6dB的增益变化的容忍。
在算法的这一点上,除了高于它的信号活动的第一测量以外,我们还针对噪声和回声具有当前的一组估计(在带化的功率谱(或者其它幅度度量频谱)方面)。
在没有回声抑制的情况下的实施方式
本发明的一些实施方式不包括回声抑制,只包括噪声和位置外信号的同时抑制。在这些实施方式中,在E′b=0并且还在没有噪声估计器的回声选通的情况下应用相同的公式。此外,参照图1,针对无回声抑制,在生成回声估计中涉及的元件(其包括参考输入、元件111、113、115、滤波器117、回声更新VAD125和元件127)可以不存在。此外,参照图2,将不需要步骤213、215、217和221,并且步骤223不包括回声抑制。
位置信息
本发明的实施方式的一个方面是使用诸如来自输入变换器103和变换步骤203的频域或变换域的输入麦克风数据等的输入信号数据来形成对每一个频带中的声音的空间特征的估计。这有时称作推断源的方向或位置。
本领域中的大多数现有技术假设自由场声学环境中的理想点麦克风的简单模型。在算法设计和先验调谐中使用与麦克风对平面波和近似声音的灵敏度和响应有关的假设。应当清楚的是,对于很多设备和应用,输入信号用这种方法不是理想的。例如,麦克风的阵列可以复杂地嵌入在设备中,因此,例如可以包括具有不同的位置、方向性和/或响应的不同麦克风。此外,存在近场物体(例如,使用麦克风的设备本身、用户的头或在几何形状上不是预期的或固定的其它身体部分等等)意味着只可以根据来自从期望的或其它源到达声音阵列处的预期的信号特征来表达物体的空间位置。
因此,在本发明的实施方式中,未确定源位置,相反,入射音频在一组信号统计和属性方面的特征被确定为声音源处于或者未处于特定的位置处的概率的测量。本发明的实施方式包括带化空间特征的估计或确定估计,其在系统100中通过带化空间特征估计器105并且在方法200中通过步骤205执行。本发明的一些实施方式使用特定的频带b中的能量源自所关注的空间区域的概率的指标。例如,如果在多个频带中存在较高的概率,则推断出它是来自所关注的空间区域是合理的。
本发明的实施方式使用一个或多个测量的形式的空间信息,所述一个或多个测量是根据频带b中的一个或多个空间特征来确定的,所述一个或或多个空间特征随着特定频带b具有从所关注的空间区域入射的这样的能量的概率是单调的。这些量称作空间概率指标。
为了方便起见,术语“位置”用于指代麦克风阵列处的信号之间的预期关系。考虑到不同的入射离散声音,这被最佳地视为表示可能出现在来自麦克风阵列的信号之间的所有可能的关系的阵列流形中的位置。虽然存在阵列流形中的源的“位置”与其物理位置之间的明确的映射,但是应当注意的是,本文的技术和发明并不以任意方式依赖于已知的、确定性的或者甚至随着时间是恒定的映射。
返回参照图1的系统100,在麦克风输入变换以后的P组(N个)复值被路由到处理元件以进行带化位置估计。在一些实施方式中,每一个变换频格中的输入麦克风的相对相位和幅度可以用于推断针对给定的处理时刻在该频格中的主要源有关的某些位置信息。假设我们知道源的数量,利用该处理时刻处的频格的单个观测,可以求解大多数(P-1个)源处的方向或位置。例如,参见Wax,M.and I.Ziskind,On uniquelocalization of multiple sources by passive sensor arrays.IEEE Trans.Acoustics,Speech,and Signal Processing,vol.37,no.7,pp.996–1000,1989。这些典型的统计方法涉及该方法的数值和统计效率。在本文中,给出了提供鲁棒的解以对音频信号进行抑制控制从而实现良好的主观结果而不是优化更简单的客观标准的方法。在本发明的实施方式中,对随在该时间点处在给定的频带中的能量已经从期望的位置(这是通过阵列流形中的目标位置来表示的)合理到达的概率单调的测量进行估计。阵列流形中的目标位置可以基于先验信息和估计,并且它可以利用先前的在线估计和跟踪(或者二者的组合)。空间推断的结果是产生概率的测量的估计,例如,作为与在该时间点在该频带中来自期望的位置的信号的估计量有关的适合的增益或者估计的分数。
在一些实施方式中,在步骤205中由带化空间特征估计器105来确定一个或多个空间概率指标,并且这一个或多个空间概率指标用于抑制。这些一个或多个空间概率指标是频带b中的随着特定的频带b具有在所关注的区域中的这种能量的概率而单调的一个或多个测量。空间概率指标是输入的一个或多个加权的带化协方差矩阵的函数。
在一个实施方式中,一个或多个空间概率指标是输入信号的一个或多个带化加权的协方差矩阵的函数。考虑到P个输入变换的输出Xp,n,p=1,…,P(其中,N个频格n=0,…,N–1),我们通过对频格n的P个输入上的输入向量与其共轭转置的乘积进行求和并且通过具有要素wb,n的带化矩阵Wb进行加权,来构建要对应的一组加权协方差矩阵。
wb,n提供了关于如何针对对频带的贡献对每一个频格进行加权的指示。这在给定的时间和频率点处产生了瞬时阵列协方差矩阵的估计。通常,利用多频格带化,每一个频带包含来自多个频格的贡献,其中,更高的频带具有更多的频格。使用带化的协方差已经被发现提供了对协方差的稳定估计,这一协方差被加权到具有大多数能量的信号内容。
在一些实施方式中,随着时间对一个或多个协方差矩阵进行平滑。在一些实施方式中,带化矩阵包括取决于时间的加权以得到加权移动平均,其被表示为具有要素wb,n,l的Wb,l,其中,l表示时间帧,使得在L个时间帧上:
在不同的实施方式中,通过取决于频率的时间常数Rαb来定义平滑:
针对两个信号(例如,来自两个麦克风的麦克风阵列的信号)的情况在本文中详细地提供了该描述。下文进一步讨论如何推广到多个两个的输入信号。
在两个输入P=2的情况下,定义:
在某一实施方式中,空间特征包括“比”空间特征、“相位”空间特征和“相干性”空间特征。这些特征用于确定位置外信号概率指标(其被表达为抑制增益并且是使用空间特征中的两个或更多个来确定的)和使用空间特征中的两个或更多个确定的噪声频谱内容的空间选择性估计。在本文所描述的实施方式中的一些实施方式中,使用了三个空间特征(比、相位和相干性),并且对于本领域普通技术人员而言,如何修改这些实施方式以包括空间特征中的仅两个空间特征是简单的。
其中,σ是被添加以避免奇异性的最小偏差0。可以认为σ是针对R′b11的最小预期值。在一个实施方式中,它是针对麦克风和有关的电子设备的频带b中的噪声功率(或其它频域幅度度量)的确定的或估计的(先验)值。也即是说,使用任何预处理的最小灵敏度。
Phase′b=tan-1R′b21。
其中,偏差σ如上文所定义的。
注意,可替换的实施方式可以使用以dB为单位的对数尺度,例如:
图9A、图9B和图9C示出了分别针对用实线示出的扩散噪声、用虚线示出的期望的信号(在该情况下,语音)的空间特征Ratio′b、Phase′b和Coherence′b的随时间的概率密度函数,这是针对通过麦克风间距为约50mm的跨越32个频带的两个麦克风耳机捕获的两个输入信号而计算的。在该实施例中,以8kHz的采样速率来对输入信号进行采样,并且32个频带处于近似可感知的尺度上,其中,中心频率从66Hz至3.8kHz。针对Ratio′b,预期的范围为–10至+10dB,针对Phase′b,预期的范围为–180°至180°,针对Coherence′b,预期的范围为0至1。通过约10s的噪声和期望的语音信号来获得图形,其中,帧时间间隔T为16ms。因此,针对每一个分布图来聚集特征的约600个观测。
诸如图9A、图9B和图9C等的图形对于确定概率指标的设计是有用的,其原因在于它们表示针对期望的和不期望的信号内容所预期的特征值的扩展。
噪声场是扩散的,并且可以由来自不同的空间位置的多个源构成。因此,针对噪声的空间特征Ratio′b、Phase′b和Coherence′b表征了扩散场或空间随机场。在该实施例中,假设噪声处于远场,而期望的信号——语音——处于近场,然而,这对于应用该方法而言不是必需的。对麦克风进行匹配,使得针对噪声场的平均比特征是0dB,即,比为1。噪声信号以相对恒定的预期功率到达两个麦克风。对于较低的频率,由于更长的声学波长,因此预期麦克风信号将是相关的,并且噪声的比特征集中在约0dB。然而,因为在高频带中可能存在多个源,因此麦克风处的声学信号可能变得在扩散场中是独立的,并且因此使用更高的频带来观测噪声的比特征的概率密度函数的扩散。类似地,针对扩散噪声场的相位空间特征集中于约0°。然而,因为麦克风不在自由场中,因此头和设备设计的特征产生了与理论分离的麦克风扩散场响应的偏离。此外,在更高的频带处,波长相对于麦克风间隔减小,并且噪声的比和相位特征变得更分散,这是因为麦克风变得在扩散场中是独立的。
针对图9A至图9C所示的图形使用的所关注的信号是源自耳机的佩戴者的口中的语音。口与最近的麦克风相距约80mm。与麦克风的临近导致从口中到来的信号的大小比的很强的偏置。在该实施例中,偏置约为3-5dB。因为存在诸如头和设备主体等的近场物体,因此该特征未在预期的理论自由场中或者以理想的方式起作用。此外,期望的源不是源自空间中的单个位置;来自人类口中的语音具有复杂的并且甚至动态的空间特征。因此,本发明的一些实施方式使用了不关注于空间几何形状的抑制,而是期望的源的阵列的统计空间响应,如由空间特征的统计所反映的。虽然简单的理论模型可能建议比特征和相位特征将假设在没有噪声的情况下期望的源的单个值,如图9A至图9B所示,但是比特征和相位特征在每一个频带中呈现不同的值和扩展。该先验信息用于确定根据特征的每一个单个观测导出的概率指标的适合的参数。针对特定的空间配置、期望的信号和噪声特性,该映射可以改变。
相干空间特征不取决于任何空间配置。取而代之的,它是在此时由单个主要源产生信号的相干性或范围的测量。通过图9C可以看出,在频带覆盖来自变换的更多的频格的更高频率处,在将期望的信号(单个语音)与扩散且复杂的噪声场进行分离方面,相干性特征是有效的。
空间概率指标
可以看出,在频带中的至少一些中,噪声和期望的信号(语音)的分布显示了一定程度的分离。通过这些分布,本发明的实施方式的一个方面是使用给定的频带中的这些特征中的每一个的观测来推断入射信号处于期望的空间位置的部分概率。这些部分概率在本文中称作空间概率指标。在一些频带中,语音和噪声的空间特征的分布是不相交的,因此可以高确定性地判断该频带中的该信号是否来自期望的空间位置。然而,通常存在一定量的重叠,因此噪声可能表现为在阵列处具有期望的统计特性或者期望的信号可能在麦克风阵列处呈现出通常被认为是噪声的关系。
本发明的一些实施方式的一个特征在于,基于通过诸如由图9A至图9C中所示的图形表示的统计数据或者通过先验知识所收集的期望的信号特征—目标值(例如,其表示空间位置)的先验预期的或当前估计,每一个频带中的每一个空间特征可以用于产生针对该频带b的特征的概率指标。本发明的一个实施方式将概率指标中的两个或更多个进行组合以形成用于确定抑制增益的组合的单个概率指标,其与来自噪声和回声估计的额外的信息一起导致稳定的且有效的组合抑制系统和方法。在一些实施方式中,组合用于减小过度处理和“音乐”伪像,如果每一个特征直接用于向信号应用控制或抑制,则过度处理和“音乐”伪像将发生。也即是说,本发明的实施方式的一个特征是使用所有信息进行有效的组合推断或抑制增益决策,而不是通过每一个特征独立地实现最大抑制或辨别。
所设计的概率指标是涵盖期望的信号的空间特征的预期分布的函数。产生或识别这些概率指标基于实际的数据观测而不是严格的空间几何模型,从而允许任意复杂的声学配置的灵活的框架以及在空间不确定性周围的鲁棒的性能。
虽然诸如图9A至图9C中所示的概率密度等的概率密度可以用于推断最大似然估计和该频带中的信号处于期望的位置的相关联的概率,但是本发明的一些实施方式包括将分布简化为一组参数。在本发明的一些实施方式中,针对空间位置的特征分布的先验特征描述用于推断质心,例如,均值和相关联的宽度,例如,针对源自期望的位置的声音的空间特征的方差。这相对于使用详细的先验知识提供了优点:简单,并且避免了实际上过分地依赖于详细的先验信息可能产生不期望的结果和较差的鲁棒性的可能性。
在一个实施方式中,期望的位置的预期空间特征的分布被建模为高斯分布,其呈现了针对从每一个空间特征和频带导出的概率指标而捕获所关注的区域的鲁棒方式。
三个空间概率指标与这三个空间特征有关,并且是表示为RPI′b的比概率指标、表示为PPI′b的相位概率指标和表示为CPI′b的相干性概率指标,其中:
其中,WidthRatio,b是以对数单位(例如,dB)表示的宽度调谐参数。WidthRatio,b与图9A中的实际数据有关,但是不必是根据图9A中的实际数据来确定的。它被设置为在正常和有噪的条件下覆盖空间特征的预期变形,但是还需要仅与整个系统的上下文中所需的一样窄以实现期望的抑制。应当注意的是,本文的示例性的实施方式中呈现的特征是协方差矩阵的非线性函数,因此,期望的信号和噪声的混合中的特征值的预期分布通常不是与每一个信号的特征单独地线性相关的。引入任何噪声都可能对期望的信号的特征的观测引入偏置和变化。认识到这一点,目标和宽度可以被选择或调谐为在可能嘈杂的条件下匹配预期的分布。通常,应当注意到,宽度参数需要足够大从而覆盖由于几何形状的变化和使空间特征估计破坏的噪声的影响引起的特征的变化。WidthRatio,b不一定是根据诸如图9中所示的数据等的数据获得的。在一个实施方式中,假设高斯形状,WidthRatio,b是1至5dB,其可以随着频带的频率而改变。
对于相位概率指标,
函数是平滑函数。在一个实施方式中,
其中,WidthPhase,b是以相位为单位表示的宽度调谐参数。在一个实施方式中,WidthRatio,b与图9B中的实际数据有关,但是不必是根据图9B中的实际数据来确定的。它被设置为在正常和有噪的条件下覆盖空间特征的预期变形,但是还需要仅与整个系统的上下文中所需的一样窄以实现期望的抑制。它通常需要在整个系统性能的上下文中被调谐。
在一些实施方式中,在较高的频率处,期望信号空间特征与采样数据的差异是针对宽度的有用的指示。在较低的频率处,空间特征通常更稳定,并且因此宽度可能较窄。然而,注意,宽度太窄可能过分激进,以减小的语音或期望的信号质量为代价提供了比所需抑制能力更多的抑制能力。匹配空间概率指标的稳定性和选择性是由诸如图9A和图9B的图形等的图形指导的调谐以实现期望的性能的过程。一个考虑是由于期望信号和噪声的混频引起的空间特征的扩展。在一些实施方式中,可以直接通过诸如图9A和图9B中所示的数据等的数据来直接导出比特征和相位特征的目标和宽度。在一些这样的实施方式中,可以获得目标作为每一个频带中的期望信号特征的均值,并且通过相同的特征的变化的缩放函数获得宽度。在另一个实施方式中,可以首先通过诸如图9A和图9B中所示的数据等的数据来导出目标和宽度,然后根据需要调节目标和宽度以实现噪声减小和性能的平衡。
对于相干性概率指标,不使用目标,在一个实施方式中,
其中,CFactorb是调谐参数,其在范围0.1至10的范围中可以是恒定值;在一个实施方式中,值0.25被发现是有效的。在其它实施方式中,CFactorb可以取决于频率b,并且通常随着增加的频率b具有更低的值,例如,在低频处具有高达10的范围,并且在较高频带处减小至值0。在一个实施方式中,针对最低的b使用约为5的值,针对最高b使用约为0.25的值。
概率指标中的每一个具有0与1之间的值。
在可替换的实施方式中,允许该分配是非对称的,例如,两个半高斯形状。
例如,在比概率指标的情况下,假设存在两个宽度:WidthUpRatio,b和WidthLowRatio,b。在一个实施方式中,
可以针对PPIb进行类似的修改。假设存在两个宽度:WidthUpPhase,b和WidthDownPhase,b。在一个实施方式中,
本文所描述的用于从空间特征映射到空间概率指标的实施方式提供了多个有用的实施例。应当显而易见的是,可以通过任何分段连续函数来产生一组曲线。按照惯例,发明人选择应当存在空间特征域的至少某一点或者一部分,其中,概率指标是单位一,函数随着在任意方向上与该点的距离的增加是非递增的。为了稳定的噪声抑制和改善的语音质量,函数在值以及在一阶导数和高阶导数方面应当是连续的并且相对平滑的。对上文给出的函数的建议的扩展包括特定的空间特征的“平顶”加窗区域以及诸如升余弦等的其它带化函数。
多于两个的麦克风
对于多于两个输入信号(例如,来自多于两个麦克风的阵列的输入信号)的一般情况,一个实施方式包括确定一些信号对或所有信号对的成对的空间特征和概率指标。例如,对于三个麦克风,存在三个可能的成对的组合。因此,对于确定比、相位和相干性空间特征的情况,可以获得多达九个成对的空间特征,并且针对每一个确定概率指标,并且通过组合两个或更多个(高达九个)空间概率指标来针对配置确定组合的空间概率指标。
虽然本文所描述的实施方式提供了简单的方法,但是通常可以基于与给定的频带相关联的变换频格上的位置的相干性来推断所关注的信号的位置以及作为不确定的测量的这些空间特征。如果假设产生声学场的源的频谱在频带中的变换频格上相当恒定,则可以认为每一个频格是相同的潜在的空间分布过程的单独的观测。
通过考虑频带中的跨频格和/或时间的观测作为平稳过程的观测,诸如以下文献等的统计算法可以用于推断到到达的方向和距离:MUSIC(参见Stoica,P.and A.Nehorai,“MUSIC,maximum likelihood,andCramer-Rao bound,”IEEE Trans.Acoustics,Speech,and SignalProcessing,vol.37,No.5,pp.720–741,1989)或者ESPRIT(参见Roy,R.,A.Paulraj,and T.Kailath,“ESPRIT—A subspace rotation approachto estimation of parameters of cisoids in noise,”IEEE Trans.Acoustics,Speech,and Signal Processing,vol.34,no.5,pp1340–1342.,1986)。例如,参见Audone,B.and M.Buzzo Margari,“The use of MUSICalgorithm to characterize emissive sources”ElectromagneticCompatibility,IEEE Transactions on,vol.43,No.4,pp.688–693,2001。这可以提供用于将阵列统计映射到空间位置从而产生可替换的空间概率指标的可替换的方法。
增益计算器129和增益计算步骤223。
本发明的实施方式的一个特征是使用诸如空间概率指标等的统计空间信息来确定抑制增益。确定增益是由图1中的增益计算器129和方法200中的步骤223来执行的。
在一个实施方式中,增益计算器129使用预测的回声频谱内容、瞬时带化的下混频信号功率以及位置概率指标来执行一个或多个空间选择性语音活动检测器,并且确定各组(B个)抑制概率指标,其具有用于形成针对同时的噪声、回声和位置外信号抑制的一组(B个)增益的抑制增益的形式。针对噪声(和回声)抑制的抑制增益使用利用位置概率指标所确定的空间选择性噪声频谱内容估计。
波束增益和波束外增益
一组(B个)增益是波束增益,即用于确定与信号来自期望的位置中或“波束中”的源的概率有关的抑制概率指标的概率指标。类似地,与此有关的是位置外信号的概率或增益,其在一个实施方式中被表达为波束外增益。
在一个实施方式中,空间概率指标用于确定称作波束增益的内容、表示为BeamGain′b的可以用于估计来自总功率的波束中功率和波束外功率的统计量,并且可以进一步用于确定波束外抑制增益。在一个实施方式中,波束增益是空间概率指标的乘积。按照惯例,在本文给出的一些实施方式中,对概率指标进行缩放使得波束增益具有最大值1。
对于两个输入的情况,在一个实施方式中,波束增益是三个空间概率指标中的至少两个的乘积。在一个实施方式中,波束增益是所有三个空间概率指标的乘积,并且具有最大值1。假设每一个空间概率指标具有最大值1,在一个实施方式中,波束增益具有表示为BeamGainmin的预定的最小值。该最小值用于避免波束增益快速地下降至非常低的值,其中,增益值的改变在很大程度上表示噪声和与所关注的信号的较小的偏离。下面进一步讨论产生增益或概率估计的基底或最小值的方法,并且在本发明的实施方式的其它部分中使用该方法作为用于一旦单独的概率估计器表示与存在期望的信号的可能性的偏离,就减小单独的概率估计器中的不稳定性从而减小音乐噪声的机制。用于实现针对该波束增益的该较低的阈值的所提出的方法是:
BeamGain′b=BeamGainmin+(1–BeamGainmin)RPI′bxPPI′bxCPI′b。
本发明的实施方式使用0.01至0.3(-40dB至-10dB)的BeamGainmin。一个实施方式使用BeamGainmin0.1。
虽然本发明的一些实施方式使用了所有三个空间概率指标的乘积作为波束增益,但是可替换的实施方式使用指标中的一个或两个,即,在一般情况下,波束增益随着空间概率指标中的两个或更多个的乘积是单调的。
此外,对于多于两个的输入(例如,麦克风输入),一个实施方式使用成对确定的空间概率指标,并且在这个实施方式中,波束增益随着成对确定的空间概率指标的乘积是单调的。本文给出的方法提供了将各个空间特征概率指标组合为乘积并且应用更低的阈值的简单的方法。然而,本发明不限于这种组合。组合的可替换的实施方式包括(在对数域或线性域上)使用最大、最小、中间、平均中的一个或多个,或者,在具有多于两个输入的更大量的特征的情况下,诸如投票方案等的方法是可能的。
如下文所描述的,波束增益用于确定总抑制增益。在一些实施方式中,还使用波束增益来估计波束内的功率(或者其它频域幅度度量),也即是说,在给定的频带b中可能来自所关注的位置的功率(或者其它频域幅度度量)和波束外功率——给定的频带b中可能不是来自所关注的位置的功率(或者其它频域幅度度量)。注意,位置或者空间位置的一般构思以及向阵列流形上的特定的位置的映射可以处于不同的到达角,或者可能是近场对远场,等等。
如上所述,用Y′b表示来自下混频的输入的(即,波束成形以后的)总带化功率(或者其它频域幅度度量)。波束内的功率和波束外的功率是:
Power′b,InBeam=BeamGain′b 2Y′b
Power′b,OutOfBeam=(1–BeamGain′b 2)Y′b。
注意,因为BeamGain′b 2可以是1,因此在可替换的实施方式中,
Power′b,OutOfBeam=(1–BeamGain′b)2Y′b。
注意,Power′b,InBeam和Power′b,OutOfBeam是用于抑制的统计测量。
波束外的功率和空间选择性的噪声估计
本发明的实施方式包括确定噪声频谱内容的估计并且使用噪声频谱内容的估计来确定噪声抑制增益。在噪声估计中,通常假设噪声是固定的,而假设语音具有高通量。因此,可能将频谱单调语音信号解释为噪声,并且如果抑制基于这种噪声估计,则存在语音将最终被抑制的可能性。期望对来自所关注的位置的噪声型声音较不敏感。虽然本发明的一些实施方式使用利用不一定是空间选择性的噪声频谱内容的估计所确定的噪声或噪声和回声抑制增益,但是本发明的一些实施方式的特征是使用空间概率指标来改善估计噪声功率(或者其它频域幅度度量)频谱估计以用于在考虑位置的情况下确定抑制增益,从而减小抑制对来自所关注的位置的噪声型声音的灵敏度。因此,在本发明的一些实施方式中,噪声抑制增益基于噪声频谱内容的空间选择性估计。
一些实施方式的另一个特征是使用空间概率指标来执行空间选择性语音活动检测,其在考虑位置的情况下用于执行抑制增益。
注意,将语音解释为噪声不一定是缺点,例如,对于回声检测控制而言。因此,针对语音活动检测和针对更新回声预测滤波器所确定的噪声估计Nb′未考虑位置(除了初始波束成形中固有的任何位置灵敏度以外)。
图10示出了增益计算器129的实施方式的简化的框图,并且包括对由波束外的功率谱计算器1003生成的波束外的功率(其被表示为Power′OutOfBeam)的估计进行操作的空间选择性噪声功率(或者其它频域幅度度量)频谱计算器1005。
图11示出了增益计算步骤223和包括后置处理的实施方式中的后置处理步骤225以及计算和并入额外的回声增益的可选择的步骤226的流程图。
波束外的功率谱计算器1003确定来自空间概率指标的波束增益BeamGain′b。如上所述,在一个两输入的实施方式中,
BeamGain′b=BeamGain′min+(1–BeamGainmin)RPIbxPPIbxCPIb。
元件1003和步骤1105中的每一个确定波束外的瞬时功率Power′b,OutOfBeam的估计。在一个版本中,
Power′b,OutOfBeam=(1–BeamGain′b 2)Y′b。
注意,因为BeamGain′b 2可以是1,使得Power′OutOfBeam可以是0,因此改善的实施方式确保波束外的功率绝不是零。在元件1003和步骤1105的实施方式中,
Power′b,OutOfBeam=[0.1+0.9(1–BeamGainb 2)]Y′b。
当然,可替换的实施方式可以针对Power′OutOfBeam的最小值使用不同的值和确保Power′OutOfBeam绝不是0的不同的方式。
此外,在一些实施方式中,不是通过波束增益和Y′b产生瞬时的波束外的功率和波束内的功率,在其它实施方式中的瞬时的带化的信号功率(或者其它频域幅度度量)、波束外的带化频谱估计和波束外的带化频谱估计是使用信号功率(或者其它频域幅度度量)频谱P′b而不是Y′b来确定的。然而,在实施方式中,发明人已经发现Y′b是对P′b的良好近似。发明人已经发现,如果频谱带化足够解析,例如,带化是对数型的并且基于感知的,则Y′b或多或少等于P′b,并且不是必须使用平滑的功率估计P′b。
空间选择性噪声功率频谱计算器1005和步骤1107中的每一个确定噪声功率谱1006(或者在其它实施方式中,幅度的另一个度量的频谱)的估计。本发明的一个实施方式使用泄露最小跟踪器,其具有根据至少一个或者泄露速率参数来确定的跟踪速率。泄露速率参数不需要与针对在回声系数更新中使用的非空间选择性噪声估计的是相同的。
用N′b,S表示空间选择性噪声频谱估计1006。在一个实施方式中,
其中,是已经确定的(即,先前的)值N′b,S。用dB/s来表示泄露速率参数αb,使得如果语音的概率较低,则针对表示为T的帧时间,(1+αb)1/T在1.2与4之间,如果语音的概率较高,则为1。αb的额定值是3dB/s,使得(1+αb)1/T=1.4。
在一些实施方式中,为了避免将偏置添加到噪声估计,使用回声选通,即,
如果,则 则 否则
也即是说,只有先前的噪声估计建议噪声电平更大(例如,比当前的回声预测大两倍),才更新噪声估计。否则,回声将使噪声估计偏置。在一个实施方式中,Power′b,OutOfBeam是使用Y′b确定的瞬时量,而在另一个实施方式中,根据P′b确定的波束外的频谱估计用于计算N′b,S。
此外,在一些实施方式中,用于确定N′b,S的泄露最小跟踪器的至少一个泄露速率参数是由通过语音活动检测确定的语音存在的概率来控制的。
噪声抑制(可能具有回声抑制)
本发明的一个方面是同时抑制1)基于空间选择性噪声估计的噪声,以及2)波束外的信号。
在一个实施方式中,增益计算器129的元件1013和步骤223的步骤1108中的每一个例如基于噪声功率(或者其它频域幅度度量)频谱的空间选择性估计并且进一步基于特定的频带中的瞬时带化输入功率Y′b来计算概率指标,其被表示为中间信号(例如,频格108)的增益。为了简单起见,将该概率指标称作表示为GainN的增益。然而,应当注意的是,并未直接应用该增益GainN,而是在增益合并器1015中并且在合并增益步骤1109中与额外的增益(即,额外的概率指标)组合以实现将应用以实现单个抑制动作的单个增益。
在图10和图11中示出了元件1013和步骤1108中的每一个分别具有回声抑制,并且在一些版本中,元件1013和步骤1108中的每一个不包括回声抑制。
被发现在计算复杂度和效果方面有效的表达是由下式给出的:
其中,Y′b是瞬时带化功率(或者其它频域幅度度量),N′b,S是带化空间选择性(波束外)噪声估计,并且β′N是缩放参数,其通常处于1至4的范围内,以允许噪声估计中的误差并且相应地补偿增益曲线。该缩放参数在目的和幅度上与VAD函数中使用的常数类似,但是它不必等于VAD缩放因子。然而,可能存在使用针对信号分类(语音或者不是语音)和增益计算共同的参数和结构的一些益处。在一个实施方式中,适当调谐的值是β′N=1.5。参数GainExp是对抑制增益从抑制到传输的过渡的激进性或速率的控制。该指数通常取范围0.25至4之间的值,在一个实施方式中,优选的值是2。
添加回声抑制
本发明的一些实施方式不仅包括噪声抑制,还包括回声的同时抑制。因此,本发明的一些实施方式包括同时抑制1)基于空间选择性噪声估计的噪声,2)回声,3)波束外的信号。
在增益计算器129的一些实施方式中,元件1013包括回声抑制,并且在步骤223的一些这样的实施方式中,步骤1108包括回声抑制。在增益计算器129和步骤223的一些实施方式中,用于抑制回声的概率指标被表达为表示为Gain′b,N+E的增益。在还包括回声抑制的情况下,上文的噪声抑制增益表达变为:
其中,Y′b仍然是瞬时带化功率,N′b,S,E′b是带化空间选择性噪声和带化回声估计,并且β′N,β′E是缩放参数,其处于1至4的范围内,以允许噪声和回声估计中的误差并且相应地补偿增益曲线。再次,缩放参数在目的和大小上与VAD函数中使用的常数类似,但是它不必是相同的值。然而,可能存在使用针对信号分类和增益计算共同的参数和结构的一些益处。在一个实施方式中,适当调谐的值是β′N=1.5,β′E=1.4。如在仅针对噪声抑制的情况中一样,表达增益1中的值GainExpb是对抑制增益从抑制到传输的过渡的激进性或速率的控制。该指数通常取范围0.25至4之间的值,针对一个实施方式,针对b的所有值,优选的值是2。
在关于抑制的部分的剩余部分中,包括回声抑制。然而,应当理解的是,本发明的一些实施方式不包括回声抑制,而只是同时抑制噪声和位置外的信号。在这些实施方式中,在E′b=0的情况下并且还在没有噪声估计器的回声选通的情况下,相同的公式成立。此外,参照图1,对于没有回声抑制而言,参与生成回声估计的元件(其包括参考输入、元件111、113、115、滤波器117、回声更新VAD125和元件127)可以不存在。此外,参照图2,将不需要步骤213、215、217和221,并且步骤223将不包括回声抑制。
返回针对可应用于同时的噪声和回声抑制的Gain′b,N+E的表达增益1,针对谱减法,该表达增益1可以被认为与公知的并且所使用的最小均方差(MMSE)标准类似,在该情况下,针对所有b,指数将为GainExpb=0.5,以产生增益。本发明更广泛,并且在本发明的实施方式中,GainExpb的大于0.5的值被发现在抑制与传输之间产生过渡区域是优选的,过渡区域从预期的噪声功率活动和变型的区域移除更多。如下文所描述的,在一些实施方式中,增益表达在预期的噪声功率的区域中实现了与输入功率的相对平的或者平坦的逆增益关系,并且发明人在设计增益函数时考虑了该发明步骤,这在噪声活动期间显著地减小了抑制的不稳定性。
使用功率频谱而不是瞬时带化功率
本文针对元件1013和1108的实施方式所描述的Gain′N+E的表达中的几个表达在分子和分母中具有瞬时带化输入功率(或者其它频域幅度度量)Y′b。这在本文所描述的使用对数型或感知间隔的频带来适当地设计带化时很好地工作。在本发明的可替换的实施方式中,分母使用估计的带化功率谱(或者其它幅度度量频谱)P′b,使得针对Gain′b,N+E的上述表达改变为:
平滑增益曲线
可以看出,针对Gain′b,N+E的以上表达增益1和增益1MOD,存在至少一组值,其中,当输入信号功率减小到回声或噪声功率的1.4至1.5倍以下时,增益可以变为零。在此时,信噪比约为–3dB。在输入信号功率或推断的信噪比的该值(或者任意值)处突然过渡为零增益可能是不期望的,这是因为它在此时创建了信号动态的扩展,这意味着输入信号功率的较小改变导致增益的较大改变,因此在应用抑制增益以后在输出端处导致波动和不稳定。
本发明的一些实施方式的一个特征显著地减小了该问题。
为了使说明清楚,首先给出了示例性的概率密度,例如,将在典型的操作条件下预期的特定的子带中的预期功率的直方图。图12示出了针对封闭的状态下通过观测约1kHz的单个频带的约10s的每一个信号类别的噪声(实线)和期望的(语音)信号(虚线)的情况在给定的频带中的信号功率的比例直方图的形式的概率密度,其中,噪声和语音电平对应于约0dB的平均信噪比电平。这些值是示例性的而不是限制性的,并且应当显而易见的是,该图用于捕获抑制增益计算问题的特征,以证明这些计算的一些实施方式的期望的特征和具体设计。水平轴表示瞬时频带功率相对于期望的噪声(和回声)功率的缩放值。这实际上是输入功率与噪声的比,它与更常使用的信噪比有关但是与之略微不同。
注意,在任何实现中,必须对噪声和/或回声估计施加一些下限,使得输入信号功率与噪声的比保持有界。如果该极限的值足够小,则该值不是重要的,这是因为针对输入功率与预期噪声的较大比率,在本文中表达为增益函数的概率指标是渐近一致的。在增益对信噪比方面,本文所描述的增益对输入功率的表达优选于传统的表达,这是因为它更好地表明了不同信号类别的功率的自然分布,并且用于突出使用本文所描述的增益表达的设计和益处。
在下面的讨论中,表达“预期噪声和回声功率”用于指代此时的预期噪声功率和预期回声功率之和。在频带中在任何特定时间,可能存在任意比例的回声或噪声或者这二种信号。
参照图12,噪声信号显示集中在噪声估计附近并且具有±10dB的近似范围的观测的瞬时输入信号功率的扩展。在语音的情况下,与当存在活动语音时的噪声相比,期望的信号具有更高的瞬时功率,该更高的瞬时功率具有更大的范围并且通常具有处于范围5-20dB中的瞬时功率。数据代表在平均语音信号和噪声信号功率的比为0dB的情况下的麦克风处的输入信号。然而,因为语音信号通常非常不稳定,因此当语音存在时的时间和频带显示比平均值0dB建议的更高的信号电平。
理想情况下,任何抑制增益应当将噪声分量衰减一常数,并且发送具有单位增益的语音。可以在图12中的实施例看出,期望的信号和噪声的分布不相交。然而,用于抑制的设计标准使用工作来确保最可能的语音电平和最可能的噪声电平上的相对稳定的增益,以避免引入伪像。据发明人所知,这是形成、可视化和实现抑制系统的优越的执行结果的新颖的、创造性的发明方式。很多现有方法涉及相对于原始参考使每一个频格或频带中的数值错误最小化,这可能在其它解决方案中导致不稳定的增益和音乐伪像。本发明的实施方式的一个特征是以增益函数的属性的形式规定针对每一个频带的抑制增益。语音和噪声功率分布模式上的常数或平滑增益确保了显著地减小处理和音乐噪声音乐伪像。发明人还已经发现,本文给出的方法可以减小对噪声和回声电平的准确估计的依赖性。
给出了用于基于回声和噪声功率的抑制的上文给出的增益函数的两个简单的修改,作为额外的实施方式。第一个修改使用增益的最小阈值来防止增益围绕预期的噪声/回声功率的相当大的改变,例如,
其中,所选择的最小值0.1并不意味着是限制性的,而是可以在不同的实施方式中是不同的。发明人建议从0.001到0.3的范围(–60dB至–10dB),并且最小值可以是取决于频率的。
第二修改使用更软的加性最小值,其实现了期望的噪声/回声功率周围的更平坦的增益并且还实现了更平滑的过渡和一阶导数,例如,
其中,所选择的最小值0.1并不意味着是限制性的,而是可以在不同的实施方式中是不同的。发明人建议从0.001到0.3的范围(–60dB至–10dB),并且最小值可以是取决于频率的。第二值明显是1减去第一值。经修改的示例性使用
其中,指数和 是个别的调谐参数,1/ηb是增益表达指数,也是一个调谐参数。
另一个实施例使用不同的方法,该方法更直接地是输入信号功率与噪声比的函数。
其中,GainExp′b是可用于控制从抑制到传输的过渡的激进性的参数,并且可以采用范围从0.5到4的值,其中,在一个实施方式中,优选的值是1.5。这里示出为0.1和0.01的前两个值被调节为实现所需的最小增益值和过渡时段。所示的最小值0.1并不意味着是限制性的,并且可以在不同的实施方式中是不同的。在输入功率在预期噪声和回声电平处的情况下,标量0.01被设置为实现约8dB的衰减。此外,可以在不同的实施方式中使用不同的值。
显而易见,上文的实施例在计算上是高效的。期望使用平滑函数。一个适当的平滑函数是S型的函数,并且上文针对Gain′b,N+E的表达可以被认为是S型的函数的近似。
第五实施例给出了使用相对于潜在的所关注的参数(输入信号功率与预期噪声的比)编索引的公知的逻辑函数的概述。在该第五实施例中,
本领域技术人员将清楚的是,针对S型的函数存在计算简化,并且使用这种暗示的可替换的实施方式意味着处于本发明的范围内。
这些函数具有上文简洁描述并且下文详细描述的一组类似的且期望的特征。这些表达均实现了期望的特征而不束缚于输入功率与预期噪声的具体域表达,并且在除了增益4以外的增益中,无需具体的S型函数。应当注意的是,具体方程并不重要,然而,所有给出的实施方式共有在模式区域中是相对恒定或者在语音或噪声期间会出现的最可能的输入信号功率的特征。为了简单起见,这三个函数给出了最小增益0.1或-20dB。应当显而易见的是,该参数可以被调节以适应不同的应用,其中,针对最小值的建议的数值范围是在–60dB至–5dB的范围内。
图13示出图12的分布,以及结合上文所描述的作为输入功率与噪声的比的函数的增益表达增益1、增益2、增益3和增益4。示出在用dB的对数尺度上绘制了增益函数。
应当注意的是,这组抑制增益函数包括假设针对每一个频带,针对噪声预期带化的瞬时幅度度量值的第一数值范围,并且针对期望的输入预期带化的瞬时幅度度量值的第二数值范围:
●针对第一数值范围(即,处于噪声功率的区域内)的(相对)恒定的增益。用相对恒定意味着例如范围的变化小于0.03dB。
●针对第二数值范围(即,处于期望信号(例如,语音信号功率)的区域内)的(相对)恒定的增益。用相对恒定意味着例如在第二范围中针对每一dB的输入信号小于0.1dB。
●从第一范围到第二范围(即,从噪声功率的区域到期望的信号功率的区域)的(相对)平滑的过渡。
●向其导数也是平滑的函数(例如,S型函数)演进。
因此,其它期望但不必要的特征包括:
●从噪声功率的区域到期望的信号功率的区域的相对平滑的过渡。
●连续的且有界的一阶导数和期望的更高阶导数。
该方法根据输入的带化的信号功率基本上降低了可能由于增益的过大梯度或不连续性而发生的扩展的程度。
本领域技术人员将显而易见的是,可能存在很多表示这些特征的函数和参数化,并且本文给出的函数和参数化是发明人发现很好地工作的建议的实施例。还应当注意的是,本文给出的建议也可以应用于简单的单个信道和针对噪声抑制的可替换的结构。
扩展抑制曲线以包括负梯度
发明人发现可能期望抑制噪声,即,降低噪声电平,并且进一步“白化”噪声,以不仅抑制电平,而且抑制噪声的不期望的特征。
为此,使用其曲线在针对噪声信号预期的输入功率的范围中的至少一些内具有负梯度的增益可能是有利的。在该区域中,与较高功率的噪声相比,较低功率的噪声被衰减得更少,这是减小频率和时间二者上的噪声的动态的白化处理。
在增益曲线中提供负斜率所达到的程度可以根据环境而改变。然而,发明人建议增益对输入功率的斜率应当不低于约-1(以dB增益对dB输入功率为单位)。发明人还建议,避免增益曲线中的尖峰和任何尖锐的边缘或不连续。增益不应当超过单位一也是合理的。因此,针对噪声和回声抑制增益提出以下建议:
●噪声瞬时功率的预期范围(第一范围)上的平均斜率约为-0.5(以dB增益对dB输入功率为单位),其中,约意味着-0.3至-0.7。建议-0.5的斜率,并且-0.5的斜率使噪声信号的动态范围的压缩比达到了2:1。
应当清楚的是,存在表达这些特征的可能的函数和参数化的连续统一体。在一个实施方式中,使用修改的S型函数;通过包括额外的项以导致输入的信号功率在预期的噪声电平附近的期望的负梯度,来修改S型函数。
在一个实施方式中,使用包括S型函数和额外项的修改的S型函数以在第一区域中提供负梯度。下面给出修改的S型函数的表达,其提供了与上面的推荐函数的实施方式类似的抑制水平,并且具有额外的实现噪声的动态范围的显著降低的特征。显而易见,对于S型函数和额外的项二者存在计算简化。
本领域技术人员将清楚的是,针对S型函数存在计算简化,并且可替换的实施方式使用表达增益5这样的简化。
图14示出了图12的直方图以及增益4的S型增益曲线和增益5的修改的S型增益曲线(其在图形上称作白化增益)。图形中的每一个具有以dB为单位的输入功率与噪声比作为水平轴。
图15示出了在应用S型增益曲线增益4和白化增益增益5以后针对噪声信号的噪声和语音信号的预期功率的概率密度函数发生了什么,概率密度函数被示出为比例直方图。可以看出,这些增益中的每一个引起了语音和噪声之间的分离的显著增加,其中,噪声电平的功率在水平轴上的功率减小或者变得更低。第一S型增益增益4创建了噪声功率的扩展。也即是说,与原始噪声信号相比,噪声电平的功率波动得更大。对于未在主噪声功率分布中展示出S型函数的平滑特征的用于噪声抑制的很多现有技术而言,该效果可能更差。语音电平也略微扩展。
第二修改的S型增益增益5具有压缩噪声功率分布的特征。这使得曲线更高,这是因为中心噪声电平现在更可能。这意味着噪声电平存在较少的波动并且存在可能导致更少的干扰噪声的一种平滑或白化。
注意,这些图形针对噪声和语音信号将比例概率密度函数示出为直方图。噪声和语音概率密度函数被缩放为具有相同的区域。
因此,增益函数通过增加扩展——减小噪声电平,增加了信噪比。在白化噪声的情况下,噪声干扰更小,并且随着时间和频率被部分地白化。
对回声抑制的额外独立控制
上面的抑制增益表达被归纳在瞬时输入功率与预期的不期望的信号功率(为了简单起见,有时称作“噪声”)的比的域上的函数。在这些增益表达中,不期望的信号功率是估计的(位置敏感的)噪声功率和预测的或估计的回声功率之和。通过这种方式组合噪声和回声提供了抑制增益形式的单个概率指标,其中,抑制增益使得不期望的噪声和不期望的回声二者同时衰减。
在一些情况下,例如,在回声可以达到比噪声的电平实质上更高的电平的情况下,这种抑制可能不会导致足够的回声衰减。例如,在一些应用中,可能需要仅略微减小环境噪声,同时通常需要将任何回声抑制到可听度以下。为了实现这种期望的效果,在一个实施方式中,使用对概率指标或增益的额外缩放,这种额外的缩放仅基于输入信号与回声功率之比。
用fA(·)、fB(·)表示一对抑制增益函数,每一个具有例如如上所述的针对抑制增益的期望的特性,其包括例如是平滑的。举例说明,fA(·)、fB(·)中的每一个具有S型函数特性。在一些实施方式中,不是将增益表达定义为而是可以使用一对概率指标,例如,增益并且通过和来确定组合增益因子,这允许对针对噪声和回声信号功率的响应的激进性和深度进行独立的控制。在另一个实施方式中,可以针对噪声和回声抑制应用并且可以针对额外的回声抑制应用
组合抑制增益以对位置外的信号进行同时抑制
在一个实施方式中,由元件129中的空间抑制增益计算器1011(图10)并且通过在步骤223中的计算抑制增益步骤1103将针对波束内的信号的抑制概率指标(其被表达为波束增益1012,称作空间抑制增益并且被表示为Gain′b,S)确定为:
Gain′b,S=BeamGain′b=BeamGainmin+(1–BeamGainmin)RPI′bxPPI′bxCPI′b。
空间抑制增益1012与增益合并器1015和合并步骤1109中的其它抑制增益相结合以形成表达为抑制增益的总概率指标。用于同时抑制噪声、回声和波束外的信号的总概率指标(其被表达为Gain′b,RAW)在一个实施方式中是增益的乘积:
Gain′b,RAW=Gain′b,S·Gain′b,N+E。
在可替换的实施方式中,应用额外的平滑。在增益计算步骤1109和元件1015的一个示例性的实施方式中,
Gain′b,RAW=0.1+0.9Gain′b,S·Gain′b,N+E。
其中,针对不同的实施方式可以改变最小增益0.1和0.9=(1–0.1)因子,以实现不同的增益最小值,其中,建议的范围是0.001至0.3(–60dBto–10dB)。软化是为了确保在计算参数和估计的每一个点处,努力确保随时间的连续性和稳定性、信号条件和空间不确定性。这避免了当概率指标或增益变小时典型的、增益的任何尖锐的边缘或突然的相对改变。
上文针对Gain′b,RAW的表达等同地抑制噪声和回声。如上文所讨论的,可能期望不完全消除噪声,而是完全消除回声。在增益确定的一个此类实施方式中,
在另一个实施方式中,
Gain′b,RAW=0.1+0.9Gain′b,S·Gain′b,N+E,
其中:
在一些实施方式中,将该噪声和回声抑制增益与空间特征概率指标或增益相结合,以形成原始组合增益。在一些版本中,在组合以后,由后置处理器1025并且由后置处理步骤225来后置处理原始组合增益,以确保稳定性和其它期望的行为。
在另一个实施方式中,特定于回声抑制的增益函数(在包括后置处理的实施方式中,在由后置处理器1025并且通过后置处理步骤225后置处理以后)作为增益被应用。下面在本文中更详细地描述后置处理。增益计算器129的一些实施方式包括额外的回声抑制增益的确定和额外的回声抑制增益与后置处理的增益的组合器1027从而导致应用的总共B个增益。发明人发现,这个实施方式可以提供对回声更特定和深入的衰减。注意,在包括后置处理的实施方式中,回声概率指标或者增益不受到后置处理225施加的平滑和连续,该后置处理225例如是针对期望的信号和噪声信号稳定性以及没有不希望的语音失真的适当水平的噪声抑制而定制的。消除来自信号的回声的需要可以不管当回声是活动的时瞬时语音质量的约束。回声抑制组件(在包括后置处理的实施方式中,在后置处理以后)可以在频率上应用较窄并且可能较深的激进性的动作,这可以使回声的不期望的残留签名留在信号中的剩余噪声上。该问题的解决方案是“舒适噪声”,并且本领域技术人员应当知道和清楚这可以如何应用其来减小由于在增益后置处理后面的回声抑制器引起的在频谱中存在的间隙。
用于改善所确定的增益的后置处理
增益计算器129的一些实施方式包括后置处理器1025,方法200的一些实施方式包括后置处理步骤225。后置处理器和后置处理步骤225中的每一个用于对频带的组合原始增益进行后置处理,以生成针对每一个频带的后置处理的增益。在不同的实施方式中,这种后置处理包括以下步骤中的一个或多个:确保最小增益值;通过对组合增益执行中值滤波确保没有或者只有很少的孤立或离群增益;以及通过执行时间平滑和带间平滑中的一个或二者来确保平滑。一些实施方式包括例如使用以下步骤中的一个或二者来进行信号分类:空间选择性语音活动检测器1021执行步骤1111,以及风活动检测器1023执行步骤1113以生成信号分类,使得后置处理器1025的后置处理225符合信号分类。
下面在本文中描述空间选择性语音活动检测器1021的实施方式,作为风活动检测器(WAD)1023的一个实施方式。然而,本发明的信号分类控制的后置处理方面并不限于本文所描述的语音活动检测器或风活动检测器的特定实施方式。
最小值(最大抑制深度)
原始组合增益Gain′b,RAW有时可能下降到期望的最小点以下,也即是说,达到高于最大期望抑制深度。注意,术语最大抑制深度和最小增益应当在本文中互换使用。注意,用于确定增益的所有上述实施方式包括确保增益不会下降到这种最小点以下。确保最小增益的步骤用于通过避免低增益值来稳定噪声条件下的抑制增益,其中,所述低增益值可能在特征估计的较小误差或者自然噪声特征变化的情况下呈现较大的相对变化。设置最小增益的过程用于减小由于低值增益的这种变化引起的处理伪像和“音乐噪声”,并且还可以用于减小某些频带中的抑制的工作负荷或深度,这可以导致期望的信号的质量改善。
后置处理器1025和后置处理步骤225的一些实施方式包括例如在步骤1115,确保增益不会下降到预定的最小值以下,使得存在预定的最大抑制深度。
此外,在后置处理器1025和步骤1115的一些实施方式中,不是原始增益针对所有频带具有相同的最大抑制深度(最小增益),而是可能期望最小电平针对不同的频带是不同的。在一个实施方式中,
Gain′b,RAW=Gain′b,MIN+(1-Gain′b,MIN)·Gain′b,S·Gain′b,N+E。
举例说明,在后置处理器1025和步骤1115的一些实施方式中,最大抑制深度或最小增益的范围可以从-80dB至-5dB,并且可以是取决于频率的。在一个实施方式中,抑制深度在低于200Hz的低频率处约为-20dB,在1kHz处改变为约-10dB,并且在4kHz附近的较高语音频率处放松为仅-6dB。
在一些实施方式中,后置处理步骤225和后置处理器1025的处理是由输入信号的分类(例如,由VAD确定是否是语音和/或由WAD确定是否是风)来控制的。在后置处理的一个此类信号分类控制的实施方式中,针对每一个频带的增益的最小值Gain′b,MIN取决于信号的分类,例如,在包括VAD的一个实施方式中,信号是否被VAD确定为语音,或者在包括WAD的实施方式中,信号是否被确定为风。在一个实施方式中,VAD是空间选择性的。
在一个实施方式中,如果VAD确定信号是语音,则Gain′b,MIN例如以取决于频带的方式增加(或者在另一个实施方式中,针对每一个频带b增加相同的量)。在一个实施方式中,最小值增加的量在中频带(例如,500Hz至2kHz之间的频带)中更大。
在一个实施方式中,如果WAD确定信号是风,则Gain′b,MIN例如以取决于频带的方式增加(或者在另一个实施方式中,针对每一个频带b增加相同的量)。在一个实施方式中,最小值增加的量取决于频率,其在从200Hz至1500Hz的较低的频率处发生较大的减小。
在改善的实施方式中,最小增益值的增加被控制为在检测到语音时以渐进的方式增加,并且类似地,在检测到语音以后检测到没有语音时,随时间以渐进的方式减小。
类似地,在改善的实施方式中,最小增益值的减小被控制为在检测到风时随时间以渐进的方式随时间增加,并且类似地,在检测到风以后检测到没有风时,随时间以渐进的方式减小。
在一个实施方式中,单个时间常数用于控制(语音的)增加或减小以及(风的)减小或增加。在另一个实施方式中,第一时间常数用于控制当检测到语音时最小增益值的增加或者控制当检测到风时最小增益值的减小,而第二时间常数用于控制在检测到语音以后没有检测到语音时最小增益值的减小或者控制在检测到风以后没有检测到风时最小增益值的增加。
控制音乐噪声
已知音乐噪声存在,并且可能由于在频带中的一些频带中随时间对增益造成的短期错误而发生。这种错误增益被认为是统计离群,也即是说,跨越一组频带的增益值在统计上位于预期的范围之外,因此表现为“孤立的”。就某一程度而言,在本文的不同的实施方式中给出的后置处理的所有三个方法用于减小音乐伪像的存在,特别是在抑制增益较低的噪声部分期间。这部分中给出的中值滤波方法特别有效,并且直接作用于增益,而不是处理内部估计。针对每一个频带将增益或概率指标组合为单个增益然后对增益使用直接线性和非线性滤波的方法是给出的非常新颖和有效的技术。中值滤波方法负责音乐噪声伪像的遍布的显著减小。
可能在对输入信号进行变换和带化的其它类型的处理中发生这种统计离群。所述其它类型的处理包括基于感知域的调整、基于感知域的动态范围控制和基于感知域的动态均衡,其考虑了取决于音频信号的再生水平的音频的感知的变化。例如,参见作为WO2004111994公布的国际申请PCT/US2004/016964。基于感知域的调整、基于感知域的动态范围控制和基于感知域的动态均衡处理均包括通过对输入信号的幅度的经变换和感知带化的度量应用一组带化增益来确定和调节音频信号的感知音量。为了确定输入信号的幅度的这种感知带化度量,心理声学模型用于计算感知单元中的音频信号的音量的测量值。在WO2004111994中,这种感知域音量测量被称作具体的音量,并且是作为频率和时间的函数的感知音量的测量值。当应用于均衡时,在感知域中执行真实的动态均衡,以将音频信号的感知频谱从时变的感知频谱改变为基本上时不变的感知频谱。
针对调整和/或动态均衡针对每一个频带确定的增益包括统计离群(例如,孤立值),并且这种离群可能引起诸如音乐噪声等的伪像。因此,本文所描述的处理也可以应用于此类其它应用,其中,增益被应用于指示多个频带处的幅度的经变换的带化范数的信号。还应当注意的是,所提出的后置处理也可以在不组合特征和抑制的情况下直接应用于系统。例如,它提供了用于改善单个信道噪声减小系统的性能的有效的方法。
后置处理器1025的后置处理225的一个实施方式包括例如在步骤1117中对不同频带上的原始增益进行中值滤波。中值滤波的特征在于1)为了确定中值要包含的增益的数量,以及2)用于扩展带化增益以允许在频谱的边缘处计算中值的条件。
一个实施方式包括3点带间中值滤波,其中,针对边缘对内值进行外插。在另一个实施方式中,最小增益或零值用于扩展带化增益。
在一个实施方式中,带间中值滤波是通过信号分类来控制的。在一个实施方式中,包含诸如空间选择性VAD等的VAD,并且如果VAD确定不存在语音,则执行5点带间中值滤波,其中,在边缘处扩展最小增益或零值以计算中值,并且如果VAD确定存在语音,则执行3点带间中值滤波,其中,在边缘处外插边缘值以计算中值。
在一个实施方式中,包含WAD,并且如果WAD确定不存在风,则执行3点带间中值滤波,其中,外插在边缘处所应用的边缘值,并且如果WAD确定存在风,则执行5点带间中值滤波,其中,选择在边缘处所应用的最小增益值。
平滑
针对每一个频带b单独地确定上文所描述的原始增益,并且即使在进行中值滤波以消除或减小作为统计离群(例如,孤立的值)增益值的出现以后,增益可以在频带上具有一些跳变。因此,后置处理器1025和后置处理步骤225的一些实施方式包括在频带上进行平滑1119以消除可能引起彩色和不自然的输出频谱的这些潜在的跳变。
平滑1119的一个实施方式使用具有固定内核的加权移动平均。一个实施例使用高斯加权内核的二项近似来进行加权移动平均。
很多其它加权移动平均滤波器是已知的,并且任何此类滤波器可以被适当地修改为用于对增益进行带间平滑。
例如,可以通过维度为B(频带的数量)的实值方阵来定义步骤1119的平滑。
如下面在本文中进一步描述的,在步骤227中和在元件131中对N个频格应用增益包括使用N乘B的矩阵。定义平滑的B乘B的矩阵可以与增益应用矩阵相结合,以定义组合的N乘B的矩阵。因此,在一些实施方式中,元件131和步骤227的增益应用中的每一个并入了带间平滑。
在一个实施方式中,通过信号分类来控制带间中值滤波。在一个实施方式中,包括诸如空间选择性VAD等的VAD,并且如果VAD确定存在语音,则当检测到噪声时增加平滑的程度。在一个示例性的实施方式中,在VAD指示检测到噪声的情况下执行5点带间加权平均平滑,否则,当VAD确定不存在语音时,不执行平滑。
在一些实施方式中,还包括增益的时间平滑。在一些实施方式中,通过一阶平滑滤波器来对B个频带中的每一个的增益进行平滑。
其中,Gainb是当前时间帧的增益,Gainb,Smoothed是时间平滑的增益,并且是来自前M个采样帧的Gainb,Smoothed。αb是时间常数,其可以是取决于频带的,并且通常在20至500ms的范围内。在一个实施方式中,使用500ms的值。
因此,在一个实施方式中,包括根据一组一阶时间常数的对增益的一阶时间平滑。
在一个实施方式中,通过当前帧的信号分类来控制时间平滑的量。在包括增益的一阶时间平滑的特定实施方式中,当前帧的信号分类用于控制用于在每一个频带中随时间对增益进行滤波的一阶时间常数的值集合。
在包括VAD的情况下,在检测到语音的情况下,一个实施方式停止时间平滑。
在一个实施方式中,如果没有检测到语音,则 如果检测到语音,则Gainb,Smoothed=Gainb。
发明人发现,在开始语音时断开激进的平滑是重要的。因此,优选的是,通过即时信号分类器(VAD、WAD)值来控制后置处理的参数,其中,即时信号分类器(VAD、WAD)值具有较低的延迟并且能够实现后置处理从噪声到语音(或者其它期望的信号)模式的快速过渡。发现在检测到语音(即,在拖曳时)以后恢复更激进的后置处理的速率不那么重要,这是因为它在很小的程度上影响语音的可理解性。
具有可设置的灵敏度的语音活动检测
存在可以使用语音活动检测的方法和系统的各个要素。VAD在本领域中是已知的。具体地说,所谓的“最佳VAD”是已知的,并且存在关于如何根据VAD最佳标准来确定这种“最佳VAD”的很多研究。
当应用于抑制时,发明人发现,当抑制系统的不同部分由不同的VAD来控制时,抑制工作得最好,其中,每一个此类VAD定制是针对它在其中使用的抑制器的功能来设计的,而不是针对所有使用具有“最佳的”VAD。因此,本发明的一个方面是包括多个VAD,每一个VAD是由单独地控制敏感度和选择性(包括空间选择性)的较小的一组调谐参数来控制的,这些参数是根据在其中使用VAD的抑制元件来调谐的。
多个VAD中的每一个是根据Y′b确定语音活动的指示的通用VAD的实例化。通用VAD是由一组参数来控制的,并且使用噪声频谱内容的估计、回声的带化频域幅度度量表示以及带化空间特征。这组参数包括噪声频谱内容的估计是否是空间选择性的。实例化确定的语音活动的指示的类型是通过参数的选择来控制的。
因此,本发明的实施方式的另一个特征是根据Y′b、下混频带化瞬时频域幅度度量、使用通用语音活动检测方法的相应实例化的指示来确定语音活动的多个指示的方法。通用语音活动检测方法是由一组参数来控制的,并且使用噪声频谱内容的估计、回声的带化频域幅度度量表示以及带化空间特征。这组参数包括噪声频谱内容的估计是否是空间选择性的。实例化确定语音活动是哪一种指示是由参数的选择来控制的。
例如,在抑制方法的一些要素中,选择性是重要的,也即是说,VAD实例化在它检测到的内容是语音方面应当具有很高的概率,而在抑制方法的其它要素中,灵敏度是重要的,也即是说,VAD实例化应当在丢失语音活动方面具有很低的概率,即便以选择性为代价,使得可以容忍更多的误报。
举第一个例子,用于防止更新回声预测参数——预测滤波系数——的VAD125被选择为具有高灵敏度,即便以选择性为代价。为了控制后置处理,发明人选择将VAD调谐为具有选择性和灵敏度的平衡,这是因为过度灵敏将导致在错误地检测到语音时噪声电平的波动,而过度选择性将导致一定量的语音损失。举另一个例子,测量输出语音电平需要高选择性但不是过度灵敏的VAD,以确保只有实际的语音用于设置电平和增益控制。
可以针对各个功能来调谐的用于计算语音活动的一般的空间选择性VAD结构——通用VAD——的一个实施方式是:
其中,BeamGain′b=BeamGainmin+(1–BeamGainmin)RPI′bxPPI′bxCPI′b, BeamGainExp是一个参数,其针对更大的值增加VAD的空间选择性的激进性,并且针对例如用于回声更新VAD125的非空间选择性VAD为0,N′b∨N′b,S表示在VAD125中使用的总噪声功率(或者其它频域幅度度量)估计N′b,或者使用波束外的功率(或者其它频域幅度度量)确定的空间选择性噪声估计N′b,S,βN,βE>1分别是噪声和回声的裕量,并且Y′sens是可设置的灵敏度偏差。βN,βE的值在1与4之间。当空间选择性是期望时,BeamGainExp在0.5与2.0之间,并且对于用于控制后置处理的步骤1111和VAD 1021的一个实施方式而言,是1.5。
上面的表达还控制通用语音活动检测方法的操作。
对于用于生成语音指标值S的任何给定的一组参数而言,可以通过考虑指示语音存在的测试S>Sthresh来获得二进制决策或分类器。应当显而易见的是,值S可以用作瞬时语音电平的连续指标。此外,可以在检测到事件以后使用语音的持续指示的适当的“切换”或者时段来获得针对诸如传输控制或控制后置处理等的操作的改善的有用的通用VAD。这种切换时段可以从0改变为500ms,并且在一个实施方式中,使用200ms的值。在切换时段期间,减小激活阈值可以是有用的(例如,减小因子2/3)。一旦开始语音突发,这就创建了对语音的增加的灵敏度和稳定性。
对于用于控制一个或多个后置处理操作(例如,针对步骤1111和VAD 1021)的语音活动检测,上面的表达中的噪声是使用波束外的功率(或者其它频域幅度度量)Y′b而确定的N′b,S。βN,βE的值不一定与回声更新VAD125相同。该VAD被称作空间选择性VAD,并且在图10被示出为元件1021。Ysens被设置为在预期的麦克风和系统噪声电平(其是通过对典型的组件进行试验而获得的)附近。
因此,βN,βE,Ysens,Sthresh、BeamGainExp和使用N′b还是N′b,S是可调谐的参数,每一个是根据由在其中使用通用VAD的实例化的元件所执行的功能来调谐的。这用于提高语音质量,同时改善对诸如以下各项中的一个或多个的不期望效果的抑制:回声、噪声和来自除了扬声器位置以外的位置的声音。本文给出的VAD结构的其它用途包括控制传输或编码、电平估计、增益控制和系统功率管理。
风活动检测
在增益的应用中,具体地说,在后置处理中,本发明的一些实施方式包括风活动检测器1023和风活动检测步骤1113。
通常,风活动检测器(WAD)1023和风检测步骤1113中的每一个操作以检测多个输入(例如,诸如两个麦克风输入等的麦克风输入)中存在恶化的风波动。在一个实施方式中,元件1023和步骤1113确定风活动的估计。这可以用于控制增益的后置处理,例如,控制以下各项中的一项或多项的一个或多个特性:(a)施加最小增益值;(b)向频带上的增益应用中值滤波;(c)带间平滑,(d)时间平滑,并且在一个实施方式中的其它后置处理方法是由语音活动选通的,并且在另一个实施方式中,是由语音活动检测、风活动检测和静默检测中的一个或多个来选通的。
可以在本发明的系统实施方式和方法实施方式中使用任何风活动检测器和风检测方法。发明人选择使用在上文的“相关专利申请”部分中提及的风检测/抑制申请中描述的风检测器和风检测方法。一些实施例进一步包括风抑制。然而,本文未讨论风抑制,而是在有关的风检测/抑制申请中讨论了风抑制。
本文仅充分详细地给出了风检测器和检测方法的实施方式的概述,以使本领域技术人员能够实践该元件。对于更多的细节,参见有关的风检测/抑制申请。
在一些实施方式中,风检测器1023使用包括空间特征的多个特征的算法组合来增加检测的特异性,并且降低“误报”的发生,其中,“误报”是由现有风检测中常见的语音和声学干扰源中常见的瞬时声音突发引起的。这允许如通过计算器129计算出的增益所指示那样进行抑制器131的操作以将抑制添加到存在风的刺激中,从而防止由于正常操作条件下的风抑制处理的不当操作引起语音质量的任何下降。
已经通过实验显示,针对在两个信道中存在风的情况下记录声音的两个采样周期,在这两个信道之间呈现较低程度的相关性。当通过时间窗和频率窗查看该信号时,该效果更加明显。此外,已经观测到,风通常在低频端处具有高负荷的所谓的“红色”频谱。实验显示,当与噪声功率谱相比时,风功率谱具有显著的下降趋势。在风检测器1023和风活动检测方法1113的实施方式中使用这一点。
可以用于区分风的多个其它有关的特征—特性——涉及其随机非平稳属性。当在时间或频率上查看时,风向空间特征(例如,比、角度和相干性)引入了极大的变化。也即是说,任何频带中的空间参数在时间和频率上变得更加随机和独立。这是由于风不具有结构空间特性或者时间特性,如果麦克风位移或方向存在某一差异,则它在每一个麦克风处通常近似独立的随机过程,因此将在时间、空间和频率上是不相关的。
风活动检测器1023和风活动检测方法1113的一些实施方式使用下面针对风检测确定的特征:
Slope:使用从200至1500Hz的频带的回归获得的每增十倍衰减1个dB的频谱斜率。
RatioStd:从200至1500Hz的频带中的例如以dB为单位的比空间特征的瞬时值与预期值之间的差别的标准偏差。
CoherStd:从200至1500Hz的频带中的相干空间特征的标准偏差。
注意,对于两个输入的情况下,针对使用协方差的斜率计算,一个实施方式使用上文在部分“位置信息”中描述的定义。另一个实施方式使用下面的定义:
Power′b=Rb11+Rb22
Ratio′b=10log10Rb22/Rb11(在对数域中使用以进行分析)
Phase′b=tan-1(Rb21)
在一个实施方式中,仅使用B个频带中的一些频带。在一个实施方式中,使用覆盖约从200至1500Hz的频带范围的多个(通常在5与20之间)频带。Slope是10log10(Power)与log10(BandFrequency)之间的线性关系。RatioStd是在这组频带上的以dB为单位表示的比(10log10(Rb22/Rb11))的标准偏差。在一个实施方式中,CoherenceStd是这组频带上的以dB为单位表示的相干性的标准偏差,而在另一个实施方式中,使用非对数刻度。
对于每一个频带b,来自斜率、比和相干性的贡献被确定如下:
RatioContribution=RatioStd/WindRatioStd=RatioStd/4
CoherContribution=CoherStd/WindCoherStd=CoherStd/1。
在针对SlopeContribution的等式中,Slope是根据数据的当前帧获得的频谱斜率,WindSlopeBias和WindSlope是例如根据功率的图形凭经验确定的常数,在一个实施方式中,其达到值-5和-20,以实现对SlopeContribution的缩放,使得0与无风相对应,1表示额定的风,而大于1的值指示逐渐增高的风活动。
在针对RatioContribution的等式中,RatioStd是根据数据的当前帧获得的,WindRatioStd是根据随时间的比数据凭经验确定的常数,以实现对RatioContribution的缩放,其中,0和1表示没有风和额定的风水平,如上所述。
在针对CoherContribution的等式中,CoherStd是根据数据的当前帧获得的,WindCoherStd是根据随时间的相干性数据凭经验确定的常数,以实现对CoherContribution的缩放,其中,0和1表示没有风和额定的风水平,如上所述。
在一个实施方式中,然后计算SlopeContribution、RatioContribution和CoherContribution的乘积来作为整个风水平,并且将整个风水平固定为例如可感测的预定水平2。
整个风水平是连续变量,其中,值1表示对风活动的合理的灵敏度。可以针对不同的检测需要视情况增加或减小该灵敏度,以按需要平衡灵敏度和特异性。减去较小的偏移(例如,在一个实施方式中,0.1)以移除一些残差。因此,在一些实施方式中,
WindLevel=
min(2,max(SlopeContribution·RatioContribution·CoherContributio
n–0.1))
其中,“·”表示乘法。
进一步使用平滑或缩放来处理该信号,以实现针对不同的函数所需的风的指标。在一个实施方式中,使用100ms的衰减滤波器。
应当理解的是,上述组合(主要是乘法)在某一形式上等同于“与”函数。在一个实施方式中,基于具有以下形式的每一个指标使用多个检测:
WindLevel=
SlopeContributionInd AND RatioContributionInd ANDCoherContributionInd
其中,SlopeContributionInd、RatioContributionInd和CoherContributionInd是分别基于SlopeContribution、RatioContribution和CoherContribution的风活动指标。
具体地说,在一个实现中,仅当所有三个特征指示某一的风活动水平时,才确认风的存在。这种实现达到了“误报”的期望下降,这是因为例如斜率特征可能在某一语音活动期间记录风活动,而比和相干性特征不会。
在一个实施方式中,滤波器可以用于对从风检测器下发的WindLevel信号进行滤波。由于风的属性和检测方法的各个方面,因此该值可能快速地改变。
滤波器被提供以通过添加一些滞后而提供某一鲁棒性,来产生更适合于控制后置处理(和抑制风)的信号,其中所述滞后捕获风的快速开始,但是在初始检测以后的较短时间期间保持对风活动的记忆。在一个实施方式中,这是使用具有较低的启动时间常数的滤波器来实现的,使得检测到的水平中的峰值快速地过去,并且释放时间常数的量级为100ms。在一个实施方式中,这可以使用简单的滤波来实现:
如果WindLevel>WindDecay·FilteredWindLevel,则
FilteredWindLevel=WindLevel
否则,FilteredWindLevel=WindDecay·FilteredWindLevel
其中,WindDecay反映一阶时间常数,使得如果以间隔T计算WindLevel,则WindDecay随着exp(-T0.100)而改变,从而导致时间常数100ms。
考虑到上文针对风检测器给出的实施方式和缩放,适合于产生风活动的二进制指标的阈值将明显地处于0.2至1.5的范围内。在一个实施方式中,相对于FilteredWindLevel使用值1.0以产生风的单个二进制指标。
应用增益
返回图1的系统,系统100包括抑制器元件131,其用于在B个频带中应用(总体上,后置处理的)增益,以同时抑制来自带化的下混频信号108的噪声、位置外信号和在一些实施方式中的回声。参照方法200,步骤227包括通过在B个频带中应用(总体上,后置处理的)增益,来同时抑制来自带化的下混频信号的噪声、位置外信号和在一些实施方式中抑制回声。
用Yn,n=0,…,N–1表示下混频(例如,波束成形的)输入信号108的N个频格。用G′b,b=1,…,B表示在处理以后获得的B个总增益,并且在一些实施方式中,其包括与额外的回声抑制增益相结合而独立(额外)应用回声抑制。
在一个实施方式中,B个增益G′b被插值以构造用Gn,n=0,…,N–1表示的N个增益。在一个实施方式中,
插值增益值Gn被应用于下混频(例如,波束成形的)信号108的N个频格,以形成表示为Outn,n=0,…,N–1的N个输出信号频格。
Outn=Gn·Yn,n=0,…,N–1。
这是如图3C中所示并且由元件131和步骤227执行的过程。
生成输出
步骤229的输出合成过程是在输出具有时间采样的形式的情况下由例如输出合成器/变换器133执行的传统的重叠添加和逆变换步骤。
步骤229的输出重映射过程是在输出在频域的情况下按需要针对以下步骤的重映射器,并且是例如由输出重映射器133执行的。在一些实施方式中,仅输出时域采样,在其它实施方式中,仅生成重映射的频域输出,而在其它实施方式中,生成时域输出和重映射的频域输出。参见图3D和图3E。
包括处理系统的处理装置
图16示出了用于处理例如来自麦克风(未示出)的多个音频输入101和例如来自一个或多个扬声器(未示出)或者从馈源到这些扬声器的一个或多个参考信号102的一个处理装置实施方式1600的简化框图。处理装置1600用于生成已经通过抑制根据本发明的一个或多个特征指定的噪声和位置外信号(在一个实施方式中)还有回声(在另一个实施方式中)而被修改的音频输出135。该装置例如可以执行图1中所示的系统以及其任何替换形式,并且可以在操作时执行图2的方法(包括本文所描述的方法的任何变型)。这种装置可以包含在例如诸如蓝牙耳机等的头戴式耳机中。音频输入101、参考输入102和音频输出135被假设为具有经采样的数据的M个采样的帧的形式。在模拟输入的情况下,将存在包括模数转换器和量化器的数字转换器。对于音频回放,将存在去量化器和数模转换器。不考虑可能包含在整个音频处理系统(例如,耳机设备)中的这些元件和其它元件,并且对于本领域技术人员而言,如何包括这些元件将是显而易见的。图16中所示的实施方式包括在运行中被配置为执行本文所描述的抑制方法的处理系统1603。处理系统1603包括至少一个处理器1605,其可以是数字信号处理设备的处理单元或者更通用的处理设备的CPU。处理系统1603还包括存储子系统1607,其通常包括一个或多个存储元件。例如,通过总线子系统或图16中未示出的某一其它互连机制来耦合处理系统的元件。可以使用本领域技术人员公知的技术将处理系统1603的元件中的一些集成到单个电路中。
存储子系统1607包括当由处理器1605执行时使得执行本文所描述的方法的指令1611。
在一些实施方式中,存储子系统1607被配置为存储一个或多个调谐参数1613,这些调谐参数1613可以用于改变由处理系统1603执行的处理步骤中的一些。
图16中所示的系统可以并入到专用设备中,例如,诸如无线蓝牙耳机等的耳机。该系统还可以是通用计算机(例如,被配置为处理音频信号的个人计算机)的一部分。
因此,已经给出了抑制系统实施方式和抑制方法实施方式。发明人已经注意到,可以在没有任何感知失真的情况下消除目标信号的重要部分。发明人注意到,人类大脑在进行纠错(特别是对语音)是熟练的,并且因此很多不必要的或不可避免的频谱抑制形式的较小失真将仍然导致感知上合意的结果。值得怀疑的是,如果语音针对可理解度是足够的,那么高水平的神经听力过程可以映射回到完整语音音频流的感知。因此,发明人假设与典型的高斯模型相比,语音和声学信号在时间和频率上更不相交,并且如果输出针对人类感知,则与例如无线电解调器相比,可以容忍更多的抑制失真——因此,在该发明中描述的算法的类别是相对未知的。因此,当通过一些数值刻度测量时,本发明的实施方式可能导致显著的抑制失真,但是却提供了感知上合意的结果。当然,本发明并不取决于被怀疑用于解释本文所描述的方法为什么工作任何理论或模型的正确性。而是,本发明是由本文包含的权利要求及其法律等同形式来限制的。
除非另外专门声明,如通过下面的描述显而易见的,否则应当清楚的是,在说明书讨论中,使用诸如“处理”、“计算”、“运算”、“确定”等的术语是指计算机或计算系统或者类似的电子计算设备的动作和/或过程,其中,计算机或计算系统或者类似的电子计算设备将表示为物理量(例如电子量)的数据处理和/或变换为类似地表示为物理量的其它数据。
通过类似的方式,术语“处理器”可以是指处理例如来自寄存器和/或存储器的电子数据以将该电子数据变换为可以存储在寄存器和/或存储器中的其它电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。
注意,当描述包括多个要素(例如,多个步骤)的方法时,除非专门声明,否则隐含了不对这些要素(例如,步骤)进行排序。
还应当注意的是,一些表达使用对数函数。虽然使用了基10对数函数,但是本领域技术人员将理解的是,这并不意味着是限制性的,并且可以使用任何基。此外,本领域技术人员将理解的是,虽然在多个数学表达中使用了相同的符号,但是可以在实际的实现中引入比例常数,此外,如果应用随性能单调的某一函数,则其中的思想将仍然成立。
在一些实施方式中,本文所描述的方法可以由一个或多个处理器执行,所述一个或多个处理器接受诸如编码在一个或多个计算机可读介质上的指令等的逻辑。当由处理器中的一个或多个执行时,这些指令使得执行本文所描述的方法中的至少一个。包括能够执行指定要采取的动作的一组指令(顺序的或其它形式的)的任何处理器。因此,一个实施例是包括一个或多个处理器的典型的处理系统。每一个处理器可以包括CPU或类似元件、图形处理单元(GPU)、现场可编程门阵列、专用集成电路和/或可编程DSP单元中的一个或多个。处理系统还包括具有至少一个存储介质的存储子系统,其可以包括嵌入在半导体设备中的存储器或者包括主RAM和/或静态RAM和/或ROM的单独的存储器子系统,并且还包括缓存。存储子系统还可以包括一个或多个其它存储设备,例如,磁性和/或光学和/或其它固态存储设备。可以包括总线子系统以用于组件之间的通信。处理系统还可以是分布式处理系统,其具有由网络(例如,经由网络接口设备或无线网络接口设备)耦合的处理器。如果处理系统需要显示器,则可以包括这种显示器,例如,液晶显示器(LCD)、有机发光显示器(OLED)或阴极射线管(CRT)显示器。如果需要手动数据输入,则处理系统还包括输入设备,例如,诸如键盘等的字母数字输入单元、诸如鼠标等的点选控制设备等中的一个或多个。如果从上下文清楚得知并且除非另外专门声明,否则本文所使用的术语存储设备、存储子系统或存储器单元还涵盖诸如磁盘驱动器单元等的存储系统。在一些配置中,处理系统可以包括声音输出设备和网络接口设备。
在一些实施方式中,非瞬时计算机可读介质被配置有(例如,编码有)诸如逻辑等的指令,当由诸如数字信号处理设备或子系统等的包括至少一个处理器元件和存储子系统的处理系统的一个或多个处理器执行时,这些指令使得执行本文所描述的方法。一些实施方式具有逻辑本身的形式。非瞬时计算机可读介质是作为依据可应用于本发明的专利法(包括美国法典的第35篇的第101部分)的法定主题的任何计算机可读介质。非瞬时计算机可读介质是例如并非专门是瞬时传播的信号或瞬时载波或者一些其它瞬时传输介质的任何计算机可读介质。因此,术语“非瞬时计算机可读介质”涵盖任何有形计算机可读存储介质。在如上文所描述的典型的处理系统中,存储子系统因此包括计算机可读存储介质,其被配置有(例如,编码有)诸如逻辑等的指令,例如,当由一个或多个处理器执行时使得执行本文所描述的方法步骤中的一个或多个的软件。在计算机系统执行软件的过程期间,软件可以位于硬盘中,或者可以完全或者至少部分地位于诸如RAM等的存储器中和/或位于处理器寄存器中。因此,存储器和处理器寄存器还构成了非瞬时计算机可读介质,其中可以在该非瞬时计算机可读介质上编码指令,使得当执行编码指令时执行方法步骤。非瞬时计算机可读介质包括任何有形的计算机可读存储介质,并且可以具有很多形式,其包括非易失性存储介质和易失性存储介质。非易失性存储介质包括例如静态RAM、光盘、磁盘和磁光盘。易失性存储介质包括动态存储器,例如,处理系统中的主存储器和处理系统中的硬盘寄存器。
虽然在示例性的实施方式中将计算机可读介质示出为单个介质,但是应当采用术语“介质”来包括存储一组或多组指令的单个介质或多个介质(例如,多个存储器、集中式或分布式数据库和/或相关联的缓存和服务器)。
此外,诸如计算机可读存储介质等的非瞬时计算机可读介质可以形成计算机程序产品或者包括在计算机程序产品中。
在可替换的实施方式中,一个或多个处理器作为单独的设备操作或者在联网部署中可以连接(例如,联网)到其它处理器,或者一个或多个处理器可以在服务器-客户端网络环境中在服务器或客户端机器的限度中操作,或者作为对等机器在对等或分布式网络环境中操作。除非本文明确排除,否则术语处理系统涵盖所有这些可能。一个或多个处理器可以形成个人计算机(PC)、媒体回放设备、头戴式耳机设备、免提通信设备、平板PC、机顶盒(STB)、个人数字助理(PDA)、游戏机、蜂窝电话、网页设备、网络路由器、交换机或电桥、或者能够执行指定机器要采取的动作的一组指令(顺序的或以其它方式)的任何机器。
注意,虽然一些示意图仅示出了单个处理器和单个存储子系统,例如,存储包括指令的逻辑的单个存储器,但是本领域技术人员将理解到,上文所描述的组件中的很多组件被包括,但是未明确示出或描述这些组件以便不会使发明方面模糊。例如,虽然示出了仅单个机器,但是应认为术语“机器”包括单独地或带化地执行一组(或多组)指令以执行本文所讨论的方法中的任意一个或多个的任何机器集合。
因此,本领域技术人员将清楚的是,本发明的实施方式可以体现为方法、诸如专用装置等的装置、诸如数据处理系统等的装置、体现在非瞬时计算机可读介质中的逻辑、或者编码有指令的计算机可读介质(例如被配置为计算机程序产品的计算机可读存储介质)。计算机可读介质配置有一组指令,这一组指令当由一个或多个处理器执行时,使得执行方法步骤。因此,本发明的各个方面可以具有方法、完整的硬件实施方式、完整的软件实施方式或者组合软件和硬件方面的实施方式的形式。此外,本发明可以具有例如计算机可读存储介质上的计算机程序等的程序逻辑的形式,或者具有配置有诸如计算机程序产品等的计算机可读程序代码的计算机可读存储介质的形式。
将理解的是,本发明的实施方式不限于任何特定的实现或编程技术,并且可以使用用于执行本文所描述的功能的任何适合的技术来实现本发明。此外,实施方式不限于任何特定的编程语言或操作系统。
还将理解的是,本发明的实施方式不限于任何特定的实现或编程技术,并且可以使用用于执行本文所描述的功能的任何适当的技术来实现本发明。此外,实施方式不限于任何特定的编程语言或操作系统。
贯穿说明书对“一个实施方式”、“实施方式”、“一些实施方式”或者“多个实施方式”的提及意味着结合实施方式描述的特定特征、结构或特性包含在本发明的至少一个实施方式中。因此,在说明书中的各个位置处出现短语“在一个实施方式中”或“在实施方式中”不一定均是指相同的实施方式,但是可以是指相同的实施方式。此外,在一个或多个实施方式中,本领域普通技术人员通过本发明将清楚的是,可以以任何适当的方式来组合特定的特征、结构或特性。
类似地,应当清楚的是,在本发明的示例性实施的上述描述中,本发明的各个特征有时被一起组合在单个实施方式、附图或其描述中,以用于对本发明进行流线化并且帮助理解各个发明方面中的一个或多个。然而,本发明的方法不应被解释为反映要求保护的发明需要与在每一个权利要求中明确记载的特征相比更多的特征的意图。更确切地说,如下面的权利要求所反映的,发明方面依赖于与单个前述公开的实施方式的所有特征相比更少的特征。因此,具体实施方式之后的权利要求明确地并入具体实施方式中,其中,每一个权利要求单独地作为本发明的单独的实施方式。
此外,如本领域技术人员将理解的,虽然本文所描述的一些实施方式包括一些特征而不是包含在其它实施方式中的其它特征,但是不同实施方式的特征的组合旨在落入本发明的范围内,并且形成了不同的实施方式。例如,在下面的权利要求中,可以以任意组合来使用要求保护的实施方式中的任意一个。
此外,在本文中将实施方式中的一些描述为可以由计算机系统的处理器或者由执行功能的其它模块来执行的方法或者方法的要素的组合。因此,具有用于执行该方法或者方法的要素的必需的指令的处理器形成了用于执行方法或方法的要素的模块。此外,本文描述的装置实施方式的要素是用于执行由要素执行的功能以用于执行本发明的模块的实施例。
在本文提供的描述中,给出了大量细节。然而,将理解的是,可以在没有这些具体细节的情况下实践本发明的实施方式。在其它实例中,未详细示出公知的方法、结构和技术,以便不会模糊对该描述的理解。
如本文所使用的,除非另外指定,否则使用顺序的形容词“第一”、“第二”、“第三”等来描述一般的对象仅仅指示提及了类似对象的不同实例而并不旨在暗指如此描述的对象必须处于给定的顺序,不论是临时的、空间的、排序的或者以任何其它方式。
注意,虽然使用了术语功率,如本发明中的各个位置处所描述的,但是本发明不限于使用功率,即,频率系数幅度的平方的加权和,而是可以被修改为适应幅度的任何度量。
本文引用的所有美国专利、美国专利申请以及指定美国的国际(PCT)专利申请通过引用的方式并入本文,除了不允许通过引用并入的司法管辖区,在这种情况下,申请人保留在不会认为插入了新的事物的情况下通过修改的方式向说明书中插入这些材料的任一部分或全部的权利。在专利实施细则或法则不准许通过引用的方式并入材料(该材料本身通过引用的方式并入信息)的情况下,在本文中通过引用并入材料不包括在通过引用的方式并入的材料中通过引用的方式并入的任何信息,除非该信息明确地通过引用的方式并入本文。
在本说明书中对现有技术的任何讨论不应当以任何方式认为是承认该现有技术是广泛已知的、公众已知的或者形成了本领域中的常识的一部分。
在下面的权利要求和本文的描述中,术语包括、由……组成或者包含中的任意一个是开放性的术语,其意味着至少包括下面的要素/特征,而不是排除其它要素/特征。因此,当在权利要求中使用术语包括时,术语包括不应当被解释为限制于此后列出的模块或要素或步骤。例如,表达设备包括要素_A和要素_B的范围不应当被限制于设备仅由要素_A和要素_B构成。本文所使用的术语含有或具有或者包括……在内中的任意一个也是开放性的术语,并且也意味着至少包括下面的要素/特征,而不是排除其它要素/特征。因此,具有与包括是同义的,并且意味着包括。
类似地,应当注意到,当在权利要求中使用术语“耦合”时,术语“耦合”不应当被解释为限制于仅直接连接。可以使用术语“耦合”和“连接”以及“它们的衍生词”。应当理解的是,这些术语并不旨在彼此同义,但是可以彼此同义。因此,表达“设备A耦合到设备B”的范围不应当被限制于这样的设备或系统,其中,设备A的输入或输出直接连接到设备B的输出或输入。它意味着在设备A与设备B之间存在通路,其可以是在设备A与设备B之间包括其它设备或模块的通路。此外,耦合到并不暗指方向。因此,表达“设备A耦合到设备B”可以与表达“设备B耦合到设备A”同义。“耦合”可以意味着两个或更多个元件直接物理或电气连接,或者两个或更多个元件并不彼此直接接触,而是仍然彼此协作或交互。
此外,使用“一”或“一个”来描述本文的实施方式的要素和组件。这仅仅是为了方便,并且给出了本发明的一般含义。该描述应当被认为包括一个或至少一个,并且除了明显意味着是单数,否则单数也包括复数。
因此,虽然已经描述了被认为是本发明的优选实施方式的内容,但是本领域技术人员将认识到,可以在不偏离本发明的精神的情况下对本发明进行其它和进一步的修改,并且旨在要求保护落入本发明的范围内的所有此类改变和修改。例如,上文给出的任何公式仅表示可以使用的程序。可以向框图添加功能或者从框图中删除功能,并且可以在功能框之间互换操作。可以向在本发明的范围内描述的方法添加步骤或者从这些方法中删除步骤。
Claims (68)
1.一种用于处理音频输入信号(101)的系统(100),包括:
输入处理器(103、107、109),其用于接受多个经采样的音频输入信号并且针对多个频带形成所述输入信号(101)的下混频带化瞬时频域幅度度量(110);
带化空间特征估计器(105),其用于根据所述多个经采样的音频输入信号来估计带化空间特征(106);
增益计算器(129),其用于计算第一组抑制概率指标,所述第一组抑制概率指标包括使用所述空间特征(106)中的两个或更多个而确定的位置外信号概率指标(1012)和使用噪声频谱内容的估计而确定的噪声抑制概率指标(1014),所述增益计算器还用于将所述第一组概率指标进行组合以计算针对每一个频带的第一组合增益;以及
抑制器(131),其用于应用根据所述频带(130)的所述第一组合增益而确定的经插值的最终增益,以对所述下混频信号的频格数据(108)执行抑制来形成经抑制的信号数据(132)。
2.根据权利要求1所述的系统(100),其中,所述空间特征(106)是根据所述经采样的输入信号的一个或多个带化加权协方差矩阵而确定的。
3.根据权利要求2所述的系统,其中,所述一个或多个协方差矩阵随时间被平滑。
4.根据权利要求1至3中的任意一项所述的系统,还包括:
参考信号输入处理器(111),其用于接受一个或多个参考信号并且形成所述一个或多个参考信号的带化频域幅度度量表示(116);
回声的带化频域幅度度量表示(118)的预测器(117),所述预测器使用自适应确定的系数,
其中,所述最终增益合并包括回声抑制的至少一个抑制概率指标,所述至少一个抑制概率指标是使用根据所述预测器(117)的输出而确定的回声频谱估计来确定的。
5.根据权利要求4所述的系统,还包括:
系数更新器,其用于使用所述噪声(124)的带化频谱频域幅度度量的估计、先前预测的回声频谱内容(118)和所述下混频信号(110或122)的带化频谱幅度度量的估计来更新(127)所述自适应确定的系数(128)。
6.估计权利要求5所述的系统,还包括:
语音活动检测器,其具有耦合到所述系数更新器的输出,所述语音活动检测器使用所述下混频信号(110或122)的带化频谱幅度度量的估计、噪声(124)的带化频谱幅度度量的估计和所述先前预测的回声频谱内容(118),
其中,所述系数更新器进行的所述更新取决于所述语音活动检测器的所述输出。
7.根据权利要求4至6中的任意一项所述的系统,其中,所述预测器(117)的所述输出被进行时间平滑以确定所述回声频谱估计。
8.根据权利要求4至7中的任意一项所述的系统,其中,由所述系数更新器使用的所述噪声的带化频谱频域幅度度量的估计是由具有由至少一个最小跟踪器的泄露速率参数定义的跟踪速率的泄露最小跟踪器确定的。
9.根据权利要求1至8中的任意一项所述的系统,其中,所述输入处理器(103、107、109)包括用于变换到频格的输入变换器(103)、用于形成下混频信号(108)的下混频器(107)和用于形成频带的频谱带化元件(109)。
10.根据权利要求1至8中的任意一项所述的系统,其中,在所述输入处理器(103、107、109)中形成所述下混频信号是在变换之前执行的。
11.根据权利要求1至10中的任意一项所述的系统(100),其中,所述增益计算器还用于对所述频带的所述第一组合增益进行后置处理,以生成针对每一个频带的经后置处理的增益(130),使得根据所述频带的所述经后置处理的增益来确定所述经插值的最终增益。
12.根据权利要求1至11中的任意一项所述的系统,其中,所述增益计算器(129)还计算针对每一个频带的额外的回声抑制增益。
13.根据权利要求12所述的系统,其中,所述额外的回声抑制增益与其它增益进行组合以形成用于后置处理的所述第一组合增益。
14.根据权利要求12所述的系统,其中,所述额外的回声抑制增益是在后置处理之后被组合的,其中,后置处理所述第一组合增益的结果是生成在所述抑制器(131)中应用的所述最终增益(130)。
15.根据权利要求4至14中的任意一项所述的系统,其中,所述自适应确定的系数是使用以下各项来确定的:由语音活动检测器(125)确定的语音活动信号、所述噪声(124)的带化频谱幅度度量的估计、所述下混频信号的带化频谱幅度度量的估计以及先前预测的回声频谱内容。
16.根据权利要求1至15中的任意一项所述的系统,还包括:用于生成输出采样的输出合成器和变换器,或者用于生成输出频格的输出重映射器。
17.一种用于处理音频输入信号(101)的系统,所述系统包括:
用于接受(103)多个经采样的输入信号(101)并且针对多个频带形成(103、107、109)所述输入信号(101)的下混频带化瞬时频域幅度度量(110)的模块,所述用于形成的模块包括用于变换(103)为针对一组频格的复值频域值的模块;
用于根据所述多个经采样的输入信号来确定(105)带化空间特征(106)的模块;
用于计算(129)能够表示为抑制增益的第一组抑制概率指标的模块,所述第一组抑制概率指标包括使用所述空间特征(106)中的两个或更多个而确定的位置外信号增益和使用空间选择性噪声频谱内容而确定的能够表示为噪声抑制增益的噪声抑制概率指标;以及
用于组合所述第一组抑制增益以确定针对每一个频带的第一组合增益的模块;
用于应用(131)根据所述第一组合增益而确定的经插值的最终增益,以对所述下混频信号的频格数据执行抑制来形成经抑制的信号数据(132)的模块;以及
用于应用(229)以下各项中的一项或两项的模块:(a)用于生成输出采样的输出合成和变换,以及(b)用于生成输出频格的输出重映射。
18.根据权利要求17所述的系统,还包括:
用于对所述频带的所述第一组合增益进行后置处理以生成针对每一个频带的经后置处理的增益(130)的模块,
其中,所述经插值的最终增益是根据所述经后置处理的增益来确定的。
19.根据权利要求17或18中的任意一项所述的系统,其中,所述用于后置处理的模块包括用于使用所述空间特征(106)中的两个或更多个进行空间选择性语音活动检测以生成信号分类,使得根据所述信号分类来进行后置处理的模块。
20.根据权利要求18至19中的任意一项所述的系统,还包括:
用于接受(213)一个或多个参考信号并且用于形成(215、217)所述一个或多个参考信号的带化频域幅度度量表示(116)的模块;以及
用于预测(117、123、125、127)回声(118)的带化频域幅度度量表示的模块,所述用于预测(117、123、125、127)的模块包括被耦合到用于确定所述噪声(124)的带化频谱幅度度量的估计的模块的、用于自适应地确定(125、127)回声滤波系数(128)的模块,用于使用所述下混频信号(122)的带化频谱幅度度量的估计来进行语音活动检测的模块,以及用于基于所述噪声(124)的和所述下混频信号(122)的带化频谱幅度度量的估计以及所述先前预测的回声频谱内容(118)来更新(127)所述滤波系数(128)的模块,
其中,所述用于更新的模块进行的所述更新是根据所述用于进行语音活动检测的模块的输出而发生的。
21.根据权利要求17至20中的任意一项所述的系统,其中,所述用于计算(129)的模块包括用于计算额外的回声抑制增益并且对后置处理的所述结果进行组合以生成所述经后置处理的增益的模块。
22.根据权利要求1至21中的任意一项所述的系统,其中,针对每一个频带的所述噪声抑制概率指标能够表示为针对所述频带的带化瞬时幅度度量的噪声抑制增益函数,
其中,针对每一个频带,针对噪声预期带化瞬时幅度度量值的第一值范围,并且针对期望的输入预期带化瞬时幅度度量值的第二值范围,以及
其中,针对所述频带的所述噪声抑制增益函数被配置为
具有相应的最小值;
在所述第一范围内具有相对恒定的值或相对小的负梯度;
在所述第二范围内具有相对恒定的增益;以及
具有从所述第一范围到所述第二范围的平滑过渡。
23.根据权利要求22所述的系统,其中,针对所述频带的所述噪声抑制增益函数被进一步配置为具有平滑的一阶导数。
24.根据权利要求22至23中的任意一项所述的系统,其中,针对所述频带的所述噪声抑制增益函数均是S型函数或其计算简化。
25.根据权利要求22至23中的任意一项所述的系统,其中,针对所述频带的所述噪声抑制增益函数在所述第一范围内具有负梯度。
26.根据权利要求22至23中的任意一项所述的系统,其中,所述瞬时幅度度量是功率,并且其中,针对所述频带的所述噪声抑制增益函数被配置为在所述第一范围内具有负梯度,其中,针对每一dB的输入功率,增益的平均梯度为-0.3至-0.7dB。
27.根据权利要求25至26中的任意一项所述的系统,其中,针对所述频带的所述噪声抑制增益函数均是修改的S型函数,所述修改的S型函数能够表示为S型函数或者其计算简化和额外的项的总和以在所述第一范围内提供所述负梯度。
28.根据权利要求1至16和17至27中的任意一项所述的系统(100),其中,用于确定所述噪声抑制概率指标的噪声频谱内容的所述估计是使用所述空间特征(106)中的两个或更多个而确定的噪声频谱内容(1006)的空间选择性估计。
29.根据权利要求28所述的系统(100),其中,噪声频谱内容(1006)的所述空间选择性估计是使用泄露最小跟踪器来确定的。
30.根据权利要求1至29中的任意一项所述的系统,其中,所述频域幅度度量是频域功率。
31.根据权利要求1至30中的任意一项所述的系统,其中,所述带化使得所述频带的频率间隔是非单调递减的,并且使得频带的90%或更多具有来自多于一个频格的贡献。
32.根据权利要求31所述的系统,其中,所述频带的间隔是对数型的。
33.一种操作处理装置(100)以抑制音频输入信号(101)中的包括噪声和位置外信号的不期望的信号的方法(200),所述方法包括:
在所述处理装置中接受(201)多个经采样的音频输入信号(101);
针对多个频带形成(203、207、209)所述输入信号(101)的下混频带化瞬时频域幅度度量(110),所述形成包括变换(203)为针对一组频格的复值频域值;
根据所述多个经采样的输入信号确定(205)带化空间特征(106);
计算(223)第一组抑制概率指标,第一组抑制概率指标包括使用所述空间特征(106)中的两个或更多个确定的位置外的抑制概率指标(1012)和使用噪声频谱内容(1006)的估计确定的针对每一个频带的噪声抑制概率指标(1014);
对所述第一组概率指标进行组合以确定针对每一个频带的第一组合增益;
应用(227)根据所述第一组合增益确定的经插值的最终增益,以对所述下混频信号的频格数据(108)执行抑制来形成经抑制的信号数据(132)。
34.根据权利要求33所述的方法,其中,所述噪声频谱内容的估计是使用所述空间特征(106)中的两个或更多个确定的噪声频谱内容(1006)的空间选择性估计。
35.根据权利要求33至34中的任意一项所述的方法(200),其中,所述空间特征(106)是根据所述经采样的输入信号的一个或多个带化加权协方差矩阵来确定的。
36.根据权利要求35所述的方法,其中,所述一个或多个协方差矩阵随时间被平滑。
37.根据权利要求33至36中的任意一项所述的方法,其中,所述形成(215、217)所述下混频带化瞬时频域幅度度量包括将所接受的输入或其组合变换(103)到频格,在所述采样或频格域中进行下混频以形成下混频信号,并且进行频谱带化以形成频带。
38.根据权利要求37所述的方法,其中,所述下混频是在所述变换之前执行的。
39.根据权利要求33至38中的任意一项所述的方法,其中,所述方法还包括:对所述频带的所述第一组合增益执行后置处理以生成针对每一个频带的经后置处理的增益(130),使得所述经插值的最终增益是根据所述第一组合增益来确定的。
40.根据权利要求39所述的方法,其中,所述后置处理是根据所述输入信号的分类来进行的。
41.根据权利要求33至40中的任意一项所述的方法,还包括:
计算(226)额外的回声抑制增益,并且与一个或多个其它确定的抑制增益进行组合以生成所述最终增益。
42.根据权利要求41所述的方法,其中,所述与所述一个或多个其它确定的抑制增益进行组合用于形成所述频带的所述第一组合增益。
43.根据权利要求42所述的方法,其中,所述方法还包括:对所述频带的所述第一组合增益执行后置处理,以生成第一经后置处理的增益(130),并且将所述第一经后置处理的增益与所述额外的回声抑制增益进行组合以形成所述最终增益。
44.根据权利要求33至43中的任意一项所述的方法,其中,针对每一个频带的所述噪声抑制概率指标能够表示为针对所述频带的带化瞬时幅度度量的噪声抑制增益函数,
其中,针对每一个频带,针对噪声预期带化瞬时幅度度量值的第一值范围,并且针对期望的输入预期带化瞬时幅度度量值的第二值范围,以及
其中,针对所述频带的所述噪声抑制增益函数被配置为:
具有相应的最小值;
在所述第一范围内具有相对恒定的值或相对小的负梯度;
在所述第二范围内具有相对恒定的增益;以及
具有从所述第一范围到所述第二范围的平滑过渡。
45.根据权利要求33至44中的任意一项所述的方法(200),其中,所述空间特征(106)是根据所述经采样的输入信号的带化协方差矩阵来确定的。
46.一种操作处理装置(100)以抑制不期望的信号的方法(200),所述不期望的信号包括噪声,所述方法包括:
在所述处理装置中接受(201)至少一个经采样的输入信号(101);
针对多个频带形成(203、209)所述至少一个输入信号(101)的带化瞬时频域幅度度量(110),所述形成包括变换(203)为针对一组频格的复值频域值;
计算(223)第一组一个或多个抑制概率指标,其包括使用噪声频谱内容(1006)的估计确定的噪声抑制概率指标(1014);
将所述第一组概率指标进行组合以确定针对每一个频带的第一组合增益;
应用(227)根据所述第一组合增益(130)确定的经插值的最终增益,以对所述至少一个输入信号的频格数据(108)执行抑制来形成经抑制的信号数据(132),
其中,针对每一个频带的所述噪声抑制概率指标能够表示为针对所述频带的带化瞬时幅度度量的噪声抑制增益函数,
其中,针对每一个频带,针对噪声预期带化瞬时幅度度量值的第一值范围,并且针对期望的输入预期带化瞬时幅度度量值的第二值范围,以及
其中,针对所述频带的所述噪声抑制增益函数被配置为:
具有相应的最小值;
在所述第一范围内具有相对恒定的值或相对小的负梯度;
在所述第二范围内具有相对恒定的增益;以及
具有从所述第一范围到所述第二范围的平滑过渡。
47.根据权利要求46或44所述的方法,其中,针对所述频带的所述噪声抑制增益函数被进一步配置为具有平滑的一阶导数。
48.根据权利要求44和46至47中的任意一项所述的方法,其中,针对所述频带的所述噪声抑制增益函数均是S型函数或其计算简化。
49.根据权利要求44和46至47中的任意一项所述的方法,其中,针对所述频带的所述噪声抑制增益函数在所述第一范围内具有负梯度。
50.根据权利要求44和46至47中的任意一项所述的方法,其中,所述瞬时幅度度量是功率,并且其中,针对所述频带的所述噪声抑制增益函数被配置为在所述第一范围内具有负梯度,其中,针对每一dB的输入功率,增益的平均梯度为-0.3至-0.7dB。
51.根据权利要求49至50中的任意一项所述的方法,其中,针对所述频带的所述噪声抑制增益函数均是修改的S型函数,所述修改的S型函数能够表示为S型函数或者其计算简化和额外的项的总和以在所述第一范围内提供所述负梯度。
52.根据权利要求46至51中的任意一项所述的方法,
其中,在所述处理装置中接受多个经采样的输入信号(101),
其中,所述形成所接受的输入信号(101)的带化瞬时频域幅度度量(110)针对多个频带形成所述输入信号(101)的下混频带化瞬时频域幅度度量(110),
其中,所述方法还包括根据所述多个经采样的输入信号来确定(205)带化空间特征(106);并且
其中,所述第一组抑制概率指标包括使用所述空间特征(106)中的两个或更多个确定的位置外抑制概率指标(1012),使得所述方法同时抑制噪声和位置外信号。
53.根据权利要求52所述的方法,其中,所述噪声频谱内容的估计是使用所述空间特征(106)中的两个或更多个确定的噪声频谱内容(1006)的空间选择性估计。
54.根据权利要求33至36和46至53中的任意一项所述的方法,还包括:
接受(213)一个或多个参考信号;
形成(215、217)所述一个或多个参考信号的带化频域幅度度量表示(116);以及
使用自适应确定的回声滤波系数(128)来预测(221)回声(118)的带化频域幅度度量表示,其中所述滤波系数(128)是使用所述噪声(124)的带化频谱幅度度量的估计、先前预测的回声频谱内容(118)和所述输入信号(11或122)的带化频谱幅度度量的估计来确定的,所述滤波系数(128)是基于所述输入信号(122)的和所述噪声(124)的带化频谱幅度度量的估计以及所述先前预测的回声频谱内容(118)来更新(127)的,
其中,所述最终增益并入包括回声抑制的至少一个抑制概率指标,所述至少一个抑制概率指标是使用所述回声的带化频域幅度度量表示(118)确定的。
55.根据权利要求54所述的方法,其中,确定所述系数(128)包括:
语音活动检测,
其中,所述更新取决于所述语音活动检测的结果。
56.根据权利要求54至55中的任意一项所述的方法,其中,所述预测包括对所述滤波的结果进行时间平滑。
57.根据权利要求54至56中的任意一项所述的方法,其中,由所述系数更新器使用的所述噪声的带化频谱频域幅度度量的估计是由具有由至少一个最小跟踪器的泄露速率参数定义的跟踪速率的泄露最小跟踪器来确定的。
58.根据权利要求57所述的方法,其中,所述最小跟踪器是通过与所述噪声的带化频谱频域幅度度量的先前估计相当或相比更大的回声估计的存在来进行选通的。
59.根据权利要求57至58中的任意一项所述的方法,其中,所述泄露最小跟踪器的所述至少一个泄露速率参数是由语音活动检测确定的语音存在的概率来控制的。
60.根据权利要求46至54中的任意一项所述的方法,其中,所述带化使得所述频带的频率间隔是非单调递减的,并且使得频带的90%或更多具有来自多于一个频格的贡献。
61.根据权利要求60所述的方法,其中,所述频带的间隔是对数型的。
62.根据权利要求33至61中的任意一项所述的方法,还包括:应用(229)输出合成以生成输出采样。
63.根据权利要求33至61中的任意一项所述的方法,还包括:应用(229)输出重映射以生成输出频格。
64.根据权利要求33至63中的任意一项所述的方法,其中,所述频域幅度度量是频域功率。
65.一种操作处理装置(100)以抑制不期望的信号的方法(200),所述方法包括:
在所述处理装置中接受(201)多个经采样的输入信号(101);
针对多个频带形成(203、207、209)所述输入信号(101)的下混频带化瞬时频域幅度度量(110),所述形成包括变换(203)为针对一组频格的复值频域值;
根据所述多个经采样的输入信号确定(205)带化空间特征(106);
计算(223)第一组抑制概率指标,其包括使用所述空间特征(106)中的两个或更多个确定的位置外抑制概率指标(1012)和使用噪声频谱内容(1006)的估计确定的噪声抑制概率指标(1014);
在所述处理装置中接受(213)一个或多个参考信号;
形成(215、217)所述一个或多个参考信号的带化频域幅度度量表示(116);以及
使用自适应确定的回声滤波系数(128)预测(221)回声(118)的带化频域幅度度量表示;
使用通用语音活动检测方法的相应实例根据下混频带化瞬时频域幅度度量来确定语音活动的多个指示,所述通用语音活动检测方法是通过一组参数并且使用噪声频谱内容的估计、所述回声的带化频域幅度度量表示和所述带化空间特征来控制的,所述一组参数包括所述噪声频谱内容的所述估计是否是空间选择的,实例化确定语音活动的哪一个指示是由所述参数的选择来控制的、语音活动;以及
对所述第一组概率指标进行组合以确定针对每一个频带的第一组合增益;
应用(227)根据所述第一组合增益(130)确定的经插值的最终增益,以对所述下混频信号的频格数据(108)执行抑制来形成经抑制的信号数据(132),
其中,在所述方法的不同步骤中应用所述通用语音活动检测方法的不同实例化。
66.一种包括处理系统的处理装置,其中,所述处理装置被配置为执行根据任何前述方法权利要求所述的方法。
67.一种配置有指令的非瞬时计算机可读介质,所述指令当由处理系统的至少一个处理器执行时,使处理硬件执行根据任何前述方法权利要求所述的方法。
68.一种逻辑,所述逻辑可以编码在一个或多个非瞬时计算机可读介质中并且当被执行时执行根据任何前述方法权利要求所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161441611P | 2011-02-10 | 2011-02-10 | |
US61/441,611 | 2011-02-10 | ||
PCT/US2012/024370 WO2012109384A1 (en) | 2011-02-10 | 2012-02-08 | Combined suppression of noise and out - of - location signals |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103348408A true CN103348408A (zh) | 2013-10-09 |
CN103348408B CN103348408B (zh) | 2015-11-25 |
Family
ID=45809594
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280008266.XA Active CN103348408B (zh) | 2011-02-10 | 2012-02-08 | 噪声和位置外信号的组合抑制方法和系统 |
CN201280008279.7A Active CN103354937B (zh) | 2011-02-10 | 2012-02-08 | 包括噪声抑制增益的中值滤波的后处理 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280008279.7A Active CN103354937B (zh) | 2011-02-10 | 2012-02-08 | 包括噪声抑制增益的中值滤波的后处理 |
Country Status (4)
Country | Link |
---|---|
EP (2) | EP2673777B1 (zh) |
JP (1) | JP6002690B2 (zh) |
CN (2) | CN103348408B (zh) |
WO (2) | WO2012109385A1 (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200817A (zh) * | 2014-07-31 | 2014-12-10 | 广东美的制冷设备有限公司 | 语音控制方法和系统 |
CN105794190A (zh) * | 2013-12-12 | 2016-07-20 | 皇家飞利浦有限公司 | 回声消除 |
CN106782591A (zh) * | 2016-12-26 | 2017-05-31 | 惠州Tcl移动通信有限公司 | 一种在背景噪音下提高语音识别率的装置及其方法 |
CN107004409A (zh) * | 2014-09-26 | 2017-08-01 | 密码有限公司 | 利用运行范围归一化的神经网络语音活动检测 |
CN107113517A (zh) * | 2015-01-14 | 2017-08-29 | 唯听助听器公司 | 操作助听器系统的方法和助听器系统 |
CN108028049A (zh) * | 2015-09-14 | 2018-05-11 | 美商楼氏电子有限公司 | 麦克风信号融合 |
CN108028048A (zh) * | 2015-06-30 | 2018-05-11 | 弗劳恩霍夫应用研究促进协会 | 用于关联噪声和用于分析的方法和设备 |
CN109845287A (zh) * | 2016-09-30 | 2019-06-04 | 伯斯有限公司 | 用于动态声音调节的噪声估计 |
CN109949820A (zh) * | 2019-03-07 | 2019-06-28 | 出门问问信息科技有限公司 | 一种语音信号处理方法、装置及系统 |
CN110097884A (zh) * | 2019-06-11 | 2019-08-06 | 大众问问(北京)信息科技有限公司 | 一种语音交互方法和装置 |
CN112235693A (zh) * | 2020-11-04 | 2021-01-15 | 北京声智科技有限公司 | 麦克风信号处理方法、装置、设备及计算机可读存储介质 |
CN112424864A (zh) * | 2018-05-18 | 2021-02-26 | 搜诺思公司 | 用于噪声抑制话音检测的线性滤波 |
CN112420073A (zh) * | 2020-10-12 | 2021-02-26 | 北京百度网讯科技有限公司 | 语音信号处理方法、装置、电子设备和存储介质 |
CN112437957A (zh) * | 2018-07-27 | 2021-03-02 | 杜比实验室特许公司 | 用于全面收听的强加间隙插入 |
CN113689878A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 回声消除方法、回声消除装置及计算机可读存储介质 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012107561A1 (en) | 2011-02-10 | 2012-08-16 | Dolby International Ab | Spatial adaptation in multi-microphone sound capture |
EP2673956B1 (en) | 2011-02-10 | 2019-04-24 | Dolby Laboratories Licensing Corporation | System and method for wind detection and suppression |
US8804977B2 (en) | 2011-03-18 | 2014-08-12 | Dolby Laboratories Licensing Corporation | Nonlinear reference signal processing for echo suppression |
CN103325380B (zh) | 2012-03-23 | 2017-09-12 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
CN104050969A (zh) | 2013-03-14 | 2014-09-17 | 杜比实验室特许公司 | 空间舒适噪声 |
GB201309773D0 (en) | 2013-05-31 | 2013-07-17 | Microsoft Corp | Echo removal |
GB201309771D0 (en) | 2013-05-31 | 2013-07-17 | Microsoft Corp | Echo removal |
GB201309779D0 (en) | 2013-05-31 | 2013-07-17 | Microsoft Corp | Echo removal |
GB201309777D0 (en) * | 2013-05-31 | 2013-07-17 | Microsoft Corp | Echo suppression |
JP6087762B2 (ja) * | 2013-08-13 | 2017-03-01 | 日本電信電話株式会社 | 残響抑圧装置とその方法と、プログラムとその記録媒体 |
TWI498884B (zh) * | 2013-09-09 | 2015-09-01 | Pegatron Corp | 具有過濾背景音功能的電子裝置及其方法 |
EP2854133A1 (en) | 2013-09-27 | 2015-04-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Generation of a downmix signal |
CN104681034A (zh) | 2013-11-27 | 2015-06-03 | 杜比实验室特许公司 | 音频信号处理 |
US10079941B2 (en) | 2014-07-07 | 2018-09-18 | Dolby Laboratories Licensing Corporation | Audio capture and render device having a visual display and user interface for use for audio conferencing |
JP6195548B2 (ja) * | 2014-08-19 | 2017-09-13 | 日本電信電話株式会社 | 信号解析装置、方法、及びプログラム |
CN107493247B (zh) * | 2016-06-13 | 2021-10-22 | 中兴通讯股份有限公司 | 一种自适应均衡方法、装置及均衡器 |
US11513205B2 (en) | 2017-10-30 | 2022-11-29 | The Research Foundation For The State University Of New York | System and method associated with user authentication based on an acoustic-based echo-signature |
CN107886965B (zh) * | 2017-11-28 | 2021-04-20 | 游密科技(深圳)有限公司 | 游戏背景音的回声消除方法 |
CN108447500B (zh) * | 2018-04-27 | 2020-08-18 | 深圳市沃特沃德股份有限公司 | 语音增强的方法与装置 |
CN111145770B (zh) * | 2018-11-02 | 2022-11-22 | 北京微播视界科技有限公司 | 音频处理方法和装置 |
CN110136739B (zh) * | 2019-07-03 | 2021-04-09 | 四川大学 | 语音信号中冲激性噪声的去除方法 |
JP2024508225A (ja) * | 2021-02-04 | 2024-02-26 | ニートフレーム リミテッド | オーディオ処理 |
GB202101561D0 (en) * | 2021-02-04 | 2021-03-24 | Neatframe Ltd | Audio processing |
KR20230160840A (ko) * | 2021-03-11 | 2023-11-24 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 역상관기, 처리 시스템, 및 오디오 신호 역상관 방법 |
US11849291B2 (en) * | 2021-05-17 | 2023-12-19 | Apple Inc. | Spatially informed acoustic echo cancelation |
EP4198976B1 (en) * | 2021-12-17 | 2023-10-25 | GN Audio A/S | Wind noise suppression system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101071566A (zh) * | 2006-05-09 | 2007-11-14 | 美商富迪科技股份有限公司 | 小阵列麦克风系统、噪声抑制装置及其抑制方法 |
US20080288219A1 (en) * | 2007-05-17 | 2008-11-20 | Microsoft Corporation | Sensor array beamformer post-processor |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2913105B2 (ja) * | 1989-03-10 | 1999-06-28 | 日本電信電話株式会社 | 音響信号検出方法 |
DE4405723A1 (de) * | 1994-02-23 | 1995-08-24 | Daimler Benz Ag | Verfahren zur Geräuschreduktion eines gestörten Sprachsignals |
JP3484801B2 (ja) * | 1995-02-17 | 2004-01-06 | ソニー株式会社 | 音声信号の雑音低減方法及び装置 |
US5587998A (en) * | 1995-03-03 | 1996-12-24 | At&T | Method and apparatus for reducing residual far-end echo in voice communication networks |
US6351731B1 (en) * | 1998-08-21 | 2002-02-26 | Polycom, Inc. | Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor |
JP3435357B2 (ja) * | 1998-09-07 | 2003-08-11 | 日本電信電話株式会社 | 収音方法、その装置及びプログラム記録媒体 |
KR100467020B1 (ko) | 2002-07-26 | 2005-01-24 | 삼성전자주식회사 | 자기 정렬된 접합영역 콘택홀을 갖는 반도체 장치 및 그제조 방법 |
JP4247037B2 (ja) * | 2003-01-29 | 2009-04-02 | 株式会社東芝 | 音声信号処理方法と装置及びプログラム |
ES2290764T3 (es) | 2003-05-28 | 2008-02-16 | Dolby Laboratories Licensing Corporation | Metodo, aparato y programa de ordenador para calcular y ajustar la sonoridad percibida de una señal de audio. |
EP1633121B1 (en) * | 2004-09-03 | 2008-11-05 | Harman Becker Automotive Systems GmbH | Speech signal processing with combined adaptive noise reduction and adaptive echo compensation |
US8280730B2 (en) * | 2005-05-25 | 2012-10-02 | Motorola Mobility Llc | Method and apparatus of increasing speech intelligibility in noisy environments |
EP1931169A4 (en) * | 2005-09-02 | 2009-12-16 | Japan Adv Inst Science & Tech | POST-FILTER FOR A MICROPHONE MATRIX |
JP4702371B2 (ja) * | 2005-10-26 | 2011-06-15 | 日本電気株式会社 | エコー抑圧方法及び装置 |
JP4850191B2 (ja) * | 2008-01-16 | 2012-01-11 | 富士通株式会社 | 自動音量制御装置及びそれを用いた音声通信装置 |
CN101510426B (zh) * | 2009-03-23 | 2013-03-27 | 北京中星微电子有限公司 | 一种噪声消除方法及系统 |
-
2012
- 2012-02-08 CN CN201280008266.XA patent/CN103348408B/zh active Active
- 2012-02-08 EP EP12707412.8A patent/EP2673777B1/en active Active
- 2012-02-08 JP JP2013553528A patent/JP6002690B2/ja active Active
- 2012-02-08 EP EP12707413.6A patent/EP2673778B1/en active Active
- 2012-02-08 WO PCT/US2012/024372 patent/WO2012109385A1/en active Application Filing
- 2012-02-08 CN CN201280008279.7A patent/CN103354937B/zh active Active
- 2012-02-08 WO PCT/US2012/024370 patent/WO2012109384A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101071566A (zh) * | 2006-05-09 | 2007-11-14 | 美商富迪科技股份有限公司 | 小阵列麦克风系统、噪声抑制装置及其抑制方法 |
US20080288219A1 (en) * | 2007-05-17 | 2008-11-20 | Microsoft Corporation | Sensor array beamformer post-processor |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105794190B (zh) * | 2013-12-12 | 2019-09-20 | 皇家飞利浦有限公司 | 一种音频回声抑制器及音频回声抑制方法 |
CN105794190A (zh) * | 2013-12-12 | 2016-07-20 | 皇家飞利浦有限公司 | 回声消除 |
CN104200817B (zh) * | 2014-07-31 | 2017-07-28 | 广东美的制冷设备有限公司 | 语音控制方法和系统 |
CN104200817A (zh) * | 2014-07-31 | 2014-12-10 | 广东美的制冷设备有限公司 | 语音控制方法和系统 |
CN107004409A (zh) * | 2014-09-26 | 2017-08-01 | 密码有限公司 | 利用运行范围归一化的神经网络语音活动检测 |
CN107004409B (zh) * | 2014-09-26 | 2021-01-29 | 密码有限公司 | 利用运行范围归一化的神经网络语音活动检测 |
CN107113517A (zh) * | 2015-01-14 | 2017-08-29 | 唯听助听器公司 | 操作助听器系统的方法和助听器系统 |
US11880407B2 (en) | 2015-06-30 | 2024-01-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and device for generating a database of noise |
CN108028048A (zh) * | 2015-06-30 | 2018-05-11 | 弗劳恩霍夫应用研究促进协会 | 用于关联噪声和用于分析的方法和设备 |
CN108028049B (zh) * | 2015-09-14 | 2021-11-02 | 美商楼氏电子有限公司 | 用于融合麦克风信号的方法和系统 |
CN108028049A (zh) * | 2015-09-14 | 2018-05-11 | 美商楼氏电子有限公司 | 麦克风信号融合 |
CN109845287B (zh) * | 2016-09-30 | 2021-11-16 | 伯斯有限公司 | 用于动态声音调节的噪声估计的系统和方法 |
CN109845287A (zh) * | 2016-09-30 | 2019-06-04 | 伯斯有限公司 | 用于动态声音调节的噪声估计 |
CN106782591B (zh) * | 2016-12-26 | 2021-02-19 | 惠州Tcl移动通信有限公司 | 一种在背景噪音下提高语音识别率的装置及其方法 |
CN106782591A (zh) * | 2016-12-26 | 2017-05-31 | 惠州Tcl移动通信有限公司 | 一种在背景噪音下提高语音识别率的装置及其方法 |
CN112424864A (zh) * | 2018-05-18 | 2021-02-26 | 搜诺思公司 | 用于噪声抑制话音检测的线性滤波 |
CN112437957A (zh) * | 2018-07-27 | 2021-03-02 | 杜比实验室特许公司 | 用于全面收听的强加间隙插入 |
CN109949820A (zh) * | 2019-03-07 | 2019-06-28 | 出门问问信息科技有限公司 | 一种语音信号处理方法、装置及系统 |
CN110097884A (zh) * | 2019-06-11 | 2019-08-06 | 大众问问(北京)信息科技有限公司 | 一种语音交互方法和装置 |
CN110097884B (zh) * | 2019-06-11 | 2022-05-17 | 大众问问(北京)信息科技有限公司 | 一种语音交互方法和装置 |
CN112420073A (zh) * | 2020-10-12 | 2021-02-26 | 北京百度网讯科技有限公司 | 语音信号处理方法、装置、电子设备和存储介质 |
CN112420073B (zh) * | 2020-10-12 | 2024-04-16 | 北京百度网讯科技有限公司 | 语音信号处理方法、装置、电子设备和存储介质 |
CN112235693A (zh) * | 2020-11-04 | 2021-01-15 | 北京声智科技有限公司 | 麦克风信号处理方法、装置、设备及计算机可读存储介质 |
CN112235693B (zh) * | 2020-11-04 | 2021-12-21 | 北京声智科技有限公司 | 麦克风信号处理方法、装置、设备及计算机可读存储介质 |
CN113689878A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 回声消除方法、回声消除装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103354937B (zh) | 2015-07-29 |
JP6002690B2 (ja) | 2016-10-05 |
WO2012109384A1 (en) | 2012-08-16 |
EP2673777B1 (en) | 2018-12-26 |
WO2012109385A1 (en) | 2012-08-16 |
EP2673777A1 (en) | 2013-12-18 |
CN103348408B (zh) | 2015-11-25 |
JP2014510452A (ja) | 2014-04-24 |
EP2673778A1 (en) | 2013-12-18 |
EP2673778B1 (en) | 2018-10-10 |
CN103354937A (zh) | 2013-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103348408B (zh) | 噪声和位置外信号的组合抑制方法和系统 | |
CN104520925B (zh) | 噪声降低增益的百分位滤波 | |
US9173025B2 (en) | Combined suppression of noise, echo, and out-of-location signals | |
Vary et al. | Digital speech transmission: Enhancement, coding and error concealment | |
US9570087B2 (en) | Single channel suppression of interfering sources | |
CN101816191B (zh) | 用于提取环境信号的装置和方法 | |
Schädler et al. | Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition | |
CN103325380B (zh) | 用于信号增强的增益后处理 | |
US20120245927A1 (en) | System and method for monaural audio processing based preserving speech information | |
CN102498482B (zh) | 用于自适应话音可懂度处理的系统 | |
CN101903948A (zh) | 用于基于多麦克风的语音增强的系统、方法及设备 | |
US20230154459A1 (en) | Pre-processing for automatic speech recognition | |
Vijayasenan et al. | Multistream speaker diarization of meetings recordings beyond MFCC and TDOA features | |
Sivasankaran et al. | A combined evaluation of established and new approaches for speech recognition in varied reverberation conditions | |
Liu et al. | Inplace gated convolutional recurrent neural network for dual-channel speech enhancement | |
Martín-Doñas et al. | Dual-channel DNN-based speech enhancement for smartphones | |
US20220369031A1 (en) | Deep neural network denoiser mask generation system for audio processing | |
Malek et al. | Block‐online multi‐channel speech enhancement using deep neural network‐supported relative transfer function estimates | |
US11528571B1 (en) | Microphone occlusion detection | |
Thakallapalli et al. | NMF-weighted SRP for multi-speaker direction of arrival estimation: robustness to spatial aliasing while exploiting sparsity in the atom-time domain | |
US20230116052A1 (en) | Array geometry agnostic multi-channel personalized speech enhancement | |
Rosca et al. | Multi-channel psychoacoustically motivated speech enhancement | |
Li et al. | Speech separation based on reliable binaural cues with two-stage neural network in noisy-reverberant environments | |
Koteswararao et al. | Single channel source separation using time–frequency non-negative matrix factorization and sigmoid base normalization deep neural networks | |
Srinivasarao | An efficient recurrent Rats function network (Rrfn) based speech enhancement through noise reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |