CN107969164A - 适应性信道间判别再缩放滤波器 - Google Patents
适应性信道间判别再缩放滤波器 Download PDFInfo
- Publication number
- CN107969164A CN107969164A CN201580073107.1A CN201580073107A CN107969164A CN 107969164 A CN107969164 A CN 107969164A CN 201580073107 A CN201580073107 A CN 201580073107A CN 107969164 A CN107969164 A CN 107969164A
- Authority
- CN
- China
- Prior art keywords
- channel
- spectrum
- audio signal
- frequency
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Abstract
一种用于滤波音频信号的方法,包括建模主信道和参考信道的快速傅立叶变换(FFT)系数的概率密度函数(PDF);最大化PDF以提供在参考信道的噪声幅度估算与主信道的噪声幅度估算之间的判别相关差异(DRD)。当主信道的频谱幅度比参考信道的频谱幅度强时,强化主信道;并且参考信道的频谱幅度比主信道的频谱幅度强时,削弱主信道。当存在先前阶段时,将乘法再缩放因子应用于在语音增强滤波器链的先前阶段中计算的增益,在不存在前阶段的情况下,直接应用增益。
Description
相关申请的交叉参考
本专利申请要求2014年11月12日提交的并且名称为“适应性信道间判别再缩放滤波器”的临时申请号62/078,844的权益和优先权,其全文以引用的方式并入本文中。
发明领域
本发明总体上涉及用于处理音频的技术,包括用于隔离声音数据,从音频信号去除噪声,或者甚至在输出音频信号之前增强音频信号的技术。还涉及用于处理音频信号的装置和系统。
背景技术
各种音频设备,包括现有移动电话的情形,包括定位和朝向以接收来自意向声源的音频的主麦克风,和定位和朝向以接收背景噪声并且同时从意向声源接收极少音频或不从意向声源接收音频的参考麦克风。在许多应用情景中,参考麦克风提供了噪声量的指示符,其可能存在于由主麦克风获得音频信号的主信道中。具体地,针对给定频带的相对频谱功率级,在所述主信道和参考信道之间可以指示所述频带是否由噪声或在所述主信道中的信号所支配。因而然后可以选择性地抑制或增强在该频带中的主信道音频。
然而,情况是,在主信道中语音(分别是噪声)占据优势的概率,被认为是在主信道和参考信道之间的未改变的相对频谱功率级的函数,可以由频点改变,并不随着时间固定。因此,使用原始功率比,固定阈值,和/或在信道间基于比较的滤波中的固定再缩放因子(rescaling factors),会充分导致在主信道音频中的不理想的语音抑制和/或噪声放大。
因而,需寻求在估算在输入信道之间的噪声占据/语音占据功率级差方面、在抑制存在于主输入信道中的噪声和增强存在于主输入信道中的语音方面的提高。
发明内容
本发明特征的一个方面特征在于,在一些实施例中的,一种用于变换音频信号的方法。该方法包括利用音频设备的主麦克风获得音频信号的主信道;利用音频设备的参考麦克风获得音频信号的参考信道;估算多个频点的音频信号的主信道的频谱幅度;以及估算多个频点的音频信号的参考信道的频谱幅度。该方法还包括通过应用分式线性变换和高阶有理函数变换的至少一个来变换多个频点率接收的一个或多个频谱幅度;以及进一步变换多个频点率接收的一个或多个频谱幅度。该进一步变换可以包括如下一个或多个:重新标准化一个或多个频谱幅度;指数化一个或多个频谱幅度;瞬时平滑一个或多个频谱幅度;频率平滑一个或多个频谱幅度;基于VAD平滑一个或多个频谱幅度;音质平滑一个或多个频谱幅度;将相位差的估算与一个或多个已变换频谱幅度进行组合;以及将VAD估算与一个或多个已变换频谱幅度进行组合。
在一些实施例中,该方法包括基于增量式输入,更新每个频点的分式线性变换和高阶有理函数变换中的至少一个。
在一些实施例中,该方法包括将前SNR估算和后SNR估算中的至少一个与一个或多个已变换频谱幅度进行组合。
在一些实施例中,该方法包括将信号功率级差(SPLD)与一个或多个已变换频谱幅度进行组合。
在一些实施例中,该方法包括基于噪声幅度估算和噪声功率级差(NPLD)计算参考信道的校正频谱幅度。在一些实施例中,该方法包括基于噪声幅度估算和NPLD计算主信道的校正频谱幅度。
在一些实施例中,该方法包括两者中的至少一个:由在一帧内的相邻频频点间获取的加权平均数替换一个或多个频谱幅度,以及由来自先前帧的对应频点获取的加权平均数替换一个或多个频谱幅度。
本发明特征的另一个方面特征在于,在一些实施例中的一种用于调节施加到音频信号的滤波的程度的方法。该方法包括利用音频设备的主麦克风获得音频信号的主信道;利用音频设备的参考麦克风获得音频信号的参考信道;估算音频信号的主信道的频谱幅度;以及估算音频信号的参考信道的频谱幅度。该方法还包括建模音频信号的主信道的快速傅立叶变换(FFT)系数的概率密度函数(PDF);建模音频信号的参考信道的快速傅立叶变换(FFT)系数的概率密度函数(PDF);最大化信号信道PDF和联合信道PDF的至少一个以提供在参考信道的噪声幅度估算与主信道的噪声幅度估算之间的判别相关差异(DRD);以及确定对于给定频率哪个频谱幅度较大。该方法还包括当主信道的频谱幅度比参考信道的频谱幅度强时,强化主信道;当参考信道的频谱幅度比主信道的频谱幅度强时,削弱主信道;并且其中所述强化和削弱包括:计算乘法再缩放因子以及当存在先前阶段时,将所述乘法再缩放因子应用于在语音增强滤波器链的先前阶段中计算的增益;在不存在前阶段的情况下,直接应用增益。
在一些实施例中,将乘法再缩放因子作为增益使用。
在一些实施例中,该方法包括主音频信道和参考音频信道的中至少一个的每个频谱帧具有增量式输入。
在一些实施例中,增量式输入包括用于主信道的频谱帧的每个频点中的前SNR和后SNR的估算。在一些实施例中,增量式输入包括在用于主信道和参考信道的频谱帧的对应频点之间的每个频点NPLD的估算。在一些实施例中,增量式输入包括在用于主信道和参考信道的频谱帧的对应频点之间的每个频点SPLD的估算。在一些实施例中,增量式输入包括在主信道和参考信道之间的每个频点相位差的估算。
本发明另一个方面特征在于,在一些实施例中,一种音频设备,包括用于接收音频和用于发送音频信号的主信道的主麦克风;用于从与主麦克风不同角度接收音频信号和用于发送音频信号的参考信道的参考麦克风;以及用于处理音频信号以滤波或净化音频信号的至少一个处理元件,该至少一个处理单元被配置为执行用于实现本文所述方法中的任何方法的程序。
附图说明
本发明的更完整的理解可以通过参考具体实施方式并结合附图而得到,
图1示出了根据一个实施例的适应性信道间判别判别再缩放滤波器处理。图2示出了根据一个实施例的用于适应性信道间判别判别再缩放滤波器处理中的输入变换。
图3示出了根据一个实施例的噪声功率级和语音功率级的比较。
图4示出了根据一个实施例的噪声和语音功率级概率分布函数的估算。
图5示出了根据一个实施例的噪声功率级和语音功率级的比较。
图6示出了根据一个实施例的噪声和语音功率级概率分布函数的估算。
图7示出了根据一个实施例的噪声功率级和语音功率级的比较和判别增益函数的估算。
图8示出了分析数字音频数据的计算机架构。
具体实施方式
下面的描述仅是本发明的示例性实施例,而不旨在限制本发明的范围、适用性或配置。相反,下面的描述旨在提供用于实现本发明的各个实施例的方便说明。如将变得显而易见,在不脱离本文提出的本发明的范围的情况下,在这些实施例中描述的元件的功能和布置可以作出各种改变。因此,这里呈现的详细说明目的仅为图示而不是限定。。
在说明书中涉及“一个设施例”或“一实施例”,旨在指示在所描述的与实施例有关的具体特征、结构、或性能至少包括在本发明的一个实施例中。在本说明书的各处术语“在一个实施例中”或“一实施例”并非都涉及相同实施例。
本发明延伸到用于分析数字数据的方法、系统和计算机程序产品。分析的数字数据可以例如是数字音频文件、数字视频文件、实时音频流、和实时视频流、等等。本发明识别在数字数据源中的图案并且使用该识别图案来分析,净化和滤波数字数据,例如以隔离或增强声音数据。本发明的具体实施例涉及数字音频。实施例被设计为对任何音频源执行非破坏性音频隔离和分离。
适应性信道间判别再缩放滤波器(AIDR)的目的在于分别基于主频谱和参考频谱Y1和Y2的相关性调整的相对功率级,调节来自主麦克风的输入的频谱表示的滤波程度,该输入被假定为包含的功率来自所需信号比来自噪声的更多。假定来自参考麦克风的输入包含相关性调整的功率来自混杂噪音的比来自期望信号的更多。。
如果检测到第二麦克风输入趋于包含比主麦克风输入更多的语音(例如,用户沿着相反朝向握着手机),那么关于Y1和Y2的相对幅度的期望值也将翻转。那么在下面描述中,简单互换Y1和Y2等的角色,除了增益修正会继续应用到Y1。
AIDR滤波器的逻辑,总体上讲,对于给定频率,当参考输入比主输入强时,那么在主输入中的对应频谱幅度呈现出噪声大于信号,并且应该被抑制(或者至少不被强化)。当参考输入和主输入的相对强度翻转,在主输入中的对应频谱幅度呈现出信号大于噪声,并且应该被强化(或者至少不被抑制)。
然而,以与噪声抑制/语音增强内容相关的方式精确确定主输入中的给定频谱分量是否实际上“强”于在参考信道中的对应频谱分量,通常需要将主频谱输入和参考频谱输入的一个或两个从算法上变换到合适形式。下面的变换,滤波和噪声抑制经由主输入信道的频谱分量的判别再缩放来实现。该抑制/增强通常通过计算要应用到在语音增强滤波器链路的先前阶段中计算的增益的乘法再缩放因子来实现,虽然通过恰当地选择参数再缩放因子本身也可以使用增益。
1滤波器输入
在图1中呈现了AIDR滤波器的多阶段估算和判别处理的示意图。来自主麦克风和次级(参考)麦克风的时间域信号y1,y2,假设为已经处理成来自AIDR滤波器上游的采样的相等长度帧,yi(s,t),其中i∈{1,2},s=0,1,...是在该帧内的采样标记,并且t=0,1,...是帧标记。这些采样帧将经由傅立叶变换被进一步转换成频谱域,即yi→Yi,其中Yi(k,m)指示第m个频谱帧的第k个离散频率分量(“频点”),其中k=1,2,...,K,并且m=0,1,....,注意K,每个频谱帧的频点数,通常根据在时间域中的采样率确定,例如对于16kHz的采样率为512个频点。Y1(k,m)和Y2(k,m)为到AIDR滤波器的必需输入。
如果AIDR滤波器结合到跟随其他处理部件的语音增强滤波器链路中,携带附加信息的增量式输入可以伴随每个频谱帧。值得关注的具体示例输入(使用在不同滤波器变形中)包括
1.在用于主信号的频谱帧的每个频点中的前SNRξ(k,m)和后SNRη(k,m)的估算。这些值通常将已经由先前统计滤波阶段计算,例如,MMSE,功率级差(PLD),等。这些是相同长度的矢量输入,如Yi。
2.在用于主信号和次级信号的频谱帧的对应频点之间的每频点噪声功率级差(NPLD),αNPLD(k,m)的估算。这些值将已经由PLD滤波器计算。这些是相同长度的矢量输入,如Yi。
3.在用于主信号和次级信号的频谱帧的对应频点之间的每频点语音功率级差(SPLD),αNPLD(k,m)的估算。这些值将已经由PLD滤波器计算。这些是相同长度的矢量输入,如Yi。
4.由先前声音活跃性检测(VAD)阶段计算的、存在于主信号和次级信号中的语音的概率,S1和/或S2的估算。假设标量Si∈[0,1]。
5.在第m个帧中主输入和参考输入的频谱之间的相位角分离,Δφ(m)的估算,如由合适前处理阶段提供的,例如,PHAT(相位变换),GCC-PHAT(广义交叉相关和相位变换),等等。
2阶段1a:输入变换
所需输入Yi结合到单个矢量用于使用在判别再缩放(阶段2)中,如将简短描述。在图2中呈现了AIDR滤波器的输入变换和组合处理的放大大图。该组合处理不一定直接作用在幅度Yi(k,m)上,而是可以首先将原始幅度变换成更合适的表示其例如用来平滑出瞬间和频率间波动或以频率相关方式重新加权幅度/对幅度再缩放。
原型变换(阶段1预处理)包括
1.幅度的重新标准化,例如
2.幅度提升到一功率,即注意,pi可以是负数,可以不必须是整数值,并且p1可以不等于p2。对于恰当选择的pi,该变换的一个作用可以是通过在给定帧内提升频谱波峰并且填平频谱波谷来强化差异。
3.通过在一帧内的相邻频点间获取的加权平均替换幅度。该变换在频率上提供了局部平滑,并且可以帮助减少可能已经在编辑过FFT幅度的先前处理步骤中引入的音乐噪声的负面影响。示例如,幅度Y(k,m)可以经由下式由它的值和相邻频点的幅度的值的加权平均替换
此处wk=(1,2,1)是频点权重的矢量。w包括的下标k用来确认如下可能性,,即用于局部平均的加权矢量可以相对于不同频率是不同的,例如对于低频更窄,对于高频更宽。加权矢量不需要关于第k个(中间)频点对称。例如,可以非对称地更重地加权在中间频点以上(在频点标记和对应频率两者中)的频点。这在播放语音期间是有用的,以强调在基带频率附近的频点和它的更高谐波。
4.通过来自先前帧的对应频点间获取的加权平均替换幅度。该变换在每个频点内提供瞬间平滑,并且可以帮助减少可能已经在编辑过FFT幅度的先前处理步骤中引入的音乐噪声的负面影响。瞬间平滑可以以各种方式实施。例如
a)简单加权平均:
b)指数化平均:
这里β∈[0,1]是平滑参数,其确定来自当前帧的频点幅度相对于先前帧的相对权重。
5.具有基于VAD加权的指数化平滑:它还可以用来执行瞬间平滑,在其中包括仅来自包含/不包含语音信息的那些先前帧的频点幅度。这需要由先前信号处理阶段计算的足够精确VAD信息(增量式输入)。VAD信息可以如下结合到指数化平滑中
a)
在该变形中,m*<m是最近先前帧的标记,以便Si(m*)大于(或小于)指示语音存在/不存在的特定阈值。
b)替代地,语音存在的概率可以直接用来修正平滑率
在该变形中,β是Si的函数,例如,具有选择参数以便Si移动到小于(相应地,大于)给定阈值时β(Si)靠近固定值βa(相应地,βb)时的S形函数。
6.根据音质重要性的重新加权:混合频率和ERB度量加权。
注意任何和/或全部上述阶段可以组合,或者一些阶段可以省略,其中它们的各个参数根据应用进行调节(例如,用于自动语音识别而不是移动电话的混合比例重新加权)。
3阶段1b:适应性输入组合
应用帧标记m的输入变换阶段的最终输出表示为u(m)。注意u(m)是具有与Yi相同长度的矢量,并且u(k,m)指示u的与第m个离散帧的第k个离散频率分量相关的分量。u(m)的计算需要修正过的必要输入并且一般形式上这由矢量赋值函数f完成:
在它的最简单实例中,f在上的每个频点动作可以表达为分数线性变换:
不失一般性,u(k,m)的较大值可以假定为指示在第k个频点在时间标记m处来自所需信号的功率比来自混合噪声更多。
更一般地,fk的分子和分母可以替代地包括在中的高阶关系表达式:
此外,利用该一般表示(奇泽姆表达式)在任何期望的精度级别内可以表示任何片段平滑变换。此外,变换参数(在这些示例中,为Ak,Bk,Ck,Dk,或Ai,k,Cj,k)可以根据频点改变。例如,在低频带对比高频带,在其中预期噪声功率特征在低频带对比高频带不同的情况下,使用频点的不同参数会是有用的。
实际上,fk的参数不是固定的,而是基于增量式输入从帧到帧地更新,例如
Bk=Bk(αNPLD(k,m),ξ(k,m),η(k,m),S1(m),Δφ(m)), (1)
Dk=Dk(αNPLD(k,m),S1(m),Δφ(m)) (2)
或者
Ai,k=Ai,k(αNPLD(k,m),ξ(k,m),η(k,m),S1(m),Δφ(m)), (3)
Cj,k=Cj,k(αNPLD(k,m),S1(m),Δφ(m)) (4)
等。
原始输入Y1(k,m),Y2(k,m)的调节实现原始频谱功率每个频点变换的估值直至该数值更接近达到区别输入Y1(k,m)中的哪些分量主要与预期信号更相关的目的。变换可以用来改变在主频谱和/或参考频谱中的相对波峰和波谷的比例,以平滑(或削平)频谱瞬变,和/或以校正在主麦克风和参考麦克风之间的朝向或空间分离方面的差异。随着时间的推移,这些因子会发生变化,当AIDR滤波器有效时,变换的相关参数通常每帧更新一次。
4阶段2:判别再缩放
第二阶段的目的在于通过减去被估算以包含比期望语音更多的噪声的那些Y1(k,m)幅度,滤波来自主信号的噪声分量。阶段1的输出u(m)用于该估算。如果我们将阶段2的输出作为用于Y1(m)的每个频率分量的乘法增益的矢量,那么当u(k,m)指示非常小的SNR时第k个增益应该较小(靠近0),并且如果u(k,m)指示非常大的SNR时第k个增益应该较大(接近1,例如,增益限制为非构造性的)。对于中间情况,期望在这些极端之间具有梯度转变。
一般而言,在滤波器的第二步骤中,矢量u被片段平滑地转换成矢量w,以这样的形式,小值uk映射到小值wk,并且大值uk映射到大的非负值wk。这里k指示频点标记。该变换经由矢量赋值函数给定g(u)=w实现。元素方面,g由非负片段平滑函数描述。对于一些有限Bk,可以刚好是0≤wk≤Bk的情况,但g既要没有边界也不是正数。然而,在输入uk的似乎合理范围上,每个gk应该是有限的,并且非负的。
g的原型示例表征为在每个坐标中的简单S形函数:
广义化逻辑函数更灵活:
参数αk设置wk的最小值。它通常选择为小的正值,例如,0.1,以避免Y(k,m)的总抑制。
参数βk,为wk的最大值的主行列式,并且它通常设置为1,以便高SNR分量不由滤波器修改。然而,对于一些应用,βk可以取为比1稍微大。例如,当AIDR使用作为在较大滤波算法中的后处理部分,并且前滤波阶段趋于衰减主信号(全局地或在特定频带中)时,那么βk>1可以用来重新存储之前抑制的一些语音分量。
在u(k,m)值的过渡、中间范围中gk的输出由控制最大斜率的程度、横坐标和纵坐标的参数δk,vk,和μk确定。
对应各种扬声器在噪声情况的宽泛范围内这些参数的初始值通过检查u(k,m)的分布来确定,并且将u(k,m)值与噪声和语音的相对功率级比较。这些分布可以基本上随着混合SNR和噪声类型改变;在扬声器之间具有很少变化。在(心理声学/频率)带之间也有清晰的差异。在各个频带内噪声功率级对比语音功率级的概率分布的示例示出在图3-图6中。
因此获得的经验曲线可以和广义逻辑函数很好地匹配。广义逻辑函数提供最佳的拟合,虽然简单S形通常是足够的。图7表示拟合到经验概率数据的基本S形函数和广义逻辑函数。通过聚合许多扬声器和噪声类型可以发现简单“最佳”参数组,或者参数组可以被调适到特定扬声器和噪声类型。
5附加注意事项
为了便利,可以被代入在阶段2的(广义)逻辑函数中的u(k,m)。这具有将可在数个数量级上的范围的值集中到更小的间隔内的作用。然而,不需要采取函数输入的算法,通过使用算法再缩放和参数值的代数重组,可以实现相同最终结果。
在阶段2中的参数值可以“基于决策指导”固定极限值内调节。
矢量w可以被用作要应用到主输入的频谱幅度的乘法增益的独立矢量,或者其可以被用于在先前滤波阶段中计算的增益的比例因子和/或变换因子。
当使用独立滤波器时,AIDR滤波器使用频谱功率的修正的相对级作为前SNR的特别估值、且使用S形函数作为增益函数,来提供基本噪声抑制。
本发明的实施例还可以延伸到用于分析数字数据的计算机程序产品。该计算机程序产品可以旨在执行在计算机处理器上的计算机可执行指令,以便执行用于分析数字数据的方法。该计算机程序产品可以包括具有编码在其上的计算机可执行指令的计算机可读介质,其中当合适计算机环境内的合适处理器上执行时,计算机可执行指令执行如本文进一步描述的分析数字数据的方法。
本发明的实施例可以包括或使用专用或通用计算机,包括计算机硬件,举例而言,例如,一个或多个计算机处理器和数据存储器或内存,如下面更详细描述。在本发明的范围内的实施例还包括用于运行或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。该计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质。承载计算机可执行指令的计算机可读介质是传输介质。因此,借由示例,并且非限制性的,本发明的实施例可以包括这是两种明显不同类型的计算机可读介质:计算机存储介质和传输介质。
计算机存储介质包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或可用于携带或存储计算机可执行指令或数据结构形式的所需程序代码部件且可由通用或专用计算机访问的任何其他介质。
“网络”定义为能够在计算机系统和/或模块和/或其他电子设备之间传送电子数据的一个或多个数据链路。当信息在网络或另一通信连接(硬连线、无线或硬连线或无线的组合)上传输或提供给计算机时,计算机将连接完全视为计算机可读介质。传输介质可以包括网络和/或数据链路,其可以用来携带或传输可由通用或专用计算机接收或访问的计算机可执行指令或数据结构形式的所需程序代码部件。以上的组合也应包括在计算机可读介质的范围之内。
此外,在到达各种计算机系统组件之后,计算机可执行指令或数据结构形式的程序代码装置可从传输介质自动传输到计算机存储介质(或反之亦然)。例如,通过网络或数据链路接收到的计算机可执行指令或数据结构可被缓冲在网络接口模块(例如,网络接口卡或“NIC”)内的RAM中,然后最终被传输给计算机系统RAM和/或计算机系统处的具有较不易失性的计算机存储介质。因而,应当理解,计算机存储介质可被包括在还利用(或甚至主要利用)传输介质的计算机系统组件中。
计算机可执行指令例如包括致使通用计算机、专用计算机、或专用处理设备执行某个功能或某组功能的指令。计算机可执行指令可以是例如二进制代码、诸如汇编语言之类的中间格式指令、或甚至源代码。尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述特征或动作。相反,上述特征和动作是作为实现权利要求的示例形式而公开的。
本领域的技术人员将理解,本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践,这些计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子设备、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等等。本发明还可在分布式系统环境中实践,在该环境中本地和远程计算机系统通过网络(经由硬连线数据链路、无线数据链路、或者经由硬连线和无线数据链路的组合)链接起来,每个计算机系统都执行任务。在分布式系统环境中,程序模块可位于本地和远程存储器存储设备中。
参考图8,示例计算机架构600图示为用于分析数字音频数据。计算机架构600,在此也称为计算机系统600,包括一个或多个计算机处理器602和数据存储器。数据存储器可以是在计算机系统600内的存储器604并且可以是易失性或非易失性存储器。计算机系统600还可以包括用于显示数据或其他信息的显示器。计算机系统600还可以包含通信信道608,其允许计算机系统600域其他计算系统、设备、或数据源例如在网络(例如或许是因特网610)上通信。计算机系统600还可以包括输入设备,例如麦克风606,其允许访问数字或模拟数据源。该数字或模拟数据可以例如是音频或视频数据。数字或模拟数据可以为实时流动数据的形式,例如来自活动麦克风,或者可以是从数据存储器614访问的存储数据,数据存储器614可以由计算机系统600直接访问或可以通过通信信道608或经由网络例如因特网610更远程访问。
通信信道608是传输介质的示例。传输介质通常将计算机可读指令、数据结构、程序模块或者其他数据包含在诸如载波或其他传输机制的调制数据信号中,并且包括任何信息传递介质。借由示例,并且非限制性地,传输介质包括有线介质,例如有线网络和有线直接连接,以及无线介质例如声学、射频、红外和其他无线介质。术语“计算机可读介质”在本文中使用时包括计算机存储器介质和传输介质两者。本发明范围内的实施例还包括用于携带或在其上具有计算机可执行指令或数据结构的计算机可读介质。这类计算机可读介质称为“计算机存储介质”可以是可由通用或专用计算机系统访问的任一可用介质。借由示例,而非限制性地,这类计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备等物理存储介质、或其它可用来以计算机可执行指令或数据结构的形式携带或储存所期望的程序代码部件并可由通用或专用计算机访问的任何其他介质。
计算机系统可以在例如局域网(LAN)、广域网(WAN)无线广域网(WWAN)、以及甚至因特网110的网络互相连接。因而,每个所述计算机系统和任何其他连接的计算机系统和它们的部件,都可以产生信息相关数据并且在网络上交换信息相关数据(例如,因特网协议(“IP”)数据报和使用IP数据报的其他更高层协议,例如传输控制协议(“TCP”)、超文本传输协议(“HTTP”),简单邮件传输协议(“SMTP”)等)。
本发明其它方面,以及各方面的特征和优点,基于考虑上面的说明内容、相应的附图和所附的权利要求书,对于本领域的普通技术人员非常明显。
尽管前述公开内容提供许多具体细节,但这些细节不应当被解释为限制任何随后的权利要求的范围。可设计没有脱离权利要求范围的其他实施方案。来自不同实施方案的特征可结合使用。
最后,虽然本发明关于以上各种示例性实施例被描述,但在不背离本发明的范围的情况下,可以对示例性实施例进行许多改变、组合和修改。例如,虽然已经描述了本发明用于语音检测,本发明的各方面可以容易地应用于其他音频,视频,数据检测方案。此外,各个元件、部件和或流程可以以交替方式来实施。这些可替代方式可以根据特定的应用或考虑任意数量的与该设备操作相关联的因素而被适当地选择。此外,本文描述的技术可以被扩展或被修改以与其他类型的设备一起使用。这些和其他改变或修改意图被包含在本发明的范围内。
Claims (16)
1.一种用于变换音频信号的方法,包括:
利用音频设备的主麦克风获得音频信号的主信道;
利用音频设备的参考麦克风获得音频信号的参考信道;
估算多个频点的音频信号的主信道的频谱幅度;
估算多个频点的音频信号的参考信道的频谱幅度;
通过应用分数线性变换和高阶有理函数变换中的至少一个变换多个频率接收的一个或多个频谱幅度;以及
通过如下的至少一种变换多个频率接收的一个或多个频谱幅度:
重新标准化一个或多个频谱幅度;
指数化一个或多个频谱幅度;
瞬时平滑一个或多个频谱幅度;
频率平滑一个或多个频谱幅度;
基于VAD平滑一个或多个频谱幅度;
心理声学(psychoacoustic)平滑一个或多个频谱幅度;
将相位差的估算与一个或多个已变换频谱幅度进行组合;以及
将VAD估算与一个或多个已变换频谱幅度进行组合。
2.如权利要求1所述的方法,还包括基于增量式输入更新每个频点的分数线性变换和高阶有理函数变换的至少一个。
3.如权利要求1所述的方法,还包括将前SNR估算和后SNR估算的至少一个与一个或多个已变换频谱幅度进行组合。
4.如权利要求1所述的方法,还包括将信号功率级差(SPLD)与一个或多个已变换频谱幅度进行组合。
5.如权利要求1所述的方法,还包括基于噪声幅度估算和噪声功率级差(NPLD)计算参考信道的校正频谱幅度。
6.如权利要求5所述的方法,还包括基于噪声幅度估算和NPLD计算主信道的校正频谱幅度。
7.如权利要求1所述的方法,还包括由跨越在一帧内的相邻频点获取的加权平均替换一个或多个频谱幅度和由跨越来自先前频点的对应频点获取的加权平均替换一个或多个频谱幅度的至少一个。
8.一种用于调节施加到音频信号的滤波的程度的方法,包括:
利用音频设备的主麦克风获得音频信号的主信道;
利用音频设备的参考麦克风获得音频信号的参考信道;
估算音频信号的主信道的频谱幅度;
估算音频信号的参考信道的频谱幅度;
建模音频信号的主信道的快速傅立叶变换(FFT)系数的概率密度函数(PDF);
建模音频信号的参考信道的快速傅立叶变换(FFT)系数的概率密度函数(PDF);
最大化信号信道PDF和联合信道PDF中的至少一个以提供在参考信道的噪声幅度估算与主信道的噪声幅度估算之间的判别相关差异(DRD);
确定对于给定频率哪个频谱幅度较大;
当主信道的频谱幅度比参考信道的频谱幅度强时,强化主信道;
当参考信道的频谱幅度比主信道的频谱幅度强时,削弱主信道;以及
其中所述强化和削弱包括计算乘法再缩放因子,并且当存在先前阶段时,将所述乘法再缩放因子应用于在语音增强滤波器链的先前阶段中计算的增益,在不存在前阶段的情况下,直接应用增益。
9.如权利要求8所述的方法,其中将所述乘法再缩放因子作为增益使用。
10.如权利要求8所述的方法,还包括主音频信道和参考音频信道的至少一个的每个频谱帧具有增量式输入。
11.如权利要求10所述的方法,其中增量式输入包括用于主信道的频谱帧的每个频点中的前SNR和后SNR的估算。
12.如权利要求10所述的方法,其中增量式输入包括在用于主信道和参考信道的频谱帧的对应频点之间的每个频点NPLD的估算。
13.如权利要求10所述的方法,其中增量式输入包括在用于主信道和参考信道的频谱帧的对应频点之间的每个频点SPLD的估算。
14.如权利要求10所述的方法,其中增量式输入包括在主信道和参考信道之间的每个频点相位差的估算。
15.一种音频设备,包括:
用于接收音频和用于发送音频信号的主信道的主麦克风;
用于从与主麦克风不同角度接收音频信号和用于发送音频信号的参考信道的参考麦克风;以及
用于处理音频信号以滤波或净化音频信号的至少一个处理元件,该至少一个处理元件配置为执行用于实施如下方法的程序,该方法包括:
利用音频设备的主麦克风获得音频信号的主信道;
利用音频设备的参考麦克风获得音频信号的参考信道;
估算音频信号的主信道的频谱幅度;
估算音频信号的参考信道的频谱幅度;
建模音频信号的主信道的快速傅立叶变换(FFT)系数的概率密度函数(PDF);
建模音频信号的参考信道的快速傅立叶变换(FFT)系数的概率密度函数(PDF);
最大化信号信道PDF和联合信道PDF中的至少一个以提供在参考信道的噪声幅度估算与主信道的噪声幅度估算之间的判别相关差异(DRD);
确定对于给定频率哪个频谱幅度较大;
当主信道的频谱幅度比参考信道的频谱幅度强时,强化主信道;
当参考信道的频谱幅度比主信道的频谱幅度强时,削弱主信道;以及
其中所述强化和削弱包括计算乘法再缩放因子并且应用该乘法再缩放因子到当具有先前阶段时在语音增强滤波器链路的先前阶段中计算的增益,并且在没有先前阶段时直接应用增益。
16.一种音频设备,包括:
用于接收音频和用于发送音频信号的主信道的主麦克风;
用于从与主麦克风不同角度接收音频信号和用于发送音频信号的参考信道的参考麦克风;以及
用于处理音频信号以滤波或净化音频信号的至少一个处理元件,该至少一个处理元件配置为执行用于实现如下方法的程序,该方法包括:
利用音频设备的主麦克风获得音频信号的主信道;
利用音频设备的参考麦克风获得音频信号的参考信道;
估算多个频点的音频信号的主信道的频谱幅度;
估算多个频点的音频信号的参考信道的频谱幅度;
通过应用分数线性变换和高阶有理函数变换的至少一个变换多个频率接收的一个或多个频谱幅度;以及
通过如下的至少一种变换多个频率接收的一个或多个频谱幅度:
重新标准化一个或多个频谱幅度;
指数化一个或多个频谱幅度;
瞬时平滑一个或多个频谱幅度;
频率平滑一个或多个频谱幅度;
基于VAD平滑一个或多个频谱幅度;
心理声学平滑一个或多个频谱幅度;
将相位差的估算与一个或多个已变换频谱幅度进行组合;以及
将VAD估算与一个或多个已变换频谱幅度进行组合。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462078844P | 2014-11-12 | 2014-11-12 | |
US62/078844 | 2014-11-12 | ||
US14/938816 | 2015-11-11 | ||
US14/938,816 US10013997B2 (en) | 2014-11-12 | 2015-11-11 | Adaptive interchannel discriminative rescaling filter |
PCT/US2015/060337 WO2016077557A1 (en) | 2014-11-12 | 2015-11-12 | Adaptive interchannel discriminitive rescaling filter |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107969164A true CN107969164A (zh) | 2018-04-27 |
CN107969164B CN107969164B (zh) | 2020-07-17 |
Family
ID=55912723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580073107.1A Active CN107969164B (zh) | 2014-11-12 | 2015-11-12 | 适应性信道间判别再缩放滤波器 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10013997B2 (zh) |
EP (1) | EP3219028A4 (zh) |
JP (3) | JP6769959B2 (zh) |
KR (1) | KR102532820B1 (zh) |
CN (1) | CN107969164B (zh) |
WO (1) | WO2016077557A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110739005A (zh) * | 2019-10-28 | 2020-01-31 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
CN111161749A (zh) * | 2019-12-26 | 2020-05-15 | 佳禾智能科技股份有限公司 | 可变帧长的拾音方法、电子设备、计算机可读存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10847173B2 (en) | 2018-02-13 | 2020-11-24 | Intel Corporation | Selection between signal sources based upon calculated signal to noise ratio |
US20240062774A1 (en) * | 2022-08-17 | 2024-02-22 | Caterpillar Inc. | Detection of audio communication signals present in a high noise environment |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6584204B1 (en) * | 1997-12-11 | 2003-06-24 | The Regents Of The University Of California | Loudspeaker system with feedback control for improved bandwidth and distortion reduction |
CN101916567A (zh) * | 2009-11-23 | 2010-12-15 | 瑞声声学科技(深圳)有限公司 | 应用于双麦克风系统的语音增强方法 |
CN101976565A (zh) * | 2010-07-09 | 2011-02-16 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及方法 |
US20130054231A1 (en) * | 2011-08-29 | 2013-02-28 | Intel Mobile Communications GmbH | Noise reduction for dual-microphone communication devices |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3435687B2 (ja) * | 1998-03-12 | 2003-08-11 | 日本電信電話株式会社 | 収音装置 |
DE60108401T2 (de) * | 2000-08-14 | 2006-04-06 | Clear Audio Ltd. | System zur erhöhung der sprachqualität |
US7171003B1 (en) | 2000-10-19 | 2007-01-30 | Lear Corporation | Robust and reliable acoustic echo and noise cancellation system for cabin communication |
US6819480B2 (en) | 2002-05-02 | 2004-11-16 | Lucent Technologies Inc. | Method and apparatus for controlling the extinction ratio of transmitters |
US8924204B2 (en) * | 2010-11-12 | 2014-12-30 | Broadcom Corporation | Method and apparatus for wind noise detection and suppression using multiple microphones |
WO2012119140A2 (en) | 2011-03-03 | 2012-09-07 | Edwards Tyson Lavar | System for autononous detection and separation of common elements within data, and methods and devices associated therewith |
US20140025374A1 (en) * | 2012-07-22 | 2014-01-23 | Xia Lou | Speech enhancement to improve speech intelligibility and automatic speech recognition |
US9094749B2 (en) | 2012-07-25 | 2015-07-28 | Nokia Technologies Oy | Head-mounted sound capture device |
DE13750900T1 (de) * | 2013-01-08 | 2016-02-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verbesserung der Sprachverständlichkeit bei Hintergrundrauschen durch SII-abhängige Amplifikation und Kompression |
-
2015
- 2015-11-11 US US14/938,816 patent/US10013997B2/en active Active
- 2015-11-12 EP EP15858206.4A patent/EP3219028A4/en not_active Withdrawn
- 2015-11-12 CN CN201580073107.1A patent/CN107969164B/zh active Active
- 2015-11-12 WO PCT/US2015/060337 patent/WO2016077557A1/en active Application Filing
- 2015-11-12 JP JP2017525347A patent/JP6769959B2/ja active Active
- 2015-11-12 KR KR1020177015629A patent/KR102532820B1/ko not_active Application Discontinuation
-
2020
- 2020-05-12 JP JP2020083721A patent/JP2020122990A/ja not_active Withdrawn
-
2021
- 2021-12-09 JP JP2021199951A patent/JP7179144B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6584204B1 (en) * | 1997-12-11 | 2003-06-24 | The Regents Of The University Of California | Loudspeaker system with feedback control for improved bandwidth and distortion reduction |
CN101916567A (zh) * | 2009-11-23 | 2010-12-15 | 瑞声声学科技(深圳)有限公司 | 应用于双麦克风系统的语音增强方法 |
CN101976565A (zh) * | 2010-07-09 | 2011-02-16 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及方法 |
US20130054231A1 (en) * | 2011-08-29 | 2013-02-28 | Intel Mobile Communications GmbH | Noise reduction for dual-microphone communication devices |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110739005A (zh) * | 2019-10-28 | 2020-01-31 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
CN110739005B (zh) * | 2019-10-28 | 2022-02-01 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
CN111161749A (zh) * | 2019-12-26 | 2020-05-15 | 佳禾智能科技股份有限公司 | 可变帧长的拾音方法、电子设备、计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2020122990A (ja) | 2020-08-13 |
JP2017538151A (ja) | 2017-12-21 |
KR102532820B1 (ko) | 2023-05-17 |
EP3219028A1 (en) | 2017-09-20 |
WO2016077557A1 (en) | 2016-05-19 |
US20160133272A1 (en) | 2016-05-12 |
JP7179144B2 (ja) | 2022-11-28 |
KR20170082598A (ko) | 2017-07-14 |
JP2022022393A (ja) | 2022-02-03 |
US10013997B2 (en) | 2018-07-03 |
CN107969164B (zh) | 2020-07-17 |
JP6769959B2 (ja) | 2020-10-14 |
EP3219028A4 (en) | 2018-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3511937B1 (en) | Device and method for sound source separation, and program | |
US20130024191A1 (en) | Audio communication device, method for outputting an audio signal, and communication system | |
EP2702585B1 (en) | Frame based audio signal classification | |
CN102741918A (zh) | 用于话音活动检测的方法和设备 | |
CN107004409A (zh) | 利用运行范围归一化的神经网络语音活动检测 | |
JP4746533B2 (ja) | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 | |
US20070025564A1 (en) | Sound source separation apparatus and sound source separation method | |
CN102723082A (zh) | 基于保持语音信息的单耳音频处理系统和方法 | |
CN107969164A (zh) | 适应性信道间判别再缩放滤波器 | |
CN106257584A (zh) | 改进的语音可懂度 | |
JP6439682B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
CN107437421A (zh) | 信号处理器 | |
Uhle et al. | Speech enhancement of movie sound | |
Roma et al. | Remixing musical audio on the web using source separation | |
Zacarias-Morales et al. | Full single-type deep learning models with multihead attention for speech enhancement | |
Li et al. | Single-channel speech separation integrating pitch information based on a multi task learning framework | |
Ghorpade et al. | Single-Channel Speech Enhancement in Modulation Domain Using Particle Swarm Optimization | |
US20230410829A1 (en) | Machine learning assisted spatial noise estimation and suppression | |
Mahesh et al. | Comparative Analysis of Pretrained Models for Speech Enhancement in Noisy Environments | |
Rumsey | Time-Frequency Processing of Spatial Audio | |
Mora-Regalado et al. | SMCS: Automatic Real-Time Classification of Ambient Sounds, Based on a Deep Neural Network and Mel Frequency Cepstral Coefficients | |
Wu et al. | Single-Channel Speech Quality Enhancement in Mobile Networks Based on Generative Adversarial Networks | |
Samanta et al. | An energy-efficient voice activity detector using reconfigurable Gaussian base normalization deep neural network | |
Ramprasad et al. | Performance Evaluation of STSA Based Speech Enhancement Techniques for Speech Communication System | |
Park et al. | Noise Reduction Scheme for Speech Recognition in Mobile Devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221109 Address after: Scotland, Edinburgh, England Patentee after: CIRRUS LOGIC INTERNATIONAL SEMICONDUCTOR Ltd. Address before: Austen, Texas, USA Patentee before: CIRRUS LOGIC, Inc. |