CN102142259A - 用于自动地选择阈值以分离声音源的信号分离系统和方法 - Google Patents

用于自动地选择阈值以分离声音源的信号分离系统和方法 Download PDF

Info

Publication number
CN102142259A
CN102142259A CN2011100373944A CN201110037394A CN102142259A CN 102142259 A CN102142259 A CN 102142259A CN 2011100373944 A CN2011100373944 A CN 2011100373944A CN 201110037394 A CN201110037394 A CN 201110037394A CN 102142259 A CN102142259 A CN 102142259A
Authority
CN
China
Prior art keywords
signal
threshold value
mask
difference
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100373944A
Other languages
English (en)
Other versions
CN102142259B (zh
Inventor
金燦佑
严基完
李在原
理查德·M·斯特恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN102142259A publication Critical patent/CN102142259A/zh
Application granted granted Critical
Publication of CN102142259B publication Critical patent/CN102142259B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

提供了一种用于自动地选择阈值以分离声音源的信号分离系统和方法。所述信号分离系统基于从多个话筒接收的信号,使用目标掩码计算目标信号的幂序列,并使用补充掩码计算干扰信号的幂序列;对目标信号幂序列和干扰信号幂序列应用非线性;计算非线性目标信号幂序列和非线性干扰信号幂序列的相关系数;设置最小化相关系数的噪声掩饰阈值。

Description

用于自动地选择阈值以分离声音源的信号分离系统和方法
本申请要求2010年1月28日提交到韩国知识产权局第10-2010-0007751号韩国专利申请的优先权,该申请全部公开于此以资所有目的的参考。
技术领域
以下描述涉及一种用于自动地选择阈值以分离声音源的信号分离系统和方法。
背景技术
虽然语音识别技术的性能已经极大地提高,但是语音识别的准确性通常在噪声环境中降低。因此,需要有效地解决在消费产品中实际使用的语音识别系统中,语音识别的准确性减小的问题。
因此,需要一种用于从干扰声音源中有效地分离目标声音的系统和方法。
发明内容
在一个总体方面,一种信号分离系统包括:幂序列计算器,基于从多个话筒接收的信号使用目标掩码计算目标信号的幂序列,并使用补充掩码计算干扰信号的幂序列;阈值设置单元,对目标信号幂序列和干扰信号幂序列应用非线性,计算非线性目标信号幂序列和非线性干扰信号幂序列的相关系数,以及设置最小化相关系数的噪声掩饰阈值。
幂序列计算器可基于从接收的信号的耳间时间差值(ITD)、接收的信号的耳间相位差值(IPD)和接收的信号的耳间强度差值(IID)中选择的至少一个差值,来产生目标掩码和补充掩码。
信号分离系统还可包括:差值计算器,将短时傅里叶变换(STFT)应用于每个接收的信号;以及基于STFT变换的信号计算所述至少一个差值。
阈值设置单元可基于非线性目标信号幂序列、非线性干扰信号幂序列以及从接收的信号的耳间时间差值(ITD)、接收的信号的耳间相位差值(IPD)和接收的信号的耳间强度差值(IID)中选择的至少一个差值,来计算相关系数。
阈值设置单元可将所述至少一个差值设置为最小化相关系数的噪声掩饰阈值。
非线性可以是对数非线性或幂法则非线性。
目标掩码和补充掩码的每一个可以是二进制掩码或连续掩码。
在另一总体方面,一种信号分离方法包括:基于从多个话筒接收的信号使用目标掩码计算目标信号的幂序列,并使用补充掩码计算干扰信号的幂序列;对目标信号幂序列和干扰信号幂序列应用非线性;计算非线性目标信号幂序列和非线性干扰信号幂序列的相关系数;以及设置最小化相关系数的噪声掩饰阈值。
在另一总体方面,一种信号分离系统包括:掩饰单元,使用目标掩码和补充掩码分别掩饰从多个话筒接收的信号;阈值设置单元,设置最小化在掩饰的信号之间的相关性的噪声掩饰阈值。
在另一总体方面,一种信号分离方法包括:使用目标掩码和补充掩码分别掩饰从多个话筒接收的信号;以及设置最小化在掩饰的信号之间的相关性的噪声掩饰阈值。
在另一总体方面,一种信号分离系统包括:掩饰频谱产生器,使用目标掩码和补充掩码从多个话筒接收的信号中产生掩饰的目标信号频谱和掩饰的干扰信号频谱;阈值设置单元,基于接收的信号之间的差值来设置目标掩码和补充掩码的阈值,从而所述阈值最小化在掩饰的目标信号频谱的非线性的目标幂序列与掩饰的干扰信号频谱的非线性的干扰幂序列之间的相关性。
在另一总体方面,一种信号分离方法包括:使用目标掩码和补充掩码从多个话筒接收的信号产生掩饰的目标信号频谱和掩饰的干扰信号频谱;以及基于接收的信号之间的差值来设置目标掩码和补充掩码的阈值,从而所述阈值最小化在掩饰的目标信号频谱的非线性的目标幂序列与掩饰的干扰信号频谱的非线性的干扰幂序列之间的相关性。
通过以下详细描述、附图和权利要求,其它特点和方面将会变得更加清楚。
附图说明
图1示出左话筒、右话筒、目标声音源和干扰声音源的示例。
图2示出选择用于声音源分离的最优掩饰耳间时间差值(ITD)阈值的过程的示例。
图3示出信号分离系统的示例。
图4示出信号分离方法的示例。
图5示出信号分离系统的示例。
图6示出信号分离方法的示例。
贯穿附图和详细描述,除非另外说明,相同的附图标号将被理解为表示相同的元件、特征和结构。为了清楚、示出和方便的目的,可夸大这些元件的相对大小和描述。
具体实施方式
提供以下详细描述以助于读者获得对在此描述的方法、设备和/或系统的全面理解。因此,在此描述的方法、设备和/或系统的各种改变、修改和/或等同物将被建议给本领域的普通技术人员。另外,为了增加清楚和简明的目的,可省略已知功能和结构的描述。
即使在混合有各种声音的噪声环境中,人类双耳系统也具有分离期望的声音的能力。这往往称为双耳鸡尾酒会效应。
在用于声音分离的技术中,可基于每种声音的唯一频率、关于声音到来的方向的信息以及用于掩饰除了期望的声音之外的声音的听觉特征,来分离声音。
已经使用耳间时间差值(ITD)、耳间相位差值(IPD)和耳间强度差值(IID)开发了基于声音产生方向的信息的分离信号的各种方法。耳间强度差值(IID)也被称为耳间声级差值(ILD)。由于通过频率分析容易获得相位信息,故相位信息可被广泛用于双耳处理。
在基于如上所述的技术的许多算法中,二进制掩饰方案或连续掩饰方案可被用于选择由目标声音源控制的时频bin。这里,时频表示针对时间变化的频率成分变化,bin表示与各个频率相对应的值(或信息),时频bin表示相关时间中的各个频率成分。连续掩饰方案通常呈现优于二进制掩饰方案的性能,但是通常需要知道噪声源的地点。然而,二进制掩饰方案可用于全向噪声环境或当事先没有关于噪声源的位置或特性的信息的情况中。然而,二进制掩饰方案的性能取决于如何选择阈值,最优阈值取决于非已知的噪声源的位置和强度。另外,如果噪声源的位置和强度可变,则最优阈值可随时间而改变。
以下描述是ITD、IPD和IID中的ITD被设置为阈值时的二进制掩饰方案。大体上,可从一组潜在的ITD候选中选择合适的ITD阈值。然而,最优ITD阈值将取决于噪声源的数量和噪声源的位置,并可随时间而改变。例如,当来自噪声源的声音的方向与来自目标声音源的声音的方向极大地不同时,包括更大范围的ITD的ITD阈值会提供更好的结果。然而,如果当噪声源的位置与目标声音源很接近时使用这样的包括更大范围的ITD的ITD阈值,则干扰声音源信号和目标声音源信号均会被ITD阈值允许通过。当存在多于一个噪声源和/或当噪声源移动时,这个问题可变的更加复杂。
因此,如下所述,可使用采用二进制阈值的两个补充掩码。当使用两个补充掩码时,可获得两个不同频谱:目标声音源的频谱和干扰声音源的频谱。还可从所述两个频谱获得用于目标声音源和干扰声音源的多个短时幂作为短时幂序列。可将非线性应用于短时幂序列。可使用应用的非线性从幂序列计算相关系数,并可选择最小化相关系数的ITD阈值。
下面描述从相位信息中获得ITD的过程。假设xL[n]和xR[n]表示分别从左话筒和右话筒接收的信号。
图1示出左话筒101、右话筒102、目标声音源103和干扰声音源104的示例。如图1所示,目标声音源103位于两个话筒之间的中垂线105上,干扰声音源104位于从中垂线105以顺时针方向旋转角θ的线106上。两个话筒分离距离Δ。从干扰声音源104到左话筒101的距离长于从干扰声音源104到右话筒102的距离,这使来自干扰声音源104的声音相比到达左话筒101更早地到达右话筒102,产生耳间时间差值(ITD)和耳间相位差值(IPD)。在从干扰声音源104到左话筒101的距离与从干扰声音源104到右话筒102的距离之间的差是Δsinθ。由于声音的强度随着距离而减小,故所述距离的差值使在右话筒102的声音的强度大于在左话筒101的声音的强度,从而产生耳间强度差值(IID)。当干扰声音源的总数是S时,单独的声音源s具有各自的ITDδ(s)。S和δ(s)两者通常是未知的。通过上述构想,可通过以下等式1来表示分别从左话筒101和右话筒102接收的由xL[n]和xR[n]表示的信号:
x L [ n ] = x 0 [ n ] + Σ s = 1 S x s [ n ]
x R [ n ] = x 0 [ n ] + Σ s = 1 S x s [ n - δ ( s ) ] - - - ( 1 )
其中,x0[n]表示目标信号,xs[n]表示从每个干扰声音源s接收的信号,其中s的范围从1到S。
为了执行频谱分析,将等式1与汉明窗w[n]相乘,以获得由以下等式2表示的短时信号:
xL[n;m]=xL[n-mLfp]w[n]
其中0≤n≤Lfl-1            (2)
xR[n;m]=xR[n-mLfp]w[n]
其中,m表示帧索引,Lfp表示帧周期,Lfl表示帧长,w[n]表示具有长度Lfl的汉明窗。汉明窗在本领域中公知,因此不在此进行详细描述。另外,n表示数字信号中的取样索引,xL[n;m]和xR[n;m]表示通过左话筒101和右话筒102接收的信号中,在第m帧中的第n个取样的信号。换句话说,由于n和m具有不同特征,故取代于逗号,使用分号来分类n和m。
图2示出选择用于声音源分离的最优掩饰ITD阈值的过程的示例。在操作201a和201b,使用以下等式3对使用等式2从通过左话筒101和右话筒102接收的信号(由等式1表示)中获得的短时信号执行短时傅里叶变换(STFT)。换句话说,可由以下等式3表示与等式1相应的STFT:
X L [ m e j ω k ) = Σ s = 0 S X s [ m , e j ω k )
X R [ m , e jω k ) = Σ s = 0 S e - jω k d s [ m , k ] X s [ m , e jω k ) - - - ( 3 )
其中,ωk=2πk/N(0≤ωk≤N/2-1)表示快速傅里叶变换(FFT)尺寸。[m,k]表示特定时频bin。k表示N个频率bin中具有与ωk相应的正频率取样的一个频率bin。另外,在
Figure BSA00000434295000055
中,“[”可指示m表示离散信号,“)”可指示
Figure BSA00000434295000056
表示连续信号。
假设s*[m,k]是用于特定时频bin[m,k]的最强的声音源,则可从等式3获得以下等式4:
X L [ m , e jω k ) ≈ X s * [ m , k ] [ m , e - jω k ) (4)
X R [ m , e jω k ) ≈ e - j ω k d s * [ m , k ] [ m , k ] × X s * [ m , k ] [ m , e - jω k )
最强的声音源s*[m,k]可以是指示目标声音源的0或指示任何干扰声音源的
在操作202,从等式4,由以下等式5给出来自用于特定时频bin[m,k]的信号
Figure BSA00000434295000064
Figure BSA00000434295000065
的相位的ITD:
| d s * [ m , k ] [ m , k ] | ≈ 1 | ω k | min r | ∠ X R [ m , e - jω k ) - ∠ X L [ m , e - jω k ) - 2 πr | - - - ( 5 )
其中,r表示最小整数倍。
因此,基于从等式5获得的ITD是否在目标ITD(是0)的特定范围内,来确定时频bin[m,k]是否可能属于目标话筒。
在操作203,估计的ITD被平滑。所有频率声道上的平滑可以是有用的。平滑是本领域公知的,因此在此不进行详细描述。
下面,可获得两个补充二进制掩码。两个补充二进制掩码中的一个可识别被认为属于目标信号的时频分量,另一个可识别被认为属于干扰信号(即,除了目标信号之外的所有信号)的分量。两个补充二进制掩码可被用于构造与表示目标源和干扰源的幂序列相应的两个不同频谱。压缩非线性可被应用于幂序列,(非线性之后)最优ITD阈值可被定义为最小化在这两个输出序列之间的互相相关性的阈值。
有限组T的潜在的ITD候选的一个元素τ0可被认为是最优ITD阈值。如以下等式7所表示的,所述元素τ0可用于获得目标掩码μT[m,k]和补充掩码μI[m,k]:
Figure BSA00000434295000067
Figure BSA00000434295000068
其中0≤k≤N/2。
对于N/2≤k≤N-1,可通过以下等式8来使用对称条件:
μT[m,k]=μT[m,N-k],N/2≤k≤M-1
(8)
μI[m,k]=μI[m,N-k],N/2≤k≤M-1
换句话说,仅具有|d[m,k]|≤τ0的时频bin被理解为属于目标声音源,仅具有|d[m,k]|>τ0的时频bin被理解为属于噪声源。
在操作204a和204b,使用等式7所述的掩码分别选择目标时频bin和补充时频bin。对于属于噪声源(即,干扰声音源)的时频bin,可通过将时频bin与值0相乘来去除干扰声音。此外,由于干扰声音频谱通常包含目标声音频谱的一些部分,故具有很小值的最低常数(floor constant)η可用于保留干扰声音频谱中的目标声音频谱的部分。例如,值0.01可用于最低常数η,尽管也可使用其它的值。等式7所述的目标掩码μT[m,k]和补充掩码μI[m,k]被应用于
Figure BSA00000434295000072
是左声道和右声道的平均信号光谱图。可由以下等式9表示平均信号光谱图:
X ‾ [ m , e j ω k ) = 1 2 { X L [ m , e jω k ) + X R [ m , e jω k ) } - - - ( 9 )
使用如上所述的程序,可由以下等式10表示目标频谱
Figure BSA00000434295000074
和干扰频谱
X T ( m , e jω k | τ 0 ) = X ‾ ( m , e jω k ) μ ~ T ( m , k )
X I ( m , e jω k | τ 0 ) = X ‾ ( m , e jω k ) μ ~ I ( m , k ) - - - ( 10 )
等式9明确地包括ITD阈值τ0,以指示目标频谱和干扰频谱将取决于ITD阈值τ0
在操作205a和205b,可通过以下等式11获得目标频谱
Figure BSA00000434295000078
和干扰频谱的帧幂:
P T [ m | τ 0 ) = Σ k = 0 N - 1 | X T ( m , e jω k ) | 2
P I [ m | τ 0 ) = Σ k = 0 N - 1 | X I ( m , e jω k ) | 2 - - - ( 11 )
其中,PT[m|τ0)表示目标声音的幂,PI[m|τ0)表示干扰声音的幂。
在操作206a和206b,非线性被应用于在操作205a和205b中计算的每个幂。声音源的感知的响度不与声音源的强度成比例是公知的。已经提出了许多非线性模型用于表述声音源的感知的响度与强度之间的关系。对数非线性和幂法则非线性被广泛地用作非线性模型。可由以下等式12表示将幂法则非线性应用于在操作205a和205b中计算的幂的结果:
R T [ m | τ 0 ) = P T [ m | τ 0 ) α 0
R I [ m | τ 0 ) = P I [ m | τ 0 ) α 0 - - - ( 12 )
其中,α0表示幂系数,并可具有例如1/15的值。
在操作207,从使用等式11获得的结果计算相关系数。可由以下等式13表示相关系数:
ρ T , I ( τ 0 ) = 1 N Σ m = 1 M R T [ m | τ 0 ) R I [ m | τ 0 ) - μ R T μ R I σ R T σ R I - - - ( 13 )
其中,
Figure BSA00000434295000084
Figure BSA00000434295000085
分别表示RT[m|τ0)和RI[m|τ0)的标准偏差,
Figure BSA00000434295000086
Figure BSA00000434295000087
分别表示RT[m|τ0)和RI[m|τ0)的平均。
随后,使用以下等式14确定最小化由等式12表述的相关系数ρT,I0)的ITD阈值
Figure BSA00000434295000088
τ ^ 0 = arg min τ 0 | ρ T , I ( τ 0 ) | - - - ( 14 )
在操作208,通过使用在操作204a中选择的目标时频bin和最小化在操作207中获得的相关系数的ITD阈值
Figure BSA000004342950000810
将快速傅里叶逆变换(IFFT)应用于每频率单元的幂中,以产生基本没有干扰信号的分离的目标信号。
在操作209,对在操作208中获得的分离的目标信号执行叠加(overlap-addition,OLA)方法,以增加分离的目标信号的质量。OLA方法在本领域中是公知的,因此在此将不作详细描述。
图3示出信号分离系统300的示例。在图3中,信号分离系统300包括差值计算器310、幂序列计算器320和阈值设置单元330。
差值计算器310将STFT应用于从多个话筒接收的多个信号的每一个,并计算三个差值ITD、IPD和IID中的至少一个差值。虽然上述已经参照图1和图2描述了使用ITD的示例,但是可基于噪声环境使用IPD或IID,或者ITD、IPD和IID中的任意两个,或者ITD、IPD和IID三者来自动地设置用于噪声掩饰的阈值。以上已经描述了使用等式5获得ITD的示例。还可以以与ITD相似的方式将IPD或IID应用于所述示例。所述示例与如何使用计算的差值来设置最优阈值有关,从而在此将不对如何获得IPD或IID进行详细的描述。
幂序列计算器320从接收的信号使用目标掩码和补充掩码计算两个幂序列,一个用于目标信号,另一个用于干扰信号。基于由差值计算器310计算的差值来产生目标掩码和补充掩码。例如,基于ITD使用如上所述的等式11来计算用于目标信号的幂和用于干扰信号的幂。目标掩码和补充掩码的每一个可以是二进制掩码或连续掩码。
阈值设置单元330设置用于噪声掩饰的阈值,从而相关系数具有最小值。在将非线性应用于两个幂序列之后计算相关系数。具体地,从应用了非线性的两个幂序列以及由差值计算器310计算的差值计算相关系数。阈值设置单元330将最小化相关系数的差值设置为阈值。非线性可以是对数非线性或幂法则非线性。例如,使用如上所述的等式12到等式14,幂法则非线性可被应用于两个幂序列,并可随后确定ITD,从而相关系数具有最小值。确定的ITD被设置为用于噪声掩饰的最优阈值。在初始声音周期设置最优阈值之后,可确定是否在初始声音周期随后的声音周期使用最优阈值,或者,由于用于掩饰的阈值没有根本改变,故可基于阈值的改变模式来改变搜索范围。
图4示出信号分离方法的示例。图4的信号分离方法可由图3的信号分离系统300执行。以下参照图4描述信号分离方法。
在操作410,信号分离系统300将STFT应用于从多个话筒接收的多个信号的每一个,并计算三个差值ITD、IPD和IID中的至少一个差值。以上已经描述了使用等式5获得ITD的示例,因此在此将不进行详细描述。
在操作420,信号分离系统300基于在操作410中计算的差值来产生目标掩码和补充掩码。目标掩码和补充掩码的每一个可以是二进制掩码或连续掩码。
在操作430,信号分离系统300相对于接收的信号使用目标掩码和补充掩码计算两个幂序列,一个用于目标信号,另一个用于干扰信号。基于在操作410中计算的差值来产生目标掩码和补充掩码。例如,基于ITD使用如上所述的等式11来计算用于目标信号的幂和用于干扰信号的幂。
在操作440,信号分离系统300设置用于噪声掩饰的阈值,从而相关系数具有最小值。在将非线性应用于两个幂序列之后计算相关系数。具体地,基于应用了非线性的两个幂序列以及在操作410中计算的差值来计算相关系数。信号分离系统300将最小化相关系数的差值设置为阈值。非线性可以是对数非线性或幂法则非线性。例如,使用如上所述的等式12到等式14,幂法则非线性可被应用于两个幂序列,并可随后确定ITD,从而相关系数具有最小值。确定的ITD被设置为用于噪声掩饰的最优阈值。在初始声音周期设置最优阈值之后,可确定是否在初始声音周期随后的声音周期使用最优阈值,或者,由于用于掩饰的阈值没有显著改变,故可基于阈值的改变模式来改变搜索范围。
图5示出信号分离系统500的示例。在图5中,信号分离系统500包括掩饰单元510和阈值设置单元520。
掩饰单元510使用目标掩码和补充掩码分别掩饰从多个话筒接收的信号。目标掩码和补充掩码的每一个可以是二进制掩码或连续掩码。以上已经参照等式7详细描述了目标掩码和补充掩码,因此在此将不进行详细描述。
阈值设置单元520设置用于噪声掩饰的阈值,从而最小化在掩饰的信号之间的相关性。具体地,可分别使用目标掩码和补充掩码来掩饰从多个话筒接收的信号,以获得用于目标信号的信号和用于干扰信号的信号。随后,最小化两个信号之间的相关性的阈值可被设置以用于噪声掩饰。例如,阈值设置单元520可设置阈值,从而在将非线性应用到掩饰的信号的每一个之后计算的相关系数具有最小值。或者,阈值设置单元520可设置最小化两个信号之间的相互信息的阈值以执行噪声掩饰。这里,相互信息是关于单独发生两个因素的概率与同时发生两个因素的概率的统计比率。换句话说,用于最小化相互信息的阈值可以指用于最小化指示两个信号之间的相互依赖的比率的阈值。
图6示出信号分离方法的示例。图6的信号分离方法可由图5的信号分离系统500执行。以下参照图6描述信号分离方法。
在操作610,信号分离系统500使用目标掩码和补充掩码分别掩饰从多个话筒接收的信号。目标掩码和补充掩码的每一个可以是二进制掩码或连续掩码。以上已经参照等式7详细描述了目标掩码和补充掩码,因此在此将不进行详细描述。
在操作620,信号分离系统500设置用于噪声掩饰的阈值,从而最小化在掩饰的信号之间的相关性。具体地,可分别使用目标掩码和补充掩码来掩饰从多个话筒接收的信号,以获得用于目标信号的信号和用于干扰信号的信号。随后,最小化两个信号之间的相关性的阈值可被设置以用于噪声掩饰。例如,信号分离系统500可设置阈值,从而在将非线性应用到掩饰的信号的每一个之后计算的相关系数具有最小值。或者,信号分离系统500可设置最小化两个信号之间的相互信息的阈值以执行噪声掩饰。这里,相互信息是关于单独发生两个因素的概率与同时发生两个因素的概率的统计比率。换句话说,用于最小化相互信息的阈值可以指用于最小化指示两个信号之间的相互依赖的比率的阈值。
根据如上所述的示例,在基于多个话筒的信号分离系统和信号分离方法中,可基于噪声环境自动地设置用于噪声掩饰的阈值,从而能够自适应地响应于在其中使用所述系统和方法的环境的改变。
上述的信号分离方法可被记录、存储或固定在包括由计算机执行以引起处理器执行程序指令的所述程序指令的一个或多个非临时计算机可读存储介质中。非临时计算机可读存储介质还可单独或结合程序指令包括数据文件、数据结构等。非临时计算机可读存储介质和程序指令可以是特别设计和构造的,或者可以是对计算机软件领域的技术人员公知的和可用的。非临时计算机可读存储介质的示例包括磁性介质(诸如硬盘、软盘和磁带)、光学介质(诸如CD-ROM/±R/±RW、DVD-ROM/RAM/±R/±RW和BD(蓝光)-ROM/-R/-RW)、磁光介质和特别配置用于存储和执行程序指令的硬件装置(诸如只读存储器(ROM)、随机存取存储器(RAM)、闪存等)。程序指令的示例包括机器代码(诸如由编译器产生)和包含可使用解释器由计算机执行的高级代码的文件。所述硬件装置可被配置作为一个或多个软件模块,以执行如上所述的操作和方法。此外,非临时计算机可读存储介质可分布于联网的计算机系统,并且计算机可读代码或程序指令可以以分散方式存储和执行。
上面已经示出了一些示例。然而,应该理解可以做出各种修改。例如,如果所述的技术被以不同顺序执行和/或如果在描述的系统、构架、装置或电路中的组件以不同的方式组合和/或被其它组件或等同物替代或补充,则可获得合适的结果。因此,其它实现落入权利要求及其等同物的范围内。

Claims (30)

1.一种信号分离系统,包括:
幂序列计算器,基于从多个话筒接收的信号,使用目标掩码计算目标信号的幂序列,并使用补充掩码计算干扰信号的幂序列;和
阈值设置单元,用于:
对目标信号幂序列和干扰信号幂序列应用非线性;
计算非线性目标信号幂序列和非线性干扰信号幂序列的相关系数;以及
设置最小化相关系数的噪声掩饰阈值。
2.如权利要求1所述的信号分离系统,其中,幂序列计算器基于从接收的信号的耳间时间差值ITD、接收的信号的耳间相位差值IPD和接收的信号的耳间强度差值IID中选择的至少一个差值,来产生目标掩码和补充掩码。
3.如权利要求2所述的信号分离系统,还包括差值计算器,用于:
将短时傅里叶变换STFT应用于每个接收的信号;以及
基于STFT变换的信号计算所述至少一个差值。
4.如权利要求1所述的信号分离系统,其中,阈值设置单元基于非线性目标信号幂序列、非线性干扰信号幂序列以及从接收的信号的耳间时间差值ITD、接收的信号的耳间相位差值IPD和接收的信号的耳间强度差值IID中选择的至少一个差值,来计算相关系数。
5.如权利要求4所述的信号分离系统,其中,阈值设置单元将所述至少一个差值设置为最小化相关系数的噪声掩饰阈值。
6.如权利要求1所述的信号分离系统,其中,非线性是对数非线性或幂法则非线性。
7.如权利要求1所述的信号分离系统,其中,目标掩码和补充掩码的每一个是二进制掩码或连续掩码。
8.一种信号分离系统,包括:
掩饰单元,使用目标掩码和补充掩码分别掩饰从多个话筒接收的信号;和
阈值设置单元,设置最小化在掩饰的信号之间的相关性的噪声掩饰阈值。
9.如权利要求8所述的信号分离系统,其中,阈值设置单元:
对掩饰的信号的每一个应用非线性;
计算非线性掩饰的信号的相关系数;以及
设置噪声掩饰阈值,从而相关系数具有最小值。
10.一种在信号分离系统中的信号分离方法,包括:
基于从多个话筒接收的信号,使用目标掩码计算目标信号的幂序列,并使用补充掩码计算干扰信号的幂序列;
对目标信号幂序列和干扰信号幂序列应用非线性;
计算非线性目标信号幂序列和非线性干扰信号幂序列的相关系数;以及
设置最小化相关系数的噪声掩饰阈值。
11.如权利要求10所述的信号分离方法,其中,计算幂序列的步骤包括基于从接收的信号的耳间时间差值ITD、接收的信号的耳间相位差值IPD和接收的信号的耳间强度差值IID中选择的至少一个差值,来产生目标掩码和补充掩码。
12.如权利要求11所述的信号分离方法,还包括:
将短时傅里叶变换STFT应用于每个接收的信号;以及
基于STFT变换的信号计算所述至少一个差值。
13.如权利要求10所述的信号分离方法,其中,计算相关系数的步骤包括基于非线性目标信号幂序列、非线性干扰信号幂序列以及从接收的信号的耳间时间差值ITD、接收的信号的耳间相位差值IPD和接收的信号的耳间强度差值IID中选择的至少一个差值,来计算相关系数。
14.如权利要求13所述的信号分离方法,其中,设置噪声掩饰阈值的步骤包括将所述至少一个差值设置为最小化相关系数的噪声掩饰阈值。
15.一种在信号分离系统中的信号分离方法,所述方法包括:
使用目标掩码和补充掩码分别掩饰从多个话筒接收的信号;以及
设置最小化在掩饰的信号之间的相关性的噪声掩饰阈值。
16.如权利要求15所述的信号分离方法,其中,所述设置的步骤包括:
对掩饰的信号的每一个应用非线性;
计算非线性掩饰的信号的相关系数;以及
设置噪声掩饰阈值,从而相关系数具有最小值。
17.一种信号分离系统,包括:
掩饰频谱产生器,使用目标掩码和补充掩码从多个话筒接收的信号中产生掩饰的目标信号频谱和掩饰的干扰信号频谱;和
阈值设置单元,基于接收的信号之间的差值来设置目标掩码和补充掩码的阈值,从而所述阈值最小化在掩饰的目标信号频谱的非线性的目标幂序列与掩饰的干扰信号频谱的非线性的干扰幂序列之间的相关性。
18.如权利要求17所述的信号分离系统,还包括分离的目标信号产生器,从掩饰的目标信号频谱和由阈值设置单元设置的阈值中产生基本没有干扰信号的分离的目标信号。
19.如权利要求17所述的信号分离系统,其中,所述差值是耳间时间差值ITD。
20.如权利要求17所述的信号分离系统,其中,目标掩码和补充掩码的每一个是二进制掩码。
21.如权利要求20所述的信号分离系统,其中,
如果所述差值小于或等于所述阈值,则目标掩码具有值1,如果所述差值大于所述阈值,则目标掩码具有值η;以及
如果所述差值大于所述阈值,则补充掩码具有值η,如果所述差值小于或等于所述阈值,则补充掩码具有值1。
22.如权利要求21所述的信号分离系统,其中,值η表示实际是目标信号频谱的部分的干扰信号频谱的部分。
23.如权利要求22所述的信号分离系统,其中,值η=0.01。
24.一种信号分离系统中的信号分离方法,所述方法包括:
使用目标掩码和补充掩码从多个话筒接收的信号产生掩饰的目标信号频谱和掩饰的干扰信号频谱;以及
基于接收的信号之间的差值来设置目标掩码和补充掩码的阈值,从而所述阈值最小化在掩饰的目标信号频谱的非线性的目标幂序列与掩饰的干扰信号频谱的非线性的干扰幂序列之间的相关性。
25.如权利要求24所述的信号分离方法,还包括从掩饰的目标信号频谱和由阈值设置单元设置的阈值中产生基本没有干扰信号的分离的目标信号。
26.如权利要求24所述的信号分离方法,其中,所述差值是耳间时间差值ITD。
27.如权利要求24所述的信号分离方法,其中,目标掩码和补充掩码的每一个是二进制掩码。
28.如权利要求27所述的信号分离方法,其中,
如果所述差值小于或等于所述阈值,则目标掩码具有值1,如果所述差值大于所述阈值,则目标掩码具有值η;以及
如果所述差值大于所述阈值,则补充掩码具有值η,如果所述差值小于或等于所述阈值,则补充掩码具有值1。
29.如权利要求28所述的信号分离方法,其中,值η表示实际是目标信号频谱的部分的干扰信号频谱的部分。
30.如权利要求29所述的信号分离方法,其中,值η=0.01。
CN201110037394.4A 2010-01-28 2011-01-28 用于自动地选择阈值以分离声音源的信号分离系统和方法 Expired - Fee Related CN102142259B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2010-0007751 2010-01-28
KR1020100007751A KR101670313B1 (ko) 2010-01-28 2010-01-28 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법

Publications (2)

Publication Number Publication Date
CN102142259A true CN102142259A (zh) 2011-08-03
CN102142259B CN102142259B (zh) 2015-07-15

Family

ID=43971263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110037394.4A Expired - Fee Related CN102142259B (zh) 2010-01-28 2011-01-28 用于自动地选择阈值以分离声音源的信号分离系统和方法

Country Status (4)

Country Link
US (1) US8718293B2 (zh)
EP (1) EP2355097B1 (zh)
KR (1) KR101670313B1 (zh)
CN (1) CN102142259B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103000183A (zh) * 2011-09-14 2013-03-27 财团法人工业技术研究院 语音增强方法
CN105409243A (zh) * 2013-07-12 2016-03-16 耳蜗有限公司 通道化音乐信号的预处理
CN105580074A (zh) * 2013-09-24 2016-05-11 美国亚德诺半导体公司 音频信号的时频定向处理
CN108962276A (zh) * 2018-07-24 2018-12-07 北京三听科技有限公司 一种语音分离方法及装置
CN109669663A (zh) * 2018-12-28 2019-04-23 百度在线网络技术(北京)有限公司 音区幅值获取方法、装置、电子设备及存储介质
CN110070882A (zh) * 2019-04-12 2019-07-30 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备
CN110718237A (zh) * 2018-07-12 2020-01-21 阿里巴巴集团控股有限公司 串音数据检测方法和电子设备
CN110797021A (zh) * 2018-05-24 2020-02-14 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012234150A (ja) * 2011-04-18 2012-11-29 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
US9048942B2 (en) * 2012-11-30 2015-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for reducing interference and noise in speech signals
US9460732B2 (en) 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
US9601130B2 (en) * 2013-07-18 2017-03-21 Mitsubishi Electric Research Laboratories, Inc. Method for processing speech signals using an ensemble of speech enhancement procedures
US9420368B2 (en) * 2013-09-24 2016-08-16 Analog Devices, Inc. Time-frequency directional processing of audio signals
JP6603919B2 (ja) * 2015-06-18 2019-11-13 本田技研工業株式会社 音声認識装置、および音声認識方法
JP6844149B2 (ja) * 2016-08-24 2021-03-17 富士通株式会社 利得調整装置および利得調整プログラム
KR102607863B1 (ko) 2018-12-03 2023-12-01 삼성전자주식회사 음원 분리 장치 및 음원 분리 방법
GB2585086A (en) * 2019-06-28 2020-12-30 Nokia Technologies Oy Pre-processing for automatic speech recognition

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003036614A2 (en) * 2001-09-12 2003-05-01 Bitwave Private Limited System and apparatus for speech communication and speech recognition
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
EP1748427A1 (en) * 2005-07-26 2007-01-31 Kabushiki Kaisha Kobe Seiko Sho (Kobe Steel, Ltd.) Sound source separation apparatus and sound source separation method
US20080167869A1 (en) * 2004-12-03 2008-07-10 Honda Motor Co., Ltd. Speech Recognition Apparatus

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0856832A1 (fr) * 1997-02-03 1998-08-05 Koninklijke Philips Electronics N.V. Procédé de reconnaissance vocale de mots et dispositif dans lequel ledit procédé est mis en application
JP3541339B2 (ja) * 1997-06-26 2004-07-07 富士通株式会社 マイクロホンアレイ装置
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
JP4460256B2 (ja) * 2003-10-02 2010-05-12 日本電信電話株式会社 雑音低減処理方法、この方法を実施する装置、プログラム、記録媒体
KR100612616B1 (ko) 2004-05-19 2006-08-17 한국과학기술원 영교차점을 이용한 신호대잡음비 추정방법 및 음원 방향탐지방법
EP1923866B1 (en) 2005-08-11 2014-01-01 Asahi Kasei Kabushiki Kaisha Sound source separating device, speech recognizing device, portable telephone, sound source separating method, and program
JP4973287B2 (ja) 2007-04-06 2012-07-11 ヤマハ株式会社 音処理装置およびプログラム
JP4872871B2 (ja) 2007-09-27 2012-02-08 ソニー株式会社 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003036614A2 (en) * 2001-09-12 2003-05-01 Bitwave Private Limited System and apparatus for speech communication and speech recognition
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
US20080167869A1 (en) * 2004-12-03 2008-07-10 Honda Motor Co., Ltd. Speech Recognition Apparatus
EP1748427A1 (en) * 2005-07-26 2007-01-31 Kabushiki Kaisha Kobe Seiko Sho (Kobe Steel, Ltd.) Sound source separation apparatus and sound source separation method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHANWOO KIM ET AL: "Signal separation for robust speech recognition based on phase difference information obtained in the frequency domain", 《INTERSPEECH 2009》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103000183B (zh) * 2011-09-14 2014-12-31 财团法人工业技术研究院 语音增强方法
US9026436B2 (en) 2011-09-14 2015-05-05 Industrial Technology Research Institute Speech enhancement method using a cumulative histogram of sound signal intensities of a plurality of frames of a microphone array
CN103000183A (zh) * 2011-09-14 2013-03-27 财团法人工业技术研究院 语音增强方法
CN105409243B (zh) * 2013-07-12 2018-05-01 科利耳有限公司 通道化音乐信号的预处理
CN105409243A (zh) * 2013-07-12 2016-03-16 耳蜗有限公司 通道化音乐信号的预处理
US9848266B2 (en) 2013-07-12 2017-12-19 Cochlear Limited Pre-processing of a channelized music signal
CN105580074B (zh) * 2013-09-24 2019-10-18 美国亚德诺半导体公司 信号处理系统和方法
CN105580074A (zh) * 2013-09-24 2016-05-11 美国亚德诺半导体公司 音频信号的时频定向处理
CN110797021A (zh) * 2018-05-24 2020-02-14 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN110797021B (zh) * 2018-05-24 2022-06-07 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
US11996091B2 (en) 2018-05-24 2024-05-28 Tencent Technology (Shenzhen) Company Limited Mixed speech recognition method and apparatus, and computer-readable storage medium
CN110718237A (zh) * 2018-07-12 2020-01-21 阿里巴巴集团控股有限公司 串音数据检测方法和电子设备
CN110718237B (zh) * 2018-07-12 2023-08-18 阿里巴巴集团控股有限公司 串音数据检测方法和电子设备
CN108962276A (zh) * 2018-07-24 2018-12-07 北京三听科技有限公司 一种语音分离方法及装置
CN108962276B (zh) * 2018-07-24 2020-11-17 杭州听测科技有限公司 一种语音分离方法及装置
CN109669663A (zh) * 2018-12-28 2019-04-23 百度在线网络技术(北京)有限公司 音区幅值获取方法、装置、电子设备及存储介质
CN109669663B (zh) * 2018-12-28 2021-10-12 百度在线网络技术(北京)有限公司 音区幅值获取方法、装置、电子设备及存储介质
CN110070882A (zh) * 2019-04-12 2019-07-30 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备
CN110459237A (zh) * 2019-04-12 2019-11-15 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN110070882B (zh) * 2019-04-12 2021-05-11 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备

Also Published As

Publication number Publication date
US8718293B2 (en) 2014-05-06
EP2355097A2 (en) 2011-08-10
US20110182437A1 (en) 2011-07-28
KR20110088036A (ko) 2011-08-03
EP2355097A3 (en) 2012-12-19
EP2355097B1 (en) 2014-06-04
CN102142259B (zh) 2015-07-15
KR101670313B1 (ko) 2016-10-28

Similar Documents

Publication Publication Date Title
CN102142259A (zh) 用于自动地选择阈值以分离声音源的信号分离系统和方法
US8160270B2 (en) Method and apparatus for acquiring multi-channel sound by using microphone array
EP3511937B1 (en) Device and method for sound source separation, and program
US9449603B2 (en) Multi-channel audio encoder and method for encoding a multi-channel audio signal
US10694306B2 (en) Apparatus, method or computer program for generating a sound field description
US8693287B2 (en) Sound direction estimation apparatus and sound direction estimation method
US8588427B2 (en) Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
EP2681932B1 (en) Audio processor for generating a reverberated signal from a direct signal and method therefor
EP2647221B1 (en) Apparatus and method for spatially selective sound acquisition by acoustic triangulation
US9357307B2 (en) Multi-channel wind noise suppression system and method
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
US9743215B2 (en) Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
WO2008004499A1 (fr) Procédé, dispositif et programme de suppression du bruit
EP4161105A1 (en) Spatial audio filtering within spatial audio capture
WO2017143003A1 (en) Processing of microphone signals for spatial playback
US20230024675A1 (en) Spatial audio processing
Kayser et al. Estimation of inter-channel phase differences using non-negative matrix factorization
Ağcaer et al. Binaural source localization based on modulation-domain features and decision pooling
JP2006072163A (ja) 妨害音抑圧装置
EP2456184B1 (en) Method for playback of a telephone signal
US20230419984A1 (en) Apparatus and method for clean dialogue loudness estimates based on deep neural networks
Herzog et al. Signal-Dependent Mixing for Direction-Preserving Multichannel Noise Reduction
Ting et al. IANS: Intelligibility-Aware Null-Steering Beamforming for Dual-Microphone Arrays
Chennupati et al. A Signal Processing Approach for Speaker Separation Using SFF Analysis.
Schlesinger et al. Evolutionary optimization for hearing aids of computational auditory scene analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150715