CN108292508B - 空间相关矩阵估计装置、空间相关矩阵估计方法和记录介质 - Google Patents
空间相关矩阵估计装置、空间相关矩阵估计方法和记录介质 Download PDFInfo
- Publication number
- CN108292508B CN108292508B CN201680069908.5A CN201680069908A CN108292508B CN 108292508 B CN108292508 B CN 108292508B CN 201680069908 A CN201680069908 A CN 201680069908A CN 108292508 B CN108292508 B CN 108292508B
- Authority
- CN
- China
- Prior art keywords
- spatial correlation
- correlation matrix
- mask
- matrix
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 303
- 238000000034 method Methods 0.000 title claims description 40
- 239000013598 vector Substances 0.000 claims abstract description 68
- 238000009826 distribution Methods 0.000 claims description 85
- 230000005236 sound signal Effects 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 48
- 238000012545 processing Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000012790 confirmation Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
根据在目标声源和背景噪声混合存在的状况下在不同位置处收录的观测信号来计算观测特征量矢量,估计与目标声源对应的掩码和与背景噪声对应的掩码,根据观测信号和与目标声源对应的掩码来计算包含背景噪声的目标声源的空间相关矩阵,根据观测信号和与背景噪声对应的掩码来计算背景噪声的空间相关矩阵,并且根据对各个空间相关矩阵以规定的系数加权后的矩阵来估计目标声源的空间相关矩阵。
Description
技术领域
本发明涉及空间相关矩阵估计装置、空间相关矩阵估计方法和记录介质。
背景技术
以往,提出了在从目标声源发出的音频信号与基于背景噪声的音频信号混合存在的状况下,根据由多个麦克风收音的观测信号估计仅各目标声源包含于观测信号中的情况下的空间相关矩阵的方法。此外,在估计空间相关矩阵时,有时使用作为各音频信号在被观测的音频信号中所含的比例的掩码。
另外,空间相关矩阵是表示麦克风间的信号的自相关和相互相关的矩阵,例如在估计目标声源的位置以及设计从观测信号中仅取出目标声源的波束成形器时使用。
这里,使用图6,说明现有的空间相关矩阵估计装置。图6是表示现有的空间相关矩阵估计装置的结构的图。如图6所示,首先,时间频率分析部10a计算从观测信号中提取的每个时间频率点的观测特征量矢量。接着,掩码估计部20a根据观测特征量矢量估计与目标声源和背景噪声对应的掩码。此外,观测特征量矩阵计算部30a将观测特征量矢量与该观测特征量矢量的厄密转置相乘来计算观测特征量矩阵。
并且,目标音特征量矩阵时间平均计算部40a计算通过对观测特征量矩阵乘以与目标声源对应的掩码而得到的作为矩阵的时间平均的平均目标音特征量矩阵。此外,噪声特征量矩阵时间平均计算部50a计算通过对观测特征量矩阵乘以与背景噪声对应的掩码而得到的作为矩阵的时间平均的平均噪声特征量矩阵。最后,目标音特征量噪声除去部60a通过从平均目标音特征量矩阵中减去平均噪声特征量矩阵来估计目标声源的空间相关矩阵。
在先技术文献
非专利文献
非专利文献1:Mehrez Souden,Shoko Araki,Keisuke Kinoshita,TomohiroNakatani,Hiroshi Sawada,“Amultichannel MMSE-based framework for speech sourceseparation and noise reduction,”IEEE Trans.Audio,Speech,and LanguageProcessing,vol.21,no.9,pp.1913-1928,2013.
非专利文献2:Ozgur Yilmaz,and Scott Rickard,“Blind separation ofspeech mixture via time-frequency masking,”IEEE Trans.Signal Processing,vol.52,no.7,pp.1830-1847,2004.
非专利文献3:Dang Hai Tran Vu and Reinhold Haeb-Umbach,“Blind speechseparation employing directional statistics in an expectation maximizationframework,”Proc.IEEE Int.Conf.Acoust.,Speech,Signal Process.(ICASSP-2010),pp.241-244,2010.
非专利文献4:Tomohiro Nakatani,Shoko Araki,Takuya Yoshioka,MarcDelcroix,and Masakiyo Fujimoto,“Dominance based integration of spatial andspectral features for speech enhancement,”IEEE Transactions on Audio,Speech,and Language Processing,vol.21,no.12,pp.2516-2531,Dec.2013.
发明内容
发明要解决的课题
然而,现有的空间相关矩阵的估计方法无法从观测信号中正确去除背景噪声的影响,因此存在有时无法精度良好地估计目标声源的空间相关矩阵的问题。
例如,在现有的空间相关矩阵的估计方法中,将从平均目标音特征量矩阵中减去平均噪声特征量矩阵的结果估计作为目标声源的空间相关矩阵,然而这是基于经验而得到的方法,在平均目标音特征量矩阵中包含的噪声的影响的量未必与平均噪声特征量矩阵一致,因此不能保证可消除噪声的影响。因此,在现有的空间相关矩阵的估计方法中,有时无法精度良好地估计目标声源的空间相关矩阵。
用于解决课题的手段
本发明的空间相关矩阵估计装置根据观测特征量矢量,估计第1掩码以及第2掩码,根据所述第1掩码和所述第2掩码来估计所述目标声源的空间相关矩阵,其中,该观测特征量矢量是基于与N个目标声源(其中,N是1以上的整数)对应的N个第1音频信号和与背景噪声对应的第2音频信号混合存在的状况下在分别不同的位置处收录的M个(其中,M是2以上的整数)观测信号而计算出的,该第1掩码是每个时间频率点的所述第1音频信号在所述观测信号的特征量中所含比例,该第2掩码是每个时间频率点的所述第2音频信号在所述观测信号的特征量中所含比例,该空间相关矩阵估计装置的特征在于,具有噪声除去部,该噪声除去部根据第1空间相关矩阵和第2空间相关矩阵来估计所述目标声源的空间相关矩阵,该第1空间相关矩阵是以第1系数对基于所述观测信号和所述第1掩码计算出的第1特征量矩阵进行加权而得到的,该第2空间相关矩阵是以第2系数对基于所述观测信号和所述第2掩码计算出的第2特征量矩阵进行加权而得到的。
此外,本发明的空间相关矩阵估计方法根据观测特征量矢量,估计第1掩码以及第2掩码,根据所述第1掩码和所述第2掩码来估计所述目标声源的空间相关矩阵,其中,该观测特征量矢量是基于与N个目标声源(其中,N是1以上的整数)对应的N个第1音频信号和与背景噪声对应的第2音频信号混合存在的状况下在分别不同的位置处收录的M个(其中,M是2以上的整数)观测信号而计算出的,该第1掩码是每个时间频率点的所述第1音频信号在所述观测信号的特征量中所含比例,该第2掩码是每个时间频率点的所述第2音频信号在所述观测信号的特征量中所含比例,该空间相关矩阵估计方法的特征在于,包括噪声除去步骤,在该噪声除去步骤中,根据第1空间相关矩阵和第2空间相关矩阵来估计所述目标声源的空间相关矩阵,该第1空间相关矩阵是以第1系数对基于所述观测信号和所述第1掩码计算出的第1特征量矩阵进行加权而得到的,该第2空间相关矩阵是以第2系数对基于所述观测信号和所述第2掩码计算出的第2特征量矩阵进行加权而得到的。
发明效果
根据本发明,能够从观测信号中正确地去除背景噪声的影响,能够精度良好地估计目标声源的空间相关矩阵。
附图说明
图1是表示第1实施方式的空间相关矩阵估计装置的结构的一例的图。
图2是表示第1实施方式的空间相关矩阵估计装置的掩码估计部的结构的一例的图。
图3是表示第1实施方式的空间相关矩阵估计装置的处理的一例的图。
图4是表示第1实施方式的空间相关矩阵估计装置的掩码估计处理的一例的图。
图5是表示通过执行程序而实现空间相关矩阵估计装置的计算机的一例的图。
图6是表示现有的空间相关矩阵估计装置的结构的图。
具体实施方式
以下,根据附图来详细说明本申请的空间相关矩阵估计装置、空间相关矩阵估计方法和空间相关矩阵估计程序的实施方式。另外,本发明并不限于这些实施方式。
[第1实施方式]
首先,说明第1实施方式的空间相关矩阵估计装置的结构、处理的流程和效果。另外,在第1实施方式中,在与N个目标声源(其中,N是1以上的整数)对应的N个第1音频信号和与背景噪声对应的第2音频信号混合存在的状况下在分别不同的位置处收录的M个(其中,M是2以上的整数)的观测信号被输入给空间相关矩阵估计装置。
[第1实施方式的结构]
使用图1,说明第1实施方式的结构。图1是表示第1实施方式的空间相关矩阵估计装置的结构的一例的图。如图1所示,空间相关矩阵估计装置1具有时间频率分析部10、掩码估计部20、观测特征量矩阵计算部30、噪声下目标音空间相关矩阵估计部40、噪声空间相关矩阵估计部50和目标音空间相关矩阵噪声除去部60。
首先,说明空间相关矩阵估计装置1的各部的概要。时间频率分析部10根据所输入的观测特征量来计算观测特征量矢量。具体而言,时间频率分析部10对各观测信号y(m)(τ)应用短时间信号分析,提取每个时间频率点的信号特征量,按照每个时间频率点来计算以信号特征量为分量的作为M维纵矢量的观测特征量矢量x(t,f)。
此外,掩码估计部20估计第1掩码φn(t、f)以及第2掩码φv(t、f),该第1掩码φn(t、f)是每个时间频率点的第1音频信号在观测信号的特征量中所含比例,该第2掩码φv(t、f)是每个时间频率点的第2音频信号在观测信号的特征量中所含比例。并且,观测特征量矩阵计算部30根据观测特征量矢量,按照每个时间频率点将观测特征量矢量与该观测特征量矢量的厄密转置相乘而计算观测特征量矩阵Rxx(t、f)。
噪声下目标音空间相关矩阵估计部40计算以第1系数对基于观测信号和第1掩码而计算出的第1特征量矩阵进行加权而得到的第1空间相关矩阵。具体而言,噪声下目标音空间相关矩阵估计部40对于各个目标声源,将按照每个时间频率点将观测特征量矩阵与第1掩码相乘而得到的矩阵的每个频率的时间平均计算作为第1特征量矩阵R′n+v(t、f),将对第1特征量矩阵乘以第1系数α的结果作为第1空间相关矩阵Rn+v(t、f)。
噪声空间相关矩阵估计部50计算以第2系数对基于观测信号和第2掩码计算出的第2特征量矩阵进行加权而得到的第2空间相关矩阵。具体而言,对于背景噪声,将按照每个时间频率点将观测特征量矩阵与第2掩码相乘而得到的矩阵的每个频率的时间平均计算作为第2特征量矩阵R′v(t、f),将对第2特征量矩阵乘以第2系数β的结果作为第2空间相关矩阵Rv(t、f)。
作为噪声除去部发挥功能的目标音空间相关矩阵噪声除去部60根据第1空间相关矩阵和第2空间相关矩阵来估计目标声源的空间相关矩阵。具体而言,目标音空间相关矩阵噪声除去部60将从第1空间相关矩阵中减去第2空间相关矩阵的结果作为目标声源的空间相关矩阵Rn(t、f)。另外,第1系数与第2系数的比率例如等于第1掩码的时间平均值的倒数与第2掩码的时间平均值的倒数的比率。
接着,说明空间相关矩阵估计装置1的各部的详细情况。目标声源具有稀疏性,假定在各时间频率点最多仅存在1个目标声源。此外,假定背景噪声存在于所有的时间频率点。由此,由时间频率分析部10根据所输入的观测特征量应用短时间傅里叶转换等的短时间信号分析而计算出的观测特征量矢量与式(1)和式(2)中的任意一方一致。
【数1】
x(t,f)=sn(t,,f)+v(t,f)…(1)
【数2】
x(t,f)=v(t,f)…(2)
另外,式(1)和式(2)的t和f分别是时间和频率的编号,t取1~T的整数,f取0~F的整数。这里,式(1)表示在该时间频率点仅存在目标声源中的第n个声源的情况,式(2)表示不存在任何目标声源的情况,sn(t、f)和v(t、f)将观测特征量矢量分解为目标声源n的分量和与背景噪声对应的分量之和。
掩码估计部20使用已知的掩码估计技术来估计掩码。将掩码估计部20关于第n个目标声源而估计出的掩码作为φn(t、f),将关于背景噪声估计出的掩码作为φv(t、f)。以下,角标n作为表示对应于哪个目标声源的编号,角标v作为表示与噪声对应的记号。
噪声下目标音空间相关矩阵估计部40通过式(3)来计算与第n个目标声源对应的第1特征量矩阵、即平均目标音特征量矩阵R′n+v(f)。
【数3】
此外,噪声空间相关矩阵估计部50通过式(4)来计算与背景噪声对应的第2特征量矩阵、即平均噪声特征量矩阵R′v(f)。
【数4】
其中,观测特征量矩阵Rxx(t、f)如式(5)所示表示。另外,式(5)的H表示矩阵的厄密转置。
【数5】
Rxx(t,f)=x(t,f)xH(t,f)…(5)
如式(1)和式(2)所示,背景噪声包含于所有的时间频率点,因此R′n+v(f)中也必然会包含噪声的影响。R′n+v(f)的角标n+v表示R′n+v(f)中包含目标声源n和噪声的两方的影响。
这里,若仅集中与式(1)对应的时间频率点就能够求出空间相关矩阵,则该空间相关矩阵仅受到目标声源n和背景噪声的影响。另一方面,通过仅集中与式(2)对应的时间频率点来求出空间相关矩阵,由此能够得到背景噪声的空间相关矩阵。
于是,在现有的空间相关矩阵估计方法中,如式(6)所示,通过求出分别求得的空间相关矩阵之差,从而求出目标声源的空间相关矩阵。
【数6】
R′n(f)=R′n+v(f)-R′v(f)…(6)
另一方面,在本发明的第1实施方式中,进一步对这些空间相关矩阵进行加权,从而求出差。这里,若假定各目标声源和背景噪声没有相关,则Rxx(t、f)可通过式(7)表示。
【数7】
在式(7)中,若考虑到背景噪声由来的分量是v(t、f)vH(t、f)以及式(3)和式(4),则残存于式(6)的来自背景噪声的分量可通过式(8)表示。
【数8】
由此,在式(8)的值为0的情况下,可认为残存于目标声源的空间相关矩阵的估计值中的背景噪声的影响为0。于是,目标音空间相关矩阵噪声除去部60如式(9)所示,使用通过第1系数α而被加权的第1空间相关矩阵、即平均目标音特征量矩阵R′n+v(f)和通过第2系数β而被加权的第2空间相关矩阵、即平均噪声特征量矩阵R′v(t、f)来计算目标声源的空间相关矩阵。
【数9】
Rn(f)=αR′n+v(f)-βR′v(f)…(9)
另外,由噪声下目标音空间相关矩阵估计部40计算对R′n+v(f)以第1系数α加权的Rn+v(f),由噪声空间相关矩阵估计部50计算对R′v(f)以第2系数β加权的Rv(f)。
此时,残存于式(9)的目标声源的空间相关矩阵估计值中的来自背景噪声的分量可通过式(10)表示。
【数10】
用于使式(10)的值与0一致的必要充分条件是式(11)成立。
【数11】
式(11)的Σtφn(t、f)v(t、f)vH(t、f)/Σtφn(t、f)和Σtφv(t、f)v(t、f)vH(t、f)/Σtφv(t、f)使用不同的权重来计算噪声特征量矩阵v(t、f)vH(t、f)的加权时间平均。当前,若假定背景噪声的空间相关矩阵不会随时间发生大幅变化,则可认为这2个加权时间平均值近似一致。其结果是,式(11)可进一步改写为式(12)那样。
【数12】
并且,通过式(12)和式(9)可得到式(13)。
【数13】
在式(13)中,T/Σtφn(t、f)是与目标声源n对应的掩码的时间平均的倒数,T/Σtφv(t、f)是与背景噪声对应的掩码的时间平均的倒数,c是标量常数。c是根据在哪个时间区间求出目标声源的空间相关矩阵而确定的常数,在全时间区间的情况下c=Σtφn(t、f)/T,主要在存在目标声源n的时间区间求出的情况下c=1即可。
在c=Σtφn(t、f)/T的情况下,在式(9)中,相当于α=1的情况,并且相当于对于式(6)仅变更R′v(f)的增益而不改变与目标声源有关的空间相关矩阵的增益地去除噪声的影响的情况。
对式(13)进一步与式(3)、式(4)一起进行整理,可得到式(14)~(16)。
【数14】
【数15】
【数16】
Rn(f)=c(Rn+v(f)-Rv(f))…(16)
例如,在c=1的情况下,式(16)可如式(17)那样表示。这样,基于背景噪声的空间相关矩阵不会随时间大幅变化的假定,在乘以适当的系数的基础上求出差,由此能够估计出与第n个目标声源有关地正确去除背景噪声的影响的空间相关矩阵。
【数17】
Rn(f)=Rn+v(f)-Rv(f)…(17)
式(14)相当于噪声下目标音空间相关矩阵估计部40估计噪声下目标音空间相关矩阵Rn+v(f)的处理。此外,式(15)相当于噪声空间相关矩阵估计部50估计噪声空间相关矩阵Rv(f)的处理。此外,式(16)相当于目标音空间相关矩阵噪声除去部60估计目标音的空间相关矩阵Rn(f)的处理。
此外,在声源数N=1时,在如式(18)那样确定了c的情况下,可以通过式(19)~(21)来计算目标声源的空间相关矩阵。
【数18】
c=∑tφn(t,f)/T…(18)
【数19】
【数20】
【数21】
R″n(f)=R″n+v(f)-R″v(f)…(21)
在式(19)~(21)中不使用目标声源的掩码φn(t、f),因此可认为不必估计目标声源的掩码就能够估计目标声源的空间相关矩阵。这种情况下,如式(19)所示,在N=1的情况下,噪声下目标音空间相关矩阵是观测特征量矩阵的每个频率的时间平均。
掩码估计部20以通过N+1个要素分布构成的混合分布按照每个频率将所述观测特征量矢量的概率分布模型化,该N+1个要素分布是由具有协方差矩阵按照每个时刻取不同的值的标量参数和不随时间变化的参数作为要素的正定值厄密矩阵的积表现的平均0的M维复高斯分布。并且,掩码估计部20将通过以混合分布接近观测特征量矢量的分布的方式估计混合分布的参数而得到的要素分布的各个事后概率作为第1掩码和第2掩码。
由此,掩码估计部20在观测特征量矢量的分布的形状无法利用超球面上的圆状来正确地近似的情况下,也能够正确地近似分布的形状,进行正确的掩码估计。
若将与存在目标声源n的时间频率点的观测特征量矢量的概率密度函数对应的要素分布作为pn(x(t、f);Θ),将与仅存在噪声的时间频率点的观测特征量矢量的概率密度函数对应的要素分布作为pv(x(t、f);Θ),则掩码估计部20如式(22)和式(23)所示对各个要素分布进行模型化。
【数22】
pn(x(t,f);Θ)=Nc(x(t,f);0,rn(t,f)Bn(f))…(22)
【数23】
pv(x(t,f);Θ)=Nc(x(t,f);0,rv(t,f)Bv(f))…(23)
这里,Nc(x;μ、∑)是平均矢量μ、协方差矩阵∑的M维复高斯分布。在式(22)和式(23)的要素分布的式中,rn(t、f)、rv(t、f)是与各音频信号的大小对应的标量参数,被设定为可以取按照每个时间频率点而不同的值。
另一方面,Bn(f)和Bv(f)是表现音频信号从空间上的哪个方向到来的矩阵,规定为具有不随时间变化的参数作为要素的矩阵。Bn(f)和Bv(f)是确定要素分布的形状的参数,在上述的模型中,不设置特别的制约。因此,各要素分布可具备M维复高斯分布所能表现的任意形状,不限于超球面上的圆状的分布。
此外,Θ={rn(t、f)、rv(t、f)、Bn(f)、Bv(f)、λn(f)、λv(f)}表示将上述的复高斯分布构成为要素分布的混合分布的模型参数的集合。λn(f)、λv(f)分别是与目标声源n所存在的时间频率点对应的要素分布的混合比、以及与仅存在背景噪声的时间频率点对应的要素分布的混合比,满足∑nλn(f)+λv(f)=1、1>λn(f)>0,1>λv(f)>0。此外,由上述的要素分布构成的混合分布如式(24)所示那样。
【数24】
掩码估计部20使用上述混合模型对所有的时间频率点的观测特征量矢量进行模型化,以上述的混合分布接近观测特征量矢量的概率分布的方式估计各模型参数。
掩码估计部20在估计出模型参数后,通过式(25)或式(26)来估计与目标声源n、背景噪声分别对应的掩码,作为各要素分布的事后概率分布。
【数25】
【数26】
各要素分布在M维复高斯分布的范围内可具备任意形状,因此在各要素分布无法使观测特征量矢量的分布的形状正确近似为超球面上的圆的情况下,也能够正确地近似该形状。
另外,一般地,与各目标声源n对应的音频信号具备在从麦克风位置观察时主要从存在声源的方向(声源方向)到来的性质。因此,与目标声源n对应的要素分布的正定值厄密矩阵具有在与声源方向对应的部分空间具备最大的固有值,除此以外的部分空间的固有值具有较小的值的性质。
另一方面,背景噪声的声音通常从所有方向到来,因此与背景噪声对应的要素分布的正定值厄密矩阵的矩阵分量在与所有方向对应的部分空间内分散。因此,不会发生固有值偏重存在于特定的部分空间的情况。
于是,掩码估计部20还将要素分布中的具有不随时间变化的参数作为要素的正定值厄密矩阵的固有值的分布的形状最平坦的要素分布的事后概率作为与背景噪声对应的第2掩码。由此,掩码估计部20能够自动估计出所估计的掩码中的哪个对应于背景噪声。
(实施例1)
下面使用具体例来说明第1实施方式。首先,在N=1的情况下,空间相关矩阵估计装置1例如对在背景噪声下由M=2以上的麦克风收录的1个人说话的声音估计除去噪声的影响后的空间相关矩阵。此外,在N>1的情况下,空间相关矩阵估计装置1例如对由M>1个的麦克风收录的N个人的会话按照每个说话人估计除去噪声的影响后的空间相关矩阵。
这里,将由麦克风m收录的观测信号记作y(m)(τ)。y(m)(τ)由来自各声源信号n的音频信号zn (m)(τ)与来自背景噪声的音频信号u(m)(τ)之和构成,因而按照式(27)所示进行模型化。
【数27】
时间频率分析部10收取由所有的麦克风收录的上述观测信号,按照每个观测信号y(m)(τ)应用短时间信号分析来求出每个时间频率的信号特征量x(m)(t、f)。作为短时间信号分析,可使用短时间离散傅里叶转换或短时间离散余弦转换等的各种方法。
时间频率分析部10还构成式(28)所示那样的观测特征量矢量x(t、f),作为对于所有的麦克风归纳在各时间频率得到的信号特征量x(m)(t、f)的矢量。
【数28】
接着,观测特征量矩阵计算部30收取观测特征量矢量x(t、f),按照每个时间频率点通过式(29)求出观测特征量矩阵Rxx(t、f)。
【数29】
Rxx(t,f)=x(t,f)xHt,f)…(29)
此外,掩码估计部20收取观测特征量矢量x(t、f),按照每个时间频率点估计各目标声源与背景噪声以何种比例混合来作为掩码的值。另外,如式(30)所示,假定在时间频率点,与所有目标声源和背景噪声有关的掩码的总和为1。
【数30】
噪声下目标音空间相关矩阵估计部40收取与各目标声源有关的掩码的估计值φn(t、f)和观测特征量矩阵Rxx(t、f),对于各目标声源n,按照每个频率f,如式(31)那样求出噪声下目标音空间相关矩阵Rn+v(f)。
【数31】
噪声空间相关矩阵估计部50收取与背景噪声有关的掩码的估计值φv(t、f)和观测特征量矩阵Rxx(t、f),按照每个频率f,如式(32)那样求出噪声空间相关矩阵Rv(f)。
【数32】
目标音空间相关矩阵噪声除去部60收取噪声下目标音空间相关矩阵的估计值Rn+v(f)和噪声空间相关矩阵的估计值Rv(f),对于各目标声源n,按照每个频率f,通过式(33)求出目标音的空间相关矩阵Rn(f)。
【数33】
Rn(f)=Rn+v(f)-Rv(f)…(33)
所求出的空间相关矩阵可用于各种用途。例如,与目标声源n的空间相关矩阵的最大固有值对应的固有矢量与表示从目标声源n到麦克风的空间传播特性的导向矢量一致。而且,根据这样估计出的导向矢量hn(f)和式(34)所示的观测信号自身的空间相关矩阵Rx(f),能够如式(35)那样求出最小方差无失真响应(MVDR:Minimum VarianceDistortionless Response)滤波器wn(f)。
【数34】
【数35】
通过将MVDR滤波器用于观测特征量矢量x(t、f),由此可抑制目标声源n以外的声源和背景噪声的分量,如式(36)所示,能够得到与目标声源n对应的信号特征量的估计值sn(t、f)。
【数36】
此外,在求出目标声源n的空间相关矩阵Rn(f)和观测信号的空间相关矩阵Rx(f)时,能够如式(37)那样构成多通道维纳滤波器Wn(f)。
【数37】
通过将该多通道维纳滤波器Wn(f)用于观测特征量矢量x(t、f),从而可抑制目标声源n以外的声源和背景噪声的分量,如式(38)所示,能够得到与目标声源n对应的特征量矢量的估计值sn(t、f)。
【数38】
(实施例2)
接着,使用图2说明掩码估计部20的具体例。图2是表示第1实施方式的空间相关矩阵估计装置的掩码估计部的结构的一例的图。掩码估计部20使用混合复高斯分布对观测特征量矢量的概率分布进行模型化,由此来估计掩码。
首先,掩码估计部20使用混合复高斯分布对各频率f的观测信号x(t、f)的生分量布如式(39)所示进行模型化。
【数39】
这里,Θ={λn(f)、λv(f)、rn(t、f)、rv(t、f)、Bn(f)、Bv(f)}是混合复高斯分布的参数集合。λn(f)和λv(f)是表示与第n个声源和背景噪声分别对应的复高斯分布的混合权重的参数,满足式(40)。rn(t、f)和rv(t、f)分别是表示第n个声源和背景噪声的时间频率点(t、f)的能量的期待值的标量参数。
【数40】
∑nλn(f)+λv(f)=1…(40)
Bn(f)和Bv(f)分别是通过能量而被正规化的第n个声源和背景噪声的不随时间变化的空间相关矩阵。这里,Bn(f)和Bv(f)成为确定观测特征量矢量的分布的参数,通过将该参数求作满秩的矩阵,由此在利用超球面上的圆状无法正确近似的情况下,也能够更为正确地近似观测特征量矢量的分布。
事后概率估计部201根据式(39)的概率分布,求出观测信号x(t、f)由各个要素分布而引起的概率,从而进行掩码的估计。首先,参数初始化部203设定各参数的初始值,将所设定的初始值保持在参数保持部204中。参数初始化部203例如通过随机数来确定参数的初始值。
接着,事后概率估计部201使用输入数据(观测信号)和当前的分布参数,如式(41)和式(42)所示那样来计算与各个要素分布有关的事后概率。这里,计算出的事后概率相当于各频率点的掩码。
【数41】
【数42】
接着,参数更新部202根据EM算法来更新分布参数。此时,参数更新部202如式(43)所示那样来设定用于最大似然估计的成本函数。
【数43】
此外,参数更新部202使用由事后概率估计部201估计出的事后概率,如式(44)所示那样来设定Q函数。
【数44】
这里,Θt表示在第t次反复更新中得到的参数。此外,φn(t、f)和φv(t、f)由式(36)和式(37)给出。参数更新部202在式(45)所示的条件下,将通过各个参数对式(44)的Q函数进行偏微分的值设为0,由此导出式(46)~式(48)所示的参数更新规则。
【数45】
∑nλn(f)+λv(f)=1…(45)
【数46】
【数47】
【数48】
由此,参数更新部202更新分布参数Θ。另外,通过对Θ设定适当的事前分布,能够使用已知的方法来实现精度更为良好的掩码估计。
此外,参数更新部202可以在线实施分布参数的更新。这种情况下,参数更新部202在时刻t′使用前1个时刻t′-1的估计值Bn(t′-1、f)来如式(49)所示那样表示由式(47)赋予的更新规则。
【数49】
此外,参数更新部202同样地如式(50)所示那样表示由式(48)赋予的更新规则。
【数50】
接着,参数更新部202将使用更新规则更新的新的参数复制到参数保持部204中。并且,掩码估计部20反复执行事后概率估计部201、参数更新部202和参数保持部204的处理,直到执行了所确定的次数(例如30次),或者计算结果收敛为止。
(实施例3)
在实施例3中,说明在实施例2的掩码估计方法中发生的置换问题的解决方法。在实施例2中,掩码估计部20按照每个频率f求出了掩码φn(t、f)和φv(t、f)。然而,在通过各频率估计出的掩码中,会引起与噪声对应的掩码与目标声源的掩码互换,或者在不同频率间,与相同的目标声源对应的掩码被与不同目标声源编号对应起来的情况。
因此,为了按照每个目标声源来正确地估计空间相关矩阵,需要由掩码估计部20正确地确定与背景噪声对应的掩码是哪个掩码,此外还需要在不同的频率间将相同的目标声源与相同的声源编号对应起来。这里,将这个问题称作置换问题。
为了解决置换问题,掩码估计部20需要进行以下的(1)和(2)的操作。
(1)在各频率中,确定哪个掩码对应于背景噪声。
(2)在不同的频率间,将与相同的目标声源对应的掩码与相同的声源编号关联起来。
首先,说明(1)的操作。此时,按照实施例2的方法,在各频率f求出N个Bn(f)和1个Bv(f)。以下,为了简化说明,标记为B0(f)=Bv(f)。这里,掩码估计部20根据以下的(1-1)~(1-3)来确定N+1个Bn(f)(N≧n≧0)中哪个Bn(f)对应于背景噪声。
(1-1)
对于各n,求出Bn(f)的M个固有值,如式(51)所示那样构成将这些值按照从大到小的顺序排列而得到的矢量γn(f)。
【数51】
γn(f)=[γn,1(f,),γn,1(f,),...,γn,M(f)]…(51)
(1-2)
准备用于评价γn(f)的分布的平坦的程度的函数E(·),通过式(52)求出与该值最大的n对应的编号nv。
【数52】
(1-3)
将与nv对应的掩码确定为与背景噪声对应的掩码。作为E(·)的确定方式,例如作为求出满足式(53)所示的矢量的要素而以成为1的方式正规化的γn(f)的熵的函数,如式(54)所示那样来确定。
【数53】
【数54】
这里,H(·)是求出满足要素而成为1的矢量u=[u1、u2、…、uM]的熵的函数,如式(55)所示那样定义。
【数55】
接着,说明(2)的操作。首先,掩码估计部20对于估计出的N个掩码,需要在所有的频率中,将与相同的目标声源n对应的掩码φn(t、f)与相同的目标声源的编号n关联起来。作为具体的手段,可考虑如下的(2-1)~(2-4)。
(2-1)
参加会话的人数N是已知的,掩码估计部20将通过实施例2的方法估计出的掩码中的除背景噪声的掩码以外的N个掩码设为φn(t、f)(n=1、…、N)。
这里,掩码表示该目的信号以何种程度包含于各时间频率点中的比例,因此存在某1个声源的掩码的时间序列在所有的频率中同步的倾向。利用这种性质,掩码估计部20将得到的掩码的所有的n和f的时间序列φn(t、f)(t=1、···、T)聚类为N个群集,由此来解决置换问题。聚类例如使用k-means法,或者可使用参考文献1(H.Sawada,S.Araki,S.Makino,“Underdetermined Convolutive Blind Source Separation via FrequencyBin-Wise Clustering and Permutation Alignment,”IEEE Trans.Audio,Speech,andLanguage Processing,vol.19,no.3,pp.516-527,March 2011.)中所述的方法。
(2-2)
掩码估计部20在使用式(41)和式(42)进行的掩码的估计中,将Bn(f)固定为按照每个说话人的位置而预先学习的空间相关矩阵Bn trained(f)。Bn trained(f)例如是作为学习数据而事先准备好每个说话人的位置的观测信号,根据该学习数据通过实施例2的方法来估计掩码,作为式(47)的结果而得到的Bn(f)。
该手段在椅子的位置大致固定的在会议室等的会话中是有效的,将与各座位对应的说话人作为目标声源n,能够估计出与之对应的掩码φn(t、f)。
(2-3)
在手段(2-3)中,掩码估计部20在手段(2-2)中将Bn(f)的初始值设为Bn trained(f),通过实施例2的方法来估计掩码。手段(2-2)中,椅子的位置大致固定,然而在椅子带有脚轮等而说话人的位置在会话中略微变动等的情况下也是有效的。
(2-4)
在手段(2-4)中,掩码估计部20将Bn trained(f)用作Bn(f)的事前信息来进行掩码的估计。具体地,掩码估计部20以η(0~1之间的实数)作为权重,通过式(56)来进行式(47)的估计。
【数56】
手段(2-3)与手段(2-2)同样地,椅子的位置大致固定,然而在椅子带有脚轮等而说话人的位置在会话中略微变动等的情况下也是有效的。
(实施例4)
作为实施例4,说明使用由空间相关矩阵估计装置1得到的目标声源的空间相关矩阵来进行方向估计的情况。首先,通过与实施例1同样的步骤,如式(57)所示那样得到与声源n有关的导向矢量。
【数57】
hn(f)=[hn1,...,hnm,…,hnM]T(mはマイク番号)…(57)
接着,如参考文献2(S.Araki,H.Sawada,R.Mukai and S.Makino,“DOAestimationfor multiple sparse sourceswith normalized observation vector clustering,”,ICASSP2006,Vol.5,pp.33-36,2006.)所述,若M个麦克风配置已知而将麦克风m的3维坐标设为dm,将从麦克风阵列观察的声源n的方位角设为θn,将仰角设为ψn,则可通过式(58)计算出qn=[cos(θn)cos(ψn)、cos(θn)sin(ψn)、sin(ψn)]T。
【数58】
这里,c是音速,f栏是与频率索引f对应的频率(Hz),ξn(f)=[arg(hn1/hnJ)、…、arg(hnM/hnJ)]T,D=[d1-dJ、…、dM-dJ]T,J是基准麦克风的索引(从1~M中任意选择),+表示一般化逆矩阵。
并且,对于通过式(58)得到的到来方向qn(f),根据不发生空间的混叠现象的频率范围的qn(f)的平均值,作为声源n的到来方向qn。另外,还可以不计算q,而计算方位角、仰角等的平均值。
[第1实施方式的处理]
下面使用图3,说明第1实施方式的空间相关矩阵估计装置1的处理。图3是表示第1实施方式的空间相关矩阵估计装置的处理的一例的图。首先,如图3所示,时间频率分析部10取得观测信号(步骤S10),应用短时间傅里叶转换等的短时间信号分析来计算每个时间频率点的信号特征量(步骤S11),构成观测特征量矢量(步骤S12)。
接着,观测特征量矩阵计算部30根据观测特征量矢量,计算每个时间频率点的观测特征量矩阵(步骤S13)。然后,掩码估计部20根据观测特征量矢量来估计掩码(步骤S14)。
噪声下目标音空间相关矩阵估计部40对观测特征量矩阵使用与目标音对应的掩码,并通过规定的系数进行加权,由此估计噪声下目标音空间相关矩阵(步骤S15)。此外,噪声空间相关矩阵估计部50对观测特征量矩阵使用与背景噪声对应的掩码,并通过规定的系数进行加权,由此估计噪声空间相关矩阵(步骤S16)。
此时,在噪声下目标音空间相关矩阵的估计中使用的系数与在噪声空间相关矩阵的估计中使用的系数之比例如等于与目标音对应的掩码的时间平均的倒数与对应于背景噪声的掩码的时间平均的倒数之比。
最后,目标音空间相关矩阵噪声除去部60例如从噪声下目标音空间相关矩阵中减去噪声空间相关矩阵,从而估计出目标音的空间相关矩阵(步骤S17)。
此外,使用图4来说明图3的步骤S14的掩码估计处理的示例。图4是表示第1实施方式的空间相关矩阵估计装置的掩码估计处理的一例的图。首先,掩码估计部20使用混合复高斯分布对观测信号的生成分布进行模型化(步骤S141)。
参数初始化部203通过随机数等来设定模型的参数的初始值(步骤S142)。接着,事后概率估计部201使用观测信号和参数来计算与各要素分布有关的事后概率(步骤S143)。这里,在未进行30次事后概率的计算的情况下(步骤S144,No),参数更新部202使用计算出的事后概率来更新参数(步骤S145)。而且,掩码估计部20返回到步骤S143反复执行处理。
并且,在执行了30次事后概率的计算的情况下(步骤S144,Yes),参数更新部202进行最后的参数更新。最后,掩码估计部20将计算出的事后概率作为掩码来进行估计(步骤S146)。
[第1实施方式的效果]
为了确认本发明的效果,下面对使用现有方法和第1实施方式实施的确认实验进行说明。
(确认实验1)
在确认实验1中,在公共汽车中、咖啡店等的存在背景噪声的环境下,1名说话人(N=1)朝向平板电脑朗读文章的状况下,利用安装于平板电脑的M=6个的麦克风收录了信号。此时,对所收录的信号使用各方法进行了声音识别的情况下的声音识别精度如下所述。基于下述的结果,可确认到通过使用第1实施方式,声音识别精度得以提高。
(1)直接进行声音识别的情况:87.11(%)
(2)通过Watson分布进行掩码估计后,适用MVDR的情况(现有方法):89.40(%)
(3)使用第1实施方式,离线进行掩码估计后,适用MVDR的情况(实施例1、离线):91.54(%)
(4)使用第1实施方式,将事前学习的参数作为初始值,在线进行了掩码估计后,适用MVDR的情况(实施例1、在线):91.80(%)
(确认实验2)
在确认实验2中,在通常的会议室内,4名说话人(N=4)围在直径1.2m的圆桌旁自由会话的状况下,通过圆桌中央的M=8个的麦克风收录了信号。此时,对所收录的信号使用各方法进行了声音识别的情况下的声音识别精度如下所述。根据下述的结果,可确认到通过使用第1实施方式,声音识别精度得以提高。
(1)直接进行声音识别的情况:20.9(%)
(2)使用第1实施方式,在离线进行了掩码估计后,适用MVDR的情况(实施例1、离线):54.0(%)
(3)使用第1实施方式,在线进行了掩码估计后,适用MVDR的情况(实施例1、在线):52.0(%)
时间频率分析部10根据被输入的观测特征量来计算观测特征量矢量。此外,掩码估计部20估计作为每个时间频率点的第1音频信号在观测信号的特征量中所含比例的第1掩码、以及作为每个时间频率点的第2音频信号在观测信号的特征量中所含比例的第2掩码。并且,观测特征量矩阵计算部30根据观测特征量矢量,按照每个时间频率点,将观测特征量矢量与该观测特征量矢量的厄密转置相乘来计算观测特征量矩阵。
噪声下目标音空间相关矩阵估计部40根据观测信号和第1掩码来计算对计算出的第1特征量矩阵以第1系数加权后的第1空间相关矩阵。此外,噪声空间相关矩阵估计部50根据观测信号和第2掩码来计算对计算出的第2特征量矩阵以第2系数加权后的第2空间相关矩阵。并且,目标音空间相关矩阵噪声除去部60根据第1空间相关矩阵和第2空间相关矩阵来估计目标声源的空间相关矩阵。
这样,根据第1实施方式,进行基于第1系数和第2系数的适当的加权,因此相比直接使用第1特征量矩阵和第2特征量矩阵的情况而言,能够从观测信号中正确地去除背景噪声的影响,能够精度良好地估计目标声源的空间相关矩阵。
此外,第1系数与第2系数的比率例如等于第1掩码的时间平均值的倒数与第2掩码的时间平均值的倒数的比率。由此,考虑到背景噪声的空间相关矩阵相对于所估计的目标声源的空间相关矩阵不会随时间而大幅变化的情况,估计精度提高。
此外,掩码估计部20以由N+1个的要素分布构成的混合分布按照每个频率将观测特征量矢量的概率分布模型化,该N+1个的要素分布是由具有协方差矩阵按照每个时刻取不同的值的标量参数和不随时间变化的参数作为要素的正定值厄密矩阵的积表现的平均0的M维复高斯分布。
并且,掩码估计部20将以混合分布接近观测特征量矢量的分布的方式估计混合分布的参数而得到的要素分布的各自的事后概率作为第1掩码和第2掩码。由此,在观测特征量矢量的分布的形状以超球面上的圆状无法正确地近似的情况下,也能够正确地估计掩码。
而且,掩码估计部20将要素分布中的要素具备不随时间变化的参数的正定值厄密矩阵的固有值的分布的形状最平坦的要素分布的事后概率作为与背景噪声对应的第2掩码。由此,能够自动地估计由掩码估计部估计出的掩码中的哪个掩码对应于背景噪声。
[系统结构等]
此外,图示出的各装置的各结构要素仅为功能概念性的内容,未必需要物理上如图示那样构成。即,各装置的分散/统合的具体方式不限于图示的情况,可以根据各种负荷和使用状况等将其全部或一部分以任意的单位在功能或物理上分散/统合地构成。进而,在各装置中进行的各处理功能的全部或任意的一部分可由CPU(Central Processing Unit:中央处理单元)和通过该CPU解析执行的程序来实现,或者可以作为基于连线逻辑的硬件而实现。
此外,在本实施方式中说明的各处理中的作为自动执行的内容而说明的处理的全部或一部分也可以手动执行,或者,作为手动执行的内容而说明的处理的全部或一部分也可以通过公知的方法来自动执行。此外,关于在上述说明书或附图中示出的处理步骤、控制步骤、具体的名称、包含各种数据和参数的信息,除特殊记载的情况以外都可以任意变更。
[程序]
作为一个实施方式,作为软件包或在线软件而将执行上述的空间相关矩阵估计的空间相关矩阵估计程序安装在期望的计算机上,从而能够安装空间相关矩阵估计装置。例如,通过使信息处理装置执行上述的空间相关矩阵估计程序,能够使信息处理装置作为空间相关矩阵估计装置发挥功能。这里所述的信息处理装置包括桌面型或笔记本型的个人计算机。此外,除此以外,信息处理装置的范畴内还包括智能手机、移动电话和PHS(PersonalHandyphone System:个人手持电话系统)等的移动体通信终端以及PDA(Personal DigitalAssistant:个人数字助理)等的单板型终端等。
此外,空间相关矩阵估计装置还可以作为以用户使用的终端装置未做客户端,向该客户端提供与上述的空间相关矩阵估计有关的服务的服务器装置而安装。例如,空间相关矩阵估计装置可以作为将观测信号作为输入,并将目标声源的空间相关矩阵作为输出的提供空间相关矩阵估计服务的服务器装置而安装。这种情况下,空间相关矩阵估计装置既可以作为Web服务器安装,也可以作为通过承包商提供与上述的空间相关矩阵估计有关的服务的云端系统而安装。
图5是表示通过执行程序来实现空间相关矩阵估计装置的计算机的一例的图。计算机1000例如具有存储器1010和CPU1020。此外,计算机1000具有硬盘驱动器接口1030、磁盘驱动器接口1040、串行端口接口1050、视频适配器1060和网络接口1070。这些各部通过总线1080而连接起来。
存储器1010包括ROM(Read Only Memory)1011和RAM(Random Access Memory)1012。ROM1011例如存储BIOS(Basic Input Output System:基本输入输出系统)等的BOOT程序。硬盘驱动器接口1030与硬盘驱动器1090连接。磁盘驱动器接口1040与磁盘驱动器1100连接。例如磁盘或光盘等的可装卸的存储介质被插入到磁盘驱动器1100中。串行端口接口1050例如与鼠标1110、键盘1120连接。视频适配器1060例如与显示器1130连接。
硬盘驱动器1090例如存储OS1091、应用程序1092、程序模块1093和程序数据1094。即,规定空间相关矩阵估计装置1的各处理的程序作为记述有可由计算机执行的代码的程序模块1093而被安装。程序模块1093例如被存储于硬盘驱动器1090。例如,用于执行与空间相关矩阵估计装置1的功能结构同样的处理的程序模块1093被存储于硬盘驱动器1090。另外,硬盘驱动器1090还可以被SSD(Solid State Drive:固态硬盘)代替。
此外,在上述实施方式的处理中使用的常设数据作为程序数据1094而例如存储于存储器1010和硬盘驱动器1090中。并且,CPU1020根据需要而将存储在存储器1010和硬盘驱动器1090中的程序模块1093和程序数据1094读出到RAM1012中执行。
另外,程序模块1093和程序数据1094不限于存储于硬盘驱动器1090中的情况,例如还可以存储于可装卸的存储介质中,通过磁盘驱动器1100等而被CPU1020读出。或者,程序模块1093和程序数据1094还可以存储于经由网络(LAN(Local Area Network:局域网)、WAN(Wide Area Network:广域网)等)而连接的其他计算机中。并且,程序模块1093和程序数据1094还可以通过网络接口1070而被CPU1020从其他的计算机中读出。
标号说明
1:空间相关矩阵估计装置,10:时间频率分析部,20:掩码估计部,30:观测特征量矩阵计算部,40:噪声下目标音空间相关矩阵估计部,50:噪声空间相关矩阵估计部,60:目标音空间相关矩阵噪声除去部,201:事后概率估计部,202:参数更新部,203:参数初始化部,204:参数保持部。
Claims (12)
1.一种空间相关矩阵估计装置,其根据观测特征量矢量,估计第1掩码以及第2掩码,根据所述第1掩码和所述第2掩码来估计目标声源的空间相关矩阵,其中,该观测特征量矢量是基于与N个所述目标声源对应的N个第1音频信号和与背景噪声对应的第2音频信号混合存在的状况下在分别不同的位置处收录的M个观测信号而计算出的,该第1掩码是每个时间频率点的所述第1音频信号在所述观测信号的特征量中所含比例,该第2掩码是每个时间频率点的所述第2音频信号在所述观测信号的特征量中所含比例,N是1以上的整数,M是2以上的整数,
该空间相关矩阵估计装置的特征在于,具有噪声除去部,该噪声除去部根据第1空间相关矩阵和第2空间相关矩阵来估计所述目标声源的空间相关矩阵,该第1空间相关矩阵是以第1系数对基于所述观测信号和所述第1掩码计算出的第1特征量矩阵进行加权而得到的,该第2空间相关矩阵是以第2系数对基于所述观测信号和所述第2掩码计算出的第2特征量矩阵进行加权而得到的。
2.根据权利要求1所述的空间相关矩阵估计装置,其特征在于,
所述噪声除去部计算所述第1系数和所述第2系数,使得在背景噪声的空间相关矩阵不随时间变化的条件下,所述目标声源的空间相关矩阵的估计值中包含的来自背景噪声的分量为0。
3.根据权利要求1或2所述的空间相关矩阵估计装置,其特征在于,
所述噪声除去部计算所述第1系数和所述第2系数,使得所述第1系数与所述第2系数的比率等于所述第1掩码的时间平均值的倒数与所述第2掩码的时间平均值的倒数的比率。
4.根据权利要求1或2所述的空间相关矩阵估计装置,其特征在于,
在N=1的情况下,所述第1空间相关矩阵是根据所述观测特征量矢量计算出的观测特征量矩阵的每个频率的时间平均。
5.根据权利要求1所述的空间相关矩阵估计装置,其特征在于,该空间相关矩阵估计装置还具有:
时间频率分析部,其对所述观测信号应用短时间信号分析,提取每个时间频率点的信号特征量,按照每个时间频率点计算观测特征量矢量,该观测特征量矢量是以所述信号特征量为分量的M维纵矢量;
观测特征量矩阵计算部,其根据所述观测特征量矢量,按照每个时间频率点将所述观测特征量矢量与该观测特征量矢量的厄密转置相乘来计算观测特征量矩阵;
噪声下目标音空间相关矩阵估计部,其对于各个所述目标声源,计算按照每个时间频率点将所述观测特征量矩阵与所述第1掩码相乘而得到的矩阵的每个频率的时间平均作为第1特征量矩阵,通过对所述第1特征量矩阵乘以所述第1系数而估计所述第1空间相关矩阵;以及
噪声空间相关矩阵估计部,其对于所述背景噪声,计算按照每个时间频率点将所述观测特征量矩阵与所述第2掩码相乘而得到的矩阵的每个频率的时间平均作为第2特征量矩阵,通过对所述第2特征量矩阵乘以所述第2系数而估计所述第2空间相关矩阵,
所述噪声除去部通过从所述第1空间相关矩阵中减去所述第2空间相关矩阵来估计所述目标声源的空间相关矩阵,
所述第1系数与所述第2系数的比率等于所述第1掩码的时间平均值的倒数与所述第2掩码的时间平均值的倒数的比率。
6.根据权利要求1或2所述的空间相关矩阵估计装置,其特征在于,
该空间相关矩阵估计装置还具有掩码估计部,该掩码估计部以由N+1个的要素分布构成的混合分布按照每个频率将所述观测特征量矢量的概率分布模型化,将以所述混合分布接近所述观测特征量矢量的分布的方式估计所述混合分布的参数而得到的所述要素分布的各个事后概率作为所述第1掩码和所述第2掩码,其中,该N+1个的要素分布是由下述的正定值厄密矩阵的积表现的平均0的M维复高斯分布,该正定值厄密矩阵具有协方差矩阵按照每个时刻取不同的值的标量参数和不随时间变化的参数作为要素。
7.根据权利要求6所述的空间相关矩阵估计装置,其特征在于,
所述掩码估计部将所述要素分布中的具有所述不随时间变化的参数作为要素的正定值厄密矩阵的固有值的分布的形状最平坦的要素分布的事后概率作为所述第2掩码。
8.一种空间相关矩阵估计方法,根据观测特征量矢量,估计第1掩码以及第2掩码,根据所述第1掩码和所述第2掩码来估计目标声源的空间相关矩阵,其中,该观测特征量矢量是基于与N个所述目标声源对应的N个第1音频信号和与背景噪声对应的第2音频信号混合存在的状况下在分别不同的位置处收录的M个观测信号而计算出的,该第1掩码是每个时间频率点的所述第1音频信号在所述观测信号的特征量中所含比例,该第2掩码是每个时间频率点的所述第2音频信号在所述观测信号的特征量中所含比例,N是1以上的整数,M是2以上的整数,
该空间相关矩阵估计方法的特征在于,包括噪声除去步骤,在该噪声除去步骤中,根据第1空间相关矩阵和第2空间相关矩阵来估计所述目标声源的空间相关矩阵,该第1空间相关矩阵是以第1系数对基于所述观测信号和所述第1掩码计算出的第1特征量矩阵进行加权而得到的,该第2空间相关矩阵是以第2系数对基于所述观测信号和所述第2掩码计算出的第2特征量矩阵进行加权而得到的。
9.根据权利要求8所述的空间相关矩阵估计方法,其特征在于,
在所述噪声除去步骤中,计算所述第1系数和所述第2系数,使得在背景噪声的空间相关矩阵不随时间变化的条件下,在所述目标声源的空间相关矩阵的估计值中包含的来自背景噪声的分量为0。
10.根据权利要求8或9所述的空间相关矩阵估计方法,其特征在于,
在所述噪声除去步骤中,计算所述第1系数和所述第2系数,使得所述第1系数与所述第2系数的比率等于所述第1掩码的时间平均值的倒数与所述第2掩码的时间平均值的倒数的比率。
11.根据权利要求8所述的空间相关矩阵估计方法,其特征在于,该空间相关矩阵估计方法还包括:
时间频率分析步骤,对所述观测信号应用短时间信号分析,提取每个时间频率点的信号特征量,按照每个时间频率点计算观测特征量矢量,该观测特征量矢量是以所述信号特征量为分量的M维纵矢量;
观测特征量矩阵计算步骤,根据所述观测特征量矢量按照每个时间频率点将所述观测特征量矢量与该观测特征量矢量的厄密转置相乘来计算观测特征量矩阵;
噪声下目标音空间相关矩阵估计步骤,对于各个所述目标声源,计算按照每个时间频率点将所述观测特征量矩阵与所述第1掩码相乘而得到的矩阵的每个频率的时间平均作为第1特征量矩阵,通过对所述第1特征量矩阵乘以所述第1系数来估计所述第1空间相关矩阵;以及
噪声空间相关矩阵估计步骤,对于所述背景噪声,计算按照每个时间频率点将所述观测特征量矩阵与所述第2掩码相乘而得到的矩阵的每个频率的时间平均作为第2特征量矩阵,通过对所述第2特征量矩阵乘以所述第2系数来估计所述第2空间相关矩阵,
在所述噪声除去步骤中,通过从所述第1空间相关矩阵中减去所述第2空间相关矩阵来估计所述目标声源的空间相关矩阵,
所述第1系数与所述第2系数的比率等于所述第1掩码的时间平均值的倒数与所述第2掩码的时间平均值的倒数的比率。
12.一种记录介质,其记录有空间相关矩阵估计程序,该空间相关矩阵估计程序用于使计算机执行权利要求8至11中的任意一项所述的空间相关矩阵估计方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015-236158 | 2015-12-02 | ||
JP2015236158 | 2015-12-02 | ||
PCT/JP2016/085821 WO2017094862A1 (ja) | 2015-12-02 | 2016-12-01 | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108292508A CN108292508A (zh) | 2018-07-17 |
CN108292508B true CN108292508B (zh) | 2021-11-23 |
Family
ID=58797513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680069908.5A Active CN108292508B (zh) | 2015-12-02 | 2016-12-01 | 空间相关矩阵估计装置、空间相关矩阵估计方法和记录介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10643633B2 (zh) |
JP (1) | JP6434657B2 (zh) |
CN (1) | CN108292508B (zh) |
WO (1) | WO2017094862A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6888627B2 (ja) * | 2016-08-23 | 2021-06-16 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP6711789B2 (ja) * | 2017-08-30 | 2020-06-17 | 日本電信電話株式会社 | 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム |
CN111052766B (zh) * | 2017-09-07 | 2021-07-27 | 三菱电机株式会社 | 噪音去除装置及噪音去除方法 |
KR102088222B1 (ko) * | 2018-01-25 | 2020-03-16 | 서강대학교 산학협력단 | 분산도 마스크를 이용한 음원 국지화 방법 및 음원 국지화 장치 |
JP6915579B2 (ja) * | 2018-04-06 | 2021-08-04 | 日本電信電話株式会社 | 信号分析装置、信号分析方法および信号分析プログラム |
JP6992709B2 (ja) * | 2018-08-31 | 2022-01-13 | 日本電信電話株式会社 | マスク推定装置、マスク推定方法及びマスク推定プログラム |
US10929503B2 (en) * | 2018-12-21 | 2021-02-23 | Intel Corporation | Apparatus and method for a masked multiply instruction to support neural network pruning operations |
CN109859769B (zh) * | 2019-01-30 | 2021-09-17 | 西安讯飞超脑信息科技有限公司 | 一种掩码估计方法及装置 |
CN110097872B (zh) * | 2019-04-30 | 2021-07-30 | 维沃移动通信有限公司 | 一种音频处理方法及电子设备 |
CN110148422B (zh) * | 2019-06-11 | 2021-04-16 | 南京地平线集成电路有限公司 | 基于传声器阵列确定声源信息的方法、装置及电子设备 |
JP7191793B2 (ja) * | 2019-08-30 | 2022-12-19 | 株式会社東芝 | 信号処理装置、信号処理方法、及びプログラム |
CN111009257B (zh) * | 2019-12-17 | 2022-12-27 | 北京小米智能科技有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
CN111009256B (zh) * | 2019-12-17 | 2022-12-27 | 北京小米智能科技有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
CN113779805B (zh) * | 2021-09-16 | 2023-11-14 | 北京中安智能信息科技有限公司 | 海洋噪声相关性仿真方法和装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1832633A (zh) * | 2005-03-07 | 2006-09-13 | 华为技术有限公司 | 一种声源定位方法 |
CN102231280A (zh) * | 2011-05-06 | 2011-11-02 | 山东大学 | 卷积语音信号的频域盲分离排序算法 |
CN102473412A (zh) * | 2009-07-21 | 2012-05-23 | 日本电信电话株式会社 | 语音信号区间估计装置与语音信号区间估计方法及其程序与记录介质 |
CN102890936A (zh) * | 2011-07-19 | 2013-01-23 | 联想(北京)有限公司 | 一种音频处理方法、终端设备及系统 |
CN103098132A (zh) * | 2010-08-25 | 2013-05-08 | 旭化成株式会社 | 声源分离装置、声源分离方法、以及程序 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
CN105849804A (zh) * | 2013-12-23 | 2016-08-10 | 美国亚德诺半导体公司 | 过滤噪声的计算高效方法 |
CN106031196A (zh) * | 2014-02-28 | 2016-10-12 | 日本电信电话株式会社 | 信号处理装置、方法以及程序 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004084467A2 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Recovering an erased voice frame with time warping |
US7415392B2 (en) * | 2004-03-12 | 2008-08-19 | Mitsubishi Electric Research Laboratories, Inc. | System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution |
JP2006337851A (ja) * | 2005-06-03 | 2006-12-14 | Sony Corp | 音声信号分離装置及び方法 |
US8015003B2 (en) * | 2007-11-19 | 2011-09-06 | Mitsubishi Electric Research Laboratories, Inc. | Denoising acoustic signals using constrained non-negative matrix factorization |
CN101965613B (zh) * | 2008-03-06 | 2013-01-02 | 日本电信电话株式会社 | 信号增强装置及方法 |
CN103038823B (zh) * | 2010-01-29 | 2017-09-12 | 马里兰大学派克分院 | 用于语音提取的系统和方法 |
US8874441B2 (en) * | 2011-01-19 | 2014-10-28 | Broadcom Corporation | Noise suppression using multiple sensors of a communication device |
EP3190587B1 (en) * | 2012-08-24 | 2018-10-17 | Oticon A/s | Noise estimation for use with noise reduction and echo cancellation in personal communication |
JP5997007B2 (ja) * | 2012-10-31 | 2016-09-21 | 日本電信電話株式会社 | 音源位置推定装置 |
WO2014079483A1 (en) * | 2012-11-21 | 2014-05-30 | Huawei Technologies Co., Ltd. | Method and device for reconstructing a target signal from a noisy input signal |
JP2014215544A (ja) * | 2013-04-26 | 2014-11-17 | ヤマハ株式会社 | 音響処理装置 |
-
2016
- 2016-12-01 US US15/779,926 patent/US10643633B2/en active Active
- 2016-12-01 JP JP2017554190A patent/JP6434657B2/ja active Active
- 2016-12-01 WO PCT/JP2016/085821 patent/WO2017094862A1/ja active Application Filing
- 2016-12-01 CN CN201680069908.5A patent/CN108292508B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1832633A (zh) * | 2005-03-07 | 2006-09-13 | 华为技术有限公司 | 一种声源定位方法 |
CN102473412A (zh) * | 2009-07-21 | 2012-05-23 | 日本电信电话株式会社 | 语音信号区间估计装置与语音信号区间估计方法及其程序与记录介质 |
CN103098132A (zh) * | 2010-08-25 | 2013-05-08 | 旭化成株式会社 | 声源分离装置、声源分离方法、以及程序 |
CN102231280A (zh) * | 2011-05-06 | 2011-11-02 | 山东大学 | 卷积语音信号的频域盲分离排序算法 |
CN102890936A (zh) * | 2011-07-19 | 2013-01-23 | 联想(北京)有限公司 | 一种音频处理方法、终端设备及系统 |
CN105849804A (zh) * | 2013-12-23 | 2016-08-10 | 美国亚德诺半导体公司 | 过滤噪声的计算高效方法 |
CN106031196A (zh) * | 2014-02-28 | 2016-10-12 | 日本电信电话株式会社 | 信号处理装置、方法以及程序 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
Non-Patent Citations (2)
Title |
---|
Towards optimal loudspeaker placement for sound field reproduction;Hanieh Khalilian;《2013 IEEE International Conference on Acoustics, Speech and Signal Processing》;20131021;全文 * |
奇异值分解波束形成声源识别方法;褚志刚 等;《电子测量与仪器学报》;中国电子协会;20141115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
JP6434657B2 (ja) | 2018-12-05 |
JPWO2017094862A1 (ja) | 2018-04-05 |
CN108292508A (zh) | 2018-07-17 |
US20180366135A1 (en) | 2018-12-20 |
WO2017094862A1 (ja) | 2017-06-08 |
US10643633B2 (en) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108292508B (zh) | 空间相关矩阵估计装置、空间相关矩阵估计方法和记录介质 | |
US11763834B2 (en) | Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method | |
US9741360B1 (en) | Speech enhancement for target speakers | |
Douglas et al. | Spatio–Temporal FastICA algorithms for the blind separation of convolutive mixtures | |
Kitamura et al. | Efficient multichannel nonnegative matrix factorization exploiting rank-1 spatial model | |
JP6535112B2 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
JP6652519B2 (ja) | ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム | |
JP6517760B2 (ja) | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
Koldovský et al. | Extraction of independent vector component from underdetermined mixtures through block-wise determined modeling | |
Kubo et al. | Efficient full-rank spatial covariance estimation using independent low-rank matrix analysis for blind source separation | |
Ito et al. | Noisy cGMM: Complex Gaussian mixture model with non-sparse noise model for joint source separation and denoising | |
Nesta et al. | Robust Automatic Speech Recognition through On-line Semi Blind Signal Extraction | |
JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
JP6910609B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP6973254B2 (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
JP2013186383A (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP2018146610A (ja) | マスク推定装置、マスク推定方法およびマスク推定プログラム | |
JP6734237B2 (ja) | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム | |
Drude et al. | Towards online source counting in speech mixtures applying a variational EM for complex Watson mixture models | |
Li et al. | Low complex accurate multi-source RTF estimation | |
JP6930408B2 (ja) | 推定装置、推定方法および推定プログラム | |
Chung et al. | A supervised multi-channel speech enhancement algorithm based on bayesian nmf model | |
Loweimi et al. | On the usefulness of statistical normalisation of bottleneck features for speech recognition | |
JP6915579B2 (ja) | 信号分析装置、信号分析方法および信号分析プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |