CN101385386A - 混响除去装置、混响除去方法、混响除去程序和记录介质 - Google Patents
混响除去装置、混响除去方法、混响除去程序和记录介质 Download PDFInfo
- Publication number
- CN101385386A CN101385386A CNA2007800060354A CN200780006035A CN101385386A CN 101385386 A CN101385386 A CN 101385386A CN A2007800060354 A CNA2007800060354 A CN A2007800060354A CN 200780006035 A CN200780006035 A CN 200780006035A CN 101385386 A CN101385386 A CN 101385386A
- Authority
- CN
- China
- Prior art keywords
- mentioned
- reverberation
- channel
- rear portion
- audible signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 97
- 238000001228 spectrum Methods 0.000 claims abstract description 97
- 230000002087 whitening effect Effects 0.000 claims description 123
- 238000004088 simulation Methods 0.000 claims description 106
- 238000012545 processing Methods 0.000 claims description 88
- 238000004364 calculation method Methods 0.000 claims description 50
- 238000006467 substitution reaction Methods 0.000 claims description 23
- 238000012937 correction Methods 0.000 claims description 6
- 230000001915 proofreading effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 abstract description 9
- 230000006870 function Effects 0.000 description 66
- 238000012546 transfer Methods 0.000 description 40
- 238000010586 diagram Methods 0.000 description 34
- 238000004458 analytical method Methods 0.000 description 25
- 239000011159 matrix material Substances 0.000 description 20
- 230000000875 corresponding effect Effects 0.000 description 12
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 101150068243 invF gene Proteins 0.000 description 6
- 238000002203 pretreatment Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000009795 derivation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000001105 regulatory effect Effects 0.000 description 4
- 230000033228 biological regulation Effects 0.000 description 3
- 238000005314 correlation function Methods 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000017105 transposition Effects 0.000 description 3
- 238000013016 damping Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-M argininate Chemical compound [O-]C(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-M 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009347 mechanical transmission Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
模型应用单元(10b)使用离散声响信号计算多阶线性预测模型的各线性预测系数。接着,后部混响预测单元(10c)将各线性预测系数和离散声响信号代入多阶线性预测模型的线性预测项而得到的线性预测值作为后部混响预测值来计算。接着,频域变换单元(10d)将离散声响信号变换为频域的离散声响信号,并将后部混响预测值变换为频域的后部混响预测值。然后,后部混响除去单元(10e)求频域的离散声响信号的振幅谱和频域的后部混响预测值的振幅谱的相对值,并将该相对值作为后部混响除去信号的振幅谱预测值。
Description
技术领域
本发明涉及声响(acoustic)信号处理的技术领域,特别涉及从包含混响(reverberation)的声响信号中除去混响的技术。
背景技术
如果在有混响的环境中接收声响信号,则观测到在本来信号中叠加了混响的信号。在该情况下,由于叠加的混响分量而使声响信号的明确性大幅降低,难以提取声响信号本来的性质。例如,在通过自动语音识别(以下称作语音识别)系统识别了包含混响的语音信号的情况下,由于该混响的影响而使语音识别系统的识别率显著地降低。
混响除去处理是在这样的情况下能够将叠加了的混响除去而使声响信号恢复到本来的音质的技术。由此,例如能够恢复语音信号的明确性并且改善语音识别率等。
作为除去长的混响的混响除去处理的以往例子,有非专利文献1所公开的方法。
在该以往例子中,假定后部混响(late reverberation)呈指数函数地衰减,使用指数函数估计后部混响的能量并且进行混响除去。即,将观测信号变换为频域信号,假定在各频率中,频域信号为直接声音和后部混响之和,使用混响能量呈指数函数地减少的模型(multi-band decay model)估计该模型参数,并对估计的后部混响能量和观测信号能量应用谱减法(Spectralsubtraction),除去后部混响。另外,对于模型参数的估计,使用仅观测到后部混响的声音(sound)的末尾部分。
非专利文献1:I.Tashev and D.Allred,“Reverberation Reduction forImproved Speech Recognition”2005Joint Workshop on hands-Free SpeechCommunication and Microphone Arrays。
发明内容
发明要解决的课题
但是,在上述以往例子中,存在根据环境不同而有时不能自动进行精度高的混响除去的问题。
即,在上述以往例子的情况下,如果使用的指数函数能够高精度地将观测声音中的后部混响进行建模,则能够高精度地除去后部混响。但是,一般难以通过指数函数准确地近似根据房间、说话人和麦克风之间距离而变化多样的混响。此外,在声响信号的末尾部分和除此以外的部分混响特性不同的情况下,不能使用该架构。这样,在上述以往例子中,由于通过指数函数将后部混响模型化,因此在该模型与观测声音中的后部混响不完全一致的情况下,或者混响特性在声响信号的末尾部分和除此以外的部分不同的情况下,不能自动地进行高精度的混响除去。
本发明鉴于这样的方面而完成,其目的在于提供一种在任何环境中都能够进行高精度的混响除去处理的混响除去技术。
用于解决课题的手段
在本发明中,为了解决上述课题,执行:离散声响信号存储步骤,首先在存储器中存储离散声响信号值,所述离散声响信号值通过将由M(M≥1)个传感器分别观测的M个信道(channel)m(m=1,...,M)的声响信号分别在多个时刻进行采样而得到;模型应用步骤,使用多个上述离散声响信号值来计算信道w(w=1,...,M)的多阶(multi-step)线性预测模型(通过将长时间区间中的M个信道的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和,表现在该长时间区间的规定时间后的离散时间n的信道w的离散声响信号值的线性预测模型);以及后部混响预测步骤,将线性预测值作为在离散时间n的信道w的后部混响预测值而输出,所述线性预测值通过将上述信道w的多阶线性预测模型的各线性预测系数和多个上述离散声响信号值代入上述信道w的多阶线性预测模型的上述线性预测项而得到。
另外,“模型”表示表现了物理状态的关系式。此外,“信道”表示每个传感器的处理序列,由相同传感器观测到的声响信号的处理序列属于相同信道。此外,在M≥2的情况下,传感器中的至少一部分被配置在与其它传感器不同的位置。即,在M≥2的情况下,全部传感器不会完全配置在相同的位置上。此外,将M≥2的情况下的“多阶线性预测模型”称作“多信道多阶线性预测模型”。即,本发明中的“多阶线性预测模型”是“多信道多阶线性预测模型”的上位概念。
这样,在本发明中,由多阶线性预测模型的线性预测项计算声响信号的后部混响预测值(详细在后面说明),通过使用该后部混响预测值来除去声响信号的混响。
这里,在本发明中,由于通过多阶线性预测模型将声响信号进行模型化,因此与仅通过指数函数将后部混响模型化的情况相比,能够进行更准确的近似。即,声响信号的后部混响分量由过去的各时刻的声响信号引起,在某一时间区间中具有自相关性。因此,可以说以多个时刻的时间序列数据的线性结合表现各时刻的时间序列数据的多阶线性预测模型适于混响信号的模型化。
此外,本发明的多阶线性预测模型是通过将长时间区间中的M(M≥1)个信道的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和,表现在该长时间区间的规定时间后的离散时间n的信道w的离散声响信号值的线性预测模型。通过使用这样的“表现该长时间区间的规定时间后的离散声响信号值的线性预测模型”,从而与使用“表现紧接着该长时间区间之后的离散声响信号值的线性预测模型”的情况相比,能够高精度地估计后部混响信号(详细在后面叙述)。其结果,能够进行适当的后部混响除去。
此外,在本发明中,对于多阶线性预测模型的模型参数的估计,不是仅使用声响信号的末尾部分,而是使用离散声响信号的整体,因此即使在混响特性在声响信号的末尾部分和除此以外的部分不同的情况下,也能够进行适当的后部混响除去。
此外,在本发明中,优选M≥2。通过使用多信道多阶线性预测模型,从而即使在室内传递函数中的最大相位分量多的环境下,也能够高精度地进行后部混响除去(详细在后面叙述)。
此外,本发明中,优选上述模型应用步骤具有:模拟白色化步骤,从各离散时间的上述离散声响信号值中,抑制与紧接着该离散时间之前的短时间区间内的各离散声响信号值具有自相关性的自相关分量(short-temcorrelation),并生成模拟白色化(pre-whitening)后的离散声响信号值;以及第一线性预测系数计算步骤,使用上述模拟白色化后的离散声响信号值,计算上述多阶线性预测模型的各线性预测系数。这里,上述短时间区间比上述长时间区间短。
多阶线性预测模型是将后部混响分量估计为线性预测项的模型。从而,该线性预测系数的计算所使用的离散声响信号值的自相关分量在理想情况下仅为后部混响分量所引起的分量。但是,声响信号的直接声音分量与后部混响分量相比,具有非常短的时间区间内的自相关性。模拟白色化是用于抑制该短的时间区间内的自相关性的处理。使用模拟白色化后的离散声响信号计算多阶线性预测模型的各线性预测系数,使得后部混响除去处理的精度提高。
此外,在本发明中,优选上述模拟白色化步骤具有:第二线性预测系数计算步骤,使用上述离散声响信号值来计算信道m的短时间线性预测模型的各线性预测系数,所述信道m的短时间线性预测模型,是通过将上述短时间区间中的信道m的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和,表现在紧接着上述短时间区间之后的离散时间n的该信道m的离散声响信号值的线性预测模型;以及逆滤波处理步骤,在通过将由上述第二线性预测系数计算步骤计算出的上述各线性预测系数代入信道m的上述短时间线性预测模型而得到的逆滤波器中,代入该信道m的上述离散声响信号值,并将由此得到的该短时间线性预测模型的上述预测误差项的值作为该信道m的上述模拟白色化后的离散声响信号值输出。由此,能够抑制被观测到的声响信号的直接声音分量的自相关性。
此外,在该情况下,优选M≥2,上述第二线性预测系数计算步骤具有:自相关系数计算步骤,对每个信道计算上述离散声响信号值的自相关系数;自相关系数平均化步骤,计算将对每个信道求出的上述自相关系数在信道之间平均化后的平均自相关系数;以及方程式运算步骤,使用上述平均自相关系数,计算上述短时间线性预测模型的各线性预测系数。
这样,通过将在每个信道中求出的自相关系数在信道之间平均化后的平均自相关系数用于计算短时间线性预测模型的各线性预测系数,从而短时间线性预测模型的各线性预测系数的计算精度提高,模拟白色化后的离散声响信号的生成精度提高。这对后部混响除去处理的精度提高有贡献。
代替使用上述平均自相关系数,也可以计算离散声响信号值的自相关系数,并使用上述自相关系数计算上述短时间线性预测模型的各线性预测系数,上述离散声响信号值将由上述M个传感器中最接近声响信号的声源的一个传感器所观测到的声响信号,在多个时刻进行采样而得到。由此,能够高精度地计算短时间线性预测模型的各线性预测系数,并且模拟白色化后的离散声响信号的生成精度提高。这对后部混响除去处理的精度提高有贡献。
此外,本发明中,优选具有:频域变换步骤,将各信道的上述离散声响信号值变换为频域的离散声响信号值,并将各信道的上述后部混响预测值变换为频域的后部混响预测值;以及后部混响除去步骤,对每个信道求上述频域的离散声响信号值的振幅谱和上述频域的后部混响预测值的振幅谱的相对值,并将该相对值作为各信道的后部混响除去信号值的振幅谱预测值而输出。由此,能够计算后部混响除去信号值的振幅谱预测值。
此外,在该情况下,优选在上述后部混响预测步骤中,计算线性预测值作为在离散时间n的信道w的后部混响预测值,所述线性预测值通过将由上述模型应用单元计算出的上述各线性预测系数和多个模拟白色化后的上述离散声响信号值代入上述线性预测项而得到,上述频域变换单元中,将模拟白色化后的各信道的上述离散声响信号值变换为频域的离散声响信号值。由此,可以计算模拟白色化后的后部混响除去信号值的振幅谱预测值。这样的值作为需要模拟白色化后的数据的系统的输入值是合适的。
此外,在本发明中,优选还具有:复谱生成步骤,使用信道w的上述后部混响除去信号值的振幅谱预测值,和信道w的上述频域的离散声响信号值的相位信息,计算信道w的后部混响除去信号值的复谱预测值;以及时域变换步骤,计算将信道w的上述后部混响除去信号值的复谱预测值变换为时域后的信道w的后部混响除去信号估计值。由此,能够得到将后部混响除去后的声响信号的估计值(后部混响除去信号估计值)。
此外,在该情况下,优选M≥2,上述模型应用步骤是对多个信道分别计算上述各线性预测系数的步骤,上述后部混响预测步骤是对多个信道分别计算上述后部混响预测值的步骤,上述后部混响除去步骤是对多个信道分别计算上述后部混响除去信号值的振幅谱预测值的步骤,上述复谱生成步骤是对多个信道分别计算上述后部混响除去信号值的复谱预测值的步骤,上述时域变换步骤是对多个信道分别计算上述后部混响除去信号估计值的步骤,该混响除去方法具有延迟量计算步骤,决定在将各信道的上述后部混响除去信号估计值分别以某一延迟量延迟后的情况下,延迟后的各信道的上述后部混响除去信号估计值的信道间互相关为极大的各信道的该延迟量。另外,对于不延迟的后部混响除去信号估计值,决定延迟量为0。由此,能够校正在各信道中计算出的后部混响除去信号估计值的信道相互的延迟量。
而且,在该情况下,将各信道的上述后部混响除去信号估计值延迟对各个信道计算出的上述延迟量,并计算延迟后的上述后部混响除去信号估计值(也包含延迟量0的后部混响除去信号估计值)之和,作为校正混响除去信号值。由此,混响除去信号的估计经度提高。
此外,在本发明中,优选上述多阶线性预测模型是,
将xw(n)设为与信道w(w=1,...,M)对应的离散时间n的离散声响信号值,将xm(n)设为与信道m(m=1,...,M)对应的离散时间n的离散声响信号值,将ew(n)设为与信道w以及离散时间n对应的预测误差,将N设为正整数,将[·]设为高斯记号,将αw,m(p)设为与xw(n)对应的线性预测项的信道m所对应的第p个线性预测系数,并且将D设为表示阶长的常数的情况下的
「算式1]
发明的效果
以上,在本发明中在任何环境下都能够进行精度高的混响除去。
附图说明
图1是例示第一实施方式的混响除去装置的功能结构的方框图。
图2A是例示模型应用单元的功能结构的细节的方框图。
图2B是例示延迟调节单元的功能结构的细节的方框图。
图3是例示第一实施方式中的混响除去装置10的硬件结构的方框图。
图4是用于说明第一实施方式的混响除去处理的整体的流程图。
图5是用于说明第一实施方式的混响除去处理的整体的流程图。
图6A是用于说明图4的步骤S1(模型应用步骤)的细节的流程图。
图6B是用于说明图6A的步骤S21(模拟白色化步骤)的细节的流程图。
图7A是用于说明图6B的步骤S31(第二线性预测系数计算步骤)的细节的流程图。
图7B是用于说明图4的步骤S4的细节的流程图。
图8是例示第二实施方式的混响除去装置的功能结构的方框图。
图9是例示模型应用单元的功能结构的细节的方框图。
图10是用于说明第二实施方式的混响除去处理的整体的流程图。
图11是用于说明第二实施方式的混响除去处理的整体的流程图。
图12A是表示第三实施方式的第二线性预测系数计算单元的功能结构的方框图。
图12B是用于说明第三实施方式的[第二线性预测系数计算步骤(步骤S31)]的流程图。
图13是表示第四实施方式的模型应用单元的功能结构的方框图。
图14是用于说明第四实施方式的[模拟白色化步骤(步骤S21)]的流程图。
图15是例示第五实施方式的混响除去装置的功能结构的方框图。
图16是用于说明第五实施方式的混响除去处理的整体的流程图。
图17是例示第六实施方式的混响除去装置的功能结构的方框图。
图18是用于说明第六实施方式的混响除去处理的整体的流程图。
图19是例示第七实施方式的混响除去装置的功能结构的方框图。
图20是例示图19的模型应用单元的功能结构的细节的方框图。
图21是用于说明第七实施方式的混响除去处理的整体的流程图。
图22A是用于说明图21的步骤S301(模型应用步骤)的细节的流程图。
图22B是用于说明图22A的步骤S311(模拟白色化步骤)的细节的流程图。
图23A是将室内传递函数值h取作纵轴并将时间(ms)取作横轴的曲线图。
图23B是将合成传递函数值g取作纵轴并将时间(ms)取作横轴的曲线图。
图23C是将室内传递函数h和合成传递函数g的能量差取作纵轴并将时间(ms)取作横轴的曲线图。
图24A、图24B分别是表示混响除去前的振幅谱值和语音(speech)波形的图。
图24C、图24D分别是表示本发明(M=1的情况)的混响除去后的振幅谱值和语音波形的图。
图25A是表示实验条件的图。
图25B是表示语音识别结果(单词错误率)的曲线图。
符号说明
10、310、610、620、710混响除去装置
具体实施方式
以下,参照附图说明本发明的实施方式。
[原理1]
首先,说明本发明的原理1。另外,这里原则上使用z变换标记(后述的式(5)以外)。
如果将原声响信号s(z)模型化,则成为以下的式(1)所示的、白色信号u(z)(预测误差项)和短的(次数小的)自回归(AR:Auto-Regressive)模型d(z)=1/(1-β(z))的乘积。即,原声响信号s(z)具有按照d(z)的短期自相关性。
s(z)=u(z)/(1-β(z))
=u(z)·d(z)…(1)
另外,β(z)为如下的AR多项式。这里,q是线性预测的次数,b(i)是第i项的线性预测系数。
[算式2]
在该情况下,传感器(例如,麦克风)所观测的声响信号x1(z)表示为
X1(z)=u(z)·[d(z)·h(z)]
=u(z)·g(z)…(2)。
另外,h(z)表示从声响信号源到传感器的室内传递函数,g(z)假设满足
g(z)=d(z)·h(z)…(3)。
另外,g(z)称作合成传递函数。
由此,如果能够忽略原声响信号s(z)的按照d(z)的短期自相关性(如果能够将原声响信号s(z)视作白色信号),则式(2)可以如下地近似。
即,如果能够将d(z)视作1,则由传感器所观测的声响信号x(z)可以作为对白色信号u(z)进行比d(z)长的(次数大的)自回归过程的结果而模型化。
d(z)越接近1则如式(4)这样的模型化越恰当。在原理1中,通过模拟白色化(Pre-whitening)处理来抑制由传感器所观测的声响信号x(z)的短期的自相关性。由此,使由传感器所观测的声响信号x(z)的d(z)接近1,使得对于式(4)的模型的应用变得恰当。但是,如果以d(z)的自相关不太强的原声响信号s(z)作为对象,则即使不进行模拟白色化处理,对于式(4)的模型的应用也在某种程度上是恰当的。
在该情况下,被观测的声响信号可以通过传感器数M=1的情况下的多阶线性预测模型(通过将长时间区间中的各离散声响信号值进行线性结合后的线性预测项、预测误差项之和表示在该长时间区间的规定时间后的离散声响信号值的线性预测模型)来近似。即,例如能够如以下式(5)这样,使被观测的声响信号模型化。另外,将n设为离散时间,将x1(n)设为与(根据需要而除去了短时间相关的)离散时间n对应的声响信号,将α1,1(p)设为线性预测系数,将N设为线性预测系数的数,将D设为阶长(延迟),将e1(n)设为对应于离散时间n的预测误差。此外,在式(5)的情况下,(n-N-D)以上且(n-1-D)以下的时间区间相当于多阶线性预测模型的定义中的“长时间区间”,x1(n)相当于“长时间区间的规定时间后的离散声响信号值”。
[算式3]
这里,如果将式(2)的g(z)的直接声音分量设为gd(z),将后部混响分量设为gr(z),则可以假定以下的式(6)。
在该情况下,将式(5)的线性预测系数α1,1(p)进行z变换后的α(z)如以下的式(7)这样表示。
[算式4]
其中,假定
g(z):=gmin(z)·gmax(z)…(8)
另外,gmin(z)和gmax(z)分别表示g(z)的最小相位分量(与Z平面上的单位圆内的0点对应的分量)和最大相位分量(与Z平面上的单位圆外的0点对应的分量)。此外,如前所述,通过模拟白色化处理,g(z)近似室内传递函数h(z)。此外,一般室内传递函数h(z)为非最小相位(不仅具有最小相位分量而且也具有最大相位分量)。因此,g(z):=gmin(z)·gmax(z)的假定为妥当。此外,min[gmax(z)]表示将gmax(z)最小相位化的结果,并且表示gmax(z)的全部0点被绘制(plot)到它们的共轭逆的Z平面上的单位圆内的结果。
这里,将式(7)的线性预测系数α(z)与被模拟白色化处理后的观测信号x’(z)=u(z)·g(z)相乘并代入式(7)~(9),则得到以下的式子(10)。
[算式5]
这里,gmax(z)/min[gmax(z)]为全通滤波器(相乘的信号的振幅被原样保持且相位能够变更的函数)。从而,可知
[算式6]
是具有与u(z)相同的方差的白色信号。此外,如式(6)所示,z-D·gr(z)为后部混响分量所引起的分量。而且,因为声响信号如式(2)所示,因此式(10)的振幅谱值近似于声响信号的后部混响分量的振幅谱值。即,使用通过模拟白色化处理而除去了短时间相关的声响信号,进行式(5)的多阶线性预测模型的数值最佳化,从而求线性预测系数,并将其与模拟白色化处理后的观测信号相乘,从而能够求出振幅谱值近似于后部混响分量的信号。而且,通过将该估计出的振幅谱从观测到的声响信号x(z)的振幅谱中减去,从而可以得到后部混响被除去后的振幅谱。
[原理2]
但是,在原理1的方法中,有时不能进行高精度的后部混响除去。以下说明其理由。
上述式(10)是在将分析帧长设为无限长的情况下成立的关系式。在以有限长的分析帧单位来看的情况下,式(10)不一定完全成立。室内传递函数h(z)中最大相位分量越多,则式(10)右边的全通滤波器gmax(z)/min[gmax(z)]的响应越长。因此,在以有限长的分析帧单位来看的情况下,室内传递函数h(z)中最大相位分量越多、全通滤波器gmax(z)/min[gmax(z)]的响应越长,则式(10)的左边和右边的背离则越大。
通常上,原理1的方法以有限长的分析帧单位被执行。如果室内传递函数h(z)中最大相位分量少,则以分析帧单位来看的式(10)也比较近似,可以通过原理1的方法高精度地进行后部混响除去。但是,一般信号源和传感器的距离越远,则室内传递函数h(z)中最大相位分量越增加。在该情况下,以分析帧单位来看的式(10)的近似变得不成立,通过以式(10)成立为前提的原理1的方法进行的后部混响除去的精度降低。
即,在从信号源到传感器的室内传递函数中存在最大相位分量的情况下,不能使用仅由一个传感器观测到的单一信道的声响信号构成完全的逆滤波器。这里,能够构成逆滤波器等效于能够计算上述线性预测系数。这例如公开在“M.Miyoshi and Y.Kaneda,“Inverse Filtering of Room Acoustics,”IEEETrans.on AcousticS,”Speech and Signal Processing,36(2),pp.145-152,1988(以下称作“参考文献1”)。另一方面,在参考文献1中公开了在从信号源到传感器的室内传递函数中存在最大相位分量的情况下,能够使用由多个传感器观测到的多个信道的声响信号构成逆滤波器。
因此,在原理2中,采用上述多信道多阶线性预测模型(传感器数M≥2的情况下的多阶线性预测模型)作为线性预测模型,使用由多个传感器观测到的多个信道的声响信号来求线性预测系数。由此,使用线性预测模型的后部混响除去处理成为可能。另外,在原理2的方法中,能够求线性预测滤波器的情况不依赖于室内传递函数中的最大相位分量的大小。以下,说明该原理2。
由传感器m(m=1,...,M)观测的声响信号xm(z)可以如以下这样模型化。另外,作为满足gm(z)=d(z)·hm(z)的合成传递函数,将hm(z)作为从声响信号源到传感器m的室内传递函数。
由此,如果能够忽视原声响信号s(z)的按照d(z)的短期自相关性(如果能够将原声响信号s(z)视作白色信号),则式(11)可以如以下这样近似。
即,如果能够将d(z)视作1,则由传感器m所观测的声响信号xm(z)可以作为对白色信号u(z)进行比d(z)长的(次数大的)自回归过程的结果而模型化。
d(z)越接近1则如式(12)这样的模型化越恰当。在原理2中,通过模拟白色化(Pre-whitening)处理来抑制由传感器m所观测的声响信号xm(z)的短期的自相关性。由此,使由传感器m所观测的声响信号xm(z)的d(z)接近1,使得对于式(12)的模型的应用变得恰当。但是,如果以d(z)的自相关不太强的原声响信号s(z)作为对象,则即使不进行模拟白色化处理,对于式(12)的模型的应用也在某种程度上是恰当的。
另一方面,室内传递函数hm(z)中存在最大相位分量。如所述“参考文献1”所公开的,在室内传递函数hm(z)中存在最大相位分量的情况下,不能只使用仅由一个传感器观测到的单一信道的声响信号构成逆滤波器,而仅在使用了多个信道的声响信号的情况下能够构成逆滤波器。如果将该情况应用于式(12)的模型来考虑,则可以说仅在以多个信道的声响信号为对象而构成了式(12)的模型的情况下,能够计算正确的线性预测系数,并且能够预测、除去正确的后部混响信号。通过以上说明,在原理2中,通过多信道多阶线性预测模型(通过将长时间区间中的M(M≥2)个信道的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和,表现在该长时间区间的规定时间后的离散时间的离散声响信号值的线性预测模型)来构成式(12)的模型。作为多信道多阶线性预测模型,可以例示以下的式(13)。另外,式(13)的多信道多阶线性预测模型为时域的模型。
[算式7]
这里,n表示离散时间。此外,xw(n)相当于由传感器w(w=1,...,M)观测并在离散时间n被采样了的信道w的离散声响信号,或者将这些信号进行模拟白色化后的离散声响信号。此外,xm(n)相当于由传感器m观测并在离散时间n被采样了的离散声响信号,或者将这些信号进行模拟白色化后的离散声响信号。ew(n)是对应于传感器w以及离散时间n的预测误差,该预测误差项以外的式(13)右边的项相当于线性预测项。此外,M表示传感器的总数。N-1是滤波器长(线性预测次数)。另外,[·]为高斯记号,表示不超过·的最大的整数。此外,αw,m(p)是与xw(n)对应的线性预测项的传感器m所对应的第p个线性预测系数。此外,D表示阶长(延迟)。此外,在式(13)的情况下,(n-[N/M]-D)以上且(n-1-D)以下的时间区间相当于多信道多阶线性预测模型的定义所示的“长时间区间”,xw(n)相当于“长时间区间的规定时间后的离散声响信号值”。
在原理2中,使用多信道的离散声响信号或将这些信号进行模拟白色化后的离散声响信号,求这样的多信道多阶线性预测模型的线性预测系数αw,m(p),并求多信道多阶线性预测模型的线性预测项的值。该线性预测项的值为后部混响分量的预测值(后部混响预测值)。此后,求频域中的离散声响信号的振幅谱和后部混响预测值的振幅谱的相对值,并将其作为后部混响除去信号的振幅谱预测值(例如,参照“S.F.Boll,“Suppression ofacoustic noise inspeech using spectral subtraction,”IEEE Trans.on Acoustics,Speech and SignalProcessing,27(2),pp.113-120,1979”)。通过这样的方法,能够高精度地提取对于语音识别处理等重要的直接声音分量的振幅谱。
[从别的观点对原理1、2的说明]
从别的观点说明上述原理1、2。
[问题设定]
首先,使用V次的FIR滤波器d(k)和白色信号u(n)如以下这样表现与时域中的离散时间对n应的原声响信号s(n)。
[算式8]
如果使用该式子,则能够如以下这样将由传感器m所观测到的声响信号xm(n)模型化。
[算式9]
其中,
[算式10]
hm(n)表示传感器m和声源之间的脉冲响应。
通过矩阵形式将式(15)改写,则如以下这样。
另外,
U(n)=[u(n),u(n-1),...,u(n-T-N+1)]T
Xm(n)=[xm(n),xm(n-1),...,xm(n-N)]T
gm=[gm(0),gm(1),...,gm(T-1)]
[算式11]
此外,[·]T表示矩阵·的转置。
[M=1(原理1)的情况下的后部混响的估计]
如前所述,在原理1中,将被观测的声响信号例如式(5)这样模型化。在式(5)中,求使预测误差分量e1(n)的能量最小的线性预测系数α1,1(p)等价于解以下的正规方程式。
(E{x1(n-1-D)·x1 T(n-1-D)})·A=E{x1(n-1-D)·x1(n)}…(18)
另外,E{·}表示·的时间平均,A表示式(5)的线性预测系数α1,1(p)的矩阵形式A=[α1,1(1),α1,1(2),...,α1,1(N-1)]T。
从而,可以如以下这样求A。
A=(E{x1(n-1-D)·x1 T(n-1-D)})-1·E{X1(n-1-D)·X1(n)}…(19)
如果将式(19)的(·)-1内展开则如以下这样。
E{X1(n-1-D)·X1 T(n-1-D)}=G1·E{U(n-1-D)·UT(n-1-D)}·G1 T
=σ1 2·G1·G1 T…(20)
这里,白色信号u(n)的自相关矩阵假定为E{U(n-1-D)·UT(n-1-D)}=σu 2·I。另外,σu 2表示u(n)的方差,I表示单位矩阵。
另外,式(19)的E{x1(n-1-D)·x1(n)}可以如以下这样展开。
E{x1(n-1-D)·x1(n)}=G1·E{U(n-1-D)·UT(n)}·g1 T=σu 2·G1·glate,1 T…(21)
另外,glate,1=[g(D),g(D+1),...,g(T-1),0,...,0]T。即,glate,1表示g(n)的第D个以后的要素,相当于后部混响。
使用式(20)、(21),可以如以下这样重写式(19)的A。另外,(·)-1表示·的逆矩阵。
A=(G1·G1 T)-1·G1·glate.1…(22)
这里,将(5)的线性预测系数的矩阵形式A与声响信号的矩阵形式X1(n)相乘,并取其方均则如下。
E{(X1 T(n)·A)2}
=‖ΛT·G1·E{U(n)·UT(n)}·G1 T·A‖
=‖σu 2·AT·G1·G1 T·A‖…(23)
=‖σu 2·gate,1 T·G1 T·(G1·G1 T)-1·G1·glate,1 T‖
≦‖σu 2·glate,1 T‖·‖G1 T·(G1·G1 T)-1·G1‖·‖glate,1 T‖…(24)
=‖σu 2·glate,1 T‖2…(25)
这里,‖·‖表示矩阵·的L2模方(norm)。此外,为了导出式(23),白色信号u(n)的自相关矩阵假定如E{U(n)·UT(n)}=σu 2·I这样展开。对于足够长的声响信号,该分解成立。此外,对于式(24)的导出,使用了式(22)和柯西-施瓦兹(Cauchy-Schwarz)的不等式。进而,对于式(25)的导出,使用了‖G1 T·(G1·G1 T)-1·G1‖为投影矩阵,其模方为1的情况。
此外,σu 2表示白色信号u(n)的方差,glate,1为对应于后部混响的分量,因此式(25)的‖σu 2·glate,1 T‖2表示后部混响分量的功率。从而(5)的线性预测系数的矩阵形式A与声响信号的矩阵形式X1(n)相乘,取其方均的值即使不能说是始终准确地估计后部混响分量的功率的值,也不是将后部混响分量的功率过大估计的值。
[M≥2(原理2)的情况下的后部混响的估计]
多信道多阶线性预测模型可以通过所述式(13)定式化。这里,将式(13)的[N/M]设为L,则式(13)如下。
[算式12]
在式(26)中,求使预测误差分量ew(n)的能量为最小的线性预测系数αw,m(p)与解以下的正规方程式等价。
(E{X(n-1-D)·XT(n-1-D)})·Aw=E{X(n-1-D)·X(n)}…(27)
另外,X(n)=[X1 T(n),X2 T(n),...,XM T(n)]T,A是式(26)的线性预测系数αw,m(p)的矩阵形式,Aw=[αw,1(1),...,αw,1(L),αw,2(1)...,αw,M(L)]T。
从而,Aw如以下这样得到。另外,(·)+表示矩阵(·)的Moor-Penrose型一般化逆矩阵。
Aw=(E{X(n-1-D)·XT(n-1-D)})+·E{X(n-1-D)·X(n)}…(28)
如果与M=1的情况同样将式(28)展开,则Aw可以如以下这样变形。
A=(G·GT)+·G·glate,w
=(GT)+·glate,w…(29)
另外,G=[G1 T,G2 T,...,GM T]T,glate,w=[gw(D),gw(D+1),...,gw(T-1),0,...,0]T。此外,G是列满秩(full rank)。
接着,使用估计出的线性预测系数αw,m(p)的矩阵形式Aw,从由多个传感器观测到的多信道声响信号来估计后部混响。因此,将向量X(n)的转置和式(26)的线性预测系数αw,m(p)的矩阵形式Aw相乘,则如下。
XT(n)·Aw=UT(n)·GT·Aw
=UT(n)·GT·(GT)+·glate,w…(30)
=UT(n)·GT·G·(GT·G)-1·glate,w…(31)
=UT(n)·glate,w…(32)
另外,对式(30)的导出使用式(29),对式(31)的导出使用Moor-Penrose型一般化逆矩阵的定义。这里,UT(n)·glate,w表示声响信号的后部混响分量。从而,可知通过将式(28)的向量的转置和式(26)的线性预测系数αw,m(p)的矩阵形式Aw相乘,从而能够正确地估计声响信号的后部混响分量。换言之,可知通过使用多信道多阶线性模型,从而能够始终正确地估计后部混响分量。
[多阶线性预测模型的D的值和声响信号的短时间相关]
接着,说明多阶线性预测模型的D的值和声响信号的短时间相关的关系。
原理1、2的方法是以式(4)、(12)的近似成立为前提的方法。换言之,在原理1、2的方法中,在室内传递函数hm(n)和式(15)所示的合成传递函数gm(n)的差(‖hm(n)‖-‖gm(n)‖)(m≥1)充分小的情况下,能够进行正确的后部混响除去。
图23A是将室内传递函数值h取作纵轴并将时间(ms)取作横轴的曲线图。图23B是将合成传递函数值g取作纵轴并将时间(ms)取作横轴的曲线图。此外,图23C是将室内传递函数h和合成传递函数g的能量差取作纵轴并将时间(ms)取作横轴的曲线图。
如图23A所例示的,室内传递函数值h随时间经过而指数衰减。此外,如图23B所例示的,合成传递函数值g也随时间经过而指数衰减。此外,如图23C所例示的,在室内传递函数值h和合成传递函数值g大的时间,它们的能量差也大,在室内传递函数值h和合成传递函数值g小的时间,它们的能量差也小。即,随时间的经过,室内传递函数h和合成传递函数g的能量差也减小。而且,在经过“某一时间”后,该能量差减小到相对于语音信号整体的能量能够忽视的程度(规定阈值以下或小于规定阈值)。因此,为了进行正确的后部混响除去,最好将式(5)、(13)的多阶线性预测模型的D设定为该“某一时间”以上。但是,室内传递函数h和合成传递函数g的能量比和d(z)未知,该“某一时间”也不定。从而,一般从经验法则来估计该“某一时间”,并基于该估计来设定多阶线性预测模型的D的值。而且,更理想的是,假设该“某一时间”的估计困难,并且通过所述模拟白色化来抑制d(z)分量。由此,能够忽视室内传递函数h和合成传递函数g的能量差,并且能够进行正确的后部混响除去的D的可设定范围增大。另外,一般D的下限值为1,但如果能够通过模拟白色化来充分抑制d(z)分量,则也可以是D=0。
此外,作为多阶线性预测模型的D的上限值,可以例示离散时刻n中的xm(n)的n+1+D时刻的混响分量在规定值(例如,比离散时刻n的xm(n)低60dB的值)以上或超过该规定值的值。
[第一实施方式]
接着,说明本发明的第一实施方式。第一实施方式是传感器数M为M≥2的情况下的实施方式。
<硬件结构>
图3是例示本实施方式中的混响除去装置10的硬件结构的方框图。
如图3所例示的,本例的混响除去装置10具有CPU(Central ProcessingUnit)11、输入单元12、输出单元13、辅助存储单元14、ROM(Read OnlyMemory)15、RAM(Random Access Memory)16和总线17。
本例的CPU11具有控制单元11a、运算单元11b以及寄存器11c,按照由寄存器11c读入的各种程序来执行各种运算处理。此外,输入单元12为输入数据的输入接口、键盘、鼠标等,输出单元13是输出数据的输出接口等。辅助存储装置14例如为硬盘、MO(Magneto-Optical disc)、半导体存储器等,具有存储了使计算机作为混响除去装置10起作用的程序的程序区域14a以及存储各种数据的数据区域14b。此外,RAM16为SRAM(Static RandomAccess Memory)、DRAM(Dynamic Random Access Memory)等,具有存储上述程序的程序区域16a以及存储各种数据的数据区域16b。此外,总线17可通信地连接CPU11、输入单元12、输出单元13、辅助存储装置14、ROM15以及RAM16。
另外,作为这样的硬件的具体例子,例如,除了个人计算机之外,还可以例示服务器装置和工作站等。
<程序结构>
如上所述,在程序区域14a、16a中存储用于执行本方式的混响除去装置10的各处理的混响除去程序。构成混响除去程序的各程序可以作为单一的程序列记载,或者也可以将至少一部分程序作为分别的模块而存储在库(library)中。此外,各程序可以单独实现各个功能,也可以由各程序进一步读出其它库来实现各功能。
<硬件和程序的协作>
CPU11(图3)按照读入的OS(Operating System)程序,将辅助存储装置14的程序区域14a中存储的上述程序写入RAM16的程序区域16a中。同样,CPU11将辅助存储装置14的数据区域14b中存储的各种数据写入RAM16的数据区域16b中。然后,被写入该程序或数据的RAM16上的地址被存储在CPU11的寄存器11c。CPU11的控制单元11a依次读出存储在寄存器11c中的这些地址,并从读出的地址所表示的RAM16上的区域中读出程序或数据,由运算单元11b依次执行该程序所示的运算,并将该运算结果存储在寄存器11c中。
图1是例示如这样通过在CPU中读入上述程序并执行而构成的混响除去装置10的功能结构的方框图。此外,图2A是例示模型应用单元10b的功能结构的细节的方框图,图2B是例示延迟调节单元10i的功能结构的细节的方框图。
如图1所例示的,混响除去装置10具有:存储器10a、模型应用单元10b、后部混响预测单元10c、频域变换单元10d、后部混响除去单元10e、复谱生成单元10f、时域变换单元10g、延迟量计算单元10h、延迟调节单元10i、存储器10j、控制单元10k。
此外,如图2A所例示的,模型应用单元10b具有模拟白色化单元100和第一线性预测系数计算单元200,模拟白色化单元100具有第二线性预测系数计算单元110和逆滤波器处理单元120。此外,第二线性预测系数计算单元110具有自相关系数计算单元111、自相关系数平均化单元112、方程式运算单元113。此外,如图2B所例示的,延迟调节单元10i具有延迟单元10ia、延迟校正单元10ib。
这里,存储器10a和存储器10j相当于辅助存储装置14、RAM16、寄存器11c、其它缓冲存储器或闪存等其中一个、或将它们并用的存储区域。此外,模型应用单元10b、后部混响预测单元10c、频域变换单元10d、后部混响除去单元10e、复谱生成单元10f、时域变换单元10g、延迟量计算单元10h、延迟调节单元10i以及控制单元10k通过使CPU11执行混响除去程序而构成。
此外,本方式的混响除去装置10在控制单元10k的控制下执行各处理。此外,只要没有特别表示,运算过程的各数据逐一被存储、读出到存储器10j中,进行各运算处理。在存储器10a或存储器10j中存储了x1(n)、α1,2(p)等各数据,但它们与数据属性、下标的值[例如,数据x1(n)的下标“1”]以及(·)内的各值[例如,数据x1(n)的n]对应被存储,通过指定它们从而能够提取对应的数据。
<混响除去处理>
接着,说明本方式的混响除去处理。
图4、5是用于说明本方式的混响除去处理的整体的流程图。此外,图6A是用于说明图4的步骤S1(模型应用步骤)的细节的流程图,图6B是用于说明图6A的步骤S21(模拟白色化步骤)的细节的流程图。此外,图7A是用于说明图6B的步骤S31(第二线性预测系数计算步骤)的细节的流程图,图7B是用于说明图4的步骤S4的细节的流程图。以下,使用这些图说明本方式的混响除去处理。
[前处理]
首先,由M(M≥2)个传感器分别观测到的M个信道w(w=1,...,M)的声响信号以规定的抽样频率被采样,生成每个信道的离散声响信号值x1(n)...xM(n)。另外,n表示离散时间。生成的各信道的离散声响信号值x1(n)...xM(n)分别被存储在存储器10a中。另外,在本方式中,事先取得进行混响除去的全部时间区间的离散声响信号值x1(n)...xM(n),并存储在存储器10a中,并对每个分析帧执行以下的各步骤。但是,也可以实时地取得离散声响信号值x1(n)...xM(n),同时执行以下各步骤。
此外,混响除去装置10最终输出的信息表示仅是后部混响除去信号的振幅谱还是也具有相位分量的声响信号的信息存储在存储器10j中。在本方式中,将标记(flag)(数据)δ存储在存储器10j中。然后,在输出的信息仅是直接声音的振幅谱的情况下设为δ=1,在是也具有相位分量的声响信号的情况下设为δ=0。另外,混响除去装置10最终输出的信息也可以仅仅是后部混响除去信号的振幅谱的情况,例如可以例示将混响除去装置10最终输出的信息用作语音识别系统的输入信息的情况。
以下,说明本方式的后部混响除去处理。另外,以下,仅说明一个分析帧的处理步骤,但实际上对多个分析帧进行同样的处理。此外,分析帧表示包含多个离散时间n的时间区间。
[模型应用步骤(步骤S1)]
在模型应用步骤中,模型应用单元10b使用从存储器10a读入的1分析帧的M信道的离散声响信号值x1(n)...xM(n),计算式(13)所示的多阶线性预测模型的各线性预测系数αw,1(p)...αw,M(p)(步骤S1)。以下,分层地说明该处理的细节。
[模型应用步骤(步骤S1)的细节(图6A)]
如图6A所例示的,在模型应用步骤中,首先,模拟白色化(Pre-whitening)单元100(图2A)抑制输入的离散声响信号值x1(n)...xM(n)所具有的短时间区间中的自相关分量,生成模拟白色化后的离散声响信号值x1’(n)...xM’(n)并输出(模拟白色化步骤/步骤S21)。即,从各离散时间的上述离散声响信号值x1(n)...xM(n)中抑制与紧接着该离散时间n之前的短时间区间内的各离散声响信号值具有自相关性的自相关分量,并生成模拟白色化后的离散声响信号值x1’(n)...xM’(n)。
如前所述,多阶线性预测模型与抑制了按照d(z)的短期自相关(短时间区间中的自相关分量)后的离散声响信号非常一致。从而,从离散声响信号值x1(n)...xM(n)中抑制这样的短期自相关,在高精度地估计后部混响上是理想的。
接着,上述模拟白色化后的离散声响信号值x1’(n)...xM’(n)被输入到第一线性预测系数计算单元200(图2A)中,第一线性预测系数计算单元200使用该模拟白色化后的离散声响信号值x1’(n)...xM’(n)计算式(13)所示的多阶线性预测模型的各线性预测系数αw,1(p)...αw,M(p)并输出(第一线性预测系数计算步骤/步骤S22)。另外,作为一例,将式(13)中的延迟D例如设为30ms(在抽样频率12000Hz的情况下,相当于300轻拍(tap)),将N例如设为300左右。此外,作为使用x1’(n)...xM’(n)计算αw,1(p)...αw,M(p)的方法,可以例示自相关法(correlation method)和协方差法(covariance method)。此外,也可以使用MATLAB(注册商标)等来进行该处理。
[模拟白色化步骤(步骤S21)的细节(图6B)]
接着,说明模拟白色化步骤(步骤S21)的细节。在本方式中,作为一例,通过线性预测来进行模拟白色化步骤。首先,如图6B所例示的,第二线性预测系数计算单元110使用输入的离散声响信号值x1(n)...xM(n)计算短时间线性预测模型的各线性预测系数b(1)...b(q)并输出(第二线性预测系数计算步骤/步骤S31)。另外,“短时间线性预测模型”表示通过将短时间区间中的信道w的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和,表现在紧接着短时间区间之后的离散时间n的该信道w的离散声响信号值的线性预测模型。这里,“短时间区间”比由多阶线性预测模型的定义所示的“长时间区间”短。在本方式中,使用以下的短时间线性预测模型。
[算式13]
另外,式(33)中的xm’(n)的项相当于预测误差项,除此以外的右边的项相当于线性预测项。此外,b(i)表示线性预测项的第i个线性预测系数。此外,式(33)中的短时间区间根据离散声响信号值x1(n)...xM(n)的短时间相关分量的序列长或功率而适当设定即可。作为一例,可以将短时间区间设为30ms(在抽样频率12000Hz的情况下,q=300)左右。在该情况下,通过以下的步骤S32能够抑制在短时间区间30ms内具有自相关的初始反射声音分量或直接声音分量。
接着,对逆滤波器处理单元120(图2A)中输入各线性预测系数b(1)...b(q)、离散声响信号值x1(n)...xM(n)。逆滤波器处理单元120对将各线性预测系数b(1)...b(q)代入短时间线性预测模型(式(33))而得到的逆滤波器
[算式14]
代入离散声响信号值x1(n)...xM(n),并将由此得到的短时间线性预测模型的预测误差项的值作为进行了模拟白色化的离散声响信号值x1’(n)...xM’(n)来计算并输出(逆滤波器处理步骤/步骤S32)。
[第二线性预测系数计算步骤(步骤S31)的细节(图7A)]
接着,说明第二线性预测系数计算步骤(步骤S31)的细节。在本方式的例子中,使用自相关法执行第二线性预测系数计算步骤。但是,也可以使用协方差法等其它公知的线性预测系数计算方法来执行第二线性预测系数计算步骤。
首先,如图7A所例示的,首先,自相关系数计算单元111(图2A)使用输入的离散声响信号值x1(n)...xM(n),对每个信道计算离散声响信号值x1(n)...xM(n)的自相关系数c1(i)...cM(i)并输出(自相关系数计算步骤/步骤S41)。具体来说,例如自相关系数计算单元111按照以下的式(35)计算自相关系数c1(i)...cM(i)并输出。另外,T是大于q(式(33)、(34))且小于1分析帧所具有的样本数的自然数。此外,以下的运算例如在上述离散声响信号值x1(n)...xM(n)乘以在n<0、n≥T的范围内为0这样的有限长的窗(汉明(hamming)窗等)之后进行。此外,i=0,1,...,q。
[算式15]
接着,对自相关系数平均化单元112(图2A)输入各信道的自相关系数c1(i)...cM(i),自相关系数平均化单元112计算将这些自相关系数c1(i)...cM(i)在信道之间平均之后的平均自相关系数c(i)并输出(自相关系数平均化步骤/步骤S42)。该平均自相关系数c(i)的计算例如按照以下的式(36)进行。
[算式16]
接着,如上述这样求出的各平均自相关系数c(i)被输入方程式运算单元113,方程式运算单元113使用各平均自相关系数c(i),如以下这样,求Yule-Walker的方程式(正规方程式)的解,从而计算短时间线性预测模型的各线性预测系数b(1)...b(q)并输出(方程式运算步骤/步骤S43)。
[算式17]
如以上这样,由于采用了使用将对每个信道生成的自相关系数c1(i)...cM(i)在信道之间平均之后的平均自相关系数c(i)计算各线性预测系数b(1)...b(q)的结构,因此与使用由任何一个信道生成的自相关系数的情况相比,线性预测系数b(1)...b(q)的计算精度提高,并且能够进一步有效地抑制离散声响信号值x1(n)...xM(n)所具有的按照d(z)的短期自相关。如前所述,这带来后部混响除去的精度的提高(模型应用步骤(步骤S1)的细节说明结束)。
[后部混响预测步骤(步骤S2)]
在模型应用步骤(步骤S1)之后,对后部混响预测单元10c输入从存储器10a读入的离散声响信号值x1(n)...xM(n)、由模型应用步骤(步骤S1)计算出的各线性预测系数αw,1(p)...αw,M(p)。然后,后部混响预测单元10c将各线性预测系数αw,1(p)...αw,M(p)和离散声响信号值x1(n)...xM(n)代入多阶线性预测模型的线性预测项而得到的线性预测值,作为后部混响预测值rw(n)(w=1,...,M)计算并输出(步骤S2)。在本方式中,由于使用式(13)的多阶线性预测模型,因此后部混响预测单元10c按照以下的式(38)求后部混响预测值rw(n)并输出。
[算式18]
[频域变换步骤(步骤S3)]
接着,对频域变换单元10d输入从存储器10a读入的离散声响信号值x1(n)...xM(n)、由后部混响预测步骤(步骤S2)计算出的后部混响预测值r1(n)...rM(n)。频域变换单元10d将输入的离散声响信号值x1(n)...xM(n)变换为频域的离散声响信号值X1(f,t)...XM(f,t),并将后部混响预测值r1(n)...rM(n)变换为频域的后部混响预测值R1(f,t)...RM(f,t)(步骤S3)。在本方式中,例如使用窗长30ms的汉明窗等有限长的窗函数,通过短时间傅立叶变换(DFT:Discrete Fourier Transform)等进行这些向频域的变换。频域变换单元10d通过这些处理提取并输出频域的离散声响信号值X1(f,t)...XM(f,t)的振幅谱|X1(f,t)|...|XM(f,t)|和相位信息arg[X1(f,t)]...arg[XM(f,t)]、以及频域的后部混响预测值R1(f,t)...RM(f,t)的振幅谱|R1(f,t)|...|RM(f,t)|和相位信息arg[R1(f,t)]...arg[RM(f,t)]。另外,arg[·]表示·的辐角。
[后部混响除去步骤(步骤S4)]
接着,对后部混响除去单元10e输入频域的离散声响信号值的振幅谱|X1(f,t)|...|XM(f,t)|和频域的后部混响预测值的振幅谱|R1(f,t)|...|RM(f,t)|。然后,后部混响除去单元10e求频域的离散声响信号值的振幅谱|X1(f,t)|...|XM(f,t)|和频域的后部混响预测值的振幅谱|R1(f,t)|...|RM(f,t)|的每个传感器的相对值,并将该相对值作为后部混响除去信号值的振幅谱预测值|S1(f,t)|...|SM(f,t)|而输出(步骤S4)。以下,例示该处理的细节。
[后部混响除去步骤(步骤S4)的细节(图7B)]
如图7B所例示的,首先,后部混响除去单元10e使用振幅谱|X1(f,t)|...|XM(f,t)|和频域的后部混响预测值的振幅谱|R1(f,t)|...|RM(f,t)|,对各m(m=1,...,M)进行
|Xm(f,t)|k-|Rm(f,t)|k·const…(39)
的运算,并将各运算结果存储在存储器10j中(步骤S51)。另外,const表示常数,k表示自然数。在本方式中,假设const=1.0,k=2。
接着,控制单元10k将1代入变量m,并将该m存储在存储器10j中(步骤S52)。接着,控制单元10k判断存储在存储器10j中的式(39)的运算结果是否满足以下的关系(步骤S53)。
|Xm(f,t)|k-|Rm(f,t)|k·const>0…(40)
这里,在判断为满足式(40)的关系的情况下,控制单元10k对后部混响除去单元10e提供命令,后部混响除去单元10e通过
|Sm(f,t)|=(|Xm(f,t)|k-|Rmf,t)|k·const)l/k…(41)
计算对应于变量m的|Sm(f,t)|并输出(步骤S54)。另一方面,在判断为不满足式(40)的关系的情况下,控制单元10k对后部混响除去单元10e提供命令,后部混响除去单元10e将0或充分小的值作为对应于变量m的|Sm(f,t)|输出(步骤S55)。另外,步骤S53~S55的处理相当于半波整流处理。也可以通过步骤S53~S55以外的方法进行半波整流。
在半波整流后,控制单元10k参照存储器10j,判断变量m是否为M(步骤S56)。这里,如果不是m=M,则控制单元10k将m+1作为新的变量m的值存储在存储器10j中(步骤S57),并将处理返回到步骤S53。另一方面,如果m=M,则控制单元10k结束步骤S4的处理(后部混响除去步骤(步骤S4)的详细的说明结束)。
[标记判定步骤(步骤S5、S6)]
在步骤S4之后,控制单元10k读出存储器10j中存储的标记δ,并判断该标记δ是否是表示仅输出振幅谱的标记,即是否δ=1(步骤S5)。这里,如果δ=1,则控制单元10k将在后部混响除去步骤(步骤S4)中由后部混响除去单元10e生成的后部混响除去信号值的振幅谱预测值|S1(f,t)|...|SM(f,t)|作为混响除去装置10的最终的输出信息输出(步骤S6),并结束该分析帧的处理。这样输出的振幅谱预测值|S1(f,t)|...|SM(f,t)|例如被传送给接着在混响除去装置10的后级的语音识别系统等应用,并变换为特征量。
另一方面,如果δ=0,则控制单元10k执行以下的步骤S7以后的处理。
[复谱生成步骤(步骤S7)]
在复谱生成步骤中,首先对复谱生成单元10f输入从后部混响除去单元10e输出(步骤S4)的后部混响除去信号值的振幅谱预测值|S1(f,t)|...|SM(f,t)|,和从频域变换单元10d输出(步骤S3)的频域的离散声响信号值的相位信息arg[X1(f,t)]...arg[XM(f,t)]。复谱生成单元10f使用这些信息,按照以下的式(42),计算后部混响除去信号值的复谱预测值S1(f,t)...SM(f,t)并输出(步骤S7)。另外,exp(·)是以纳披尔数为底的指数函数,j是虚数单位。
Sm(f,t)=|Sm(f,t)|·exp(j·arg[Xm(f,t)])…(42)
[时域变换步骤(步骤S8)]
在步骤S7之后,对时域变换单元10g输入上述后部混响除去信号值的复谱预测值S1(f,t)...SM(f,t)。然后,时域变换单元10g计算将后部混响除去信号值的复谱预测值S1(f,t)...SM(f,t)变换到时域后的后部混响除去信号估计值s1(n)...sM(n)并输出(步骤S8)。另外,对时域的变换例如通过逆傅立叶变换进行。
[延迟量计算步骤(步骤S9)]
在步骤S8之后,对延迟量计算单元10h输入后部混响除去信号估计值s1(n)...sM(n)。然后,延迟量计算单元10h根据各信道决定使后部混响除去信号估计值s1(n)...sM(n)的信道间互相关极大的后部混响除去信号估计值的延迟量τ1...τM(步骤S9)。以下示出该具体例子。
[延迟量计算步骤(步骤S9)的具体例]
首先,延迟量计算单元10h对输入的分析帧内的后部混响除去信号估计值s1(n)...sM(n),求如以下的式(43)这样的信道间相关函数Am(τ)的函数值。另外,E{·}是平均运算符。
Am(τ)=E{s1(n)·sm(n+τ)}…(43)
接着,延迟量计算单元10h对各m求使信道间相关函数Am(τ)为极大(例如最大)的τ,作为τm。例如,在将使信道间相关函数Am(τ)为最大的τ作为τm的情况下,延迟量计算单元10h计算
τm=max{Am(τ)]…(44)
并输出。另外,max{·}检测·的最大值。此外,τm是信道m的后部混响除去信号估计值的延迟量,在延迟量中也包含τm=0(延迟两计算步骤(步骤S9)的具体例子的说明结束)。
[延迟调节步骤(步骤S10、S11)]
在步骤S9之后,各延迟量τ1...τM和后部混响除去信号估计值s1(n)...sM(n)被输入到延迟调节单元10i(图1)。然后,延迟调节单元10i的延迟单元10ia(图2B)将各信道的后部混响除去信号估计值s1(n)...sM(n)分别延迟延迟量τ1...τM,计算s1(n+τ1)...sM(n+τM)并输出(步骤S10)。
接着,s1(n+τ1)...sM(n+τM)被输入到延迟校正单元10ib(图2B),延迟校正单元10ib按照以下的式(45),计算s1(n+τ1)...sM(n+τM)之和(步骤S11),并将该和作为校正混响除去信号值s(n)输出(步骤S12),并结束该分析帧的处理。各信道的后部混响信号中包含的误差分量在统计上独立的步骤的情况下,可以通过该操作来抑制误差。
[算式19]
[第二实施方式]
接着,说明本发明的第二实施方式。第二实施方式是第一实施方式的变形例。
第一实施方式的[后部混响预测步骤(步骤S2)]中,作为后部混响预测值rw(n)(w=1,...,M),计算将各线性预测系数αw,1(p)...αw,M(p)和未进行模拟白色化的离散声响信号值x1(n)...xM(n)代入多阶线性预测模型的线性预测项而得到的线性预测值。此外,在[后部混响除去步骤(步骤S4)]中,求未进行模拟白色化的频域的离散声响信号值的振幅谱|X1(f,t)|...|XM(f,t)|和频域的后部混响预测值的振幅谱|R1(f,t)|...|RM(f,t)|的每个传感器的相对值,并将该相对值作为后部混响除去信号值的振幅谱预测值|S1(f,t)|...|SM(f,t)|。
而在第二实施方式中,在[后部混响预测步骤]中,作为后部混响预测值rw(n)(w=1,...,M),计算将各线性预测系数αw,1(p)...αw,M(p)和未进行模拟白色化的离散声响信号值x1’(n)...xM’(n)代入多阶线性预测模型的线性预测项而得到的线性预测值。此外,在第二实施方式中,在[后部混响除去步骤]中,求进行了模拟白色化后的频域的离散声响信号值的振幅谱|X1’(f,t)|...|XM’(f,t)|和频域的后部混响预测值的振幅谱|R1(f,t)|...|RM(f,t)|的每个传感器的相对值,并将该相对值作为后部混响除去信号值的振幅谱预测值|S1(f,t)|...|SM(f,t)|。这样得到的后部混响除去信号值的振幅谱预测值|S1(f,t)|...|SM(f,t)|是短时间相关分量被抑制后(模拟白色化后)的值。因此,这样得到的振幅谱预测值|S1(f,t)|...|SM(f,t)|适合作为对例如语音识别系统这样的需要模拟白色化后的数据的系统的输入。因为在这样的系统中,不需要模拟白色化的前处理。
这些是第一实施方式和第二实施方式的不同点。以下,以与第一实施方式的不同点为中心进行说明,对于与第一实施方式相同的事项省略说明。
<硬件结构>
与第一实施方式中说明的相同。
<硬件和程序的协作>
本方式的混响除去装置也通过将规定程序读入计算机并执行而构成。图8是例示本方式的混响除去装置310的功能结构的方框图。此外,图9是例示模型应用单元310b的功能结构的细节的方框图。另外,在图8、9中,对与第一实施方式相同的部分使用与第一实施方式相同的标号。
如图8中所例示的,混响除去装置310具有存储器10a、模型应用单元310b、后部混响预测单元310c、频域变换单元310d、后部混响除去单元310e、复谱生成单元310f、时域变换单元10g、延迟量计算单元10h、延迟调节单元10i、存储器10j、控制单元10k。
此外,如图9所例示的,模型应用单元310b具有模拟白色化单元100和第一线性预测系数计算单元200,模拟白色化单元100具有第二线性预测系数计算单元110和逆滤波器处理单元120。此外,第二线性预测系数计算单元110具有自相关系数计算单元111、自相关系数平均化单元112、方程式运算单元113。模型应用单元310b和第一实施方式的模型应用单元10b的不同点在于,模型应用单元310b的逆滤波器处理单元120将模拟白色化后的离散声响信号值x1’(n)...xM’(n)也传送到后部混响预测单元310c和频域变换单元310d。
<混响除去处理>
接着,说明本方式的混响除去处理。
图10、11是用于说明本方式的混响除去处理的整体的流程图。以下,使用这些图说明本方式的混响除去处理。
[前处理]
与第一实施方式同样。
[模型应用步骤(步骤S101)]
在模型应用步骤中,模型应用单元310b使用从存储器10a读入的1分析帧的M信道的离散声响信号值x1(n)...xM(n),计算式(13)所示的多阶线性预测模型的各线性预测系数αw,1(p)...αw,M(p)(步骤S101)。该处理与第一实施方式的[模型应用步骤(步骤S1)]同样,包含将离散声响信号值x1(n)...xM(n)模拟白色化的步骤。
[后部混响预测步骤(步骤S102)]
在模型应用步骤(步骤S101)之后,对后部混响预测单元310c输入在模型应用步骤(步骤S101)中模拟白色化后的离散声响信号值x1’(n)...xM’(n)、由模型应用步骤(步骤S101)计算出的各线性预测系数αw,1(p)...αw,M(p)。
然后,后部混响预测单元310c将各线性预测系数αw,1(p)...αw,M(p)和模拟白色化后的离散声响信号值x1’(n)...xM’(n)代入多阶线性预测模型的线性预测项而得到的线性预测值,作为后部混响预测值rw(n)(w=1,...,M)计算并输出(步骤S102)。在使用了式(13)的多阶线性预测模型时,后部混响预测单元310c按照以下的式(46)求后部混响预测值rw(n)并输出。
[算式20]
[频域变换步骤(步骤S103)]
接着,对频域变换单元310d输入在模型应用步骤(步骤S101)中模拟白色化后的离散声响信号值x1’(n)...xM’(n)、由后部混响预测步骤(步骤S102)计算出的后部混响预测值r1(n)...rM(n)。频域变换单元310d将输入的模拟白色化后的离散声响信号值x1’(n)...xM’(n)变换为频域的离散声响信号值X1’(f,t)...XM’(f,t),并将后部混响预测值r1(n)...rM(n)变换为频域的后部混响预测值R1(f,t)...RM(f,t)(步骤S103)。频域变换单元310d通过这些处理提取并输出频域的离散声响信号值X1’(f,t)...XM’(f,t)的振幅谱|X1’(f,t)|...|XM’(f,t)|和相位信息arg[X1’(f,t)]...arg[XM’(f,t)]、以及频域的后部混响预测值R1(f,t)...RM(f,t)的振幅谱|R1(f,t)|...|RM(f,t)|和相位信息arg[R1(f,t)]...arg[RM(f,t)]。
[后部混响除去步骤(步骤S104)]
接着,对后部混响除去单元310e输入频域的离散声响信号值的振幅谱|X1’(f,t)|...|XM’(f,t)|和频域的后部混响预测值的振幅谱|R1(f,t)|...|RM(f,t)|。然后,后部混响除去单元310e求频域的离散声响信号值的振幅谱|X1’(f,t)|...|XM’(f,t)|和频域的后部混响预测值的振幅谱|R1(f,t)|...|RM(f,t)|的每个传感器的相对值,并将该相对值作为后部混响除去信号值的振幅谱预测值|S1(f,t)|...|SM(f,t)|而输出(步骤S104)。
[标记判定步骤(步骤S105、S106)]
在步骤S104之后,控制单元10k读出存储器10j中存储的标记δ,并判断该标记δ是否是表示仅输出振幅谱的标记,即是否δ=1(步骤S105)。这里,如果δ=1,则控制单元10k将在后部混响除去步骤(步骤S104)中由后部混响除去单元310e生成的后部混响除去信号值的振幅谱预测值|S1(f,t)|...|SM(f,t)|作为混响除去装置310的最终的输出信息而输出(步骤S106),并结束该分析帧的处理。另一方面,如果δ=0,则控制单元10k执行以下的步骤S107以后的处理。
[复谱生成步骤(步骤S107)]
在复谱生成步骤中,首先对复谱生成单元310f输入从后部混响除去单元310e输出(步骤S104)的后部混响除去信号值的振幅谱预测值|S1(f,t)|...|SM(f,t)|,和从频域变换单元10d输出(步骤S3)的频域的离散声响信号值的相位信息arg[X1’(f,t)]...arg[XM’(f,t)]。复谱生成单元310f使用这些信息,按照以下的式(47),计算后部混响除去信号值的复谱预测值S1(f,t)...SM(f,t)并输出(步骤S107)。
Sm(f,t)=|Sm(f,t)|·exp(j·arg[Xm’(f,t)])…(47)
[时域变换步骤(步骤S108)、延迟量计算步骤(步骤S109)、延迟量调节步骤(步骤S110、S111)]
时域变换步骤(步骤S108)、延迟量计算步骤(步骤S109)、延迟量调节步骤(步骤S110、S111)与第一实施方式的时域变换步骤(步骤S8)、延迟量计算步骤(步骤S9)、延迟量调节步骤(步骤S10、S11)相同。
[第三实施方式]
接着,说明本发明的第三实施方式。第三实施方式是第一、第二实施方式的变形例。
在第一实施方式所例示的“第二线性预测系数计算步骤(步骤S31)”中,第二线性预测系数计算单元110使用将对每个信道生成的自相关系数c1(i)...cM(i)在信道之间平均后的平均自相关系数c(i),计算短时间线性预测模型的各线性预测系数b(1)...b(q)。
而在第三实施方式的[第二线性预测系数计算步骤(步骤S31)]中,第二线性预测系数计算单元410计算离散声响信号值的自相关系数,并使用该自相关系数,计算短时间线性预测模型的各线性预测系数,所述离散声响信号值通过将由M个传感器中最接近声响信号的声源的一个传感器所观测到的声响信号,在多个时刻进行采样而得到。
这一点与第一实施方式不同。而且,该结构对第二实施方式也能够应用。以下,仅说明作为与第一、第二实施方式的不同点的第二线性预测系数计算单元410的结构以及[第二线性预测系数计算步骤(步骤S31)]的处理,并对与第一、第二实施方式相同的事项省略说明。
图12A是表示本方式的第二线性预测系数计算单元410的功能结构的方框图。另外,在图12A中,对于与第一实施方式相同的部分使用与第一实施方式相同的符号。此外,图12B是用于说明本方式的[第二线性预测系数计算步骤(步骤S31)]的流程图。
如图12A所例示的,本方式的第二线性预测系数计算单元410具有自相关系数计算单元411和方程式运算单元113。在本实施方式的第二线性预测系数计算步骤中,首先,自相关系数计算单元411(图12A)使用输入了的离散声响信号值x1(n)...xM(n),计算离散声响信号值xy(n)的自相关系数cy(i)(i=0,1,...,q)(步骤S141),所述离散声响信号值通过将由M(M≥2)个传感器中最接近声响信号的声源的一个传感器y(y=1,...,M)所观测到的声响信号,在多个时刻进行采样而得到。另外,最接近声响信号的声源的一个传感器y的信息可以是自相关系数计算单元411所具备的固定信息,也可以是对自相关系数计算单元411提供的变动信息。
接着,如上述这样求出的各自相关系数c(i)被输入到方程式运算单元113,方程式运算单元113使用各平均自相关系数c(i),求Yule-Walker的方程式(正规方程式)的解,从而计算短时间线性预测模型的各线性预测系数b(1)...b(q)并输出(方程式运算步骤/步骤S142)。
如以上这样,在本方式中,采用了使用与最接近声响信号的声源的一个传感器对应的声响信号值的自相关系数,计算各线性预测系数b(1)...b(q)的结构。由此,与使用与其它传感器对应的声响信号值的自相关系数的情况相比,线性预测系数b(1)...b(q)的计算精度提高,能够更有效地抑制离散声响信号值x1(n)...xM(n)所具备的按照d(z)的短期自相关。如前所述,这使得后部混响除去的精度提高。
[第四实施方式]
接着,说明本发明的第四实施方式。第四实施方式是第一、第二实施方式的变形例。
在第一实施方式的[模拟白色化步骤(步骤S21)]中,使用短时间线性预测模型进行了离散声响信号值的模拟白色化。
而在第四实施方式的[模拟白色化步骤(步骤S21)]中,使用倒谱平均值消去(CMS,Cepstral Mean Subtraction)(例如,参照“B.S.Atal,“Effectivenessof linear prediction characteristics of the speech wave for automatic speakeridentification and verification,”Journal of Acoustical Society of America,55(6),pp.1304-1312,1974.”)进行离散声响信号值的模拟白色化。
这一点是与第一实施方式的不同点。而且,该结构对第二实施方式也能够应用。以下,仅说明作为与第一、第二实施方式的不同点的模拟白色化单元510的结构以及[模拟白色化步骤(步骤S21)]的处理,并对与第一、第二实施方式相同的事项省略说明。
图13是表示本方式的模型应用单元500的功能结构的方框图。另外,对于在图13中与第一实施方式相同的部分使用与第一实施方式相同的标号。
如图13中例示的,本方式的模型应用单元500具有模拟白色化单元510和第一线性预测系数计算单元200。此外,模拟白色化单元510具有频域变换单元511、时间平均化单元512、减法单元513、时域变换单元514。
图14是用于说明本方式的[模拟白色化步骤(步骤S21)]的流程图。以下,使用该图说明本方式的[模拟白色化步骤(步骤S21)]。
首先,模拟白色化单元510的频域变换单元511从存储器10a读入1分析帧的M信道的离散声响信号值x1(n)...xM(n)。然后,频域变换单元511通过短时间傅立叶变换等将离散声响信号值x1(n)...xM(n)变换为频域的离散声响信号值X1(f,t)...XM(f,t)并输出(步骤S201)。另外,在通过短时间傅立叶变换而进行该处理的情况下,例如使用以下的式(48)。此外,F[·]表示短时间傅立叶变换函数,Log[·]表示对数函数。
Xm(f,t)=Log[F[xm(n)]]…(48)
接着,频域的离散声响信号值X1(f,t)...XM(f,t)被读入到时间平均化单元512,时间平均化单元512按照以下的式(49),求频域的离散声响信号值X1(f,t)...XM(f,t)的时间平均Xm’(f),并输出(步骤S202)。
[算式21]
接着,频域的离散声响信号值X1(f,t)...XM(f,t)和它们的时间平均E{Xm(f,t)}被读入到减法单元513,减法单元513通过以下的式(50),计算Xm’(f,t)(m=1,...,M),并输出(步骤S203)。
Xm’(f,t)=Xm(f,t)—E{Xm(f,t)}…(50)
接着,X1’(f,t)...XM’(f,t)被读入到时域变换单元514,时域变换单元514通过逆傅立叶变换等将它们变换到时域,计算模拟白色化后的离散声响信号值x1’(n)...xM’(n),并输出(步骤S204)。另外,在通过逆傅立叶变换进行该处理的情况下,例如使用以下的式(51)。此外,invF[·]表示逆傅立叶变换函数,exp[·]表示以纳披尔数为底的指数函数。
xm(n)=invF[exp[xm’(f,t)]]…(51)
另外,在上述短时间傅立叶变换函数F[·]和逆傅立叶变换函数invF[·]中使用窗长25ms的窗函数的情况下,可以除去25ms以内的初始反射分量以及短时间相关。
此外,在将本方式应用于第二实施方式的情况下,由时域变换单元514生成的模拟白色化后的离散声响信号值x1’(n)...xM’(n)也被传送到后部混响预测单元310c和频域变换单元310d(图8)。
[第五实施方式]
接着,说明本发明的第五实施方式。第五实施方式是将第四实施方式的模拟白色化方法应用于第一实施方式时的变形例。
在第一实施方式的[频域变换步骤(步骤S3)]中,将离散声响信号值x1(n)...xM(n)变换为频域的离散声响信号值X1(f,t)...XM(f,t),并将后部混响预测值r1(n)...rM(n)变换为频域的后部混响预测值R1(f,t)...RM(f,t)。但是,在进行第四实施方式的模拟白色化的情况下,在该步骤中(步骤S201)中得到频域的离散声响信号值X1(f,t)...XM(f,t)。
在第五实施方式中,借用在第四实施方式的模拟白色化的步骤中得到的频域的离散声响信号值X1(f,t)...XM(f,t),将频域变换步骤的处理简化。
以下,以与此前说明的实施方式的不同点为中心进行说明,对于与它们相同的部分省略说明。
<硬件结构>
与第一实施方式中说明的相同。
<硬件和程序的协作>
本方式的混响除去装置也通过将规定程序读入计算机并执行而构成。图15是例示本方式的混响除去装置610的功能结构的方框图。另外,在图15中,对与此前说明的实施方式相同的部分使用与其相同的标号。
如图15中所例示的,混响除去装置610具有存储器10a、模型应用单元500、后部混响预测单元10c、频域变换单元510d、后部混响除去单元10e、复谱生成单元10f、时域变换单元10g、延迟量计算单元10h、延迟调节单元10i、存储器10j、控制单元10k。
<混响除去处理>
接着,说明本方式的混响除去处理。
图16是用于说明本方式的混响除去处理的整体的流程图。以下,使用该图说明本方式的混响除去处理。
[前处理]
与第一实施方式同样。
[模型应用步骤(步骤S211)]
在模型应用步骤中,模型应用单元500使用从存储器10a读入的1分析帧的M信道的离散声响信号值x1(n)...xM(n),计算式(13)所示的多阶线性预测模型的各线性预测系数αw,1(p)...αw,M(p)(步骤S211)。该处理中,模拟白色化处理如第四实施方式中说明的那样,其它的处理与第一实施方式同样。
[后部混响预测步骤(步骤S212)]
在模型应用步骤(步骤S211)之后,对后部混响预测单元10c输入从存储器10a读出的离散声响信号值x1(n)...xM(n)、由模型应用步骤(步骤S211)计算出的各线性预测系数αw,1(p)...αw,M(p)。
然后,后部混响预测单元10c将各线性预测系数αw,1(p)...αw,M(p)和离散声响信号值x1(n)...xM(n)代入多阶线性预测模型的线性预测项而得到的线性预测值,作为后部混响预测值rw(n)(w=1,...,M)计算并输出(步骤S212)。
[频域变换步骤(步骤S213)]
接着,对频域变换单元510d输入由后部混响预测步骤(步骤S212)计算出的后部混响预测值r1(n)...rM(n)。频域变换单元510d将输入的后部混响预测值r1(n)...rM(n)变换为频域的后部混响预测值R1(f,t)...RM(f,t)(步骤S213)。频域变换单元510d通过该处理提取并输出频域的后部混响预测值R1(f,t)...RM(f,t)的振幅谱|R1(f,t)|...|RM(f,t)|和相位信息arg[R1(f,t)]...arg[RM(f,t)]。
[后部混响除去步骤(步骤S214)]
接着,对后部混响除去单元10e输入从模拟白色化单元510的频域变换单元511(图13)传送的频域的离散声响信号值的振幅谱|X1’(f,t)|...|XM’(f,t)|和由频域变换单元510d生成的频域的后部混响预测值的振幅谱|R1(f,t)|...|RM(f,t)|。然后,后部混响除去单元310e求频域的离散声响信号值的振幅谱|X1’(f,t)|...|XM’(f,t)|和频域的后部混响预测值的振幅谱|R1(f,t)|...|RM(f,t)|的每个传感器的相对值,并将该相对值作为后部混响除去信号值的振幅谱预测值|S1(f,t)|...|SM(f,t)|而输出(步骤S214)。
[标记判定步骤(步骤S215、S216)]
本方式的[标记判定步骤(步骤S215、S216)]与第一实施方式的[标记判定步骤(步骤S5、S6)]相同。
[其它步骤]
其它步骤与第一实施方式相同。其中,与第一实施方式不同之处仅仅在于在[复谱生成步骤(步骤S7)]中,使用从模拟白色化单元510的频域变换单元511(图13)传送的相位信息arg[X1(f,t)]...arg[XM(f,t)]。
[第六实施方式]
接着,说明本发明的第六实施方式。第六实施方式是将第四实施方式的模拟白色化方法应用于第二实施方式时的变形例。
在第二实施方式的[频域变换步骤(步骤S103)]中,将离散声响信号值x1(n)...xM(n)变换为频域的离散声响信号值X1(f,t)...XM(f,t),并将后部混响预测值r1(n)...rM(n)变换为频域的后部混响预测值R1(f,t)...RM(f,t)。但是,在进行第四实施方式的模拟白色化的情况下,在该步骤中(步骤S201)中,得到频域的离散声响信号值X1(f,t)...XM(f,t)。
在第六实施方式中,借用在第四实施方式的模拟白色化的步骤中得到的频域的离散声响信号值X1(f,t)...XM(f,t),将频域变换步骤的处理简化。
以下,以与此前说明的实施方式的不同点为中心进行说明,对于与它们相同的部分省略说明。
<硬件结构>
与第一实施方式中说明的相同。
<硬件和程序的协作>
本方式的混响除去装置也通过将规定程序读入计算机并执行而构成。
图17是例示本方式的混响除去装置620的功能结构的方框图。在图17中,对与此前说明的实施方式相同的部分使用与其相同的标号。
如图17中所例示的,混响除去装置620具有存储器10a、模型应用单元500、后部混响预测单元310c、频域变换单元510d、后部混响除去单元310e、复谱生成单元310f、时域变换单元10g、延迟量计算单元10h、延迟调节单元10i、存储器10j、控制单元10k。
<混响除去处理>
接着,说明本方式的混响除去处理。
图18是用于说明本方式的混响除去处理的整体的流程图。以下,使用该图说明本方式的混响除去处理。
[前处理]
与第一实施方式同样。
[模型应用步骤(步骤S221)]
在模型应用步骤中,模型应用单元310b使用从存储器10a读入的1分析帧的M信道的离散声响信号值x1(n)...xM(n),计算式(13)所示的多阶线性预测模型的各线性预测系数αw,1(p)...αw,M(p)(步骤S221)。该处理中,模拟白色化处理如第四实施方式中说明的那样,其它的处理与第一实施方式同样。
[后部混响预测步骤(步骤S222)]
在模型应用步骤(步骤S221)之后,对后部混响预测单元310c输入在模型应用步骤(步骤S221)中模拟白色化后的离散声响信号值x1’(n)...xM’(n)、由模型应用步骤(步骤S221)计算出的各线性预测系数αw,1(p)...αw,M(p)。
然后,后部混响预测单元310c将各线性预测系数αw,1(p)...αw,M(p)和模拟白色化后的离散声响信号值x1’(n)...xM’(n)代入多阶线性预测模型的线性预测项而得到的线性预测值,作为后部混响预测值rw(n)(w=1,...,M)计算并输出(步骤S222)。
[频域变换步骤(步骤S223)]
接着,对频域变换单元510d输入由后部混响预测步骤(步骤S222)计算出的后部混响预测值r1(n)...rM(n)。频域变换单元510d将输入的后部混响预测值r1(n)...rM(n)变换为频域的后部混响预测值R1(f,t)...RM(f,t)(步骤S223)。频域变换单元510d通过该处理提取并输出频域的后部混响预测值R1(f,t)...RM(f,t)的振幅谱|R1(f,t)|...|RM(f,t)|和相位信息arg[R1(f,t)]...arg[RM(f,t)]。
[后部混响除去步骤(步骤S224)]
接着,对后部混响除去单元310e输入频域的离散声响信号值的振幅谱|X1’(f,t)|...|XM’(f,t)|和频域的后部混响预测值的振幅谱|R1(f,t)|...|RM(f,t)|。然后,后部混响除去单元310e求频域的离散声响信号值的振幅谱|X1’(f,t)|...|XM’(f,t)|和频域的后部混响预测值的振幅谱|R1(f,t)|...|RM(f,t)|的每个传感器的相对值,并将该相对值作为后部混响除去信号值的振幅谱预测值|S1(f,t)|...|SM(f,t)|而输出(步骤S224)。另外,本步骤所使用的频域的离散声响信号值的振幅谱|X1’(f,t)|...|XM’(f,t)|由模拟白色化单元510的减法单元513(图13)传送。
[标记判定步骤(步骤S225、S226)]
本方式的[标记判定步骤(步骤S225、S226)]与第一实施方式的[标记判定步骤(步骤S5、S6)]相同。
[其它步骤]
其它步骤与第一实施方式相同。其中,与第一实施方式不同之处仅仅在于在[复谱生成步骤(步骤S7)]中,使用从模拟白色化单元510的减法单元513(图13)传送的相位信息arg[X1’(f,t)]...arg[XM’(f,t)]。
[第七实施方式]
接着,说明本发明的第七实施方式。第七实施方式是设M=1,且不需要延迟量计算单元10h和延迟调节单元10i的第一~第六实施方式的变形例。作为该变形例,说明设为M=1,并对第二实施方式应用第四实施方式的模拟白色化方法,并且不存在延迟量计算单元10h和延迟调节单元10i的结构。但是,也可以采用在其它第一~第六实施方式或它们的组合中,设为M=1,并且不存在延迟量计算单元10h和延迟调节单元10i的结构。进而,也可以是虽然存在延迟量计算单元10h和延迟调节单元10i,但在M=1的情况下,不使它们起作用的结构。
此外,以下,以与此前说明的实施方式的不同点为中心进行说明,对于与它们相同的部分省略说明。
<硬件结构>
与第一实施方式相同。
<硬件和程序的协作>
本方式的混响除去装置也通过将规定程序读入计算机并执行而构成。图19是例示本方式的混响除去装置710的功能结构的方框图。此外,图20是例示图19的模型应用单元800的功能结构的细节的方框图。另外,在图19、图20中,对与此前说明的实施方式相同的部分使用与其相同的标号。
如图19中所例示的,混响除去装置710具有存储器10a、模型应用单元800、后部混响预测单元310c、频域变换单元310d、后部混响除去单元310e、复谱生成单元310f、时域变换单元10g、存储器10j、控制单元10k。
此外,模型应用单元800具有模拟白色化单元810和第一线性预测系数计算单元200。此外,模拟白色化单元810具有频域变换单元811、时间平均化单元812、减法单元813、时域变换单元814。
<混响除去处理>
接着,说明本方式的混响除去处理。
图21是用于说明本方式的混响除去处理的整体的流程图。此外,图22A是用于说明图21的步骤S301(模型应用步骤)的细节的流程图,图22B是用于说明图22A的步骤S331(模拟白色化步骤)的细节的流程图。
以下,使用这些图说明本方式的混响除去处理。
[前处理]
首先,由M(M=1)个传感器观测到的1个信道的声响信号以规定的抽样频率被采样,生成离散声响信号值x1(n)。生成的各信道的离散声响信号值x1(n)分别被存储在存储器10a中。另外,在本方式中,事先取得进行混响除去的全部时间区间的离散声响信号值x1(n),并存储在存储器10a中,并且对每个分析帧执行以下的各步骤。但是,也可以实时地取得离散声响信号值x1(n),同时执行以下各步骤。
此外,将用于表示混响除去装置710最终输出的信息仅是后部混响除去信号的振幅谱还是也具有相位分量的声响信号的信息存储在存储器10j中。在本方式中,将标记(flag)(数据)δ存储在存储器10j中。然后,在输出的信息仅是直接声音的振幅谱的情况下设为δ=1,在是也具有相位分量的声响信号的情况下设为δ=0。
以下,说明本方式的后部混响除去处理。另外,以下,仅说明一个分析帧的处理步骤,但实际上对多个分析帧进行同样的处理。
[模型应用步骤(步骤S301)]
在模型应用步骤中,模型应用单元800使用从存储器10a读入的1分析帧的离散声响信号值x1(n),计算式(5)所示的多阶线性预测模型的各线性预测系数α1,1(p)(步骤S301)。以下,分层地说明该处理的细节。
[模型应用步骤(步骤S301)的细节(图22A)]
如图22A所例示的,在模型应用步骤中,首先,模拟白色化(Pre-hitening)单元810(图20)抑制输入的离散声响信号值x1(n)所具有的短时间区间中的自相关分量,生成模拟白色化后的离散声响信号值x1’并输出(模拟白色化步骤/步骤S311)。即,从各离散时间的上述离散声响信号值x1(n)中抑制与紧接着该离散时间n之前的短时间区间内的各离散声响信号值具有自相关性的自相关分量,并生成模拟白色化后的离散声响信号值x1’(n)。
接着,上述模拟白色化后的离散声响信号值x1’(n)被输入到第一线性预测系数计算单元200(图20)中,第一线性预测系数计算单元200使用该模拟白色化后的离散声响信号值x1’(n)计算式(5)所示的多阶线性预测模型的各线性预测系数α1,1(p)并输出(第一线性预测系数计算步骤/步骤S312)。另外,作为一例,将式(5)中的延迟D例如设为25ms(在抽样频率12000Hz的情况下,相当于300轻拍(tap)),将各线性预测系数α1,1(p)的数N例如设为5000左右。此外,作为计算各线性预测系数α1,1(p)的方法,可以例示自相关法(correlation method)和协方差法(covariance method)。此外,也可以使用MATLAB(注册商标)等来进行该处理。
[模拟白色化步骤(步骤S311)的细节(图22B)]
接着,说明模拟白色化步骤(步骤S311)的细节。
在本方式中,作为一例,使用倒谱平均值消去(CMS,Cepstral MeanSubtraction)来进行离散声响信号值的模拟白色化。
首先,模拟白色化单元810的频域变换单元811从存储器10a中读出声响信号1分析帧的1信道的离散声响信号值x1(n)。然后,频域变换单元811通过短时间傅立叶变换等将离散声响信号值x1(n)变换为频域的离散声响信号值X1(f,t)并输出(步骤S321)。另外,在通过短时间傅立叶变换进行该处理的情况下,例如使用以下的式(52)。此外,F[·]表示短时间傅立叶变换函数,Log[·]表示对数函数。
X1(f,t)=Log[F[x1(n)]]…(52)
接着,频域的离散声响信号值X1(f,t)被读入到时间平均化单元812,时间平均化单元812按照以下的式(53),求频域的离散声响信号值X1(f,t)的时间平均X1’(f),并输出(步骤S322)。
[算式22]
接着,频域的离散声响信号值X1(f,t)及其时间平均E{X1(f,t)}被读入到减法单元813,减法单元513通过以下的式(54),计算X1’(f,t),并输出(步骤S323)。
X1’(f,t)=X1(f,t)—E{X1(f,t)}…(54)
接着,X1’(f,t)被读入到时域变换单元514,时域变换单元814通过逆傅立叶变换等将它们变换到时域,计算模拟白色化后的离散声响信号值x1’(n),并输出(步骤S324)。另外,在通过逆傅立叶变换进行该处理的情况下,例如使用以下的式(55)。此外,invF[·]表示逆傅立叶变换函数。
x1(n)=invF[exp[X1’(f,t)]]…(55)
另外,在上述短时间傅立叶变换函数F[·]和逆傅立叶变换函数invF[·]中使用窗长25ms的窗函数的情况下,可以除去25ms以内的初始反射分量以及短时间相关。
此外,在将本方式的例子中,由时域变换单元814生成的模拟白色化后的离散声响信号值x1’(n)也被传送到后部混响预测单元310c和频域变换单元310d(图19)([模型应用步骤(步骤S301)的细节]的说明结束)。
[后部混响预测步骤(步骤S302)]
在模型应用步骤(步骤S301)之后,对后部混响预测单元310c输入由时域变换单元814生成的模拟白色化后的离散声响信号值x1’(n)、由模型应用步骤(步骤S301)计算出的各线性预测系数α1,1(p)。
然后,如上述式(10)这样,后部混响预测单元310c将各线性预测系数α1,1(p)和模拟白色化后的离散声响信号值x1’(n)代入多阶线性预测模型的线性预测项而得到的线性预测值,作为后部混响预测值r1(n)计算并输出(步骤S302)。在本方式中,由于使用式(5)的多阶线性预测模型,因此后部混响预测单元310c按照以下的式(56)求后部混响预测值r1(n)并输出。
[算式23]
[频域变换步骤(步骤S303)]
接着,对频域变换单元310d输入由时域变换单元814(图20)生成的模拟白色化后的离散声响信号值x1’(n)、由后部混响预测步骤(步骤S302)计算出的后部混响预测值r1(n)。频域变换单元310d将输入的模拟白色化后的离散声响信号值x1’(n)变换为频域的离散声响信号值X1’(f,t),并将后部混响预测值r1(n)变换为频域的后部混响预测值R1(f,t)(步骤S303)。在本方式中,例如使用窗长25ms的汉明窗等有限长的窗函数,通过短时间傅立叶变换(DFT:Discrete Fourier Transform)等进行这些向频域的变换。频域变换单元310d通过这些处理提取并输出频域的离散声响信号值X1’(f,t)的振幅谱|X1’(f,t)|和相位信息arg[X1’(f,t)]、以及频域的后部混响预测值R1(f,t)的振幅谱|R1(f,t)|和相位信息arg[R1(f,t)]。
[后部混响除去步骤(步骤S304)]
接着,对后部混响除去单元310e输入频域的离散声响信号值的振幅谱|X1’(f,t)|和频域的后部混响预测值的振幅谱|R1(f,t)|。然后,后部混响除去单元310e求频域的离散声响信号值的振幅谱|X1’(f,t)|和频域的后部混响预测值的振幅谱|R1(f,t)|的每个传感器的相对值,并将该相对值作为后部混响除去信号值的振幅谱预测值|S1(f,t)|而输出(步骤S304)。该处理的细节与第一实施方式同样。
[标记判定步骤(步骤S305、S306)]
在步骤S304之后,控制单元10k读出存储器10j中存储的标记δ,并判断该标记δ是否是表示仅输出振幅谱的标记,即是否δ=1(步骤S305)。这里,如果δ=1,则控制单元10k将在后部混响除去步骤(步骤S304)中由后部混响除去单元310e生成的后部混响除去信号值的振幅谱预测值|S1(f,t)|作为混响除去装置710的最终的输出信息输出(步骤S306),并结束该分析帧的处理。这样输出的振幅谱预测值|S1(f,t)|例如被传送给接着在混响除去装置710的后级的语音识别系统等应用,并变换为特征量。
另一方面,如果δ=0,则控制单元10k执行以下的步骤S307以后的处理。
[复谱生成步骤(步骤S307)]
在复谱生成步骤中,首先对复谱生成单元310f输入从后部混响除去单元310e输出(步骤S304)的后部混响除去信号值的振幅谱预测值|S1(f,t)|,和从频域变换单元310d输出(步骤S303)的频域的离散声响信号值的相位信息arg[X1’(f,t)]。复谱生成单元310f使用这些信息,按照以下的式(57),计算后部混响除去信号值的复谱预测值S1(f,t)并输出(步骤S307)。
S1(f,t)=|S1(f,t)|·exp(j·arg[X1(f,t)])…(57)
[时域变换步骤(步骤S308)]
在步骤S307之后,对时域变换单元10g输入上述后部混响除去信号值的复谱预测值S1(f,t)。然后,时域变换单元10g计算将后部混响除去信号值的复谱预测值S1(f,t)变换到时域后的后部混响除去信号估计值s1(n)并输出(步骤S308)。另外,对时域的变换例如通过逆傅立叶变换进行。
[模拟结果]
接着,示出用于表示M=1的情况下的本发明的效果的模拟结果。这里,通过对第二实施方式应用第四实施方式的模拟白色化方法的结构进行了模拟。
在该模拟中,从连续发声数据集(data set)中取出女声和男性的各自50个发声,模拟3000轻拍的脉冲响应和卷积混响环境。此外,将式(5)的多阶线性预测模型的阶长(延迟)设为25ms,并将线性预测系数α1,1(p)的数N设为5000。此外,从时域到频域的变换使用窗长25ms的短时间傅立叶变换。
图24表示该模拟结果。这里,图24A、图24B分别是表示混响除去前的振幅谱值和语音波形的图。此外,图24C、图24D分别是表示本发明(M=1)的混响除去后的振幅谱值和语音波形的图。另外,图24A、图24C的纵轴表示振幅谱值,横轴表示时间(s)。此外,图24B、图24D的纵轴表示频率(Hz),横轴表示时间(s)。从这些图也可知通过本发明高精度地抑制后部混响。
接着,表示从语音识别的观点来评价本发明的效果的模拟结果。
在该模拟中,使用了用纯净(clean)声音构筑的声响模型。表1表示各个识别对象的单词差错率。混响语音、混响除去语音的单词差错率分别表示为“Rev.”“Derev.”。尽管声响模型是从纯净语音学习的,但可知通过本发明大幅地改善了识别率。
[表1]
纯净 | Rev. | Derev.(发明的) |
20.1 | 78.9 | 37.2 |
[实验结果]
接着,示出用于表示本发明的效果的实验结果。该实验关于不进行后部混响除去的情况(无处理)、设为M=1并对第二实施方式应用了第四实施方式的模拟白色化方法的方法(第七实施方式)、第一实施方式(M≥2)中不进行延迟调节而使用了由一个信道(m=1)得到的后部混响除去信号估计值的情况(第一实施方式(无延迟调节))、以及第一实施方式(M≥2)中进行延迟调节并进行了后部混响除去的情况下(第一实施方式(有延迟调节)),测定了各个语音识别率。
图25A是表示该实验条件的图。在该实验中,假设了在纵3.5m、横4.5m、高2.5m的室内,将四个麦克风1010(M=4)配置成一列,从m=1的麦克风1010(实线)按0.5m、1.0m、1.5m、2.0m的距离将四个扬声器1020配置在一条直线上的情况。此外,从连续发生数据集中取出女性和男性的各自100个发声,对其与模拟了的3000轻拍的脉冲响应进行卷积,从而生成后部混响语音。此外,在语音识别时,作为声响模型自适应处理,使用了倒谱平均值消去(CMS,Cepstral Mean Subtraction)(B.S.Atal,“Effectiveness oflinear prediction characteristics of the speech wavefor automatic speakeridentification and verification,”Journal of the Acoustical Society of America,Vol.55(6),pp.1304-1312,Jun1974.)。另外,在设为M=1,并对第二实施方式应用了第四实施方式的模拟白色化方法的方法(第七实施方式)中,使用了m=1的麦克风1010。
图25B是表示有关上述四个情况[无处理、第七实施方式、第一实施方式(无延迟调节)、第一实施方式(有延迟调节)]的语音识别结果(单词差错率)的曲线图。另外,在图25B中,以麦克风1010(m=1)和各扬声器1020的距离(m)作为横轴,并以单词差错率(%)作为纵轴。
如图25B所例示的,在麦克风1010(m=1)和各扬声器1020的距离比较近的情况下,对于第七实施方式(M=1)的第一实施方式(M≥2)(无延迟调节)以及第一实施方式(M≥2)(有延迟调节)的单词差错率的改善量不大。但是,随着麦克风1010(m=1)和各扬声器1020的距离增加,传递函数中的最大相位分量(0点)增加,因此对于第七实施方式(M=1)的第一实施方式(M≥2)(无延迟调节)的单词差错率的改善量变得显著。进而,在第一实施方式(M≥2)(有延迟调节)的情况下,可以进一步改善单词差错率。
[变形例等]
另外,本发明不限于上述各实施方式。例如,在各实施方式中,后部混响除去单元通过短时间傅立叶变换等将各数据变换到频域而执行了各处理。但是,如果作为混响除去装置的输出而被请求的信号仅是直接声音的振幅谱,则后部混响除去单元也可以将各数据进行z变换,并在z区域执行各处理。
此外,在各实施方式中,在通过模拟白色化单元从离散声响信号值中除去短时间相关之后,执行了各处理。但是,也可以使用未除去短时间相关的离散声响信号值执行各处理。
此外,上述各种处理不仅根据记载按照时间序列被执行,也可以根据执行处理的装置的处理能力或需要来并行或单独地执行。此外,也可以是将2个以上的实施方式结合的方式。此外,在不脱离本发明的主旨的范围内当然能够适当变更。
此外,在通过计算机实现上述结构的情况下,各装置应具有的功能的处理内容由程序所记述。而且,通过由计算机执行该程序从而在计算机上实现上述处理功能。
记述了该处理内容的程序可以记录在计算机可读取的记录介质中。作为计算机可读取的记录介质,例如,可以是磁记录装置、光盘、光磁记录介质、半导体存储器等任何装置,具体来说,例如,作为磁记录装置可以使用硬盘装置、软盘、磁盘等,作为光盘可以使用DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read OnlyMemory)、CD-R(Recordable)/RW(Re Writable)等,作为光磁记录介质,可以使用MO(Magneto-Optical disc)等,作为半导体存储器可以使用EEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等。
此外,该程序的流通例如通过贩卖、转让、出借记录了该程序的DVD、CD-ROM等可移动记录介质来进行。进而也可以采用将该程序预先存储在服务器计算机的存储装置中,经由网络从服务器计算机将该程序传送给其它的计算机,从而使该程序流通的结构。
执行这样的程序的计算机例如首先将记录在可移动型记录介质中的程序或从服务器计算机传送的程序临时存储在自己的存储装置中。然后,在执行处理时,该计算机读取自己的记录介质中存储的程序,并执行按照读取的程序的处理。此外,作为该程序的其它实施方式,也可以由计算机从可移动记录介质中直接读出程序,并执行按照该程序的处理,而且也可以在每次从服务器计算机对该计算机传送程序时,依次执行按照接收到的程序的处理。此外,也可以采用从服务器计算机不进行对该计算机的程序传送,仅通过该执行指示和结果取得实现处理功能的所谓ASP(Application Service Provider)型的服务执行上述处理的结构。另外,在本方式中的程序中,假设包含供电子计算机的处理使用的符合程序的信息(虽不是对于计算机的直接指令但具有规定计算机的处理的性质的数据等)。
此外,在该方式中,通过在计算机上执行规定的程序,从而构成本装置,但也可以将这些处理内容的至少一部分由硬件实现。
产业上的可利用性
通过将本发明用作各种声响信号处理系统的要素技术,从而能够提高该系统整体的性能。作为可应用本发明的声响信号处理系统,例如可举出以下的系统。由环境所收录的语音中始终含有混响(反射音),但以下所举出的系统是假定在这样的状况下使用的例子。
·混响环境中的语音识别系统
·将歌唱、乐器演奏、扬声器演奏的乐曲的混响除去后预先存储在存储器中,并对这些乐曲进行检索或记谱的音乐信息处理系统
·对人发出的声音进行反应而对机械传送命令的机械控制接口以及机械和人的对话装置
·通过在混响环境下除去混响从而提高收听容易度的助听器
·通过混响除去从而提高语音的明确度的电视会议系统等通信系统
Claims (24)
1.一种混响除去装置,从伴随后部混响的声响信号中除去后部混响,其具有:
存储器,存储离散声响信号值,所述离散声响信号值通过将由M(M≥1)个传感器分别观测的M个信道m(m=1,...,M)的上述声响信号分别在多个时刻进行采样而得到;
模型应用单元,使用多个上述离散声响信号值来计算信道w的多阶线性预测模型的各线性预测系数,所述信道w的多阶线性预测模型,是通过将长时间区间中的M个信道m的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和,表现在该长时间区间的规定时间后的离散时间n的信道w(w=1,...,M)的离散声响信号值的线性预测模型;以及
后部混响预测单元,将线性预测值作为在离散时间n的信道w的后部混响预测值而输出,所述线性预测值通过将上述信道w的多阶线性预测模型的各线性预测系数和多个上述离散声响信号值代入上述信道w的多阶线性预测模型的上述线性预测项而得到。
2.如权利要求1所述的混响除去装置,其中,
上述模型应用单元具有:
模拟白色化单元,从各离散时间的上述离散声响信号值中,抑制与紧接着该离散时间之前的短时间区间内的各离散声响信号值具有自相关性的自相关分量,并生成模拟白色化后的离散声响信号值;以及
第一线性预测系数计算单元,使用上述模拟白色化后的离散声响信号值,计算上述多阶线性预测模型的各线性预测系数,
上述短时间区间比上述长时间区间短。
3.如权利要求2所述的混响除去装置,其中,
上述模拟白色化单元具有:
第二线性预测系数计算单元,使用上述离散声响信号值来计算信道m的短时间线性预测模型的各线性预测系数,所述信道m的短时间线性预测模型,是通过将上述短时间区间中的信道m的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和,表现在紧接着上述短时间区间之后的离散时间n的该信道m的离散声响信号值的线性预测模型;以及
逆滤波处理单元,在通过将由上述第二线性预测系数计算单元计算出的上述各线性预测系数代入信道m的上述短时间线性预测模型而得到的逆滤波器中,代入该信道m的上述离散声响信号值,并将由此得到的该短时间线性预测模型的上述预测误差项的值作为该信道m的上述模拟白色化后的离散声响信号值输出。
4.如权利要求3所述的混响除去装置,其中,
M≥2,
上述第二线性预测系数计算单元具有:
自相关系数计算单元,对每个信道计算上述离散声响信号值的自相关系数;
自相关系数平均化单元,计算将对每个信道求出的上述自相关系数在信道之间平均化后的平均自相关系数;以及
方程式运算单元,使用上述平均自相关系数,计算上述短时间线性预测模型的各线性预测系数。
5.如权利要求3所述的混响除去装置,其中,
M≥2,
上述第二线性预测系数计算单元具有:
自相关系数计算单元,计算离散声响信号值的自相关系数,所述离散声响信号值通过将由上述M个传感器中最接近声响信号的声源的一个传感器所观测到的声响信号,在多个时刻进行采样而得到;以及
方程式运算单元,使用上述自相关系数,计算上述短时间线性预测模型的各线性预测系数。
6.如权利要求1所述的混响除去装置,具有:
频域变换单元,将各信道的上述离散声响信号值变换为频域的离散声响信号值,并将各信道的上述后部混响预测值变换为频域的后部混响预测值;以及
后部混响除去单元,对每个信道求上述频域的离散声响信号值的振幅谱和上述频域的后部混响预测值的振幅谱的相对值,并将该相对值作为各信道的后部混响除去信号值的振幅谱预测值而输出。
7.如权利要求6所述的混响除去装置,其中,
上述后部混响预测单元计算线性预测值作为在离散时间n的信道w的后部混响预测值,所述线性预测值通过将由上述模型应用单元计算出的上述各线性预测系数和多个模拟白色化后的上述离散声响信号值代入上述线性预测项而得到,
上述频域变换单元将模拟白色化后的各信道的上述离散声响信号值变换为频域的离散声响信号值。
8.如权利要求6所述的混响除去装置,还具有:
复谱生成单元,使用信道w的上述后部混响除去信号值的振幅谱预测值,和信道w的上述频域的离散声响信号值的相位信息,计算信道w的后部混响除去信号值的复谱预测值;以及
时域变换单元,计算将信道w的上述后部混响除去信号值的复谱预测值变换为时域后的信道w的后部混响除去信号估计值。
9.如权利要求8所述的混响除去装置,其中,
M≥2,
上述模型应用单元对多个信道分别计算上述各线性预测系数,
上述后部混响预测单元对多个信道分别计算上述后部混响预测值,
上述后部混响除去单元对多个信道分别计算上述后部混响除去信号值的振幅谱预测值,
上述复谱生成单元对多个信道分别计算上述后部混响除去信号值的复谱预测值,
上述时域变换单元对多个信道分别计算上述后部混响除去信号估计值,
该混响除去装置具有延迟量计算单元,决定在将各信道的上述后部混响除去信号估计值分别以某一延迟量延迟后的情况下,延迟后的各信道的上述后部混响除去信号估计值的信道间互相关为极大的各信道的该延迟量。
10.如权利要求9所述的混响除去装置,具有:
延迟单元,将各信道的上述后部混响除去信号估计值延迟对各个信道计算出的上述延迟量;以及
延迟校正单元,计算由上述延迟单元延迟后的上述后部混响除去信号估计值之和,作为校正混响除去信号值。
11.如权利要求1所述的混响除去装置,其中,
M≥2。
12.如权利要求1所述的混响除去装置,其中,
上述多阶线性预测模型是,
将xw(n)设为与信道w(w=1,...,M)对应的离散时间n的离散声响信号值,将xm(n)设为与信道m(m=1,...,M)对应的离散时间n的离散声响信号值,将ew(n)设为与信道w以及离散时间n对应的预测误差,将N设为正整数,将[·]设为高斯记号,将αw,m(p)设为与xw’(n)对应的线性预测项的信道m所对应的第p个线性预测系数,并且将D设为表示阶长的常数的情况下的
[算式24]
13.一种混响除去方法,从伴随后部混响的声响信号中除去后部混响,其具有:
离散声响信号存储步骤,在存储器中存储离散声响信号值,所述离散声响信号值通过将由M(M≥1)个传感器分别观测的M个信道m(m=1,...,M)的上述声响信号分别在多个时刻进行采样而得到;
模型应用步骤,使用多个上述离散声响信号值来计算信道w的多阶线性预测模型的各线性预测系数,所述信道w的多阶线性预测模型,是通过将长时间区间中的M个信道m的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和,表现在该长时间区间的规定时间后的离散时间n的信道w的离散声响信号值的线性预测模型;以及
后部混响预测步骤,将线性预测值作为在离散时间n的信道w的后部混响预测值而输出,所述线性预测值通过将上述信道w的多阶线性预测模型的各线性预测系数和多个上述离散声响信号值代入上述信道w的多阶线性预测模型的上述线性预测项而得到。
14.如权利要求13所述的混响除去方法,其中,
上述模型应用步骤具有:
模拟白色化步骤,从各离散时间的上述离散声响信号值中,抑制与紧接着该离散时间之前的短时间区间内的各离散声响信号值具有自相关性的自相关分量,并生成模拟白色化后的离散声响信号值;以及
第一线性预测系数计算步骤,使用上述模拟白色化后的离散声响信号值,计算上述多阶线性预测模型的各线性预测系数,
上述短时间区间比上述长时间区间短。
15.如权利要求14所述的混响除去方法,其中,
上述模拟白色化步骤具有:
第二线性预测系数计算步骤,使用上述离散声响信号值来计算信道m的短时间线性预测模型的各线性预测系数,所述信道m的短时间线性预测模型,是通过将上述短时间区间中的信道m的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和,表现在紧接着上述短时间区间之后的离散时间n的该信道m的离散声响信号值的线性预测模型;以及
逆滤波处理步骤,在通过将由上述第二线性预测系数计算步骤计算出的上述各线性预测系数代入信道m的上述短时间线性预测模型而得到的逆滤波器中,代入该信道m的上述离散声响信号值,并将由此得到的该短时间线性预测模型的上述预测误差项的值作为该信道m的上述模拟白色化后的离散声响信号值输出。
16.如权利要求15所述的混响除去方法,其中,
M≥2,
上述第二线性预测系数计算步骤具有:
自相关系数计算步骤,对每个信道计算上述离散声响信号值的自相关系数;
自相关系数平均化步骤,计算将对每个信道求出的上述自相关系数在信道之间平均化后的平均自相关系数;以及
方程式运算步骤,使用上述平均自相关系数,计算上述短时间线性预测模型的各线性预测系数。
17.如权利要求15所述的混响除去方法,其中,
M≥2,
上述第二线性预测系数计算步骤具有:
自相关系数计算步骤,计算离散声响信号值的自相关系数,所述离散声响信号值通过将由上述M个传感器中最接近声响信号的声源的一个传感器所观测到的声响信号,在多个时刻进行采样而得到;以及
方程式运算步骤,使用上述自相关系数,计算上述短时间线性预测模型的各线性预测系数。
18.如权利要求13所述的混响除去方法,具有:
频域变换步骤,将各信道的上述离散声响信号值变换为频域的离散声响信号值,并将各信道的上述后部混响预测值变换为频域的后部混响预测值;以及
后部混响除去步骤,对每个信道求上述频域的离散声响信号值的振幅谱和上述频域的后部混响预测值的振幅谱的相对值,并将该相对值作为各信道的后部混响除去信号值的振幅谱预测值而输出。
19.如权利要求18所述的混响除去方法,其中,
上述后部混响预测步骤是计算线性预测值作为在离散时间n的信道w的后部混响预测值的步骤,所述线性预测值通过将由上述模型应用步骤计算出的上述各线性预测系数和多个模拟白色化后的上述离散声响信号值代入上述线性预测项而得到,
上述频域变换步骤中,将模拟白色化后的各信道的上述离散声响信号值变换为频域的离散声响信号值。
20.如权利要求18所述的混响除去方法,还具有:
复谱生成步骤,使用信道w的上述后部混响除去信号值的振幅谱预测值,和信道w的上述频域的离散声响信号值的相位信息,计算信道w的后部混响除去信号值的复谱预测值;以及
时域变换步骤,计算将信道w的上述后部混响除去信号值的复谱预测值变换为时域后的信道w的后部混响除去信号估计值。
21.如权利要求20所述的混响除去方法,其中,
M≥2,
上述模型应用步骤是对多个信道分别计算上述各线性预测系数的步骤,
上述后部混响预测步骤是对多个信道分别计算上述后部混响预测值的步骤,
上述后部混响除去步骤是对多个信道分别计算上述后部混响除去信号值的振幅谱预测值的步骤,
上述复谱生成步骤是对多个信道分别计算上述后部混响除去信号值的复谱预测值的步骤,
上述时域变换步骤是对多个信道分别计算上述后部混响除去信号估计值的步骤,
该混响除去方法具有延迟量计算步骤,决定在将各信道的上述后部混响除去信号估计值分别以某一延迟量延迟后的情况下,延迟后的各信道的上述后部混响除去信号估计值的信道间互相关为极大的各信道的该延迟量。
22.如权利要求21所述的混响除去方法,具有:
延迟步骤,将各信道的上述后部混响除去信号估计值延迟对各个信道计算出的上述延迟量;以及
延迟校正步骤,计算由上述延迟步骤延迟后的上述后部混响除去信号估计值之和,作为校正混响除去信号值。
23.如权利要求13所述的混响除去方法,其中,
M≥2。
24.如权利要求13所述的混响除去方法,其中,
上述多阶线性预测模型是,
将xw(n)设为与信道w(w=1,...,M)对应的离散时间n的离散声响信号值,将xm(n)设为与信道m(m=1,...,M)对应的离散时间n的离散声响信号值,将ew(n)设为与信道w以及离散时间n对应的预测误差,将N设为正整数,将[·]设为高斯记号,将αw,m(p)设为与xw’(n)对应的线性预测项的信道m所对应的第p个线性预测系数,并且将D设为表示阶长的常数的情况下的
[算式25]
25.一种混响除去程序,使计算机执行权利要求13所述的混响除去方法的各步骤。
26.一种计算机可读取的记录介质,存储了权利要求25所述的混响除去程序。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006057235 | 2006-03-03 | ||
JP057235/2006 | 2006-03-03 | ||
JP240677/2006 | 2006-09-05 | ||
JP2006240677 | 2006-09-05 | ||
PCT/JP2007/054205 WO2007100137A1 (ja) | 2006-03-03 | 2007-03-05 | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101385386A true CN101385386A (zh) | 2009-03-11 |
CN101385386B CN101385386B (zh) | 2012-05-09 |
Family
ID=38459225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800060354A Active CN101385386B (zh) | 2006-03-03 | 2007-03-05 | 混响除去装置和混响除去方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8271277B2 (zh) |
EP (1) | EP1993320B1 (zh) |
JP (1) | JP4774100B2 (zh) |
CN (1) | CN101385386B (zh) |
WO (1) | WO2007100137A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013189199A1 (zh) * | 2012-06-18 | 2013-12-27 | 歌尔声学股份有限公司 | 一种单通道语音去混响的方法和装置 |
CN103487794A (zh) * | 2012-06-13 | 2014-01-01 | 中国科学院声学研究所 | 一种基于小波包变换的水底混响抑制方法 |
CN105448302A (zh) * | 2015-11-10 | 2016-03-30 | 厦门快商通信息技术有限公司 | 一种环境自适应的语音混响消除方法和系统 |
CN105529034A (zh) * | 2015-12-23 | 2016-04-27 | 北京奇虎科技有限公司 | 一种基于混响的语音识别方法和装置 |
CN106710602A (zh) * | 2016-12-29 | 2017-05-24 | 南方科技大学 | 一种声学混响时间估计方法和装置 |
CN107068158A (zh) * | 2011-11-03 | 2017-08-18 | 沃伊斯亚吉公司 | 改善低速率码激励线性预测解码器的非语音内容 |
CN111031448A (zh) * | 2019-11-12 | 2020-04-17 | 西安讯飞超脑信息科技有限公司 | 回声消除方法、装置、电子设备和存储介质 |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101416237B (zh) * | 2006-05-01 | 2012-05-30 | 日本电信电话株式会社 | 基于源和室内声学的概率模型的语音去混响方法和设备 |
EP2058804B1 (en) * | 2007-10-31 | 2016-12-14 | Nuance Communications, Inc. | Method for dereverberation of an acoustic signal and system thereof |
JP5124014B2 (ja) * | 2008-03-06 | 2013-01-23 | 日本電信電話株式会社 | 信号強調装置、その方法、プログラム及び記録媒体 |
JP4532576B2 (ja) * | 2008-05-08 | 2010-08-25 | トヨタ自動車株式会社 | 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム |
JP4950971B2 (ja) * | 2008-09-18 | 2012-06-13 | 日本電信電話株式会社 | 残響除去装置、残響除去方法、残響除去プログラム、記録媒体 |
US8867754B2 (en) * | 2009-02-13 | 2014-10-21 | Honda Motor Co., Ltd. | Dereverberation apparatus and dereverberation method |
EP2237271B1 (en) | 2009-03-31 | 2021-01-20 | Cerence Operating Company | Method for determining a signal component for reducing noise in an input signal |
KR101012709B1 (ko) | 2009-05-20 | 2011-02-09 | 국방과학연구소 | 위상비교 방향탐지기의 채널위상오차 제거 시스템 및 방법 |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
US8761410B1 (en) * | 2010-08-12 | 2014-06-24 | Audience, Inc. | Systems and methods for multi-channel dereverberation |
EP2444967A1 (en) * | 2010-10-25 | 2012-04-25 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Echo suppression comprising modeling of late reverberation components |
JP5654955B2 (ja) * | 2011-07-01 | 2015-01-14 | クラリオン株式会社 | 直接音抽出装置および残響音抽出装置 |
JP5699844B2 (ja) * | 2011-07-28 | 2015-04-15 | 富士通株式会社 | 残響抑制装置および残響抑制方法並びに残響抑制プログラム |
JP5634959B2 (ja) * | 2011-08-08 | 2014-12-03 | 日本電信電話株式会社 | 雑音/残響除去装置とその方法とプログラム |
WO2013132926A1 (ja) * | 2012-03-06 | 2013-09-12 | 日本電信電話株式会社 | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 |
JP6077957B2 (ja) * | 2013-07-08 | 2017-02-08 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
JP6261043B2 (ja) * | 2013-08-30 | 2018-01-17 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
US10373611B2 (en) | 2014-01-03 | 2019-08-06 | Gracenote, Inc. | Modification of electronic system operation based on acoustic ambience classification |
JP6106618B2 (ja) * | 2014-02-21 | 2017-04-05 | 日本電信電話株式会社 | 音声区間検出装置、音声認識装置、その方法、及びプログラム |
EP2916320A1 (en) | 2014-03-07 | 2015-09-09 | Oticon A/s | Multi-microphone method for estimation of target and noise spectral variances |
DK2916321T3 (en) | 2014-03-07 | 2018-01-15 | Oticon As | Processing a noisy audio signal to estimate target and noise spectral variations |
WO2016056683A1 (ko) | 2014-10-07 | 2016-04-14 | 삼성전자 주식회사 | 전자 장치 및 이의 잔향 제거 방법 |
US9390723B1 (en) * | 2014-12-11 | 2016-07-12 | Amazon Technologies, Inc. | Efficient dereverberation in networked audio systems |
US9558757B1 (en) * | 2015-02-20 | 2017-01-31 | Amazon Technologies, Inc. | Selective de-reverberation using blind estimation of reverberation level |
WO2017007848A1 (en) * | 2015-07-06 | 2017-01-12 | Dolby Laboratories Licensing Corporation | Estimation of reverberant energy component from active audio source |
EP3557576B1 (en) * | 2016-12-16 | 2022-12-07 | Nippon Telegraph and Telephone Corporation | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program |
US11373667B2 (en) * | 2017-04-19 | 2022-06-28 | Synaptics Incorporated | Real-time single-channel speech enhancement in noisy and time-varying environments |
US10013995B1 (en) * | 2017-05-10 | 2018-07-03 | Cirrus Logic, Inc. | Combined reference signal for acoustic echo cancellation |
JP6748304B2 (ja) * | 2017-08-04 | 2020-08-26 | 日本電信電話株式会社 | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム |
US9947338B1 (en) * | 2017-09-19 | 2018-04-17 | Amazon Technologies, Inc. | Echo latency estimation |
US11823083B2 (en) * | 2019-11-08 | 2023-11-21 | International Business Machines Corporation | N-steps-ahead prediction based on discounted sum of m-th order differences |
WO2023128036A1 (ko) * | 2022-01-03 | 2023-07-06 | 엘지전자 주식회사 | 오디오 장치 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3542954A (en) * | 1968-06-17 | 1970-11-24 | Bell Telephone Labor Inc | Dereverberation by spectral measurement |
US4087633A (en) * | 1977-07-18 | 1978-05-02 | Bell Telephone Laboratories, Incorporated | Dereverberation system |
US4131760A (en) * | 1977-12-07 | 1978-12-26 | Bell Telephone Laboratories, Incorporated | Multiple microphone dereverberation system |
US4683590A (en) * | 1985-03-18 | 1987-07-28 | Nippon Telegraph And Telphone Corporation | Inverse control system |
JPH0654883B2 (ja) | 1986-02-17 | 1994-07-20 | 日本電信電話株式会社 | 多入力形制御装置 |
US4658426A (en) * | 1985-10-10 | 1987-04-14 | Harold Antin | Adaptive noise suppressor |
JP3355585B2 (ja) | 1993-08-30 | 2002-12-09 | 日本電信電話株式会社 | エコーキャンセル方法 |
US5574824A (en) * | 1994-04-11 | 1996-11-12 | The United States Of America As Represented By The Secretary Of The Air Force | Analysis/synthesis-based microphone array speech enhancer with variable signal distortion |
JP3183104B2 (ja) | 1995-07-14 | 2001-07-03 | 松下電器産業株式会社 | ノイズ削減装置 |
US5774846A (en) * | 1994-12-19 | 1998-06-30 | Matsushita Electric Industrial Co., Ltd. | Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus |
CA2186416C (en) * | 1995-09-26 | 2000-04-18 | Suehiro Shimauchi | Method and apparatus for multi-channel acoustic echo cancellation |
JP3649847B2 (ja) * | 1996-03-25 | 2005-05-18 | 日本電信電話株式会社 | 残響除去方法及び装置 |
US5774562A (en) * | 1996-03-25 | 1998-06-30 | Nippon Telegraph And Telephone Corp. | Method and apparatus for dereverberation |
JPH09261133A (ja) | 1996-03-25 | 1997-10-03 | Nippon Telegr & Teleph Corp <Ntt> | 残響抑圧方法および装置 |
JP3384523B2 (ja) | 1996-09-04 | 2003-03-10 | 日本電信電話株式会社 | 音響信号処理方法 |
US6363345B1 (en) * | 1999-02-18 | 2002-03-26 | Andrea Electronics Corporation | System, method and apparatus for cancelling noise |
GB9922654D0 (en) * | 1999-09-27 | 1999-11-24 | Jaber Marwan | Noise suppression system |
US6718036B1 (en) | 1999-12-15 | 2004-04-06 | Nortel Networks Limited | Linear predictive coding based acoustic echo cancellation |
US6377637B1 (en) * | 2000-07-12 | 2002-04-23 | Andrea Electronics Corporation | Sub-band exponential smoothing noise canceling system |
EP1413168A2 (en) | 2001-07-20 | 2004-04-28 | Koninklijke Philips Electronics N.V. | Sound reinforcement system having an echo suppressor and loudspeaker beamformer |
JP3787088B2 (ja) * | 2001-12-21 | 2006-06-21 | 日本電信電話株式会社 | 音響エコー消去方法、装置及び音響エコー消去プログラム |
JP3986457B2 (ja) | 2003-03-28 | 2007-10-03 | 日本電信電話株式会社 | 入力信号推定方法、及び装置、入力信号推定プログラムならびにその記録媒体 |
JP2004325127A (ja) | 2003-04-22 | 2004-11-18 | Nippon Telegr & Teleph Corp <Ntt> | 音源検出方法、音源分離方法、およびこれらを実施する装置 |
JP3836815B2 (ja) | 2003-05-21 | 2006-10-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 |
US8116471B2 (en) * | 2004-07-22 | 2012-02-14 | Koninklijke Philips Electronics, N.V. | Audio signal dereverberation |
US8284947B2 (en) * | 2004-12-01 | 2012-10-09 | Qnx Software Systems Limited | Reverberation estimation and suppression system |
US7844059B2 (en) * | 2005-03-16 | 2010-11-30 | Microsoft Corporation | Dereverberation of multi-channel audio streams |
EP1718103B1 (en) * | 2005-04-29 | 2009-12-02 | Harman Becker Automotive Systems GmbH | Compensation of reverberation and feedback |
CN101416237B (zh) * | 2006-05-01 | 2012-05-30 | 日本电信电话株式会社 | 基于源和室内声学的概率模型的语音去混响方法和设备 |
-
2007
- 2007-03-05 EP EP07737780.2A patent/EP1993320B1/en active Active
- 2007-03-05 JP JP2008502883A patent/JP4774100B2/ja active Active
- 2007-03-05 WO PCT/JP2007/054205 patent/WO2007100137A1/ja active Application Filing
- 2007-03-05 CN CN2007800060354A patent/CN101385386B/zh active Active
- 2007-03-05 US US12/280,101 patent/US8271277B2/en active Active
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107068158B (zh) * | 2011-11-03 | 2020-08-21 | 沃伊斯亚吉公司 | 用于改善低速率码激励线性预测解码器的非语音内容的方法及其设备 |
CN107068158A (zh) * | 2011-11-03 | 2017-08-18 | 沃伊斯亚吉公司 | 改善低速率码激励线性预测解码器的非语音内容 |
CN103487794A (zh) * | 2012-06-13 | 2014-01-01 | 中国科学院声学研究所 | 一种基于小波包变换的水底混响抑制方法 |
CN103487794B (zh) * | 2012-06-13 | 2016-01-06 | 中国科学院声学研究所 | 一种基于小波包变换的水底混响抑制方法 |
US9269369B2 (en) | 2012-06-18 | 2016-02-23 | Goertek, Inc. | Method and device for dereverberation of single-channel speech |
WO2013189199A1 (zh) * | 2012-06-18 | 2013-12-27 | 歌尔声学股份有限公司 | 一种单通道语音去混响的方法和装置 |
CN105448302A (zh) * | 2015-11-10 | 2016-03-30 | 厦门快商通信息技术有限公司 | 一种环境自适应的语音混响消除方法和系统 |
CN105448302B (zh) * | 2015-11-10 | 2019-06-25 | 厦门快商通科技股份有限公司 | 一种环境自适应的语音混响消除方法和系统 |
CN105529034A (zh) * | 2015-12-23 | 2016-04-27 | 北京奇虎科技有限公司 | 一种基于混响的语音识别方法和装置 |
CN106710602A (zh) * | 2016-12-29 | 2017-05-24 | 南方科技大学 | 一种声学混响时间估计方法和装置 |
CN106710602B (zh) * | 2016-12-29 | 2020-03-17 | 南方科技大学 | 一种声学混响时间估计方法和装置 |
CN111031448A (zh) * | 2019-11-12 | 2020-04-17 | 西安讯飞超脑信息科技有限公司 | 回声消除方法、装置、电子设备和存储介质 |
CN111031448B (zh) * | 2019-11-12 | 2021-09-17 | 西安讯飞超脑信息科技有限公司 | 回声消除方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP1993320A4 (en) | 2010-03-10 |
US20090248403A1 (en) | 2009-10-01 |
EP1993320B1 (en) | 2015-01-07 |
JP4774100B2 (ja) | 2011-09-14 |
JPWO2007100137A1 (ja) | 2009-07-23 |
US8271277B2 (en) | 2012-09-18 |
CN101385386B (zh) | 2012-05-09 |
WO2007100137A1 (ja) | 2007-09-07 |
EP1993320A1 (en) | 2008-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101385386B (zh) | 混响除去装置和混响除去方法 | |
Barker et al. | The third ‘CHiME’speech separation and recognition challenge: Analysis and outcomes | |
CN101965613B (zh) | 信号增强装置及方法 | |
Bryan | Impulse response data augmentation and deep neural networks for blind room acoustic parameter estimation | |
CN107452389A (zh) | 一种通用的单声道实时降噪方法 | |
WO2021229197A1 (en) | Time-varying and nonlinear audio processing using deep neural networks | |
JP5634959B2 (ja) | 雑音/残響除去装置とその方法とプログラム | |
WO2015159731A1 (ja) | 音場再現装置および方法、並びにプログラム | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
Deng et al. | Online Blind Reverberation Time Estimation Using CRNNs. | |
CN100354931C (zh) | 补偿在所接收信号中的线性时间尺度改变的方法和设备 | |
JP2006154314A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
KR101043114B1 (ko) | 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 | |
Schuller | Affective speaker state analysis in the presence of reverberation | |
Diment et al. | Automatic recognition of environmental sound events using all-pole group delay features | |
Zheng et al. | Noise-robust blind reverberation time estimation using noise-aware time–frequency masking | |
CN106531156A (zh) | 一种基于室内多移动源实时处理的语音信号增强技术方法 | |
CN110544485A (zh) | 一种利用cnn的se-ed网络进行远场语音去混响的方法 | |
JP4653674B2 (ja) | 信号分離装置、信号分離方法、そのプログラムおよび記録媒体 | |
Peters et al. | Matching artificial reverb settings to unknown room recordings: A recommendation system for reverb plugins | |
JP5731929B2 (ja) | 音声強調装置とその方法とプログラム | |
Guzewich et al. | Cross-Corpora Convolutional Deep Neural Network Dereverberation Preprocessing for Speaker Verification and Speech Enhancement. | |
Chai et al. | Blind estimation of reverberation time using binaural complex ideal ratio mask | |
Reyes-Gomez et al. | Multi-channel source separation by beamforming trained with factorial hmms | |
Xuan et al. | Research on front-end of ASV system based on mel spectrum in noise scenario |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |