CN103503066B - 直达声提取装置和混响声提取装置 - Google Patents
直达声提取装置和混响声提取装置 Download PDFInfo
- Publication number
- CN103503066B CN103503066B CN201280015523.2A CN201280015523A CN103503066B CN 103503066 B CN103503066 B CN 103503066B CN 201280015523 A CN201280015523 A CN 201280015523A CN 103503066 B CN103503066 B CN 103503066B
- Authority
- CN
- China
- Prior art keywords
- signal
- amplitude
- unit
- spectral
- spectral amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/007—Electronic adaptation of audio signals to reverberation of the listening space for PA
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
Abstract
一种直达声提取装置,其配置有:谱转换单元,用于将傅立叶变换后的直达声中包含混响声的输入信号转换成第一振幅谱信号(Lfa);低通滤波器单元(10),用于通过针对各频率对所述第一振幅谱信号(Lfa)进行低通滤波处理来生成第二振幅谱信号(Lfa1);第一减法单元(18),用于通过从所述第一振幅谱信号(Lfa)中减去所述第二振幅谱信号(Lfa1)来计算第三振幅谱信号;以及逆傅立叶变换单元,用于根据基于相位谱信号和所述第三振幅谱信号所计算出的频率谱信号来生成直达声信号(Lfd)。
Description
技术领域
本发明涉及一种直达声提取装置和混响声提取装置,尤其涉及可以从包含混响声的输入信号提取直达声的直达声提取装置、以及可以从该输入信号提取混响声的混响声提取装置。
背景技术
在诸如礼堂等的容易出现混响声的环境内播放音乐和进行演讲等并且进行记录的情况下,所记录的声学信号通常不仅包含直达声而且还包含在该记录期间卷积得到的混响声。因此,在其它声学环境下播放卷积有混响声的声学信号的情况下,直达声的清晰度下降,这有可能造成在播放声学信号时很难收听。
在使用卷积有混响声的演讲声音来进行语音识别等的情况下,问题在于演讲声音(内容)的识别率将由于因混响声所引起的清晰度的下降而下降。
关于如上所述的卷积有混响声的声学信号,已知有用于降低混响声的传统技术(例如,参见专利文献1)。使用该技术使得能够通过降低混响声来使直达声清晰。
现有技术文献
专利文献
专利文献1:日本特开2010-74531
发明内容
发明要解决的问题
然而,根据专利文献1所述的方法,为了降低输入信号中所包含的混响声,需要执行诸如伪白化处理、多步骤线性预测处理和后端混响预测处理等的各种信号处理。因此,需要大量处理负荷。因而,为了实际降低混响声,需要诸如微处理器或数字信号处理器等的高性能装置。就成本和其它因素而言,问题在于无法毫不改变地容易地使用专利文献1的方法。
本发明是考虑到上述问题而作出的。本发明的目的是提供一种可以从包含混响声的声学信号中容易地提取直达声或混响声的直达声提取装置和混响声提取装置。
用于解决问题的方案
根据本发明,一种直达声提取装置,包括:傅立叶变换单元,用于对直达声中包含混响声的输入信号进行傅立叶变换处理;谱变换单元,用于基于由所述傅立叶变换单元进行了傅立叶变换处理的所述输入信号的具有实数和虚数的频率谱,将所述输入信号变换成第一振幅谱信号和相位谱信号;低通滤波器单元,用于通过使用预设的标准化截止频率来针对各频率对所述第一振幅谱信号进行低通滤波处理;第一限幅器单元,用于对由所述低通滤波器单元进行了低通滤波处理的第二振幅谱信号的负侧振幅进行限制,从而使该负侧振幅为零;第一减法单元,用于通过从所述第一振幅谱信号中减去由所述第一限幅器单元对负侧振幅进行了限制的所述第二振幅谱信号来计算第三振幅谱信号;第二限幅器单元,用于对由所述第一减法单元计算出的所述第三振幅谱信号的负侧振幅进行限制,从而使该负侧振幅为零;逆谱变换单元,用于基于所述相位谱信号和由所述第二限幅器单元对负侧振幅进行了限制的所述第三振幅谱信号,计算由具有实数和虚数的频率谱构成的信号;以及逆傅立叶变换单元,用于对由所述逆谱变换单元计算出的信号进行逆傅立叶变换处理,以生成通过从所述输入信号提取所述直达声所获得的直达声信号。
本发明的直达声提取装置对直达声中包含混响声的输入信号进行傅立叶变换,并且使用预设的标准化截止频率对谱变换单元所计算出的第一振幅谱信号进行低通滤波处理。这样,该直达声提取装置计算出针对各谱积分得到的信号(积分信号:第二振幅谱信号)。如此积分得到的信号等同于构成输入信号的时间变化中的稳态成分的谱信号、即混响声信号。
因此,第一减法单元通过从第一振幅谱信号中减去第二振幅谱信号所计算出的第三振幅谱信号是通过从输入信号中减去混响声所获得的信号。该处理使得可以计算出等同于直达声信号的信号。
因此,逆谱变换单元和逆傅立叶变换单元所生成的信号是通过从输入信号提取直达声所获得的信号。结果,从直达声中包含混响声的输入信号可以容易地提取出直达声。
此外,通过调节标准化截止频率,可以调节输入信号中所包含的直达声的提取时间。随着标准化截止频率的值变得越小,输入信号中所包含的直达声的提取时间变得越长,这使得能够以不仅包含非稳态声而且还包含稳态声的方式进行直达声的提取。由于以包含稳态声的方式提取直达声,因此与完全不包含稳态声的直达声相比,可以向该直达声添加诸如音色和易听性等的性质。在收听者收听该直达声的情况下,该收听者可以将该直达声识别为无不适感的声音。
发明的效果
本发明的直达声提取装置可以从直达声中包含混响声的输入信号容易地提取直达声。本发明的混响声提取装置可以从直达声中包含混响声的输入信号容易地提取混响声。
附图说明
图1是示出根据本发明实施例的声学处理装置的示意结构作为一个示例的框图。
图2是示意性示出在根据本发明实施例的FFT单元中对输入信号进行短时间傅立叶变换处理的情况下的傅立叶变换长度和重叠长度的图。
图3是示出根据本发明实施例的频谱域滤波单元的示意结构作为一个示例的框图。
图4(a)示出根据本发明实施的LPF单元中的针对各振幅谱的滤波器系数的一个示例;并且(b)示出HPF单元中的针对各振幅谱的滤波器系数的一个示例。
图5(a)是示出根据本发明实施例的第一增益单元的放大和衰减的加权量的频率变化的一个示例的图;并且(b)是示出根据本发明实施例的第二增益单元的放大和衰减的加权量的频率变化的一个示例的图。
图6是示出根据本发明实施例的输入至频谱域滤波单元的输入信号的振幅、积分信号Lfa1的振幅、微分信号Lfa2的振幅、直达声信号Lfd的振幅和混响声信号Lfr的振幅的时间变化作为示例的第一图。
图7是示出根据本发明实施例的输入至频谱域滤波单元的输入信号的振幅、积分信号Lfa1的振幅、微分信号Lfa2的振幅、直达声信号Lfd的振幅和混响声信号Lfr的振幅的时间变化作为示例的第二图。
图8是示出根据本发明实施例的输入至频谱域滤波单元的输入信号的振幅、积分信号Lfa1的振幅、微分信号Lfa2的振幅、直达声信号Lfd的振幅和混响声信号Lfr的振幅的时间变化作为示例的第三图。
图9是示出根据本发明实施例的输入至频谱域滤波单元的输入信号的振幅、积分信号Lfa1的振幅、微分信号Lfa2的振幅、直达声信号Lfd的振幅和混响声信号Lfr的振幅的时间变化作为示例的第四图。
图10是示出根据本发明实施例的声学处理装置中的输入信号的振幅以及在该声学处理装置中提取出的直达声信号的振幅和混响声信号的振幅的时间变化作为示例的第一图。
图11是示出根据本发明实施例的声学处理装置中的输入信号的振幅以及在该声学处理装置中提取出的直达声信号的振幅和混响声信号的振幅的时间变化作为示例的第二图。
图12是示出根据本发明实施例的声学处理装置中的输入信号的振幅以及在该声学处理装置中提取出的直达声信号的振幅和混响声信号的振幅的时间变化作为示例的第三图。
图13是示出根据本发明实施例的声学处理装置中的输入信号的振幅以及在该声学处理装置中提取出的直达声信号的振幅和混响声信号的振幅的时间变化作为示例的第四图。
图14是示出根据本发明实施例的声学处理装置中的输入信号的振幅以及在该声学处理装置中提取出的直达声信号的振幅和混响声信号的振幅的时间变化作为示例的第五图。
图15(a)是示意性示出图14所示的直达声信号的波形根据标准化截止频率的值的调节状态而改变的情形以及输入信号的图;并且(b)是示意性示出图14所示的混响声信号的波形根据标准化截止频率的值的调节状态而改变的情形以及输入信号的图。
具体实施方式
以下示出作为根据本发明的直达声提取装置和混响声提取装置的示例的声学处理装置。将参考附图来详细说明该声学处理装置。
顺便提及,在诸如语音或乐器声等的直达声中卷积有混响声的情况下,在频率谱内向诸如语音和乐器声等的非稳态信号添加与混响时间相对应的稳态信号。本实施例的声学处理装置从输入信号提取或分离非稳态信号以提取直达声;并且从输入信号提取或分离稳态信号以提取混响声。
图1是示出声学处理装置的示意结构的框图。如图1所示,声学处理装置1包括FFT单元(傅立叶变换单元和频谱变换单元)3、频谱域滤波单元4和IFFT单元(逆傅立叶变换单元和逆谱变换单元)5a和5b。
从图中未示出的声源单元将两通道(L通道和R通道)的输入信号L和R输入至FFT单元3;在两通道的输入信号L和R中,在直达声(例如,诸如演讲等的语音)中卷积有(或包含有)混响声(例如,演讲中的反射声)。FFT单元3被设计成使用窗函数对卷积有混响声的两通道的输入信号L和R各自进行加权。
在使用了窗函数进行加权之后,FFT单元3对输入信号L和R各自进行短时间傅立叶变换处理,由此将输入信号L和R从时域变换成频域并且计算具有实数和虚数的频率谱。图2是示意性示出在FFT单元3中对输入信号L(或输入信号R)进行短时间傅立叶变换处理的情况下的傅立叶变换长度和重叠长度的图。在这种情况下,由于FFT单元3对输入信号进行傅立叶变换处理,因此FFT单元3用作本发明的傅立叶变换单元。
此外,FFT单元3将通过频域转换所计算出的两通道的频率谱变换成振幅谱信号Lfa和Rfa(第一振幅谱信号)和相位谱信号Lfp和Rfp。然后,FFT单元3将变换后的两通道的振幅谱信号Lfa和Rfa输出至频谱域滤波单元4。此外,FFT单元3将两通道的相位谱信号Lfp和Rfp输出至IFFT单元5a和IFFT单元5b。在这种情况下,FFT单元3将输入信号变换成振幅谱信号Lfa和Rfa和相位谱信号Lfp和Rfp。因此,FFT单元3用作本发明的谱变换单元。
图3是示出频谱域滤波单元4的示意结构的框图。频谱域滤波单元4被设计成通过针对各谱执行简单滤波处理来提取非稳态信号和稳态信号。顺便提及,在频谱域滤波单元4所进行的处理中,仅对振幅谱信号Lfa和Rfa进行滤波处理,并且不对相位谱信号Lfp和Rfp进行滤波处理。
如图3所示,频谱域滤波单元4包括LPF单元(低通滤波器单元)10、HPF单元(高通滤波器单元)11、第一限幅器单元12、第二限幅器单元13、第三限幅器单元14、第四限幅器单元15、第一增益单元16、第二增益单元17、第一减法单元18和第二减法单元19。图3仅示出被设计成对振幅谱信号Lfa进行处理的功能单元(LPF单元10、HPF单元11、限幅器单元12~15、增益单元16和17、以及减法单元18和19)。图3没有示出被设计成对振幅谱信号Rfa进行处理的功能单元。然而,设置有相同的功能单元以对振幅谱信号Rfa进行处理,并且执行相同的滤波处理。
LPF单元10被设计成基于预定的标准化截止频率来对从FFT单元3输入的振幅谱信号Lfa进行针对各谱(各频率)的低通滤波处理。第一限幅器单元12被设计成对由LPF单元10进行了低通滤波处理的振幅谱信号(第二振幅谱信号)的负侧振幅进行限制,由此使该振幅为零。第一增益单元16被设计成使负侧振幅受到限制的振幅谱信号的振幅放大或衰减。这样,在LPF单元10中,对振幅谱信号Lfa执行了低通滤波处理。结果,生成了针对各谱进行了积分的信号(积分信号:第二振幅谱信号)Lfa1。
第一减法单元18在从FFT单元3输入的振幅谱信号Lfa中减去从第一增益单元16输入的积分信号Lfa1,由此计算随着时间而改变的非稳态谱信号(第三振幅谱信号)。然后,第二限幅器单元13对第一减法单元18所计算出的谱信号(第三振幅谱信号)的负侧振幅进行限制,由此使该振幅为零。将由第二限幅器单元13对振幅进行了限制的信号作为直达声信号Lfd输出至IFFT单元5a。
HPF单元11被设计成基于预定的标准化截止频率来对从FFT单元3输入的振幅谱信号Lfa进行针对各谱(各频率)的高通滤波处理。第三限幅器单元14被设计成对由HPF单元11进行了高通滤波处理的振幅谱信号(第四振幅谱信号)的负侧振幅进行限制,由此使该振幅为零。第二增益单元17被设计成使负侧振幅受到限制的振幅谱信号的振幅放大或衰减。这样,在HPF单元11中,对振幅谱信号Lfa执行了高通滤波处理。结果,生成了针对各谱进行了微分的信号(微分信号:第四振幅谱信号)Lfa2。
第二减法单元19在从FFT单元3输入的振幅谱信号Lfa中减去从第二增益单元17输入的微分信号Lfa2,由此计算随着时间而略微改变的稳态谱信号(第五振幅谱信号)。然后,第四限幅器单元15对第二减法单元19所计算出的谱信号(第五振幅谱信号)的负侧振幅进行限制,由此使该振幅为零。将由第四限幅器单元15对振幅进行了限制的信号作为混响声信号Lfr输出至IFFT单元5b。
顺便提及,LPF单元10中的各振幅谱的低通滤波器的标准化截止频率和HPF单元11中的各振幅谱的高通滤波器的标准化截止频率是用于调节直达声和混响声的分割时间的标准化截止频率(或者用于调节直达声的提取时间并且调节混响声的提取时间的标准化截止频率)。此外,在第一增益单元16和第二增益单元17中,通过改变放大和衰减的加权量,调节直达声和混响声的混合比率(或者调节直达声中所包含的混响声的百分比、以及调节混响声中所包含的直达声的百分比)成为可能。
图4(a)示出根据本实施例的LPF单元10中的针对各振幅谱的滤波器系数的一个示例。图4(b)示出根据本实施例的HPF单元11中的针对各振幅谱的滤波器系数的一个示例。图4(a)和4(b)所示的LPF单元10和HPF单元11是一阶Butterworth(巴特沃兹)滤波器。如图4所示,LPF单元10和HPF单元11的标准化截止频率改变为0.000001、0.000002、0.000004……和0.0655。随着截止频率的值变得越小,直达声的提取时间和混响声的提取时间变得越长。顺便提及,在本实施例的频谱域滤波单元4中,LPF单元10和HPF单元11的截止频率被设置成在振幅谱内相同。然而,LPF单元10和HPF单元11的截止频率可以针对各振幅谱独立地设置。
图5(a)是示出根据本实施例的第一增益单元16的放大和衰减的加权量的频率变化的一个示例的图。图5(b)是示出第二增益单元17的放大和衰减的加权量的频率变化的一个示例的图。如图5(a)和5(b)所示,在本实施例的第一增益单元16和第二增益单元17中,随着增益(信号电平)变得越小,混合量变得越大。此外,如图5(a)和5(b)所示,在直达声侧的第一增益单元16中,在500Hz以下的振幅谱处,很难执行直达声和混响声的分离。
图6~9示出频谱域滤波单元4的各部件的操作的示例,并且是示出作为示例的输入至频谱域滤波单元4的输入信号(振幅谱信号Lfa)的振幅、积分信号Lfa1的振幅、微分信号Lfa2的振幅、直达声信号Lfd的振幅和混响声信号Lfr的振幅的时间变化的图。图6~9所示的波形全部是观察1kHz附近的振幅谱的时间变化的结果。
顺便提及,在图6~9所示的操作的示例中,输入信号的采样率为44.1kHz,FFT单元3的傅立叶变换长度为4096个采样,重叠长度为作为傅立叶变换长度的15/16的3840个采样,并且傅立叶变换的窗函数是Blackman(布莱克曼)。图6~8所示的输入信号是再现时间为1秒的1kHz的正弦波。图9所示的输入信号为音乐。
图8和9所示的是在第一增益单元16和第二增益单元17中针对图5(a)和5(b)所示的各谱(各频率)执行加权的情况。图6和7所示的是在第一增益单元16和第二增益单元17中不执行加权的情况,其中针对所有振幅谱的增益(信号电平)均被设置为0dB。
首先,对于图6(a)所示的直达声侧的信号,LPF单元10进行低通滤波处理以对呈矩形的输入信号Lfa执行积分处理。因此,提取矩形的输入信号Lfa的上升部分,并且生成振幅逐渐上升的积分信号Lfa1。之后,在第一减法单元18中,从输入信号Lfa中减去积分信号Lfa1。因此,从输入信号Lfa的矩形中减去了积分信号Lfa1的逐渐上升部分的振幅。结果,提取出矩形的信号的上升部分即非稳态成分作为直达声信号Lfd。
顺便提及,第一减法单元18所进行的减法处理使直达声信号Lfd的振幅为负。然而,由于第二限幅器单元13对该振幅进行了限制并且使其为零,因此如图6(a)所示,直达声信号Lfd的值不为负。
然后,对于图6(b)所示的混响声侧的信号,HPF单元11进行高通滤波处理以对呈矩形的输入信号Lfa执行微分处理。因此,生成具有矩形的输入信号Lfa的急剧上升部分以及随后逐渐衰减部分的微分信号Lfa2。之后,在第二减法单元19中,从输入信号Lfa中减去微分信号Lfa2。因此,从输入信号Lfa的矩形中减去了微分信号Lfa2的急剧上升部分等的振幅。结果,提取出除矩形的信号的上升部分以外的部分即稳态成分作为混响声信号Lfr。
顺便提及,第二减法单元19所进行的减法处理也使混响声信号Lfr的振幅为负。然而,由于第四限幅器单元15对该振幅进行了限制并且使其为零,因此如图6(b)所示,混响声信号Lfr的值不为负。
图7是示出在图6所示的状态下改变HPF单元11和LPF单元10的标准化截止频率的情况的图。更具体地,将图7(b)所示的HPF单元11的标准化截止频率设置为0.0041,这是比图6(b)所示的HPF单元11的标准化截止频率0.0082低的值。将图7(a)所示的LPF单元10的标准化截止频率设置为0.0164,这是比图6(a)所示的LPF单元10的标准化截止频率0.0082高的值。
如图6和7所示,随着标准化截止频率变得越低,滤波器的响应变得越慢,并且对信号的上升的响应变得越长。随着标准化截止频率变得越高,滤波器的响应变得越快,并且对信号的上升的响应变得越短。这样,调节了截止频率,因而可以调节直达声和混响声的分割时间(或者调节直达声的提取时间并且调节混响声的提取时间)。
图8是示出在图6所示的状态下设置第一增益单元16和第二增益单元17中的针对各谱的加权量的情况的图。随着加权量的设置,在直达声和混响声中产生与该加权量相对应的偏移(或振幅的上升)。因此,向图8(a)所示的直达声信号Lfd添加了伴随有该偏移的混响声(如图8(a)所示的高度为L1的振幅的上升)。向图8(b)所示的混响声信号Lfr添加了伴随有该偏移的直达声(如图8(b)所示的高度为L1的振幅的上升)。这样,借助于随着加权量的设置所产生的偏移,可以调节直达声和混响声的混合比率(或者调节直达声中所包含的混响声的百分比、以及调节混响声中所包含的直达声的百分比)。
图9是示出在图8所示的状态下、输入信号为音乐信号并且提取随着时间而衰减的1kHz附近的成分的情况的图。如图9(a)所示,关于直达声侧的信号,在振幅大的前半部分中提取直达声的信号。如图9(b)所示,关于混响声侧的信号,在输入信号的振幅衰减的后半部分中提取混响声的信号。
IFFT单元5a基于由频谱域滤波单元4进行滤波后的直达声构成的振幅谱信号(直达声信号Lfd和Rfd)以及从FFT单元3获取到的相位谱信号Lfp和Rfp来转换成具有实数和虚数的频率谱;并且通过使用窗函数来执行加权处理。然后,IFFT单元5a对进行了加权处理的信号进行短时间逆傅立叶变换处理和重叠相加处理,由此将该信号从频域转换成时域并且生成由直达声构成的直达声信号Ld和Rd。
同样,IFFT单元5b基于由频谱域滤波单元4进行滤波后的混响声构成的振幅谱信号(混响声信号Lfr和Rfr)以及从FFT单元3获取到的相位谱信号Lfp和Rfp来转换成具有实数和虚数的频率谱;并且通过使用窗函数来执行加权处理。然后,IFFT单元5b对进行了加权处理的信号进行短时间逆傅立叶变换处理和重叠相加处理,由此将该信号从频域转换成时域并且生成由混响声构成的混响声信号Lr和Rr。
顺便提及,IFFT单元5a和5b基于振幅谱信号和相位谱信号来执行转换成具有实数和虚数的频率谱的处理。因此,IFFT单元5a和5b与本发明的逆谱变换单元相对应。此外,IFFT单元5a和5b对进行了加权处理的信号执行短时间逆傅立叶变换处理。因此,IFFT单元5a和5b与本发明的逆傅立叶变换单元相对应。
图10~14是示出针对声学处理装置1的输入信号的振幅以及在声学处理装置1中提取出(生成)的直达声信号和混响声信号的振幅的时间变化的图。图10和11示出输入再现时间为1秒的1kHz的正弦波作为输入信号的情况。图12和13示出输入音乐作为输入信号的情况。图14示出输入礼堂(或容易出现混响声的环境)内的脉冲响应作为输入信号的情况。
在图10~14的情况中,HPF单元11和LPF单元10的标准化截止频率全部为0.0082。图10、12和14示出不执行针对各谱的加权处理的情况。图11和13示出执行针对各谱(针对各频率)的加权处理的情况。
在图10~14的情况中,IFFT单元5a和5b的逆傅立叶变换长度是4096个采样,重叠长度是作为逆傅立叶变换长度的15/16的3840个采样,并且逆傅立叶变换的窗函数是Blackman。这些设置同样适用于FFT单元3。
图10和11示出针对矩形的输入信号的振幅的时间变化来提取作为非稳态成分的直达声信号和作为稳态成分的混响声信号的情形。与图10所示的直达声信号和混响声信号相对比,图11所示的直达声信号和混响声信号的振幅的值因针对各谱的加权处理而发生偏移。因此,在偏移部分(或者在图11的情况中为直达声信号的振幅和混响声信号的振幅上升了L2的高度的部分)中,包含了具有直达声和混响声的混合的部分。根据第一增益单元16和第二增益单元17所进行的加权处理,可以调节直达声和混响声的混合比率。
在图12和13中,针对音乐(输入信号)的波形,可以确认通过提取直达声和混响声所获得的波形。在分别收听分离的直达声和混响声的情况下,可以确认音乐的直达声和混响声这两者。可以通过听觉来识别直达声和混响声的提取(或分离)。
在图13的情况下,可以执行针对各谱的加权的设置。因此,可以确认在直达声中部分添加了混响声并且在混响声中部分添加了直达声的情况下所获得的波形(与图12相比,图13中的直达声信号和混响声信号的振幅的高度变高)。因此,确认为可以通过设置针对各谱的加权来调节直达声和混响声的混合比率。即使收听图13所示的直达声和混响声,也可以确认根据混合比率混合了直达声和混响声的输出声音。
在图14的情况下,输入礼堂内的脉冲响应作为输入信号。由于该脉冲响应,因此存在输入非常短的信号时的输出,并且该输出具有使振幅在短时间段内收敛的性质。然而,由于在作为容易出现混响声的环境的礼堂内的脉冲响应,因此除了直达声以外,还将包含大量混响声。
在图14中,可以确认以下的直达声和混响声,其中该直达声为与输入信号的振幅的收敛相比、振幅在更短时间段内收敛的直达声,以及该混响声为与直达声的振幅的收敛相比、振幅维持了更长时间段的混响声。在图14的情况下,将HPF单元11和LPF单元10的标准化截止频率设置为0.0082。然而,通过调节标准化截止频率的值,可以调节直达声的提取时间和混响声的提取时间。
图15(a)是示意性示出图14所示的直达声的波形根据标准化截止频率的值的调节状态而改变的情形以及输入信号的图。如图15(a)所示,随着标准化截止频率的值变得越大,脉冲响应的振幅收敛所需的时间变得越短。随着标准化截止频率的值变得越小,脉冲响应的振幅收敛所需的时间变得越长,表现出接近输入信号的振幅的收敛状态的波形形状。
这样,通过调节标准化截止频率的值,可以改变输入信号中的直达声的提取时间。因此,随着标准化截止频率的值减小,输入信号中的直达声的提取时间变得越长,从而使得能够以不仅包含非稳态声还包含稳态声的方式提取直达声。例如,在图14所示的程度上,执行包含稳态声的直达声的提取。因此,与完全不包含稳态声的直达声相比,可以向直达声添加诸如音色和易听性等的这些性质。在收听者收听该直达声的情况下,该收听者可以将该直达声识别为无不适感的声音。
图15(b)是示意性示出图14所示的混响声的波形根据标准化截止频率的值的调节状态而改变的情形以及输入信号的图。如图15(b)所示,随着标准化截止频率的值变得越大,混响声的振幅越早开始增大,并且混响声的振幅的增大趋于越早急剧上升。随着标准化截止频率的值变得越小,混响声的振幅的增大(或上升部分)变得越缓和。
因此,通过调节标准化截止频率的值,可以改变输入信号中的直达声的提取时间。通过减小标准化截止频率的值,可以降低混响声信号中所包含的直达声的影响。通过增大标准化截止频率的值,可以提取包含少量直达声的混响声信号。
尽管已经参考附图详细说明了本发明,但本发明的直达声提取装置和混响声提取装置不限于以上实施例。对于本领域普通技术人员而言显而易见,可以如这里所述对本发明进行各种修改或改变。因此,所有这些修改或改变均应被视为在本发明的范围内。
通过利用本发明的直达声提取装置和混响声提取装置,还可以构建各种声学环境。例如,利用直达声提取装置从直达声中包含混响声的输入信号中提取直达声信号;将该直达声信号从配置在收听者附近的位置的扬声器输出。结果,与将该输入信号毫不改变地从扬声器输出的情况相比,可以使发声更加清晰,由此使得收听者能够容易地收听。此外,利用混响声提取信号从该输入信号提取混响声信号;并且将该混响声信号从配置在远离收听者的位置的扬声器输出。结果,可以以有效方式输出混响声。
附图标记说明
1…声学处理装置(直达声提取装置和混响声提取装置)
3…FFT单元(傅立叶变换单元和谱变换单元)
4…频谱域滤波单元
5a,5b…IFFT单元(逆傅立叶变换单元和逆谱变换单元)
10…LPF单元(低通滤波器单元)
11…HPF单元(高通滤波器单元)
12…第一限幅器单元
13…第二限幅器单元
14…第三限幅器单元
15…第四限幅器单元
16…第一增益单元
17…第二增益单元
18…第一减法单元
19…第二减法单元
L,R…输入信号
Lfa,Rfa…振幅谱信号
Lfp,Rfp…相位谱信号
Lfa1…积分信号
Lfa2…微分信号
Lfd,Ld,Rfd,Rd…直达声信号
Lfr,Lr,Rfr,Rr…混响声信号
Claims (4)
1.一种直达声提取装置,包括:
傅立叶变换单元,用于对直达声中包含混响声的输入信号进行傅立叶变换处理;
谱变换单元,用于基于由所述傅立叶变换单元进行了傅立叶变换处理的所述输入信号的具有实数和虚数的频率谱,将所述输入信号变换成第一振幅谱信号和相位谱信号;
低通滤波器单元,用于通过使用预设的标准化截止频率来针对各频率对所述第一振幅谱信号进行低通滤波处理;
第一限幅器单元,用于对由所述低通滤波器单元进行了低通滤波处理的第二振幅谱信号的负侧振幅进行限制,从而使该负侧振幅为零;
第一减法单元,用于通过从所述第一振幅谱信号中减去由所述第一限幅器单元对负侧振幅进行了限制的所述第二振幅谱信号来计算第三振幅谱信号;
第二限幅器单元,用于对由所述第一减法单元计算出的所述第三振幅谱信号的负侧振幅进行限制,从而使该负侧振幅为零;
逆谱变换单元,用于基于所述相位谱信号和由所述第二限幅器单元对负侧振幅进行了限制的所述第三振幅谱信号,计算由具有实数和虚数的频率谱构成的信号;以及
逆傅立叶变换单元,用于对由所述逆谱变换单元计算出的信号进行逆傅立叶变换处理,以生成通过从所述输入信号提取所述直达声所获得的直达声信号。
2.一种直达声提取装置,包括:
傅立叶变换单元,用于对直达声中包含混响声的输入信号进行傅立叶变换处理;
谱变换单元,用于基于由所述傅立叶变换单元进行了傅立叶变换处理的所述输入信号的具有实数和虚数的频率谱,将所述输入信号变换成第一振幅谱信号和相位谱信号;
低通滤波器单元,用于通过使用预设的标准化截止频率来针对各频率对所述第一振幅谱信号进行低通滤波处理;
第一限幅器单元,用于对由所述低通滤波器单元进行了低通滤波处理的第二振幅谱信号的负侧振幅进行限制,从而使该负侧振幅为零;
第一减法单元,用于通过从所述第一振幅谱信号中减去由所述第一限幅器单元对负侧振幅进行了限制的所述第二振幅谱信号来计算第三振幅谱信号;
第二限幅器单元,用于对由所述第一减法单元计算出的所述第三振幅谱信号的负侧振幅进行限制,从而使该负侧振幅为零;
第一增益单元,用于通过针对各频率使由所述第二限幅器单元对负侧振幅进行了限制的所述第三振幅谱信号的振幅放大或衰减,来对所述第三振幅谱信号进行加权;
逆谱变换单元,用于基于所述相位谱信号和由所述第一增益单元加权后的所述第三振幅谱信号,来计算由具有实数和虚数的频率谱构成的信号;以及
逆傅立叶变换单元,用于对由所述逆谱变换单元计算出的信号进行逆傅立叶变换处理,以生成通过从所述输入信号提取所述直达声所获得的直达声信号。
3.一种混响声提取装置,包括:
傅立叶变换单元,用于对直达声中包含混响声的输入信号进行傅立叶变换处理;
谱变换单元,用于基于由所述傅立叶变换单元进行了傅立叶变换处理的所述输入信号的具有实数和虚数的频率谱,将所述输入信号变换成第一振幅谱信号和相位谱信号;
高通滤波器单元,用于通过使用预设的标准化截止频率来针对各频率对所述第一振幅谱信号进行高通滤波处理;
第三限幅器单元,用于对由所述高通滤波器单元进行了高通滤波处理的第四振幅谱信号的负侧振幅进行限制,从而使该负侧振幅为零;
第二减法单元,用于通过从所述第一振幅谱信号中减去由所述第三限幅器单元对负侧振幅进行了限制的所述第四振幅谱信号来计算第五振幅谱信号;
第四限幅器单元,用于对由所述第二减法单元计算出的所述第五振幅谱信号的负侧振幅进行限制,从而使该负侧振幅为零;
逆谱变换单元,用于基于所述相位谱信号和由所述第四限幅器单元对负侧振幅进行了限制的所述第五振幅谱信号,计算由具有实数和虚数的频率谱构成的信号;以及
逆傅立叶变换单元,用于对由所述逆谱变换单元计算出的信号进行逆傅立叶变换处理,以生成通过从所述输入信号提取所述混响声所获得的混响声信号。
4.一种混响声提取装置,包括:
傅立叶变换单元,用于对直达声中包含混响声的输入信号进行傅立叶变换处理;
谱变换单元,用于基于由所述傅立叶变换单元进行了傅立叶变换处理的所述输入信号的具有实数和虚数的频率谱,将所述输入信号变换成第一振幅谱信号和相位谱信号;
高通滤波器单元,用于通过使用预设的标准化截止频率来针对各频率对所述第一振幅谱信号进行高通滤波处理;
第三限幅器单元,用于对由所述高通滤波器单元进行了高通滤波处理的第四振幅谱信号的负侧振幅进行限制,从而使该负侧振幅为零;
第二减法单元,用于通过从所述第一振幅谱信号中减去由所述第三限幅器单元对负侧振幅进行了限制的所述第四振幅谱信号来计算第五振幅谱信号;
第四限幅器单元,用于对由所述第二减法单元计算出的所述第五振幅谱信号的负侧振幅进行限制,从而使该负侧振幅为零;
第二增益单元,用于通过针对各频率使由所述第四限幅器单元对负侧振幅进行了限制的所述第五振幅谱信号的振幅放大或衰减,来对所述第五振幅谱信号进行加权;
逆谱变换单元,用于基于所述相位谱信号和由所述第二增益单元加权后的所述第五振幅谱信号,来计算由具有实数和虚数的频率谱构成的信号;以及
逆傅立叶变换单元,用于对由所述逆谱变换单元计算出的信号进行逆傅立叶变换处理,以生成通过从所述输入信号提取所述混响声所获得的混响声信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011147021A JP5654955B2 (ja) | 2011-07-01 | 2011-07-01 | 直接音抽出装置および残響音抽出装置 |
JP2011-147021 | 2011-07-01 | ||
PCT/JP2012/065222 WO2013005550A1 (ja) | 2011-07-01 | 2012-06-14 | 直接音抽出装置および残響音抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103503066A CN103503066A (zh) | 2014-01-08 |
CN103503066B true CN103503066B (zh) | 2015-07-01 |
Family
ID=47436907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280015523.2A Expired - Fee Related CN103503066B (zh) | 2011-07-01 | 2012-06-14 | 直达声提取装置和混响声提取装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9241214B2 (zh) |
EP (1) | EP2690623B1 (zh) |
JP (1) | JP5654955B2 (zh) |
CN (1) | CN103503066B (zh) |
WO (1) | WO2013005550A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5898534B2 (ja) * | 2012-03-12 | 2016-04-06 | クラリオン株式会社 | 音響信号処理装置および音響信号処理方法 |
JP5985306B2 (ja) * | 2012-08-27 | 2016-09-06 | クラリオン株式会社 | 雑音低減装置および雑音低減方法 |
JP6212348B2 (ja) * | 2013-10-11 | 2017-10-11 | 日本放送協会 | アップミックス装置、音響再生装置、音響増幅装置、及びプログラム |
DE102015110938B4 (de) * | 2015-07-07 | 2017-02-23 | Christoph Kemper | Verfahren zur Modifizierung einer Impulsantwort eines Klangwandlers |
US10037750B2 (en) * | 2016-02-17 | 2018-07-31 | RMXHTZ, Inc. | Systems and methods for analyzing components of audio tracks |
US10425730B2 (en) * | 2016-04-14 | 2019-09-24 | Harman International Industries, Incorporated | Neural network-based loudspeaker modeling with a deconvolution filter |
CN115862665B (zh) * | 2023-02-27 | 2023-06-16 | 广州市迪声音响有限公司 | 一种回声混响效果参数的可视化曲线界面系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5710862A (en) * | 1993-06-30 | 1998-01-20 | Motorola, Inc. | Method and apparatus for reducing an undesirable characteristic of a spectral estimate of a noise signal between occurrences of voice signals |
JP3616139B2 (ja) * | 1994-07-26 | 2005-02-02 | ローレルバンクマシン株式会社 | 紙幣処理機における表示装置 |
JPH0844390A (ja) * | 1994-07-26 | 1996-02-16 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
US6507623B1 (en) * | 1999-04-12 | 2003-01-14 | Telefonaktiebolaget Lm Ericsson (Publ) | Signal noise reduction by time-domain spectral subtraction |
KR101149591B1 (ko) * | 2004-07-22 | 2012-05-29 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 신호 반향 억제 |
US7974420B2 (en) * | 2005-05-13 | 2011-07-05 | Panasonic Corporation | Mixed audio separation apparatus |
JP4568193B2 (ja) * | 2005-08-29 | 2010-10-27 | 日本電信電話株式会社 | 収音装置とその方法とそのプログラムとその記録媒体 |
JP2007065204A (ja) * | 2005-08-30 | 2007-03-15 | Nippon Telegr & Teleph Corp <Ntt> | 残響除去装置、残響除去方法、残響除去プログラム及びその記録媒体 |
CN101346896B (zh) * | 2005-10-26 | 2012-09-05 | 日本电气株式会社 | 回声抑制方法及设备 |
JP4774100B2 (ja) * | 2006-03-03 | 2011-09-14 | 日本電信電話株式会社 | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 |
JP4950971B2 (ja) | 2008-09-18 | 2012-06-13 | 日本電信電話株式会社 | 残響除去装置、残響除去方法、残響除去プログラム、記録媒体 |
US9635474B2 (en) * | 2011-05-23 | 2017-04-25 | Sonova Ag | Method of processing a signal in a hearing instrument, and hearing instrument |
-
2011
- 2011-07-01 JP JP2011147021A patent/JP5654955B2/ja not_active Expired - Fee Related
-
2012
- 2012-06-14 WO PCT/JP2012/065222 patent/WO2013005550A1/ja active Application Filing
- 2012-06-14 US US14/112,941 patent/US9241214B2/en active Active
- 2012-06-14 CN CN201280015523.2A patent/CN103503066B/zh not_active Expired - Fee Related
- 2012-06-14 EP EP12807065.3A patent/EP2690623B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2013005550A1 (ja) | 2013-01-10 |
EP2690623B1 (en) | 2021-03-17 |
CN103503066A (zh) | 2014-01-08 |
US20140044273A1 (en) | 2014-02-13 |
US9241214B2 (en) | 2016-01-19 |
JP2013015606A (ja) | 2013-01-24 |
EP2690623A1 (en) | 2014-01-29 |
EP2690623A4 (en) | 2015-04-15 |
JP5654955B2 (ja) | 2015-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103503066B (zh) | 直达声提取装置和混响声提取装置 | |
EP2827330B1 (en) | Audio signal processing device and audio signal processing method | |
EP2579252B1 (en) | Stability and speech audibility improvements in hearing devices | |
US9324337B2 (en) | Method and system for dialog enhancement | |
JP6508491B2 (ja) | マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置 | |
JP5149968B2 (ja) | スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法 | |
JP5341128B2 (ja) | 補聴器における安定性の改善 | |
TWI459828B (zh) | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 | |
EP2191467B1 (en) | Speech enhancement | |
JP6533959B2 (ja) | 音声信号処理装置および音声信号処理方法 | |
KR20140021055A (ko) | 스펙트럼 무게 발생기를 사용하는 주파수-영역 처리를 이용하는 스테레오 레코딩 분해를 위한 방법 및 장치 | |
KR20070066503A (ko) | 음성신호 제거 장치 및 그 방법 | |
JP2008197247A (ja) | 音声処理装置 | |
JP2001249676A (ja) | 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法 | |
CN106328159B (zh) | 一种音频流的处理方法及装置 | |
CN109862463A (zh) | 耳机语音回放方法、耳机及其计算机可读存储介质 | |
US20240161762A1 (en) | Full-band audio signal reconstruction enabled by output from a machine learning model | |
Huber et al. | Voice quality transformation using an extended source-filter speech model | |
CN109862470A (zh) | 对耳病患者播音的方法、耳机及其计算机可读存储介质 | |
JP2013114242A (ja) | 音響処理装置 | |
WO2013050605A1 (en) | Stability and speech audibility improvements in hearing devices | |
JP2006064866A (ja) | 残響除去方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP2014077970A (ja) | 高調波歪率測定法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150701 |