CN101079267A - 定向集音装置、定向集音方法以及存储器产品 - Google Patents
定向集音装置、定向集音方法以及存储器产品 Download PDFInfo
- Publication number
- CN101079267A CN101079267A CNA2006101321058A CN200610132105A CN101079267A CN 101079267 A CN101079267 A CN 101079267A CN A2006101321058 A CNA2006101321058 A CN A2006101321058A CN 200610132105 A CN200610132105 A CN 200610132105A CN 101079267 A CN101079267 A CN 101079267A
- Authority
- CN
- China
- Prior art keywords
- signal
- sound
- sound source
- phase
- phase component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000006870 function Effects 0.000 claims abstract description 72
- 230000005764 inhibitory process Effects 0.000 claims description 77
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 description 23
- 238000012545 processing Methods 0.000 description 21
- 238000001228 spectrum Methods 0.000 description 17
- 230000001360 synchronised effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Abstract
本发明提供了定向集音装置、定向集音方法以及存储器产品。接受从存在于多个方向上的声源输入的声音并将其转换为频率轴上的信号。计算用于抑制频率轴上的经转换信号的抑制函数,将频率轴上的信号的振幅分量与所计算的抑制函数相乘,并对频率轴上的经转换信号进行校正。针对各频率计算频率轴上的各个经转换信号的相位分量,并计算相位分量的差。基于所计算的差指定表示在预定方向上存在声源的概率的概率值,并基于所指定的概率值计算用于抑制从预定方向上的声源以外的声源输入的声音的抑制函数。
Description
技术领域
本发明涉及到定向集音装置、定向集音方法以及其上记录有计算机程序的存储器产品,当输入来自存在于多个方向上的声源的包括语音、噪音等的语音信号时,本发明能够增强从预定方向上的声源产生的语音信号并抑制包括周围语音的噪音。
背景技术
随着近年来计算机技术的发展,语音识别的准确性已快速提高。已经研发出大量的集音装置,用于指定所需声源的方向,以从由存在于多个方向上的声源所产生的语音中识别所需的语音,并在声音处理中将由从存在于其他方向上的声源所产生的语音等作为噪音进行抑制。
例如,在日本专利申请特开平No.10-313497(1998)中所揭示的声源分离方法中,在频率轴上对构成阵列的各传声器的输入信号的到达时间间隔进行检测,从而了解到达的声音来自哪个声源并对声谱的频率分量进行分离。用于分离目标语音信号的常规噪音抑制方法(其可在时轴或频率轴上实现)可广义地分类为两种系统,即同步加法系统和同步减法系统。
在同步加法系统中,针对从多个传声器输入的语音信号执行符合目标方向的同步处理和加法处理。通过该加法处理增强了目标语音信号,并且作为对比,可抑制包括其他语音信号的噪音。同时,在同步减法系统中,针对从多个传声器输入的语音信号执行符合除了目标声源以外的声源所在的方向的同步处理和减法处理,从而可直接抑制包括除了目标语音信号以外的语音信号的噪音。
发明内容
鉴于上述情况而提出本发明,并且本发明的目的是提供一种定向集音装置、定向集音方法以及其上记录有计算机程序的存储器产品,当输入来自存在于多个方向上的声源的包括语音、噪音等的语音信号时,本发明能够通过简单的结构来增强从预定方向上的声源产生的语音信号并抑制周围的噪音,而不必设置大量的传声器。
为了实现上述目的,根据第一发明的定向集音装置的特征在于包括:多个语音接受装置,用于接受从存在于多个方向上的声源输入的声音并将所输入的声音转换成时轴上的信号;信号转换装置,用于将时轴上的各信号转换成频率轴上的信号;相位分量计算装置,用于针对各频率计算由所述信号转换装置转换的频率轴上的各信号的相位分量;相位差计算装置,用于计算由所述相位分量计算装置计算的频率轴上的信号之间的相位分量差;概率值指定装置,用于基于由所述相位差计算装置计算的所述相位分量差,指定表示在预定方向上存在声源的概率的概率值;抑制函数计算装置,用于基于由所述概率值指定装置指定的所述概率值,计算用于抑制从预定方向上的声源之外的声源输入的声音的抑制函数;信号校正装置,用于将频率轴上的信号的振幅分量与所计算的抑制函数相乘,并对频率轴上的经转换信号进行校正;以及信号复原(restoring)装置,用于将频率轴上的经校正信号复原成时轴上的信号。
第二发明涉及根据第一发明的定向集音装置,其特征在于进一步包括用于确定由所述相位差计算装置计算的所述相位分量差是否在预定范围内的装置,其中在确定所述相位分量差处于预定范围内的相位宽度(phase width)内将所述抑制函数设定为1。
第三发明涉及根据第二发明的定向集音装置,其特征在于进一步包括用于基于由所述概率值指定装置指定的所述概率值,计算与一相位分量范围(对于该相位分量范围,必须抑制从预定方向上的声源以外的声源输入的声音)相对应的间隔相位宽度的装置,其中在所述相位宽度内所述抑制函数被设定为1,并且所述抑制函数被设定为正实数,该正实数随着远离所述相位宽度而逐渐减小,并且在超出所计算的间隔相位宽度的范围内变为0。
根据第四发明的定向集音方法的特征在于包括以下步骤:接受从存在于多个方向上的声源输入的声音;将所输入的声音转换成时轴上的信号;将时轴上的各信号转换成频率轴上的信号;针对各频率计算频率轴上的各个经转换信号的相位分量;计算频率轴上的信号之间的所计算相位分量的差;基于所计算的相位分量差,指定表示在预定方向上存在声源的概率的概率值;基于所指定的概率值,计算用于抑制从预定方向上的声源以外的声源输入的声音的抑制函数;将频率轴上的信号的振幅分量和所计算的抑制函数相乘,并校正频率轴上的经转换信号;以及将频率轴上的经校正信号复原成时轴上的信号。
第五发明涉及根据第四发明的定向集音方法,其特征在于进一步包括以下步骤:确定所计算的相位分量差是否在预定范围内;以及在确定所述相位分量差处于预定范围内的相位宽度内将所述抑制函数设定为1。
第六发明涉及根据第五发明的定向集音方法,其特征在于进一步包括以下步骤:基于所指定的概率值,计算与一相位分量范围(对于该相位分量范围,必须抑制从预定方向上的声源以外的声源输入的声音)相对应的间隔相位宽度;以及在所述相位宽度内将所述抑制函数设定为1,并且将所述抑制函数设定为正实数,该正实数随着远离所述相位宽度而逐渐减小,并且在超出所计算的间隔相位宽度的范围内变为0。
根据第七发明的其上记录有计算机程序的存储器产品的特征在于,所述计算机程序包括以下步骤:使计算机接受从存在于多个方向上的声源输入的声音;使计算机将所输入的声音转换成时轴上的信号;使计算机将时轴上的各信号转换成频率轴上的信号;使计算机针对各频率计算频率轴上的各个经转换信号的相位分量;使计算机计算频率轴上的信号之间的所计算相位分量的差;使计算机基于所计算的相位分量差,指定表示在预定方向上存在声源的概率的概率值;使计算机基于所指定的概率值,计算用于抑制从预定方向上的声源以外的声源输入的声音的抑制函数;使计算机将频率轴上的信号的振幅分量与所计算的抑制函数相乘,并校正频率轴上的经转换信号;使计算机将频率轴上的经校正信号复原成时轴上的信号;以及使计算机抑制从预定方向上的声源以外的声源输入的声音。
第八发明涉及根据第七发明的其上记录有计算机程序的存储器产品,其特征在于,所述计算机程序进一步包括以下步骤:使计算机确定所计算的相位分量差是否在预定范围内;以及使计算机在确定所述相位分量差处于预定范围内的相位宽度内将所述抑制函数设定为1。
第九发明涉及根据第八发明的其上记录有计算机程序的存储器产品,其特征在于,所述计算机程序进一步包括以下步骤:使计算机基于所指定的概率值,计算与一相位分量范围(对于该相位分量范围,必须抑制从预定方向上的声源以外的声源输入的声音)相对应的间隔相位宽度;以及使计算机在所述相位宽度内将所述抑制函数设定为1,并且将所述抑制函数设定为正实数,该正实数随着远离所述相位宽度而逐渐减小,并在超出所计算的间隔相位宽度的范围内变成0。
在第一发明、第四发明和第七发明中,接受从存在于多个方向上的声源输入的声音并将其转换成时轴上的信号,将时轴上的各信号转换成频率轴上的信号以及计算用于抑制频率轴上的经转换信号的抑制函数。将频率轴上的信号的振幅分量与所计算的抑制函数相乘,校正频率轴上的经转换信号,将频率轴上的经校正信号复原成时轴上的信号,并抑制从预定方向上的声源以外的声源输入的声音。针对各频率计算频率轴上各个经转换信号的相位分量,计算所计算的相位分量的差,并基于频率轴上的信号之间的所计算的相位分量差,指定表示在预定方向上存在声源的概率的概率值。基于所指定的概率值,计算用于抑制从预定方向上的声源以外的声源输入的声音的抑制函数。以此方式,当存在多个声源时,可以仅增强从存在于预定方向上的声源产生的语音,并且即使在频段中叠加有多个振幅分量,也可以实现精确的语音识别。
在第二发明、第五发明和第八发明中,确定所计算的相位分量差是否在预定范围内,并在确定所述相位分量差处于预定范围内的相位宽度内将所述抑制函数设定为1。以此方式,可以将所述相位分量差在预定范围内的方向设定为存在声源的方向,减小存在声源的设定方向以外的方向的谱值,相比之下,仅增强从存在于预定方向上的声源产生的语音并实现精确的语音识别。
在第三发明、第六发明和第九发明中,基于所指定的概率值计算与一相位分量范围(对于该相位分量范围,必须抑制从预定方向上的声源以外的声源输入的声音)相对应的间隔相位宽度,在所述相位宽度内所述抑制函数被设定为1,并且所述抑制函数被设定为正实数,该正实数随着远离所述相位宽度而逐渐减小,并在超出所计算的间隔相位宽度的范围内变为0。以此方式,可以减小除了存在声源的方向以外的方向的振幅分量(振幅谱值),相比之下,仅增强从存在于预定方向上的声源产生的语音,并实现精确的语音识别。
通过第一发明、第四发明或第七发明,当存在多个声源时,可以仅增强从存在于预定方向上的声源产生的语音,并且即使在频段中叠加有多个振幅分量,也可以实现精确的语音识别。
通过第二发明、第五发明和第八发明,可以将所述相位分量差在预定范围内的方向设定为存在声源的方向,减少除了存在声源的设定方向以外的方向的谱值,相比之下,仅增强从存在于预定方向上的声源产生的语音并实现精确的语音识别。
通过第三发明、第六发明或第九发明,可以减小存在声源的方向以外的方向的振幅分量(振幅谱值),相比之下,仅增强从存在于预定方向上的声源产生的语音,并实现精确的语音识别。
参照附图,根据以下的详细说明将更全面地理解本发明的上述以及其他目的和特征。
附图说明
图1是示出了用于实施根据本发明实施例的定向集音装置的计算机的结构的框图;
图2是示出了由根据本发明实施例的定向集音装置的处理单元执行的功能结构的框图;
图3A和3B是示意性示出了相位谱差的示例的图;
图4A和4B是示出了针对各频率计算的抑制函数的示例的图;
图5是示意性示出了通过将振幅谱和抑制函数相乘而得到的结果的示例的图;以及
图6是示出了根据本发明实施例的定向集音装置的处理单元的处理过程的流程图。
具体实施方式
在上述常规的语音输入方法中,对频谱的频率分量进行分离以了解在哪个方向上存在语音信号的声源。
因此,该方法基于以下假设:来自多个声源的语音信号之间的交叉相关很小,也就是说,在频谱上几乎没有重叠部分。但是,存在一个问题:由于在频谱上通常产生重叠部分,因此频率分量的精确分离很困难。
此外,在同步减法系统中,必须建立传声器阵列,其设置有数量与声源数量相对应的传声器。同时,同步加法系统还存在一个问题:由于实际上必须设置多个传声器,因此该装置的小型化、重量减轻等很困难。
鉴于上述情况而提出了本发明,并且其目的是提供一种定向集音装置、定向集音方法和其上记录有计算机程序的存储器产品,当输入来自存在于多个方向上的声源的包括语音、噪音等的语音信号时,本发明能够通过简单的结构增强从预定方向上的声源产生的语音信号并抑制周围噪音,而不必设立多个传声器。以下参照示出本发明实施例的附图,对本发明进行详细说明。
图1是示出了用于实施根据本发明实施例的定向集音装置1的计算机的结构的框图。根据定向集音装置1(根据本发明实施例)的计算机至少包括:处理单元11,例如CPU或DSP;ROM 12;RAM 13;通信接口单元14,其能够与外部计算机进行数据通信;多个语音输入单元15,15,…,用于接受语音输入;和语音输出单元16,用于输出其中噪音受到抑制的语音。
处理单元11通过内部总线17与定向集音装置1的上述各个硬件单元连接,处理单元11控制上述各个硬件单元并根据存储在ROM 12中的处理程序来执行各种软件功能,这些处理程序例如为:用于将叠加有噪音的语音的时轴上的信号转换成频率轴上的信号的程序;用于针对频率轴上的经转换信号的各检测窗口计算语音的振幅分量的程序;用于基于振幅分量计算用于抑制频率轴上的信号的抑制函数的程序;用于针对各频率计算频率轴上的各个经转换信号的相位分量的程序;用于计算频率轴上的信号之间的所计算相位分量的差的程序;用于基于所计算的相位分量差来指定表示在预定方向上存在声源的概率的概率值的程序;用于基于所述抑制函数和所述概率值来抑制从预定方向上的声源以外的声源输入的语音的程序,等等。
由闪存等构成的ROM 12存储有用于使该装置用作定向集音装置1所需的处理程序。由SRAM等构成的RAM 13存储有在软件的执行过程中生成的临时数据。通信接口单元14从外部计算机下载上述程序,向/从语音识别装置发送/接收语音输出信号,等等。
语音输入单元15,15,…由分别接受语音的多个传声器组成,以指定声源的方向。语音输出单元16为诸如扬声器的输出装置。
图2是示出了由根据本发明实施例的定向集音装置1的处理单元11执行的功能结构的框图。应该注意,图2中的示例说明了使用两个传声器作为语音输入单元15和15的情况。
如图2中所示,根据本发明实施例的定向集音装置1至少包括语音接受单元201、信号转换单元202、相位差计算单元203、概率值指定单元204、抑制函数计算单元205、振幅计算单元206、信号校正单元207和信号复原单元208。语音接受单元201接受通过两个传声器从多个混合声源输入的语音。在本实施例中,通过语音输入单元15和15接受输入1和输入2。
信号转换单元202将输入语音的时轴上的信号转换成频率轴上的信号,即,频谱IN1(f)和IN2(f)。在此,f表示频率。信号转换单元202例如执行时间-频率转换处理(例如傅立叶变换)、多个带通滤波处理(例如次频段(sub-band)分离处理),等等。在本实施例中,通过诸如傅立叶变换的时间-频率转换处理将信号转换成频谱IN1(f)和IN2(f)。
相位差计算单元203基于通过频率转换而得到的频谱IN1(f)和IN2(f)来计算相位谱,并针对各频率计算所计算的相位谱之间的差DIFF_PHASE(f)。图3A和3B是示意性地示出了相位谱差DIFF_PHASE(f)的示例的图。图3A示出了其中声源存在于与两个语音输入单元15和15等距离的位置处的情况的相位谱差DIFF_PHASE(f)的示例,而图3B示出了其中声源存在于偏向要作为用于计算两个语音输入单元15和15的DIFF_PHASE(f)的标准的声源的位置处的情况的相位谱差DIFF_PHASE(f)的示例。所计算的相位谱差DIFF_PHASE(f)中混合有从要采集的声源产生的语音和从其他声源产生的噪音。因此,相位谱差DIFF_PHASE(f)具有各频率的预定相位宽度δ1(f)。
概率值指定单元204指定概率值,从而对存在要采集的语音的声源的方向设定高概率值。该概率值指定方法没有特别限制。例如,可将概率值指定为用于确定随着远离相位谱差DIFF_PHASE(f)的相位宽度δ1(f)而以什么比率对输入进行抑制的值(即,δ1(f)对间隔相位宽度δ2(f)的比率δ1(f)/δ2(f)(δ2(f)>δ1(f))),以抑制来自存在于特定方向(即,在针对各频率计算的相位宽度δ1(f)的范围以外)上的声源的输入。在这种情况下,间隔相位宽度δ2的最合适的值根据使用语音的应用类型、声源的特性、周围环境等而波动。因此,可设置另一输入装置以接受用户的输入或者可由要采用的应用将预定值存储到RAM 13内。
抑制函数计算单元205基于输入信号的相位谱差DIFF_PHASE(f)和概率值δ1(f)/δ2(f),计算各频率f的抑制函数gain(f)。图4A和4B是示出了针对各频率f计算的抑制函数gain(f)的示例的图。图4A示出了其中声源存在于与两个语音输入单元15和15等距离的位置处的情况的抑制函数gain(f)的示例,而图4B示出了其中声源在偏向要作为用于计算两个语音输入单元15和15的DIFF_PHASE(f)的标准的声源的位置处的情况的抑制函数gain(f)的示例。
如图4A中所示,基于由相位谱差DIFF_PHASE(f)指定的相位宽度δ1(f)和概率值δ1(f)/δ2(f),计算间隔相位宽度δ2(f)。由于相位宽度δ1(f)的区域与存在输入的语音将被不抑制的声源的方向相对应,因此将抑制函数gain(f)设定为“1”。
由于超出相位宽度δ1(f)且在间隔相位宽度δ2(f)内的区域与原理上不存在要采集的声源的方向相对应,因此将抑制函数gain(f)设定为“0”。但是,相位宽度δ1(f)根据周围环境等会存在误差,并且在失真的产生等使得难以采集作为自然语音的声音时也会出现误差。为此,在本实施例中,对超出相位宽度δ1(f)且在间隔相位宽度δ2(f)内的区域中的抑制函数gain(f)的波动应用线性内插法,在间隔相位宽度δ2(f)内逐渐减小抑制函数gain(f),并在达到间隔相位宽度δ2(f)的点上将抑制函数gain(f)设定为“0”。以此方式,可以抑制失真等的发生并输出适于(proof against)语音识别处理的语音。
在图4B的情况下,基于由相位谱差DIFF_PHASE(f)指定的相位宽度δ1(f)和概率值δ1(f)/δ2(f),类似地计算间隔相位宽度δ2(f)。在与存在输入的语音将不被抑制的声源的方向相对应的相位宽度δ1(f)的区域中,将抑制函数gain(f)设定为“1”。对超出相位宽度δ1(f)且在间隔相位宽度δ2(f)内的区域中的抑制函数gain(f)的波动应用线性内插法,在间隔相位宽度δ2(f)内逐渐减小抑制函数gain(f),并在达到间隔相位宽度δ2(f)的点处将抑制函数gain(f)设定为“0”。
应该注意,本发明不限于上述技术:对超出相位宽度δ1(f)且在间隔相位宽度δ2(f)内的区域中的抑制函数gain(f)的波动应用线性内插法,并且在间隔相位宽度δ2(f)内逐渐减小抑制函数gain(f),只要能够采集从存在于相位宽度δ1(f)内的声源产生的语音,就可以采用任何技术,例如通过另一维数曲线(dimension curve)的内插法(例如,二次插值法、逐步减少(stepwise decrease)等)。
振幅计算单元206计算输入信号谱的振幅谱|IN1(f)|的代表值。该代表值没有特别限制,并且可以是振幅谱|IN1(f)|针对各预定频段的平均值或者针对各预定频段的最大值。此外,还可以采用不使用代表值而是使用用于各频率的值的处理。
信号校正单元207将由振幅计算单元206计算的振幅谱|IN1(f)|和由抑制函数计算单元205计算的抑制函数gain(f)相乘。图5是示意性示出了通过将振幅谱|IN1(f)|和抑制函数gain(f)相乘而得到的结果的示例的图。如图5中所示,当抑制函数gain(f)为“1”时,不加修正地输出振幅谱|IN1(f)|。当抑制函数gain(f)满足0≤gain(f)<1时,通过抑制函数gain(f)对输出分别进行抑制。也就是,将虚线所示的振幅谱51抑制为实线所示的振幅谱52。
信号复原单元208将来自信号校正单元207的输出信号转换为时轴上的信号并输出该信号。信号复原单元208中的处理为信号转换单元202的反向处理。例如,当在信号转换单元202中执行傅立叶变换(FFT)处理时,信号复原单元208执行傅立叶逆变换(IFFT)。
图6是示出了根据本发明实施例的定向集音装置1的处理单元11的处理过程的流程图。定向集音装置1的处理单元11接受语音输入(步骤S601)并通过例如傅立叶变换将所输入的语音转换成频率轴上的信号,即转换成频谱IN1(f)和IN2(f)。在此,f表示频率。
处理单元11基于通过频率转换得到的频谱IN1(f)和IN2(f)来计算相位谱(步骤S603),并针对各频率计算所计算的相位谱之间的差DIFF_PHASE(f)(步骤S604)。
处理单元11指定概率值,从而对存在要采集的语音的声源的方向设定高概率值(步骤S605)。尽管在此将概率值指定为用于确定随着远离相位谱差DIFF_PHASE(f)的相位宽度δ1(f)而以什么比率对输入进行抑制的值(即,δ1(f)对间隔相位宽度δ2(f)的比率δ1(f)/δ2(f)(δ2(f)>δ1(f))),但是概率值指定方法没有特别的限制。
处理单元11基于相位谱差DIFF_PHASE(f)和概率值δ1(f)/δ2(f),计算各频率f的抑制函数gain(f)(步骤S606)。处理单元11计算振幅谱|IN1(f)|(步骤S607)并将该振幅谱|IN1(f)|和由抑制函数计算单元205计算的抑制函数gain(f)相乘(步骤S608)。
处理单元11将通过相乘而得到的信号转换成时轴上的信号(步骤S609)并将该信号输出到外部应用(例如语音识别装置)(步骤S610)。当已应用了傅立叶变换时,可以通过应用傅立叶逆变换将该信号复原为时轴上的信号。
通过本实施例,如上所述,即使存在多个声源,也可以将从存在于预定方向以外的方向上的声源输入的声音的输出作为噪音进行抑制,并且仅增强从要采集的声源输入的声音。
例如,当将根据本实施例的定向集音装置1应用于其操作由语音控制的汽车导航系统时,采用从靠近驾驶员的传声器(语音输入单元15)输入的语音作为定向集音的输出,并对从靠近乘客座位的传声器(语音输入单元15)输入的语音进行抑制,以可靠地采集主要操作该系统的驾驶员的语音。因此,即使驾驶员和乘客同时讲话,也可以仅采用驾驶员的语音作为定向集音的输出,并防止由于语音输入的错误识别而导致的汽车导航系统的误操作。
Claims (9)
1.一种定向集音装置,该定向集音装置包括:
多个语音接受装置,用于接受从存在于多个方向上的声源输入的声音并将所输入的声音转换成时轴上的信号;
信号转换装置,用于将时轴上的各信号转换成频率轴上的信号;
相位分量计算装置,用于针对各频率计算由所述信号转换装置转换的频率轴上的各信号的相位分量;
相位差计算装置,用于计算由所述相位分量计算装置计算的频率轴上的信号之间的相位分量差;
概率值指定装置,用于基于由所述相位差计算装置计算的所述相位分量差,指定表示在预定方向上存在声源的概率的概率值;
抑制函数计算装置,用于基于由所述概率值指定装置指定的所述概率值,计算用于抑制从预定方向上的声源以外的声源输入的声音的抑制函数;
信号校正装置,用于将频率轴上的信号的振幅分量和所计算的抑制函数相乘,并校正频率轴上的经转换信号;以及
信号复原装置,用于将频率轴上的经校正信号复原成时轴上的信号。
2.根据权利要求1所述的定向集音装置,该定向集音装置进一步包括:
用于确定由所述相位差计算装置计算的所述相位分量差是否在预定范围内的装置,其中
在确定所述相位分量差处于预定范围内的相位宽度内,所述抑制函数被设定为1。
3.根据权利要求2所述的定向集音装置,该定向集音装置进一步包括:
用于基于由所述概率值指定装置指定的所述概率值来计算与一相位分量范围相对应的间隔相位宽度,对于该相位分量范围,必须抑制从预定方向上的声源以外的声源输入的声音,其中
在所述相位宽度内所述抑制函数被设定为1,并且所述抑制函数被设定为正实数,所述正实数随着远离所述相位宽度而逐渐减小,并且在超出所计算的间隔相位宽度的范围内变为0。
4.一种定向集音方法,该定向集音方法包括以下步骤:
接受从存在于多个方向上的声源输入的声音;
将所输入的声音转换成时轴上的信号;
将时轴上的各信号转换成频率轴上的信号;
针对各频率计算频率轴上的各个经转换信号的相位分量;
计算频率轴上的信号之间的所计算相位分量的差;
基于所计算的相位分量差,指定表示在预定方向上存在声源的概率的概率值;
基于所述指定的概率值,计算用于抑制从预定方向上的声源以外的声源输入的声音的抑制函数;
将频率轴上的信号的振幅分量和所计算的抑制函数相乘,并校正频率轴上的经转换信号;以及
将频率轴上的经校正信号复原为时轴上的信号。
5.根据权利要求4所述的定向集音方法,该定向集音方法进一步包括以下步骤:
确定所计算的相位分量差是否在预定范围内;以及
在确定所述相位分量差在预定范围内的相位宽度内,所述抑制函数被设定为1。
6.根据权利要求5所述的定向集音方法,该定向集音方法进一步包括以下步骤:
基于所述指定的概率值,计算与一相位分量范围相对应的间隔相位宽度,对于该相位分量范围,必须抑制从预定方向上的声源以外的声源输入的声音;以及
在所述相位宽度内将所述抑制函数设定成1,并且将所述抑制函数设定为正实数,所述正实数随着远离所述相位宽度而逐渐减小,并且在超出所计算的间隔相位宽度的范围内变为0。
7.一种存储有计算机程序的存储器产品,其中所述计算机程序包括以下步骤:
使计算机接受从存在于多个方向上的声源输入的声音;
使计算机将所输入的声音转换成时轴上的信号;
使计算机将时轴上的各信号转换成频率轴上的信号;
使计算机针对各频率计算频率轴上的各个经转换信号的相位分量;
使计算机计算频率轴上的信号之间的所计算相位分量的差;
使计算机基于所计算的相位分量差,指定表示在预定方向上存在声源的概率的概率值;
使计算机基于所述指定的概率值,计算用于抑制从预定方向上的声源以外的声源输入的声音的抑制函数;
使计算机将频率轴上的信号的振幅分量和所计算的抑制函数相乘,并校正频率轴上的经转换信号;
使计算机将频率轴上的经校正信号复原成时轴上的信号;以及
使计算机抑制从预定方向上的声源以外的声源输入的声音。
8.根据权利要求7所述的存储有计算机程序的存储器产品,其中,所述计算机程序进一步包括以下步骤:
使计算机确定所计算的相位分量差是否在预定范围内;以及
使计算机在确定所述相位分量差在预定范围内的相位宽度内将所述抑制函数设定为1。
9.根据权利要求8所述的存储有计算机程序的存储器产品,其中,所述计算机程序进一步包括以下步骤:
使计算机基于所述指定的概率值,计算与一相位分量范围相对应的间隔相位宽度,对于该相位分量范围,必须抑制从预定方向上的声源以外的声源输入的声音;以及
使计算机在所述相位宽度内将所述抑制函数设定为1,并将所述抑制函数设定为正实数,所述正实数随着远离所述相位宽度而逐渐减小,并且在超出所计算的间隔相位宽度的范围内变为0。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006147043 | 2006-05-26 | ||
JP2006147043A JP4912036B2 (ja) | 2006-05-26 | 2006-05-26 | 指向性集音装置、指向性集音方法、及びコンピュータプログラム |
JP2006-147043 | 2006-05-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101079267A true CN101079267A (zh) | 2007-11-28 |
CN101079267B CN101079267B (zh) | 2010-05-12 |
Family
ID=38622348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006101321058A Active CN101079267B (zh) | 2006-05-26 | 2006-09-30 | 定向集音装置和定向集音方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8036888B2 (zh) |
JP (1) | JP4912036B2 (zh) |
CN (1) | CN101079267B (zh) |
DE (1) | DE102006042059B4 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103165137A (zh) * | 2011-12-19 | 2013-06-19 | 中国科学院声学研究所 | 一种非平稳噪声环境下传声器阵列的语音增强方法 |
CN108800473A (zh) * | 2018-07-20 | 2018-11-13 | 珠海格力电器股份有限公司 | 设备的控制方法及装置、存储介质和电子装置 |
CN109308909A (zh) * | 2018-11-06 | 2019-02-05 | 北京智能管家科技有限公司 | 一种信号分离方法、装置、电子设备及存储介质 |
CN110047507A (zh) * | 2019-03-01 | 2019-07-23 | 北京交通大学 | 一种声源识别方法及装置 |
CN110610718A (zh) * | 2018-06-15 | 2019-12-24 | 炬芯(珠海)科技有限公司 | 一种提取期望声源语音信号的方法及装置 |
CN111052766A (zh) * | 2017-09-07 | 2020-04-21 | 三菱电机株式会社 | 噪音去除装置及噪音去除方法 |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009069184A1 (ja) * | 2007-11-26 | 2009-06-04 | Fujitsu Limited | 音処理装置、補正装置、補正方法及びコンピュータプログラム |
JP5206234B2 (ja) | 2008-08-27 | 2013-06-12 | 富士通株式会社 | 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム |
WO2010038385A1 (ja) * | 2008-09-30 | 2010-04-08 | パナソニック株式会社 | 音判定装置、音判定方法、及び、音判定プログラム |
US8724829B2 (en) * | 2008-10-24 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
US8081772B2 (en) * | 2008-11-20 | 2011-12-20 | Gentex Corporation | Vehicular microphone assembly using fractional power phase normalization |
JP2010124370A (ja) | 2008-11-21 | 2010-06-03 | Fujitsu Ltd | 信号処理装置、信号処理方法、および信号処理プログラム |
JP5233772B2 (ja) * | 2009-03-18 | 2013-07-10 | ヤマハ株式会社 | 信号処理装置およびプログラム |
JP5493850B2 (ja) * | 2009-12-28 | 2014-05-14 | 富士通株式会社 | 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム |
JP5672770B2 (ja) | 2010-05-19 | 2015-02-18 | 富士通株式会社 | マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム |
JP5614261B2 (ja) | 2010-11-25 | 2014-10-29 | 富士通株式会社 | 雑音抑制装置、雑音抑制方法、及びプログラム |
EP2551849A1 (en) * | 2011-07-29 | 2013-01-30 | QNX Software Systems Limited | Off-axis audio suppression in an automobile cabin |
US8818800B2 (en) | 2011-07-29 | 2014-08-26 | 2236008 Ontario Inc. | Off-axis audio suppressions in an automobile cabin |
JP5810903B2 (ja) * | 2011-12-27 | 2015-11-11 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
WO2014103066A1 (ja) | 2012-12-28 | 2014-07-03 | 共栄エンジニアリング株式会社 | 音源分離方法、装置、及びプログラム |
JP6156012B2 (ja) * | 2013-09-20 | 2017-07-05 | 富士通株式会社 | 音声処理装置及び音声処理用コンピュータプログラム |
JP6295650B2 (ja) * | 2013-12-25 | 2018-03-20 | 沖電気工業株式会社 | 音声信号処理装置及びプログラム |
JP2016035501A (ja) * | 2014-08-01 | 2016-03-17 | 富士通株式会社 | 音声符号化装置、音声符号化方法、音声符号化用コンピュータプログラム、音声復号装置、音声復号方法及び音声復号用コンピュータプログラム |
JP6446913B2 (ja) * | 2014-08-27 | 2019-01-09 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
JP6520276B2 (ja) * | 2015-03-24 | 2019-05-29 | 富士通株式会社 | 雑音抑圧装置、雑音抑圧方法、及び、プログラム |
JP6536320B2 (ja) | 2015-09-28 | 2019-07-03 | 富士通株式会社 | 音声信号処理装置、音声信号処理方法及びプログラム |
JP6677136B2 (ja) | 2016-09-16 | 2020-04-08 | 富士通株式会社 | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 |
JP6794887B2 (ja) | 2017-03-21 | 2020-12-02 | 富士通株式会社 | 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法 |
JP7103353B2 (ja) * | 2017-05-08 | 2022-07-20 | ソニーグループ株式会社 | 情報処理装置 |
JP6835694B2 (ja) * | 2017-10-12 | 2021-02-24 | 株式会社デンソーアイティーラボラトリ | 騒音抑圧装置、騒音抑圧方法、プログラム |
JP7013789B2 (ja) | 2017-10-23 | 2022-02-01 | 富士通株式会社 | 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法 |
CN108806711A (zh) * | 2018-08-07 | 2018-11-13 | 吴思 | 一种提取方法及装置 |
CN110931036B (zh) * | 2019-12-07 | 2022-03-22 | 杭州国芯科技股份有限公司 | 一种麦克风阵列波束形成方法 |
CN113053376A (zh) * | 2021-03-17 | 2021-06-29 | 财团法人车辆研究测试中心 | 语音辨识装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0522787A (ja) * | 1991-07-09 | 1993-01-29 | Matsushita Electric Ind Co Ltd | 集音装置 |
JPH0566795A (ja) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 雑音抑圧装置とその調整装置 |
FR2687496B1 (fr) * | 1992-02-18 | 1994-04-01 | Alcatel Radiotelephone | Procede de reduction de bruit acoustique dans un signal de parole. |
JPH06204771A (ja) | 1993-01-06 | 1994-07-22 | Matsushita Electric Ind Co Ltd | 収音装置 |
US5574824A (en) * | 1994-04-11 | 1996-11-12 | The United States Of America As Represented By The Secretary Of The Air Force | Analysis/synthesis-based microphone array speech enhancer with variable signal distortion |
JP3522954B2 (ja) | 1996-03-15 | 2004-04-26 | 株式会社東芝 | マイクロホンアレイ入力型音声認識装置及び方法 |
US6130949A (en) * | 1996-09-18 | 2000-10-10 | Nippon Telegraph And Telephone Corporation | Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor |
JP3355598B2 (ja) | 1996-09-18 | 2002-12-09 | 日本電信電話株式会社 | 音源分離方法、装置及び記録媒体 |
US5881764A (en) * | 1997-08-01 | 1999-03-16 | Weavexx Corporation | Multi-layer forming fabric with stitching yarn pairs integrated into papermaking surface |
FI114422B (fi) * | 1997-09-04 | 2004-10-15 | Nokia Corp | Lähteen puheaktiviteetin tunnistus |
US7209567B1 (en) * | 1998-07-09 | 2007-04-24 | Purdue Research Foundation | Communication system with adaptive noise suppression |
EP1065909A2 (en) | 1999-06-29 | 2001-01-03 | Alexander Goldin | Noise canceling microphone array |
US7031474B1 (en) * | 1999-10-04 | 2006-04-18 | Srs Labs, Inc. | Acoustic correction apparatus |
JP2001166025A (ja) | 1999-12-14 | 2001-06-22 | Matsushita Electric Ind Co Ltd | 音源の方向推定方法および収音方法およびその装置 |
US7039199B2 (en) * | 2002-08-26 | 2006-05-02 | Microsoft Corporation | System and process for locating a speaker using 360 degree sound source localization |
DE102004005998B3 (de) * | 2004-02-06 | 2005-05-25 | Ruwisch, Dietmar, Dr. | Verfahren und Vorrichtung zur Separierung von Schallsignalen |
US7415117B2 (en) * | 2004-03-02 | 2008-08-19 | Microsoft Corporation | System and method for beamforming using a microphone array |
US7454332B2 (en) * | 2004-06-15 | 2008-11-18 | Microsoft Corporation | Gain constrained noise suppression |
US7454335B2 (en) * | 2006-03-20 | 2008-11-18 | Mindspeed Technologies, Inc. | Method and system for reducing effects of noise producing artifacts in a voice codec |
-
2006
- 2006-05-26 JP JP2006147043A patent/JP4912036B2/ja active Active
- 2006-09-05 DE DE102006042059A patent/DE102006042059B4/de active Active
- 2006-09-13 US US11/519,792 patent/US8036888B2/en active Active
- 2006-09-30 CN CN2006101321058A patent/CN101079267B/zh active Active
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103165137A (zh) * | 2011-12-19 | 2013-06-19 | 中国科学院声学研究所 | 一种非平稳噪声环境下传声器阵列的语音增强方法 |
CN103165137B (zh) * | 2011-12-19 | 2015-05-06 | 中国科学院声学研究所 | 一种非平稳噪声环境下传声器阵列的语音增强方法 |
CN111052766A (zh) * | 2017-09-07 | 2020-04-21 | 三菱电机株式会社 | 噪音去除装置及噪音去除方法 |
CN111052766B (zh) * | 2017-09-07 | 2021-07-27 | 三菱电机株式会社 | 噪音去除装置及噪音去除方法 |
CN110610718A (zh) * | 2018-06-15 | 2019-12-24 | 炬芯(珠海)科技有限公司 | 一种提取期望声源语音信号的方法及装置 |
CN110610718B (zh) * | 2018-06-15 | 2021-10-08 | 炬芯科技股份有限公司 | 一种提取期望声源语音信号的方法及装置 |
CN108800473A (zh) * | 2018-07-20 | 2018-11-13 | 珠海格力电器股份有限公司 | 设备的控制方法及装置、存储介质和电子装置 |
CN109308909A (zh) * | 2018-11-06 | 2019-02-05 | 北京智能管家科技有限公司 | 一种信号分离方法、装置、电子设备及存储介质 |
CN109308909B (zh) * | 2018-11-06 | 2022-07-15 | 北京如布科技有限公司 | 一种信号分离方法、装置、电子设备及存储介质 |
CN110047507A (zh) * | 2019-03-01 | 2019-07-23 | 北京交通大学 | 一种声源识别方法及装置 |
CN110047507B (zh) * | 2019-03-01 | 2021-03-30 | 北京交通大学 | 一种声源识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101079267B (zh) | 2010-05-12 |
DE102006042059B4 (de) | 2008-07-10 |
US8036888B2 (en) | 2011-10-11 |
JP4912036B2 (ja) | 2012-04-04 |
JP2007318528A (ja) | 2007-12-06 |
DE102006042059A1 (de) | 2007-11-29 |
US20070274536A1 (en) | 2007-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101079267A (zh) | 定向集音装置、定向集音方法以及存储器产品 | |
CN101030383A (zh) | 声源分离装置、方法和程序 | |
EP1923866B1 (en) | Sound source separating device, speech recognizing device, portable telephone, sound source separating method, and program | |
EP2773137B1 (en) | Microphone sensitivity difference correction device | |
EP1804549B1 (en) | Signal processing system and method for calibrating channel signals supplied from an array of sensors having different operating characteristics | |
CN101061743A (zh) | 音频信号增强的方法和设备 | |
CN1168069C (zh) | 识别系统和识别方法 | |
CN108604452B (zh) | 声音信号增强装置 | |
US20030097257A1 (en) | Sound signal process method, sound signal processing apparatus and speech recognizer | |
US20070005350A1 (en) | Sound signal processing method and apparatus | |
DK2568695T3 (en) | Method and device for suppressing residual echo | |
KR20120123566A (ko) | 음원 분리 장치, 음원 분리 방법, 및 프로그램 | |
WO2017002525A1 (ja) | 信号処理装置、信号処理方法、および信号処理プログラム | |
WO2013009949A1 (en) | Microphone array processing system | |
CN103907152A (zh) | 用于音频信号噪声抑制的方法和系统 | |
CN1193226A (zh) | 回波消除法和实施这样一个过程的回波消除器 | |
JP5060465B2 (ja) | 収音装置、収音方法、収音プログラム、記録媒体 | |
JP6048596B2 (ja) | 集音装置、集音装置の入力信号補正方法および移動機器情報システム | |
CN1667702A (zh) | 输入音处理装置 | |
CN1369173A (zh) | 基于对称性的子带回声抵消 | |
CN1317691C (zh) | 一种自适应谷点降噪方法及系统 | |
CN109417666B (zh) | 噪声去除装置、回声消除装置和异常音检测装置 | |
JP5105336B2 (ja) | 音源分離装置、プログラム及び方法 | |
CN1295678C (zh) | 子带自适应谷点降噪系统和方法 | |
CN116137153A (zh) | 一种语音降噪模型的训练方法以及语音增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |