CN103098132A - 声源分离装置、声源分离方法、以及程序 - Google Patents

声源分离装置、声源分离方法、以及程序 Download PDF

Info

Publication number
CN103098132A
CN103098132A CN2011800197387A CN201180019738A CN103098132A CN 103098132 A CN103098132 A CN 103098132A CN 2011800197387 A CN2011800197387 A CN 2011800197387A CN 201180019738 A CN201180019738 A CN 201180019738A CN 103098132 A CN103098132 A CN 103098132A
Authority
CN
China
Prior art keywords
sound source
sound
signal
noise
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011800197387A
Other languages
English (en)
Inventor
松井信也
石川洋儿
长滨克昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Kogyo KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Kogyo KK filed Critical Asahi Kasei Kogyo KK
Publication of CN103098132A publication Critical patent/CN103098132A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本发明提供声源分离装置、声源分离方法、以及程序。采用现有的声源分离装置的话,在存在到来方向没规定为特定的方向的扩散性噪声的环境下,特定的频带被大大地删除,结果存在扩散性噪声被不规则地分配给声源分离结果而变成音乐噪声的情况。因此,本发明的一个形态中,声源分离装置(1)的波束形成部(3)通过对频谱分析后的来自麦克风(10、11)的输出信号乘以存在复共轭的关系的加权系数,进行波束形成处理,以与连接两个麦克风(10、11)的线段相交的平面为界限,使得从包含目标声源的大致方向的区域以及与该区域相反的区域到来的各声源信号衰减。加权系数算出部(50)根据由功率计算器(40、41)所计算出的功率频谱信息之间的差值,计算加权系数。

Description

声源分离装置、声源分离方法、以及程序
技术领域
本发明涉及一种使用多个麦克风从多个声源所发出的多个声音信号、各种环境噪声等多个音响信号混杂的信号中分离出来自目标声源的声源信号的声源分离装置、声源分离方法、以及程序。
背景技术
想要在各种环境下收录特定的声音信号等的情况下,由于周围环境中存在有各种各样的噪声源,所以用麦克风仅收录作为目标声音的信号是比较困难的,需要进行一些噪声降低处理或者声源分离处理。
作为尤其需要这些处理的实例,举例有在汽车环境下。在汽车环境下,由于移动电话的普及,行驶中的使用移动电话的通话一般采用与车内分开设置的麦克风,从而使得通话品质显著变差。又,由于在汽车环境下在行驶中进行声音识别的情况下也在相同的状况下发声,这成为使得声音识别性能变差的原因。由于现在的声音识别技术的进步,对于相对于稳态噪声的声音识别率变差的问题,能够恢复变差了的性能的相当大的部分。但是,作为以现有的声音识别技术难以对应的问题,有多个发声者同时发声时的识别性能变差的问题。采用现有的声音识别技术的话,由于识别同时发声的二个人的混合音的技术较低,因此在声音识别装置使用时会限制发声者以外的同乘者发声,发生限制同乘者的行动的状况。
又,关于移动电话、或者能够与移动电话连接进行免提通话的头戴送受话器,在背景噪声环境下进行通话时也同样会发生通话品质的变差。
作为解决上述那样的问题的方法,存在有具有多个麦克风的声源分离方法。例如,专利文献1所记载的声源分离装置进行波束形成处理,以使得来自相对于连接两个麦克风的直线的垂线对称的方向的声源信号分别衰减,根据对波束形成输出计算出的功率谱信息之间的差值提取目标声源的频谱信息。
通过采用专利文献1所记载的声源分离装置,能够实现指向特性不受麦克风元件的灵敏度影响的性质,能够不受麦克风元件的灵敏度的差异的影响地从混合有多个声源所发出的声源信号的混合音之中分离来自目标声源的声源信号。
现有技术文献
专利文献
专利文献1:日本专利第4225430号公报
非专利文献
非专利文献1:Y.Ephraim And D.Malah,"利用最小均方误差短时谱幅度估计的语音增强算法(Speech enhancement using minimum mean-square error short-time spectralamplitude estimator)",IEEE Trans Acoust.,Speech,Signal Processing,ASSP-32,6,pp.1109-1121,Dec.1984.
非专利文献2:S.Gustafsson,P.Jax,And P.Vary,"保留背景噪声特征的新型的基于心理声学模型的音频增强算法(A novel psychoacoustically motivated audioenhancement algorithm preserving background noise characteristics),"IEEEInternational Conference On Acoustics,Speech And Signal Processing,ICASSP'98,vol.1,ppt.397-400vol.1,12-15May 1998.
发明内容
发明要解决的课题
然而,采用专利文献1所记载的声源分离装置的话,在波束形成处理后所计算出的两个功率谱信息的差值为规定的阈值以上的情况下,将该差值识别为目标声音就照原样进行输出,另一方面,在两个功率谱信息的差值小于规定的阈值的情况下,该差值被识别为噪声并将该频带的输出设为0。因此,在存在例如如汽车的行驶噪声那样到来方向没规定为特定的方向的扩散性噪声的环境下,使得专利文献1的声源分离装置动作时,特定的频带被大大地删除,结果存在扩散性噪声被不规则地分配给声源分离结果而变成音乐噪声的(音乐噪声)的情况。另外,音乐噪声是指噪声的去除残留,由于是在时间轴上以及频率轴上孤立的成分,因此其作为不自然的刺耳的声音而被听到。
又,在专利文献1中,揭示了通过将后置滤波处理放在波束形成处理的前段,来降低扩散性噪声、稳态噪声等,从而防止声源分离后的音乐噪声发生的技术。然而,在麦克风分开配置的情况下、麦克风被模铸在移动电话、头戴送受话器等的框体上的情况下,被输入两个麦克风的噪声的音量差、相位差变大。因此,如果将由其中一个麦克风求得的增益就这样适用于另一个麦克风的话,目标声音在每个频带都被压制、或者噪声大大残留。其结果,难以充分地防止音乐噪声的发生。
因此,本发明正是为了解决上述那样的问题而做出的,其目的在于提供能够不受麦克风的配置的影响地使音乐噪声的发生充分地降低的声源分离装置、声源分离方法、以及程序。
解决课题的手段
为了解决上述课题,本发明的一个形态为从混合有多个声源所发出的声源信号的混合音中分离来自目标声源的声源信号的声源分离装置,其特征在于,包括:第1波束形成处理部,其通过对来自由被输入所述混合音的两个麦克风构成的麦克风对的各自的输出信号进行使用了相互不同的第1系数的、在频域的积和运算,以与连接所述两个麦克风的线段相交的平面为界限,使得从与包含所述目标声源的方向的区域相反的区域到来的声源信号衰减;第2波束形成处理部,其通过对来自所述麦克风对的各自的输出信号乘以第2系数,对所得到的结果在频域进行积和运算,以所述平面为界限使得从包含所述目标声源的方向的区域到来的声源信号衰减,所述第2系数与所述相互不同的第1系数在频域为复共轭的关系;功率计算部,其根据通过所述第1波束形成处理部得到的信号计算具有每个频率的功率值的第1频谱信息,进一步地根据通过所述第2波束形成处理部得到的信号计算具有每个频率的功率值的第2频谱信息;加权系数算出部,其根据所述第1频谱信息与所述第2频谱信息的每个频率的功率值的差值,计算用于与所述第1波束形成处理部所得到的信号相乘的每个频率的加权系数,所述声源分离装置根据由所述第1波束形成处理部得到的信号与所述加权系数算出部所算出的所述加权系数的乘法运算结果,从所述混合音分离来自所述目标声源的声源信号。
又,本发明的其他的形态为一种声源分离方法,其由具有第1波束形成处理部、第2波束形成处理部、功率计算部、加权系数算出部和声源分离部的声源分离装置所执行,其特征在于,包括以下步骤:第1步骤,在该步骤中,所述第1波束形成处理部通过对来自由被输入混合音的两个麦克风构成的麦克风对的各自的输出信号进行使用了相互不同的第1系数的、在频域的积和运算,以与连接所述两个麦克风的线段相交的平面为界限,使得从与包含目标声源的方向的区域相反的区域到来的声源信号衰减,所述混合音混合有多个声源所发出的声源信号;第2步骤,在该步骤中,所述第2波束形成处理部通过对来自所述麦克风对的各自的输出信号乘以第2系数,对所得到的结果在频域进行积和运算,以所述平面为界限使得从包含所述目标声源的方向的区域到来的声源信号衰减,所述第2系数与所述相互不同的第1系数在频域为复共轭的关系;第3步骤,在该步骤中,所述功率计算部根据通过所述第1步骤得到的信号计算具有每个频率的功率值的第1频谱信息,进一步地根据通过所述第2步骤得到的信号计算具有每个频率的功率值的第2频谱信息;第4步骤,在该步骤中,所述加权系数算出部根据所述第1频谱信息与所述第2频谱信息的每个频率的功率值的差值,计算用于与所述第1步骤所得到的信号相乘的每个频率的加权系数,所述声源分离方法根据由所述第1步骤得到的信号与所述第4步骤所算出的所述加权系数的乘法运算结果,从所述混合音分离来自所述目标声源的声源信号。
又,本发明的其他的形态为一种声源分离程序,其特征在于,使得计算机执行以下的步骤:第1处理步骤,在该步骤中,通过对来自被输入混合音的两个麦克风构成的麦克风对的各自的输出信号进行使用了相互不同的第1系数的、在频域的积和运算,以与连接所述两个麦克风的线段相交的平面为界限,使得从与包含目标声源的方向的区域相反的区域到来的声源信号衰减,所述混合音混合有多个声源所发出的声源信号;第2处理步骤,在该步骤中,通过对来自所述麦克风对各自的输出信号乘以第2系数,对所得到的结果在频域进行积和运算,以所述平面为界限使得从包含所述目标声源的方向的区域到来的声源信号衰减,所述第2系数与所述相互不同的第1系数在频域为复共轭的关系;第3处理步骤,在该步骤中,根据通过所述第1处理步骤得到的信号计算具有每个频率的功率值的第1频谱信息,进一步地根据通过所述第2处理步骤得到的信号计算具有每个频率的功率值的第2频谱信息;第4处理步骤,在该步骤中,根据所述第1频谱信息与所述第2频谱信息的每个频率的功率值的差值,计算用于与所述第1步骤所得到的信号相乘的每个频率的加权系数,所述声源分离程序根据由所述第1处理步骤得到的信号与所述第4处理步骤所算出的所述加权系数的乘法运算结果,从所述混合音分离来自所述目标声源的声源信号。采用这样的构成,尤其是在存在扩散性噪声的环境下也能够抑制音乐噪声的发生、且能够从混合有多个声源所发出的声源信号的混合音当中分离来自目标声源的声源信号。
发明的效果
能够维持专利文献1的效果,且使得音乐噪声的发生充分地降低。
附图说明
图1是示出第1实施形态所涉及的声源分离系统的构成的图。
图2是示出第1实施形态所涉及的波束形成部的构成的图。
图3是示出功率计算部的构成的图。
图4是示出相对于麦克风输入信号的、专利文献1所涉及的声源分离装置和本发明的第1实施形态所涉及的声源分离装置中的处理结果的图。
图5是示出图4的处理结果的一部分的放大图。
图6是示出噪声推定部的构成的图。
图7是示出噪声均衡部的构成的图。
图8是示出第1实施形态所涉及的声源分离系统的另一构成的图。
图9是示出第2实施形态所涉及的声源分离系统的构成的图。
图10是示出控制部的构成的图。
图11是示出第3实施形态所涉及的声源分离系统的构成的一例的图。
图12是示出第3实施形态所涉及的声源分离系统的构成的一例的图。
图13是示出第3实施形态所涉及的声源分离系统的构成的一例的图。
图14是示出第4实施形态所涉及的声源分离系统的构成的图。
图15是示出指向性控制部的构成的图。
图16是示出本发明的声源分离装置的指向特性的图。
图17是示出指向性控制部的另一构成的图。
图18是示出设置有目标声音修正部的情况下本发明的声源分离装置的指向特性的图。
图19是示出声源分离系统的处理的一例的流程图。
图20是示出噪声推定部的处理的详细情况的流程图。
图21是示出噪声均衡部的处理的详细情况的流程图。
图22是示出残留噪声压制算出部的处理的详细情况的流程图。
图23是示出就波束形成器30的输出值对邻近声音和远距离声音的情况进行比较的图表的图(麦克风间隔3cm)。
图24是示出就波束形成器30的输出值对邻近声音和远距离声音的情况进行比较的图表的图(麦克风间隔1cm)。
图25是示出专利文献1的声源分离装置的声源分离的边界面的图。
图26是示出专利文献1的声源分离装置的指向特性的图。
具体实施方式
以下,参照附图对本发明所涉及的实施形态进行说明。
[第1实施形态]
图1是第1实施形态所涉及的声源分离系统的基本的构成的图。该系统包括两个麦克风(以下称为「麦克风」)10、11,和声源分离装置1。以下,设麦克风为两个来对实施形态进行说明,但麦克风的数量可以是至少两个以上,并不限定于两个。
该声源分离装置1具有:包含未图示的、对整体进行控制并执行运算处理的CPU以及ROM、RAM、硬盘装置等的存储装置的硬件;和包含存储在存储装置中的程序、数据等的软件。通过这些硬件以及软件来实现声源分离装置1的各功能模块。
两个麦克风10、11在平面上相互分开地设置,接收从两个声源R1、R2发出的信号。此时,使得这两个声源R1、R2分别位于以与连接两个麦克风10、11的线段相交的平面(以下、设为分离面)为边界而分割的两个区域(以下称为「分离面的左右」),但未必需要存在于相对于分离面左右对称的位置。另外,在本实施形态中,对将分离面设为与在面内含有连接两个麦克风10、11的线段的平面垂直相交、且通过所述线段的中点的平面的实例进行说明。
又,设从声源R1发出的声音为应取得的目标声音,从声源R2发出的声音为应压制的噪声(本说明书通篇都是同样的)。又,噪声并不限定于一个,也可以是多个。不过,使得目标声音与噪声的方向不同。
在频谱分析部20、21中,就每一个麦克风输出对由该麦克风10、11得到的两个声源信号分别进行频率分析,在波束形成部3中通过波束形成器30、31对这些被频率分析了的信号进行过滤,该波束形成器30、31在分离面的左右形成了死角,在功率计算部40、41中计算其过滤输出的功率进行计算。另外,波束形成器30、31优选为,在分离面的左右相对于分离面对称地形成死角。
[波束形成部]
首先,参照图2对由波束形成器30、31形成的波束形成部3的构成进行说明。将由频谱分析部20、频谱分析部21就每个频率成分进行分解得到的信号x1(ω)、x2(ω)作为输入,通过乘法器100a、100b、100c、100d,分别进行与滤波系数w1(ω)、w2(ω)、w1 *(ω)、w2 *(ω)(*表示存在复共轭的关系)的乘法运算。
而且,通过加法器100e、100f将两个乘法结果相加,输出滤波处理结果ds1(ω)、ds2(ω)作为其输出。设相对于目的方位θ1的增益为1,在其他方向θ2形成一个死角(增益0)的波束形成器30的滤波矢量(フィルタベクトル)为W1(ω,θ1,θ2)=[w1(ω,θ1,θ2),w2(ω,θ1,θ2)]T、观测信号为X(ω,θ1,θ2)=[x1(ω,θ1,θ2),x2(ω,θ1,θ2)]T的时候,波束形成器30的输出ds1(ω)可以由下式求出。其中,T表示转置操作,H表示共轭转置操作。
[数式1]
ds1(ω)=W1(ω,θ1,θ2)HX(ω,θ1,θ2)···(1)
又,设波束形成器31的滤波矢量为W2(ω,θ1,θ2)=[w1 *(*ω,θ1,θ2),w2 *(ω,θ1,θ2)]T时,波束形成器31的输出ds2(ω)可以由下式求出。
[数式2]
ds2(ω)=W2(ω,θ1,θ2)HX(ω,θ1,θ2)···(2)
这样,波束形成部3通过使用复共轭滤波系数,在相对于分离面对称的位置形成死角。在此,ω表示角频率,相对于频率存在fω=2πf的关系。
[功率计算部]
接着,参照图3对功率计算部40、41进行说明。功率计算部40、41通过以下的计算式将来自波束形成器30、波束形成器31的输出ds1(ω)、ds2(ω)转换为功率谱信息ps1(ω)、ps2(ω)。
[数式3]
ps1(ω)=[Re(ds1(ω))]2+[Im(ds1(ω))]2···(3)
[数式4]
ps2(ω)=[Re(ds2(ω))]2+[Im(ds2(ω))]2···(4)
[加权系数算出部]
功率计算部40、41的输出ps1(ω)、ps2(ω)被用作加权系数算出部50的两个输入。加权系数算出部50将该两个波束形成器30、31的输出的功率谱信息作为输入,输出每个频率的加权系数GBSA(ω)。
加权系数GBSA(ω)是基于所述功率谱信息彼此间的差值的值,作为加权系数GBSA(ω)的一例,考虑到有以以下的值作为定义域的单调增加函数的输出值,其中作为该定义域的值是,对每个频率计算ps1(ω)与ps2(ω)的差值,在ps1(ω)的值比ps2(ω)的值大的情况下表示ps1(ω)与ps2(ω)的差值的平方根除以ps1(ω)的平方根所得到的值,在ps1(ω)的值为ps2(ω)以下的值的情况下表示0的值。用数式表示加权系数GBSA(ω)时,如下所示。
[数式5]
G BSA ( ω ) = F ( max ( ps 1 ( ω ) - ps 2 ( ω ) , 0 ) ps 1 ( ω ) ) . . . ( 5 )
在式子(5)中,max(a,b)是指将a以及b中较大的值返回的函数。又,F(x)是在定义域x≧0满足dF(x)/dx≧0的广义单调增加函数,例如想到有S形函数、2次函数等。
在此,对GBSA(ω)ds1(ω)进行考察。如式子(1)所示那样,ds1(ω)是通过相对于观测信号X(ω,θ1,θ2)的线性处理而得到的信号。另一方面,GBSA(ω)ds1(ω)是通过相对于ds1(ω)的非线性处理得到的信号。
图4是示出相对于(a)麦克风的输入信号的、(b)专利文献1所涉及的声源分离装置的处理结果、(c)本实施形态所涉及的声源分离装置的处理结果的图。即,图4(b)以及(c)是以声谱图表示GBSA(ω)ds1(ω)的一例。在本实施形态所涉及的声源分离装置的单调增加函数F(x)中适用了S形函数。一般来说,S形函数是由1/(1+exp(a-bx))表示的函数,在图4(c)的处理结果中适用a=4,b=6。
又,图5是在时间轴方向上放大图4的(a)~(c)的、某时间带中的声谱图的一部分(符号5)的放大图。观察相对于输入声音(图5的(a))的专利文献1的声源分离装置的处理结果(图5的(b))的声谱图,发现与本实施形态的声源分离装置的处理结果(图5的(c))相比,噪声成分的能量在时间方向、频率方向上分布不均匀,产生音乐噪声这样的形态。
另一方面,发现图4的(c)的声谱图的噪声成分如输入信号那样,为噪声成分的能量在时间方向、频率方向上分布均匀,音乐噪声较少的形态。
[音乐噪声降低增益算出部]
GBSA(ω)ds1(ω)是来自充分地降低了音乐噪声的目标声源的声源信号,但在扩撒性噪声等来自各种方向那样的噪声的情况下,作为非线性处理的GBSA(ω)在每个频率区间(周波数ビン)以及每个信息段(フレ一ム)其值都发生较大的变化,具有产生音乐噪声的倾向。因此,通过对非线性处理后的输出附加不产生音乐噪声的非线性处理前的信号来较少音乐噪声。具体来说,计算出能够以规定的比例将输出GBSA(ω)与波束形成器30的输出ds1(ω)相乘而得到的信号XBSA(ω)和波束形成器30的输出ds1(ω)进行相加的信号。
又,作为其他的方法,还有再次计算出与波束形成器30的输出ds1(ω)相乘的增益的方法。在音乐噪声降低增益算出部60中,再次算出增益值GS(ω),该增益值GS(ω)是使得加权系数算出部50的输出GBSA(ω)与波束形成器30的输出ds1(ω)相乘而得到的信号XBSA(ω)和波束形成器30的输出ds1(ω)以规定的比例相加的增益值。
在此,在XBSA(ω)中以某比例混合了波束形成器30的输出ds1(ω)的(XS(ω))由以下数式表示。γS是确定混合时的比例的加权系数,是比0大且比1小的值。
[数式6]
XS(ω)=γSXBSA(ω)+(1-γS)ds1(ω)···(6)
又,将式(6)展开为对波束形成器30的输出ds1(ω)乘以增益的形式的话,如以下所示。
[数式7]
XS(ω)=ds1(ω){γS(GBSA(ω)-1)+1}
=ds1(ω)GS(ω)···(7)
即,音乐噪声降低增益算出部60能够由从GBSA(ω)减去1的减法部、对减法部得到的值乘以加权系数γS的乘法部、和对乘法部得到的值加1的加法部构成。即,基于这些构成,再次计算出降低了音乐噪声的增益值GS(ω)作为与波束形成器30的输出ds1(ω)相乘的增益。
根据增益值GS(ω)与波束形成器30的输出ds1(ω)的乘法运算结果而得到的信号成为与GBSA(ω)ds1(ω)相比、降低了音乐噪声的来自目标声源的声源信号。通过利用后述的时域波形转换部120将该信号转换为时域信号并进行输出,能够做成来自目标声源的声源信号。
然而,由于增益值GS(ω)与GBSA(ω)相比较必定比较大,因此虽然降低了音乐噪声但增加了噪声成分。因此,为了压制残留噪声,在音乐噪声降低增益算出部60的后段设置残留噪声压制增益算出部110,进一步再次算出最佳增益值。
又,在对波束形成器30的输出ds1(ω)乘以音乐噪声降低增益算出部60所算出的增益GS(ω)所得到的XS(ω)的残留噪声中,也包含有突发性噪声。因此,为了也能够推定突发性噪声,在残留噪声压制增益算出部110所利用的推定噪声的计算中,导入以下所说明的分块矩阵部70和噪声均衡部100。
[噪声推定部]
噪声推定部70的框图在图6(a)~(d)中示出。噪声推定部70根据由麦克风10、11取得的两个信号进行自适应滤波,通过取消作为目标声音的来自声源R1的信号成分,仅取得噪声成分。
在此,将来自声源R1的信号作为S(t)。另外,来自声源R1的声音比来自声源R2的声音先到达麦克风10。将从除此以外的声源发出的声音的信号设为nj(t),将它们作为噪声。此时,麦克风10的输入x1(t)和麦克风11的输入x2(t)如以下所示。
[数式8]
x 1 ( t ) = h s 1 s ( t ) + Σ j = 1 k h nj 1 n j ( t ) . . . ( 9 - 1 )
x 2 ( t ) = h s 2 s ( t ) + Σ j = 1 k h nj 2 n j ( t ) . . . ( 9 - 2 )
Hs1:从目标声音到麦克风10的传递函数
Hs2:从目标声音到麦克风11的传递函数
Hnj1:从噪声到麦克风10的传递函数
Hnj2:从噪声到麦克风11的传递函数
图6所示的自适应滤波部71将麦克风10的输入信号和自适应滤波系数进行卷积,计算出与由麦克风11得到的信号成分一致的模拟信号。接着,在减法部72中,从麦克风11的信号减去模拟信号,计算出来自麦克风11中所包含的声源R1的信号中的误差信号(噪声信号)。该误差信号xABM(t)成为噪声推定部70的输出信号。
[数式9]
xABM(t)=x2(t)-HT(t)·x1(t)···(10)
进一步地,在自适应滤波部71根据误差信号进行自适应滤波系数的更新。例如,自适应滤波器的系数H(t)的更新利用NLMS(归一化最小均方)。又,也可以根据外部的VAD(语音活动性检测)值、后述的控制部160的信息对自适应滤波器的更新进行控制(图6(c)、图6(d))。具体来说,例如,在阈值比较部74中,可以在判断为来自控制部160的控制信号比规定的阈值大的情况下,对自适应滤波器的系数H(t)进行更新。另外,VAD值是表示目标声音为发声状态还是非发声状态的值。作为该值,可以是On/Off的二值变换,也可以是表示发声状态的概率那样的具有某范围的概率值。
又,此时,假设目标声音和噪声不相关的话,噪声推定部70的输出xABM(t)如以下那样算出。
[数式10]
x ABM ( t ) = Σ j = 1 k h nj 2 n j ( t ) - H T ( t ) · Σ j = 1 k h nj 1 n j ( t )
+ ( h s 2 h s 1 - 1 - H ( t ) ) T h s 1 s ( t ) . . . ( 11 )
此时,如果能够推定压制目标声音那样的传递函数的话,则输出xABM(t)如以下所示。
[数式11]
(设能够推定压制目标声音那样的传递函数
Figure BDA00002273934100113
x ABM ( t ) = Σ j = 1 k h nj 2 n j ( t ) - ( h s 2 h s 1 - 1 ) T · Σ j = 1 k h nj 1 n j ( t ) . . . ( 12 )
基于上述内容,可以对目标声音方向以外的噪声成分进行某程度的推定。尤其是,与Griffith-Jim手法不同,不采用固定滤波器,所以可以对于麦克风增益的不同具有鲁棒性地压制目标声音。又,如图6(b)~图6(d)所示,能够通过改变延迟器73中的滤波器的DELAY值,来控制被判断为噪声的空间范围。由此,可以根据DELAY值缩小或扩大指向性。
另外,作为自适应滤波器,除了上述所列举的之外,只要是对于麦克风的增益特性差异具有鲁棒性的滤波器即可。
又,相对于噪声推定部70的输出,在频谱分析部80进行频率分析,在噪声功率计算部90计算每个频率区间的功率。又,作为噪声推定部70的输入,可以是频谱分析后的麦克风输入信号。
[噪声均衡部]
对噪声推定部70的输出进行了频率分析后得到的XABM(ω)中所包含的噪声量、能够以规定的比例对加权系数GBSA(ω)与波束形成器30的输出ds1(ω)相乘而得到的信号XBSA(ω)和波束形成器30的输出ds1(ω)进行相加的信号XS(ω)中所包含的噪声量,这两者的频谱的形状相似,但其能量的量却存在背离。由此,在噪声均衡部100中,为了使得两者的能量的量一致而进行修正。
噪声均衡部100的框图如图7所示。另外,以下,对使用功率计算部90的输出pXABM(ω)、音乐噪声降低增益算出部60的输出GS(ω)、波束形成器30的输出ds1(ω)作为噪声均衡部100的输入的实例进行说明。
首先,乘法部101进行ds1(ω)与GS(ω)的乘法运算。相对于其输出,通过功率计算部102求出功率。平滑部103、104通过接收外部的VAD值、来自后述的控制部160的信号在判断为噪声的区间,对功率计算部90的输出pXABM(ω)和功率计算部102的输出pXS(ω)分别进行平滑处理。“平滑处理”是指,对于连续的数据,为了降低大大偏离其他的数据的数据的影响而对数据进行平均化的处理。在本实施形态中,采用一次IIR滤波器进行平滑处理,经平滑处理后的功率计算部90的输出pX'ABM(ω)和功率计算部102的输出pX'S(ω)是将过去的帧的经平滑处理后的功率计算部90的输出和功率计算部102的输出使用于当前处理的帧的功率计算部90的输出pXABM(ω)和功率计算部102的输出pXS(ω)而计算出的。作为平滑处理的一例,经平滑处理后的功率计算部90的输出pX'ABM(ω)和功率计算部102的输出pX'S(ω)如以下的式子(13-1)那样计算出。在此,为了使得时间序列容易明白,设置处理帧编号m,将当前处理帧设为m、将前一个处理帧设为m-1。另外,平滑部103中的处理可以在阈值比较部105判断为来自控制部160的控制信号比规定的阈值小的情况下执行。
[数式12]
pX′S(ω,m)=α·pX′S(ω,m-1)+(1-α)·pXS(ω,m)···(13-1)
pX′ABM(ω,m)=α·pX′ABM(ω,m-1)+(1-α)·pXABM(ω,m)···(13-2)
均衡更新部106计算出pX'ABM(ω)与pX'S(ω)的输出比。即,均衡更新部106的输出如下所示。
[数式13]
H EQ ( ω , m ) = p X S ′ ( ω , m ) p X ABM ′ ( ω , m ) . . . ( 14 )
均衡适用部107根据均衡更新部106的输出HEQ(ω)和功率计算部90的输出pXABM(ω)计算出XS(ω)中所包含的推定噪声的功率pλd(ω)。pλd(ω)例如可以根据以下那样的计算算出。
[数式14]
d(ω)=HEQ(ω)·pXABM(ω)···(15)
[残留噪声压制增益算出部]
在残留噪声压制增益算出部110中,为了压制对波束形成器30的输出ds1(ω)适用了增益值GS(ω)时所残留的噪声成分,再次计算与ds1(ω)相乘的增益。即,在残留噪声压制增益算出部110中,相对于对ds1(ω)适用了GS(ω)后的值XS(ω),基于残留噪声成分的推定值λd(ω),计算出适当地去除XS(ω)中所包含的噪声成分的增益,即计算出残留噪声压制增益GT(ω)。增益的计算经常采用维纳滤波器、MMSE-STSA法(参照非专利文献1)。但是,MMSE-STSA法是假设噪声为正态分布的,所以存在着突发性噪声等不符合MMSE-STSA的假设的情况。因此,在本实施形态中,利用的是比较容易压制突发性噪声的推定器。但是,推定器可以采用任何手法。
残留噪声压制增益算出部110如以下所述那样计算出增益GT(ω)。首先,残留噪声压制增益算出部110计算出基于后验SNR((S+N)/N))而导出的瞬时的先验SNR(干净信噪比(S/N))。
[数式15]
γ ( ω ) = max ( | X S ( ω ) | 2 p λ d ( ω ) - 1,0 ) . . . ( 16 )
[0065]
接着,残留噪声压制增益算出部110根据DECISION-DIRECTED APPROACH计算出先验SNR(干净信噪比(S/N))。
[数式16]
ξ ( ω , m ) = α · | X S ( ω , m - 1 ) | 2 p λ d ( ω ) + ( 1 - α ) · γ ( ω ) . . . ( 17 )
而且,残留噪声压制增益算出部110根据先验SNR计算出最佳增益值。以下的式子(18)中的βp(ω)是规定增益的下限值的频谱底层(floor)值。通过将该值设定得较大,抑制了目标声音的音质劣化但残留噪声量增加。另一方面,设定得较小的话,残留噪声量变少但目标声音的音质劣化变大。
[数式17]
G p ( ω ) = max ( ξ ( ω , m ) 1 + ξ ( ω , m ) , β p ( ω ) ) . . . ( 18 )
残留噪声压制增益算出部110的输出值如以下那样表示。
[数式18]
XP(ω)=XS(ω)GP(ω)
=ds1(ω)GT(ω)···(19)
where,GT(ω)={γS(1-GBSA(ω))+1}GP(ω)
由此,再次算出降低音乐噪声且残留噪声也变小的增益值GT(ω)作为与波束形成器30的输出ds1(ω)相乘的增益。又,为了防止过度压制目标声音,也可以根据外部VAD信息、本发明的控制部160的控制信号的值来调整λd(ω)的值。
[增益乘法部]
加权系数算出部50的输出GBSA(ω)、音乐噪声降低增益算出部60的输出GS(ω)、或者残留噪声压制算出部110的输出GT(ω)被用作为增益乘法部130的输入。增益乘法部130基于波束形成器30的输出ds1(ω)与加权系数GBSA(ω)、音乐噪声降低增益GS(ω)、或者残留噪声压制GT(ω)的乘法运算结果输出信号XBSA(ω)。即,作为XBSA(ω)的值。例如可以采用,ds1(ω)与GBSA(ω)的乘积、ds1(ω)与GS(ω)的乘积、或者ds1(ω)与GT(ω)的乘积。
尤其是根据ds1(ω)与GT(ω)的乘积得到的来自目标声源的声源信号为音乐噪声、噪声成分极其少的信号。
[数式19]
XBSA(ω)=GT(ω)ds1(ω)···(20)
[时域波形转换部]
时域波形转换部120将增益乘法部130的输出XBSA(ω)转换为时域信号。
[声源分离系统的其他构成例]
又,图8是表示本实施形态所涉及的声源分离系统的另一构成例的图。本构成与图1所示的声源分离系统的构成的差异在于以下这一点,即在图1的声源分离系统中噪声推定部70在时域来实现,而在图8的声源分离系统中噪声推定部70在频域来实现。另外,其他的构成与图1的声源分离系统的构成相同。在该构成的情况下,不需要频谱分析80。
[第2实施形态]
图9是示出本发明的第2实施形态所涉及的声源分离系统的基本的构成的图。在本实施形态所涉及的声源分离系统中,其特征是具有控制部160。控制部160的特征在于,基于全频带的加权系数GBSA(ω)对噪声推定部70、噪声均衡部100、残留噪声压制增益算出部110的内部参数进行控制。作为内部参数的例子,例举有自适应滤波器的步长、加权系数GBSA(ω)的频谱底层值β、推定噪声的噪声量等。
控制部160具体执行以下那样的处理。例如,计算出加权系数GBSA(ω)在全频带的平均值。如果该平均值大,则能够判断声音存在概率高,因此控制部160对于所算出的平均值和规定的阈值进行比较,根据其比较结果控制其他的功能模块。
又,例如,控制部160对在0~1.0中的每0.1计算由加权系数算出部50算出的加权系数GBSA(ω)的直方图。另外,在GBSA(ω)的值大的情况下,声音存在的概率高,在GBSA(ω)的值小的情况下,声音存在的概率低,因此预先准备表示出该倾向的加权表。而且,对所算出直方图乘以加权表,计算出它们的平均值,与阈值进行比较,根据其比较结果来控制其他的功能模块。
又,例如,控制部160对在0~1.0中的每0.1计算加权系数GBSA(ω)的直方图之后,例如,对分布于0.7~1.0的范围中的个数进行计数,对该数量与阈值进行比较,根据其比较结果对其他的功能模块进行控制。
又,控制部160可以接收来自两个麦克风(麦克风10、11)的至少一方的输出信号。该情况下的控制部160的框图在图10中示出。控制部160中的处理的基本想法为,通过能量比较部167对基于ds1(ω)与GBSA(ω)乘法运算结果的信号XBSA(ω)和噪声推定部165以及频谱分析部166所进行的处理的输出XABM(ω)的功率谱密度进行比较。
具体来说,关于XBSA(ω)和XABM(ω)的功率谱密度,将分别对其取对数并进行了平滑后的值设为XBSA(ω)'、XABM(ω)'的话,控制部160如以下那样计算出目标声音的推定SNR D(ω)。
[数式20]
D(ω)=max(XBSA′-XABM′,0)···(25)
而且,与上述的噪声推定部70以及频谱分析部80的处理相同地,根据D(ω)来检测稳态(噪声)成分DN(ω),从D(ω)减去DN(ω),由此能够对D(ω)的突发噪声成分DS(ω)进行检测。
[数式21]
DS(ω)=D(ω)-DN(ω)···(26)
最后,对DS(ω)和预先决定的阈值进行比较,根据器其比较结果来控制其他的功能模块。
[第3实施形态]
(第1构成)
图11是示出本发明的第3实施形态所涉及的声源分离系统的基本的构成的一例的图。
图11所示的声源分离系统中的声源分离装置1具有:频谱分析部20、21,波束形成器30、31,功率计算部40、41,加权系数算出部50,加权系数乘法部310,以及时域波形转换部120。在此,加权系数乘法部310以外的构成与上述的其他的实施形态中的构成相同。
加权系数乘法部310将通过波束形成器30得到的信号ds1(ω)和加权系数算出部50所算出的加权系数进行相乘。
(第2构成)
图12是示出本发明的第3实施形态所涉及的声源分离系统的基本的构成的另一例的图。
图12所示的声源分离系统的声源分离装置1具有:频谱分析部20、21,波束形成器30、31,功率计算部40、41,加权系数算出部50,加权系数乘法部310,音乐噪声降低部320,残留噪声压制部330,噪声推定部70,频谱分析部80,功率计算部90,噪声均衡部100,以及时域波形转换部120。在此,关于加权系数乘法部310、音乐噪声降低部320、残留噪声压制部330以外的构成,与上述的其他的实施形态中的构成相同。
音乐噪声降低部320输出以规定的比例对加权系数乘法部310的输出结果和从波束形成器30得到的信号进行相加后的结果。
残留噪声压制部330根据音乐噪声降低部320的输出结果和噪声均衡部100的输出结果来对音乐噪声降低部320的输出结果中所包含的残留噪声进行压制。
又,在图12的构成中,噪声均衡部100根据音乐噪声降低部的输出结果和噪声推定部70所算出的噪声成分来计算音乐噪声降低部320的输出结果中所包含的噪声成分。
在此,在能够以规定的比例将加权系数GBSA(ω)乘以波束形成器30的输出ds1(ω)所得到的信号XBSA(ω)与波束形成器30的输出ds1(ω)进行相加的信号XS(ω)中,根据噪声环境存在有包含突发性噪声的情况。因此,为了也能够推定突发性噪声,导入以下所说明的噪声推定部70和噪声均衡部100。
基于以上那样的构成,图12的声源分离装置1根据残留噪声压制部330的输出结果从混合音中分离来自目标声源的声源信号。
即,在图12的声源分离装置1中不计算音乐噪声降低增益GS(ω)、残留噪声压制增益GT(ω)这一点是图12的声源分离装置1与第1实施形态以及第2实施形态的声源分离装置1的不同点。即便是图12那样的构成,也发挥了与第1实施形态所涉及的声源分离装置1相同的效果。
(第3构成)
又,图13是示出本发明的第3实施形态所涉及的声源分离系统的基本构成的另一例的图。图13所示的声源分离装置1是在图12的声源分离装置1的构成中增加了控制部160。控制部160的功能与第2实施形态中所说明的功能相同。
[第4实施形态]
图14是示出本发明的第4实施形态所涉及的声源分离系统的基本的构成的图。在本实施形态所涉及的声源分离系统中,其特征是具有指向性控制部170、目标声音修正部180、以及到来方向推定部190。
指向性控制部170根据到来方向推定部190所推定的目标声音位置,对通过频谱分析部20、21进行了频率分析的麦克风输出中的一个麦克风输出赋予延迟操作,以使得想要分离的两个声源R1、R2虚拟地尽量相对于分离面对称。即,使得分离面虚拟地旋转,但此时的旋转角,要根据频带计算出最佳值。
然而,由于在指向性控制部170中缩小了指向性之后通过波束形成部3进行滤波处理,因此具有目标声音的频率特性产生若干畸变这样的问题。又,由于延迟量被赋予波束形成部3的输入信号,具有输出增益变小这样的问题。因此,采用目标声音修正部180对目标声音输出的频率特性进行修正。
[指向性控制部]
图25示出两个声源R1'(目标声音)、声源R2'(噪声)相对于旋转了θτ的分离面呈左右对称的状况,所述旋转了θτ的分离面是相对于与连接麦克风的线段相交的原始的分离面旋转的。如专利文献1所记载的那样,通过对一个麦克风所取得的信号赋予一定延迟量τd,能够实现与图25所示的状况等价的状况。即,为了对麦克风间的相位差进行操作,调整指向特性,在上述的式子(1)中乘以相位旋转器D(ω)。另外,在以下的数式中,W1(ω)=W1(ω,θ1,θ2)、X(ω)=X(ω,θ1,θ2)。
[数式22]
ds 1 ( ω ) = W 1 H ( ω ) D ( ω ) X ( ω ) . . . ( 27 - 1 )
D(ω)=exp(jωτd)···(27-2)
在此,延迟量τd如以下那样算出。
[数式23]
τ d = d sin θ τ c . . . ( 28 )
d为麦克风间的距离[m],c为音速[m/s]。
然而,在基于相位信息进行阵列处理的情况下,必须满足由以下的数式所表现的空间采样定理。
[数式24]
d < c&pi; &omega; . . . ( 29 )
为了满足该定理,容许的延迟量的最大值τ0
[数式25]
d + &tau; 0 &CenterDot; c = c&pi; &omega; ···(30)
&DoubleLeftRightArrow; &tau; 0 = &pi; &omega; - d c
即,各频率ω变得越大,则容许的延迟量τ0变得越小。然而,采用专利文献1的声源分离装置的话,由式子(27-2)赋予的延迟量是一定的,因此在频域的高频区域产生不满足式子(29)的情况。其结果,如图26所示,从大大偏离所期望的声源分离面的方向到来的相反区域的高频成分的声音被输出。
因此,在本实施形态所涉及的声源分离装置中,如图15所示,在指向性控制部170中设置最佳延迟量算出部171,不是对使分离面虚拟地旋转时的旋转角θτ赋予一定的延迟,而是计算出对于每个频带都满足空间采样定理的最佳延迟量,由此来解决上述的问题。
指向性控制部170是在通过式子(28)赋予了基于θτ的延迟量时在最佳延迟量算出部171判定是否对于每个频率都满足空间采样定理,如果满足空间采样定理的话,将与θτ对应的延迟量τd适用于相位旋转器172,如果不满足空间采样定理,则将延迟量τ0适用于相位旋转器172。
[数式26]
d s 1 ( &omega; ) = W 1 H ( &omega; ) D ( &omega; ) X ( &omega; ) . . . ( 31 )
where,
D ( &omega; ) = diag ( exp [ j&omega; &tau; d ] , 1 ) if &theta; &tau; < sin - 1 ( c&pi; / d&omega; - 1 ) diag ( exp [ j&omega; &tau; 0 ] , 1 ) else
图16是示出本实施形态所涉及的声源分离装置1的指向特性的图。如图16所示,通过使用式子(31)的延迟量,可以解决从大大偏离所期望的声源分离面的方向到来的相反区域的高频成分的声音被输出这样的问题。
又,图17是示出指向性控制部170的另一构成的图。在该情况下,最佳延迟量算出部171可以将根据式子(31)所算出的延迟量仅赋予给一个麦克风输入,而是通过相位旋转器172、173,对两个麦克风输入分别赋予一半的延迟,整体上实现相同量的延迟操作。即,可以不对一个麦克风所取得的信号赋予延迟量τd(或者τ0),而是通过对一个麦克风所取得的信号赋予延迟量τd/2(或者τ0/2),对另一个麦克风所取得的信号赋予延迟量-τd/2(或者-τ0/2),来使得整体的延迟差为τd(或者τ0)。
[目标声音修正部]
作为其他的问题点,例举有由于在指向性控制部170缩小了指向性之后利用波束形成器30、31进行BSA处理,目标声音的频率特性产生若干畸变的问题。又,由于式子(31)的处理,产生输出增益变小的问题。因此,为了修正目标声音输出的频率特性而设置目标声音修正部180以进行频率均衡。即,由于目标声音所在之处被大致固定,因而对被推定的目标声音位置进行修正。在本实施形态中,利用了将表示从某点声源到各麦克风的传播时间、衰减量的传递函数简易化地模拟的物理模型。在此,以麦克风10的传递函数为基准值,将麦克风11的传递函数表现为相对于麦克风10的相对值。此时,从目标声音位置达到各麦克风的声音的传播模式Xm(ω)=[Xm1(ω),Xm2(ω)]如以下那样表示。γs为麦克风10与目标声音的距离,θS为目标声音的方向。
[数式27]
Xm1(ω)=1
···(32)
Xm2(ω)=u-1·exp{-jωrm d(u-1)/c}
where, u = 1 + ( 2 / r m ) cos &theta; m + ( 1 / r m 2 )
通过利用该物理模型,能够预先假设从被推定的目标声音位置发出的声音如何被输入至各麦克风中,相对于目标声音的畸变程度也被简易地计算出。相对于上述的传播模式的加权系数为GBSA(ω|Xm(ω)),在目标声音修正部180中将其倒数作为均衡器并加以保持,由此能够修正目标声音的频率畸变。由此,均衡器可以如下式(33)求出。
[数式28]
E m ( &omega; ) = 1 G BSA ( &omega; | X m ( &omega; ) ) . . . ( 33 )
基于以上所述,由加权系数算出部50所算出的加权系数GBSA(ω)通过目标声音修正部180被修正为以下数式所表示的GBSA'(ω)。
[数式29]
GBSA′(ω)=Em(ω)GBSA(ω)···(34)
图18是示出设θS为0度、γS为1.5[m]并设置了目标声音修正部180的均衡器时的声源分离装置1的指向特性的图。从图18可以确认相对于从0度方向到来的声源,没有输出信号的频率畸变。
另外,音乐噪声降低增益算出部60将该被修正后的加权系数GBSA'(ω)作为输入。即,式子(7)等的GBSA(ω)被置换为GBSA'(ω)。
又,由麦克风10、11得到的信号中的至少一方可以被输入控制部160中。
[声源分离系统的处理流程]
图19是示出声源分离系统的处理的一例的流程图。
在频谱分析部20、21中,相对于在麦克风10、20分别得到的输入信号1、输入信号2执行频率分析(步骤S101、S102)。又,在此,可以在到来方向推定部190进行目标声音的位置的推定,在指向性控制部170中,根据被推定的声源R1、R2的位置计算出最佳延迟量,根据该最佳延迟量使得输入信号1与相位旋转器相乘。
接着,对于在步骤S101、S102被频率分析后的信号x1(ω)、x2(ω),利用波束形成器30、31执行滤波处理(步骤S103、S104)。又,对于这些滤波处理的输出,通过功率计算部40、41来计算功率(步骤S105、S106)。
在加权系数算出部50,根据步骤S105、S106的计算结果算出分离增益值GBSA(ω)(步骤S107)。又,在此,也可以通过在目标声音修正部180再次计算出加权系数值GBSA(ω),来修正目标声音的频率特性。
接着,在音乐噪声降低增益算出部60计算出使得音乐噪声降低的增益值GS(ω)(步骤S108)。又,在控制部160,根据在步骤S107算出的加权系数值GBSA(ω),计算出用于控制噪声推定部70、噪声均衡部100、残留噪声压制增益算出部110的控制信号(步骤S109)。
接着,在噪声推定部70执行噪声推定(步骤S110)。进一步地,对于步骤S110中的噪声推定的结果xABM(t),在频谱分析部80执行了频率分析之后(步骤S111),在功率计算部90计算各个频率区间的功率(步骤S112)。又,在噪声均衡部100执行在步骤S112算出的推定噪声的功率的修正。
接着,在残留噪声压制增益算出部110,相对于对由步骤S103处理后的波束形成器30的输出值ds1(ω)适用了步骤S108所算出的增益值GS(ω)所得到的值,计算出用于去除噪声成分的增益GT(ω)(步骤S114)。另外,增益GT(ω)的计算是根据在步骤S112被功率修正了的噪声成分的推定值λd(ω)来进行的。
而且,在增益乘法部130中,对于在步骤S103进行的波束形成器30的处理的结果,乘上在步骤S114所算出的增益(步骤S117)。
最后,在时域波形转换部120,步骤S117的乘法运算结果(目标声音)被转换为时域时域信号(步骤S118)。
又,也可以如第3实施形态所说明的那样,不进行步骤S108以及步骤S114的增益的计算,而是通过音乐噪声降低部320和残留噪声压制部330从波束形成器30的输出信号去除噪声。
另外,图19的流程图所示的各处理被大致地分为三个处理。三个处理为来自波束形成器30的输出处理(步骤S101~S103)、增益算出处理(步骤S101~S108以及步骤S114)、和噪声推定处理(步骤S110~S113)。
关于增益算出处理和噪声推定处理,在通过增益算出处理的步骤S101~S107计算出加权系数之后,在执行步骤S108的处理的同时,处理步骤S109的处理和噪声推定处理(步骤S110~S113),然后确定在步骤S114与波束形成器30的输出相乘的增益。
[噪声推定部的处理流程]
图20是示出图19的步骤S110中的处理的详细情况的流程图。首先,计算出与来自声源R1的信号成分一致的模拟信号HT(t)·x1(t)(步骤S201)。接着,在图6的减法部72从麦克风11的信号x2(t)减去步骤S201所算出的模拟信号,由此计算出成为噪声推定部70的输出的误差信号xABM(t)(步骤S202)。
其后,在来自控制部160的控制信号比规定的阈值大的情况下(步骤S203),在自适应滤波部71,更新自适应滤波器的系数H(t)(步骤S204)。
[噪声均衡部的处理流程]
图21是示出图19的步骤S113中的处理的详细情况的流程图。首先,相对于波束形成器30的输出ds1(ω)乘以从音乐噪声降低增益算出部60输出的增益GS(ω)来得到输出XS(ω)(步骤S301)。
在来自控制部160的控制信号比规定的阈值小的情况下(步骤S302),在图7的平滑部103执行功率计算部102的输出pXS(ω)的时域平滑处理。又,在平滑部104,执行功率计算部90的输出pXABM(ω)的时域平滑处理(步骤S303、S304)。
而且,在均衡更新部106中,计算出步骤S303以及步骤S304的处理结果的比率HEQ(ω),均衡器值被更新为HEQ(ω)(步骤S305)。最后,在均衡适用部107中,计算出XS(ω)中所包含的推定噪声λd(ω)(步骤S306)。
[残留噪声压制增益算出部110的处理流程]
图22是示出图19的步骤S114中的处理的详细情况的流程图。在来自控制部160的控制信号比规定的阈值大的情况下(步骤S401),作为噪声均衡部100的输出、且作为噪声成分的推定值的λd(ω)的值被执行减小至例如0.75倍等的处理(步骤S402)。接着,计算出后验SNR(步骤S403)。又,计算出先验SNR(步骤S404)。最后,计算出残留噪声压制增益GT(ω)(步骤S405)。
[其他的实施形态]
在利用加权系数算出部50进行增益值GBSA(ω)的计算时,可以采用规定的偏差值(バイアス值)γ(ω)计算出所述加权系数。例如,可以对增益值GBSA(ω)的分母加上规定的偏差值而计算出新的增益值。所述偏差值的加法运算在麦克风的增益特性一致、且头戴送受话器、手持通话器等目标声音存在于麦克风的附近的情况下,尤其可以期待低频区域的SNR的改善。
图23以及图24是示出就波束形成器30的输出值对邻近声音和远距离声音的情况进行比较的图表的图。图23以及图24的(a1)~(a3)是表示有关邻近声音的输出值的图表、(b1)~(b3)是表示有关远距离声音的输出值的图表。又,在图23中,麦克风10与麦克风11的间隔为0.03m,麦克风10与声源R1、R2的距离分别为0.06m(米)和1.5m。又,在图24中,麦克风10与麦克风11的间隔为0.01m,麦克风10与声源R1、R2的距离分别为0.02m(米)和1.5m。
例如,图23的(a1)是表示有关邻近声音的波束形成器30的输出值ds1(ω)(=|X(ω)W1(ω)|2)的值的图表,图23的(b1)是表示有关远距离声音的ds1(ω)的值的图表。在此,将邻近声音作为目标声音位置而设置目标声音修正部180,在远距离声音的情况下,由于目标声音修正部180的影响,在低频区域ps1(ω)的值变小。又,在ds1(ω)的值小的情况下(即,ps1(ω)的值小的情况下)、γ(ω)的影响变大。即,由于与分子相比分母的项相对变大,因此GBSA(ω)进一步变小。因此,远距离声音的低频被压制。
[数式30]
G BSA ( &omega; ) = max ( ps 1 ( &omega; ) - ps 2 ( &omega; ) , 0 ) ps 1 ( &omega; ) + &gamma; ( &omega; ) . . . ( 35 )
又,在图7的构成中,由上述的式子(35)得到的GBSA(ω)被适用于波束形成器30的输出值ds1(ω),GBSA(ω)与ds1(ω)的乘法运算结果XBSA(ω)如以下那样算出。另外,在以下的式子中,作为一个实例,示出了声源分离装置1为图7所示的构成的情况。
[数式31]
XBSA(ω)=GBSA(ω)ds1(ω)···(36)
如上所述,图23以及图24的(a1)、(b1)是表示波束形成器30的输出ds1(ω)的图表。又,各图的(a2)、(b2)是表示没有在式子(35)的分母中插入γ(ω)的情况下的输出XBSA(ω)的图表。又,各图的(a3)、(b3)是在式子(35)的分母中插入γ(ω)的情况下的输出XBSA(ω)的图表。根据各图可知,远距离声音的低频被压制。即,对于存在于低频中心的行驶噪声等能够期待其效果。
另外,在上述说明中,波束形成器30构成第1波束形成处理部。又,波束形成器31构成第2波束形成处理部。又,增益乘法部130构成声源分离部。
产业上的可利用性
本发明能够利用于声音识别装置、汽车导航、集音装置、录音装置、基于声音指令的设备的控制等、需要高精度地分离声源的所有产业。
符号说明
1  声源分离装置
3  波束形成部
10、11  麦克风
20、21  频谱分析部
30、31  波束形成器
40、41  功率计算部
50  加权系数算出部
60  音乐噪声降低增益算出部
70  噪声推定部
71  自适应滤波部
72  减法部
73  延迟器
74  阈值比较部
80  频谱分析部
90  功率计算部
100  噪声均衡部
101  乘法部
102  功率计算部
103、104  平滑部
105  阈值比较部
106  均衡更新部
107  均衡适用部
110  残留噪声压制增益算出部
120  时域波形转换部
130  增益乘法部
160  控制部
161A、161  B频谱分析部
162A、162  B波束形成
163A、163  B功率计算部
164  加权系数算出部
165  噪声推定部
166  频谱分析部
167  能量比较部
170  指向性控制部
171  最佳延迟量算出部
172、173  相位旋转器
180  目标声音修正部
190  到来方向推定部
310  加权系数乘法部
320  音乐噪声降低部
330  残留噪声压制部。

Claims (12)

1.一种声源分离装置,其从混合有多个声源所发出的声源信号的混合音中分离来自目标声源的声源信号,其特征在于,包括:
第1波束形成处理部,其通过对来自由被输入所述混合音的两个麦克风构成的麦克风对的各自的输出信号进行使用了相互不同的第1系数的、在频域的积和运算,以与连接所述两个麦克风的线段相交的平面为界限,使得从与包含所述目标声源的方向的区域相反的区域到来的声源信号衰减;
第2波束形成处理部,其通过对来自所述麦克风对的各自的输出信号乘以第2系数,对所得到的结果在频域进行积和运算,以所述平面为界限使得从包含所述目标声源的方向的区域到来的声源信号衰减,所述第2系数与所述相互不同的第1系数在频域为复共轭的关系;
功率计算部,其根据通过所述第1波束形成处理部得到的信号计算具有每个频率的功率值的第1频谱信息,进一步地根据通过所述第2波束形成处理部得到的信号计算具有每个频率的功率值的第2频谱信息;以及
加权系数算出部,其根据所述第1频谱信息与所述第2频谱信息的每个频率的功率值的差值,计算用于与所述第1波束形成处理部所得到的信号相乘的每个频率的加权系数;
所述声源分离装置具有声源分离部,其根据由所述第1波束形成处理部得到的信号与所述加权系数算出部所算出的所述加权系数的乘法运算结果,从所述混合音分离来自所述目标声源的声源信号。
2.如权利要求1所述的声源分离装置,其特征在于,还具有,
使得由所述第1波束形成处理部得到的信号与所述加权系数算出部所算出的所述加权系数相乘的加权系数乘法部,
所述声源分离部根据以规定的比例对所述加权系数乘法部的输出结果和从所述第1波束形成处理部得到的信号进行相加后的结果,从所述混合音分离来自所述目标声源的声源信号。
3.如权利要求2所述的声源分离装置,其特征在于,具有:
音乐噪声降低部,其输出以规定的比例对所述加权系数乘法部的输出结果和从所述第1波束形成处理部得到的信号进行相加后的结果,
噪声推定部,其通过对来自所述麦克风对中靠近所述目标声源的麦克风的输出信号应用滤波系数可变的自适应滤波器,计算出与来自所述麦克风对中远离所述目标声源的麦克风的输出信号一致的模拟信号,根据来自远离所述目标声源的麦克风的输出信号与所述模拟信号的差值计算出噪声成分;
噪声均衡部,其根据所述音乐噪声降低部的输出结果和所述噪声推定部所算出的所述噪声成分,计算出所述音乐噪声降低部的输出结果中所包含的噪声成分;以及
残留噪声压制部,其根据所述音乐噪声降低部的输出结果和噪声均衡部的输出结果压制所述音乐噪声降低部的输出结果中所包含的残留噪声,
所述声源分离部根据所述残留噪声压制部的输出结果从所述混合音中分离来自所述目标声源的声源信号。
4.如权利要求3所述的声源分离装置,其特征在于,具有控制部,所述控制部根据所述每个频率的加权系数对所述噪声推定部、所述噪声均衡部、以及所述残留噪声抑制部中的至少一个进行控制。
5.如权利要求1所述的声源分离装置,其特征在于,具有,
音乐噪声降低增益算出部,所述音乐噪声降低增益算出部计算出用于以规定的比例对由所述第1波束形成处理部得到的声源信号乘以所述加权系数后的乘法运算结果和由所述第1波束形成处理部得到的声源信号进行相加的增益,
所述声源分离部根据所述音乐噪声降低增益算出部所算出的增益与由所述第1波束形成处理部得到的声源信号的乘法运算结果,从所述混合音分离来自所述目标声源的声源信号。
6.如权利要求5所述的声源分离装置,其特征在于,具有,
噪声推定部,其通过对来自所述麦克风对中靠近所述目标声源的麦克风的输出信号应用滤波系数可变的自适应滤波器,计算出与来自所述麦克风对中远离所述目标声源的麦克风的输出信号一致的模拟信号,根据来自远离所述目标声源的麦克风的输出信号与所述模拟信号的差值计算出噪声成分;
噪声均衡部,其根据由所述第1波束形成处理部得到的声源信号与在所述音乐噪声降低增益算出部算出的增益相乘后的乘法运算结果、和所述噪声推定部所算出的所述噪声成分,计算出由所述第1波束形成处理部得到的声源信号与在所述音乐噪声降低增益算出部中被算出的增益相乘后的乘法运算结果中所包含的噪声成分;以及
残留噪声压制增益算出部,其根据由所述音乐噪声降低增益算出部算出的增益和由所述噪声均衡部所算出的所述噪声成分,计算出用于与由所述第1波束形成处理部得到的声源信号相乘的增益,该增益是用于对由所述第1波束形成处理部得到的声源信号与在所述音乐噪声降低增益算出部中被算出的增益相乘后的乘法运算结果中所包含的残留噪声进行压制的增益,
所述声源分离部根据由残留噪声压制增益算出部所算出的增益与由所述第1波束形成处理部得到的声源信号的乘法运算结果从所述混合音分离来自所述目标声源的声源信号。
7.如权利要求6所述的声源分离装置,其特征在于,具有控制部,所述控制部根据所述每个频率的加权系数对所述噪声推定部、所述噪声均衡部、以及所述残留噪声压制增益算出部中的至少一个进行控制。
8.如权利要求1至7中任一项所述的声源分离装置,其特征在于,具有基准延迟量算出部和指向性控制部,所述基准延迟量算出部对于每个频率计算出基准延迟量,所述基准延迟量用于与来自所述麦克风对的至少一方的麦克风的输出信号相乘以使得该麦克风的位置假想地移动,所述指向性控制部就每个频带对来自所述麦克风对的至少一方的麦克风的输出信号赋予延迟量,
所述指向性控制部在基准延迟量算出部所算出的所述基准延迟量满足空间采样定理的频带中,将该基准延迟量作为所述延迟量,在所述基准延迟量不满足空间采样定理的频带中,将通过下述式子(30)求得的最佳延迟量τ0作为所述延迟量,
[数1]
d + &tau; 0 &CenterDot; c = c&pi; &omega;
···(30)
&DoubleLeftRightArrow; &tau; 0 = &pi; &omega; - d c
其中,在上述式子(30)中,d为两个麦克风间的距离,c为音速,ω为频率。
9.一种声源分离装置,其从混合有多个声源所发出的声源信号的混合音中分离来自目标声源的声源信号,其特征在于,包括:
第1波束形成处理单元,其通过对来自由被输入所述混合音的两个麦克风构成的麦克风对的各自的输出信号乘以不同的第1系数,对所得到的结果在频域进行积和运算,以与连接所述两个麦克风的线段相交的平面为界限,使得从与包含所述目标声源的方向的区域相反的区域到来的声源信号衰减;
第2波束形成处理单元,其通过对所述麦克风对的各自的输出信号乘以第2系数,对所得到的结果在频域进行积和运算,以所述平面为界限使得从包含所述目标声源的方向的区域到来的声源信号衰减,所述第2系数与所述不同的第1系数在频域为复共轭的关系;
功率计算单元,其根据通过所述第1波束形成处理单元得到的信号计算具有每个频率的功率值的第1频谱信息,进一步地根据通过所述第2波束形成处理单元得到的信号计算具有每个频率的功率值的第2频谱信息;以及
加权系数算出单元,其根据所述第1频谱信息与所述第2频谱信息的每个频率的功率值的差值,计算用于与所述第1波束形成处理单元所得到的信号相乘的每个频率的加权系数;
所述声源分离装置具有声源分离单元,其根据由所述第1波束形成处理单元得到的信号与所述加权系数算出单元所算出的所述加权系数的乘法运算结果,从所述混合音分离来自所述目标声源的声源信号。
10.如权利要求9所述的声源分离装置,其特征在于,
还具有使得由所述第1波束形成处理单元得到的信号与所述加权系数算出单元所算出的所述加权系数相乘的加权系数乘法单元,
所述声源分离单元根据以规定的比例对所述加权系数乘法单元的输出结果和从所述第1波束形成处理单元得到的信号进行相加后的结果,从所述混合音分离来自所述目标声源的声源信号。
11.一种声源分离方法,其由具有第1波束形成处理部、第2波束形成处理部、功率计算部、加权系数算出部和声源分离部的声源分离装置所执行,其特征在于,包括以下步骤:
第1步骤,在该步骤中,所述第1波束形成处理部通过对来自由被输入混合音的两个麦克风构成的麦克风对的各自的输出信号进行使用了相互不同的第1系数的、在频域的积和运算,以与连接所述两个麦克风的线段相交的平面为界限,使得从与包含目标声源的方向的区域相反的区域到来的声源信号衰减,所述混合音混合有多个声源所发出的声源信号;
第2步骤,在该步骤中,所述第2波束形成处理部通过对来自所述麦克风对的各自的输出信号乘以第2系数,对所得到的结果在频域进行积和运算,以所述平面为界限使得从包含所述目标声源的方向的区域到来的声源信号衰减,所述第2系数与所述相互不同的第1系数在频域为复共轭的关系;
第3步骤,在该步骤中,所述功率计算部根据通过所述第1步骤得到的信号计算具有每个频率的功率值的第1频谱信息,进一步地根据通过所述第2步骤得到的信号计算具有每个频率的功率值的第2频谱信息;
第4步骤,在该步骤中,所述加权系数算出部根据所述第1频谱信息与所述第2频谱信息的每个频率的功率值的差值,计算用于与所述第1步骤所得到的信号相乘的每个频率的加权系数;以及
第5步骤,在该步骤中,所述声源分离部根据由所述第1步骤得到的信号与所述第4步骤所算出的所述加权系数的乘法运算结果,从所述混合音分离来自所述目标声源的声源信号。
12.一种程序,其特征在于,使得计算机执行以下的步骤:
第1处理步骤,在该步骤中,通过对来自被输入混合音的两个麦克风构成的麦克风对的各自的输出信号进行使用了相互不同的第1系数的、在频域的积和运算,以与连接所述两个麦克风的线段相交的平面为界限,使得从与包含目标声源的方向的区域相反的区域到来的声源信号衰减,所述混合音混合有多个声源所发出的声源信号;
第2处理步骤,在该步骤中,通过对来自所述麦克风对各自的输出信号乘以第2系数,对所得到的结果在频域进行积和运算,以所述平面为界限使得从包含所述目标声源的方向的区域到来的声源信号衰减,所述第2系数与所述相互不同的第1系数在频域为复共轭的关系;
第3处理步骤,在该步骤中,根据通过所述第1处理步骤得到的信号计算具有每个频率的功率值的第1频谱信息,进一步地根据通过所述第2处理步骤得到的信号计算具有每个频率的功率值的第2频谱信息;
第4处理步骤,在该步骤中,根据所述第1频谱信息与所述第2频谱信息的每个频率的功率值的差值,计算用于与所述第1步骤所得到的信号相乘的每个频率的加权系数;以及
第5处理步骤,在该步骤中,所述声源分离部根据由所述第1处理步骤得到的信号与所述第4处理步骤所算出的所述加权系数的乘法运算结果,从所述混合音分离来自所述目标声源的声源信号。
CN2011800197387A 2010-08-25 2011-08-25 声源分离装置、声源分离方法、以及程序 Pending CN103098132A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010-188737 2010-08-25
JP2010188737 2010-08-25
PCT/JP2011/004734 WO2012026126A1 (ja) 2010-08-25 2011-08-25 音源分離装置、音源分離方法、及び、プログラム

Publications (1)

Publication Number Publication Date
CN103098132A true CN103098132A (zh) 2013-05-08

Family

ID=45723148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011800197387A Pending CN103098132A (zh) 2010-08-25 2011-08-25 声源分离装置、声源分离方法、以及程序

Country Status (8)

Country Link
US (1) US20130142343A1 (zh)
EP (1) EP2562752A4 (zh)
JP (1) JP5444472B2 (zh)
KR (1) KR101339592B1 (zh)
CN (1) CN103098132A (zh)
BR (1) BR112012031656A2 (zh)
TW (1) TW201222533A (zh)
WO (1) WO2012026126A1 (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104134444A (zh) * 2014-07-11 2014-11-05 福建星网视易信息系统有限公司 一种基于mmse的歌曲去伴奏方法和装置
CN104254029A (zh) * 2013-06-28 2014-12-31 Gn奈康有限公司 一种具有麦克风的耳机
CN105100338A (zh) * 2014-05-23 2015-11-25 联想(北京)有限公司 降低噪声的方法和装置
CN105702262A (zh) * 2014-11-28 2016-06-22 上海航空电器有限公司 一种头戴式双麦克风语音增强方法
CN105989851A (zh) * 2015-02-15 2016-10-05 杜比实验室特许公司 音频源分离
CN107223345A (zh) * 2014-08-22 2017-09-29 弗劳恩霍夫应用研究促进协会 用于波束成形滤波器的fir滤波器系数计算
CN107404684A (zh) * 2016-05-19 2017-11-28 华为终端(东莞)有限公司 一种采集声音信号的方法和装置
CN107454538A (zh) * 2016-05-30 2017-12-08 奥迪康有限公司 包括含有平滑单元的波束形成器滤波单元的助听器
CN107507624A (zh) * 2016-06-14 2017-12-22 瑞昱半导体股份有限公司 声源分离方法与装置
CN108028049A (zh) * 2015-09-14 2018-05-11 美商楼氏电子有限公司 麦克风信号融合
CN108292508A (zh) * 2015-12-02 2018-07-17 日本电信电话株式会社 空间相关矩阵估计装置、空间相关矩阵估计方法和空间相关矩阵估计程序
CN108630223A (zh) * 2017-03-21 2018-10-09 株式会社东芝 信号处理装置以及信号处理方法
CN108630216A (zh) * 2018-02-15 2018-10-09 湖北工业大学 一种基于双麦克风模型的mpnlms声反馈抑制方法
CN109141620A (zh) * 2017-06-23 2019-01-04 卡西欧计算机株式会社 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质
CN110244260A (zh) * 2019-06-17 2019-09-17 杭州电子科技大学 基于声能流矢量补偿的水下目标高精度doa估计方法
CN110931028A (zh) * 2018-09-19 2020-03-27 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN111175727A (zh) * 2018-11-13 2020-05-19 中国科学院声学研究所 一种基于条件波数谱密度的宽带信号方位估计的方法
CN111179960A (zh) * 2020-03-06 2020-05-19 北京松果电子有限公司 音频信号处理方法及装置、存储介质
CN114166334A (zh) * 2021-11-23 2022-03-11 中国直升机设计研究所 一种非消声风洞旋翼噪声测点的声衰减系数校准方法
CN106796803B (zh) * 2014-10-14 2023-09-19 交互数字麦迪逊专利控股公司 用于在音频通信中将语音数据与背景数据分离的方法和装置

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5738020B2 (ja) * 2010-03-11 2015-06-17 本田技研工業株式会社 音声認識装置及び音声認識方法
US20120082322A1 (en) * 2010-09-30 2012-04-05 Nxp B.V. Sound scene manipulation
JP5566846B2 (ja) * 2010-10-15 2014-08-06 本田技研工業株式会社 ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法
JP5845760B2 (ja) * 2011-09-15 2016-01-20 ソニー株式会社 音声処理装置および方法、並びにプログラム
US8712951B2 (en) * 2011-10-13 2014-04-29 National Instruments Corporation Determination of statistical upper bound for estimate of noise power spectral density
US8943014B2 (en) 2011-10-13 2015-01-27 National Instruments Corporation Determination of statistical error bounds and uncertainty measures for estimates of noise power spectral density
KR101987966B1 (ko) * 2012-09-03 2019-06-11 현대모비스 주식회사 차량용 어레이 마이크의 음성 인식 향상 시스템 및 그 방법
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US9955277B1 (en) 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US20160210957A1 (en) * 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
JP6375362B2 (ja) 2013-03-13 2018-08-15 コピン コーポレーション 雑音キャンセリングマイクロホン装置
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US9257952B2 (en) 2013-03-13 2016-02-09 Kopin Corporation Apparatuses and methods for multi-channel signal compression during desired voice activity detection
AT514412A1 (de) * 2013-03-15 2014-12-15 Commend Internat Gmbh Verfahren zur Erhöhung der Sprachverständlichkeit
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
RU2639952C2 (ru) 2013-08-28 2017-12-25 Долби Лабораторис Лайсэнзин Корпорейшн Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
US9497528B2 (en) * 2013-11-07 2016-11-15 Continental Automotive Systems, Inc. Cotalker nulling based on multi super directional beamformer
CN106031196B (zh) * 2014-02-28 2018-12-07 日本电信电话株式会社 信号处理装置、方法以及程序
US10176823B2 (en) 2014-05-09 2019-01-08 Apple Inc. System and method for audio noise processing and noise reduction
WO2015178942A1 (en) * 2014-05-19 2015-11-26 Nuance Communications, Inc. Methods and apparatus for broadened beamwidth beamforming and postfiltering
JP6703525B2 (ja) * 2014-09-05 2020-06-03 インターデジタル シーイー パテント ホールディングス 音源を強調するための方法及び機器
EP3029671A1 (en) * 2014-12-04 2016-06-08 Thomson Licensing Method and apparatus for enhancing sound sources
CN106157967A (zh) 2015-04-28 2016-11-23 杜比实验室特许公司 脉冲噪声抑制
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9613628B2 (en) 2015-07-01 2017-04-04 Gopro, Inc. Audio decoder for wind and microphone noise reduction in a microphone array system
US9460727B1 (en) * 2015-07-01 2016-10-04 Gopro, Inc. Audio encoder for wind and microphone noise reduction in a microphone array system
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
CN107924685B (zh) * 2015-12-21 2021-06-29 华为技术有限公司 信号处理装置和方法
GB2549922A (en) 2016-01-27 2017-11-08 Nokia Technologies Oy Apparatus, methods and computer computer programs for encoding and decoding audio signals
US11346917B2 (en) * 2016-08-23 2022-05-31 Sony Corporation Information processing apparatus and information processing method
GB201615538D0 (en) * 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
JP6436180B2 (ja) * 2017-03-24 2018-12-12 沖電気工業株式会社 収音装置、プログラム及び方法
US10311889B2 (en) * 2017-03-20 2019-06-04 Bose Corporation Audio signal processing for noise reduction
CN107135443B (zh) * 2017-03-29 2020-06-23 联想(北京)有限公司 一种信号处理方法及电子设备
US10187721B1 (en) * 2017-06-22 2019-01-22 Amazon Technologies, Inc. Weighing fixed and adaptive beamformers
US10755728B1 (en) * 2018-02-27 2020-08-25 Amazon Technologies, Inc. Multichannel noise cancellation using frequency domain spectrum masking
WO2019231632A1 (en) 2018-06-01 2019-12-05 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
CN110610718B (zh) * 2018-06-15 2021-10-08 炬芯科技股份有限公司 一种提取期望声源语音信号的方法及装置
WO2020061353A1 (en) 2018-09-20 2020-03-26 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
CN113841421A (zh) 2019-03-21 2021-12-24 舒尔获得控股公司 具有抑制功能的波束形成麦克风瓣的自动对焦、区域内自动对焦、及自动配置
EP3942842A1 (en) 2019-03-21 2022-01-26 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
CN111863015B (zh) * 2019-04-26 2024-07-09 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
EP3973716A1 (en) 2019-05-23 2022-03-30 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
WO2020243471A1 (en) 2019-05-31 2020-12-03 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
CN112216303B (zh) * 2019-07-11 2024-07-23 北京声智科技有限公司 一种语音处理方法、装置及电子设备
CN114467312A (zh) 2019-08-23 2022-05-10 舒尔获得控股公司 具有改进方向性的二维麦克风阵列
WO2021070278A1 (ja) * 2019-10-09 2021-04-15 三菱電機株式会社 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
US12028678B2 (en) 2019-11-01 2024-07-02 Shure Acquisition Holdings, Inc. Proximity microphone
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
US11290814B1 (en) 2020-12-15 2022-03-29 Valeo North America, Inc. Method, apparatus, and computer-readable storage medium for modulating an audio output of a microphone array
WO2022165007A1 (en) 2021-01-28 2022-08-04 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system
CN113362864B (zh) * 2021-06-16 2022-08-02 北京字节跳动网络技术有限公司 音频信号处理的方法、装置、存储介质及电子设备
CN113921027B (zh) * 2021-12-14 2022-04-29 北京清微智能信息技术有限公司 一种基于空间特征的语音增强方法、装置及电子设备
CN114974199A (zh) * 2022-05-11 2022-08-30 北京小米移动软件有限公司 降噪方法、装置、降噪耳机及介质
CN114979902B (zh) * 2022-05-26 2023-01-20 珠海市华音电子科技有限公司 一种基于改进的变步长ddcs自适应算法的降噪拾音方法
TWI812276B (zh) * 2022-06-13 2023-08-11 英業達股份有限公司 振噪影響硬碟效能的測試方法與系統

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101031956A (zh) * 2004-07-22 2007-09-05 索福特迈克斯有限公司 用于嘈杂环境中语音信号分离的头戴式耳机
CN101163354A (zh) * 2006-10-10 2008-04-16 西门子测听技术有限责任公司 用于运行助听器的方法以及助听器
CN101238511A (zh) * 2005-08-11 2008-08-06 旭化成株式会社 声源分离装置、音频识别装置、移动电话机、声源分离方法、以及程序
US20090296526A1 (en) * 2008-06-02 2009-12-03 Kabushiki Kaisha Toshiba Acoustic treatment apparatus and method thereof
CN101754081A (zh) * 2008-11-26 2010-06-23 奥迪康有限公司 助听器算法的改进

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3795610B2 (ja) * 1997-01-22 2006-07-12 株式会社東芝 信号処理装置
JP3484112B2 (ja) * 1999-09-27 2004-01-06 株式会社東芝 雑音成分抑圧処理装置および雑音成分抑圧処理方法
JP4247037B2 (ja) * 2003-01-29 2009-04-02 株式会社東芝 音声信号処理方法と装置及びプログラム
JP4096104B2 (ja) * 2005-11-24 2008-06-04 国立大学法人北陸先端科学技術大学院大学 雑音低減システム及び雑音低減方法
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique
JP5207479B2 (ja) * 2009-05-19 2013-06-12 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧装置およびプログラム
KR101761312B1 (ko) * 2010-12-23 2017-07-25 삼성전자주식회사 마이크 어레이를 이용한 방향성 음원 필터링 장치 및 그 제어방법
JP5543023B2 (ja) * 2011-05-24 2014-07-09 三菱電機株式会社 目的音強調装置およびカーナビゲーションシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101031956A (zh) * 2004-07-22 2007-09-05 索福特迈克斯有限公司 用于嘈杂环境中语音信号分离的头戴式耳机
CN101238511A (zh) * 2005-08-11 2008-08-06 旭化成株式会社 声源分离装置、音频识别装置、移动电话机、声源分离方法、以及程序
CN101163354A (zh) * 2006-10-10 2008-04-16 西门子测听技术有限责任公司 用于运行助听器的方法以及助听器
US20090296526A1 (en) * 2008-06-02 2009-12-03 Kabushiki Kaisha Toshiba Acoustic treatment apparatus and method thereof
CN101754081A (zh) * 2008-11-26 2010-06-23 奥迪康有限公司 助听器算法的改进

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104254029A (zh) * 2013-06-28 2014-12-31 Gn奈康有限公司 一种具有麦克风的耳机
CN104254029B (zh) * 2013-06-28 2017-07-18 Gn奈康有限公司 一种具有麦克风的耳机、及改善耳机的音频灵敏度的方法
CN105100338A (zh) * 2014-05-23 2015-11-25 联想(北京)有限公司 降低噪声的方法和装置
CN104134444A (zh) * 2014-07-11 2014-11-05 福建星网视易信息系统有限公司 一种基于mmse的歌曲去伴奏方法和装置
CN104134444B (zh) * 2014-07-11 2017-03-15 福建星网视易信息系统有限公司 一种基于mmse的歌曲去伴奏方法和装置
CN107223345B (zh) * 2014-08-22 2020-04-07 弗劳恩霍夫应用研究促进协会 用于波束成形滤波器的fir滤波器系数计算
US10419849B2 (en) 2014-08-22 2019-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. FIR filter coefficient calculation for beam-forming filters
CN107223345A (zh) * 2014-08-22 2017-09-29 弗劳恩霍夫应用研究促进协会 用于波束成形滤波器的fir滤波器系数计算
CN106796803B (zh) * 2014-10-14 2023-09-19 交互数字麦迪逊专利控股公司 用于在音频通信中将语音数据与背景数据分离的方法和装置
CN105702262A (zh) * 2014-11-28 2016-06-22 上海航空电器有限公司 一种头戴式双麦克风语音增强方法
CN105989851A (zh) * 2015-02-15 2016-10-05 杜比实验室特许公司 音频源分离
CN108028049A (zh) * 2015-09-14 2018-05-11 美商楼氏电子有限公司 麦克风信号融合
CN108292508B (zh) * 2015-12-02 2021-11-23 日本电信电话株式会社 空间相关矩阵估计装置、空间相关矩阵估计方法和记录介质
CN108292508A (zh) * 2015-12-02 2018-07-17 日本电信电话株式会社 空间相关矩阵估计装置、空间相关矩阵估计方法和空间相关矩阵估计程序
CN107404684A (zh) * 2016-05-19 2017-11-28 华为终端(东莞)有限公司 一种采集声音信号的方法和装置
CN113453134A (zh) * 2016-05-30 2021-09-28 奥迪康有限公司 听力装置及其运行方法和相应数据处理系统
CN107454538A (zh) * 2016-05-30 2017-12-08 奥迪康有限公司 包括含有平滑单元的波束形成器滤波单元的助听器
CN113453134B (zh) * 2016-05-30 2023-06-06 奥迪康有限公司 听力装置及其运行方法和相应数据处理系统
CN107507624A (zh) * 2016-06-14 2017-12-22 瑞昱半导体股份有限公司 声源分离方法与装置
CN107507624B (zh) * 2016-06-14 2021-03-09 瑞昱半导体股份有限公司 声源分离方法与装置
CN108630223A (zh) * 2017-03-21 2018-10-09 株式会社东芝 信号处理装置以及信号处理方法
CN108630223B (zh) * 2017-03-21 2022-01-04 株式会社东芝 信号处理装置以及信号处理方法
CN109141620B (zh) * 2017-06-23 2021-01-22 卡西欧计算机株式会社 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质
CN109141620A (zh) * 2017-06-23 2019-01-04 卡西欧计算机株式会社 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质
CN108630216B (zh) * 2018-02-15 2021-08-27 湖北工业大学 一种基于双麦克风模型的mpnlms声反馈抑制方法
CN108630216A (zh) * 2018-02-15 2018-10-09 湖北工业大学 一种基于双麦克风模型的mpnlms声反馈抑制方法
CN110931028A (zh) * 2018-09-19 2020-03-27 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN110931028B (zh) * 2018-09-19 2024-04-26 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN111175727A (zh) * 2018-11-13 2020-05-19 中国科学院声学研究所 一种基于条件波数谱密度的宽带信号方位估计的方法
CN111175727B (zh) * 2018-11-13 2022-05-03 中国科学院声学研究所 一种基于条件波数谱密度的宽带信号方位估计的方法
CN110244260B (zh) * 2019-06-17 2021-06-29 杭州电子科技大学 基于声能流矢量补偿的水下目标高精度doa估计方法
CN110244260A (zh) * 2019-06-17 2019-09-17 杭州电子科技大学 基于声能流矢量补偿的水下目标高精度doa估计方法
CN111179960A (zh) * 2020-03-06 2020-05-19 北京松果电子有限公司 音频信号处理方法及装置、存储介质
CN114166334A (zh) * 2021-11-23 2022-03-11 中国直升机设计研究所 一种非消声风洞旋翼噪声测点的声衰减系数校准方法

Also Published As

Publication number Publication date
US20130142343A1 (en) 2013-06-06
KR20120123566A (ko) 2012-11-08
BR112012031656A2 (pt) 2016-11-08
WO2012026126A1 (ja) 2012-03-01
KR101339592B1 (ko) 2013-12-10
JPWO2012026126A1 (ja) 2013-10-28
TW201222533A (en) 2012-06-01
EP2562752A4 (en) 2013-10-30
EP2562752A1 (en) 2013-02-27
JP5444472B2 (ja) 2014-03-19

Similar Documents

Publication Publication Date Title
CN103098132A (zh) 声源分离装置、声源分离方法、以及程序
CN103325380B (zh) 用于信号增强的增益后处理
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
US10242692B2 (en) Audio coherence enhancement by controlling time variant weighting factors for decorrelated signals
US9202456B2 (en) Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
US9173025B2 (en) Combined suppression of noise, echo, and out-of-location signals
CN103348408B (zh) 噪声和位置外信号的组合抑制方法和系统
US7383178B2 (en) System and method for speech processing using independent component analysis under stability constraints
US20120263317A1 (en) Systems, methods, apparatus, and computer readable media for equalization
US10553236B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
US20240079021A1 (en) Voice enhancement method, apparatus and system, and computer-readable storage medium
US9536536B2 (en) Adaptive equalization system
US10755728B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
CN109473118A (zh) 双通道语音增强方法及装置
CN101278337A (zh) 噪声环境中语音信号的健壮分离
US11380312B1 (en) Residual echo suppression for keyword detection
Ravenscroft et al. Utterance weighted multi-dilation temporal convolutional networks for monaural speech dereverberation
CN105612767B (zh) 音频处理方法和音频处理设备
CN114420153A (zh) 音质调整方法、装置、设备及存储介质
Pepe et al. Digital filters design for personal sound zones: A neural approach
US20230410829A1 (en) Machine learning assisted spatial noise estimation and suppression
Osako et al. Fast convergence blind source separation based on frequency subband interpolation by null beamforming
CN116547753A (zh) 机器学习辅助的空间噪声估计和抑制
Moghimi Array-based spectro-temporal masking for automatic speech recognition
Chen et al. An improved phase-error based dual-microphone noise reduction method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130508