CN112216298A - 双麦克风阵列声源定向方法、装置及设备 - Google Patents

双麦克风阵列声源定向方法、装置及设备 Download PDF

Info

Publication number
CN112216298A
CN112216298A CN201910628826.5A CN201910628826A CN112216298A CN 112216298 A CN112216298 A CN 112216298A CN 201910628826 A CN201910628826 A CN 201910628826A CN 112216298 A CN112216298 A CN 112216298A
Authority
CN
China
Prior art keywords
beam forming
preset target
fixed beam
preset
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910628826.5A
Other languages
English (en)
Other versions
CN112216298B (zh
Inventor
杨晓霞
刘溪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Original Assignee
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen Mobvoi Beijing Information Technology Co Ltd filed Critical Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority to CN201910628826.5A priority Critical patent/CN112216298B/zh
Publication of CN112216298A publication Critical patent/CN112216298A/zh
Application granted granted Critical
Publication of CN112216298B publication Critical patent/CN112216298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明实施例公开了一种双麦克风阵列声源定向方法、装置及设备。该方法包括:根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系,确定两个预设固定波束形成参数;根据预设固定波束形成参数与麦克风原始数据,确定分别对应两个预设目标方位的初级固定波束形成结果;根据两个所述初级固定波束形成结果,进行非线性降噪处理,得到固定波束形成结果;根据两个所述固定波束形成结果,确定分别与两个所述预设目标方位对应的信号能量;根据两个所述信号能量和所述信号能量与所述预设目标方位的对应关系,确定声源方位。本发明实施例的技术方案,实现在麦克风距离较近的情况,提高声源定向准确性。

Description

双麦克风阵列声源定向方法、装置及设备
技术领域
本发明实施例涉及语音信号处理技术,尤其涉及一种双麦克风阵列声源定向方法、装置及设备。
背景技术
基于麦克风阵列的语音增强技术己经广泛应用于通信、人机交互、语音识别系统等方面。
语音增强技术在某些使用场景下,语音的来源方向会多于一个,如此情况下,需要判断语音指令的来源,以便基于判断结果做出对应反馈。这种场景下基于麦克风阵列的声源定向(direction of arrival,DOA)显得尤为重要。现有技术中,基于声波到达麦克风阵列的相位差来计算得到声音方向。
但是这种方法对麦克风阵列的间距有很大关系,间距越大,DOA的估计精度越高。当麦克风阵列间距较小时,DOA的估计精度较低。例如在车载语音交互系统中,麦克风阵列的间距往往较小,有的间距仅有1-2cm,这会导致声源定向的准确性受到影响。
发明内容
本发明实施例提供一种双麦克风阵列声源定向方法、装置及设备,以实现在麦克风距离较近的情况,提高声源定向准确性。
第一方面,本发明实施例提供了一种双麦克风阵列声源定向方法,包括:
根据两个预设目标方位、双麦克风阵列的导向矢量和所述导向矢量与预设固定波束形成参数的预设关系,确定两个所述预设固定波束形成参数;其中,两个所述预设固定波束形成参数与两个所述预设目标方位一一对应;
根据所述预设固定波束形成参数与麦克风原始数据,确定分别对应两个所述预设目标方位的初级固定波束形成结果;
根据两个所述初级固定波束形成结果,进行非线性降噪处理,得到固定波束形成结果;
根据两个所述固定波束形成结果,确定分别与两个所述预设目标方位对应的信号能量;
根据两个所述信号能量和所述信号能量与所述预设目标方位的对应关系,确定声源方位。
第二方面,本发明实施例还提供了一种双麦克风阵列声源定向装置,包括:
预设固定波束形成参数确定模块,用于根据两个预设目标方位、双麦克风阵列的导向矢量和所述导向矢量与预设固定波束形成参数的预设关系,确定两个所述预设固定波束形成参数;其中,两个所述预设固定波束形成参数与两个所述预设目标方位一一对应;
初级固定波束形成结果确定模块,用于根据所述预设固定波束形成参数与麦克风原始数据,确定分别对应两个所述预设目标方位的初级固定波束形成结果;
固定波束形成结果得到模块,用于根据两个所述初级固定波束形成结果,进行非线性降噪处理,得到固定波束形成结果;
信号能量确定模块,用于根据两个所述固定波束形成结果,确定分别与两个所述预设目标方位对应的信号能量;
声源方位确定模块,用于根据两个所述信号能量和所述信号能量与所述预设目标方位的对应关系,确定声源方位。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
双麦克风阵列,用于获取音频数据;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所提供的双麦克风阵列声源定向方法。
本发明实施例,根据波束形成结果,基于信号能量判断声源方向,解决了基于声波到达麦克风阵列的相位差来计算得到声音方向,在麦克风阵列间距较小时,准确性不高的问题,实现提高声源定向准确性的效果。
附图说明
图1是本发明实施例一中的一种双麦克风阵列声源定向方法的流程图;
图2是本发明实施例一中的双麦克风阵列所在坐标系示意图;
图3是本发明实施例二中的一种双麦克风阵列声源定向方法的流程图;
图4是本发明实施例三中的一种双麦克风阵列声源定向方法的流程图;
图5是本发明实施例四中的一种双麦克风阵列声源定向装置的结构示意图;
图6是本发明实施例五中的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种双麦克风阵列声源定向方法的流程图,本实施例可适用于采用双麦克风阵列,判断声源方向的情况,例如车载环境的语音识别,该方法可以由双麦克风阵列声源定向装置来执行,该装置可以由硬件和/或软件来实现,具体包括如下步骤:
步骤110、根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系,确定两个预设固定波束形成参数;
其中,两个预设固定波束形成参数与两个预设目标方位一一对应。预设目标方位是相对于双麦克风阵列所处位置需要进行增强的方向,对于车载人机交互系统,麦克风阵列多布置在前排阅读灯位置,两个麦克风处于同一水平高度,左右横向布置。在这种车内环境下,预设目标方位就是指向主驾驶席和副驾驶席。预设坐标系可以为空间坐标系,并可以按照如下方式建立,以两个麦克风的连线中点为原点,x轴正向指向车尾方向,且x轴穿过主驾驶席头枕和副驾驶席头枕连线的中点,y轴穿过两个麦克风,y轴正向指向车辆向前行驶时的右方。示例的,如图2所示,在预设坐标系下,主驾驶员和副驾驶员所在位置对应的预设目标方位分别为-45°和45°。在预先确定了预设目标方位之后,计算分别指向这两个预设目标方位的预设固定波束形成参数。可选的,根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系,确定两个预设固定波束形成参数,包括:在预设坐标系下,根据双麦克风阵列和预设目标方位,确定预设目标方位对应的目标方位角;根据第一表达式
Figure BDA0002128055810000051
通过凸优化方法得到ω(θ0,f)的最优解,其中,目标方位角为θ0,波束宽度为θd,双麦克风阵列的导向矢量为α(θ,f),其中θ,f分别为方位角和频点,预设固定波束形成参数为ω(θ0,f)。
步骤120、根据预设固定波束形成参数与麦克风原始数据,确定分别对应两个预设目标方位的初级固定波束形成结果;
其中,麦克风原始数据是双麦克风阵列中每个麦克风拾取声波而输出的数字信号。在得到预设固定波束形成参数之后,利用该参数对每个传感器信号进行时移,并进行求和,得到指向第一预设目标方位拾音的波束形成之后的信号和指向第二预设目标方位拾音的波束形成之后的信号,作为初级固定波束形成结果,初级固定波束形成结果是采用权值固定不变的滤波器进行处理后的结果。初级固定波束形成结果还是会包含环境噪声,因此,需要进行降噪处理,以获得较为干净的语音信号。可选的,根据预设固定波束形成参数与麦克风原始数据,确定分别对应两个预设目标方位的初级固定波束形成结果,包括:将获得的预设固定波束形成参数ω(θ0,f)与两路麦克风原始数据分别相乘之后,进行相加,得到增强第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果
Figure BDA0002128055810000052
和增强第二预设目标方位的第n帧频点f处的第二初级固定波束形成结果
Figure BDA0002128055810000053
步骤130、根据两个初级固定波束形成结果,进行非线性降噪处理,得到固定波束形成结果;
其中,对于两个初级固定波束形成结果进行非线性降噪处理,可以减少语音信号中的干扰,将其中一个预设目标方位作为目标方向数据,另一个预设目标方位作为干扰方向数据,分别对两个初级固定波束形成结果进行降噪处理。可以利用类似维纳滤波降噪的方法来得到非线性降噪处理的增益参数,然后根据增益参数,对初级固定波束形成结果进行处理,得到固定波束形成结果。
步骤140、根据两个固定波束形成结果,确定分别与两个预设目标方位对应的信号能量;
其中,根据固定波束形成结果中声音信号的振幅,可以得到声音信号的能量。而两个固定波束形成结果是与两个预设目标方位一一对应的。如此一来,得到的两个信号能量也就与两个预设目标方位一一对应。预设目标方位、固定波束形成结果和信号能量三者之间就具有确定的对应关系。
步骤150、根据两个信号能量和信号能量与预设目标方位的对应关系,确定声源方位。
其中,根据两个信号能量的大小关系,就可以确定声源方位,通常与较强的信号能量对应的预设目标方位即为声源方位。在确定了声源方位的情况下,如果接收到的语音指令,可以根据声源方位确定语音指令的控制对象,进而由控制对象做出相应操作。例如,在车载语音交互系统中,语音指令的发出者一般是前排的驾驶员和副驾驶员,预设目标方位也就是分别指向驾驶席和副驾驶席。那么,如果驾驶员发出语音指令,想要调节座椅加热的温度,那么,指向驾驶席的信号能量是强于指向副驾驶席的信号能量的,由此可以确定需要调节座椅加热温度的是驾驶席。这样,对于某些需要指明控制对象的指令,可以省略控制对象,方便用户通过语音指令进行控制操作。
本实施例的技术方案,根据波束形成结果,基于信号能量判断声源方向,解决了基于声波到达麦克风阵列的相位差来计算得到声音方向,在麦克风阵列间距较小时,准确性不高的问题,实现提高声源定向准确性的效果。
实施例二
图3为本发明实施例二提供的一种双麦克风阵列波束形成方法的流程图,本实施例的技术方案在上述技术方案的基础上进一步细化,该方法包括:
步骤310、根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系,确定两个预设固定波束形成参数;
步骤320、根据预设固定波束形成参数与麦克风原始数据,确定分别对应两个预设目标方位的初级固定波束形成结果;
步骤330、根据两个初级固定波束形成结果,进行至少两级非线性降噪处理,得到固定波束形成结果。
其中,通过至少两级非线性降噪处理,可以更好地实现目标方向语音增强,干扰方向语音抑制。每级非线性降噪处理的方式是相同的,后一级的处理在前一级处理结果的基础上进行。可选的,根据两个初级固定波束形成结果,进行至少两级非线性降噪处理,得到固定波束形成结果,包括:
以第一预设目标方位为目标方向,第二预设目标方位为干扰方向,根据第二表达式
Figure BDA0002128055810000071
得到第一级非线性降噪处理第n帧频点f处的第一增益参数
Figure BDA0002128055810000072
其中,
Figure BDA0002128055810000073
为增强所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果,
Figure BDA0002128055810000074
为增强所述第二预设目标方位的第n帧频点f处的第二初级固定波束形成结果;
根据所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果和所述第一增益参数,确定指向所述第一预设目标方位第n帧频点f处的第一预设目标方位一级降噪固定波束形成结果。
可选的,所述根据所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果和所述第一增益参数,确定指向所述第一预设目标方位第n帧频点f处的第一预设目标方位一级降噪固定波束形成结果,包括:
根据第三表达式
Figure BDA0002128055810000081
得到第一级非线性降噪处理指向所述第一预设目标方位第n帧频点f处的所述第一预设目标方位一级降噪固定波束形成结果。
可选的,在所述根据所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果和所述第一增益参数,确定指向所述第一预设目标方位第n帧频点f处的第一预设目标方位一级降噪固定波束形成结果之后,还包括:
以所述第一预设目标方位作为目标方向,所述第二预设目标方位为干扰方向,根据第四表达式
Figure BDA0002128055810000082
得到第二级非线性降噪处理第n帧频点f处的第二增益参数
Figure BDA0002128055810000083
其中,200Hz≤f≤2500Hz;
根据第五表达式
Figure BDA0002128055810000084
得到第二级非线性降噪处理指向所述第一预设目标方位第n帧频点f处的第一预设目标方位二级降噪固定波束形成结果,并作为指向所述第一预设目标方位的所述固定波束形成结果。
可选的,所述根据两个所述初级固定波束形成结果,进行至少两级非线性降噪处理,得到固定波束形成结果,包括:
以所述第二预设目标方位为目标方向,所述第一预设目标方位为干扰方向,根据第六表达式
Figure BDA0002128055810000091
得到第一级非线性降噪处理第n帧频点f处的第三增益参数
Figure BDA0002128055810000092
其中,
Figure BDA0002128055810000093
为增强所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果,
Figure BDA0002128055810000094
为增强所述第二预设目标方位的第n帧频点f处的第二初级固定波束形成结果;
根据第七表达式
Figure BDA0002128055810000095
得到第一级非线性降噪处理指向所述第二预设目标方位的第n帧频点f处的第二预设目标方位一级降噪固定波束形成结果;
以所述第二预设目标方位为目标方向,所述第一预设目标方位为干扰方向,根据第八表达式
Figure BDA0002128055810000096
得到第二级非线性降噪处理第n帧频点f处的第四增益参数
Figure BDA0002128055810000097
其中,200Hz≤f≤2500Hz;
根据第九表达式
Figure BDA0002128055810000098
得到第二级非线性降噪处理指向所述第二预设目标方位的第n帧频点f处的第二预设目标方位二级降噪固定波束形成结果,并作为指向所述第二预设目标方位的所述固定波束形成结果。固定波束形成结果包括指向第一预设目标方位的固定波束形成结果和指向第二预设目标方位的固定波束形成结果。
其中,第二级非线性降噪处理仅对语音能量分布较大的频谱段进行处理,可以减少运算量,降低处理器的负担,也有助于提高效率。
步骤340、根据两个固定波束形成结果,确定分别与两个预设目标方位对应的信号能量;
其中,根据固定波束形成结果中声音信号的振幅,可以得到声音信号的能量。而两个固定波束形成结果是与两个预设目标方位一一对应的。如此一来,得到的两个信号能量也就与两个预设目标方位一一对应。预设目标方位、固定波束形成结果和信号能量三者之间就具有确定的对应关系。
步骤350、根据两个信号能量和信号能量与预设目标方位的对应关系,确定声源方位。
本实施例的技术方案,采用至少两级非线性降噪处理,提高对干扰方向的抑制效果,增强目标方向语音,从而得到较为干净的语音信号,提高语音指令的识别率。
实施例三
图4为本发明实施例三提供的一种双麦克风阵列声源定向方法的流程图,本实施例的技术方案是在上述技术方案的基础上进一步细化,该方法包括:
步骤410、根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系,确定两个预设固定波束形成参数;
步骤420、根据预设固定波束形成参数与麦克风原始数据,确定分别对应两个预设目标方位的初级固定波束形成结果;
步骤430、根据两个初级固定波束形成结果,进行非线性降噪处理,得到固定波束形成结果。
步骤440、根据两个固定波束形成结果,计算分别指向两个预设目标方位的单帧信号能量;
步骤450、根据单帧信号能量,采用能量平滑的方式,确定分别指向两个预设目标方位的信号能量;
Figure BDA0002128055810000101
其中,可以根据表达式
Figure BDA0002128055810000102
计算分别指向两个所述预设目标方位的信号能量
Figure BDA0002128055810000103
Figure BDA0002128055810000104
其中,λ为预设平滑因子,
Figure BDA0002128055810000111
分别为当前第n帧信号指向两个预设目标方位的所述单帧信号能量。可选的,预设平滑因子λ的取值为0.85-0.95,优选为0.9。对于单帧信号能量,可能有数值突变的情况,影响声源定位的判断,而信号能量
Figure BDA0002128055810000112
作为指向第一预设目标方位的累计信号能量,
Figure BDA0002128055810000113
作为指向第二预设目标方位的累计信号能量,是在一定预设时间内的信号能量,通过比较一定预设时间内的信号能量,来判断声源方位,可以保证语音交互系统运行的稳定性。
步骤460、根据两个信号能量和信号能量与预设目标方位的对应关系,确定声源方位。
可选的,当指向第一预设目标方位的第一信号能量大于等于指向第二预设目标方位的第二信号能量,确定声源方位为第一预设目标方位;
当指向第一预设目标方位的第一信号能量小于指向第二预设目标方位的第二信号能量,确定声源方位为第二预设目标方位。
本实施例的技术方案,通过判断预设时间内的信号能量,提高声源方位的准确性,避免信号突变的影响,保证语音交互系统运行的稳定性。
实施例四
图5为本发明实施例四提供的一种双麦克风阵列声源定向装置的结构示意图,该装置包括:
预设固定波束形成参数确定模块510,用于根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系,确定两个预设固定波束形成参数;其中,两个预设固定波束形成参数与两个预设目标方位一一对应;
初级固定波束形成结果确定模块520,用于根据预设固定波束形成参数与麦克风原始数据,确定分别对应两个预设目标方位的初级固定波束形成结果;
固定波束形成结果得到模块530,用于根据两个初级固定波束形成结果,进行非线性降噪处理,得到固定波束形成结果;
信号能量确定模块540,用于根据两个固定波束形成结果,确定分别与两个预设目标方位对应的信号能量;
声源方位确定模块550,用于根据两个信号能量和信号能量与预设目标方位的对应关系,确定声源方位。
本实施例的技术方案,根据波束形成结果,基于信号能量判断声源方向,解决了基于声波到达麦克风阵列的相位差来计算得到声音方向,在麦克风阵列间距较小时,准确性不高的问题,实现提高声源定向准确性的效果。
可选的,信号能量确定模块540,包括:
单帧信号能量计算单元,用于根据两个所述固定波束形成结果,计算分别指向两个所述预设目标方位的单帧信号能量;
信号能量确定单元,用于根据所述单帧信号能量,采用能量平滑的方式,确定分别指向两个所述预设目标方位的所述信号能量。
可选的,信号能量确定单元,具体用于:
Figure BDA0002128055810000121
根据表达式
Figure BDA0002128055810000122
计算分别指向两个所述预设目标方位的所述信号能量
Figure BDA0002128055810000123
Figure BDA0002128055810000124
其中,λ为预设平滑因子,
Figure BDA0002128055810000125
分别为当前第n帧信号指向两个所述预设目标方位的所述单帧信号能量。
可选的,预设平滑因子的取值为0.85-0.95,优选为0.9。
可选的,声源方位确定模块550,具体用于:
当指向第一预设目标方位的第一信号能量大于等于指向第二预设目标方位的第二信号能量,确定所述声源方位为所述第一预设目标方位;
当指向所述第一预设目标方位的所述第一信号能量小于指向所述第二预设目标方位的所述第二信号能量,确定所述声源方位为所述第二预设目标方位。
本发明实施例所提供的双麦克风阵列波束形成装置可执行本发明任意实施例所提供的双麦克风阵列波束形成方法,具备执行方法相应的功能模块和有益效果。
实施例五
图6为本发明实施例四提供的一种设备的结构示意图,如图6所示,该设备包括处理器610、存储器620和双麦克风阵列630;设备中处理器610的数量可以是一个或多个,图6中以一个处理器610为例;设备中的处理器610、存储器620和双麦克风阵列630可以通过总线或其他方式连接,图6中以通过总线连接为例。
存储器620作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的双麦克风阵列声源定向方法对应的程序指令/模块(例如,双麦克风阵列声源定向装置中的预设固定波束形成参数确定模块510、初级固定波束形成结果确定模块520、固定波束形成结果得到模块530、信号能量确定模块540和声源方位确定模块550)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的双麦克风阵列声源定向方法。
存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器620可进一步包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
双麦克风阵列630用于获取音频数据,该音频数据中包括指向预设目标方位的语音信号。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种双麦克风阵列声源定向方法,其特征在于,包括:
根据两个预设目标方位、双麦克风阵列的导向矢量和所述导向矢量与预设固定波束形成参数的预设关系,确定两个所述预设固定波束形成参数;其中,两个所述预设固定波束形成参数与两个所述预设目标方位一一对应;
根据所述预设固定波束形成参数与麦克风原始数据,确定分别对应两个所述预设目标方位的初级固定波束形成结果;
根据两个所述初级固定波束形成结果,进行非线性降噪处理,得到固定波束形成结果;
根据两个所述固定波束形成结果,确定分别与两个所述预设目标方位对应的信号能量;
根据两个所述信号能量和所述信号能量与所述预设目标方位的对应关系,确定声源方位。
2.根据权利要求1所述的双麦克风阵列声源定向方法,其特征在于,所述根据两个所述固定波束形成结果,确定分别与两个所述预设目标方位对应的信号能量,包括:
根据两个所述固定波束形成结果,计算分别指向两个所述预设目标方位的单帧信号能量;
根据所述单帧信号能量,采用能量平滑的方式,确定分别指向两个所述预设目标方位的所述信号能量。
3.根据权利要求2所述的双麦克风阵列声源定向方法,其特征在于,所述根据所述单帧信号能量,采用能量平滑的方式,确定分别指向两个所述预设目标方位的所述信号能量,包括:
根据表达式
Figure FDA0002128055800000021
计算分别指向两个所述预设目标方位的所述信号能量
Figure FDA0002128055800000022
Figure FDA0002128055800000023
其中,λ为预设平滑因子,
Figure FDA0002128055800000024
分别为当前第n帧信号指向两个所述预设目标方位的所述单帧信号能量。
4.根据权利要求3所述的双麦克风阵列声源定向方法,其特征在于,所述预设平滑因子的取值为0.85-0.95。
5.根据权利要求1所述的双麦克风阵列声源定向方法,其特征在于,所述根据两个所述信号能量和所述信号能量与所述预设目标方位的对应关系,确定声源方位,包括:
当指向第一预设目标方位的第一信号能量大于等于指向第二预设目标方位的第二信号能量,确定所述声源方位为所述第一预设目标方位;
当指向所述第一预设目标方位的所述第一信号能量小于指向所述第二预设目标方位的所述第二信号能量,确定所述声源方位为所述第二预设目标方位。
6.一种双麦克风阵列声源定向装置,其特征在于,包括:
预设固定波束形成参数确定模块,用于根据两个预设目标方位、双麦克风阵列的导向矢量和所述导向矢量与预设固定波束形成参数的预设关系,确定两个所述预设固定波束形成参数;其中,两个所述预设固定波束形成参数与两个所述预设目标方位一一对应;
初级固定波束形成结果确定模块,用于根据所述预设固定波束形成参数与麦克风原始数据,确定分别对应两个所述预设目标方位的初级固定波束形成结果;
固定波束形成结果得到模块,用于根据两个所述初级固定波束形成结果,进行非线性降噪处理,得到固定波束形成结果;
信号能量确定模块,用于根据两个所述固定波束形成结果,确定分别与两个所述预设目标方位对应的信号能量;
声源方位确定模块,用于根据两个所述信号能量和所述信号能量与所述预设目标方位的对应关系,确定声源方位。
7.根据权利要求6所述的双麦克风阵列声源定向装置,其特征在于,所述信号能量确定模块,包括:
单帧信号能量计算单元,用于根据两个所述固定波束形成结果,计算分别指向两个所述预设目标方位的单帧信号能量;
信号能量确定单元,用于根据所述单帧信号能量,采用能量平滑的方式,确定分别指向两个所述预设目标方位的所述信号能量。
8.根据权利要求7所述的双麦克风阵列声源定向装置,其特征在于,所述信号能量确定单元,具体用于:
根据表达式
Figure FDA0002128055800000031
计算分别指向两个所述预设目标方位的所述信号能量
Figure FDA0002128055800000032
Figure FDA0002128055800000033
其中,λ为预设平滑因子,
Figure FDA0002128055800000034
分别为当前第n帧信号指向两个所述预设目标方位的所述单帧信号能量。
9.根据权利要求6所述的双麦克风阵列声源定向装置,其特征在于,所述声源方位确定模块,具体用于:
当指向第一预设目标方位的第一信号能量大于等于指向第二预设目标方位的第二信号能量,确定所述声源方位为所述第一预设目标方位;
当指向所述第一预设目标方位的所述第一信号能量小于指向所述第二预设目标方位的所述第二信号能量,确定所述声源方位为所述第二预设目标方位。
10.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
双麦克风阵列,用于获取音频数据;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的双麦克风阵列声源定向方法。
CN201910628826.5A 2019-07-12 2019-07-12 双麦克风阵列声源定向方法、装置及设备 Active CN112216298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910628826.5A CN112216298B (zh) 2019-07-12 2019-07-12 双麦克风阵列声源定向方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910628826.5A CN112216298B (zh) 2019-07-12 2019-07-12 双麦克风阵列声源定向方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112216298A true CN112216298A (zh) 2021-01-12
CN112216298B CN112216298B (zh) 2024-04-26

Family

ID=74048559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910628826.5A Active CN112216298B (zh) 2019-07-12 2019-07-12 双麦克风阵列声源定向方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112216298B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053406A (zh) * 2021-05-08 2021-06-29 北京小米移动软件有限公司 声音信号识别方法及装置
CN113473285A (zh) * 2021-06-23 2021-10-01 泰凌微电子(上海)股份有限公司 一种设备定位方法及耳机

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007026827A1 (ja) * 2005-09-02 2007-03-08 Japan Advanced Institute Of Science And Technology マイクロホンアレイ用ポストフィルタ
CN101394679A (zh) * 2007-09-17 2009-03-25 深圳富泰宏精密工业有限公司 声源定位系统及方法
EP2321978A1 (en) * 2008-08-29 2011-05-18 Dev-Audio Pty Ltd A microphone array system and method for sound acquisition
KR101103794B1 (ko) * 2010-10-29 2012-01-06 주식회사 마이티웍스 멀티 빔 음향시스템
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
CN102819009A (zh) * 2012-08-10 2012-12-12 汽车零部件研究及发展中心有限公司 用于汽车的驾驶者声源定位系统及方法
CN104936091A (zh) * 2015-05-14 2015-09-23 科大讯飞股份有限公司 基于圆形麦克风阵列的智能交互方法及系统
CN106710603A (zh) * 2016-12-23 2017-05-24 上海语知义信息技术有限公司 利用线性麦克风阵列的语音识别方法及系统
CN107742522A (zh) * 2017-10-23 2018-02-27 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
CN107976651A (zh) * 2016-10-21 2018-05-01 杭州海康威视数字技术股份有限公司 一种基于麦克风阵列的声源定位方法及装置
CN108091344A (zh) * 2018-02-28 2018-05-29 科大讯飞股份有限公司 一种降噪方法、装置及系统
JP2018128500A (ja) * 2017-02-06 2018-08-16 日本電信電話株式会社 形成装置、形成方法および形成プログラム
CN108562894A (zh) * 2018-04-19 2018-09-21 电子科技大学 雷达波束指向与发射功率的分配方法
US20180330745A1 (en) * 2017-05-15 2018-11-15 Cirrus Logic International Semiconductor Ltd. Dual microphone voice processing for headsets with variable microphone array orientation
CN108877827A (zh) * 2017-05-15 2018-11-23 福州瑞芯微电子股份有限公司 一种语音增强交互方法及系统、存储介质及电子设备
CN109102822A (zh) * 2018-07-25 2018-12-28 出门问问信息科技有限公司 一种基于固定波束形成的滤波方法及装置
US10187721B1 (en) * 2017-06-22 2019-01-22 Amazon Technologies, Inc. Weighing fixed and adaptive beamformers
US20190342688A1 (en) * 2017-01-22 2019-11-07 Nanjing Twirling Technology Co., Ltd. Method and device for sound source localization

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007026827A1 (ja) * 2005-09-02 2007-03-08 Japan Advanced Institute Of Science And Technology マイクロホンアレイ用ポストフィルタ
CN101394679A (zh) * 2007-09-17 2009-03-25 深圳富泰宏精密工业有限公司 声源定位系统及方法
EP2321978A1 (en) * 2008-08-29 2011-05-18 Dev-Audio Pty Ltd A microphone array system and method for sound acquisition
US20110164761A1 (en) * 2008-08-29 2011-07-07 Mccowan Iain Alexander Microphone array system and method for sound acquisition
KR101103794B1 (ko) * 2010-10-29 2012-01-06 주식회사 마이티웍스 멀티 빔 음향시스템
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
CN102819009A (zh) * 2012-08-10 2012-12-12 汽车零部件研究及发展中心有限公司 用于汽车的驾驶者声源定位系统及方法
CN104936091A (zh) * 2015-05-14 2015-09-23 科大讯飞股份有限公司 基于圆形麦克风阵列的智能交互方法及系统
CN107976651A (zh) * 2016-10-21 2018-05-01 杭州海康威视数字技术股份有限公司 一种基于麦克风阵列的声源定位方法及装置
CN106710603A (zh) * 2016-12-23 2017-05-24 上海语知义信息技术有限公司 利用线性麦克风阵列的语音识别方法及系统
US20190342688A1 (en) * 2017-01-22 2019-11-07 Nanjing Twirling Technology Co., Ltd. Method and device for sound source localization
JP2018128500A (ja) * 2017-02-06 2018-08-16 日本電信電話株式会社 形成装置、形成方法および形成プログラム
US20180330745A1 (en) * 2017-05-15 2018-11-15 Cirrus Logic International Semiconductor Ltd. Dual microphone voice processing for headsets with variable microphone array orientation
CN108877827A (zh) * 2017-05-15 2018-11-23 福州瑞芯微电子股份有限公司 一种语音增强交互方法及系统、存储介质及电子设备
US10187721B1 (en) * 2017-06-22 2019-01-22 Amazon Technologies, Inc. Weighing fixed and adaptive beamformers
CN107742522A (zh) * 2017-10-23 2018-02-27 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
CN108091344A (zh) * 2018-02-28 2018-05-29 科大讯飞股份有限公司 一种降噪方法、装置及系统
CN108562894A (zh) * 2018-04-19 2018-09-21 电子科技大学 雷达波束指向与发射功率的分配方法
CN109102822A (zh) * 2018-07-25 2018-12-28 出门问问信息科技有限公司 一种基于固定波束形成的滤波方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王旭东: "基于波束形成与DNN的远距离语音识别方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, 31 January 2019 (2019-01-31), pages 136 - 393 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053406A (zh) * 2021-05-08 2021-06-29 北京小米移动软件有限公司 声音信号识别方法及装置
CN113473285A (zh) * 2021-06-23 2021-10-01 泰凌微电子(上海)股份有限公司 一种设备定位方法及耳机

Also Published As

Publication number Publication date
CN112216298B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
CN105355210B (zh) 用于远场语音识别的预处理方法和装置
EP3926624B1 (en) Voice awakening method and apparatus, and device and medium
CN109102822B (zh) 一种基于固定波束形成的滤波方法及装置
US9641929B2 (en) Audio signal processing method and apparatus and differential beamforming method and apparatus
KR101339592B1 (ko) 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
CN102831898B (zh) 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法
US8981994B2 (en) Processing signals
US9002027B2 (en) Space-time noise reduction system for use in a vehicle and method of forming same
CN107018470B (zh) 一种基于环形麦克风阵列的语音记录方法及系统
WO2008121905A2 (en) Enhanced beamforming for arrays of directional microphones
JP2001025082A (ja) マイクロホンアレイ装置
CN104637492A (zh) 用于自动语音识别系统的共同讲话者调零
JP2016127300A (ja) 音声処理装置
CN104640001A (zh) 基于多重超定向波束形成器的共同讲话者调零
CN112216298B (zh) 双麦克风阵列声源定向方法、装置及设备
CN110827846B (zh) 采用加权叠加合成波束的语音降噪方法及装置
CN112735461B (zh) 拾音方法以及相关装置、设备
CN108717495A (zh) 多波束波束成形的方法、装置及电子设备
JP2016126022A (ja) 音声処理装置
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
CN113491137B (zh) 具有分数阶的灵活差分麦克风阵列
CN108551625A (zh) 波束成形的方法、装置及电子设备
CN113050035A (zh) 一种二维定向拾音方法及装置
CN112151058B (zh) 一种声音信号的处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant