CN110441730B - 一种基于模拟信号处理架构的麦克风阵列声源定向系统 - Google Patents
一种基于模拟信号处理架构的麦克风阵列声源定向系统 Download PDFInfo
- Publication number
- CN110441730B CN110441730B CN201910600679.0A CN201910600679A CN110441730B CN 110441730 B CN110441730 B CN 110441730B CN 201910600679 A CN201910600679 A CN 201910600679A CN 110441730 B CN110441730 B CN 110441730B
- Authority
- CN
- China
- Prior art keywords
- sound source
- source orientation
- switch
- analog
- microphone array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/805—Systems for determining direction or deviation from predetermined direction using adjustment of real or effective orientation of directivity characteristics of a transducer or transducer system to give a desired condition of signal derived from that transducer or transducer system, e.g. to give a maximum or minimum signal
- G01S3/8055—Systems for determining direction or deviation from predetermined direction using adjustment of real or effective orientation of directivity characteristics of a transducer or transducer system to give a desired condition of signal derived from that transducer or transducer system, e.g. to give a maximum or minimum signal adjusting orientation of a single directivity characteristic to produce maximum or minimum signal
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本发明提供一种基于模拟信号处理架构的麦克风阵列声源定向系统,依次将麦克风阵列、模拟域声源定向处理模块和声源定向模块依次相连;基于互相关窗函数的广义互相关算法,采用模拟域声源定向处理模块对麦克风阵列中的多个麦克风采集的多个模拟语音信号进行处理,先根据多个模拟语音信号中的每任意两个模拟语音信号判断出一个声源定向区域,从而获得声源方向可能来源的多个声源定向区域,最后通过声源定向模块从多个声源定向区域中判断出最终的声源方向。本发明无需采用ADC而大大降低了系统功耗,同时也不需要FFT或IFFT的处理步骤而大大降低了系统延迟,并且采用的模拟电路较为简单,降低了模拟电路的复杂度,具有较好的系统扩展性。
Description
技术领域
本发明涉及声源定向技术领域,尤其涉及一种基于模拟信号处理架构的麦克风阵列声源定向系统。
背景技术
近年来,声源定向方法作为一种基本的语音信号处理技术,吸引了众多研究者的注意,广泛应用于灾难现场救灾等领域。目前的研究主要关注于提高声源定位的分辨率,而在一些能源受限而又需要长时间工作的场景无法实际应用,比如在地震救灾场景中利用物联网进行常时声源定向时,在主机上收集信息然后定点救援,可以方便、安全、快速地救援被困人员,但是在这种场景下要求声源定向系统能够长时间工作,且对于系统尺寸的要求也有明显的限制。
图1为传统的声源定向系统的结构示意图,如图1所示,传统的声源定向系统是在数字领域进行语音信号处理的,这意味着麦克风接收到的模拟语音信号需要先经过ADC处理为数字信号才能进行进一步地处理,而且由于算法的限制,需要采样率至少为16KHz的语音信号,才能准确定向声源信号,声学信号处理领域即使采用低功耗∑ΔADC也需要279uW的能耗。每一个麦克风之后都需要接一个ADC,因此即使对于最简单的双麦克风阵列,ADC所占功耗都达到558uW。采用广义互相关(GCC)算法仿真一次声源定位需要的时间为2.66ms,因此双麦克风阵列后的两个ADC就需要消耗1.4896uJ的能量,优化后的一次浮点操作大约需要消耗25pJ,根据上述数据计算一次声源定位的计算能量为0.768uJ,由此可知ADC消耗整个系统65.98%的能耗。同时,传统的声源定向系统对于ADC处理后获得的数字信号还需要进行FFT和IFFT处理,仿真声源定位的过程中,不考虑ADC的延时,FFT和IFFT的延时占了系统延时的97.65%。
因此,传统的声源定向系统由于需要对麦克风阵列采集的模拟信号采用ADC处理,因此会占用系统较大的能耗;同时,还由于需要对ADC处理后的数字信号进行FFT和IFFT处理,因此会使得系统的延时较大。
发明内容
为了解决传统的声源定向系统存在由于需要对麦克风阵列采集的模拟信号采用ADC处理,因此会占用系统较大的能耗,同时还由于需要对ADC处理后的数字信号进行FFT和IFFT处理,因此会使得系统的延时较大的问题,因此本发明实施例提供一种基于模拟信号处理架构的麦克风阵列声源定向系统,该系统包括:依次相连的麦克风阵列、模拟域声源定向处理模块和声源定向模块;其中,麦克风阵列用于采集多个模拟语音信号;模拟域声源定向处理模块用于获取多个模拟语音信号中每任意两个模拟语音信号的声源定向区域;声源定向模块用于根据多个声源定向区域获取声源方向。
优选地,模拟域声源定向处理模块包括依次相连的延时器单元、乘法器单元、积分器单元和最大值选取单元;其中,延时器单元包括多对延时器;每对延时器的一端分别与麦克风阵列中采集每任意两个模拟信号之一的麦克风相连,另一端依次与乘法器单元、积分器单元和最大值选取单元相连,最大值选取单元与声源定向模块相连。
优选地,模拟域声源定向处理模块用于获取多个模拟语音信号中每任意两个模拟语音信号的声源定向区域,具体包括:利用延时器单元将每任意两个模拟语音信号进行数字采样并将每任意两个模拟语音信号之一进行延时,以获取第一采样信号和第二采样信号;依次利用乘法器单元和积分器单元将第一采样信号和第二采样信号进行乘法计算和积分计算,以获取每任意两个模拟语音信号的基于互相关窗函数的广义互相关函数;利用最大值选取单元获取多个基于互相关窗函数的广义互相关函数中最大的一个对应的可选声源定向区域,以获取每任意两个模拟语音信号的声源定向区域;其中,可选声源定向区域为以发出每任意两个模拟语音信号的两个麦克风相连的直线为横轴,以横轴上两个麦克风之间的中点为原点,以延时器的对数为横轴一侧或另一侧的180°区域的划分数量,将180度区域逆时针划分所得的区域。
优选地,获取每任意两个模拟语音信号的基于互相关窗函数的广义互相关函数之前,还包括:获取每任意两个模拟语音信号的初始广义互相关函数;利用互相关窗函数对初始广义互相关函数进行提取,获取基于互相关窗函数的广义互相关函数。
优选地,基于互相关窗函数的广义互相关函数为:
其中,R(τ)为基于互相关窗函数的广义互相关函数,x1[n]为第一采样信号,x2[n-τ]为第二采样信号,τ为延时器预设的延时,n为采样点序号,N为采样点个数。
优选地,声源定向模块用于根据多个声源定向区域获取声源方向,具体包括:利用声源定向模块从多个声源定向区域中,选取重合次数最多的声源定向区域,并根据重合次数最多的声源定向区域确定声源方向;其中,重合次数是指判定为该声源定向区域的次数。
优选地,从多个声源定向区域中,选取重合次数最多的声源定向区域,并根据重合次数最多的声源定向区域确定声源方向,具体包括:
其中,f(x)为声源方向,x为声源方向所属的声源定向区域,r1、r2……rm为声源定向区域;|x-rm|表示声源方向x所属的声源定向区域与声源定向区域rm是否重合,若重合则为0,若不重合则为1。
优选地,延时器包括第一开关、第二开关、第三开关、第四开关、第一电容、第二电容和第一差分放大器;其中,第一开关、第一电容、第二开关依次与第一差分放大器的正向输入端相连,第一差分放大器的负向输入端接地;第二开关的一端分别与第一开关和第一电容器相连,另一端接地;第三开关的一端分别与第一电容器和第二开关相连,另一端接地;第二电容器的一端与第一差分放大器的正向输入端相连,另一端与第一差分放大器的输出端相连,第四开关与第二电容器并联;其中,延时器预设的延时通过调节第三开关断开与第二开关闭合之间的时间差而控制;第三开关的关断时刻比第一开关的关断时刻早1us。
优选地,乘法器单元的乘法器包括互相连接的第二差分放大器和第一尾电流源;其中,第二差分放大器的输出电压通过第一尾电流源控制。
优选地,最大值选取单元包括互相连接的第三差分放大器和第二尾电流源,第三差分放大器的输出电压等于多个输入电压中的最大值;其中,输入电压为基于互相关窗函数的广义互相关函数的值。
本发明实施例提供一种基于模拟信号处理架构的麦克风阵列声源定向系统,依次将麦克风阵列、模拟域声源定向处理模块和声源定向模块依次相连,通过麦克风阵列中的多个麦克风获取多个模拟语音信号,然后通过模拟域声源定向处理模块确定多个模拟语音信号中每任意两个模拟语音信号的声源定向区域,最后通过声源定向模块从多个声源定向区域中选出最终的声源方向。本发明实施例采用模拟域声源定向处理模块对多个模拟语音信号进行处理,先根据多个模拟语音信号中的任意两个模拟语音信号判断出一个声源定向区域,从而获得最终的声源方向可能来源的多个声源定向区域,最后从多个声源定向区域中判断出最终的声源方向。本发明实施例无需采用ADC,由此大大降低了系统功耗;同时也不需要FFT或IFFT的处理步骤,由此大大降低了系统延迟,并且采用的模拟电路较为简单,降低了模拟电路的复杂度,具有较好的系统扩展性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为传统的声源定向系统的结构示意图;
图2为本发明实施例的基于模拟信号处理架构的麦克风阵列声源定向系统的总体结构示意图;
图3为本发明实施例的基于模拟信号处理架构的麦克风阵列声源定向系统的具体结构示意图;
图4为传统的声源定向系统采用广义互相关算法的流程示意图;
图5为本发明实施例的可选声源定向区域的划分示意图;
图6为本发明实施例的可选声源定向区域的另一划分示意图;
图7为本发明实施例的模拟域声源定向处理模块中延时器的电路图;
图8(a)为本发明实施例的模拟域声源定向处理模块中延时器的第一开关时钟图;
图8(b)为本发明实施例的模拟域声源定向处理模块中延时器的第二开关时钟图;
图8(c)为本发明实施例的模拟域声源定向处理模块中延时器的第三开关时钟图;
图8(d)为本发明实施例的模拟域声源定向处理模块中延时器的第四开关时钟图;
图9为本发明实施例的模拟域声源定向处理模块中延时器的仿真时域波形图;
图10(a)为本发明实施例的模拟域声源定向处理模块中乘法器的输入信号的仿真波形图;
图10(b)为本发明实施例的模拟域声源定向处理模块中乘法器的另一输入信号的仿真波形图;
图10(c)为本发明实施例的模拟域声源定向处理模块中乘法器的输出信号的仿真波形图;
图11(a)为本发明实施例的模拟域声源定向处理模块中积分器的第一开关时钟图;
图11(b)为本发明实施例的模拟域声源定向处理模块中积分器的第二开关时钟图;
图11(c)为本发明实施例的模拟域声源定向处理模块中积分器的第三开关时钟图;
图11(d)为本发明实施例的模拟域声源定向处理模块中积分器的第四开关时钟图;
图12为本发明实施例的模拟域声源定向处理模块中积分器的仿真时域波形图;
图13为本发明实施例的模拟域声源定向处理模块中最大值选取单元的电路图;
图14为本发明实施例的模拟域声源定向处理模块中最大值选取单元的仿真时域波形图;
图15为本发明实施例的双麦克风阵列的结构示意图;
图16为本发明实施例的基于模拟信号处理架构的麦克风阵列声源定向系统与传统的声源定向系统的精准率对比示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
传统的声源定向系统由于需要对麦克风阵列采集的模拟信号采用ADC处理,因此会占用系统较大的能耗,同时还由于需要对ADC处理后的数字信号进行FFT和IFFT处理,因此会使得系统的延时较大,因此本发明实施例提供一种基于模拟信号处理架构的麦克风阵列声源定向系统。
图2为本发明实施例的基于模拟信号处理架构的麦克风阵列声源定向系统的总体结构示意图,如图2所示,该系统包括:依次相连的麦克风阵列、模拟域声源定向处理模块和声源定向模块;其中,麦克风阵列用于采集多个模拟语音信号;模拟域声源定向处理模块用于获取多个模拟语音信号中每任意两个模拟语音信号的声源定向区域;声源定向模块用于根据多个声源定向区域获取声源方向。
具体地,区别于传统的声源定向系统,本发明实施例提供的基于模拟信号处理架构的麦克风阵列声源定向系统,是将麦克风阵列、模拟域声源定向处理模块和声源定向模块依次相连;模拟域声源定向处理模块是将麦克风阵列中的多个麦克风采集的多个模拟语音信号进行处理,即根据多个模拟语音信号中的每任意两个模拟语音信号判断出一个声源定向区域,由此获取每任意两个模拟语音信号的声源定向区域,从而获取多个声源定向区域;然后利用声源定向模块从多个声源定向区域中获取最终的声源方向。
本发明实施例采用模拟域声源定向处理模块对多个模拟语音信号进行处理,先根据多个模拟语音信号中的任意两个模拟语音信号判断出一个声源定向区域,从而获得最终的声源方向可能来源的多个声源定向区域,最后从多个声源定向区域中判断出最终的声源方向。本发明实施例无需采用ADC,由此大大降低了系统功耗;同时也不需要FFT或IFFT的处理步骤,由此大大降低了系统延迟,并且采用的模拟电路较为简单,降低了模拟电路的复杂度,具有较好的系统扩展性。
基于上述实施例,图3为本发明实施例的基于模拟信号处理架构的麦克风阵列声源定向系统的具体结构示意图,如图3所示,模拟域声源定向处理模块包括依次相连的延时器单元、乘法器单元、积分器单元和最大值选取单元;其中,延时器单元包括多对延时器;每对延时器的一端分别与麦克风阵列中采集每任意两个模拟信号之一的麦克风相连,另一端依次与乘法器单元、积分器单元和最大值选取单元相连,最大值选取单元与声源定向模块相连。其中,乘法器单元包括多个乘法器(Multiplier),积分器单元包括多个积分器(Integrator)。
具体地,模拟域声源定向处理模块由依次相连的延时器单元、乘法器单元、积分器单元和最大值选取单元构成;其中,延时器单元包括多对延时器,针对发出每任意两个模拟信号的两个麦克风,每对延时器中的一个与这两个麦克风中的一个相连,另一个与这两个麦克风中的另一个相连,从而将发出每任意两个模拟信号的两个麦克风分别与每对延时器相连。经过延时器的信号依次经过乘法器单元、积分器单元和最大值选取单元,然后再进入声源定向模块。
需要说明的是,声源定向方法基本分类三类:1、基于波束形成的定向方法,该方法分为传统的波束形成方法和最小方差无失真波束形成方法两种,但是为了达到较高的声源定位分辨率,传统的波束形成方法通常需要采用直径较大的麦克风阵列,而最小方差无失真波束形成方法的计算复杂度较高,计算代价较大;2、基于高分辨率估计的定向方法,该方法包括相关矩阵和特征值分解等操作步骤,因此计算复杂度较高,同时需要的麦克风的数量较多;3、基于声音到达延时(TDOA)的定向方法,该方法包括两步,第一步是通过相关算法计算不同麦克风接收信号的时延,第二步是根据时延计算声音到达方向,该方法由于在第一步的计算结果引入了时延的误差,因此虽然该方法的声源定位分辨率不及基于波束形成的定向方法,但是该方法的计算复杂度较低且允许使用尺寸比较小的麦克风阵列,因此该方法被广泛应用。
本发明实施例也采用声音到达延时(TDOA)的定向方法。而在基于声音到达延时(TDOA)的定向方法的第一步中,相关算法的计算复杂度和声音分辨率至关重要,由于广义互相关算法(GCC)有较高的抗噪能力和计算复杂度较低,因此被广泛应用。
例如,图4为传统的声源定向系统采用广义互相关算法的流程示意图,如图4所示,将广义互相关算法应用到传统的声源定向系统中时,假设该系统采用双麦克风阵列,则该双麦克风阵列采集的两个模拟语音信号x1(t)和x2(t)之间理论上的广义互相关函数为第一广义互相关函数为:
其中,R1(τ)为第一广义互相关函数,Φ(ω)为窗函数,X1(ω)为x1(t)的傅里叶变换,X2(ω)为x2(t)的傅里叶变换,为X2(ω)的复数共轭,τ为两个数字语音信号x1(n1)和x2(n1)的延时变量,ω为角频率。
进一步地,两个模拟语音信号x1(t)和x2(t)经ADC转换为两个数字语音信号x1(n)和x2(n),这两个数字语音信号x1(n)和x2(n)分别经过FFT处理后,在频域进行复数共轭相乘,然后附以窗函数加权,最后进行IFFT处理,
基于第一广义互相关函数得到数字域的广义互相关函数,即第二广义互相关函数:
其中,R2(τ)为第二广义互相关函数,τ为两个数字语音信号x1(n)和x2(n)的延时变量,Φ(k)为Φ(ω)的离散傅里叶变换,X1(k)为x1(n)的离散傅里叶变换,X2(k)为x2(n)的离散傅里叶变换,为X2(k)的复数共轭,k为离散傅里叶变换的点数,N1为离散傅里叶变换的个数。
应当知道的是,第一广义互相关函数和第二广义互相关函数是同一广义互相关函数的不同表达方式,两者之间没有变换关系,是直接相同的。
第二广义互相关函数会在两个数字语音信号x1(n)和x2(n)之间的延时变量τ等于两个数字语音信号x1(n)和x2(n)之间的真实延时的时候达到最大。由此可知,在广义互相关算法中,最重要的就是广义互相关函数的峰值最大时对应的横坐标,即真实延时。
另外,为了提高广义互相关算法的分辨率,多种窗函数被提出,以使得广义互相关函数的峰值更加尖锐;其中,互相关窗函数Φ(ω)=1或Φ(k)=1是使得广义互相关函数整体计算量最小的窗函数,它简化了整体计算流程,使得上述在频域进行的操作可以在时域进行,将互相关窗函数Φ(k)=1代入式(2),可得传统的基于互相关窗函数的广义互相关函数为:
需要说明的是:
其中,x1(n)和x2(n)为两个数字信号,X1(k)为x1(n)的离散傅里叶变换,X2(k)为x2(n)的离散傅里叶变换,为X2(k)的复数共轭,τ为两个数字语音信号x1(n)和x2(n)的延时变量,ω为角频率,N1为离散傅里叶变换的个数。
将式(4)和式(5)代入式(3)中,可得:
其中,R3(τ)为传统的基于互相关窗函数的广义互相关函数,τ为两个数字语音信号x1(n)和x2(n)的延时变量,n为采样点序号,N1为离散傅里叶变换的个数,x2(n-τ)为x2(n)延时后的数字语音信号。
基于上述实施例,如图3所示,模拟域声源定向处理模块用于获取多个模拟语音信号中每任意两个模拟语音信号的声源定向区域,具体包括:利用延时器单元将每任意两个模拟语音信号进行数字采样并将每任意两个模拟语音信号之一进行延时,以获取第一采样信号x1[n]和第二采样信号x2[n-τ];依次利用乘法器单元和积分器单元将第一采样信号x1[n]和第二采样信号x2[n-τ]进行乘法计算和积分计算,以获取每任意两个模拟语音信号的基于互相关窗函数的广义互相关函数;利用最大值选取单元获取多个基于互相关窗函数的广义互相关函数中最大的一个对应的声源定向区域,以获取每任意两个模拟语音信号的声源定向区域。
同时,本发明实施例也采用基于互相关窗函数的广义互相关算法,在获取每任意两个模拟语音信号的基于互相关窗函数的广义互相关函数之前,还包括:获取每任意两个模拟语音信号的初始广义互相关函数;利用互相关窗函数对初始广义互相关函数进行提取,获取基于互相关窗函数的广义互相关函数。
需要说明的是,将式(2)中的第二广义互相关函数作为每任意两个模拟语音信号的初始广义互相关函数,由此获得每任意两个模拟语音信号的基于互相关窗函数的广义互相关函数为:
其中,R(τ)为基于互相关窗函数的广义互相关函数,x1[n]为第一采样信号,x2[n-τ]为第二采样信号;τ为两个数字语音信号x1(n)和x2(n)的延时变量,即延时器预设的延时;n为采样点序号,N为采样点个数。
需要说明的是,声源定向区域为以发出每任意两个模拟语音信号的两个麦克风相连的直线为横轴,以横轴上两个麦克风之间的中点为原点,以延时器的对数为横轴一侧或另一侧的180°区域的划分数量,将180度区域划分所得的区域。例如:延时器的对数为3对,则代表该系统有3个通道,将两个麦克风相连的直线终点为原点,将两个麦克风相连的直线为横轴,将横轴一侧或另一侧的180°区域划分为0~60°、60°~120°和120°~180°三个区域,将这三个区域作为可选声源定向区域,声源定向区域和声源方向只可能属于这三个区域,
同理,又例如,若延时器的对数为4对,则代表该系统有4个通道,图5为本发明实施例的可选声源定向区域的划分示意图,如图5所示,图6为本发明实施例的可选声源定向区域的另一划分示意图,如图5和图6所示,将该180°区域划分为0~45°、45°~90°,90°~135°和135°~180°四个区域,分别为1、2、3和4,将这四个区域作为可选声源定向区域,声源定向区域和声源方向只可能属于这四个区域。
基于上述实施例,如图2和图3所示,声源定向模块用于根据多个声源定向区域获取声源方向,具体包括:利用声源定向模块从多个声源定向区域中,选取重合次数最多的声源定向区域,并根据重合次数最多的声源定向区域确定声源方向。其中,重合次数是指判定为该声源定向区域的次数。
具体地,根据多个模拟语音信号中每任意两个模拟语音信号都能确定一个声源定向区域,由此获取多个声源定向区域;应当知道的是,声源方向必定属于多个声源定向区域之一。因此根据多个声源定向区域中任意两个声源定向区域重合的情况,确定重合次数最多的声源定向区域,将重合次数最多的声源定向区域确定为声源方向。
需要说明的是,声源方向的精度设定越高,则需要的通道则越多,即延时器的对数越多。例如,若需要将声源方向定位到1°的声源定向区域,则需要将该180°区域划分为180个可选声源定向区域,因此需要180个通道,即180对延时器。
还需要说明的是,当声源方向的精度设定足够高时,每个可选声源定向区域的角度范围足够小,图5中麦克风1和麦克风2之间的可选声源定向区域,与图6中麦克风2和麦克风3之间的可选声源定向区域会相当。例如图5中的1、2、3分别相当于图6中的2、3、4。
进一步地,从多个声源定向区域中,选取重合次数最多的声源定向区域,并根据重合次数最多的声源定向区域确定声源方向,具体包括:
其中,f(x)为声源方向,x为声源方向所属的声源定向区域,r1、r2……rm为声源定向区域;|x-rm|表示声源方向x所属的声源定向区域与声源定向区域rm是否重合,若重合则为0,若不重合则为1。
具体地,由式(8)确定多个声源定向区域中重合次数最多的声源定向区域,将重合次数最多的声源定向区域作为声源方向所属的区域,从而确定出声源方向。例如,假设麦克风阵列有3个麦克风如图5和图6所示,如果麦克风1和麦克风2之间确定的声源定向区域即声源方向r1为1,麦克风2和麦克风3之间确定的声源定向区域r2即声源方向为2,则因此声源方向为1,即0~45°。
基于上述实施例,图7为本发明实施例的模拟域声源定向处理模块中延时器的电路图,图8(a)为本发明实施例的模拟域声源定向处理模块中延时器的第一开关时钟图,图8(b)为本发明实施例的模拟域声源定向处理模块中延时器的第二开关时钟图,图8(c)为本发明实施例的模拟域声源定向处理模块中延时器的第三开关时钟图,图8(d)为本发明实施例的模拟域声源定向处理模块中延时器的第四开关时钟图,如图7、图8(a)、图8(b)、图8(c)和图8(d)所示,图8(a)、图8(b)、图8(c)和图8(d)的横坐标为时间,纵坐标为电压。延时器包括第一开关S1、第二开关S2、第三开关S3、第四开关S4、第一电容C1、第二电容C2和第一差分放大器(OTA);其中,第一开关S1、第一电容C1、第二开关S2依次与第一差分放大器的正向输入端相连,第一差分放大器(OTA)的负向输入端接地;第二开关的一端分别与第一开关和第一电容器相连,另一端接地;第三开关的一端分别与第一电容器和第二开关相连,另一端接地;第二电容器的一端与第一差分放大器的正向输入端相连,另一端与第一差分放大器的输出端相连,第四开关与第二电容器并联;其中,延时器预设的延时通过调节第三开关断开与第二开关闭合之间的时间差而控制;第三开关的关断时刻比第一开关的关断时刻早1us。
具体地,第一开关S1、第二开关S2、第三开关S3、第四开关S4被图8(a)、图8(b)、图8(c)和图8(d)中的时钟信号所控制,延时器的工作流程为:1、在第一开关S1与第三开关S3闭合的时刻,第一电容C1的两端电压变为Vin11;在第三开关S3断开的时刻,输入电压Vin11便以电荷的形式存储在第一电容C1当中。2、由于第一差分放大器的增益非常大,可以认为第一电容C1右极板的电压为0,在第二开关S2闭合的时候,第一电容C1左极板的电压也变为0,因此这时第一电容C1上的所有电荷就转移到了第二电容C2上。3、在第二开关S2闭合前一时刻,第四开关S4闭合把第二电容C2上的电荷完全释放,电压重置为0。
从延时器的工作流程可知,第三开关S3断开时刻的输入电压Vin11,在第二开关S2闭合时刻传到输出Vo11上,即延时器预设的延时通过调节第三开关S3断开与第二开关S2闭合之间的时间差来控制。
需要说明的是,图9为本发明实施例的模拟域声源定向处理模块中延时器的仿真时域波形图,如图9所示,延时器的输出信号的幅度和输入信号的幅度并不完全能达到一致,原因有如下三个问题:1、由于时钟信号的周期是62.5us,所以输出信号是输入信号经过16KHz采样后的结果,后面计算中使用的是采样后的信号。2、当开关断开或者闭合时,存储在电容里的电荷会泄露。3、第一差分放大器的增益并不是无穷大,所以第一电容C1右极板的电压并不是0,因此第一电容C1上的电荷并不能完全转移到第二电容C2上。这三个问题可能会使延时器的输出信号相对输入信号产生一定的误差,针对问题1,采样信号并不会对最后的分辨率产生影响,主要问题是功耗是否满足要求,只采样不量化系统功耗并没有明显增加。针对问题2,通过使第三开关S3比第一开关S1早关断一个时刻如1us来解决,可以看到图8(c)中第三开关S3总比图8(a)中第一开关S1提前一个时刻。针对问题3,第一差分放大器的增益足够高,则误差就能够足够小,图8为本发明实施例的模拟域声源定向处理模块中延时器的仿真时域波形图,如图8所示给出了延时器的仿真结果,其中,延时器的输入信号为正弦波信号,延时器的输出信号为台阶状信号;仿真结果显示,误差在大多数场景下是在可以接受的范围内。
基于上述实施例,乘法器单元的乘法器包括互相连接的第二差分放大器和第一尾电流源;其中,第二差分放大器的输出电压通过第一尾电流源控制。
具体地,本发明实施例采用吉尔伯特单元实现乘法器单元,因此本发明实施例,乘法器单元的乘法器的输出信号和输入信号的关系为:
Vo22=-βVi22Vconf (9)
其中,Vo22为第二差分放大器的输出电压,即乘法器的输出电压;Vi22为第二差分放大器的输入电压,即乘法器的输入电压;Vconf为第一尾电流源的控制电压,β为第一尾电流源的控制系数。
图10(a)为本发明实施例的模拟域声源定向处理模块中乘法器的输入信号的仿真波形图,图10(b)为本发明实施例的模拟域声源定向处理模块中乘法器的另一输入信号的仿真波形图,图10(c)为本发明实施例的模拟域声源定向处理模块中乘法器的输出信号的仿真波形图,图10(a)、图10(b)和图10(c)中的横坐标均为时间,图10(a)、图10(b)的纵坐标为乘法器的输入电压,图10(c)的纵坐标为乘法器的输出电压。由图10(a)、图10(b)和图10(c)可以看出,乘法器的输出电压为输入电压相乘的结果。
基于上述实施例,积分器单元包括多个积分器,积分器的电路图与延时器的电路图完全一致,即积分器也包括第一开关S1、第二开关S2、第三开关S3、第四开关S4、第一电容C1、第二电容C2和第四差分放大器,积分器单元只需要通过调节控制开关的时钟信号就能实现积分功能。
图11(a)为本发明实施例的模拟域声源定向处理模块中积分器的第一开关时钟图,图11(b)为本发明实施例的模拟域声源定向处理模块中积分器的第二开关时钟图,图11(c)为本发明实施例的模拟域声源定向处理模块中积分器的第三开关时钟图,图11(d)为本发明实施例的模拟域声源定向处理模块中积分器的第四开关时钟图,图11(a)、图11(b)、图11(c)和图11(d)的横坐标为时间,纵坐标为输出电压,由上至下分别为第一开关S1、第二开关S2、第三开关S3、第四开关S4的时序。如图11(a)、图11(b)、图11(c)和图11(d)所示,由于积分器与延时器的结构相同,因此将积分器的组成与延时器的组成类比,积分器也包括第一开关S1、第二开关S2、第三开关S3、第四开关S4、第一电容C1、第二电容C2和第一差分放大器。
积分器的工作流程为:1、在第一开关S1和与第三开关S3闭合的时刻,第一电容C1的两端电压变为Vin33,Vin33为积分器的输入电压。在第三开关S3断开的时刻,输入电压Vin33便以电荷的形式存储在第一电容C1当中。由于第四差分放大器的增益非常大,可以认为第一电容C1右极板的电压为0,在第二开关S2闭合的时候,第一电容C1左极板的电压也变为0,因此这时第一电容C1上的所有电荷就转移到了第二电容C2上。2、每32ms(1帧)时刻闭合第四开关S4开关以重置第二电容C2上的电荷。
由此可知,积分器与延时器相比唯一的区别就是不再每个时钟周期重置第二电容C2上的电荷,而是每一帧输入信号重置一次,一帧信号内的多个周期从第一电容C1转移到第二电容C2上的电荷在第二电容C2上积累,达到了积分的效果。随着第二电容C2上的电荷的积累,第二电容C2两端的电压差逐渐增大,使得第一电容C1上的电荷越来越难以转移到第二电容C2上,这使得输出存在一定的误差,为了克服这个问题,可以采用更短的时间帧,这样第二电容C2上电压峰值会减小,此外,也可以增加第二电容C2或者减小第一电容C1来减小积分峰值。
图12为本发明实施例的模拟域声源定向处理模块中积分器的仿真时域波形图,如图12可以看出积分器的输出信号的高线性度。为了能清楚看到积分的台阶,将积分的时间设置较短,台阶高度设置较高,以获得比较明显的积分结果便于观察。积分器的输入信号为10KHz的方波信号,输出信号为台阶状的积分信号,积分器的功率与延时器的功率一致。
基于上述实施例,图13为本发明实施例的模拟域声源定向处理模块中最大值选取单元的电路图,如图13所示,最大值选取单元(WTA单元)包括互相连接的第三差分放大器和第二尾电流源,第三差分放大器的输出电压等于多个输入电压中的最大值;其中,输入电压为基于互相关窗函数的广义互相关函数的值。
具体地,最大值获取单元(WTA单元)的第三差分放大器的输出电压为多个输入电压中的最大值,即:
Vout=max(V1,V2,…Va) (10)
其中,Vout为最大值获取单元的输出电压,Va为每路输入电压,a为输入电压的路数。
应当知道的是,由于多个输入电压同时共享第二尾电流源,因此最大值获取单元的功率非常低,而且是独立于输入电压的路数的。
该过程具体是通过比较a路输入电压的输出电压的高低来确定的,即当a路输入电压中的第b(b≤a)路的输出电压VOa为最大值时,将第b路的输出电压VOa设为低电压或高电压而其他路输入电压的输出为常值电压,由此很方便地能得到最大输入电压的通道,从而将最大输入电压的通道的输入电压作为输出电压Vout输出。
图14为本发明实施例的模拟域声源定向处理模块中最大值选取单元的仿真时域波形图,如图14所示,输入信号为频率为10KHz的方波V2和10KHz的正弦波V1,需要说明的是,10KHz远大于正常的语音信号频率(300~3400Hz),因此最大值获取单元的带宽是完全满足声源定位的要求的。
从图14可知,最大值获取单元的输出信号Vout等于多个输入信号的最大值,最大值获取单元的功率不会随着输入电压的路数增加而增高,因此减少了电路的复杂程度。
下面给出一个具体实施例,以详细描述该基于模拟信号处理架构的麦克风阵列声源定向系统的仿真和实验过程,由此验证该基于模拟信号处理架构的麦克风阵列声源定向系统的可行性。
本发明实施例采用的是直径为1cm的双麦克风阵列结构,图15为本发明实施例的双麦克风阵列的结构示意图,如图15所示,双麦克风阵列为最简单的双麦克风阵列结构,更复杂的拓扑结构依托于更多的麦克风数目,可以在双麦克风阵列的基础上拓展而来。除此之外,该系统需要采用能量和尺寸都受限的设备,因此小的阵列尺寸是合理的,本发明实施例中采用1cm直径的双麦克风阵列,即麦克风1和麦克风2的中心的直线距离为1cm,声源被认为远场声源,输入声波为平面波。
由于声源定向的分辨率主要取决于声音信号的误差特性,因此每个单元的误差特性会传播到下一个单元而累加。为了该系统全局的分辨率,需要对每个单元进行误差仿真,该系统最终的声音定向的准确率是建立在这些每个单元的仿真误差之上的。
每个单元的误差特性都被认为是仿真结果和理想结果之间的最大误差,理想结果可通过对仿真结果进行回归得到。表1为模拟域声源定向处理模块中各单元的仿真误差结果。
表1
用于声源定向的数据集一般是在不同环境记录或者仿真得到的,因此没有一个公平对比的数据集。为了客观地评估该系统的性能,本发明实施例使用谷歌语音指令集(GSCD)进行仿真。GSCD包含了来自不同人、不同性别和不同种族的语音信号,GSCD包括的语音信号的多样性足以能证明该系统的鲁棒性。基于仿真误差特性,本发明实施例采用MATLAB仿真了基于GSCD生成的来自1°~180°的输入信号的误差,步长为1°。
图16为本发明实施例的基于模拟信号处理架构的麦克风阵列声源定向系统与传统的声源定向系统的精准率对比示意图,如图16所示,本发明实施例经过27720次仿真,本发明实施例基于图3所示的三通道架构,每一通道对应了一定范围的到达角度即一个声源定向区域。比如若通道1的基于互相关窗函数的广义互相关函数最大,则代表声音大到方向为0°-60°,图15中的数值代表了声源定向的精准率,计算方法为:
其中,P0-60°为精准率,TP0-60°为声源真实方向在0~60°中,且系统判定声源方向也在0~60°的样本数;FP0-60°为声源真实方向不在0~60°中,但是系统判定声源方向在0~60°的样本数。
由图16可知,该系统的精准度与传统的声源定向系统相当,通过该三通道系统容易验证该系统的可行性,基于该三通道系统可以扩展到多通道系统,以提高该系统的分辨率。需要说明的是,该系统和传统的声源定向系统均采用的是广义互相关算法。
进一步地,由于GSCD包含一段时间的静音时段,因此仿真时在前端加入了能量触发的VAD以检测语音开始阶段。在实习生产场景中,能量触发的VAD能够以1uW甚至142nW的功率实现,因此VAD的能耗几乎可以不计入考虑。
在传统的声源定向系统中进行同样的仿真操作,表2为该基于模拟信号处理架构的麦克风阵列声源定向系统与传统的声源定向系统的错误率对比表,表2中的错误率计算公式为:
E=1-A
其中,E为错误率,A为准确率。
进一步地:
其中,A为准确率,TP为声源真实方向在某一声源定向区域,并且系统判定声源方向也属于该声源定向区域的样本数;FN为声源真实方向在该声源定向区域,但是系统判定声源方向不属于该声源定向区域的样本数。
表2
采用双麦克风阵列时,传统的声源定向系统的功率为558uW,该基于模拟信号处理架构的麦克风阵列声源定向系统与传统的声源定向系统相比,在准确率降低5.81%的基础下,降低了94.5%的功率。如果考虑上数字系统计算的能耗,该系统降低的功率比例会更高,该系统建立时间为558.8ns,考虑到系统的带宽,该系统工作频率至少可以为1KHz,处理速度至少提高了2.66倍,仿真输入频率尚未达到系统极限,速度仍可提升。因此提出的该基于模拟信号处理架构的麦克风阵列声源定向系统非常适合于能源受限的声源定向应用中。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种基于模拟信号处理架构的麦克风阵列声源定向系统,其特征在于,包括:依次相连的麦克风阵列、模拟域声源定向处理模块和声源定向模块;其中,所述麦克风阵列用于采集多个模拟语音信号;所述模拟域声源定向处理模块用于获取所述多个模拟语音信号中每任意两个模拟语音信号的声源定向区域;所述声源定向模块用于根据多个所述声源定向区域获取声源方向;所述模拟域声源定向处理模块包括依次相连的延时器单元、乘法器单元、积分器单元和最大值选取单元;其中,所述延时器单元包括多对延时器;每对所述延时器的一端分别与所述麦克风阵列中采集所述每任意两个模拟信号之一的麦克风相连,另一端依次与所述乘法器单元、所述积分器单元和所述最大值选取单元相连,所述最大值选取单元与所述声源定向模块相连。
2.根据权利要求1所述的基于模拟信号处理架构的麦克风阵列声源定向系统,其特征在于,所述模拟域声源定向处理模块用于获取所述多个模拟语音信号中每任意两个模拟语音信号的声源定向区域,具体包括:
利用所述延时器单元将所述每任意两个模拟语音信号进行数字采样并将所述每任意两个模拟语音信号之一进行延时,以获取第一采样信号和第二采样信号;
依次利用所述乘法器单元和所述积分器单元将所述第一采样信号和所述第二采样信号进行乘法计算和积分计算,以获取所述每任意两个模拟语音信号的基于互相关窗函数的广义互相关函数;
利用最大值选取单元获取多个所述基于互相关窗函数的广义互相关函数中最大的一个对应的可选声源定向区域,以获取所述每任意两个模拟语音信号的声源定向区域;其中,所述可选声源定向区域为以发出所述每任意两个模拟语音信号的两个麦克风相连的直线为横轴,以所述横轴上所述两个麦克风之间的中点为原点,以所述延时器的对数为所述横轴一侧或另一侧的180°区域的划分数量,将所述180°区域逆时针划分所得的区域。
3.根据权利要求2所述的基于模拟信号处理架构的麦克风阵列声源定向系统,其特征在于,所述获取所述每任意两个模拟语音信号的基于互相关窗函数的广义互相关函数之前,还包括:
获取所述每任意两个模拟语音信号的初始广义互相关函数;
利用互相关窗函数对所述初始广义互相关函数进行提取,获取基于互相关窗函数的所述广义互相关函数。
5.根据权利要求2所述的基于模拟信号处理架构的麦克风阵列声源定向系统,其特征在于,所述声源定向模块用于根据多个所述声源定向区域获取声源方向,具体包括:
利用所述声源定向模块从多个所述声源定向区域中,选取重合次数最多的声源定向区域,并根据所述重合次数最多的声源定向区域确定所述声源方向;其中,所述重合次数是指判定为所述声源定向区域的次数。
7.根据权利要求1所述的基于模拟信号处理架构的麦克风阵列声源定向系统,其特征在于,所述延时器包括第一开关、第二开关、第三开关、第四开关、第一电容、第二电容和第一差分放大器;其中,所述第一开关、所述第一电容、所述第二开关依次与所述第一差分放大器的正向输入端相连,所述第一差分放大器的负向输入端接地;所述第二开关的一端分别与所述第一开关和所述第一电容相连,另一端接地;所述第三开关的一端分别与所述第一电容和所述第二开关相连,另一端接地;所述第二电容的一端与所述第一差分放大器的正向输入端相连,另一端与所述第一差分放大器的输出端相连,所述第四开关与所述第二电容并联;
其中,所述延时器预设的延时通过调节第三开关断开与第二开关闭合之间的时间差而控制;所述第三开关的关断时刻比第一开关的关断时刻早1us。
8.根据权利要求1所述的基于模拟信号处理架构的麦克风阵列声源定向系统,其特征在于,所述乘法器单元的乘法器包括互相连接的第二差分放大器和第一尾电流源;其中,所述第二差分放大器的输出电压通过所述第一尾电流源控制。
9.根据权利要求2所述的基于模拟信号处理架构的麦克风阵列声源定向系统,其特征在于,所述最大值选取单元包括互相连接的第三差分放大器和第二尾电流源,所述第三差分放大器的输出电压等于多个输入电压中的最大值;其中,所述输入电压为所述基于互相关窗函数的广义互相关函数的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910600679.0A CN110441730B (zh) | 2019-07-04 | 2019-07-04 | 一种基于模拟信号处理架构的麦克风阵列声源定向系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910600679.0A CN110441730B (zh) | 2019-07-04 | 2019-07-04 | 一种基于模拟信号处理架构的麦克风阵列声源定向系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110441730A CN110441730A (zh) | 2019-11-12 |
CN110441730B true CN110441730B (zh) | 2021-09-03 |
Family
ID=68428584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910600679.0A Active CN110441730B (zh) | 2019-07-04 | 2019-07-04 | 一种基于模拟信号处理架构的麦克风阵列声源定向系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110441730B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111060867A (zh) * | 2019-12-17 | 2020-04-24 | 南京愔宜智能科技有限公司 | 一种指向性麦克风微阵列波达方向估计方法 |
CN112017681B (zh) * | 2020-09-07 | 2022-05-13 | 思必驰科技股份有限公司 | 定向语音的增强方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1862813A1 (en) * | 2006-05-31 | 2007-12-05 | Honda Research Institute Europe GmbH | A method for estimating the position of a sound source for online calibration of auditory cue to location transformations |
CN106125048B (zh) * | 2016-07-11 | 2019-05-24 | 浙江大华技术股份有限公司 | 一种声源定位方法及装置 |
CN101567969B (zh) * | 2009-05-21 | 2013-08-21 | 上海交通大学 | 基于麦克风阵列声音制导的智能视频导播方法 |
CN106772220A (zh) * | 2016-12-28 | 2017-05-31 | 西北工业大学 | 基于封闭空间几何信息建模的单传声器声源定位方法 |
CN108398664B (zh) * | 2017-02-07 | 2020-09-08 | 中国科学院声学研究所 | 一种用于麦克风阵列的解析式空间解混叠方法 |
CN107271963A (zh) * | 2017-06-22 | 2017-10-20 | 广东美的制冷设备有限公司 | 声源定位的方法和装置及空调器 |
-
2019
- 2019-07-04 CN CN201910600679.0A patent/CN110441730B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110441730A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109830245A (zh) | 一种基于波束成形的多说话者语音分离方法及系统 | |
CN102103200B (zh) | 一种分布式非同步声传感器的声源空间定位方法 | |
Mitianoudis et al. | Audio source separation of convolutive mixtures | |
Blandin et al. | Multi-source TDOA estimation in reverberant audio using angular spectra and clustering | |
CN109490822B (zh) | 基于ResNet的语音DOA估计方法 | |
CN110441730B (zh) | 一种基于模拟信号处理架构的麦克风阵列声源定向系统 | |
Huleihel et al. | Spherical array processing for acoustic analysis using room impulse responses and time-domain smoothing | |
Pujol et al. | BeamLearning: An end-to-end deep learning approach for the angular localization of sound sources using raw multichannel acoustic pressure data | |
CN110610718A (zh) | 一种提取期望声源语音信号的方法及装置 | |
Liu et al. | Deep learning assisted sound source localization using two orthogonal first-order differential microphone arrays | |
Pujol et al. | Source localization in reverberant rooms using Deep Learning and microphone arrays | |
Ceolini et al. | Evaluating multi-channel multi-device speech separation algorithms in the wild: a hardware-software solution | |
Liu et al. | Head‐related transfer function–reserved time‐frequency masking for robust binaural sound source localization | |
Lu | Sound event detection and localization based on CNN and LSTM | |
Wan et al. | Improved steered response power method for sound source localization based on principal eigenvector | |
Aarabi et al. | Robust sound localization using conditional time–frequency histograms | |
Tengan et al. | Multi-source direction-of-arrival estimation using group-sparse fitting of steered response power maps | |
CN109901114A (zh) | 一种适用于声源定位的时延估计方法 | |
Cobos et al. | Two-microphone separation of speech mixtures based on interclass variance maximization | |
Boyd et al. | Improved estimation of direction of arrival of sound sources for hearing aids using gyroscopic information | |
CN101645701B (zh) | 一种基于滤波器组的时延估计方法及其系统 | |
Liu et al. | A dynamic algorithm for blind separation of convolutive sound mixtures | |
Jafari et al. | An adaptive stereo basis method for convolutive blind audio source separation | |
Li et al. | Low complex accurate multi-source RTF estimation | |
Masnadi-Shirazi et al. | Separation and tracking of multiple speakers in a reverberant environment using a multiple model particle filter glimpsing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |