CN106886010A - 一种基于微型麦克风阵列的声源方位识别方法 - Google Patents

一种基于微型麦克风阵列的声源方位识别方法 Download PDF

Info

Publication number
CN106886010A
CN106886010A CN201710034312.8A CN201710034312A CN106886010A CN 106886010 A CN106886010 A CN 106886010A CN 201710034312 A CN201710034312 A CN 201710034312A CN 106886010 A CN106886010 A CN 106886010A
Authority
CN
China
Prior art keywords
sound intensity
sound
axis
omega
origin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710034312.8A
Other languages
English (en)
Other versions
CN106886010B (zh
Inventor
李妍文
陈华伟
晏燕
宋宫琨琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201710034312.8A priority Critical patent/CN106886010B/zh
Publication of CN106886010A publication Critical patent/CN106886010A/zh
Application granted granted Critical
Publication of CN106886010B publication Critical patent/CN106886010B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/20Position of source determined by a plurality of spaced direction-finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于微型麦克风阵列的声源方位识别方法。首先,在四阵元差分阵列的基础上,计算各方向分量上每个时频点的声强,并对每个时频点声强采用相位变换加权进行处理;其次,对各方向分量上的时频点分别进行求和平均运算并对加权后的特征向量进行归一化处理;然后,根据三阵元正交阵的声强特性,通过子阵求声强,构造合适的特征向量;最后,采用最小二乘支持向量机进行训练和测试,得到声源方位角识别结果。相比现有技术,本发明提取的特征向量在高混响环境下有更好的鲁棒性,并且不受语音特性的影响,容错率较高,方位识别精度也更高。

Description

一种基于微型麦克风阵列的声源方位识别方法
技术领域
本发明属于信息识别技术领域,特别涉及了一种基于微型麦克风阵列的声源方位识别方法。
背景技术
在实际应用中,由于人们对产品轻便美观的要求、使用场地的限制等等,麦克风阵列的尺寸会受到各种因素的约束,此时减小麦克风阵列的尺寸就显得十分必要,因此微型麦克风阵列的声源定位方法研究有着现实意义和实用价值。考虑到基本的声源定位方法如可控响应功率技术运算量大、时延估计法在小尺寸下定位性能差等因素,提出了基于平均复声强的声源定位方法,该方法在不同阵型的小尺寸麦克风阵列定位过程中明显存在优势。然而,该方法虽然受噪声影响较小,却存在混响较大情况下定位性能急剧下降的缺陷。
实际情况下,例如圆桌会议,说话人的位置基本处于一个固定的区域,且多个说话人基本均匀分布在圆桌的周围,这样就可以考虑将定位问题转化为分类识别问题。提取鲁棒性较好的特征向量,将模式识别方法和基本的定位方法相结合,采用麦克风之间的延迟时间作为特征向量,在麦克风阵列尺寸较大的情况下,可以提高算法的定位性能。然而受到特征限制,这类方法在小尺寸条件下无法有良好的定位效果。
发明内容
为了解决上述背景技术中所提出的技术问题,本发明旨在提供一种基于微型麦克风阵列的声源方位识别方法,克服现有技术存在的缺陷,具有鲁棒性、不受语音特性影响、适合小尺寸阵列声源定位等优势。
为了实现上述技术目的,本发明的技术方案为:
一种基于微型麦克风阵列的声源方位识别方法,包括以下步骤:
(1)根据四阵元差分阵列求声强方法,计算各个方向上每个时频点的声强分量,并在每个时频点分别对声强分量进行相位变换加权处理;
(2)对经相位变换加权处理的各时频点的声强分量进行求和平均运算,并对求和平均后的声强分量做归一化处理;
(3)根据三阵元正交阵的声强特性,按照步骤(1)-(2),获取四阵元差分阵列中各子阵列的声强分量;
(4)经步骤(2)、(3)得到的声强分量构成特征向量,采用最小二乘支持向量机进行训练和测试,求解出声源方位角。
进一步地,所述四阵元差分阵列包含1、2、3、4号麦克风,1、2、3、4号麦克风位于同一圆周上且按逆时针方向排列,以4个麦克风所在圆周的圆心作为原点、以相对2个麦克风所在直线作为坐标轴,建立平面直角坐标系,1、2、3、4号麦克风依次位于x轴正方向、y轴正方向、x轴负方向、y轴负方向。
进一步地,在步骤(1)中,采用下式计算各方向上的每个时频点经相位变换加权处理的声强分量:
上式中,Iox-PHAT(w,t)为坐标原点处声强在x轴方向上每个时频点进行相位变换加权后的分量,Ioy-PHAT(w,t)为坐标原点处声强在y轴方向上每个时频点进行相位变换加权后的分量,Po(w,t)为阵列中心处声压的短时傅里叶变换,Pi(w,t)为i号麦克风处声压的短时傅里叶变换,i=1,2,3,4,(ω,t)表示时频点,j为虚数单位,*表示共轭变换。
进一步地,在步骤(2)中,采用下式对各时频点的声强分量进行求和平均运算:
上式中,Ix(0)为x轴方向上的平均复声强,Iy(π/2)为y轴方向上的平均复声强,Iox-PHAT(wn,tb)为坐标原点处声强在x轴方向上第b帧、第n个频率点进行相位变换加权的分量,Ioy-PHAT(wn,tb)为坐标原点处声强在y轴方向上第b帧、第n个频率点进行相位变换加权的分量,Re{·}表示取实部运算,∑·表示求和运算。
进一步地,在步骤(2)中,采用下式对求和平均后的声强分量进行归一化处理:
上式中,为归一化后的x轴方向声强分量,为归一化后的y轴方向的声强分量。
进一步地,在步骤(3)中,四阵元差分阵列中任意3个麦克风构成1个子阵列,共有4个子阵列;根据三阵元正交阵的声强特性,获取四阵元差分阵列中4个子阵列的声强其中,为以3号麦克风为原点将x轴顺时针旋转方向上归一化后的声强,为以3号麦克风为原点将x轴逆时针旋转方向上归一化后的声强,为以1号麦克风为原点将x轴逆时针旋转方向上归一化后的声强,为以1号麦克风为原点将x轴顺时针旋转方向上归一化后的声强,表示以2号麦克风为原点将y轴逆时针旋转方向上归一化后的声强,表示以2号麦克风为原点将y轴顺时针旋转方向上归一化后的声强,表示以4号麦克风为原点将y轴顺时针旋转方向上归一化后的声强,表示以4号麦克风为原点将y轴逆时针旋转方向上归一化后的声强。
进一步地,在步骤(4)中,经步骤(2)、(3)得到的声强分量构成特征向量Γ:
上式中,[·]T表示转置运算。
采用上述技术方案带来的有益效果:
相比现有技术,本发明在混响噪声环境下提取的特征向量具有更好的鲁棒性,方位识别精度也较高,具体表现在:
(1)考虑到实际应用中可能存在高混响情况,若直接采用基本声强法进行特征提取,提取的特征信息无法较为准确的表征某类角度的特点,会使分类器在训练过程中无法正确对角度进行分类,从而导致识别不准、识别精度下降的情况。为此,本发明对各个方向上每个时频点的声强做相位变换加权处理,可使特征值在混响噪声环境下仍具有较好的鲁棒性。
(2)由于实际情况中说话人语音不是一成不变的,所以分类器需要对大量特征信息进行训练分类。考虑到算法效率不高的情况,提取不受语音特性影响的特征就显得尤为重要。本发明通过将改善后的对高混响有较好鲁棒性的特征进行归一化,避免了因训练量小而导致的识别过程中特征不匹配的情况,提高了算法的识别率,从而提高了方位识别精度。
(3)识别过程中,每组特征向量中的元素提取不一定完全正确,为使正确的特征元素进行识别匹配,这就需要尽可能的从麦克风阵列中提取有用信息。本发明通过利用子阵计算声强作为特征信息,可以良好表征每类角度,提高识别过程中特征向量的容错率,从而提高识别精度。
附图说明
图1为本发明中四阵元差分阵列以及坐标系定义示意图;
图2为本发明方法原理流程图;
图3(a)—3(d)分别为本发明中4个子阵列参考坐标系的定义示意图;
图4为仿真实验房间初始参数设置示意图;
图5(a)、5(b)为实施例1的仿真结果图;
图6(a)、6(b)为对比例1的仿真结果图;
图7为对比例2的仿真结果图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
本发明中所指的微型麦克风阵列主要是考虑阵列中阵元间距小于5cm的情况。
本发明方法是在如图1所示的麦克风阵列的基础上,按照图2所示的原理流程图进行研究的。全向麦克风1、2、3、4(M1、M2、M3、M4)等间隔分布在直径为D=2r的圆周上,方位角为q。考虑到语音信号的短时平稳特性,将麦克风接收到的200ms语音信号进行分帧,帧长为400点,帧移为200点。分别对4个麦克风接收到的信号分帧,然后做傅里叶变换,得到O点(即坐标原点)处振速在x轴、y轴方向的两个分量的短时傅里叶变换为:
上式中,Vox(w,t)表示O点处振速在x轴方向的短时傅里叶变换,Voy(w,t)表示O点处振速在y轴方向的短时傅里叶变换,Pi(w,t)表示麦克风i处的声压信号pi(t)的短时傅里叶变换,i=1,2,3,4,j为虚数单位,D为阵列尺寸,ρ为媒质密度,ω为角频率,用Po(w,t)表示O点处声压的短时傅里叶变换,可用下式近似求得:
上式中,∑·为求和运算。由于声强I与振速V、O点处声压Po的关系式为:
上式中,Re{·}为取实部运算,Po(wn,tb)表示第b帧、第n个频率点的O点处声压,V(wn,tb)表示第b帧、第n个频率点的振速,*表示共轭变换。因此可以推出在离散情况下,麦克风测得的O点处的平均复声强在x轴和y轴方向上的两个分量Iox和Ioy
上式中,Pi(wn,tb)表示麦克风i处第b帧、第n个频率点的声压,i=1,2,3,4。对式(8)中每个时频点声强进行相位加权变换,即可得到式(1),然后对式(1)进行求和平均运算得到式(2),再对式(2)中的声强分量进行归一化处理,即可得到式(3)。图3(a)—3(d)所示为在图1所示的阵列模型的基础上,利用不同参考坐标系下的子阵列进行声强提取的情况。各方向每个时频点相位变换加权后进行求和平均运算的声强为:
式(9)~(12)中,Ix(-π/4)表示以3号麦克风为原点将x轴顺时针旋转方向上的声强,Iy(π/4)表示以3号麦克风为原点将x轴逆时针旋转方向上的声强,Ix(3π/4)表示以1号麦克风为原点将x轴逆时针旋转方向上的声强,Iy(-3π/4)表示以1号麦克风为原点将x轴顺时针旋转方向上的声强,Ix(-3π/4)表示以2号麦克风为原点将y轴逆时针旋转方向上的声强,Iy(-π/4)表示以2号麦克风为原点将y轴顺时针旋转方向上的声强,Ix(π/4)表示以4号麦克风为原点将y轴顺时针旋转方向上的声强,Iy(3π/4)表示以4号麦克风为原点将y轴逆时针旋转方向上的声强。2、3、4号麦克风在第b帧、第n个频率点的声压均值为:
1、2、4号麦克风在第b帧、第n个频率点的声压均值为:
1、2、3号麦克风在第b帧、第n个频率点的声压均值为:
1、3、4号麦克风在第b帧、第n个频率点的声压均值为:
对式(9)~(12)所得声强做归一化处理可得:
上式中,表示以3号麦克风为原点将x轴顺时针旋转方向上归一化后的声强,表示以3号麦克风为原点将x轴逆时针旋转方向上归一化后的声强,表示以1号麦克风为原点将x轴逆时针旋转方向上归一化后的声强,表示以1号麦克风为原点将x轴顺时针旋转方向上归一化后的声强,表示以2号麦克风为原点将y轴逆时针旋转方向上归一化后的声强,表示以2号麦克风为原点将y轴顺时针旋转方向上归一化后的声强,表示以4号麦克风为原点将y轴顺时针旋转方向上归一化后的声强,表示以4号麦克风为原点将y轴逆时针旋转方向上归一化后的声强。
以式(3)、式(17)~(20)中所求的声强分量组成一组合适的特征向量利用特征向量Γ,对每类角度进行特征学习,并用分类器分类,然后进行识别,可得到声源方位角,具体过程为:
在房间中选定L个位置区域,每个位置区域是一类角度,设第k个位置区域有lk(k=1,2,L,L)个训练位置,即共有个训练点。对L个位置类用码字长度为P=[log2L]的最小输出编码方法进行编码,其中[·]是上舍入算子,从而将原有的L类最小二乘支持向量机用P个二进制最小二乘支持向量机表示。所以训练集为:
{(Γi,yi (p))|i=1,…,N;yi (p)∈{-1,+1}} (21)
上式中,Γi表示第i个训练点的特征向量,yi (p)表示属于第p个最小二乘支持向量机的第i个训练点通过最小输出编码方法进行编码后所属的类,p=1,2,…,P。这样就可以通过求解以下线性系统获得第p个二进制分类器:
上式中,矩阵W(p)中的元素Wlm (p)=K(p)(Gl,Gm)表示将各最小二乘支持向量机的第l个训练点的特征向量和第m个训练点的特征向量带入支持向量机的径向基核函数后所求出的值,g(p)为第p个最小二乘支持向量机的正则化参数,I为单位矩阵,b(p)是第p个最小二乘支持向量机的一个偏量,a(p)=[a1 (p),a2 (p),L,aN (p)]为各最小二乘支持向量机下的训练点对应的拉格朗日乘子所组成的向量,Y(p)=[y1 (p),…,yN (p)]表示各最小二乘支持向量机下每个训练点通过最小输出编码方法进行编码后所属类组成的向量。解方程(22)得到a和b后,在测试过程中提取每类角度相应的特征向量,则对于每个新输入的向量Γtest,计算第p个二进制分类器:
上式中,y(p)(Gtest)为输入的测试点特征向量Γtest对应的输出值,sign[·]为符号函数且ai (p)为属于第p个最小二乘支持向量机的第i个训练点所对应的拉格朗日乘子,K(p)(Gi,Gtest)表示第p个最小二乘支持向量机的第i个训练点的特征向量和测试点的特征向量带入支持向量机的径向基核函数后所求出的值,b(p)是第p个最小二乘支持向量机的一个偏量。所以解码长度为P的输出码字即可得声源的位置。
计算最终的方位识别精度LA为:
上式中,M和L分别为每类角度的测试点数和角度类的个数,为识别过程中第k个类识别正确的测试点数。
下面结合一些具体实施例以及对比例对本发明做进一步说明。
实施例1
本发明方法不受语音影响,采用最小二乘支持向量机对数据进行分析和识别,小尺寸、高混响情况下定位性能较好。
对各个方向时频点声强做相位变换加权并在求和平均后进行归一化,是本方法的关键技术。为此,举例说明每步处理后的特征用于训练和测试的定位效果。如图4所示,房间的长、宽、高分别为7m、6m、3m,麦克风阵列中心O位于(3.5m,3m,1.2m),每个阵元与阵列中心的距离相等,声源与阵列中心O的距离R始终为2m,且和阵列在同一高度上。12个角度类均匀分布在圆上,每类角度的中心以30°为间隔从-170°变化到160°。训练过程中,在每类角度中心±5°范围内均匀选取11个训练点,采用不同语音信号。测试过程中,在每类角度所述区域内随机选取100个测试位置,采用不同语音信号,计算落入正确类的测试点个数,算出识别精度。声音在空气中的传播速度c=340m/s。图5(a)所示为阵列尺寸D=4cm、信噪比SNR=15dB,改变混响时间RT60以50ms为间隔从200ms变化到700ms,将基本声强、归一化声强、主阵相位变换加权的归一化声强、主子阵联合相位变换加权的归一化声强分别作为特征并采用最小二乘支持向量机进行训练和测试的算法方位识别精度比较图。图5(b)所示为阵列尺寸D=4cm、混响时间RT60=300ms,改变信噪比SNR以5dB为间隔从5dB变化到30dB,将基本声强、归一化声强、主阵相位变换加权的归一化声强、主子阵联合相位变换加权的归一化声强分别作为特征并采用最小二乘支持向量机进行训练和测试的算法方位识别精度比较图。从图中可以看出,基本声强作为特征进行训练和测试的识别精度在混响较高的情况下无法工作,考虑到语音影响,加入归一化有略微改善,但由于混响对声强方法的影响较大,所以提取的特征信息已经无法良好表示角度类的特点。加入相位变换加权并做归一化的声强作为特征在高混响条件下,定位性能有明显改善。最后加入子阵声强,提高算法的容错率。显然,将主子阵联合相位变换加权的归一化声强作为特征进行训练和测试,在中高信噪比(SNR35dB)、中高混响(RT60 3 300ms)情况下,仍可保持算法的方位识别精度在80%以上。
对比例1
不同条件下将主子阵联合相位变换加权的归一化声强和广义互相关相位变换加权方法估计的时间延迟分别作为特征并采用最小二乘支持向量机进行训练和测试的算法方位识别精度对比图。
与实施例1中所设初始参数相同,图6(a)表示阵列尺寸D=4cm、信噪比SNR=15dB,改变混响时间RT60以50ms为间隔从200ms变化到700ms,将主子阵联合相位变换加权的归一化声强和广义互相关相位变换加权方法估计的时间延迟分别作为特征并采用最小二乘支持向量机进行训练和测试的算法方位识别精度对比图。图6(b)表示阵列尺寸D=4cm、混响时间RT60=300ms,改变信噪比SNR以5dB为间隔从5dB变化到30dB,将主子阵联合相位变换加权的归一化声强和广义互相关相位变换加权方法估计的时间延迟分别作为特征并采用最小二乘支持向量机进行训练和测试的算法方位识别精度比较图。从图中可以看出,采用传统的时延方法作为特征虽然减小了混响对算法的影响,但是受小尺寸和噪声影响,时延无法精确测量,导致特征信息不准带来的识别精度较小问题。而主子阵联合相位变换加权的归一化声强具有较好的鲁棒性,适合小尺寸麦克风阵列,在混响噪声环境下定位效果较好。
对比例2
中高混响、中高信噪比条件下,改变阵列尺寸大小,将主子阵联合相位变换加权的归一化声强和广义互相关相位变换加权方法估计的时间延迟分别作为特征并采用最小二乘支持向量机进行训练和测试的算法方位识别精度对比图。
与实施例1中所设初始参数相同,图7所示为混响时间RT60=300ms、信噪比SNR=15dB情况下,改变阵列尺寸大小,将主子阵联合相位变换加权的归一化声强和广义互相关相位变换加权方法估计的时间延迟分别作为特征并采用最小二乘支持向量机进行训练和测试的算法方位识别精度对比图。图中可以明显看出,在中高信噪比、中高混响条件下,小尺寸情况,采用主子阵联合相位变换加权的归一化声强作为特征的识别精度远高于采用时延作为特征的识别精度,而在大尺寸情况下,由于声强方法采用差分原理,所以提取特征信息受到影响,识别精度低于传统的时延方法,说明本发明方法的适用范围为微型麦克风阵列。
对比例3
实际情况下,将基本声强、归一化声强、主阵相位变换加权的归一化声强、主子阵联合相位变换加权的归一化声强、广义互相关相位变换加权方法估计的时间延迟分别作为特征并采用最小二乘支持向量机进行训练和测试的算法定位效果比较。
表1
整套实验系统放置在房间长宽高分别为9.64m、7.04m、2.95m的会议室进行实测,麦克风阵列中心位于(4.82m,3.52m,1.3m)处,每个阵元与阵列中心的距离相等且阵列尺寸D=4cm,声源与阵列中心的距离R始终为2m,且和阵列在同一高度上。利用采集卡对4路麦克风接收信号同时进行数据采集,并用电脑对采集到的数据进行处理,具体实施情况为:12个角度类均匀分布在圆上,每类角度的中心以30°为间隔从-170°变化到160°;训练过程中,在每类角度中心±5°范围内选取11个训练点,采用不同语音信号;测试过程中,在每类角度所述区域内选取20个测试位置,采用不同语音信号,计算落入正确类的测试点个数,算出识别精度。表1所示为采用不同方法进行特征提取用于训练和测试每类角度对应的算法方位识别精度比较,可以明显看出,实际环境中采用主子阵联合相位变换加权的归一化声强作为特征在小尺寸条件下仍具有较好的识别精度,说明本发明方法有一定的实用价值。
上述实施例和对比例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (7)

1.一种基于微型麦克风阵列的声源方位识别方法,其特征在于,包括以下步骤:
(1)根据四阵元差分阵列求声强方法,计算各个方向上每个时频点的声强分量,并在每个时频点分别对声强分量进行相位变换加权处理;
(2)对经相位变换加权处理的各时频点的声强分量进行求和平均运算,并对求和平均后的声强分量做归一化处理;
(3)根据三阵元正交阵的声强特性,按照步骤(1)-(2),获取四阵元差分阵列中各子阵列的声强分量;
(4)经步骤(2)、(3)得到的声强分量构成特征向量,采用最小二乘支持向量机进行训练和测试,求解出声源方位角。
2.根据权利要求1所述基于微型麦克风阵列的声源方位识别方法,其特征在于:所述四阵元差分阵列包含1、2、3、4号麦克风,1、2、3、4号麦克风位于同一圆周上且按逆时针方向排列,以4个麦克风所在圆周的圆心作为原点、以相对2个麦克风所在直线作为坐标轴,建立平面直角坐标系,1、2、3、4号麦克风依次位于x轴正方向、y轴正方向、x轴负方向、y轴负方向。
3.根据权利要求2所述基于微型麦克风阵列的声源方位识别方法,其特征在于:在步骤(1)中,采用下式计算各方向上的每个时频点经相位变换加权处理的声强分量:
I o x - P H A T ( ω , t ) = - j P o ( ω , t ) · [ P 3 ( ω , t ) - P 1 ( ω , t ) ] * | P o ( ω , t ) · [ P 3 ( ω , t ) - P 1 ( ω , t ) ] * | I o y - P H A T ( ω , t ) = - j P o ( ω , t ) · [ P 4 ( ω , t ) - P 2 ( ω , t ) ] * | P o ( ω , t ) · [ P 4 ( ω , t ) - P 2 ( ω , t ) ] * |
上式中,Iox-PHAT(w,t)为坐标原点处声强在x轴方向上每个时频点进行相位变换加权后的分量,Ioy-PHAT(w,t)为坐标原点处声强在y轴方向上每个时频点进行相位变换加权后的分量,Po(w,t)为阵列中心处声压的短时傅里叶变换,Pi(w,t)为i号麦克风处声压的短时傅里叶变换,i=1,2,3,4,(ω,t)表示时频点,j为虚数单位,*表示共轭变换。
4.根据权利要求3所述基于微型麦克风阵列的声源方位识别方法,其特征在于:在步骤(2)中,采用下式对各时频点的声强分量进行求和平均运算:
I x ( 0 ) = 1 2 Re { Σ ( n , b ) I o x - P H A T ( ω n , t b ) } I y ( π / 2 ) = 1 2 Re { Σ ( n , b ) I o y - P H A T ( ω n , t b ) }
上式中,Ix(0)为x轴方向上的平均复声强,Iy(π/2)为y轴方向上的平均复声强,Iox-PHAT(wn,tb)为坐标原点处声强在x轴方向上第b帧、第n个频率点进行相位变换加权的分量,Ioy-PHAT(wn,tb)为坐标原点处声强在y轴方向上第b帧、第n个频率点进行相位变换加权的分量,Re{·}表示取实部运算,∑·表示求和运算。
5.根据权利要求4所述基于微型麦克风阵列的声源方位识别方法,其特征在于:在步骤(2)中,采用下式对求和平均后的声强分量进行归一化处理:
I ‾ x ( 0 ) = I x ( 0 ) I x ( 0 ) 2 + I y ( π / 2 ) 2 I ‾ y ( π / 2 ) = I y ( π / 2 ) I x ( 0 ) 2 + I y ( π / 2 ) 2
上式中,为归一化后的x轴方向声强分量,为归一化后的y轴方向的声强分量。
6.根据权利要求5所述基于微型麦克风阵列的声源方位识别方法,其特征在于:在步骤(3)中,四阵元差分阵列中任意3个麦克风构成1个子阵列,共有4个子阵列;根据三阵元正交阵的声强特性,获取四阵元差分阵列中4个子阵列的声强其中,为以3号麦克风为原点将x轴顺时针旋转方向上归一化后的声强,为以3号麦克风为原点将x轴逆时针旋转方向上归一化后的声强,为以1号麦克风为原点将x轴逆时针旋转方向上归一化后的声强,为以1号麦克风为原点将x轴顺时针旋转方向上归一化后的声强,表示以2号麦克风为原点将y轴逆时针旋转方向上归一化后的声强,表示以2号麦克风为原点将y轴顺时针旋转方向上归一化后的声强,表示以4号麦克风为原点将y轴顺时针旋转方向上归一化后的声强,表示以4号麦克风为原点将y轴逆时针旋转方向上归一化后的声强。
7.根据权利要求6所述基于微型麦克风阵列的声源方位识别方法,其特征在于:在步骤(4)中,经步骤(2)、(3)得到的声强分量构成特征向量Γ:
Γ = [ I ‾ x ( 0 ) , I ‾ y ( π / 2 ) , I ‾ x ( - π / 4 ) , I ‾ y ( π / 4 ) , I ‾ x ( 3 π / 4 ) , I ‾ y ( - 3 π / 4 ) , I ‾ x ( - 3 π / 4 ) , I ‾ y ( - π / 4 ) , I ‾ x ( π / 4 ) , I ‾ y ( 3 π / 4 ) ] T
上式中,[·]T表示转置运算。
CN201710034312.8A 2017-01-17 2017-01-17 一种基于微型麦克风阵列的声源方位识别方法 Expired - Fee Related CN106886010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710034312.8A CN106886010B (zh) 2017-01-17 2017-01-17 一种基于微型麦克风阵列的声源方位识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710034312.8A CN106886010B (zh) 2017-01-17 2017-01-17 一种基于微型麦克风阵列的声源方位识别方法

Publications (2)

Publication Number Publication Date
CN106886010A true CN106886010A (zh) 2017-06-23
CN106886010B CN106886010B (zh) 2019-07-30

Family

ID=59176812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710034312.8A Expired - Fee Related CN106886010B (zh) 2017-01-17 2017-01-17 一种基于微型麦克风阵列的声源方位识别方法

Country Status (1)

Country Link
CN (1) CN106886010B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549052A (zh) * 2018-03-20 2018-09-18 南京航空航天大学 一种时频-空域联合加权的圆谐域伪声强声源定位方法
CN110068797A (zh) * 2019-04-23 2019-07-30 浙江大华技术股份有限公司 一种校准麦克风阵列的方法、声源定位方法及相关设备
CN110716178A (zh) * 2019-09-17 2020-01-21 苏宁智能终端有限公司 一种全声场定向的声源定位方法及装置
CN110876100A (zh) * 2018-08-29 2020-03-10 北京嘉楠捷思信息技术有限公司 一种音源定向方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02280075A (ja) * 1989-04-20 1990-11-16 Oki Electric Ind Co Ltd 受波器の指向性合成方法
CN103995252A (zh) * 2014-05-13 2014-08-20 南京信息工程大学 一种三维空间声源定位方法
CN104181506A (zh) * 2014-08-26 2014-12-03 山东大学 一种基于改进phat加权时延估计的声源定位方法及其实现系统
CN105301563A (zh) * 2015-11-10 2016-02-03 南京信息工程大学 一种基于一致聚焦变换最小二乘法的双声源定位方法
WO2016100747A3 (en) * 2014-12-18 2016-08-11 Weill Lawrence R Method and apparatus for estimating waveform onset time

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02280075A (ja) * 1989-04-20 1990-11-16 Oki Electric Ind Co Ltd 受波器の指向性合成方法
CN103995252A (zh) * 2014-05-13 2014-08-20 南京信息工程大学 一种三维空间声源定位方法
CN104181506A (zh) * 2014-08-26 2014-12-03 山东大学 一种基于改进phat加权时延估计的声源定位方法及其实现系统
WO2016100747A3 (en) * 2014-12-18 2016-08-11 Weill Lawrence R Method and apparatus for estimating waveform onset time
CN105301563A (zh) * 2015-11-10 2016-02-03 南京信息工程大学 一种基于一致聚焦变换最小二乘法的双声源定位方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HUAWEI CHEN 等: ""Effects of Sensor Position Errors on Farfield/Nearfield Wideband Beamformers for Microphone Arrays"", 《IEEE SENSORS JOURNAL》 *
HUAWEI CHEN 等: ""Sound Source DOA Estimation and Localization in Noisy Reverberant Environments Using Least-Squares Support Vector Machines"", 《J SIGN PROCESS SYST》 *
何赛娟 等: ""基于差分麦克风阵列和语音稀疏性的多源方位估计方法"", 《数据采集与处理》 *
夏阳 等: ""基于矩形麦克风阵列的改进的GCC-PHAT语音定位算法"", 《山东科学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549052A (zh) * 2018-03-20 2018-09-18 南京航空航天大学 一种时频-空域联合加权的圆谐域伪声强声源定位方法
CN108549052B (zh) * 2018-03-20 2021-04-13 南京航空航天大学 一种时频-空域联合加权的圆谐域伪声强声源定位方法
CN110876100A (zh) * 2018-08-29 2020-03-10 北京嘉楠捷思信息技术有限公司 一种音源定向方法与系统
CN110068797A (zh) * 2019-04-23 2019-07-30 浙江大华技术股份有限公司 一种校准麦克风阵列的方法、声源定位方法及相关设备
CN110068797B (zh) * 2019-04-23 2021-02-02 浙江大华技术股份有限公司 一种校准麦克风阵列的方法、声源定位方法及相关设备
CN110716178A (zh) * 2019-09-17 2020-01-21 苏宁智能终端有限公司 一种全声场定向的声源定位方法及装置

Also Published As

Publication number Publication date
CN106886010B (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
Qin et al. Hi-mia: A far-field text-dependent speaker verification database and the baselines
Takeda et al. Discriminative multiple sound source localization based on deep neural networks using independent location model
CN109272989B (zh) 语音唤醒方法、装置和计算机可读存储介质
CN103426434B (zh) 结合源方向信息通过独立分量分析的源分离
CN105068048B (zh) 基于空间稀疏性的分布式麦克风阵列声源定位方法
Qin et al. The INTERSPEECH 2020 far-field speaker verification challenge
CN106886010B (zh) 一种基于微型麦克风阵列的声源方位识别方法
CN109490822B (zh) 基于ResNet的语音DOA估计方法
CN102436809B (zh) 英语口语机考系统中网络语音识别方法
CN103854660B (zh) 一种基于独立成分分析的四麦克语音增强方法
CN111239687A (zh) 一种基于深度神经网络的声源定位方法及系统
CN109767776B (zh) 一种基于密集神经网络的欺骗语音检测方法
CN109975762A (zh) 一种水下声源定位方法
Cai et al. Multi-Channel Training for End-to-End Speaker Recognition Under Reverberant and Noisy Environment.
Fahim et al. Multi-source DOA estimation through pattern recognition of the modal coherence of a reverberant soundfield
CN106019230A (zh) 一种基于i-vector说话人识别的声源定位方法
Vera-Diaz et al. Acoustic source localization with deep generalized cross correlations
Chen et al. Multimodal fusion for indoor sound source localization
CN112180318B (zh) 声源波达方向估计模型训练和声源波达方向估计方法
Wu et al. Improving Deep CNN Architectures with Variable-Length Training Samples for Text-Independent Speaker Verification.
CN108564962A (zh) 基于四面体麦克风阵列的无人机声音信号增强方法
Zhu et al. Single sound source localization using convolutional neural networks trained with spiral source
Cai et al. Identifying source speakers for voice conversion based spoofing attacks on speaker verification systems
Yang et al. Supervised direct-path relative transfer function learning for binaural sound source localization
Bui et al. A non-linear GMM KL and GUMI kernel for SVM using GMM-UBM supervector in home acoustic event classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190730

Termination date: 20210117