CN106501775A

CN106501775A - 用于嵌入式平台的连续快速人声声源定位方法

Info

Publication number: CN106501775A
Application number: CN201610884390.2A
Authority: CN
Inventors: 周亚南; 姜志宏; 刘志忠; 邓涛
Original assignee: Nanjing Weikaer Software Co Ltd
Current assignee: Nanjing Weikaer Software Co Ltd
Priority date: 2016-10-10
Filing date: 2016-10-10
Publication date: 2017-03-15

Abstract

本发明提供一种用于嵌入式平台的连续快速人声语音定位方法，在人发声时通过嵌入式平台进行ADC采样后，进行人声数字化阈值判断，当声音信号大于阈值时进行算法运算数据采集；对采集的算法运算数据进行各路抽样，分别对两麦克风之间时延计算；当把每组两两麦克风之间的时延计算完成后，通过双曲线的渐近线方程估计方向角；对各组时延值计算的方向角，采用质心法估计最终方向角度；该种方法，在保证定位精度的情况下，减少语音信号的采集数量，并在求两两麦克风时延和最终求定位角度时避免了大规模的遍历计算，节省了CPU资源，保证了声源定位角度获取的实时性和连续性。

Description

用于嵌入式平台的连续快速人声声源定位方法

技术领域

本发明涉及一种用于嵌入式平台的连续快速人声声源定位方法。

背景技术

随着技术的进步，声源定位在视频会议、机器人声源定位、银行安全监控、基于声音的跟踪摄像系统、机械故障检测、噪声源定位等方面得到越来越广泛的应用。然而由于已有声源定位算法的复杂性，目前声源定位的实现都是基于PC机或者高性能的dsp芯片，功耗高，成本高，外围电路多，体积大，费用高，导致一些体积小，电池容量小的需要声源定位智能设备尤其是小型机器人难以大规模应用。

在计算时延方面，传统的声源定位方法在处理两两麦克风声音时延时通常采用遍历计算两路信号的最大互相关值或通过遍历搜索计算互功率谱总能量值最大点两种方法，前者计算的时延值只能以采样时间间隔为最小单位，精度较差；后者在实际应用中容易受到噪声和回声的影响导致较明显计算误差；而且两种方法的计算复杂度较高，难于在低成本的嵌入式环境里实现。

在通过时延计算定位角度方面，传统的声源定位方法多通过三个或更多时延差，代入双曲线方程组进行计算，计算复杂度高。

在麦克风阵列设计方面，传统的声源定位方法多采用四个或以上的拾音器，矩形布局或十字布局容易得出两两麦克风之间的声音时延和声源定位角度。

上述设计方式，直接导致嵌入式平台的计算处理量大，在同一主频嵌入式平台下就会导致运算时间过长，而且由于ADC样本数过大，对嵌入式平台的内存资源也比较高，一般都需要外扩内存。由于对现有声源定位算法的计算量和资源的耗费量，导致现有方法在嵌入式平台只能在一些高性能的DSP处理芯片上完成，并伴随有大量的外围资源的添加，以至于一些有声源定位系统的设备成本昂贵。

因此，一种快速声源定位方法的在嵌入式平台的应用，以及基于廉价的嵌入式系统达到较高精度的声源定位效果，具有重要的实际意义。

发明内容

本发明目的是提供一种用于家庭服务机器人的人声声源定位算法，本算法在保证低成本的前提下，能够连续快速的对人声声源进行定位。

一种用于嵌入式平台的连续快速的人声声源定位方法，包括以下步骤：

在人发声时通过嵌入式平台进行ADC采样后，进行人声数字化阈值判断，当声音信号大于阈值时候进行算法运算数据采集；

对采集的算法运算数据进行各路抽样，分别对两麦克风之间时延计算；

当把每组两两麦克风之间的时延计算完成后，通过双曲线的渐近线方程估计方向角；对各组时延值计算的方向角，采用质心法估计最终方向角度。

进一步地，对两麦克风之间时延计算具体为：进行声音信号归一化并对有效声音数据长度判别，进行声音信号的回声和噪声过滤，计算两路信号的互功率谱，搜索拟合互功率谱的相位角，通过相位角计算出时延。

进一步地，采用互功率谱相位计算方法具体为：首先将信号通过傅里叶变换从时域转换为频域，然后将信号进行分帧处理，再进行加海明窗处理，分帧后累加，计算平均相位谱；然后采用线性搜索法对具有周期性的相位谱逼近拟合，先确定两两麦克风之间的最大时延，为两两麦克风之间的距离d除以声速v则为两个方向的最大时延t_+max和t_-max；那么搜索范围在(t_-max，t_+max)内，确定步长后，计算范围内的各点与原频谱的均方和，进而比较计算出均方和最小的相位值即为所求，根据傅里叶的时移特性计算出对应的三组时延t₁₃、t₁₂、t₂₃。

进一步地，进行加海明窗处理中，海明窗函数为W(n,α)＝(1-α)-α(2*π*n/(N-1))，其中，α为本算法的海明窗函数特定参数，α＝0.46，N是长度为512窗口，n为窗口长度内的各点，海明窗处理后的每帧偏移比率为0.25。

进一步地，采用等边三角形麦克风阵列，即麦克风呈等边三角形分布，通过模拟电路对语音原始信号进行滤波增益，利用数模转化器进行三路麦克风声音信号的拾取。

进一步地，采用质心法估计最终方向角度，具体为：根据两两麦克风之间的时延值一定，得到一组三个双曲线方程，声源位置应为双曲线上的某一点，做各双曲线的渐进线，延长三条渐进线交成一个三角形，再计算出三角形的质心即为所求声源位置。

进一步地，在人发声的时候通过嵌入式平台以10Kbps的采样速率进行ADC采样；当声音信号大于阈值时进行算法运算数据采集，每个麦采集4K的数据，共采样12K。

一种使用上述嵌入式平台的连续快速人声声源定位方法的系统，包括麦克风阵列、语音滤波增益电路、ADC采集模块和声源定位处理模块。

麦克风阵列：采用等边三角形麦克风阵列，即麦克风呈等边三角形分布；

语音滤波增益电路：对麦克风阵列采集的声音信号进行滤波与增益放大；

ADC采集模块：在人发声时通过嵌入式平台进行ADC采样后，进行人声数字化阈值判断，当声音信号大于阈值时进行算法运算数据采集；

声源定位处理模块：对采集的算法运算数据进行各路抽样，分别对两麦克风之间时延计算；对三组时延值计算的方向角，采用质心法估计最终方向角度。

该种用于嵌入式平台的快速连续人声声源定位方法，结合本系统算法需要，在设置阵列时结合嵌入式平台的便携性，并根据远场判定条件，即声学中的远场判定与麦克风阵列中各咪头之间的距离以及声音的波长相关的特点，麦克风阵列采用声源定位系统公知的一种等边三角形麦克风阵列分布。

声音信号采集电路对三路麦克风进行独立采样和数模转换，并通过数字信号的功率阈值判断是否为有效信号。对每一路信号独立应用谱减法进行去噪，进一步采用带通滤波去掉人声范围之外的低频和高频部分。

采用改进的互功率谱相位时延估计方法计算两两麦克风对之间的时延，具体改进方法为：分帧、加窗、计算互功率谱，分帧累加平均，计算平均相位谱；采用线性搜索法(方向、范围、步长)对具有周期性的相位谱进行逼近拟合，求解最优的相位平移值，并根据相位平移值计算得到两两麦克风对之间的时延值。

该方法根据两两麦克风对之间的时延值以及麦克风阵列的坐标，可得到一组三个双曲线方程。为了进一步降低计算强度并不失远场条件，本发明采用双曲线渐近线方程作为双曲线方程的近似，得到一组三个折线方程，对折线方程两两求解得到三个坐标点，进一步计算其质心坐标作为声源点的估计坐标值

本发明的有益效果是：该种用于嵌入式平台的快速连续人声声源定位方法，在极大程度的降低了成本的同时，实现快速连续的定位。该方法完成一次定位运算的时间在0.8秒至1秒，精度范围在±15°。

附图说明

图1是本发明实施例用于嵌入式平台的快速声源定位方法的流程示意图。

图2是实施例中麦克风阵列分布示意图。

图3是实施例中互功率谱相位时延估计算法框图

具体实施方式

下面结合附图详细说明本发明的优选实施例。

实施例的该方法，嵌入式平台是基于stm32f407及语音滤波增益电路上的。

一种用于嵌入式平台的连续快速的人声声源定位方法，如图1，包括以下步骤：

在人发声时通过嵌入式平台进行ADC采样后，进行人声数字化阈值判断，当声音信号大于阈值时候进行算法运算数据采集。具体为：模数转换模块利用stm32f407内置的12位ADC模块进行ADC采样，采样率10Kbps，三路独立采样。进行人声数字化阈值判断。当声音信号大于阈值时候进行数据采集，每个麦克风至少采集提供4K左右的数据，总共采样12K。

对采集的算法运算数据进行各路抽样，分别对两麦克风之间时延计算；对两麦克风之间时延计算具体为：进行声音信号归一化并对有效声音数据长度判别，进行声音信号的回声和噪声过滤，计算两路信号的互功率谱，搜索拟合互功率谱的相位角，通过相位角计算出时延。

采用改进的互功率谱相位计算方法具体算法如图3所示，首先将信号通过傅里叶变换从时域转换为频域。然后将信号进行分帧处理，再进行加海明窗处理，海明窗函数为W(n,α)＝(1-α)-α(2*π*n/(N-1))，其中α＝0.46，N是长度为512窗口。帧偏移比率为0.25。分帧后累加，计算平均相位谱。然后采用线性搜索法对具有周期性的相位谱逼近拟合。先确定两两麦克风之间的最大时延，为两两麦克风之间的距离d除以声速v则为两个方向的最大时延t_+max和t_-max。那么搜索范围在(t_-max，t_+max)内。确定步长为区间的1/100。计算范围内的各点与原频谱的均方和，进而比较计算出最合适的相位值，根据傅里叶的时移特性计算出对应的三组时延t₁₃、t₁₂、t₂₃。

当把三组两两麦克风之间的时延计算完成后，通过双曲线的渐近线方程估计方向角；对三组时延值计算的方向角，采用质心法估计最终方向角度。具体为：根据两两麦克风之间的时延值一定，可得到一组三个双曲线方程，声源位置应为双曲线上的某一点，做各双曲线的渐进线，延长三条渐进线交成一个三角形，再计算出三角形的质心即为所求声源位置。

实施例中优选采用等边三角形麦克风阵列，即麦克风呈等边三角形分布，通过模拟电路对语音原始信号进行滤波增益，利用数模转化器进行三路麦克风声音信号的拾取。麦克风如图2所示，呈等边三角形分布，麦克风咪头口径为6mm，高度为2.4mm，麦克风阵列的孔径为4.74cm或10cm。

实施例中使用谱减法出去信号中的噪音部分，再使用带通滤波滤除信号中低于250Hz且高于4500Hz频率的信号，使信号为纯净的人声信号。

一种使用上述方法实施例的嵌入式平台连续快速人声声源定位方法的系统，包括麦克风阵列、语音滤波增益电路、ADC采集模块和声源定位处理模块。

表1实施例方法与系统的麦克风距离选用的4.75CM和10CM分别得出的最终方向角度

实际角度	0	30	60	90	120	150	180	-150	-120	-90	-60	-30
													d＝4.75	-3	37	48	79	110	160	-177	-136	-107	-85	-57	-26
d＝10	-1	35	51	83	111	146	176	-142	-110	-85	-58	-32

实施例通过计时，完成一个声源定位时间在0.818-1.104S之间。由上表与计时结果可知，本实施例方法与系统快速、连续定位、精度满足可用。

实施例方法与系统通过在嵌入式测试平台stm32f407平台上的测评，CPU占用内存小于60K字节，在stm32f407下1S内可以得出声源定位向角度，误差在15度以内，快速、连续定位、精度满足可用。平台仅需单片机的一些必须外围部件，无需外扩RAM和FLASH，解决现有声源定位处理应用的体积成本问题。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种用于嵌入式平台的连续快速的人声声源定位方法，其特征在于，包括以下步骤：

2.如权利要求1所述的用于嵌入式平台的连续快速人声声源定位方法，其特征在于：对两麦克风之间时延计算具体为：进行声音信号归一化并对有效声音数据长度判别，进行声音信号的回声和噪声过滤，计算两路信号的互功率谱，搜索拟合互功率谱的相位角，通过相位角计算出时延。

3.如权利要求2所述的用于嵌入式平台的连续快速人声声源定位方法，其特征在于，采用互功率谱相位计算方法具体为：首先将信号通过傅里叶变换从时域转换为频域，然后将信号进行分帧处理，再进行加海明窗处理，分帧后累加，计算平均相位谱；然后采用线性搜索法对具有周期性的相位谱逼近拟合，先确定两两麦克风之间的最大时延，为两两麦克风之间的距离d除以声速v则为两个方向的最大时延t_+max和t_-max；那么搜索范围在(t_-max，t_+max)内，确定步长后，计算范围内的各点与原频谱的均方和，进而比较计算出均方和最小的相位值即为所求，根据傅里叶的时移特性计算出对应的三组时延t₁₃、t₁₂、t₂₃。

4.如权利要求3所述的用于嵌入式平台的连续快速人声声源定位方法，其特征在于：进行加海明窗处理中，海明窗函数为W(n,α)＝(1-α)-α(2*π*n/(N-1))，其中，α为本算法的海明窗函数特定参数，α＝0.46，N是长度为512窗口，n为窗口长度内的各点，海明窗处理后的每帧偏移比率为0.25。

5.如权利要求1-4任一项所述的用于嵌入式平台的连续快速人声声源定位方法，其特征在于：采用等边三角形麦克风阵列，即麦克风呈等边三角形分布，通过模拟电路对语音原始信号进行滤波增益，利用数模转化器进行三路麦克风声音信号的拾取。

6.如权利要求5所述的用于嵌入式平台的连续快速人声声源定位方法，其特征在于：采用质心法估计最终方向角度，具体为：根据两两麦克风之间的时延值一定，得到一组三个双曲线方程，声源位置应为双曲线上的某一点，做各双曲线的渐进线，延长三条渐进线交成一个三角形，再计算出三角形的质心即为所求声源位置。

7.如权利要求1-4任一项所述的用于嵌入式平台的连续快速人声声源定位方法，其特征在于：在人发声的时候通过嵌入式平台以10Kbps的采样速率进行ADC采样；当声音信号大于阈值时进行算法运算数据采集，每个麦采集4K的数据，共采样12K。