CN112485761B - 一种基于双麦克风的声源定位方法 - Google Patents
一种基于双麦克风的声源定位方法 Download PDFInfo
- Publication number
- CN112485761B CN112485761B CN202110144690.8A CN202110144690A CN112485761B CN 112485761 B CN112485761 B CN 112485761B CN 202110144690 A CN202110144690 A CN 202110144690A CN 112485761 B CN112485761 B CN 112485761B
- Authority
- CN
- China
- Prior art keywords
- frequency
- cross power
- representing
- power spectrum
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种基于双麦克风的声源定位方法,包括如下步骤:S1:将双麦克风阵列接收的时域语音信号转换到频域,选取特定的频带范围,并将该频带内的宽带语音信号拆分为多个窄带频点语音信号;S2:计算每一个窄带对应频率点的互功率谱与互功率谱密度,设置选频规则并挑选出待估计互功率谱;S3:计算步骤S2中选出的频点所对应的导向矢量;S4:计算每一帧语音所有频点的平均互功率谱密度,根据平均互功率谱密度挑选置信度高的波达方向并平滑输出最终的波达方向。本发明通过采用筛选频点的方式,有效的减小了算法的计算复杂度,并对一段语音信号的每一帧波达方向估计做进一步的筛选,提高了算法在稳态噪声环境下的抗噪能力。
Description
技术领域
本发明属于语音智能识别技术领域,涉及语音前端信号处理,具体涉及一种基于双麦克风的声源定位方法。
背景技术
声源定位算法主要用于估计声源目标与麦克风阵列的角度信息,将估计的角度数据输入语音增强系统可以有效的增强该方向的语音信号,并抑制其他方向的噪声信号。目前,在由两个麦克风组成的双麦系统中,语音信号定位算法通常采用的是基于到达时间差的方法来进行估计的。然而,在实际应用场景中,当噪声为高分贝稳态噪声,如:烟机噪声,风扇噪声,以及电视所播放的音乐噪声时。由于不能正确的区分目标声源方向和噪声方向,算法的估计性能将下降。
发明内容
为克服现有技术存在的缺陷,本发明公开了一种基于双麦克风的声源定位方法。
本发明所述基于双麦克风的声源定位方法,包括按帧接收时域语音信号,其特征在于,还包括如下步骤:
S1:将双麦克风阵列接收的时域语音信号转换到频域,选取稳态噪声基频影响小的频带范围A,并将该频带内的宽带语音信号拆分为多个窄带频点语音信号;
S2:计算两路麦克风接收的语音信号在该频带范围A内每一个频点的互功率谱与互功率谱密度,并按照互功率谱密度大小排序,根据排序选择前K个互功率谱密度较大的频率点所对应的互功率谱作为待估互功率谱,并淘汰掉剩余频率点所对应的互功率谱;K为所选频点个数;
S3:将0-180度空域中添加空域网格点划分为多个空域网格;
对于每一个空域网格点,计算步骤S2中选出的K个频率点所对应的导向矢量;
将待估互功率谱进行归一化处理,并与该导向矢量进行相乘累加,结果即为该空域网格点的空间谱能量;
空间谱能量具体计算公式为:
空间谱密度最大的网格点即为该帧的目标声源的波达估计方向;
S4:对每一帧重复步骤S1至S3,将连续采集的时域语音信号每一帧的波达方向估计存入缓存中,并计算每一帧语音信号所有频点的平均互功率谱密度,同时根据平均互功率谱密度,选择互功率谱密度大的M帧有效波达估计方向进行角度平滑,平滑后的方向作为波达估计方向;
角度平滑具体公式为:
优选的,所述步骤S1中将频带范围A的宽带语音信号拆分为多个窄带频点语音信号的具体步骤为:将语音信号进行加窗分帧处理,将每帧的时域语音信号通过短时傅利叶变换转换到频域,并对频域信号的频谱进行分频处理,将宽带语音信号划分为多个窄带频点语音信号。
优选的,所述步骤S2中,
互功率谱计算公式为:
互功率谱密度表示为:
优选的,所述导向矢量
本发明所述基于双麦克风的声源定位方法利用稳态噪声与人声互功率密度在频段上的分布差异,挑选出人声能量占比高的频点来估计每一帧的波达方向,减小了运算量。通过平均功率谱密度对连续输入音频每一帧的波达方向估计做进一步筛选,提高了波达方向估计在稳态噪声环境中的鲁棒性。
附图说明
图1为本发明所述基于双麦克风的声源定位方法的一种具体实施方式示意图;
图2为本发明所述基于双麦克风的声源定位方法的一种具体实施方式流程示意图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述本发明所述基于双麦克风的声源定位方法,如图1所示,包括如下步骤:
S1:将双麦克风阵列接收的时域语音信号转换到频域,选取稳态噪声基频影响小的频带范围,并将该频带内的宽带语音信号拆分为多个窄带频点语音信号;
S2:计算两路麦克风接收的语音信号在该频带范围A内每一个频点的互功率谱与互功率谱密度,并按照互功率谱密度大小排序,根据排序选择前K个互功率谱密度较大的频率点所对应的互功率谱作为待估互功率谱,并淘汰掉剩余频率点所对应的互功率谱;K为所选频点个数;
S3:将0-180度空域插入空域网格点划分为多个空域网格;对于每一个空域网格点,计算步骤S2中选出的K个频率点所对应的导向矢量;
将待估互功率谱进行归一化处理,并与该导向矢量进行相乘累加,结果即为该空域网格点的空间谱能量;
空间谱能量具体计算公式为:
空间谱密度最大的网格点即为该帧的目标声源的波达估计方向;
对于一段存在稳态噪声的语音,由于双麦克风只能估计出一个波达方向,所以波达方向估计会在人声与噪声方向来回波动。每一帧音频所有频点的平均互功率密度表示人声存在的概率,若平均互功率谱密度高,表示该帧人声的能量占比高,该帧的波达方向估计更有可能偏向人声方向。所以对连续输入音频每一帧的波达方向估计根据空间谱密度做进一步筛选,可以提高波达方向估计算法在稳态噪声环境中的鲁棒性。
S4:对每一帧重复步骤S1至S3,将连续采集的时域语音信号每一帧的波达估计方向存入缓存中,并计算每一帧语音信号所有频点的平均互功率谱密度,同时根据平均互功率谱密度,选择互功率谱密度大的M帧有效波达估计方向进行角度平滑,平滑后的方向作为波达估计方向;
角度平滑具体公式为:
本发明是基于广义互相关时延估计方法改进,对于一帧双麦克风接收的音频信号,每一个频点的互功率谱密度大小反映了该帧音频在该频率上的能量强度与相关性,稳态噪声的互功率谱密度在特定频段上分布均匀,而人声的互功率谱密度将会根据声音的发音差异,在频段上呈现非均匀分布。
若对每个频点依次计算求解波达方向将会增加算法的计算复杂度,并且在稳态噪声情况下算法的估计精度将会降低,因此可以利用稳态噪声与人声互功率密度在频段上的分布差异,挑选出人声能量占比高的频点,即稳态噪声基频影响小的频点估计每一帧的波达方向,一般为频带中段的频点。
具体的,步骤S1中将宽带语音信号拆分为多个窄带频点语音信号包括:将语音信号进行加窗分帧处理,将每帧的时域语音信号通过短时傅利叶变换转换到频域,并对频域信号的频谱进行分频处理,将宽带语音信号划分为多个窄带频点语音信号;
一个具体实施方式为,将每帧的时域音频信号做512点的快速傅里叶变换转换到频域,得到多个离散频点;
为了避免稳态噪声基频过重对声源定位造成的影响,通常选择频率区间1.26KHZ-3.78KHZ频带区间的每个频点进行分频处理,在16KHz的采样率下,即可将宽带语音信号分成81个窄带,每一窄带代表一个离散频点。
步骤S2:计算双麦克风阵列中两个麦克风接收的语音信号在该特定频带范围内每一个窄带频点的互功率谱与互功率谱密度;
具体可以为:
S21.计算两路麦克风接收的语音信号在该频带范围内每一个频点的互功率谱:
互功率谱计算公式为:
S22.计算每一个频点的互功率谱密度可以表示为:
S23.设置选频规则并挑选出待估计互功率谱,并且淘汰掉互功率谱密度较小的频率点所对应的互功率谱;
按照密度大小进行排序,考虑能够在信噪比0dB稳态噪声环境下取得较好的波达方向估计精度,选取互功率谱密度最大的前5个频点。挑选这5个频率点所对应的互功率谱作为待估互功率谱,将其他频点所对应的互功率谱淘汰。
步骤S3中,将0-180度空域划分为多个空域网格。对于每一个空域网格点,计算互功率谱密度较大的频率点所对应的导向矢量。将待估互功率谱进行归一化处理,并与该导向矢量进行累加,结果即为该空域网格的空间谱能量;空间谱能量最大的网格点即为当前帧语音信号的波达方向估计:
S31.将0-180度空域划分为多个空域网格,一个具体实施方式为,以20度为网格大小,将0-180度空域划分为9个空域网格区间,得到10个网格点,则θ1为0度,θ2为20度…θ10为180度。
对于每一个空域网格点,互功率谱密度较大的频率点所对应的导向矢量:
S32将待估互功率谱进行归一化处理,并与该导向矢量进行相乘后的频率累加,累加结果即当前空域网格点的空间谱能量,具体计算公式为:
通过计算,求得每个空域网格点的空间谱能量,选取空间谱能量最大的网格点所对应的角度值作为当前帧语音信号的波达方向估计。
步骤S4中,将连续采集的时域语音信号每一帧的波达方向估计存入长为N的缓存中,并计算每一帧语音信号所有频点的平均互功率谱密度,选择平均互功率谱密度高的M帧有效波达方向进行角度平滑,具体可为:
例如设置一个长为40帧的缓存,连续的存储每一帧语音信号的波达方向估计,采用先进先出的队列存储方式,同时,设置一个长度为40帧的缓存存储每一帧语音信号的互功率谱密度均值,同样采用先进先出的存储方式。将每一帧平均互功率谱密度进行排序,选择平均互功率谱密度较高的15帧语音信号的波达方向估计作为有效波达方向存入一个长为15帧的缓存区域,采用先进先出的存储方式,对于这15帧进行角度平滑:
40个连续帧的波达方向估计经过挑选后,在时间上是不连续的,平滑步骤的主要作用是防止输出角度存在不稳定的上下波动,让输出的波达方向平缓变化以便后续的处理,其中参数的大小将影响着平滑输出的结果,若过大,则角度估计变化缓慢,不便于对角度变化目标的跟踪,若过小,则角度估计变化陡峭,将会使输出角度上下波动,不便于后续处理。在本示例中选取的大小为0.7。
本发明所述基于双麦克风的声源定位方法利用稳态噪声与人声互功率密度在频段上的分布差异,挑选出人声能量占比高的频点来估计每一帧的波达方向,减小了运算量。通过平均功率谱密度对连续输入音频每一帧的波达方向估计做进一步筛选,提高了波达方向估计在稳态噪声环境中的鲁棒性。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (4)
1.一种基于双麦克风的声源定位方法,包括按帧接收时域语音信号,其特征在于,还包括如下步骤:
S1:将双麦克风阵列接收的时域语音信号转换到频域,选取稳态噪声基频影响小的频带范围A,并将该频带内的宽带语音信号拆分为多个窄带频点语音信号;
S2:计算两路麦克风接收的语音信号在该频带范围A内每一个频点的互功率谱与互功率谱密度,并按照互功率谱密度大小排序,根据排序选择前K个互功率谱密度较大的频率点所对应的互功率谱作为待估互功率谱,并淘汰掉剩余频率点所对应的互功率谱;K为所选频点个数;
S3:将0-180度空域中添加空域网格点划分为多个空域网格;
对于每一个空域网格点,计算步骤S2中选出的K个频率点所对应的导向矢量;
将待估互功率谱进行归一化处理,并与该导向矢量进行相乘累加,结果即为该空域网格点的空间谱能量;
空间谱能量具体计算公式为:
空间谱密度最大的网格点即为该帧的目标声源的波达估计方向;
S4:对每一帧重复步骤S1至S3,将连续采集的时域语音信号每一帧的波达方向估计存入缓存中,并计算每一帧语音信号所有频点的平均互功率谱密度,同时根据平均互功率谱密度,选择互功率谱密度大的M帧有效波达估计方向进行角度平滑,平滑后的方向作为波达估计方向;
角度平滑具体公式为:
2.如权利要求1所述基于双麦克风的声源定位方法,其特征在于,所述步骤S1中将频带范围A的宽带语音信号拆分为多个窄带频点语音信号的具体步骤为:将语音信号进行加窗分帧处理,将每帧的时域语音信号通过短时傅利叶变换转换到频域,并对频域信号的频谱进行分频处理,将宽带语音信号划分为多个窄带频点语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110144690.8A CN112485761B (zh) | 2021-02-03 | 2021-02-03 | 一种基于双麦克风的声源定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110144690.8A CN112485761B (zh) | 2021-02-03 | 2021-02-03 | 一种基于双麦克风的声源定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112485761A CN112485761A (zh) | 2021-03-12 |
CN112485761B true CN112485761B (zh) | 2021-04-09 |
Family
ID=74912166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110144690.8A Active CN112485761B (zh) | 2021-02-03 | 2021-02-03 | 一种基于双麦克风的声源定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112485761B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112558004B (zh) * | 2021-02-22 | 2021-05-28 | 北京远鉴信息技术有限公司 | 一种波束信息波达方向的确定方法、装置、及存储介质 |
CN113138363A (zh) * | 2021-04-22 | 2021-07-20 | 苏州臻迪智能科技有限公司 | 一种声源定位方法、装置、存储介质和电子设备 |
CN113362808B (zh) * | 2021-06-02 | 2023-03-21 | 云知声智能科技股份有限公司 | 一种目标方向语音提取方法、装置、电子设备和存储介质 |
CN117289208B (zh) * | 2023-11-24 | 2024-02-20 | 北京瑞森新谱科技股份有限公司 | 一种声源定位方法和装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8184816B2 (en) * | 2008-03-18 | 2012-05-22 | Qualcomm Incorporated | Systems and methods for detecting wind noise using multiple audio sources |
CN101938686B (zh) * | 2010-06-24 | 2013-08-21 | 中国科学院声学研究所 | 一种普通环境中头相关传递函数的测量系统及测量方法 |
CN102147458B (zh) * | 2010-12-17 | 2013-03-13 | 中国科学院声学研究所 | 一种针对宽带声源的波达方向估计方法及其装置 |
US10015589B1 (en) * | 2011-09-02 | 2018-07-03 | Cirrus Logic, Inc. | Controlling speech enhancement algorithms using near-field spatial statistics |
KR20130048075A (ko) * | 2011-11-01 | 2013-05-09 | 삼성전자주식회사 | 다중 음원 위치추적장치 및 그 위치추적방법 |
CN102540138B (zh) * | 2011-11-25 | 2013-06-05 | 华中科技大学 | 一种多基线相位搜索式二维空间谱测向方法 |
CN103675757B (zh) * | 2013-12-17 | 2015-11-04 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 基于多个手机麦克风阵列的定位方法 |
CN103713276B (zh) * | 2013-12-23 | 2016-01-06 | 浙江大学 | 基于最小互熵谱分析的波达方向估计方法 |
US10515650B2 (en) * | 2015-06-30 | 2019-12-24 | Nec Corporation | Signal processing apparatus, signal processing method, and signal processing program |
GB2573537A (en) * | 2018-05-09 | 2019-11-13 | Nokia Technologies Oy | An apparatus, method and computer program for audio signal processing |
CN111435158B (zh) * | 2019-01-11 | 2022-06-10 | 大唐移动通信设备有限公司 | 一种信号到达角的估计方法及基站 |
CN110082725B (zh) * | 2019-03-12 | 2023-02-28 | 西安电子科技大学 | 基于麦克风阵列的声源定位时延估计方法、声源定位系统 |
CN110488223A (zh) * | 2019-07-05 | 2019-11-22 | 东北电力大学 | 一种声源定位方法 |
CN110261816B (zh) * | 2019-07-10 | 2020-12-15 | 苏州思必驰信息科技有限公司 | 语音波达方向估计方法及装置 |
CN111060867A (zh) * | 2019-12-17 | 2020-04-24 | 南京愔宜智能科技有限公司 | 一种指向性麦克风微阵列波达方向估计方法 |
CN111580039A (zh) * | 2020-03-29 | 2020-08-25 | 重庆邮电大学 | 基于非圆信号的单基地展开互质阵列mimo雷达doa估计方法 |
CN111192569B (zh) * | 2020-03-30 | 2020-07-28 | 深圳市友杰智新科技有限公司 | 双麦语音特征提取方法、装置、计算机设备和存储介质 |
CN111929638A (zh) * | 2020-09-24 | 2020-11-13 | 成都启英泰伦科技有限公司 | 一种语音波达方向估计方法及装置 |
-
2021
- 2021-02-03 CN CN202110144690.8A patent/CN112485761B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112485761A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112485761B (zh) | 一种基于双麦克风的声源定位方法 | |
US10412488B2 (en) | Microphone array signal processing system | |
US9173025B2 (en) | Combined suppression of noise, echo, and out-of-location signals | |
US8363850B2 (en) | Audio signal processing method and apparatus for the same | |
JP5007442B2 (ja) | 発話改善のためにマイク間レベル差を用いるシステム及び方法 | |
US8930184B2 (en) | Signal bandwidth extending apparatus | |
JP5127754B2 (ja) | 信号処理装置 | |
CN111445920B (zh) | 一种多声源的语音信号实时分离方法、装置和拾音器 | |
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
JP2013534651A (ja) | 計算聴覚シーン解析に基づくモノラルノイズ抑制 | |
JP2004274763A (ja) | マイクロホンアレイ構造、ビーム形成装置およびビーム形成方法、ならびに音源方向推定装置および方法 | |
WO2012158156A1 (en) | Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood | |
US9241223B2 (en) | Directional filtering of audible signals | |
JP4456504B2 (ja) | 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム | |
EP3275208B1 (en) | Sub-band mixing of multiple microphones | |
CN110265065B (zh) | 一种构建语音端点检测模型的方法及语音端点检测系统 | |
US20140270226A1 (en) | Adaptive modulation filtering for spectral feature enhancement | |
US9953633B2 (en) | Speaker dependent voiced sound pattern template mapping | |
GB2585086A (en) | Pre-processing for automatic speech recognition | |
JP4448464B2 (ja) | 雑音低減方法、装置、プログラム及び記録媒体 | |
EP3847645B1 (en) | Determining a room response of a desired source in a reverberant environment | |
JP5443547B2 (ja) | 信号処理装置 | |
JP7383122B2 (ja) | 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置 | |
JP6840302B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
CN115359804A (zh) | 一种基于麦克风阵列的定向音频拾取方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |