CN105676167B - 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源doa估计方法 - Google Patents
一种基于声学矢量传感器和双谱变换的鲁棒单语者声源doa估计方法 Download PDFInfo
- Publication number
- CN105676167B CN105676167B CN201610022499.5A CN201610022499A CN105676167B CN 105676167 B CN105676167 B CN 105676167B CN 201610022499 A CN201610022499 A CN 201610022499A CN 105676167 B CN105676167 B CN 105676167B
- Authority
- CN
- China
- Prior art keywords
- bispectrum
- sound source
- doa
- estimation
- robust
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/78—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using electromagnetic waves other than radio waves
Landscapes
- Physics & Mathematics (AREA)
- Electromagnetism (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提供了一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法。所述方法采用声学矢量传感器Acoustic Vector Sensor(AVS),实现四通道语音信号采集,并对采集到的数据进行双谱变换,求其对应的双谱数据。利用双谱上AVS接收分量之间的三角函数关系,计算AVS传感器分量间的数据比。通过计算双谱掩膜谱,提取高信干比频率点,利用KDE方法对其聚类,在此基础上,计算得到语音声源的到达方向Direction of Arrival(DOA)。本发明所述方法在不同的房间混响、干扰噪声种类、干扰噪声强度的条件下,能够高精度地估计出语者声源的DOA。此外,该发明方法采用的体积仅有1cm3的AVS传感器非常适用于便携设备上的语音技术应用。
Description
技术领域
本发明涉及一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,属于人机语音交互技术领域。
背景技术
空间语者声源到达方向(Direction of Arrival,DOA)估计是智能机器人人机交互的关键技术,具有重大的应用价值,一直是阵列信号处理领域的研究热点。在实际复杂声学环境中,麦克风在采集语音信号时,不可避免地会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声和房间混响等因素干扰,因此获取的语音质量下降,导致DOA估计性能下降。基于传统麦克风阵列的DOA技术存在麦克风阵列孔径大、有空域混叠以及运算复杂度高等局限,限制了该类技术在小型移动设备(机器人)上的应用。
本发明采用了一种新型麦克风——声学矢量传感器(Acoustic Vector Sensor,AVS)作为音频信号采集器。与常用的ECM麦克风相比,AVS在结构上具有其特殊性:一颗AVS由1个全向压力传感器和2到3个正交放置的压力梯度传感器构成。它的空间结构紧凑,仅有1cm3左右大小,理论上,AVS是同位阵列,各个传感器接收到的音频信号在时间上对齐,且各通道接收信号存在固定的三角函数关系。AVS小体积的特殊优点,有可能成为服务机器人听觉感知技术的有效解决方案。
本发明利用AVS采集的音频信号,提出了一种新的鲁棒单语者声源DOA估计算法。AVS输出的信号模型可表示为:
x u (k)=u ss(k)*h s (k)+u r r(k)*h r (k)+n u (k) (1)
x v (k)=vss(k)*h s (k)+v r r(k)*h r (k)+n v (k) (2)
x w (k)=w s s(k)*h s (k)+w r r(k)*h r (k)+n w (k) (3)
x o (k)=s(k)*h s (k)+r(k)*h r (k)+n o (k) (4)
其中x u (t),x v (t),x w (t)和x o (t)分别是AVS的u-,v-,w-和o-通道的输出信号,n u (t),n v (t),n w (t)和n o (t)分别是在u-,v-,w-和o-通道的零均值高斯加性噪声,s(k)和r(k)分别是待定位的语者声源信号和非语音干扰信号,h s 和h r 分别是语音和干扰的房间冲击响应。u s ,v s 和w s 分别可表示为u s =sinθ s cosφ s ,v s =sinθ s sinφ s ,以及w s =cosθ s ,被称为语者声源信号在x,y和z轴上的方向余弦。类似的,u r ,v r 和w r 分别可表示干扰信号在x,y和z轴上的方向余弦。本发明基于上述定义,提出了一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法。实验结果表明,本发明可有效抑制非语音干扰,背景噪声和空间混响对DOA估计的影响。
发明内容
本发明的目的是面向智能机器人人机语音交互技术,发明一种对声学环境变化不敏感、体积小的高精度鲁棒空间语音声源DOA估计方法。
一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其核心思想是:计算在双谱上u-通道信号、v-通道信号和w-通道信号与o-通道信号间的数据比值(BispectrumInter-Sensor Data Ratio,BISDR)。通过迭代估计先验双谱信干比,计算一个双谱掩膜谱。在此基础上,利用计算的双谱掩膜谱在BISDR上提取高信干比频率点。利用核密度估计方法对提取的高信干比频率点进行聚类,并获得语音声源的DOA估计。
一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其步骤是:
采用单个声学矢量传感器,即Acoustic Vector Sensor (AVS),采集四通道语音信号,通过模数转换器获得四通道数字信号输出,包括o-通道信号、u-通道信号、v-通道信号和w-通道信号;分别计算每一通道数字信号的双谱变换,获得四通道双谱数据;
计算传感器之间的双谱数据比值,即分别计算出u-通道双谱信号、v-通道双谱信号和w-通道双谱信号与o-通道双谱信号的比值,简写为BISDR值 (Bispectrum Inter-Sensor Data Ratio),分别表示为I uo (Ω1,Ω2), I vo (Ω1,Ω2), I wo (Ω1,Ω2),用BISDR值构成3*1*的BISDR数据矢量I(Ω1,Ω2);
通过迭代估计先验双谱信干比,计算得到一个双谱掩膜谱;
通过掩膜方式将双谱掩膜谱与BISDR数据矢量I(Ω1,Ω2)相乘,提取具有高信干比的BISDR数据矢量G(Ω1,Ω2);
利用核密度估计方法,即Kernel Density Estimation (KDE),对G(Ω1,Ω2)进行聚类,并利用聚类结果计算所对应的语者声源到达方向,即Direction of Arrival (DOA)。
本发明的有益效果在于:1)本发明所述的方法能够实现鲁棒的高精度单语者声源DOA估计。仿真实验和实测实验数据验证了本发明在不同的干扰噪声种类、强度和房间混响条件下,都能获得高精度的DOA估计。2)本发明所述的方法易于在移动或便携设备上应用。本发明采用AVS采集语音信号,该传感器仅有1cm3大小,易于在小型设备上集成系统;同时算法复杂度低,易于实时运行在运算能力有限的嵌入式平台上。
附图说明
图1. AVS结构图
图2. θ s =60°,φ s 属于区间[0°, 180°]的100次DOA估计实验结果
图3. 不同信干比和干扰噪声下的DOA估计RMSE(a)高斯白噪声 (b)短波信道噪声(c)粉红噪声 (d)工厂噪声(θs=60°,φs=45°)
图4. 不同混响条件下的DOA估计RMSE (θ s =60°,φ s =45°)
图5. 实验设备
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述。
假设空间中只有一个语者声源,本发明采用8kHz采样率对AVS四通道输出信号((1)-(4))求得双谱数据,表示如下:
B xoxuxo (Ω1,Ω2)=u s B shshsh (Ω1,Ω2)+u r B rhrhrh (Ω1,Ω2)(5)
B xoxvxo (Ω1,Ω2)=v s B shshsh (Ω1,Ω2)+v r B rhrhrh (Ω1,Ω2) (6)
B xoxwxo (Ω1,Ω2)=w s B shshsh (Ω1,Ω2)+w r B rhrhrh (Ω1,Ω2) (7)
B xoxoxo (Ω1,Ω2)=B shshsh (Ω1,Ω2)+ B rhrhrh (Ω1,Ω2) (8)
定义BISDR值如下:
I uo (Ω1,Ω2)=B xoxuxo (Ω1,Ω2)/B xoxoxo (Ω1,Ω2) (9)
I vo (Ω1,Ω2)=B xoxvxo (Ω1,Ω2)/B xoxoxo (Ω1,Ω2) (10)
I wo (Ω1,Ω2)=B xoxwxo (Ω1,Ω2)/B xoxoxo (Ω1,Ω2) (11)
其中I uo (Ω1,Ω2), I vo (Ω1,Ω2)和I wo (Ω1,Ω2)分别是u通道与o通道,v通道与o通道,w通道与o通道的BISDR值。以I uo (Ω1,Ω2)为例,推导BISDR与语者声源DOA的关系如下。把(5)和(8)代入(9)中得到
I uo (Ω1,Ω2)=u s+ ε u (Ω1,Ω2) (12)
其中
ε u (Ω1,Ω2)=(u r -u s )/(1+B shshsh (Ω1,Ω2)/B rhrhrh (Ω1,Ω2))(13)
同理可得:
I vo (Ω1,Ω2)=v s +ε v (Ω1,Ω2) (14)
I wo (Ω1,Ω2)=w s +ε w (Ω1,Ω2)(15)
其中
ε v (Ω1,Ω2)=(v r -v s )/(1+B shshsh (Ω1,Ω2)/B rhrhrh (Ω1,Ω2)) (16)
ε w (Ω1,Ω2)=(w r -w s )/(1+B shshsh (Ω1,Ω2)/B rhrhrh (Ω1,Ω2))(17)
ISDR的数据模型的矩阵形式如下:
I(Ω1,Ω2)=b(θ s ,φ s )+ε(Ω1,Ω2) (18)
其中
I(Ω1,Ω2)=[I uo (Ω1,Ω2),I vo (Ω1,Ω2),I wo (Ω1,Ω2)]T (19)
b(θ s ,φ s )=[u s ,v s ,w s ]T (20)
ε(Ω1,Ω2)=[ε u (Ω1,Ω2),ε v (Ω1,Ω2),ε w (Ω1,Ω2)]T (21)
在频率点(Ω1,Ω2)处,当满足B shshsh (Ω1,Ω2)>>B rhrhrh (Ω1,Ω2)时,可以得到ε(Ω1,Ω2)接近0,我们将这些点称为高信干比频率点。在这些高信干比频率点,干扰噪声的影响很大程度上被降低,于是可从BISDR中得到语音声源的DOA相关信息b(θ s ,ϕ s )。
为了提取上述高信干比频率点,本发明通过迭代算法估计了先验双谱信干比ξ(Ω1,Ω2),并以此计算了得到一个双频谱掩膜谱m(Ω1,Ω2),表示如下:
(22)
将其与BISDR数据矢量I(Ω1,Ω2)相乘,提取到具有高信干比的BISDR数据矢量G(Ω1,Ω2)如下:
G(Ω1,Ω2)=m(Ω1,Ω2)•I(Ω1,Ω2) (23)
由上述分析可得以下近似:
G(Ω1,Ω2)=m(Ω1,Ω2)•b(Ω1,Ω2)+m(Ω1,Ω2)•ε(Ω1,Ω2)≈b(θ s ,φ s ) (24)
由此,利用核密度估计法,对G(Ω1,Ω2)进行聚类,聚类结果即为。根据上文对于u s ,v s 和w s 的定义,语者声源的DOA可估计如下:
(25)。
Claims (6)
1.一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,包括如下步骤:
a)采用单个声学矢量传感器,简写为AVS,采集四通道语音信号,通过模数转换器获得四通道数字信号输出,包括o-通道信号、u-通道信号、v-通道信号和w-通道信号;分别计算每一通道数字信号的双谱变换,获得四通道双谱数据;
b)计算传感器之间的双谱数据比值,即分别计算出u-通道双谱信号、v-通道双谱信号和w-通道双谱信号与o-通道双谱信号的比值,简写为BISDR值,分别表示为Iuo(Ω1,Ω2),Ivo(Ω1,Ω2), Iwo(Ω1,Ω2),用BISDR值构成3*1的BISDR数据矢量I(Ω1,Ω2);
c)通过迭代估计先验双谱信干比,计算得到一个双谱掩膜谱;
d)通过掩膜方式将双谱掩膜谱与BISDR数据矢量I(Ω1,Ω2)相乘,提取具有高信干比的BISDR数据矢量G(Ω1,Ω2);
e)利用核密度估计方法,对G(Ω1,Ω2)进行聚类,并利用聚类结果计算所对应的语者声源到达方向,简写为DOA估计。
2.根据权利要求1所述的一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其特征在于,该方法使用的声学矢量传感器是由三个正交放置的同相位压力梯度传感器以及一个全向压力传感器组成且同位放置。
3.根据权利要求1所述的一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其特征在于,所述步骤(a)对采用的四通道数据进行双谱变换。
4.根据权利要求1所述的一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其特征在于,所述步骤(b)中对各传感器接收信号的双谱计算BISDR值。
5.根据权利要求1所述的一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其特征在于,所述步骤(c)中利用计算得到的双谱掩膜谱来提取BISDR中的高信干比频率点。
6.根据权利要求1所述的一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其特征在于,所述步骤(d)是利用核密度估计法对提取的高信干比频率点进行聚类,即G(Ω1,Ω2),将DOA估计问题转化为聚类问题,然后计算对应的DOA估计值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610022499.5A CN105676167B (zh) | 2016-01-13 | 2016-01-13 | 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源doa估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610022499.5A CN105676167B (zh) | 2016-01-13 | 2016-01-13 | 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源doa估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105676167A CN105676167A (zh) | 2016-06-15 |
CN105676167B true CN105676167B (zh) | 2018-04-20 |
Family
ID=56300523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610022499.5A Active CN105676167B (zh) | 2016-01-13 | 2016-01-13 | 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源doa估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105676167B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108269583B (zh) * | 2017-01-03 | 2021-07-30 | 中国科学院声学研究所 | 一种基于时间延迟直方图的语音分离方法 |
CN109712611B (zh) * | 2018-12-28 | 2021-03-16 | 苏州思必驰信息科技有限公司 | 联合模型训练方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103760520A (zh) * | 2013-12-25 | 2014-04-30 | 北京大学深圳研究生院 | 一种基于avs和稀疏表示的单语者声源doa估计方法 |
CN104103277A (zh) * | 2013-04-15 | 2014-10-15 | 北京大学深圳研究生院 | 一种基于时频掩膜的单声学矢量传感器目标语音增强方法 |
-
2016
- 2016-01-13 CN CN201610022499.5A patent/CN105676167B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104103277A (zh) * | 2013-04-15 | 2014-10-15 | 北京大学深圳研究生院 | 一种基于时频掩膜的单声学矢量传感器目标语音增强方法 |
CN103760520A (zh) * | 2013-12-25 | 2014-04-30 | 北京大学深圳研究生院 | 一种基于avs和稀疏表示的单语者声源doa估计方法 |
Non-Patent Citations (4)
Title |
---|
"AN EFFECTIVE DOA ESTIMATION BY EXPLORING THE SPATIAL SPARSE REPRESENTATION OF THE INTER-SENSOR DATA RATIO MODEL";Yuexian Zou et al.;《2014 IEEE China Summit & International Conference on Signal and Information Processing》;20141231;第42-46页 * |
"基于AVS和稀疏表示的鲁棒语者声源DOA估计方法";邹月娴 等;《数据采集与处理》;20151231;第30卷(第2期);第299-306页 * |
"基于单AVS的空间目标语音增强方法";邹月娴 等;《清华大学学报(自然科学版)》;20130630;第53卷(第6期);第883-887页 * |
"基于平均互功率相位谱时延估计定位算法和DSP硬件平台的实时声源定位技术";邹月娴 等;《仪器仪表学报》;20080430;第29卷(第4(增刊)期);第297-302页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105676167A (zh) | 2016-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
McCowan et al. | Microphone array shape calibration in diffuse noise fields | |
CN110875060A (zh) | 语音信号处理方法、装置、系统、设备和存储介质 | |
CN106373589B (zh) | 一种基于迭代结构的双耳混合语音分离方法 | |
CN102103200A (zh) | 一种分布式非同步声传感器的声源空间定位方法 | |
CN103760520B (zh) | 一种基于avs和稀疏表示的单语者声源doa估计方法 | |
JP2002062348A (ja) | 信号処理装置及び信号処理方法 | |
CN103278801A (zh) | 一种变电站噪声成像侦测装置及侦测计算方法 | |
KR100877914B1 (ko) | 음원위치-지연시간차 상관관계 역 추정에 의한 음원 방향검지 시스템 및 방법 | |
CN110444220B (zh) | 一种多模态远程语音感知方法及装置 | |
CN109188362A (zh) | 一种麦克风阵列声源定位信号处理方法 | |
CN105607042A (zh) | 用麦克风阵列时延估计定位声源的方法 | |
CN105676167B (zh) | 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源doa估计方法 | |
Hosseini et al. | Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function | |
KR20090128221A (ko) | 음원 위치 추정 방법 및 그 방법에 따른 시스템 | |
Li et al. | A linear phase unwrapping method for binaural sound source localization on a robot | |
Ghamdan et al. | Position estimation of binaural sound source in reverberant environments | |
Naqvi et al. | Multimodal blind source separation for moving sources | |
Sledevič et al. | An evaluation of hardware-software design for sound source localization based on SoC | |
Pertilä et al. | Time-of-arrival estimation for blind beamforming | |
Dang et al. | Multiple sound source localization based on a multi-dimensional assignment model | |
Deleforge et al. | Audio-motor integration for robot audition | |
CN116859339B (zh) | 一种多边形区域内声源分离和定位方法 | |
Matsuo et al. | Estimating DOA of multiple speech signals by improved histogram mapping method | |
Wu et al. | Acoustic source tracking in reverberant environment using regional steered response power measurement | |
Hansen et al. | Localizing near and far field acoustic sources with distributed microhone arrays |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |