CN111551898A - 一种抗混响的声源定位方法 - Google Patents
一种抗混响的声源定位方法 Download PDFInfo
- Publication number
- CN111551898A CN111551898A CN202010268568.7A CN202010268568A CN111551898A CN 111551898 A CN111551898 A CN 111551898A CN 202010268568 A CN202010268568 A CN 202010268568A CN 111551898 A CN111551898 A CN 111551898A
- Authority
- CN
- China
- Prior art keywords
- sound source
- sparse
- reverberation
- sparse matrix
- domain signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 35
- 238000001228 spectrum Methods 0.000 claims abstract description 12
- 238000009499 grossing Methods 0.000 claims abstract description 9
- 230000004807 localization Effects 0.000 claims description 8
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明的一种抗混响的声源定位方法,包括如下步骤:步骤1,对语音信号进行处理得到相应的球谐域信号;步骤2,通过球谐域信号构建稀疏字典;步骤3,利用稀疏字典进行计算,得到稀疏矩阵;步骤4,对稀疏矩阵进行直方图平滑,得到预估声源位置;步骤5,对预估声源位置进行网格细化,若迭代三次,则停止迭代,得到新稀疏矩阵,继续步骤6;否则以当前网格精度重构稀疏字典后返回步骤3;步骤6,新稀疏矩阵的能量谱的最高峰就是声源位置。本发明的目的在于提供一种声源定位的性能稳定、能抗混响的声源定位方法。
Description
技术领域
本发明属于信号处理技术领域,具体涉及一种抗混响的声源定位方法。
背景技术
声源定位算法是语音信号处理的重要研究方向,也有比较广泛的应用场合。如视频会议系统中,声源定位技术可实现摄像头实时对准发言人;声源定位技术应用于语音识别的前期处理过程可以改善语音的质量,帮助提高识别的正确率;应用于助听装置时,可为听力障碍者提供声源位置信息,并提供有效语音信息。近年来,球谐域处理广泛应用于声源定位中,基于稀疏贝叶斯学习定位算法,分辨率高,能精确获得声源位置信息。在高混响环境下,麦克风接收信号的直混比较低,导致该方法声源定位的性能急剧下降甚至失效。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中在高混响环境下,声源定位的性能急剧下降甚至失效的问题。
为此,采用的技术方案是,本发明的一种抗混响的声源定位方法,包括如下步骤:
步骤1,对语音信号进行处理得到相应的球谐域信号;
步骤2,通过所述球谐域信号构建稀疏字典;
步骤3,利用稀疏字典进行计算,得到稀疏矩阵;
步骤4,对所述稀疏矩阵进行直方图平滑,得到预估声源位置;
步骤5,对所述预估声源位置进行网格细化,若迭代三次,则停止迭代,得到新稀疏矩阵,继续步骤6;否则以当前网格精度重构稀疏字典后返回步骤3;
步骤6,所述新稀疏矩阵的能量谱的最高峰就是声源位置。
优选的,所述步骤1包括:
对所述语音信号进行分帧加窗,然后进行短时傅里叶变换得到时频域信号x(τ,k),再对时频域信号x(τ,k)进行球傅里叶变换得到所述球谐域信号xSH(τ,k),
其中τ表示帧数,k表示频率。
优选的,所述步骤2包括:
对所述球谐域信号xSH(τ,k)进行最小方差无偏估计得到
根据设定的网格精度构建稀疏字典
其中,Xu·(τ,k)为所述球谐域信号xSH(τ,k)中的第u行,
au·(Θ)表示a(Θ)每个网格点上的第u行,
θ表示俯仰角,
φ表示方位角,
Ns表示网格点个数,
U=(N+1)2表示总行数,N表示球谐域模态分解阶数
优选的,所述步骤3包括:
对所述稀疏字典Φθ(τ,k)利用稀疏贝叶斯学习的参数初始值计算,得到稀疏矩阵Z(θ,φ)。
优选的,所述步骤4包括:
σc表示高斯窗的标准差,
D表示总声源个数,
优选的,所述步骤5包括:
优选的,所述步骤6包括:
本发明技术方案具有以下优点:本发明的一种抗混响的声源定位方法,包括如下步骤:步骤1,对语音信号进行处理得到相应的球谐域信号;步骤2,通过所述球谐域信号构建稀疏字典;步骤3,利用稀疏字典进行计算,得到稀疏矩阵;步骤4,对所述稀疏矩阵进行直方图平滑,得到预估声源位置;步骤5,对所述预估声源位置进行网格细化,若迭代三次,则停止迭代,得到新稀疏矩阵,继续步骤6;否则以当前网格精度重构稀疏字典后返回步骤3;步骤6,所述新稀疏矩阵的能量谱的最高峰就是声源位置。声源定位方法对原有稀疏字典通过加权重新构建新的稀疏字典,使得在声源位置处的权值较大,即构建稀疏字典时在声源位置上对信号进行了加强,同时抑制来自于其他方向的信号,因此提升了混响噪声环境下的鲁棒性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种抗混响的声源定位方法,如图1所示,包括如下步骤:
步骤1,对语音信号进行处理得到相应的球谐域信号;
步骤2,通过所述球谐域信号构建稀疏字典;
步骤3,利用稀疏字典进行计算,得到稀疏矩阵;
步骤4,对所述稀疏矩阵进行直方图平滑,得到预估声源位置;
步骤5,对所述预估声源位置进行网格细化,若迭代三次,则停止迭代,得到新稀疏矩阵,继续步骤6;否则以当前网格精度重构稀疏字典后返回步骤3;
步骤6,所述新稀疏矩阵的能量谱的最高峰就是声源位置。
上述技术方案的工作原理及有益技术效果:该声源定位方法对原有稀疏字典通过加权重新构建新的稀疏字典,使得在声源位置处的权值较大,即构建稀疏字典时在声源位置上对信号进行了加强,同时抑制来自于其他方向的信号,因此提升了混响噪声环境下的鲁棒性。
在一个实施例中,所述步骤1包括:
对所述语音信号进行分帧加窗,然后进行短时傅里叶变换得到时频域信号x(τ,k),再对时频域信号x(τ,k)进行球傅里叶变换得到所述球谐域信号xSH(τ,k),
其中τ表示帧数,k表示频率。
上述技术方案的工作原理及有益技术效果:通过对语音信号进行分帧加窗、傅里叶变换能够去减少语音中的干扰信号,提取真实的语音信号。
在一个实施例中,所述步骤2包括:
对所述球谐域信号xSH(τ,k)进行最小方差无偏估计得到
根据设定的网格精度构建稀疏字典
其中,Xu·(τ,k)为所述球谐域信号xSH(τ,k)中的第u行,
au·(Θ)表示a(Θ)每个网格点上的第u行,
θ表示俯仰角,
φ表示方位角,
Ns表示网格点个数,
U=(N+1)2表示总行数,N表示球谐域模态分解阶数。
在一个实施例中,所述步骤3包括:
对所述稀疏字典Φθ(τ,k)利用稀疏贝叶斯学习的参数初始值计算,得到稀疏矩阵Z(θ,φ)。
所述步骤4包括:
σc表示高斯窗的标准差,
D表示总声源个数,
上述技术方案的工作原理及有益技术效果:利用稀疏贝叶斯学习的参数初始值计算,得到稀疏矩阵,对稀疏矩阵进行直方图平滑,获得预估的声源位置。
在一个实施例中,所述步骤5包括:
对所述声源位置附近进行网格细化,若迭代三次,则停止迭代,得到新稀疏矩阵,继续步骤6;否则以当前网格精度重构所述稀疏字典Φθ(τ,k)后返回第3步;所述步骤6包括:所述新稀疏矩阵的能量谱的前D个最高峰为声源位置
上述技术方案的工作原理及有益技术效果:通过对所述声源位置附近进行网格细化,不断的迭代,重构稀疏字典,直到能迭代三次,获得新稀疏矩阵的能量谱的前D个最高峰为声源位置使得获取声源的位置更加精确,因此,提升了混响噪声环境下的鲁棒性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种抗混响的声源定位方法,其特征在于,包括如下步骤:
步骤1,对语音信号进行处理得到相应的球谐域信号;
步骤2,通过所述球谐域信号构建稀疏字典;
步骤3,利用稀疏字典进行计算,得到稀疏矩阵;
步骤4,对所述稀疏矩阵进行直方图平滑,得到预估声源位置;
步骤5,对所述预估声源位置进行网格细化,若迭代三次,则停止迭代,得到新稀疏矩阵,继续步骤6;否则以当前网格精度重构稀疏字典后返回步骤3;
步骤6,所述新稀疏矩阵的能量谱的最高峰就是声源位置。
2.根据权利要求1所述的一种抗混响的声源定位方法,其特征在于,所述步骤1包括:
对所述语音信号进行分帧加窗,然后进行短时傅里叶变换得到时频域信号x(τ,k),再对时频域信号x(τ,k)进行球傅里叶变换得到所述球谐域信号xSH(τ,k),
其中τ表示帧数,k表示频率。
4.根据权利要求3所述的一种抗混响的声源定位方法,其特征在于,所述步骤3包括:
对所述稀疏字典Φθ(τ,k)利用稀疏贝叶斯学习的参数初始值计算,得到稀疏矩阵Z(θ,φ)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010268568.7A CN111551898A (zh) | 2020-04-07 | 2020-04-07 | 一种抗混响的声源定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010268568.7A CN111551898A (zh) | 2020-04-07 | 2020-04-07 | 一种抗混响的声源定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111551898A true CN111551898A (zh) | 2020-08-18 |
Family
ID=72000614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010268568.7A Pending CN111551898A (zh) | 2020-04-07 | 2020-04-07 | 一种抗混响的声源定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111551898A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113655441A (zh) * | 2021-08-11 | 2021-11-16 | 西南科技大学 | 一种低复杂度折中预白化的鲁棒声源定位方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110174843A (zh) * | 2019-05-30 | 2019-08-27 | 中国水利水电科学研究院 | 一种灌区用水智能调控方法 |
CN110718230A (zh) * | 2019-08-29 | 2020-01-21 | 云知声智能科技股份有限公司 | 一种消除混响的方法和系统 |
-
2020
- 2020-04-07 CN CN202010268568.7A patent/CN111551898A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110174843A (zh) * | 2019-05-30 | 2019-08-27 | 中国水利水电科学研究院 | 一种灌区用水智能调控方法 |
CN110718230A (zh) * | 2019-08-29 | 2020-01-21 | 云知声智能科技股份有限公司 | 一种消除混响的方法和系统 |
Non-Patent Citations (3)
Title |
---|
孙长伟等: "混响环境下改进的球谐波域L1-SVD声源定位算法", 《武汉大学学报(理学版)》 * |
戴玮: "基于球谐域稀疏贝叶斯学习的室内多声源定位方法研究", 《信息科技辑》 * |
朱宏辉: "《知识驱动型拟人智能控制系统研究》", 31 March 2012 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113655441A (zh) * | 2021-08-11 | 2021-11-16 | 西南科技大学 | 一种低复杂度折中预白化的鲁棒声源定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109272989B (zh) | 语音唤醒方法、装置和计算机可读存储介质 | |
CN105068048B (zh) | 基于空间稀疏性的分布式麦克风阵列声源定位方法 | |
CN108922544B (zh) | 通用向量训练方法、语音聚类方法、装置、设备及介质 | |
CN110706719B (zh) | 一种语音提取方法、装置、电子设备及存储介质 | |
CN110223708B (zh) | 基于语音处理的语音增强方法及相关设备 | |
CN110133596A (zh) | 一种基于频点信噪比和偏置软判决的阵列声源定位方法 | |
CN111445919B (zh) | 结合ai模型的语音增强方法、系统、电子设备和介质 | |
CN108922543B (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
CN110534126B (zh) | 一种基于固定波束形成的声源定位和语音增强方法及系统 | |
CN111239687A (zh) | 一种基于深度神经网络的声源定位方法及系统 | |
CN113126028B (zh) | 一种基于多个麦克风阵列的噪声源定位方法 | |
CN104898086B (zh) | 适用于微型麦克风阵列的声强估计声源定向方法 | |
CN113870893B (zh) | 一种多通道双说话人分离方法及系统 | |
CN113111765B (zh) | 一种基于深度学习的多语音源计数和定位方法 | |
CN108231085A (zh) | 一种声源定位方法及装置 | |
CN114171041A (zh) | 基于环境检测的语音降噪方法、装置、设备及存储介质 | |
WO2019014890A1 (zh) | 一种通用的单声道实时降噪方法 | |
CN206114888U (zh) | 语音声源测向装置 | |
WO2016119388A1 (zh) | 一种基于语音信号构造聚焦协方差矩阵的方法及装置 | |
CN106371057A (zh) | 语音声源测向方法及装置 | |
CN106019230B (zh) | 一种基于i-vector说话人识别的声源定位方法 | |
CN111443328B (zh) | 基于深度学习的声音事件检测与定位方法 | |
CN106886010B (zh) | 一种基于微型麦克风阵列的声源方位识别方法 | |
CN110007276B (zh) | 一种声源定位方法及系统 | |
CN111551898A (zh) | 一种抗混响的声源定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200818 |
|
RJ01 | Rejection of invention patent application after publication |