CN111551898A - 一种抗混响的声源定位方法 - Google Patents

一种抗混响的声源定位方法 Download PDF

Info

Publication number
CN111551898A
CN111551898A CN202010268568.7A CN202010268568A CN111551898A CN 111551898 A CN111551898 A CN 111551898A CN 202010268568 A CN202010268568 A CN 202010268568A CN 111551898 A CN111551898 A CN 111551898A
Authority
CN
China
Prior art keywords
sound source
sparse
reverberation
sparse matrix
domain signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010268568.7A
Other languages
English (en)
Inventor
戴玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010268568.7A priority Critical patent/CN111551898A/zh
Publication of CN111551898A publication Critical patent/CN111551898A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明的一种抗混响的声源定位方法,包括如下步骤:步骤1,对语音信号进行处理得到相应的球谐域信号;步骤2,通过球谐域信号构建稀疏字典;步骤3,利用稀疏字典进行计算,得到稀疏矩阵;步骤4,对稀疏矩阵进行直方图平滑,得到预估声源位置;步骤5,对预估声源位置进行网格细化,若迭代三次,则停止迭代,得到新稀疏矩阵,继续步骤6;否则以当前网格精度重构稀疏字典后返回步骤3;步骤6,新稀疏矩阵的能量谱的最高峰就是声源位置。本发明的目的在于提供一种声源定位的性能稳定、能抗混响的声源定位方法。

Description

一种抗混响的声源定位方法
技术领域
本发明属于信号处理技术领域,具体涉及一种抗混响的声源定位方法。
背景技术
声源定位算法是语音信号处理的重要研究方向,也有比较广泛的应用场合。如视频会议系统中,声源定位技术可实现摄像头实时对准发言人;声源定位技术应用于语音识别的前期处理过程可以改善语音的质量,帮助提高识别的正确率;应用于助听装置时,可为听力障碍者提供声源位置信息,并提供有效语音信息。近年来,球谐域处理广泛应用于声源定位中,基于稀疏贝叶斯学习定位算法,分辨率高,能精确获得声源位置信息。在高混响环境下,麦克风接收信号的直混比较低,导致该方法声源定位的性能急剧下降甚至失效。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中在高混响环境下,声源定位的性能急剧下降甚至失效的问题。
为此,采用的技术方案是,本发明的一种抗混响的声源定位方法,包括如下步骤:
步骤1,对语音信号进行处理得到相应的球谐域信号;
步骤2,通过所述球谐域信号构建稀疏字典;
步骤3,利用稀疏字典进行计算,得到稀疏矩阵;
步骤4,对所述稀疏矩阵进行直方图平滑,得到预估声源位置;
步骤5,对所述预估声源位置进行网格细化,若迭代三次,则停止迭代,得到新稀疏矩阵,继续步骤6;否则以当前网格精度重构稀疏字典后返回步骤3;
步骤6,所述新稀疏矩阵的能量谱的最高峰就是声源位置。
优选的,所述步骤1包括:
对所述语音信号进行分帧加窗,然后进行短时傅里叶变换得到时频域信号x(τ,k),再对时频域信号x(τ,k)进行球傅里叶变换得到所述球谐域信号xSH(τ,k),
其中τ表示帧数,k表示频率。
优选的,所述步骤2包括:
对所述球谐域信号xSH(τ,k)进行最小方差无偏估计得到
Figure BDA0002441297050000021
根据设定的网格精度构建稀疏字典
Figure BDA0002441297050000022
其中,X(τ,k)为所述球谐域信号xSH(τ,k)中的第u行,
Figure BDA0002441297050000023
表示原始稀疏字典,
a(Θ)表示a(Θ)每个网格点上的第u行,
Figure BDA0002441297050000024
表示网格点集合,
θ表示俯仰角,
φ表示方位角,
Ns表示网格点个数,
Figure BDA0002441297050000025
表示克罗内克积。
U=(N+1)2表示总行数,N表示球谐域模态分解阶数
优选的,所述步骤3包括:
对所述稀疏字典Φθ(τ,k)利用稀疏贝叶斯学习的参数初始值计算,得到稀疏矩阵Z(θ,φ)。
优选的,所述步骤4包括:
对所述稀疏矩阵Z(θ,φ)进行直方图平滑
Figure BDA0002441297050000031
得到预估声源位置
Figure BDA0002441297050000032
其中,
Figure BDA0002441297050000033
表示均值为0,
σc表示高斯窗的标准差,
D表示总声源个数,
Figure BDA0002441297050000034
为Z的能量谱的前D个最高峰所在行即为估计出的声源位置。
优选的,所述步骤5包括:
对所述声源位置
Figure BDA0002441297050000035
附近进行网格细化,若迭代三次,则停止迭代,得到新稀疏矩阵,继续步骤6;否则以当前网格精度重构所述稀疏字典Φθ(τ,k)后返回第3步。
优选的,所述步骤6包括:
所述新稀疏矩阵的能量谱的前D个最高峰为声源位置
Figure BDA0002441297050000036
本发明技术方案具有以下优点:本发明的一种抗混响的声源定位方法,包括如下步骤:步骤1,对语音信号进行处理得到相应的球谐域信号;步骤2,通过所述球谐域信号构建稀疏字典;步骤3,利用稀疏字典进行计算,得到稀疏矩阵;步骤4,对所述稀疏矩阵进行直方图平滑,得到预估声源位置;步骤5,对所述预估声源位置进行网格细化,若迭代三次,则停止迭代,得到新稀疏矩阵,继续步骤6;否则以当前网格精度重构稀疏字典后返回步骤3;步骤6,所述新稀疏矩阵的能量谱的最高峰就是声源位置。声源定位方法对原有稀疏字典通过加权重新构建新的稀疏字典,使得在声源位置处的权值较大,即构建稀疏字典时在声源位置上对信号进行了加强,同时抑制来自于其他方向的信号,因此提升了混响噪声环境下的鲁棒性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种抗混响的声源定位方法,如图1所示,包括如下步骤:
步骤1,对语音信号进行处理得到相应的球谐域信号;
步骤2,通过所述球谐域信号构建稀疏字典;
步骤3,利用稀疏字典进行计算,得到稀疏矩阵;
步骤4,对所述稀疏矩阵进行直方图平滑,得到预估声源位置;
步骤5,对所述预估声源位置进行网格细化,若迭代三次,则停止迭代,得到新稀疏矩阵,继续步骤6;否则以当前网格精度重构稀疏字典后返回步骤3;
步骤6,所述新稀疏矩阵的能量谱的最高峰就是声源位置。
上述技术方案的工作原理及有益技术效果:该声源定位方法对原有稀疏字典通过加权重新构建新的稀疏字典,使得在声源位置处的权值较大,即构建稀疏字典时在声源位置上对信号进行了加强,同时抑制来自于其他方向的信号,因此提升了混响噪声环境下的鲁棒性。
在一个实施例中,所述步骤1包括:
对所述语音信号进行分帧加窗,然后进行短时傅里叶变换得到时频域信号x(τ,k),再对时频域信号x(τ,k)进行球傅里叶变换得到所述球谐域信号xSH(τ,k),
其中τ表示帧数,k表示频率。
上述技术方案的工作原理及有益技术效果:通过对语音信号进行分帧加窗、傅里叶变换能够去减少语音中的干扰信号,提取真实的语音信号。
在一个实施例中,所述步骤2包括:
对所述球谐域信号xSH(τ,k)进行最小方差无偏估计得到
Figure BDA0002441297050000051
根据设定的网格精度构建稀疏字典
Figure BDA0002441297050000052
其中,X(τ,k)为所述球谐域信号xSH(τ,k)中的第u行,
Figure BDA0002441297050000053
表示原始稀疏字典,
a(Θ)表示a(Θ)每个网格点上的第u行,
Figure BDA0002441297050000054
表示网格点集合,
θ表示俯仰角,
φ表示方位角,
Ns表示网格点个数,
Figure BDA0002441297050000055
表示克罗内克积。
U=(N+1)2表示总行数,N表示球谐域模态分解阶数。
上述技术方案的工作原理及有益技术效果:通过对所述球谐域信号xSH(τ,k)进行最小方差无偏,并构建构建稀疏字典
Figure BDA0002441297050000061
从而实现对语音信号的加强,增强语音信号。
在一个实施例中,所述步骤3包括:
对所述稀疏字典Φθ(τ,k)利用稀疏贝叶斯学习的参数初始值计算,得到稀疏矩阵Z(θ,φ)。
所述步骤4包括:
对所述稀疏矩阵Z(θ,φ)进行直方图平滑
Figure BDA0002441297050000062
得到预估声源位置
Figure BDA0002441297050000063
其中,
Figure BDA0002441297050000064
表示均值为0,
σc表示高斯窗的标准差,
D表示总声源个数,
Figure BDA0002441297050000065
为Z的能量谱的前D个最高峰所在行即为估计出的声源位置。
上述技术方案的工作原理及有益技术效果:利用稀疏贝叶斯学习的参数初始值计算,得到稀疏矩阵,对稀疏矩阵进行直方图平滑,获得预估的声源位置。
在一个实施例中,所述步骤5包括:
对所述声源位置
Figure BDA0002441297050000066
附近进行网格细化,若迭代三次,则停止迭代,得到新稀疏矩阵,继续步骤6;否则以当前网格精度重构所述稀疏字典Φθ(τ,k)后返回第3步;所述步骤6包括:所述新稀疏矩阵的能量谱的前D个最高峰为声源位置
Figure BDA0002441297050000067
上述技术方案的工作原理及有益技术效果:通过对所述声源位置
Figure BDA0002441297050000068
附近进行网格细化,不断的迭代,重构稀疏字典,直到能迭代三次,获得新稀疏矩阵的能量谱的前D个最高峰为声源位置
Figure BDA0002441297050000071
使得获取声源的位置更加精确,因此,提升了混响噪声环境下的鲁棒性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种抗混响的声源定位方法,其特征在于,包括如下步骤:
步骤1,对语音信号进行处理得到相应的球谐域信号;
步骤2,通过所述球谐域信号构建稀疏字典;
步骤3,利用稀疏字典进行计算,得到稀疏矩阵;
步骤4,对所述稀疏矩阵进行直方图平滑,得到预估声源位置;
步骤5,对所述预估声源位置进行网格细化,若迭代三次,则停止迭代,得到新稀疏矩阵,继续步骤6;否则以当前网格精度重构稀疏字典后返回步骤3;
步骤6,所述新稀疏矩阵的能量谱的最高峰就是声源位置。
2.根据权利要求1所述的一种抗混响的声源定位方法,其特征在于,所述步骤1包括:
对所述语音信号进行分帧加窗,然后进行短时傅里叶变换得到时频域信号x(τ,k),再对时频域信号x(τ,k)进行球傅里叶变换得到所述球谐域信号xSH(τ,k),
其中τ表示帧数,k表示频率。
3.根据权利要求2所述的一种抗混响的声源定位方法,其特征在于,所述步骤2包括:
对所述球谐域信号xSH(τ,k)进行最小方差无偏估计得到
Figure FDA0002441297040000011
根据设定的网格精度构建稀疏字典
Figure FDA0002441297040000012
其中,X,k)为所述球谐域信号xSH,k)中的第u行,
Figure FDA0002441297040000013
表示原始稀疏字典,
a(Θ)表示a(Θ)每个网格点上的第u行,
Figure FDA0002441297040000021
表示网格点集合,
θ表示俯仰角,
φ表示方位角,
Ns表示网格点个数,
Figure FDA0002441297040000022
表示克罗内克积。
U=(N+1)2表示总行数,N表示球谐域模态分解阶数。
4.根据权利要求3所述的一种抗混响的声源定位方法,其特征在于,所述步骤3包括:
对所述稀疏字典Φθ(τ,k)利用稀疏贝叶斯学习的参数初始值计算,得到稀疏矩阵Z(θ,φ)。
5.根据权利要求4所述的一种抗混响的声源定位方法,其特征在于,所述步骤4包括:
对所述稀疏矩阵Z(θ,φ)进行直方图平滑
Figure FDA0002441297040000023
得到预估声源位置
Figure FDA0002441297040000024
其中,
Figure FDA0002441297040000025
表示均值为0,
σc表示高斯窗的标准差,
D表示总声源个数,
Figure FDA0002441297040000026
为Z的能量谱的前D个最高峰所在行即为估计出的声源位置。
6.根据权利要求5所述的一种抗混响的声源定位方法,其特征在于,所述步骤5包括:
对所述声源位置
Figure FDA0002441297040000027
附近进行网格细化,若迭代三次,则停止迭代,得到新稀疏矩阵,继续步骤6;否则以当前网格精度重构所述稀疏字典Φθ(τ,k)后返回第3步。
7.根据权利要求6所述的一种抗混响的声源定位方法,其特征在于,所述步骤6包括:
所述新稀疏矩阵的能量谱的前D个最高峰为声源位置
Figure FDA0002441297040000031
CN202010268568.7A 2020-04-07 2020-04-07 一种抗混响的声源定位方法 Pending CN111551898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010268568.7A CN111551898A (zh) 2020-04-07 2020-04-07 一种抗混响的声源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010268568.7A CN111551898A (zh) 2020-04-07 2020-04-07 一种抗混响的声源定位方法

Publications (1)

Publication Number Publication Date
CN111551898A true CN111551898A (zh) 2020-08-18

Family

ID=72000614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010268568.7A Pending CN111551898A (zh) 2020-04-07 2020-04-07 一种抗混响的声源定位方法

Country Status (1)

Country Link
CN (1) CN111551898A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113655441A (zh) * 2021-08-11 2021-11-16 西南科技大学 一种低复杂度折中预白化的鲁棒声源定位方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110174843A (zh) * 2019-05-30 2019-08-27 中国水利水电科学研究院 一种灌区用水智能调控方法
CN110718230A (zh) * 2019-08-29 2020-01-21 云知声智能科技股份有限公司 一种消除混响的方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110174843A (zh) * 2019-05-30 2019-08-27 中国水利水电科学研究院 一种灌区用水智能调控方法
CN110718230A (zh) * 2019-08-29 2020-01-21 云知声智能科技股份有限公司 一种消除混响的方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孙长伟等: "混响环境下改进的球谐波域L1-SVD声源定位算法", 《武汉大学学报(理学版)》 *
戴玮: "基于球谐域稀疏贝叶斯学习的室内多声源定位方法研究", 《信息科技辑》 *
朱宏辉: "《知识驱动型拟人智能控制系统研究》", 31 March 2012 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113655441A (zh) * 2021-08-11 2021-11-16 西南科技大学 一种低复杂度折中预白化的鲁棒声源定位方法

Similar Documents

Publication Publication Date Title
CN109272989B (zh) 语音唤醒方法、装置和计算机可读存储介质
CN105068048B (zh) 基于空间稀疏性的分布式麦克风阵列声源定位方法
CN108922544B (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
CN110706719B (zh) 一种语音提取方法、装置、电子设备及存储介质
CN110223708B (zh) 基于语音处理的语音增强方法及相关设备
CN110133596A (zh) 一种基于频点信噪比和偏置软判决的阵列声源定位方法
CN111445919B (zh) 结合ai模型的语音增强方法、系统、电子设备和介质
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN110534126B (zh) 一种基于固定波束形成的声源定位和语音增强方法及系统
CN111239687A (zh) 一种基于深度神经网络的声源定位方法及系统
CN113126028B (zh) 一种基于多个麦克风阵列的噪声源定位方法
CN104898086B (zh) 适用于微型麦克风阵列的声强估计声源定向方法
CN113870893B (zh) 一种多通道双说话人分离方法及系统
CN113111765B (zh) 一种基于深度学习的多语音源计数和定位方法
CN108231085A (zh) 一种声源定位方法及装置
CN114171041A (zh) 基于环境检测的语音降噪方法、装置、设备及存储介质
WO2019014890A1 (zh) 一种通用的单声道实时降噪方法
CN206114888U (zh) 语音声源测向装置
WO2016119388A1 (zh) 一种基于语音信号构造聚焦协方差矩阵的方法及装置
CN106371057A (zh) 语音声源测向方法及装置
CN106019230B (zh) 一种基于i-vector说话人识别的声源定位方法
CN111443328B (zh) 基于深度学习的声音事件检测与定位方法
CN106886010B (zh) 一种基于微型麦克风阵列的声源方位识别方法
CN110007276B (zh) 一种声源定位方法及系统
CN111551898A (zh) 一种抗混响的声源定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200818

RJ01 Rejection of invention patent application after publication