CN111551898A

CN111551898A - 一种抗混响的声源定位方法

Info

Publication number: CN111551898A
Application number: CN202010268568.7A
Authority: CN
Inventors: 戴玮
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-08-18

Abstract

本发明的一种抗混响的声源定位方法，包括如下步骤：步骤1，对语音信号进行处理得到相应的球谐域信号；步骤2，通过球谐域信号构建稀疏字典；步骤3，利用稀疏字典进行计算，得到稀疏矩阵；步骤4，对稀疏矩阵进行直方图平滑，得到预估声源位置；步骤5，对预估声源位置进行网格细化，若迭代三次，则停止迭代，得到新稀疏矩阵，继续步骤6；否则以当前网格精度重构稀疏字典后返回步骤3；步骤6，新稀疏矩阵的能量谱的最高峰就是声源位置。本发明的目的在于提供一种声源定位的性能稳定、能抗混响的声源定位方法。

Description

一种抗混响的声源定位方法

技术领域

本发明属于信号处理技术领域，具体涉及一种抗混响的声源定位方法。

背景技术

声源定位算法是语音信号处理的重要研究方向，也有比较广泛的应用场合。如视频会议系统中，声源定位技术可实现摄像头实时对准发言人；声源定位技术应用于语音识别的前期处理过程可以改善语音的质量，帮助提高识别的正确率；应用于助听装置时，可为听力障碍者提供声源位置信息，并提供有效语音信息。近年来，球谐域处理广泛应用于声源定位中，基于稀疏贝叶斯学习定位算法，分辨率高，能精确获得声源位置信息。在高混响环境下，麦克风接收信号的直混比较低，导致该方法声源定位的性能急剧下降甚至失效。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中在高混响环境下，声源定位的性能急剧下降甚至失效的问题。

为此，采用的技术方案是，本发明的一种抗混响的声源定位方法，包括如下步骤：

步骤1，对语音信号进行处理得到相应的球谐域信号；

步骤2，通过所述球谐域信号构建稀疏字典；

步骤3，利用稀疏字典进行计算，得到稀疏矩阵；

步骤4，对所述稀疏矩阵进行直方图平滑，得到预估声源位置；

步骤5，对所述预估声源位置进行网格细化，若迭代三次，则停止迭代，得到新稀疏矩阵，继续步骤6；否则以当前网格精度重构稀疏字典后返回步骤3；

步骤6，所述新稀疏矩阵的能量谱的最高峰就是声源位置。

优选的，所述步骤1包括：

对所述语音信号进行分帧加窗，然后进行短时傅里叶变换得到时频域信号x(τ,k)，再对时频域信号x(τ,k)进行球傅里叶变换得到所述球谐域信号x_SH(τ,k)，

其中τ表示帧数，k表示频率。

优选的，所述步骤2包括：

对所述球谐域信号x_SH(τ,k)进行最小方差无偏估计得到

根据设定的网格精度构建稀疏字典

其中，X_u·(τ,k)为所述球谐域信号x_SH(τ,k)中的第u行，

表示原始稀疏字典，

a_u·(Θ)表示a(Θ)每个网格点上的第u行，

表示网格点集合，

θ表示俯仰角，

φ表示方位角，

N_s表示网格点个数，

表示克罗内克积。

U＝(N+1)²表示总行数，N表示球谐域模态分解阶数

优选的，所述步骤3包括：

对所述稀疏字典Φ_θ(τ，k)利用稀疏贝叶斯学习的参数初始值计算，得到稀疏矩阵Z(θ,φ)。

优选的，所述步骤4包括：

对所述稀疏矩阵Z(θ,φ)进行直方图平滑

得到预估声源位置

其中，

表示均值为0，

σ_c表示高斯窗的标准差，

D表示总声源个数，

为Z的能量谱的前D个最高峰所在行即为估计出的声源位置。

优选的，所述步骤5包括：

对所述声源位置

附近进行网格细化，若迭代三次，则停止迭代，得到新稀疏矩阵，继续步骤6；否则以当前网格精度重构所述稀疏字典Φ_θ(τ，k)后返回第3步。

优选的，所述步骤6包括：

所述新稀疏矩阵的能量谱的前D个最高峰为声源位置

本发明技术方案具有以下优点：本发明的一种抗混响的声源定位方法，包括如下步骤：步骤1，对语音信号进行处理得到相应的球谐域信号；步骤2，通过所述球谐域信号构建稀疏字典；步骤3，利用稀疏字典进行计算，得到稀疏矩阵；步骤4，对所述稀疏矩阵进行直方图平滑，得到预估声源位置；步骤5，对所述预估声源位置进行网格细化，若迭代三次，则停止迭代，得到新稀疏矩阵，继续步骤6；否则以当前网格精度重构稀疏字典后返回步骤3；步骤6，所述新稀疏矩阵的能量谱的最高峰就是声源位置。声源定位方法对原有稀疏字典通过加权重新构建新的稀疏字典，使得在声源位置处的权值较大，即构建稀疏字典时在声源位置上对信号进行了加强，同时抑制来自于其他方向的信号，因此提升了混响噪声环境下的鲁棒性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种抗混响的声源定位方法，如图1所示，包括如下步骤：

步骤1，对语音信号进行处理得到相应的球谐域信号；

步骤2，通过所述球谐域信号构建稀疏字典；

步骤3，利用稀疏字典进行计算，得到稀疏矩阵；

步骤6，所述新稀疏矩阵的能量谱的最高峰就是声源位置。

上述技术方案的工作原理及有益技术效果：该声源定位方法对原有稀疏字典通过加权重新构建新的稀疏字典，使得在声源位置处的权值较大，即构建稀疏字典时在声源位置上对信号进行了加强，同时抑制来自于其他方向的信号，因此提升了混响噪声环境下的鲁棒性。

在一个实施例中，所述步骤1包括：

其中τ表示帧数，k表示频率。

上述技术方案的工作原理及有益技术效果：通过对语音信号进行分帧加窗、傅里叶变换能够去减少语音中的干扰信号，提取真实的语音信号。

在一个实施例中，所述步骤2包括：

对所述球谐域信号x_SH(τ,k)进行最小方差无偏估计得到

根据设定的网格精度构建稀疏字典

其中，X_u·(τ,k)为所述球谐域信号x_SH(τ,k)中的第u行，

表示原始稀疏字典，

a_u·(Θ)表示a(Θ)每个网格点上的第u行，

表示网格点集合，

θ表示俯仰角，

φ表示方位角，

N_s表示网格点个数，

表示克罗内克积。

U＝(N+1)²表示总行数，N表示球谐域模态分解阶数。

上述技术方案的工作原理及有益技术效果：通过对所述球谐域信号x_SH(τ,k)进行最小方差无偏，并构建构建稀疏字典

从而实现对语音信号的加强，增强语音信号。

在一个实施例中，所述步骤3包括：

所述步骤4包括：

对所述稀疏矩阵Z(θ,φ)进行直方图平滑

得到预估声源位置

其中，

表示均值为0，

σ_c表示高斯窗的标准差，

D表示总声源个数，

为Z的能量谱的前D个最高峰所在行即为估计出的声源位置。

上述技术方案的工作原理及有益技术效果：利用稀疏贝叶斯学习的参数初始值计算，得到稀疏矩阵，对稀疏矩阵进行直方图平滑，获得预估的声源位置。

在一个实施例中，所述步骤5包括：

对所述声源位置

附近进行网格细化，若迭代三次，则停止迭代，得到新稀疏矩阵，继续步骤6；否则以当前网格精度重构所述稀疏字典Φ_θ(τ，k)后返回第3步；所述步骤6包括：所述新稀疏矩阵的能量谱的前D个最高峰为声源位置

上述技术方案的工作原理及有益技术效果：通过对所述声源位置

附近进行网格细化，不断的迭代，重构稀疏字典，直到能迭代三次，获得新稀疏矩阵的能量谱的前D个最高峰为声源位置

使得获取声源的位置更加精确，因此，提升了混响噪声环境下的鲁棒性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种抗混响的声源定位方法，其特征在于，包括如下步骤：

步骤1，对语音信号进行处理得到相应的球谐域信号；

步骤2，通过所述球谐域信号构建稀疏字典；

步骤3，利用稀疏字典进行计算，得到稀疏矩阵；

步骤6，所述新稀疏矩阵的能量谱的最高峰就是声源位置。

2.根据权利要求1所述的一种抗混响的声源定位方法，其特征在于，所述步骤1包括：

其中τ表示帧数，k表示频率。

3.根据权利要求2所述的一种抗混响的声源定位方法，其特征在于，所述步骤2包括：

对所述球谐域信号x_SH(τ,k)进行最小方差无偏估计得到

根据设定的网格精度构建稀疏字典

其中，X_u·(τ_,k)为所述球谐域信号x_SH(τ_,k)中的第u行，

表示原始稀疏字典，

a_u·(Θ)表示a(Θ)每个网格点上的第u行，

表示网格点集合，

θ表示俯仰角，

φ表示方位角，

N_s表示网格点个数，

表示克罗内克积。

U＝(N+1)²表示总行数，N表示球谐域模态分解阶数。

4.根据权利要求3所述的一种抗混响的声源定位方法，其特征在于，所述步骤3包括：

5.根据权利要求4所述的一种抗混响的声源定位方法，其特征在于，所述步骤4包括：

对所述稀疏矩阵Z(θ,φ)进行直方图平滑

得到预估声源位置

其中，

表示均值为0，

σ_c表示高斯窗的标准差，

D表示总声源个数，

为Z的能量谱的前D个最高峰所在行即为估计出的声源位置。

6.根据权利要求5所述的一种抗混响的声源定位方法，其特征在于，所述步骤5包括：

对所述声源位置

7.根据权利要求6所述的一种抗混响的声源定位方法，其特征在于，所述步骤6包括：

所述新稀疏矩阵的能量谱的前D个最高峰为声源位置