CN110726972A

CN110726972A - 干扰及高混响环境下使用传声器阵列的语音声源定位方法

Info

Publication number: CN110726972A
Application number: CN201910998291.0A
Authority: CN
Inventors: 王浩; 卢晶; 刘晓峻; 狄敏; 邵治英
Original assignee: Nanjing Nanda Electronics Intelligent Service Robot Research Institute Co Ltd; Nanjing University
Current assignee: Nanjing Nanda Electronics Intelligent Service Robot Research Institute Co Ltd; Nanjing University
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-01-24
Anticipated expiration: 2039-10-21
Also published as: CN110726972B

Abstract

本发明公开了一种干扰及高混响环境下使用传声器阵列的语音声源定位方法，步骤如下：（1）设定参数；（2）短时傅里叶变换，得到时‑频域信号；（3）对时‑频域信号的每个时‑频点，计算对数化的交叉谱幅度均值，获得“能量”包络；（4）对时‑频域信号的每个时‑频点，计算“能量”包络的“变化率”；（5）利用瞬态噪声特征，判断并定位瞬态噪声；（6）选择直达声对应的时‑频点，并忽略瞬态噪声部分；（7）对选中的时‑频点，应用加权SRP‑PHAT方法，得到定位结果。本发明中语音声源定位方法，能够使得在高混响及干扰的环境中，依然可以获得精确度和鲁棒性较高的结果。

Description

干扰及高混响环境下使用传声器阵列的语音声源定位方法

技术领域

本发明涉及一种干扰及高混响环境下使用传声器阵列的语音声源定位方法，属于语音信号处理的技术领域。

背景技术

语音信号声源定位(Speech Source Localization , SSL)目的是估计语音信号到达传声器阵列时的角度(Direction-of-Arrival , DOA)。使用一个传声器阵列，对语音信号进行声源定位，或者说DOA估计，在声信号处理中是一个非常重要也是非常热点的话题。在很多应用场景对声音的捕捉有非常重要的作用，比如智能设备的人机语音交互、镜头追踪以及智能监控。这个问题的困难之处在于语音信号是一个宽带的非平稳随机过程，同时还存在本底噪声、混响和其他干扰声源。

经典的声源定位的方法可分为TDOA(Time Delay Of Arrival)、SRP (SteeredResponse Power)和Spatial Spectrum三大类。在大量的应用场景中，不仅存在混响，还存在噪声干扰，目前绝大多数方法都无法在这样的复杂环境保持很高的准确性和鲁棒性。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种干扰及高混响环境下使用传声器阵列的语音声源定位方法，使得在高混响及干扰的环境中，依然可以获得精确度和鲁棒性较高的结果。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种干扰及高混响环境下使用传声器阵列的语音声源定位方法，包括以下步骤：

步骤1，直达声选取

步骤1.1，在房间中布置1个声源，使用I个传声器构成的传声器阵列来采集信号，采集信号的交叉谱幅度均值表示为：

(1)

并对数化表示为：

(2)

式中，x _i(k,l)表示第i个传声器在频带k内第l帧的信号，

表示采集信号的交叉谱幅度均值，

表示帧序数，ξ是用来降低背景噪音的影响的正则化项，表示复数绝对值， *表示共轭操作，P(n,k)是信号在频率内的功率包络；

步骤1.2，根据信号在频率内的功率包络得到对数化的交叉谱幅度均值的变化率：

(3)

式中，

表示对数化的交叉谱幅度均值的变化率，

表示用于计算“变化率”的帧数范围，P(n−t,k)是比P(n,k)早t帧的对应于帧数n−t频率为k的功率包络；

步骤1.3，由(3)式计算出的变化率比预置变化率阈值大的K个时-频点被选择出来，认为其通过直达声选取（DPD）测试，组成一个直达声候选集合：

(4)

其中，

表示直达声候选集合，

表示第n帧第k频带对应的时-频点；

步骤2，瞬态噪声的判定与消除

步骤2.1，通过以下两个判定准则判别瞬态噪声：

1），计算每一帧的“能量”

, 寻找“能量”局部极大值的帧

(5)

2），判断

(6)

(7)

式中，

表示每一帧的“能量”，n _v表示“能量”局部极大值的帧，dn表示“能量变化率” 计算范围，Δn表示“局部”的范围，V ₁和V ₂分别为“能量”的上升和下降的阈值；

步骤2.2，如果全部满足步骤2.1的两个判定准则，n _v对应的部分被确定为瞬态噪声，以n _v为中心的“局部”在直达声选取中被忽略，(4)式改写为

(8)

式中

(9)

步骤3，利用选取的直达声进行语音声源定位

采用加权SRP-PHAT方法对选中的时-频点进行定位，表示为：

(10)

式中

(11)

(12)

式中，

表示待估计的声波到达方向，θ表示声波到达方向的可能取值，即自变量，arg max表示取使表达式最大值对应的自变量取值，当(n,k)在集合Π内时，W(n,k)为1，否则为 0，

表示信号交叉谱，

表示频域信号，上标“H”和“T”分别表示复数共轭转置和转置；g(k,θ)表示为θ方向的导向向量。

优选的：传声器阵列可为任意适合阵列，通常使用线阵列或环阵列。

优选的：如果传声器阵列为线阵列，g(k,θ)表示为：

(13)

式中，

表示以自然对数e为底的指数，

表示虚度变量，

表示声速， d是麦克风阵列的间距向量，ω _k是频带k对应的角频率。

本发明相比现有技术，具有以下有益效果：

本发明中语音声源定位方法，能够使得在高混响及干扰的环境中，依然可以获得精确度和鲁棒性较高的结果。

附图说明

图1为仿真中不同方法的RMSE比较。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种干扰及高混响环境下使用传声器阵列的语音声源定位方法，适用于干扰和高混响环境，同时计算量相比同类别算法较小，包括如下步骤：

1.直达声选取（DPD）

在房间中布置1个声源，使用I个传声器来采集信号。本发明中可使用线阵列、环阵列等，不限于阵列形状。用x _i(k,l)分别表示第i个传声器在频带k内第l帧的信号，采集信号的交叉谱幅度均值可以表示为：

(1)

并对数化表示为：

(2)

式中，x _i(k,l)表示第i个传声器在频带k内第l帧的信号，

表示采集信号的交叉谱幅度均值，

表示帧序数，ξ是用来降低背景噪音的影响的正则化项，表示复数绝对值， *表示共轭操作，P(n,k)是信号在频率内的功率包络。

受到优先效应的启发(Litovsky R Y, Colburn H S, Yost W A, et al. Theprecedence effect[J]. The Journal of the Acoustical Society of America, 1999,106(4): 1633-1654.)，语音起始端的时-频点可以被认为主要由直达声组成，此部分包含准确的声源位置信息。此部分功率包络会快速增加，因此我们定义对数化的交叉谱幅度均值的变化率为：

(3)

式中，

表示对数化的交叉谱幅度均值的变化率，

表示用于计算“变化率”的帧数范围，P(n−t,k)是比P(n,k)早t帧的对应于帧数n−t频率为k的功率包络。由(3)式计算出的变化率较大的K（预置的阈值）个时-频点被选择出来，认为其通过直达声选取（DPD）测试，组成一个直达声候选集合

(4)

其中，

表示直达声候选集合，

表示第n帧第k频带对应的时-频点。很明显，如果帧移越短，可被选中的点越多，更有利于提高DOA估计的准确度。

2.瞬态噪声的判定与消除

在实际场景中，总会有一些环境干扰。常见的干扰噪声可分为以下几类：稳态噪声，如风机噪声和电气噪声；瞬态噪声，如门的砰砰声、敲击声、键盘声；其他非稳态噪声，如音乐干扰和电视伴音。稳态噪声可以忽略，因为它们的声功率变化不快。目标语音的平均声功率通常大于环境干扰，因此一般情况下期望语音直达声是功率增长较快的时-频点的主要组成部分，但瞬态噪声对直达声判断影响最大，因为瞬态噪声在时-频域中具有较高的功率变化率，大大增加直达声判断中的误判率。瞬态噪声具有功率高、时间间隔短的特点，可以通过以下两个判定准则判别。

（1）计算每一帧的“能量”

, 寻找“能量”局部极大值的帧

(5)

（2）判断

(6)

(7)

式中，

表示每一帧的“能量”，n _v表示“能量”局部极大值的帧，

表示“能量变化率”计算范围，Δn表示“局部”的范围，V ₁和V ₂分别为“能量”的上升和下降的阈值。

如果上述两个标准全部满足，帧数n _v对应的部分被确定为瞬态噪声，以n _v为中心的“局部”在直达声选取中被忽略，(4)式可以改写为：

(8)

式中

(9)

1.利用选取的直达声进行语音声源定位

我们可以借助常用的定位方法，SRP-PHAT方法，对选中的时-频点进行定位。由于需要对时-频点进行筛选，这里采用加权SRP-PHAT方法，表示为：

(10)

式中

(11)

(12)

式中，表示待估计的声波到达方向，θ表示声波到达方向的可能取值，即自变量，arg max表示取使表达式最大值对应的自变量取值，当(n,k)在集合Π内时，W(n,k)为1，否则为 0，

表示信号交叉谱，

表示频域信号，上标“H”和“T”分别表示复数共轭转置和转置；当(n,k)在集合Π内时，W(n,k)为1，否则为0；g(k,θ)表示为θ方向的导向向量，如果阵列为线阵列，可表示为：

(13)

式中，d是麦克风阵列的间距向量，ω _k是频带k对应的角频率。若阵列为其他形式的阵列，导向向量可根据具体形状给出。

至此，语音声源定位结果得出。

仿真实例

1.仿真混合语音生成

本发明实施以仿真信号定位为例。仿真时采用Image model生成房间冲激响应与干净语音卷积生成混响环境下的语音，并与相同房间参数，不同声源位置处的Image model生成房间冲激响应与干净干扰卷积叠加，得到混合信号。使用Image model仿真时，传声器阵列单元间距为3.5 cm，房间大小设为7 × 5 × 3 m³；目标声源环绕阵列一周，与阵列中心距离为2 m，干扰声源与目标声源相对阵列中心夹角不小于120°；房间混响时间取0.4 s和1.0s两种情况。每个语音样本的长度为2 s。混响时间为0.4 s和1.0 s各生成2300个混合语音。信号的采样频率为16 KHz。

2.方法处理流程

a)参数设定

首先在表1中给出所提出方法的参数。需要注意的是，所提出的方法在不同的环境中不需对参数进行调整，及所给出参数的可以在各种环境下适用。

表 1 各个参数

b)短时傅里叶变换

对传声器采集到的时域信号做离散短时傅里叶变换得到时-频域信号，所用窗函数为汉宁窗，窗长为32 ms，窗移为0.5 ms。

c)计算“能量”包络

对时-频域信号的每个时-频点：使用(1)(2)式计算对数化的交叉谱幅度均值。

d)估计“能量变化率”

对时-频域信号的每个时-频点：使用(3)式计算“能量”包络的“变化率”。

e)判断并定位瞬态噪声

对时-频域信号的每帧：

1.计算每一帧的“能量”

, 使用(5)式寻找“能量”局部极大值的帧；

2.对于“能量”局部极大值的帧，使用(6-7)式判断其能量的出现及耗散速率，满足过快的阈值，该帧即可对应于瞬态噪声。

f)选择直达声对应的时-频点，并忽略瞬态噪声部分

对时-频域信号的每个时-频点：使用(8-9)式选择“能量”包络的“变化率”较大的K个时-频点作为直达声筛选的结果，记为集合Π。

g)对选中的时-频点，应用加权SRP-PHAT方法，得到定位结果

对时-频域信号的每个时-频点：使用(10)式对最终的定位结果进行估计。需要注意的是，当时-频点(n,k)在集合Π内时，W(n,k)为1，否则为0。

为了说明本发明算法的优点，以下利用仿真和实验对本发明中提出方法与传统方法进行比较验证。

在不同的方法表示中，DPD-D-FR (PHAT)为本发明中提出的方法，DPD-D-FR(MUSIC)为将所提出方法的第三步中的加权SRP-PHAT定位方法改为加权MUSIC方法，DPD-MUSIC为Rafaely等在(Rafaely B, Kolossa D. Speaker localization in reverberantrooms based on direct path dominance test statistics[C]//Acoustics, Speechand Signal Processing (ICASSP), 2017 IEEE International Conference on. IEEE,2017: 6120-6124)中提出的借助矩阵的特征值分解的DPD-test方法，MUSIC方法为经典多信号分类方法 (Multiple Signal classification)，SRP-PHAT为经典SRP-PHAT方法。

在仿真条件下，我们使用6通道环阵列，对50个语音样本与46个常见室内噪声和非稳态干扰样本两两混合后进行采样录音。6通道环阵列比较容易在智能设备顶端安装。测试房间为7 × 5 × 3 m³，包括不同的混响：Room 1, T60 = 0.4 s; Room 2, T60 = 1.0 s。阵列中心坐标(3.5 m, 2.2 m, 1.5 m)，语音声源在周围10个方向，间隔36°，干扰声源与语音声源相对阵列中心夹角不小于120°，到传声器阵列的距离均为2米，高度相同，信扰比(Signal-to-interference ratio, SIR)为5 dB。声速取344 m/s。不含干扰条件下不同方法定位均方根误差(Root-mean-square error, RMSE)的对比结果见图1。在此定义两个用于比较的指标：P _s，定位估计更接近干扰的概率；R _s：定位估计更接近目标说话人的数据对应的均方根误差。含干扰的不同方法的P _s和R _s比较见表2。

表2 仿真中不同方法的P_s和R_s比较

在实验中，我们在三个房间中测试：Room 1是视听室，体积4.5 × 7.4 × 3 m³ ，T60= 0.32 s；Room 2是一个小型教室，体积3.6 × 5.2 × 3 m³ ，T60 = 1.20 s；Room 3是混响室，体积7.35 × 5.9 × 5.22 m³ ，T60 ≈ 5 s。使用4通道线阵列对35个语音样本进行录制，录音环境中同时用包含20个不同的常见噪声的干扰样本循环播放，期望声源和干扰源到传声器阵列距离均为2米，高度相同。采样率为16 KHz。语音声源分别在30°和60°处，干扰声源在−45°处。不同方法对应的均方根误差对比见表3。

表3 实验中不同方法的RMSE(°)比较

通过仿真和实验可以看出，本发明中提出的方法在准确性和鲁棒性上优于大多数其它常见方法，DPD-D-FR (PHAT)方法在高混响情况下更稳定，实验中无干扰时最大RMSE为1.2°，存在干扰时，对结果的影响也较小，鲁棒性同样较高。对比DPD-MUSIC方法，有一定优势，不仅如此本发明中方法运算需求量远小于基于矩阵空间分解的直达声判断方法。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。