CN110197665A

CN110197665A - 一种用于公安刑侦监听的语音分离与跟踪方法

Info

Publication number: CN110197665A
Application number: CN201910556835.8A
Authority: CN
Inventors: 郝敏; 李扬; 刘航
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-09-03
Anticipated expiration: 2039-06-25
Also published as: CN110197665B

Abstract

本发明涉及语音信号识别处理技术领域，提出一种用于公安刑侦监听的语音分离与跟踪方法，包括以下步骤：根据时序导入初始语音，对初始语音进行分帧加窗处理，得到加窗语音信号；对加窗语音信号进行时频分解，通过短时傅里叶变换得到时频二维信号；对所述时频二维信号在频域中进行端点检测，将空语言段对应的语音信号段进行过滤处理；利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离，输出目标说话人的多个语音波形；建立与训练基于GMM‑UBM的目标说话人模型，将所述目标说话人的语音波形作为模型输入，通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认，输出目标说话人的序列编号，即为语音跟踪结果。

Description

一种用于公安刑侦监听的语音分离与跟踪方法

技术领域

本发明涉及语音信号识别处理技术领域，更具体地，涉及一种用于公安刑侦监听的语音分离与跟踪方法。

背景技术

在公安刑侦监听领域，由于所获取的语音片段内包含有背景噪声、多个说话人声及混响等相关干扰因素，导致难以对该语音片段获取相关的重要信息。因此在对语音信号进行处理的过程中，需要将多个说话人的语音信号进行分离后，再分别进行处理。同时由于刑侦监听的特殊性，多个说话人的语音信号由同一拾音器金西行收录，因此难以对多个说话人的语音信号进行分离处理。另外，在实际的刑侦监听过程中，录入获取的音频中处于同一时间点说话的人数具有不确定性，进一步增大了对语音信号进行处理的难度。

目前对语音信号进行分离与跟踪处理的方法包括：

1、通过多个麦克风阵列组合对多个目标说话人的位置信息进行对准与捕捉，但是该方法存在多麦克风的非线性组合以及配置平稳性问题；

2、通过视觉信息作为辅助信息来增强语音分离与跟踪系统的性能的方法对语音信号进行分离与跟踪处理，然而这种方法需要结合语音信息和视觉信息同时进行处理分析，且在实际应用中所采集的音频和图像存在延时问题导致无法适配；

3、通过采用有效位编码向量或者目标说话人语音信息作为语音分离系统的额外输入的方法对语音信号进行处理，但是该方法无法实现端到端的语音跟踪，且与单独的语音跟踪算法相比，由于引入了目标说话人身份信息作为输入，存在训练以及测试的时间复杂度过高的问题。

发明内容

本发明为克服上述现有技术所述的难以对多个说话人的语音信号进行分离与跟踪处理的缺陷，提供一种用于公安刑侦监听的语音分离与跟踪方法。

为解决上述技术问题，本发明的技术方案如下：

一种用于公安刑侦监听的语音分离与跟踪方法，包括以下步骤：

S1：根据时序导入初始语音，对初始语音进行分帧加窗处理，得到加窗语音信号；

S2：对加窗语音信号进行时频分解，通过短时傅里叶变换得到时频二维信号；

S3：对所述时频二维信号在频域中进行端点检测，将空语言段对应的语音信号段进行过滤处理；

S4：利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离，输出目标说话人的多个语音波形；

S5：建立与训练基于GMM-UBM的目标说话人模型，将所述目标说话人的语音波形作为模型输入，通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认，输出目标说话人的序列编号，即为语音跟踪结果。

本技术方案中，考虑到在一般信号处理系统中需要耗费大量时间在对语音信号的时频分解中，采用对初始语音信号进行分帧加窗处理，从而降低处理时延；采用双向长短时记忆网络(Bi-directional LSTM，BLSTM)结构将属于同一说话人或说话声音相似的人的时频单元距离减小，再结合聚类算法，将属于同一说话人的时频单元聚类，实现将多个说话人的语音信号进行分离；采用基于GMM-UBM(Gaussian Mixture Model-UniversalBackground Model)的语音跟踪方法，对目标说话人的语音波形进行辨认，并对完成辨认的语音信号对应的目标说话人进行编号后输出编号结果，即完成目标说话人的语音分离与跟踪。

优选地，S1步骤中，对初始语音信号根据预设的固定的时间段进行分帧加窗处理，其公式如下：

x_w(n)＝x(n)×w(n)

其中，x(n)表示初始语音信号，w(n)表示窗口函数，x_w(n)表示加窗语音信号。

优选地，窗口函数采用汉明窗函数，并对窗函数的帧长取值根据延迟占比进行调整，其中窗长为8ms，帧移为4ms，时序长为200。

优选地，S2步骤中，对加窗语音信号进行短时傅里叶变换的公式如下：

其中，X(t,f)为时频二维信号，t为时间帧，f为频率，w(·)表示汉明窗函数。

优选地，S3步骤中，对所述时频二维信号在频域中进行端点检测的公式如下：

P(w)＝20log(|X|)

|X_vad|＝|X|＞x_vad

其中，P(w)表示声压级能量，P_max(w)表示最大声压级能量，|X|为语音信号的幅度谱振幅，x_vad表示基于声压级能量阈值转化为幅度谱后的振幅，threshold为预设的阈值；本步骤中，只有当幅度谱振幅大于基于声压级能量阈值转化为幅度谱后的幅度谱振幅x_vad才能保留。

优选地，S4步骤中，利用BLSTM结构对完成过滤处理的时频二维信号进行语音分离的步骤如下：

S41：构建BLSTM结构，将时频二维信号输入BLSTM结构中，所述BLSTM结构的表达公式如下：

其中，表示输入的语音特征，X∈R^F×T表示C个说话人混合的幅度谱，其中T表示信号的帧，F表示信号的频率；表示将输入的语音特征映射到K维的嵌入向量特征空间，V∈R^FT×K表示X映射到K维的嵌入向量的特征空间的结果矩阵；

S42：通过学习K维的亲和矩阵VV^T得到聚类后的二值亲和矩阵，计算损失函数C_Y(V)：

d_i＝YY^T

其中，Y为类别信息矩阵，YY^T表示聚类后的结果的亲和矩阵；v_i表示第i个时频单元的值，v_j表示第j个时频单元的值；y_i、y_j为矩阵Y中的数值；d_i、d_j、N为常量；

S43：引入正则化对所述损失函数C_Y(V)进行优化得到总损失函数C_Y，其公式如下：

VV^T∈R^K×K

其中，I表示单位矩阵，||·||_F表示矩阵的范数；

S44：根据所述总损失函数C_Y对BLSTM结构中的参数进行训练，得到完成训练的BLSTM结构，然后将完成过滤处理的时频二维信号作为所述网络结构的输入，输出得到目标说话人的多个语音波形。

优选地，S41步骤中，采用K-means算法对所述结果矩阵V的聚类效果进行测试，其公式如下：

其中，SSE表示聚类效果标准，为各个样本与所在簇的质心的均值的误差平方和，u_i表示质心，x为样本所属的类别C_i。

优选地，S5步骤中的具体步骤如下：

S51：从所述说话人的语音波形中提取说话人的MFCC参数C_t(z)以及MFCC的一阶偏导、二阶偏导，然后按照比例组成说话人跟踪模型的语音特征输入X＝(x₁,x₂,...,x_T)，所述MFCC参数C_t(z)的表达方式如下：

其中，x_T为MFCC参数C_t(z)以及MFCC的一阶偏导、二阶偏导所组成的特征矩阵；C_t(z)表示第t帧的第z个MFCC系数，且0≤z＜M，M为三角滤波器的个数；S_t(m)表示语音信号的对数功率谱，m为三角滤波器的标记；

S52：初始化目标说话人的GMM模型的参数根据所述语音特征输入X得到其似然函数L(λ|X)，所述其似然函数的公式如下：

其中，为GMM模型的参数，φ_i为参数λ的权重系数，为参数λ的均值，Σ_i为参数λ的方差；

S53：采用期望最大化算法对所述其似然函数L(λ|X)进行迭代处理至其似然函数L(λ|X)的值不超过预设的阈值或迭代次数达到最大迭代次数，完成对目标说话人的GMM模型中参数λ的更新收敛处理；

S54：采用期望最大化算法训练获取得到一个稳定的说话人无关UBM模型，然后采用最大后验准则将所述说话人无关UBM模型与目标说话人语音特征混合计算，生成关于目标说话人的GMM模型，得到基于GMM-UBM的目标说话人模型；

S55：将所述目标说话人的语音特征x_t作为模型输入，通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认，输出目标说话人的编号其公式如下：

其中，logP(X|λ)表示目标说话人的GMM模型的后验概率。

优选地，步骤S55中，通过自适应获取目标说话人的GMM模型的具体步骤如下：

步骤a：计算目标说话人的语音波形对应的语音特征向量中的每个向量在第i个高斯分布条件下的概率P(i|x_t,λ_UBM)，其公式如下：

其中，λ_UBM＝(n_i,E_i(x),E_i(x²))为UBM模型的参数，N(·)表示高斯分布；

步骤b：根据所述概率P(i|x_t,λ_UBM)计算目标说话人的权重系数n_i、均值E_i(x)以及方差E_i(x²)，其计算公式如下：

步骤c：根据所述目标说话人的权重系数n_i、均值E_i(x)以及方差E_i(x²)对目标说话人的GMM模型的参数进行更新，获取目标说话人的GMM模型，其更新公式如下：

其中，表示完成更新的GMM模型参数λ的权重系数，表示完成更新的GMM模型参数λ的均值，表示完成更新的GMM模型参数λ的方差；参数γ表示权重系数的修正值，α_i为自适应参数，τ表示说话人无关UBM模型与目标说话人的GMM模型的关联程度。

与现有技术相比，本发明技术方案的有益效果是：

(1)采用BLSTM结构使属于同一说话人的时频单元聚类，同时引入正则项对结构进行训练，有效实现将多个说话人语音进行分离，同时减少泛化误差，提高语音分离的质量；

(2)采用基于GMM-UBM的语音跟踪方法对目标说话人的语音波形进行辨认，免除在语音分离阶段对目标语音信号的先验知识，能够有效识别语音信号的目标说话人信息，提高刑侦监听的效率；

(3)通过对分帧加窗处理的帧长取值根据延迟占比进行调整，能够有效降低刑侦监听过程中的延迟，实现刑侦监听的实时语音分离与跟踪。

附图说明

图1为本实施例的一种用于公安刑侦监听的语音分离与跟踪方法的流程图。

图2为本实施例中语音分离过程的流程图。

图3为本实施例中语音跟踪过程的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，为本实施例的一种用于公安刑侦监听的语音分离与跟踪方法的流程图。

本实施例提出的一种用于公安刑侦监听的语音分离与跟踪方法，包括以下步骤：

S1、根据时序导入初始语音，对初始语音进行分帧加窗处理，得到加窗语音信号。本步骤中，对初始语音信号根据预设的固定的时间段进行分帧加窗处理，其公式如下：

x_w(n)＝x(n)×w(n)

其中，x(n)表示初始语音信号，w(n)表示汉明窗函数，x_w(n)表示加窗语音信号。

本实施例中，汉明窗函数的窗长为8ms，帧移为4ms，时序长为200。

S2、对加窗语音信号进行时频分解，通过短时傅里叶变换得到时频二维信号。本步骤中，对加窗语音信号进行短时傅里叶变换的公式如下：

S3、对所述时频二维信号在频域中进行端点检测，将空语言段对应的语音信号段进行过滤处理。本步骤中，对所述时频二维信号在频域中进行端点检测的公式如下：

其中，其中，P(w)表示声压级能量，P_max(w)表示最大声压级能量，|X|为语音信号的幅度谱振幅，x_vad表示基于声压级能量阈值转化为幅度谱后的振幅，threshold为预设的阈值。

在本实施例中，threshold取值为40dB，当幅度谱振幅|X|大于基于声压级能量阈值转化为幅度谱后的振幅x_vad才进行保留。

S4、利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离，输出目标说话人的多个语音波形。

如图2所示，为本实施例的语音分离过程的流程图。本步骤的具体步骤如下：

S41：构建双向长短时记忆网络结构，将时频二维信号输入所述双向长短时记忆网络结构中，所述双向长短时记忆网络结构的表达公式如下：

其中，表示输入的语音特征，X∈R^F×T表示C个说话人混合的幅度谱，其中T表示信号的帧，F表示信号的频率；表示将输入的语音特征映射到K维的嵌入向量特征空间，V∈R^FT×K表示X映射到K维的嵌入向量的特征空间的结果矩阵；本实施例中采用的语音特征为对数功率谱；

d_i＝YY^T

S43：引入正则化对所述损失函数C_Y(V)进行优化得到总损失函数C_Y，能够有效减少泛化误差，其公式为：

将上式简化得到：

结合上述损失函数C_Y(V)得到总损失函数C_Y：

VV^T∈R^K×K

其中，I表示单位矩阵，||·||_F表示矩阵的范数；

S44：根据所述总损失函数C_Y对双向长短时记忆网络结构中的参数进行训练，得到完成训练的双向长短时记忆网络结构，然后将完成过滤处理的时频二维信号作为所述网络结构的输入，输出得到目标说话人的多个语音波形。

本实施例中，采用K-means算法对所述结果矩阵V的聚类效果进行测试，其公式如下：

其中，SSE表示聚类效果标准，为各个样本与所在簇的质心的均值的误差平方和，u_i表示质心，C_i表示样本所属的类别。其中，聚类的目的在于找到每个样本A潜在的类别B，并将属于同一类别B的样本A放在一起，从而实现语音信号的分离。K-means算法通过将SSE作为算法优化的目标，通过固定每个类别的质心u_i，调整每个样本的所述类别C_i使SSE减少，或者是，通过固定类别参数C_i，调整每个类别中的质心u_i使SSE减少。通过迭代上述过程使SSE最小，实现聚类效果最优。

如图3所示，为本实施例中语音跟踪过程的流程图。本步骤的具体步骤如下：

S52：初始化目标说话人的GMM模型的参数根据所述语音特征输入X＝(x₁,x₂,...,x_T)得到其似然函数L(λ|X)，所述其似然函数的公式如下：

S53：采用期望最大化算法对所述其似然函数L(λ|X)进行迭代处理至其似然函数L(λ|X)的值不超过预设的阈值或迭代次数达到最大迭代次数，完成对目标说话人的GMM模型中参数λ的更新收敛处理，本实施例中的阈值取值为1e^-15；

本实施例中，本步骤分为E步求得Q函数与M步求Q函数的极大值，其中Q函数定义为：

Q(λ,λ^j)＝E_i[logP(X,Z_ij|λ)|X,λ^j]

E步：求得Q函数，将E(z_ij|X_t,λ)化简为概率公式：

M步：求Q函数的极大值，得到GMM模型中参数其估值依次如下：

其中，Q函数与其似然函数L(λ|X)具有相同的增减性，为使其似然函数L(λ|X)尽可能增大可将参数λ的表达式简化为：

S55：将所述目标说话人的语音波形作为模型输入，通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认，输出目标说话人的编号其公式如下：

其中，logP(X|λ)表示目标说话人的GMM模型的后验概率，编号为计算的后验概率最大的说话人模型对应的说话人编号。

本实施例的步骤S55中，通过自适应获取目标说话人的GMM模型的具体步骤如下：

本实施例中，考虑到当多个说话人语音分离的模型嵌入到公安刑侦监听应用设备中时，降低处理延迟对于用户体验来说极为重要，因此对汉明窗函数的参数值进行限制，其中窗长为8ms，帧移为4ms，时序长为200，能够有效降低刑侦监听过程中的处理时延。

本实施例中，利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离，主要通过双向长短时记忆网络结构将输入的语音特征中每个时频单元映射到K维嵌入向量的特征空间(embedding space)，其中将语音特征的视频单元映射到高维空间的方法能够使属于同一说话人或说话声音相似的人的时频单元距离减小从而达到聚集效果，即可训练得到一个具有区分度的K维嵌入向量的特征空间，然后再结合聚类算法，将属于同一说话人的时频单元聚类到仪器，实现将多个说话人语音分离。由于双向长短时记忆网络结构所映射的高维特征空间具有很好的区分性，能够有效分辨不同说话人的语音特征点，从而提高语音分离质量。另外本实施例为了使混合语音的频谱更容易在映射的高维特征空间中聚类，引入正则化对损失函数进行优化修改，从而减少泛化误差。

本实施例中，采用基于说话人识别(GMM-UBM)的语音跟踪方法，先将完成语音分离的单一说话人的语音信号进行特征提取，然后将提取的特征输入到已经完成训练的说话人模型中对分离的语音进行辨认，最后将识别的语音进行归类，即完成说话人的跟踪识别。该方法能够有效辨别语音特征对应的说话人信息，能够有效提高刑侦监听的效率。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种用于公安刑侦监听的语音分离与跟踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语音分离与跟踪方法，其特征在于：所述S1步骤中，对初始语音信号根据预设的固定的时间段进行分帧加窗处理，其公式如下：

x_w(n)＝x(n)×w(n)

3.根据权利要求2所述的语音分离与跟踪方法，其特征在于：所述窗口函数采用汉明窗函数，其中窗长为8ms，帧移为4ms，时序长为200。

4.根据权利要求2所述的语音分离与跟踪方法，其特征在于：所述S2步骤中，对加窗语音信号进行短时傅里叶变换的公式如下：

5.根据权利要求4所述的语音分离与跟踪方法，其特征在于：所述S3步骤中，对所述时频二维信号在频域中进行端点检测的公式如下：

P(w)＝20log(|X|)

|X_vad|＝|X|＞x_vad

其中，P(w)表示声压级能量，P_max(w)表示最大声压级能量，|X|为语音信号的幅度谱振幅，x_vad表示基于声压级能量阈值转化为幅度谱后的振幅，threshold为预设的阈值。

6.根据权利要求5所述的语音分离与跟踪方法，其特征在于：所述S4步骤的具体步骤如下：

其中，表示输入的语音特征，X∈R^F×T表示C个说话人混合的幅度谱，其中T表示信号的帧，F表示信号的频率；表示将输入的语音特征映射到K维的嵌入向量特征空间，V∈R^FT ^×K表示X映射到K维的嵌入向量的特征空间的结果矩阵；

VV^T∈R^K×K

其中，I表示单位矩阵，||·||_F表示矩阵的范数；

7.根据权利要求6所述的语音分离与跟踪方法，其特征在于：所述S41步骤中，采用K-means算法对所述结果矩阵V的聚类效果进行测试，其公式如下：

8.根据权利要求6所述的语音分离与跟踪方法，其特征在于：所述S5步骤中的具体步骤如下：

其中，logP(X|λ)表示目标说话人的GMM模型的后验概率。

9.根据权利要求8所述的语音分离与跟踪方法，其特征在于：所述步骤S55中，通过自适应获取目标说话人的GMM模型的具体步骤如下：

其中，λ_UBM＝(n_i,E_i(x),E_i(x²))为UBM模型的参数，表示完成更新的GMM模型参数λ的权重系数，表示完成更新的GMM模型参数λ的均值，表示完成更新的GMM模型参数λ的方差；参数γ表示权重系数的修正值，α_i为自适应参数，τ表示说话人无关UBM模型与目标说话人的GMM模型的关联程度。