CN110197665B - 一种用于公安刑侦监听的语音分离与跟踪方法 - Google Patents

一种用于公安刑侦监听的语音分离与跟踪方法 Download PDF

Info

Publication number
CN110197665B
CN110197665B CN201910556835.8A CN201910556835A CN110197665B CN 110197665 B CN110197665 B CN 110197665B CN 201910556835 A CN201910556835 A CN 201910556835A CN 110197665 B CN110197665 B CN 110197665B
Authority
CN
China
Prior art keywords
voice
target speaker
time
model
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910556835.8A
Other languages
English (en)
Other versions
CN110197665A (zh
Inventor
郝敏
李扬
刘航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910556835.8A priority Critical patent/CN110197665B/zh
Publication of CN110197665A publication Critical patent/CN110197665A/zh
Application granted granted Critical
Publication of CN110197665B publication Critical patent/CN110197665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

本发明涉及语音信号识别处理技术领域,提出一种用于公安刑侦监听的语音分离与跟踪方法,包括以下步骤:根据时序导入初始语音,对初始语音进行分帧加窗处理,得到加窗语音信号;对加窗语音信号进行时频分解,通过短时傅里叶变换得到时频二维信号;对所述时频二维信号在频域中进行端点检测,将空语言段对应的语音信号段进行过滤处理;利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,输出目标说话人的多个语音波形;建立与训练基于GMM‑UBM的目标说话人模型,将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的序列编号,即为语音跟踪结果。

Description

一种用于公安刑侦监听的语音分离与跟踪方法
技术领域
本发明涉及语音信号识别处理技术领域,更具体地,涉及一种用于公安刑侦监听的语音分离与跟踪方法。
背景技术
在公安刑侦监听领域,由于所获取的语音片段内包含有背景噪声、多个说话人声及混响等相关干扰因素,导致难以对该语音片段获取相关的重要信息。因此在对语音信号进行处理的过程中,需要将多个说话人的语音信号进行分离后,再分别进行处理。同时由于刑侦监听的特殊性,多个说话人的语音信号由同一拾音器金西行收录,因此难以对多个说话人的语音信号进行分离处理。另外,在实际的刑侦监听过程中,录入获取的音频中处于同一时间点说话的人数具有不确定性,进一步增大了对语音信号进行处理的难度。
目前对语音信号进行分离与跟踪处理的方法包括:
1、通过多个麦克风阵列组合对多个目标说话人的位置信息进行对准与捕捉,但是该方法存在多麦克风的非线性组合以及配置平稳性问题;
2、通过视觉信息作为辅助信息来增强语音分离与跟踪系统的性能的方法对语音信号进行分离与跟踪处理,然而这种方法需要结合语音信息和视觉信息同时进行处理分析,且在实际应用中所采集的音频和图像存在延时问题导致无法适配;
3、通过采用有效位编码向量或者目标说话人语音信息作为语音分离系统的额外输入的方法对语音信号进行处理,但是该方法无法实现端到端的语音跟踪,且与单独的语音跟踪算法相比,由于引入了目标说话人身份信息作为输入,存在训练以及测试的时间复杂度过高的问题。
发明内容
本发明为克服上述现有技术所述的难以对多个说话人的语音信号进行分离与跟踪处理的缺陷,提供一种用于公安刑侦监听的语音分离与跟踪方法。
为解决上述技术问题,本发明的技术方案如下:
一种用于公安刑侦监听的语音分离与跟踪方法,包括以下步骤:
S1:根据时序导入初始语音,对初始语音进行分帧加窗处理,得到加窗语音信号;
S2:对加窗语音信号进行时频分解,通过短时傅里叶变换得到时频二维信号;
S3:对所述时频二维信号在频域中进行端点检测,将空语言段对应的语音信号段进行过滤处理;
S4:利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,输出目标说话人的多个语音波形;
S5:建立与训练基于GMM-UBM的目标说话人模型,将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的序列编号,即为语音跟踪结果。
本技术方案中,考虑到在一般信号处理系统中需要耗费大量时间在对语音信号的时频分解中,采用对初始语音信号进行分帧加窗处理,从而降低处理时延;采用双向长短时记忆网络(Bi-directional LSTM,BLSTM)结构将属于同一说话人或说话声音相似的人的时频单元距离减小,再结合聚类算法,将属于同一说话人的时频单元聚类,实现将多个说话人的语音信号进行分离;采用基于GMM-UBM(Gaussian Mixture Model-UniversalBackground Model)的语音跟踪方法,对目标说话人的语音波形进行辨认,并对完成辨认的语音信号对应的目标说话人进行编号后输出编号结果,即完成目标说话人的语音分离与跟踪。
优选地,S1步骤中,对初始语音信号根据预设的固定的时间段进行分帧加窗处理,其公式如下:
xw(n)=x(n)×w(n)
其中,x(n)表示初始语音信号,w(n)表示窗口函数,xw(n)表示加窗语音信号。
优选地,窗口函数采用汉明窗函数,并对窗函数的帧长取值根据延迟占比进行调整,其中窗长为8ms,帧移为4ms,时序长为200。
优选地,S2步骤中,对加窗语音信号进行短时傅里叶变换的公式如下:
Figure BDA0002107117020000021
其中,X(t,f)为时频二维信号,t为时间帧,f为频率,w(·)表示汉明窗函数。
优选地,S3步骤中,对所述时频二维信号在频域中进行端点检测的公式如下:
P(w)=20log(|X|)
Figure BDA0002107117020000031
|Xvad|=|X|>xvad
其中,P(w)表示声压级能量,Pmax(w)表示最大声压级能量,|X|为语音信号的幅度谱振幅,xvad表示基于声压级能量阈值转化为幅度谱后的振幅,threshold为预设的阈值;本步骤中,只有当幅度谱振幅大于基于声压级能量阈值转化为幅度谱后的幅度谱振幅xvad才能保留。
优选地,S4步骤中,利用BLSTM结构对完成过滤处理的时频二维信号进行语音分离的步骤如下:
S41:构建BLSTM结构,将时频二维信号输入BLSTM结构中,所述BLSTM结构的表达公式如下:
Figure BDA0002107117020000032
其中,
Figure BDA0002107117020000033
表示输入的语音特征,X∈RF×T表示C个说话人混合的幅度谱,其中T表示信号的帧,F表示信号的频率;
Figure BDA0002107117020000034
表示将输入的语音特征映射到K维的嵌入向量特征空间,V∈RFT×K表示X映射到K维的嵌入向量的特征空间的结果矩阵;
S42:通过学习K维的亲和矩阵VVT得到聚类后的二值亲和矩阵,计算损失函数CY(V):
Figure BDA0002107117020000035
di=YYT
其中,Y为类别信息矩阵,YYT表示聚类后的结果的亲和矩阵;vi表示第i个时频单元的值,vj表示第j个时频单元的值;yi、yj为矩阵Y中的数值;di、dj、N为常量;
S43:引入正则化对所述损失函数CY(V)进行优化得到总损失函数CY,其公式如下:
Figure BDA0002107117020000036
VVT∈RK×K
其中,I表示单位矩阵,||·||F表示矩阵的范数;
S44:根据所述总损失函数CY对BLSTM结构中的参数进行训练,得到完成训练的BLSTM结构,然后将完成过滤处理的时频二维信号作为所述网络结构的输入,输出得到目标说话人的多个语音波形。
优选地,S41步骤中,采用K-means算法对所述结果矩阵V的聚类效果进行测试,其公式如下:
Figure BDA0002107117020000041
其中,SSE表示聚类效果标准,为各个样本与所在簇的质心的均值的误差平方和,ui表示质心,x为样本所属的类别Ci
优选地,S5步骤中的具体步骤如下:
S51:从所述说话人的语音波形中提取说话人的MFCC参数Ct(z)以及MFCC的一阶偏导、二阶偏导,然后按照比例组成说话人跟踪模型的语音特征输入X=(x1,x2,...,xT),所述MFCC参数Ct(z)的表达方式如下:
Figure BDA0002107117020000042
其中,xT为MFCC参数Ct(z)以及MFCC的一阶偏导、二阶偏导所组成的特征矩阵;Ct(z)表示第t帧的第z个MFCC系数,且0≤z<M,M为三角滤波器的个数;St(m)表示语音信号的对数功率谱,m为三角滤波器的标记;
S52:初始化目标说话人的GMM模型的参数
Figure BDA0002107117020000043
根据所述语音特征输入X得到其似然函数L(λ|X),所述其似然函数的公式如下:
Figure BDA0002107117020000044
其中,
Figure BDA0002107117020000045
为GMM模型的参数,φi为参数λ的权重系数,
Figure BDA0002107117020000046
为参数λ的均值,Σi为参数λ的方差;
S53:采用期望最大化算法对所述其似然函数L(λ|X)进行迭代处理至其似然函数L(λ|X)的值不超过预设的阈值或迭代次数达到最大迭代次数,完成对目标说话人的GMM模型中参数λ的更新收敛处理;
S54:采用期望最大化算法训练获取得到一个稳定的说话人无关UBM模型,然后采用最大后验准则将所述说话人无关UBM模型与目标说话人语音特征混合计算,生成关于目标说话人的GMM模型,得到基于GMM-UBM的目标说话人模型;
S55:将所述目标说话人的语音特征xt作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的编号
Figure BDA0002107117020000051
其公式如下:
Figure BDA0002107117020000052
Figure BDA0002107117020000053
其中,logP(X|λ)表示目标说话人的GMM模型的后验概率。
优选地,步骤S55中,通过自适应获取目标说话人的GMM模型的具体步骤如下:
步骤a:计算目标说话人的语音波形对应的语音特征向量中的每个向量在第i个高斯分布条件下的概率P(i|xtUBM),其公式如下:
Figure BDA0002107117020000054
其中,λUBM=(ni,Ei(x),Ei(x2))为UBM模型的参数,N(·)表示高斯分布;
步骤b:根据所述概率P(i|xtUBM)计算目标说话人的权重系数ni、均值Ei(x)以及方差Ei(x2),其计算公式如下:
Figure BDA0002107117020000055
Figure BDA0002107117020000056
Figure BDA0002107117020000057
步骤c:根据所述目标说话人的权重系数ni、均值Ei(x)以及方差Ei(x2)对目标说话人的GMM模型的参数进行更新,获取目标说话人的GMM模型,其更新公式如下:
Figure BDA0002107117020000058
Figure BDA0002107117020000059
Figure BDA00021071170200000510
Figure BDA00021071170200000511
其中,
Figure BDA00021071170200000512
表示完成更新的GMM模型参数λ的权重系数,
Figure BDA00021071170200000513
表示完成更新的GMM模型参数λ的均值,
Figure BDA0002107117020000061
表示完成更新的GMM模型参数λ的方差;参数γ表示权重系数
Figure BDA0002107117020000062
的修正值,αi为自适应参数,τ表示说话人无关UBM模型与目标说话人的GMM模型的关联程度。
与现有技术相比,本发明技术方案的有益效果是:
(1)采用BLSTM结构使属于同一说话人的时频单元聚类,同时引入正则项对结构进行训练,有效实现将多个说话人语音进行分离,同时减少泛化误差,提高语音分离的质量;
(2)采用基于GMM-UBM的语音跟踪方法对目标说话人的语音波形进行辨认,免除在语音分离阶段对目标语音信号的先验知识,能够有效识别语音信号的目标说话人信息,提高刑侦监听的效率;
(3)通过对分帧加窗处理的帧长取值根据延迟占比进行调整,能够有效降低刑侦监听过程中的延迟,实现刑侦监听的实时语音分离与跟踪。
附图说明
图1为本实施例的一种用于公安刑侦监听的语音分离与跟踪方法的流程图。
图2为本实施例中语音分离过程的流程图。
图3为本实施例中语音跟踪过程的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,为本实施例的一种用于公安刑侦监听的语音分离与跟踪方法的流程图。
本实施例提出的一种用于公安刑侦监听的语音分离与跟踪方法,包括以下步骤:
S1、根据时序导入初始语音,对初始语音进行分帧加窗处理,得到加窗语音信号。本步骤中,对初始语音信号根据预设的固定的时间段进行分帧加窗处理,其公式如下:
xw(n)=x(n)×w(n)
其中,x(n)表示初始语音信号,w(n)表示汉明窗函数,xw(n)表示加窗语音信号。
本实施例中,汉明窗函数的窗长为8ms,帧移为4ms,时序长为200。
S2、对加窗语音信号进行时频分解,通过短时傅里叶变换得到时频二维信号。本步骤中,对加窗语音信号进行短时傅里叶变换的公式如下:
Figure BDA0002107117020000071
其中,X(t,f)为时频二维信号,t为时间帧,f为频率,w(·)表示汉明窗函数。
S3、对所述时频二维信号在频域中进行端点检测,将空语言段对应的语音信号段进行过滤处理。本步骤中,对所述时频二维信号在频域中进行端点检测的公式如下:
Figure BDA0002107117020000072
其中,其中,P(w)表示声压级能量,Pmax(w)表示最大声压级能量,|X|为语音信号的幅度谱振幅,xvad表示基于声压级能量阈值转化为幅度谱后的振幅,threshold为预设的阈值。
在本实施例中,threshold取值为40dB,当幅度谱振幅|X|大于基于声压级能量阈值转化为幅度谱后的振幅xvad才进行保留。
S4、利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,输出目标说话人的多个语音波形。
如图2所示,为本实施例的语音分离过程的流程图。本步骤的具体步骤如下:
S41:构建双向长短时记忆网络结构,将时频二维信号输入所述双向长短时记忆网络结构中,所述双向长短时记忆网络结构的表达公式如下:
Figure BDA0002107117020000073
其中,
Figure BDA0002107117020000074
表示输入的语音特征,X∈RF×T表示C个说话人混合的幅度谱,其中T表示信号的帧,F表示信号的频率;
Figure BDA0002107117020000075
表示将输入的语音特征映射到K维的嵌入向量特征空间,V∈RFT×K表示X映射到K维的嵌入向量的特征空间的结果矩阵;本实施例中采用的语音特征为对数功率谱;
S42:通过学习K维的亲和矩阵VVT得到聚类后的二值亲和矩阵,计算损失函数CY(V):
Figure BDA0002107117020000081
di=YYT
其中,Y为类别信息矩阵,YYT表示聚类后的结果的亲和矩阵;vi表示第i个时频单元的值,vj表示第j个时频单元的值;yi、yj为矩阵Y中的数值;di、dj、N为常量;
S43:引入正则化对所述损失函数CY(V)进行优化得到总损失函数CY,能够有效减少泛化误差,其公式为:
Figure BDA0002107117020000082
将上式简化得到:
Figure BDA0002107117020000083
结合上述损失函数CY(V)得到总损失函数CY
Figure BDA0002107117020000084
VVT∈RK×K
其中,I表示单位矩阵,||·||F表示矩阵的范数;
S44:根据所述总损失函数CY对双向长短时记忆网络结构中的参数进行训练,得到完成训练的双向长短时记忆网络结构,然后将完成过滤处理的时频二维信号作为所述网络结构的输入,输出得到目标说话人的多个语音波形。
本实施例中,采用K-means算法对所述结果矩阵V的聚类效果进行测试,其公式如下:
Figure BDA0002107117020000085
其中,SSE表示聚类效果标准,为各个样本与所在簇的质心的均值的误差平方和,ui表示质心,Ci表示样本所属的类别。其中,聚类的目的在于找到每个样本A潜在的类别B,并将属于同一类别B的样本A放在一起,从而实现语音信号的分离。K-means算法通过将SSE作为算法优化的目标,通过固定每个类别的质心ui,调整每个样本的所述类别Ci使SSE减少,或者是,通过固定类别参数Ci,调整每个类别中的质心ui使SSE减少。通过迭代上述过程使SSE最小,实现聚类效果最优。
S5:建立与训练基于GMM-UBM的目标说话人模型,将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的序列编号,即为语音跟踪结果。
如图3所示,为本实施例中语音跟踪过程的流程图。本步骤的具体步骤如下:
S51:从所述说话人的语音波形中提取说话人的MFCC参数Ct(z)以及MFCC的一阶偏导、二阶偏导,然后按照比例组成说话人跟踪模型的语音特征输入X=(x1,x2,...,xT),所述MFCC参数Ct(z)的表达方式如下:
Figure BDA0002107117020000091
其中,xT为MFCC参数Ct(z)以及MFCC的一阶偏导、二阶偏导所组成的特征矩阵;Ct(z)表示第t帧的第z个MFCC系数,且0≤z<M,M为三角滤波器的个数;St(m)表示语音信号的对数功率谱,m为三角滤波器的标记;
S52:初始化目标说话人的GMM模型的参数
Figure BDA0002107117020000092
根据所述语音特征输入X=(x1,x2,...,xT)得到其似然函数L(λ|X),所述其似然函数的公式如下:
Figure BDA0002107117020000093
其中,
Figure BDA0002107117020000094
为GMM模型的参数,φi为参数λ的权重系数,
Figure BDA0002107117020000095
为参数λ的均值,Σi为参数λ的方差;
S53:采用期望最大化算法对所述其似然函数L(λ|X)进行迭代处理至其似然函数L(λ|X)的值不超过预设的阈值或迭代次数达到最大迭代次数,完成对目标说话人的GMM模型中参数λ的更新收敛处理,本实施例中的阈值取值为1e-15
本实施例中,本步骤分为E步求得Q函数与M步求Q函数的极大值,其中Q函数定义为:
Q(λ,λj)=Ei[logP(X,Zij|λ)|X,λj]
E步:求得Q函数,将E(zij|Xt,λ)化简为概率公式:
Figure BDA0002107117020000101
M步:求Q函数的极大值,得到GMM模型中参数
Figure BDA0002107117020000102
其估值依次如下:
Figure BDA0002107117020000103
Figure BDA0002107117020000104
Figure BDA0002107117020000105
其中,Q函数与其似然函数L(λ|X)具有相同的增减性,为使其似然函数L(λ|X)尽可能增大可将参数λ的表达式简化为:
Figure BDA0002107117020000106
S54:采用期望最大化算法训练获取得到一个稳定的说话人无关UBM模型,然后采用最大后验准则将所述说话人无关UBM模型与目标说话人语音特征混合计算,生成关于目标说话人的GMM模型,得到基于GMM-UBM的目标说话人模型;
S55:将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的编号
Figure BDA0002107117020000107
其公式如下:
Figure BDA0002107117020000108
Figure BDA0002107117020000109
其中,logP(X|λ)表示目标说话人的GMM模型的后验概率,编号
Figure BDA00021071170200001010
为计算的后验概率最大的说话人模型对应的说话人编号。
本实施例的步骤S55中,通过自适应获取目标说话人的GMM模型的具体步骤如下:
步骤a:计算目标说话人的语音波形对应的语音特征向量中的每个向量在第i个高斯分布条件下的概率P(i|xtUBM),其公式如下:
Figure BDA0002107117020000111
其中,λUBM=(ni,Ei(x),Ei(x2))为UBM模型的参数,N(·)表示高斯分布;
步骤b:根据所述概率P(i|xtUBM)计算目标说话人的权重系数ni、均值Ei(x)以及方差Ei(x2),其计算公式如下:
Figure BDA0002107117020000112
Figure BDA0002107117020000113
Figure BDA0002107117020000114
步骤c:根据所述目标说话人的权重系数ni、均值Ei(x)以及方差Ei(x2)对目标说话人的GMM模型的参数进行更新,获取目标说话人的GMM模型,其更新公式如下:
Figure BDA0002107117020000115
Figure BDA0002107117020000116
Figure BDA0002107117020000117
Figure BDA0002107117020000118
其中,
Figure BDA0002107117020000119
表示完成更新的GMM模型参数λ的权重系数,
Figure BDA00021071170200001110
表示完成更新的GMM模型参数λ的均值,
Figure BDA00021071170200001111
表示完成更新的GMM模型参数λ的方差;参数γ表示权重系数
Figure BDA00021071170200001112
的修正值,αi为自适应参数,τ表示说话人无关UBM模型与目标说话人的GMM模型的关联程度。
本实施例中,考虑到当多个说话人语音分离的模型嵌入到公安刑侦监听应用设备中时,降低处理延迟对于用户体验来说极为重要,因此对汉明窗函数的参数值进行限制,其中窗长为8ms,帧移为4ms,时序长为200,能够有效降低刑侦监听过程中的处理时延。
本实施例中,利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,主要通过双向长短时记忆网络结构将输入的语音特征中每个时频单元映射到K维嵌入向量的特征空间(embedding space),其中将语音特征的视频单元映射到高维空间的方法能够使属于同一说话人或说话声音相似的人的时频单元距离减小从而达到聚集效果,即可训练得到一个具有区分度的K维嵌入向量的特征空间,然后再结合聚类算法,将属于同一说话人的时频单元聚类到仪器,实现将多个说话人语音分离。由于双向长短时记忆网络结构所映射的高维特征空间具有很好的区分性,能够有效分辨不同说话人的语音特征点,从而提高语音分离质量。另外本实施例为了使混合语音的频谱更容易在映射的高维特征空间中聚类,引入正则化对损失函数进行优化修改,从而减少泛化误差。
本实施例中,采用基于说话人识别(GMM-UBM)的语音跟踪方法,先将完成语音分离的单一说话人的语音信号进行特征提取,然后将提取的特征输入到已经完成训练的说话人模型中对分离的语音进行辨认,最后将识别的语音进行归类,即完成说话人的跟踪识别。该方法能够有效辨别语音特征对应的说话人信息,能够有效提高刑侦监听的效率。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

1.一种用于公安刑侦监听的语音分离与跟踪方法,其特征在于,包括以下步骤:
S1:根据时序导入初始语音,对初始语音进行分帧加窗处理,得到加窗语音信号;
S2:对加窗语音信号进行时频分解,通过短时傅里叶变换得到时频二维信号;
S3:对所述时频二维信号在频域中进行端点检测,将空语言段对应的语音信号段进行过滤处理;
S4:利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,输出目标说话人的多个语音波形;其具体步骤包括:
S41:构建双向长短时记忆网络结构,将时频二维信号输入所述双向长短时记忆网络结构中,所述双向长短时记忆网络结构的表达公式如下:
Figure FDA0003057992900000011
其中,
Figure FDA0003057992900000012
表示输入的语音特征,X∈RF×T表示C个说话人混合的幅度谱,其中T表示信号的帧,F表示信号的频率;
Figure FDA0003057992900000013
表示将输入的语音特征映射到K维的嵌入向量特征空间,V∈RFT ×K表示X映射到K维的嵌入向量的特征空间的结果矩阵;
S42:通过学习K维的亲和矩阵VVT得到聚类后的二值亲和矩阵,计算损失函数CY(V):
Figure FDA0003057992900000014
其中,Y为类别信息矩阵,YYT表示聚类后的结果的亲和矩阵;vi表示第i个时频单元的值,vj表示第j个时频单元的值;yi、yj为矩阵Y中的数值;di、dj、N为常量;
S43:引入正则化对所述损失函数CY(V)进行优化得到总损失函数CY,其公式如下:
Figure FDA0003057992900000015
VVT∈RK×K
其中,I表示单位矩阵,||·||F表示矩阵的范数;
S44:根据所述总损失函数CY对双向长短时记忆网络结构中的参数进行训练,得到完成训练的双向长短时记忆网络结构,然后将完成过滤处理的时频二维信号作为所述网络结构的输入,输出得到目标说话人的多个语音波形;
S5:建立与训练基于GMM-UBM的目标说话人模型,将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的序列编号,即为语音跟踪结果。
2.根据权利要求1所述的语音分离与跟踪方法,其特征在于:所述S1步骤中,对初始语音信号根据预设的固定的时间段进行分帧加窗处理,其公式如下:
xw(n)=x(n)×w(n)
其中,x(n)表示初始语音信号,w(n)表示窗口函数,xw(n)表示加窗语音信号。
3.根据权利要求2所述的语音分离与跟踪方法,其特征在于:所述窗口函数采用汉明窗函数,其中窗长为8ms,帧移为4ms,时序长为200。
4.根据权利要求2所述的语音分离与跟踪方法,其特征在于:所述S2步骤中,对加窗语音信号进行短时傅里叶变换的公式如下:
Figure FDA0003057992900000021
其中,X(t,f)为时频二维信号,t为时间帧,f为频率,w(·)表示汉明窗函数。
5.根据权利要求4所述的语音分离与跟踪方法,其特征在于:所述S3步骤中,对所述时频二维信号在频域中进行端点检测的公式如下:
P(w)=20log(|X|)
Figure FDA0003057992900000022
|Xvad|=|X|>xvad
其中,P(w)表示声压级能量,Pmax(w)表示最大声压级能量,|X|为语音信号的幅度谱振幅,xvad表示基于声压级能量阈值转化为幅度谱后的振幅,threshold为预设的阈值。
6.根据权利要求5所述的语音分离与跟踪方法,其特征在于:所述S41步骤中,采用K-means算法对所述结果矩阵V的聚类效果进行测试,其公式如下:
Figure FDA0003057992900000031
其中,SSE表示聚类效果标准,为各个样本与所在簇的质心的均值的误差平方和,ui表示质心,x为样本所属的类别Ci
7.根据权利要求5所述的语音分离与跟踪方法,其特征在于:所述S5步骤中的具体步骤如下:
S51:从所述说话人的语音波形中提取说话人的MFCC参数Ct(z)以及MFCC的一阶偏导、二阶偏导,然后按照比例组成说话人跟踪模型的语音特征输入X=(x1,x2,...,xT),所述MFCC参数Ct(z)的表达方式如下:
Figure FDA0003057992900000032
其中,xT为MFCC参数Ct(z)以及MFCC的一阶偏导、二阶偏导所组成的特征矩阵;Ct(z)表示第t帧的第z个MFCC系数,且0≤z<M,M为三角滤波器的个数;St(m)表示语音信号的对数功率谱,m为三角滤波器的标记;
S52:初始化目标说话人的GMM模型的参数
Figure FDA0003057992900000033
根据所述语音特征输入X得到其似然函数L(λ|X),所述其似然函数的公式如下:
Figure FDA0003057992900000034
其中,
Figure FDA0003057992900000035
为GMM模型的参数,φi为参数λ的权重系数,
Figure FDA0003057992900000036
为参数λ的均值,Σi为参数λ的方差;
S53:采用期望最大化算法对所述其似然函数L(λ|X)进行迭代处理至其似然函数L(λ|X)的值不超过预设的阈值或迭代次数达到最大迭代次数,完成对目标说话人的GMM模型中参数λ的更新收敛处理;
S54:采用期望最大化算法训练获取得到一个稳定的说话人无关UBM模型,然后采用最大后验准则将所述说话人无关UBM模型与目标说话人语音特征混合计算,生成关于目标说话人的GMM模型,得到基于GMM-UBM的目标说话人模型;
S55:将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的编号
Figure FDA0003057992900000037
其公式如下:
Figure FDA0003057992900000041
Figure FDA0003057992900000042
其中,log P(X|λ)表示目标说话人的GMM模型的后验概率。
8.根据权利要求7所述的语音分离与跟踪方法,其特征在于:所述步骤S55中,通过自适应获取目标说话人的GMM模型的具体步骤如下:
步骤a:计算目标说话人的语音波形对应的语音特征向量中的每个向量在第i个高斯分布条件下的概率P(i|xtUBM),其公式如下:
Figure FDA0003057992900000043
其中,λUBM=(ni,Ei(x),Ei(x2))为UBM模型的参数,N(·)表示高斯分布;
步骤b:根据所述概率P(i|xtUBM)计算目标说话人的权重系数ni、均值Ei(x)以及方差Ei(x2),其计算公式如下:
Figure FDA0003057992900000044
Figure FDA0003057992900000045
Figure FDA0003057992900000046
步骤c:根据所述目标说话人的权重系数ni、均值Ei(x)以及方差Ei(x2)对目标说话人的GMM模型的参数进行更新,获取目标说话人的GMM模型,其更新公式如下:
Figure FDA0003057992900000047
Figure FDA0003057992900000048
Figure FDA0003057992900000049
Figure FDA00030579929000000410
其中,λUBM=(ni,Ei(x),Ei(x2))为UBM模型的参数,
Figure FDA00030579929000000411
表示完成更新的GMM模型参数λ的权重系数,
Figure FDA00030579929000000412
表示完成更新的GMM模型参数λ的均值,
Figure FDA00030579929000000413
表示完成更新的GMM模型参数λ的方差;参数γ表示权重系数
Figure FDA00030579929000000414
的修正值,αi为自适应参数,τ表示说话人无关UBM模型与目标说话人的GMM模型的关联程度。
CN201910556835.8A 2019-06-25 2019-06-25 一种用于公安刑侦监听的语音分离与跟踪方法 Active CN110197665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910556835.8A CN110197665B (zh) 2019-06-25 2019-06-25 一种用于公安刑侦监听的语音分离与跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910556835.8A CN110197665B (zh) 2019-06-25 2019-06-25 一种用于公安刑侦监听的语音分离与跟踪方法

Publications (2)

Publication Number Publication Date
CN110197665A CN110197665A (zh) 2019-09-03
CN110197665B true CN110197665B (zh) 2021-07-09

Family

ID=67755188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910556835.8A Active CN110197665B (zh) 2019-06-25 2019-06-25 一种用于公安刑侦监听的语音分离与跟踪方法

Country Status (1)

Country Link
CN (1) CN110197665B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517694A (zh) * 2019-09-06 2019-11-29 北京清帆科技有限公司 一种教学场景说话人转换检测系统
KR20210042696A (ko) * 2019-10-10 2021-04-20 삼성전자주식회사 모델 학습 방법 및 장치
CN113362851A (zh) * 2020-03-06 2021-09-07 上海其高电子科技有限公司 基于深度学习交通场景声音分类的方法及系统
CN111816185A (zh) * 2020-07-07 2020-10-23 广东工业大学 一种对混合语音中说话人的识别方法及装置
CN111968657B (zh) * 2020-08-17 2022-08-16 北京字节跳动网络技术有限公司 语音处理方法、装置、电子设备和计算机可读介质
CN112562726B (zh) * 2020-10-27 2022-05-27 昆明理工大学 一种基于mfcc相似矩阵的语音音乐分离方法
CN113571082A (zh) * 2021-01-21 2021-10-29 腾讯科技(深圳)有限公司 语音通话的控制方法、装置、计算机可读介质及电子设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409407B2 (en) * 2004-05-07 2008-08-05 Mitsubishi Electric Research Laboratories, Inc. Multimedia event detection and summarization
WO2011064938A1 (ja) * 2009-11-25 2011-06-03 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
CN103971700A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 语音监控方法及装置
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
US9875742B2 (en) * 2015-01-26 2018-01-23 Verint Systems Ltd. Word-level blind diarization of recorded calls with arbitrary number of speakers
CN104835498B (zh) * 2015-05-25 2018-12-18 重庆大学 基于多类型组合特征参数的声纹识别方法
US20180129937A1 (en) * 2016-11-04 2018-05-10 Salesforce.Com, Inc. Quasi-recurrent neural network
CN106952643A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN108109619B (zh) * 2017-11-15 2021-07-06 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置
CN108766440B (zh) * 2018-05-28 2020-01-14 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
CN109325737A (zh) * 2018-09-17 2019-02-12 态度国际咨询管理(深圳)有限公司 一种企业智能虚拟助理系统及其方法
CN109300470B (zh) * 2018-09-17 2023-05-02 平安科技(深圳)有限公司 混音分离方法和混音分离装置
CN109741754A (zh) * 2018-12-10 2019-05-10 上海思创华信信息技术有限公司 一种会议语音识别方法及系统、存储介质及终端
CN109616098B (zh) * 2019-02-15 2022-04-01 嘉楠明芯(北京)科技有限公司 基于频域能量的语音端点检测方法和装置

Also Published As

Publication number Publication date
CN110197665A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN110197665B (zh) 一种用于公安刑侦监听的语音分离与跟踪方法
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
CN102270451A (zh) 说话人识别方法及系统
CN112349297A (zh) 一种基于麦克风阵列的抑郁症检测方法
CN110120230B (zh) 一种声学事件检测方法及装置
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
Richardson et al. Channel compensation for speaker recognition using map adapted plda and denoising dnns.
CN113096684A (zh) 一种基于双麦克风阵列的目标语音提取方法
CN112735435A (zh) 具备未知类别内部划分能力的声纹开集识别方法
KR102406512B1 (ko) 음성인식 방법 및 그 장치
Sun et al. Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization
CN111489763A (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
KR102062454B1 (ko) 음악 장르 분류 장치 및 방법
Beritelli et al. A pattern recognition system for environmental sound classification based on MFCCs and neural networks
CN116092512A (zh) 一种基于数据生成的小样本语音分离方法
CN116842460A (zh) 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统
CN114970695B (zh) 一种基于非参贝叶斯模型的说话人分割聚类方法
Kothapally et al. Speech Detection and Enhancement Using Single Microphone for Distant Speech Applications in Reverberant Environments.
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Dov et al. Voice activity detection in presence of transients using the scattering transform
CN114613384A (zh) 一种基于深度学习多输入语音信号波束形成信息互补方法
CN112259107A (zh) 一种会议场景小样本条件下的声纹识别方法
Mirzahasanloo et al. Real-time dual-microphone noise classification for environment-adaptive pipelines of cochlear implants
TWI749547B (zh) 應用深度學習的語音增強系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant