CN110197665A - 一种用于公安刑侦监听的语音分离与跟踪方法 - Google Patents
一种用于公安刑侦监听的语音分离与跟踪方法 Download PDFInfo
- Publication number
- CN110197665A CN110197665A CN201910556835.8A CN201910556835A CN110197665A CN 110197665 A CN110197665 A CN 110197665A CN 201910556835 A CN201910556835 A CN 201910556835A CN 110197665 A CN110197665 A CN 110197665A
- Authority
- CN
- China
- Prior art keywords
- speech
- target speaker
- frequency
- speaker
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Abstract
本发明涉及语音信号识别处理技术领域,提出一种用于公安刑侦监听的语音分离与跟踪方法,包括以下步骤:根据时序导入初始语音,对初始语音进行分帧加窗处理,得到加窗语音信号;对加窗语音信号进行时频分解,通过短时傅里叶变换得到时频二维信号;对所述时频二维信号在频域中进行端点检测,将空语言段对应的语音信号段进行过滤处理;利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,输出目标说话人的多个语音波形;建立与训练基于GMM‑UBM的目标说话人模型,将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的序列编号,即为语音跟踪结果。
Description
技术领域
本发明涉及语音信号识别处理技术领域,更具体地,涉及一种用于公安刑侦监听的语音分离与跟踪方法。
背景技术
在公安刑侦监听领域,由于所获取的语音片段内包含有背景噪声、多个说话人声及混响等相关干扰因素,导致难以对该语音片段获取相关的重要信息。因此在对语音信号进行处理的过程中,需要将多个说话人的语音信号进行分离后,再分别进行处理。同时由于刑侦监听的特殊性,多个说话人的语音信号由同一拾音器金西行收录,因此难以对多个说话人的语音信号进行分离处理。另外,在实际的刑侦监听过程中,录入获取的音频中处于同一时间点说话的人数具有不确定性,进一步增大了对语音信号进行处理的难度。
目前对语音信号进行分离与跟踪处理的方法包括:
1、通过多个麦克风阵列组合对多个目标说话人的位置信息进行对准与捕捉,但是该方法存在多麦克风的非线性组合以及配置平稳性问题;
2、通过视觉信息作为辅助信息来增强语音分离与跟踪系统的性能的方法对语音信号进行分离与跟踪处理,然而这种方法需要结合语音信息和视觉信息同时进行处理分析,且在实际应用中所采集的音频和图像存在延时问题导致无法适配;
3、通过采用有效位编码向量或者目标说话人语音信息作为语音分离系统的额外输入的方法对语音信号进行处理,但是该方法无法实现端到端的语音跟踪,且与单独的语音跟踪算法相比,由于引入了目标说话人身份信息作为输入,存在训练以及测试的时间复杂度过高的问题。
发明内容
本发明为克服上述现有技术所述的难以对多个说话人的语音信号进行分离与跟踪处理的缺陷,提供一种用于公安刑侦监听的语音分离与跟踪方法。
为解决上述技术问题,本发明的技术方案如下:
一种用于公安刑侦监听的语音分离与跟踪方法,包括以下步骤:
S1:根据时序导入初始语音,对初始语音进行分帧加窗处理,得到加窗语音信号;
S2:对加窗语音信号进行时频分解,通过短时傅里叶变换得到时频二维信号;
S3:对所述时频二维信号在频域中进行端点检测,将空语言段对应的语音信号段进行过滤处理;
S4:利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,输出目标说话人的多个语音波形;
S5:建立与训练基于GMM-UBM的目标说话人模型,将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的序列编号,即为语音跟踪结果。
本技术方案中,考虑到在一般信号处理系统中需要耗费大量时间在对语音信号的时频分解中,采用对初始语音信号进行分帧加窗处理,从而降低处理时延;采用双向长短时记忆网络(Bi-directional LSTM,BLSTM)结构将属于同一说话人或说话声音相似的人的时频单元距离减小,再结合聚类算法,将属于同一说话人的时频单元聚类,实现将多个说话人的语音信号进行分离;采用基于GMM-UBM(Gaussian Mixture Model-UniversalBackground Model)的语音跟踪方法,对目标说话人的语音波形进行辨认,并对完成辨认的语音信号对应的目标说话人进行编号后输出编号结果,即完成目标说话人的语音分离与跟踪。
优选地,S1步骤中,对初始语音信号根据预设的固定的时间段进行分帧加窗处理,其公式如下:
xw(n)=x(n)×w(n)
其中,x(n)表示初始语音信号,w(n)表示窗口函数,xw(n)表示加窗语音信号。
优选地,窗口函数采用汉明窗函数,并对窗函数的帧长取值根据延迟占比进行调整,其中窗长为8ms,帧移为4ms,时序长为200。
优选地,S2步骤中,对加窗语音信号进行短时傅里叶变换的公式如下:
其中,X(t,f)为时频二维信号,t为时间帧,f为频率,w(·)表示汉明窗函数。
优选地,S3步骤中,对所述时频二维信号在频域中进行端点检测的公式如下:
P(w)=20log(|X|)
|Xvad|=|X|>xvad
其中,P(w)表示声压级能量,Pmax(w)表示最大声压级能量,|X|为语音信号的幅度谱振幅,xvad表示基于声压级能量阈值转化为幅度谱后的振幅,threshold为预设的阈值;本步骤中,只有当幅度谱振幅大于基于声压级能量阈值转化为幅度谱后的幅度谱振幅xvad才能保留。
优选地,S4步骤中,利用BLSTM结构对完成过滤处理的时频二维信号进行语音分离的步骤如下:
S41:构建BLSTM结构,将时频二维信号输入BLSTM结构中,所述BLSTM结构的表达公式如下:
其中,表示输入的语音特征,X∈RF×T表示C个说话人混合的幅度谱,其中T表示信号的帧,F表示信号的频率;表示将输入的语音特征映射到K维的嵌入向量特征空间,V∈RFT×K表示X映射到K维的嵌入向量的特征空间的结果矩阵;
S42:通过学习K维的亲和矩阵VVT得到聚类后的二值亲和矩阵,计算损失函数CY(V):
di=YYT
其中,Y为类别信息矩阵,YYT表示聚类后的结果的亲和矩阵;vi表示第i个时频单元的值,vj表示第j个时频单元的值;yi、yj为矩阵Y中的数值;di、dj、N为常量;
S43:引入正则化对所述损失函数CY(V)进行优化得到总损失函数CY,其公式如下:
VVT∈RK×K
其中,I表示单位矩阵,||·||F表示矩阵的范数;
S44:根据所述总损失函数CY对BLSTM结构中的参数进行训练,得到完成训练的BLSTM结构,然后将完成过滤处理的时频二维信号作为所述网络结构的输入,输出得到目标说话人的多个语音波形。
优选地,S41步骤中,采用K-means算法对所述结果矩阵V的聚类效果进行测试,其公式如下:
其中,SSE表示聚类效果标准,为各个样本与所在簇的质心的均值的误差平方和,ui表示质心,x为样本所属的类别Ci。
优选地,S5步骤中的具体步骤如下:
S51:从所述说话人的语音波形中提取说话人的MFCC参数Ct(z)以及MFCC的一阶偏导、二阶偏导,然后按照比例组成说话人跟踪模型的语音特征输入X=(x1,x2,...,xT),所述MFCC参数Ct(z)的表达方式如下:
其中,xT为MFCC参数Ct(z)以及MFCC的一阶偏导、二阶偏导所组成的特征矩阵;Ct(z)表示第t帧的第z个MFCC系数,且0≤z<M,M为三角滤波器的个数;St(m)表示语音信号的对数功率谱,m为三角滤波器的标记;
S52:初始化目标说话人的GMM模型的参数根据所述语音特征输入X得到其似然函数L(λ|X),所述其似然函数的公式如下:
其中,为GMM模型的参数,φi为参数λ的权重系数,为参数λ的均值,Σi为参数λ的方差;
S53:采用期望最大化算法对所述其似然函数L(λ|X)进行迭代处理至其似然函数L(λ|X)的值不超过预设的阈值或迭代次数达到最大迭代次数,完成对目标说话人的GMM模型中参数λ的更新收敛处理;
S54:采用期望最大化算法训练获取得到一个稳定的说话人无关UBM模型,然后采用最大后验准则将所述说话人无关UBM模型与目标说话人语音特征混合计算,生成关于目标说话人的GMM模型,得到基于GMM-UBM的目标说话人模型;
S55:将所述目标说话人的语音特征xt作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的编号其公式如下:
其中,logP(X|λ)表示目标说话人的GMM模型的后验概率。
优选地,步骤S55中,通过自适应获取目标说话人的GMM模型的具体步骤如下:
步骤a:计算目标说话人的语音波形对应的语音特征向量中的每个向量在第i个高斯分布条件下的概率P(i|xt,λUBM),其公式如下:
其中,λUBM=(ni,Ei(x),Ei(x2))为UBM模型的参数,N(·)表示高斯分布;
步骤b:根据所述概率P(i|xt,λUBM)计算目标说话人的权重系数ni、均值Ei(x)以及方差Ei(x2),其计算公式如下:
步骤c:根据所述目标说话人的权重系数ni、均值Ei(x)以及方差Ei(x2)对目标说话人的GMM模型的参数进行更新,获取目标说话人的GMM模型,其更新公式如下:
其中,表示完成更新的GMM模型参数λ的权重系数,表示完成更新的GMM模型参数λ的均值,表示完成更新的GMM模型参数λ的方差;参数γ表示权重系数的修正值,αi为自适应参数,τ表示说话人无关UBM模型与目标说话人的GMM模型的关联程度。
与现有技术相比,本发明技术方案的有益效果是:
(1)采用BLSTM结构使属于同一说话人的时频单元聚类,同时引入正则项对结构进行训练,有效实现将多个说话人语音进行分离,同时减少泛化误差,提高语音分离的质量;
(2)采用基于GMM-UBM的语音跟踪方法对目标说话人的语音波形进行辨认,免除在语音分离阶段对目标语音信号的先验知识,能够有效识别语音信号的目标说话人信息,提高刑侦监听的效率;
(3)通过对分帧加窗处理的帧长取值根据延迟占比进行调整,能够有效降低刑侦监听过程中的延迟,实现刑侦监听的实时语音分离与跟踪。
附图说明
图1为本实施例的一种用于公安刑侦监听的语音分离与跟踪方法的流程图。
图2为本实施例中语音分离过程的流程图。
图3为本实施例中语音跟踪过程的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,为本实施例的一种用于公安刑侦监听的语音分离与跟踪方法的流程图。
本实施例提出的一种用于公安刑侦监听的语音分离与跟踪方法,包括以下步骤:
S1、根据时序导入初始语音,对初始语音进行分帧加窗处理,得到加窗语音信号。本步骤中,对初始语音信号根据预设的固定的时间段进行分帧加窗处理,其公式如下:
xw(n)=x(n)×w(n)
其中,x(n)表示初始语音信号,w(n)表示汉明窗函数,xw(n)表示加窗语音信号。
本实施例中,汉明窗函数的窗长为8ms,帧移为4ms,时序长为200。
S2、对加窗语音信号进行时频分解,通过短时傅里叶变换得到时频二维信号。本步骤中,对加窗语音信号进行短时傅里叶变换的公式如下:
其中,X(t,f)为时频二维信号,t为时间帧,f为频率,w(·)表示汉明窗函数。
S3、对所述时频二维信号在频域中进行端点检测,将空语言段对应的语音信号段进行过滤处理。本步骤中,对所述时频二维信号在频域中进行端点检测的公式如下:
其中,其中,P(w)表示声压级能量,Pmax(w)表示最大声压级能量,|X|为语音信号的幅度谱振幅,xvad表示基于声压级能量阈值转化为幅度谱后的振幅,threshold为预设的阈值。
在本实施例中,threshold取值为40dB,当幅度谱振幅|X|大于基于声压级能量阈值转化为幅度谱后的振幅xvad才进行保留。
S4、利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,输出目标说话人的多个语音波形。
如图2所示,为本实施例的语音分离过程的流程图。本步骤的具体步骤如下:
S41:构建双向长短时记忆网络结构,将时频二维信号输入所述双向长短时记忆网络结构中,所述双向长短时记忆网络结构的表达公式如下:
其中,表示输入的语音特征,X∈RF×T表示C个说话人混合的幅度谱,其中T表示信号的帧,F表示信号的频率;表示将输入的语音特征映射到K维的嵌入向量特征空间,V∈RFT×K表示X映射到K维的嵌入向量的特征空间的结果矩阵;本实施例中采用的语音特征为对数功率谱;
S42:通过学习K维的亲和矩阵VVT得到聚类后的二值亲和矩阵,计算损失函数CY(V):
di=YYT
其中,Y为类别信息矩阵,YYT表示聚类后的结果的亲和矩阵;vi表示第i个时频单元的值,vj表示第j个时频单元的值;yi、yj为矩阵Y中的数值;di、dj、N为常量;
S43:引入正则化对所述损失函数CY(V)进行优化得到总损失函数CY,能够有效减少泛化误差,其公式为:
将上式简化得到:
结合上述损失函数CY(V)得到总损失函数CY:
VVT∈RK×K
其中,I表示单位矩阵,||·||F表示矩阵的范数;
S44:根据所述总损失函数CY对双向长短时记忆网络结构中的参数进行训练,得到完成训练的双向长短时记忆网络结构,然后将完成过滤处理的时频二维信号作为所述网络结构的输入,输出得到目标说话人的多个语音波形。
本实施例中,采用K-means算法对所述结果矩阵V的聚类效果进行测试,其公式如下:
其中,SSE表示聚类效果标准,为各个样本与所在簇的质心的均值的误差平方和,ui表示质心,Ci表示样本所属的类别。其中,聚类的目的在于找到每个样本A潜在的类别B,并将属于同一类别B的样本A放在一起,从而实现语音信号的分离。K-means算法通过将SSE作为算法优化的目标,通过固定每个类别的质心ui,调整每个样本的所述类别Ci使SSE减少,或者是,通过固定类别参数Ci,调整每个类别中的质心ui使SSE减少。通过迭代上述过程使SSE最小,实现聚类效果最优。
S5:建立与训练基于GMM-UBM的目标说话人模型,将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的序列编号,即为语音跟踪结果。
如图3所示,为本实施例中语音跟踪过程的流程图。本步骤的具体步骤如下:
S51:从所述说话人的语音波形中提取说话人的MFCC参数Ct(z)以及MFCC的一阶偏导、二阶偏导,然后按照比例组成说话人跟踪模型的语音特征输入X=(x1,x2,...,xT),所述MFCC参数Ct(z)的表达方式如下:
其中,xT为MFCC参数Ct(z)以及MFCC的一阶偏导、二阶偏导所组成的特征矩阵;Ct(z)表示第t帧的第z个MFCC系数,且0≤z<M,M为三角滤波器的个数;St(m)表示语音信号的对数功率谱,m为三角滤波器的标记;
S52:初始化目标说话人的GMM模型的参数根据所述语音特征输入X=(x1,x2,...,xT)得到其似然函数L(λ|X),所述其似然函数的公式如下:
其中,为GMM模型的参数,φi为参数λ的权重系数,为参数λ的均值,Σi为参数λ的方差;
S53:采用期望最大化算法对所述其似然函数L(λ|X)进行迭代处理至其似然函数L(λ|X)的值不超过预设的阈值或迭代次数达到最大迭代次数,完成对目标说话人的GMM模型中参数λ的更新收敛处理,本实施例中的阈值取值为1e-15;
本实施例中,本步骤分为E步求得Q函数与M步求Q函数的极大值,其中Q函数定义为:
Q(λ,λj)=Ei[logP(X,Zij|λ)|X,λj]
E步:求得Q函数,将E(zij|Xt,λ)化简为概率公式:
M步:求Q函数的极大值,得到GMM模型中参数其估值依次如下:
其中,Q函数与其似然函数L(λ|X)具有相同的增减性,为使其似然函数L(λ|X)尽可能增大可将参数λ的表达式简化为:
S54:采用期望最大化算法训练获取得到一个稳定的说话人无关UBM模型,然后采用最大后验准则将所述说话人无关UBM模型与目标说话人语音特征混合计算,生成关于目标说话人的GMM模型,得到基于GMM-UBM的目标说话人模型;
S55:将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的编号其公式如下:
其中,logP(X|λ)表示目标说话人的GMM模型的后验概率,编号为计算的后验概率最大的说话人模型对应的说话人编号。
本实施例的步骤S55中,通过自适应获取目标说话人的GMM模型的具体步骤如下:
步骤a:计算目标说话人的语音波形对应的语音特征向量中的每个向量在第i个高斯分布条件下的概率P(i|xt,λUBM),其公式如下:
其中,λUBM=(ni,Ei(x),Ei(x2))为UBM模型的参数,N(·)表示高斯分布;
步骤b:根据所述概率P(i|xt,λUBM)计算目标说话人的权重系数ni、均值Ei(x)以及方差Ei(x2),其计算公式如下:
步骤c:根据所述目标说话人的权重系数ni、均值Ei(x)以及方差Ei(x2)对目标说话人的GMM模型的参数进行更新,获取目标说话人的GMM模型,其更新公式如下:
其中,表示完成更新的GMM模型参数λ的权重系数,表示完成更新的GMM模型参数λ的均值,表示完成更新的GMM模型参数λ的方差;参数γ表示权重系数的修正值,αi为自适应参数,τ表示说话人无关UBM模型与目标说话人的GMM模型的关联程度。
本实施例中,考虑到当多个说话人语音分离的模型嵌入到公安刑侦监听应用设备中时,降低处理延迟对于用户体验来说极为重要,因此对汉明窗函数的参数值进行限制,其中窗长为8ms,帧移为4ms,时序长为200,能够有效降低刑侦监听过程中的处理时延。
本实施例中,利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,主要通过双向长短时记忆网络结构将输入的语音特征中每个时频单元映射到K维嵌入向量的特征空间(embedding space),其中将语音特征的视频单元映射到高维空间的方法能够使属于同一说话人或说话声音相似的人的时频单元距离减小从而达到聚集效果,即可训练得到一个具有区分度的K维嵌入向量的特征空间,然后再结合聚类算法,将属于同一说话人的时频单元聚类到仪器,实现将多个说话人语音分离。由于双向长短时记忆网络结构所映射的高维特征空间具有很好的区分性,能够有效分辨不同说话人的语音特征点,从而提高语音分离质量。另外本实施例为了使混合语音的频谱更容易在映射的高维特征空间中聚类,引入正则化对损失函数进行优化修改,从而减少泛化误差。
本实施例中,采用基于说话人识别(GMM-UBM)的语音跟踪方法,先将完成语音分离的单一说话人的语音信号进行特征提取,然后将提取的特征输入到已经完成训练的说话人模型中对分离的语音进行辨认,最后将识别的语音进行归类,即完成说话人的跟踪识别。该方法能够有效辨别语音特征对应的说话人信息,能够有效提高刑侦监听的效率。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (9)
1.一种用于公安刑侦监听的语音分离与跟踪方法,其特征在于,包括以下步骤:
S1:根据时序导入初始语音,对初始语音进行分帧加窗处理,得到加窗语音信号;
S2:对加窗语音信号进行时频分解,通过短时傅里叶变换得到时频二维信号;
S3:对所述时频二维信号在频域中进行端点检测,将空语言段对应的语音信号段进行过滤处理;
S4:利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,输出目标说话人的多个语音波形;
S5:建立与训练基于GMM-UBM的目标说话人模型,将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的序列编号,即为语音跟踪结果。
2.根据权利要求1所述的语音分离与跟踪方法,其特征在于:所述S1步骤中,对初始语音信号根据预设的固定的时间段进行分帧加窗处理,其公式如下:
xw(n)=x(n)×w(n)
其中,x(n)表示初始语音信号,w(n)表示窗口函数,xw(n)表示加窗语音信号。
3.根据权利要求2所述的语音分离与跟踪方法,其特征在于:所述窗口函数采用汉明窗函数,其中窗长为8ms,帧移为4ms,时序长为200。
4.根据权利要求2所述的语音分离与跟踪方法,其特征在于:所述S2步骤中,对加窗语音信号进行短时傅里叶变换的公式如下:
其中,X(t,f)为时频二维信号,t为时间帧,f为频率,w(·)表示汉明窗函数。
5.根据权利要求4所述的语音分离与跟踪方法,其特征在于:所述S3步骤中,对所述时频二维信号在频域中进行端点检测的公式如下:
P(w)=20log(|X|)
|Xvad|=|X|>xvad
其中,P(w)表示声压级能量,Pmax(w)表示最大声压级能量,|X|为语音信号的幅度谱振幅,xvad表示基于声压级能量阈值转化为幅度谱后的振幅,threshold为预设的阈值。
6.根据权利要求5所述的语音分离与跟踪方法,其特征在于:所述S4步骤的具体步骤如下:
S41:构建双向长短时记忆网络结构,将时频二维信号输入所述双向长短时记忆网络结构中,所述双向长短时记忆网络结构的表达公式如下:
其中,表示输入的语音特征,X∈RF×T表示C个说话人混合的幅度谱,其中T表示信号的帧,F表示信号的频率;表示将输入的语音特征映射到K维的嵌入向量特征空间,V∈RFT ×K表示X映射到K维的嵌入向量的特征空间的结果矩阵;
S42:通过学习K维的亲和矩阵VVT得到聚类后的二值亲和矩阵,计算损失函数CY(V):
其中,Y为类别信息矩阵,YYT表示聚类后的结果的亲和矩阵;vi表示第i个时频单元的值,vj表示第j个时频单元的值;yi、yj为矩阵Y中的数值;di、dj、N为常量;
S43:引入正则化对所述损失函数CY(V)进行优化得到总损失函数CY,其公式如下:
VVT∈RK×K
其中,I表示单位矩阵,||·||F表示矩阵的范数;
S44:根据所述总损失函数CY对双向长短时记忆网络结构中的参数进行训练,得到完成训练的双向长短时记忆网络结构,然后将完成过滤处理的时频二维信号作为所述网络结构的输入,输出得到目标说话人的多个语音波形。
7.根据权利要求6所述的语音分离与跟踪方法,其特征在于:所述S41步骤中,采用K-means算法对所述结果矩阵V的聚类效果进行测试,其公式如下:
其中,SSE表示聚类效果标准,为各个样本与所在簇的质心的均值的误差平方和,ui表示质心,x为样本所属的类别Ci。
8.根据权利要求6所述的语音分离与跟踪方法,其特征在于:所述S5步骤中的具体步骤如下:
S51:从所述说话人的语音波形中提取说话人的MFCC参数Ct(z)以及MFCC的一阶偏导、二阶偏导,然后按照比例组成说话人跟踪模型的语音特征输入X=(x1,x2,...,xT),所述MFCC参数Ct(z)的表达方式如下:
其中,xT为MFCC参数Ct(z)以及MFCC的一阶偏导、二阶偏导所组成的特征矩阵;Ct(z)表示第t帧的第z个MFCC系数,且0≤z<M,M为三角滤波器的个数;St(m)表示语音信号的对数功率谱,m为三角滤波器的标记;
S52:初始化目标说话人的GMM模型的参数根据所述语音特征输入X得到其似然函数L(λ|X),所述其似然函数的公式如下:
其中,为GMM模型的参数,φi为参数λ的权重系数,为参数λ的均值,Σi为参数λ的方差;
S53:采用期望最大化算法对所述其似然函数L(λ|X)进行迭代处理至其似然函数L(λ|X)的值不超过预设的阈值或迭代次数达到最大迭代次数,完成对目标说话人的GMM模型中参数λ的更新收敛处理;
S54:采用期望最大化算法训练获取得到一个稳定的说话人无关UBM模型,然后采用最大后验准则将所述说话人无关UBM模型与目标说话人语音特征混合计算,生成关于目标说话人的GMM模型,得到基于GMM-UBM的目标说话人模型;
S55:将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的编号其公式如下:
其中,logP(X|λ)表示目标说话人的GMM模型的后验概率。
9.根据权利要求8所述的语音分离与跟踪方法,其特征在于:所述步骤S55中,通过自适应获取目标说话人的GMM模型的具体步骤如下:
步骤a:计算目标说话人的语音波形对应的语音特征向量中的每个向量在第i个高斯分布条件下的概率P(i|xt,λUBM),其公式如下:
其中,λUBM=(ni,Ei(x),Ei(x2))为UBM模型的参数,N(·)表示高斯分布;
步骤b:根据所述概率P(i|xt,λUBM)计算目标说话人的权重系数ni、均值Ei(x)以及方差Ei(x2),其计算公式如下:
步骤c:根据所述目标说话人的权重系数ni、均值Ei(x)以及方差Ei(x2)对目标说话人的GMM模型的参数进行更新,获取目标说话人的GMM模型,其更新公式如下:
其中,λUBM=(ni,Ei(x),Ei(x2))为UBM模型的参数,表示完成更新的GMM模型参数λ的权重系数,表示完成更新的GMM模型参数λ的均值,表示完成更新的GMM模型参数λ的方差;参数γ表示权重系数的修正值,αi为自适应参数,τ表示说话人无关UBM模型与目标说话人的GMM模型的关联程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910556835.8A CN110197665B (zh) | 2019-06-25 | 2019-06-25 | 一种用于公安刑侦监听的语音分离与跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910556835.8A CN110197665B (zh) | 2019-06-25 | 2019-06-25 | 一种用于公安刑侦监听的语音分离与跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110197665A true CN110197665A (zh) | 2019-09-03 |
CN110197665B CN110197665B (zh) | 2021-07-09 |
Family
ID=67755188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910556835.8A Active CN110197665B (zh) | 2019-06-25 | 2019-06-25 | 一种用于公安刑侦监听的语音分离与跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110197665B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517694A (zh) * | 2019-09-06 | 2019-11-29 | 北京清帆科技有限公司 | 一种教学场景说话人转换检测系统 |
CN111816185A (zh) * | 2020-07-07 | 2020-10-23 | 广东工业大学 | 一种对混合语音中说话人的识别方法及装置 |
CN111968657A (zh) * | 2020-08-17 | 2020-11-20 | 北京字节跳动网络技术有限公司 | 语音处理方法、装置、电子设备和计算机可读介质 |
CN112562726A (zh) * | 2020-10-27 | 2021-03-26 | 昆明理工大学 | 一种基于mfcc相似矩阵的语音音乐分离方法 |
US20210110273A1 (en) * | 2019-10-10 | 2021-04-15 | Samsung Electronics Co., Ltd. | Apparatus and method with model training |
CN113362851A (zh) * | 2020-03-06 | 2021-09-07 | 上海其高电子科技有限公司 | 基于深度学习交通场景声音分类的方法及系统 |
WO2022156655A1 (zh) * | 2021-01-21 | 2022-07-28 | 腾讯科技(深圳)有限公司 | 语音通话的控制方法、装置、计算机可读介质及电子设备 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7409407B2 (en) * | 2004-05-07 | 2008-08-05 | Mitsubishi Electric Research Laboratories, Inc. | Multimedia event detection and summarization |
US20120239400A1 (en) * | 2009-11-25 | 2012-09-20 | Nrc Corporation | Speech data analysis device, speech data analysis method and speech data analysis program |
CN103530432A (zh) * | 2013-09-24 | 2014-01-22 | 华南理工大学 | 一种具有语音提取功能的会议记录器及语音提取方法 |
CN103971700A (zh) * | 2013-08-01 | 2014-08-06 | 哈尔滨理工大学 | 语音监控方法及装置 |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN106952643A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
US9875742B2 (en) * | 2015-01-26 | 2018-01-23 | Verint Systems Ltd. | Word-level blind diarization of recorded calls with arbitrary number of speakers |
CN107886943A (zh) * | 2017-11-21 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种声纹识别方法及装置 |
CN108109619A (zh) * | 2017-11-15 | 2018-06-01 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
CN108766440A (zh) * | 2018-05-28 | 2018-11-06 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
CN109300470A (zh) * | 2018-09-17 | 2019-02-01 | 平安科技(深圳)有限公司 | 混音分离方法和混音分离装置 |
CN109325737A (zh) * | 2018-09-17 | 2019-02-12 | 态度国际咨询管理(深圳)有限公司 | 一种企业智能虚拟助理系统及其方法 |
CN109616098A (zh) * | 2019-02-15 | 2019-04-12 | 北京嘉楠捷思信息技术有限公司 | 基于频域能量的语音端点检测方法和装置 |
CN109741754A (zh) * | 2018-12-10 | 2019-05-10 | 上海思创华信信息技术有限公司 | 一种会议语音识别方法及系统、存储介质及终端 |
CN109923559A (zh) * | 2016-11-04 | 2019-06-21 | 易享信息技术有限公司 | 准循环神经网络 |
-
2019
- 2019-06-25 CN CN201910556835.8A patent/CN110197665B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7409407B2 (en) * | 2004-05-07 | 2008-08-05 | Mitsubishi Electric Research Laboratories, Inc. | Multimedia event detection and summarization |
US20120239400A1 (en) * | 2009-11-25 | 2012-09-20 | Nrc Corporation | Speech data analysis device, speech data analysis method and speech data analysis program |
CN103971700A (zh) * | 2013-08-01 | 2014-08-06 | 哈尔滨理工大学 | 语音监控方法及装置 |
CN103530432A (zh) * | 2013-09-24 | 2014-01-22 | 华南理工大学 | 一种具有语音提取功能的会议记录器及语音提取方法 |
US9875742B2 (en) * | 2015-01-26 | 2018-01-23 | Verint Systems Ltd. | Word-level blind diarization of recorded calls with arbitrary number of speakers |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN109923559A (zh) * | 2016-11-04 | 2019-06-21 | 易享信息技术有限公司 | 准循环神经网络 |
CN106952643A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
CN108109619A (zh) * | 2017-11-15 | 2018-06-01 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
CN107886943A (zh) * | 2017-11-21 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种声纹识别方法及装置 |
CN108766440A (zh) * | 2018-05-28 | 2018-11-06 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
CN109300470A (zh) * | 2018-09-17 | 2019-02-01 | 平安科技(深圳)有限公司 | 混音分离方法和混音分离装置 |
CN109325737A (zh) * | 2018-09-17 | 2019-02-12 | 态度国际咨询管理(深圳)有限公司 | 一种企业智能虚拟助理系统及其方法 |
CN109741754A (zh) * | 2018-12-10 | 2019-05-10 | 上海思创华信信息技术有限公司 | 一种会议语音识别方法及系统、存储介质及终端 |
CN109616098A (zh) * | 2019-02-15 | 2019-04-12 | 北京嘉楠捷思信息技术有限公司 | 基于频域能量的语音端点检测方法和装置 |
Non-Patent Citations (8)
Title |
---|
HERSHEY J R 等: "Deep clustering: Discriminative embeddings for segmentation and separation", 《2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING(ICASSP)》 * |
LI L 等: "Deep clustering with gated convolutional networks", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING(ICASSP)》 * |
SHANSHAN WANG,等: "Low-latency Deep Clustering for Speech Separation", 《2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
WANG Z Q 等: "Alternative objective functions for deep clustering", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING(ICASSP)》 * |
刘航: "基于LSTM与聚类分析的语音分离与跟踪算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张晖: "基于深度学习的语音分离研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
王燕南: "基于深度学习的说话人无关单通道语音分离", 《中国博士学位论文全文数据库》 * |
郝敏 等: "基于聚类分析与说话人识别的语音跟踪", 《计算机与现代化》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517694A (zh) * | 2019-09-06 | 2019-11-29 | 北京清帆科技有限公司 | 一种教学场景说话人转换检测系统 |
US20210110273A1 (en) * | 2019-10-10 | 2021-04-15 | Samsung Electronics Co., Ltd. | Apparatus and method with model training |
CN113362851A (zh) * | 2020-03-06 | 2021-09-07 | 上海其高电子科技有限公司 | 基于深度学习交通场景声音分类的方法及系统 |
CN111816185A (zh) * | 2020-07-07 | 2020-10-23 | 广东工业大学 | 一种对混合语音中说话人的识别方法及装置 |
CN111968657A (zh) * | 2020-08-17 | 2020-11-20 | 北京字节跳动网络技术有限公司 | 语音处理方法、装置、电子设备和计算机可读介质 |
CN112562726A (zh) * | 2020-10-27 | 2021-03-26 | 昆明理工大学 | 一种基于mfcc相似矩阵的语音音乐分离方法 |
WO2022156655A1 (zh) * | 2021-01-21 | 2022-07-28 | 腾讯科技(深圳)有限公司 | 语音通话的控制方法、装置、计算机可读介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110197665B (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110197665A (zh) | 一种用于公安刑侦监听的语音分离与跟踪方法 | |
Fujita et al. | End-to-end neural speaker diarization with permutation-free objectives | |
CN110299142B (zh) | 一种基于网络融合的声纹识别方法及装置 | |
CN109036382B (zh) | 一种基于kl散度的音频特征提取方法 | |
CN108962229B (zh) | 一种基于单通道、无监督式的目标说话人语音提取方法 | |
CN112259120B (zh) | 基于卷积循环神经网络的单通道人声与背景声分离方法 | |
CN112331216A (zh) | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
CN111429935B (zh) | 一种语音话者分离方法和装置 | |
Sun et al. | A novel LSTM-based speech preprocessor for speaker diarization in realistic mismatch conditions | |
CN110120230B (zh) | 一种声学事件检测方法及装置 | |
CN109559736A (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN110136709A (zh) | 语音识别方法及基于语音识别的视频会议系统 | |
Todkar et al. | Speaker recognition techniques: A review | |
CN111461173A (zh) | 一种基于注意力机制的多说话人聚类系统及方法 | |
Sun et al. | A speaker-dependent approach to separation of far-field multi-talker microphone array speech for front-end processing in the CHiME-5 challenge | |
CN109300470A (zh) | 混音分离方法和混音分离装置 | |
CN110136746B (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
CN111489763A (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
Sheng et al. | Data augmentation using conditional generative adversarial networks for robust speech recognition | |
CN112927723A (zh) | 基于深度神经网络的高性能抗噪语音情感识别方法 | |
Shu et al. | Time-frequency performance study on urban sound classification with convolutional neural network | |
Singh et al. | Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition | |
CN110265060B (zh) | 一种基于密度聚类的说话人数目自动检测方法 | |
CN116092512A (zh) | 一种基于数据生成的小样本语音分离方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |