CN113705671B - 一种基于文本相关信息感知的说话人识别方法与系统 - Google Patents
一种基于文本相关信息感知的说话人识别方法与系统 Download PDFInfo
- Publication number
- CN113705671B CN113705671B CN202110996082.XA CN202110996082A CN113705671B CN 113705671 B CN113705671 B CN 113705671B CN 202110996082 A CN202110996082 A CN 202110996082A CN 113705671 B CN113705671 B CN 113705671B
- Authority
- CN
- China
- Prior art keywords
- text
- related information
- network
- speaker
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008447 perception Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 118
- 230000006870 function Effects 0.000 claims abstract description 76
- 238000011176 pooling Methods 0.000 claims abstract description 74
- 238000013528 artificial neural network Methods 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 39
- 238000010606 normalization Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims 1
- 230000037431 insertion Effects 0.000 claims 1
- 230000007246 mechanism Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明给出了一种基于文本相关信息感知的说话人识别方法与系统,包括利用包含说话人分类、文本相关信息分类的子网络构建网络结构,其中文本相关信息分类子网络可以有效辅助说话人识别;提出的文本相关信息感知注意力池化,有效利用文本相关信息分类子网络的信息,对帧级别共享特征赋予不同的文本相关信息的权重值,区分不同特征向量对于系统识别能力的贡献度;提出文本相关信息感知动态角边距损失函数,有效利用文本相关信息分类子网络的信息,针对每个输入样本对应的角边距赋予不同的文本相关信息的权重值,压缩类内间距,加快损失函数收敛。可应用于跨信道、跨语种、噪声干扰等多种情况下的生物智能识别、安防领域,提高说话人识别的准确率。
Description
技术领域
本发明涉及语音识别技术领域,尤其是一种基于文本相关信息感知的说话人识别方法与系统。
背景技术
目前说话人识别已成为一种重要的生物识别方式,应用领域广泛。说话人识别分为文本无关和文本相关两类任务,其中文本无关仅识别说话人,而文本相关要求识别说话人及其对应的口令短语。文本相关说话人识别可以看作是两个子任务的结合:说话人识别和短语识别,其中如何充分利用说话语句包含的文本信息是重要的研究方向。
随着深度神经网络的兴起,在说话人识别社区,常用的前端网络结构是x-vector模型,将不同长度的语句整合为固定维度的说话人嵌入向量。该模型最初应用于文本无关说话人识别任务中,但这种单一的网络结构无法利用文本信息,所提取的说话人嵌入向量具有一定的局限性。对于现有前端网络模型中的池化层,一般采用统计池化,计算所有帧级别的特征向量的均值和标准差,形成段级别的特征向量。近年来,有研究人员利用可区分音素的神经网络获取音素特征用以替代传统的声学特征。除了在前端网络利用音素信息;利用“说话人-文本”配对训练概率线性判别分析模型(Probabilistic Linear DiscriminantAnalysis,PLDA),提高说话人识别系统的后端分类性能。在损失函数方面,常用交叉熵(Cross Entropy,CE)损失函数、AM(Additive Margin)损失函数、AAM(Additive AngularMargin)损失函数等,用以训练前端网络的网络参数以提升系统分类能力。也有文献提出帧级别的多任务学习模型,以此利用音素信息辅助说话人分类网络。
在实现本发明的过程中,申请人发现上述现有技术存在如下技术缺陷:(1)现有一部分说话人识别模型将音素信息引入了网络的输入层级或加入了音素识别网络分支,但音素信息并没有参与到说话人的段级别特征向量的统计过程中,对语音样本中文本信息所反映的说话人信息的表征能力有限。
(2)音素信息依赖自动语音识别(Automatic Speech Recognition,ASR)模型的准确率,在不提供音素信息或者音素信息受限的应用场景中,现有的使用音素信息的说话人识别系统的性能将急剧下降。
(3)常用的池化方法对于所有的帧级别的特征向量赋予同样的权重,导致所有向量之间的区分性较差,而实际上每个特征向量对于系统的识别性能具有不同的贡献度和重要性。
(4)常用的损失函数未引入音素信息或字符信息等文本相关信息,对应的说话人识别能力有待提升。
发明内容
本发明提出了一种基于文本相关信息感知的说话人识别方法与系统,以解决上文提到的现有技术的缺陷。
在一个方面,本发明提出了一种基于文本相关信息感知的说话人识别方法,该方法包括以下构建基于文本相关信息感知的说话人识别的前端模型的步骤:
A1:以语音样本作为输入样本,以语音样本的说话人标签(或说话人-文本标签)和文本相关信息分别作为说话人分类子网络和文本相关信息分类子网络的标签;
其中,所述文本相关信息具体包括音素信息和字符信息,且在所述方法中选择所述文本相关信息中的一种来进行基于文本相关信息感知的说话人识别;
A2:构建共同网络层Me,所述输入样本输入所述共同网络层Me,在所述共同网络层Me之上构建帧级别文本相关信息分类子网络Mf、文本相关信息感知注意力池化模块、段级别文本相关信息分类子网络Ms和说话人分类子网络Mspk;
其中,所述共同网络层Me由K个深度神经网络层构成,或由K个深度神经网络层和K个SE(Squeeze-Excitation)模块交替组合而构成,其中2≤K≤5;
所述帧级别文本相关信息分类子网络Mf由两个全连接层构成;
所述文本相关信息感知注意力池化模块由一个点乘计算、Softmax函数归一化、缩放计算和一个统计池化层构成;
所述段级别文本相关信息分类子网络Ms由一个梯度反转层和两个全连接层构成;
所述说话人分类子网络Mspk由两个全连接层构成;
在所述共同网络层Me以上构建第K+1层深度神经网络层,所述文本相关信息感知注意力池化模块构建在所述第K+1层深度神经网络层以上,所述文本相关信息感知注意力池化模块的输出同时输入到所述段级别文本相关信息分类子网络Ms和所述说话人分类子网络Mspk;
其中,所述文本相关信息感知注意力池化模块将所述帧级别文本相关信息分类子网络Mf输出节点对应的后验概率和所述第K+1层深度神经网络层输出的帧级别的次级特征向量进行点乘并经过Softmax函数归一化和缩放操作得到帧级别的加权特征向量,对所述帧级别的加权特征向量进行统计池化处理得到段级别的特征向量;
所述前端模型利用文本相关信息,对所述前端模型的每个输入样本对应的角边距赋予不同的文本相关信息的权重值,从而对所述输入样本的说话人类别之间的间距进行调整,计算出文本相关信息感知动态损失函数。
以上方法利用包含说话人分类、文本相关信息分类的子网络构建网络结构,其中文本相关信息分类子网络可以有效辅助说话人识别任务,音素信息从ASR模型中获取,而字符信息相对音素信息更容易获取,且不依赖于精准的ASR模型训练,能更直观准确地表示文本相关信息;提出的文本相关信息感知注意力池化,有效利用文本相关信息分类子网络的信息,对帧级别共享特征向量赋予不同的文本相关信息的权重值,区分不同特征向量对于系统识别能力的贡献度;提出文本相关信息感知动态角边距损失函数,有效利用文本相关信息分类子网络的信息,针对每个输入样本对应的角边距赋予不同的文本相关信息的权重值,压缩类内间距,加快损失函数收敛。
在具体的实施例中,所述方法还包括利用所述前端模型进行基于文本相关信息感知的说话人识别的步骤:
S1:在网络训练阶段,提取语音样本的声学特征,同时提供所述语音样本的说话人标签(或说话人-文本标签)和文本相关信息分别作为说话人分类网络和文本相关信息分类网络的输出标签,将所述声学特征输入所述共同网络层Me,从而利用所述共同网络层Me对所述声学特征进行训练,得到帧级别的共享特征向量;
S2:在网络训练阶段,将所述帧级别的共享特征向量输入所述帧级别文本相关信息分类子网络Mf,根据帧级别文本相关信息的标签计算所述帧级别文本相关信息分类子网络Mf的损失函数Lf;
S3:在网络训练阶段,将所述帧级别的共享特征向量通过所述第K+1层深度神经网络层和所述文本相关信息感知注意力池化模块得到所述段级别的特征向量;
将所述段级别的特征向量输入所述说话人分类子网络Mspk,根据文本相关的说话人识别任务中训练样本对应的说话人-文本标签或文本无关的说话人识别任务中训练样本对应的说话人标签,计算所述说话人分类子网络Mspk的损失函数Lspk-text/spk;
同时将所述段级别的特征向量输入所述段级别文本相关信息分类子网络Ms,根据段级别文本相关信息的标签计算所述段级别文本相关信息分类子网络Ms的损失函数Ls;
S4:在说话人识别任务测试阶段,提取语音样本的声学特征,将所述声学特征输入所述共同网络层Me,从而利用所述共同网络层Me计算帧级别的共享特征向量;
同时将所述帧级别的共享特征向量通过所述帧级别文本相关信息分类子网络Mf、所述第K+1层深度神经网络层、所述文本相关信息感知注意力池化模块和一层全连接层得到所述说话人嵌入向量。
其中文本相关信息分类子网络可以有效辅助说话人识别,本方案可以多任务同步训练说话人分类子网络、文本相关信息分类子网络,在文本相关信息感知注意力池化模块利用帧级别文本相关信息分类子网络输出层的节点的后验概率赋予帧级别的共享特征向量以不同的权重。
在具体的实施例中,根据所述前端模型Mspk、Mf、Ms各个网络输出节点的后验概率和对应标签,计算总的损失函数Ltotal:
Ltotal=Lspk-text/spk+αLf+βLs
其中,Lspk-text/spk、Lf、Ls分别表示Mspk、Mf、Ms的损失函数,α、β分别表示Lf、Ls的权重;
针对包含N个输入样本X1,X2,…,Xn,…,XN的输入样本集合X={X1,X2,…,Xn,…,XN},其中一个样本Xn={xn,1,xn,2,…,xn,t,…,xn,T}中xn,1,xn,2,…,xn,t,…,xn,T为T个语音长度为一帧的子输入样本,针对所述输入样本集合X,所述Lspk-text/spk的计算公式为:
其中,LPTDAM表示文本相关信息感知动态损失函数,Mspk(Me(X1)),Mspk(Me(X2)),…,Mspk(Me(Xn)),…Mspk(Me(XN))分别表示输入样本X1,X2,…,Xn,…,XN经过Me和Mspk网络的输出节点的后验概率,C表示所述输入样本集合X中输入样本的类别的总数,yn表示第n个输入样本Xn的类别对应的标签,表示yn类的权重向量与所述输入样本Xn的特征向量的夹角,γ表示常数超参量,mn表示所述输入样本Xn的余弦边距,mn的表达式如下:
其中,m表示基础边距值,pn表示所述输入样本Xn在Mf网络的输出节点的后验概率,KLD表示KL散度(Kullback-Leibler Divergence,KLD)损失函数,λ表示边距控制因子。
在具体的实施例中,当选择音素信息作为所述文本相关信息时,所述Lf和所述Ls的表达式如下:
其中,CE表示交叉熵损失函数,Mf(Me(xn,t))表示子输入样本xn,t经过Me和Mf网络的输出节点的后验概率,Ms(Me(Xn))表示所述输入样本Xn经过Me和Ms网络的输出节点的后验概率,表示所述子输入样本xn,t的帧级别音素信息的标签,/>表示所述输入样本Xn的段级别音素信息的标签。
在具体的实施例中,当选择字符信息作为所述文本相关信息时,所述Lf和所述Ls的表达式如下:
其中,CTC表示连接时序分类损失函数,π=(π0,π1,…,πM-1)表示所述连接时序分类(Connectionist Temporal Classification,CTC)损失函数包含非空标签和空单元的所有M种重复情况,Mf(Me(xn,t))表示子输入样本xn,t经过Me和Mf网络的输出节点的后验概率,表示所述子输入样本xn,t的帧级别字符信息的标签,Ms(Me(Xn))表示所述输入样本Mn经过Me和Ms网络的输出节点的后验概率,/>表示所述输入样本Xn的段级别字符信息的标签。字符信息相对音素信息更容易获取,且不依赖于精准的ASR模型训练,能更直观准确地表示输入信息。
在具体的实施例中,所述说话人嵌入向量被用于进行基于文本相关信息感知的说话人识别的后端打分,具体包括在已训练的所述前端模型中从所述说话人分类子网络Mspk的倒数第二层提取所述说话人嵌入向量,经过包括降维、去均值和长度规整在内的预处理之后进行余弦打分或者PLDA打分。余弦打分中,将注册语音和测试语音的所述说话人嵌入向量经过预处理后,计算二者之间的余弦相似度。PLDA打分中,提取训练语音、注册语音和测试语音的所述说话人嵌入向量,利用训练语音的所述说话人嵌入向量经过预处理后训练PLDA模型,再将注册语音和测试语音的所述说话人嵌入向量经过预处理后,利用已训练好的PLDA模型进行后端PLDA打分。在具体的实施例中,所述文本相关信息感知注意力池化模块的构建具体包括:
通过将所述第K+1层深度神经网络层输出的帧级别的次级特征向量与帧级别文本相关信息分类子网络Mf的输出节点的后验概率进行点乘再通过经过Softmax函数归一化和缩放操作得到帧级别的加权特征向量,计算帧级别的加权特征向量的均值和方差,得到段级别的特征向量,所述文本相关信息感知注意力池化模块的具体的计算公式为:
其中,p表示Mf输出节点的后验概率,表示所述第K+1层深度神经网络层输出的帧级别的次级特征向量,Pool表示统计池化操作(计算向量的均值和方差),Softmax表示采用Softmax激活函数进行归一化,scale表示缩放因子,AttPool表示文本相关信息感知注意力池化。文本相关信息感知注意力池化机制有效利用了文本相关信息分类子网络的信息,对说话人分类子网络的帧级别共享特征向量赋予不同的文本相关信息的权重值,区分不同特征向量对于系统识别能力的贡献度。
在具体的实施例中,所述帧级别文本相关信息分类子网络Mf和所述段级别文本相关信息分类子网络Ms之间相互独立,并且,在进行基于文本相关信息感知的说话人识别的过程中,选择运行所述Mf或同时运行所述Mf和所述Ms。
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时实施上述方法。
根据本发明的第三方面,提出一种基于文本相关信息感知的说话人识别系统,该系统包括构建基于文本相关信息感知的说话人识别的前端模型的系统:
样本输入模块:配置用于以语音样本作为输入样本,以语音样本的说话人标签(或说话人-文本标签)和文本相关信息分别作为说话人分类子网络和文本相关信息分类子网络的标签;
其中,所述文本相关信息具体包括音素信息和字符信息,且在所述系统中选择所述文本相关信息中的一种来进行基于文本相关信息感知的说话人识别;
识别模型构建模块:配置用于构建共同网络层Me,所述输入样本输入所述共同网络层Me,在所述共同网络层Me之上构建帧级别文本相关信息分类子网络Mf、文本相关信息感知注意力池化模块、段级别文本相关信息分类子网络Ms和说话人分类子网络Mspk;
其中,所述共同网络层Me由K个深度神经网络层构成,或由K个深度神经网络层和K个SE模块交替组合而构成,其中2≤K≤5;
所述帧级别文本相关信息分类子网络Mf由两个全连接层构成;
所述文本相关信息感知注意力池化模块由一个点乘计算、Softmax函数归一化、缩放计算和一个统计池化层构成;
所述段级别文本相关信息分类子网络Ms由一个梯度反转层和两个全连接层构成;
所述说话人分类子网络Msp由两个全连接层构成;
在所述共同网络层Me以上构建第K+1层深度神经网络层,所述文本相关信息感知注意力池化模块构建在所述第K+1层深度神经网络层以上,所述文本相关信息感知注意力池化模块的输出同时输入到所述段级别文本相关信息分类子网络Ms和所述说话人分类子网络Mspk;
其中,所述文本相关信息感知注意力池化模块将所述帧级别文本相关信息分类子网络Mf输出节点对应的后验概率和所述第K+1层深度神经网络层输出的帧级别的次级特征向量进行点乘并经过Softmax函数归一化和缩放操作得到帧级别的加权特征向量,对所述帧级别的加权特征向量进行统计池化处理得到段级别的特征向量;
所述前端模型利用文本相关信息,对所述前端模型的每个输入样本对应的角边距赋予不同的文本相关信息的权重值,从而对所述输入样本的说话人类别之间的间距进行调整,计算出文本相关信息感知动态损失函数。
本发明利用音素信息或字符信息辅助进行说话人识别,可以多任务同步训练说话人分类子网络、文本相关信息分类子网络;文本相关信息感知注意力池化模块利用帧级别文本相关信息分类子网络输出层的节点的后验概率赋予帧级别的共享特征向量以不同的权重;若输入的文本相关信息为字符信息,则文本相关信息分类子网络利用CTC算法计算损失函数,若输入的文本相关信息为音素信息,则文本相关信息分类子网络训练由ASR模型对齐得到的音素信息作为标签。说话人分类子网络利用说话人标签或者说话人-文本标签计算交叉熵损失函数。整个前端网络结合各分类子网络各自的损失函数构成整体的损失函数。以上方法利用包含说话人分类、文本相关信息分类的子网络构建网络结构,其中文本相关信息分类子网络可以有效辅助说话人识别任务,音素信息从ASR模型中获取,而字符信息相对音素信息更容易获取,且不依赖于精准的ASR模型训练,能更直观准确地表示文本相关信息;提出的文本相关信息分类注意力池化,有效利用帧级别文本相关信息分类子网络输出层的节点的后验概率,对帧级别共享特征向量赋予不同的文本相关信息的权重值,区分不同特征向量对于系统识别能力的贡献度;提出文本相关信息感知动态角边距损失函数,有效利用文本相关信息分类子网络的信息,针对每个输入样本对应的角边距赋予不同的文本相关信息的权重值,压缩类内间距,加快损失函数收敛。本发明可以有效利用文本相关信息辅助说话人识别任务,并从损失函数、时域注意力机制、信道相关的特征整合等多个方面进一步提升系统性能。在跨信道、跨语种、噪声干扰等多种情况下的生物智能识别、安防领域中,将本发明应用于这些领域的说话人识别系统的前端模型构建中,可充分利用文本相关信息,提高系统识别的准确率。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明的一个实施例的一种基于文本相关信息感知的说话人识别方法的前端模型构建的流程图;
图2是本发明的一个具体的实施例的基于文本相关信息感知的深度学习说话人识别方法结构图;
图3是本发明的一个具体的实施例的文本相关信息感知注意力池化机制流程图;
图4是本发明的一个实施例的一种基于文本相关信息感知的说话人识别系统的框架图;
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明的一个实施例的一种基于文本相关信息感知的说话人识别方法,图1示出了根据本发明的实施例的一种基于文本相关信息感知的说话人识别方法的前端模型构建的流程图。如图1所示,该方法包括以下步骤:
S101:以语音样本作为输入样本,以语音样本的说话人标签(或说话人-文本标签)和文本相关信息分别作为说话人分类子网络和文本相关信息分类子网络的标签;
其中,所述文本相关信息具体包括音素信息和字符信息,且在所述方法中选择所述文本相关信息中的一种来进行基于文本相关信息感知的说话人识别;
S102:构建共同网络层Me,所述输入样本输入所述共同网络层Me,在所述共同网络层Me之上构建帧级别文本相关信息分类子网络Mf、文本相关信息感知注意力池化模块、段级别文本相关信息分类子网络Ms和说话人分类子网络Mspk;
其中,所述共同网络层Me由K个深度神经网络层构成,或由K个深度神经网络层和K个SE模块交替组合而构成,其中2≤K≤5;
所述帧级别文本相关信息分类子网络Mf由两个全连接层构成;
所述文本相关信息感知注意力池化模块由一个点乘计算、Softmax函数归一化、缩放计算和一个统计池化层构成;
所述段级别文本相关信息分类子网络Ms由一个梯度反转层和两个全连接层构成;
所述说话人分类子网络Mspk由两个全连接层构成;
在所述共同网络层Me以上构建第K+1层深度神经网络层,所述文本相关信息感知注意力池化模块构建在所述第K+1层深度神经网络层以上,所述文本相关信息感知注意力池化模块的输出同时输入到所述段级别文本相关信息分类子网络Ms和所述说话人分类子网络Mspk;
其中,所述文本相关信息感知注意力池化模块将所述帧级别文本相关信息分类子网络Mf输出节点对应的后验概率和所述第K+1层深度神经网络层输出的帧级别的次级特征向量进行点乘并经过Softmax函数归一化和缩放操作得到帧级别的加权特征向量,对所述帧级别的加权特征向量进行统计池化处理得到段级别的特征向量;
所述前端模型利用文本相关信息,对所述前端模型的每个输入样本对应的角边距赋予不同的文本相关信息的权重值,从而对所述输入样本的说话人类别之间的间距进行调整,计算出文本相关信息感知动态损失函数。
在具体的实施例中,所述帧级别文本相关信息分类子网络Mf和所述段级别文本相关信息分类子网络Ms之间相互独立,并且,在进行基于文本相关信息感知的说话人识别的过程中,选择运行所述Mf或同时运行所述Mf和所述Ms。
根据S101-S103步骤构建出的前端模型,基于以下S201-S204步骤实现基于文本相关信息感知的说话人识别方法:
S201:在网络训练阶段,提取语音样本的声学特征,同时提供所述语音样本的说话人标签(或者说话人-文本标签)和文本相关信息分别作为说话人分类网络和文本相关信息分类网络的输出标签,将所述声学特征输入所述共同网络层Me,从而利用所述共同网络层Me对所述声学特征进行训练,得到帧级别的共享特征向量;
S202:在网络训练阶段,将所述帧级别的共享特征向量输入所述帧级别文本相关信息分类子网络Mf,根据帧级别文本相关信息的标签计算所述帧级别文本相关信息分类子网络Mf的损失函数Lf;
S203:在网络训练阶段,将所述帧级别的共享特征向量通过所述第K+1层深度神经网络层和所述文本相关信息感知注意力池化模块得到所述段级别的特征向量;
将所述段级别的特征向量输入所述说话人分类子网络Mspk,根据文本相关的说话人识别任务中训练样本对应的说话人-文本标签或文本无关的说话人识别任务中训练样本对应的说话人标签,计算所述说话人分类子网络Mspk的损失函数Lspk-text/spk;
同时将所述段级别的特征向量输入所述段级别文本相关信息分类子网络Ms,根据段级别文本相关信息的标签计算所述段级别文本相关信息分类子网络Ms的损失函数Ls;
S204:在说话人识别任务测试阶段,提取语音样本的声学特征,将所述声学特征输入所述共同网络层Me,从而利用所述共同网络层Me计算帧级别的共享特征向量;
同时将所述帧级别的共享特征向量通过所述帧级别文本相关信息分类子网络Mf、所述第K+1层深度神经网络层、所述文本相关信息感知注意力池化模块和一层全连接层得到所述说话人嵌入向量。
在具体的实施例中,所述说话人嵌入向量被用于进行基于文本相关信息感知的说话人识别的后端打分,具体包括在已训练的所述前端模型中从所述说话人分类子网络Mspk的倒数第二层提取所述说话人嵌入向量,经过包括降维、去均值和长度规整在内的预处理之后进行余弦打分或者PLDA打分。余弦打分中,根据S204所述的方法将注册语音和测试语音的所述说话人嵌入向量经过预处理后,计算二者之间的余弦相似度。PLDA打分中,根据S204所述的方法提取训练语音、注册语音和测试语音的所述说话人嵌入向量,利用训练语音的所述说话人嵌入向量经过预处理后训练PLDA模型,再将注册语音和测试语音的所述说话人嵌入向量经过预处理后,利用已训练好的PLDA模型进行后端PLDA打分。
图2示出了本发明的一个具体的实施例的基于文本相关信息感知的深度学习说话人识别方法结构图。应当认识到,对于基于文本相关信息的说话人识别,基于文本相关信息感知的深度学习说话人识别流程的输出同时包括说话人分类、文本相关信息分类;对于文本无关说话人识别,基于文本相关信息感知的深度学习说话人识别流程的输出仅包含说话人分类,但文本相关信息分类也会参与整体网络的训练。
图3示出了本发明的一个具体的实施例的文本相关信息感知注意力池化机制流程图,基于图3,文本相关信息感知注意力池化机制的构建如下:
根据所述前端模型Mspk、Mf、Ms各个网络输出节点的后验概率和对应标签,计算总的损失函数Ltotal:
Ltotal=Lspk-text/spk+αLf+βLs
其中,Lspk-text/spk、Lf、Ls分别表示Mspk、Mf、Ms的损失函数,α、β分别表示Lf、Ls的权重;
针对包含N个输入样本X1,X2,…,Xn,…,XN的输入样本集合X={X1,X2,…,Xn,…,XN},其中一个样本Xn={xn,1,xn,2,…,xn,t,…,xn,T}中xn,1,xn,2,…,xn,t,…,xn,T为T个语音长度为一帧的子输入样本,针对所述输入样本集合X,所述Lspk-text/spk的计算公式为:
其中,LPTDAM表示文本相关信息感知动态损失函数,Mspk(Me(X1)),Mspk(Me(X2)),…,Mspk(Me(Xn)),…Mspk(Me(XN))分别表示输入样本X1,X2,…,Xn,…,XN经过Me和Mspk网络的输出节点的后验概率,C表示所述输入样本集合X中输入样本的类别的总数,yn表示第n个输入样本Xn的类别对应的标签,表示yn类的权重向量与所述输入样本Xn的特征向量的夹角,γ表示常数超参量,mn表示所述输入样本Xn的余弦边距,mn的表达式如下:
其中,m表示基础边距值,pn表示所述输入样本Xn在Mf网络的输出节点的后验概率,KLD表示KL散度损失函数,λ表示边距控制因子。
可选的,当选择音素信息作为所述文本相关信息时,所述Lf和所述Ls的表达式如下:
其中,CE表示交叉熵损失函数,Mf(Me(xn,t))表示子输入样本xn,t经过Me和Mf网络的输出节点的后验概率,Ms(Me(Xn))表示所述输入样本Xn经过Me和Ms网络的输出节点的后验概率,表示所述子输入样本xn,t的帧级别音素信息的标签,/>表示所述输入样本Xn的段级别音素信息的标签。
可选的,当选择字符信息作为所述文本相关信息时,所述Lf和所述Ls的表达式如下:
其中,CTC表示连接时序分类损失函数,π=(π0,π1,…,πM-1)表示所述CTC损失函数包含非空标签和空单元的所有M种重复情况,Mf(Me(xn,t))表示子输入样本xn,t经过Me和Mf网络的输出节点的后验概率,表示所述子输入样本xn,t的帧级别字符信息的标签,Ms(Me(Xn))表示所述输入样本Xn经过Me和Ms网络的输出节点的后验概率,/>表示所述输入样本Xn的段级别字符信息的标签。
最终,图3所示出的文本相关信息感知注意力池化机制的构建具体为:
通过将所述第K+1层深度神经网络层输出的帧级别的次级特征向量与帧级别文本相关信息分类子网络Mf的输出节点的后验概率进行点乘再通过Softmax归一化和缩放操作得到帧级别的加权特征向量,计算帧级别的加权特征向量的均值和方差,得到段级别的特征向量,所述文本相关信息感知注意力池化模块的具体的计算公式为:
其中,p表示Mf输出节点的后验概率,表示所述第K+1层深度神经网络层输出的帧级别的次级特征向量,Pool表示统计池化操作(计算向量的均值和方差),Softmax表示采用Softmax激活函数进行归一化,scale表示缩放因子,AttPool表示进行文本相关信息感知注意力池化。
可选的,在本实施例中,由Kaldi语音开发工具对训练语音生成23维的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC),经过倒谱均值方差归一化(Cepstral Mean and Variance Normalization,CMVN)以及静音检测算法(VoiceActivity Detection,VAD),压缩特征参数值域的动态范围,去除被判别为静音的帧;利用训练集的数据训练ASR模型获取音素对齐信息,字符信息即训练集中语音对应的文本。
应当认识到,以上介绍的基于音素与文本级别深度学习的说话人识别方法中的深度神经网络层包含但不限于时延神经网络(Time Delay Neural Network,TDNN)、扩展时延网络(Extended Time Delay Neural Network,ETDNN)以及卷积神经网络(ConvolutionalNeural Network,CNN)等,配合适当的学习率、优化器等训练策略,训练声学特征、音素信息和文本信息,针对文本相关的任务,输出说话人、文本相关信息的分类结果,针对文本无关的任务,仅输出说话人的分类结果。在已训练的所述前端模型中从所述说话人分类子网络Mspk的倒数第二层提取所述说话人嵌入向量,经过包括降维、去均值和长度规整在内的预处理之后进行余弦打分或者PLDA打分。余弦打分中,将注册语音和测试语音的所述说话人嵌入向量经过预处理后,计算二者之间的余弦相似度。PLDA打分中,提取训练语音、注册语音和测试语音的所述说话人嵌入向量,利用训练语音的所述说话人嵌入向量经过预处理后训练PLDA模型,再将注册语音和测试语音的所述说话人嵌入向量经过预处理后,利用已训练好的PLDA模型进行后端PLDA打分。
图4示出了本发明的一个实施例的一种基于文本相关信息感知的说话人识别系统的框架图。该系统包括样本输入模块401、识别模型构建模块402。
在具体的实施例中,样本输入模块401被配置用于以语音样本作为输入样本,以语音样本的说话人标签(或说话人-文本标签)和文本相关信息分别作为说话人分类子网络和文本相关信息分类子网络的标签;
其中,所述文本相关信息具体包括音素信息和字符信息,且在所述系统中选择所述文本相关信息中的一种来进行基于文本相关信息感知的说话人识别;
识别模型构建模块402被配置用于构建共同网络层Me,所述输入样本输入所述共同网络层Me,在所述共同网络层Me之上构建帧级别文本相关信息分类子网络Mf、文本相关信息感知注意力池化模块、段级别文本相关信息分类子网络Ms和说话人分类子网络Mspk;
其中,所述共同网络层Me由K个深度神经网络层构成,或由K个深度神经网络层和K个SE模块交替组合而构成,其中2≤K≤5;
所述帧级别文本相关信息分类子网络Mf由两个全连接层构成;
所述文本相关信息感知注意力池化模块由一个点乘计算、Softmax函数归一化、缩放计算和一个统计池化层构成;
所述段级别文本相关信息分类子网络Ms由一个梯度反转层和两个全连接层构成;
所述说话人分类子网络Mspk由两个全连接层构成;
在所述共同网络层Me以上构建第K+1层深度神经网络层,所述文本相关信息感知注意力池化模块构建在所述第K+1层深度神经网络层以上,所述文本相关信息感知注意力池化模块的输出同时输入到所述段级别文本相关信息分类子网络Ms和所述说话人分类子网络Mspk;
其中,所述文本相关信息感知注意力池化模块将所述帧级别文本相关信息分类子网络Mf输出节点对应的后验概率和所述第K+1层深度神经网络层输出的帧级别的次级特征向量进行点乘并经过Softmax函数归一化和缩放操作得到帧级别的加权特征向量,对所述帧级别的加权特征向量进行统计池化处理得到段级别的特征向量;
所述前端模型利用文本相关信息,对所述前端模型的每个输入样本对应的角边距赋予不同的文本相关信息的权重值,从而对所述输入样本的说话人类别之间的间距进行调整,计算出文本相关信息感知动态损失函数。
本系统利用包含说话人分类、文本相关信息分类的子网络构建网络结构,其中文本相关信息分类子网络可以有效辅助说话人识别任务,音素信息从ASR模型中获取,而字符信息相对音素信息更容易获取,且不依赖于精准的ASR模型训练,能更直观准确地表示文本相关信息;提出的文本相关信息感知注意力池化,有效利用文本相关信息分类子网络的信息,对帧级别共享特征向量赋予不同的文本相关信息的权重值,区分不同特征向量对于系统识别能力的贡献度;提出文本相关信息感知动态角边距损失函数,有效利用文本相关信息分类子网络的信息,针对每个输入样本对应的角边距赋予不同的文本相关信息的权重值,压缩类内间距,加快损失函数收敛。以上系统可用于说话人识别系统的前端模型构建中,可充分利用文本相关信息,提高系统识别的准确率。
本发明的实施例还涉及一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时实施上文中的方法。该计算机程序包含用于执行流程图所示的方法的程序代码。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。
本发明利用文本相关信息辅助进行说话人识别,可以多任务同步训练说话人分类子网络、文本相关信息分类子网络;文本相关信息感知注意力池化模块利用帧级别文本相关信息分类子网络输出层的节点的后验概率赋予帧级别的共享特征向量以不同的权重;若输入的文本相关信息为字符信息,则文本相关信息分类子网络利用CTC算法计算损失函数,若输入的文本相关信息为音素信息,则文本相关信息分类子网络训练由ASR模型对齐得到的音素信息作为标签。说话人分类子网络利用说话人标签或者说话人-文本标签计算交叉熵损失函数。整个前端网络结合各分类子网络各自的损失函数构成整体的损失函数。以上方法利用包含说话人分类、文本相关信息分类的子网络构建网络结构,其中文本相关信息分类子网络可以有效辅助说话人识别任务,音素信息从ASR模型中获取,而字符信息相对音素信息更容易获取,且不依赖于精准的ASR模型训练,能更直观准确地表示文本相关信息;提出的文本相关信息分类注意力池化,有效利用帧级别文本相关信息分类子网络输出层的节点的后验概率,对帧级别共享特征向量赋予不同的文本相关信息的权重值,区分不同特征向量对于系统识别能力的贡献度;提出文本相关信息感知动态角边距损失函数,有效利用文本相关信息分类子网络的信息,针对每个输入样本对应的角边距赋予不同的文本相关信息的权重值,压缩类内间距,加快损失函数收敛。本发明可以有效利用文本相关信息辅助说话人识别任务,并从损失函数、时域注意力机制、信道相关的特征整合等多个方面进一步提升系统性能。在跨信道、跨语种、噪声干扰等多种情况下的生物智能识别、安防领域中,将本发明应用于这些领域的说话人识别系统的前端模型构建中,可充分利用文本相关信息,提高系统识别的准确率。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种基于文本相关信息感知的说话人识别方法,其特征在于,包括以下构建基于文本相关信息感知的说话人识别的前端模型的步骤:
A1:以语音样本作为输入样本,以语音样本的说话人标签或说话人-文本标签和文本相关信息分别作为说话人分类子网络和文本相关信息分类子网络的标签;
其中,所述文本相关信息具体包括音素信息和字符信息,且在所述方法中选择所述文本相关信息中的一种来进行基于文本相关信息感知的说话人识别;
A2:构建共同网络层Me,所述输入样本输入所述共同网络层Me,在所述共同网络层Me之上构建帧级别文本相关信息分类子网络Mf、文本相关信息感知注意力池化模块、段级别文本相关信息分类子网络Ms和说话人分类子网络Mspk;
其中,所述共同网络层Me由K个深度神经网络层构成,或由K个深度神经网络层和K个SE模块交替组合而构成,其中2≤K≤5;
所述帧级别文本相关信息分类子网络Mf由两个全连接层构成;
所述文本相关信息感知注意力池化模块由一个点乘计算、Softmax函数归一化、缩放计算和一个统计池化层构成;
所述段级别文本相关信息分类子网络Ms由一个梯度反转层和两个全连接层构成;
所述说话人分类子网络Mspk由两个全连接层构成;
在所述共同网络层Me以上构建第K+1层深度神经网络层,所述文本相关信息感知注意力池化模块构建在所述第K+1层深度神经网络层以上,所述文本相关信息感知注意力池化模块的输出同时输入到所述段级别文本相关信息分类子网络Ms和所述说话人分类子网络Mspk;
其中,所述文本相关信息感知注意力池化模块将所述帧级别文本相关信息分类子网络Mf输出节点对应的后验概率和所述第K+1层深度神经网络层输出的帧级别的次级特征向量进行点乘并经过Softmax函数归一化和缩放操作得到帧级别的加权特征向量,对所述帧级别的加权特征向量进行统计池化处理得到段级别的特征向量;
所述前端模型利用文本相关信息,对所述前端模型的每个输入样本对应的角边距赋予不同的文本相关信息的权重值,从而对所述输入样本的说话人类别之间的间距进行调整,计算出文本相关信息感知动态损失函数。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括利用所述前端模型进行基于文本相关信息感知的说话人识别的步骤:
S1:在网络训练阶段,提取语音样本的声学特征,同时提供所述语音样本的说话人标签或说话人-文本标签和文本相关信息分别作为说话人分类网络和文本相关信息分类网络的输出标签,将所述声学特征输入所述共同网络层Me,从而利用所述共同网络层Me对所述声学特征进行训练,得到帧级别的共享特征向量;
S2:在网络训练阶段,将所述帧级别的共享特征向量输入所述帧级别文本相关信息分类子网络Mf,根据帧级别文本相关信息的标签计算所述帧级别文本相关信息分类子网络Mf的损失函数Lf;
S3:在网络训练阶段,将所述帧级别的共享特征向量通过所述第K+1层深度神经网络层和所述文本相关信息感知注意力池化模块得到所述段级别的特征向量;
将所述段级别的特征向量输入所述说话人分类子网络Mspk,根据文本相关的说话人识别任务中训练样本对应的说话人-文本标签或文本无关的说话人识别任务中训练样本对应的说话人标签,计算所述说话人分类子网络Mspk的损失函数Lspk-text/spk;
同时将所述段级别的特征向量输入所述段级别文本相关信息分类子网络Ms,根据段级别文本相关信息的标签计算所述段级别文本相关信息分类子网络Ms的损失函数Ls;
S4:在说话人识别任务测试阶段,提取语音样本的声学特征,将所述声学特征输入所述共同网络层Me,从而利用所述共同网络层Me计算帧级别的共享特征向量;
同时将所述帧级别的共享特征向量通过所述帧级别文本相关信息分类子网络Mf、所述第K+1层深度神经网络层、所述文本相关信息感知注意力池化模块和一层全连接层得到所述说话人嵌入向量。
3.根据权利要求1所述的方法,其特征在于,根据所述前端模型Mspk、Mf、Ms各个网络输出节点的后验概率和对应标签,计算总的损失函数Ltotal:
Ltotal=Lspk-text/spk+αLf+βLs
其中,Lspk-text/spk、Lf、Ls分别表示Mspk、Mf、Ms的损失函数,α、β分别表示Lf、Ls的权重;
针对包含N个输入样本X1,X2,...,Xn,...,XN的输入样本集合X={X1,X2,...,Xn,...,XN},其中一个样本Xn={xn,1,xn,2,...,xn,t,...,xn,T}中xn,1,xn,2,...,xn,t,...,xn,T为T个语音长度为一帧的子输入样本,针对所述输入样本集合x,所述Lspk-text/spk的计算公式为:
其中,LPTDAM表示所述文本相关信息感知动态损失函数,Mspk(Me(X1)),Mspk(Me(X2)),...,Mspk(Me(Xn)),...Mspk(Me(XN))分别表示输入样本X1,X2,...,Xn,...,XN经过Me和Mspk网络的输出节点的后验概率,C表示所述输入样本集合x中输入样本的类别的总数,yn表示第n个输入样本Xn的类别对应的标签,表示yn类的权重向量与所述输入样本Xn的特征向量的夹角,γ表示常数超参量,mn表示所述输入样本Xn的余弦边距,mn的表达式如下:
其中,m表示基础边距值,pn表示所述输入样本Xn在Mf网络的输出节点的后验概率,KLD表示KL散度损失函数,λ表示边距控制因子。
4.根据权利要求3所述的方法,其特征在于,当选择音素信息作为所述文本相关信息时,所述Lf和所述Ls的表达式如下:
其中,CE表示交叉熵损失函数,Mf(Me(xn,t))表示子输入样本xn,t经过Me和Mf网络的输出节点的后验概率,Ms(Me(Xn))表示所述输入样本Xn经过Me和Ms网络的输出节点的后验概率,表示所述子输入样本xn,t的帧级别音素信息的标签,/>表示所述输入样本Xn的段级别音素信息的标签。
5.根据权利要求3所述的方法,其特征在于,当选择字符信息作为所述文本相关信息时,所述Lf和所述Ls的表达式如下:
其中,CTC表示连接时序分类损失函数,π=(π0,π1,...,πM-1)表示所述连接时序分类损失函数包含非空标签和空单元的所有M种重复情况,Mf(Me(xn,t))表示子输入样本xn,t经过Me和Mf网络的输出节点的后验概率,表示所述子输入样本xn,t的帧级别字符信息的标签,Ms(Me(Xn))表示所述输入样本Xn经过Me和Ms网络的输出节点的后验概率,/>表示所述输入样本Xn的段级别字符信息的标签。
6.根据权利要求2所述的方法,其特征在于,所述说话人嵌入向量被用于进行基于文本相关信息感知的说话人识别的后端打分,具体包括在已训练的所述前端模型中从所述说话人分类子网络Mspk的倒数第二层提取所述说话人嵌入向量,经过包括降维、去均值和长度规整在内的预处理之后进行余弦打分或者PLDA打分;在所述余弦打分中,根据权利要求2中S4所述的方法将注册语音和测试语音的所述说话人嵌入向量经过预处理后,计算二者之间的余弦相似度;在所述PLDA打分中,根据权利要求2中S4所述的方法提取训练语音、注册语音和测试语音的所述说话人嵌入向量,利用训练语音的所述说话人嵌入向量经过预处理后训练PLDA模型,再将注册语音和测试语音的所述说话人嵌入向量经过预处理后,利用已训练好的PLDA模型进行后端的所述PLDA打分。
7.根据权利要求1所述的方法,其特征在于,所述文本相关信息感知注意力池化模块的构建具体包括:
通过将所述第K+1层深度神经网络层输出的帧级别的次级特征向量与帧级别文本相关信息分类子网络Mf的输出节点的后验概率进行点乘再通过Softmax函数归一化和缩放操作得到帧级别的加权特征向量,计算帧级别的加权特征向量的均值和方差,得到段级别的特征向量,所述文本相关信息感知注意力池化模块的具体的计算公式为:
其中,p表示Mf输出节点的后验概率,表示所述第K+1层深度神经网络层输出的帧级别的次级特征向量,Pool表示统计池化操作计算向量的均值和方差,Softmax表示采用Softmax激活函数进行归一化,scale表示缩放因子,AttPool表示文本相关信息感知注意力池化。
8.根据权利要求1所述的方法,其特征在于,所述帧级别文本相关信息分类子网络Mf和所述段级别文本相关信息分类子网络Ms之间相互独立,并且,在进行基于文本相关信息感知的说话人识别的过程中,选择运行所述Mf或同时运行所述Mf和所述Ms。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被计算机处理器执行时实施权利要求1至8中任一项所述的方法。
10.一种基于文本相关信息感知的说话人识别系统,其特征在于,包括以下构建基于文本相关信息感知的说话人识别的前端模型的系统:
样本输入模块:配置用于以语音样本作为输入样本,以语音样本的说话人标签或说话人-文本标签和文本相关信息分别作为说话人分类子网络和文本相关信息分类子网络的标签;
其中,所述文本相关信息具体包括音素信息和字符信息,且在所述系统中选择所述文本相关信息中的一种来进行基于文本相关信息感知的说话人识别;
识别模型构建模块:配置用于构建共同网络层Me,所述输入样本输入所述共同网络层Me,在所述共同网络层Me之上构建帧级别文本相关信息分类子网络Mf、文本相关信息感知注意力池化模块、段级别文本相关信息分类子网络Ms和说话人分类子网络Mspk;
其中,所述共同网络层Me由K个深度神经网络层构成,或由K个深度神经网络层和K个SE模块交替组合而构成,其中2≤K≤5;
所述帧级别文本相关信息分类子网络Mf由两个全连接层构成;
所述文本相关信息感知注意力池化模块由一个点乘计算、Softmax函数归一化、缩放计算单元和一个统计池化层构成;
所述段级别文本相关信息分类子网络Ms由一个梯度反转层和两个全连接层构成;
所述说话人分类子网络Mspk由两个全连接层构成;
在所述共同网络层Me以上构建第K+1层深度神经网络层,所述文本相关信息感知注意力池化模块构建在所述第K+1层深度神经网络层以上,所述文本相关信息感知注意力池化模块的输出同时输入到所述段级别文本相关信息分类子网络Ms和所述说话人分类子网络Mspk;
其中,所述文本相关信息感知注意力池化模块将所述帧级别文本相关信息分类子网络Mf输出节点对应的后验概率和所述第K+1层深度神经网络层输出的帧级别的次级特征向量进行点乘并经过Softmax函数归一化和缩放操作得到帧级别的加权特征向量,对所述帧级别的加权特征向量进行统计池化处理得到段级别的特征向量;
所述前端模型利用文本相关信息,对所述前端模型的每个输入样本对应的角边距赋予不同的文本相关信息的权重值,从而对所述输入样本的说话人类别之间的间距进行调整,计算出文本相关信息感知动态损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110996082.XA CN113705671B (zh) | 2021-08-27 | 2021-08-27 | 一种基于文本相关信息感知的说话人识别方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110996082.XA CN113705671B (zh) | 2021-08-27 | 2021-08-27 | 一种基于文本相关信息感知的说话人识别方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113705671A CN113705671A (zh) | 2021-11-26 |
CN113705671B true CN113705671B (zh) | 2023-08-29 |
Family
ID=78656018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110996082.XA Active CN113705671B (zh) | 2021-08-27 | 2021-08-27 | 一种基于文本相关信息感知的说话人识别方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705671B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114267361A (zh) * | 2022-03-01 | 2022-04-01 | 江苏清微智能科技有限公司 | 一种高识别度的说话人识别系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104157290A (zh) * | 2014-08-19 | 2014-11-19 | 大连理工大学 | 一种基于深度学习的说话人识别方法 |
CN104732978A (zh) * | 2015-03-12 | 2015-06-24 | 上海交通大学 | 基于联合深度学习的文本相关的说话人识别方法 |
CN108564954A (zh) * | 2018-03-19 | 2018-09-21 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
CN111276131A (zh) * | 2020-01-22 | 2020-06-12 | 厦门大学 | 一种基于深度神经网络的多类声学特征整合方法和系统 |
CN111724794A (zh) * | 2020-06-17 | 2020-09-29 | 哈尔滨理工大学 | 一种说话人识别方法 |
CN112259104A (zh) * | 2020-10-10 | 2021-01-22 | 西南政法大学 | 一种声纹识别模型的训练装置 |
CN112259105A (zh) * | 2020-10-10 | 2021-01-22 | 西南政法大学 | 一种声纹识别模型的训练方法、存储介质和计算机设备 |
-
2021
- 2021-08-27 CN CN202110996082.XA patent/CN113705671B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104157290A (zh) * | 2014-08-19 | 2014-11-19 | 大连理工大学 | 一种基于深度学习的说话人识别方法 |
CN104732978A (zh) * | 2015-03-12 | 2015-06-24 | 上海交通大学 | 基于联合深度学习的文本相关的说话人识别方法 |
CN108564954A (zh) * | 2018-03-19 | 2018-09-21 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
CN111276131A (zh) * | 2020-01-22 | 2020-06-12 | 厦门大学 | 一种基于深度神经网络的多类声学特征整合方法和系统 |
CN111724794A (zh) * | 2020-06-17 | 2020-09-29 | 哈尔滨理工大学 | 一种说话人识别方法 |
CN112259104A (zh) * | 2020-10-10 | 2021-01-22 | 西南政法大学 | 一种声纹识别模型的训练装置 |
CN112259105A (zh) * | 2020-10-10 | 2021-01-22 | 西南政法大学 | 一种声纹识别模型的训练方法、存储介质和计算机设备 |
Non-Patent Citations (1)
Title |
---|
李稀敏 ; 洪青阳 ; 黄晓丹.基于分层结构的文本相关说话人识别算法.第十一届全国人机语音通讯学术会议.2011,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113705671A (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tirumala et al. | Speaker identification features extraction methods: A systematic review | |
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
JP7070894B2 (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
Carlin et al. | Rapid evaluation of speech representations for spoken term discovery | |
CN101645271B (zh) | 发音质量评估系统中的置信度快速求取方法 | |
Lei et al. | Dialect classification via text-independent training and testing for Arabic, Spanish, and Chinese | |
US11056100B2 (en) | Acoustic information based language modeling system and method | |
Woellmer et al. | Keyword spotting exploiting long short-term memory | |
CN101887725A (zh) | 一种基于音素混淆网络的音素后验概率计算方法 | |
CN102810311B (zh) | 说话人估计方法和说话人估计设备 | |
Aggarwal et al. | Integration of multiple acoustic and language models for improved Hindi speech recognition system | |
JP7420211B2 (ja) | 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム | |
Vegesna et al. | Dnn-hmm acoustic modeling for large vocabulary telugu speech recognition | |
CN113705671B (zh) | 一种基于文本相关信息感知的说话人识别方法与系统 | |
Farooq et al. | Mispronunciation detection in articulation points of Arabic letters using machine learning | |
Elbarougy | Speech emotion recognition based on voiced emotion unit | |
JP3444108B2 (ja) | 音声認識装置 | |
Becerra et al. | A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish | |
Laskar et al. | HiLAM-state discriminative multi-task deep neural network in dynamic time warping framework for text-dependent speaker verification | |
Nanmalar et al. | Literary and Colloquial Tamil dialect identification | |
Satla et al. | Dialect Identification in Telugu Language Speech Utterance Using Modified Features with Deep Neural Network. | |
Ahmad et al. | Client-wise cohort set selection by combining speaker-and phoneme-specific I-vectors for speaker verification | |
Laskar et al. | Filterbank Optimization for Text-Dependent Speaker Verification by Evolutionary Algorithm Using Spline-Defined Design Parameters | |
CN114420111B (zh) | 一种基于一维假设的语音向量距离计算方法 | |
Bala et al. | Bottleneck feature extraction in punjabi adult speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |