CN114360552A - 用于说话人识别的网络模型训练方法、装置及存储介质 - Google Patents
用于说话人识别的网络模型训练方法、装置及存储介质 Download PDFInfo
- Publication number
- CN114360552A CN114360552A CN202111495680.5A CN202111495680A CN114360552A CN 114360552 A CN114360552 A CN 114360552A CN 202111495680 A CN202111495680 A CN 202111495680A CN 114360552 A CN114360552 A CN 114360552A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- speaker
- model
- network model
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 17
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013215 result calculation Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及语音识别技术领域,具体是涉及用于说话人识别的网络模型训练方法、装置及存储介质。本发明首先将跨域的说话人样本数据集和音素样本数据集分别输入到一个多任务网络模型中,根据说话人分类子网和音素分类子网输出的结果,采用最大均值差异算法计算这两个结果之间的差异损失值,并作为总损失的一部分,通过增加了差异损失值的总损失不断去训练多任务网络模型,最终得到训练之后的模型,而训练之后的说话人子网模型对不同域的音素样本数据集具有较高的泛化能力,即训练之后的模型能够弱化跨域音素样本数据集与说话人样本数据集所具有的差异给网络模型识别说话人准确性所带来的影响。
Description
技术领域
本发明涉及语音识别技术领域,具体是涉及用于说话人识别的网络模型训练方法、装置及存储介质。
背景技术
说话人识别是验证输入话语(语音信号)是否属于特定说话人的任务。语音信号由说话人情感、口音(音素)和语言等多种内在成分组成。这些内在因素的不确定性,尤其是语音内容的不确定性,会影响系统的识别性能。因此,说话人嵌入的提取不能只考虑说话人标签。受说话人自适应技术在自动语音识别(ASR)中应用的启发,多任务学习(MTL)策略被提出来学习包含在多个相关任务中的语音信息,以帮助提高主任务(说话人识别)的泛化能力。近些年,对抗学习等策略被引入到多任务框架中,可以在语音信息使用方面发挥两者的优势。许多研究表明在帧级鼓励音素信息与段级抑制音素信息都是有效的。然而在许多实际情况下,获得同时具有说话人标签和音素标签的域内理想数据集是非常昂贵且不灵活的。而当在音素辨别子网(音素辨别子网用于辅助说话人网络模型对说话人进行分类训练)中引入跨域ASR数据集或跨语言ASR数据集时,这些方法通常不会为说话人辨别子网(说话人网络模型)提供更多有用的信息。尤其是进行小语种说话人识别时,生成新的人工转录音素标签会导致更长的训练时间。因此,由于用于识别说话人的音素感知网络模型不适用于来源不同的音素数据集和说话人数据集所带来的差异,即用于进行说话人分类训练的音素感知的网络模型的泛化能力较差。
综上所述,现有的用于进行说话人分类训练的音素感知网络模型的泛化能力较差。
因此,现有技术还有待改进和提高。
发明内容
为解决上述技术问题,本发明提供了用于说话人识别的网络模型训练方法、装置及存储介质,解决了现有的用于进行说话人分类训练的音素感知网络模型的泛化能力较差的问题。
为实现上述目的,本发明采用了以下技术方案:
第一方面,本发明提供一种用于说话人识别的网络模型训练方法,其中,包括:
将说话人样本数据集输入到多任务网络模型中,提取所述多任务网络模型中的说话人分类子网模型中设定层所输出的第一结果,所述说话人分类子网模型用于说话人分类训练;
将与所述说话人样本数据集所对应的跨域的音素样本数据集输入到所述多任务网络模型中,提取所述多任务网络中的音素分类子网模型中设定层所输出的第二结果,所述音素分类子网模型中的设定层与所述说话人分类子网模型中的设定层相对应,所述音素分类子网模型用于音素分类训练;
对所述第一结果和所述第二结果应用最大均值差异算法,得到所述第一结果和所述第二结果所对应的差异损失值;
依据添加了所述差异损失值的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。
在一种实现方式中,所述依据添加了所述差异损失值的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型,包括:
获取所述说话人样本数据集所对应的说话人样本身份标签;
依据所述说话人子网模型,得到训练的说话人嵌入模型;
依据所述说话人样本数据集和所述说话人嵌入模型,得到预测的说话人身份标签;
计算所述说话人样本身份标签和所述说话人身份标签之间的身份标签差异;
获取所述音素样本数据集所对应的音素样本标签;
依据所述音素样本数据集和所述音素分类子网模型,得到预测的所述音素标签;
计算所述音素样本标签和预测的所述音素标签之间的音素差异;
将所述身份标签差异、所述差异损失值、所述音素差异作为新的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。
在一种实现方式中,所述依据所述身份标签差异、所述差异损失值、所述音素差异,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型,包括:
将所述身份标签差异、所述差异损失值、所述音素差异进行加权计算,得到所述网络模型所对应的损失总值;
依据所述损失总值对所述网络模型进行训练,得到训练之后的所述网络模型。
在一种实现方式中,所述依据所述身份标签差异、所述差异损失值、所述音素差异,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型,包括:
依据所述音素分类子网模型,得到所述音素分类子网模型中的帧级音素分类子网络和段级音素分类子网络;
依据所述音素样本数据集和所述帧级音素分类子网络,得到预测的所述音素标签中的音素第一标签;
依据所述音素样本数据集和所述段级音素分类子网络,得到预测的所述音素标签中的音素第二标签;
计算所述音素差异中的所述音素样本标签和所述音素第一标签之间的音素第一差异;
计算所述音素差异中的所述音素样本标签和所述音素第二标签之间的音素第二差异;
依据所述身份标签差异、所述差异损失值、所述音素第一差异、所述音素第二差异,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。
在一种实现方式中,还包括:
获取所述说话人样本数据集所对应的说话人样本身份标签;
获取所述音素样本数据集所对应的音素样本标签;
依据所述说话人样本数据集和训练之后的所述说话人分类子网模型,得到预测的说话人身份标签;
依据所述音素样本数据集和训练之后的所述音素分类子网模型,得到所述音素标签;
将所述说话人样本身份标签相异于所述说话人身份标签所对应的说话人样本,记为说话人误分类样本;
对所述说话人样本数据集应用误分类向量指导损失函数,得到新的说话人的损失函数值;
依据新的说话人的所述损失函数值,更新训练之后的多任务网络总损失。
在一种实现方式中,所述音素分类子网模型为用于识别音素标签的音素神经网络模型,所述说话人分类子网模型为用于识别说话人身份的说话人神经网络模型,所述音素分类子网模型中的设定层为位于所述音素神经网络模型用于输出音素标签所在层的上一层,所述说话人分类子网模型中的设定层为位于所述说话人神经网络模型用于输出说话人身份标签所在层的上一层。
第二方面,本发明实施例还提供一种用于说话人识别的网络模型训练方法的装置,其中,所述装置包括如下组成部分:
第一结果计算模块,用于将说话人样本数据集输入到多任务网络模型中,提取所述多任务网络模型中的说话人分类子网模型中设定层所输出的第一结果,所述说话人分类子网模型用于说话人分类训练;
第二结果计算模块,用于将与所述说话人样本数据集所对应的跨域的音素样本数据集输入到所述多任务网络模型中,提取所述多任务网络中的音素分类子网模型中设定层所输出的第二结果,所述音素分类子网模型中的设定层与所述说话人分类子网模型中的设定层相对应,所述音素分类子网模型用于音素分类训练;
差异损失值计算模块,用于对所述第一结果和所述第二结果应用最大均值差异算法,得到所述第一结果和所述第二结果所对应的差异损失值;
模型训练模块,用于依据添加了所述差异损失值的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。
第三方面,本发明实施例还提供一种终端设备,其中,所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的用于说话人识别的网络模型训练程序,所述处理器执行所述用于说话人识别的网络模型训练程序时,实现上述所述的用于说话人识别的网络模型训练方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有用于说话人识别的网络模型训练程序,所述用于说话人识别的网络模型训练程序被处理器执行时,实现上述所述的用于说话人识别的网络模型训练方法的步骤。
有益效果:本发明首先将说话人样本数据集和音素样本数据集分别输入到多任务音素网络模型中,根据说话人分类子网模型和音素分类子网模型输出的结果,采用最大均值差异算法计算这两个结果之间的差异损失值,通过添加了的差异损失值的总损失不断去训练音素感知模型,最终得到训练之后的模型,而训练之后的音素感知模型对不同域的音素样本数据集具有较高的泛化能力,即训练之后的模型能够弱化不同域的音素样本数据集与说话人样本数据集所具有的差异给网络模型识别说话人准确性所带来的影响。
附图说明
图1为本发明的整体流程图;
图2为本发明的包括三个子模块的网络模型;
图3为本发明的包括四个子模块的网络模型;
图4为本发明实施例提供的终端设备的内部结构原理框图。
具体实施方式
以下结合实施例和说明书附图,对本发明中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
经研究发现,说话人识别是验证输入话语(语音信号)是否属于特定说话人的任务。语音信号由说话人情感、口音(音素)和语言等多种内在成分组成。这些内在因素的不确定性,尤其是语音内容的不确定性,会影响系统的识别性能。因此,说话人嵌入的提取不能只考虑说话人标签。受说话人自适应技术在自动语音识别(ASR)中应用的启发,多任务学习(MTL)策略被提出来学习包含在多个相关任务中的语音信息,以帮助提高主任务(说话人识别)的泛化能力。近些年,对抗学习等策略被引入到多任务框架中,可以在语音信息使用方面发挥两者的优势。许多研究表明在帧级鼓励音素信息与段级抑制音素信息都是有效的。然而在许多实际情况下,获得同时具有说话人标签和音素标签的理想数据集是非常昂贵且不灵活的。而当在音素辨别子网(音素辨别子网用于辅助说话人分类子网模型对说话人分类训练)中引入跨域ASR数据集或跨语言ASR数据集时,这些方法通常不会为说话人辨别子网(说话人子网模型)提供更多有用的信息。尤其是进行小语种说话人识别时,生成新的人工转录音素标签会导致更长的训练时间。因此,由于用于说话人分类训练的音素感知网络模型不适用于来源不同的音素数据集和说话人数据集所带来的差异,即用于进行说话人分类训练的音素感知网络模型的泛化能力较差。
为解决上述技术问题,本发明提供了用于说话人识别的网络模型训练方法、装置及存储介质,解决了现有的用于进行说话人分类训练的音素感知网络模型的泛化能力较差的问题。具体实施时,本发明首先将说话人样本数据集和音素样本数据集分别输入到多任务音素网络模型中,根据说话人分类子网模型和音素分类子网模型输出的结果,采用最大均值差异算法计算这两个结果之间的差异损失值,通过添加了差异损失值的总损失不断去训练音素感知模型,最终得到训练之后的模型。本发明能够提高训练之后的模型的泛化能力。
举例说明,说话人样本数据集来源于A域,音素样本数据集来源于B域。说话人样本数据集和音素样本数据集来源于不同的域(比如这两个数据集来源于不同的数据库,不同的数据库的数据分布是有差异的,或者数据编码方式也是有差异的),使得说话人样本数据集和音素样本数据集存在差异,而这种差异的存在会导致由说话人分类子网模型和音素分类子网模型所在的网络模型不能利用音素信息去提高说话人分类训练性能,而现有的网络模型不能适应于这种差异。本实施例为了使得网络模型能够适应于这种差异,采用最大均值差异算法计算两种子网模型所输出的结果所对应的差异损失值,依据添加了差异损失值的总损失去训练网络模型,使得训练之后的网络模型能够适应于来源于不同域的说话人样本数据集和音素样本数据集。
示例性方法
本实施例的一种用于说话人识别的网络模型训练方法可应用于终端设备中,所述终端设备可为具有计算的终端产品,比如电脑等。在本实施例中,如图1中所示,所述用于说话人识别的网络模型训练方法具体包括如下步骤:
S100,将说话人样本数据集输入到多任务网络模型中,提取所述多任务网络模型中的说话人分类子网模型中设定层所输出的第一结果,所述说话人分类子网模型用于说话人分类训练。
本实施例中,说话人分类子网模型为说话人嵌入模型,是一种神经网络模型Ms。神经网络模型Ms如图2所示,本实施例中Ms的设定层位于用于输出说话人标签所在层的上一层,本实施例中设定层为Ms中的第七层。
S200,将与所述说话人样本数据集所对应的跨域的音素样本数据集输入到所述多任务网络模型中,提取所述多任务网络中的音素分类子网模型中设定层所输出的第二结果,所述音素分类子网模型中的设定层与所述说话人分类子网模型中的设定层相对应,所述音素分类子网模型用于音素分类训练。
本实施例中,音素分类子网模型是一种神经网络模型Mp。神经网络模型Mp如图2所示,本实施中,Mp的设定层为位于用于输出音素标签所在层的上一层,本实施例的设定层为Mp的第七层。
S300,对所述第一结果和所述第二结果应用最大均值差异算法,得到所述第一结果和所述第二结果所对应的差异损失值。
本实施例,利用最大均值差异算法(MMD)计算差异损失值Lmmd的原理如下:
其中H表示特征空间即再生希尔伯特空间,φ(·)表示映射函数。因为高斯核函数可以映射无限维空间,引用高斯核函数来表示映射函数内积,其中σ是带宽参数,用于控制径向作用范围。将引入高斯核函数后的原公式拆开为:
S400,依据添加了所述差异损失值的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。
依据差异损失值Lmmd、身份标签差异Ls、音素差异Lp这三者共同训练网络模型。
本实施例依据这三者的加权和所对应的损失总值Ltotal(损失总值Ltotal即总损失)进行反向传播来训练网络模型。
Ltotal=Ls+α·Lp+β·Lmmd (3)
式中,α表示音素子网权重,β表示最大均值差异损失权重。
计算身份标签差异Ls时,包括如下步骤S401、S402、S403、S404:
S401,获取所述说话人样本数据集所对应的说话人样本身份标签。
S402,依据所述说话人子网模型,得到训练的说话人嵌入模型。
S403,依据所述说话人样本数据集和所述说话人嵌入模型,得到预测的说话人身份标签。
S404,计算所述说话人样本身份标签和预测的所述说话人身份标签之间的身份标签差异。
音素差异Lp时,包括如下步骤S405、S406、S407:
S405,获取所述音素样本数据集所对应的音素样本标签。
S406,依据所述音素样本数据集和所述音素分类子网模型,得到预测的所述音素标签。
S407,计算所述音素样本标签和预测的所述音素标签之间的音素差异。
下面介绍Ls和Lp的详细计算过程:
本实施例的网络模型除了包括说话人分类子网模型和音素分类子网模型,还包括共享帧级网络模块Mf,其中共享帧级网络模块Mf用于挖掘说话人信息与音素信息的共同特征。
Ls=CE(Ms(Mf(Xs)),ys) (4)
式中,CE代表交叉熵损失函数(Coss Entropy loss)。
为了提升整个网络模型的泛化能力,本实施例将音素分类子网模型划分为如图3所示的帧级音素分类子网络Mps和段级音素分类子网络Mpf,则公式(3)变换为公式(6):
Ltotal=Ls+α·Lpf+β·Lps+γ·Lmmd (6)
式中,α表示帧级音素子网权重,β表示段级音素子网权重,γ表示说话人子网与帧级音素子网的最大均值差异损失权重,Lpf为音素第二差异,Lps为音素第一差异,计算Lpf和Lps的具体过程包括:依据两个所述音素分类子网模型,得到所述音素分类子网模型中的帧级音素分类子网络Mps和段级音素分类子网络Mpf;依据所述音素样本数据集和所述帧级音素分类子网络,得到预测的所述音素标签中的音素第一标签;依据所述音素样本数据集和所述段级音素分类子网络,得到预测的所述音素标签中的音素第二标签;计算所述音素差异中的所述音素样本标签和所述音素第一标签之间的音素第一差异Lps;计算所述音素差异中的所述音素样本标签和所述音素第二标签之间的音素第二差异Lpf。
通过步骤S100、S200、S300、S400得到训练之后的网络模型,本实施例还对训练之后的网络模型进行更新,更新训练之后的网络模型包括如下步骤S501、S502、S503、S504、S505、S506、S507:
S501,获取所述说话人样本数据集所对应的说话人样本身份标签。
说话人样本身份标签就是预先给说话人设定的身份标签,本实施例中的身份标签可以类比说话人身份证号,因此本实施例中的身份标签是唯一的标签。
S502,获取所述音素样本数据集所对应的音素样本标签。
音素样本标签就是预先给音素设定的标签,本实施例的音素标签可以类比每个单词的音标。
S503,依据所述说话人样本数据集和训练之后的所述说话人分类子网模型,得到预测的说话人身份标签。
说话人身份标签就是训练之后的说话人分类子网模型根据说话人样本数据集而得到的标签。
S504,依据所述音素样本数据集和训练之后的所述音素分类子网模型,得到所述音素标签。
S505,将所述说话人样本身份标签相异于所述说话人身份标签所对应的说话人样本,记为说话人误分类样本。
如果一个说话人样本数据集所对应的说话人样本身份标签为A,但是在训练过程的说话人分类子网模型对说话人样本数据集进行识别后,得到预测的说话人身份标签为B,A和B不同,就将该说话人样本数据集记为说话人误分类样本。
S506,对所述说话人误分类样本应用误分类向量指导损失函数,得到损失函数值Lmv。
S507,依据新的说话人所述损失函数值,更新总损失,训练所述网络模型。
本实施例中,计算损失函数值Lmv的原理如下:
在说话人领域应用广泛的margin-based softmax存在两个问题:1)这些损失函数没有考虑训练中误分类带来的困难样本的重要性;2)类之间的间隔在训练中不能自适应改变。本实施例引入误分类向量指导的损失函数(mv-softmax),公式如下:
式中Ik的公式如下:
当Ik=1时,表示该样本当前是困难样本,我们会重点强调此错误分类向量:
其中t≥0,是一个超参,f(·)不同的margin-based softmax的距离公式,m表示设置的参数间隔margin,ωy为对应y类的权重,x为学习到的特征向量。在加入噪声和混响数据扩充后的数据集Voxceleb2上的实验表明,在说话人识别领域,同时重视误分类样本权重和间隔自适应的mv-softmax较am-softmax的EER降低了5.5%。
综上,本发明首先将说话人样本数据集和音素样本数据集分别输入到多任务音素感知网络模型中,根据说话人分类子网模型和音素分类子网模型输出的结果,采用最大均值差异算法计算这两个结果之间的差异损失值,通过添加了差异损失值总损失不断去训练音素感知模型,最终得到训练之后的模型,而训练之后的说话人分类子网模型对不同域的音素样本数据集具有较高的泛化能力,即训练之后的模型能够弱化跨域的音素样本数据集与说话人样本数据集所具有的差异给网络模型识别说话人准确性所带来的影响。
另外,本发明首次对音素感知网络应用最大均值差异(MMD)的差异最小化,提高说话人子网在不同域的音素信息情况下产生的说话人嵌入的泛化能力。最大均值差异(MMD)用于在再生希尔伯特空间中度量两个分布的距离。
误分类向量指导的损失函数mv-softmax首次将样本间隔损失(margin-basedsoftmax)和困难样本挖掘损失(mining-base softmax)的优点结合在一起,本发明首次将它应用到说话人识别网络中,能够充分利用训练阶段的误分类样本信息,并且使样本间的间隔能够在训练阶段自适应改变。
示例性装置
本实施例还提供一种用于说话人识别的网络模型训练方法的装置,所述装置包括如下组成部分:
第一结果计算模块,用于将说话人样本数据集输入到多任务网络模型中,提取所述多任务网络模型中的说话人分类子网模型中设定层所输出的第一结果,所述说话人分类子网模型用于说话人分类训练;
第二结果计算模块,用于将与所述说话人样本数据集所对应的跨域的音素样本数据集输入到所述多任务网络模型中,提取所述多任务网络中的音素分类子网模型中设定层所输出的第二结果,所述音素分类子网模型中的设定层与所述说话人分类子网模型中的设定层相对应,所述音素分类子网模型用于音素分类训练;
差异损失值计算模块,用于对所述第一结果和所述第二结果应用最大均值差异算法,得到所述第一结果和所述第二结果所对应的差异损失值;
模型训练模块,用于依据添加了所述差异损失值的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。
基于上述实施例,本发明还提供了一种终端设备,其原理框图可以如图4所示。该终端设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该终端设备的处理器用于提供计算和控制能力。该终端设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用于说话人识别的网络模型训练方法。该终端设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该终端设备的温度传感器是预先在终端设备内部设置,用于检测内部设备的运行温度。
本领域技术人员可以理解,图4中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端设备的限定,具体的终端设备以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种终端设备,终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的用于说话人识别的网络模型训练程序,处理器执行用于说话人识别的网络模型训练程序时,实现如下操作指令:
将说话人样本数据集输入到多任务网络模型中,提取所述多任务网络模型中的说话人分类子网模型中设定层所输出的第一结果,所述说话人分类子网模型用于说话人分类训练;
将与所述说话人样本数据集所对应的跨域的音素样本数据集输入到所述多任务网络模型中,提取所述多任务网络中的音素分类子网模型中设定层所输出的第二结果,所述音素分类子网模型中的设定层与所述说话人分类子网模型中的设定层相对应,所述音素分类子网模型用于音素分类训练;
对所述第一结果和所述第二结果应用最大均值差异算法,得到所述第一结果和所述第二结果所对应的差异损失值;
依据添加了所述差异损失值的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上,本发明公开了用于说话人识别的网络模型训练方法、装置及存储介质,所述方法包括:首先将说话人样本数据集和音素样本数据集分别输入到多任务音素网络模型中,根据说话人分类子网模型和音素分类子网模型输出的结果,采用最大均值差异算法计算这两个结果之间的差异损失值,通过添加了差异损失值的总损失不断去训练音素感知模型,最终得到训练之后的模型。本发明训练之后的说话人子网模型对跨域的音素样本数据集具有较高的泛化能力,即训练之后的模型能够弱化不同域的音素样本数据集与说话人样本数据集所具有的差异给网络模型识别说话人准确性所带来的影响。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种用于说话人识别的网络模型训练方法,其特征在于,包括:
将说话人样本数据集输入到多任务网络模型中,提取所述多任务网络模型中的说话人分类子网模型中设定层所输出的第一结果,所述说话人分类子网模型用于说话人分类训练;
将与所述说话人样本数据集所对应的跨域的音素样本数据集输入到所述多任务网络模型中,提取所述多任务网络中的音素分类子网模型中设定层所输出的第二结果,所述音素分类子网模型中的设定层与所述说话人分类子网模型中的设定层相对应,所述音素分类子网模型用于音素分类训练;
对所述第一结果和所述第二结果应用最大均值差异算法,得到所述第一结果和所述第二结果所对应的差异损失值;
依据添加了所述差异损失值的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。
2.如权利要求1所述的用于说话人识别的网络模型训练方法,其特征在于,所述依据添加了所述差异损失值的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型,包括:
获取所述说话人样本数据集所对应的说话人样本身份标签;
依据所述说话人子网模型,得到训练的说话人嵌入模型;
依据所述说话人样本数据集和所述说话人嵌入模型,得到预测的说话人身份标签;
计算所述说话人样本身份标签和预测的所述说话人身份标签之间的身份标签差异;
获取所述音素样本数据集所对应的音素样本标签;
依据所述音素样本数据集和所述音素分类子网模型,得到预测的所述音素标签;
计算所述音素样本标签和预测的所述音素标签之间的音素差异;
将所述身份标签差异、所述差异损失值、所述音素差异作为新的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。
3.如权利要求2所述的用于说话人识别的网络模型训练方法,其特征在于,所述依据所述身份标签差异、所述差异损失值、所述音素差异,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型,包括:
将所述身份标签差异、所述差异损失值、所述音素差异进行加权计算,得到所述网络模型所对应的损失总值;
依据所述损失总值对所述网络模型进行训练,得到训练之后的所述网络模型。
4.如权利要求2所述的用于说话人识别的网络模型训练方法,其特征在于,所述依据所述身份标签差异、所述差异损失值、所述音素差异,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型,包括:
依据两个所述音素分类子网模型,得到所述音素分类子网模型中的帧级音素分类子网络和段级音素分类子网络;
依据所述音素样本数据集和所述帧级音素分类子网络,得到预测的所述音素标签中的音素第一标签;
依据所述音素样本数据集和所述段级音素分类子网络,得到预测的所述音素标签中的音素第二标签;
计算所述音素差异中的所述音素样本标签和预测的所述音素第一标签之间的音素第一差异;
计算所述音素差异中的所述音素样本标签和预测的所述音素第二标签之间的音素第二差异;
依据所述身份标签差异、所述差异损失值、所述音素第一差异、所述音素第二差异,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。
5.如权利要求1所述的用于说话人识别的网络模型训练方法,其特征在于,还包括:
获取所述说话人样本数据集所对应的说话人样本身份标签;
获取所述音素样本数据集所对应的音素样本标签;
依据所述说话人样本数据集和训练之后的所述说话人分类子网模型,得到预测的说话人身份标签;
依据所述音素样本数据集和训练之后的所述音素分类子网模型,得到预测的所述音素标签;
将所述说话人样本身份标签相异于预测的所述说话人身份标签所对应的说话人样本,记为说话人误分类样本;
对所述说话人样本数据集应用误分类向量指导损失函数,得到新的说话人的损失函数值;
依据新的说话人的所述损失函数值,更新训练之后的多任务网络总损失。
6.如权利要求1所述的用于说话人识别的网络模型训练方法,其特征在于,所述音素分类子网模型为用于识别音素标签的音素神经网络模型,所述说话人分类子网模型为用于识别说话人身份的说话人神经网络模型,所述音素分类子网模型中的设定层为位于所述音素神经网络模型用于输出音素标签所在层的上一层,所述说话人分类子网模型中的设定层为位于所述说话人神经网络模型用于输出说话人身份标签所在层的上一层。
7.一种用于说话人识别的网络模型训练方法的装置,其特征在于,所述装置包括如下组成部分:
第一结果计算模块,用于将说话人样本数据集输入到多任务网络模型中,提取所述多任务网络模型中的说话人分类子网模型中设定层所输出的第一结果,所述说话人分类子网模型用于说话人分类训练;
第二结果计算模块,用于将与所述说话人样本数据集所对应的跨域的音素样本数据集输入到所述多任务网络模型中,提取所述多任务网络中的音素分类子网模型中设定层所输出的第二结果,所述音素分类子网模型中的设定层与所述说话人分类子网模型中的设定层相对应,所述音素分类子网模型用于音素分类训练;
差异损失值计算模块,用于对所述第一结果和所述第二结果应用最大均值差异算法,得到所述第一结果和所述第二结果所对应的差异损失值;
模型训练模块,用于依据添加了所述差异损失值的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。
8.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的用于说话人识别的网络模型训练程序,所述处理器执行所述用于说话人识别的网络模型训练程序时,实现如权利要求1-7任一项所述的用于说话人识别的网络模型训练方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有用于说话人识别的网络模型训练程序,所述用于说话人识别的网络模型训练程序被处理器执行时,实现如权利要求1-7任一项所述的用于说话人识别的网络模型训练方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111495680.5A CN114360552A (zh) | 2021-12-08 | 2021-12-08 | 用于说话人识别的网络模型训练方法、装置及存储介质 |
PCT/CN2022/105067 WO2023103375A1 (zh) | 2021-12-08 | 2022-07-12 | 用于说话人识别的网络模型训练方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111495680.5A CN114360552A (zh) | 2021-12-08 | 2021-12-08 | 用于说话人识别的网络模型训练方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114360552A true CN114360552A (zh) | 2022-04-15 |
Family
ID=81097457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111495680.5A Pending CN114360552A (zh) | 2021-12-08 | 2021-12-08 | 用于说话人识别的网络模型训练方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114360552A (zh) |
WO (1) | WO2023103375A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023103375A1 (zh) * | 2021-12-08 | 2023-06-15 | 深圳大学 | 用于说话人识别的网络模型训练方法、装置及存储介质 |
CN116386602A (zh) * | 2023-05-30 | 2023-07-04 | 中国科学院自动化研究所 | 特征提取模型的训练方法和融合发音特征的语音鉴别方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10008209B1 (en) * | 2015-09-25 | 2018-06-26 | Educational Testing Service | Computer-implemented systems and methods for speaker recognition using a neural network |
US10347241B1 (en) * | 2018-03-23 | 2019-07-09 | Microsoft Technology Licensing, Llc | Speaker-invariant training via adversarial learning |
CN111724794A (zh) * | 2020-06-17 | 2020-09-29 | 哈尔滨理工大学 | 一种说话人识别方法 |
CN112259104B (zh) * | 2020-10-10 | 2022-11-01 | 西南政法大学 | 一种声纹识别模型的训练装置 |
CN112259105B (zh) * | 2020-10-10 | 2022-09-20 | 西南政法大学 | 一种声纹识别模型的训练方法、存储介质和计算机设备 |
CN113555032B (zh) * | 2020-12-22 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 多说话人场景识别及网络训练方法、装置 |
CN114360552A (zh) * | 2021-12-08 | 2022-04-15 | 深圳大学 | 用于说话人识别的网络模型训练方法、装置及存储介质 |
-
2021
- 2021-12-08 CN CN202111495680.5A patent/CN114360552A/zh active Pending
-
2022
- 2022-07-12 WO PCT/CN2022/105067 patent/WO2023103375A1/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023103375A1 (zh) * | 2021-12-08 | 2023-06-15 | 深圳大学 | 用于说话人识别的网络模型训练方法、装置及存储介质 |
CN116386602A (zh) * | 2023-05-30 | 2023-07-04 | 中国科学院自动化研究所 | 特征提取模型的训练方法和融合发音特征的语音鉴别方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023103375A1 (zh) | 2023-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210287663A1 (en) | Method and apparatus with a personalized speech recognition model | |
CN109817246B (zh) | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 | |
Arik et al. | Neural voice cloning with a few samples | |
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
US20190378498A1 (en) | Processing audio waveforms | |
US10008209B1 (en) | Computer-implemented systems and methods for speaker recognition using a neural network | |
Mannepalli et al. | MFCC-GMM based accent recognition system for Telugu speech signals | |
WO2019204547A1 (en) | Systems and methods for automatic speech recognition using domain adaptation techniques | |
JP2019527852A (ja) | 音声認識処理方法及び装置 | |
US11631414B2 (en) | Speech recognition method and speech recognition apparatus | |
Sheikhan et al. | Using DTW neural–based MFCC warping to improve emotional speech recognition | |
CN110895935B (zh) | 语音识别方法、系统、设备和介质 | |
CN114360552A (zh) | 用于说话人识别的网络模型训练方法、装置及存储介质 | |
CN110796231B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN104765996A (zh) | 声纹密码认证方法及系统 | |
Yu et al. | Gaussian mixture models | |
US20220013105A1 (en) | Self-Training WaveNet for Text-to-Speech | |
Shrem et al. | Dr. VOT: Measuring positive and negative voice onset time in the wild | |
Li et al. | Multi-task learning of structured output layer bidirectional LSTMs for speech synthesis | |
CN112331207A (zh) | 服务内容监控方法、装置、电子设备和存储介质 | |
CN111599339A (zh) | 具有高自然度的语音拼接合成方法、系统、设备及介质 | |
CN112634870B (zh) | 关键词检测方法、装置、设备和存储介质 | |
You et al. | Teach an all-rounder with experts in different domains | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
CN118435274A (zh) | 预测用于端到端语音识别模型的设备上批处理的单词边界 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |