CN111429923A - 说话人信息提取模型的训练方法、装置和计算机设备 - Google Patents

说话人信息提取模型的训练方法、装置和计算机设备 Download PDF

Info

Publication number
CN111429923A
CN111429923A CN202010542435.4A CN202010542435A CN111429923A CN 111429923 A CN111429923 A CN 111429923A CN 202010542435 A CN202010542435 A CN 202010542435A CN 111429923 A CN111429923 A CN 111429923A
Authority
CN
China
Prior art keywords
network
extraction model
data
training
information extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010542435.4A
Other languages
English (en)
Other versions
CN111429923B (zh
Inventor
徐泓洋
太荣鹏
温平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youjie Zhixin Technology Co ltd
Original Assignee
Shenzhen Youjie Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Youjie Zhixin Technology Co ltd filed Critical Shenzhen Youjie Zhixin Technology Co ltd
Priority to CN202010542435.4A priority Critical patent/CN111429923B/zh
Publication of CN111429923A publication Critical patent/CN111429923A/zh
Application granted granted Critical
Publication of CN111429923B publication Critical patent/CN111429923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请涉及说话人信息提取模型的训练方法,包括:将语音合成系统与语音识别系统,通过说话人信息提取模型关联为训练体系;从音频处理结果中去除说话人信息提取模型提取语音数据对应的文本内容信息后的剩余数据信息,得到第一高维向量,获取文本处理网络处理第一数据对的文本数据输出的第二高维向量;训练音频处理网络、文本处理网络和说话人信息提取模型,至损失函数达最小值时训练收敛;将音频处理网络和音频恢复网络组合成处理音频的网络,将文本处理网络和文本恢复网络组合成处理文本的网络;训练处理音频的网络和说话人信息提取模型至收敛,以获取说话人信息提取模型的参量集合。提高说话人信息提取模型的泛化能力。

Description

说话人信息提取模型的训练方法、装置和计算机设备
技术领域
本申请涉及到声纹识别领域,特别是涉及到说话人信息提取模型的训练方法、装置和计算机设备。
背景技术
声纹识别,是一种提取能够唯一代表说话人身份信息的技术,分为文本相关和文本无关两种情况。文本相关是指说话人必须说指定内容的话才会被识别。文本无关的说话人识别是指不需要说特定内容,只要有说话声音就会识别。一般基于监督学习的方法来训练模型。此外还有开集和闭集之分,主要是针对模型的识别范围来说,开集是指声纹识别模型可识别的对象不限制在训练数据集内,而闭集是指声纹识别模型只能识别训练集中出现的人。实际应用中主要用的是以开集对应的应用场景为主,则需要构建一个泛化能力强的声纹提取模型,但依据现有技术,需要大量的带有说话人标签的数据,且每个说话人的音频数据都要有足够时长的声音,以通过增大数据集的数据量,提高声纹识别模型的泛化能力,数据集越大泛化能力越好,但这意味着超高的成本且计算量大超大,所以现有声纹识别网络的泛化能力不能较好地满足使用需求。
发明内容
本申请的主要目的为提供说话人信息提取模型的训练方法,旨在解决现有声纹识别网络的泛化能力不能较好地满足使用需求的技术问题。
本申请提供了说话人信息提取模型的训练方法,包括:
将语音合成系统与语音识别系统,通过所述说话人信息提取模型关联为训练体系,其中,所述语音合成系统包括依次连接的文本处理网络和音频恢复网络,所述语音识别系统包括依次连接的音频处理网络和文本恢复网络,所述说话人信息提取模型分别与所述音频恢复网络关联,以及与所述音频处理网络关联;
获取所述音频处理网络处理训练集中的第一数据对的语音数据得到的音频处理结果,获取所述说话人信息提取模型提取所述语音数据对应的文本内容信息后的剩余数据信息,获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量,其中,所述训练集由语音数据和文本数据形成的数据对组成,所述第一数据对为训练集中的任意数据对,所述剩余数据信息包括说话人的声纹信息;
从所述音频处理结果中去除所述剩余数据信息,得到第一高维向量;
通过损失函数在所述训练集上训练所述音频处理网络、所述文本处理网络和所述说话人信息提取模型,至所述损失函数达最小值时训练收敛,其中,所述损失函数为所述第一高维向量和第二高维向量的空间距离;
训练收敛后,固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合;
将所述音频处理网络和所述音频恢复网络组合成处理音频的网络,将所述文本处理网络和所述文本恢复网络组合成处理文本的网络;
在固定所述第一参量集合的状态下,通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型至收敛,以获取所述音频恢复网络对应的第三参量集合和所述说话人信息提取模型对应的第四参量集合;
将所述第四参量集合下的说话人信息提取模型,作为预训练的说话人信息提取模型。
优选地,所述音频恢复网络包括依次连接的第一全连接层和RNN-DECNN计算层,所述在固定所述第一参量集合的状态下,通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型至收敛,以获取所述音频恢复网络对应的第三参量集合和所述说话人信息提取模型对应的第四参量集合的步骤,包括:
将所述第一高维向量输入所述音频恢复网络的全连接层,得到第一计算结果;
将所述第一计算结果与所述剩余数据信息汇合,得到第二计算结果;
将所述第二计算结果输入所述音频恢复网络的RNN-DECNN计算层,得到述第一高维向量对应的恢复数据;
判断所述损失函数的值达到最小时,所述恢复数据是否与所述语音数据一致;
若是,则判定通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型已收敛;
固定训练收敛时,所述音频恢复网络对应的参数集合为第三参量集合,所述说话人信息提取模型对应的参数集合为第四参量集合。
优选地,所述说话人信息提取模型包括依次连接的可解释卷积滤波器、深度卷积层和第二全连接层,所述获取所述说话人信息提取模型提取所述语音数据对应的文本内容信息后的剩余数据信息的步骤,包括:
将所述语音数据输入所述可解释卷积滤波器,得到所述语音数据对应的特征矩阵;
将所述特征矩阵依次输入所述深度卷积层,从所述特征矩阵中提取所述语音数据对应的文本内容信息之外的说话人特征信息,其中,所述说话人特征信息包括声纹信息;
将所述说话人特征信息输入所述第二全连接层,得到所述说话人特征信息的向量;
将所述说话人特征信息的向量作为所述剩余数据信息。
优选地,所述通过损失函数在所述训练集上训练所述音频处理网络、所述文本处理网络和所述说话人信息提取模型,至所述损失函数达最小值时训练收敛的步骤,包括:
通过所述训练集中各数据对经由所述音频处理网络、所述文本处理网络和所述说话人信息提取模型运算后的结果,最小化所述损失函数;
判断所述损失函数的函数值的变化趋势是否不再继续下降;
若是,则判定所述损失函数达最小值,所述第一高维向量和第二高维向量在高维空间的对齐,判定所述音频处理网络、所述文本处理网络和所述说话人信息提取模型训练收敛。
优选地,将所述第四参量集合下的说话人信息提取模型,作为预训练的说话人信息提取模型的步骤之后,包括:
获取所述预训练的说话人信息提取模型,当前待执行任务的任务场景特征;
根据所述待执行任务的任务场景特征,选择与所述待执行任务的任务场景特征匹配的特定数据集;
通过在所述特定数据集上对所述预训练的说话人信息提取模型进行再训练至收敛,得到所述说话人信息提取模型调整后的参数集合;
通过调整参数集合后的所述说话人信息提取模型,执行所述待执行任务。
优选地,所述待执行任务包括拟合特定用户的声纹信息,所述通过调整参数集合后的所述说话人信息提取模型,执行所述待执行任务的步骤,包括:
获取当前用户的语音数据;
将所述当前用户的语音数据输入调整参数集合后的所述说话人信息提取模型,得到所述当前用户对应的声纹特征信息;
判断声纹信息数据库是否存在所述当前用户对应的声纹特征信息;
若是,则判定所述当前用户为预先识别的用户。
优选地,所述特定数据集为所述待执行任务的任务场景特征下形成的声纹标签数据集,所述通过在所述特定数据集上对所述预训练的说话人信息提取模型进行再训练至收敛,得到所述说话人信息提取模型调整后的参数集合的步骤,包括:
将所述声纹标签数据集输入所述预训练的说话人信息提取模型;
在指定损失函数的约束下,通过所述声纹标签数据集微调模型参数,至所述指定损失函数收敛;
保存微调收敛后,所述说话人信息提取模型的参数集合。
本申请还提供了一种说话人信息提取模型的训练装置,包括:
关联模块,用于将语音合成系统与语音识别系统,通过所述说话人信息提取模型关联为训练体系,其中,所述语音合成系统包括依次连接的文本处理网络和音频恢复网络,所述语音识别系统包括依次连接的音频处理网络和文本恢复网络,所述说话人信息提取模型分别与所述音频恢复网络关联,以及与所述音频处理网络关联;
第一获取模块,用于获取所述音频处理网络处理训练集中的第一数据对的语音数据得到的音频处理结果,获取所述说话人信息提取模型提取所述语音数据对应的文本内容信息后的剩余数据信息,获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量,其中,所述训练集由语音数据和文本数据形成的数据对组成,所述第一数据对为训练集中的任意数据对,所述剩余数据信息包括说话人的声纹信息;
去除模块,用于从所述音频处理结果中去除所述剩余数据信息,得到第一高维向量;
第一训练模块,用于通过损失函数在所述训练集上训练所述音频处理网络、所述文本处理网络和所述说话人信息提取模型,至所述损失函数达最小值时训练收敛,其中,所述损失函数为所述第一高维向量和第二高维向量的空间距离;
固定模块,用于训练收敛后,固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合;
组合模块,用于将所述音频处理网络和所述音频恢复网络组合成处理音频的网络,将所述文本处理网络和所述文本恢复网络组合成处理文本的网络;
第二训练模块,用于在固定所述第一参量集合的状态下,通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型至收敛,以获取所述音频恢复网络对应的第三参量集合和所述说话人信息提取模型对应的第四参量集合;
作为模块,用于将所述第四参量集合下的说话人信息提取模型,作为预训练的说话人信息提取模型。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过将语音合成系统与语音识别系统,通过说话人信息提取模型关联为训练体系,在同步训练语音合成系统与语音识别系统时,同时利用语音识别的数据,利用损失函数约束语音合成系统与语音识别系统时,同步无监督地训练说话人信息提取模型,不仅实现一个大的网络结构中同时实现语音识别和语音合成,且实现基于语音识别的丰富数据,无监督地训练说话人信息提取模型,相比于现有通过标签数据,自设定训练的损失函数训练说话人信息提取模型的训练方式,训练模型的泛化能力更强,无需受到数据集的局限以及损失函数的限制。
附图说明
图1本申请一实施例的说话人信息提取模型的训练方法流程示意图;
图2本申请一实施例的训练体系的关联结构示意图;
图3本申请一实施例的说话人信息提取模型的训练装置结构示意图;
图4本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的说话人信息提取模型的训练方法,包括:
S1:将语音合成系统与语音识别系统,通过所述说话人信息提取模型关联为训练体系,其中,所述语音合成系统包括依次连接的文本处理网络和音频恢复网络,所述语音识别系统包括依次连接的音频处理网络和文本恢复网络,所述说话人信息提取模型分别与所述音频恢复网络关联,以及与所述音频处理网络关联;
S2:获取所述音频处理网络处理训练集中的第一数据对的语音数据得到的音频处理结果,获取所述说话人信息提取模型提取所述语音数据对应的文本内容信息后的剩余数据信息,获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量,其中,所述训练集由语音数据和文本数据形成的数据对组成,所述第一数据对为训练集中的任意数据对,所述剩余数据信息包括说话人的声纹信息;
S3:从所述音频处理结果中去除所述剩余数据信息,得到第一高维向量;
S4:通过损失函数在所述训练集上训练所述音频处理网络、所述文本处理网络和所述说话人信息提取模型,至所述损失函数达最小值时训练收敛,其中,所述损失函数为所述第一高维向量和第二高维向量的空间距离;
S5:训练收敛后,固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合;
S6:将所述音频处理网络和所述音频恢复网络组合成处理音频的网络,将所述文本处理网络和所述文本恢复网络组合成处理文本的网络;
S7:在固定所述第一参量集合的状态下,通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型至收敛,以获取所述音频恢复网络对应的第三参量集合和所述说话人信息提取模型对应的第四参量集合;
S8:将所述第四参量集合下的说话人信息提取模型,作为预训练的说话人信息提取模型。
本申请的语音识别系统和语音合成系统,包括音频处理网络、音频恢复网络、文本处理网络和文本恢复网络,将音频处理网络将语音的声学特征数据投射到高维空间,音频恢复网络从高维空间恢复出声学特征数据,文本处理网络将文本特征数据投射到高维空间,文本恢复网络从高维空间恢复出文本特征数据,说话人信息提取模型作为说话人信息提取网络,即voiceprint_net,从音频声学特征数据中提取说话人身份信息。训练时分两个阶段进行,先通过标注的“语音-文本”数据对组成的训练集,训练音频处理网络和文本处理网络通过“语音-文本”的向量距离作为损失函数建立联络的预训练网络结构,使同一数据对的语音和文本在高维空间实现向量对齐。然后确定此时的音频处理网络和文本处理网络分别对应的参量集合,并在此参量集合的前提下,通过音频处理网络和音频恢复网络组成处理音频的网络,文本处理网络和文本恢复网络组合成处理文本的网络。本申请通过说话人信息提取模型关联为训练体系将上述两个系统的关联为一个训练系统进行训练,说话人信息提取模型参与上述向量对齐以及从对齐向量恢复到原输入数据的训练过程,并在训练过程中,通过两个高维向量的对齐关系,以及从对齐向量恢复为输入的语音数据的过程中,对齐向量与恢复的语音数据之间的对应关系作为训练约束,进行无监督训练。本申请的说话人信息提取模型的训练过程,与现有的通过标签数据集以及特定损失函数约束下训练的声纹识别网络有本质区别。本申请的说话人信息提取模型的训练无需专门的数据集,更无需标签数据集,且无需专门训练说话人信息提取模型的特定损失函数。本申请在关联的语音合成系统和语音识别系统的整体训练过程中,同时利用语音识别的数据,利用损失函数约束语音合成系统与语音识别系统时,同步无监督地训练说话人信息提取模型,不仅实现一个大的网络结构中同时实现语音识别和语音合成,且实现基于语音识别的丰富数据,无监督地训练说话人信息提取模型,相比于现有通过标签数据,自设定训练的损失函数训练说话人信息提取模型的训练方式,训练模型的泛化能力更强,无需受到数据集的局限以及损失函数的限制,而且通过本申请的训练说话人信息提取模型所提取到的信息,并不局限于声纹信息,而是满足两个高维向量的对齐关系,以及从对齐向量恢复为输入的语音数据的过程中,对齐向量与恢复的语音数据之间的对应关系的人物身份信息,上述人物身份信息包括除文本内容信息之外的所有信息,信息范围大于或等于声纹信息。
语音识别过程是多对一的数据对应关系,即不管什么样的人说的同样内容的话,都唯一对应固定的文本内容信息,所以语音识别是不需要关注说话人身份信息的。语音合成如果不对数据进行特定限制,则是一对多的数据对应关系,即一个字符发音固定,但是实际表现形式可以有很多种,如果不确定模仿得特定用户对象,那么合成的声音就非常奇怪,所以语音合成时需要关注说话人的身份信息,才会更有实际应用价值。在语音识别时需要去掉说话人的身份信息,在语音合成的时候需要加上说话人的身份信息,那么将上述两个系统关联起来一起训练,则信息流的公式如下:
Faudio_net(audio_feature)-extra_net(audio_feature)=Ftxt_net(txt_feature)(1);
Ftxt_net(txt_feature)+Fextra_net(audio_feature)=Faudio_net(audio_feature)(2)。
上述公式(1)和(2)中的audio_net表示处理音频的网络,txt_net表示处理文本的网络,extra_net表示说话人信息提取模型。因为本申请训练说话人信息提取模型直接目的不是识别说话人,而是要精准提取除语音对应的文本内容信息之外的其它信息,所以用“extra”来表示,关联形成的训练体系的关联结构示意图如图2所示。公式(1)表示audio_net提取语音的原始信息,减去extra_net从语音数据中除语音对应的文本内容信息之外的其它信息后,不影响对最终识别语音对应的文本内容,这部分信息即为上述的剩余数据信息;公式(2)表示txt_jnet提取文本的信息,加上extra_net从语音数据中提取的除语音对应的文本内容信息之外的其它信息后,就可以合成某个说话人的语音。本申请语音数据中所包含的信息,一部分是语音对应的文本内容信息,另一部分是带有很强的说话人特色的说话人身份信息,包括但不限于声纹信息。语音识别中减去由extra_net提取的剩余数据信息后不影响对语音的文本内容信息的识别,而加上这部分剩余数据信息,又可以很好的合成说话人的语音时,extra_net所提取的信剩余数据信息就可以认为是说话人的身份信息。
上述处理音频的网络和处理文本的网络也同在“语音-文本”的向量距离作为损失函数下进行训练,因为损失函数相同,可同步进行训练,以分别确定音频恢复网络和文本恢复网络的参量集合。上述的音频处理网络、音频恢复网络、文本处理网络和文本恢复网络,均已训练好后,可将训练好的音频处理网络和文本恢复网络依次组合,形成语音识别系统的声学预训练模型,将文本处理网络和音频恢复网络,依次组合连接得到语音合成系统的声学预训练模型,实现一个大的网络结构中同时实现语音识别和语音合成,节约网络构建成本。
本申请的训练体系的训练过程中,使用的是“由己推己”的解码思路,为实现上述“由己推己”的解码思路下共存的语音识别系统和语音合成系统,为每一部分的功能网络设计了网络结构。上述功能网络包括“音频处理网络”、“文本处理网络”、“音频恢复网络”和“文本恢复网络”,每个部分的功能网络采用C-RNN的结构实现数据处理。训练输入的数据是经过前端模块处理后的“音频-文本”数据对,本申请不对前端模块作任何限定,根据实际需要进行选择和匹配,能获得满足训练需求的数据对即可。
本申请在训练处理音频的网络和处理文本的网络时,由于音频处理网络和文本处理网络的参数集合固定,本阶段的训练主要是调整音频恢复网络和文本恢复网络的参量集合。处理文本的网络,其输入、输出都为文本数据;处理音频的网络,其输入、输出都为语音数据,损失函数依然均是“语音-文本”的向量距离作为损失函数,说话人信息提取模型同时参与此恢复过程的训练,同时调整说话人信息提取模型的参数集合,使说话人信息提取模型同时满足从语音数据到高维向量,以及从高维向量恢复至语音数据的需求。由于处理文本的网络和处理音频的网络,其损失函数一致,故两个网络可同步训练,以节约训练时间成本,训练收敛后即获得音频恢复网络和文本恢复网络的参量集合。
本申请的网络训练过程中,使用的是“由已推已”的训练思路,预训练形成的双向对齐模型,双向推导出对偶任务语音识别和语音合成中的原始数据,建立执行对偶任务语音识别和语音合成的网络模型系统,节省了语音识别和语音合成的网络模型系统的构建和训练成本,模型训练效果也得到提升。预训练可基于大量的训练数据得到参数集合,但预训练的训练数据与实际任务的训练数据相似但不要求完全一致。上述音频处理网络和文本处理网络通过“语音-文本”的向量距离作为损失函数建立联络的预训练网络结构,即为双向对齐模型。通过将对偶任务的双向输入数据在高维空间进行向量对齐,确定双向输入数据在双向对齐模型的关联在一起的存在状态。本申请编码器输出的高维向量为一种中间状态向量,实现输入数据投射到高维空间的过程,然后由恢复网络从高维空间上恢复出输入数据,实现“由己推己”的解码思路,节省模型构建与模型训练成本。本申请将成对偶关系的两个任务各自的中间状态向量在高维空间上进行对齐,即输入数据投射到高维空间上的同一个向量或相似的两个向量,然后通过上述的同一个向量或相似的两个向量,搭建起两种输入数据之间的关联关系。再分别基于中间状态向量构建逆向的恢复网络,包括音频恢复网络和文本恢复网络,以实现双向的推导,将传统的“由彼推己”的解码思路换成“由己推己”的解码思路,对执行对偶任务的网络模型系统的训练效果更好,对于数据量不足的部分预测效果也会得到改善。
因为传统的“由彼推己”的解码思路中,是强制建立数据之间的关系,需要数据量必须大,对于数据量不足的部分,其解码效果往往很有限;即使数据量足够,由于是强制建立的对应关系,中间会有信息不匹配和信息丢失的情况,解码效果本身就存在上限。而且单向模型只实现单个方向的映射关系,构建单向Sequence-2-Sequence模型,网络复杂且参数的数量大,训练需要的训练集的数据量也大。比如在机器翻译中,需要大量的双语对照训练数据,在构建中英互转模型时,首先用数据训练一个中文到英文的模型,然后再训练一个英文到中文的模型,训练数据可以复用,但是需要训练两个模型。但一个任务的数据无法直接在对偶任务中使用时,几乎要花同等的代价去构建其对偶的模型。比如语音识别和语音合成。由于训练数据的不通用,需要收集两套训练数据来分别训练语音识别模型和语音合成模型,成本更高。即便将两个对偶的网络模型联合起来用一套训练数据同时训练,比如通过合并成对偶关系的两个任务的损失函数,添加对偶约束条件,将两个网络联合起来训练,但也只对数据类型通用的对偶任务有效,且训练时消耗的资源更多,训练速度也较慢,耗时长,效果也不佳。
进一步地,所述音频恢复网络包括依次连接的第一全连接层和RNN-DECNN计算层,所述在固定所述第一参量集合的状态下,通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型至收敛,以获取所述音频恢复网络对应的第三参量集合和所述说话人信息提取模型对应的第四参量集合的步骤S7,包括:
S71:将所述第一高维向量输入所述音频恢复网络的全连接层,得到第一计算结果;
S72:将所述第一计算结果与所述剩余数据信息汇合,得到第二计算结果;
S73:将所述第二计算结果输入所述音频恢复网络的RNN-DECNN计算层,得到述第一高维向量对应的恢复数据;
S74:判断所述损失函数的值达到最小时,所述恢复数据是否与所述语音数据一致;
S75:若是,则判定通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型已收敛;
S76:固定训练收敛时,所述音频恢复网络对应的参数集合为第三参量集合,所述说话人信息提取模型对应的参数集合为第四参量集合。
本申请的对齐向量,即高维空间的特征向量,经全连接层处理后,再与剩余数据信息汇合,形成音频恢复网络的输入数据。本申请音频恢复网络时是以向量对齐过程中固定了参数集合的音频处理网络组成处理音频的网络audio net一起训练的。训练体系的输入数据为“语音-文本”数据对,首先从语音数据中提取声学特征,包括但不限于频谱特征、FBank特征或者MFCC特征等,将语音数据转化为特征矩阵,得到声学特征矩阵audio_feature。在音频处理网络的输入端输入声学特征矩阵,经过音频处理网络的CNN-RNN的网络计算,然后从计算结果中再减去说话人信息提取模型extra_net提取的语音数据对应的文本内容信息之外的剩余数据信息,经由全连接层输出代表“中间状态”的高维特征向量Vector_1;与语音数据成对的文本数据,经提取文本特征包括但不限于文本分词、向量化等转化为特征矩阵,然后输入处理文本的网络txt_net,经过文本处理网络的CNN-RNN的网络计算,经由全连接层输出代表“中间状态”的高维特征向量Vector_2;本阶段训练目标是将audio net减去extra_net后的信息输出,即高维空间向量Vector_1,与txt_net的信息输出,即高维空间向量Vector_2,在高维空间上对齐,对齐训练的是音频处理网络、文本处理网络和extra_net的参数,损失函数是两个高维空间向量的距离值,即Error=Distance(Vector_1,Vector_2),训练过程即是在数据集上更新上述音频处理网络、文本处理网络和extra_net的参数,来最小化这个距离。audio_net和txt_net也包含了恢复网络,分别对应为音频恢复网络和文本恢复网络,第一训练阶段完成高维空间相互对齐后,结合extra_net再继续训练上述恢复网络,收敛后得到音频恢复网络、文本恢复网络和extra_net的参数,此时的extra_net即为训练好的说话人信息提取模型。
进一步地,所述说话人信息提取模型包括依次连接的可解释卷积滤波器、深度卷积层和第二全连接层,所述获取所述说话人信息提取模型提取所述语音数据对应的文本内容信息后的剩余数据信息的步骤S2,包括:
S21:将所述语音数据输入所述可解释卷积滤波器,得到所述语音数据对应的特征矩阵;
S22:将所述特征矩阵依次输入所述深度卷积层,从所述特征矩阵中提取所述语音数据对应的文本内容信息之外的说话人特征信息,其中,所述说话人特征信息包括声纹信息;
S23:将所述说话人特征信息输入所述第二全连接层,得到所述说话人特征信息的向量;
S24:将所述说话人特征信息的向量作为所述剩余数据信息。
本申请无监督方式训练的说话人信息提取模型,训练数据使用的是数据丰富的语音识别数据集,而非常规训练使用的标签数据集;训练时无特定的损失函数约束说话人信息提取模型,而是基于整个训练体系的在训练关系中的数据变化关系进行约束,上述数据变化关系包括语音识别系统和语音合成系统关联训练时,语音数据和文本数据对对应的两个高维向量的对齐关系,以及从对齐向量恢复为输入的语音数据的过程中,对齐向量与恢复的语音数据之间的对应关系。基于本申请得到的说话人信息提取模型,可以提取更为丰富的说话人信息,有效改善现有在预测标签正确与否的特定损失函数约束下,通过标签数据训练的局限性,包括对标签数据集的依赖性。本申请的说话人信息提取模型的网络结构,优选依次连接的可解释卷积滤波器、深度卷积层和第二全连接层组成的网络结构,如下所示:Sinc_conv-cnn-cnn-fc,其中,Sinc_conv表示可解释卷积滤波器,输入语音数据的原始波形数据,输出为语音数据的特征矩阵,然后通过深度卷积层cnn-cnn实现深层次的、语音数据对应的文本内容信息之外的剩余数据信息,全连接层fc输出代表说话人身份的说话人身份信息,包括但不限于声纹信息对应的向量。本申请其他实施例中,说话人信息提取模型的网络结构可用RNN/CNN等网络层构建。
进一步地,所述通过损失函数在所述训练集上训练所述音频处理网络、所述文本处理网络和所述说话人信息提取模型,至所述损失函数达最小值时训练收敛的步骤S4,包括:
S41:通过所述训练集中各数据对经由所述音频处理网络、所述文本处理网络和所述说话人信息提取模型运算后的结果,最小化所述损失函数;
S42:判断所述损失函数的函数值的变化趋势是否不再继续下降;
S43:若是,则判定所述损失函数达最小值,所述第一高维向量和第二高维向量在高维空间的对齐,判定所述音频处理网络、所述文本处理网络和所述说话人信息提取模型训练收敛。
本申请训练音频处理网络和文本处理网络组成的网络结构的阶段中,输入数据为标注的“语音-文本”数据对。音频处理网络输入语音数据对应的特征矩阵或特征序列,文本处理网络输入文本数据对应的特征矩阵或特征序列,音频处理网络联合说话人信息提取模型,处理语音数据对应的特征矩阵或特征序列,输出“中间状态”Vector1;文本处理网络处理文本数据对应的特征矩阵或特征序列,输出“中间状态”Vector2,训练过程的损失函数为Vector1和Vector2的距离MSE。通过训练时在训练集上逐步最小化距离MSE,损失函数的函数值不再继续下降,指稳定于趋近于零的某一较小值,使音频处理网络、文本处理网络和说话人信息提取模型训练收敛,即有:audio_net(audio_feature)≈txt_net(txt_feature),其中,audio_net为处理音频的网络,txt_net为处理文本的网络,两者输出一致或近似相等时,则认为上述两个高维向量在高维空间实现对齐。然后固定音频处理网络和文本处理网络的参量集合,以固定映射中的关联关系,确保可从“中间状态”的对齐向量恢复至原始数据,即语音数据和文本数据的特征矩阵或特征序列。
进一步地,将所述第四参量集合下的说话人信息提取模型,作为预训练的说话人信息提取模型的步骤S8之后,包括:
S81:获取所述预训练的说话人信息提取模型,当前待执行任务的任务场景特征;
S82:根据所述待执行任务的任务场景特征,选择与所述待执行任务的任务场景特征匹配的特定数据集;
S83:通过在所述特定数据集上对所述预训练的说话人信息提取模型进行再训练至收敛,得到所述说话人信息提取模型调整后的参数集合;
S84:通过调整参数集合后的所述说话人信息提取模型,执行所述待执行任务。
本申请实施例中,把extra_net作为特征提取器,连接其他的神经网络层,再用特定数据集继续训练进行参数微调,以获取特定场景任务的说话人信息提取模型。本申请微调前的extra_net,通过无监督训练的方式得到,且使用的是语音识别的数据集,不需要特意的去收集和构造说话人的数据,也不需要特定的对说话人的身份标签进行标注,数据集的数据量要比监督学习的数据量多很多,数据集的信息更加丰富,且不受人声数据不均衡问题的影响。上述无监督训练的目标不在于识别说话人身份,而是提取更多的说话人信息,所以不需要强制建立语音信息到说话人身份的映射关系,提取的说话人信息的损失会小很多,可提取除语音数据对应的文本内容信息之外的所有数据。本申请的extra_net与一般的声纹提取网络相比,本申请的extra_net网络提取的信息远多于现有声纹提取模型提取的声纹信息,因为本申请的extra_net与语音合成系统和语音识别系统联合训练,提取的说话人身份信息要更加丰富,相比于直接用监督学习方法得到的模型,在本申请通过与语音合成系统和语音识别系统联合训练得到的extra_net基础之上,进行fine-tune或者把extra_net作为特征提取器来构造的声纹识别模型具有更强的泛化能力。
上述fine_tune指微调extra_net,使得extra_net更适合执行具体应用场景的任务。微调时,可通过较少得数据量实现,相比于预训练过程,训练集的数据特征更集中,数据集的数量也要远小于预训练数据。本申请基于预训练的extra_net,使用少量具体应用场景的数据进行fine-tune,即可获得执行该具体应用场景的extra_net,极大地节约了模型训练的成本,且提高了训练模型的执行效果。
进一步地,所述待执行任务包括拟合特定用户的声纹信息,所述通过调整参数集合后的所述说话人信息提取模型,执行所述待执行任务的步骤S84,包括:
S841:获取当前用户的语音数据;
S842:将所述当前用户的语音数据输入调整参数集合后的所述说话人信息提取模型,得到所述当前用户对应的声纹特征信息;
S843:判断声纹信息数据库是否存在所述当前用户对应的声纹特征信息;
S844:若是,则判定所述当前用户为预先识别的用户。
本申请的说话人信息提取模型用于对某特定用户进行识别时,需要先录几段改特定用户的说话声音,以通过声纹提取网络提取其声音对应的特定身份信息,包括声纹特征信息,以便在再次识别时比对该特定身份信息即可识别特定用户。本申请的声纹特征信息可通过关联的声纹信息数据库获取。上述声纹信息数据库,通过分别采集多个指定用户发出的多句语音信息,并从多句语音信息中提取出多个指定用户声纹信息组成。将指定用户的声纹信息,根据指定用户身份信息和对应的声纹信息关联编码后,存储于声纹信息数据库。
进一步地,所述特定数据集为所述待执行任务的任务场景特征下形成的声纹标签数据集,所述通过在所述特定数据集上对所述预训练的说话人信息提取模型进行再训练至收敛,得到所述说话人信息提取模型调整后的参数集合的步骤S83,包括:
S831:将所述声纹标签数据集输入所述预训练的说话人信息提取模型;
S832:在指定损失函数的约束下,通过所述声纹标签数据集微调模型参数,至所述指定损失函数收敛;
S833:保存微调收敛后,所述说话人信息提取模型的参数集合。
本申请中训练好的extra_net在实际使用过程中,为提高extra_net在特定任务场景下的使用效果,可在本申请训练好的extra_net基础上做fine-tune。需要指出的是基于本申请训练好的extra_net的fine-tune过程,或者把extra_net作为特征提取器来构造新任务模型,使用的都是监督学习方法,即需要用带身份标签的数据,监督学习中用到的指定损失函数可以是分类模型常用的损失函数,也可根据实际任务需要,构造特殊的损失函数。
参照图3,本申请一实施例的说话人信息提取模型的训练装置,包括:
关联模块1,用于将语音合成系统与语音识别系统,通过所述说话人信息提取模型关联为训练体系,其中,所述语音合成系统包括依次连接的文本处理网络和音频恢复网络,所述语音识别系统包括依次连接的音频处理网络和文本恢复网络,所述说话人信息提取模型分别与所述音频恢复网络关联,以及与所述音频处理网络关联;
第一获取模块2,用于获取所述音频处理网络处理训练集中的第一数据对的语音数据得到的音频处理结果,获取所述说话人信息提取模型提取所述语音数据对应的文本内容信息后的剩余数据信息,获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量,其中,所述训练集由语音数据和文本数据形成的数据对组成,所述第一数据对为训练集中的任意数据对,所述剩余数据信息包括说话人的声纹信息;
去除模块3,用于从所述音频处理结果中去除所述剩余数据信息,得到第一高维向量;
第一训练模块4,用于通过损失函数在所述训练集上训练所述音频处理网络、所述文本处理网络和所述说话人信息提取模型,至所述损失函数达最小值时训练收敛,其中,所述损失函数为所述第一高维向量和第二高维向量的空间距离;
固定模块5,用于训练收敛后,固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合;
组合模块6,用于将所述音频处理网络和所述音频恢复网络组合成处理音频的网络,将所述文本处理网络和所述文本恢复网络组合成处理文本的网络;
第二训练模块7,用于在固定所述第一参量集合的状态下,通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型至收敛,以获取所述音频恢复网络对应的第三参量集合和所述说话人信息提取模型对应的第四参量集合;
作为模块8,用于将所述第四参量集合下的说话人信息提取模型,作为预训练的说话人信息提取模型。
本申请的语音识别系统和语音合成系统,包括音频处理网络、音频恢复网络、文本处理网络和文本恢复网络,将音频处理网络将语音的声学特征数据投射到高维空间,音频恢复网络从高维空间恢复出声学特征数据,文本处理网络将文本特征数据投射到高维空间,文本恢复网络从高维空间恢复出文本特征数据,说话人信息提取模型作为说话人信息提取网络,即voiceprint_net,从音频声学特征数据中提取说话人身份信息。训练时分两个阶段进行,先通过标注的“语音-文本”数据对组成的训练集,训练音频处理网络和文本处理网络通过“语音-文本”的向量距离作为损失函数建立联络的预训练网络结构,使同一数据对的语音和文本在高维空间实现向量对齐。然后确定此时的音频处理网络和文本处理网络分别对应的参量集合,并在此参量集合的前提下,通过音频处理网络和音频恢复网络组成处理音频的网络,文本处理网络和文本恢复网络组合成处理文本的网络。本申请通过说话人信息提取模型关联为训练体系将上述两个系统的关联为一个训练系统进行训练,说话人信息提取模型参与上述向量对齐以及从对齐向量恢复到原输入数据的训练过程,并在训练过程中,通过两个高维向量的对齐关系,以及从对齐向量恢复为输入的语音数据的过程中,对齐向量与恢复的语音数据之间的对应关系作为训练约束,进行无监督训练。本申请的说话人信息提取模型的训练过程,与现有的通过标签数据集以及特定损失函数约束下训练的声纹识别网络有本质区别。本申请的说话人信息提取模型的训练无需专门的数据集,更无需标签数据集,且无需专门训练说话人信息提取模型的特定损失函数。本申请在关联的语音合成系统和语音识别系统的整体训练过程中,同时利用语音识别的数据,利用损失函数约束语音合成系统与语音识别系统时,同步无监督地训练说话人信息提取模型,不仅实现一个大的网络结构中同时实现语音识别和语音合成,且实现基于语音识别的丰富数据,无监督地训练说话人信息提取模型,相比于现有通过标签数据,自设定训练的损失函数训练说话人信息提取模型的训练方式,训练模型的泛化能力更强,无需受到数据集的局限以及损失函数的限制,而且通过本申请的训练说话人信息提取模型所提取到的信息,并不局限于声纹信息,而是满足两个高维向量的对齐关系,以及从对齐向量恢复为输入的语音数据的过程中,对齐向量与恢复的语音数据之间的对应关系的人物身份信息,上述人物身份信息包括除文本内容信息之外的所有信息,信息范围大于或等于声纹信息。
语音识别过程是多对一的数据对应关系,即不管什么样的人说的同样内容的话,都唯一对应固定的文本内容信息,所以语音识别是不需要关注说话人身份信息的。语音合成如果不对数据进行特定限制,则是一对多的数据对应关系,即一个字符发音固定,但是实际表现形式可以有很多种,如果不确定模仿得特定用户对象,那么合成的声音就非常奇怪,所以语音合成时需要关注说话人的身份信息,才会更有实际应用价值。在语音识别时需要去掉说话人的身份信息,在语音合成的时候需要加上说话人的身份信息,那么将上述两个系统关联起来一起训练,则信息流的公式如下:
Faudio_net(audio_feature)-Fextra_net(audio_feature)=Ftxt_net(txt_feature)(1);Ftxt_net(txt_feature)+Fextra_net(audio_feature)=Faudio_net(audio_feature)(2)。
上述公式(1)和(2)中的audio_net表示处理音频的网络,txt_net表示处理文本的网络,extra_net表示说话人信息提取模型。因为本申请训练说话人信息提取模型直接目的不是识别说话人,而是要精准提取除语音对应的文本内容信息之外的其它信息,所以用“extra”来表示,关联形成的训练体系的关联结构示意图如图2所示。公式(1)表示audio_net提取语音的原始信息,减去extra_net从语音数据中除语音对应的文本内容信息之外的其它信息后,不影响对最终识别语音对应的文本内容,这部分信息即为上述的剩余数据信息;公式(2)表示txt_jnet提取文本的信息,加上extra_net从语音数据中提取的除语音对应的文本内容信息之外的其它信息后,就可以合成某个说话人的语音。本申请语音数据中所包含的信息,一部分是语音对应的文本内容信息,另一部分是带有很强的说话人特色的说话人身份信息,包括但不限于声纹信息。语音识别中减去由extra_net提取的剩余数据信息后不影响对语音的文本内容信息的识别,而加上这部分剩余数据信息,又可以很好的合成说话人的语音时,extra_net所提取的信剩余数据信息就可以认为是说话人的身份信息。
上述处理音频的网络和处理文本的网络也同在“语音-文本”的向量距离作为损失函数下进行训练,因为损失函数相同,可同步进行训练,以分别确定音频恢复网络和文本恢复网络的参量集合。上述的音频处理网络、音频恢复网络、文本处理网络和文本恢复网络,均已训练好后,可将训练好的音频处理网络和文本恢复网络依次组合,形成语音识别系统的声学预训练模型,将文本处理网络和音频恢复网络,依次组合连接得到语音合成系统的声学预训练模型,实现一个大的网络结构中同时实现语音识别和语音合成,节约网络构建成本。
本申请的训练体系的训练过程中,使用的是“由己推己”的解码思路,为实现上述“由己推己”的解码思路下共存的语音识别系统和语音合成系统,为每一部分的功能网络设计了网络结构。上述功能网络包括“音频处理网络”、“文本处理网络”、“音频恢复网络”和“文本恢复网络”,每个部分的功能网络采用C-RNN的结构实现数据处理。训练输入的数据是经过前端模块处理后的“音频-文本”数据对,本申请不对前端模块作任何限定,根据实际需要进行选择和匹配,能获得满足训练需求的数据对即可。
本申请在训练处理音频的网络和处理文本的网络时,由于音频处理网络和文本处理网络的参数集合固定,本阶段的训练主要是调整音频恢复网络和文本恢复网络的参量集合。处理文本的网络,其输入、输出都为文本数据;处理音频的网络,其输入、输出都为语音数据,损失函数依然均是“语音-文本”的向量距离作为损失函数,说话人信息提取模型同时参与此恢复过程的训练,同时调整说话人信息提取模型的参数集合,使说话人信息提取模型同时满足从语音数据到高维向量,以及从高维向量恢复至语音数据的需求。由于处理文本的网络和处理音频的网络,其损失函数一致,故两个网络可同步训练,以节约训练时间成本,训练收敛后即获得音频恢复网络和文本恢复网络的参量集合。
本申请的网络训练过程中,使用的是“由已推已”的训练思路,预训练形成的双向对齐模型,双向推导出对偶任务语音识别和语音合成中的原始数据,建立执行对偶任务语音识别和语音合成的网络模型系统,节省了语音识别和语音合成的网络模型系统的构建和训练成本,模型训练效果也得到提升。预训练可基于大量的训练数据得到参数集合,但预训练的训练数据与实际任务的训练数据相似但不要求完全一致。上述音频处理网络和文本处理网络通过“语音-文本”的向量距离作为损失函数建立联络的预训练网络结构,即为双向对齐模型。通过将对偶任务的双向输入数据在高维空间进行向量对齐,确定双向输入数据在双向对齐模型的关联在一起的存在状态。本申请编码器输出的高维向量为一种中间状态向量,实现输入数据投射到高维空间的过程,然后由恢复网络从高维空间上恢复出输入数据,实现“由己推己”的解码思路,节省模型构建与模型训练成本。本申请将成对偶关系的两个任务各自的中间状态向量在高维空间上进行对齐,即输入数据投射到高维空间上的同一个向量或相似的两个向量,然后通过上述的同一个向量或相似的两个向量,搭建起两种输入数据之间的关联关系。再分别基于中间状态向量构建逆向的恢复网络,包括音频恢复网络和文本恢复网络,以实现双向的推导,将传统的“由彼推己”的解码思路换成“由己推己”的解码思路,对执行对偶任务的网络模型系统的训练效果更好,对于数据量不足的部分预测效果也会得到改善。
因为传统的“由彼推己”的解码思路中,是强制建立数据之间的关系,需要数据量必须大,对于数据量不足的部分,其解码效果往往很有限;即使数据量足够,由于是强制建立的对应关系,中间会有信息不匹配和信息丢失的情况,解码效果本身就存在上限。而且单向模型只实现单个方向的映射关系,构建单向Sequence-2-Sequence模型,网络复杂且参数的数量大,训练需要的训练集的数据量也大。比如在机器翻译中,需要大量的双语对照训练数据,在构建中英互转模型时,首先用数据训练一个中文到英文的模型,然后再训练一个英文到中文的模型,训练数据可以复用,但是需要训练两个模型。但一个任务的数据无法直接在对偶任务中使用时,几乎要花同等的代价去构建其对偶的模型。比如语音识别和语音合成。由于训练数据的不通用,需要收集两套训练数据来分别训练语音识别模型和语音合成模型,成本更高。即便将两个对偶的网络模型联合起来用一套训练数据同时训练,比如通过合并成对偶关系的两个任务的损失函数,添加对偶约束条件,将两个网络联合起来训练,但也只对数据类型通用的对偶任务有效,且训练时消耗的资源更多,训练速度也较慢,耗时长,效果也不佳。
进一步地,所述音频恢复网络包括依次连接的第一全连接层和RNN-DECNN计算层,所述第二训练模块7,包括:
第一输入单元,用于将所述第一高维向量输入所述音频恢复网络的全连接层,得到第一计算结果;
汇合单元,用于将所述第一计算结果与所述剩余数据信息汇合,得到第二计算结果;
第二输入单元,用于将所述第二计算结果输入所述音频恢复网络的RNN-DECNN计算层,得到述第一高维向量对应的恢复数据;
第一判断单元,用于判断所述损失函数的值达到最小时,所述恢复数据是否与所述语音数据一致;
第一判定单元,用于若所述恢复数据与所述语音数据一致,则判定通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型已收敛;
固定单元,用于固定训练收敛时,所述音频恢复网络对应的参数集合为第三参量集合,所述说话人信息提取模型对应的参数集合为第四参量集合。
本申请的对齐向量,即高维空间的特征向量,经全连接层处理后,再与剩余数据信息汇合,形成音频恢复网络的输入数据。本申请音频恢复网络时是以向量对齐过程中固定了参数集合的音频处理网络组成处理音频的网络audio net一起训练的。训练体系的输入数据为“语音-文本”数据对,首先从语音数据中提取声学特征,包括但不限于频谱特征、FBank特征或者MFCC特征等,将语音数据转化为特征矩阵,得到声学特征矩阵audio_feature。在音频处理网络的输入端输入声学特征矩阵,经过音频处理网络的CNN-RNN的网络计算,然后从计算结果中再减去说话人信息提取模型extra_net提取的语音数据对应的文本内容信息之外的剩余数据信息,经由全连接层输出代表“中间状态”的高维特征向量Vector_1;与语音数据成对的文本数据,经提取文本特征包括但不限于文本分词、向量化等转化为特征矩阵,然后输入处理文本的网络txt_net,经过文本处理网络的CNN-RNN的网络计算,经由全连接层输出代表“中间状态”的高维特征向量Vector_2;本阶段训练目标是将audio net减去extra_net后的信息输出,即高维空间向量Vector_1,与txt_net的信息输出,即高维空间向量Vector_2,在高维空间上对齐,对齐训练的是音频处理网络、文本处理网络和extra_net的参数,损失函数是两个高维空间向量的距离值,即Error=Distance(Vector_1,Vector_2),训练过程即是在数据集上更新上述音频处理网络、文本处理网络和extra_net的参数,来最小化这个距离。audio_net和txt_net也包含了恢复网络,分别对应为音频恢复网络和文本恢复网络,第一训练阶段完成高维空间相互对齐后,结合extra_net再继续训练上述恢复网络,收敛后得到音频恢复网络、文本恢复网络和extra_net的参数,此时的extra_net即为训练好的说话人信息提取模型。
进一步地,所述说话人信息提取模型包括依次连接的可解释卷积滤波器、深度卷积层和第二全连接层,所述第一获取模块2,包括:
第三输入单元,用于将所述语音数据输入所述可解释卷积滤波器,得到所述语音数据对应的特征矩阵;
提取单元,用于将所述特征矩阵依次输入所述深度卷积层,从所述特征矩阵中提取所述语音数据对应的文本内容信息之外的说话人特征信息,其中,所述说话人特征信息包括声纹信息;
第四输入单元,用于将所述说话人特征信息输入所述第二全连接层,得到所述说话人特征信息的向量;
作为单元,用于将所述说话人特征信息的向量作为所述剩余数据信息。
本申请无监督方式训练的说话人信息提取模型,训练数据使用的是数据丰富的语音识别数据集,而非常规训练使用的标签数据集;训练时无特定的损失函数约束说话人信息提取模型,而是基于整个训练体系的在训练关系中的数据变化关系进行约束,上述数据变化关系包括语音识别系统和语音合成系统关联训练时,语音数据和文本数据对对应的两个高维向量的对齐关系,以及从对齐向量恢复为输入的语音数据的过程中,对齐向量与恢复的语音数据之间的对应关系。基于本申请得到的说话人信息提取模型,可以提取更为丰富的说话人信息,有效改善现有在预测标签正确与否的特定损失函数约束下,通过标签数据训练的局限性,包括对标签数据集的依赖性。本申请的说话人信息提取模型的网络结构,优选依次连接的可解释卷积滤波器、深度卷积层和第二全连接层组成的网络结构,如下所示:Sinc_conv-cnn-cnn-fc,其中,Sinc_conv表示可解释卷积滤波器,输入语音数据的原始波形数据,输出为语音数据的特征矩阵,然后通过深度卷积层cnn-cnn实现深层次的、语音数据对应的文本内容信息之外的剩余数据信息,全连接层fc输出代表说话人身份的说话人身份信息,包括但不限于声纹信息对应的向量。本申请其他实施例中,说话人信息提取模型的网络结构可用RNN/CNN等网络层构建。
进一步地,第一训练模块4,包括:
最小化单元,用于通过所述训练集中各数据对经由所述音频处理网络、所述文本处理网络和所述说话人信息提取模型运算后的结果,最小化所述损失函数;
第二判断单元,用于判断所述损失函数的函数值的变化趋势是否不再继续下降;
第二判定单元,用于若不再继续下降,则判定所述损失函数达最小值,所述第一高维向量和第二高维向量在高维空间的对齐,判定所述音频处理网络、所述文本处理网络和所述说话人信息提取模型训练收敛。
本申请训练音频处理网络和文本处理网络组成的网络结构的阶段中,输入数据为标注的“语音-文本”数据对。音频处理网络输入语音数据对应的特征矩阵或特征序列,文本处理网络输入文本数据对应的特征矩阵或特征序列,音频处理网络联合说话人信息提取模型,处理语音数据对应的特征矩阵或特征序列,输出“中间状态”Vector1;文本处理网络处理文本数据对应的特征矩阵或特征序列,输出“中间状态”Vector2,训练过程的损失函数为Vector1和Vector2的距离MSE。通过训练时在训练集上逐步最小化距离MSE,损失函数的函数值不再继续下降,指稳定于趋近于零的某一较小值,使音频处理网络、文本处理网络和说话人信息提取模型训练收敛,即有:audio_net(audio_feature) ≈ txt_net(txt_feature),其中,audio_net为处理音频的网络,txt_net为处理文本的网络,两者输出一致或近似相等时,则认为上述两个高维向量在高维空间实现对齐。然后固定音频处理网络和文本处理网络的参量集合,以固定映射中的关联关系,确保可从“中间状态”的对齐向量恢复至原始数据,即语音数据和文本数据的特征矩阵或特征序列。
进一步地,说话人信息提取模型的训练装置,包括:
第二获取模块,用于获取所述预训练的说话人信息提取模型,当前待执行任务的任务场景特征;
选择模块,用于根据所述待执行任务的任务场景特征,选择与所述待执行任务的任务场景特征匹配的特定数据集;
再训练模块,用于通过在所述特定数据集上对所述预训练的说话人信息提取模型进行再训练至收敛,得到所述说话人信息提取模型调整后的参数集合;
执行模块,用于通过调整参数集合后的所述说话人信息提取模型,执行所述待执行任务。
本申请实施例中,把extra_net作为特征提取器,连接其他的神经网络层,再用特定数据集继续训练进行参数微调,以获取特定场景任务的说话人信息提取模型。本申请微调前的extra_net,通过无监督训练的方式得到,且使用的是语音识别的数据集,不需要特意的去收集和构造说话人的数据,也不需要特定的对说话人的身份标签进行标注,数据集的数据量要比监督学习的数据量多很多,数据集的信息更加丰富,且不受人声数据不均衡问题的影响。上述无监督训练的目标不在于识别说话人身份,而是提取更多的说话人信息,所以不需要强制建立语音信息到说话人身份的映射关系,提取的说话人信息的损失会小很多,可提取除语音数据对应的文本内容信息之外的所有数据。本申请的extra_net与一般的声纹提取网络相比,本申请的extra_net网络提取的信息远多于现有声纹提取模型提取的声纹信息,因为本申请的extra_net与语音合成系统和语音识别系统联合训练,提取的说话人身份信息要更加丰富,相比于直接用监督学习方法得到的模型,在本申请通过与语音合成系统和语音识别系统联合训练得到的extra_net基础之上,进行fine-tune或者把extra_net作为特征提取器来构造的声纹识别模型具有更强的泛化能力。
上述fine_tune指微调extra_net,使得extra_net更适合执行具体应用场景的任务。微调时,可通过较少得数据量实现,相比于预训练过程,训练集的数据特征更集中,数据集的数量也要远小于预训练数据。本申请基于预训练的extra_net,使用少量具体应用场景的数据进行fine-tune,即可获得执行该具体应用场景的extra_net,极大地节约了模型训练的成本,且提高了训练模型的执行效果。
进一步地,所述待执行任务包括拟合特定用户的声纹信息,执行模块,包括:
获取单元,用于获取当前用户的语音数据;
得到单元,用于将所述当前用户的语音数据输入调整参数集合后的所述说话人信息提取模型,得到所述当前用户对应的声纹特征信息;
第三判断单元,用于判断声纹信息数据库是否存在所述当前用户对应的声纹特征信息;
第三判定单元,用于若存在所述当前用户对应的声纹特征信息,则判定所述当前用户为预先识别的用户。
本申请的说话人信息提取模型用于对某特定用户进行识别时,需要先录几段改特定用户的说话声音,以通过声纹提取网络提取其声音对应的特定身份信息,包括声纹特征信息,以便在再次识别时比对该特定身份信息即可识别特定用户。本申请的声纹特征信息可通过关联的声纹信息数据库获取。上述声纹信息数据库,通过分别采集多个指定用户发出的多句语音信息,并从多句语音信息中提取出多个指定用户声纹信息组成。将指定用户的声纹信息,根据指定用户身份信息和对应的声纹信息关联编码后,存储于声纹信息数据库。
进一步地,所述特定数据集为所述待执行任务的任务场景特征下形成的声纹标签数据集,再训练模块,包括:
第五输入单元,用于将所述声纹标签数据集输入所述预训练的说话人信息提取模型;
微调单元,用于在指定损失函数的约束下,通过所述声纹标签数据集微调模型参数,至所述指定损失函数收敛;
保存单元,用于保存微调收敛后,所述说话人信息提取模型的参数集合。
本申请中训练好的extra_net在实际使用过程中,为提高extra_net在特定任务场景下的使用效果,可在本申请训练好的extra_net基础上做fine-tune。需要指出的是基于本申请训练好的extra_net的fine-tune过程,或者把extra_net作为特征提取器来构造新任务模型,使用的都是监督学习方法,即需要用带身份标签的数据,监督学习中用到的指定损失函数可以是分类模型常用的损失函数,也可根据实际任务需要,构造特殊的损失函数。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储说话人信息提取模型的训练过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现说话人信息提取模型的训练方法。
上述处理器执行上述说话人信息提取模型的训练方法,包括:将语音合成系统与语音识别系统,通过所述说话人信息提取模型关联为训练体系,其中,所述语音合成系统包括依次连接的文本处理网络和音频恢复网络,所述语音识别系统包括依次连接的音频处理网络和文本恢复网络,所述说话人信息提取模型分别与所述音频恢复网络关联,以及与所述音频处理网络关联;获取所述音频处理网络处理训练集中的第一数据对的语音数据得到的音频处理结果,获取所述说话人信息提取模型提取所述语音数据对应的文本内容信息后的剩余数据信息,获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量,其中,所述训练集由语音数据和文本数据形成的数据对组成,所述第一数据对为训练集中的任意数据对,所述剩余数据信息包括说话人的声纹信息;从所述音频处理结果中去除所述剩余数据信息,得到第一高维向量;通过损失函数在所述训练集上训练所述音频处理网络、所述文本处理网络和所述说话人信息提取模型,至所述损失函数达最小值时训练收敛,其中,所述损失函数为所述第一高维向量和第二高维向量的空间距离;训练收敛后,固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合;将所述音频处理网络和所述音频恢复网络组合成处理音频的网络,将所述文本处理网络和所述文本恢复网络组合成处理文本的网络;在固定所述第一参量集合的状态下,通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型至收敛,以获取所述音频恢复网络对应的第三参量集合和所述说话人信息提取模型对应的第四参量集合;将所述第四参量集合下的说话人信息提取模型,作为预训练的说话人信息提取模型。
上述计算机设备,通过将语音合成系统与语音识别系统,通过说话人信息提取模型关联为训练体系,在同步训练语音合成系统与语音识别系统时,同时利用语音识别的数据,利用损失函数约束语音合成系统与语音识别系统时,同步无监督地训练说话人信息提取模型,不仅实现一个大的网络结构中同时实现语音识别和语音合成,且实现基于语音识别的丰富数据,无监督地训练说话人信息提取模型,相比于现有通过标签数据,自设定训练的损失函数训练说话人信息提取模型的训练方式,训练模型的泛化能力更强,无需受到数据集的局限以及损失函数的限制。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现说话人信息提取模型的训练方法,包括:将语音合成系统与语音识别系统,通过所述说话人信息提取模型关联为训练体系,其中,所述语音合成系统包括依次连接的文本处理网络和音频恢复网络,所述语音识别系统包括依次连接的音频处理网络和文本恢复网络,所述说话人信息提取模型分别与所述音频恢复网络关联,以及与所述音频处理网络关联;获取所述音频处理网络处理训练集中的第一数据对的语音数据得到的音频处理结果,获取所述说话人信息提取模型提取所述语音数据对应的文本内容信息后的剩余数据信息,获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量,其中,所述训练集由语音数据和文本数据形成的数据对组成,所述第一数据对为训练集中的任意数据对,所述剩余数据信息包括说话人的声纹信息;从所述音频处理结果中去除所述剩余数据信息,得到第一高维向量;通过损失函数在所述训练集上训练所述音频处理网络、所述文本处理网络和所述说话人信息提取模型,至所述损失函数达最小值时训练收敛,其中,所述损失函数为所述第一高维向量和第二高维向量的空间距离;训练收敛后,固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合;将所述音频处理网络和所述音频恢复网络组合成处理音频的网络,将所述文本处理网络和所述文本恢复网络组合成处理文本的网络;在固定所述第一参量集合的状态下,通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型至收敛,以获取所述音频恢复网络对应的第三参量集合和所述说话人信息提取模型对应的第四参量集合;将所述第四参量集合下的说话人信息提取模型,作为预训练的说话人信息提取模型。
上述计算机可读存储介质,通过将语音合成系统与语音识别系统,通过说话人信息提取模型关联为训练体系,在同步训练语音合成系统与语音识别系统时,同时利用语音识别的数据,利用损失函数约束语音合成系统与语音识别系统时,同步无监督地训练说话人信息提取模型,不仅实现一个大的网络结构中同时实现语音识别和语音合成,且实现基于语音识别的丰富数据,无监督地训练说话人信息提取模型,相比于现有通过标签数据,自设定训练的损失函数训练说话人信息提取模型的训练方式,训练模型的泛化能力更强,无需受到数据集的局限以及损失函数的限制。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种说话人信息提取模型的训练方法,其特征在于,包括:
将语音合成系统与语音识别系统,通过所述说话人信息提取模型关联为训练体系,其中,所述语音合成系统包括依次连接的文本处理网络和音频恢复网络,所述语音识别系统包括依次连接的音频处理网络和文本恢复网络,所述说话人信息提取模型分别与所述音频恢复网络关联,以及与所述音频处理网络关联;
获取所述音频处理网络处理训练集中的第一数据对的语音数据得到的音频处理结果,获取所述说话人信息提取模型提取所述语音数据对应的文本内容信息后的剩余数据信息,获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量,其中,所述训练集由语音数据和文本数据形成的数据对组成,所述第一数据对为训练集中的任意数据对,所述剩余数据信息包括说话人的声纹信息;
从所述音频处理结果中去除所述剩余数据信息,得到第一高维向量;
通过损失函数在所述训练集上训练所述音频处理网络、所述文本处理网络和所述说话人信息提取模型,至所述损失函数达最小值时训练收敛,其中,所述损失函数为所述第一高维向量和第二高维向量的空间距离;
训练收敛后,固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合;
将所述音频处理网络和所述音频恢复网络组合成处理音频的网络,将所述文本处理网络和所述文本恢复网络组合成处理文本的网络;
在固定所述第一参量集合的状态下,通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型至收敛,以获取所述音频恢复网络对应的第三参量集合和所述说话人信息提取模型对应的第四参量集合;
将所述第四参量集合下的说话人信息提取模型,作为预训练的说话人信息提取模型。
2.根据权利要求1所述的说话人信息提取模型的训练方法,其特征在于,所述音频恢复网络包括依次连接的第一全连接层和RNN-DECNN计算层,所述在固定所述第一参量集合的状态下,通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型至收敛,以获取所述音频恢复网络对应的第三参量集合和所述说话人信息提取模型对应的第四参量集合的步骤,包括:
将所述第一高维向量输入所述音频恢复网络的全连接层,得到第一计算结果;
将所述第一计算结果与所述剩余数据信息汇合,得到第二计算结果;
将所述第二计算结果输入所述音频恢复网络的RNN-DECNN计算层,得到述第一高维向量对应的恢复数据;
判断所述损失函数的值达到最小时,所述恢复数据是否与所述语音数据一致;
若是,则判定通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型已收敛;
固定训练收敛时,所述音频恢复网络对应的参数集合为第三参量集合,所述说话人信息提取模型对应的参数集合为第四参量集合。
3.根据权利要求2所述的说话人信息提取模型的训练方法,其特征在于,所述说话人信息提取模型包括依次连接的可解释卷积滤波器、深度卷积层和第二全连接层,所述获取所述说话人信息提取模型提取所述语音数据对应的文本内容信息后的剩余数据信息的步骤,包括:
将所述语音数据输入所述可解释卷积滤波器,得到所述语音数据对应的特征矩阵;
将所述特征矩阵依次输入所述深度卷积层,从所述特征矩阵中提取所述语音数据对应的文本内容信息之外的说话人特征信息,其中,所述说话人特征信息包括声纹信息;
将所述说话人特征信息输入所述第二全连接层,得到所述说话人特征信息的向量;
将所述说话人特征信息的向量作为所述剩余数据信息。
4.根据权利要求1所述的说话人信息提取模型的训练方法,其特征在于,所述通过损失函数在所述训练集上训练所述音频处理网络、所述文本处理网络和所述说话人信息提取模型,至所述损失函数达最小值时训练收敛的步骤,包括:
通过所述训练集中各数据对经由所述音频处理网络、所述文本处理网络和所述说话人信息提取模型运算后的结果,最小化所述损失函数;
判断所述损失函数的函数值的变化趋势是否不再继续下降;
若是,则判定所述损失函数达最小值,所述第一高维向量和第二高维向量在高维空间的对齐,判定所述音频处理网络、所述文本处理网络和所述说话人信息提取模型训练收敛。
5.根据权利要求1所述的说话人信息提取模型的训练方法,其特征在于,将所述第四参量集合下的说话人信息提取模型,作为预训练的说话人信息提取模型的步骤之后,包括:
获取所述预训练的说话人信息提取模型,当前待执行任务的任务场景特征;
根据所述待执行任务的任务场景特征,选择与所述待执行任务的任务场景特征匹配的特定数据集;
通过在所述特定数据集上对所述预训练的说话人信息提取模型进行再训练至收敛,得到所述说话人信息提取模型调整后的参数集合;
通过调整参数集合后的所述说话人信息提取模型,执行所述待执行任务。
6.根据权利要求5所述的说话人信息提取模型的训练方法,其特征在于,所述待执行任务包括拟合特定用户的声纹信息,所述通过调整参数集合后的所述说话人信息提取模型,执行所述待执行任务的步骤,包括:
获取当前用户的语音数据;
将所述当前用户的语音数据输入调整参数集合后的所述说话人信息提取模型,得到所述当前用户对应的声纹特征信息;
判断声纹信息数据库是否存在所述当前用户对应的声纹特征信息;
若是,则判定所述当前用户为预先识别的用户。
7.根据权利要求5所述的说话人信息提取模型的训练方法,其特征在于,所述特定数据集为所述待执行任务的任务场景特征下形成的声纹标签数据集,所述通过在所述特定数据集上对所述预训练的说话人信息提取模型进行再训练至收敛,得到所述说话人信息提取模型调整后的参数集合的步骤,包括:
将所述声纹标签数据集输入所述预训练的说话人信息提取模型;
在指定损失函数的约束下,通过所述声纹标签数据集微调模型参数,至所述指定损失函数收敛;
保存微调收敛后,所述说话人信息提取模型的参数集合。
8.一种说话人信息提取模型的训练装置,其特征在于,包括:
关联模块,用于将语音合成系统与语音识别系统,通过所述说话人信息提取模型关联为训练体系,其中,所述语音合成系统包括依次连接的文本处理网络和音频恢复网络,所述语音识别系统包括依次连接的音频处理网络和文本恢复网络,所述说话人信息提取模型分别与所述音频恢复网络关联,以及与所述音频处理网络关联;
第一获取模块,用于获取所述音频处理网络处理训练集中的第一数据对的语音数据得到的音频处理结果,获取所述说话人信息提取模型提取所述语音数据对应的文本内容信息后的剩余数据信息,获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量,其中,所述训练集由语音数据和文本数据形成的数据对组成,所述第一数据对为训练集中的任意数据对,所述剩余数据信息包括说话人的声纹信息;
去除模块,用于从所述音频处理结果中去除所述剩余数据信息,得到第一高维向量;
第一训练模块,用于通过损失函数在所述训练集上训练所述音频处理网络、所述文本处理网络和所述说话人信息提取模型,至所述损失函数达最小值时训练收敛,其中,所述损失函数为所述第一高维向量和第二高维向量的空间距离;
固定模块,用于训练收敛后,固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合;
组合模块,用于将所述音频处理网络和所述音频恢复网络组合成处理音频的网络,将所述文本处理网络和所述文本恢复网络组合成处理文本的网络;
第二训练模块,用于在固定所述第一参量集合的状态下,通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型至收敛,以获取所述音频恢复网络对应的第三参量集合和所述说话人信息提取模型对应的第四参量集合;
作为模块,用于将所述第四参量集合下的说话人信息提取模型,作为预训练的说话人信息提取模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010542435.4A 2020-06-15 2020-06-15 说话人信息提取模型的训练方法、装置和计算机设备 Active CN111429923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010542435.4A CN111429923B (zh) 2020-06-15 2020-06-15 说话人信息提取模型的训练方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010542435.4A CN111429923B (zh) 2020-06-15 2020-06-15 说话人信息提取模型的训练方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN111429923A true CN111429923A (zh) 2020-07-17
CN111429923B CN111429923B (zh) 2020-09-29

Family

ID=71551348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010542435.4A Active CN111429923B (zh) 2020-06-15 2020-06-15 说话人信息提取模型的训练方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN111429923B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933150A (zh) * 2020-07-20 2020-11-13 北京澎思科技有限公司 一种基于双向补偿机制的文本相关说话人识别方法
CN112151040A (zh) * 2020-09-27 2020-12-29 湖北工业大学 一种基于端到端联合优化及决策的鲁棒性说话人识别方法
CN113205793A (zh) * 2021-04-30 2021-08-03 北京有竹居网络技术有限公司 音频生成方法、装置、存储介质及电子设备
CN113362829A (zh) * 2021-06-04 2021-09-07 思必驰科技股份有限公司 说话人验证方法、电子设备及存储介质
CN115472167A (zh) * 2022-08-17 2022-12-13 南京龙垣信息科技有限公司 基于大数据自监督的声纹识别模型训练方法、系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949126B2 (en) * 2008-06-23 2015-02-03 The John Nicholas and Kristin Gross Trust Creating statistical language models for spoken CAPTCHAs
CN107564511A (zh) * 2017-09-25 2018-01-09 平安科技(深圳)有限公司 电子装置、语音合成方法和计算机可读存储介质
CN108766445A (zh) * 2018-05-30 2018-11-06 苏州思必驰信息科技有限公司 声纹识别方法及系统
CN109243467A (zh) * 2018-11-14 2019-01-18 龙马智声(珠海)科技有限公司 声纹模型构建方法、声纹识别方法及系统
CN110379411A (zh) * 2018-04-11 2019-10-25 阿里巴巴集团控股有限公司 针对目标说话人的语音合成方法和装置
CN110491393A (zh) * 2019-08-30 2019-11-22 科大讯飞股份有限公司 声纹表征模型的训练方法及相关装置
CN110838295A (zh) * 2019-11-17 2020-02-25 西北工业大学 一种模型生成方法、声纹识别方法及对应装置
CN111081255A (zh) * 2019-12-31 2020-04-28 苏州思必驰信息科技有限公司 说话人确认方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949126B2 (en) * 2008-06-23 2015-02-03 The John Nicholas and Kristin Gross Trust Creating statistical language models for spoken CAPTCHAs
US20160328547A1 (en) * 2008-06-23 2016-11-10 The John Nicholas and Kristin Gross Trust U/A/D April 13, 2010 System and Method for Discriminating Between Speakers for Authentication
CN107564511A (zh) * 2017-09-25 2018-01-09 平安科技(深圳)有限公司 电子装置、语音合成方法和计算机可读存储介质
CN110379411A (zh) * 2018-04-11 2019-10-25 阿里巴巴集团控股有限公司 针对目标说话人的语音合成方法和装置
CN108766445A (zh) * 2018-05-30 2018-11-06 苏州思必驰信息科技有限公司 声纹识别方法及系统
CN109243467A (zh) * 2018-11-14 2019-01-18 龙马智声(珠海)科技有限公司 声纹模型构建方法、声纹识别方法及系统
CN110491393A (zh) * 2019-08-30 2019-11-22 科大讯飞股份有限公司 声纹表征模型的训练方法及相关装置
CN110838295A (zh) * 2019-11-17 2020-02-25 西北工业大学 一种模型生成方法、声纹识别方法及对应装置
CN111081255A (zh) * 2019-12-31 2020-04-28 苏州思必驰信息科技有限公司 说话人确认方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933150A (zh) * 2020-07-20 2020-11-13 北京澎思科技有限公司 一种基于双向补偿机制的文本相关说话人识别方法
CN112151040A (zh) * 2020-09-27 2020-12-29 湖北工业大学 一种基于端到端联合优化及决策的鲁棒性说话人识别方法
CN112151040B (zh) * 2020-09-27 2023-04-28 湖北工业大学 一种基于端到端联合优化及决策的鲁棒性说话人识别方法
CN113205793A (zh) * 2021-04-30 2021-08-03 北京有竹居网络技术有限公司 音频生成方法、装置、存储介质及电子设备
CN113205793B (zh) * 2021-04-30 2022-05-31 北京有竹居网络技术有限公司 音频生成方法、装置、存储介质及电子设备
CN113362829A (zh) * 2021-06-04 2021-09-07 思必驰科技股份有限公司 说话人验证方法、电子设备及存储介质
CN115472167A (zh) * 2022-08-17 2022-12-13 南京龙垣信息科技有限公司 基于大数据自监督的声纹识别模型训练方法、系统

Also Published As

Publication number Publication date
CN111429923B (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111429923B (zh) 说话人信息提取模型的训练方法、装置和计算机设备
CN111028827B (zh) 基于情绪识别的交互处理方法、装置、设备和存储介质
CN108806667B (zh) 基于神经网络的语音与情绪的同步识别方法
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
CN111428867B (zh) 基于可逆分离卷积的模型训练方法、装置和计算机设备
CN109903750B (zh) 一种语音识别方法及装置
WO2009075990A1 (en) Grapheme-to-phoneme conversion using acoustic data
CN111444731B (zh) 模型训练方法、装置和计算机设备
CN112259100B (zh) 语音识别方法及相关模型的训练方法和相关设备、装置
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN111583913B (zh) 语音识别和语音合成的模型训练方法、装置和计算机设备
EP3980991B1 (en) System and method for recognizing user's speech
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
Londhe et al. Machine learning paradigms for speech recognition of an Indian dialect
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
CN114360584A (zh) 一种基于音素级的语音情感分层式识别方法及系统
Shah et al. Unsupervised Vocal Tract Length Warped Posterior Features for Non-Parallel Voice Conversion.
CN113393841B (zh) 语音识别模型的训练方法、装置、设备及存储介质
CN116090474A (zh) 对话情绪分析方法、装置和计算机可读存储介质
CN112199498A (zh) 一种养老服务的人机对话方法、装置、介质及电子设备
CN116312539A (zh) 基于大模型的中文对话轮次纠正方法及系统
CN115033695A (zh) 一种基于常识知识图谱的长对话情感检测方法及系统
CN113421573B (zh) 身份识别模型训练方法、身份识别方法及装置
CN112700796B (zh) 一种基于交互式注意力模型的语音情感识别方法
Deng et al. History utterance embedding transformer lm for speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant