CN117392972A - 基于对比学习的语音合成模型训练方法、装置及合成方法 - Google Patents
基于对比学习的语音合成模型训练方法、装置及合成方法 Download PDFInfo
- Publication number
- CN117392972A CN117392972A CN202311358990.1A CN202311358990A CN117392972A CN 117392972 A CN117392972 A CN 117392972A CN 202311358990 A CN202311358990 A CN 202311358990A CN 117392972 A CN117392972 A CN 117392972A
- Authority
- CN
- China
- Prior art keywords
- target
- text
- voice
- dialogue
- sample set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 103
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 68
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000001308 synthesis method Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 168
- 230000006870 function Effects 0.000 claims abstract description 17
- 238000001228 spectrum Methods 0.000 claims description 18
- 238000010845 search algorithm Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 201000007201 aphasia Diseases 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种基于对比学习的语音合成模型训练方法、装置及合成方法,所述方法包括:基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量和语音嵌入向量;基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本之间的文本损失和语音损失;基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型得到潜在韵律风格向量序列,进而得到目标合成语音;最后基于目标对话文本、目标对话人标识、各个样本和目标合成语音对预设的语音生成器进行训练,得到语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。
Description
技术领域
本申请涉及语音合成领域,尤其涉及一种基于对比学习的语音合成模型训练方法、装置及合成方法。
背景技术
近期在语音合成系统的进步已经使得生成高质量的语音成为可能,并已被应用于如智能客服助手和有声读物等领域。然而,这些系统在如人机交互等场景中仍然存在不足,无法生成与人类自然对话相匹配的韵律。心理学发现表明,当我们理解一个正在展开的句子时,我们的大脑会非常迅速地利用广泛的信息,包括之前所说的内容以及说话者是谁,以帮助我们理解正在对我们说的话。和人类相似,一些研究验证,在语音合成系统额外加入历史上下文信息,有助于提高韵律自然度。因此,对话语音合成系统尝试在理解历史的对话信息的基础上,生成更自然、贴近真实人类对话的语音。
然而,现有的对话语音合成系统普遍基于无监督的训练方式,对于历史语境没有得到有效的理解,因此如何有效建模上下文,让对话语音合成系统生成出适合上下文风格的语音仍然是一个尚未解决的问题。
发明内容
鉴于此,本申请实施例提供了一种基于对比学习的语音合成模型训练方法、装置及合成方法,以消除或改善现有技术中存在的一个或更多个缺陷。
本申请的第一个方面提供了一种基于对比学习的语音合成模型训练方法,该方法包括:
基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,其中,所述历史样本集中的各个样本预先自一对话数据集中选取,所述正样本集中的各个样本预先自所述历史样本集中选取,所述负样本集预先根据所述正样本集中的各个样本选取;每个所述样本均包含有:对话文本、对话语音和对话人标识;基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量;
基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量之间的文本损失,以及所述历史样本集、正样本集和负样本集中的各个样本各自对应的语音嵌入向量之间的语音损失;
基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,其中,所述目标对话文本及目标对话人标识与一目标对话语音组成一目标样本,该目标样本预先自所述对话数据集中的历史样本集中的各个样本之后选取;
基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合成语音;
基于所述目标对话文本、目标对话人标识、各个历史样本集中的样本和目标合成语音对预设的语音生成器进行训练,并在训练过程中,基于所述目标对话语音确定所述目标合成语音的损失,并基于该损失、所述文本损失和所述语音损失迭代训练所述语音生成器,以得到用于将对话文本转换为对话语音的语音合成模型。
在本申请的一些实施例中,所述基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,包括:
将各个所述样本中的对话文本输入所述文本训练模型中,输出得到各个所述对话文本各自对应的对话文本向量;
将各个所述样本中的对话人标识输入所述对话人编码器,输出得到各个所述对话人标识各自对应的对话人标识向量;
将各个所述对话文本向量与各自对应的对话人标识向量进行拼接得到各个所述对话文本各自对应的文本嵌入向量。
在本申请的一些实施例中,所述基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量,包括:
将各个所述样本中的对话语音输入预先获取的语音训练模型中,输出得到各个所述对话语音各自对应的对话语音向量;
将各个所述样本中的对话人标识输入所述对话人编码器,输出得到各个所述对话人标识各自对应的对话人标识向量;
将各个所述对话语音向量与各自对应的对话人标识向量进行拼接,得到各个所述对话语音各自对应的语音嵌入向量。
在本申请的一些实施例中,所述基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,包括:
将所述目标对话文本输入所述韵律语言模型以得到目标对话韵律向量;
将所述潜在韵律风格向量输入预设的注意力机制模块以得到目标潜在韵律风格向量;
将所述目标对话韵律向量、目标潜在韵律风格向量和目标对话人标识进行相加及归一化后得到所述潜在韵律风格向量序列。
在本申请的一些实施例中,所述基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合成语音,包括:
基于音素转换器将所述目标对话文本转换为对应的音素序列;
将各个所述历史对话文本向量和历史语音向量,以及所述音素序列和潜在韵律风格向量序列输入文本编码器中以得到目标文本嵌入序列;
将所述目标文本嵌入序列输入线性映射层以得到语音分布序列;
基于单调对齐搜索算法、解码器和声码器得到所述语音分布序列对应的目标合成语音。
在本申请的一些实施例中,所述基于单调对齐搜索算法、解码器和声码器得到所述语音分布序列对应的目标合成语音,包括:
将所述目标对话语音转化为梅尔频谱;
基于损失单调对齐搜索算法将所述语音分布序列扩展为与所述梅尔频谱长度相同的梅尔嵌入向量序列;
将所述目标对话人标识输入对话人编码器以得到目标说话人嵌入向量;
将所述梅尔嵌入向量序列和目标说话人嵌入向量输入解码器中以得到目标梅尔频谱;
将所述目标梅尔频谱输入损失声码器中以得到所述目标合成语音。
本申请的第二个方面还提供了一种基于对比学习的语音合成方法,该方法包括:
从当前多人对话数据记录中确定待合成对话文本,以及该待合成对话文本的对话人标识;
将所述待合成对话文本和对话人标识输入第一方面所述的基于对比学习的语音合成模型训练方法训练得到的语音合成模型,以输出得到该待合成对话文本对应的合成语音。
本申请的第三个方面提供了一种基于对比学习的语音合成模型训练装置,该装置包括:
样本编码模块,用于基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,其中,所述历史样本集中的各个样本预先自一对话数据集中选取,所述正样本集中的各个样本预先自所述历史样本集中选取,所述负样本集预先根据所述正样本集中的各个样本选取;每个所述样本均包含有:对话文本、对话语音和对话人标识;基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量;
损失计算模块,用于基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量之间的文本损失,以及所述历史样本集、正样本集和负样本集中的各个样本各自对应的语音嵌入向量之间的语音损失;
韵律计算模块,用于基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,其中,所述目标对话文本及目标对话人标识与一目标对话语音组成一目标样本,该目标样本预先自所述对话数据集中的历史样本集中的各个样本之后选取;
语音合成模块,用于基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合成语音;
模型训练模块,用于基于所述目标对话文本、目标对话人标识、各个历史样本集中的样本和目标合成语音对预设的语音生成器进行训练,并在训练过程中,基于所述目标对话语音确定所述目标合成语音的损失,并基于该损失、所述文本损失和所述语音损失迭代训练所述语音生成器,以得到用于将对话文本转换为对话语音的语音合成模型。
本申请的第四个方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的第一方面所述的基于对比学习的语音合成模型训练方法,或者,实现前述的第二方面上述基于对比学习的语音合成方法。
本申请的第五个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现前述的第一方面所述的基于对比学习的语音合成模型训练方法,或者,实现前述的第二方面上述基于对比学习的语音合成方法。
本申请提供一种基于对比学习的语音合成模型训练方法、装置及合成方法,所述方法包括:基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量和语音嵌入向量;基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本之间的文本损失和语音损失;基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型得到潜在韵律风格向量序列,进而得到目标合成语音;最后基于目标对话文本、目标对话人标识、各个样本和目标合成语音对预设的语音生成器进行训练,得到语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。
本申请的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本申请的实践而获知。本申请的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本申请实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本申请能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,并不构成对本申请的限定。附图中的部件不是成比例绘制的,而只是为了示出本申请的原理。为了便于示出和描述本申请的一些部分,附图中对应部分可能被放大,即,相对于依据本申请实际制造的示例性装置中的其它部件可能变得更大。在附图中:
图1为本申请一实施例中的基于对比学习的语音合成模型训练方法的流程示意图。
图2为本申请另一实施例中的基于对比学习的语音合成模型训练装置的结构示意图。
图3为本申请一实施例中的基于对比学习的语音合成模型训练方法的架构示意图。
图4为本申请一实施例中的基于对比学习的语音合成方法的流程示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本申请做进一步详细说明。在此,本申请的示意性实施方式及其说明用于解释本申请,但并不作为对本申请的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本申请,在附图中仅仅示出了与根据本申请的方案密切相关的结构和/或处理步骤,而省略了与本申请关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本申请的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
具体通过下述实施例进行详细说明。
本申请实施例提供一种可以由基于对比学习的语音合成模型训练装置或客户端设备执行的基于对比学习的语音合成模型训练方法,参见图1,所述的基于对比学习的语音合成模型训练方法具体包含有如下内容:
步骤110:基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,其中,所述历史样本集中的各个样本预先自一对话数据集中选取,所述正样本集中的各个样本预先自所述历史样本集中选取,所述负样本集预先根据所述正样本集中的各个样本选取;每个所述样本均包含有:对话文本、对话语音和对话人标识;基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量。
步骤120:基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量之间的文本损失,以及所述历史样本集、正样本集和负样本集中的各个样本各自对应的语音嵌入向量之间的语音损失。
步骤130:基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,其中,所述目标对话文本及目标对话人标识与一目标对话语音组成一目标样本,该目标样本预先自所述对话数据集中的历史样本集中的各个样本之后选取。
步骤140:基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合成语音。
步骤150:基于所述目标对话文本、目标对话人标识、各个历史样本集中的样本和目标合成语音对预设的语音生成器进行训练,并在训练过程中,基于所述目标对话语音确定所述目标合成语音的损失,并基于该损失、所述文本损失和所述语音损失迭代训练所述语音生成器,以得到用于将对话文本转换为对话语音的语音合成模型。
具体来说,参见图3,客户端设备首先基于文本训练模型(即图3中的文本上下文编码器)和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量(即图3中的H text Negative、H textAnchor和H text Positive),其中,历史样本集中的各个样本预先自一对话数据集中选取,正样本集中的各个样本预先自历史样本集中选取,负样本集预先根据正样本集中的各个样本选取;每个样本均包含有:对话文本、对话语音和对话人标识;同时基于语音训练模型即图3中的声学上下文编码器)和对话人编码器分别得到各个样本各自对应的语音嵌入向量(即图3中的H audio Negative、HaudioAnchor和H audio Positive)。
然后基于预设的三元组损失函数分别计算历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量之间的文本损失,以及历史样本集、正样本集和负样本集中的各个样本各自对应的语音嵌入向量之间的语音损失。
三元组损失函数如式1所示:
m表示一个预设的超参数,间隔参数m用于规定负样本与正样本之间的距离,应该大于m。
其中,anchor表示历史样本的文本嵌入向量或语音嵌入向量,positive表示正样本的文本嵌入向量或语音嵌入向量,negative表示负样本的文本嵌入向量或语音嵌入向量。
接着基于一目标对话文本(即图3中的合成文本)、目标对话人标识(即图3中的说话人ID、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,其中,目标对话文本及目标对话人标识与一目标对话语音组成一目标样本,该目标样本预先自对话数据集中的历史样本集中的各个样本之后选取。
再接着基于潜在韵律风格向量序列、目标对话文本和目标对话语音得到目标对话文本对应的目标合成语音。
最后基于目标对话文本、目标对话人标识、各个历史样本集中的样本和目标合成语音对预设的语音生成器进行训练,并在训练过程中,基于目标对话语音确定目标合成语音的损失,并基于该损失、文本损失和语音损失迭代训练语音生成器,以得到用于将对话文本转换为对话语音的语音合成模型,从而能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。
其中,基于目标对话语音确定目标合成语音的损失包括:
重建损失,如式2所示:
xmel表示目标对话语音的梅尔频谱,表示目标合成语音对应的梅尔频谱。
对抗损失,如式3和式4所示:
D表示判别器,G表示解码器,z表示目标对话文本,y表示目标合成语音对应的波形。
KL散度损失,如式5所示:
Lkl=log qφ(z|xlin)-log pθ(z|ctext,A) (5)
ctext表示目标对话文本对应的音素序列,xlin表示目标对话语音,z表示目标对话文本,qφ表示后验编码器,pθ表示流结构神经网络。
特征匹配损失,如式6所示:
其中,T表示判别器的层数,Dl表示第l层判别器的输出特征图(feature map),Nl表示特征图的数量。
整体损失,如式7所示:
Lvae=Lrecon+Lkl+Ldur+Ladv+Lfm(G) (7)
其中,Ladv包括Ladv(D)和Ladv(G),Ldur表示如式8所示:
其中,ctext表示目标对话文本对应的音素序列,qφ表示后验编码器,pθ表示流结构神经网络,d表示用MAS算法计算出来的时长,u和v表示用于拟合q(u,v|d,ctext)的后验概率参数。
为了提升语音的仿真效果,步骤110中的所述基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,包括:
将各个所述样本中的对话文本输入所述文本训练模型中,输出得到各个所述对话文本各自对应的对话文本向量;
将各个所述样本中的对话人标识输入所述对话人编码器,输出得到各个所述对话人标识各自对应的对话人标识向量;
将各个所述对话文本向量与各自对应的对话人标识向量进行拼接得到各个所述对话文本各自对应的文本嵌入向量。
具体来说,客户端设备将各个样本中的对话文本输入文本训练模型中,输出得到各个对话文本各自对应的对话文本向量;接着将各个样本中的对话人标识输入对话人编码器,输出得到各个对话人标识各自对应的对话人标识向量;最后将各个对话文本向量与各自对应的对话人标识向量进行拼接得到各个对话文本各自对应的文本嵌入向量,从而能够有效提升语音的仿真效果。
为了提升语音的仿真效果,步骤110中的所述基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量,包括:
将各个所述样本中的对话语音输入预先获取的语音训练模型中,输出得到各个所述对话语音各自对应的对话语音向量;
将各个所述样本中的对话人标识输入所述对话人编码器,输出得到各个所述对话人标识各自对应的对话人标识向量;
将各个所述对话语音向量与各自对应的对话人标识向量进行拼接,得到各个所述对话语音各自对应的语音嵌入向量。
具体来说,客户端设备将各个样本中的对话语音输入预先获取的语音训练模型中,输出得到各个对话语音各自对应的对话语音向量;然后将各个样本中的对话人标识输入对话人编码器,输出得到各个对话人标识各自对应的对话人标识向量;最后将各个对话语音向量与各自对应的对话人标识向量进行拼接,得到各个对话语音各自对应的语音嵌入向量,从而能够有效提升语音的仿真效果。
为了提升语音合成的精确性,步骤130包括:
将所述目标对话文本输入所述韵律语言模型以得到目标对话韵律向量;
将所述潜在韵律风格向量输入预设的注意力机制模块以得到目标潜在韵律风格向量;
将所述目标对话韵律向量、目标潜在韵律风格向量和目标对话人标识进行相加及归一化后得到所述潜在韵律风格向量序列。
具体来说,客户端设备将目标对话文本输入韵律语言模型以得到目标对话韵律向量;接着将潜在韵律风格向量输入预设的注意力机制模块(即图3中的注意力机制)以得到目标潜在韵律风格向量;最后将目标对话韵律向量、目标潜在韵律风格向量和目标对话人标识进行相加及归一化后得到潜在韵律风格向量序列,从而能够有效提升语音合成的精确性。
为了进一步提升语音的仿真效果,步骤140包括:
步骤141:基于音素转换器将所述目标对话文本转换为对应的音素序列。
步骤142:将各个所述历史对话文本向量和历史语音向量,以及所述音素序列和潜在韵律风格向量序列输入文本编码器中以得到目标文本嵌入序列。
步骤143:将所述目标文本嵌入序列输入线性映射层以得到语音分布序列。
步骤144:基于单调对齐搜索算法、解码器和声码器得到所述语音分布序列对应的目标合成语音。
具体来说,客户端设备基于音素转换器将目标对话文本转换为对应的音素序列;接着将各个历史对话文本向量和历史语音向量,以及音素序列和潜在韵律风格向量序列输入文本编码器中以得到目标文本嵌入序列;再接着将目标文本嵌入序列输入线性映射层以得到语音分布序列;最后基于单调对齐搜索算法、解码器和声码器得到语音分布序列对应的目标合成语音,从而能够进一步提升语音的仿真效果。
为了保证目标合成语音的完整性,步骤144包括:
将所述目标对话语音转化为梅尔频谱;
基于损失单调对齐搜索算法将所述语音分布序列扩展为与所述梅尔频谱长度相同的梅尔嵌入向量序列;
将所述目标对话人标识输入对话人编码器以得到目标说话人嵌入向量;
将所述梅尔嵌入向量序列和目标说话人嵌入向量输入解码器中以得到目标梅尔频谱;
将所述目标梅尔频谱输入损失声码器中以得到所述目标合成语音。
具体来说,客户端设备首先将目标对话语音转化为梅尔频谱;接着基于损失单调对齐搜索算法将语音分布序列扩展为与梅尔频谱长度相同的梅尔嵌入向量序列;再接着将目标对话人标识输入对话人编码器以得到目标说话人嵌入向量;然后将梅尔嵌入向量序列和目标说话人嵌入向量输入解码器中以得到目标梅尔频谱;最后将目标梅尔频谱输入损失声码器中以得到目标合成语音,从而能够有效保证目标合成语音的完整性。
本申请实施例还提供一种可以由客户端设备执行的基于对比学习的语音合成方法,参见图4,所述的基于对比学习的语音合成方法具体包含有如下内容:
步骤210:从当前多人对话数据记录中确定待合成对话文本,以及该待合成对话文本的对话人标识。
步骤220:将所述待合成对话文本和对话人标识输入前述的基于对比学习的语音合成模型训练方法训练得到的语音合成模型,以输出得到该待合成对话文本对应的合成语音。
具体来说,客户端设备从当前多人对话数据记录中确定待合成对话文本,以及该待合成对话文本的对话人标识。然后将待合成对话文本和对话人标识输入前述的基于对比学习的语音合成模型训练方法训练得到的语音合成模型,以输出得到该待合成对话文本对应的合成语音,从而能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。
从软件层面来说,本申请还提供一种用于执行所述的基于对比学习的语音合成模型训练方法中全部或部分内的基于对比学习的语音合成模型训练装置,参见图2,所述的基于对比学习的语音合成模型训练装置具体包含有如下内容:
样本编码模块10,用于基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,其中,所述历史样本集中的各个样本预先自一对话数据集中选取,所述正样本集中的各个样本预先自所述历史样本集中选取,所述负样本集预先根据所述正样本集中的各个样本选取;每个所述样本均包含有:对话文本、对话语音和对话人标识;基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量;
损失计算模块20,用于基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量之间的文本损失,以及所述历史样本集、正样本集和负样本集中的各个样本各自对应的语音嵌入向量之间的语音损失;
韵律计算模块30,用于基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,其中,所述目标对话文本及目标对话人标识与一目标对话语音组成一目标样本,该目标样本预先自所述对话数据集中的历史样本集中的各个样本之后选取;
语音合成模块40,用于基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合成语音;
模型训练模块50,用于基于所述目标对话文本、目标对话人标识、各个历史样本集中的样本和目标合成语音对预设的语音生成器进行训练,并在训练过程中,基于所述目标对话语音确定所述目标合成语音的损失,并基于该损失、所述文本损失和所述语音损失迭代训练所述语音生成器,以得到用于将对话文本转换为对话语音的语音合成模型。
本申请提供的基于对比学习的语音合成模型训练装置的实施例具体可以用于执行上述实施例中的基于对比学习的语音合成模型训练方法的实施例的处理流程,其功能在此不再赘述,可以参照上述的基于对比学习的语音合成模型训练方法实施例的详细描述。
本申请提供一种基于对比学习的语音合成模型训练装置,该装置执行的方法包括:基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量和语音嵌入向量;基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本之间的文本损失和语音损失;基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型得到潜在韵律风格向量序列,进而得到目标合成语音;最后基于目标对话文本、目标对话人标识、各个样本和目标合成语音对预设的语音生成器进行训练,得到语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。
本申请实施例还提供了一种电子设备,例如中心服务器,该电子设备可以包括处理器、存储器、接收器及发送器,处理器用于执行上述实施例提及的基于对比学习的语音合成模型训练方法或者基于对比学习的语音合成方法,其中处理器和存储器可以通过总线或者其他方式连接,以通过总线连接为例。该接收器可通过有线或无线方式与处理器、存储器连接。
处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的基于对比学习的语音合成模型训练方法或者基于对比学习的语音合成方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的基于对比学习的语音合成模型训练方法或者基于对比学习的语音合成方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器中,当被所述处理器执行时,执行实施例中的基于对比学习的语音合成模型训练方法或者基于对比学习的语音合成方法。
在本申请的一些实施例中,用户设备可以包括处理器、存储器和收发单元,该收发单元可包括接收器和发送器,处理器、存储器、接收器和发送器可通过总线系统连接,存储器用于存储计算机指令,处理器用于执行存储器中存储的计算机指令,以控制收发单元收发信号。
作为一种实现方式,本申请中接收器和发送器的功能可以考虑通过收发电路或者收发的专用芯片来实现,处理器可以考虑通过专用处理芯片、处理电路或通用芯片实现。
作为另一种实现方式,可以考虑使用通用计算机的方式来实现本申请实施例提供的服务器。即将实现处理器,接收器和发送器功能的程序代码存储在存储器中,通用处理器通过执行存储器中的代码来实现处理器,接收器和发送器的功能。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述的基于对比学习的语音合成模型训练方法或者基于对比学习的语音合成方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本申请中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于对比学习的语音合成模型训练方法,其特征在于,包括:
基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,其中,所述历史样本集中的各个样本预先自一对话数据集中选取,所述正样本集中的各个样本预先自所述历史样本集中选取,所述负样本集预先根据所述正样本集中的各个样本选取;每个所述样本均包含有:对话文本、对话语音和对话人标识;基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量;
基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量之间的文本损失,以及所述历史样本集、正样本集和负样本集中的各个样本各自对应的语音嵌入向量之间的语音损失;
基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,其中,所述目标对话文本及目标对话人标识与一目标对话语音组成一目标样本,该目标样本预先自所述对话数据集中的历史样本集中的各个样本之后选取;
基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合成语音;
基于所述目标对话文本、目标对话人标识、各个历史样本集中的样本和目标合成语音对预设的语音生成器进行训练,并在训练过程中,基于所述目标对话语音确定所述目标合成语音的损失,并基于该损失、所述文本损失和所述语音损失迭代训练所述语音生成器,以得到用于将对话文本转换为对话语音的语音合成模型。
2.根据权利要求1所述的基于对比学习的语音合成模型训练方法,其特征在于,所述基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,包括:
将各个所述样本中的对话文本输入所述文本训练模型中,输出得到各个所述对话文本各自对应的对话文本向量;
将各个所述样本中的对话人标识输入所述对话人编码器,输出得到各个所述对话人标识各自对应的对话人标识向量;
将各个所述对话文本向量与各自对应的对话人标识向量进行拼接得到各个所述对话文本各自对应的文本嵌入向量。
3.根据权利要求1所述的基于对比学习的语音合成模型训练方法,其特征在于,所述基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量,包括:
将各个所述样本中的对话语音输入预先获取的语音训练模型中,输出得到各个所述对话语音各自对应的对话语音向量;
将各个所述样本中的对话人标识输入所述对话人编码器,输出得到各个所述对话人标识各自对应的对话人标识向量;
将各个所述对话语音向量与各自对应的对话人标识向量进行拼接,得到各个所述对话语音各自对应的语音嵌入向量。
4.根据权利要求1所述的基于对比学习的语音合成模型训练方法,其特征在于,所述基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,包括:
将所述目标对话文本输入所述韵律语言模型以得到目标对话韵律向量;
将所述潜在韵律风格向量输入预设的注意力机制模块以得到目标潜在韵律风格向量;
将所述目标对话韵律向量、目标潜在韵律风格向量和目标对话人标识进行相加及归一化后得到所述潜在韵律风格向量序列。
5.根据权利要求1所述的基于对比学习的语音合成模型训练方法,其特征在于,所述基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合成语音,包括:
基于音素转换器将所述目标对话文本转换为对应的音素序列;
将各个所述历史对话文本向量和历史语音向量,以及所述音素序列和潜在韵律风格向量序列输入文本编码器中以得到目标文本嵌入序列;
将所述目标文本嵌入序列输入线性映射层以得到语音分布序列;
基于单调对齐搜索算法、解码器和声码器得到所述语音分布序列对应的目标合成语音。
6.根据权利要求5所述的基于对比学习的语音合成模型训练方法,其特征在于,所述基于单调对齐搜索算法、解码器和声码器得到所述语音分布序列对应的目标合成语音,包括:
将所述目标对话语音转化为梅尔频谱;
基于损失单调对齐搜索算法将所述语音分布序列扩展为与所述梅尔频谱长度相同的梅尔嵌入向量序列;
将所述目标对话人标识输入对话人编码器以得到目标说话人嵌入向量;
将所述梅尔嵌入向量序列和目标说话人嵌入向量输入解码器中以得到目标梅尔频谱;
将所述目标梅尔频谱输入损失声码器中以得到所述目标合成语音。
7.一种基于对比学习的语音合成方法,其特征在于,包括:
从当前多人对话数据记录中确定待合成对话文本,以及该待合成对话文本的对话人标识;
将所述待合成对话文本和对话人标识输入权利要求1-6任一项所述的基于对比学习的语音合成模型训练方法训练得到的语音合成模型,以输出得到该待合成对话文本对应的合成语音。
8.一种基于对比学习的语音合成模型训练装置,其特征在于,包括:
样本编码模块,用于基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,其中,所述历史样本集中的各个样本预先自一对话数据集中选取,所述正样本集中的各个样本预先自所述历史样本集中选取,所述负样本集预先根据所述正样本集中的各个样本选取;每个所述样本均包含有:对话文本、对话语音和对话人标识;基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量;
损失计算模块,用于基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量之间的文本损失,以及所述历史样本集、正样本集和负样本集中的各个样本各自对应的语音嵌入向量之间的语音损失;
韵律计算模块,用于基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,其中,所述目标对话文本及目标对话人标识与一目标对话语音组成一目标样本,该目标样本预先自所述对话数据集中的历史样本集中的各个样本之后选取;
语音合成模块,用于基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合成语音;
模型训练模块,用于基于所述目标对话文本、目标对话人标识、各个历史样本集中的样本和目标合成语音对预设的语音生成器进行训练,并在训练过程中,基于所述目标对话语音确定所述目标合成语音的损失,并基于该损失、所述文本损失和所述语音损失迭代训练所述语音生成器,以得到用于将对话文本转换为对话语音的语音合成模型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的基于对比学习的语音合成模型训练方法,或者,实现权利要求7所述的基于对比学习的语音合成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于对比学习的语音合成模型训练方法,或者,实现权利要求7所述的基于对比学习的语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311358990.1A CN117392972A (zh) | 2023-10-19 | 2023-10-19 | 基于对比学习的语音合成模型训练方法、装置及合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311358990.1A CN117392972A (zh) | 2023-10-19 | 2023-10-19 | 基于对比学习的语音合成模型训练方法、装置及合成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117392972A true CN117392972A (zh) | 2024-01-12 |
Family
ID=89436674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311358990.1A Pending CN117392972A (zh) | 2023-10-19 | 2023-10-19 | 基于对比学习的语音合成模型训练方法、装置及合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117392972A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727290A (zh) * | 2024-02-18 | 2024-03-19 | 厦门她趣信息技术有限公司 | 一种语音合成方法、装置、设备及可读存储介质 |
-
2023
- 2023-10-19 CN CN202311358990.1A patent/CN117392972A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727290A (zh) * | 2024-02-18 | 2024-03-19 | 厦门她趣信息技术有限公司 | 一种语音合成方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10553201B2 (en) | Method and apparatus for speech synthesis | |
US11908455B2 (en) | Speech separation model training method and apparatus, storage medium and computer device | |
CN111933110B (zh) | 视频生成方法、生成模型训练方法、装置、介质及设备 | |
CN108806665A (zh) | 语音合成方法和装置 | |
JP2019200408A (ja) | 音声合成モデルを生成するための方法、及び装置 | |
CN109767778B (zh) | 一种融合Bi-LSTM和WaveNet的语音转换方法 | |
CN111899719A (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN108182936A (zh) | 语音信号生成方法和装置 | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN112133282A (zh) | 轻量级多说话人语音合成系统及电子设备 | |
CN109599092B (zh) | 一种音频合成方法及装置 | |
CN106971709A (zh) | 统计参数模型建立方法和装置、语音合成方法和装置 | |
CN105654939A (zh) | 一种基于音向量文本特征的语音合成方法 | |
CN112489629A (zh) | 语音转写模型、方法、介质及电子设备 | |
CN112102811B (zh) | 一种合成语音的优化方法、装置及电子设备 | |
CN111508469A (zh) | 一种文语转换方法及装置 | |
CN117392972A (zh) | 基于对比学习的语音合成模型训练方法、装置及合成方法 | |
CN117373431A (zh) | 音频合成方法、训练方法、装置、设备及存储介质 | |
CN113178200B (zh) | 语音转换方法、装置、服务器及存储介质 | |
CN112908293B (zh) | 一种基于语义注意力机制的多音字发音纠错方法及装置 | |
CN116798405B (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN116884386A (zh) | 语音合成方法、语音合成装置、设备和存储介质 | |
CN116092473A (zh) | 韵律标注模型、韵律预测模型的训练方法及相关设备 | |
CN115762471A (zh) | 一种语音合成方法、装置、设备及存储介质 | |
CN117238275B (zh) | 基于常识推理的语音合成模型训练方法、装置及合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |