CN112530401A

CN112530401A - 一种语音合成方法、系统及装置

Info

Publication number: CN112530401A
Application number: CN202011373946.4A
Authority: CN
Inventors: 叶俊杰; 王伦基; 胡玉针; 李�权; 成秋喜; 李嘉雄; 朱杰; 高翠; 韩蓝青
Original assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Current assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-19
Anticipated expiration: 2040-11-30
Also published as: CN112530401B

Abstract

本发明公开了一种语音合成方法、系统及装置，其中所述方法包括：获取包含混合数据集，并获取混合文本；根据混合文本获取发音编码，根据混合文本中包含的语言种类确定语言编码；将混合数据集中的说话人进行编号，获取指定说话人编号并根据指定说话人编号确定说话人编码；根据所述发音编码、所述语言编码以及所述说话人编码，解码还原指定说话人主语言和其他语言混合的语音信息。本申请实施例能够在指定说话人提供一种语言语音数据时，就能合成指定说话人其他语言的语音。本申请可广泛应用于语音处理技术领域。

Description

一种语音合成方法、系统及装置

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音合成方法、系统及装置。

背景技术

目前不同民族、国家、地域的语言文化存在较大差异，无法做到全球语言统一，因此从不同国家产出的音视频文件必然是跨语种的，这使得信息在交流中遇到较大障碍，为此，现有技术提出一些视频翻译方法，在视频的处理过程中，通过语音合成技术将视频中人说的话，转换为另外一种指定的语言并说出来，声音与原说话人一致。然而，目前的语音合成技术支持多种语言并非易事，此外，收集双语者的录音的成本也很昂贵。因此，最常见的情况是语言合成模型的样本中的每个说话者只说一种语言，所以说话者的身份与语言是完全相关的，这使得不同语言之间语音转换变得困难。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请提出一种语音合成方法、系统及装置，可以利用一种语言语音数据就能合成说话人其他语言的语音。

第一方面，本申请实施例提供了一种语音合成方法，包括：获取混合数据集，所述混合数据集包括多个说话人及多种语言的语音样本；将所述混合数据集的每个说话人进行编号；根据所述混合数据集获取混合文本；获取所述混合文本的发音编码；根据所述混合文本的语言种类，确定语言编码；根据获取到的指定说话人编号，确定说话人编码；根据所述发音编码、所述语言编码以及所述说话人编码，确定指定语音信息，所述指定语音信息为指定说话人的主语言和其他语言混合的语音信息。

可选地，所述根据所述发音编码、所述语言编码以及所述说话人编码，确定指定语音信息，具体为：将所述发音编码、所述语言编码以及所述说话人编码进行拼接，得到拼接结果，并根据所述拼接结果解码，确定指定语音信息；或者，获取所述混合文本的语言种类数量；对所述发音编码进行编码拓展，得到若干所述发音编码，所述发音编码的数量与所述语言种类数量一致；根据所述语言编码，以及层数与所述发音编码数量一致的全连接层，控制若干所述发音编码与所述说话人编码进行拼接，得到所述拼接结果，并将所述拼接结果解码，确定指定语音信息。

可选地，所述获取所述混合文本的发音编码，包括：对所述混合文本进行分句处理，并进行标点符号转换；对所述混合文本进行分词处理，并在所述混合文本中的任意相邻两个词语之间添加分隔符；将所述混合文本中的缩写词语转换为完整词语；将所述混合文本中的字符转换成与字符列表相应的小写字母或者大写字母；将所述混合文本中的数字转换成以所述主语言表达的形式；根据混合语言发音规则，确定所述混合文本的发音，得到所述混合文本和所述混合文本发音的混合序列；将所述混合序列输入字符嵌入网络、若干层全连接层、若干个1维卷积神经网络以及若干层循环神经网络，得到所述发音编码。

可选地，所述在所述混合文本中的任意相邻两个词语之间添加分隔符，包括：在所述混合文本中的任意相邻两个词语之间添加不同分隔符；其中，分隔符种类表征所述混合文本的语言种类；或者，在所述混合文本中的任意相邻两个词语之间添加相同的分隔符；根据所述分词处理后的混合文本以及所述相同的分隔符，获得配对信息；其中，所述配对信息表征所述混合文本的语言种类；向所述混合文本中加入所述配对信息。

可选地，所述根据混合语言发音规则，确定所述混合文本的发音，得到所述混合文本和所述混合文本发音的混合序列，还包括：当所述混合文本中包括英文单词：获取一个随机数；所述随机数的数值范围为0到1；当所述随机数大于预设的概率阈值，则将当前单词以指定形式进行发音标注，并输入所述混合序列。

可选地，所述方法还包括：根据所述混合数据集获取声音频谱；利用多层2维卷积神经网络和多层循环神经网络，对所述声音频谱进行残差编码，得到风格编码；根据所述发音编码、所述语言编码、所述说话人编码以及所述风格编码，确定指定语音信息。

可选地，所述方法还包括：将所述发音编码输入梯度逆转层以及全连接层进行关于说话人分类的对抗训练，并提取与说话人信息无关的发音编码。

可选地，所述方法还包括：构建语音合成模型，所述语音合成模型包括：基于注意力机制的发音字符与语言编码器、基于注意力机制-解码模型的说话人风格编码器、基于注意力机制-解码模型的解码器和声码器；所述发音字符与语言编码器包含语言嵌入网络、字符嵌入网络、多层全连接和1维卷积神经网络以及多层循环神经网络，所述发音字符与语言编码器用于根据所述混合文本确定所述发音编码，并根据所述混合文本的语言种类确定所述语言编码；所述说话人风格编码器包含说话人嵌入网络，所述说话人风格编码器用于根据获取到的指定说话人编号，确定所述说话人编码；所述解码器用于将所述发音编码、所述语言编码和所述说话人编码的拼接结果进行解码，或者对所述发音编码和所述说话人编码的拼接结果进行编码，获得所述声音频谱；所述声码器用于根据所述声音频谱获取所述指定语音信息。

第二方面，本申请实施例提供了一种语音合成系统，包括：获取模块，用于获取混合数据集以及所述混合文本；编码模块，用于确定发音编码、语言编码及说话人编码；语音信息生成模块，用于根据所述发音编码、所述语言编码以及所述说话人编码，确定指定语音信息。

第三方面，本申请实施例提供了一种装置，包括：至少一个处理器；至少一个存储器，用于存储至少一个程序；当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如第一方面所述的语音合成方法。

本申请实施例的有益效果包括：获取包含多个说话人及多种语言样本的混合数据集，并获取混合文本；根据混合文本获取发音编码，根据混合文本中包含的语言种类确定语言编码；将混合数据集中的说话人进行编号，获取指定说话人编号并根据指定说话人编号确定说话人编码；根据所述发音编码、所述语言编码以及所述说话人编码，确定指定说话人主语言和其他语言混合的语音信息。本申请实施例能够在指定说话人提供一种语言语音数据时，就能合成指定说话人其他语言的语音。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请一些实施例提供的语音合成方法的流程图；

图2为本申请一些实施例提供的混合数据集示意图；

图3为本申请一些实施例提供的获取混合文本发音编码的流程图；

图4为本申请一些实施例提供的第一编码处理方式的示意图；

图5为本申请另一些实施例提供的第一编码处理方式的示意图；

图6为本申请一些实施例提供的第二编码处理方式的示意图；

图7为本申请一些实施例提供的语音合成训练阶段的示意图；

图8为本申请一些实施例提供的语音合成模型推理阶段的示意图；

图9为本申请一些实施例提供的一种语音合成系统；

图10为本申请一些实施例提供的一种装置。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

下面结合附图，对本申请实施例作进一步阐述。

参照图1，图1为本申请一些实施例提供的语音合成方法的流程图，该方法包括但不限于步骤S100至步骤S170。

步骤S100，获取混合数据集，混合数据集包括多个说话人及多种语言的语音样本。

具体地，获取语音和文本配对作为样本的多人多语言混合数据集，语言种类包括但不限于中文普通话、中文粤语、英语、俄语、日语等，在数据集中一位说话人只需要说一种语言即可。需要说明的是，由于本申请实施例需要通过计算机神经网络从混合数据集中分离出说话人信息，当混合数据集中每一种语言的说话人数量足够多，则能够使计算机神经网络更容易学习到与说话人无关的特征，加速训练过程，因此，混合数据集对每种语言的说话人数要达到一定的数量，说话人的年龄范围涵盖童年到老年，而且要求说话人性别样本尽量均衡。

步骤S110，将混合数据集的每个说话人进行编号。

具体地，根据混合数据集的中的语言种类，对说话人进行编号、分组，参考图2，图2为本申请一些实施例提供的混合数据集示意图，例如将说中文普通话的说话人A以及说话人B分为一组，分别编号为0,1，将说英文的说话人D和说话人E分为一组，分别编号为3,4。

需要说明的是，如果一位说话人能够提供多种语言的数据，例如说话人A可以说中文普通话和英文，分别向混合数据集提供了一份中文普通话样本和一份英语样本，那么在进行混合数据集编号时可以将这两份样本当成两位说话人提供的语音数据来处理，例如将两份样本分别编号为“A-中文普通话”和“A-英语”，或者是“A1”和“A2”。

可选地，构建一个样本选择器，使用样本选择器在混合数据集中选取样本进行训练。由于本申请是基于神经网络的训练方式为跨语言语音合成提出的技术方案，为了平衡多种语言的训练进度，保证稳定性，避免语言数据的不平衡导致某种语言训练得少而效果不好，因此在训练时对每个批次的每种语言的数据量保持平衡取样，有助于优化多语言混合语音合成训练过程和效果。例如，语言数量L＝8，整个模型的batch_size＝128，那么样本选择器就从每种语言按照顺序选出sub_batch_size＝batch_size/L＝16个样本进行训练。同理，通过指定每种语言每次的训练样本数sub_batch_size和语言数量L相乘计算得到整个模型的batch_size。

需要说明的是，通过样本选择器选取样本后，可以构建一个音频前处理器，用于对样本中的语音作幅值归一化和修整语音样本前后的静默，并把语音音频波形转为声音频谱，声音频谱包括但不限于线性频谱、梅尔频谱等。本申请实施例中的音频前处理器通过现有技术实现功能，在此不再赘述。

步骤S120，根据混合数据集获取混合文本。

具体地，根据混合数据集，获取包含多种语言的混合文本。

步骤S130，获取混合文本的发音编码。

具体地，构建一个文本处理器对混合文本进行文本处理，构建一个发音标注器对处理后的混合文本进行发音标注，获得混合序列，再构建一个发音字符编码器，将混合序列输入发音字符编码器，获得混合文本的发音编码。

具体获取发音编码的步骤，结合图3在下文中展开阐述。

参考图3，图3为本申请一些实施例提供的获取混合文本发音编码的流程图，方法包括但不限于步骤S300至步骤S360。需要说明的是，步骤S300至步骤S340由上述文本处理器执行，步骤S350由上述发音标注器执行，步骤S360由上述发音字符编码器执行。

步骤S300，对混合文本进行分句处理，并进行标点符号转换。

具体地，根据标点符号将整段混合文本进行分句。而例如泰语中部分句子是使用空格来充当句号、逗号，起到句子分割的作用，因此在本申请实施例中，用于分句处理的标点符号包括但不限于句号、逗号、空格。将混合文本中的标点符号换成预设主语言类型的标点符号。

步骤S310，对混合文本进行分词处理，并向混合文本中的任意相邻两个词语之间添加分隔符。

具体地，使用分词工具对分句处理后的混合文本进行分词，以jieba分词工具对句子进行分词为例：原句子为“还是忍不住问一问Ann，你数过天上的Star吗？”，分词后得到的结果为“还是/忍不住/问一问/Ann/，/你/数过/天上/的/Star/吗/？”标点符号正斜杠/作为分隔符添加在任意两个词中。对混合文本中的所有句子进行分词，并保留分隔符。

可选地，在分词过程中可以使用不同的分隔符，不同的分隔符用于表示混合文本中的不同的语言。例如，用“#”分割普通话，用“”(空格)分割英文：原句子为“这是一个关于glory city的故事，你知道TFBoys吗？”使用不同分隔符分词后得到的结果为“#这#是#一#个#关#于glory city#的#故事#，#你#知#道TFBoys#吗#？”通过不同的分隔符即可判断混合文本中的语言种类。

可选地，在分词过程中可以使用相同的分隔符，并需要在混合文本中加入文字字符与语言种类的配对信息，用于分辨混合文本的语言种类。例如，使用“/”分割文本，原句子为“这是一个关于glory city的故事，你知道TFBoys吗？”，使用相同的分隔符分词后得到的结果为“这是/一个/关于glory city的/故事，你/知道TFBoys吗？”分词后根据分隔符对句子进行发音标注，得到文字字符与语言种类的配对信息，并将配对信息加入到混合文本中。

确定文字字符与语言种类的配对信息的具体方式将在步骤S350中详细阐述。

步骤S320，将混合文本中的缩写词语转换为完整词语。

具体地，例如混合文本中可能包含英文缩写“Mr.”，则将英文缩写“Mr.”转换为完整的词语“mister”。

步骤330，将混合文本中的字符统一转换成与字符列表相应的小写字母或者大写字母。

具体地，例如混合文本中包含英文“Super Star”，则将“Super Star”转换为“SUPER STAR”。

步骤S340，将混合文本中的数字转换成以主语言表达的形式。

具体地，在混合文本处理的过程中，数字需要转换为统一语言所属的形式，因此设定主语言，例如阿拉伯数字“365”，当主语言为中文普通话，则转换为“三百六十五”；当主语言为英文，则转换为““three hundred sixty-five”。

步骤S350，根据混合语言发音规则，确定混合文本的发音，得到混合文本和混合文本发音的混合序列。

具体地，构建发音标注器，发音标注器包含混合语言发音规则，根据混合语言发音规则对混合文本进行发音标注，得到包含混合文本发音的混合序列。通过判断分词后的混合文本中每个词语所属的语言，根据混合语言发音规则对混合文本进行发音标注。不同语言的词语可以用不同的分隔符进行分隔；或者不同语言用相同的分隔符分隔，然后再向混合文本中加入文字字符与语言种类的配对信息。例如，中文普通话发音字符以现代拼音字母表示，声调用12345表示，例如以“#”来分隔中文普通话，“吃饭”可以转为“#chi1#fan4”。将所述混合文本中的字符统一转换成与字符列表相应的小写字母或者大写字母，采用CMU发音字符对英文进行发音标注，例如用“{}”(中括号)标记发音标注，则“super star”可以转为“{‘S’‘UW1’‘P’‘ER0’}{‘S’‘T’‘AA1’‘R’}”。对于日文可通过包括kakasi、MeCab等或其他日文转罗马字符工具，比如“こんにちは、今日の天気は本当にいいです。”，中文意思是“你好，今天天气真好。”，转换为罗马发音字符是“konnichiha、kyou no tenki ha hontouniiidesu。”也可以对所有语言用国际音标(International Phonetic Alphabet，IPA)进行发音标注，上述的日文即可转为

对于混合语言的文本，中文可以以/分隔，例如，原句子为“这是一个关于glory city的故事，你知道TFBoys吗？”，进行发音标注后得到结果为“zhe4 shi4/yi1ge4/guan1 yu2 GLORYCITY CITY de/gu4 shi4，ni3/zhi1 dao4 TFBOYS ma？”根据本段发音标注的流程，判断混合文本中每个词语所属的语言，并根据词语所属的语言，使用不同的发音规则对词语进行发音标注，直至混合文本中所有词语都完成发音标注。

在步骤S310中提到文字字符与语言种类的配对信息，在对混合文本进行发音标注后可以得到配对信息。例如，原句子为“这是一个关于glory city的故事，你知道TFBoys吗？”进行分词、发音标注后得到结果“zhe4 shi4/yi1 ge4/guan1 yu2 GLORYCITY de/gu4shi4，ni3/zhi1 dao4 TFBOYS/ma1？”，则该句进行发音标注后共有83个字符，那加入的配对信息为“zh-30,en-41,zh-71,en-78,zh”，表示第30个字符之前是中文，之后至第41个字符是英文，之后至第71个字符是中文，如此类推，最后就是中文。

可选地，发音标注是根据已有的发音规则查询得到，比如中文普通话通过拼音转为小写字母和声调，英文转为大写字母以及CMU发音字符。发音标注是人为先验地提取了发音特征，但有一些英文单词或者其他外文单词没有出现在已有的发音规则中，就不能转为发音字符。在本申请实施例中，将这些单词以指定形式进行发音标注，并输入混合序列。指定形式可以是CMU形式或者是国际音标形式，下面以英文来举例。为了避免有一些英文单词不能在词典中找到读音但有需要读出来，则混合文本中的英文单词将以一定的概率以CMU形式输入混合序列。设定概率阈值为0.9，当发音标注时遇到英文单词，则获取一个数值范围是0到1的随机数，当随机数大于预设的概率阈值，则单词以英文大写字母形式输入混合序列；当随机数小于预设的概率阈值，则单词通过英文的发音规则进行发音标注。例如，用“{}”(中括号)标记发音标注，原句子为“这是一个关于glory city的故事，你知道TFBoys吗？”，进行发音标注后得到结果为“zhe4 shi4/yi1 ge4/guan1 yu2{G L AO1 R IY0}CITYde/gu4shi4，ni3/zhi1 dao4 TFBOYS ma？”具体发音标注的过程是，遇到“GLORY”时，随机生成了小于0.9的随机数，则按照英文发音规则标注为{G L AO1 R IY0}；遇到“CITY”时，随机生成了一个大于0.9的随机数，则保持不变，以“CITY”的形式输入混合文本；同理，遇到“TFBOYS”时，随机生成了一个大于0.9的随机数，则保持不变。当概率阈值为0.9，相当于有90％的概率单词会根据发音规则进行发音标注，多次取样的结果会不同，可以保持训练的多样性，提高泛化性。

步骤S360，将混合序列输入字符嵌入网络、若干层全连接层、若干个1维卷积神经网络以及若干层循环神经网络，得到发音编码

具体地，混合文本经过文本处理器以及发音标注器处理，获得包含混合文本发音的混合序列。构建一个发音字符编码器，发音字符编码器包含固定维度的字符嵌入网络Character embedding、包含批处理归一化和激活函数的多层全连接和1维卷积神经网络、包含激活函数的多层循环神经网络，将混合序列输入发音字符编码器，对发音字符编码器进行训练，获得固定维度的发音编码。

具体地，字符嵌入网络Character embedding是以one-hot为输入、中间层节点为字向量维数的全连接层。例如，字符或者音素加上标点符号有100个，根据列表转为取值是0～99的整数(共100个)，再转化为输入100维的one-hot向量，通过一个全连接输出128维的向量，此时字符嵌入网络完成了嵌入的功能。实际上考虑一句话中混合序列输入字符或者音素长度length，以及batch_size大小，输入[batch_size,100,length]张量，通过字符嵌入网络输出[batch_size,128,length]张量。而在本申请实施例中，可以使用多种方式组合若干全连接层、若干1维卷积神经网络和若干循环神经网络，选定一种组合方式构成一组编码器，例如，实际上考虑一句话中混合序列输入字符或者音素长度length，以及batch_size大小，输入[batch_size,128,length]张量，通过这组编码器输出[batch_size,256,length]张量，128和256属于维度的超参数，在搭建网络时定义。

可选地，由于可能有些小语种的数据有限，当一种语言的数据仅有一个说话者时，说话者信息就与语言信息关联起来，为了有针对性地提取说话人的特征，使文字信息与说话者无关，将发音编码引入梯度逆转层，梯度逆转层后面接神经网络，比如多个全连接层和多个softmax层，用于进行关于说话人分类的对抗训练，帮助提取与说话人信息无关的发音编码。在参数梯度反向传播时乘以负的系数，使得这一层以后关于说话人分类的损失函数往最大值的方向训练，使发音编码提取的特征尽量丢掉说话人的特征，后续步骤再通过拼接说话人编码补全关于说话人的信息。梯度逆转层(gradient reversal layer,GRL)是一种对抗训练神经网络形式。反向传播更新网络参数是指将损失(预测值和真实值的差距)逐层向后传递，然后每层网络都会根据传回来的误差计算梯度，进而更新本层网络的参数。而GRL所做的就是，就是将传到本层的误差乘以一个负数(-1或者-1～0)，而在正向传播时不做操作，这样就会使得GRL前后的网络其训练目标相反，以实现对抗的效果。

通过步骤S300至步骤S360，通过文本处理器对混合文本进行缩写转换、数字转换、分句及分词处理，并根据发音标注器中的混合语言发音规则对混合文本进行发音标注，得到包含混合文本发音的混合序列。另外，在分词处理时向任意相邻两个词语之间添加不同的分隔符用于表示混合文本中的语言种类，又或者是向任意相邻两个词语之间添加相同的分隔符以及能表示混合文本中的语言种类的配对信息。将混合序列输入发音字符编码器，得到发音编码。

图1中的步骤S130中的具体内容已经通过图3中的步骤S300至步骤S360阐述清楚，下面开始阐述图1中的步骤S140。

步骤S140，根据混合文本的语言种类，确定语言编码。

具体地，构建一个包含固定维度的语言嵌入网络Languege embedding的语言编码器，当使用不同的分隔符对混合文本进行分词，通过分隔符的种类可以判断出混合文本中给的语言种类，将语言种类输入语言编码器，得到固定维度的语言编码；当使用相同的分隔符对混合文本进行分词，则将文字字符与语言种类的配对信息输入语言编码器，同样可以得到固定维度的语言编码。与字符嵌入网络类似，语言嵌入网络也采用Embedding层，比如，有L种语言，根据语言列表转为取值是0～(L-1)的整数(共L个)，再转化为输入L维的one-hot向量，通过一个全连接输出10维的向量，此时全连接层完成了Embedding的功能。遍历每一种语言，输入L个L维的one-hot向量[L,L]，输出[L,10]。

步骤S150，根据获取到的指定说话人编号，确定说话人编码。

具体地，构建一个说话人编码器，说话人编码器包含固定维度的说话人嵌入网络Speaker embedding。在混合数据集中包含指定说话人，在已经完成编号的混合数据集中确定指定说话人的编号，将指定说话人编号输入固定维度的说话人嵌入网络Speakerembedding，确定说话人编码。与字符嵌入网络类似，说话人嵌入网络也采用Embedding层，比如，数据集总共有S个说话人，定义超参数说话人嵌入网络的维度为64，采用一个或者更多全连接层(S,64)作为说话人嵌入网络，输入[batch_size,S]，输出说话人编码[batch_size,64]，再复制扩展发音字符长度的维度为[batch_size,64,length]，然后与上文中得到的发音编码[batch_size,256,length]进行拼接为[batch_size,320,length]。说话人嵌入网络是用于提取关于说话人的说话特征并进行编码。

可选地，构建一个风格编码器，风格编码器包括批处理归一化和激活函数的若干层2维卷积神经网络和包含激活函数的若干层循环神经网络。将混合数据集的声音频谱输入风格编码器，进行残差计算和训练，把生成的声音频谱图与真实的声音频谱图进行差值计算，例如，输入[batch_size,80,frame_length]张量，其中80是声音频谱图(梅尔频谱图)的维度，frame_length是每句声音样本转频谱图之后帧长度，经过风格编码器输出风格编码[batch_size,32]，再复制扩展发音字符长度的维度为[batch_size,32,length]然后与上文中得到的说话人编码[batch_size,320,length]进行拼接为[batch_size,352,length]。风格编码包含除了可解释信息以外的难以解释的风格信息，可解释信息包含说话人、语言、文本，难以解释的风格信息包含底噪、背景音等，对混合数据集的声音频谱进行残差编码，可以获得上述难以解释的风格信息，在模型推理阶段，向模型内输入全0可以去除这些噪音信息。

步骤S160，根据发音编码、语言编码以及说话人编码，确定指定语音信息，指定语音信息为指定说话人的主语言和其他语言混合的语音信息。

可选地，参照图4，图4为本申请一些实施例提供的第一编码处理方式的示意图；将发音编码、语言编码和说话人编码直接拼接，得到拼接结果，将拼接结果解码则获得指定语音信息，指定语音信息是指包含指定说话人风格的、主语言和其他语言混合的的语音信息。参照图5，图5为本申请另一些实施例提供的第一编码处理方式的示意图，加入了风格编码参与拼接，并对发音编码进行了关于说话人分类的对抗训练。

可选地，参照图6，图6为本申请一些实施例提供的第二编码处理方式的示意图。假设混合文本的语言种类的数量为L，将发音编码进行编码拓展，得到L组发音编码，在语音编码后分别并列连接L个全连接层得到L个参数，分别控制L组字符发音编码向量与说话人编码进行拼接，语言编码就不参与拼接。这种拼接方式可以精确控制每个字符所用的语言及口音，使最终获得的指定语音信息听起来更加流畅。例如，将从字符嵌入网络输出的发音编码[batch_size,128,length]张量复制L份，整理为[batch_size,L*128,length]张量。构造L组由若干全连接、若干1维卷积神经网络和若干循环神经网络组成的编码器，具体地，1维卷积神经网络的权重参数可以是通过构建新的神经网络来生成，对于语言编码[L,10]，构建一个(10,128*256)的全连接层，得到[L,128*256],整理成[L*256,128]作为这个1维卷积神经网络的权重参数。向1维卷积神经网络输入[batch_size,L*128,length]，将会输出[batch_size,L*256,length]张量，即得到L组编码，根据[batch_size,L,length]对于每个发音字符的语言用one-hot或者加权系数指定，把[batch_size,L*256,length]张量在第二维度上加权累加，最后得到[batch_size,256,length]张量。模型的结构可以由多个全连接、1维卷积神经网络、循环神经网络组成，中间的输入和输出根据网络结构和超参数变化，最后编码器输出[batch_size,256,length]张量，也就是语言编码控制发音编码和说话人编码进行拼接的拼接结果。

具体地，将拼接结果使用声码器解码，声码器可以采用Griffin-Lim算法对拼接结果进行解码，也可以采用包括但不限于WaveNet，WaveRNN，WaveGlow，LPCNet等模型对拼接结果进行解码，解码结果是得到波形音频信号。

需要说明的的是，解码获得波形音频信号后，可以构建一个音频后处理器，对波形音频信号作响度归一化、修整静默、合并语音、插入停顿以及控制语速等处理，最终获得指定语音信息。

步骤S170，构建语音合成模型。

参照图7，图7为本申请一些实施例提供的语音合成训练阶段的示意图。在语音合成模型的训练阶段，根据基于注意力机制的自编码-解码模型重新构建一个发音字符与语言编码器和一个说话人风格编码器。发音字符与语言编码器包含上述发音字符编码器和语言编码器，说话人风格编码器包含上述说话人编码器和风格编码器。基于注意力机制的自编码-解码模型可以是Tacotron模型，也可以是Tacotron2模型，也可以是与Tacotron系列类似的模型。发音字符与语言编码器用于根据混合文本确定发音编码，并根据混合文本的语言种类确定语言编码。说话人风格编码器用于根据获取到的指定说话人编号，确定说话人编码。对发音编码、语言编码、说话人编码进行拼接，或者根据语言编码对发音编码、说话人编码进行拼接。构建基于注意力机制-解码模型的解码器，解码器包括基于注意力机制的循环神经网络、多层循环神经网络、多层1维卷积神经网络、全连接神经网络和循环神经网络，将得到的拼接结果输入基于注意力机制-解码模型的解码器，输出声音频谱，声音频谱包括但不限于线性频谱、梅尔频谱等。该语音模型可以自主学习多种语言的韵律预测、时长预测、说话人预测、风格预测。对比声音频谱与混合数据集中样本的频谱，计算损失函数，反向传播下降梯度，同时更新说话人风格编码器和注意力机制-解码模型的权重参数，直到经过预设训练次数，损失函数的值始终位于预设的阈值区间内，则表明语音合成模型达到收敛，完成语音合成模型的训练，可以进行语音合成模型的推理。

参照图8，图8为本申请一些实施例提供的语音合成模型推理阶段的示意图。在语音合成模型的推理阶段，向语音合成模型输入指定说话人编号，以及混合文本。指定说话人编号作为说话人风格编码器的说话人风格输入，输出说话人编码；混合文本经过处理后得到混合序列，输入发音字符与语言编码器，输出发音编码和语言编码。对上述两者输出的编码向量进行拼接后，作为注意力机制的自编码-解码模型的解码器的输入进行解码，模型输出声音频谱，声音频谱包括但不限于线性频谱、梅尔频谱等。解码器输出的声音频谱经过声码器和音频后处理器处理，输出指定语音信息。

通过步骤S100至步骤S170，在特定说话人仅能说一种语言的情况下，通过本发明合成其他语言或多种语言混合的语音，句子内语言之间的切换自然流畅，合成的声音特征与特定说话人的保持一致，达到将特定说话人的说话内容以另外一种指定的语言说出来，声音与原说话人一致的效果。另外，本申请实施例可以实现端到端模型，由于说话人风格编码器与注意力机制-解码模型同时训练，因此不需要提前训练一个关于说话人身份的网络模型，也不需要提供参考语音进行推理，只需要混合文本进行发音标注，并获取指定说话人编号即可实现跨语言语音合成。

参照图9，图9为本申请一些实施例提供的一种语音合成系统900，该系统900包括获取模块910、编码模块920和语音信息生成模块930。获取模块910用于获取混合数据集以及混合文本；编码模块920用于确定发音编码、语言编码及说话人编码；语音信息生成模块930用于根据发音编码、语言编码以及说话人编码，确定指定语音信息。通过该语音合成系统，能够在指定说话人只能提供一种语言语音数据的情况下，合成指定说话人其他语言的语音。

参考图10，图10为本申请一些实施例提供的一种装置1000，该装置1000包括至少一个处理器1010，还包括至少一个存储器1020，用于存储至少一个程序；图10中以一个处理器1010及一个存储器1020为例。

处理器1010和存储器1020可以通过总线或者其他方式连接，图10中以通过总线连接为例。

存储器1020作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器1020可以包括高速随机存取存储器1020，还可以包括非暂态存储器1020，例如至少一个磁盘存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中，存储器1020可选包括相对于处理器1010远程设置的存储器1020，这些远程存储器1020可以通过网络连接至该装置1000。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请的另一个实施例还提供了一种装置1000，该装置1000可用于执行如上任意实施例中的控制方法，例如，执行以上描述的图1中的方法步骤S100至S170。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种语音合成方法，其特征在于，包括：

获取混合数据集，所述混合数据集包括多个说话人及多种语言的语音样本；

将所述混合数据集的每个说话人进行编号；

根据所述混合数据集获取混合文本；

获取所述混合文本的发音编码；

根据所述混合文本的语言种类，确定语言编码；

根据获取到的指定说话人编号，确定说话人编码；

根据所述发音编码、所述语言编码以及所述说话人编码，确定指定语音信息，所述指定语音信息为指定说话人的主语言和其他语言混合的语音信息。

2.根据权利要求1所述的语音合成方法，其特征在于，所述根据所述发音编码、所述语言编码以及所述说话人编码，确定指定语音信息，具体为：

将所述发音编码、所述语言编码以及所述说话人编码进行拼接，得到拼接结果，并根据所述拼接结果解码，确定指定语音信息；

或者，

获取所述混合文本的语言种类数量；

对所述发音编码进行编码拓展，得到若干所述发音编码，所述发音编码的数量与所述语言种类数量一致；

根据所述语言编码，以及层数与所述发音编码数量一致的全连接层，控制若干所述发音编码与所述说话人编码进行拼接，得到所述拼接结果，并将所述拼接结果解码，确定指定语音信息。

3.根据权利要求1所述的语音合成方法，其特征在于，所述获取所述混合文本的发音编码，包括：

对所述混合文本进行分句处理，并进行标点符号转换；

对所述混合文本进行分词处理，并在所述混合文本中的任意相邻两个词语之间添加分隔符；

将所述混合文本中的缩写词语转换为完整词语；

将所述混合文本中的字符转换成与字符列表相应的小写字母或者大写字母；

将所述混合文本中的数字转换成以所述主语言表达的形式；

根据混合语言发音规则，确定所述混合文本的发音，得到所述混合文本和所述混合文本发音的混合序列；

将所述混合序列输入字符嵌入网络、若干层全连接层、若干个1维卷积神经网络以及若干层循环神经网络，得到所述发音编码。

4.根据权利要求3所述的语音合成方法，其特征在于，所述在所述混合文本中的任意相邻两个词语之间添加分隔符，包括：

在所述混合文本中的任意相邻两个词语之间添加不同分隔符；其中，分隔符种类表征所述混合文本的语言种类；

或者，

在所述混合文本中的任意相邻两个词语之间添加相同的分隔符；

根据所述分词处理后的混合文本以及所述相同的分隔符，获得配对信息；其中，所述配对信息表征所述混合文本的语言种类；

向所述混合文本中加入所述配对信息。

5.根据权利要求3所述的语音合成方法，其特征在于，所述根据混合语言发音规则，确定所述混合文本的发音，得到所述混合文本和所述混合文本发音的混合序列，还包括：

获取一个随机数；所述随机数的数值范围为0到1；

当所述随机数大于预设的概率阈值，则将当前单词以指定形式进行发音标注，并输入所述混合序列。

6.根据权利要求1所述的语音合成方法，其特征在于，所述方法还包括：

根据所述混合数据集获取声音频谱；

利用多层2维卷积神经网络和多层循环神经网络，对所述声音频谱进行残差编码，得到风格编码；

根据所述发音编码、所述语言编码、所述说话人编码以及所述风格编码，确定指定语音信息。

7.根据权利要求1所述的语音合成方法，其特征在于，所述方法还包括：

将所述发音编码输入梯度逆转层以及全连接层进行关于说话人分类的对抗训练，并提取与说话人信息无关的发音编码。

8.根据权利要求1所述的语音合成方法，其特征在于，所述方法还包括：

构建语音合成模型，所述语音合成模型包括：基于注意力机制的发音字符与语言编码器、基于注意力机制-解码模型的说话人风格编码器、基于注意力机制-解码模型的解码器和声码器；

所述发音字符与语言编码器包含语言嵌入网络、字符嵌入网络、多层全连接和1维卷积神经网络以及多层循环神经网络，所述发音字符与语言编码器用于根据所述混合文本确定所述发音编码，并根据所述混合文本的语言种类确定所述语言编码；

所述说话人风格编码器包含说话人嵌入网络，所述说话人风格编码器用于根据获取到的指定说话人编号，确定所述说话人编码；

所述解码器用于将所述发音编码、所述语言编码和所述说话人编码的拼接结果进行解码，或者对所述发音编码和所述说话人编码的拼接结果进行编码，获得所述声音频谱；

所述声码器用于根据所述声音频谱获取所述指定语音信息。

9.一种语音合成系统，其特征在于，包括：

获取模块，用于获取混合数据集以及所述混合文本；

编码模块，用于确定发音编码、语言编码及说话人编码；

语音信息生成模块，用于根据所述发音编码、所述语言编码以及所述说话人编码，确定指定语音信息。

10.一种装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-8中任一项所述的语音合成方法。