CN114613353A

CN114613353A - 语音合成方法、装置、电子设备及存储介质

Info

Publication number: CN114613353A
Application number: CN202210307720.7A
Authority: CN
Inventors: 刘鹏飞; 蒋宁; 吴海英; 王洪斌; 刘敏
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-06-10
Anticipated expiration: 2042-03-25
Also published as: CN114613353B

Abstract

本申请公开语音合成方法、装置、电子设备及存储介质，获取目标文本的第一特征矩阵，第一特征矩阵包括每个词语的音素和每个词语的多种类型的第一声学特征，第一声学特征用于表征根据文本内容确定的词语对应音素发音。获取每个词语对应音素的第一声学特征和目标文本中其他词语的第一声学特征间的第一关联程度及每个词语对应音素的各种类型的第一声学特征间的第二关联程度。通过第一关联程度和第二关联程度可量化一个词语对应音素的发音受到其他词语对应音素的影响，及每个词语对应音素的一种类型的第一声学特征受到其他类型的影响，通过对各个词语对应音素及各种类型声学特征的处理可使合成语音前后词语的发音衔接更加流畅、具有韵律感。

Description

语音合成方法、装置、电子设备及存储介质

技术领域

本申请涉及文本转语音技术领域，尤其涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术

语音合成是通过机械的或电子的方法产生人造语音的技术，又叫“从文本到语音”技术(Text to Speech，TTS)，TTS技术隶属于语音合成的一种，它是将计算机自己产生或外部输入的文字信息转变为可以听得懂的、流利的口语语音输出的技术。但现在合成的语音发音僵硬、缺少韵律感，与真实语音相去甚远。

发明内容

鉴于上述问题，本申请提出了一种语音合成方法、装置、电子设备及存储介质，能解决上述问题。

第一方面，本申请实施例提供了一种语音合成方法，所述方法包括：获取目标文本对应的第一特征矩阵，所述第一特征矩阵包括每个词语的音素和每个词语的多种类型的第一声学特征，所述第一声学特征用于表征根据该词语的文本内容确定的该词语对应音素的发音；获取每个词语的第一声学特征与该词语对应的第一参考特征之间的第一关联程度，每个词语的第一参考特征用于表征所述目标文本中该词语之外的其余每个词语对应音素的发音；获取每个词语中多种类型的第一声学特征之间的第二关联程度；基于所述第一特征矩阵、所述第一关联程度以及第二关联程度确定所述目标文本的目标语音。

第二方面，本申请实施例提供了一种语音合成装置，所述装置包括：文本处理模块、第一关联模块、第二关联模块以及语音生成模块。其中，文本处理模块，用于获取目标文本对应的第一特征矩阵，所述第一特征矩阵包括每个词语的音素和每个词语的多种类型的第一声学特征，所述第一声学特征用于表征根据该词语的文本内容确定的该词语对应音素的发音；第一关联模块，用于获取每个词语的第一声学特征与该词语对应的第一参考特征之间的第一关联程度，每个词语的第一参考特征用于表征所述目标文本中该词语之外的其余每个词语对应音素的发音；第二关联模块，用于获取每个词语中多种类型的第一声学特征之间的第二关联程度；语音生成模块，用于基于所述第一特征矩阵、所述第一关联程度以及第二关联程度确定所述目标文本的目标语音。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行上述方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法。

第五方面，本申请实施例提供了一种包含指令的计算机程序产品，其特征在于，所述计算机程序产品中存储有指令，当其在计算机上运行时，使得计算机实现上述方法。

可以看出，在本申请实施例中，在将文本合成为语音时，可以首先获取目标文本对应的第一特征矩阵，其中，第一特征矩阵包括每个词语的音素和每个词语的多种类型的第一声学特征，第一声学特征可以用于表征根据每个词语的文本内容确定的该词语对应音素的发音。接着获取每个词语的第一声学特征和该词语对应的第一参考特征之间的第一关联程度，以及每个词语的各种类型的第一声学特征之间的第二关联程度，其中，每个词语的第一参考特征用于表意该目标文本中除该词语之外的其余每个词语对应音素的发音。然后根据第一特征矩阵、第一关联程度和第二关联程度确定目标文本的目标语音。在本申请的实施例综合第一特征矩阵、第一关联程度以及第二关联程度所生成的目标语音，不仅仅是由包括了目标文本中每个词语对应音素和各种类型的第一声学特征的第一特征矩阵所生成，通过第一关联程度和第二关联程度还考虑到了每个词语对应音素的发音受到的其他词语的对应音素的发音的影响，以及每个词语的一种类型的第一声学特征受到的其他类型的第一声学特征的影响，通过对各个词语的各种不同类型的声学特征的处理可以使最终合成的语音中前后词语的发音衔接更加流畅且更加具有韵律感，最终达到接近于真实语音的目的。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的语音合成方法的一种应用环境示意图；

图2示出了本申请一实施例提供的语音合成方法的流程示意图；

图3示出了本申请又一实施例提供的语音合成方法的流程示意图；

图4示出了本申请另一实施例提供的语音合成方法的流程示意图；

图5示出了本申请一实施例提供的多层感知机模型的模型架构示意图；

图6示出了本申请一实施例提供的TTS模型的模型架构示意图；

图7示出了本申请一实施例提供的TTS模型的编码器模块的架构示意图；

图8示出了本申请一实施例提供的TTS模型的编码器模块内的数据处理过程的示意图；

图9示出了本申请再一实施例提供的语音合成方法的流程示意图；

图10示出了本申请一实施例提供的语音合成方法的处理过程示意图；

图11示出了本申请另一实施例提供的TTS模型的模型架构示意图。

图12示出了本申请一实施例提供的目标语音的波形示意图；

图13示出了本申请另一实施例提供的语音合成方法的处理过程示意图；

图14示出了本申请一实施例提供的语音合成装置的模块框图；

图15示出了本申请一实施例提供的电子设备的结构框图；

图16示出了本申请一实施例提供的计算机可读存储介质的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

语音合成是将一段文字转换为与文字对应的一段语音，是通过机械或电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)是人机对话的一部分，其目的是让机器能够将文本输出转化为语音输出。

TTS技术同时运用了语言学和机器学习，通过神经网络的设计，把文字智能地转化为语音流。TTS是语音合成应用的一种，对文本文件进行实时转换，转换时间之短可以秒计算。TTS不仅能帮助有视觉障碍的人阅读计算机上的信息，更能增加文本文档的可读性。TTS应用包括语音驱动的邮件以及声音敏感系统，并常与声音识别程序一起使用。但是，现在合成的语音发音僵硬、缺少韵律感，与真实语音相去甚远，在实际应用时很难被用户接收。

为解决上述问题，本申请发明人经过仔细研究后发现，现在合成语音的发音仅仅是将文本中每个词语的读音念出来，而完全未考虑到各个词语组合为一段文本时可能存在变音、连读等情况，更加未考虑到不同的声学特征之间也可能相互影响，比如词语间停顿时长越长可能会使前后词语的音调降低等等，这些均会影响语音是否自然。因此，本申请为了使一段语音中前后词语的发音衔接更加流畅且更加具有韵律感，可以将每个词语对应音素的发音受到的其他词语对应音素的发音的影响，以及每个词语的一种类型的第一声学特征受到的其他类型的第一声学特征的影响纳入考虑，并且在合成语音时将分别使用第一关联程度和第二关联程度来量化这两种影响，经过验证表明通过对各个词语的各种不同类型的声学特征的处理可以使最终合成的语音更加接近于真实语音。

为了更好理解本申请实施例提供的一种语音合成方法、装置、电子设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了本申请一实施例提供的语音合成方法的一种应用环境示意图。示例性地，本申请实施例提供的语音合成方法、装置、电子设备及存储介质可以应用电子设备，其中，电子设备例如可以是图1中所示的服务器110，服务器110可以通过网络120与终端设备(如图1中所示智能手机131、平板电脑132和便携式计算机133中的一种或多种，当然也可以是台式计算机等)相连。其中，网络120用以在服务器110和终端设备之间提供通信链路的介质。网络可以包括各种连接类型，例如有线通信链路、无线通信链路等等，本申请实施例对此不作限制。

应该理解，图1中的服务器110、网络120以及终端设备的数目仅仅是示意性的。根据实现需要，可以具有任意数目的服务器、网络和终端设备。示例性地，服务器110可以是物理服务器，也可以是由多个服务器组成的服务器集群等。可以理解的是，本申请的实施例还可以允许多台终端设备同时接入服务器110。

在本申请的一些实施例中，该语音合成方法可以由服务器110执行。在一些实施例中，终端设备可以通过网络120向服务器110发送文本数据，在服务器110接收到这些文本数据后，可以通过本申请实施例所述的语音合成方法将这些文本数据输出为语音。可选地，服务器110还可以接收终端设备发送的包含文本的图片数据等，服务器110将这些图片数据识别为文本后，再将这些文本输出为语音。

例如，在用户通过终端设备浏览新闻网站时，可以将浏览的新闻页面发送给服务器110，然后服务器110可以通过识别该新闻页面内的文字、图像等文本内容，将这些文本内容合成为语音。进一步地，在合成得到语音后，服务器110可以将语音发送给终端设备，终端设备通过驱动语音播放装置播放这些语音。

可选地，在另一些实施例中，电子设备也可以是智能手机、笔记本电脑等等，此时，电子设备可以将其他设备发送的文本数据合成为语音，电子设备也可以获取自身产生的文本或者正在显示的文本并将这些文本合成为语音，本申请实施例对文本数据的来源不作限制。

上述应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的语音合成方法、装置、电子设备及存储介质进行详细说明。

请参阅图2，其示出了本申请一实施例提供的语音合成方法的流程示意图。下面将针对图2所示的流程进行详细的阐述，所述语音合成方法具体可以包括如下步骤：

步骤S210：获取目标文本对应的第一特征矩阵，所述第一特征矩阵包括每个词语的音素和每个词语的多种类型的第一声学特征，所述第一声学特征用于表征根据该词语的文本内容确定的该词语对应音素的发音。

在一些实施例中，目标文本可从终端设备获取。可选地，目标文本可以是用户通过终端设备的页面浏览的新闻页面、文章、论文等等文本数据。可选地，目标文本也可以是由终端设备获取的用户输入的文本数据，或者终端设备获取的用户选中的文本数据等等。可选地，目标文本还可以是从图像、视频等等类型的多媒体数据中获取的文本数据。本申请实施例对目标文本的来源不作限制。

其中，词语的音素是根据语音的自然属性划分出来的最小语音单位，可以依据音节里的发音动作来分析得到词语的音素，一个音素可以对应一个发音动作。音素可以包括元音与辅音。可选地，特定的音素对应特定的唇部特征、表情特征或者肢体特征等。在本申请的实施例中，声学特征可以是表示语音的声学特性的物理量，也是声音诸要素声学表现的统称，因此声学特征可以有不同的类型。声学特征例如可以包括描述声音的响度的音量、描述声音高低的音调、表示不同说话人的音色以及决定说话快慢的语音时长等等。可以理解的是，不同类型的声学特征所对应的语音具有不同的特点，因此所对应的发音动作也各有不同。在本申请的实施例中声学特征可以表示某种声学特征的特征值大小。其中，将文本中的一个词语转换为语音时，可以首先确定该词语对应的音素，再根据该词语对应的音素确定该词语对应的语音。也就是说，词语的音素与词语的发音相关。在一些实施方式中，可以将一个词语的音素的发音作为该词语的发音。因此，若要得到一个词语对应的语音，则可以通过确定该词语对应音素的发音的声学特征而得到。

对于目标文本的第一特征矩阵，第一特征矩阵所包括的第一声学特征可以表示与目标文本的各个词语的文本内容有关的声学特征的特征值大小，其可以根据对应的词语的文本内容而确定。其中，文本内容有关的声学特征也可以有多种类型，例如可以包括表示各个词语对应音素的发音相关的汉语声调(一声、二声、三声、四声及轻声)，文本中各个词语的停顿时长等等，即第一声学特征也可以有多种类型，第一声学特征的类型例如可以包括声调、停顿时长等与文本内容相关的一种或多种声学特征。

在一些实施方式中，可以首先根据词语与音标之间的对应关系对目标文本中的每个词语标记音素，并且根据每个词语对应的音调或各个词语之间的朗读的停顿时长对目标文本中的每个词语标记韵律，得到目标文本的目标音素序列。接着，再将目标音素序列中的各个词语的音素、音调及停顿时长提取第一声学特征。示例性地，可以根据各个特征类型和各个特征类型对应的特征值对每个词语对应音素进行分解，以得到每个词语在各个特征类型的声学特征上的特征分量，从而可以对同一个词语的音素统计得到不同类型的第一声学特征，如音调对应的第一声学特征及停顿时长对应的第一声学特征等等。

例如，以中文文本为例，可以对目标文本中的每个汉字标注汉语拼音得到每个词语的音素，使用数字区分不同的汉语语调以及停顿时长以完成韵律标记，最终得到目标文本的目标音素序列。例如，目标文本为“韩国最大的岛屿济州岛。”对应的目标音素序列可以为“han2 guo2 7 zui4 da4 de5 7 dao6 yu6 7 ji3 zhou1 dao3。$”，其中，每个拼音后紧跟着的数字表示音调，其中，1表示一声，2表示二声，3表示三声，4表示四声，5表示轻音，如han2这个拼音后面的2表示二声，变音6，7、8、9代表韵律，即停顿时长，7表示停顿较短，9表示停顿较长，8居中。示例性地，可以通过音素嵌入(phoneme embedding)将目标音素序列中的每个词语的音素处理为音素向量，然后将音素向量作为第一声学特征。

可以理解的是，对于不同语言体系的目标文本，可以根据该语言体系中词语与音标之间的对应关系对目标文本中的每个词语标记音素，如英文文本则可以通过英文音标标记音素等等。

步骤S220：获取每个词语的第一声学特征与该词语对应的第一参考特征之间的第一关联程度，每个词语的第一参考特征用于表征所述目标文本中该词语之外的其余每个词语对应音素的发音。

一个词语对应音素的发音，可能会影响到另一个词语对应音素的发音。其中，由前述实施例可知，将一个词语转换为语音时，该语音对应的可能存在多种类型的第一声学特征。

需要说明的是，一个音素可以对应一个发音动作，而一个发音动作所发出的语音也具有一定的波形规律，例如词语“啊”对应的音素为“a”，具有一个标准发音“啊(一声)”。但是在具体的目标文本中，由于两个词语之间可能存在的连读、词语所表示情绪的变化等情况，造成每个词语对应音素在具体的目标文本中的发音与该音素的标准发音相比可能存在变化，例如词语“啊”在不同的语境中可能发音为“啊(二声)”。因此，在将目标文本合成为语音时，可以一个词语对应音素的发音对另一个词语对应音素的发音的影响力度纳入考虑。

因此，在本申请的实施例中，可以使用第一关联程度表示每个词语对应音素的发音与该词语对应的第一参考特征之间是否存在关联以及关联程度的高低，其中，每个词语对应的第一参考特征为目标文本中除该词语之外的其余每个词语对应音素的发音。

需要说明的是，第一声学特征包括多种类型，第一关联程度可以表示每个词语的一种类型的第一声学特征与该词语之外的其余每个词语的同类型的第一声学特征之间的关联程度，也可以表示每个词语的一种类型的第一声学特征与该词语之外的其余每个词语的不同类型的第一声学特征之间的关联程度，本申请实施例对此不作限制。示例性地，对于目标文本“韩国最大的岛屿济州岛。”，第一特征矩阵中包括音调对应的第一声学特征及停顿时长对应的第一声学特征两种类型，则词语“韩国”的第一关联程度可以包括音调对应的第一关联程度以及停顿时长对应的第一关联程度。其中，音调对应的第一关联程度可以表示词语“韩国”中音调对应的第一声学特征与目标文本中除“韩国”以外的其他每个词语中音调对应的第一声学特征之间的关联程度，还可以表示词语“韩国”中音调对应的第一声学特征与目标文本中除“韩国”以外的其他每个词语中停顿时长对应的第一声学特征之间的关联程度。

作为一种实施方式，第一关联程度越高，表示该词语对应音素的发音受到其余词语对应音素的发音的影响力度越大。示例性地，第一关联程度可以分为正向关联和负向关联。若第一关联程度为正向关联，则表示一个词语的第一声学特征受另一个词语的第一声学特征正向影响，即该词语的第一声学特征会受到另一个词语的第一声学特征的影响而导致该词语的第一声学特征增大。比如，以第一声学特征为音量为例，上述目标文本中词语“岛屿”的音量增大，将使“济州岛”的音量增大等等；若第一关联程度为负向关联，则表示一个词语对应音素的发音对另一个词语对应音素的发音为负向影响，即该词语的第一声学特征会受到另一个词语的第一声学特征的影响而导致该词语的第一声学特征降低。比如词语“岛屿”的停顿时长增长，将使“济州岛”的音量减小等等，即第一声学特征包括停顿时长和音量。由此可以看出，两个词语的相同类型的第一声学特征和不同类型的第一声学特征之间都可以互相影响。

可以理解的是，每个词语的第一关联程度与目标文本所处的语境有关，如目标文本所表达的情绪相关等等。如在舒缓、放松的情绪下朗读目标文本“韩国最大的岛屿济州岛。”，则每个词语之间的停顿时长较长，则同时将会降低音量。具体地，可以预先根据当前的使用场景和使用需求设定不同词语的第一声学特征之间的关联程度，即第一关联程度。

示例性地，可通过对一个词语对应音素的发音对另一个词语对应音素的发音的影响进行打分的方式量化影响的力度，并且分值为正数表示为正向影响，分值为负数表示为负向影响，此时第一关联程度相当于打分的分值，打分的分值越高，即该词语对应的第一关联程度越大，表示该词语对应音素的发音受到目标文本中该词语之外的其余每个词语对应的第一声学特征的影响力度越大。

在一些实施方式中，可以将多个文本数据和文本数据对应的语音作为训练数据，使用训练数据对多层感知机模型进行训练，使得多层感知机模型可以根据不同语境下的发音习惯学习到文本中每个词语对应音素的发音与其他词语对应音素的发音之间的关联程度，从而得到第一关联程度。

步骤S230：获取每个词语中多种类型的第一声学特征之间的第二关联程度。

需要说明的是，对于同一个词语，其不同类型的声学特征之间也可能相互影响，例如由于词语传递的情绪的变化，导致语音放缓，即词语间停顿时长变长，进一步还可能会使前后词语的音调降低等等。

因此，在一些实施方式中，在将目标文本合成为语音时，还可以将不同类型的声学特征相互之间产生的影响纳入考虑。在本申请的实施例中，可以使用第二关联程度表示每个词语的一种类型的第一声学特征与其他类型的第一声学特征之间是否存在关联以及关联程度的高低，与第一关联程度类似，第二关联程度越高，对同一个词语而言，表示这两种类型的第一声学特征之间的影响力度越大。类似地，第二关联程度也可以分为正向关联和负向关联。若第二关联程度为正向关联，则表示同一个词语一种类型的声学特征对另一种类型的声学特征为正向影响，比如上述目标文本中词语“岛屿”的音量增大，将使“岛屿”的音调升高等等；若第二关联程度为负向关联，则表示同一个词语一种类型的声学特征对另一种类型的声学特征为负向影响，比如词语“岛屿”的停顿时长增长，将使“岛屿”的音量减小等等。类似地，每个词语的第二关联程度也可能与目标文本所处的语境有关，如目标文本所表达的情绪相关等等，具体地，可以预先根据当前的使用场景和使用需求设定同一个词语的不同类型的第一声学特征之间的关联程度，即第二关联程度。

示例性地，可通过对每个词语的一种类型的第一声学特征受到的其他类型的第一声学特征的影响力度进行打分的方式量化影响的力度，并且分值为正数表示为正向影响，分值为负数表示为负向影响，此时第二关联程度相当于打分的分值，打分的分值越高，即该词语对应的第二关联程度越大，表示该词语的一种类型的第一声学特征受到的其他类型的第一声学特征的影响力度越大。

在一些实施方式中，可以将多个文本数据和文本数据对应的语音作为训练数据，使用训练数据对多层感知机模型进行训练，使得多层感知机模型可以根据不同语境下的发音习惯学习到文本中每个词语中多种类型的第一声学特征之间的关联程度，从而得到第二关联程度。

步骤S240：基于所述第一特征矩阵、所述第一关联程度以及第二关联程度确定所述目标文本的目标语音。

在一些实施方式中，可以根据第一关联程度和第二关联程度调整第一特征矩阵中的各个词语对应的第一声学特征，再根据调整后的第一特征矩阵确定目标文本的目标语音。

第一特征矩阵中第一声学特征代表了根据目标文本中各个词语的文本内容确定的各个词语对应音素的发音，相当于对每个词语标记了音素后，根据该音素的发音(如标准发音)提取得到的声学特征。若直接根据此时的第一特征矩阵生成目标语音，则生成的目标语音相当于直接将目标文本中每个词语的读音平铺直叙地念出来，发音非常僵硬、缺少韵律感。基于前述实施例的内容可以知道，第一关联程度和第二关联程度可以量化每个词语对应音素的发音受到的其他词语对应音素的发音的影响，以及每个词语的一种类型的第一声学特征受到的其他类型的第一声学特征的影响。

因此，作为一种实施方式，根据第一关联程度和第二关联程度调整第一特征矩阵中各个词语的第一声学特征，可以达到调整目标文本中每个词语的发音的目的，最终使合成的语音中前后词语的发音衔接更加流畅且更加具有韵律感。

具体地，该调整方式可以是，结合当前的语义环境，基于预先确定的该语义环境下，不同词语之间的第一声学特征的第一关联程度和同一个词语的不同类型的第一声学特征的第二关联程度，对基于S210确定的第一声学特征(可以命名为初始第一声学特征)更新。还可以是预先基于第一关联程度和第二关联程度设定好数学模型(例如，映射关系)或者权重矩阵等方式，对初始的音频数据调整，以得到目标语音，具体的方式在此不做限定，主要是基于前述的第一关联程度和第二关联程度对第一特征矩阵的调整都属于本申请的发明构思。

综合第一特征矩阵、第一关联程度以及第二关联程度所生成的目标语音，不仅仅是由包括了目标文本中每个词语对应的音素和第一声学特征的第一特征矩阵所生成，通过第一关联程度和第二关联程度还考虑到了每个词语对应音素的发音受到的其他词语对应音素的发音的影响力度，以及每个词语的一种类型的第一声学特征受到的其他类型的第一声学特征的影响力度，通过对每个词语的各种不同类型的声学特征的处理可以使最终合成的语音中前后词语的发音衔接更加流畅且更加具有韵律感，最终达到接近于真实语音的目的。

在本申请的一些实施方式中，可选地，本实施例在上述实施例的基础上，在合成目标文本的目标语音时，可以基于第一关联程度以及第二关联程度更新第一特征矩阵中每个词语的第一声学特征，得到第二特征矩阵，接着基于第二特征矩阵得到目标语音。

具体地，请参阅图3，其示出了本申请又一实施例提供的语音合成方法的流程示意图。上述步骤S240还可以包括如下步骤：

步骤S310：基于所述第一关联程度以及第二关联程度更新所述第一特征矩阵中每个词语对应的第一声学特征，得到所述第二特征矩阵，所述第二特征矩阵包括每个词语对应的音素和第二声学特征，所述第二声学特征为更新后的所述第一声学特征。

在本申请的实施例中，可以根据第一关联程度和第二关联程度更新第一特征矩阵中每个词语的第一声学特征，将更新后的第一声学特征作为第二声学特征，将更新后的第一特征矩阵作为第二特征矩阵。需要说明的是，第二特征矩阵中的第二声学特征不仅考虑到了目标文本的第一声学特征，还考虑到了目标文本中每个词语对应音素的发音受到的目标文本中除该词语以外的其余每个词语对应音素的影响力度，以及每个词语的一种类型的声学特征受到的其他类型的声学特征的影响力度，因此第二声学特征所表征的第二声学特征不仅仅可以体现出目标文本中各个词语的标准发音，还能体现出连读、词语所表示情绪的变化等情况以及一种声学特征对另一种声学特征的影响力度等等，最终根据第二声学特征组成的第二特征矩阵所生成的目标语音能够更加流畅、自然，更加贴近于真实语音。

进一步地，在一些实施方式中，可以将第一特征矩阵输入到编码器模块，然后在多层编码器模块中根据第一关联程度、第二关联程度和第一特征矩阵确定第二特征矩阵。具体地，请参阅图4，其示出了本申请另一实施例提供的语音合成方法的流程示意图，步骤S310可以包括如下步骤：

步骤S410：基于所述第一关联程度确定第一权重矩阵，所述第一权重矩阵包括每个词语对应的第一关联程度的第一权重。

步骤S420：基于所述第二关联程度确定第二权重矩阵，所述第二权重矩阵包括每个词语中的多种类型的第一声学特征之间的第二关联程度的第二权重。

在一些实施方式中，编码器模块可以由多层感知机模型构成，而多层感知机模型可以基于多层感知机而构建。请参阅图5，其示出了本申请一实施例提供的多层感知机模型的模型架构示意图。在本申请的实施例中，多层感知机模型可以由多层感知机(MLP，Multilayer Perceptron)、激活函数GELU(Gaussian error linear units，高斯误差线性单元)、Dropout、另一个MLP以及另一个Dropout顺次组成。其中，Dropout用于在多层感知机模型进行前向传播的时候，让多层感知机的神经元的激活值以一定的概率p停止工作，Dropout可以用于解决机器学习模型过拟合的问题。

在本申请的一些实施例中，可以使用两个多层感知机模型构建编码器模块，其中，一个多层感知机模型的权重矩阵为第一权重矩阵，如图6所示的第一模块，另一个多层感知机模型的权重矩阵为第二权重矩阵，如图6所示的第二模块。也就是说，编码器模块包括第一模块和第二模块，第一模块和第二模块均由多层感知机模型组成，多层感知机模型的模型架构例如可以如图5所示。其中，第一模块对应的多层感知机模型的权重矩阵为第一权重矩阵，第二模块对应的多层感知机模型的权重矩阵为第二权重矩阵。

步骤S430：将所述第一特征矩阵与所述第一权重矩阵相乘之后再与第二权重矩阵相乘，得到第二特征矩阵。

在将目标文本合成为目标语音时，首先可以将第一特征矩阵输入到上述编码器模块中。在根据第一关联程度确定了第一权重矩阵，并且根据第二关联程度确定了第二权重矩阵之后，编码器模块的第一模块可以用于将第一特征矩阵和第一权重矩阵相乘之后将相乘结果输入到第二模块中，编码器模块的第二模块可以用于将第一模块的输出数据与第二权重矩阵相乘，并将与第二权重矩阵相乘的结果作为第二特征矩阵输出。进一步地，在一些实施例中，编码器模块还可以包括归一化模块。如图7所示，在编码器模块中，可以首先使用归一化模块对输入的第一特征矩阵进行归一化，接着使用第一模块将归一化后的第一特征矩阵和第一权重矩阵相乘之后输出，再次使用归一化模块对第一模块的输出数据进行归一化，并且通过残差结构与将归一化后的第一模块的输出数据与编码器模块的输入数据相加，即是说，将归一化后的第一模块的输出数据与第一特征矩阵相加，接着将残差结构的输出数据，输入到第二模块中进行处理，最终使用归一化模块对第二模块的输出数据进行归一化之后，加上第二模块的输入数据，得到第二特征矩阵。示例性地，归一化模块可以由Layer normalization模块所构成，可以用于对输入该模块的单个数据的所有特征维度做归一化。

可选地，若第一特征矩阵的每一列表示每个词语的第一声学特征，第一特征矩阵的每一行表示同一个词语的各种类型的第一声学特征,而第一权重矩阵中的每个元素表示各词语的第一关联程度的第一权重，即表示的是每个词语对应音素的发音受到的目标文本中该词语之外的其他每个词语对应音素的发音的影响力度，为了使第一特征矩阵和第一权重矩阵可以通过加权和的方式更新每个词语对应的第一声学特征，以得到第二声学特征，因此，在一些实施方式中，可以将第一特征矩阵转置后，再与第一权重矩阵相乘，得到第四特征矩阵，如图8所示。而第二权重矩阵中的每个元素表示各词语的第二关联程度的第二权重，即表示的是每个词语的一种类型的第一声学特征受到的其他类型的第一声学特征的影响力度，为了使第一特征矩阵和第二权重矩阵可以通过加权和的方式更新每个词语的第一声学特征，最终得到第二声学特征，因此，在一些实施例中，可以将上述第四特征矩阵转置后，再与第二权重矩阵相乘，最终得到第二特征矩阵。

示例性地，以词语“韩”(对应的音素为“han”)、“国”(对应的音素为“guo”)为例进行说明，假设，“han”和“guo”均具有“特征1”、“特征2”、“特征3”三种与词语的文本内容相关的第一声学特征。“韩国”对应的第一特征矩阵如下：

其中，按照顺序T₁、T′₁、T″₁各自表示音素“han”对应的“特征1”的第一声学特征、“特征2”的第一声学特征以及“特征3”的第一声学特征；按照顺序T₂、T′₂、T″₂各自表示音素“guo”对应的“特征1”的第一声学特征、“特征2”的第一声学特征以及“特征3”的第一声学特征。

则在将第一特征矩阵转置后，得到：

假设“特征1”对应的第一权重矩阵为

其中，第一列中，w11表示“han”自身的“特征1”对自身的“特征1”的影响力度，w21表示“guo”的“特征1”对“han”的“特征1”的影响力度；第二列中，w12表示“han”的“特征1”对“guo”的“特征1”的影响力度，w22表示“guo”自身的“特征1”对自身的“特征1”的影响力度。假设“特征2”对应的第一权重矩阵为

“特征3”对应的第一权重矩阵为

其中“特征2”和“特征3”对应的第一权重矩阵中每个元素所表示的含义可以参考“特征1”对应的第一权重矩阵中每个元素所表示的含义，在此不再赘述。

则将第一特征矩阵转置后与第一权重矩阵相乘所得到的第四特征矩阵可以表示为：

接着，将第四特征矩阵转置，得到转置后的第四特征矩阵：

假设“han”对应的第二权重矩阵为

其中，第一列中，m11表示“han”的“特征1”对自身的“特征1”的影响力度，m21表示“han”的“特征2”对自身的“特征1”的影响力度，m31表示“han”的“特征3”对“特征1”的影响力度；第二列中，m12表示“han”的“特征1”对“特征2”的影响力度，m22表示“han”的“特征2”对自身的“特征2”的影响力度，m32表示“han”的“特征3”对“特征2”的影响力度；第三列中，m13表示“han”的“特征1”对“特征3”的影响力度，m23表示“han”的“特征2”对“特征3”的影响力度，m33表示“han”的“特征3”对自身的“特征3”的影响力度。假设“guo”对应的第二权重矩阵为

其中“guo”对应的第二权重矩阵中每个元素所表示的含义可以参考“han”对应的第二权重矩阵中每个元素所表示的含义，在此不再赘述。

与第一特征矩阵转置后与第一权重矩阵相乘所得到第四特征矩阵的过程类似，在将上述第四特征矩阵转置后，再与第二权重矩阵相乘，最终得到第二特征矩阵的过程如下：对于第二特征矩阵的第一行，将转置后的第四特征矩阵中的第一行与“han”对应的第二权重矩阵的第一列的各个元素进行加权求和，得到第二特征矩阵的第一行第一列的第二声学特征；将转置后的第四特征矩阵中的第一行与“han”对应的第二权重矩阵的第二列的各个元素进行加权求和，得到第二特征矩阵的第一行第二列的第二声学特征；将转置后的第四特征矩阵中的第一行与“han”对应的第二权重矩阵的第三列的各个元素进行加权求和，得到第二特征矩阵的第一行第三列的第二声学特征……以此类推，计算第二特征矩阵第二行的各个元素对应的第二声学特征。最终，在上述例子中，得到的第二特征矩阵为2行3列的矩阵。

例如，目标文本为“你快走”，音素为“ni”“kuai”“zou”，第一声学特征包括“音量”“音调”以及“停顿时长”，假设“ni”对应的音量为80％，对应的“音调”为3，对应的“停顿时长”为2mS，假设“kuai”对应的音量为80％，对应的“音调”为4，对应的“停顿时长”为2mS，假设“zou”对应的音量为80％，对应的“音调”为3，对应的“停顿时长”为2mS，则目标文本对应的第一特征矩阵为

归一化后转置后的矩阵为

其中，音量采用最大值为1进行归一化，音调采用4进行归一化，停顿时长采用10ms进行归一化。

“音量”对应的第一权重矩阵为

目标文本的整体情绪为一个音量升高的愤怒情绪，第一个音素的音量不受后两个音素的影响，第二个音素的音量受第一个音素的音量的正向关联且受第三个音素的音量的负向关联，第三个音素的音量受第一个音素的音量及第二个音素的音量的正向关联；“音调”对应的第一权重矩阵为

“音调”不受其他音素的音调的影响；“停顿时长”对应的第一权重矩阵为

“停顿时长”不受其他音素的音调的影响。因此将第一特征矩阵转置后与第一权重矩阵相乘所得到的第四特征矩阵为

转置后的第四特征矩阵为

“ni”对应的第二权重矩阵为

“ni”的音量对自己的音量的影响不变，所以权重为1，“ni”的音调对音量没有影响所以权重为0，“ni”的停顿时长对音量的影响正向影响，权重为0.8，得到音量为0.66，即停顿时长导致在原有的音量上增加0.16；以此类推，可以计算得到“ni”的音量及停顿时长对音调的影响得到更新后的音调，“ni”的音量及音调对停顿时长的影响得到更新后的停顿时长。以此类推，“kuai”和“zou”对应的第二权重矩阵均为

则得到第二特征矩阵为

相对于第一特征矩阵以及第四特征矩阵，第二特征矩阵中每个音素的音量及停顿时长均有所上升，因此可以更加强烈地表达出愤怒的情绪。

可选地，如图8所示，在第一特征矩阵输入编码器模块后，在编码器模块内，可以将第一特征矩阵归一化之后再转置，接着在多层感知机模型所构建的第一模块中将归一化之后再转置得到的第一特征矩阵与第一权重矩阵相乘，输出得到第四权重矩阵；接着，将第四权重矩阵归一化之后再转置，接着在多层感知机模型所构建的第二模块中，将归一化之后再转置得到的第四特征矩阵与第二权重矩阵相乘，最后经过归一化之后得到第二特征矩阵。

步骤S320：基于所述第二特征矩阵，得到所述目标文本的目标语音。

在一些实施方式中，在得到第二特征矩阵之后，可以直接将第二特征矩阵映射为目标语音。

在另一些实施方式中，在得到第二特征矩阵之后，根据第二特征矩阵合成目标语音时，还可以先对第二特征矩阵添加预设声学特征对应的预设声学特征，得到第三特征矩阵之后，再根据第三特征矩阵确定目标语音。

具体地，请参阅图9，其示出了本申请再一实施例提供的语音合成方法的流程示意图。步骤S320可以包括如下步骤：

步骤S910：为所述第二特征矩阵的每个词语对应音素添加预设声学特征，得到第三特征矩阵，所述第三特征矩阵包括每个词语对应的音素和第三声学特征，所述第三声学特征为所述第二声学特征与所述预设声学特征融合后的声学特征。

在本实施例中，预设声学特征可以用于表征与文本内容无关和/或与文本内容有关的发音。其中，预设声学特征的类型与第一声学特征的类型不同，预设声学特征例如可以包括例如可以包括音量(energy)、音高(pitch)、语音时长(duration)中的一种或多种，可以由用户自行根据需要而设置。需要说明的是，预设声学特征可以表示预设声学特征的特征值大小，在设置了预设声学特征所包括的具体类型后，还可以根据用户需求对各个预设声学特征设置特征值的大小，以得到预设声学特征。可选地，可以直接在第二特征矩阵中添加对应行或列。示例性地，若第二特征矩阵中每一列表示每个词语的第二声学特征，每一行表示同一个词语的各种类型的第二声学特征对应的第二声学特征，则可以对第二特征矩阵中的每一行添加预设数量个的预设声学特征，其中，预设数量为预设声学特征的类型的数量。

经过前述实施例计算得到“韩国”对应的第二特征矩阵为

其中，第一行对应于音素“han”，S₁表示“han”对应的“特征1”的第二声学特征，S′₁表示“han”对应的“特征2”的第二声学特征……以此类推；第二行对应于音素“guo”，S₂表示“guo”对应的“特征1”的第二声学特征，S′₂表示“guo”对应的“特征2”的第二声学特征……以此类推。

假设添加的预设声学特征可以包括“特征4”和“特征5”，其中，“han”对应的“特征4”的预设声学特征为A1，“特征5”对应的预设声学特征为A₁′；“guo”对应的“特征4”的预设声学特征为A₂，“特征5”对应的预设声学特征为A₂′。则第三特征矩阵可以为：

请再次参见图6，在一些典型的实施例中，可以使用可变信息适配器(VarianceAdaptor，VA)来对第二特征矩阵添加的预设声学特征，得到第三特征矩阵。

步骤S920：基于所述第三特征矩阵，得到所述目标文本的目标语音。

进一步地，在一些实施方式中，可以直接将第三特征矩阵映射为目标语音。示例性地，可以使用编码器模块将第三特征矩阵映射为目标语音。在编码器模块中，可以将第三特征矩阵映射为目标梅尔谱，再将目标梅尔谱映射为目标语音并输出。可选地，本申请实施例中的可变信息适配器可以与FastSpeech2模型的可变信息适配器一致，本申请实施例中的解码器模块也可以与FastSpeech2模型的解码器模块一致，即是说，本申请实施例可以将FastSpeech2模型中的编码器模块替换为本实施例所示的编码器模块，用以实现本实施例所述的方法。

在另一些实施方式中，在得到第二特征矩阵之后，根据第二特征矩阵合成目标语音时，除了可以对第二特征矩阵添加预设声学特征，得到第三特征矩阵，还可以在获取了第三关联程度和第四关联程度之后，根据第三特征矩阵、第三关联程度和第四关联程度确定目标语音。

具体地，请参阅图10，其示出了本申请一实施例提供的语音合成方法的处理过程示意图。步骤S820可以包括如下步骤：

步骤S1010：获取每个词语的第三声学特征与该词语对应的第二参考特征之间的第三关联程度，每个所述词语对应的第二参考特征用于表征所述目标文本中该词语之外的其余每个词语对应音素的发音。

步骤S1020：获取每个词语中多种类型的第三声学特征之间的第四关联程度。

需要说明的是，第三关联程度对应的第三声学特征为在第一声学特征与预设声学特征融合后的特征，然而，第三关联程度的实施方式可以参考前述第一关联程度的实施方式，在此不做赘述，同理，第四关联程度的实施方式可以参考前述第二关联程度的实施方式。

在使用第一关联程度及第二关联程度更新了第一特征矩阵的第一声学特征之后得到第二特征矩阵，而在步骤S810中又对第二特征矩阵添加了预设声学特征得到第三特征矩阵。可以理解的是，每个词语对应的音素新添加的预设声学特征可能对目标文本中该词语之外的其余每个词语新添加的预设声学特征造成影响，同一个词语对应音素新添加的预设声学特征还可能对第二特征矩阵中本来就存在的预设声学特征以外的第二声学特征造成影响。因此，在本申请的实施例中，可以再次获取一个词语的音素的发音对另一个音素的发音的影响力度，由于此时第三特征矩阵中表征每个词语对应音素的发音的声学特征为第三声学特征，且第三声学特征在第一声学而在的基础上添加了预设声学特征，因此，可以重新获取第三关联程度和第四关联程度，并且使用第三关联程度表示每个词语的第三声学特征与该词语对应的第二参考特征之间是否存在关联以及关联程度的高低，其中，每个词语对应的第二参考特征为目标文本中该词语之外的其余每个词语对应的第三声学特征，使用第四关联程度表示每个词语的一种第三声学特征受到的其他类型的第三声学特征的影响力度。

步骤S1030：基于所述第三特征矩阵、所述第三关联程度以及第四关联程度确定所述目标文本的目标语音。

在一些实施方式中，可以首先确定第三特征矩阵、第三关联程度及第四关联程度的组合与目标语音之间的映射关系，然后根据第三特征矩阵、第三关联程度及第四关联程度及该映射关系确定目标语音。

可选地，在根据第三特征矩阵、第三关联程度和第四关联程度得到目标语音时，还可以参考前述实施例中步骤S410至S430的内容，首先基于第三关联程度确定第三权重矩阵，其中第三权重矩阵包括各词语的第三关联程度的第三权重。基于第四关联程度确定第四权重矩阵，第四权重矩阵包括每个词语的各种类型的第三声学特征之间的第四关联程度的第四权重。接着，将第三特征矩阵与第三权重矩阵相乘之后再与第四权重矩阵相乘，得到第五特征矩阵。最后再将第五特征矩阵映射为目标语音。

在另一些实施方式中，可以首先确定第三特征矩阵、第三关联程度及第四关联程度的组合与目标梅尔谱之间的映射关系，根据第三特征矩阵、第三关联程度及第四关联程度及该映射关系确定目标梅尔谱，接着根据目标梅尔谱确定目标语音。

在又一些实施方式中，第三权重矩阵中的第三权重或第四权重矩阵中的第四权重还可以表示第三特征矩阵与目标语音之间的映射关系，则直接经过第三特征矩阵、第三权重矩阵以及第四权重矩阵即可得到目标语音，而无需计算中间值(即上述第五特征矩阵或目标梅尔谱)。

在一些实施方式中，如图11所示，其中解码器模块也可以由第一模块和第二模块组成，其中第一模块和第二模块均由多层感知机模型组成，多层感知机模型的模型架构例如可以如图5所示。与图6中的编码器模块不同的是，解码器模块的输入和输出与编码器模块的输入和输出不同，因此，解码器模块中第一模块和第二模块的处理过程也存在不同。其中，解码器模块的输入可以为第三特征矩阵，解码器模块的输出可以为目标语音。

可以理解的是，本申请实施例可以将FastSpeech2模型中的编码器模块替换为本实施例所示的编码器模块，还可以将FastSpeech2模型中的解码器模块替换为本实施例所示的解码器，用以实现本实施例所述的方法。

具体地，在将目标文本对应的第一特征矩阵经过编码器模块得到第二特征矩阵，再经过可变信息适配器得到第三特征矩阵之后，可以将第三特征矩阵输入到上述解码器模块中。在根据第三关联程度确定了第三权重矩阵，并且根据第四关联程度确定了第四权重矩阵之后，解码器模块的第一模块可以用于将第三特征矩阵和第三权重矩阵相乘之后输出，解码器模块的第二模块可以用于将解码器模块的第一模块的输出数据与第三权重矩阵相乘，并将与第四权重矩阵相乘的结果作为目标语音输出。进一步地，在一些实施例中，解码器模块也可以包括归一化模块。与图7中编码器模块的架构类似，在解码器模块中，可以首先使用归一化模块对输入的第三特征矩阵进行归一化，接着使用解码器模块的第一模块将归一化后的第三特征矩阵和第三权重矩阵相乘之后输出，再次使用归一化模块对解码器模块的第一模块的输出数据进行归一化，并且通过残差结构与将归一化后的解码器模块的第一模块的输出数据与解码器模块的输入数据相加，即是说，将归一化后解码器模块的第一模块的输出数据与第三特征矩阵相加，接着将残差结构的输出数据，输入到解码器模块的第二模块中进行处理，最终使用归一化模块对解码器模块的第二模块的输出数据进行归一化之后，加上解码器模块的第二模块的输入数据，得到目标语音。示例性地，归一化模块也可以由Layer normalization模块所构成，可以用于对输入该模块的单个数据的所有特征维度做归一化。

可选地，若第三特征矩阵的每一列表示每个词语的第三声学特征，第三特征矩阵的每一行表示同一个词语的各种类型的第三声学特征,而第三权重矩阵中的每个元素表示各词语的第三关联程度的第三权重，即表示的是每个词语对应音素的发音受到的目标文本中该词语之外其他每个词语对应音素的发音的影响力度，为了使第三特征矩阵和第三权重矩阵可以通过加权和的方式更新每个词语的第三声学特征，因此，在一些实施方式中，可以将第三特征矩阵转置后，再与第三权重矩阵相乘，得到第六特征矩阵。而第四权重矩阵中的每个元素表示各词语的第四关联程度的第四权重，即表示的是每个词语的一种类型的第三声学特征受到的其他类型的第三声学特征的影响力度，为了使第三特征矩阵和第四权重矩阵可以通过加权和的方式更新每个词语对应的第三声学特征，因此，在一些实施例中，可以将上述第六特征矩阵转置后，再与第四权重矩阵相乘，最终得到目标语音。

示例性地，若目标文本为“韩国最大的岛屿，济州岛”，假设将目标文本标记为目标音素序列，目标音素序列可以为“han2 guo2 7 zui4 da4 de5 7 dao6 yu6 7ji3 zhou1dao3。$”。可选地，可以通过音素嵌入(phoneme embedding)将目标音素序列中的每个词语的音素处理为音素向量，然后将音素向量作为第一声学特征，进而得到第一特征矩阵。则经过前述实施例所示的语音合成方法对目标文本的第一特征矩阵进行处理之后，可以得到目标文本的目标语音。其中，生成目标语音可以如图12所示。

应当说明，本申请实施例中采用多层感知机来将目标文本合成为目标语音，其中，由于多层感知机的参数量和计算复杂度较低，因此在实际使用时，不仅可以将本申请所示的多层感知机模型部署于服务器上，可以将该多层感知机模型部署于性能较低的终端系统上，同时较少的参数量和较低的计算复杂度还可以减少模型的训练时间和实际应用时语音的生成时间，因此使用更加便利。

在本申请的一些实施方式中，可选地，在获取目标文本对应的第一特征矩阵时，可以将第一声学特征与预设声学特征融合，得到声学融合特征，再将第一特征矩阵中的第一声学特征更新为声学融合特征。第一特征矩阵中的第一声学特征更新完成后，再基于第一特征矩阵、第一关联程度以及第二关联程度确定目标文本的目标语音。

具体地，请参阅图13，其示出了本申请另一实施例提供的语音合成方法的处理过程示意图。该方法可以包括如下步骤：

步骤S1310：将所述第一声学特征及预设声学特征融合，得到声学融合特征。

在一些实施例中，在获取了前述实施例中的第一特征矩阵之后，可以首先对该第一特征矩阵添加预设声学特征。

基于此，在本申请的实施例中，预设声学特征的类型与第一声学特征的类型不同，预设声学特征例如可以包括例如可以包括音量(energy)、音高(pitch)、语音时长(duration)中的一种或多种，而预设声学特征可以表示预设声学特征的特征值大小，预设声学特征的设置可以参考步骤S910中对应的过程，本申请实施例对此不再赘述。

步骤S1320：将所述第一特征矩阵中的第一声学特征更新为所述声学融合特征。

在一些实施方式中，可以参考步骤S910中对第二特征矩阵的每个词语对应的音素添加的预设声学特征，得到第三特征矩阵的过程，来说明如何将第一特征矩阵中的第一声学特征更新为声学融合特征。

可选地，可以直接将预设声学特征作为第一特征矩阵新的行或列添加到第一特征矩阵中。示例性地，若第一特征矩阵中每一列表示每个词语的第一声学特征，每一行表示同一个词语对应的各种类型的第一声学特征，则可以保留第一特征矩阵中的各个第一声学特征，在第一特征矩阵中的每一行的行末添加预设数量个的预设声学特征，其中，预设数量为预设声学特征的类型的数量，可以原本的第一声学特征和新添加的预设声学特征统称为声学融合特征，并且原本的第一特征矩阵中第一声学特征的特征值全部更新为声学融合特征的特征值。

步骤S1330：获取每个词语的第一声学特征与该词语对应的第一参考特征之间的第一关联程度，每个词语的第一参考特征用于表征所述目标文本中该词语之外的其余每个词语对应音素的发音。

步骤S1340：获取每个词语中多种类型的第一声学特征之间的第二关联程度。

接着，在获得更新后的第一特征矩阵之后，可以基于更新的第一特征矩阵，获取第一关联程度和第二关联程度。具体过程可以参考前述实施例中的步骤S220和S230，不同的是其中第一特征矩阵为经过上述过程更新后的第一特征矩阵，因此，更新后第一特征矩阵中的声学融合特征不仅包括了根据目标文本的词语的文本内容确定的该词语的第一声学特征，还包括了预设声学特征。

也就是说，此时可以获取每个词语更新后的第一声学特征与该词语对应的更新后的第一参考特征之间的第一关联程度，每个词语更新后的第一参考特征用于表征所述目标文本中该词语之外的其余每个词语对应音素的发音。还可以获取每个词语中更新后的多种类型的第一声学特征之间的第二关联程度。

步骤S1350：基于第一特征矩阵、第一关联程度以及第二关联程度确定目标文本的目标语音。

在一些实施方式中，可以首先确定第一特征矩阵、第一关联程度及第二关联程度的组合与目标语音之间的映射关系，然后根据第一特征矩阵、第一关联程度及第二关联程度及该映射关系确定目标语音。

可选地，可以参考前述实施例中的步骤S310和S320中的内容确定目标语音，不同的是其中第一特征矩阵为经过上述过程更新后的第一特征矩阵。

同样地，在步骤S310中根据更新后的第一特征矩阵、第一关联程度和第二关联程度得到目标语音时，还可以参考前述实施例中步骤S410至S430的内容，首先基于更新后的第一关联程度确定第一权重矩阵，第一权重矩阵包括各词语的第一关联程度的第一权重。接着，基于第二关联程度确定第二权重矩阵，第二权重矩阵包括每个词语的各种类型的第一声学特征之间的第二关联程度的第二权重。再将第一特征矩阵与第一权重矩阵相乘之后再与第二权重矩阵相乘，得到第二特征矩阵。最后再将第二特征矩阵映射为目标语音。

在另一些实施方式中，可以首先确定第一特征矩阵、第一关联程度及第二关联程度的组合与目标梅尔谱之间的映射关系，根据第一特征矩阵、第一关联程度及第二关联程度及该映射关系确定目标梅尔谱，接着根据目标梅尔谱确定目标语音。

在又一些实施方式中，第一权重矩阵中的第一权重或第二权重矩阵中的第二权重还可以表示第一特征矩阵与目标语音之间的映射关系，则直接经过第一特征矩阵、第一权重矩阵以及第二权重矩阵即可得到目标语音，而无需计算中间值(即上述第二特征矩阵或目标梅尔谱)。

可以在编码器模块中获取目标文本的第一特征矩阵，此时第一特征矩阵中的第一声学特征仅仅包括与文本内容相关的第一声学特征，在经过可变信息适配器时，才会将第一特征矩阵中的第一声学特征更新为上述声学融合特征。

可选地，在本申请的一些实施方式中，编码器模块可以由第一模块和第二模块组成，其中第一模块和第二模块均由多层感知机模型组成，多层感知机模型的模型架构例如可以如图5所示。在本实施例中，可以将更新后第一特征矩阵输入到解码器模块中。在根据第一关联程度确定了第一权重矩阵，并且根据第二关联程度确定了第二权重矩阵之后，解码器模块的第一模块可以用于将第一特征矩阵和第一权重矩阵相乘之后输出，解码器模块的第二模块可以用于将第一模块的输出数据与第二权重矩阵相乘，并将与第二权重矩阵相乘的结果作为目标语音输出。进一步地，在一些实施例中，解码器模块也可以包括归一化模块。与图7中的编码器模块类似，在本申请所示的解码器模块中，可以首先使用归一化模块对输入的第一特征矩阵进行归一化，接着使用解码器模块的第一模块将归一化后的第一特征矩阵和第一权重矩阵相乘之后输出，再次使用归一化模块对解码器模块的第一模块的输出数据进行归一化，并且通过残差结构与将归一化后的解码器模块的第一模块的输出数据与编码器模块的输入数据相加，即是说，将归一化后的解码器模块的第一模块的输出数据与第一特征矩阵相加，接着将残差结构的输出数据，输入到解码器模块的第二模块中进行处理，最终使用归一化模块对第二模块的输出数据进行归一化之后，加上第二模块的输入数据，得到目标语音。示例性地，归一化模块可以由Layer normalization模块所构成，可以用于对输入该模块的单个数据的所有特征维度做归一化。

可选地，若更新后的第一特征矩阵的每一列表示每个词语的第一声学特征，第一特征矩阵的每一行表示同一个词语的各种类型的第一声学特征,而第一权重矩阵中的每个元素表示各词语的第一关联程度的第一权重，即表示的是每个词语对应音素的发音受到的目标文本中该词语之外其余词语对应音素的发音的影响力度，为了使第一特征矩阵和第一权重矩阵可以通过加权和的方式更新每个词语对应的第一声学特征，以得到第二声学特征，因此，作为一种实施方式，在解码器模块中，可以将第一特征矩阵转置后，再与第一权重矩阵相乘，得到第四特征矩阵。而第二权重矩阵中的每个元素表示各词语的第二关联程度的第二权重，即表示的是每个词语的一种类型的第一声学特征受到的其他类型的第一声学特征的影响力度，为了使第一特征矩阵和第二权重矩阵可以通过加权和的方式更新每个词语对应的第一声学特征，最终得到第二声学特征，因此，在一些实施例中，可以将上述第四特征矩阵转置后，再与第二权重矩阵相乘，最终得到目标语音。

其中，本申请实施例中的可变信息适配器可以与FastSpeech2模型的可变信息适配器一致，本申请实施例中的编码器模块也可以与FastSpeech2模型的编码器模块一致，即是说，本申请实施例可以将FastSpeech2模型中的解码器模块替换为本实施例所示的解码器模块，用以实现本实施例所述的方法。

基于此，最后根据更新后的第一特征矩阵、第一关联程度和第二关联程度确定的目标语音的过程不仅考虑到了每个词语对应音素的发音受到的其他词语对应音素的发音的影响力度，以及每个词语的一种类型的第一声学特征受到的其他类型的第一声学特征的影响力度，通过设置预设声学特征还可以丰富目标文本所对应的目标语音所包含的声学特征，例如可以通过灵活地调整目标语音的音色，达到模仿某个说话人的语音的目的等等。

请参阅图14，示出了本申请一实施例提供的语音合成装置的模块框图。具体地，该语音合成装置可以包括：文本处理模块1410、第一关联模块1420、第二关联模块1430以及语音生成模块1440。

其中，文本处理模块1410，用于获取目标文本对应的第一特征矩阵，所述第一特征矩阵包括每个词语的音素和每个词语的多种类型的第一声学特征，所述第一声学特征用于表征根据该词语的文本内容确定的该词语对应音素的发音；第一关联模块1420，用于获取每个词语的第一声学特征与该词语对应的第一参考特征之间的第一关联程度，每个词语的第一参考特征用于表征所述目标文本中该词语之外的其余每个词语对应音素的发音；第二关联模块1430，用于获取每个词语中多种类型的第一声学特征之间的第二关联程度；语音生成模块1440，用于基于所述第一特征矩阵、所述第一关联程度以及第二关联程度确定所述目标文本的目标语音。

在一些实施方式中，上述语音生成模块1440可以包括：第二特征生成模块，用于基于所述第一关联程度以及第二关联程度更新所述第一特征矩阵中每个词语对应的第一声学特征，得到所述第二特征矩阵，所述第二特征矩阵包括每个词语对应的音素和第二声学特征，所述第二声学特征为更新后的所述第一声学特征；第一语音生成模块，用于基于所述第二特征矩阵，得到所述目标文本的目标语音。

可选地，上述第一语音生成模块可以包括：第三特征生成模块，用于为所述第二特征矩阵的每个词语对应音素添加预设声学特征，得到第三特征矩阵，所述第三特征矩阵包括每个词语对应的音素和第三声学特征，所述第三声学特征为所述第二声学特征与所述预设声学特征融合后的声学特征；第二语音生成模块，用于基于所述第三特征矩阵，得到所述目标文本的目标语音。

进一步地，上述第二语音生成模块可以包括：第三关联模块，用于获取每个词语的第三声学特征与该词语对应的第二参考特征之间的第三关联程度，每个所述词语对应的第二参考特征用于表征所述目标文本中该词语之外的其余每个词语；第四关联模块，用于获取每个词语中多种类型的第三声学特征之间的第四关联程度；第三语音生成模块，用于基于所述第三特征矩阵、所述第三关联程度以及第四关联程度确定所述目标文本的目标语音。

在一些实施方式中，上述第二特征生成模块可以包括：第一权重生成模块，用于基于所述第一关联程度确定第一权重矩阵，所述第一权重矩阵包括每个词语对应的第一关联程度的第一权重；第二权重生成模块，用于基于所述第二关联程度确定第二权重矩阵，所述第二权重矩阵包括每个词语中的多种类型的第一声学特征之间的第二关联程度的第二权重；第二特征生成子模块，用于将所述第一特征矩阵与所述第一权重矩阵相乘之后再与第二权重矩阵相乘，得到第二特征矩阵。

在上述实施例的基础上，所述第一特征矩阵的每一列表示每个词语对应音素的第一声学信息，所述第一特征矩阵的每一行表示同一个词语对应音素的各种类型的第一声学特征对应的第一声学信息，因此，上述第二特征生成子模块可以包括：第四特征生成模块，用于将所述第一特征矩阵转置后与所述第一权重矩阵相乘，得到第四特征矩阵；第四特征生成子模块，用于将所述第四特征矩阵转置后与所述第二权重矩阵相乘，得到所述第二特征矩阵。

在一些实施方式中，可选地，上述文本处理模块1410可以包括：融合信息获取模块，用于将所述第一声学特征及预设声学特征融合，得到声学融合特征；声学信息更新模块，用于将所述第一特征矩阵中的第一声学特征更新为所述声学融合特征。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置中模块/单元/子单元/组件的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图15，其示出了本申请一实施例提供的电子设备的结构框图。本实施例中的所述电子设备可以包括一个或多个如下部件：处理器1510、存储器1520以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1520中并被配置为由一个或多个处理器1510执行，一个或多个应用程序配置用于执行如前述方法实施例所描述的方法。

其中，电子设备可以为移动、便携式并执行无线通信的各种类型的计算机系统设备中的任何一种。具体的，电子设备可以为移动电话或智能电话(例如，基于iPhone TM，基于Android TM的电话)、便携式游戏设备(例如Nintendo DS TM，PlayStation PortableTM，Gameboy Advance TM，iPhone TM)、膝上型电脑、PDA、便携式互联网设备、音乐播放器以及数据存储设备，其他手持设备以及诸如智能手表、智能手环、耳机、吊坠等，电子设备还可以为其他的可穿戴设备(例如，诸如电子眼镜、电子衣服、电子手镯、电子项链、电子纹身、电子设备或头戴式设备(HMD))。

电子设备还可以是多个电子设备中的任何一个，多个电子设备包括但不限于蜂窝电话、智能电话、智能手表、智能手环、其他无线通信设备、个人数字助理、音频播放器、其他媒体播放器、音乐记录器、录像机、照相机、其他媒体记录器、收音机、医疗设备、车辆运输仪器、计算器、可编程遥控器、寻呼机、膝上型计算机、台式计算机、打印机、上网本电脑、个人数字助理(PDA)、便携式多媒体播放器(PMP)、运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器，便携式医疗设备以及数码相机及其组合。

在一些情况下，电子设备可以执行多种功能(例如，播放音乐，显示视频，存储图片以及接收和发送电话呼叫)。如果需要，电子设备可以是诸如蜂窝电话、媒体播放器、其他手持设备、腕表设备、吊坠设备、听筒设备或其他紧凑型便携式设备。

可选地，电子设备也可以是服务器，例如可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，还可以是提供人脸识别、自动驾驶、工业互联网服务、数据通信(如4G、5G等)等专门或平台服务器。

处理器1510可以包括一个或者多个处理核。处理器1510利用各种接口和线路连接整个电子设备内的各个部分，通过运行或执行存储在存储器1520内的指令、应用程序、代码集或指令集，以及调用存储在存储器1520内的数据，执行电子设备的各种功能和处理数据。可选地，处理器1510可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器1510可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1510中，单独通过一块通信芯片进行实现。

存储器1520可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1520可用于存储指令、应用程序、代码、代码集或指令集。存储器1520可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以电子设备在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的处理器1510、存储器1520的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

请参考图16，其示出了本申请一实施例提供的计算机可读存储介质的结构框图。该计算机可读存储介质1600中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1600可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1600包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质1600具有执行上述方法中的任何方法步骤的程序代码1610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1610可以例如以适当形式进行压缩。其中，计算机可读存储介质1600可以是如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、SSD、带电可擦可编程只读存储器(Electrically ErasableProgrammable read only memory，简称EEPROM)或快闪存储器(Flash Memory，简称Flash)等。

在一些实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、SSD、Flash)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例的方法。

本申请提供的语音合成方法、装置、电子设备及存储介质，在将文本合成为语音时，可以首先获取目标文本对应的第一特征矩阵，其中，第一特征矩阵包括每个词语的音素和每个词语的多种类型的第一声学特征，第一声学特征可以用于表征根据每个词语的文本内容确定的该词语对应音素的发音。接着获取每个词语的第一声学特征和该词语对应的第一参考特征之间的第一关联程度，以及每个词语的各种类型的第一声学特征之间的第二关联程度，其中，每个词语的第一参考特征用于表意该目标文本中除该词语之外的其余每个词语对应音素的发音。然后根据第一特征矩阵、第一关联程度和第二关联程度确定目标文本的目标语音。在本申请的实施例综合第一特征矩阵、第一关联程度以及第二关联程度所生成的目标语音，不仅仅是由包括了目标文本中每个词语对应音素和各种类型的第一声学特征的第一特征矩阵所生成，通过第一关联程度和第二关联程度还考虑到了每个词语对应音素的发音受到的其他词语的对应音素的发音的影响，以及每个词语的一种类型的第一声学特征受到的其他类型的第一声学特征的影响，通过对各个词语的各种不同类型的声学特征的处理可以使最终合成的语音中前后词语的发音衔接更加流畅且更加具有韵律感，最终达到接近于真实语音的目的。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取目标文本对应的第一特征矩阵，所述第一特征矩阵包括每个词语的音素和每个词语的多种类型的第一声学特征，所述第一声学特征用于表征根据该词语的文本内容确定的该词语对应音素的发音；

获取每个词语的第一声学特征与该词语对应的第一参考特征之间的第一关联程度，每个词语的第一参考特征用于表征所述目标文本中该词语之外的其余每个词语对应音素的发音；

获取每个词语中多种类型的第一声学特征之间的第二关联程度；

基于所述第一特征矩阵、所述第一关联程度以及所述第二关联程度确定所述目标文本的目标语音。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一特征矩阵、所述第一关联程度以及第二关联程度确定所述目标文本的目标语音，包括：

基于所述第一关联程度以及所述第二关联程度更新所述第一特征矩阵中每个词语对应的第一声学特征，得到第二特征矩阵，所述第二特征矩阵包括每个词语对应的音素和第二声学特征，所述第二声学特征为更新后的所述第一声学特征；

基于所述第二特征矩阵，得到所述目标文本的目标语音。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第二特征矩阵，得到所述目标文本的目标语音，包括：

为所述第二特征矩阵的每个词语对应音素添加预设声学特征，得到第三特征矩阵，所述第三特征矩阵包括每个词语对应的音素和第三声学特征，所述第三声学特征为所述第二声学特征与所述预设声学特征融合后的声学特征；

基于所述第三特征矩阵，得到所述目标文本的目标语音。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第三特征矩阵，得到所述目标文本的目标语音，包括：

获取每个词语的第三声学特征与该词语对应的第二参考特征之间的第三关联程度，每个所述词语对应的第二参考特征用于表征所述目标文本中该词语之外的其余每个词语对应音素的发音；

获取每个词语中多种类型的第三声学特征之间的第四关联程度；

基于所述第三特征矩阵、所述第三关联程度以及第四关联程度确定所述目标文本的目标语音。

5.根据权利要求2所述的方法，其特征在于，所述基于所述第一关联程度以及第二关联程度更新所述第一特征矩阵中每个词语对应的第一声学特征，得到所述第二特征矩阵，包括：

基于所述第一关联程度确定第一权重矩阵，所述第一权重矩阵包括每个词语对应的第一关联程度的第一权重；

基于所述第二关联程度确定第二权重矩阵，所述第二权重矩阵包括每个词语中的多种类型的第一声学特征之间的第二关联程度的第二权重；

将所述第一特征矩阵与所述第一权重矩阵相乘之后再与第二权重矩阵相乘，得到第二特征矩阵。

6.根据权利要求2所述的方法，其特征在于，所述基于所述第一关联程度以及第二关联程度更新所述第一特征矩阵中每个词语对应的第一声学特征，得到所述第二特征矩阵，包括：

将第一特征矩阵输入到编码器模块，所述编码器模块用于根据所述第一关联程度、第二关联程度和所述第一特征矩阵得到所述第二特征矩阵，其中，所述编码器模块由多层感知机模型构成，所述多层感知机模型基于多层感知机而构建。

7.根据权利要求6所述的方法，其特征在于，所述编码器模块包括第一模块和第二模块，所述第一模块和所述第二模块均由所述多层感知机模型组成，所述将第一特征矩阵输入到编码器模块，所述编码器模块用于根据所述第一关联程度、第二关联程度和所述第一特征矩阵得到所述第二特征矩阵，包括：

所述第一模块用于基于所述第一关联程度确定第一权重矩阵，将所述第一特征矩阵与所述第一权重矩阵进行第一编码处理，所述第一权重矩阵包括每个词语对应的第一关联程度的第一权重；

所述第二模块用于根据所述第二关联程度确定第二权重矩阵，所述第二权重矩阵包括每个词语中的多种类型的第一声学特征之间的第二关联程度的第二权重；

所述第一模块用于将所述第一特征矩阵与所述第一权重矩阵相乘，所述第二模块用于将所述第一特征矩阵与所述第一权重矩阵相乘的结果与所述第二权重矩阵相乘，得到所述第二特征矩阵。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述获取目标文本对应的第一特征矩阵，包括：

将所述第一声学特征及预设声学特征融合，得到声学融合特征；

将所述第一特征矩阵中的第一声学特征更新为所述声学融合特征。

9.一种语音合成装置，其特征在于，所述装置包括：

文本处理模块，用于获取目标文本对应的第一特征矩阵，所述第一特征矩阵包括每个词语的音素和每个词语的多种类型的第一声学特征，所述第一声学特征用于表征根据该词语的文本内容确定的该词语对应音素的发音；

第一关联模块，用于获取每个词语的第一声学特征与该词语对应的第一参考特征之间的第一关联程度，每个词语的第一参考特征用于表征所述目标文本中该词语之外的其余每个词语对应音素的发音；

第二关联模块，用于获取每个词语中多种类型的第一声学特征之间的第二关联程度；

语音生成模块，用于基于所述第一特征矩阵、所述第一关联程度以及第二关联程度确定所述目标文本的目标语音。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1至8任一项所述的方法。

12.一种包含指令的计算机程序产品，其特征在于，所述计算机程序产品中存储有指令，当其在计算机上运行时，使得计算机实现如权利要求1至8任一项所述的方法。