CN110070852B

CN110070852B - 合成中文语音的方法、装置、设备及存储介质

Info

Publication number: CN110070852B
Application number: CN201910342344.3A
Authority: CN
Inventors: 陈闽川; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2023-06-16
Anticipated expiration: 2039-04-26
Also published as: WO2020215551A1; CN110070852A

Abstract

本发明涉及人工智能领域的语言信号处理领域，公开了合成中文语音的方法、装置、设备及存储介质，用于减少训练时长，同时增强模型表现力和泛化能力，进一步提高合成的语音质量。本发明方法包括：获取初始梅尔频谱和目标向量；对目标向量进行处理得到第一序列，第一序列为二维张量；对初始梅尔频谱进行处理，得到目标梅尔频谱；确定第一序列与目标梅尔频谱在各个子空间中的目标对应关系；根据自注意力机制和目标对应关系进行语音合成，得到目标语音。

Description

合成中文语音的方法、装置、设备及存储介质

技术领域

本发明涉及语言信号处理领域，尤其涉及一种合成中文语音的方法、装置、设备及存储介质。

背景技术

目前国内外大多数语音合成研究是针对文语转换系统，且只能解决以某种朗读风格将书面语言转换成口语输出，缺乏不同年龄、性别特征及语气、语速的表现，更不用说赋予个人的感情色彩。随着信息社会的需求发展，对人机交互提出了更高的要求，人机口语对话系统的研究也提到了日程上。

语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。这不仅对语音合成技术提出了更高的要求，而且涉及到计算机语言生成，涉及人类大脑的高级神经活动。但就语音合成来说，仍是一个要丰富合成语音的表现力问题。目前对于中文语音合成而言，在进行语音合成时，字词断句不自然，声音沉闷，韵律感差，影响合成质量，合成后与真实人声有明显差异。

现在语音合成中普遍采用了长短时记忆网络(long short term memory，LSTM)等循环神经网络(recurrent neural network，RNN)结构，导致训练时必须依赖上一个时间步的结果，难以并行化处理，训练时间过长。

发明内容

本发明提供了一种合成中文语音的方法、装置、设备及存储介质，用于减少训练时长，同时增强模型表现力和泛化能力，进一步提高合成的语音质量。

本发明实施例的第一方面提供一种合成中文语音的方法，包括：获取初始梅尔频谱和目标向量；对所述目标向量进行处理得到第一序列，所述第一序列为二维张量；对所述初始梅尔频谱进行处理，得到目标梅尔频谱；确定所述第一序列与所述目标梅尔频谱在各个子空间中的目标对应关系；根据自注意力机制和所述目标对应关系进行语音合成，得到目标语音。

可选的，在本发明实施例第一方面的第一种实现方式中，所述对所述目标向量进行处理得到第一序列，所述第一序列为二维张量包括：调用编码器的各个模块对目标向量进行处理，所述编码器中上一个模块的输出作为下一个模块的输入，所述编码器由多个模块串联组成；将所述编码器中最后一个模块的输出向量作为第一序列，所述第一序列为二维张量。

可选的，在本发明实施例第一方面的第二种实现方式中，所述调用编码器的各个模块对目标向量进行处理包括：调用所述编码器中第一个模块的多头注意力子模块对目标向量进行处理，得到第一中间向量；调用所述第一个模块的前向网络子模块对所述第一中间向量进行处理，得到第一输出向量；调用所述编码器中下一个模块的多头注意力子模块对所述第一输出向量进行处理，得到第二中间向量；调用所述下一个模块的前向网络子模块对所述第二中间向量进行处理，得到第二输出向量；依次调用所述编码器中其他模块根据所述第二输出向量进行处理，直至得到最后一个模块输出的向量。

可选的，在本发明实施例第一方面的第三种实现方式中，所述对所述初始梅尔频谱进行处理，得到目标梅尔频谱，包括：调用解码器的各个模块对所述初始梅尔频谱进行处理，所述解码器中上一个模块的输出作为下一个模块的输入，所述解码器由多个模块串联组成；将所述解码器中最后一个模块输出的梅尔频谱作为所述目标梅尔频谱。

可选的，在本发明实施例第一方面的第四种实现方式中，所述调用解码器的各个模块对所述初始梅尔频谱进行处理，包括：调用所述解码器中第一个模块的掩码多头注意力子模块将所述初始梅尔频谱中不合法的信息进行屏蔽，得到屏蔽后的梅尔频谱；调用所述第一个模块的多头注意力子模块对所述屏蔽后的梅尔频谱进行处理，得到预处理的梅尔频谱；调用所述第一个模块的前向网络子模块对所述预处理的梅尔频谱进行处理，得到第一梅尔频谱；依次调用所述解码器中其他模块根据所述第一梅尔频谱进行处理，直至得到最后一个模块输出的梅尔频谱。

可选的，在本发明实施例第一方面的第五种实现方式中，所述确定所述第一序列与所述目标梅尔频谱在各个子空间中的目标对应关系，包括：将所述第一序列和所述目标梅尔频谱映射到相同的多个子空间；将所述第一序列作为多头注意力的query和key；将所述目标梅尔频谱作为多头注意力的value；根据所述query、所述key和所述value计算得到目标对应关系，所述目标对应关系为所述第一序列和所述目标梅尔频谱在各个子空间中的映射关系。

可选的，在本发明实施例第一方面的第六种实现方式中，所述获取初始梅尔频谱和目标向量之前，所述方法还包括：获取目标文本，所述目标文本为需要进行合成的文字；将所述目标文本转换为词嵌入向量；将所述词嵌入向量和预置的位置编码向量进行组合；生成所述目标向量。

本发明实施例的第二方面提供了一种合成中文语音的装置，包括：第一获取单元，用于获取初始梅尔频谱和目标向量；第一处理单元，用于对所述目标向量进行处理得到第一序列，所述第一序列为二维张量；第二处理单元，用于对所述初始梅尔频谱进行处理，得到目标梅尔频谱；确定单元，用于确定所述第一序列与所述目标梅尔频谱在各个子空间中的目标对应关系；合成单元，用于根据自注意力机制和所述目标对应关系进行语音合成，得到目标语音。

可选的，在本发明实施例第二方面的第一种实现方式中，第一处理单元具体用于：调用编码器的各个模块对目标向量进行处理，所述编码器中上一个模块的输出作为下一个模块的输入，所述编码器由多个模块串联组成；将所述编码器中最后一个模块的输出向量作为第一序列，所述第一序列为二维张量。

可选的，在本发明实施例第二方面的第二种实现方式中，第一处理单元具体还用于：调用所述编码器中第一个模块的多头注意力子模块对目标向量进行处理，得到第一中间向量；调用所述第一个模块的前向网络子模块对所述第一中间向量进行处理，得到第一输出向量；调用所述编码器中下一个模块的多头注意力子模块对所述第一输出向量进行处理，得到第二中间向量；调用所述下一个模块的前向网络子模块对所述第二中间向量进行处理，得到第二输出向量；依次调用所述编码器中其他模块根据所述第二输出向量进行处理，直至得到最后一个模块输出的向量。

可选的，在本发明实施例第二方面的第三种实现方式中，第二处理单元具体用于：调用解码器的各个模块对所述初始梅尔频谱进行处理，所述解码器中上一个模块的输出作为下一个模块的输入，所述解码器由多个模块串联组成；将所述解码器中最后一个模块输出的梅尔频谱作为所述目标梅尔频谱。

可选的，在本发明实施例第二方面的第四种实现方式中，第二处理单元具体用于：调用所述解码器中第一个模块的掩码多头注意力子模块将所述初始梅尔频谱中不合法的信息进行屏蔽，得到屏蔽后的梅尔频谱；调用所述第一个模块的多头注意力子模块对所述屏蔽后的梅尔频谱进行处理，得到预处理的梅尔频谱；调用所述第一个模块的前向网络子模块对所述预处理的梅尔频谱进行处理，得到第一梅尔频谱；依次调用所述解码器中其他模块根据所述第一梅尔频谱进行处理，直至得到最后一个模块输出的梅尔频谱。

可选的，在本发明实施例第二方面的第五种实现方式中，确定单元具体用于：将所述第一序列和所述目标梅尔频谱映射到相同的多个子空间；将所述第一序列作为多头注意力的query和key；将所述目标梅尔频谱作为多头注意力的value；根据所述query、所述key和所述value计算得到目标对应关系，所述目标对应关系为所述第一序列和所述目标梅尔频谱在各个子空间中的映射关系。

可选的，在本发明实施例第二方面的第六种实现方式中，合成中文语音的装置还包括：第二获取单元，用于获取目标文本，所述目标文本为需要进行合成的文字；转换单元，用于将所述目标文本转换为词嵌入向量；组合单元，用于将所述词嵌入向量和预置的位置编码向量进行组合；生成单元，用于生成所述目标向量。

本发明实施例的第三方面提供了一种合成中文语音的设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施方式所述的合成中文语音的方法。

本发明实施例的第四方面提供了一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行上述任一实施方式所述的合成中文语音的方法的步骤。

本发明实施例提供的技术方案中，获取初始梅尔频谱和目标向量；对该目标向量进行处理得到第一序列，该第一序列为二维张量；对初始梅尔频谱进行处理，得到目标梅尔频谱；确定该第一序列与该目标梅尔频谱在各个子空间中的目标对应关系；根据自注意力机制和目标对应关系进行语音合成，得到目标语音。本发明实施例，将多头注意力中的循环神经网络替换成自注意力，加快了模型训练速度，减少了训练时长，同时增强模型表现力和泛化能力，进一步提高了合成的语音质量。

附图说明

图1为本发明实施例中合成中文语音的方法的一个实施例示意图；

图2为本发明实施例中合成中文语音的装置的一个实施例示意图；

图3为本发明实施例中合成中文语音的装置的另一个实施例示意图；

图4为本发明实施例中合成中文语音的设备的一个实施例示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例进行描述。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，本发明实施例提供的一种合成中文语音的方法的流程图，具体包括：

101、获取初始梅尔频谱和目标向量。

合成中文语音的装置获取初始梅尔频谱和目标向量。具体的，通过编码器获取目标向量，该目标向量为需要进行语音转换的内容，内容为编码器可识别的向量形式。例如，目标向量可以指示“我爱中国”、“我来自北京”、“北京欢迎你”等内容。通过解码器获取初始梅尔频谱，其中，初始梅尔频谱为去除相位信息后的音频。

需要说明的是，初始梅尔频谱是将原始音频进行处理后得到的有损的音频，因此如果需要转换为原始音频需要声码器，可以利用Griffin-Lim算法或者WaveNet算法等实现，具体此处不做限定。

可以理解的是，初始梅尔频谱和目标向量可以同时获取，或者先获取梅尔频谱再获取目标向量，或者是先获取目标向量再获取梅尔频谱，具体此处不做限定。

102、对目标向量进行处理得到第一序列，第一序列为二维张量。

合成中文语音的装置对目标向量进行处理得到第一序列，该第一序列为二维张量。具体的，合成中文语音的装置调用编码器的子模块对目标向量进行处理，编码器由多个模块串联组成，上一个模块的结果送入下一个模块中处理。每个模块中包括多头注意力(Multi-Head Attention)子模块和前向网络(feed-forward net，FFN)子模块，其中，多头注意力主要为了捕获序列子空间中的关系，比如，合成中文语音的装置可能在某个子空间学习到了句读关系，在某个子空间学习到依存关系，类似于卷积中多个卷积核的叠加。

103、对初始梅尔频谱进行处理，得到目标梅尔频谱。

合成中文语音的装置对初始梅尔频谱进行预处理，得到目标梅尔频谱。具体的，合成中文语音的装置通过掩码多头注意力(Masked Multi-Head Attention)，遮蔽序列生成时不应知道的信息(即不合法的信息)。

其中，掩码多头注意力主要是为了训练时和推断时要一致，比如，在训练时，想要预测“w”这个发音，但是实际上进入网络时是整个初始梅尔频谱都会进入，要把这个梅尔频谱在“w”这个之后的序列都对网络屏蔽，防止网络看到未来需要预测的信息，因为这些信息在推断时是看不到的。

需要说明的是，多头注意力由几个自注意力组成，比如4头注意力，实质上就是对序列做4次自注意力。

可以理解的是，为了提升目标梅尔频谱的生成质量，用于预测目标梅尔频谱的解码器输出要额外进入带残差的多层卷积层组成的归一化网络，优化和提纯解码器的输出结果。

104、确定第一序列与目标梅尔频谱在各个子空间中的目标对应关系。

合成中文语音的装置确定第一序列与目标梅尔频谱在各个子空间中的目标对应关系。具体的，合成中文语音的装置将第一序列和目标梅尔频谱映射到相同的多个子空间；将第一序列作为多头注意力的query和key；将目标梅尔频谱作为多头注意力的value；根据query、key和value计算得到目标对应关系，目标对应关系为第一序列和目标梅尔频谱在各个子空间中的映射关系。

可以理解的是，引入的多头注意力机制，可以训练更多的参数，并且可考虑到不同位置的注意力，对注意力赋予多个子空间，利用不同子空间可以表示不同的关联关系，比如，一个子空间表示依存关系，一个子空间表示句读关系，综合各种各样位置(子空间)的信息，提升了注意力的表现能力。例如，在一个子空间中，第一序列和目标梅尔频谱之间为依存关系，在另一个子空间中，第一序列和目标梅尔频谱之间为句读关系。

需要说明的是，其中，注意力是序列生成中的一个概念，本质是一个相关性矩阵。比如做机器翻译时，这个二维矩阵中“我”和“I”两者对应的矩阵值比较大。

105、根据自注意力机制和目标对应关系进行语音合成，得到目标语音。

合成中文语音的装置根据自注意力机制和目标对应关系进行语音合成，得到目标语音。注意力函数的本质可以被描述为一个查询(query)到一系列(键key、值value)对的映射，在计算注意力时主要分为三步：首先是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积函数，拼接函数，感知机函数等；其次是使用一个softmax函数对这些权重进行归一化；最后是将权重和相应的键值value进行加权求和得到最后的注意力。目前在自然语言处理(natural language processing，NLP)研究中，key和value常常都是同一个，即key＝value。需要说明的是，自注意力机制中，key＝value＝query。

例如，多头注意力中可以包含三个参数query、key、value，三个参数首先进过一个线性变换，然后输入到放缩点积attention，这里要做h次，其实也就是所谓的多头(h头)，每一次算一个头。而且每次Q，K，V进行线性变换的参数W是不一样的。然后将h次的放缩点积attention结果进行拼接，再进行一次线性变换得到的值作为多头attention的结果。可以看到，多头注意力的不同之处在于进行了h次计算而不仅仅算一次，可以允许模型在不同的表示子空间里学习到相关的信息。

本发明实施例，将多头注意力中的循环神经网络替换成自注意力，加快了模型训练速度，减少了训练时长，同时增强模型表现力和泛化能力，进一步提高了合成的语音质量。

可选的，在上述图1对应的实施例的基础上，本发明实施例提供的合成中文语音的方法的可选实施例中，所述对所述目标向量进行处理得到第一序列，所述第一序列为二维张量包括：

调用编码器的各个模块对目标向量进行处理，所述编码器中上一个模块的输出作为下一个模块的输入，所述编码器由多个模块串联组成；

将所述编码器中最后一个模块的输出向量作为第一序列，所述第一序列为二维张量。

本发明实施例，对目标向量的处理过程进行了细化，增加了本发明的可实现方式。

可选的，在上述图1对应的实施例的基础上，本发明实施例提供的合成中文语音的方法的可选实施例中，所述调用编码器的各个模块对目标向量进行处理包括：

调用所述编码器中第一个模块的多头注意力子模块对目标向量进行处理，得到第一中间向量；

调用所述第一个模块的前向网络子模块对所述第一中间向量进行处理，得到第一输出向量；

调用所述编码器中下一个模块的多头注意力子模块对所述第一输出向量进行处理，得到第二中间向量；

调用所述下一个模块的前向网络子模块对所述第二中间向量进行处理，得到第二输出向量；

依次调用所述编码器中其他模块根据所述第二输出向量进行处理，直至得到最后一个模块输出的向量。

本发明实施例，对目标向量的处理过程进行了细化，在子模块中使用自注意力机制，提取序列内部词与词之间的关联关系，改善了合成语音断句的自然程度。

可选的，在上述图1对应的实施例的基础上，本发明实施例提供的合成中文语音的方法的可选实施例中，所述对所述初始梅尔频谱进行处理，得到目标梅尔频谱，包括：

调用解码器的各个模块对所述初始梅尔频谱进行处理，所述解码器中上一个模块的输出作为下一个模块的输入，所述解码器由多个模块串联组成；

将所述解码器中最后一个模块输出的梅尔频谱作为所述目标梅尔频谱。

本发明实施例，对初始梅尔频谱的处理过程进行了细化，增加了本发明的可实现方式。

可选的，在上述图1对应的实施例的基础上，本发明实施例提供的合成中文语音的方法的可选实施例中，所述调用解码器的各个模块对所述初始梅尔频谱进行处理，包括：

调用所述解码器中第一个模块的掩码多头注意力子模块将所述初始梅尔频谱中不合法的信息进行屏蔽，得到屏蔽后的梅尔频谱；

调用所述第一个模块的多头注意力子模块对所述屏蔽后的梅尔频谱进行处理，得到预处理的梅尔频谱；

调用所述第一个模块的前向网络子模块对所述预处理的梅尔频谱进行处理，得到第一梅尔频谱；

依次调用所述解码器中其他模块根据所述第一梅尔频谱进行处理，直至得到最后一个模块输出的梅尔频谱。

本发明实施例，通过掩码多头注意力机制，将梅尔频谱中非法的信息进行屏蔽，避免当前位置注意到后面位置的信息，确保当前位置的预测仅取决于在当前位置之前的已知输出。。

可选的，在上述图1对应的实施例的基础上，本发明实施例提供的合成中文语音的方法的可选实施例中，所述确定所述第一序列与所述目标梅尔频谱在各个子空间中的目标对应关系，包括：

将所述第一序列和所述目标梅尔频谱映射到相同的多个子空间；

将所述第一序列作为多头注意力的query和key；

将所述目标梅尔频谱作为多头注意力的value；

根据所述query、所述key和所述value计算得到目标对应关系，所述目标对应关系为所述第一序列和所述目标梅尔频谱在各个子空间中的映射关系。

本发明实施例，细化了确定第一序列和目标梅尔频谱在各个子空间中的目标对应关系的过程，引入的多头注意力机制，对注意力赋予多个子空间，利用不同子空间可以表示不同的关联关系，综合各个位置的关联信息，提升了注意力的表现能力。

可选的，在上述图1对应的实施例的基础上，本发明实施例提供的合成中文语音的方法的可选实施例中，所述获取初始梅尔频谱和目标向量之前，所述方法还包括：

获取目标文本，所述目标文本为需要进行合成的文字；

将所述目标文本转换为词嵌入向量；

将所述词嵌入向量和预置的位置编码向量进行组合；

生成所述目标向量。

例如，目标向量对应一个序列，但是目标文本无法运算，所以一般是将文本映射成数字。在该语音合成框架中如序列“我爱中国”，转成拼音序列“wo3 ai4 zho1ng guo2”，然后被映射成数字序列，假如是“163 123 111 123…”，一个字符对应一个数字。目标文本经过预处理网络后得到词嵌入向量，词嵌入向量和位置编码向量做元素加，如词嵌入向量为[1，2]，对应的位置编码向量为[0.1，0.9]，最终送入后续深度网络中的是[1.1，2.9]。位置编码是向量是和词嵌入向量等大的张量。

假如希望合成的目标文本是“我爱中国”，这种文本经过转化为拼音然后词嵌入会变成二维张量(序列)，如[[0.2，0.4]，[0.1，0.5]，[0.3，0.3]，[0.9，0.7]，…]，经过位置编码向量加和之后，一个序列内，每个字符都会和其它字符做运算。

本发明实施例，细化了目标向量的获取过程，解决了自注意力对序列抽取特征时，丢失顺序的问题。

上面对本发明实施例中合成中文语音的方法进行了描述，下面对本发明实施例中合成中文语音的装置进行描述，请参阅图2，本发明实施例中合成中文语音的装置的一个实施例包括：

第一获取单元201，用于获取初始梅尔频谱和目标向量；

第一处理单元202，用于对所述目标向量进行处理得到第一序列，所述第一序列为二维张量；

第二处理单元203，用于对所述初始梅尔频谱进行处理，得到目标梅尔频谱；

确定单元204，用于确定所述第一序列与所述目标梅尔频谱在各个子空间中的目标对应关系；

合成单元205，用于根据自注意力机制和所述目标对应关系进行语音合成，得到目标语音。

请参阅图3，本发明实施例中合成中文语音的装置的另一个实施例包括：

第一获取单元201，用于获取初始梅尔频谱和目标向量；

可选的，第一处理单元202具体用于：

调用编码器的各个模块对目标向量进行处理，所述编码器中上一个模块的输出作为下一个模块的输入，所述编码器由多个模块串联组成；将所述编码器中最后一个模块的输出向量作为第一序列，所述第一序列为二维张量。

可选的，第一处理单元202具体还用于：

调用所述编码器中第一个模块的多头注意力子模块对目标向量进行处理，得到第一中间向量；调用所述第一个模块的前向网络子模块对所述第一中间向量进行处理，得到第一输出向量；调用所述编码器中下一个模块的多头注意力子模块对所述第一输出向量进行处理，得到第二中间向量；调用所述下一个模块的前向网络子模块对所述第二中间向量进行处理，得到第二输出向量；依次调用所述编码器中其他模块根据所述第二输出向量进行处理，直至得到最后一个模块输出的向量。

可选的，第二处理单元203具体用于：

调用解码器的各个模块对所述初始梅尔频谱进行处理，所述解码器中上一个模块的输出作为下一个模块的输入，所述解码器由多个模块串联组成；将所述解码器中最后一个模块输出的梅尔频谱作为所述目标梅尔频谱。

可选的，第二处理单元203具体用于：

调用所述解码器中第一个模块的掩码多头注意力子模块将所述初始梅尔频谱中不合法的信息进行屏蔽，得到屏蔽后的梅尔频谱；调用所述第一个模块的多头注意力子模块对所述屏蔽后的梅尔频谱进行处理，得到预处理的梅尔频谱；调用所述第一个模块的前向网络子模块对所述预处理的梅尔频谱进行处理，得到第一梅尔频谱；依次调用所述解码器中其他模块根据所述第一梅尔频谱进行处理，直至得到最后一个模块输出的梅尔频谱。

可选的，确定单元204具体用于：

将所述第一序列和所述目标梅尔频谱映射到相同的多个子空间；将所述第一序列作为多头注意力的query和key；将所述目标梅尔频谱作为多头注意力的value；根据所述query、所述key和所述value计算得到目标对应关系，所述目标对应关系为所述第一序列和所述目标梅尔频谱在各个子空间中的映射关系。

可选的，合成中文语音的装置还包括：

第二获取单元206，用于获取目标文本，所述目标文本为需要进行合成的文字；

转换单元207，用于将所述目标文本转换为词嵌入向量；

组合单元208，用于将所述词嵌入向量和预置的位置编码向量进行组合；

生成单元209，用于生成所述目标向量。

上面图2至图3从模块化功能实体的角度对本发明实施例中的合成中文语音的装置进行详细描述，下面从硬件处理的角度对本发明实施例中合成中文语音的设备进行详细描述。

图4是本发明实施例提供的一种合成中文语音的设备的结构示意图，该合成中文语音的设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)401(例如，一个或一个以上处理器)和存储器409，一个或一个以上存储应用程序407或数据406的存储介质408(例如一个或一个以上海量存储设备)。其中，存储器409和存储介质408可以是短暂存储或持久存储。存储在存储介质408的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对合成中文语音的设备中的一系列指令操作。更进一步地，处理器401可以设置为与存储介质408通信，在合成中文语音的设备400上执行存储介质408中的一系列指令操作。

合成中文语音的设备400还可以包括一个或一个以上电源402，一个或一个以上有线或无线网络接口403，一个或一个以上输入输出接口404，和/或，一个或一个以上操作系统405，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图4中示出的合成中文语音的设备结构并不构成对合成中文语音的设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。处理器401可以执行上述实施例中第一获取单元201、第一处理单元202、第二处理单元203、确定单元204、合成单元205、第二获取单元206、转换单元207、组合单元208和生成单元209的功能。

下面结合图4对合成中文语音的设备的各个构成部件进行具体的介绍：

处理器401是合成中文语音的设备的控制中心，可以按照设置的合成中文语音的方法进行处理。处理器401利用各种接口和线路连接整个合成中文语音的设备的各个部分，通过运行或执行存储在存储器409内的软件程序和/或模块，以及调用存储在存储器409内的数据，执行合成中文语音的设备的各种功能和处理数据，从而实现中文语音的合成。存储介质408和存储器409都是存储数据的载体，本发明实施例中，存储介质408可以是指储存容量较小，但速度快的内存储器，而存储器409可以是储存容量大，但储存速度慢的外存储器。

存储器409可用于存储软件程序以及模块，处理器401通过运行存储在存储器409的软件程序以及模块，从而执行合成中文语音的设备400的各种功能应用以及数据处理。存储器409可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如确定所述第一序列与所述目标梅尔频谱在各个子空间中的目标对应关系)等；存储数据区可存储根据合成中文语音的设备的使用所创建的数据(比如目标向量等)等。此外，存储器409可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。在本发明实施例中提供的合成中文语音的方法程序和接收到的数据流存储在存储器中，当需要使用时，处理器401从存储器409中调用。

在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，光盘)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种合成中文语音的方法，其特征在于，包括：

获取目标文本，所述目标文本为需要进行合成的文字；

将所述目标文本转换为词嵌入向量；

将所述词嵌入向量和预置的位置编码向量进行组合；

生成目标向量；

获取初始梅尔频谱；

将所述编码器中最后一个模块的输出向量作为第一序列，所述第一序列为二维张量；

将所述解码器中最后一个模块输出的梅尔频谱作为目标梅尔频谱；

将所述第一序列作为多头注意力的query和key；

将所述目标梅尔频谱作为多头注意力的value；

根据所述query、所述key和所述value计算得到目标对应关系，所述目标对应关系为所述第一序列和所述目标梅尔频谱在各个子空间中的映射关系；

根据自注意力机制和所述目标对应关系进行语音合成，得到目标语音。

2.根据权利要求1所述的合成中文语音的方法，其特征在于，所述调用编码器的各个模块对目标向量进行处理包括：

3.根据权利要求1所述的合成中文语音的方法，其特征在于，所述调用解码器的各个模块对所述初始梅尔频谱进行处理，包括：

4.一种合成中文语音的装置，其特征在于，包括：

第一获取单元，用于获取目标文本，所述目标文本为需要进行合成的文字；将所述目标文本转换为词嵌入向量；将所述词嵌入向量和预置的位置编码向量进行组合；生成目标向量；获取初始梅尔频谱；

第一处理单元，用于调用编码器的各个模块对目标向量进行处理，所述编码器中上一个模块的输出作为下一个模块的输入，所述编码器由多个模块串联组成；将所述编码器中最后一个模块的输出向量作为第一序列，所述第一序列为二维张量；

第二处理单元，用于调用解码器的各个模块对所述初始梅尔频谱进行处理，所述解码器中上一个模块的输出作为下一个模块的输入，所述解码器由多个模块串联组成；将所述解码器中最后一个模块输出的梅尔频谱作为目标梅尔频谱；

确定单元，用于将所述第一序列和所述目标梅尔频谱映射到相同的多个子空间；将所述第一序列作为多头注意力的query和key；将所述目标梅尔频谱作为多头注意力的value；根据所述query、所述key和所述value计算得到目标对应关系，所述目标对应关系为所述第一序列和所述目标梅尔频谱在各个子空间中的映射关系；

合成单元，用于根据自注意力机制和所述目标对应关系进行语音合成，得到目标语音。

5.一种合成中文语音的设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-3中任意一项所述的合成中文语音的方法。

6.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-3中任意一项所述的合成中文语音的方法。