CN114694633A

CN114694633A - 语音合成方法、装置、设备及存储介质

Info

Publication number: CN114694633A
Application number: CN202210375899.XA
Authority: CN
Inventors: 倪子凡; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-07-01

Abstract

本发明涉及人工智能技术领域，公开了一种语音合成方法、装置、设备及存储介质。该方法包括：获取用于合成目标语音的目标文本；基于预设的第一语言预测模型对目标文本进行语义特征提取，得到语义特征序列；基于预设的第二语言预测模型对目标文本进行韵律特征提取，得到韵律特征序列；对语义特征序列和韵律特征序列进行合并处理，得到用于合成目标语音的韵律情感信息；基于目标文本和韵律情感信息合成目标语音。通过上述方式，本发明能够提高拟合程度和合成语音的自然度，解决了仅考虑韵律或语义，导致拟合程度低，合成语音不逼真的问题。

Description

语音合成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能的自然语言处理技术领域，特别是涉及一种语音合成方法、装置、设备及存储介质。

背景技术

随着计算机技术的发展，语音合成技术已经发展成为一项较为成熟的技术。但是，随着语音合成技术的许多产品(如智能客服，手机语音助手，地图导航等)普遍应用到实际生活中，人们对该技术的要求也越来越高。目前，人们更加关注合成的语音是否逼真，听起来是否舒服。然而，传统语音合成技术更多关注的技术问题是怎样将文本序列转换到语音序列，很少关注语音序列的韵律问题。为了提高工业产品的用户体验，近些年业界与学术界对合成语音序列的韵律问题的关注度也越来越高。现有技术针对该问题的解决方案主要分为两类，一类是通过文本序列学习语义特征进而改善生成语音的韵律，另一类是直接通过文本序列学习韵律特征。上述方法均在一定程度上解决了合成语音的韵律问题。但是，事实上，韵律与语义是密不可分的。在韵律判断过程中，假如仅考虑韵律或语义，容易造成拟合程度低，合成语音不逼真现象。

发明内容

本发明提供一种语音合成方法、装置、设备及存储介质，能够提高拟合程度和合成语音的自然度，解决了仅考虑韵律或语义，导致拟合程度低，合成语音不逼真的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种语音合成方法，包括：

获取用于合成目标语音的目标文本；

基于预设的第一语言预测模型对所述目标文本进行语义特征提取，得到语义特征序列；

基于预设的第二语言预测模型对所述目标文本进行韵律特征提取，得到韵律特征序列；

对所述语义特征序列和所述韵律特征序列进行合并处理，得到用于合成所述目标语音的韵律情感信息；

基于所述目标文本和所述韵律情感信息合成所述目标语音。

根据本发明的一个实施例，所述基于预设的第一语言预测模型对所述目标文本进行语义特征提取，得到语义特征序列包括：

对所述目标文本进行分词处理，得到分词序列；

将所述分词序列输入到所述第一语言预测模型中，对所述分词序列进行向量编码处理，得到编码向量序列，基于自注意力机制对所述编码向量序列进行语义增强处理，得到增强语义向量，对所述增强语义向量进行降维和拼接处理，得到所述语义特征序列。

根据本发明的一个实施例，所述基于预设的第二语言预测模型对所述目标文本进行韵律特征提取，得到韵律特征序列包括：

获取用于训练的样本文本，提取所述样本文本的韵律数据，利用所述韵律数据对所述样本文本进行标签处理，获得包含韵律标签的训练数据；

基于所述训练数据和交叉熵损失函数对预设的第二语言预测模型进行训练，利用梯度下降法迭代优化所述第二语言预测模型，获得优化后的第二语言预测模型；

将所述目标文本输入优化后的所述第二语言预测模型中，输出包含韵律标签的文本序列，基于所述韵律标签对所述文本序列进行韵律特征提取，得到所述韵律特征序列。

根据本发明的一个实施例，所述对所述语义特征序列和所述韵律特征序列进行合并处理，得到用于合成所述目标语音的韵律情感信息包括：

基于相关性分析方法对所述语义特征序列和所述韵律特征序列进行相关性分析，得到至少一个主要特征以及每个主要特征的特征值以及方差贡献度；

根据所述特征值和所述方差贡献度筛选出所有主要特征中的目标特征；

根据所述目标特征确定合成所述目标语音的韵律情感信息。

根据本发明的一个实施例，所述基于相关性分析方法对所述语义特征序列和所述韵律特征序列进行相关性分析，得到至少一个主要特征以及每个主要特征的特征值以及方差贡献度之前，还包括：

对所述语义特征序列和所述韵律特征序列进行相关系数校验，得到校验结果；

判断所述校验结果是否通过；

若所述校验结果通过，则执行基于相关性分析方法对所述语义特征序列和所述韵律特征序列进行相关性分析，得到至少一个主要特征以及每个主要特征的特征值以及方差贡献度。

根据本发明的一个实施例，所述基于所述目标文本和所述韵律情感信息合成所述目标语音包括：

将所述目标文本进行音节转换处理，得到音节序列；

将所述音节序列和所述韵律情感信息输入预设的语音特征预测模型中进行语音特征分析，得到语音特征预测值；

基于声码器根据所述语音特征值进行语音合成，得到所述目标语音。

根据本发明的一个实施例，将所述音节序列和所述韵律情感信息输入预设的语音特征预测模型中进行语音特征分析，得到语音特征预测值包括：

根据所述音节序列获取音节向量；

根据所述音节向量获取所述目标文本的韵律隐特征；

将所述韵律隐特征和所述韵律情感信息进行融合和特征提取，对特征提取结果进行特征增强和扩充处理，得到韵律特征；

对所述韵律特征进行解码，得到所述语音特征预测值。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种语音合成装置，包括：

获取模块，用于获取用于合成目标语音的目标文本；

语义提取模块，用于基于预设的第一语言预测模型对所述目标文本进行语义特征提取，得到语义特征序列；

韵律提取模块，用于基于预设的第二语言预测模型对所述目标文本进行韵律特征提取，得到韵律特征序列；

合并模块，用于对所述语义特征序列和所述韵律特征序列进行合并处理，得到用于合成所述目标语音的韵律情感信息；

合成模块，用于基于所述目标文本和所述韵律情感信息合成所述目标语音。

为解决上述技术问题，本发明采用的再一个技术方案是：提供一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的语音合成方法。

为解决上述技术问题，本发明采用的再一个技术方案是：提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音合成方法。

本发明的有益效果是：通过第一语言预测模型提取语义特征序列，第二语言预测模型提取韵律特征序列，通过语义特征序列和韵律特征序列合并，获得用于合成语音的韵律情感信息，提高拟合程度和合成语音的自然度，解决了仅考虑韵律或语义，导致拟合程度低，合成语音不逼真的问题。

附图说明

图1是本发明一实施例的语音合成方法的流程示意图；

图2是本发明一实施例的语音合成方法中步骤S102的流程示意图；

图3是本发明一实施例的语音合成方法中步骤S103的流程示意图；

图4是本发明一实施例的语音合成方法中步骤S105的流程示意图；

图5是本发明实施例的语音合成装置的结构示意图；

图6是本发明实施例的计算机设备的结构示意图；

图7是本发明实施例的计算机存储介质的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

图1是本发明一实施例的语音合成方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括步骤：

步骤S101：获取用于合成目标语音的目标文本。

在步骤S101中，目标文本可以是用户想要合成目标语音所用到的文本。

步骤S102：基于预设的第一语言预测模型对目标文本进行语义特征提取，得到语义特征序列。

在步骤S102中，由于每句话的韵律情感往往会与该话术的语义相关，因此，在韵律判断中引入语义特征，能够提升韵律预测效果，从而提升合成语音的准确率和自然度。

在一种可实现的实施例中，请参见图2，步骤S102还包括以下步骤：

步骤S201：对目标文本进行分词处理，得到分词序列；

具体地，基于分词算法将目标文本中的句子以字为单位进行分隔，将分隔出来的字形成集合，得到分词序列。

步骤S202：将分词序列输入到第一语言预测模型中，对分词序列进行向量编码处理，得到编码向量序列，基于自注意力机制对编码向量序列进行语义增强处理，得到增强语义向量，对增强语义向量进行降维和拼接处理，得到语义特征序列。

本实施例的第一语言预测模型为自然语言处理中的一种语义提取模型，优选地，第一语言预测模型为BERT模型，可以是谷歌开源的中文模型。具体地，该模型的层数为12，隐藏层单元数为768，自注意力头数为12，其结构可以包括输入层、向量编码层、自注意力机制层、池化层以及输出层，本实施例将分词序列通过输入层输入到预训练好的第一语言预测模型中；向量编码层对分词序列中的每个字进行向量编码处理，得到每个字对应的字向量、文本向量以及位置向量，其中，文本向量的取值在模型训练中自动学习，用于刻画目标文本的全局语义信息，并与单个字的语义信息相融合；通过自注意力机制层对字向量、文本向量和位置向量进行语义增强处理，得到每个字融合了上下文语义信息的增强语义向量；通过池化层对增强语义向量进行特征降维和拼接处理，得到语义特征序列；通过输出层输出语义特征序列。

步骤S103：基于预设的第二语言预测模型对目标文本进行韵律特征提取，得到韵律特征序列。

在步骤S103中，由于韵律与语义是密不可分的，同一个句子，不同韵律会使句子表达的意义不同。例如“我想起来了”(“起来”读qǐl ái时，表示“我想起身了”；读qi lai时，表示“我想到了”)，因此，在韵律判断中引入韵律特征，能够提升韵律预测效果，从而提升语音合成的准确率和自然度，从而提升用户体验。

本实施例的韵律特征序列通过第二语言预测模型从输入的目标文本中获得。本实施例的第二语言预测模型为自然语言处理中的一种韵律提取模型，优选地，第一语言预测模型为BERT模型，可以是谷歌开源的中文模型。在一种可实现的实施例中，第二语言预测模型通过多任务学习的方法对各韵律层级间的关系及韵律与词间的关系进行建模，实现对输入文本各级韵律边界的同时预测。

在一种可实现的实施例中，请参见图3，步骤S103还包括：

步骤S301：获取用于训练的样本文本，提取样本文本的韵律数据，利用韵律数据对样本文本进行标签处理，获得包含韵律标签的训练数据。

在步骤S301中，获取用于训练的样本文本，对样本文本进行预处理，由于所获取的样本文本的质量与后续训练出的模型的预测准确度息息相关，因此，需对相似的样本文本进行去重处理，对低质量的样本文本进行过滤处理。对预处理后的样本文本在人工干预的情况下，采用分词算法对每个句子进行分词处理，基于分词处理结果提取每个字对应的韵律数据，利用韵律数据作为标签对对应的字进行标签处理，将标签处理后的所有字形成集合，得到包含韵律标签的训练数据。

步骤S302：基于训练数据和交叉熵损失函数对预设的第二语言预测模型进行训练，利用梯度下降法迭代优化第二语言预测模型，获得优化后的第二语言预测模型。

在步骤S302中，对于每个任务，以交叉熵作为其损失函数，对于整个模型，以最小化韵律边界预测任务与分词任务损失函数之和为训练目标，得到预训练好的第二语言预测模型。具体地，第二语言预测模型的层数为12，隐藏层单元数为768，自注意力头数为12，其结构可以包括输入层、分词层、向量编码层、自注意力机制层、池化层以及输出层。

步骤S303：将目标文本输入优化后的第二语言预测模型中，输出包含韵律标签的文本序列，基于韵律标签对文本序列进行韵律特征提取，得到韵律特征序列。

在步骤S303中，第二语言预测模型的结构可以包括：输入层、分词层、向量编码层、自注意力机制层、池化层以及输出层，将训练数据通过输入层输入到预构建好的第二语言预测模型中，通过分词层对目标文本进行分词处理和词性标注处理，得到分词标注序列；通过向量编码层对分词标注序列中的每个字进行特征提取处理，得到编码特征序列，编码特征序列中每个字的特征至少包括语义特征提取的字向量；通过自注意力机制层基于上下文学习编码特征序列中每个字的韵律层级，获得韵律层级特征，通过池化层对韵律层级特征进行特征降维和拼接处理，得到韵律特征序列，通过输出层输出韵律特征序列。

步骤S104：对语义特征序列和韵律特征序列进行合并处理，得到用于合成目标语音的韵律情感信息。

在步骤S104中，在一种可实现地实施例中，对语义特征序列和韵律特征序列进行相关系数校验，得到校验结果；判断校验结果是否通过；若校验结果通过，则基于相关性分析方法对语义特征序列和韵律特征序列进行相关性分析，得到至少一个主要特征以及每个主要特征的特征值以及方差贡献度；根据特征值和方差贡献度筛选出所有主要特征中的目标特征；根据目标特征确定合成目标语音的韵律情感信息。

在一种可实现的实施例中，基于相关性分析方法对语义特征序列和韵律特征序列进行相关性分析，可以为利用相似度计算方法计算语义特征序列和韵律特征序列的相似度，将相似度计算结果进行排序，对相似度较高的特征进行降维处理，得到至少一个主要特征以及每个主要特征的特征值以及方差贡献度。根据预设的碎石图和方差贡献度筛选出所有主要特征中的目标特征；根据目标特征确定合成目标语音的韵律情感信息。

步骤S105：基于目标文本和韵律情感信息合成目标语音。

在步骤S105中，将目标文本转化为对应的语音，然后加上韵律情感信息，能够合成目标语音。本实施例的韵律情感综合考虑了目标文本的语义特征和韵律特征，提高了韵律预测的准确度，从而提高了目标语音准确度和自然度，解决了仅考虑韵律或语义，导致拟合程度低，合成语音不逼真的问题。在一种可实现的实施例中，针对相同的目标文本，可以根据实际需求对韵律情感信息进行调整，合成多种不同韵律效果的语音，能够解决不同发音使句子表达的意义不同的问题，适用于语音合并多样性要求较高的场景。

在一种可实现的实施例中，请参见图4，步骤S105还包括：

步骤S401：将目标文本进行音节转换处理，得到音节序列。

本实施例种，音节转换处理指的是将目标文本转换为对应的汉字拼音序列，对汉字拼音序列按照音节进行拆分，例如，目标文本为[中国平安]，其汉字拼音序列为[zhong1guo2ping2an1]，其音节序列为[zh，ong1， g，uo2，p，ing2，an1]。

步骤S402：将音节序列和韵律情感信息输入预设的语音特征预测模型中进行语音特征分析，得到语音特征预测值。

本实施例的语音特征预测模型可以是非自回归语音合成(Text to Speech,TTS)模型(如FastSpeech)，也可以是自回归语音合成模型(如 Tacotron 2)，优选为Fastspeech模型。采用Fastspeech模型可以实现并行计算，能极大提升合成速度，提升语音鲁棒性(减少重复吐词、漏词等问题)与可控性(控制速率和韵律)，同时达到相匹配的语音合成质量。

在一种可实现的实施例中，语音特征预测模型的结构包括音节嵌入层、音节编码层、方差适配器以及Mel谱解码器，其中，音节嵌入层用于根据音节序列获取音节的向量表示，音节编码层用于根据音节的向量获得目标文本的韵律隐特征，方差适配器用于将韵律隐特征和韵律情感信息进行融合和特征提取，并将提取的特征进行特征增强和扩充，Mel谱解码器用于根据方差适配器的输出实现并行解码，得到合成语音的 Mel谱，即语音特征预测值。

步骤S403：基于声码器根据语音特征值进行语音合成，得到目标语音。

本实施例的声码器根据语音特征值生成语音信号，本实施例的声码器优选为HiFi-GAN，利用HiFi-GAN作为声码器可以对高采样率的语音合成具有更自然地合成效果。

图5是本发明实施例的语音合成装置的结构示意图。如图5所示，该装置50包括获取模块51、语义提取模块52、韵律提取模块53、合并模块54以及合成模块55。

获取模块51用于获取用于合成目标语音的目标文本；

语义提取模块52用于基于预设的第一语言预测模型对目标文本进行语义特征提取，得到语义特征序列；

韵律提取模块53用于基于预设的第二语言预测模型对目标文本进行韵律特征提取，得到韵律特征序列；

合并模块54用于对语义特征序列和韵律特征序列进行合并处理，得到用于合成目标语音的韵律情感信息；

合成模块55用于基于目标文本和韵律情感信息合成目标语音。

请参阅图6，图6为本发明实施例的计算机设备的结构示意图。如图6所示，该计算机设备60包括处理器61及和处理器61耦接的存储器62。

存储器62存储有用于实现上述任一实施例所述的语音合成方法的程序指令。

处理器61用于执行存储器62存储的程序指令以合成目标语音。

其中，处理器61还可以称为CPU(Central Processing Unit，中央处理单元)。处理器61可能是一种集成电路芯片，具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图7，图7为本发明实施例的计算机存储介质的结构示意图。本发明实施例的计算机存储介质存储有能够实现上述所有方法的程序文件71，其中，该程序文件71可以以软件产品的形式存储在上述计算机存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的计算机存储介质包括： U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音合成方法，其特征在于，包括：

获取用于合成目标语音的目标文本；

基于所述目标文本和所述韵律情感信息合成所述目标语音。

2.根据权利要求1所述的语音合成方法，其特征在于，所述基于预设的第一语言预测模型对所述目标文本进行语义特征提取，得到语义特征序列包括：

对所述目标文本进行分词处理，得到分词序列；

3.根据权利要求1所述的语音合成方法，其特征在于，所述基于预设的第二语言预测模型对所述目标文本进行韵律特征提取，得到韵律特征序列包括：

4.根据权利要求1所述的语音合成方法，其特征在于，所述对所述语义特征序列和所述韵律特征序列进行合并处理，得到用于合成所述目标语音的韵律情感信息包括：

根据所述目标特征确定合成所述目标语音的韵律情感信息。

5.根据权利要求4所述的语音合成方法，其特征在于，所述基于相关性分析方法对所述语义特征序列和所述韵律特征序列进行相关性分析，得到至少一个主要特征以及每个主要特征的特征值以及方差贡献度之前，还包括：

判断所述校验结果是否通过；

6.根据权利要求1所述的语音合成方法，其特征在于，所述基于所述目标文本和所述韵律情感信息合成所述目标语音包括：

将所述目标文本进行音节转换处理，得到音节序列；

7.根据权利要求6所述的语音合成方法，其特征在于，将所述音节序列和所述韵律情感信息输入预设的语音特征预测模型中进行语音特征分析，得到语音特征预测值包括：

根据所述音节序列获取音节向量；

根据所述音节向量获取所述目标文本的韵律隐特征；

对所述韵律特征进行解码，得到所述语音特征预测值。

8.一种语音合成装置，其特征在于，包括：

获取模块，用于获取用于合成目标语音的目标文本；

9.一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的语音合成方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的语音合成方法。