CN117727290A

CN117727290A - 一种语音合成方法、装置、设备及可读存储介质

Info

Publication number: CN117727290A
Application number: CN202410181439.2A
Authority: CN
Inventors: 吕金松; 余承超; 张争旭; 黄天财; 黄俊杰; 黄海波; 李阳; 李子王; 杨亮
Original assignee: Xiamen Huanqu Information Technology Co ltd; Xiamen Seal Cloud Information Technology Co ltd; Xiamen Shequ Information Technology Co ltd
Current assignee: Xiamen Huanqu Information Technology Co ltd; Xiamen Seal Cloud Information Technology Co ltd; Xiamen Shequ Information Technology Co ltd
Priority date: 2024-02-18
Filing date: 2024-02-18
Publication date: 2024-03-19

Abstract

本发明提供了一种语音合成方法、装置、设备及可读存储介质，通过获取目标文本，通过预训练的文本模型BERT对目标文本进行编码，以生成文本情感编码，获取参考语音，通过预训练的语音模型BERT对参考语音进行编码，以生成语音情感编码；将解析音素与文本情感编码和语音情感编码输入到基于Transformer的先验编码器生成潜在表示编码；调用MAS算法获得对齐矩阵，对齐矩阵的元素为每个音素的发音时长，通过对齐矩阵训练时长预测器，对潜在表示信息的文本特征和语音帧进行对齐和优化，推理时对潜在表示信息进行扩展处理生成目标文本的梅尔频谱，使用基于hifigan的解码器对目标文本的梅尔频谱进行解码处理，生成目标文本的音频波形。解决现有的TTS产品的情感表达有限的问题。

Description

一种语音合成方法、装置、设备及可读存储介质

技术领域

本发明涉及语音处理领域，特别涉及一种语音合成方法、装置、设备及可读存储介质。

背景技术

TTS（文字转语音）技术目前已经非常成熟，语音效果稳定而清晰，成本也较低，极大地降低了人工劳动力。TTS技术被广泛应用于广播收听、车载导航、智能客服等多种场景。随着跨时代的AI产品推出，对新时代AI产品的需求逐渐升高。然而，目前市面上的大多数TTS产品主要以播报为目标，其语音效果虽然准确而稳定，但难免显得有些单调和机械，情感表达较为有限。它们无法提供像笑声、咳嗽、呼吸等更贴近真实人类的合成语音，因此在应用于新世代的AI产品中存在一定的局限性。

有鉴于此，提出本申请。

发明内容

本发明公开了一种语音合成方法、装置、设备及可读存储介质，旨在解决现有的TTS产品的情感表达有限的问题。

本发明第一实施例提供了一种语音合成方法，包括：

获取目标文本，通过预训练的文本模型BERT对所述目标文本进行编码，以生成文本情感编码；

获取参考语音，通过预训练的语音模型BERT对所述参考语音进行编码，以生成语音情感编码；

将解析音素与所述文本情感编码和所述语音情感编码输入到基于Transformer的编码器，以生成潜在表示信息；

调用MAS算法对文本特征和语音帧进行对齐和优化，生成语音片段的对齐矩阵，其中，所述对齐矩阵的元素为每个音素的发音时长；通过对齐矩阵训练时长预测器，并基于对齐矩阵训练过的时长预测器对所述潜在表示信息进行扩展处理，以生成目标文本的梅尔频谱；

对所述目标文本的梅尔频谱进行还原处理，生成目标文本的音频波形。

优选地，在调用MAS算法对文本特征和语音帧进行对齐和优化，生成语音片段的对齐矩阵之前，还包括：

调整所述参考语音的音色，并将调整后的音色与所述潜在表示信息进行融合；

对融合后的潜在表示信息进行线性转换，以构建融合后的潜在表示信息的先验分布，并通过标准化流对所述先验分布进行复杂化处理。

优选地，所述调用MAS算法对文本特征和语音帧进行对齐和优化，生成语音片段的对齐矩阵，具体为：

将所述文本特征和语音帧进行硬对齐，以使得所述文本特征和语音帧映射到一个相同的时间轴上；

调用MAS算法对假设符合高斯分布的所述文本特征和语音帧进行优化，以生成最优的对齐矩阵。

优选地，所述对所述目标文本的梅尔频谱进行还原处理，生成目标文本的音频波形，具体为：

使用一维转置卷积对目标文本的梅尔频谱进行上采样以生成样本点；

通过多感受野融合的残差网络对所述样本点进行处理，以生成目标文本的音频波形。

优选地，所述调用音素时长预测器对潜在信息表示进行扩展处理，以生成目标文本的梅尔频谱，具体为：

调用音素时长预测器对所述潜在信息表示进行扩展处理，以生成处理结果；

基于重构损失对所述处理结果进行优化，以生成目标文本的梅尔频谱，其中，所述重构损失的表达式为：

；

其中，为重构损失，/>为目标梅尔频谱，/>为处理结果。

优选地，所述调用MAS算法对假设符合高斯分布的所述文本特征和语音帧进行优化，以生成最优的对齐矩阵，具体为：

通过优化KL散度估算对齐分布，并根据所述对齐分布进行单调对齐搜索MAS算法，生成最优的对齐矩阵；

优化KL散度的表达式为：；

其中，为文本，/>为目标输出，/>为最大概率对齐矩阵，/>为参考线性谱，和/>为给出对应条件下潜在变量z的先验分布；

MAS算法的表达式为：

其中，为采样的对齐矩阵。

本发明第二实施例提供了一种语音合成装置，包括：

文本情感编码单元，用于获取目标文本，通过预训练的文本模型BERT对所述目标文本进行编码，以生成文本情感编码；

语音情感编码单元，用于获取参考语音，通过预训练的语音模型BERT对所述参考语音进行编码，以生成语音情感编码；

潜在表示信息生成单元，用于将解析音素与所述文本情感编码和所述语音情感编码输入到基于Transformer的先验编码器，以生成潜在表示信息；

梅尔频谱生成单元，用于调用MAS算法对文本特征和语音帧进行对齐和优化，生成语音片段的对齐矩阵，其中，所述对齐矩阵的元素为每个音素的发音时长；通过对齐矩阵训练时长预测器，并基于对齐矩阵训练过的时长预测器对所述潜在表示信息进行扩展处理，以生成目标文本的梅尔频谱；

音频波形生成单元，用于对所述目标文本的梅尔频谱进行还原处理，生成目标文本的音频波形。

优选地，所述潜在表示信息生成单元还用于：

本发明第三实施例提供了一种语音合成设备，包括存储器以及处理器，所述存储器内存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如上任意一项所述的一种语音合成方法。

本发明第四实施例提供了一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行，以实现如上任意一项所述一种语音合成方法。

基于本发明提供的一种语音合成方法、装置、设备及可读存储介质，通过获取目标文本，通过预训练的文本模型BERT对所述目标文本进行编码，以生成文本情感编码，接着，获取参考语音，通过预训练的语音模型BERT对所述参考语音进行编码，以生成语音情感编码；再接着，将解析音素与所述文本情感编码和所述语音情感编码输入到基于Transformer的先验编码器，以生成潜在表示信息；调用MAS算法对文本特征和语音帧进行对齐和优化，生成语音片段的对齐矩阵，其中，所述对齐矩阵的元素为每个音素的发音时长；通过对齐矩阵训练时长预测器，并基于对齐矩阵训练过的时长预测器对所述潜在表示信息进行扩展处理，以生成目标文本的梅尔频谱；最后，对所述目标文本的梅尔频谱进行还原处理，生成目标文本的音频波形。解决现有的TTS产品的情感表达有限的问题。

附图说明

图1是本发明第一实施例提供的一种语音合成方法的流程示意图；

图2是本发明第二实施例提供的一种语音合成装置的模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

实施例中提及的“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

以下结合附图对本发明的具体实施例做详细说明。

请参阅图1，本发明第一实施例提供了一种语音合成方法，其可由语音合成设备（以下简称合成设备）来执行，特别的，由所述合成设备内的一个或者多个处理器来执行，以至少实现如下步骤：

S101，获取目标文本，通过预训练的文本模型BERT对所述目标文本进行编码，以生成文本情感编码；

在本实施例中，所述合成设备可以为服务器、工作站、笔记本电脑、台式电脑等，所述合成设备可安装有相应的操作系统以及应用软件，并通过操作系统以及应用软件的结合来实现本实施例所需的功能；

需要说明的是，传统的TTS技术输入仅由音素组成，由于音素之间相互独立，无法有效反映文本的语义信息。在本实施例中，与传统TTS方法相比，引入预训练语言模型BERT进行文本编码。在基于音素的输入基础上，BERT提供额外的语义信息，使得模型具备更为丰富的特征输入。在推理阶段，便于模型结合输入文本上下文进行语义推断，为声学模型提供更丰富的语义特征，从而使TTS输出更富有情感。

S102，获取参考语音，通过预训练的语音模型BERT对所述参考语音进行编码，语音情感编码；

需要说明的是，在本实施例中，可以使用高质量且情感丰富的语音作为训练数据，相较于传统tts使用的朗读数据，有更多的情感信息可以被量化使用。语音预训练bert以音频大模型wav2vec为基础，通过外接分类器网络能够作为asr模型使用。其中，通过外接情感分类器，对音频模型进行情感分析的下游任务微调，使该预训练模型具备情感语音的编码能力，在语音层面上进行音频编码，为输入提供更多情感特征，便于模型在推理过程中实现更好的情感表达。

S103，将解析音素与所述文本情感编码和所述语音情感编码输入到基于Transformer的编码器，以生成潜在表示信息；

需要说明的是，基于Transformer的先验编码器能够有效地捕捉输入序列中的上下文关系，其可以有效地将不同来源的信息进行整合，形成更全面的潜在表示，同时，也会更好的理解音素、文本情感和语音情感之间的关联性，在语音合成中更好地理解和推断语义信息，提高生成语音的质量和自然度。

在本发明一个可能的实施例中，调整所述参考语音的音色，并将调整后的音色与所述潜在表示信息进行融合；

对融合后的潜在表示信息进行线性转换，以构建融合后的潜在表示信息的先验分布，并通过标准化流对所述先验分布进行复杂化处理；

需要说明的是，调整参考语音的音色允许模型在生成语音时更灵活地适应不同的声音特征，使其更符合用户需求或特定场景。将调整后的音色与潜在表示信息融合，其能够将音色信息与语义信息更好地结合在一起。使得生成的语音不仅具有准确的语义表达，还能够在情感上更好地符合情景和语境。对融合后的潜在表示信息进行线性转换，将这些信息映射到先验分布的均值和方差上。其能够提高模型在生成语音时对先验信息的利用，从而使得生成的语音更加符合期望的分布特征。通过标准化流对先验分布进行复杂化处理，可以增加模型对先验分布的建模灵活性，使得模型更好地适应不同样本的特征分布，提高生成语音的多样性和逼真度。

S104，调用MAS算法对文本特征和语音帧进行对齐和优化，生成语音片段的对齐矩阵（经过优化后的对齐矩阵为最大概率的对齐矩阵），其中，所述对齐矩阵的元素为每个音素的发音时长；通过对齐矩阵训练时长预测器，并基于对齐矩阵训练过的时长预测器对所述潜在表示信息进行扩展处理，以生成目标文本的梅尔频谱；

在本实施例中，生成语音片段的对齐矩阵的具体过程为：

首先，将所述文本特征和语音帧进行硬对齐，以使得所述文本特征和语音帧映射到一个相同的时间轴上；

需要说明的是，由于缺乏音素时长标签，硬对齐有助于防止文本和语音帧之间的时间错位。如果文本和语音帧没有正确对齐，可能导致生成的语音出现不自然的断裂或不连贯。

接着，调用MAS算法对假设符合高斯分布的所述文本特征和语音帧进行优化，以生成最优的对齐矩阵，更具体地，通过优化KL散度估算对齐分布，并根据所述对齐分布进行单调对齐搜索MAS算法，生成最优的对齐矩阵；

优化KL散度的表达式为：；

MAS算法的表达式为：

其中，为采样的对齐矩阵。

需要说明的是，通过优化KL散度，可以有效地衡量目标输出和参考线性谱之间的分布差异。其能够提高对齐分布的准确性，从而使MAS算法更有效地搜索到最佳的对齐矩阵；进一步地，在优化KL散度时考虑了潜在变量z的先验分布，即对齐过程中考虑了潜在变量的分布情况，有效地控制生成语音的时序特征。

在本实施例中，生成目标文本的梅尔频谱的具体过程为：

首先，调用训练后的音素时长预测器对编码器生成的潜在信息表示进行扩展处理，以生成处理结果；

接着，基于重构损失对所述处理结果进行优化，以生成目标文本的梅尔频谱，其中，所述重构损失的表达式为：

；

其中，为重构损失，/>为目标梅尔频谱，/>为处理结果。

需要说明的是，利用重构损失对处理结果进行优化，以生成目标文本的梅尔频谱。重构损失衡量了生成的梅尔频谱与目标梅尔频谱之间的差异，通过最小化这一损失，可以确保生成的频谱尽可能地接近目标。由于重构损失涉及到音素的时长信息，在优化过程中考虑时序一致性。使得在生成的梅尔频谱在时间上保持一致，语音合成的时序特征更为准确。

S105，对所述目标文本的梅尔频谱进行还原处理，生成目标文本的音频波形。

在本实施例中，可以使用基于hifigan的解码器对目标文本的梅尔频谱进行解码处理，具体地，可以使用一维转置卷积对目标文本的梅尔频谱进行上采样以生成样本点；

需要说明的是，一维转置卷积能够有效地对梅尔频谱进行上采样，使得生成的样本点具有更高的时域分辨率。通过多感受野融合的残差网络对样本点进行处理，模型能够在多个尺度上捕捉音频特征，包括局部和全局的信息。生成更富有表现力和多样性的音频波形。

请参阅图2，本发明第二实施例提供了一种语音合成装置，包括：

文本情感编码单元201，用于获取目标文本，通过预训练的文本模型BERT对所述目标文本进行编码，以生成文本情感编码；

语音情感编码单元202，用于获取参考语音，通过预训练的语音模型BERT对所述参考语音进行编码，以生成语音情感编码；

潜在表示信息生成单元203，用于将解析音素与所述文本情感编码和所述语音情感编码输入到基于Transformer的先验编码器，以生成潜在表示信息；

梅尔频谱生成单元204，用于调用MAS算法对文本特征和语音帧进行对齐和优化，生成语音片段的对齐矩阵，其中，所述对齐矩阵的元素为每个音素的发音时长；通过对齐矩阵训练时长预测器，并基于对齐矩阵训练过的时长预测器对所述潜在表示信息进行扩展处理，以生成目标文本的梅尔频谱；

音频波形生成单元205，用于对所述目标文本的梅尔频谱进行还原处理，生成目标文本的音频波形。

优选地，所述潜在表示信息生成单元还用于：

示例性地，本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述实现一种语音合成设备中的执行过程。例如，本发明第二实施例中所述的装置。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种语音合成方法的控制中心，利用各种接口和线路连接整个所述实现对一种语音合成方法的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现一种语音合成方法的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、文字转换功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、文字消息数据等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘、智能存储卡（Smart Media Card, SMC）、安全数字（Secure Digital, SD）卡、闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一个计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种语音合成方法，其特征在于，包括：

将解析音素与所述文本情感编码和所述语音情感编码输入到基于Transformer的先验编码器，以生成潜在表示信息；

调用MAS算法对文本特征和语音帧进行对齐和优化，生成语音片段的对齐矩阵，具体为：将所述文本特征和语音帧进行硬对齐，以使得所述文本特征和语音帧映射到一个相同的时间轴上；调用MAS算法对假设符合高斯分布的所述文本特征和语音帧进行优化，以生成最优的对齐矩阵，具体为，通过优化KL散度估算对齐分布，并根据所述对齐分布进行单调对齐搜索MAS算法，生成最优的对齐矩阵；

优化KL散度的表达式为：；

其中，为文本，/>为目标输出，/>为对齐矩阵，/>为参考线性谱，/>和为给出对应条件下潜在变量z的先验分布；

MAS算法的表达式为：

其中，为采样的对齐矩阵；

其中，所述对齐矩阵的元素为每个音素的发音时长；通过对齐矩阵训练时长预测器，并基于对齐矩阵训练过的时长预测器对所述潜在表示信息进行扩展处理，以生成目标文本的梅尔频谱；

2.根据权利要求1所述的一种语音合成方法，其特征在于，在调用MAS算法对的文本特征和语音帧进行对齐和优化，生成语音片段的对齐矩阵之前，还包括：

3.根据权利要求1所述的一种语音合成方法，其特征在于，所述对所述目标文本的梅尔频谱进行还原处理，生成目标文本的音频波形，具体为：

4.根据权利要求1所述的一种语音合成方法，其特征在于，所述基于对齐矩阵训练过的时长预测器对所述潜在表示信息进行扩展处理，以生成目标文本的梅尔频谱，具体为：

调用音素时长预测器对潜在表示信息进行扩展处理，以生成处理结果；

；

其中，为重构损失，/>为目标梅尔频谱，/>为处理结果。

5.一种语音合成装置，其特征在于，包括：

潜在表示信息生成单元，用于将解析音素与所述文本情感编码和所述语音情感编码输入到基于Transformer的编码器，以生成潜在表示信息；

梅尔频谱生成单元，用于调用MAS算法对文本特征和语音帧进行对齐和优化，生成语音片段的对齐矩阵，具体为：将所述文本特征和语音帧进行硬对齐，以使得所述文本特征和语音帧映射到一个相同的时间轴上；调用MAS算法对假设符合高斯分布的所述文本特征和语音帧进行优化，以生成最优的对齐矩阵，具体为，通过优化KL散度估算对齐分布，并根据所述对齐分布进行单调对齐搜索MAS算法，生成最优的对齐矩阵；

优化KL散度的表达式为：；

MAS算法的表达式为：

其中，为采样的对齐矩阵；

6.根据权利要求5所述的一种语音合成装置，其特征在于，所述潜在表示信息生成单元还用于：

7.一种语音合成设备，其特征在于，包括存储器以及处理器，所述存储器内存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如权利要求1至4任意一项所述的一种语音合成方法。

8.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行，以实现如权利要求1至4任意一项所述一种语音合成方法。