CN118366430A

CN118366430A - 一种拟人化的语音合成方法、装置及可读存储介质

Info

Publication number: CN118366430A
Application number: CN202410773107.3A
Authority: CN
Inventors: 张硕; 苏江
Original assignee: DMAI Guangzhou Co Ltd
Current assignee: DMAI Guangzhou Co Ltd
Priority date: 2024-06-17
Filing date: 2024-06-17
Publication date: 2024-07-19
Anticipated expiration: 2044-06-17
Also published as: CN118366430B

Abstract

本发明公开了一种拟人化的语音合成方法、装置及可读存储介质，包括：首先，对待处理文本进行特征编码，获取包含语义和语境信息的文本编码特征。接着，通过语音风格预测得到对应的语音风格信息，并提取其风格特征隐变量。将文本编码特征与风格特征隐变量融合，形成融合语音特征。然后，将这些特征输入预设的特征解码器，获得语音解码特征向量。进一步地，结合目标说话用户的身份标识进行特征转化，得到音频信号特征。最后，利用声码器处理这些音频信号特征，生成具有拟人化特色的目标合成语音。如此设计，能够显著提高语音合成的自然度和个性化表现，为用户提供更加逼真的语音交互体验。

Description

一种拟人化的语音合成方法、装置及可读存储介质

技术领域

本发明涉及语音处理技术领域，具体而言，涉及一种拟人化的语音合成方法。

背景技术

随着人工智能技术的不断发展，语音合成技术已成为人机交互领域的重要组成部分。传统的语音合成方法往往只注重文本到语音的转换，而忽视了语音的个性化和情感表达。如何提升语音合成的自然度和表现力、并准确捕捉文本中的语义和语境信息，是本领域技术人员需要解决的。

发明内容

本发明的目的在于提供一种拟人化的语音合成方法、装置及可读存储介质。

第一方面，本发明实施例提供一种拟人化的语音合成方法，包括：

获取待处理文本，对所述待处理文本进行特征编码操作，得到所述待处理文本对应的文本编码特征，所述文本编码特征包括文本语义信息和文本语境信息；

对所述文本编码特征进行语音风格预测，得到所述文本编码特征对应的语音风格信息；

提取所述语音风格信息的风格特征隐变量，并将所述文本编码特征和所述风格特征隐变量进行融合，得到融合语音特征；

将所述融合语音特征输入预设特征解码器，得到所述融合语音特征对应的语音解码特征向量；

将所述语音解码特征向量和目标说话用户的身份标识进行特征转化，得到音频信号特征；

通过声码器对所述音频信号特征进行处理，得到目标拟人化合成语音。

在本发明实施例中，所述获取待处理文本，对所述待处理文本进行特征编码操作，得到所述待处理文本对应的文本编码特征，包括：

调用文本编码器，所述文本编码器包括多个前馈神经网络层；

将所述待处理文本输入所述文本编码器中进行非线性变换操作，得到包括所述文本语义信息和所述文本语境信息的所述文本编码特征。

在本发明实施例中，所述对所述文本编码特征进行语音风格预测，得到所述文本编码特征对应的语音风格信息，包括：

调用风格预测器，所述风格预测器包括多个卷积层；

将所述文本编码特征输入所述风格预测器，得到所述文本编码特征对应风格的均值和方差；

将所述文本编码特征对应风格的均值和方差作为所述语音风格信息。

在本发明实施例中，所述提取所述语音风格信息的风格特征隐变量，包括：

调用正则化流模型，所述正则化流模型包括多个连续的正则化流层，每个所述正则化流层包括一个变换函数和一个正则化函数；

将所述语音风格信息输入所述正则化流模型，经过所述变换函数和所述正则化函数进行处理，得到所述风格特征隐变量。

在本发明实施例中，所述将所述融合语音特征输入预设特征解码器，得到所述融合语音特征对应的语音解码特征向量，包括：

调用所述预设特征解码器，所述预设特征解码器为瓶颈特征解码器，所述瓶颈特征解码器从预训练完成的自动语音识别模型中获取，所述瓶颈特征解码器包括多个前馈神经网络层；

将所述融合语音特征输入所述瓶颈特征解码器，得到所述融合语音特征对应的语音解码特征向量。

在本发明实施例中，所述将所述语音解码特征向量和目标说话用户的身份标识进行特征转化，得到音频信号特征，包括：

将所述语音解码特征向量和目标说话用户的身份标识输入梅尔频谱解码器进行转化，得到梅尔频谱特征作为所述音频信号特征。

在本发明实施例中，所述风格特征隐变量通过以下方式学习，包括：

获取经过正则化流模型得到的样本风格特征隐变量；

将所述样本风格特征隐变量输入语言现象预测器进行处理，得到所述样本风格特征隐变量的第一特征表示；

将语言现象标签输入语言现象编码器进行处理，得到所述语言现象标签的第二特征表示；

根据所述第一特征表示和所述第二特征表示的误差进行损失计算，以完成针对所述风格特征隐变量的学习。

在本发明实施例中，所述方法还包括：

将所述语音解码特征向量输入参考编码器进行处理，得到所述语音解码特征向量对应的帧级别特征表示，所述参考编码器包括多个空洞卷积层和门控卷积层；

调用预设对齐工具，将所述帧级别特征表示转换为音素级别特征表示；

通过线性层对所述音素级别特征表示进行处理，得到所述音素级别特征的均值和方差。

第二方面，本发明实施例提供一种拟人化的语音合成装置，包括：

获取模块，用于获取待处理文本，对所述待处理文本进行特征编码操作，得到所述待处理文本对应的文本编码特征，所述文本编码特征包括文本语义信息和文本语境信息；

计算模块，用于对所述文本编码特征进行语音风格预测，得到所述文本编码特征对应的语音风格信息；提取所述语音风格信息的风格特征隐变量，并将所述文本编码特征和所述风格特征隐变量进行融合，得到融合语音特征；将所述融合语音特征输入预设特征解码器，得到所述融合语音特征对应的语音解码特征向量；

合成模块，用于将所述语音解码特征向量和目标说话用户的身份标识进行特征转化，得到音频信号特征；通过声码器对所述音频信号特征进行处理，得到目标拟人化合成语音。

第三方面，本发明实施例提供一种可读存储介质，所述可读存储介质包括计算机程序，所述计算机程序运行时控制所述可读存储介质所在计算机设备执行第一方面至少一种可能的实施方式所述的拟人化的语音合成方法。

相比现有技术，本发明提供的有益效果包括：采用本发明公开的一种拟人化的语音合成方法、装置及可读存储介质，通过对待处理文本进行特征编码，获取包含语义和语境信息的文本编码特征。接着，通过语音风格预测得到对应的语音风格信息，并提取其风格特征隐变量。将文本编码特征与风格特征隐变量融合，形成融合语音特征。然后，将这些特征输入预设的特征解码器，获得语音解码特征向量。进一步地，结合目标说话用户的身份标识进行特征转化，得到音频信号特征。最后，利用声码器处理这些音频信号特征，生成具有拟人化特色的目标合成语音。如此设计，能够显著提高语音合成的自然度和个性化表现，为用户提供更加逼真的语音交互体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的拟人化的语音合成方法的步骤流程示意图；

图2为本发明实施例提供的拟人化的语音合成装置的结构示意框图；

图3为本发明实施例提供的计算机设备的结构示意框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

下面结合附图，对本发明的具体实施方式进行详细说明。

为了解决前述背景技术中的技术问题，图1为本公开实施例提供的拟人化的语音合成方法的流程示意图，下面对该拟人化的语音合成方法进行详细介绍。

步骤S201，获取待处理文本，对所述待处理文本进行特征编码操作，得到所述待处理文本对应的文本编码特征，所述文本编码特征包括文本语义信息和文本语境信息；

步骤S202，对所述文本编码特征进行语音风格预测，得到所述文本编码特征对应的语音风格信息；

步骤S203，提取所述语音风格信息的风格特征隐变量，并将所述文本编码特征和所述风格特征隐变量进行融合，得到融合语音特征；

步骤S204，将所述融合语音特征输入预设特征解码器，得到所述融合语音特征对应的语音解码特征向量；

步骤S205，将所述语音解码特征向量和目标说话用户的身份标识进行特征转化，得到音频信号特征；

步骤S206，通过声码器对所述音频信号特征进行处理，得到目标拟人化合成语音。

在本发明实施例中，示例性的，服务器接收到一段待处理的文本：“明天天气预计会放晴，适合户外活动。”服务器首先使用自然语言处理模型对这段文本进行特征编码操作。编码过程中，服务器不仅分析了文本的语义信息，即文本所传达的基本含义，还深入解析了文本的语境信息，如天气、活动建议等。经过编码，服务器得到了这段文本对应的文本编码特征。接下来，服务器利用机器学习模型对文本编码特征进行语音风格预测。通过分析文本中的词汇、语法和语境，模型预测这段文本应该用轻松愉快的语音风格来传达，以匹配文本中提到的“适合户外活动”的积极氛围。服务器进一步提取出语音风格信息中的风格特征隐变量，这些隐变量捕捉到了轻松愉快语音风格的关键要素。随后，服务器将这些风格特征隐变量与之前的文本编码特征进行融合，形成了一个更加丰富的融合语音特征，这个特征既包含了文本的内容，也反映了预期的语音风格。服务器将融合后的语音特征输入到一个预设的特征解码器中。这个解码器是一个深度学习模型，它能够将融合语音特征转换成语音解码特征向量，这个向量是生成语音波形的关键。服务器接着将语音解码特征向量与目标说话用户的身份标识进行特征转化。例如，如果目标说话用户是一个名为“小明”的虚拟角色，服务器会根据小明的声音特点，如音调、音色等，对语音解码特征向量进行调整，从而得到具有小明声音特色的音频信号特征。最后，服务器使用声码器对音频信号特征进行处理。声码器将这些特征转换成人类可听的音频波形，生成了目标拟人化合成语音。在这个例子中，服务器最终合成了一段小明用轻松愉快的语调说出“明天天气预计会放晴，适合户外活动”的语音。

在本发明实施例中，前述步骤S201可以通过以下示例执行实施。

在本发明实施例中，示例性的，服务器开始执行拟人化语音合成流程时，首先会调用一个文本编码器。这个文本编码器是预先训练好的，包含多个前馈神经网络层，这些网络层能够深入捕捉和理解文本数据中的复杂特征。例如，服务器在处理一句待合成语音的文本：“明天的科技展览会上，将展示最新的智能机器人。”时，会首先激活文本编码器，准备对这句话进行深度分析。接着，服务器将上述待处理文本输入到已调用的文本编码器中。这一步是自动化的，服务器通过内部的数据处理流程，将文本数据传递给编码器进行下一步的操作。文本编码器接收到服务器传递的文本后，开始利用其中的多个前馈神经网络层对文本进行非线性变换操作。这个过程中，神经网络层会逐步提取文本中的深层次特征，包括词语的语义信息，如“科技展览会”、“智能机器人”等词汇的具体含义，以及这些词汇在句子中构成的语境信息，如“展示最新的智能机器人”暗示了一种科技展示的场景。经过文本编码器的非线性变换操作后，服务器得到了包含文本语义信息和文本语境信息的文本编码特征。这些特征是一个高维度的数据表示，它们捕捉了原始文本的核心内容，并为后续的语音风格预测和语音合成提供了丰富的信息基础。例如，在这个场景中，文本编码特征可能包括了关于“科技展览会”、“智能机器人”等关键词的深层次理解，以及这些词汇在句子中所构成的语境和情感色彩。这些特征将被服务器用于接下来的语音合成步骤中，以确保生成的语音不仅准确传达了文本的内容，还符合预期的语境和情感表达。

在本发明实施例中，前述步骤S202可以通过以下示例执行实施。

调用风格预测器，所述风格预测器包括多个卷积层；

在本发明实施例中，示例性的，在完成了文本编码特征的提取后，服务器会调用一个风格预测器。这个风格预测器是一个深度学习模型，特别包含了多个卷积层，这些卷积层能够有效地从文本编码特征中捕捉到语音风格的细微差别。例如，当服务器处理文本“欢迎光临的餐厅，希望您能享受到美味的晚餐。”时，它会激活风格预测器，准备分析这段文本的语音风格。服务器将之前提取的文本编码特征输入到风格预测器中。这些特征包含了文本的语义信息和语境信息，是风格预测的基础。风格预测器接收到文本编码特征后，通过其内部的卷积层进行深度分析，计算出这些特征对应的语音风格的均值和方差。均值反映了风格的平均水平，而方差则体现了风格的波动范围，这两者共同构成了对语音风格的定量描述。例如，在处理上述餐厅欢迎语时，风格预测器可能会得出一个温暖、亲切的语音风格均值，以及一个相对较小的方差，表示这段文本应该用一种较为一致且温和的语气来传达。服务器将风格预测器输出的均值和方差作为文本的语音风格信息。这些信息将在后续的语音合成过程中被用来调整生成的语音，以确保其符合预期的语音风格。通过对文本编码特征进行语音风格预测，服务器能够准确地把握文本所适合的语音风格，为接下来的语音合成提供了重要的参考依据。

在本发明实施例中，前述步骤S203可以通过以下示例执行实施。

在本发明实施例中，示例性的，在确定了文本的语音风格信息后，服务器会调用一个正则化流模型。这个模型是专门为了从复杂的语音风格信息中提取出风格特征隐变量而设计的。正则化流模型包含了多个连续的正则化流层，每一层都配备了一个变换函数和一个正则化函数，这些函数能够逐步将输入的语音风格信息转化为更为抽象和具有代表性的风格特征隐变量。例如，当服务器处理一段具有鲜明风格的文本，如“今天的天气真是太棒了，适合出去走走！”时，它会启动正则化流模型，以深入解析这段文本背后的语音风格。服务器将之前得到的语音风格信息，包括风格的均值和方差，输入到正则化流模型中。这些风格信息是模型进行特征提取的基础。在正则化流模型中，输入的语音风格信息首先会经过变换函数的处理。这个函数的作用是对输入数据进行一种可逆的非线性变换，目的是将数据从原始空间映射到一个更容易进行特征提取的新空间。紧接着，正则化函数会对变换后的数据进行规范化处理，使其满足某种特定的概率分布，这有助于进一步抽象和提取出风格特征隐变量。经过多个正则化流层的连续处理后，服务器最终得到了语音风格信息的风格特征隐变量。这些隐变量是高度抽象和压缩的特征表示，它们捕捉到了原始语音风格信息的核心要素，同时去除了冗余和噪声。这些风格特征隐变量将在后续的语音合成过程中发挥关键作用，确保生成的语音能够准确地反映出预期的语音风格。例如，在处理上述关于天气的文本时，正则化流模型可能会提取出一个代表“积极、愉悦”风格的隐变量，这个隐变量将在后续的语音合成中被用来调整生成的语音，使其听起来更加欢快和生动。

在本发明实施例中，前述步骤S204可以通过以下示例执行实施。

在本发明实施例中，示例性的，服务器首先调用一个预设的特征解码器。这个解码器是一个瓶颈特征解码器，它从预训练完成的自动语音识别模型中获取。瓶颈特征解码器特别设计了一种“瓶颈”结构，能够在信息传输过程中提炼出最关键的特征信息。这种解码器包括多个前馈神经网络层，这些网络层经过专门训练，能够高效地将输入的融合语音特征解码成语音解码特征向量。例如，当服务器准备合成一句“请注意，前方路口左转”的语音时，它会使用之前步骤中得到的融合语音特征，并调用这个预设的特征解码器来进行下一步处理。服务器将之前步骤中得到的融合语音特征输入到瓶颈特征解码器中。这些融合语音特征既包含了文本的语义和语境信息，也融入了预期的语音风格，是生成自然、生动语音的关键。瓶颈特征解码器接收到融合语音特征后，通过其内部的前馈神经网络层进行深度处理。这些网络层逐步提炼和转换输入特征，最终输出一个语音解码特征向量。这个向量是高度浓缩的语音特征表示，它捕捉到了文本内容和语音风格的精髓，为后续的语音波形生成提供了精确的指导。例如，在处理上述导航指令时，瓶颈特征解码器会输出一个语音解码特征向量，这个向量不仅包含了“前方路口左转”的语义信息，还融入了导航指令特有的清晰、准确的语音风格。通过这一步骤，服务器成功地将融合语音特征转化为语音解码特征向量，为后续的语音合成奠定了坚实的基础。

在本发明实施例中，前述步骤S205可以通过以下示例执行实施。

在本发明实施例中，示例性的，在之前的步骤中，服务器已经得到了一个语音解码特征向量。现在，服务器还需要获取目标说话用户的身份标识。这个身份标识通常是一个唯一的编码或标签，用于指代特定的说话用户。例如，假设服务器要生成一段模仿用户“John”的语音，那么“John”的身份标识就会被用作这个步骤的输入。服务器将语音解码特征向量和目标说话用户的身份标识一起输入到梅尔频谱解码器中。梅尔频谱解码器是一个专门用于将特征向量转化为梅尔频谱特征的模型。梅尔频谱是一种在声音处理中常用的频谱表示方法，它能够有效地捕捉声音的音高和音色信息。例如，如果服务器要生成一段模仿“John”的语音，它会将“John”的身份标识和之前得到的语音解码特征向量一起输入梅尔频谱解码器。梅尔频谱解码器接收到输入后，会利用内部的算法和网络结构对语音解码特征向量和目标说话用户的身份标识进行联合处理。这个过程中，解码器会结合目标说话用户的身份标识来调整语音解码特征向量的转化方式，以确保生成的梅尔频谱特征能够体现出目标说话用户的独特语音特征。经过梅尔频谱解码器的处理后，服务器得到了梅尔频谱特征。这些特征不仅包含了文本的语义信息和预期的语音风格，还融入了目标说话用户的个人语音特征。因此，这些梅尔频谱特征可以作为音频信号特征，用于后续的语音波形生成。例如，在处理完“John”的语音合成请求后，服务器得到的梅尔频谱特征将能够体现出“John”的独特音色和语调。最后，服务器会使用得到的梅尔频谱特征来生成语音波形。这通常是通过一个声码器（如parallel wavegan或者HiFi-GAN等）来完成的。声码器能够根据梅尔频谱特征生成相应的语音波形，从而完成整个语音合成过程。综上所述，通过将语音解码特征向量和目标说话用户的身份标识输入梅尔频谱解码器进行转化，服务器能够得到具有目标说话用户独特语音特征的梅尔频谱特征作为音频信号特征，并最终生成自然、生动的语音波形。

在本发明实施例中，所述风格特征隐变量通过以下方式学习。

获取经过正则化流模型得到的样本风格特征隐变量；

在本发明实施例中，服务器首先从正则化流模型中获取样本风格特征隐变量。这些隐变量是通过对大量语音样本进行风格特征提取和正则化处理得到的，它们代表了不同语音样本的风格特征。

例如，服务器可能从一个包含多种不同语音风格的语料库中提取样本，如新闻播报、日常对话、演讲等，然后通过正则化流模型处理这些样本，得到相应的风格特征隐变量。

服务器将获取到的样本风格特征隐变量输入到语言现象预测器中。语言现象预测器是一个深度学习模型，它能够对输入的风格特征隐变量进行处理，并预测出与这些隐变量相关的语言现象。这个过程会得到样本风格特征隐变量的第一特征表示。

例如，对于某个具有明显口语化风格的语音样本，其风格特征隐变量在语言现象预测器中可能会被转化为一种能够体现口语化特点的第一特征表示。

同时，服务器还需要获取与样本风格特征隐变量相对应的语言现象标签（如口语化、正式、激动等），并将这些标签输入到语言现象编码器中。语言现象编码器会将标签转化为第二特征表示，这是一种与第一特征表示在相同特征空间的表示形式。

继续上述例子，服务器会为口语化风格的语音样本打上“口语化”的标签，并将其输入语言现象编码器，得到与第一特征表示相对应的第二特征表示。

服务器接下来会比较第一特征表示和第二特征表示之间的误差。这个误差反映了模型在预测语言现象时的准确性。为了减小这个误差，服务器会进行损失计算，并通过反向传播算法来更新语言现象预测器的参数。

在上述例子中，如果第一特征表示和第二特征表示之间存在较大的误差，说明语言现象预测器在预测口语化风格时存在不足。服务器会计算这个误差，并通过优化算法来调整预测器的参数，以提高其预测准确性。

通过上述步骤的反复迭代和优化，服务器最终能够完成针对风格特征隐变量的学习。这意味着语言现象预测器能够更准确地从风格特征隐变量中预测出相应的语言现象，从而提高了语音合成的自然度和风格多样性。

服务器通过学习样本风格特征隐变量与语言现象之间的关系，不断优化模型的预测能力，从而实现了对多种语音风格的准确合成。

在本发明实施例中，还提供以下实施方式。

在本发明实施例中，示例性的，服务器在之前的步骤中已经得到了语音解码特征向量。现在，服务器将这些向量输入到一个参考编码器中。参考编码器是一个深度学习模型，它包含了多个空洞卷积层和门控卷积层，这样的结构使得编码器能够捕捉到更广泛的上下文信息，并有效地提取出语音特征。

例如，当服务器处理一个“今天天气真好”的语音合成任务时，它会将对应的语音解码特征向量输入参考编码器。

经过参考编码器的处理，服务器得到了语音解码特征向量对应的帧级别特征表示。这些特征表示捕捉到了语音中每一帧的详细信息，为后续的语音合成提供了精确的数据基础。

在上述例子中，服务器得到的帧级别特征表示能够反映出“今天天气真好”这句话中每一个字的发音细节。

服务器接下来会调用一个预设的对齐工具。这个工具的作用是将帧级别特征表示转换为音素级别特征表示。音素是语音中的最小单位，它对应于一个特定的发音。通过对齐工具，服务器能够将每一帧的特征与对应的音素进行匹配。

例如，对于“今天天气真好”这句话，对齐工具会将帧级别特征表示与每个字的音素进行对齐，确保每个音素的发音都得到了准确的特征表示。

最后，服务器通过一个线性层对音素级别特征表示进行处理。这个线性层能够计算出每个音素级别特征的均值和方差。这些统计信息对于后续的语音合成和语音风格的控制非常重要。

在上述例子中，服务器会计算出“今天天气真好”这句话中每个音素的均值和方差，从而确保在合成语音时能够准确地还原出原始语音的风格和韵律。

通过这一系列步骤，服务器能够精确地提取出语音中的音素级别特征，并为后续的语音合成提供准确的数据支持。

为了能够更加清楚的描述本发明实施例提供的方案，下面进行整体的方案举例说明。

首先对输入的文本进行文本风格预测，这一步骤旨在识别文本所具有的特定风格。通过文本风格预测，系统能够更好地理解文本的语言特征，为后续的语音合成过程提供重要参考。

随后，经过正则化流模型处理，文本风格的隐藏特征被提取出来，并与文本编码特征进行相加。这一步骤的目的是将文本的语言特征与其所属的风格特征相结合，从而生成更为丰富和具有表现力的语音特征。

接着，生成的特征被输入到Bottle Neck（BN）特征解码器中，该解码器的作用是进一步加工特征，生成更为高级和抽象的BN特征。这些BN特征包含了文本的语言信息以及与所选风格相关的特征，为接下来的语音合成提供了更为准确和全面的输入。

随后，系统将BN特征以及目标说话人ID一起输入到梅尔频谱解码器中。梅尔频谱解码器的作用是将特征转换为梅尔频谱特征，这是语音合成过程中必不可少的中间步骤。梅尔频谱特征包含了语音的频谱信息，能够更准确地反映语音的声音特性和语调变化。

最后，经过声码器的处理，系统能够生成合成的语音。声码器的作用是将梅尔频谱特征转换为可听的声音信号。经过声码器处理后的语音具有自然流畅的音质和语调，能够准确地表达输入文本所包含的语言信息和所选风格特征。

综上所述，本系统通过多个步骤的处理和加工，能够将输入文本与特定风格相结合，生成高质量、丰富表现力的合成语音，从而实现了语音合成技术在风格化语音生成方面的重要突破和进步。

此系统主要包含文本编码器、风格预测器、正则化流模型、Bottle Neck（BN）特征解码器以及梅尔频谱解码器。

一、系统模块介绍

1.文本编码器

文本编码器是语音合成系统中的关键组件之一，由6个前馈神经网络层组成，其中隐藏层的维度为256。这意味着在文本输入进编码器后，会经过一系列复杂的非线性变换，最终生成一个256维的文本编码特征。这个编码特征包含了输入文本的抽象表示，具有高维度的表征能力，能够有效地捕捉文本中的语义信息和语言结构。

2.风格预测器

风格预测器的设计旨在从文本编码特征中提取出对应的风格信息。本发明采用了5层卷积层的结构，这个设计能够有效地从文本编码特征中提取出丰富的语言风格信息。输入为文本编码特征，输出则是对应风格的均值和方差。

在本发明中所定义的风格涵盖了多种语言现象，例如因思考、犹豫导致的停顿，这种停顿往往会在语音中表现为声音的断续，或是音频波形的突然停滞；拉长音则是指在语音中出现的音节或音素持续时间较长，常常用于强调或表达情感；而语速加快则是指语音中的节奏加快，语音节奏的快慢会影响语言表达的节奏感和表现力；语调加重则是指在语音中出现的音调变化更加显著，通常用于强调语句的重点或情感的表达。

风格预测器通过学习这些风格的语言现象，能够准确地对输入文本的风格进行分类和预测。这样一来，系统就能够根据预测的风格信息，灵活地调整语音合成过程中的参数，从而生成更具有表现力和自然度的语音输出。

3.正则化流模型

正则化流模型主要用于对数据分布进行建模，通常应用于生成式任务，如生成图像、语音、文本等。其核心思想是通过流式操作（即连续的可微变换）从简单的先验分布（通常是高斯分布或均匀分布）中生成复杂的数据分布。

正则化流模型的结构通常由多个连续的正则化流层组成，每个层都包含一个变换函数和一个正则化函数。变换函数负责将输入数据映射到另一个空间，而正则化函数则用于确保输出分布的光滑性和样本多样性。通过堆叠多个正则化流层，模型能够逐步学习并捕获数据分布的复杂结构，从而生成高质量的样本。

本发明将文本风格预测器得到的均值和方差输入到正则流模型，得到更复杂的数据分布，也就是风格的隐藏特征。

4.BN特征解码器

Bottle Neck（BN）特征的提取是本系统中的一个重要步骤，它来源于预训练好的自动语音识别（ASR）模型。这种特征被设计成不仅包含了文本的语言学信息，还蕴含着丰富的风格信息，并且与具体的说话人无关。这种特性使得BN特征在情感迁移、风格迁移等场景中具有广泛的应用价值，因为它能够提供一种与说话人无关且具有丰富语义信息的特征表示。

与文本编码器类似，Bottle Neck（BN）特征解码器也由6个前馈神经网络层组成，隐藏层维度为256。这一设计选择旨在保持与文本编码器相似的网络结构和参数设置，以确保特征的表达能力和学习能力能够与之匹配。通过这样的设置，系统可以保持在特征提取和解码过程中的一致性，从而确保最终生成的语音能够准确地反映输入文本的语言特征和风格信息。

5.语言现象预测器和语言现象编码器

在模型训练阶段，采用语言现象编码器和语言现象预测器来学习风格特征的隐变量。首先，经过正则化流模型得到的风格特征隐变量被送入语言现象预测器进行处理。同时，将语言现象标签输入语言现象编码器，通过编码器的处理，得到了对应于输入标签的特征表示。接着，将语言现象编码器和语言现象预测器的输出进行余弦损失计算，以确保它们的特征表示在语言现象空间中尽可能地接近。这两个组件均由5层线性层组成，以提取和学习复杂的语言特征。引入语言现象标签的监督也是为了在Bottle Neck（BN）特征转化为风格特征的隐变量过程进行限制，以确保模型的收敛性。这种监督机制有助于指导模型学习到的风格特征隐变量更加准确和有意义，从而提高模型的性能和泛化能力。

6.参考编码器

参考编码器的类似于WaveNet的结构，它主要由多个空洞卷积层和门控卷积层组成。这种结构能够有效地捕获语言的时序特征和局部依赖关系，从而提高了特征的表示能力和学习效果。当Bottle Neck（BN）特征经过参考编码器处理后，得到了帧级别的特征表示。接下来，使用类似于Montreal Forced Alignment的对齐工具，将这些帧级别的特征转换成音素级别的特征。这种对齐工具能够将语音信号与其对应的音素序列进行准确地对齐。随后，经过线性层处理，得到了特征的均值和方差。

具体实施步骤：

步骤一：首先，将待合成的文本输入到文本编码器。文本编码器主要功能是将输入的文本转换为一个高维向量，这个向量包含了文本的语义和语境信息。这个向量被称为文本编码特征，它是对输入文本的抽象表示。

步骤二：接下来，将文本编码特征输入到风格预测器中。风格预测器是分析文本编码特征并预测出文本的语音风格。通过风格预测器，可以得到预测风格的均值和方差，这些统计量描述了预测的语音风格的分布特征。

步骤三：然后，将预测的语音风格输入到正则化流模型中。正则化流模型是一种生成式模型，它通过学习数据分布的概率密度函数来进行建模。在这个步骤中，使用正则化流模型来学习风格特征的隐变量，即潜在的、不可观测的语音风格特征。

步骤四：接着，将步骤三中得到的风格特征的隐变量与文本编码特征进行相加。这样，就得到了一个融合了文本信息和语音风格信息的特征向量。然后，将这个特征向量输入到Bottle Neck（BN）特征解码器中。

步骤五：经过Bottle Neck（BN）特征解码器后，会得到一个称为Bottle Neck（BN）特征的向量。这个向量包含了经过特征融合和解码后的高级语义信息，它是生成合成音频的关键特征之一。

步骤六：随后，将Bottle Neck（BN）特征与目标说话人的身份信息（ID）一起输入到梅尔频谱解码器中。梅尔频谱解码器将Bottle Neck（BN）特征和目标说话人的身份信息转换成梅尔频谱特征。梅尔频谱特征是语音信号在频域上的表示，它包含了语音的频率和强度信息。

步骤七：最后，将梅尔频谱特征输入到声码器中。经过声码器处理后，就得到了最终的合成音频。

请参阅图2，图2为本发明实施例提供的一种拟人化的语音合成装置110，包括：

获取模块1101，用于获取待处理文本，对所述待处理文本进行特征编码操作，得到所述待处理文本对应的文本编码特征，所述文本编码特征包括文本语义信息和文本语境信息；

计算模块1102，用于对所述文本编码特征进行语音风格预测，得到所述文本编码特征对应的语音风格信息；提取所述语音风格信息的风格特征隐变量，并将所述文本编码特征和所述风格特征隐变量进行融合，得到融合语音特征；将所述融合语音特征输入预设特征解码器，得到所述融合语音特征对应的语音解码特征向量；

合成模块1103，用于将所述语音解码特征向量和目标说话用户的身份标识进行特征转化，得到音频信号特征；通过声码器对所述音频信号特征进行处理，得到目标拟人化合成语音。

需要说明的是，前述拟人化的语音合成装置110的实现原理可以参考前述拟人化的语音合成方法的实现原理，在此不再赘述。应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，拟人化的语音合成装置110可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上拟人化的语音合成装置110的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所描述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessing unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

本发明实施例提供一种计算机设备100，计算机设备100包括处理器及存储有计算机指令的非易失性存储器，计算机指令被处理器执行时，计算机设备100执行前述的拟人化的语音合成装置110。如图3所示，图3为本发明实施例提供的计算机设备100的结构框图。计算机设备100包括拟人化的语音合成装置110、存储器111、处理器112及通信单元113。

为实现数据的传输或交互，存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接。例如，可通过一条或多条通讯总线或信号线实现这些元件相互之间电性连接。拟人化的语音合成装置110包括至少一个可以软件或固件（firmware）的形式存储于存储器111中或固化在计算机设备100的操作系统（operating system，OS）中的软件功能模块。处理器112用于执行存储器111中存储的拟人化的语音合成装置110，例如拟人化的语音合成装置110所包括的软件功能模块及计算机程序等。

本发明实施例提供一种可读存储介质，可读存储介质包括计算机程序，计算机程序运行时控制可读存储介质所在计算机设备执行前述的拟人化的语音合成方法。

出于说明目的，前面的描述是参考具体实施例而进行的。但是，上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导，众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用，从而使本领域技术人员最佳地利用本公开，并利用具有不同修改的各种实施例以适于预期的特定应用。

Claims

1.一种拟人化的语音合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待处理文本，对所述待处理文本进行特征编码操作，得到所述待处理文本对应的文本编码特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述文本编码特征进行语音风格预测，得到所述文本编码特征对应的语音风格信息，包括：

调用风格预测器，所述风格预测器包括多个卷积层；

4.根据权利要求1所述的方法，其特征在于，所述提取所述语音风格信息的风格特征隐变量，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述融合语音特征输入预设特征解码器，得到所述融合语音特征对应的语音解码特征向量，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述语音解码特征向量和目标说话用户的身份标识进行特征转化，得到音频信号特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述风格特征隐变量通过以下方式学习，包括：

获取经过正则化流模型得到的样本风格特征隐变量；

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种拟人化的语音合成装置，其特征在于，包括：

10.一种可读存储介质，其特征在于，所述可读存储介质包括计算机程序，所述计算机程序运行时控制所述可读存储介质所在计算机设备执行权利要求1-8中任意一项所述的拟人化的语音合成方法。