CN116129859A

CN116129859A - 韵律标注方法、声学模型训练方法、语音合成方法及装置

Info

Publication number: CN116129859A
Application number: CN202211435105.0A
Authority: CN
Inventors: 乔宏利; 刘敏; 夏粉; 蒋宁; 吴海英
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-05-16

Abstract

本公开提供了一种韵律标注方法、声学模型训练方法、语音合成方法及装置，涉及语音合成技术领域。该方法包括根据文本数据中的多个音素和文本数据对应的第一音频数据之间的对应关系，将第一音频数据划分为多个第二音频数据；对多个第二音频数据的韵律特征进行聚类，得到多个聚类簇；基于多个第二音频数据的韵律特征与多个聚类簇进行确定韵律标记的处理，得到多个音素各自的韵律标记。本公开实施例通过对音素的帧级别韵律特征进行聚类，得到韵律标记，通过这种音素级别的韵律标记来标注用于训练声学模型的训练文本，相较于传统的词句级别的韵律标注方法，能更好地辅助声学模型学习到发音人的情绪，语音风格等特点，从而合成高仿真程度的语音音频。

Description

韵律标注方法、声学模型训练方法、语音合成方法及装置

背景技术

声学模型是语音合成(Text To Speech，TTS)技术的重要组成之一。在声学模型的训练过程中，会使用大量具有韵律标记的训练文本，以保证训练后的声学模型能够预测文本中的韵律，从而合成具有韵律、不生硬的合成语音。因此保证文本中韵律标记的准确性是十分重要的。

相关技术在对文本进行韵律标注的过程中，以停顿韵律为主，即用简单的韵律符号，标注朗读时的停顿级别，从而使得整个语音有顿挫。然而，仅通过停顿级别对声学模型的训练文本进行韵律标注，无法得到具有高拟人度语音效果的声学模型。

发明内容

有鉴于此，本公开提供一种韵律标注方法、声学模型训练方法、语音合成方法及装置。

第一方面，提供一种韵律标注方法，包括：

根据文本数据中的多个音素和文本数据对应的第一音频数据之间的对应关系，将第一音频数据划分为多个第二音频数据，多个第二音频数据与多个音素之间具有对应关系；对多个第二音频数据的韵律特征进行聚类，得到多个聚类簇；韵律特征包括音高、音量和音长；多个聚类簇中的每个聚类簇用于表示一种韵律标记，一种韵律标记用于反应包含一种音高、音量和音长的韵律特征；基于多个第二音频数据的韵律特征与多个聚类簇进行确定韵律标记的处理，得到多个音素各自的韵律标记。

第二方面，提供一种声学模型训练方法，包括：

构建训练集，训练集包括文本数据以及与文本数据对应的音频数据；通过第一方面的方法，对文本数据中的多个音素分别进行韵律标注，得到多个音素各自的韵律标记；采用训练集以及多个音素各自的韵律标记，训练声学模型，训练完成的声学模型用于对待合成文本进行语音合成处理，得到合成语音。

第三方面，提供一种语音合成方法，包括：将待合成文本数据输入预训练的语音合成模型，得到待合成文本数据的梅尔频谱，语音合成模型是基于训练集以及训练集中文本数据对应的多个音素的韵律标记训练得到的，文本数据对应的多个音素的韵律标记是通过第一方面的方法得到的；基于待合成文本数据的梅尔频谱，合成待合成文本数据的合成语音。

第四方面，提供一种韵律标注装置，包括：

划分模块，用于根据文本数据中的多个音素和文本数据对应的第一音频数据之间的对应关系，将第一音频数据划分为多个第二音频数据，多个第二音频数据与多个音素之间具有对应关系；

聚类模块，用于对多个第二音频数据的韵律特征进行聚类，得到多个聚类簇；韵律特征包括音高、音量和音长；多个聚类簇中的每个聚类簇用于表示一种韵律标记，一种韵律标记用于反应包含一种音高、音量和音长的韵律特征；

确定模块，用于基于多个第二音频数据的韵律特征与多个聚类簇进行确定韵律标记的处理，得到多个音素各自的韵律标记。

第五方面，提供一种声学模型训练装置，包括：

构建模块，用于构建训练集，训练集包括文本数据以及与文本数据对应的音频数据；

标记模块，用于通过第一方面的方法，对文本数据中的多个音素分别进行韵律标注，得到多个音素各自的韵律标记；

训练模块，用于采用训练集以及多个音素各自的韵律标记，训练声学模型，训练完成的声学模型用于对待合成文本进行语音合成处理，得到合成语音。

第六方面，提供一种语音合成装置，其特征在于，包括：

获取模块，用于将待合成文本数据输入预训练的语音合成模型，得到待合成文本数据的梅尔频谱，语音合成模型是基于训练集以及训练集中文本数据对应的多个音素的韵律标记训练得到的，文本数据对应的多个音素的韵律标记是通过第一方面的方法得到的；

合成模块，用于基于待合成文本数据的梅尔频谱，合成待合成文本数据的合成语音。

第七方面，提供一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述第一方面的方法；或第二方面的方法；或第三方面的方法。

第八方面，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面的方法；或第二方面的方法；或第三方面的方法。

本公开实施例提供的韵律标注方法，在根据文本数据中的多个音素和与文本数据对应的第一音频数据之间的对应关系，将第一音频数据划分为多个第二音频数据后，可以对多个第二音频数据的韵律特征进行聚类，得到多个聚类簇，随后基于多个第二音频数据的韵律特征与多个聚类簇进行确定韵律标记的处理，即可得到多个音素各自的韵律标记。本公开实施例通过对音素的帧级别韵律特征进行聚类，得到韵律标记，通过这种音素级别的韵律标记来标注用于训练声学模型的训练文本，相较于传统的词句级别的韵律标注方法，能更好地辅助声学模型学习到发音人的情绪，语音风格等特点，从而合成高仿真程度的语音音频。

附图说明

图1示出本公开实施例中一种韵律标注方法的系统架构示意图。

图2示出本公开实施例中一种韵律标注方法的流程示意图。

图3示出本公开实施例中一种声音模型训练方法的流程示意图。

图4示出相关技术中FastPitch的网络结构示意图。

图5示出本公开实施例中内嵌韵律预测功能的声学模型的网络结构示意图。

图6示出本公开实施例中一种语音合成方法的流程示意图。

图7示出本公开实施例中一种韵律标注装置的结构示意图。

图8示出本公开实施例中一种声音模型训练装置的结构示意图。

图9示出本公开实施例中一种语音合成装置的结构示意图。

图10示出本公开实施例中一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

声学模型是语音合成(Text To Speech，TTS)技术的重要组成之一。在声学模型的训练过程中，会使用大量具有韵律标记的训练文本，以保证训练后的语音合成模型能够预测文本中的韵律，因此保证文本中韵律标记的准确性是十分重要的。

相关技术中，通常是基于句法结构进行韵律标注，其标注的内容以停顿韵律为主，其标注的结果是词语、短语级别的粒度，粒度粗糙。也就是说，相关技术只能标记语句停顿，不能帮助声学模型学到完整的语音韵律信息。

韵律作为声学现象，完整的韵律特征包括：音高、音长和音量。能够反映完整的韵律特征的韵律标注对于声学模型来说，可以更加有效地学习发音人的韵律特征，说话风格，从而合成高拟人度的语音效果，是非常必要的。

有鉴于此，本公开提供的方案，可根据文本数据中的多个音素和与文本数据对应的第一音频数据之间的对应关系，将第一音频数据划分为多个第二音频数据。通过对多个第二音频数据的韵律特征进行聚类，即可得到多个音素各自的韵律标记。本公开提供的韵律标注方法由于考虑了完整的韵律特征，因此在将通过本公开方法标注的训练文本应用于声学模型训练时，可以使声学模型更准确地学习到发音人的声音风格及韵律特征，进而能够合成情感拟真度、风格拟真度更好的语音音频。

下面将结合图1说明本公开实施例中的韵律标注方法的系统架构。

图1示出了应用于本公开实施例的韵律标注方法或韵律标注装置的示例性系统架构示意图。如图1所示，该系统架构100可以包括样本采集装置101和至少一个专用或通用的计算机处理模块。

需要说明的是，样本采集装置101可以是麦克风组件，其可包括麦克风、麦克风套管、安装杆、连接线等，也可为无线麦克风或麦克风电路，其被配置为采集场景中的声音信息，并通过任意语音转换方法将声音信息转换为文本数据，从而得到文本数据以及与文本数据对应的音频数据。本公开实施例对此不作限定。

需要说明的是，至少一个专用或通用的计算机处理模块，可以是任何能够执行计算机程序的电子设备，其可以包括处理器102及存储器103。

其中，上述处理器102用于执行程序指令，例如，可执行本公开提供的声音模型训练方法。上述存储器103在该系统架构100中可以以不同形式的程序储存单元或数据储存单元存在，例如硬盘、只读存储器(ROM)、随机存取存储器(RAM)，其能够用于存储处理器处理和/或执行韵律标注方法过程中使用的各种数据文件，以及处理器所执行的可能的程序指令。虽然未在图中示出，但该系统架构100还可以包括一个输入/输出组件，以支持应用该系统架构100的韵律标注装置与其他组件(如屏幕显示装置)之间的输入/输出数据流。此外，应用该系统架构100的韵律标注装置还可以通过通信端口从网络发送和接收信息及数据。

尽管在图1中，样本采集装置101、处理器102以及存储器103呈现为单独的模块，本领域技术人员可以理解，上述装置模块可以被实现为单独的硬件设备，也可以被集成为一个或多个硬件设备，例如集成在智能手表或其他智能设备之中。只要能够实现本公开描述的原理，不同的硬件设备的具体实现方式不应作为限制本公开保护范围的因素。

下面将结合附图及实施例对本示例实施方式进行详细说明。

首先，本公开实施例中提供了一种韵律标注方法，该方法可以由任意具备计算处理能力的电子设备执行。此处所说的电子设备可以包括终端或者服务器，其中，终端可以包括个人电脑、笔记本电脑、平板电脑、手机、个人数码助理(Personal Digital Assistance，PDA)、智能眼镜、智能手表、智能指环、智能头盔以及车载终端等等，服务器可以包括独立的物理服务器、由多个服务器组成的服务器集群或者能够进行云计算的云服务器。图2示出本公开实施例中一种韵律标注方法的流程示意图，如图2所示，本公开实施例中提供的韵律标注方法包括如下步骤：

S201，根据文本数据中的多个音素和文本数据对应的第一音频数据之间的对应关系，将第一音频数据划分为多个第二音频数据。

需要说明的是，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。例如，针对汉语语言，可以将与文本数据对应的汉语拼音中的声母和韵母作为该文本数据的音素。

需要说明的是，文本数据是可以适用于声学模型训练的训练文本。第一音频数据是指与文本数据对应的音频文件，其可以通过麦克风组件采集获得。第二音频数据是由第一音频数据划分出的，与文本数据中每个音素对应的音频片段，一个音素对应一个第二音频数据，因此，第二音频数据的数量与多个音素的数量相同。

在一些实施例中，根据文本数据中的多个音素和文本数据对应的第一音频数据之间的对应关系，将第一音频数据划分为多个第二音频数据，可以包括：首先对文本数据以及与文本数据对应的第一音频数据进行对齐处理，得到多个音素中每个音素在第一音频数据中的时间边界。从而根据多个音素中每个音素在第一音频数据中的时间边界，将第一音频数据划分为多个第二音频数据。

示例性地，通过采用预设的语音到文本的对齐工具，例如，MFA(Montreal ForcedAligner，MFA)工具，对文本数据中的多个音素以及第一音频数据的进行对齐，可以得到每个音素(声母或者韵母)对应的第二音频数据在第一音频数据中的起止位置，进而能够从第一音频数据中切分出每个音素对应的片段，即得到每个音素对应的第二音频数据。

本公开实施例通过对第一音频数据进行音素级别的划分，能提升得到的韵律标记的细粒度，从而使利用本公开提供的方法标注的韵律标记，在用于语音合成时能够表征更为丰富的韵律特征。

S202，对多个第二音频数据的韵律特征进行聚类，得到多个聚类簇。

需要说明的是，韵律特征是指语音中除音质之外的音长、音高和音量等特征。当我们聆听语音时，在聆听一个个独立的音素的同时，还会关注音长、音高和音量等特征，这些特征能更好地帮助我们理解语义。

在一些实施例中，在对多个第二音频数据的韵律特征进行聚类前，可以先对每个第二音频数据的韵律特征进行计算，其中，韵律特征包括音长、音高和音量。

示例性地，假设第二音频数据是16K采样率的音频，可以以15毫秒时间单位为一个帧，以5毫秒时间单位为帧步进值，计算每个音素对应的第二音频数据的帧数，即为音长L，同时获取该L个帧上每个帧的音高组成音高序列P，并进一步计算该L个帧上的每个帧的平均能量值表示音量，组成音量序列V。从而每个音素对应的韵律特征F可以表示为F＝(L,V,P)。

在一些实施例中，在对多个第二音频数据的韵律特征进行聚类时，可以根据多个第二音频数据对应的音素的发音时长，将多个第二音频数据划分为多个音频数据子集。进而对多个音频数据子集分别进行聚类，得到多个聚类簇。其中，同一个音频数据子集中各个第二音频数据各自对应的音素的发音时长在该音频数据子集对应的预设发音时长范围内。

示例性地，针对汉语语言，由于声母发音时长往往显著小于韵母发音时长，因此可以按照声母音素和韵母音素将多个第二音频数据划分为两个音频数据子集，并将两个音频数据子集分别进行聚类，得到两组独立的韵律标记，从而能够得到更加丰富的韵律标记，进而使应用该韵律标记标注的训练文本能够表征更为丰富的情感。

示例性地，针对多个第二音频数据的韵律特征的聚类方式，可以采用相关技术中的聚类算法，例如，密度聚类算法DBSCAN。

具体地，在聚类过程中，邻接点相似度计算公式如下：

Sim(x₁,x₂)＝sqrt(L(x₁)/L(x₂))*DTW(P(x₁),P(x₂))*DTW(V(x₁),V(x₂))。

也就是说，任意两个音素(x₁和x₂)的声学特征相似度，等于它们的音长之比的平方根，乘以它们的音高序列的动态时间规划(Dynamic time warping，DTW)相似度，乘以它们的音量序列的DTW相似度。其中，L(x₁)≤L(x₂)，即取音长较大的音素音频特征，作为第二操作数。示例性的，对于音长差距过大的两个元素，其相似度设置为近零值，即音长差距过大的两个音素强制不相似。

需要说明的是，利用DBSCAN算法进行聚类的具体方式为本领域技术人员公知，本公开对此不再赘述。

S203，基于多个第二音频数据的韵律特征与多个聚类簇进行确定韵律标记的处理，得到多个音素各自的韵律标记。

在一些实施例中，通过对多个第二音频数据的韵律特征进行聚类，得到多个聚类簇。根据多个第二音频数据的韵律特征与多个聚类簇之间的关系，得到多个音素各自的韵律标记。其中，聚类得到的每个聚类簇用于示出一种韵律标记，每种韵律标记用于反应包含一种音高、音量和音长的韵律特征。本公开实施例通过使用聚类簇示出韵律标记，可以丰富韵律标记的种类，提升韵律标记能够表达的韵律数量，进而使基于该韵律标记得到的声学模型能够用于合成拟真度、自然度更高的语音。

在一些实施例中，上述多个第二音频数据的韵律特征与多个聚类簇之间的关系，可以通过韵律特征与聚类簇的核心点之间的距离表示。具体地，针对多个第二音频数据中的每个第二音频数据，可以分别计算第二音频数据的韵律特征与多个聚类簇中每个聚类簇的核心点之间的距离，得到距离计算结果。随后根据距离计算结果，可以从多个聚类簇中确定与第二音频数据对应的目标聚类簇，从而得到第二音频数据对应的音素的韵律标记。

示例性地，根据多个第二音频数据的韵律特征与多个聚类簇之间的关系，得到多个音素各自的韵律标记的方式具体为：遍历每个聚类簇，分别计算第二音频数据的韵律特征跟每个聚类簇的每个核心点之间的距离。若该韵律特征与某个聚类簇的某个核心点的距离小于聚类算法中聚类半径ε的1/10，则认为该韵律特征近似于该核心点。从而将该韵律特征对应的音素，标记为该核心点所在的聚类簇的韵律标记。

在一些实施例中，若某个第二音频数据的韵律特征不能按照以上方式近似于任何核心点，则遍历每个聚类簇，计算该韵律特征到某个聚类簇每个核心点的距离，若该韵律特征到某个核心点的距离小于聚类半径ε，则有效距离数加1，随后计算有效距离数比上该聚类簇所有核心点总数的比值X。对基于每个聚类簇得到的比值X进行排序，将比值X最大的，且大于0的聚类簇示出的韵律标记，作为该第二音频数据对应的音素的韵律标记。

在一些实施例中，若某个第二音频数据的韵律特征，无法根据以上方式得到有效的韵律标记，则给该第二音频数据对应的音素标注为无韵律，用一个特殊韵律标记表示。

基于同一发明构思，在本公开的一个应用场景中，还提供了一种声学模型训练方法。参考图3，示出了本公开实施例中还提供了一种声学模型训练方法的流程示意图，如图3所示，该方法包括如下步骤。

S301，构建训练集。

需要说明的是，本公开实施例中的训练集包括文本数据以及与文本数据对应的音频数据。其中，音频数据的获取来源可以通过录制或从网络上爬取。录制环境可采用专业录音棚或者安静的房间、会议室，录音设备可采用专业录音设备或手机等简易录音设备，参考语音识别数据录制条件；网络爬取需要使用降噪等手段，保证音频质量。而文本数据的获得方式可以采用人工标注的方式，例如，对音频数据的转写文本进行音素标注。

在一些实施例中，为了使模型具有更好的训练效果，训练集可以选择与训练后的声学模型应用领域近似的文本数据以及音频数据。

S302，对文本数据中的多个音素分别进行韵律标注，得到多个音素各自的韵律标记。

需要说明的是，本公开实施例中对文本数据中的多个音素的韵律标注方法是基于图2示出的韵律标注方法实现的，本公开在此不再赘述。

S303，采用训练集以及多个音素各自的韵律标记，训练声学模型。

需要说明的是，本公开实施例中声学模型可以采用相关技术中的声学模型，例如FastPitch。示例性地，图4示出了相关技术中FastPitch的网络结构示意图。

如图4所示，FastPitch的网络结构400可以包括依次连接的编码器410、适配器420和解码器430。其中，编码器410用于将待合成文本数据转换为适配器420能够识别的特征向量。适配器420包括音长预测模块421、音高预测模块422和音量预测模块423，用于通过待合成文本的特征向量预测待合成文本的音长、音高、音量等隐变量特征。解码器430用于对适配器420输出的预测结果进行解码，将其转换为梅尔频谱。

在一些实施例中，为了使声学模型能够更好的学习到通过图2实施例提供的韵律标注方法标注出的音素级别的韵律，可以在上述编码器410和适配器420之间增加韵律预测模块和韵律嵌入模块，从而得到内嵌韵律预测功能的声学模型。

图5示出了本公开实施例中内嵌韵律预测功能的声学模型的网络结构示意图。如图5所示，该声学模型的网络结构500可以包括依次连接的编码器510、适配器520、解码器530，其中，编码器510和适配器520之间还连接有韵律预测模块540和韵律嵌入模块550。

需要说明的是，韵律预测模块540用于预测待合成文本数据中的音素级别的韵律。韵律嵌入模块550用于将韵律转换为后续步骤能识别的特征表示。编码器510、适配器520和解码器530的具体功能，与图4示出的编码器410、适配器420和解码器430相同，本公开对此不再赘述。

需要说明的是，在该声学模型的训练过程中，可以将S302得到的音素级别的韵律标记，经韵律嵌入模块550，组成韵律表示，随后加入到编码器510的输出，从而组成带音素级别韵律信息的特征表示，接下来进入适配器520以及后续模块计算。同时，由编码器510的输出，被输入到图示的韵律预测器模块540中，通过将韵律预测模块540的预测结果跟音素级别韵律标记做损失计算，即可在该声学模型的训练过程中，会同时对韵律预测模块540的模型参数进行学习

在一些实施例中，韵律预测模块540可以由依次连接的循环神经网络(RecurrentNeural Network，RNN)、ReLU激活函数、卷积层(Conv)、层归一化层(LayerNorm)和线性层(Linear)组成。

具体地，编码器510输出的特征向量首先被输入至循环神经网络中，本公开实施例中的循环神经网络可以使用长短期记忆(Long short-term memory，LSTM)算子，从而在每个时间步骤上，学到上下文的时序表示。随后经过ReLU激活函数，来增加该时序表示的非线性。接着经过卷积层，例如一维卷积层(Conv1D)，沿着时间方向进行卷积，卷积层可以抽取每个时间步骤上的关键信息，得到高质量的时间序列特征表示。卷积层之后的层归一化层用于规整表示的值的范围，方便神经网络训练。最后经过一个线性层，将每个时间步骤上的表示，映射到某个韵律标记。上述韵律标记即通过图2示出的韵律标注方法标注出的音素级别的韵律标记。

本公开实施例采用图2示出的韵律标注方法对文本数据中的每个音素进行韵律标注，并将标注的韵律标记结合文本数据作为声学模型的训练文本，相较于相关技术中的方法，能更好地辅助声学模型学习到发音人的情绪，语音风格等特点，从而合成高仿真程度的语音音频。

基于同一发明构思，在本公开的一个应用场景中，还提供了一种语音合成方法。参见图6，示出了本公开实施例中还提供了一种语音合成方法的流程示意图，如图6所示，该方法包括如下步骤。

S601，将待合成文本数据输入预训练的语音合成模型，得到待合成文本数据的梅尔频谱。

需要说明的是，语音合成模型是基于训练集以及训练集中文本数据对应的多个音素的韵律标记训练得到的，文本数据对应的多个音素的韵律标记是通过图2实施例示出的韵律标注方法得到的。

示例性地，如前述图5所示，本公开实施例中的语音合成模型可以包括依次连接的编码器、适配器、解码器，其中，编码器和适配器之间还连接有韵律预测模块和韵律嵌入模块。

示例性地，将待合成文本数据输入语音合成模型后，首先由编码器将待合成文本数据转换为韵律预测模块和适配器能够识别的特征向量，随后韵律预测模块通过待合成文本数据的特征向量预测待合成文本数据的韵律特征，适配器通过待合成文本数据的特征向量预测待合成文本数据的音高、音量、音长等隐变量特征。进一步地，韵律预测模块预测的韵律经韵律嵌入模块处理，和适配器的预测结果结合后，经过解码器解码，即可得到待合成文本数据的梅尔频谱。

S602，基于待合成文本数据的梅尔频谱，合成待合成文本数据的合成语音。

示例性地，在得到梅尔频谱后，借由神经声音编码器(neural vocoder)，例如WaveRNN，可以将梅尔频谱转换为声音的时域波形，进而合成待合成文本数据的合成语音。

需要说明的是，本公开实施例由于主要发明构思及实现的效果与图3示出的语音合成模型训练方法实施例相似，因此具体实现细节可参照图3示出的语音合成模型训练方法实施例，本公开实施例此处不再赘述。

在一些应用场景中，基于本公开实施例提供的语音合成方法，可以将具有多个分支的适用于多种风格(例如包括旁白、对白等)、多种情绪(例如包括喜、怒、哀、乐等)的语音合成方案(可以称之为多分支多风格情绪语音合成服务)配置为云服务，作为一种基础技术赋能于使用该云服务的用户，也可将该方案用于垂直领域下的个性化场景。例如，可以应用于阅读类APP(application，应用程序)智能朗读、智能客服、新闻播报、智能设备交互等场景，实现在各种场景下的智能化语音合成。

图7示出本公开实施例中一种韵律标注装置的结构示意图，如图7所示，该韵律标注装置700包括：划分模块701、聚类模块702和确定模块703。

具体地，划分模块701用于，根据文本数据中的多个音素和文本数据对应的第一音频数据之间的对应关系，将第一音频数据划分为多个第二音频数据，多个第二音频数据与多个音素之间具有对应关系。

聚类模块702用于，对多个第二音频数据的韵律特征进行聚类，得到多个聚类簇；韵律特征包括音高、音量和音长；多个聚类簇中的每个聚类簇用于表示一种韵律标记，一种韵律标记用于反应包含一种音高、音量和音长的韵律特征。

确定模块703用于，基于多个第二音频数据的韵律特征与多个聚类簇进行确定韵律标记的处理，得到多个音素各自的韵律标记。

在一些实施例中，确定模块703还用于，分别计算每个第二音频数据的韵律特征与多个聚类簇中每个聚类簇的核心点之间的距离，得到距离计算结果；根据距离计算结果，从多个聚类簇中确定与每个第二音频数据对应的目标聚类簇；其中，每个第二音频数据的韵律特征与相应的目标聚类簇的核心点之间的距离满足预设距离条件；将每个第二音频数据对应的目标聚类簇示出的韵律标记，作为相应第二音频数据所对应的音素的韵律标记。

在一些实施例中，聚类模块702还用于，根据多个第二音频数据对应的音素的发音时长，将多个第二音频数据划分为多个音频数据子集；其中，同一个音频数据子集中各个第二音频数据各自对应的音素的发音时长在该音频数据子集对应的预设发音时长范围内；对多个音频数据子集分别进行聚类，得到多个聚类簇。

在一些实施例中，划分模块701还用于，对文本数据以及与文本数据对应的第一音频数据进行对齐处理，得到多个音素中每个音素在第一音频数据中的时间边界；根据多个音素中每个音素在第一音频数据中的时间边界，将第一音频数据划分为多个第二音频数据。

需要说明的是，上述实施例提供的韵律标注装置在用于韵律标注时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的韵律标注装置与韵律标注方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于同一发明构思，本公开实施例中还提供了一种声学模型训练装置，如下面的实施例。由于该实施例解决问题的原理与上述韵律标注方法实施例相似，因此该实施例的实施可以参见上述韵律标注方法实施例的实施，重复之处不再赘述。

图8示出本公开实施例中一种声学模型训练装置的结构示意图，如图8所示，该声学模型训练装置800包括：构建模块801、标记模块802和训练模块803。

具体地，构建模块801用于，构建训练集，训练集包括文本数据以及与文本数据对应的音频数据。标记模块802用于，通过本公开的韵律标注方法，对文本数据中的多个音素分别进行韵律标注，得到多个音素各自的韵律标记。训练模块803，用于采用训练集以及多个音素各自的韵律标记，训练声学模型，训练完成的声学模型用于对待合成文本进行语音合成处理，得到合成语音。

基于同一发明构思，本公开实施例中还提供了一种语音合成装置，如下面的实施例。由于该实施例解决问题的原理与上述韵律标注方法实施例相似，因此该实施例的实施可以参见上述韵律标注方法实施例的实施，重复之处不再赘述。

图9示出本公开实施例中一种语音合成装置的结构示意图，如图9所示，该语音合成装置900包括：获取模块901和合成模块902。

具体地，获取模块901用于，将待合成文本数据输入预训练的语音合成模型，得到待合成文本数据的梅尔频谱，语音合成模型是基于训练集以及训练集中文本数据对应的多个音素的韵律标记训练得到的，文本数据对应的多个音素的韵律标记是通过本公开的韵律标注方法得到的。合成模块902用于，基于待合成文本数据的梅尔频谱，合成待合成文本数据的合成语音。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图10来描述根据本公开的这种实施方式的电子设备1000。图10显示的电子设备1000仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030。

其中，存储单元存储有程序代码，程序代码可以被处理单元1010执行，使得处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。处理单元1010可以是处理器。

在一些实施例中，处理单元1010可以执行上述韵律标注方法实施例的如下步骤：根据文本数据中的多个音素和文本数据对应的第一音频数据之间的对应关系，将第一音频数据划分为多个第二音频数据，多个第二音频数据与多个音素之间具有对应关系；对多个第二音频数据的韵律特征进行聚类，得到多个聚类簇；韵律特征包括音高、音量和音长；多个聚类簇中的每个聚类簇用于表示一种韵律标记，一种韵律标记用于反应包含一种音高、音量和音长的韵律特征；基于多个第二音频数据的韵律特征与多个聚类簇进行确定韵律标记的处理，得到多个音素各自的韵律标记。

在另一些实施例中，处理单元1010还可以执行上述声学模型训练方法实施例的如下步骤：构建训练集，训练集包括文本数据以及与文本数据对应的音频数据；通过本公开的韵律标注方法，对文本数据中的多个音素分别进行韵律标注，得到多个音素各自的韵律标记；采用训练集以及多个音素各自的韵律标记，训练声学模型，训练完成的声学模型用于对待合成文本进行语音合成处理，得到合成语音。

在另一些实施例中，处理单元1010还可以执行上述语音合成方法实施例的如下步骤：将待合成文本数据输入预训练的语音合成模型，得到待合成文本数据的梅尔频谱，语音合成模型是基于训练集以及训练集中文本数据对应的多个音素的韵律标记训练得到的，文本数据对应的多个音素的韵律标记是通过本公开的韵律标注方法得到的；基于待合成文本数据的梅尔频谱，合成待合成文本数据的合成语音。

存储单元1020可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)10201和/或高速缓存存储单元10202，还可以进一步包括只读存储单元(ROM)10203。

存储单元1020还可以包括具有一组(至少一个)程序模块10205的程序/实用工具10204，这样的程序模块10205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1000也可以与一个或多个外部设备1040(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1000交互的设备通信，和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且，电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质可以是可读信号介质或者可读存储介质。其上存储有能够实现本公开上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

本公开中的计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中，计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可选地，计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

在具体实施时，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种韵律标注方法，其特征在于，包括：

根据文本数据中的多个音素和所述文本数据对应的第一音频数据之间的对应关系，将所述第一音频数据划分为多个第二音频数据，所述多个第二音频数据与所述多个音素之间具有对应关系；

对所述多个第二音频数据的韵律特征进行聚类，得到多个聚类簇；所述韵律特征包括音高、音量和音长；所述多个聚类簇中的每个聚类簇用于表示一种韵律标记，一种韵律标记用于反应包含一种音高、音量和音长的韵律特征；

基于所述多个第二音频数据的韵律特征与所述多个聚类簇进行确定韵律标记的处理，得到所述多个音素各自的韵律标记。

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个第二音频数据的韵律特征与所述多个聚类簇进行确定韵律标记的处理，得到所述多个音素各自的韵律标记，包括：

分别计算每个第二音频数据的韵律特征与所述多个聚类簇中每个聚类簇的核心点之间的距离，得到距离计算结果；

根据所述距离计算结果，从所述多个聚类簇中确定与每个第二音频数据对应的目标聚类簇；其中，每个第二音频数据的韵律特征与相应的目标聚类簇的核心点之间的距离满足预设距离条件；

将每个第二音频数据对应的目标聚类簇示出的韵律标记，作为相应第二音频数据所对应的音素的韵律标记。

3.根据权利要求1所述的方法，其特征在于，所述对所述多个第二音频数据的韵律特征进行聚类，得到多个聚类簇，包括：

根据所述多个第二音频数据对应的音素的发音时长，将所述多个第二音频数据划分为多个音频数据子集；其中，同一个音频数据子集中各个第二音频数据各自对应的音素的发音时长在该音频数据子集对应的预设发音时长范围内；

对所述多个音频数据子集分别进行聚类，得到多个聚类簇。

4.根据权利要求1所述的方法，其特征在于，所述根据文本数据中的多个音素和所述文本数据对应的第一音频数据之间的对应关系，将所述第一音频数据划分为多个第二音频数据，包括：

对所述文本数据以及与所述文本数据对应的所述第一音频数据进行对齐处理，得到所述多个音素中每个音素在所述第一音频数据中的时间边界；

根据所述多个音素中每个音素在所述第一音频数据中的时间边界，将所述第一音频数据划分为多个第二音频数据。

5.一种声学模型训练方法，其特征在于，包括：

构建训练集，所述训练集包括文本数据以及与所述文本数据对应的音频数据；

通过权利要求1至4任一项所述的方法，对所述文本数据中的多个音素分别进行韵律标注，得到所述多个音素各自的韵律标记；

采用所述训练集以及所述多个音素各自的韵律标记，训练声学模型，训练完成的声学模型用于对待合成文本进行语音合成处理，得到合成语音。

6.一种语音合成方法，其特征在于，包括：

将待合成文本数据输入预训练的语音合成模型，得到所述待合成文本数据的梅尔频谱，所述语音合成模型是基于训练集以及训练集中文本数据对应的多个音素的韵律标记训练得到的，所述文本数据对应的多个音素的韵律标记是通过权利要求1至4任一项所述的方法得到的；

基于所述待合成文本数据的梅尔频谱，合成所述待合成文本数据的合成语音。

7.一种韵律标注装置，其特征在于，包括：

划分模块，用于根据文本数据中的多个音素和所述文本数据对应的第一音频数据之间的对应关系，将所述第一音频数据划分为多个第二音频数据，所述多个第二音频数据与所述多个音素之间具有对应关系；

聚类模块，用于对所述多个第二音频数据的韵律特征进行聚类，得到多个聚类簇；所述韵律特征包括音高、音量和音长；所述多个聚类簇中的每个聚类簇用于表示一种韵律标记，一种韵律标记用于反应包含一种音高、音量和音长的韵律特征；

确定模块，用于基于所述多个第二音频数据的韵律特征与所述多个聚类簇进行确定韵律标记的处理，得到所述多个音素各自的韵律标记。

8.一种声学模型训练装置，其特征在于，包括：

构建模块，用于构建训练集，所述训练集包括文本数据以及与所述文本数据对应的音频数据；

标记模块，用于通过权利要求1至4任一项所述的方法，对所述文本数据中的多个音素分别进行韵律标注，得到所述多个音素各自的韵律标记；

训练模块，用于采用所述训练集以及所述多个音素各自的韵律标记，训练声学模型，训练完成的声学模型用于对待合成文本进行语音合成处理，得到合成语音。

9.一种语音合成装置，其特征在于，包括：

获取模块，用于将待合成文本数据输入预训练的语音合成模型，得到所述待合成文本数据的梅尔频谱，所述语音合成模型是基于训练集以及训练集中文本数据对应的多个音素的韵律标记训练得到的，所述文本数据对应的多个音素的韵律标记是通过权利要求1至4任一项所述的方法得到的；

合成模块，用于基于所述待合成文本数据的梅尔频谱，合成所述待合成文本数据的合成语音。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至4任一项所述的方法；或权利要求5所述的方法；或权利要求6所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4任一项所述的方法；或权利要求5所述的方法；或权利要求6所述的方法。