CN112466277A

CN112466277A - 韵律模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN112466277A
Application number: CN202011173706.XA
Authority: CN
Inventors: 李若铭
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-03-09
Anticipated expiration: 2040-10-28
Also published as: CN112466277B

Abstract

本申请公开了一种韵律模型训练方法、装置、电子设备和存储介质，涉及语音技术领域、深度学习领域等人工智能领域。具体实现方案为：提取文本数据之中的标点信息及其韵律信息，并建立标点信息和韵律信息之间的映射关系；从文本数据中获取第一文本数据和第二文本数据；根据映射关系对第一文本数据进行标注以获得对应的训练数据；根据训练数据对初始韵律预训练模型进行训练以获得韵律预训练模型；根据第二文本数据对韵律预训练模型进行训练以获取韵律模型。本申请保证了韵律标注的效率，降低人工成本，保证了所标注的韵律特征信息更加准确，通过该韵律特征信息的标注数据进行模型训练，使得模型的韵律预测结果更加准确，从而可提高语音合成的效果。

Description

韵律模型训练方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种韵律模型训练方法、装置、电子设备和存储介质，属于语音技术领域、深度学习领域等人工智能领域。

背景技术

相关技术中，韵律预测的方式主要有基于统计规则和基于神经网络模型两种，随着深度学习的发展，目前通过有监督的方法构建文本韵律模型成为主流。通过对文本数据的韵律进行预测，可以得到其对应的韵律预测结果。基于深度学习的预测模型大都能够产生较为优异的预测准确率，但是需要大量人工标注的训练数据来进行韵律模型的训练，人工成本较高，耗时较长。

发明内容

本申请提供了一种韵律模型训练方法、装置、电子设备以及存储介质。

根据本申请的第一方面，提供了一种韵律模型训练方法，包括：

提取文本数据之中的标点信息以及所述标点信息对应的韵律信息，并建立所述标点信息和所述韵律信息之间的映射关系；

从所述文本数据中获取第一文本数据和第二文本数据；

根据所述映射关系对所述第一文本数据进行标注，以获得对应的训练数据；

根据所述训练数据对初始韵律预训练模型进行训练，以获得韵律预训练模型；以及

根据所述第二文本数据对所述韵律预训练模型进行训练，以获取韵律模型。

根据本申请的第二方面，提供了一种韵律模型训练装置，包括：

提取模块，用于提取文本数据之中的标点信息以及所述标点信息对应的韵律信息；

建立模块，用于建立所述标点信息和所述韵律信息之间的映射关系；

获取模块，用于从所述文本数据中获取第一文本数据和第二文本数据；

标注模块，用于根据所述映射关系对所述第一文本数据进行标注，以获得对应的训练数据；

训练模块，用于根据所述训练数据对初始韵律预训练模型进行训练，以获得韵律预训练模型，并根据所述第二文本数据对所述韵律预训练模型进行训练，以获取韵律模型。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述第一方面所述的韵律模型训练方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行前述第一方面所述的韵律模型训练方法。

根据本申请的技术解决了现有技术中基于语音特征信息进行韵律标注而导致所标注的韵律特征信息不准确，以及基于文本信息通过人工的方式进行韵律标注而导致韵律标注的效率和准确度较低等的问题。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一个实施例的韵律模型训练方法的流程图；

图2是根据本申请实施例的韵律模型训练方法的流程图；

图3是根据本申请实施例的韵律模型训练方法的流程图；

图4是根据本申请实施例的韵律模型训练流程的示例图；

图5是根据本申请一个实施例的韵律模型训练装置的结构框图；

图6是用来实现本申请实施例的用以实现韵律模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着技术的发展，市场对于有声朗读以及智能交互设备的需求日益增强，语音合成技术起到至关重要的作用。语音合成是一种将文字信息转变为语音输出的技术。在语音合成系统中，韵律预测通常处于语音合成的前端文本处理中，是整个系统的基础，合理的韵律预测的结果能有效提高合成的自然度，因此，如何提高语音合成的效果关键在于如何提高韵律预测的准确性。

现有的韵律预测的方式主要有基于统计规则和基于神经网络模型两种，随着深度学习的发展，目前通过有监督的方法构建文本韵律模型成为主流。通过对文本数据的韵律进行预测，可以得到其对应的韵律预测结果，所谓韵律预测结果。基于深度学习的预测模型大都能够产生较为优异的预测准确率，但是需要大量人工标注的训练数据来进行韵律模型的训练，人工成本较高，耗时较长。与此同时，网络上存在着丰富文本数据，能够实现更全的模型上下文覆盖，提供更加丰富的韵律现象，但是对其进行全部标注是不太现实的。

相关技术中，语音合成系统中的韵律标注主要有两种：一是基于语音特征信息，主要包括语音数据中静音段长度、基频特征的走势等与韵律相关的特征信息，对语音数据进行自动的韵律标注；二是采用基于文本信息，通常包括声母、韵母、词、短语、段落等信息，由专业的标注人员进行人工韵律标注。

但是，目前存在的问题是：针对上述基于语音特征信息的方式，由于所提取的语音特征信息不具有鲁棒性，容易导致所标注的韵律特征信息不准确，并且上述基于语音特征信息所获得的韵律特征信息没有考虑到文本上的停顿约束，进而导致语音合成系统所合成的语音数据的韵律停顿不够真实，不够自然。针对上述基于文本信息的方式，由于语言表述的丰富性，仅根据文本信息通过人工的方式进行韵律标注，难度较大，导致韵律标注的效率和准确度较低。加入语句过多，人工标注成本大，优化周期过长。

为了解决现有技术中基于语音特征信息进行韵律标注而导致所标注的韵律特征信息不准确，以及基于文本信息通过人工的方式进行韵律标注而导致韵律标注的效率和准确度较低等的问题，本申请提出了一种基于标点信息的韵律模型训练方法、装置、电子设备和存储介质，能够更好地利用现有的资源，提高效率。具体地，下面参考附图描述本申请实施例的韵律模型训练方法、装置、电子设备和存储介质。

图1是根据本申请一个实施例的韵律模型训练方法的流程图。需要说明的是，本申请实施例的韵律模型训练方法可应用于本申请实施例的韵律模型训练装置，该韵律模型训练装置被配置于电子设备。

如图1所示，该韵律模型训练方法可以包括：

步骤101，提取文本数据之中的标点信息以及标点信息对应的韵律信息，并建立标点信息和韵律信息之间的映射关系。

需要说明的是，文本主要由文字和标点两部分组成，依据人们日常文本阅读习惯，对于常见的中英文标点进行分类，依据标点通常出现在句子中的不同位置，赋予不同类别标点不同的韵律等级。例如，对于通常作为句意结束的标点，如逗号、句号、感叹号、问号等，赋予该类标点一个长停顿的韵律等级；对于通常出现于句中的标点，如冒号、顿号、括号等，赋予此类标点一个稍短停顿的韵律等级。

在本步骤中，由于网络上存在着丰富文本数据，本申请可通过网页爬取的方式获取大量的文本数据，之后，可从文本数据之中提取出标点信息以及该标点信息对应的韵律信息，并根据提取到的标点信息及其对应的韵律信息，建立标点信息和韵律信息之间的映射关系。其中，在本申请实施例中，该标点信息可包括标点符号出现的位置以及标点符号对应的类型。该韵律信息可包括韵律停顿位置以及韵律停顿等级。

作为一种示例，在获取大量的文本数据之后，可对获得的文本数据进行规范化处理，通过分析经过规范化处理的文本数据中的文本字符的边界，提取文本数据中的标点符号出现的位置，并确定该文本数据中该标点符号对应的类型。

在本申请实施例中，所述提取标点信息对应的韵律信息的具体实现过程可如下：将文本数据中的标点符号出现的位置作为韵律信息之中的韵律停顿位置，并根据标点信息之中标点符号的类型，确定标点符号对应的韵律停顿等级。也就是说，不同类别标点对应不同的韵律停顿等级。例如，对于通常作为句意结束的标点，如逗号、句号、感叹号、问号等，赋予该类标点一个长停顿的韵律等级；对于通常出现于句中的标点，如冒号、顿号、括号等，赋予此类标点一个稍短停顿的韵律等级。

步骤102，从文本数据中获取第一文本数据和第二文本数据。

举例而言，可将文本数据中的一部分作为第一文本数据，将该文本数据中的另一部分(或剩余部分)作为第二文本数据。

在本申请的其他实施例中，可从文本数据中获取一部分文本数据作为第一文本数据，将该文本数据中的剩余部分文本数据作为第二文本数据；或者，从该文本数据中重新获取一部分文本数据作为第二文本数据。下面将给出这两种示例的实现方式：

作为一种可能实现方式的示例，从文本数据中获取第一占比的第一文本数据；其中，第一占比为第一文本数据在文本数据中所占的比例；从文本数据中获取第二占比的第二文本数据；其中，第二占比为第二文本数据在文本数据中所占的比例；其中，第一占比大于第二占比。例如，以第一占比为95％，第二占比为5％为例，可从获得的文本数据之中获取95％的文本作为第一文本数据，从该文本数据之中获取5％的文本作为第二文本数据。

作为另一种可能实现方式的示例，从文本数据中获取预设占比的第一文本数据，其中，预设占比为第一文本数据在文本数据中所占的比例；将文本数据之中除第一文本数据以外的文本数据作为第二文本数据；其中，预设占比大于目标阈值。例如，以预设占比为95％为例，可从获得的文本数据之中获取95％的文本作为第一文本数据，并将该文本数据之中除第一文本数据以外的文本数据作为第二文本数据。

步骤103，根据映射关系对第一文本数据进行标注，以获得对应的训练数据。

在本申请实施例中，可按照标点信息和韵律信息之间的映射关系，对该第一文本数据进行韵律标注，得到对应的带标注数据的第一文本数据，将该带标注数据的第一文本数据作为用于模型训练的训练数据。可选地，在本申请一些实施例中，如图2所示，所述根据映射关系对第一文本数据进行标注，以获得对应的训练数据的具体实现过程可包括：

步骤201，对第一文本数据之中的标点符号进行去除操作，获得对应的无标点符号文本数据。

也就是说，可先去除该第一文本数据之中的标点符号，获得对应的无标点符号文本数据。

步骤202，根据标点信息在无标点符号文本数据中找到原标点符号所在的位置。

步骤203，根据映射关系，确定无标点符号文本数据之中原标点符号所对应的韵律信息。

也就是说，可按照标点信息和韵律信息之间的映射关系，确定该无标点符号文本数据之中原标点符号所对应的韵律信息，其中，该韵律信息包括韵律停顿位置以及韵律停顿等级。

步骤204，将原标点符号所对应的韵律信息标注于无标点符号文本数据之中原标点符号所在的位置。

步骤205，将经过韵律信息标注的无标点符号文本数据作为训练数据。

举例而言，以第一文本数据“文本数据是指不能参与算术运算的任何字符，也称为字符型数据。如英文字母、汉字、不作为数值使用的数字和其他可输入的字符。”为例，可先将该文本数据之中的标点符号进行去除操作，得到对应的无标点符号文本数据“文本数据是指不能参与算术运算的任何字符也称为字符型数据如英文字母汉字不作为数值使用的数字和其他可输入的字符”，并根据标点信息(如包括标点符号出现的位置以及标点符号对应的类型)在该无标点符号文本数据中找到原标点符号所在的位置。然后根据标点信息与韵律信息间的映射关系确定出该无标点符号文本数据之中原标点符号所对应的韵律信息，并将原标点符号所对应的韵律信息标注于无标点符号文本数据之中原标点符号所在的位置，比如，得到的经过韵律信息标注的无标点符号文本数据可为“文本数据是指不能参与算术运算的任何字符[L1]也称为字符型数据[L2]如英文字母[L4]汉字[L4]不作为数值使用的数字和其他可输入的字符[L2]”，将该经过韵律信息标注的无标点符号文本数据作为训练数据。其中，[L1]表示逗号标点所对应的韵律标注信息，[L2]表示句号标点所对应的韵律标注信息，[L4]表示顿号标点所对应的韵律标注信息。

由此可见，通过将文本数据之中的一部分文本(即第一文本数据)按照标点信息与韵律信息间的映射关系进行文本标注，也就是说，去除第一文本数据之中对应的标点，依据标点信息对该已去除标点的文本数据进行自动标注，获得有标注数据，将该有标注数据作为用于模型训练的训练数据。由此，将通过网页爬取获得的大量文本信息中的一部分文本基于标点信息进行韵律信息的自动标注，由于该韵律标注数据是基于文本中的标点信息而标注得到的，从而可以使得所标注的韵律特征信息更加准确，通过该韵律特征信息的标注数据进行模型训练，可以使得模型的韵律预测结果更加准确，进而可以使得语音合成系统所合成的语音数据的韵律停顿更加真实和自然。

步骤104，根据训练数据对初始韵律预训练模型进行训练，以获得韵律预训练模型。

其中，在本申请实施例中，该初始韵律预训练模型可基于深度神经网络构建的。在获得训练数据之后，可提取该训练数据之中每句文本的文本特征，并将每句文本的文本特征输入到初始韵律预训练模型进行韵律预测。获得初始韵律预训练模型输出的每句文本的韵律信息预测结果。然后，根据每句文本的韵律信息预测结果和该训练数据之中每句文本的韵律信息标注数据，训练初始韵律预训练模型，将训练好的模型作为韵律预训练模型。

例如，将训练数据之中每句文本的文本特征输入到初始韵律预训练模型进行韵律预测，获得每句文本的韵律信息预测结果，之后，将每句文本的韵律信息预测结果和该训练数据之中每句文本的韵律信息标注数据进行差异比较，识别差异比较结果是否达到目标差异的要求，若否，则根据差异比较结果调整该初始韵律预训练模型的模型参数，并利用训练数据对调整模型参数后的初始韵律预训练模型进行迭代训练，直至每句文本的韵律信息预测结果及其韵律信息标注数据间的差异比较结果达到目标差异的要求，则认为模型训练完成，将该完成训练的模型作为韵律预训练模型。

为了能够实现更全的模型上下文覆盖，提供更加丰富的韵律现象，在本申请一些实施例中，在提取训练数据之中每句文本的文本特征时，还可提取训练数据之中每句文本的上下文特征，并将每句文本的文本特征和上下文特征进行融合操作，得到每句文本的融合特征，将每句文本的融合特征输入至初始韵律预训练模型。

举例而言，在提取训练数据之中每句文本的文本特征时，还可提取训练数据之中每句文本的上下文特征，然后，基于Tansformer(一种编码－解码的深度学习模型)的神经网络将每句文本的文本特征和上下文特征进行融合操作，比如，可以拼接的方式将每句文本的文本特征与其上下文特征进行融合，以获得每句文本的融合特征。然后，基于每句文本的融合特征对初始韵律预训练模型进行模型训练，根据训练得到的模型参数生成对应的韵律预训练模型。例如，可将训练好后的初始韵律预训练模型作为韵律预训练模型。由此，能够实现更全的模型上下文覆盖，提供更加丰富的韵律现象。

步骤105，根据第二文本数据对韵律预训练模型进行训练，以获取韵律模型。

也就是说，可从文本数据之中获取一部分作为第二文本数据，根据该第二文本数据对韵律预训练模型进行进一步训练，将该训练好的模型作为韵律模型。需要说明的是，为了提高模型韵律预测结果的准确性，在对韵律预训练模型进行训练时，所使用的第二文本数据具有较为准确的韵律信息标注数据。也就是说，在对韵律预训练模型进行训练时，可先获取第二文本数据的韵律标注数据，例如第二文本数据及其韵律标注数据对韵律预训练模型进行训练，以获取韵律模型。

为了进一步提高韵律标注的准确性，进而可以提高模型韵律预测结果的准确性，可采用人工标注的方式对第二文本数据进行韵律标注。可选地，在本申请一些实施例中，如图3所示，所述根据第二文本数据对韵律预训练模型进行训练，以获取韵律模型的具体实现过程可包括：

步骤301，将第二文本数据发送给标注专家所持的终端设备。

也就是说，在利用第二文本数据对韵律预训练模型进行训练之前，可先将该第二文本数据发送给标注专家所持的终端设备，以采用人工标注的方式对第二文本数据进行韵律标注。其中，标注专家可通过所持的终端设备对该第二文本数据进行韵律标注，并通过终端设备返回该经过韵律信息标注的第二文本数据。

步骤302，获取终端设备发送的经过韵律信息标注的第二文本数据。

其中，在本申请实施例中，经过韵律信息标注的第二文本数据是标注专家在终端设备上对第二文本数据进行韵律信息标注而得到的文本数据。

步骤303，依据经过韵律信息标注的第二文本数据对韵律预训练模型进行训练，以获取韵律模型。

例如，可将经过韵律信息标注的第二文本数据输入到韵律预训练模型进行韵律预测，获得韵律预测结果。然后，将该韵律预测结果与该第二文本数据对应的韵律信息标注进行差异比较，识别差异比较结果是否达到目标差异的要求，若否，则根据差异比较结果调整该韵律预训练模型的模型参数，并利用经过韵律信息标注的第二文本数据对经过模型参数调整后的韵律预训练模型进行迭代训练，直至差异比较结果达到目标差异的要求，则认为模型训练完成，将此时完成训练的模型作为韵律模型。

由此，通过采用人工标注的方式对第二文本数据进行韵律标注，可以进一步提高韵律标注的准确性，进而可以提高模型韵律预测结果的准确性。

为了使得本领域技术人员更加清楚地了解本申请，下面将举例说明。

举例而言，本申请提出的基于标点信息的韵律模型训练方法，主要是利用文本中已有的标点信息，通过数据预处理的方式获取韵律信息，进行模型的训练，如图4所示，该韵律模型训练方法主要包括三大部分：文本数据获取与预处理；韵律模型预训练；韵律模型微调。

其中，第一部分：文本数据获取与预处理。文本数据获取及预处理是整个韵律模型训练的基础，主要包括三个步骤：

步骤一：文本数据获取，主要通过网页爬取的方式获得大量的文本信息；

步骤二：建立标点信息和韵律等级关系之间的映射。由于文本主要由文字和标点两部分组成，依据人们日常文本阅读习惯，对于常见的中英文标点进行分类，依据标点通常出现在句子中的不同位置，赋予不同类别标点不同的韵律等级，例如对于通常作为句意结束的标点，如逗号、句号、感叹号、问号等，赋予该类标点一个长停顿的韵律等级；对于通常出现于句中的标点，如冒号、顿号、括号等，赋予此类标点一个稍短停顿的韵律等级。

步骤三：文本预处理，对于步骤一获取到的文本中95％的文本按照步骤二中所建立的标点信息和韵律等级之间的映射关系进行文本标注。也就是说，可去除所述95％的文本之中的标点符号，依据标点信息对去除了标点的文本进行韵律信息的自动标注，获得有标注数据，将该标注数据作为训练数据。将步骤一获取到的文本中剩余5％的文本提交人工标注获取精确标注的韵律信息。由此，将文本中的绝大部分基于标点信息进行自动标注，在保证韵律标注的效率的同时，还可以保证所标注的韵律特征信息更加准确，通过该韵律特征信息的标注数据进行模型训练，可以使得模型的韵律预测结果更加准确，进而可以使得语音合成系统所合成的语音数据的韵律停顿更加真实和自然。另外，将文本中的一小部分提交给人工标注以获取精确标注的韵律信息，利用该标注数据更为精确的韵律信息对韵律预训练模型进行进一步训练，使得训练得到的韵律模型的韵律预测效果更佳，使得模型的韵律预测结果更加准确，进而可以使得语音合成系统所合成的语音数据的韵律停顿更加真实和自然。

第二部分：韵律模型预训练。

将标点信息转化为韵律信息后的95％标注文本(即将经过韵律信息标注的第一文本数据)送入初始韵律预训练模型中进行训练，基于深度神经网络对所述训练数据的文本特征以及标注进行进一步抽象，并基于Tansformer的神经网络对所述训练数据的上下文特征进行融合，以获得不同文本特征对应的向量，从而完整韵律模型的预训练，得到韵律预训练模型。

第三部分：韵律模型微调。

利用已标注的5％的文本数据对第二部分获得的韵律预训练模型进行进一步训练，从而可以获得更为丰富准确的句中韵律信息，此时将训练好的模型确定为韵律模型，这样，在利用该韵律模型对文本进行韵律预测时，能够获得更为丰富且准确的句中韵律信息。

根据本申请实施例的韵律模型训练方法，可提取文本数据之中的标点信息以及标点信息对应的韵律信息，并建立标点信息和韵律信息之间的映射关系，并从文本数据中获取第一文本数据和第二文本数据，然后，根据映射关系对第一文本数据进行标注，以获得对应的训练数据，根据该训练数据对初始韵律预训练模型进行训练，以获得韵律预训练模型，然后，根据第二文本数据对韵律预训练模型进行训练，以获取韵律模型。由此可见，本申请将文本中的绝大部分基于标点信息进行自动标注，在保证韵律标注的效率，降低人工成本的同时，还可以保证所标注的韵律特征信息更加准确，通过该韵律特征信息的标注数据进行模型训练，可以使得模型的韵律预测结果更加准确，进而可以使得语音合成系统所合成的语音数据的韵律停顿更加真实和自然。另外，将利用文本中的一小部分对韵律模型进行进一步训练，可以使得韵律模型的韵律预测效果更佳，使得模型的韵律预测结果更加准确，进而可以使得语音合成系统所合成的语音数据的韵律停顿更加真实和自然。

图5是根据本申请一个实施例的韵律模型训练装置的结构框图。如图5所示，该韵律模型训练装置500可以包括：提取模块501、建立模块502、获取模块503、标注模块504和训练模块505。

具体地，提取模块501用于提取文本数据之中的标点信息以及标点信息对应的韵律信息。作为一种示例，提取模块501提取文本数据之中的标点信息的具体实现过程可如下：对文本数据进行规范化处理；通过分析经过规范化处理的文本数据中的文本字符的边界，提取文本数据中的标点符号出现的位置；确定文本数据中标点符号对应的类型。

在本申请实施例中，提取模块501提取文本数据之中的标点信息对应的韵律信息的具体实现过程可如下：将文本数据中的标点符号出现的位置作为韵律信息之中的韵律停顿位置；根据标点信息之中标点符号的类型，确定标点符号对应的韵律停顿等级。

建立模块502用于建立标点信息和韵律信息之间的映射关系。

获取模块503用于从文本数据中获取第一文本数据和第二文本数据。作为一种示例，获取模块503从文本数据中获取第一占比的第一文本数据；其中，第一占比为第一文本数据在文本数据中所占的比例；从文本数据中获取第二占比的第二文本数据；其中，第二占比为第二文本数据在文本数据中所占的比例；其中，第一占比大于第二占比。

作为另一种示例，获取模块503从文本数据中获取预设占比的第一文本数据，其中，预设占比为第一文本数据在文本数据中所占的比例；将文本数据之中除第一文本数据以外的文本数据作为第二文本数据；其中，预设占比大于目标阈值。

标注模块504用于根据映射关系对第一文本数据进行标注，以获得对应的训练数据。在本申请一些实施例中，标注模块504对第一文本数据之中的标点符号进行去除操作，获得对应的无标点符号文本数据；根据标点信息在无标点符号文本数据中找到原标点符号所在的位置；根据映射关系，确定无标点符号文本数据之中原标点符号所对应的韵律信息；将原标点符号所对应的韵律信息标注于无标点符号文本数据之中原标点符号所在的位置；将经过韵律信息标注的无标点符号文本数据作为训练数据。

训练模块505用于根据训练数据对初始韵律预训练模型进行训练，以获得韵律预训练模型，并根据第二文本数据对韵律预训练模型进行训练，以获取韵律模型。

在本申请一些实施例中，训练模块505提取训练数据之中每句文本的文本特征；将每句文本的文本特征输入至初始韵律预训练模型，获得每句文本的韵律信息预测结果；根据每句文本的韵律信息预测结果和训练数据之中每句文本的韵律信息标注数据，训练初始韵律预训练模型，以获得韵律预训练模型。

在本申请一些实施例中，训练模块505还用于提取训练数据之中每句文本的上下文特征，并将每句文本的文本特征和上下文特征进行融合操作，得到每句文本的融合特征，并将每句文本的融合特征输入至初始韵律预训练模型。

在本申请的一些实施例中，训练模块505根据第二文本数据对韵律预训练模型进行训练，以获取韵律模型的具体实现过程可如下：将第二文本数据发送给标注专家所持的终端设备；获取终端设备发送的经过韵律信息标注的第二文本数据；其中，经过韵律信息标注的第二文本数据是标注专家在终端设备上对第二文本数据进行韵律信息标注而得到的文本数据；依据经过韵律信息标注的第二文本数据对韵律预训练模型进行训练，以获取韵律模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本申请实施例的韵律模型训练装置，可提取文本数据之中的标点信息以及标点信息对应的韵律信息，并建立标点信息和韵律信息之间的映射关系，并从文本数据中获取第一文本数据和第二文本数据，然后，根据映射关系对第一文本数据进行标注，以获得对应的训练数据，根据该训练数据对初始韵律预训练模型进行训练，以获得韵律预训练模型，然后，根据第二文本数据对韵律预训练模型进行训练，以获取韵律模型。由此可见，本申请将文本中的绝大部分基于标点信息进行自动标注，在保证韵律标注的效率，降低人工成本的同时，还可以保证所标注的韵律特征信息更加准确，通过该韵律特征信息的标注数据进行模型训练，可以使得模型的韵律预测结果更加准确，进而可以使得语音合成系统所合成的语音数据的韵律停顿更加真实和自然。另外，将利用文本中的一小部分对韵律模型进行进一步训练，可以使得韵律模型的韵律预测效果更佳，使得模型的韵律预测结果更加准确，进而可以使得语音合成系统所合成的语音数据的韵律停顿更加真实和自然。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的用于实现韵律模型训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的韵律模型训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的韵律模型训练方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的韵律模型训练方法对应的程序指令/模块(例如，附图5所示的提取模块501、建立模块502、获取模块503、标注模块504和训练模块505)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的韵律模型训练方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用以实现韵律模型训练的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至用以实现韵律模型训练的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用以实现韵律模型训练方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与用以实现韵律模型训练的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种韵律模型训练方法，包括：

从所述文本数据中获取第一文本数据和第二文本数据；

2.根据权利要求1所述的方法，其中，所述提取文本数据之中的标点信息，包括：

对所述文本数据进行规范化处理；

通过分析经过规范化处理的文本数据中的文本字符的边界，提取所述文本数据中的标点符号出现的位置；

确定所述文本数据中所述标点符号对应的类型。

3.根据权利要求2所述的方法，其中，提取所述标点信息对应的韵律信息，包括：

将所述文本数据中的标点符号出现的位置作为所述韵律信息之中的韵律停顿位置；

根据所述标点信息之中所述标点符号的类型，确定所述标点符号对应的韵律停顿等级。

4.根据权利要求1所述的方法，其中，所述从所述文本数据中获取第一文本数据和第二文本数据，包括：

从所述文本数据中获取第一占比的第一文本数据；其中，所述第一占比为所述第一文本数据在所述文本数据中所占的比例；

从所述文本数据中获取第二占比的第二文本数据；其中，所述第二占比为所述第二文本数据在所述文本数据中所占的比例；

其中，所述第一占比大于所述第二占比。

5.根据权利要求1所述的方法，其中，所述从所述文本数据中获取第一文本数据和第二文本数据，包括：

从所述文本数据中获取预设占比的第一文本数据，其中，所述预设占比为所述第一文本数据在所述文本数据中所占的比例；

将所述文本数据之中除所述第一文本数据以外的文本数据作为所述第二文本数据；

其中，所述预设占比大于目标阈值。

6.根据权利要求1所述的方法，其中，所述根据所述映射关系对所述第一文本数据进行标注，以获得对应的训练数据，包括：

对所述第一文本数据之中的标点符号进行去除操作，获得对应的无标点符号文本数据；

根据所述标点信息在所述无标点符号文本数据中找到原标点符号所在的位置；

根据所述映射关系，确定所述无标点符号文本数据之中原标点符号所对应的韵律信息；

将所述原标点符号所对应的韵律信息标注于所述无标点符号文本数据之中所述原标点符号所在的位置；

将经过韵律信息标注的所述无标点符号文本数据作为所述训练数据。

7.根据权利要求1所述的方法，其中，所述根据所述训练数据对初始韵律预训练模型进行训练，以获得韵律预训练模型，包括：

提取所述训练数据之中每句文本的文本特征；

将所述每句文本的文本特征输入至所述初始韵律预训练模型，获得所述每句文本的韵律信息预测结果；

根据所述每句文本的韵律信息预测结果和所述训练数据之中每句文本的韵律信息标注数据，训练所述初始韵律预训练模型，以获得所述韵律预训练模型。

8.根据权利要求7所述的方法，其中，在提取所述训练数据之中每句文本的文本特征时，所述方法还包括：

提取所述训练数据之中所述每句文本的上下文特征；

将所述每句文本的文本特征和所述上下文特征进行融合操作，得到所述每句文本的融合特征；

其中，将所述每句文本的文本特征输入至所述初始韵律预训练模型，包括：

将所述每句文本的融合特征输入至所述初始韵律预训练模型。

9.根据权利要求1至8中任一项所述的方法，其中，所述根据所述第二文本数据对所述韵律预训练模型进行训练，以获取韵律模型，包括：

将所述第二文本数据发送给标注专家所持的终端设备；

获取所述终端设备发送的经过韵律信息标注的第二文本数据；其中，所述经过韵律信息标注的第二文本数据是所述标注专家在所述终端设备上对所述第二文本数据进行韵律信息标注而得到的文本数据；

依据所述经过韵律信息标注的第二文本数据对所述韵律预训练模型进行训练，以获取所述韵律模型。

10.一种韵律模型训练装置，包括：

11.根据权利要求10所述的装置，其中，所述提取模块具体用于：

对所述文本数据进行规范化处理；

确定所述文本数据中所述标点符号对应的类型。

12.根据权利要求11所述的装置，其中，所述提取模块还具体用于：

13.根据权利要求10所述的装置，其中，所述获取模块具体用于：

其中，所述第一占比大于所述第二占比。

14.根据权利要求10所述的装置，其中，所述获取模块具体用于：

其中，所述预设占比大于目标阈值。

15.根据权利要求10所述的装置，其中，所述标注模块具体用于：

16.根据权利要求10所述的装置，其中，所述训练模块具体用于：

提取所述训练数据之中每句文本的文本特征；

17.根据权利要求16所述的装置，其中，

所述训练模块，还用于提取所述训练数据之中所述每句文本的上下文特征，并将所述每句文本的文本特征和所述上下文特征进行融合操作，得到所述每句文本的融合特征，并将所述每句文本的融合特征输入至所述初始韵律预训练模型。

18.根据权利要求10至17中任一项所述的装置，其中，所述训练模块具体用于：

将所述第二文本数据发送给标注专家所持的终端设备；

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的韵律模型训练方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1至9中任一项所述的韵律模型训练方法。