CN110767213A

CN110767213A - 一种韵律预测方法及装置

Info

Publication number: CN110767213A
Application number: CN201911088396.9A
Authority: CN
Inventors: 王昆
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-02-07

Abstract

本发明涉及语音合成技术，其公开了一种韵律预测方法及装置，提升韵律预测准确率，从而提升语音合成系统前端的性能，以提升语音合成质量。本发明中的韵律预测方法包括：提取待处理文本的综合语言学特征；将提取的综合语言学特征输入已训练的韵律预测模型中，输出韵律标记信息。本发明充分利用待预测句子的分词及标点信息，采用分层预测模型的方法，提升了韵律预测模型的准确率，对语音合成前端系统有明显增强，可显著提升合成语音的韵律感和语音质量。

Description

一种韵律预测方法及装置

技术领域

本发明涉及语音合成技术，特别涉及一种韵律预测方法及装置。

背景技术

语音合成，也称文本转语音技术，可以看作是语音转文本的逆过程，用于把文字变成可以通过扬声器播放的声音信号，是自然人机交互的重要组成部分。语音合成系统通常分为前端和后端，前端主要用于从文本字符串到声学特征的变换，后端主要用于声学特征到语音信号的变换。

为了完成从本文字符串到声学特征的变换，前端需要从文本字符串中提取语言学特征，并建模语言学特征到声学特征的映射。一般而言，前端提取的语言学特征包括音素、音节、声调、韵律等。

韵律预测可以看做是一个序列到序列的建模问题，输入是字符串序列，输出是韵律标记序列，通常采用编码解码器来建模。准确的韵律预测可以降低模型学习的难度，提升语音合成的韵律感和自然度。

经研究发现，人们发音时，在分词边界和标点处有明显的停顿，然而现有技术往往未充分考虑这些信息，在建模时，同时输出多个层级的韵律停顿容易出现预测错误，从而影响声学模型和语音合成质量。

发明内容

本发明所要解决的技术问题是：提出一种韵律预测方法及装置，提升韵律预测准确率，从而提升语音合成系统前端的性能，以提升语音合成质量。

本发明解决上述技术问题采用的技术方案是：

一方面，本发明提供了一种韵律预测方法，包括：

提取待处理文本的综合语言学特征；

将提取的综合语言学特征输入已训练的韵律预测模型中，输出韵律标记信息。

作为进一步优化，所述提取待处理文本的综合语言学特征包括：

对所述待处理文本进行规则化处理，得到规则化文本；

对规则化文本提取第一语言学特征及条件语言学特征，组合第一语言学特征及条件语言学特征，得到综合语言学特征。

作为进一步优化，对所述待处理文本进行规则化处理，得到规则化文本包括：

对数字、货币、度量衡和非标点的符号按照实际发音顺序和实际发音字符进行转换。

作为进一步优化，所述对规则化文本提取第一语言学特征及条件语言学特征，组合第一语言学特征及条件语言学特征，得到综合语言学特征包括：

对规则化文本中的每个非标点字符进行向量化，得到第一语言学特征；

对规则化文本进行分词，获取分词边界，根据每个非标点字符是否紧接着一个分词边界进行向量化，得到分词条件语言学特征；

对规则化文本进行分词，获取分词边界和分词词性，根据每个非标点字符是否紧接着一个分词边界以及分词词性进行向量化，得到词性条件语言学特征；

对规则化文本进行标点符号提取，根据每个非标点字符是否紧接着一个标点符号以及标点符号类型进行向量化，得到标点条件语言学特征；

组合分词条件语言特征、词性语言学特征和标点条件语言学特征得到条件语言学特征，组合第一语言学特征和条件语言学特征，得到综合语言学特征。

作为进一步优化，所述将提取的综合语言学特征输入已训练的韵律预测模型中，输出韵律标记信息之前，还包括：

获取韵律预测模型训练文本集；

对韵律预测模型训练文本集进行标注；

基于标注后的韵律预测模型训练文本集训练韵律预测模型。

作为进一步优化，所述对韵律预测模型训练文本集进行标注包括：

对韵律预测模型训练文本集进行第一停顿级别、第二停顿级别和第三停顿级别标注。

作为进一步优化，所述基于标注后的韵律预测模型训练文本集训练韵律预测模型包括：

提取标注后的韵律预测模型训练文本集中每个句子的综合语言学特征及此句子对应的第一停顿级别、第二停顿级别和第三停顿级别标注信息；

通过机器学习建立第一子模型，学习所述综合语言学特征与第一停顿级别标注信息之间的映射关系；

组合所述综合语言学特征及第一子模型的输出，得到第二子模型的输入特征；

通过机器学习建立第二子模型，学习第二子模型的输入特征与第二停顿级别标注信息之间的映射关系；

组合所述综合语言学特征及第二子模型的输出，得到第三子模型的输入特征；

通过机器学习建立第三子模型，学习第三子模型的输入特征与第三停顿级别标注信息之间的映射关系；

由第一子模型、第二子模型和第三子模型共同构成韵律预测模型，建立综合语言学特征到句子的第一停顿级别、第二停顿级别和第三停顿级别的映射关系。

另一方面，本发明还提供了一种韵律预测装置，包括：

提取模块，用于提取待处理文本的综合语言学特征；

预测模块，用于将提取的综合语言学特征输入已训练的韵律预测模型中，输出韵律标记信息。

作为进一步优化，所述提取模块具体包括：

规则化模块，用于对所述待处理文本进行规则化处理，得到规则化文本；

综合语言学特征提取模块，用于对规则化文本提取第一语言学特征及条件语言学特征，组合第一语言学特征及条件语言学特征，得到综合语言学特征。

作为进一步优化，所述规则化模块具体用于：

作为进一步优化，所述综合语言学特征提取模块具体包括：

第一语言学特征模块，用于对规则化文本中的每个非标点字符进行向量化，得到第一语言学特征；

分词条件语言学特征模块，用于对规则化文本进行分词，获取分词边界，根据每个非标点字符是否紧接着一个分词边界进行向量化，得到分词条件语言学特征；

词性条件语言学特征模块，用于对规则化文本进行分词，获取分词边界和分词词性，根据每个非标点字符是否紧接着一个分词边界以及分词词性进行向量化，得到词性条件语言学特征；

标点条件语言学特征模块，用于对规则化文本进行标点符号提取，根据每个非标点字符是否紧接着一个标点符号以及标点符号类型进行向量化，得到标点条件语言学特征；

组合模块，用于组合分词条件语言特征、词性语言学特征和标点条件语言学特征得到条件语言学特征，组合第一语言学特征和条件语言学特征，得到综合语言学特征。

作为进一步优化，所述预测模块包括：

获取模块，用于获取韵律预测模型训练文本集；

标定模块，用于对韵律预测模型训练文本集进行标注；

训练模块，用于基于标注后的韵律预测模型训练文本集训练韵律预测模型。

作为进一步优化，所述标定模块具体用于：

作为进一步优化，训练模块具体包括：

训练提取模块，用于提取标注后的韵律预测模型训练文本集中每个句子的综合语言学特征及此句子对应的第一停顿级别、第二停顿级别和第三停顿级别标注信息；

第一子模型模块，用于通过机器学习建立第一子模型，学习所述综合语言学特征与第一停顿级别标注信息之间的映射关系；

第一子模型输出模块，用于组合所述综合语言学特征及第一子模型的输出，得到第二子模型的输入特征；

第二子模型模块，用于通过机器学习建立第二子模型，学习第二子模型的输入特征与第二停顿级别标注信息之间的映射关系；

第二子模型输出模块，用于组合所述综合语言学特征及第二子模型的输出，得到第三子模型的输入特征；

第三子模型模块，通过机器学习建立第三子模型，学习第三子模型的输入特征与第三停顿级别标注信息之间的映射关系；

模组组合模块，用于将第一子模型、第二子模型和第三子模型共同构成韵律预测模型，建立综合语言学特征到句子的第一停顿级别、第二停顿级别和第三停顿级别的映射关系。

本发明的有益效果是：

通过提取待处理文本的综合语言学特征，将待处理文本的综合语言学特征输入已训练的韵律预测模型，输出韵律标记信息。其中，已训练的韵律预测模型由训练文本集，通过分层建模的方式训练得到，训练文本集的每个句子都包含第一停顿级别、第二停顿级别、第三停顿级别标注信息。通过此方法，能够获得更准确的韵律预测标记，可以用于增强语音合成前段，提升声学模型建模效果，进而提升合成语音质量。

附图说明

图1为本发明实施例1中的韵律预测方法流程图；

图2为韵律预测模型的训练流程图；

图3为综合语言学特征的提取流程图；

图4为本发明实施例2中的韵律预测装置的结构示意图；

图5为韵律预测模型的训练装置的结构示意图

图6为综合语言学特征提取装置的结构示意图。

具体实施方式

本发明提供了一种韵律预测方法及装置，通过充分利用分词和标点符号的信息，通过分层建模的方式构建韵律预测模型，从而在采用该预测模型对待处理文本进行韵律预测时，能够获得更准确的韵律预测标记，可以明显提升韵律预测准确率，从而提升语音合成系统前端的性能，进而提升语音合成质量。

下面，将参考附图和实施例对本发明的方案作进一步的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

实施例1：

本实施例为本发明韵律预测方法的实施例，如图1所示，其包括以下步骤：

步骤S11，提取待处理文本的综合语言学特征：

所述综合语言学特征由从规则化文本中提取的多个语言学特征组合而成，通常包括第一语言学特征、分词条件语言学特征、词性条件语言学特征和标点条件语言学特征。这些特征具有相同的序列长度，即非标点字符的个数；因此，这些特征可以通过拼接的方式进行组合，得到综合语言学特征。

步骤S12，将待处理文本的综合语言学特征输入已训练的韵律预测模型，输出韵律标记信息：

所述韵律预测模型为已通过标记数据训练得到的机器学习算法模型，此模型在训练过程中建立了综合语言学特征到韵律标记信息的映射关系。模型接收待处理文本提取的综合语言学特征作为输入，输出韵律标记信息。韵律标记信息可以表示为此位置有无停顿的概率分布。

韵律预测模型由第一子模型、第二子模型和第三子模型构成，采用深度神经网络建模；第一子模型接收综合语言学特征作为输入，输出第一停顿级别的韵律标记信息；第二子模型接收综合语言学特征和第一子模型的输出的组合特征作为输入，输出第二停顿级别的韵律标记信息；第三子模型接收综合语言学特征和第二子模型的输出的组合特征作为输入，输出第三停顿级别的韵律标记信息；其中，组合特征的方式为特征拼接。

韵律预测模型的训练流程如图2所示，具体包括以下步骤：

步骤S21，获取韵律预测模型训练文本集：

训练文本集可以为一个文本文件，每行包含一段文字，每段文字通常为一句话，文本内容已进行规则化。

步骤S22，标定韵律预测模型训练文本集：

对训练文本集的每一行进行标定，根据标定人员正常发音这个句子的韵律节奏进行标定，标定分为三个级别，分别为第一停顿级别、第二停顿级别和第三停顿级别，三个级别的停顿时间由短到长，分别可以用#1，#2，#3表示。例如，“通常来说，韵律预测有助于语音合成。”可以标记为“通常#1来说#2韵律预测#1有助于#1语音合成#3”，标记需要有一致性。

步骤S23，训练韵律预测模型：

从训练文本集原始语句提取综合语言学特征，从训练文本集标注语句中提取第一停顿级别、第二停顿级别、第三停顿级别信息，分别作为机器学习模型的输入和输出，训练模型。

第一停顿级别、第二停顿级别、第三停顿级别信息可以用包含0和1的序列表示，0表示此字符位置没有停顿标记，1表示有停顿标记。且第三停顿级别包含第二停顿级别和第一停顿级别，第二停顿级别包含第一停顿级别。例如“通常#1来说#2韵律预测#1有助于#1语音合成#3”提取的第一停顿级别、第二停顿级别、第三停顿级别信息分别为“0 1 0 1 0 0 01 0 0 1 0 0 0 1”，“0 0 0 1 0 0 0 0 0 0 0 0 0 0 1”，“0 0 0 0 0 0 0 0 0 0 0 0 0 01”。

在利用训练出来的韵律预测模型对待处理文本进行韵律预测时，首先需要对待处理文本的综合语言学特征进行提取，提取的流程如图3所示，其包括：

步骤S31：对规则化文本中的每个非标点字符进行向量化，得到第一语言学特征：

文本字符串的读法有些时候并不是按其发音顺序书写的，例如数字、货币符号等。规则化就是把文本以发音顺序进行转写，使其与发音顺序一致。例如，“蔬菜10￥一斤”转写为“蔬菜十元一斤”，“中国队3:0战胜日本队”转写为“中国队三比零战胜日本队”，“7x24小时服务”转写为“七乘二十四小时服务”。

步骤S32：对规则化文本进行分词，获取分词边界，根据每个非标点字符是否紧接着一个分词边界进行向量化，得到分词条件语言学特征：

对规则化文本进行分词，如“通常来说，韵律预测有助于语音合成。”，通过分词可以得到“通常/d来说/u韵律/n预测/vn有助于/v语音/n合成/v”。

根据每个字后面是否紧接着分词符号进行标记，如果有分词符号，标记为b，反之，标记为n，可以获得序列“n b n b n b n b n n b n b n b”，对其每个字符进行One-Hot编码或者Embedding编码，即得到分词条件语言学特征。

步骤S33：对规则化文本进行分词，获取分词边界和分词词性，根据每个非标点字符是否紧接着一个分词边界以及分词词性进行向量化，得到词性条件语言学特征：

根据每个字后面是否紧接着分词符号进行标记，如果有分词符号，标记为分词符号，反之，标记为N，可以获得序列“N d N u N n N v N N v N n N v”，对其每个字符进行One-Hot编码或者Embedding编码，即得到词性条件语言学特征。其中d,u,n,v为词性标记。

步骤S34：对规则化文本进行标点符号提取，根据每个非标点字符是否紧接着一个标点符号以及标点符号类型进行向量化，得到标点条件语言学特征：

根据规则化文本的每个字后面是否紧接着标点符号及其类型进行标记，如果有标点符号，标记为标点符号，反之，标记为N，可以获得序列“n n n，n n n n n n n n n n。”，对其每个字符进行One-Hot编码或者Embedding编码，即得到标点条件语言学特征。

步骤S35：组合分词条件语言特征、词性语言学特征和标点条件语言学特征得到条件语言学特征，组合第一语言学特征和条件语言学特征，得到综合语言学特征：

分词条件语言学特征、词性条件语言学特征和标点条件语言学特征具有相同的序列长度，每个字符的多个特征可以进行拼接，条件语言学特征序列。同理，第一语言学特征与条件语言学特征也有相同的序列长度，每个字符的第一语言学特征与条件语言学特征也可以进行拼接，得到综合语言学特征。

本实施例提供的综合语言学特征提取方法，在规则化文本的基础上，充分利用分词结果、分词词性和标点符号信息，充分提取待处理文本的语言学特征，能有效提升韵律预测的准确率，进而提升合成语音的韵律感和语音质量。

实施例2：

本实施例为本发明韵律预测装置的实施例，如图4所示，其包括：

提取模块S41，用于提取待处理文本的综合语言学特征；

所述综合语言学特征由从规则化文本中提取的多个语言学特征组合而成，通常包括第一语言学特征、分词条件语言学特征、词性条件语言学特征和标点条件语言学特征。这些特征具有相同的序列长度，即非标点字符的个数，因此，这些特征可以通过拼接的方式进行组合，得到综合语言学特征。

预测模块S42，用于将待处理文本的综合语言学特征输入已训练的韵律预测模型，输出韵律标记信息。

所述韵律预测模型为已通过标记数据训练得到的机器学习算法模型，此模型在训练过程中建立了综合语言学特征到韵律标记信息的映射关系。模型接收待处理文本提取的综合语言学特征作为输入，输出韵律标记信息。所述韵律标记信息可以表示为此位置有无停顿的概率分布。

韵律预测模型由第一子模型、第二子模型和第三子模型构成，采用深度神经网络建模；第一子模型接收综合语言学特征作为输入，输出第一停顿级别的韵律标记信息；第二子模型接收综合语言学特征和第一子模型的输出的组合特征作为输入，输出第二停顿界别的韵律标记信息；第三子模型接收综合语言学特征和第二子模型的输出的组合特征作为输入，输出第三停顿界别的韵律标记信息。其中，组合特征的方式为特征拼接。

韵律预测模型的训练装置如图5所示，其包括以下模块：

获取模块S51，用于获取韵律预测模型训练文本集。

标定模块S52，用于标定韵律预测模型训练文本集。

训练模块S53，用于训练韵律预测模型。

综合语言学特征提取装置的结构如图6所示，包括以下模块：

第一语言学特征模块S61：用于对规则化文本中的每个非标点字符进行向量化，得到第一语言学特征；

分词条件语言学特征模块S62：对规则化文本进行分词，获取分词边界，根据每个非标点字符是否紧接着一个分词边界进行向量化，得到分词条件语言学特征；

词性条件语言学特征模块S63：用于对规则化文本进行分词，获取分词边界和分词词性，根据每个非标点字符是否紧接着一个分词边界以及分词词性进行向量化，得到词性条件语言学特征；

标点条件语言学特征模块S64：用于对规则化文本进行标点符号提取，根据每个非标点字符是否紧接着一个标点符号以及标点符号类型进行向量化，得到标点条件语言学特征；

组合模块S65：用于组合分词条件语言特征、词性语言学特征和标点条件语言学特征得到条件语言学特征，组合第一语言学特征和条件语言学特征，得到综合语言学特征。

本实施例提供的韵律预测装置，在规则化文本的基础上，充分利用分词结果、分词词性和标点符号信息，充分提取待处理文本的语言学特征，能有效提升韵律预测的准确率，进而提升合成语音的韵律感和语音质量。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，可包括如上各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种韵律预测方法，其特征在于，包括：

提取待处理文本的综合语言学特征；

2.如权利要求1所述的一种韵律预测方法，其特征在于，

所述提取待处理文本的综合语言学特征包括：

对所述待处理文本进行规则化处理，得到规则化文本；

3.如权利要求2所述的一种韵律预测方法，其特征在于，

对所述待处理文本进行规则化处理，得到规则化文本包括：

4.如权利要求2所述的一种韵律预测方法，其特征在于，

所述对规则化文本提取第一语言学特征及条件语言学特征，组合第一语言学特征及条件语言学特征，得到综合语言学特征包括：

5.如权利要求1所述的一种韵律预测方法，其特征在于，

所述将提取的综合语言学特征输入已训练的韵律预测模型中，输出韵律标记信息之前，还包括：

获取韵律预测模型训练文本集；

对韵律预测模型训练文本集进行标注；

基于标注后的韵律预测模型训练文本集训练韵律预测模型。

6.如权利要求5所述的一种韵律预测方法，其特征在于，

所述对韵律预测模型训练文本集进行标注包括：

7.如权利要求6所述的一种韵律预测方法，其特征在于，

所述基于标注后的韵律预测模型训练文本集训练韵律预测模型包括：

8.一种韵律预测装置，其特征在于，包括：

提取模块，用于提取待处理文本的综合语言学特征；

9.如权利要求8所述的一种韵律预测装置，其特征在于，

所述提取模块具体包括：

10.如权利要求9所述的一种韵律预测装置，其特征在于，

所述规则化模块具体用于：

11.如权利要求9所述的一种韵律预测装置，其特征在于，

所述综合语言学特征提取模块具体包括：

12.如权利要求8所述的一种韵律预测装置，其特征在于，

所述预测模块包括：

获取模块，用于获取韵律预测模型训练文本集；

标定模块，用于对韵律预测模型训练文本集进行标注；

13.如权利要求12所述的一种韵律预测装置，其特征在于，

所述标定模块具体用于：

14.如权利要求13所述的一种韵律预测装置，其特征在于，

训练模块具体包括：