CN112216267A

CN112216267A - 一种韵律预测的方法、装置、设备及存储介质

Info

Publication number: CN112216267A
Application number: CN202010970974.8A
Authority: CN
Inventors: 吴帅; 李健; 武卫东; 陈明
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2021-01-12

Abstract

本申请提供了一种韵律预测的方法、装置、设备及存储介质，涉及自然语言理解技术领域。从文本语义和文本标点两方面分析文本语义，再综合文本语义和文本标点对文本语义的影响，预测该文本的韵律信息，保证在文本本身出现歧义的情况下，能够准确地预测文本的韵律信息。所述方法包括：获得待合成文本的语义向量；对所述待合成文本的每个停顿标记进行向量转换，得到所述待合成文本的标记向量；合并所述语义向量和所述标记向量，得到第一特征向量；将所述第一特征向量输入预设的韵律预测模型，得到所述待合成文本的韵律信息。

Description

一种韵律预测的方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，特别是涉及一种韵律预测的方法、装置、设备及存储介质。

背景技术

自然语言处理是指用计算机理解、处理以及运用人类语言(如中文、英文)等，它属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。语音合成，又称(text to speech)是指利用自然语言处理将文字转换为能够合成语音的模拟信号的技术。

语音合成包括文本分析、文本规范化、语音分析、韵律分析等流程。现有技术下，由于韵律预测模型预测发音的韵律的依据较为模糊，导致预测的韵律信息不能准确地反应文本真实表达的意思。

发明内容

本申请实施例提供一种韵律预测的方法、装置、设备及存储介质，从文本语义和文本标点两方面分析文本语义，再综合文本语义和文本标点对文本语义的影响，预测该文本的韵律信息，保证在文本本身出现歧义的情况下，能够准确地预测文本的韵律信息。

本申请实施例第一方面提供一种韵律预测的方法，所述方法包括：

获得待合成文本的语义向量；

对所述待合成文本的每个停顿标记进行向量转换，得到所述待合成文本的标记向量；

合并所述语义向量和所述标记向量，得到第一特征向量；

将所述第一特征向量输入预设的韵律预测模型，得到所述待合成文本的韵律信息。

可选地，所述语义向量包括字向量和词向量；获得待合成文本的语义向量，包括：

清除所述待合成文本的标点；

对清除标点后的待合成文本的每个文字进行向量转换，得到所述字向量；

对清除标点后的待合成文本进行分词，得到多个词语；

根据每个词语的组成文字，对所述多个词语进行向量转换，得到所述词向量。

可选地，所述方法还包括：

获得具有正确标点的文本样本；

利用第一占位标记替换所述文本样本中的文字，得到停顿标记样本；

对所述停顿标记样本进行向量转换，得到标记样本向量；

对所述文本样本进行韵律标注，得到韵律标记；

清除所述文本样本中的标点，得到文字样本；

对所述文字样本进行向量转换，得到语义向量样本；

将所述语义向量样本输入第一预设模型，得到中间向量；

将所述中间向量和所述标记样本向量输入第二预设模型，得到预测韵律信息；

根据所述预测韵律信息和所述韵律标记的损失函数的取值，对所述第一预设模型和所述第二预设模型分别进行修正；

将修正后的所述第一预设模型和修正后的所述第二预设模型结合，得到所述预设的韵律预测模型。

可选地，所述方法还包括：

删除或替换所述文本样本中的部分标点，得到所述文本样本的对照样本；

利用第二占位标记替换所述对照样本中的文字，得到对照停顿标记样本；

对所述对照停顿标记样本进行向量转换，得到对照标记样本向量；

分别将所述标记样本向量和所述对照标记样本向量，与所述语义向量样本合并，得到第二特征向量和第三特征向量；

将所述语义向量样本输入第一预设模型，得到中间向量，包括：

分别将所述第二特征向量和所述第三特征向量输入所述第一预设模型，得到对应所述第二特征向量的第一中间向量和对应所述第三特征向量的第二中间向量。

可选地，将所述中间向量和所述标记样本向量输入第二预设模型，得到预测韵律信息，包括：

所述中间向量和所述标记样本向量按照各自在所述第二预设模型的权重参数，参与所述第二预设模型的计算，得到所述预测韵律信息；

在得到预测韵律信息后，所述方法还包括：

将所述预测韵律信息输入韵律条件随机场模型，得到调整后的预测韵律信息；

根据所述预测韵律信息和所述韵律标记的损失函数的取值，对所述第一预设模型和所述第二预设模型分别进行修正，包括：

根据所述调整后的预测韵律信息和所述韵律标记的损失函数的取值，调整所述第一预设模型的参数；

根据所述调整后的预测韵律信息和所述韵律标记的损失函数的取值，调整所述权重参数。

本申请实施例第二方面提供一种韵律预测的装置，所述装置包括：

语义向量获得模块，用于获得待合成文本的语义向量；

第一标记向量转换模块，用于对所述待合成文本的每个停顿标记进行向量转换，得到所述待合成文本的标记向量；

第一合并模块，用于合并所述语义向量和所述标记向量，得到第一特征向量；

第一韵律预测模块，用于将所述第一特征向量输入预设的韵律预测模型，得到所述待合成文本的韵律信息。

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

本申请实施例在使用预设的韵律预测模型对待合成文本进行韵律标记之前，先分别获得待合成文本的语义向量和标记向量，语义向量专注待合成文本文字表达的语义，标记向量专注待合成文本文字的停顿意义。再将由语义向量和标记向量合并得到的第一特征向量输入预设的韵律预测模型，以使预设的韵律预测模型能够区分文字对语义的影响和标点对文字的影响，又能根据语义特征预测韵律信息，又能结合标点特征对待合成文本停顿的影响，优化预测的停顿信息，保证预设的韵律预测模型对待合成文本标记的韵律标记，能够使最终合成的语音准确地表达出该待合成文本准确的语义。

本申请将文本的语义特征，即文字特征和词语特征作为影响文本韵律的主要特征，先以文字特征和词语特征，或者对文字特征和词语特征叠加标点特征训练第一预设模型，使第一预设模型学习具有分析文本语义，基于文本语义初步预测文本韵律信息的功能，最大化保留语义对韵律的影响。再利用文本的标点特征调整第二预设模型的注意力机制，根据标点在文本中的停顿意义调整根据语义初步预测的韵律信息，保证在文本语义出现歧义时，利用标点特征选择表达正确的语义的韵律，以保证韵律预测的准确性

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提出的韵律预测的步骤流程图；

图2是本申请实施例训练韵律预测模型的步骤流程图；

图3是本申请实施例训练韵律预测模型的流程图；

图4是本申请另一个实施例训练韵律预测模型的流程图；

图5是本申请实施例的韵律预测模型的结构示意图；

图6是本申请实施例提出的韵律预测的装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

韵律指的是：在语音合成得到的音频中，表示人声的音轨的停顿、连续等特征。即，语音合成得到的音频中语音的抑扬顿挫。通过语音合成技术得到的语音需要能够正确还原文本合理的韵律结构，才能使得播报的语音听起来自然，能够接近真人说话。

语音合成技术中，先对文本进行韵律预测，根据韵律预测的结果，对文本打上韵律标记，在生成表示人声的语音波形的过程中，按照韵律标记，对应生成调整语音波形的密度、间隔等，使人声的音轨具备停顿、连续等特征，进而使声码器合成的人声更加自然。因此，对文本的韵律预测是否准确是语音合成得到的语音是否真实的关键之一，即对文本进行韵律标记的准确性决定语音合成得到的音频是否自然。

自然人在说话时，根据句子的意思对句子进行断句，以长短不同的间隔时长，读出句子。没有韵律标记或者韵律标记不准确的语音合成中，机器根据语音波形通过声码器合成的语音每个字都间隔相同，为了更贴近自然人说话，韵律标记分析句子的语音，对句子进行韵律标记，使机器根据语音波形通过声码器合成的语音中的每个文字之间也具有长短不同的间隔。因此，韵律预测也是语义理解的技术。

现有技术下，一般直接对原始文本进行韵律预测，即直接将原始文本输入与韵律预测相关的模型。显然地，上述韵律预测过程中忽视了原始文本可能带有正确的标点、也可能没有标点，还可能缺少标点，甚至有可能有错误的标点的情况，即忽略了标点对语音韵律的影响。换言之，现有技术下，对文本语义的理解只考虑了文字的影响。例如，“妻子好，不悲伤！”、“妻子好不悲伤！”和“妻子？好，不悲伤。”三个文本中文字相同，但是标点不同，导致文本表达的意思不同，如果忽略标点的不同，直接以文字为依据预测文本韵律缺乏准确性。

并且与韵律预测相关的模型是利用未区分标点的样本数据训练得到的，因此对于原始文本中的各种标点，与韵律预测相关的模型并不能有针对性地进行分析和计算，导致现有的与韵律预测相关的模型预测发音的韵律的依据模糊，即将文本中的标点和文字作为同一输入，影响韵律预测时对语义的理解。在训练与韵律预测相关的模型前，提前生成或准备各种各样不带标点，漏标点，错标点的文本数据十分繁琐。

鉴于上述问题，本申请提出一种韵律预测的方法，根据文本语义对文本韵律进行预测，利用文本标点优化调整预测的韵律信息，能够在语义歧义时，通过标点信息，预测得到准确的语义，进而保证文本标注的韵律标记的准确性。

图1是本申请实施例提出的韵律预测的步骤流程图，如图1所示：

步骤S101：获得待合成文本的语义向量；

待合成文本是需要转换为语音的文本。例如：在智能设备的读书软件中，根据用户指令确定的书籍的当前页面就是待合成文本。

韵律标记作为语音合成的前端步骤，待合成文本也可以看作需要进行韵律标记的文本。语义向量包括字向量和词向量。

获得待合成文本的语义向量具体通过以下方法执行：步骤S101-1：清除所述待合成文本的标点；假设待合成文本是：[这些都是后人行为，与莎士比亚本人无关，因此是不足为凭的。]，清除标点后的待合成文本是：[这些都是后人行为与莎士比亚本人无关因此标点是不足为凭的]。

步骤S101-2：对清除标点后的待合成文本的每个文字进行向量转换，得到所述字向量。

本申请实施例中可以采用嵌入机制得到字向量。先根据字典随机初始化字嵌入矩阵W_c，再利用字嵌入矩阵生成字向量。其中，字典是预先收集的语料库，例如，可以将新华字典中的每个文字转换为向量，得到包含新华字典的所有字对应的向量的语料库。

根据字典随机初始化字嵌入矩阵W_c可以采用以下方式进行：构建神经网络，将字典，即语料库输入神经网络，提取经过多次训练的神经网络的隐藏层的参数矩阵，以提取得到的参数矩阵作为嵌入矩阵W_c。

利用字嵌入矩阵生成字向量可以采用以下方式进行：将待合成文本的每个组成文字转换为onehot向量，依次将每个字的onehot向量与嵌入矩阵W_c相乘，得到待合成文本的字向量。

以V_c表示每个字的向量，V_c＝onehot*W_c。

假设清除标点后的待合成文本是：[我是中国人。]，那么待合成文本的字向量为：[V_c(我)，V_c(是)，V_c(中)，V_c(国)，V_c(人)]。

步骤S101-3：对清除标点后的待合成文本进行分词，得到多个词语；

本申请实施例中，可以利用预先训练完成的分词模型，根据每个字的意思，以及每个字与其临近的字组合后的意思和词性，将文本分为多个词语。词性指的是词语是动词、名词或者谓词。

例如，对清除标点后的待合成文本[这些都是后人行为与莎士比亚本人无关因此标点是不足为凭的]行分词，得到的分词结果是：[这些’，‘都是’，‘后人’，‘行为’，‘与’，‘莎士比亚’，‘本人’，‘无关’，‘因此’，‘标点’，‘是’，‘不足为凭’，‘的’]

步骤S101-4：根据每个词语的组成文字，对所述多个词语进行向量转换，得到所述词向量。

与得到字向量的方法类似，在采用嵌入机制得到词向量之前，先从海量的词库中获得相关词语，将收集的每个词转换为词向量，组成词典；利用词典训练预先构建的神经网络，得到词嵌入矩阵；再将分词得到的每个词语转换为onehot向量，依次将每个词的onehot向量与嵌入矩阵W_w相乘，得到待合成文本的词向量。

在与嵌入矩阵W_w相乘之前，会确定当前词语的字数，按照字数得到重复次数，将当前词语的onehot向量与词嵌入矩阵W_w进行重复次数次计算。

以V_w表示每个词的向量，V_w＝onehot*W_w。

假设清除标点后的待合成文本是：[我是中国人。]那么待合成文本的词向量为：[V_w(我)，V_w(是)，V_w(中国人)，V_w(中国人)，V_w(中国人)]

词语与字对句子意思的影响是不同的，本申请实施例在清除待合成文本的标点后，根据清除标点后的待合成文本，分别生成了字向量和词向量，字向量和词向量组成的语义向量兼顾了词语在词义和词性两方面对文本语义的影响，以及文字对语义的影响，使得预设的韵律预测模型能够从词语和文字两个维度提取文本的语义特征，从语义方面准确地预测出文本韵律信息。

步骤S102：对所述待合成文本的每个停顿标记进行向量转换，得到所述待合成文本的标记向量；

在对停顿标记进行向量转换之前，本申请实施例会对待合成文本清除文字，再在清除文字前文字所在位置打标记，得到停顿标记文本。标记可以是占位标记，例如“□”。

停顿标记指的是占位标记和标点。

假设待合成文本是[些都是后人行为，与莎士比亚本人无关，因此是不足为凭的。]。清除文字，并在清除文字的位置替换为占位标记后，得到的停顿标记文本是[□□□□□□□，□□□□□□□，□□□□□□□□□。]。

标记向量是指标识停顿标记，即标识占位标记和标点的向量。

与得到字向量的方法类似，采用嵌入机制得到标记向量。首先收集停顿标记，示例地“□”“，”“。”“，。”“，””“！”“、”都可以是收集的停顿标记；将收集的每个停顿标记转换为标记向量，组成标记词典；利用标记词典训练构建的神经网络，得到标记嵌入矩阵；再将每个停顿标记转换为onehot向量，依次将每个停顿标记的onehot向量与标记嵌入矩阵W_p相乘，得到待合成文本的标记向量。

以V_p表示每个标记的向量，V_p＝onehot*W_p。

假设清除标点后的待合成文本是：[我是中国人。]，那么待合成文本的标记向量为：[V_p(□)，V_p(□)，V_p(□)，V_p(□)，V_p(，)]。

步骤S103：合并所述语义向量和所述标记向量，得到第一特征向量；

合并语义向量和标记向量，可以将语义向量中的每个向量与标记向量中的每个向量对应拼接，形成向量矩阵。以可以采用其他合并向量的方式，本申请实施例对此不作限定。

以V_f表示特征向量，Vf＝(V_c,V_w,V_p)。

第一特征向量是指，应用预设的韵律预测模型预测待合成文本的韵律信息的过程中，合并待合成文本的语义向量和标记向量得到的特征向量。

步骤S104：将所述第一特征向量输入预设的韵律预测模型，得到所述待合成文本的韵律信息。

本申请实施例在使用预设的韵律预测模型对待合成文本进行韵律标记之前，先分别获得待合成文本的语义向量和标记向量，语义向量专注待合成文本文字表达的语义，标记向量专注待合成文本文字的停顿意义。再将由语义向量和标记向量合并得到的第一特征向量输入预设的韵律预测模型，以使预设的韵律预测模能够区分文字对语义的影响和标点对文字的影响，又能根据语义特征预测韵律信息，又能结合标点特征对待合成文本停顿的影响，优化预测的停顿信息，保证预设的韵律预测模型对待合成文本标记的韵律标记，能够使最终合成的语音准确地表达出该待合成文本准确的语义。

图2是本申请实施例训练韵律预测模型的步骤流程图。图3是本申请实施例训练韵律预测模型的流程图。如图2和图3所示，在本申请另一个实施例提出了训练预设的韵律预测模型的方法。

步骤S201：获得具有正确标点的文本样本；

具体可以从语音合成模型的训练数据库获取文本样本，也可以从网络或者云存储中心收集文本样本。再批量检测文本样本的标点，获得具有正确样本的文本样本。

在一种示例中，获得的文本样本包括a-d四个具有正确标点的文本：

a：我是中国人#5。

b：这些都是后人行为，与莎士比亚本人无关，因此标点是不足为凭的。

c：夜已深了，明月当空，繁星点点，晚风吹拂着人的面颊#4，感到阵阵清凉。

d：很多男人都是常例,而我是“例外”。

步骤S202：利用第一占位标记替换所述文本样本中的文字，得到停顿标记样本；

第一占位标记是指在以标点正确文本样本训练韵律预测模型的过程中，使用的占位标记。与应用韵律预测模型标记待合成文本的步骤中，得到待合成文本的停顿标记的方法相似，利用第一占位标记替换文本样本中的文字，首先清除文本样本中的文字，再在清除文字所在的位置打标记，即以占位标记替换文字，得到停顿标记样本。

上述a-d四个具有正确标点的文本对应的停顿标记样本如下：

a：□□□□。

b：□□□□□□□，□□□□□□□，□□□□□□□□□。

c：□□□□□□□，□□□，□□□□□□□□，□□□□□。

d：□□□□□□□,□□“□”。

步骤S203：对所述停顿标记样本进行向量转换，得到标记样本向量；

训练韵律预测模型的过程中，对停顿标记样本进行向量转换的方法，可以参照应用韵律预测模型预测待合成文本的韵律信息的过程中，获得待合成文本的标记向量的方法，本申请实施例对此不再多作赘述。

步骤S204：对所述文本样本进行韵律标注，得到韵律标记；

本申请实施例采用人工标注的方式，对文本样本进行韵律标注，得到文本准确的韵律标记。韵律标注的实质是根据词性、音素、词语级的停顿信息，对文本样本进行词语分类的过程。在进行词语分类之前，先设置词语的类别，本申请实施例中，设置的词语类别有：#1-语法词、#2-韵律词、#3-韵律短语、#4-语调短语、#5-句子的区分边界。

语法词是指能够表示独立语义的字或词语。无论是单个字，还是多个字的组合，都可以作为语法词。例如“我”和“中国人”两个词都能表达独立的意思，“我”和“中国人”都可以作为语法词。

韵律词是指能够表示短语的完整意思表达完毕的词语。以短语“明月当空”说明：明月当空表达的完整意思是明月在空中，当机器或者神经网络识别到“明月”时，并不能确定“明月在空中”的意思是否表达完毕，只有当识别到“当空”时，才能确定“明月在空中”的意思表达完毕。

韵律短语是指能够表示独立语义的短语。对于韵律短语，特别是韵律短语结束后，都会作长短不一的停顿，以突出体现韵律短语表达的意义。例如：“明月当空”、“莎士比亚”、“繁星点点”都可以是韵律短语。通常情况下，韵律短语和韵律词会同时出现。

语调短语是指能够表示语调变化的词语。语调是指发音声调的升降变化。通常语调的变化伴随情感或语义的突然转变。因此，语调短语实质是指与其所在句子的其他词语的词义或词性不同的词语，或者能够表示转折的词语，

句子的区别边界是指标位置在点之前的词语。

对上述a-d四个具有正确标点的文本样本进行韵律标注后，得到的具有韵律标记的文本样本如下：

a：我#1是#1中国人#5。

b：这些#1都是#1后人#1行为#4，与#1莎士比亚#3本人#1无关，#4因此#1标点#1是#1不足为凭#1的#5。

c：夜#1已#1深了#4，明月#1当空#23，繁星#1点点#2，晚风#1吹拂#1着人#2的#1面颊#4，感到#1阵阵#1清凉#5。

d：很多#1男人#2都是#1常例#4,而我#1是#1“例外#5”。

得到具有韵律标注的文本样本后，进一步提取对应文本样本中每个字或词语的韵律标注，得到韵律标记。

根据上述a-d四个具有正确标点的文本样本得到的韵律标记如下：

a：1 1 0 0 5

b：0 1 0 1 0 1 0 4 1 0 0 0 3 0 1 0 4 0 1 0 1 1 0 0 0 1 5

c：1 1 0 4 0 1 0 2 0 1 0 2 0 1 0 1 0 2 1 0 4 0 1 0 1 0 5

d：0 1 0 2 0 1 0 4 0 1 1 0 5

步骤S205：清除所述文本样本中的标点，得到文字样本；

对上述a-d四个具有正确标点的文本样本清除标点后，得到的文本样本如下：

a：我是中国人

b：这些都是后人行为与莎士比亚本人无关因此标点是不足为凭的c：夜已深了明月当空繁星点点晚风吹拂着人的面颊感到阵阵清凉

d：很多男人都是常例而我是例外

步骤S206：对所述文字样本进行向量转换，得到语义向量样本；

在训练韵律预测模型的过程中，对文字样本进行向量转换，得到语义向量样本的方法，可以参照应用预设的韵律预测模型预测待合成文本的韵律信息的过程中，获得待合成文本的语义向量的方法。具体包括：根据字典或词典得到各自对应嵌入矩阵，将onehot向量与嵌入矩阵相乘等步骤，本申请实施例对此不多作赘述。

步骤S207：将所述语义向量样本输入第一预设模型，得到中间向量；

第一预设模型是用双向循环类网络(例如两个循环网络RNN叠加在一起形成的BRNN)和卷积类网络(例如CNN、DCNN)搭建的神经网络模型。当然，除双向循环类网络和卷积类网络外，第一预设模型也可以包括其他网络模型，例如前向反馈网络FFNN。

图4是本申请另一个实施例训练韵律预测模型的流程图。如图4所示，在将语义向量样本输入第一预设模型前，还可以对语义向量样本拼接标记样本向量，即拼接语义向量样本和标记样本向量得到相关的特征量，再将与语义样本和停顿标记样本有关特征向量输入双向循环类网络，经过双向循环类网络和卷积类网络的计算，输出中间向量。

在本申请的一种示例中，可以将文本样本中标点清除，对清除标点后的文本样本的每个文字进行向量转换，得到字向量样本，对清除标点后的文本样本进行分词，再将分词得到的每个词语进行向量转换，得到词向量样本，合并字向量样本、词向量样本和标记样本向量，得到特征向量样本。

双向循环类网络包括但不限于brnn(双向循环网络)，blstm(双向长短期记忆法),bgru(双向记忆门循环)等模型，卷积网络类模型包括但是不限于CNN(卷积网络)，gatedCNN(门卷积网络),IDCNN(膨胀卷积网络)等模型。向循环类网络和卷积类网络网络中叠加的导数不限。

步骤S208：将所述中间向量和所述标记样本向量输入第二预设模型，得到预测韵律信息；

预测韵律信息是第二预设模型在第一预设模型输出的中间向量的基础上，继续优化第一预设模型的输出结果后，输出的表示词语类别的数字序列。在本申请实施例中设置的词语类别有：#1-语法词、#2-韵律词、#3-韵律短语、#4-语调短语、#5-句子的区分边界，那么输出的预测韵律信息是#1-#5之间的任意数字的组合。

假设当前次训练的文本样本是：[我是中国人。]，那么第二预设模型输出的预测韵律信息可以是【1 1 0 0 5】。

第二预测模型包括：注意力机制层、条件随机场模型层和裁剪函数层。注意力机制层对输入的标记样本向量添加注意力权重，通过调整权重调节标点对韵律预测的影响比例。

本申请的一种具体示例中，提出了注意力机制层的计算方法。

第二预设模型的权重参数是用表示文本语义对文本韵律预测影响比例的参数。假设，将标记样本向量V_p的权重参数设置为λ₁,那么根据字向量V_c和词向量V_w得到的中间向量的权重参数是1-λ₁。

将所述预测韵律信息输入韵律条件随机场模型，得到调整后的预测韵律信息；条件随机场模型层通过条件随机场(Conditional Random Fields)提高韵律预测的准确性。裁剪函数层通过剪裁函数将第二预测模型对韵律预测的输出结果限制在0.5到5.5之间。在0.5到5.5范围内的输出结果与预先设置的词语类别契合。

步骤S209：根据所述预测韵律信息和所述韵律标记的损失函数的取值，对所述第一预设模型和所述第二预设模型分别进行修正；

预测韵律信息和韵律标记的损失函数g(x)可以表示为：

p是预测韵律信息的取值，t是韵律标记的取值，N为文本的字数，i的取值范围是1-N。以文本[我是中国人。]为例，假设还未训练完成的第二预设模型输出的预测韵律信息是【1 1 0 0 4】，韵律标记是【1 1 0 05】，当i取1时，p_i＝1，t_i＝1，当i取5时，p_i＝4，t_i＝5。

根据损失函数的损失值，采用反向传播训练训练方法，对第一预设模型和第二预设模型进行参数调整。对第一预设模型和第二预设模型进行参数调整涉及的参数可以包括：神经网络的相关参数，例如函数、梯度等；以及第二预设模型的权重参数。

根据所述调整后的预测韵律信息和所述韵律标记的损失函数的取值，调整所述第一预设模型的参数；根据所述调整后的预测韵律信息和所述韵律标记的损失函数的取值，调整所述权重参数。

通过调整的权重参数λ₁调整标点在韵律预测中所占百分比，保证语义优先，即保证基于语义得到的中间向量在韵律预测所占百分比位于最优值，进而保证在语义优先的情况下，以文本标点调整具有语义歧义的文本的预测韵律信息。

将标记样本向量V_p的权重参数设置为λ₁,根据字向量V_c和词向量V_w得到的中间向量的权重参数是1-λ₁。

步骤S210：将修正后的所述第一预设模型和修正后的所述第二预设模型结合，得到所述预设的韵律预测模型。

图5是本申请实施例的韵律预测模型的结构示意图。如图5所示，韵律预测模型包括至少一层双向循环类网络、至少一层卷积类网络、注意力机制层、条件随机场模型层、剪裁函数层。

由于最终的韵律预测模型包括第一预设模型和第二预设模型，并且将第一预设模型的输出与标记向量样本共同输入第二预设模型，因为第一预设模型的输出视为韵律预测模型的中间向量。

本申请将文本的语义特征，即文字特征和词语特征作为影响文本韵律的主要特征，先以文字特征和词语特征，或者对文字特征和词语特征叠加标点特征训练第一预设模型，使第一预设模型学习具有分析文本语义，基于文本语义初步预测文本韵律信息的功能，最大化保留语义对韵律的影响。再利用文本的标点特征调整第二预设模型的注意力机制，根据标点在文本中的停顿意义调整根据语义初步预测的韵律信息，保证在文本语义出现歧义时，利用标点特征选择表达正确的语义的韵律，以保证韵律预测的准确性。

在本申请的另一个实施例中，采用对训练数据随机处理的方法，即随机替换文本样本中的标点，利用替换或删除了部分标点的文本样本优化训练韵律预测模型，使训练好的韵律预测模型在接收到标点错误的文本时，仍然能够准确预测该文本的韵律。

假设文本样本是：夜已深了，明月当空，繁星点点，晚风吹拂着人的面颊，感到阵阵清凉。

替换部分标点后的对照样本是：夜已深了；明月当空，繁星点点，晚风吹拂着人的面颊，感到阵阵清凉。

第二占位标记是指在以删除了部分标点，或以错位标点替换了部分正确标点的文本样本训练韵律预测模型的过程中，使用的占位标记。

利用第二占位标记替换对照样本中的文字，得到对照停顿标记样本的方法，与利用第一占位标记替换文本样本中的文字，得到停顿标记样本的方法类似，本申请实施例对此不多做赘述。

对对照停顿标记样本进行向量转换的方法，可以参照应用韵律预测模型预测待合成文本的韵律信息的过程中，获得待合成文本的标记向量的方法，本申请实施例对此不再多作赘述。

继续以文本样本是：夜已深了，明月当空，繁星点点，晚风吹拂着人的面颊，感到阵阵清凉。为例，在分别将标记样本向量和对照标记样本向量，与语义向量样本合并，得到的第二特征向量是标记样本向量与语义向量样本合并后的向量，第三特征向量是对照标记样本向量与语义向量样本合并后的向量。

可以根据第一中间向量和第二中间向量的相差程度，采用反向传播训练方法，调整第一预设模型的参数，也可以再将第一中间向量和第二中间向量分别输入第二预设模型，结合正确的标点特征训练第二预设模型，正确的标点特征指的是根据具有正确标点的文本样本得到的标记样本向量，利用分别基于第一中间向量和第二中间向量得到的预测韵律信息和韵律标记进行计算，得到关于预测韵律信息和韵律标记的损失函数的损失值。

与基于第二中间向量得到的预测韵律信息比对的韵律标记，和与基于第一中间向量得到的预测韵律信息比对的韵律标记相同，都是【1 1 0 4 0 1 0 2 0 1 0 2 0 1 0 1 02 1 0 4 0 1 0 1 0 5】。

基于同一发明构思，本申请实施例提供一种韵律预测的装置。图6是本申请实施例提出的韵律预测的装置的结构示意图。如图6所示，该装置包括：

语义向量获得模块601，用于获得待合成文本的语义向量；第一标记向量转换模块602，用于对所述待合成文本的每个停顿标记进行向量转换，得到所述待合成文本的标记向量；第一合并模块603，用于合并所述语义向量和所述标记向量，得到第一特征向量；第一韵律预测模块604，用于将所述第一特征向量输入预设的韵律预测模型，得到所述待合成文本的韵律信息。

可选的，所述语义向量获得模块包括：清除子模块，用于清除所述待合成文本的标点；字向量转换子模块，用于对清除标点后的待合成文本的每个文字进行向量转换，得到所述字向量；分词子模块，用于对所述清除标点后的待合成文本进行分词，得到多个词语；词向量转换子模块，用于根据每个词语的组成文字，对所述多个词语进行向量转换，得到所述词向量。

可选地，所述装置还包括：文本样本获得模块，用于获得具有正确标点的文本样本；第一替换模块，用于利用第一占位标记替换所述文本样本中的文字，得到停顿标记样本；第二标记向量转换模块，用于对所述文本样本进行韵律标注，得到韵律标记；标记韵律模块，用于根据所述文本样本的韵律信息，得到韵律标记；清除模块，用于清除所述文本样本中的标点，得到文字样本；语义向量转换模块，用于对所述文字样本进行向量转换，得到语义向量样本；中间向量获得模块，用于将所述语义向量样本输入第一预设模型，得到中间向量；第二韵律预测模块，用于将所述中间向量和所述标记样本向量输入第二预设模型，得到预测韵律信息；修正模块，用于根据所述预测韵律信息和所述韵律标记的损失函数的取值，对所述第一预设模型和所述第二预设模型分别进行修正；韵律预测模型获得模块，用于将修正后的所述第一预设模型和修正后的所述第二预设模型结合，得到所述预设的韵律预测模型。

可选地，所述装置还包括：删除模块，用于删除或替换所述文本样本中的部分标点，得到所述文本样本的对照样本；第二替换模块，用于利用第二占位标记替换所述对照样本中的文字，得到对照停顿标记样本；第三标记向量转换模块，用于对所述对照停顿标记样本进行向量转换，得到对照标记样本向量；第二合并模块，用于分别将所述标记样本向量和所述对照标记样本向量，与所述语义向量样本合并，得到第二特征向量和第三特征向量；所述中间向量获得模块包括：中间向量获得子模块，用于分别将所述第二特征向量和所述第三特征向量输入所述第一预设模型，得到对应所述第二特征向量的第一中间向量和对应所述第三特征向量的第二中间向量。

可选地，所述第二韵律预测模块包括：韵律预测子模块，用于使所述中间向量和所述标记样本向量按照各自在所述第二预设模型的权重参数，参与所述第二预设模型的计算，得到所述预测韵律信息；

所述装置还包括：调整模块，用于将所述预测韵律信息输入韵律条件随机场模型，得到调整后的预测韵律信息；所述修正模块包括：根据所述调整后的预测韵律信息和所述韵律标记的损失函数的取值，调整所述第一预设模型的参数；根据所述调整后的预测韵律信息和所述韵律标记的损失函数的取值，调整所述权重参数。

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的韵律预测的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的韵律预测的方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进或说明的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种韵律预测的方法、装置、设备及存储介质，进行了详细介绍，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种韵律预测的方法，其特征在于，所述方法包括：

获得待合成文本的语义向量；

合并所述语义向量和所述标记向量，得到第一特征向量；

2.根据权利要求1所述的方法，其特征在于，所述语义向量包括字向量和词向量；获得待合成文本的语义向量，包括：

清除所述待合成文本的标点；

对清除标点后的待合成文本进行分词，得到多个词语；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获得具有正确标点的文本样本；

对所述停顿标记样本进行向量转换，得到标记样本向量；

对所述文本样本进行韵律标注，得到韵律标记；

清除所述文本样本中的标点，得到文字样本；

对所述文字样本进行向量转换，得到语义向量样本；

将所述语义向量样本输入第一预设模型，得到中间向量；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，将所述中间向量和所述标记样本向量输入第二预设模型，得到预测韵律信息，包括：

在得到预测韵律信息后，所述方法还包括：

6.一种韵律预测的装置，其特征在于，所述装置包括：

语义向量获得模块，用于获得待合成文本的语义向量；

7.根据权利要求6所述的方法，其特征在于，所述语义向量获得模块包括：

清除子模块，用于清除所述待合成文本的标点；

字向量转换子模块，用于对清除标点后的待合成文本的每个文字进行向量转换，得到所述字向量；

分词子模块，用于对所述清除标点后的待合成文本进行分词，得到多个词语；

词向量转换子模块，用于根据每个词语的组成文字，对所述多个词语进行向量转换，得到所述词向量。

8.根据权利要求6所述的方法，其特征在于，所述装置还包括：

文本样本获得模块，用于获得具有正确标点的文本样本；

第一替换模块，用于利用第一占位标记替换所述文本样本中的文字，得到停顿标记样本；

第二标记向量转换模块，用于对所述文本样本进行韵律标注，得到韵律标记；

标记韵律模块，用于根据所述文本样本的韵律信息，得到韵律标记；

清除模块，用于清除所述文本样本中的标点，得到文字样本；

语义向量转换模块，用于对所述文字样本进行向量转换，得到语义向量样本；

中间向量获得模块，用于将所述语义向量样本输入第一预设模型，得到中间向量；

第二韵律预测模块，用于将所述中间向量和所述标记样本向量输入第二预设模型，得到预测韵律信息；

修正模块，用于根据所述预测韵律信息和所述韵律标记的损失函数的取值，对所述第一预设模型和所述第二预设模型分别进行修正；

韵律预测模型获得模块，用于将修正后的所述第一预设模型和修正后的所述第二预设模型结合，得到所述预设的韵律预测模型。

9.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一所述的方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-5任一所述的方法的步骤。