CN112349274A

CN112349274A - 一种训练韵律预测模型方法、装置、设备及存储介质

Info

Publication number: CN112349274A
Application number: CN202011054912.9A
Authority: CN
Inventors: 李睿端; 李健; 武卫东; 陈明
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-02-09
Anticipated expiration: 2040-09-28
Also published as: CN112349274B

Abstract

本申请提供了一种训练韵律预测模型方法、装置、设备及存储介质，涉及自然语言理解技术领域。结合声学模型优化韵律预测模型的训练样本，使训练样本标注的韵律停顿信息更加符合目标场景或目标发音人的发音特征，利用优化后的样本训练韵律预测模型，提高了练韵律预测模型的鲁棒性。方法包括：获得与目标场景对应的声学模型；将携带有初始停顿标记的第一文本样本输入声学模型，得到携带有初始停顿标记的第二文本样本，在第二文本样本中，初始停顿标记具有置信度；根据第二文本样本中每个初始停顿标记具有的置信度，清除第二文本样本的部分初始停顿标记；利用清除部分初始停顿标记后的第二文本样本训练韵律预测模型，得到目标场景的韵律预测模型。

Description

一种训练韵律预测模型方法、装置、设备及存储介质

技术领域

本申请涉及自然语言理解技术领域，特别是涉及一种训练韵律预测模型方法、装置、设备及存储介质。

背景技术

语音合成技术(text to speech)是指利用自然语言处理将文字转换为能够合成语音的模拟信号的技术，包括文本分析、文本规范化、语音分析、韵律标注等流程，属于自然语言处理技术。

韵律标注是机器模拟真人说话，摆脱“机器感”的关键流程。由于不同场景、不同发音人的停顿需求不同，针对不同的场景和不同的发音人的语音合成系统，都需要分别训练韵律预测模型。

现有技术下，训练韵律预测模型需要使用大量针对特定场景或特定发音人的音库数据，但具有特定场景或特定发音人发音特点的音库数据不易大量获得；除此之外，获得音库数据后，还需要逐一对音库数据进行人工标注韵律信息，但不同人对韵律停顿的判断标准不同，对于同样的应用场景或同样发音人的音频，或得到不同的韵律标注，最终导致韵律预测模型的训练样本中标注的停顿信息过多，从而使得最终得到韵律预测模型不能准确地对文本进行韵律标注。

发明内容

本申请实施例提供一种训练韵律预测模型方法、装置、设备及存储介质，结合声学模型优化韵律预测模型的训练样本，使训练样本标注的韵律停顿信息更加符合目标场景或目标发音人，提高训练后得到的韵律预测模型的鲁棒性。

本申请实施例第一方面提供一种训练韵律预测模型方法，所述方法包括：

获得与目标场景对应的声学模型；

将携带有初始停顿标记的第一文本样本输入所述声学模型，得到携带有所述初始停顿标记的第二文本样本，在所述第二文本样本中，所述初始停顿标记具有置信度；

根据所述第二文本样本中每个初始停顿标记具有的置信度，清除所述第二文本样本的部分初始停顿标记；

利用清除部分初始停顿标记后的所述第二文本样本训练韵律预测模型，得到所述目标场景的韵律预测模型。

可选地，在将携带有初始停顿标记的第一文本样本输入所述声学模型前，所述方法还包括：

按照所述初始停顿标记在所述第一文本样本中的标注位置，将所述初始停顿标记插入所述第一文本样本，得到多个文本单元；

得到携带有所述初始停顿标记的第二文本样本，包括：

对每个文本单元分配延续时长；

按照每个文本单元对应的延续时长，依次将每个文本单元转换为音素后验概率向量；

根据所述音素后验概率向量，确定所述第一文本样本中初始停顿标记的置信度，得到所述第二文本样本。

可选地，获得与目标场景对应的声学模型包括：

获取所述目标场景的音库数据；其中，所述音库数据包括第三文本样本，以及与所述第三文本样本对应的音频样本；

利用所述音库数据训练语音合成系统；

在所述语音合成系统输出的预测音频通过所述音频样本的验证后，从所述语音合成系统中提取得到所述声学模型。

可选地，根据所述音素后验概率向量，确定所述第一文本样本中初始停顿标记的置信度，包括：所述文本单元包括文字音素和停顿音素；在将携带有初始停顿标记的第一文本样本输入所述声学模型前，所述方法还包括：

选取所述初始停顿标记对应的音素后验概率向量，得到目标音素后验概率向量；

根据所述目标音素后验概率向量中停顿音素的分布概率，确定所述第一文本样本中初始停顿标记的置信度。

可选地，根据所述第二文本样本中每个初始停顿标记具有的置信度，清除所述第二文本样本的部分初始停顿标记，包括：

计算所述第二文本样本中所有初始停顿标记的平均置信度；

根据所述平均置信度，设置置信度阈值；

将不满足所述置信度阈值的置信度对应的初始停顿标记确定为所述部分初始停顿标记；

清除所述第二文本样本中的部分初始停顿标记。

本申请实施例第二方面提供一种训练韵律预测模型装置，所述装置包括：

模型获得模块，用于获得与目标场景对应的声学模型；

第二文本样本获得模块，用于将携带有初始停顿标记的第一文本样本输入所述声学模型，得到携带有所述初始停顿标记的第二文本样本，在所述第二文本样本中，所述初始停顿标记具有置信度；

清除模块，用于根据所述第二文本样本中每个初始停顿标记具有的置信度，清除所述第二文本样本的部分初始停顿标记；

训练模块，用于利用清除部分初始停顿标记后的所述第二文本样本训练韵律预测模型，得到所述目标场景的韵律预测模型。

可选地，所述装置还包括：

插入模块，用于按照所述初始停顿标记在所述第一文本样本中的标注位置，将所述初始停顿标记插入所述第一文本样本，得到多个文本单元；

所述第二文本样本获得模块包括：

分配子模块，用于对每个文本单元分配延续时长；

转换子模块，用于按照每个文本单元对应的延续时长，依次将每个文本单元转换为音素后验概率向量；

置信度确定子模块，用于根据所述音素后验概率向量，确定所述第一文本样本中初始停顿标记的置信度，得到所述第二文本样本。

可选地，所述模型获得模块包括：

样本获得子模块，用于获取所述目标场景的音库数据；其中，所述音库数据包括第三文本样本，以及与所述第三文本样本对应的音频样本；

训练子模块，用于利用所述音库数据训练语音合成系统；

提取子模块，在所述语音合成系统输出的预测音频通过所述音频样本的验证后，从所述语音合成系统中提取得到所述声学模型。

可选地，所述置信度确定子模块包括：

目标音素后验概率向量确定子单元，用于选取所述初始停顿标记对应的音素后验概率向量，得到目标音素后验概率向量；

置信度确定子单元，用于根据所述目标音素后验概率向量中停顿音素分布概率，确定所述第一文本样本中初始停顿标记的置信度。

可选地，所述清除模块包括：

计算子模块，用于计算所述第二文本样本中所有初始停顿标记的平均置信度；

设置子模块，用于根据所述平均置信度，设置置信度阈值；

筛选子模块，用于将不满足所述置信度阈值的置信度对应的初始停顿标记确定为所述部分初始停顿标记；

清除子模块，用于清除所述第二文本样本中的部分初始停顿标记。

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

本申请实施例利用特定场景或特定发音人的音库数据训练语音合成系统，从训练完成的语音合成系统中提取声学模型，提取出的声学模型具有按照特定场景或特定发音人的发音特点预测音素的功能。使用声学模型优化人工标注的训练韵律预测模型的文本样本，对人工标注的训练韵律预测模型的文本样本中标注的初始停顿标记标注置信度，优化人工标注的训练韵律预测模型的文本样本的准确度，使训练样本标注的韵律停顿信息更加符合特定场景或特定发音人的发音特点，从而提高训练后得到的韵律预测模型的鲁棒性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一种示例中语音合成系统的结构示意图；

图2是本申请训练语音合成系统的步骤流程图；

图3是本申请实施例提出的训练韵律预测模型的步骤流程图；

图4是本申请另一种示例中语音合成系统的结构示意图；

图5是本申请实施例提出的训练韵律预测模型的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

韵律指的是：在语音合成得到的音频中，表示人声的音轨的停顿、连续等特征。即，语音合成得到的音频中语音的抑扬顿挫。通过语音合成技术得到的语音需要能够正确还原文本合理的韵律结构，才能使得播报的语音听起来自然，能够接近真人说话。

图1是本申请一种示例中语音合成系统的结构示意图。如图1所示：语音合成系统包括：文本分析模型11、韵律预测模型12、音素转换模型13、对齐模型14、声谱合成模型15、声码器16。

语音合成需要先对文本进行分析，包括断句、分词等，再对文本进行韵律预测。韵律预测一般由韵律预测模型完成，是对文本进行序列标注的模型。即对输入的文本序列进行计算，输出对应等长的输出标签序列。例如，输入“去看电影吗”，输出“去-#1看-#2电-#3影-#3吗-#4”，其中#1、#2、#3和#4是预先定义的韵律标注，可以定义#1为停顿词语、#2为延长词语、#4为非停顿词语等。

得到标注有韵律信息的文本序列后，将其输入音素转换模型，将每个字转换为音素。例如，将“去4-#1看4-#2电4-#3影3-#3吗1-#4？”输入音素转换模型后，经过音素转换，输出音素“qu4-#1kan4-#2dian4-#3ying3-#3ma1-#4”，其中“q”、“u”为音素转换模型转换的单个音素，“qu4”中的4是指“qu”的调值。

同时根据“qu4-#1kan4-#2dian4-#3ying3-#3ma1-#4”预测其对应的声学特征，声谱合成模型再根据声学特征进一步合成声音谱，并使用对齐模型给qu4-#1kan4-#2dian4#3ying3#3ma1#4”中每个音素分配对应的音频帧。

声谱合成模型根据对齐模型返回的信息，按照(qu4-#1kan4-#2dian4-#3ying-4#3ma1-#4)中每个音素分配的音频帧的顺序，将音素文本与音频帧对应，再进一步根据音素文本与音频帧的对应关系，生成与音素文本对应的声音谱。最后利用声码器按照与具有韵律标注的音素文本对齐的声音谱进行发音，得到合成音频。

因此，韵律标注是否准确是机器合成的语音是否自然的关键之一。训练韵律预测模型使用的训练样本是音频样本，和对应音频样本的人工标注有韵律信息的文本。人工听一段音频，根据音频的停顿，对该音频的文本标注上韵律信息。

但不同的场合有不同的韵律需求，不同的发音人有不同的韵律习惯，例如交通场景下的音频，一般韵律较为平缓，字与字的间隔较长，例如“下一站是北京站”，以保证乘客能够听清楚。推销场景下，韵律较为急促，字与字的间隔较短，例如“这里平安保险”，以求在尽量短的时间内，表达完推销内容。

然而在人工标注文本的韵律信息时，不同人的判断标注不同，即使是同一段对应交通场景的音频，在主观感受的影响下，多个人有多种韵律标注结果，为了保证韵律标注的准确性，综合多个人工标注版本，导致文本标注的韵律信息过多，造成样本标签数量过大，为韵律标注模型训练造成负担，最终造成韵律标注模型的鲁棒性不高。

鉴于上述问题，本申请提出训练韵律预测模型方法，利用特定场景或特定发音人的音库数据训练语音合成系统，再从训练完成的语音合成系统中提取得到声学模型，使用声学模型优化韵律预测模型的训练样本，使训练样本标注的韵律停顿信息更加符合目标场景或目标发音人，提高训练后得到的韵律预测模型的鲁棒性。

图2是本申请训练语音合成系统的步骤流程图。如图2所示：

步骤S21：获取所述目标场景的音库数据；其中，所述音库数据包括第三文本样本，以及与所述第三文本样本对应的音频样本；

目标场景是最终使用语音合成系统的特定场景，即最终使用韵律预测模型的特定场景。例如导航地图中，用户选择了发音人“李二”后，终端设备根据用户操作确定的发音人是“李二”的发音场景，即韵律预测模型是基于“李二”的韵律习惯对文本进行韵律预测，此时的目标场景就是在导航系统中以“李二”作为发音人的发音场景。。

第三文本样本是指训练语音合成系统时，使用的与音频样本对应的文本样本。音频样本可以通过目标发音人朗读第三文本样本得到，也可以从特定场景的音源库中获得音频样本，例如从推销场景的音源库中获取常用的语音，例如：内容是“为你推荐几款产品”等语音。

训练上述语音合成系统需要先获得音库数据。

步骤S22：利用所述音库数据训练语音合成系统；

提取音频样本的标准声谱图，并对第三文本样本标注音素。

相较于常用的基本音素(“a”、“b”、“c”“z”等用于支持文字发音的音素)，本申请实施例还将韵律信息作为特定音素，共同对第三文本样本进行标注。

结合图1所示的语音合成系统，可以将第三文本样本输入图1的文本分析模块，在声谱合成模型输入标准声谱图，可以使用建立标准声谱图与声谱合成模型输出的与文本对齐的声音谱的损失函数等方式，对语音合成系统进行多次训练，直至语音合成系统的声谱合成模型能够输出相较于标准声谱图误差最小的声音谱，此时语音合成系统的对齐模型也能够将音频帧与文本音素对齐。

步骤S23：在所述语音合成系统输出的预测音频通过所述音频样本的验证后，从所述语音合成系统中提取得到所述声学模型。

以图1为例，除声学模型，还可以提取音素转换模型，对齐模型，和声谱合成模型。音素转换模型可以将输入的文本转换为音素，对齐模型可以为音素分配对应的音频帧，即分配音素在音频中的延续时长。

示例地，将文本中“你好”输入上述声学模型、音素转换模型、对齐模型组成的系统后，可以得到“(nihao)”序列中的‘i’被对齐到音频的第5到第10帧。

本申请利用特定场景的音库数据训练声学模型，使声学模型可以获得特定场景下音频中的停顿信息，按照特定场景下音频的停顿信息，预测出特定音频帧对应的音素，包括用于表示停顿信息的特定音素。

图3是本申请实施例提出的训练韵律预测模型的步骤流程图，如图3所示，训练韵律预测模型的方法如下：

步骤S31：获得与目标场景对应的声学模型；

获得声学模型的方法具体可以参照本申请的上一个实施例。

步骤S32：将携带有初始停顿标记的第一文本样本输入所述声学模型，得到携带有所述初始停顿标记的第二文本样本，在所述第二文本样本中，所述初始停顿标记具有置信度。

初始停顿标记是人工对第一文本样本的韵律标记。由于人的主观差别，初始停顿标记准确性较低。

第一文本样本是训练韵律预测模型时，输入训练韵律预测模型的文本样本。第二文本样本是训练韵律预测模型时，经过声学模型优化后，得到的具有置信度的音素文本样本。

本申请另一个实施例中详细说明了声学模型对第一文本样本的初始停顿标记置信度，得到第二文本样本的方法。

步骤1：先按照初始停顿标记在第一文本样本中的标注位置，将所述初始停顿标记插入所述第一文本样本，得到多个文本单元；

标注位置是指人工标注的初始停顿标记在第一文本样本中对应的文字的位置。示例地，假设携带有初始停顿标记的第一文本样本是“去-#1看-#2电-#3影-#3吗-#4？”，那么初始停顿标记#4的标注位置是“吗”后的位置。

文本单元是指声学模型最小的预测单元，包括音素、初始停顿标记。“q”、“u”、“k”、“a”、#1、#2、#3、#4都是文本单元。

步骤2：对所述第一文本样本中的每个文本单元分配延续时长；具体可以使用从训练完成的语音合成系统中提取的对齐模型为文本单元分配延续时长。为文本单元分配延续时长，可以指为每个文本单元分配音频帧。继续以第一文本样本是“去-#1看-#2电-#3影-#3吗-#4？”为例，为“去-#1”中的音素分配音频帧，为“q”分配第1至8个音频帧，为“u”分配第9至10个音频帧，为“#1”分配第11个音频帧。

步骤3：按照每个文本单元对应的延续时长，依次将每个文本单元转换为音素后验概率向量；声学模型按照音频帧的顺序，依次预测每个音频帧对应的音素后验概率向量。本申请实施例将韵律信息作为特定音素，与基本音素一起，形成音素集合。基本音素是用于支持发音的音素，例如“a”、“b”、“c”“z”等。一般情况下，音素后验概率向量中的音素集合是由用于支持文字发音的多个音素组成的[a、b、c、d、e、g、h、i、j、k、l......zh、ch、an、sh]，本申请实施例将韵律信息作为特定音素，添加到音素集合中，最终声学模型预测的音素后验概率向量包括特定音素的分布概率，可以标识为[a、b、c、d、e、g、h、i、j、k、l......zh、ch、an、sh、SP]，其中，SP为本申请实施例添加的特定音素，即用于表示韵律标记的音素。

将每个文本单元转换为音素后验概率向量包括：对所述第一文本样本中的每个字进行音素转换，得到对应每个字的音素，以及对初始停顿标记进行音素转换，得到每个初始停顿标记对应的音素；音素是字的发音特征，对于汉语，音素可以是每个字的拼音。

继续以第一文本样本的内容是“去4-#1看4-#2电4-#3影3-#3吗1-#4？”为例，“去-#1”对应第1-11个音频帧，其中基本音素“q”对应第1至8个音频帧，“u”对应第9至10个音频帧，特定音素#1对应第11个音频帧，声学模型预测第1至8个音频帧的音素后验概率向量是[a-5％、b-3％、c-8％、d-0.3％、e-1％、g-1.5％、h-0.23％、i-0.8％、j-5％、k-0.1％、l-1％、m-0.7％、n、q-50％......zh-4.3％、ch-6％、an-1.7％、sh-2.6％、SP-1％]，根据声学模型预测的第一个音素后验概率向量可知，“q”的分布概率是50％，可以看作声学模型预测第一文本样本中第一个音素是“q”，假设声学模型预测第11个音频帧的音素后验概率向量是[a-5％、b-3％、c-8％、d-0.3％、e-1％、g-1.5％、h-0.23％、i-0.8％、j-5％、k-0.1％、l-1％、m-0.7％、n、q-5％......zh-4.3％、ch-6％、an-1.7％、sh-2.6％、SP-60％]，则表示声学模型预测的第三个音素是SP，音频的第11个音频帧为静音，对应的韵律信息为停顿。

步骤4：根据所述音素后验概率向量，确定所述第一文本样本中初始停顿标记的置信度，得到所述第二文本样本。

选取所述初始停顿标记对应的音素后验概率向量，得到目标音素后验概率向量；根据所述目标音素后验概率向量中停顿音素的分布概率，确定所述第一文本样本中初始停顿标记的置信度。

具体可以根据音频帧，选取初始停顿标记对应的音素后验概率向量。例如提取第11个音频帧对应的音素后验概率向量，得到声学模型对韵律标记#1标注的置信度。

继续以第一文本样本的内容是“去-#1看-#2电-#3影-#3吗-#4？”为例，依据韵律标记#1、#2、#3、#4的标注位置，选取韵律标记#1、#2、#3、#4对应的音素后验概率向量，假设初始停顿标记#1对应的音素后验概率向量是[a-5％、b-3％、c-8％、d-0.3％、e-1％、g-1.5％、h-0.23％、i-0.8％、j-5％、k-0.1％、l-1％、m-0.7％、n、q-5％......zh-4.3％、ch-6％、an-1.7％、sh-2.6％、SP-60％]，#1对应音频的第11个音频帧；#2对应的音素后验概率向量是[a-5％、b-3％、c-8％、d-0.3％、e-1％、g-1.5％、h-0.23％、i-0.8％、j-5％、k-0.1％、l-1％、m-0.7％、n、q-5％......zh-4.3％、ch-6％、an-1.7％、sh-20％、SP-6％]，#2对应音频的第11个音频帧，那么选取的与初始停顿标记对应的音素后验概率向量包括第11个音频帧对应的音素后验概率向量：[a-5％、b-3％、c-8％、d-0.3％、e-1％、g-1.5％、h-0.23％、i-0.8％、j-5％、k-0.1％、l-1％、m-0.7％、n、q-5％......zh-4.3％、ch-6％、an-1.7％、sh-2.6％、SP-60％]和第22个音频帧对应的音素后验概率向量：[a-5％、b-3％、c-8％、d-0.3％、e-1％、g-1.5％、h-0.23％、i-0.8％、j-5％、k-0.1％、l-1％、m-0.7％、n、q-5％......zh-4.3％、ch-6％、an-1.7％、sh-20％、SP-6％]，根据上述两个音素后验概率向量可以确定为目标音素后验概率向量。

在[a-5％、b-3％、c-8％、d-0.3％、e-1％、g-1.5％、h-0.23％、i-0.8％、j-5％、k-0.1％、l-1％、m-0.7％、n、q-5％......zh-4.3％、ch-6％、an-1.7％、sh-2.6％、SP-60％]中，特定音素SP的分布概率是60％，进而确定[a-5％、b-3％、c-8％、d-0.3％、e-1％、g-1.5％、h-0.23％、i-0.8％、j-5％、k-0.1％、l-1％、m-0.7％、n、q-5％......zh-4.3％、ch-6％、an-1.7％、sh-2.6％、SP-60％]对应的初始停顿标记#1的置信度是60。在[a-5％、b-3％、c-8％、d-0.3％、e-1％、g-1.5％、h-0.23％、i-0.8％、j-5％、k-0.1％、l-1％、m-0.7％、n、q-5％......zh-4.3％、ch-6％、an-1.7％、sh-20％、SP-6％]中，特定音素SP的分布概率是6％，进而确定[a-5％、b-3％、c-8％、d-0.3％、e-1％、g-1.5％、h-0.23％、i-0.8％、j-5％、k-0.1％、l-1％、m-0.7％、n、q-5％......zh-4.3％、ch-6％、an-1.7％、sh-20％、SP-6％]的置信度是0.06。

本申请实施例在将训练语音合成系统的文本样本转换为音素文本样本时，将文本样本标注韵律信息也转换为特定音素，将包含特定音素的音素文本样本和其对应的音频样本训练语音合成系统，使得语音合成系统中的声学模型能够对应每个音频帧，预测插入初始停顿标记的第一文本样本中每个文本单元的对应的音素后验概率向量，再根据初始停顿标记对应的音素后验概率向量确定初始停顿标记的置信度。

步骤S33：根据所述第二文本样本中每个初始停顿标记具有的置信度，清除所述第二文本样本的部分初始停顿标记；

步骤S34：利用清除部分初始停顿标记后的所述第二文本样本训练韵律预测模型，得到所述目标场景的韵律预测模型。

以携带初始停顿标记的第一文本样本是“去-#1看-#2电-#4影-#3吗-#4？”为例，电-#4的初始停顿标记的置信度不高，清除电-#4的初始停顿标记，在目标场景是电影片售卖的场景中，如果以原本的携带初始停顿标记的第一文本样本训练韵律预测模型，对于输入的文本，韵律预测模型所在的语音合成系统输出的语音停顿较多，不符合电影片售卖的场景的停顿习惯，带有机器感。而以优化了韵律标注的第二文本样本训练韵律预测模型，对不需要停顿的文本“电”，韵律预测模型所在的语音合成系统输出的语音不再作停顿，符合当前场景。

进一步地，也可以利用本申请实施例的方法，扩大韵律预测模型的训练样本。现有技术下，若要训练交通应用场景的语音合成系统中的韵律预测模型，以使该场景下的语音合成系统输出的语音符合“慢稳”的发音特点，需要大量人工朗读多个文本，得到“慢稳”的音频，再根据“慢稳”的音频中发音人的韵律特点，人工标注反向标注朗读模板文本，得到能够训练交通应用场景的韵律预测模型的样本，过程复杂。

利用本申请实施例的方法，可以将直接进行优化，先利用交通应用场景的音频和文本训练声学模型，得到能够按照交通应用场景的发音特征对文本分配音频帧的声学模型，再将训练其他应用场景的样本数据输入声学模型优化，直接得到符合训练交通应用场景的韵律预测模型的训练样本。

本申请实施例利用特定场景或特定发音人的音库数据训练语音合成系统得到声学模型和对齐模型，使对齐模型具有按照特定场景或特定发音人的发音特征为音素(基本能音素和特定音素)分配音频帧的功能，使声学模型具有评价人工标注的韵律标记的置信度的功能，使用声学模型优化人工标注的训练韵律预测模型的文本样本，对人工标注的训练韵律预测模型的文本样本中标注的初始停顿标记标注置信度，优化人工标注的训练韵律预测模型的文本样本的准确度，使训练样本标注的韵律停顿信息更加符合特定场景或特定发音人的发音特点，从而提高训练后得到的韵律预测模型的鲁棒性。

本申请另一个实施例提出根据所述第二文本样本中每个初始停顿标记具有的置信度，清除所述第二文本样本的部分初始停顿标记的具体方法：

步骤S34-1：计算所述第二文本样本中所有初始停顿标记的平均置信度；

步骤S34-2：根据所述平均置信度，设置置信度阈值；

同一段内容中，每一句话的情况不同。设置固定置信度阈值可能会造成错误清除置信度的现象。

步骤S34-3：将不满足所述置信度阈值的置信度对应的初始停顿标记确定为所述部分初始停顿标记；

步骤S34-4：清除所述第二文本样本中的部分初始停顿标记。

部分初始停顿标记是指，低于置信度阈值的置信度对应的初始停顿标记。

本申请根据文本实际内容，确定对于当前文本清除初始停顿标记的标准，根据文本的上下文，动态调整优化人工标注的文本样本标准，保证训练韵律预测模型的样本的停顿标注更符合上下文的语义。

本申请另一个实施例提出了使用序列标注任务的模型优化人工标注的训练韵律预测模型的文本样本的方法。具体方法是：

获取所述目标场景的序列标记训练集；其中，所述序列标记训练集包括第三文本样本，以及携带有准确停顿标注的第三文本样本；

利用所述第三文本样本和所述携带有准确停顿标注的第三文本样本训练Bi-Lism模型；

将训练完成的Bi-Lism模型确定为韵律预测模型。

由于语音合成系统的前端的韵律预测模块属于传统的自然语言处理任务，因此对于该模型的数据优化(原始标注文本标注的停顿通常较多)，也可以仅从自然语言处理角度进行。比如，可以选择其他可完成序列标注任务的模型，如Bi-lstm模型，在训练收敛后，可以加载该模型再进行预测，若目标位的置信度较低，可以认为，模型认为此处是停顿的可能性较小，因此可以舍弃该处的停顿预测结果。

本申请另个一实施例示出了获得能够为文本单元分配音频帧的另一种模型的获得方法。图4是本申请另一种示例中语音合成系统的结构示意图。如图4所示，语音合成系统包括：数据处理模块41、编码器42、第一注意力机制43、第一前馈神经网络44、解码器45、第二注意力机制46、第二前馈神经网络47、线形映射48、频谱编码网络49。

将音库数据的第三文本样本输入数据处理模块，对语音合成系统进行训练，音库数据的音频样本输入频谱编码网络，作为训练语音合成系统的监督条件，直至语音合成系统能够正确根据第三文本样本输出时频谱，提取第二注意力机制模块，第二注意力机制模块能够对输入的文本分配音频帧，即为文本中每个字的组成音素分配延续时长，将初始停顿标记转换为特定音素，为停顿音素分配延续时长等。

基于同一发明构思，本申请实施例提供一种训练韵律预测模型装置。图5是本申请实施例提出的训练韵律预测模型的结构示意图。如图5所示，该装置可以包括：

模型获得模块51，用于获得与目标场景对应的声学模型；

第二文本样本获得模块52，用于将携带有初始停顿标记的第一文本样本输入所述声学模型，得到携带有所述初始停顿标记的第二文本样本，在所述第二文本样本中，所述初始停顿标记具有置信度；

清除模块53，用于根据所述第二文本样本中每个初始停顿标记具有的置信度，清除所述第二文本样本的部分初始停顿标记；

训练模块54，用于利用清除部分初始停顿标记后的所述第二文本样本训练韵律预测模型，得到所述目标场景的韵律预测模型。

可选地，所述装置还包括：

所述第二文本样本获得模块包括：

分配子模块，用于对每个文本单元分配延续时长；

可选地，所述模型获得模块包括：

训练子模块，用于利用所述音库数据训练语音合成系统；

可选地，所述置信度确定子模块包括：

置信度确定子单元，用于根据所述目标音素后验概率向量中停顿音素的分布概率，确定所述第一文本样本中初始停顿标记的置信度。

可选地，所述清除模块包括：

设置子模块，用于根据所述平均置信度，设置置信度阈值；

清除子模块，用于清除所述第二文本样本中的部分初始停顿标记。基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的训练韵律预测模型方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的训练韵律预测模型方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进或说明的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种训练韵律预测模型方法、装置、设备及存储介质，进行了详细介绍，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种训练韵律预测模型方法，其特征在于，所述方法包括：

获得与目标场景对应的声学模型；

2.根据权利要求1所述的方法，其特征在于，在将携带有初始停顿标记的第一文本样本输入所述声学模型前，所述方法还包括：

得到携带有所述初始停顿标记的第二文本样本，包括：

对每个文本单元分配延续时长；

3.根据权利要求1所述的方法，其特征在于，获得与目标场景对应的声学模型包括：

利用所述音库数据训练语音合成系统；

4.根据权利要求2所述的方法，其特征在于，根据所述音素后验概率向量，确定所述第一文本样本中初始停顿标记的置信度，包括：：

5.根据权利要求1所述方法，其特征在于，根据所述第二文本样本中每个初始停顿标记具有的置信度，清除所述第二文本样本的部分初始停顿标记，包括：

计算所述第二文本样本中所有初始停顿标记的平均置信度；

根据所述平均置信度，设置置信度阈值；

清除所述第二文本样本中的部分初始停顿标记。

6.一种训练韵律预测模型装置，其特征在于，所述装置包括：

模型获得模块，用于获得与目标场景对应的声学模型；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

所述第二文本样本获得模块包括：

分配子模块，用于对每个文本单元分配延续时长；

8.根据权利要求6所述的装置，其特征在于，所述模型获得模块包括：

训练子模块，用于利用所述音库数据训练语音合成系统；

9.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一所述的方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-5任一所述的方法的步骤。