CN111862939A

CN111862939A - 一种韵律短语标注方法和装置

Info

Publication number: CN111862939A
Application number: CN202010451849.6A
Authority: CN
Inventors: 王愈; 李健; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-10-30

Abstract

本发明提供了一种韵律短语标注方法和装置，涉及语音合成技术领域。本发明提供的韵律短语标注方法和装置，在韵律短语标注过程中，根据语音数据中每个音频帧的PPGs和基频值确定语音数据的韵律短语边界，可以避免人工对语音数据的韵律短语进行标注，从而快速的确定语音数据的韵律短语边界，提高韵律短语标注的效率。并且，根据语音数据的PPGs和基频值确定韵律短语边界，并不受人为主观音素的干扰，可以提高韵律短语边界的准确性。

Description

一种韵律短语标注方法和装置

技术领域

本发明涉及语音合成技术领域，特别是涉及一种韵律短语标注方法和装置。

背景技术

随着计算机性能的发展，语音合成技术的发展越来越趋向基于大型语料库的波形拼接方法。语料库在语音结构和语音单元的有效覆盖率成为提高合成语音质量的关键。对语料库中的语音数据进行详细的韵律标注是检查语料库数据覆盖率的基础。

韵律标注是对语音数据中的韵律词、韵律词组、韵律短语和语调短语等不同层级的单元进行划分，确定语音数据中的韵律词、韵律词组、韵律短语和语调短语的边界的过程。其中，由于每个韵律短语都是一段语调落定的听感，对于合成语音语义分段表征、节拍的稳定感至关重要，因此在韵律标注中，确定语音数据中的韵律短语边界，对语音数据中的韵律短语进行标注至关重要。

目前，主要由人工根据语音数据中的停顿和低音线来确定韵律短语边界，对语音数据的韵律短语进行标注。由人工对语音数据的韵律短语进行标注时，效率低下、无法满足需求，并且主观性高，标注得到的韵律短语边界的准确率较低。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种韵律短语标注方法和装置。

依据本发明的第一方面，提供了一种韵律短语标注方法，该方法包括：

获取语音数据，并将所述语音数据划分为多个第一音频帧；

根据所述多个第一音频帧，确定所述语音数据中的每个第一文字、每个所述第一文字分别对应的所述第一音频帧、以及每个所述第一音频帧的音素后验概率，并确定每个所述第一音频帧的基频值；

根据第一目标音频帧的基频值和音素后验概率，确定所述第一目标音频帧的概率值，所述第一目标音频帧为所述多个第一音频帧中的任意一个音频帧，所述概率值表征所述第一目标音频帧为所述语音数据的韵律短语边界对应的音频帧的概率；

根据每个所述第一文字分别对应的所述第一目标音频帧的概率值，确定所述韵律短语边界。

可选的，所述根据第一目标音频帧的基频值和音素后验概率，确定所述第一目标音频帧的概率值，包括：

将所述第一目标音频帧的基频值和音素后验概率输入第一模型，得到所述第一目标音频帧的概率值。

可选的，在所述将所述第一目标音频帧的基频值和音素后验概率输入第一模型之前，还包括：

获取多个样本语音数据、以及每个所述样本语音数据的韵律短语边界；

将目标样本语音数据划分为多个第二音频帧，并根据所述多个第二音频帧，确定所述目标样本语音数据中的每个第二文字、每个所述第二文字分别对应的所述第二音频帧、以及每个所述第二音频帧的音素后验概率，并确定每个所述第二音频帧的基频值，所述目标样本语音数据为所述多个样本语音数据中的任意一个样本语音数据；

根据每个所述第二文字分别对应的所述第二音频帧，设置所述多个第二音频帧中与所述目标样本语音数据的韵律短语边界对应的第二音频帧的标签为第一标签、以及设置所述多个第二音频帧中除与所述目标样本语音数据的韵律短语边界对应的第二音频帧之外的第二音频帧的标签为第二标签，所述第一标签与所述第二标签为不同的标签；

根据第二目标音频帧的标签、音素后验概率和基频值对第一预设模型进行训练，得到所述第一模型，所述第二目标音频帧为所述多个第二音频帧中的任意一个音频帧。

将所述第一目标音频帧的音素后验概率输入第二模型，得到所述第一目标音频帧的第一权重；

将所述第一目标音频帧的基频值和第一权重输入第一模型，得到所述第一目标音频帧的概率值。

可选的，在所述将所述第一目标音频帧的音素后验概率输入第二模型，得到所述第一目标音频帧的第一权重之前，还包括：

将第二目标音频帧的音素后验概率输入第二预设模型，得到所述第二目标音频帧的第二权重，所述第二目标音频帧为所述多个第二音频帧中的任意一个音频帧；

根据所述第二目标音频帧的标签、第二权重和基频值对第一预设模型和所述第二预设模型进行训练，得到所述第一模型和所述第二模型。

依据本发明的第二方面，提供了一种韵律短语标注装置，该装置包括：

第一获取模块，用于获取语音数据，并将所述语音数据划分为多个第一音频帧；

第一确定模块，用于根据所述多个第一音频帧，确定所述语音数据中的每个第一文字、每个所述第一文字分别对应的所述第一音频帧、以及每个所述第一音频帧的音素后验概率，并确定每个所述第一音频帧的基频值；

第二确定模块，用于根据第一目标音频帧的基频值和音素后验概率，确定所述第一目标音频帧的概率值，所述第一目标音频帧为所述多个第一音频帧中的任意一个音频帧，所述概率值表征所述第一目标音频帧为所述语音数据的韵律短语边界对应的音频帧的概率；

第三确定模块，用于根据每个所述第一文字分别对应的所述第一目标音频帧的概率值，确定所述韵律短语边界。

可选的，所述第二确定模块具体用于将所述第一目标音频帧的基频值和音素后验概率输入第一模型，得到所述第一目标音频帧的概率值。

可选的，该装置还包括：

第二获取模块，用于获取多个样本语音数据、以及每个所述样本语音数据的韵律短语边界；

第一划分模块，用于将目标样本语音数据划分为多个第二音频帧，并根据所述多个第二音频帧，确定所述目标样本语音数据中的每个第二文字、每个所述第二文字分别对应的所述第二音频帧、以及每个所述第二音频帧的音素后验概率，并确定每个所述第二音频帧的基频值，所述目标样本语音数据为所述多个样本语音数据中的任意一个样本语音数据；

第一设置模块，用于根据每个所述第二文字分别对应的所述第二音频帧，设置所述多个第二音频帧中与所述目标样本语音数据的韵律短语边界对应的第二音频帧的标签为第一标签、以及设置所述多个第二音频帧中除与所述目标样本语音数据的韵律短语边界对应的第二音频帧之外的第二音频帧的标签为第二标签，所述第一标签与所述第二标签为不同的标签；

第一训练模块，用于根据第二目标音频帧的标签、音素后验概率和基频值对第一预设模型进行训练，得到所述第一模型，所述第二目标音频帧为所述多个第二音频帧中的任意一个音频帧。

可选的，所述第二确定模块具体用于将所述第一目标音频帧的音素后验概率输入第二模型，得到所述第一目标音频帧的第一权重；将所述第一目标音频帧的基频值和第一权重输入第一模型，得到所述第一目标音频帧的概率值。

可选的，该装置还包括：

第三获取模块，用于获取多个样本语音数据、以及每个所述样本语音数据的韵律短语边界；

第二划分模块，用于将目标样本语音数据划分为多个第二音频帧，并根据所述多个第二音频帧，确定所述目标样本语音数据中的每个第二文字、每个所述第二文字分别对应的所述第二音频帧、以及每个所述第二音频帧的音素后验概率，并确定每个所述第二音频帧的基频值，所述目标样本语音数据为所述多个样本语音数据中的任意一个样本语音数据；

第二设置模块，用于根据每个所述第二文字分别对应的所述第二音频帧，设置所述多个第二音频帧中与所述目标样本语音数据的韵律短语边界对应的第二音频帧的标签为第一标签、以及设置所述多个第二音频帧中除与所述目标样本语音数据的韵律短语边界对应的第二音频帧之外的第二音频帧的标签为第二标签，所述第一标签与所述第二标签为不同的标签；

输入模块，用于将第二目标音频帧的音素后验概率输入第二预设模型，得到所述第二目标音频帧的第二权重，所述第二目标音频帧为所述多个第二音频帧中的任意一个音频帧；

第二训练模块，用于根据所述第二目标音频帧的标签、第二权重和基频值对第一预设模型和所述第二预设模型进行训练，得到所述第一模型和所述第二模型。

本发明实施例提供的一种韵律短语标注方法和装置，获取语音数据，并将语音数据划分为多个第一音频帧，根据多个第一音频帧，确定语音数据中的每个第一文字、每个第一文字分别对应的第一音频帧、以及每个第一音频帧的音素后验概率，并确定每个第一音频帧的基频值，根据第一目标音频帧的基频值和音素后验概率，确定第一目标音频帧的概率值，根据每个第一文字分别对应的第一目标音频帧的概率值，确定语音数据的韵律短语边界。在韵律短语标注过程中，根据每个音频帧的PPGs和基频值确定语音数据的韵律短语边界，可以避免人工对语音数据的韵律短语进行标注，从而快速的确定语音数据的韵律短语边界，提高韵律短语标注的效率。并且，根据语音数据的PPGs和基频值确定韵律短语边界，并不受人为主观音素的干扰，可以提高韵律短语边界的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种韵律短语标注方法的步骤流程图；

图2是本发明实施例提供的另一种韵律短语标注方法的步骤流程图；

图3是本发明实施例提供的一种韵律短语标注装置的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

为了更清楚的介绍本发明，首先对韵律标注的相关技术进行介绍。

语音是由人的发音器官发出的具有一定社会意义的声音，语音数据是对语音进行采样录制后，得到的音频数据。在语音音系学中，语音可以划分为韵律词、韵律词组、韵律短语和语调短语等不同层级的单元。韵律词是一组在语音中联系密切、一起发音的多个音节，例如在一段语音“使用程序节省了时间且提高了数据的准确性”中，“使用”和“程序”分别为其中的一个韵律词。韵律词组一般由两个或三个联系比较紧密的韵律词组成，例如“使用程序”为一个韵律词组。韵律短语一般由多个共用同一个节奏群的韵律词组成，例如“使用程序节省了时间”为一个韵律短语。语调短语是将几个韵律短语按照一定的句调模式连接起来的语句，例如“使用程序节省了时间且提高了数据的准确性”为一个语调短语。对韵律词、韵律词组、韵律短语和语调短语的理解可参考相关技术，本实施例在此不做赘述。

韵律短语标注是确定韵律短语边界的过程，韵律短语边界即韵律短语的结束位置对应的文字，如韵律短语“使用程序节省了时间”在文字“间”处结束，则韵律短语边界为文字“间”。韵律短语的划分条件包括结尾的停顿和低音线的渐降，即在每个韵律短语的结尾必然有停顿，同时在整个韵律短语的发音过程中，语音的频率是逐渐降低的，根据每段语音中的停顿和低音线的渐降，可以确定语音中韵律短语的边界。现有技术中，主要由人工根据每个语音数据中的停顿和低音线的变化，确定韵律短语边界。当语音数据较多时，人工确定韵律短语边界的效率低，并且带有很大的主观性，确定的韵律短语边界的准确率较低。

为了解决上述问题，本发明实施提供一种韵律短语标注方法和韵律短语标注装置。

图1是本发明实施例提供的一种韵律短语标注方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、获取语音数据，并将语音数据划分为多个第一音频帧。

本实施例中，电子设备可以直接采样录制得到语音数据，或者获取预先存储的语音数据，具体获取语音数据的方法可以根据需求设置，本实施例对此不做限制。

在获取语音数据之后，首先可以对语音数据进行分帧，将语音数据划分为多个第一音频帧。例如，语音数据为“你好吗”，并且长度为3秒，则可以设置每个第一音频帧的长度为10毫秒，将语音数据依次划分为300个第一音频帧。每个第一音频帧的具体长度可以根据需求设置，本实施例对此不做限制。

步骤102、根据多个第一音频帧，确定语音数据中的每个第一文字、每个第一文字分别对应的第一音频帧、以及每个第一音频帧的音素后验概率，并确定每个第一音频帧的基频值。

本实施例中，在划分得到多个第一音频帧之后，可以根据每个第一音频帧对语音数据进行识别，识别出语音数据中的每个第一文字，同时确定每个第一文字分别对应的第一音频帧，以及确定每个第一音频帧的音素后验概率(PPGs，Phonetic posteriorgrams)。

示例的，可以对KALDI平台、隐马尔科夫模型(HMM，Hidden Markov Models)，或者深度神经网络(DNN，Deep Neural Networks)等神经网络模型进行训练，得到语音识别模型。结合步骤101，在将语音数据划分为多个第一音频帧之后，可以对每个第一音频帧进行短时傅里叶变换，得到每个第一音频帧分别对应的频谱特征，然后将每个第一音频帧的频谱特征依次输入语音识别模型，识别出语音数据中的每个第一文字。如识别出语音数据中的第一文字“你”、“好”和“吗”。同时在识别出语音数据中的第一文字的过程中，可以确定每个第一文字分别对应的第一音频帧，如确定第一文字“你”对应的第一音频帧为第1至100个第一音频帧，第一文字“好”对应的第一音频帧为第101至200个第一音频帧，以及第一文字“吗”对应的第一音频帧为第201至300个第一音频帧。与此同时，还可以确定每个第一音频帧的PPGs。例如，若语音识别模型中，预设的音素为{a，b，c，d，e，f，g…zh，ch，sh}等70个音素，则确定的第一音频帧的PPGs为{0.1，0.8，0.2……0.0}等70个向量。其中，第i个向量对应第i个音素，i大于等于1且小于等于70，第i个向量表示第一音频帧的音素为第i个音素的概率，如向量0.1表示第一音频帧的音素为“a”的概率为0.1，对PPGs的理解可参考现有技术，本实施例对此不做赘述。具体训练得到语音识别模型的过程，以及根据语音识别模型确定第一文字、第一文字对应的第一音频帧，以及第一音频帧的PPGs的过程可参考现有技术，本实施对此不做限制。

需要说明的是，确定语音数据中的第一文字、第一文字对应的第一音频帧、以及第一音频帧的PPGs过程，也可以通过其他方法实现，本实施例对此不做限制。

本实施例中，在将语音数据划分为多个第一音频帧之后，还可以确定每个第一音频帧的基频值。例如，可以根据基频提取算法(例如自相关法、倒谱法、循环直方图法或Hsrvest算法)确定每个第一音频帧的基频值。具体确定每个第一音频帧的基频值的方法可以根据需求选择，本实施对此不做限制。

在实际应用中，确定第一文字、第一文字对应的第一音频帧、以及第一音频帧的音素后验概率的过程和确定基频值的过程可以同步执行，也可以分步执行，本实施例对此不做限制。

步骤103、根据第一目标音频帧的基频值和音素后验概率，确定第一目标音频帧的概率值。

其中，第一目标音频帧为多个第一音频帧中的任意一个音频帧，概率值表征第一目标音频帧为语音数据的韵律短语边界对应的音频帧的概率。

本实施例中，在确定第一音频帧的音素后验概率和基频值之后，可以根据第一音频帧的音素后验概率和基频值，确定第一音频帧的概率值。

示例的，步骤103可以通过如下方式实现：

将第一目标音频帧的基频值和音素后验概率输入第一模型，得到第一目标音频帧的概率值。

本实施例中，可以通过神经网络模型确定每个第一音频帧的概率值。例如，首先可以根据多个样本语音数据和每个样本语音数据的韵律短语边界，对长短期记忆网络(LSTM，Long Short-Term Memory)或双向长短时记忆循环神经网络(BiLSTM，Bi-directionalLong Short-Term Memory)等神经网络模型进行训练，得到第一模型，然后通过第一模型确定每个第一音频帧的概率值。

可选的，根据多个样本语音数据和每个样本语音数据的韵律短语边界对神经网络模型进行训练的过程可以通过如下方式实现：

A01、获取多个样本语音数据、以及每个样本语音数据的韵律短语边界。

本实施例中，样本语音数据为预先获取的语音数据，样本语音数据的韵律短语边界为预先标注的韵律短语边界。例如，若样本语音数据为“桌面干净了”，则可以确定并标注文字“了”为样本语音数据的韵律短语边界。样本语音数据的韵律短语边界可以由人工标注，也可以通过其他方式标注，本实施例对此不做限制。

A02、将目标样本语音数据划分为多个第二音频帧，并根据多个第二音频帧，确定目标样本语音数据中的每个第二文字、每个第二文字分别对应的第二音频帧、以及每个第二音频帧的音素后验概率，并确定每个第二音频帧的基频值，目标样本语音数据为多个样本语音数据中的任意一个样本语音数据。

其中，对步骤A02的理解可参考步骤102，本实施例在此不做赘述。

A03、根据每个第二文字分别对应的第二音频帧，设置多个第二音频帧中与目标样本语音数据的韵律短语边界对应的第二音频帧的标签为第一标签、以及设置多个第二音频帧中除与目标样本语音数据的韵律短语边界对应的第二音频帧之外的第二音频帧的标签为第二标签，第一标签与第二标签为不同的标签。

本实施例中，在确定样本语音数据中的每个第二文字，以及每个第二文字分别对应的第二音频帧之后，可以根据根据每个第二文字分别对应的第二音频帧，设置每个第二音频帧的标签。结合步骤A01至A03，若样本语音数据的韵律短语边界为文字“了”，样本语音数据中包括400个第二音频帧，在确定每个第二文字之后，可以设置与第二文字“了”(样本语音数据的韵律短语边界)对应的第301至400个第二音频帧的标签为第一标签“1”，第一标签“1”表征第301至400个第二音频帧为韵律短语边界对应的音频帧。相反的，设置除301至400之外的第1至300个第二音频帧的标签为第二标签“0”，第二标签“0”表征第1至300个第二音频帧不是韵律短语边界对应的音频帧。第一标签和第二标签的具体形式可以根据需求设置，本实施例对此不做限制。

A04、根据第二目标音频帧的标签、音素后验概率和基频值对第一预设模型进行训练，得到第一模型，第二目标音频帧为多个第二音频帧中的任意一个音频帧。

本实施例中，在为每个第二音频帧设置对应的标签之后，可以将每个第二音频帧的PPGs和基频值依次输入第一预设模型(例如BiLSTM)，得到对应的第一结果，根据第一结果和对应的标签对第一预设模型的参数进行调整，得到训练后的第一预设模型，即第一模型。

示例的，可以将第二音频帧的PPGs与基频值进行拼接，得到拼接后的向量。结合上述举例，若第二音频帧的PPGs为{0.1，0.8，0.2……0.0}的70维向量，基频值为f0，可以将第二音频帧的PPGs和基频值横向拼接，得到{0.1，0.8，0.2……0.0，f0}的71维向量。将每个第二音频帧的PPGs和基频值依次拼接后，可以得到与样本语音数据对应的300行×71列的向量矩阵，向量矩阵中的每一行对应一个第二音频帧。将向量矩阵中的每行向量依次输入第一预设模型(第一预设模型的输入为71维)，得到第一结果。当第二音频帧的标签为第一标签“1”时，计算第一标签与对应的第一结果的损失值，根据损失值对第一预设模型的参数进行调整，当第二音频帧的标签为第二标签“0”时，计算第二标签和对应的第一结果的损失值，根据损失值对第一预设模型的参数进行调整，当损失值满足预设条件时，确定训练完成，得到第一模型。根据第二音频帧的标签和对应的第一结果对第一预设模型进行训练的过程可参考现有技术中模型的训练过程，本实施例对此不做限制。

相应的，在确定第一音频帧的概率值时，可以将第一音频帧的PPGs和基频值进行拼接，将拼接得到的向量输入第一模型，得到第一音频帧的概率值。

需要说明的是，在实际应用中，也可以通过其他方法根据第一音频帧的基频值和音素后验概率，确定第一音频帧的概率值，本实施例对此不做限制。

步骤104、根据每个第一文字分别对应的第一目标音频帧的概率值，确定韵律短语边界。

本实施例中，在确定每个第一音频帧的概率值之后，可以根据每个第一文字分别对应的第一音频帧的概率值，确定语音数据的韵律短语边界。

示例的，可以设置预设概率阈值，当第一文字对应的所有第一音频帧中，概率值大于等于预设概率阈值的第一音频帧的数量大于等于预设数量时，确定第一文字为语音数据的韵律短语边界。例如，可以设置预设概率阈值为0.7，当第一文字“吗”对应的第201至300个第一音频帧中，概率值大于等于0.7的第一音频帧的数量超过预设数量(例如80)时，确定第一文字“吗”为语音数据的韵律短语边界。具体根据每个第一文字对应的第一音频帧的概率值，确定语音数据的韵律短语边界的过程可以根据需求设置，本实施例对此不做限制。

在韵律短语标注中，需要根据韵律短语结尾的停顿和低音线的渐降来确定韵律短语的边界。在语音数据中，每个音频帧的基频值可以表征低音线的变化，而每个音频帧的PPGs可以表征语音数据中的停顿。在模型训练过程中根据每个音频帧的PPGs和基频帧对模型进行训练，可以使模型根据语音数据中的停顿和低音线的变化，确定音频帧是否为韵律短语边界对应的音频帧，进一步的可以确定韵律短语边界。同时，由于PPGs是语音数据的共性，可以使模型针对任何人的语音数据进行识别，确定韵律短语边界，提高了模型的通用性。

综上所述，本发明实施例提供的韵律短语标注方法，获取语音数据，并将语音数据划分为多个第一音频帧，根据多个第一音频帧，确定语音数据中的每个第一文字、每个第一文字分别对应的第一音频帧、以及每个第一音频帧的音素后验概率，并确定每个第一音频帧的基频值，根据第一目标音频帧的基频值和音素后验概率，确定第一目标音频帧的概率值，根据每个第一文字分别对应的第一目标音频帧的概率值，确定语音数据的韵律短语边界。在韵律短语标注过程中，根据每个音频帧的PPGs和基频值确定语音数据的韵律短语边界，可以避免人工对语音数据的韵律短语进行标注，从而快速的确定语音数据的韵律短语边界，提高韵律短语标注的效率。并且，根据语音数据的PPGs和基频值确定韵律短语边界，并不受人为主观音素的干扰，可以提高韵律短语边界的准确性。

图2是本发明实施例提供的另一种韵律短语标注方法的步骤流程图，如图2所示，该方法可以包括：

步骤201、获取语音数据，并将语音数据划分为多个第一音频帧。

步骤202、根据多个第一音频帧，确定语音数据中的每个第一文字、每个第一文字分别对应的第一音频帧、以及每个第一音频帧的音素后验概率，并确定每个第一音频帧的基频值。

步骤203、将第一目标音频帧的音素后验概率输入第二模型，得到第一目标音频帧的第一权重。

步骤204、将第一目标音频帧的第一权重和基频值输入第一模型，得到第一目标音频帧的概率值。

本实施例中，首先可以根据多个样本语音数据和每个样本语音数据的韵律短语边界训练得到第一模型和第二模型，在确定第一音频帧的概率值时，首先可以通过第二模型对每个第一音频帧的PPGs进行处理，得到第一音频帧的第一权重，然后根据第一音频帧的第一权重和基频值，通过第一模型确定第一音频帧的概率值。

示例的，根据多个样本语音数据和每个样本语音数据的韵律短语边界，训练得到第一模型和第二模型的过程可以通过如下方式实现：

B01、获取多个样本语音数据、以及每个样本语音数据的韵律短语边界。

B02、将目标样本语音数据划分为多个第二音频帧，并根据多个第二音频帧，确定目标样本语音数据中的每个第二文字、每个第二文字分别对应的第二音频帧、以及每个第二音频帧的音素后验概率，并确定每个第二音频帧的基频值，目标样本语音数据为多个样本语音数据中的任意一个样本语音数据。

B03、根据每个第二文字分别对应的第二音频帧，设置多个第二音频帧中与目标样本语音数据的韵律短语边界对应的第二音频帧的标签为第一标签、以及设置多个第二音频帧中除与目标样本语音数据的韵律短语边界对应的第二音频帧之外的第二音频帧的标签为第二标签，第一标签与第二标签为不同的标签。

B04、将第二目标音频帧的音素后验概率输入第二预设模型，得到第二目标音频帧的第二权重，第二目标音频帧为多个第二音频帧中的任意一个音频帧。

B05、根据第二目标音频帧的标签、第二权重和基频值对第一预设模型和第二预设模型进行训练，得到第一模型和第二模型。

本实施例中，在模型训练过程中，首先可以根据第二音频帧的PPGs，通过第二预设模型，得到第二音频帧的第二权重。结合上述举例，第二音频帧的PPGs为70维的向量，若第二预设模型(例如BiLSTM)的输入为70维，输出为32维，则将第二音频帧的PPGs输入第二预设模型后，可以得到与第二音频帧对应的32维的向量(第二权重)。

在得到第二权重之后，可以将第二权重和基频值输入第一预设模型。具体的，可以将第二权重和基频值进行拼接，结合步骤A05，可以将32维的第二权重和基频值f0进行拼接，得到第二音频帧的33维的向量，将每个第二音频帧的第二权重和基频值进行拼接，可以得到样本语音数据对应的300行×33列的向量矩阵。将向量矩阵中的每行向量依次输入第一预设模型(第一预设模型的输入为33维)，得到对应的第二结果。

可选的，在将第二权重和基频值输入第一预设模型之前，可以根据每个第二音频帧在样本语音数据中的位置，构建每个第二音频帧的基频向量，例如[f0，X]。可以构建样本语音数据中的第一个第二音频帧的基频向量为[f0，1]、第二个第二音频帧的基频向量为[f0，2]，以及第三个第二音频帧的基频向量为[f0，3]，依次类推构建得到每个第二音频帧的基频向量。

在构建得到每个第二音频帧的基频向量后，可以将每个第二音频帧的基频向量和第二权重进行拼接，得到每个第二音频帧的34维的向量(基频向量为2维)，将每个第二音频帧的34维的向量依次输入第一预设模型，得到对应的第二结果。

本实施例中，在得到第二结果之后，可以根据第二音频帧的标签和对应的第二结果，同时对第一预设模型和第二预设模型进行训练，得到第一模型和第二模型。具体根据第二音频帧的标签和第二结果同时对第一预设模型和第二预设模型进行训练的过程可参考现有技术，本实施例对此不做限制。

相应的，在确定第一音频帧的概率值时，首先可以将第一音频帧的PPGs输入第二模型，得到第一权重，然后将第一音频帧的基频值和第一权重进行拼接后输入第二模型，得到第一音频帧的概率值。

本实施例中，在模型训练过程中，根据第二音频帧的PPGs对第二预设模型进行训练，在应用中可以使第二模型根据语音数据中所有音频帧的PPGs，得到更准确的表征语音数据中停顿的权重参数。进一步的，可以根据权重参数和基频值，得到更准确的韵律短语边界。同时，在模型训练过程中，根据每个第二音频帧在样本语音数据中的位置，构建基频向量，通过第二音频帧在样本语音中的位置对模型进行训练，可以使训练得到的第一模型根据第二音频帧的先后顺序确定语音数据的韵律短语边界，进一步提高韵律短语边界的准确性。

步骤205、根据每个第一文字分别对应的第一目标音频帧的概率值，确定韵律短语边界。

图3是本发明实施例提供的一种韵律短语标注装置的框图，如图3所示，该装置300可以包括：第一获取模块301、第一确定模块302、第二确定模块303和第三确定模块304。

第一获取模块301用于获取语音数据，并将语音数据划分为多个第一音频帧。

第一确定模块302用于根据多个第一音频帧，确定语音数据中的每个第一文字、每个第一文字分别对应的第一音频帧、以及每个第一音频帧的音素后验概率，并确定每个第一音频帧的基频值。

第二确定模块303用于根据第一目标音频帧的基频值和音素后验概率，确定第一目标音频帧的概率值，第一目标音频帧为多个第一音频帧中的任意一个音频帧，概率值表征第一目标音频帧为语音数据的韵律短语边界对应的音频帧的概率。

第三确定模块304用于根据每个第一文字分别对应的第一目标音频帧的概率值，确定韵律短语边界。

可选的，第二确定模块303具体用于将第一目标音频帧的基频值和音素后验概率输入第一模型，得到第一目标音频帧的概率值。

可选的，该装置300还可以包括：第二获取模块、第一划分模块、第一设置模块和第一训练模块。

第二获取模块用于获取多个样本语音数据、以及每个样本语音数据的韵律短语边界。

第一划分模块用于将目标样本语音数据划分为多个第二音频帧，并根据多个第二音频帧，确定目标样本语音数据中的每个第二文字、每个所第二文字分别对应的第二音频帧、以及每个第二音频帧的音素后验概率，并确定每个第二音频帧的基频值，目标样本语音数据为多个样本语音数据中的任意一个样本语音数据。

第一设置模块用于根据每个第二文字分别对应的第二音频帧，设置多个第二音频帧中与目标样本语音数据的韵律短语边界对应的第二音频帧的标签为第一标签、以及设置多个第二音频帧中除与目标样本语音数据的韵律短语边界对应的第二音频帧之外的第二音频帧的标签为第二标签，第一标签与第二标签为不同的标签。

第一训练模块用于根据第二目标音频帧的标签、音素后验概率和基频值对第一预设模型进行训练，得到第一模型，第二目标音频帧为多个第二音频帧中的任意一个音频帧。

可选的，第二确定模块具体用于将第一目标音频帧的音素后验概率输入第二模型，得到第一目标音频帧的第一权重；将第一目标音频帧的基频值和第一权重输入第一模型，得到第一目标音频帧的概率值。

可选的，该装置还可以包括：第三获取模块、第二划分模块、第二设置模块、输入模块和第二训练模块。

第三获取模块用于获取多个样本语音数据、以及每个样本语音数据的韵律短语边界。

第二划分模块用于将目标样本语音数据划分为多个第二音频帧，并根据多个第二音频帧，确定目标样本语音数据中的每个第二文字、每个第二文字分别对应的第二音频帧、以及每个第二音频帧的音素后验概率，并确定每个第二音频帧的基频值，目标样本语音数据为多个样本语音数据中的任意一个样本语音数据。

第二设置模块用于根据每个第二文字分别对应的第二音频帧，设置多个第二音频帧中与目标样本语音数据的韵律短语边界对应的第二音频帧的标签为第一标签、以及设置多个第二音频帧中除与目标样本语音数据的韵律短语边界对应的第二音频帧之外的第二音频帧的标签为第二标签，第一标签与第二标签为不同的标签。

输入模块用于将第二目标音频帧的音素后验概率输入第二预设模型，得到第二目标音频帧的第二权重，第二目标音频帧为多个第二音频帧中的任意一个音频帧。

第二训练模块用于根据第二目标音频帧的标签、第二权重和基频值对第一预设模型和第二预设模型进行训练，得到第一模型和第二模型。

综上所述，本发明实施例提供的韵律短语标注装置，获取语音数据，并将语音数据划分为多个第一音频帧，根据多个第一音频帧，确定语音数据中的每个第一文字、每个第一文字分别对应的第一音频帧、以及每个第一音频帧的音素后验概率，并确定每个第一音频帧的基频值，根据第一目标音频帧的基频值和音素后验概率，确定第一目标音频帧的概率值，根据每个第一文字分别对应的第一目标音频帧的概率值，确定语音数据的韵律短语边界。在韵律短语标注过程中，根据每个音频帧的PPGs和基频值确定语音数据的韵律短语边界，可以避免人工对语音数据的韵律短语进行标注，从而快速的确定语音数据的韵律短语边界，提高韵律短语标注的效率。并且，根据语音数据的PPGs和基频值确定韵律短语边界，并不受人为主观音素的干扰，可以提高韵律短语边界的准确性。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种韵律短语标注方法，其特征在于，所述方法包括：

获取语音数据，并将所述语音数据划分为多个第一音频帧；

2.根据权利要求1所述的方法，其特征在于，所述根据第一目标音频帧的基频值和音素后验概率，确定所述第一目标音频帧的概率值，包括：

3.根据权利要求2所述的方法，其特征在于，在所述将所述第一目标音频帧的基频值和音素后验概率输入第一模型之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据第一目标音频帧的基频值和音素后验概率，确定所述第一目标音频帧的概率值，包括：

5.根据权利要求4所述的方法，其特征在于，在所述将所述第一目标音频帧的音素后验概率输入第二模型，得到所述第一目标音频帧的第一权重之前，还包括：

6.一种韵律短语标注装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第二确定模块具体用于将所述第一目标音频帧的基频值和音素后验概率输入第一模型，得到所述第一目标音频帧的概率值。

8.根据权利要求7所述的装置，其特征在于，还包括：

9.根据权利要求6所述的装置，其特征在于，所述第二确定模块具体用于将所述第一目标音频帧的音素后验概率输入第二模型，得到所述第一目标音频帧的第一权重；将所述第一目标音频帧的基频值和第一权重输入第一模型，得到所述第一目标音频帧的概率值。

10.根据权利要求9所述的装置，其特征在于，还包括：