CN111754978A

CN111754978A - 韵律层级标注方法、装置、设备和存储介质

Info

Publication number: CN111754978A
Application number: CN202010544921.XA
Authority: CN
Inventors: 高正坤
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-10-09
Anticipated expiration: 2040-06-15
Also published as: CN111754978B

Abstract

本申请公开了韵律层级标注方法、装置、设备和存储介质，涉及自然语言处理和深度学习技术领域。具体实现方案为：对待标注文本数据进行处理，得到所述待标注文本数据中音素的文本特征表示；根据所述待标注文本数据和所述待标注文本数据关联的音频数据，确定所述待标注文本数据中音素的声学特征表示；根据所述待标注文本数据中音素的文本特征表示和声学特征表示，确定所述待标注文本数据中音素的组合特征表示；根据所述待标注文本数据中音素的组合特征表示，确定所述待标注文本数据的标注韵律层级信息。本申请技术提高了韵律层级标注的准确度。

Description

韵律层级标注方法、装置、设备和存储介质

技术领域

本申请涉及语音技术领域，尤其涉及自然语言处理和深度学习技术领域，具体涉及一种韵律层级标注方法、装置、设备和存储介质。

背景技术

随着人工智能技术的发展，智能语音交互广泛应用于工作生活的各个领域，例如通过AI(Artificial Intelligence，人工智能)合成主播播报新闻、通过智能音箱播报语音消息等。

语音合成通过将文字信息转化为语音，是智能语音交互的基础。韵律层级标注利用人们发音停顿的特点，根据停顿的时间长度，将韵律分为不同的韵律层级，是影响合成语音自然度的关键因素。

发明内容

本公开提供了一种用于韵律层级标注方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种韵律层级标注方法，包括：

对待标注文本数据进行处理，得到所述待标注文本数据中音素的文本特征表示；

根据所述待标注文本数据和所述待标注文本数据关联的音频数据，确定所述待标注文本数据中音素的声学特征表示；

根据所述待标注文本数据中音素的文本特征表示和声学特征表示，确定所述待标注文本数据中音素的组合特征表示；

根据所述待标注文本数据中音素的组合特征表示，确定所述待标注文本数据的标注韵律层级信息。

根据本公开的另一方面，提供了一种韵律层级标注装置，包括：

文本特征模块，用于对待标注文本数据进行处理，得到所述待标注文本数据中音素的文本特征表示；

声学特征模块，用于根据所述待标注文本数据和所述待标注文本数据关联的音频数据，确定所述待标注文本数据中音素的声学特征表示；

组合特征模块，用于根据所述待标注文本数据中音素的文本特征表示和声学特征表示，确定所述待标注文本数据中音素的组合特征表示；

韵律层级标注模块，用于根据所述待标注文本数据中音素的组合特征表示，确定所述待标注文本数据的标注韵律层级信息。

根据第三方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本申请实施例中任一项所述的韵律层级标注方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如本申请实施例中任一项所述的韵律层级标注方法。

根据本申请的技术提高了韵律层级标注的准确度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例提供的一种韵律层级标注方法的流程示意图；

图2是根据本申请实施例提供的一种韵律层级标注方法的流程示意图；

图3是根据本申请实施例提供的一种韵律层级标注方法的流程示意图；

图4是根据本申请实施例提供的一种韵律层级标注方法的流程示意图；

图5是根据本申请实施例提供的韵律层级标注装置的结构示意图；

图6是用来实现本申请实施例的韵律层级标注方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请实施例提供的一种韵律层级标注方法的流程示意图。本实施例可适用于对待标注文本数据进行韵律层级标注的情况。本实施例公开的韵律层级标注方法可以由电子设备执行，具体可以由韵律层级标注装置来执行，该装置可以由软件和/或硬件的方式实现，配置于电子设备中。参见图1，本实施例提供的韵律层级标注方法包括：

S110、对待标注文本数据进行处理，得到所述待标注文本数据中音素的文本特征表示。

其中，音素是根据语音的自然属性划分的最小语音单位，依据音节里的发音动作进行划分，一个动作构成一个音素。音素分为元音与辅音两大类。需要说明的是，本申请对待标注文本数据的语言类型不作具体限定，例如可以为中文、英文、日语、德语等。为了便于表述，后文主要以中文为例进行说明。其中，音素的文本特征表示可以为第一长度的向量。

具体的，确定待标注文本数据的拼音，并按照音素粒度对拼音进行拆分得到待标注文本数据的音素信息；可以预先构建有候选音素信息与音素特征表示之间关联关系，例如音素特征表示可以为固定长度向量表示，不同候选音素的音素特征表示取值不同；通过将待标注文本数据中的音素信息与该关联关系进行匹配，得到待标注文本数据中音素的文本特征表示。以待标注文本数据为“小明今天上学”为例，得到音素信息为“x、iao、m、ing、j、in、t、ian、sh、ang、x和üe”，通过将识别的音素与该关联关系匹配，确定音素的文本特征表示取值。需要说明的是，中文的韵母音素中还包括声调，针对同一韵母音素，若声调不同，则文本特征表示取值不同。

S120、根据所述待标注文本数据和所述待标注文本数据关联的音频数据，确定所述待标注文本数据中音素的声学特征表示。

在本申请实施例中，音频数据与待标注文本数据关联，即音频数据为待标注文本数据质量满足要求的语音数据。其中，音素的声学特征表示可以为根据音频数据的声学特征表示确定的第二长度的向量，例如根据音频数据的能量特征、频谱特征确定音素的声学特征表示。

具体的，对待标注文本数据和音频数据进行处理，得到音素与音频帧之间关联关系，以及根据音素所关联音频帧的声学特征表示，确定音素的声学特征表示，例如若任一音素关联至少两个音频帧，则可以对至少两个音频帧的声学特征表示求均值，并根据均值确定音素的声学特征表示。

S130、根据所述待标注文本数据中音素的文本特征表示和声学特征表示，确定所述待标注文本数据中音素的组合特征表示。

其中，音素的组合特征表示可以为第三长度的向量。具体的，针对待标注文本数据中的每一音素，拼接该音素的文本特征表示和声学特征表示，得到该音素的组合特征表示，即第三长度等于第一长度与第二长度之和。

S140、根据所述待标注文本数据中音素的组合特征表示，确定所述待标注文本数据的标注韵律层级信息。

其中，标注韵律层级信息可以为韵律词、韵律短语和语调短语中的至少一个。通过提供基于音素粒度的韵律层级标注方式，相比于文字、词语粒度的韵律层级标注，实现了更细粒度处理，提高了韵律层级标注的准确度，从而提高基于韵律层级标注结果合成语音的自然度。并且，音素是中文、英文等多种语言类型均具有的共性特征，因此基于音素粒度的韵律层级标注不仅适用于中文、英文等单一语言场景下具有良好性能，尤其在多种语言类型混用场景例如中英文混用场景具有良好性能。

在一种可选实施方式中，S140包括：将所述待标注文本数据中音素的组合特征表示作为韵律层级标注模型的输入，并根据所述韵律层级标注模型的输出确定所述待标注文本数据的标注韵律层级信息。

其中，韵律层级标注模型可以预先基于神经网络结构训练得到，本申请实施例对神经网络结构不作具体限定，例如神经网络结构可以依次包括第一全连接层、双向LSTM层(Long Short-Term Memory，长短期记忆网络)、第二全连接层和softmax输出层。

具体的，对样本文本数据进行处理得到样本文本数据中音素的文本特征表示；根据样本文本数据和关联的样本音频数据确定样本文本数据中音素的声学特征表示；拼接样本文本数据中音素的文本特征表示和声学特征表示，得到样本文本数据中音素的组合特征表示；将样本文本数据中音素的组合特征表示作为韵律层级标注模型的输入，根据韵律层级标注模型的输出和样本文本数据的韵律层级标注信息对韵律层级标注模型进行训练。并且，通过根据音素的组合特征表示训练韵律层级标注模型，相比于分别根据音素的文本特征表示和声学特征表示进行训练，能够提高模型的鲁棒性。

本申请实施例的技术方案，通过根据音素粒度的文本特征表示和声学特征表示得到音素粒度的组合特征表示，实现了基于音素粒度的韵律层级标注方式，无需人工标注，提高了韵律层级标注的准确度和一致性，从而提高了语音合成的自然度，尤其在多语种混用场景下具有良好性能。

图2是根据本申请实施例提供的一种韵律层级标注方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图2，本实施例提供的韵律层级标注方法包括：

S210、对待标注文本数据进行处理，得到所述待标注文本数据中音素的文本特征表示。

S220、对所述待标注文本数据和所述待标注文本数据关联的音频数据进行对齐，得到所述待标注文本数据中音素的音频时长区间。

其中，音素的音频时长区间是指音素关联的音频的起始时间与终止时间之间的时长。具体的，通过音素对齐工具，得到音素的音频时长区间。

S230、根据所述音素的音频时长区间，对所述音频数据进行处理，得到所述待标注文本数据中音素的声学特征表示。

具体的，根据音素的音频时长区间确定音素关联的至少一个音频帧，将至少一个音频帧的声学特征表示映射到音素上，得到音素的声学特征表示。

在一种可选实施方式中，S230包括：对所述音频数据进行处理，得到所述音素的音频时长区间中音频帧的小波变换能量特征；通过离散余弦变换对所述音频帧的小波变换能量特征进行压缩，得到所述待标注文本数据中音素的声学特征表示。

具体的，确定音素关联的每一音频帧的能量特征，通过连续小波变换得到该音频帧的小波变换特征，通过离散余弦变换对各音频帧的小波变换特征进行压缩，得到音素的声学特征表示。例如某一音素关联有3个音频帧，每一音频帧的小波变换特征是10维向量，音素的声学特征表示是5维向量，则可以通过离散余弦变换(Discrete Cosine Transform，DCT)将3×10的二维向量压缩为1×5的一维向量，即得到音素的声学特征表示。通过将音素关联的各音频帧的特征表示压缩为音素的声学特征表示表示，得到了音素粒度的声学特征表示，是后续基于音素粒度的韵律层级标注的基础。

S240、根据所述待标注文本数据中音素的文本特征表示和声学特征表示，确定所述待标注文本数据中音素的组合特征表示。

S250、根据所述待标注文本数据中音素的组合特征表示，确定所述待标注文本数据的标注韵律层级信息。

本申请实施例的技术方案，通过对齐工具确定音素关联的音频帧，将音频帧的声学特征表示压缩为音素的声学特征表示，以及基于音素粒度进行韵律层级标注，进一步提高了韵律层级标注的准确度。

图3是根据本申请实施例提供的一种韵律层级标注方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图3，本实施例提供的韵律层级标注方法包括：

S310、确定所述待标注文本数据的音素信息和初始韵律层级信息。

其中，初始韵律层级信息可以包括音节、韵律词、韵律短语和语调短语中的至少一种。根据待标注文本数据初步进行韵律层级预测，得到初始韵律层级信息。具体的，可以将待标注文本数据作为预先训练得到的文本韵律层级预测模型的输入，得到初始韵律层级信息。其中，文本韵律层级预测模型根据样本文本以及样本文本的韵律层级标注信息训练得到。仍以“小明今天上学为例”，初始韵律层级特征为小(音节)明(韵律词)今(音节)天(韵律词)上(音节)学(韵律词)。

S320、根据所述音素信息和所述初始韵律层级信息，确定所述待标注文本数据中音素的文本特征表示。

在本实施例中，可以将待标注文本数据中的音素信息，与预先构建有候选音素信息和音素特征表示之间关联关系进行匹配，得到音素的第一特征表示；根据初始韵律层级信息得到音素的第二特征表示；拼接音素的第一特征表示和第二特征表示得到音素的文本特征表示。

具体的，在确定音素的第二特征过程中，可以得到每一文字关联的初始韵律层级特征，将该文字关联的初始韵律层级特征表示作为该文字中各音素的第二特征表示。例如，以0、1、2和3分别表示音节、韵律词、韵律短语和语调短语，针对小(音节)，可以将音节的特征表示0分别作为音素x和iao的第二特征表示。通过在音素的文本特征表示中引入初始韵律层级特征表示，即在模型训练阶段韵律层级标注模型学习韵律特征，使得模型引入韵律词边界信息，后续模型预测更准确。

需要说明的是，可以根据音素信息和初始韵律层级信息中的韵律词信息，确定待标注文本数据中音素的文本特征表示。在音素的文本特征表示构建过程中通过引入韵律词，而不引入韵律短语和语调短语，能够避免韵律短语和语调短语预测准确度较低所导致的模型性能下降。

S330、根据所述待标注文本数据和所述待标注文本数据关联的音频数据，确定所述待标注文本数据中音素的声学特征表示。

S340、根据所述待标注文本数据中音素的文本特征表示和声学特征表示，确定所述待标注文本数据中音素的组合特征表示。

S350、根据所述待标注文本数据中音素的组合特征表示，确定所述待标注文本数据的标注韵律层级信息。

具体的，可以将所述待标注文本数据中音素的组合特征表示作为韵律层级标注模型的输入，并根据所述韵律层级标注模型的输出确定所述待标注文本数据的标注韵律层级信息。

在一种可选实施方式中，S350之后还包括：根据所述标注韵律层级信息关联的音频时长区间，确定所述标注韵律层级信息关联的音频静音时长；根据所述音频静音时长和所述韵律层级标注模型输出的预测概率，对所述待标注文本数据的标注韵律层级信息进行调整。

具体的，通过对齐工具，将待标注文本数据中文字与音频数据对齐，得到文字关联音频时长区间；结合文字与标注韵律层级信息之间关联关系，以文字为中介，建立标注韵律层级信息与音频时长区间之间关联关系，以及确定标注韵律层级信息关联的音频静音时长。

其中，韵律层级标注为多分类任务，分类结果可以为音节、韵律词、韵律短语或语调短语，一般将韵律层级标注模型在边界位置处(即停顿位置处)输出的第一预测概率值(即最大预测概率值)所关联的韵律层级类型作为边界位置处的标注韵律层级信息。结合音频静音时长(即音频停顿时长)与标注韵律层级信息之间关系，若检测到存在明显错误的标注韵律层级信息，则根据预测概率对标注韵律层级信息进行调整。例如若检测到标注韵律层级信息为语调短语，而音频静音时长过短，或者标注韵律层级信息为韵律词，而音频静音时长过长，则进行调整。根据韵律层级与音频静音时长(即停顿时长)之间的关系，对明显错误的标注韵律层级信息进行调整，进一步提高韵律层级标注的准确度。

在一种可选实施方式中，若所述待标注文本数据中任一位置处的标注韵律层级信息为语调短语，且该标注韵律层级信息关联的音频静音时长小于静音时长阈值，则将所述韵律层级标注模型在该位置处输出的第二预测概率所属的韵律层级信息作为该位置处的标注韵律层级信息。其中，静音时长阈值可以为经验值，例如为150ms。其中，第二预测概率即韵律层级标注模型输出的第二大预测概率，第二预测概率所属的韵律层级信息可以为韵律词或韵律短语。通过结合语调短语的停顿时长特征，将停顿过短的语调短语排除，提高语调短语的预测精度。

本申请实施例的技术方案，通过确定音素粒度的文本特征表示和声学特征表示，实现了基于音素粒度的韵律层级标注，在文本特征表示中引入韵律词边界信息，使得韵律标注模型能够学习韵律词边界信息，根据音频静音时长对明显错误的标注韵律层级信息进行调整，提高了韵律层级标注的准确度，从而提高后续语音合成的流畅度。并且，无需依赖人工，提高了韵律层级标注的效率和一致性。

图4是根据本申请实施例提供的一种韵律层级标注方法的示意图。参考图4，本申请实施例提供的韵律层级标注方案包括特征提取阶段和模型处理阶段。

在特征提取阶段，提取待标注文本数据的音素信息，基于文本韵律层级预测模型确定待标注文本数据的初级韵律层级信息；根据音素信息和初始韵律层级信息分别确定音素的第一特征和第二特征，拼接音素的第一特征和第二特征得到音素的文本特征表示。

通过音素对齐工具，对待标注文本数据和关联的音频数据进行音素对齐，得到音素的音频时长区间。确定每一音频帧的能量特征，通过连续小波变换，得到音频帧的小波变换特征；针对每一音素，根据该音素的音频时长区间，得到该音素对应的各音频帧的小波变换特征，并通过离散余弦变换将各音频帧的小波变换特征进行压缩得到该音素的声学特征表示。拼接音素的文本特征表示和声学特征表示，得到音素的组合特征表示。

模型处理阶段包括模型训练阶段和模型预测阶段。在模型训练阶段，根据样本文本数据中音素的组合特征表示和样本文本数据的韵律层级，对模型进行训练。在模型使用阶段，将待标注文本数据中音素的组合特征表示作为模型的输入，得到模型预测的标注韵律层级信息。

此外，还可以通过静音检测确定标注韵律层级关联的静音时长；若静音时长与标注韵律层级的静音时长阈值不符，则标注韵律层级明显预测错误，还对标注韵律层级进行调整，例如将模型预测输出的第二大概率值对应的韵律层级作为最终的韵律层级。

上述技术方案通过确定音素粒度的组合特征表示，实现了基于音素粒度的韵律层级标注方式，无需依赖人工，提高了韵律层级标注效率和一致性。

图5是根据本申请实施例提供的韵律层级标注装置的结构示意图。参见图5，本申请实施例公开了韵律层级标注装置400，该装置400包括：

文本特征模块401，用于对待标注文本数据进行处理，得到所述待标注文本数据中音素的文本特征表示；

声学特征模块402，用于根据所述待标注文本数据和所述待标注文本数据关联的音频数据，确定所述待标注文本数据中音素的声学特征表示；

组合特征模块403，用于根据所述待标注文本数据中音素的文本特征表示和声学特征表示，确定所述待标注文本数据中音素的组合特征表示；

韵律层级标注模块404，用于根据所述待标注文本数据中音素的组合特征表示，确定所述待标注文本数据的标注韵律层级信息。

可选的，所述声学特征表示模块402包括：

数据对齐单元，用于对所述待标注文本数据和所述待标注文本数据关联的音频数据进行对齐，得到所述待标注文本数据中音素的音频时长区间；

声学特征单元，用于根据所述音素的音频时长区间，对所述音频数据进行处理，得到所述待标注文本数据中音素的声学特征表示。

可选的，所述声学特征表示单元包括：

能量特征子单元，用于对所述音频数据进行处理，得到所述音素的音频时长区间中音频帧的小波变换能量特征；

声学特征子单元，用于对所述音频帧的小波变换能量特征进行压缩，得到所述待标注文本数据中音素的声学特征表示。

可选的，所述文本特征表示模块401包括：

文本信息单元，用于确定所述待标注文本数据的音素信息和初始韵律层级信息；

文本特征单元，用于根据所述音素信息和所述初始韵律层级信息，确定所述待标注文本数据中音素的文本特征表示。

可选的，所述韵律层级标注模块404具体用于：

将所述待标注文本数据中音素的组合特征表示作为韵律层级标注模型的输入，并根据所述韵律层级标注模型的输出确定所述待标注文本数据的标注韵律层级信息。

可选的，所述装置还包括韵律层级调整模块，所述韵律层级调整模块包括：

静音时长单元，用于根据所述标注韵律层级信息关联的音频时长区间，确定所述标注韵律层级信息关联的音频静音时长；

韵律层级调整单元，用于根据所述音频静音时长和所述韵律层级标注模型输出的预测概率，对所述待标注文本数据的标注韵律层级信息进行调整。

可选的，所述韵律层级调整单元具体用于：

若所述待标注文本数据中任一位置处的标注韵律层级信息为语调短语，且该标注韵律层级信息关联的音频静音时长小于静音时长阈值，则将所述韵律层级标注模型在该位置处输出的第二预测概率所属的韵律层级信息作为该位置处的标注韵律层级信息。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的韵律层级标注的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的韵律层级标注的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的韵律层级标注的方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的韵律层级标注的方法对应的程序指令/模块(例如，附图5所示的文本特征模块401、声学特征模块402、组合特征模块403和韵律层级标注模块404)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的韵律层级标注的方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据韵律层级标注的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至韵律层级标注的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

韵律层级标注的方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与韵律层级标注的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种韵律层级标注方法，包括：

2.根据权利要求1所述的方法，其中，所述根据所述待标注文本数据和所述待标注文本数据关联的音频数据，确定所述待标注文本数据中音素的声学特征表示，包括：

对所述待标注文本数据和所述待标注文本数据关联的音频数据进行对齐，得到所述待标注文本数据中音素的音频时长区间；

根据所述音素的音频时长区间，对所述音频数据进行处理，得到所述待标注文本数据中音素的声学特征表示。

3.根据权利要求2所述的方法，其中，所述根据所述音素的音频时长区间，对所述音频数据进行处理，得到所述待标注文本数据中音素的声学特征表示，包括：

对所述音频数据进行处理，得到所述音素的音频时长区间中音频帧的小波变换能量特征；

对所述音频帧的小波变换能量特征进行压缩，得到所述待标注文本数据中音素的声学特征表示。

4.根据权利要求1所述的方法，其中，所述对待标注文本数据进行处理，得到所述待标注文本数据中音素的文本特征表示，包括：

确定所述待标注文本数据的音素信息和初始韵律层级信息；

根据所述音素信息和所述初始韵律层级信息，确定所述待标注文本数据中音素的文本特征表示。

5.根据权利要求1所述的方法，其中，所述根据所述待标注文本数据中音素的组合特征表示，确定所述待标注文本数据的标注韵律层级信息，包括：

6.根据权利要求5所述的方法，确定所述待标注文本数据的标注韵律层级信息之后，还包括：

根据所述标注韵律层级信息关联的音频时长区间，确定所述标注韵律层级信息关联的音频静音时长；

根据所述音频静音时长和所述韵律层级标注模型输出的预测概率，对所述待标注文本数据的标注韵律层级信息进行调整。

7.根据权利要求6所述的方法，其中，所述根据所述音频静音时长，对所述待标注文本数据的标注韵律层级信息进行调整，包括：

8.一种韵律层级标注装置，包括：

9.根据权利要求8所述的装置，其中，所述声学特征表示模块包括：

10.根据权利要求9所述的装置，其中，所述声学特征表示单元包括：

11.根据权利要求8所述的装置，其中，所述文本特征表示模块包括：

12.根据权利要求8所述的装置，其中，所述韵律层级标注模块具体用于：

13.根据权利要求12所述的装置，还包括韵律层级调整模块，所述韵律层级调整模块包括：

14.根据权利要求13所述的装置，其中，所述韵律层级调整单元具体用于：

15.一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。