CN109300468A

CN109300468A - 一种语音标注方法及装置

Info

Publication number: CN109300468A
Application number: CN201811063799.3A
Authority: CN
Inventors: 丁闯; 李栋梁; 江源; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2019-02-01
Anticipated expiration: 2038-09-12
Also published as: CN109300468B

Abstract

本申请公开了一种语音标注方法及装置，该方法包括：在获取到用户朗读初始录音文本时录制得到的语音后，可以将其作为待标注的录制语音，然后，根据该录制语音的识别文本对初始录音文本进行修正，以得到目标录音文本，接着，可以根据目标录音文本对录制语音进行韵律标注。可见，本申请实施例不再完全根据初始录音文本对录制语音进行语音标注，而是利用与用户的录制语音在内容上更一致的修正后录音文本对其进行语音标注，可以提高语音标注结果的准确率。

Description

一种语音标注方法及装置

技术领域

本申请涉及信号处理技术领域，尤其涉及一种语音标注方法及装置。

背景技术

随着科技的发展，个性化合成定制需求也变得越来越多，其中一种需求就是构建个性化语音音库。为了构建个性化语音音库，需要对提供的录音文本进行朗读，得到用户自己的录制语音，在语音录制完成后，需要对这些录制语音进行标注，包括对录制语音进行读音标注以及进行韵律边界标注，从而应用于语音合成、语音评测等需要对音库中的语音进行标注的语音应用技术中。

现有的个性化合成系统在对录制语音进行标注时，是根据提供的录音文本对录制语音进行读音标注以及进行韵律边界标注，但是，用户在语音录制时并不一定会完全按照提供的录音文本进行录音，很容易出现多字少字甚至错字的情况，从而造成提供的录音文本与录制语音不对应的情况，进而在根据录音文本进行读音以及韵律边界标注时，将导致标注结果与录制语音不对应，即标注错误。

发明内容

本申请实施例的主要目的在于提供一种语音标注方法及装置，能够提高语音标注结果的准确性。

本申请实施例提供了一种语音标注方法，包括：

获取待标注的录制语音，所述录制语音是在用户朗读初始录音文本时录制得到的语音；

根据所述录制语音的识别文本对所述初始录音文本进行修正，得到目标录音文本，所述目标录音文本与所述录制语音在内容上的重合度高于所述初始录音文本与所述录制语音在内容上的重合度；

根据所述目标录音文本对所述录制语音进行韵律标注。

可选的，所述根据所述录制语音的识别文本对所述初始录音文本进行修正，包括：

将所述录制语音的识别文本与所述初始录音文本进行逐字匹配；

若匹配上的两个字不是同音字，则在所述初始录音文本中，利用所述两个字中的属于所述识别文本的字替换属于所述初始录音文本的字；

若所述初始录音文本中存在未匹配上的字，则将未匹配上的字在所述初始录音文本中去除；

若所述识别文本中存在未匹配上的字，则将未匹配上的字在所述初始录音文本中增加。

可选的，所述根据所述目标录音文本对所述录制语音进行韵律标注，包括：

根据所述目标录音文本对所述录制语音进行读音标注和/或韵律边界标注。

可选的，所述根据所述目标录音文本对所述录制语音进行读音标注，包括：

根据所述目标录音文本对所述录制语音进行读音标注，得到初始读音标注结果；

对所述初始读音标注结果进行修正，得到目标读音标注结果，所述目标读音标注结果与所述录制语音在读音上的符合度高于所述初始读音标注结果与所述录制语音在读音上的符合度。

可选的，所述根据所述目标录音文本对所述录制语音进行韵律边界标注，包括：

根据所述目标录音文本对所述录制语音进行韵律边界标注，得到初始韵律标注结果；

对所述初始韵律标注结果进行修正，得到目标韵律标注结果，所述目标韵律标注结果与所述录制语音在韵律边界上的符合度高于所述初始韵律标注结果与所述录制语音在韵律边界上的符合度。

可选的，所述对所述初始韵律标注结果进行修正，包括：

根据所述录制语音中字与字之间的停顿时长以及所述录制语音的声学特征，对所述初始韵律标注结果进行修正。

可选的，所述根据所述录制语音中字与字之间的停顿时长以及所述录制语音的声学特征，对所述初始韵律标注结果进行修正，包括：

根据所述录制语音中字与字之间的停顿时长，对所述初始韵律标注结果的各个已标注韵律边界进行重新预测，以筛选出其中的韵律短语边界；

根据所述录制语音的声学特征，对筛选剩下的每一已标注韵律边界进行重新预测，以确定所述筛选剩下的已标注韵律边界为韵律短语边界或韵律词边界；

将各个已标注韵律边界的预测结果，作为所述初始韵律标注结果的修正结果。

可选的，所述根据所述录制语音中字与字之间的停顿时长，对所述初始韵律标注结果的各个已标注韵律边界进行重新预测，包括：

确定所述录制语音在所述已标注韵律边界处的停顿时长；

若所述停顿时长大于预设时长阈值，则将所述已标注韵律边界重新预测为所述韵律短语边界。

可选的，所述根据所述录制语音的声学特征，对筛选剩下的每一已标注韵律边界进行重新预测，包括：

从所述录制语音中获取待预测韵律边界之前的N个音帧以及所述待预测韵律边界之后的M个音帧，所述待预测韵律边界为所述筛选剩下的任一已标注韵律边界；

确定所述N个音帧的第一基频均值与所述M个音帧的第二基频均值；

根据所述第一基频均值与所述第二基频均值之间的比较结果，对所述待预测韵律边界进行重新预测。

本申请实施例还提供了一种语音标注装置，包括：

录制语音获取单元，用于获取待标注的录制语音，所述录制语音是在用户朗读初始录音文本时录制得到的语音；

录音文本修正单元，用于根据所述录制语音的识别文本对所述初始录音文本进行修正，得到目标录音文本，所述目标录音文本与所述录制语音在内容上的重合度高于所述初始录音文本与所述录制语音在内容上的重合度；

语音韵律标注单元，用于根据所述目标录音文本对所述录制语音进行韵律标注。

可选的，所述录音文本修正单元包括：

文本匹配子单元，用于将所述录制语音的识别文本与所述初始录音文本进行逐字匹配；

文字替换子单元，用于若匹配上的两个字不是同音字，则在所述初始录音文本中，利用所述两个字中的属于所述识别文本的字替换属于所述初始录音文本的字；

文字去除子单元，用于若所述初始录音文本中存在未匹配上的字，则将未匹配上的字在所述初始录音文本中去除；

文字增加子单元，用于若所述识别文本中存在未匹配上的字，则将未匹配上的字在所述初始录音文本中增加。

可选的，所述语音韵律标注单元包括：

读音标注子单元，具体用于根据所述目标录音文本对所述录制语音进行读音标注；

和/或；

韵律边界标注子单元，用于根据所述目标录音文本对所述录制语音进行韵律边界标注。

可选的，所述读音标注子单元包括：

第一结果获得子单元，用于根据所述目标录音文本对所述录制语音进行读音标注，得到初始读音标注结果；

第二结果获得子单元，用于对所述初始读音标注结果进行修正，得到目标读音标注结果，所述目标读音标注结果与所述录制语音在读音上的符合度高于所述初始读音标注结果与所述录制语音在读音上的符合度。

可选的，所述韵律边界标注子单元包括：

第三结果获得子单元，用于根据所述目标录音文本对所述录制语音进行韵律边界标注，得到初始韵律标注结果；

第四结果获得子单元，用于对所述初始韵律标注结果进行修正，得到目标韵律标注结果，所述目标韵律标注结果与所述录制语音在韵律边界上的符合度高于所述初始韵律标注结果与所述录制语音在韵律边界上的符合度。

可选的，所述第四结果获得子单元，具体用于根据所述录制语音中字与字之间的停顿时长以及所述录制语音的声学特征，对所述初始韵律标注结果进行修正。

可选的，所述第四结果获得子单元包括：

第一重新预测子单元，用于根据所述录制语音中字与字之间的停顿时长，对所述初始韵律标注结果的各个已标注韵律边界进行重新预测，以筛选出其中的韵律短语边界；

第二重新预测子单元，用于根据所述录制语音的声学特征，对筛选剩下的每一已标注韵律边界进行重新预测，以确定所述筛选剩下的已标注韵律边界为韵律短语边界或韵律词边界；

修正结果获得子单元，用于将各个已标注韵律边界的预测结果，作为所述初始韵律标注结果的修正结果。

可选的，所述第一重新预测子单元包括：

停顿时长确定子单元，用于确定所述录制语音在所述已标注韵律边界处的停顿时长；

韵律短语确定子单元，用于若所述停顿时长大于预设时长阈值，则将所述已标注韵律边界重新预测为所述韵律短语边界。

可选的，所述第二重新预测子单元包括：

音帧获取子单元，用于从所述录制语音中获取待预测韵律边界之前的N个音帧以及所述待预测韵律边界之后的M个音帧，所述待预测韵律边界为所述筛选剩下的任一已标注韵律边界；

基频均值确定子单元，用于确定所述N个音帧的第一基频均值与所述M个音帧的第二基频均值；

第三重新预测子单元，用于根据所述第一基频均值与所述第二基频均值之间的比较结果，对所述待预测韵律边界进行重新预测。

本申请实施例还提供了一种语音标注装置，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音标注方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音标注方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音标注方法中的任意一种实现方式。

本申请实施例提供的一种语音标注方法及装置，在获取到用户朗读初始录音文本时录制得到的语音后，可以将其作为待标注的录制语音，然后，根据该录制语音的识别文本对初始录音文本进行修正，以得到目标录音文本，其中，目标录音文本与录制语音在内容上的重合度要高于初始录音文本与录制语音在内容上的重合度，接着，可以根据目标录音文本对录制语音进行韵律标注。可见，本申请实施例不再根据初始录音文本对录制语音进行语音标注，而是利用与用户的录制语音在内容上更一致的修正后录音文本对其进行语音标注，可以提高语音标注结果的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音标注方法的流程示意图；

图2为本申请实施例提供的根据目标录音文本对录制语音进行读音标注的流程示意图；

图3为本申请实施例提供的根据目标录音文本对录制语音进行韵律边界标注的流程示意图；

图4为本申请实施例提供的一种语音标注装置的组成示意图。

具体实施方式

在一些语音标注方法中，通常是完全依据系统提供的录音文本对录制语音进行读音标注和韵律边界标注，例如，假设录音文本为“因为不论是我们同行或者竞争对手，对这个结果都是那样的态度”，则根据该录音文本对录制语音进行读音标注的结果为“yin1wei2bu2lun4shi4wo3men0tong2hang2huo4zhe3jing4zheng1dui4shou3dui4zhe4ge4jie2guo3dou1shi4na4yang4de0tai4du4”，其中，数字表示的是汉语音节的声调，相应的，韵律边界标注结果可以为“因为*不论*是*我们*同行#或者*竞争*对手，对*这个*结果#都是*那样的*态度”，其中，“*”和“#”为韵律边界标识符，“*”用于标识韵律词边界，而“#”用于标识韵律短语边界。

但是，用户在录制语音时，并不一定会完全按照系统提供的录音文本进行录音，很容易出现多字、少字甚至错字的情况，造成录制语音与系统提供的录音文本在内容上不完全对应。此时，由于录制语音与系统提供的录音文本不一致，如果仍依据系统提供的录音文本对录制语音进行读音标注和韵律边界标注，将导致标注错误。

为解决上述缺陷，本申请实施例提供了一种语音标注方法，在获取到用户朗读系统提供的录音文本时录制得到的语音后，不再完全依据录音文本对用户的录制语音进行语音标注(读音标注和/或韵律边界标注)，而是先对用户的录制语音进行语音识别得到识别文本，然后再利用该识别文本对录音文本进行修正，以得到修正后的录音文本，使得修正后的录音文本与用户的录制语音在内容上更加一致，进而可以根据修正后的录音文本对用户的录制语音进行语音标注。可见，利用与用户的录制语音在内容上更一致的修正后录音文本对其进行语音标注，可以提高语音标注结果的准确率。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种语音标注方法的流程示意图，该方法包括以下步骤：

S101：获取待标注的录制语音，其中，录制语音是在用户朗读初始录音文本时录制得到的语音。

在本实施例中，将需要进行语音标注的录制语音定义为待标注的录制语音，该待标注的录制语音指的是在用户朗读初始录音文本时录制得到的语音，其中，初始录音文本指的是系统提供给用户用以录制个性化语音的录音文本。需要说明的是，本实施例不限制待标注的录制语音的语种，比如，录制语音可以是中文构成的语音、或英文构成的语音等。

S102：根据录制语音的识别文本对初始录音文本进行修正，得到目标录音文本，其中，目标录音文本与录制语音在内容上的重合度高于初始录音文本与录制语音在内容上的重合度。

在本实施例中，通过步骤S101获取到待标注的录制语音后，可以利用现有或未来出现的语音识别方法对其进行语音识别，得到该录制语音对应的识别文本。并且，由于用户在朗读初始录音文本时可能出现多字、少字甚至错字的情况，会造成录制语音与初始录音文本不完全对应，例如，用户朗读初始录音文本时可能习惯加入一些“嗯”、“啊”、“了”等字，这种情况将直接导致录制语音与初始录音文本在内容上不完全对应，以至于后续在根据初始录音文本对录制语音进行读音以及韵律边界标注时，可能会导致标注结果与录制语音不对应，即标注错误。

此时，为了提高录音文本与录制语音的一致性，进而提升语音标注结果的准确率，可以根据录制语音对应的识别文本对初始录音文本进行修正，得到目标录音文本，使得目标录音文本与录制语音在内容上的重合度高于初始录音文本与录制语音在内容上的重合度，其中，内容上的重合度指的是与录制语音在内容上的一致性或匹配度，也就是说，相比于初始录音文本，目标录音文本与录制语音在内容上的一致性或匹配度更高，进而可通过步骤S103对其进行语音标注，提高语音标注结果的准确率。

在本实施例的一种实现方式中，S102具体可以包括步骤A-D：

步骤A：将录制语音的识别文本与初始录音文本进行逐字匹配。

在本实现方式中，通过对待标注的录制语音进行语音识别(比如逐字或逐词进行识别)，得到识别文本后，为了对初始录音文本进行修正，可以将录制语音的识别文本与初始录音文本进行逐字匹配，其中，逐字匹配指的是将识别文本中的每个字按语义依次与初始录音文本中的每个字进行比对。

例如，假设初始录音文本为“因为不论是我们同行或者竞争对手”，而识别文本为“因为不管是我们的同行，嗯，或者竞争对手”，则将识别文本中的每个字按语义依次与初始录音文本中的每个字进行比对时，得到比对结果如表1所示，其中，双向箭头对应的两个字是匹配上的两个字，比如“管”和“论”就是匹配上的两个字，而“嗯”是识别文本中未与初始录音文本匹配上的字。

表1

步骤B：若匹配上的两个字不是同音字，则在初始录音文本中，利用两个字中的属于识别文本的字替换属于初始录音文本的字。

在本实现方式中，通过步骤A将录制语音的识别文本与初始录音文本进行逐字匹配后，若匹配上的两个字不是同音字，则在初始录音文本中，利用两个字中的属于识别文本的字替换属于初始录音文本的字，从而实现对初始录音文本的修正。

例如，基于上述表1中的举例，在将识别文本与初始录音文本进行逐字匹配时，“管”和“论”就是匹配上的两个字，这两个字不是同音字，则在根据识别文本对初始录音文本进行修正时，在初始录音文本“因为不论是我们同行或者竞争对手”中，用“管”替换“论”。

但若通过步骤A将录制语音的识别文本与初始录音文本进行逐字匹配后，匹配上的两个字是同音字，则以初始录音文本为准，不对其进行修正。

步骤C：若初始录音文本中存在未匹配上的字，则将未匹配上的字在初始录音文本中去除。

在本实现方式中，通过步骤A将录制语音的识别文本与初始录音文本进行逐字匹配后，若初始录音文本中存在未匹配上的字，则将该未匹配上的字在初始录音文本中去除。例如，假设初始录音文本为“因为不论是我们同行或者竞争对手”，而识别文本为“因为不论我们同行或者竞争对手”，在将识别文本与初始录音文本进行逐字匹配的过程中，发现在初始录音文本中存在未匹配上的字“是”，则可以在根据识别文本对初始录音文本进行修正时，将该未匹配上的字“是”从初始录音文本中去除。

但若通过步骤A将录制语音的识别文本与初始录音文本进行逐字匹配后，未发现初始录音文本中存在未匹配上的字，则在对初始录音文本进行修正时，可以不对初始录音文本进行去字处理。

步骤D：若识别文本中存在未匹配上的字，则将未匹配上的字在初始录音文本中增加。

在本实现方式中，通过步骤A将录制语音的识别文本与初始录音文本进行逐字匹配后，若识别文本中存在未匹配上的字，则可以将该未匹配上的字在初始录音文本中增加。例如，基于上述表1中的举例，假设初始录音文本为“因为不论是我们同行或者竞争对手”，而识别文本为“因为不管是我们的同行，嗯，或者竞争对手”，则在将识别文本中的每个字按语义依次与初始录音文本中的每个字进行比对时，发现识别文本中存在未匹配上的字“嗯”，则可以在根据识别文本对初始录音文本进行修正时，将该未匹配上的字添加到初始录音文本中的对应位置上。

但若通过步骤A将录制语音的识别文本与初始录音文本进行逐字匹配后，未发现识别文本中存在未匹配上的字，则在对初始录音文本进行修正时，无需对初始录音文本进行添字处理。

可以理解的是，通过上述步骤S102可以生成与录制语音在内容上重合度更高的目标录音文本。需要说明的是，若通过步骤A将录制语音的识别文本与初始录音文本进行逐字匹配后，发现识别文本与初始录音文本完全一致，则可以以初始录音文本作为目标录音文本，存入数据库，用于后续通过步骤S103实现语音标注。

S103：根据目标录音文本对录制语音进行韵律标注。

在本实施例中，通过步骤S102获取到目标录音文本后，基于该目标录音文本与录制语音在内容上的高重合度，可以根据该目标录音文本对录制语音进行韵律标注，其中，韵律标注指的是对录制语音中具有语言学功能的韵律特征进行定性描写，韵律标注涉及多个方面的标注，比如语音标注、韵律边界标注等。

因此，在本实施例的一种实现方式中，步骤S103具体可以包括：根据目标录音文本对录制语音进行读音标注和/或韵律边界标注。在本实现方式中，通过步骤S102获取到目标录音文本后，可以根据目标录音文本对录制语音进行读音标注和/或韵律边界标注，其中，读音标注可以用声韵母序列进行表示，韵律边界标注可以通过韵律边界标识符进行区分表示。例如，假设目标录音文本为“因为不论是我们同行或者竞争对手，对这个结果都是那样的态度”，则根据该目标录音文本对录制语音进行读音标注的结果为“yin1wei2bu2lun4shi4wo3men0tong2hang2huo4zhe3jing4zheng1dui4shou3dui4zhe4ge4jie2guo3dou1shi4na4yang4de0tai4du4”，其中数字表示的是汉语音节的声调，相应的，韵律边界标注结果为“因为*不论*是*我们*同行#或者*竞争*对手，对*这个*结果#都是*那样的*态度”，其中，“*”和“#”为韵律边界标识符，“*”用于标识韵律词边界，而“#”用于标识韵律短语边界。

其中，韵律词指的是一组在实际语流中联系密切的，经常连在一起发音的音节；韵律短语指的是自然语言交流中，由若干个字或词组成的具有稳定韵律模式的语言单位。

需要说明的是，具体的根据目标录音文本对录制语音进行读音标注的实现过程可参见后续第二实施例的相关介绍；而根据目标录音文本对录制语音进行韵律边界标注的具体实现过程可参见后续第三实施例的相关介绍。

综上，本实施例提供的一种语音标注方法，在获取到用户朗读初始录音文本时录制得到的语音后，可以将其作为待标注的录制语音，然后，根据该录制语音的识别文本对初始录音文本进行修正，以得到目标录音文本，其中，目标录音文本与录制语音在内容上的重合度要高于初始录音文本与录制语音在内容上的重合度，接着，可以根据目标录音文本对录制语音进行韵律标注。可见，本申请实施例不再根据初始录音文本对录制语音进行语音标注，而是利用与用户的录制语音在内容上更一致的修正后录音文本对其进行语音标注，可以提高语音标注结果的准确率。

第二实施例

本实施例将对第一实施例中“根据目标录音文本对录制语音进行读音标注”的具体实现过程进行介绍。

参见图2，其示出了本实施例提供的根据目标录音文本对录制语音进行读音标注的流程示意图，该流程包括以下步骤：

S201：根据目标录音文本对录制语音进行读音标注，得到初始读音标注结果。

在本实施例中，在通过步骤S102获取到目标录音文本后，可以采用现有或未来出现的读音自动标注方法对其进行读音标注，得到初始读音标注结果，比如，可以利用现有的通过有监督方式构建的预测模型自动预测目标录音文本中每个字对应的读音，该读音是基于词典中记录的读音预测得到的，从而得到初始读音标注结果，该初始读音标注结果可以是目标录音文本对应的声韵母组合序列，比如，若目标录音文本为“我们同行”，则目标录音文本的初始读音标注结果可以为“wo3men0tong2xing2”，其中，数字表示的是汉语音节的声调。

S202：对初始读音标注结果进行修正，得到目标读音标注结果，其中，目标读音标注结果与录制语音在读音上的符合度高于初始读音标注结果与录制语音在读音上的符合度。

在本实施例中，通过步骤S201，利用读音自动标注方法对目标录音文本进行读音标注时，并未考虑到用户在录制语音时出现的口语发音或习惯读音等可能与词典记录读音不一致的情况，因此，在对目标录音文本进行自动读音标注时，对录制语音中用户的口语化发音和多音字读音的标注错误较多，即，初始读音标注结果中的标注错误较多。例如，“这个(zhe4ge4)”、“那些(na4xie1)”可能会被用户读作“这个(zhei4ge4)”、“那些(nei4xie1)”，此外，初始读音标注结果中对一些多音字的标注也可能存在错误，例如“同行(hang2)”、“因为(wei2)”和“更(geng1)新”这些词中的多音字读音很可能会出现标注错误。

因此，需要对初始读音标注结果进行修正，以得到修正后的目标读音标注结果，使目标读音标注结果与录制语音在读音上的符合度高于初始读音标注结果与录制语音在读音上的符合度，也就是说，目标读音标注结果对应的读音标注准确率，将高于初始读音标注结果对应的读音标注准确率。

在本实施例中，一种可选的实现方式是，步骤S202中“对初始读音标注结果进行修正”可以包括：根据录制语音的读音识别结果，对初始读音标注结果进行修正。

在本实现方式中，为了对初始读音标注结果进行修正，可以采用现有或未来出现的读音识别方法对录制语音进行读音识别，得到录制语音的读音识别结果。其中，该读音识别结果即为录制语音的读音信息，比如，该读音识别结果可以为录制语音对应的音素序列，该音素序列指的是录制语音对应的声韵母组合序列，例如，若录制语音为“我要去上海”，则对其进行读音识别后，得到的读音识别结果即为音素序列“wo3yao4qu4shang4hai3”。然后，便可以基于录制语音对应的音素序列对初始读音标注结果对应的音素序列进行修正。

在本实施例中，一种可选的实现方式是，“根据录制语音的读音识别结果，对初始读音标注结果进行修正”的具体实现过程为：若录制语音的读音识别结果与初始读音标注结果不一致，则利用预先构建的多音字词典和/或口语发音词典，对初始读音标注结果中的与所述读音识别结果不一致的读音进行修正。

在本实现方式中，在获取到录制语音的读音识别结果后，可以将录制语音的读音识别结果与初始读音标注结果进行比对，若二者的比对结果一致，则可以将读音识别结果或初始读音标注结果作为录制语音的最终读音标注结果。

若二者的比对结果不一致，则可以根据预先构建的多音字词典和/或口语发音词典，对二者比对结果中不一致的读音进行修正。现以录制语音的读音识别结果为录制语音的音素序列、以及初始读音标注结果为目标录音文本对应的音素序列为例，对录制语音的读音识别结果与初始读音标注结果中不一致的读音进行修正的过程进行说明如下：

具体来讲，首先，可以将录制语音对应的音素序列与初始读音标注结果对应的音素序列进行比对，找出二者中比对结果不一致的读音；然后，可以根据预先构建的多音字词典和/或口语发音词典判断不一致的读音是否为多音字和/或口语发音，如果是多音字且多音字词典中存在录制语音的音素序列给出的该多音字的读音，则取录制语音的音素序列中给出的该多音字读音作为最终的读音标注结果，否则以目标录音文本对应的音素序列给出的该多音字的读音作为最终的读音标注结果。

例如“我们同行”中的“同行”一词，假设初始读音标注结果中的标注为“tong2xing2”，而用户在录制语音时读作“tong2hang2”，也就是说，录制语音的读音识别结果给出的“同行”一词的读音标注为“tong2hang2”且该读音记录在多音字词典中，则可以将该读音标注结果作为最终的读音标注结果。相应的，也可以根据口语发音词典，确定出最终的读音标注结果，具体的确定过程与上述过程类似，在此不再详细介绍。

需要说明的是，多音字词典一般可以根据实际应用需求，预先收集大量多音字的读音进行构建得到，同理，口语发音词典也可以根据实际应用需求，预先收集大量用户的口语化发音进行构建得到，具体构建过程在此不再赘述。

综上，本实施例利用录制语音的读音识别结果，对初始读音标注结果进行修正，修正了在只根据目标录音文本进行读音标注时，由于用户的口语化发音和多音字读音等产生的标注错误，得到了与录制语音在读音上的符合度更高的目标读音标注结果，进一步提高了录制语音的读音标注结果的准确性。

第三实施例

本实施例将通过下述步骤S301-S302对第一实施例中“根据目标录音文本对录制语音进行韵律边界标注”的具体实现过程进行介绍。

参见图3，其示出了本实施例提供的根据目标录音文本对录制语音进行韵律边界标注的流程示意图，该流程包括以下步骤：

S301：根据目标录音文本对录制语音进行韵律边界标注，得到初始韵律标注结果。

在本实施例中，在通过步骤S102获取到目标录音文本后，可以采用现有或未来出现的韵律自动标注方法对其进行韵律边界标注，得到初始韵律标注结果，比如，可以利用现有的通过有监督方式构建的预测模型自动预测目标录音文本中的韵律词边界和韵律短语边界，从而得到初始韵律标注结果。

例如，假设目标录音文本为“因为不论是我们同行或者竞争对手”，在该目标录音文本中，韵律短语为“因为不论是我们同行”以及“或者竞争对手”，韵律词为“因为”、“不论”、“是”、“我们”、“同行”、“或者”、“竞争”、“对手”，故而，可以利用上述预测模型自动预测出该目标录音文本中的韵律词边界和韵律短语边界，得到的初始韵律标注结果为“因为*不论*是*我们*同行#或者*竞争*对手”，其中，“*”用于标识韵律词边界，而“#”用于标识韵律短语边界。

S302：对初始韵律标注结果进行修正，得到目标韵律标注结果，其中，目标韵律标注结果与录制语音在韵律边界上的符合度高于初始韵律标注结果与录制语音在韵律边界上的符合度。

在本实施例中，通过步骤S301，利用韵律自动标注方法对目标录音文本进行韵律边界标注时，仅仅是依据目标录音文本进行韵律边界标注，并未考虑到用户在录制语音时出现的个性化停顿等，这种仅依据目标录音文本进行韵律边界标注的准确率不高。

例如，由于用户在录制“因为不论是我们同行或者竞争对手”时出现了个性化停顿，比如在“因为”后出现停顿，使得录制语音实际对应的韵律边界标注结果应为“因为#不论*是*我们*同行#或者*竞争*对手”，但这与步骤S301中得到的初始韵律标注结果“因为*不论*是*我们*同行#或者*竞争*对手”是不一致的，也就是说，初始韵律标注结果出现了标注错误。

因此，需要对初始韵律标注结果进行修正，以得到修正后的目标韵律标注结果，使目标韵律标注结果与录制语音在韵律边界上的符合度高于初始韵律标注结果与录制语音在韵律边界上的符合度，也就是说，目标韵律标注结果对应的韵律边界标注准确率，将高于初始韵律标注结果对应的韵律边界标注准确率。

在本实施例中，一种可选的实现方式是，步骤S302中“对初始韵律标注结果进行修正”的具体过程为：根据录制语音中字与字之间的停顿时长以及录制语音的声学特征，对初始韵律标注结果进行修正。

在本实现方式中，为了对初始韵律标注结果进行修正，可以对录制语音进行分析处理，得到录制语音的静音段时长信息和声学特征。其中，静音段时长信息表征了录制语音中出现的静音段的位置以及对应的时长信息，也就是录制语音中字与字之间的停顿时长；而录制语音的声学特征指的是录制语音的基频等声学参数。

进一步的，在确定出录制语音中字与字之间的停顿时长以及录制语音的声学特征后，可以根据录制语音中字与字之间的停顿时长以及录制语音的声学特征对初始韵律标注结果进行修正。

接下来，本实施例将通过下述步骤S3021-S3023对“根据录制语音中字与字之间的停顿时长以及录制语音的声学特征，对初始韵律标注结果进行修正”的具体实现过程进行介绍。

S3021：根据录制语音中字与字之间的停顿时长，对初始韵律标注结果的各个已标注韵律边界进行重新预测，以筛选出其中的韵律短语边界。

在本实施例中，当通过步骤S301得到初始韵律标注结果后，可以根据录制语音中字与字之间的停顿时长，对初始韵律标注结果的各个已标注韵律边界进行重新预测，以确定每一已标注韵律边界是否为韵律短语边界，需要说明的是，重新预测得到的韵律短语边界是正确的韵律短语边界，其与初始韵律标注结果中对应边界位置的韵律边界标注结果可能相同或不同。

具体来讲，在本实施例的一种实现方式中，S3021具体可以包括步骤E-F：

步骤E：确定录制语音在已标注韵律边界处的停顿时长。

在本实现方式中，为了筛选出录制语音的韵律短语边界，首先可以确定出录制语音的初始韵律标注结果中各个已标注韵律边界处的停顿时长，然后，可以将各个已标注韵律边界处的停顿时长与预设时长阈值进行比较，其中，预设时长阈值是根据实际情况进行预先设置的，一般来讲，可以取为通过多人语音定制的音库所对应的韵律短语边界停顿时长的统计均值，如可以取为50毫秒，具体数值可根据实际情况进行设置，本申请对此不进行限定。

步骤F：若停顿时长大于预设时长阈值，则将已标注韵律边界重新预测为韵律短语边界。

若通过步骤E确定出录制语音在某个已标注韵律边界处的停顿时长大于预设时长阈值，则可以确定出该已标注韵律边界为韵律短语边界，从而可以将该韵律边界标注为韵律短语边界，进而在对各个已标注韵律边界均通过上述步骤进行重新预测后，可筛选出录制语音中的部分韵律短语边界。

反之，若通过步骤E确定出的已标注韵律边界处的停顿时长不大于预设时长阈值，则可通过后续步骤S3022进一步确定出这些通过步骤S3021筛选剩下的已标注韵律边界是否为韵律短语边界。

S3022：根据录制语音的声学特征，对筛选剩下的每一已标注韵律边界进行重新预测，以确定筛选剩下的已标注韵律边界为韵律短语边界或韵律词边界。

在本实施例中，当得到录制语音的声学特征，比如录制语音的基频参数，且通过步骤S3021筛选出部分韵律短语边界后，进一步可以根据录制语音的声学特征，对筛选剩下的每一已标注韵律边界进行重新预测，以判定出筛选剩下的已标注韵律边界的标注结果是否准确，即，判定出筛选剩下的已标注韵律边界是韵律短语边界还是韵律词边界。

具体来讲，在本实施例的一种实现方式中，S3022具体可以包括步骤G-I：

步骤G：从录制语音中获取待预测韵律边界之前的N个音帧以及待预测韵律边界之后的M个音帧，其中，待预测韵律边界为筛选剩下的任一已标注韵律边界。

在本实现方式中，为了判定出通过步骤S3021筛选剩下的每一已标注韵律边界是韵律短语边界还是韵律词边界，可以将其中每一已标注韵律边界均作为待预测韵律边界，然后，获取待预测韵律边界之前的N个音帧以及该待预测韵律边界之后的M个音帧，比如，获取该待预测韵律边界之前最后一个音节中最后N个音帧以及该待预测韵律边界之后第一个音节的前M个音帧。其中，N和M均为正整数，一般可以取为5～10之间的数值，在这一取值范围内正常人的发音状态比较稳定，音高变化不大，但N和M的具体取值可根据实际情况进行设定，本申请对此不进行限制。

步骤H：确定所述N个音帧的第一基频均值与所述M个音帧的第二基频均值。

在本实现方式中，通过步骤G获取到待预测韵律边界之前的N个音帧以及该待预测韵律边界之后的M个音帧后，进而可以分别确定出这N个音帧的基频均值以及这M个音帧的基频均值，分别定义为第一基频均值和第二基频均值，可以理解的是，基频决定了语音的音高，基频均值则表征了一段语音对应的平均音高。

步骤I：根据第一基频均值与第二基频均值之间的比较结果，对待预测韵律边界进行重新预测，以确定待预测韵律边界是韵律词边界还是韵律短语边界。

可以理解的是，如果第一基频均值与第二基频均值之间的差距较大，则说明该待预测韵律边界的前后音节的音高差别较大，在对将该待测韵律边界进行重新预测时，可以将其预测为韵律短语边界；反之，如果第一基频均值与第二基频均值之间的差距较小，则说明该待预测韵律边界的前后音节的音高差别较小，在对将该待测韵律边界进行重新预测时，可以将其预测为韵律短语边界。

在本实现方式中，步骤I具体可以判断第二基频均值是否小于第一基频阈值或者是否大于第二基频阈值，其中，第一基频阈值为第一基频均值的n倍，第二基频阈值为第一基频均值的m倍，n小于1，m大于1。比如，n＝0.5，m＝1。

若判断出第二基频均值小于第一基频阈值或者大于第二基频阈值，则说明该待预测韵律边界的前后音节的音高差别较大，可以将其预测为韵律短语边界；若判断出第二基频均值不小于第一基频阈值或者不大于第二基频阈值，则说明该待预测韵律边界的前后音节的音高差别不大，可以将其预测为韵律词边界。

S3023：将各个已标注韵律边界的预测结果，作为初始韵律标注结果的修正结果。

在本实施例中，在通过步骤S3021-S3022对各个已标注韵律边界的进行重新预测，得到各个已标注韵律边界的预测结果后，可以将该结果作为对初始韵律标注结果进行修正后的结果，即，可以作为目标韵律标注结果，从而使得该目标韵律标注结果与录制语音在韵律边界上的符合度高于初始韵律标注结果与录制语音在韵律边界上的符合度。可以理解的是，实际上，若各个已标注韵律边界的标注结果与重新预测后得到的预测结果一致，则可以将初始韵律标注结果直接作为目标韵律标注结果；若出现已标注韵律边界的标注结果与重新预测后得到的预测结果不一致的情况，则可以用重新预测后得到的预测结果作为目标韵律标注结果，进而实现对初始韵律标注结果的修正，提高对录制语音进行韵律边界标注的准确性。

综上，本实施例利用录制语音的字与字之间的停顿时长以及录制语音的声学特征，对录制语音初始韵律标注结果进行修正，修正了在只根据目标录音文本进行读音标注时，由于用户在录制语音时出现的个性化停顿等产生的韵律边界标注错误，得到了与录制语音在韵律边界上的符合度更高的目标韵律标注结果，进一步提高了录制语音的韵律标注结果的准确性。

第四实施例

本实施例将对一种语音标注装置进行介绍，相关内容请参见上述方法实施例。

参见图4，为本实施例提供的一种语音标注装置的组成示意图，该装置400包括：

录制语音获取单元401，用于获取待标注的录制语音，所述录制语音是在用户朗读初始录音文本时录制得到的语音；

录音文本修正单元402，用于根据所述录制语音的识别文本对所述初始录音文本进行修正，得到目标录音文本，所述目标录音文本与所述录制语音在内容上的重合度高于所述初始录音文本与所述录制语音在内容上的重合度；

语音韵律标注单元403，用于根据所述目标录音文本对所述录制语音进行韵律标注。

在本实施例的一种实现方式中，所述录音文本修正单元402包括：

在本实施例的一种实现方式中，所述语音韵律标注单元403包括：

和/或；

在本实施例的一种实现方式中，所述读音标注子单元包括：

在本实施例的一种实现方式中，所述韵律边界标注子单元包括：

在本实施例的一种实现方式中，所述第四结果获得子单元，具体用于根据所述录制语音中字与字之间的停顿时长以及所述录制语音的声学特征，对所述初始韵律标注结果进行修正。

在本实施例的一种实现方式中，所述第四结果获得子单元包括：

在本实施例的一种实现方式中，所述第一重新预测子单元包括：

在本实施例的一种实现方式中，所述第二重新预测子单元包括：

进一步地，本申请实施例还提供了一种语音标注装置，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音标注方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音标注方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音标注方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音标注方法，其特征在于，包括：

根据所述目标录音文本对所述录制语音进行韵律标注。

2.根据权利要求1所述的方法，其特征在于，所述根据所述录制语音的识别文本对所述初始录音文本进行修正，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述目标录音文本对所述录制语音进行韵律标注，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标录音文本对所述录制语音进行读音标注，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述目标录音文本对所述录制语音进行韵律边界标注，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述初始韵律标注结果进行修正，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述录制语音中字与字之间的停顿时长以及所述录制语音的声学特征，对所述初始韵律标注结果进行修正，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述录制语音中字与字之间的停顿时长，对所述初始韵律标注结果的各个已标注韵律边界进行重新预测，包括：

确定所述录制语音在所述已标注韵律边界处的停顿时长；

9.根据权利要求7或8所述的方法，其特征在于，所述根据所述录制语音的声学特征，对筛选剩下的每一已标注韵律边界进行重新预测，包括：

10.一种语音标注装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述语音韵律标注单元包括：

和/或；

12.根据权利要求11所述的装置，其特征在于，所述读音标注子单元包括：

13.根据权利要求11所述的装置，其特征在于，所述韵律边界标注子单元包括：

14.根据权利要求13所述的装置，其特征在于，所述第四结果获得子单元，具体用于根据所述录制语音中字与字之间的停顿时长以及所述录制语音的声学特征，对所述初始韵律标注结果进行修正。

15.根据权利要求14所述的装置，其特征在于，所述第四结果获得子单元包括：

16.根据权利要求15所述的装置，其特征在于，所述第一重新预测子单元包括：

17.根据权利要求15或16所述的装置，其特征在于，所述第二重新预测子单元包括：

18.一种语音标注装置，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-9任一项所述的方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-9任一项所述的方法。

20.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1-9任一项所述的方法。