CN110265028B

CN110265028B - 语音合成语料库的构建方法、装置及设备

Info

Publication number: CN110265028B
Application number: CN201910534880.3A
Authority: CN
Inventors: 侯建康; 李�昊; 王振宇; 李飞亚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2020-10-09
Anticipated expiration: 2039-06-20
Also published as: CN110265028A

Abstract

本发明实施例提供的语音合成语料库的构建方法、装置及设备，通过对干声语音进行语音处理，得到干声语音对应的纯净语音；将纯净语音识别为文本后，将纯净语音和文本输入至韵律转换工具中，获取纯净语音的韵律信息，将纯净语音和韵律信息作为训练语料，加入语料库中。由于干声语音获取成本较低，且可以在短时间内大量获得，降低了构建语料库的时间成本和人力成本；通过采用韵律转换工具对纯净语音和文本进行韵律转换，得到纯净语音对应的韵律信息，从而无需人工标注过程，进一步降低了构建语料库的时间成本和人力成本。

Description

语音合成语料库的构建方法、装置及设备

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种语音合成语料库的构建方法、装置及设备。

背景技术

语音合成技术，又称文语转换(Text to Speech，TTS)技术，用于将文本信息转换为语音信息。

目前，基于统计参数的语音合成技术在训练阶段普遍采用人工标注的语料库进行建模。其中，语料库的构建过程主要包含下述两个步骤：(1)由专业的发音人员在专业录音棚中根据预设文本进行纯净语音的录制，得到预设文本对应的纯净语音；(2)由专业标注人员根据预设文本和纯净语音进行人工标注，得到该纯净语音对应的韵律信息，其中，韵律信息包括：音子边界信息、音调信息、停顿信息等。

然而，上述语料库的构建过程需要专业的发音人员、专业的录音棚，并需要专业的标注人员对纯净语音进行人工标注，导致语料库的构建过程需要花费大量的人力成本和时间成本。

发明内容

本发明实施例提供一种语音合成语料库的构建方法、装置及设备，用以降低语料库构建过程的人力成本和时间成本。

第一方面，本发明实施例提供一种语音合成语料库的构建方法，包括：

对干声语音进行语音处理，得到所述干声语音对应的纯净语音；

对所述纯净语音进行语音识别，得到所述纯净语音对应的文本；

将所述纯净语音和所述文本输入至韵律转换工具中，获取所述韵律转换工具输出的韵律信息，所述韵律信息包括：停顿信息、音调信息、各音子的边界信息；

将所述纯净语音和所述韵律信息作为训练语料，加入所述语料库中。

可选的，所述将所述纯净语音和所述韵律信息作为训练语料，加入所述语料库中之前，所述方法还包括：

对所述纯净语音进行静音探测，得到静音探测结果，所述静音探测结果用于指示所述纯净语音中的静音的位置及时长信息；

根据所述静音探测结果，对所述韵律信息中的各音子的边界信息进行修正。

可选的，所述根据所述静音探测结果，对所述韵律信息中的各音子的边界信息进行修正，包括：

根据所述静音探测结果，确定所述纯净语音对应的句首静音时长和句尾静音时长；

若所述韵律信息中句首静音音子的边界信息与所述句首静音时长不匹配，则根据所述句首静音时长，对所述句首静音音子以及相邻音子的边界信息进行修正；

若所述韵律信息中句尾静音音子的边界信息与所述句尾静音时长不匹配，则根据所述句尾静音时长，对所述句尾静音音子以及相邻音子的边界信息进行修正。

针对所述韵律信息中的每个句中音子，根据所述句中音子的边界信息，确定所述句中音子的发音时长；

若所述句中音子的发音时长大于或者等于第一预设阈值，则根据所述静音探测结果，确定出静音音子的边界信息，并在所述韵律信息中与所述句中音子相邻的位置插入所述静音音子的边界信息，并对所述句中音子的边界信息进行修正。

可选的，所述将所述纯净语音和所述文本输入至韵律转换工具中，获取所述韵律转换工具输出的韵律信息之后，还包括：

根据所述文本，获取所述文本对应的声母音子的数量和韵母音子的数量；

根据所述韵律信息，获取所述韵律信息中的声母音子的数量和韵母音子的数量；

若所述韵律信息中的声母音子的数量与所述文本对应的声母音子的数量不一致，或者，所述韵律信息中的韵母音子的数量与所述文本对应的韵母音子的数量不一致，则确定不将所述纯净语音以及所述韵律信息加入所述语料库中。

可选的，所述根据所述静音探测结果，确定所述纯净语音对应的句首静音时长和句尾静音时长之后，还包括：

若所述句首静音时长小于第二预设阈值，或者，所述句尾静音时长小于第二预设阈值，则确定不将所述纯净语音以及所述韵律信息加入所述语料库中。

可选的，所述语音处理包括下述处理中的至少一项：

对所述干声语音进行格式转换、对所述干声语音进行背景噪音移除、对所述干声语音进行音量归一化处理。

第二方面，本发明实施例提供一种语音合成语料库的构建装置，包括：

语音处理模块，用于对干声语音进行语音处理，得到所述干声语音对应的纯净语音；

语音识别模块，用于对所述纯净语音进行语音识别，得到所述纯净语音对应的文本；

转换模块，用于将所述纯净语音和所述文本输入至韵律转换工具中，获取所述韵律转换工具输出的韵律信息，所述韵律信息包括：停顿信息、音调信息、各音子的边界信息；

加入模块，用于将所述纯净语音和所述韵律信息作为训练语料，加入所述语料库中。

可选的，所述装置还包括：修正模块，用于：

可选的，所述修正模块具体用于：

可选的，所述转换模块还用于：

可选的，所述修正模块还具体用于：

可选的，所述语音处理包括下述处理中的至少一项：

第三方面，本发明实施例提供一种语音合成语料库的构建设备，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的语音合成过程的示例图；

图2为本发明实施例提供的语音合成语料库的构建方法的流程示意图；

图3为本发明实施例提供的语音合成语料库的构建方法的流程示意图；

图4为图3所示实施例对应的语料库的构建过程示意图；

图5为本发明实施例提供的音子边界信息修正方法的流程示意图；

图6为本发明实施例提供的音子边界信息修正方法的流程示意图；

图7为本发明实施例提供的语音合成语料库的构建方法的流程示意图；

图8为本发明实施例提供的语音合成语料库的构建装置的结构示意图；

图9为本发明实施例提供的语音合成语料库的构建装置的结构示意图；

图10为本发明实施例提供的语音合成语料库的构建设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为本申请实施例提供的语音合成过程的示例图。图1示例的是基于统计参数的语音合成过程。如图1所示，基于统计参数的语音合成过程主要包括：训练阶段和语音合成阶段。在训练阶段，通过对语料库进行训练，得到韵律预测模型和声学预测模型。其中，韵律预测模型学习的是韵律信息与音子时长之间的对应关系，声学预测模型学习的是韵律信息、音子时长与声学信息之间的对应关系。

在语音合成阶段，利用韵律预测模型对待处理文本的韵律信息进行预测，得到该文本的音子时长；再利用声学预测模型对韵律信息和音子时长进行预测，得到该文本的声学信息；最后通过声码器把声学信息转换为语音。

图1中的韵律预测模型和声学预测模型都离不开高质量的语料库的支持。语料库是用于存放训练语料的数据库。每个训练语料包括：纯净语音以及纯净语音对应的韵律信息，其中韵律信息包括：停顿信息、音调信息、以及音子边界信息。训练语料中音子边界是否准确，语音是否清晰，有无背景音乐，发音风格是否一致会直接影响到韵律预测模型和声学预测模型的性能。

现有技术中，语料库的构建过程主要包括下述两个步骤：(1)由专业的发音人员在专业录音棚中根据预设文本进行纯净语音的录制，得到预设文本对应的纯净语音。(2)由专业标注人员根据预设文本和纯净语音进行人工标注，得到该纯净语音对应的韵律信息。进而，将该纯净语音和其对应的韵律信息作为训练语料加入语料库中。

为了解决上述问题，本发明实施例提供一种语音合成语料库的构建方法，通过基于干声语音构建语料库，能够降低语料库的构建成本。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明实施例提供的语音合成语料库的构建方法的流程示意图。本实施例的方法可以由语音合成语料库的构建装置执行，该装置可以为软件和/或硬件的形式。如图2所示，本实施例的方法，包括：

S201：对干声语音进行语音处理，得到所述干声语音对应的纯净语音。

本实施例中的干声语音与现有技术中由专业发音人员在专业录音棚中录制的语音不同。本实施例中的干声语音是指未经过专业录音棚录制的人声语音，或者，在录制后未经过后期处理的人声语音。

由于干声语音的录制过程无需专业发音人员，也无需专业录音棚，因此干声语音的录制过程简单，时间成本和人力成本较低。

可选的，在S201之前，可以通过各种方式获取干声语音。示例性的，可以通过普通人员在各种普通环境中进行语音录制，得到干声语音。示例性的，还可以从网络上获取已录制好的语音数据，例如：从各种语音应用的服务器下载已录制好的语音数据。

本实施例S201中，对干声语音进行语音处理，得到干声语音对应的纯净语音。其中，语音处理可以包括但不限于下述几种：对所述干声语音进行格式转换、对所述干声语音进行背景噪音移除、对所述干声语音进行音量归一化处理。

由于不同人员录制的干声语音或者从不同渠道获取的干声语音的格式可能各不相同，为了便于后续处理，可以对干声语音进行格式转换，使得所有干声语音均转换为相同格式。示例性的，转换后的格式为脉冲编码调制(Pulse Code Modulation，PCM)格式的WAVE文件，这种文件存储的是采样的原始语音数据，而没有经过任何的压缩，是声卡直接支持的数据格式。

由于干声语音的录制环境等原因，干声语音中除了纯净的人声语音之外，还可能包括背景噪音。为了保证语料库中的语料质量，可以对干声语音进行背景噪音移除。示例性的，去除干声语音中的背景音乐，或者，对干声语音进行降噪处理。

另外，本实施例中获取的多个干声语音，可能是由不同的录制人员录制的，或者是在不同的环境中录制的，因此，多个干声语音的音量也可能各不相同。为了保证语料库中的语料质量，可以对干声语音进行音量归一化处理。示例性的，将不同干声语音的音量都调整到预设音量范围内。

通过上述语音处理过程，将干声语音转换为纯净语音，降低了后续将语音识别为文本的错误率，并降低了对训练语料进行训练建模的难度。

S202：对所述纯净语音进行语音识别，得到所述纯净语音对应的文本。

本实施例中，将纯净语音识别为文本的过程属于现有技术，可以采用现有的语音识别技术，例如：可以采用基于语音学和声学的方法，也可以采用模板匹配的方法，还可以采用基于神经网络模型的方法等，本实施例对此不作具体限定。

S203：将所述纯净语音和所述文本输入至韵律转换工具中，获取所述韵律转换工具输出的韵律信息，所述韵律信息包括：停顿信息、音调信息、各音子的边界信息。

其中，韵律转换工具用于对纯净语音进行音子切分，得到纯净语音对应的韵律信息。实际应用中，可以采用现有的各种韵律转换工具进行转换。各转换工具的转换过程类似，下面对具体转换过程进行简单介绍。

(1)根据文本得到该文本对应拼音，并根据拼音生成音子序列。

其中，音子是语音的最小发音单位。对于中文而言，音子可以声母或者韵母。示例性的，假设文本为“今天天气怎么样”，得到的拼音为“jin1tian1tian1qi4zen3mo5yang4”，其中，拼音后的数字表示的是该拼音的音调。根据上述拼音，生成的音子序列为“j in tian t ian q I z en m o y ang”。

(2)将音子序列和纯净语音进行对齐，得到纯净语音对应的韵律信息。

不同的韵律转换工具可以采用不同的对齐算法。示例性的，可以采用HMM-GMM算法实现音子序列和纯净语音的对齐。通过自动化对齐，得到的韵律信息包括：停顿信息、音调信息、音子的边界信息等。其中，停顿信息可以是句子与句子之间的停顿，还可以是短语与短语之间的停顿。音调信息可以是句子的音调，例如：疑问音调、感叹音调；还可以是每个字或者词语的音调。音子的边界信息指示的是纯净语音中各音子发音的起始时间和结束时间。

示例性的，停顿可以采用在音子之间插入静音音子来表示，还可以根据停顿时长的不同插入不同类型的静音音子，例如：较长时间的停顿插入长静音音子，较短时间的停顿插入短静音音子。不同的音调可以采用不同的数值来表示，还可以采用其他不同符号来表示。音子边界可以采用音子的起始时间和结束时间来表示。

需要说明的是，本实施例对于韵律信息的表示形式不作具体限定，只要韵律信息可以描述出纯净语音中的停顿、音调、音子边界即可，上述关于表示形式的描述仅为示例。

S204：将所述纯净语音和所述韵律信息作为训练语料，加入所述语料库中。

本实施例提供的语音合成语料库的构建方法，通过对干声语音进行语音处理，得到干声语音对应的纯净语音；将纯净语音识别为文本后，将纯净语音和文本输入至韵律转换工具中，获取纯净语音的韵律信息，将纯净语音和韵律信息作为训练语料，加入语料库中。由于干声获取成本较低，且可以在短时间内大量获得，降低了构建语料库的时间成本和人力成本；通过采用韵律转换工具对纯净语音和文本进行韵律转换，得到纯净语音对应的韵律信息，从而无需人工标注过程，进一步降低了构建语料库的时间成本和人力成本。

进一步的，由于本实施例中的训练语料是基于干声语音获取的，而干声语音可以是从不同渠道获取的不同风格的干声，包括方言、脱口秀等口语化特征明显的干声语音，因此，本实施例的方法能够使得语料库中的训练语料的语音风格更加丰富，从而基于该语料库训练得到的模型能够用于合成更多风格的语音。

上述实施例中，采用韵律转换工具对纯净语音和音子序列进行对齐时，有可能对齐结果不准确，例如：可能出现遗漏音子、音子边界错误等。由于后续的训练建模过程对音子对齐的准确性较为敏感，对齐结果不准确可能会影响模型的性能。为了解决上述问题，本发明实施例还提供另一种语音合成语料库的构建方法，下面结合图3进行描述。

图3为本发明实施例提供的语音合成语料库的构建方法的流程示意图。如图3所示，本实施例的方法，包括：

S301：对干声语音进行语音处理，得到所述干声语音对应的纯净语音。

S302：对所述纯净语音进行语音识别，得到所述纯净语音对应的文本。

S303：将所述纯净语音和所述文本输入至韵律转换工具中，获取所述韵律转换工具输出的韵律信息，所述韵律信息包括：停顿信息、音调信息、各音子的边界信息。

S304：对所述纯净语音进行静音探测，得到静音探测结果，所述静音探测结果用于指示所述纯净语音中的静音的位置及时长信息。

S305：根据所述静音探测结果，对所述韵律信息中的各音子的边界信息进行修正。

S306：将所述纯净语音和所述韵律信息作为训练语料，加入所述语料库中。

本实施例中的S301、S302、S303、S306的具体实施方式与图2所示实施例类似，此处不再赘述。

图4为图3所示实施例对应的语料库的构建过程示意图。如图4所示，本实施例与图2所示实施例的不同之处在于，在将纯净语音加入语料库之前，还通过S304和S305两个步骤对该纯净语音的韵律信息中的音子边界进行修正，以保证音子边界的准确性，提高训练语料的质量。

本实施例S304中，对纯净语音进行静音探测，得到静音探测结果。其中，可以采用现有的探测静音能量的方法进行静音探测。静音探测也可以称为静音检测。示例性的，可以根据纯净语音的能量信息，来检测静音的位置以及时长信息。

由于静音的能量降低，且静音的能量特点为没有波峰或者波谷，使得在韵律转换过程中容易出现静音边界对齐错误的问题。静音边界对齐错误是导致韵律信息中的音子边界不准确的重要因素。例如，在韵律转换过程中可能将某个静音遗漏，导致该静音的时长被累加到其前一个音子时长中，或者被累加到其后一个音子的时长中，从而导致音子边界错误。或者，在韵律转换过程中出现某个静音的边界对齐错误，进而导致该静音的前一个音子或者后一个音子的边界错误。因此，本实施例中，可以根据静音探测结果，对韵律信息中的各音子的边界信息进行修正。

在修正过程中，可以针对不同位置的静音，采用不同的修正方式。下面结合图5和图6描述两种可能的修正方式。

图5为本发明实施例提供的音子边界信息修正方法的流程示意图。本实施例可以作为S305的一种可能的细化实施方式。如图5所示，包括：

S501：根据所述静音探测结果，确定所述纯净语音对应的句首静音时长和句尾静音时长。

可以理解的，对于一句语音，通常在句子开头和句子结尾处存在一定时长的静音片段。其中，句首静音时长是指在句子开头处的静音片段的时长，句尾静音时长是指在句子结尾处的静音片段的时长。

通常，句子开头和句子结尾处的静音片段的时长需要满足一定的时长要求，例如：需要大于预设阈值(50ms)。如果开头或者结尾处的静音时长较短的话，可能影响后续的训练建模的准确性。因此，一种可能的实施方式中，在S501之后还可以包括：

若句首静音时长小于该预设阈值，或者，句尾静音时长小于该预设阈值，则确定不将所述纯净语音以及韵律信息加入所述语料库中。也就是说，将该纯净语音丢弃，不作为训练语料。

S502：若所述韵律信息中句首静音音子的边界信息与所述句首静音时长不匹配，则根据所述句首静音时长，对所述句首静音音子以及相邻音子的边界信息进行修正。

示例性的，若通过静音探测得到的句首静音时长为60ms，而韵律信息中的句首静音音子的边界信息指示静音时长为20ms，则说明句首静音音子的边界信息错误。也就是说，将40ms的静音时长累加到的句首静音音子的后一个音子的时长中了。因此，对句首静音音子的边界信息以及后一个音子的边界信息进行修正，提高音子对齐的准确性。

S503：若所述韵律信息中句尾静音音子的边界信息与所述句尾静音时长不匹配，则根据所述句尾静音时长，对所述句尾静音音子以及相邻音子的边界信息进行修正。

示例性的，若通过静音探测得到的句尾静音时长为60ms，而韵律信息中的句尾静音音子的边界信息指示静音时长为20ms，则说明句尾静音音子的边界信息错误。也就是说，将40ms的静音时长累加到的句尾静音音子的前一个音子的时长中了。因此，对句尾静音音子的边界信息以及前一个音子的边界信息进行修正，提高音子对齐的准确性。

通过图5所示的实施例，能够对句首或者句尾的音子对齐错误进行修正，提高了训练语料的准确性。下面结合图6描述由于句中的静音导致的音子对齐错误的修正方法。

图6为本发明实施例提供的音子边界信息修正方法的流程示意图。本实施例可以作为S305的另一种可能的细化实施方式。如图6所示，包括：

S601：针对所述韵律信息中的每个句中音子，根据所述句中音子的边界信息，确定所述句中音子的发音时长。

示例性的，韵律信息中的音子边界信息指示了音子的开始时间和结束时间，根据开始时间和结束时间，可以确定出该音子的发音时长。

S602：若所述句中音子的发音时长大于或者等于第一预设阈值，则根据所述静音探测结果，确定出静音音子的边界信息，并在所述韵律信息中与所述句中音子相邻的位置插入所述静音音子的边界信息，并对所述句中音子的边界信息进行修正。

本实施例中，可以为音子的发音时长设置一个阈值，例如：设置阈值为350ms。若韵律信息中的某个音子的发音时长(例如为500ms)远大于该阈值，则说明该音子对应的语音片段中包括了静音。

具体实施过程中，可以根据静音探测结果中的能量信息，确定出该音子对应的语音片段中是否存在静音。进一步的，在确定存在静音的情况下，还可以根据该音子对应的语音片段的起始能量、中间能量、结尾能量，确定出静音的插入位置，即确定出静音音子的边界信息。进而，在韵律信息中与该音子相邻的位置插入所述静音音子的边界信息。示例性的，在该音子的之前或者之后插入静音音子的边界信息，并对该音子的边界信息进行修正。

通常，质量较好的训练语料中，其音子分布符合高斯分布，不会出现太长或者太短的音子。例如：在中文语料中，其音子可以分为声母和韵母两类，声母的音子时长较短，韵母音子时长较长。因此，一种可能的实施方式中，对声母音子和韵母音子分别设置不同的时长阈值来判定音子对齐错误问题。从而能够提高判断准确率，进而提高语料库的质量。

一种可能的场景中，韵律转换工具输出的韵律信息中可能丢失某个音子。由于丢失音子的语料对训练建模过程会带来负影响，因此，本实施例中通过对音子数量进行检测，避免将丢失音子的语料加入语料库中，保证语料库的质量。下面结合图7进行描述。

图7为本发明实施例提供的语音合成语料库的构建方法的流程示意图。本实施例的方法可以在S203或者S303之后执行。如图7所示，本实施例的方法包括：

S701：根据所述文本，获取所述文本对应的声母音子的数量和韵母音子的数量。

示例性的，根据文本可以得到文本的拼音，根据文本拼音，可以生成该文本对应的音子序列。根据音子序列，可以确定出声母音子的数量和韵母音子的数量。

S702：根据所述韵律信息，获取所述韵律信息中的声母音子的数量和韵母音子的数量。

S703：若所述韵律信息中的声母音子的数量与所述文本对应的声母音子的数量不一致，或者，所述韵律信息中的韵母音子的数量与所述文本对应的韵母音子的数量不一致，则确定不将所述纯净语音以及所述韵律信息加入所述语料库中。

本实施例中，若韵律信息中的声母音子的数量与文本中的声音音子的数量不同，或者，韵律信息中的韵母音子的数量与文本中的韵母音子的数量不同，则说明韵律转换工具转换得到的韵律信息中存在遗漏的音子，或者，存在误转换的音子。因此，确定纯净语音对应的韵律信息不准确，不将该纯净语音以及韵律信息加入语料库中，保证语料库的质量。

图8为本发明实施例提供的语音合成语料库的构建装置的结构示意图。如图8所示，本实施例提供的语音合成语料库的构建装置800，包括：语音处理模块801、语音识别模块802、转换模块803和加入模块804。

其中，语音处理模块801，用于对干声语音进行语音处理，得到所述干声语音对应的纯净语音；

语音识别模块802，用于对所述纯净语音进行语音识别，得到所述纯净语音对应的文本；

转换模块803，用于将所述纯净语音和所述文本输入至韵律转换工具中，获取所述韵律转换工具输出的韵律信息，所述韵律信息包括：停顿信息、音调信息、各音子的边界信息；

加入模块804，用于将所述纯净语音和所述韵律信息作为训练语料，加入所述语料库中。

本实施例的装置，可用于执行如图2所示的方法实施例，其实现原理和技术效果类似，此处不再赘述。

图9为本发明实施例提供的语音合成语料库的构建装置的结构示意图。在图8所示实施例的基础上，本实施例的语音合成语料库的构建装置800，还可以包括：修正模块805。

可选的，所述修正模块805，用于：

可选的，所述修正模块805具体用于：

可选的，所述转换模块803还用于：

可选的，所述修正模块805还具体用于：

可选的，所述语音处理包括下述处理中的至少一项：

对所述干声语音进行格式转换、对所述干声语音进行背景噪音移除、对所述干声语音进行音量归一化处理

本实施例的装置，可用于执行上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图10为本发明实施例提供的语音合成语料库的构建设备的结构示意图。如图10所示，本实施例提供的语音合成语料库的构建设备1000，包括：处理器1001以及存储器1002；其中，存储器1002，用于存储计算机程序；处理器1001，用于执行存储器存储的计算机程序，以实现上述实施例中的语音合成语料库的构建方法。具体可以参见前述方法实施例中的相关描述。

可选地，存储器1002既可以是独立的，也可以跟处理器1001集成在一起。

当所述存储器1002是独立于处理器1001之外的器件时，所述语音合成语料库的构建设备1000还可以包括：总线1003，用于连接所述存储器1002和处理器1001。

本实施例提供的语音合成语料库的构建设备，可用于执行上述任一方法实施例中的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序用于实现如上任一方法实施例中的技术方案。

本发明实施例还提供一种芯片，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行上述任一方法实施例中的技术方案。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本发明附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音合成语料库的构建方法，其特征在于，包括：

对干声语音进行语音处理，得到所述干声语音对应的纯净语音，所述干声语音为未经过专业录音棚录制的人声语音，或者，在录制后未经过后期处理的人声语音；

2.根据权利要求1所述的方法，其特征在于，所述将所述纯净语音和所述韵律信息作为训练语料，加入所述语料库中之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述静音探测结果，对所述韵律信息中的各音子的边界信息进行修正，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述静音探测结果，对所述韵律信息中的各音子的边界信息进行修正，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述纯净语音和所述文本输入至韵律转换工具中，获取所述韵律转换工具输出的韵律信息之后，还包括：

6.根据权利要求3所述的方法，其特征在于，所述根据所述静音探测结果，确定所述纯净语音对应的句首静音时长和句尾静音时长之后，还包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述语音处理包括下述处理中的至少一项：

8.一种语音合成语料库的构建装置，其特征在于，包括：

语音处理模块，用于对干声语音进行语音处理，得到所述干声语音对应的纯净语音，所述干声语音为未经过专业录音棚录制的人声语音，或者，在录制后未经过后期处理的人声语音；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：修正模块，用于：

10.根据权利要求9所述的装置，其特征在于，所述修正模块具体用于：

11.根据权利要求9所述的装置，其特征在于，所述修正模块具体用于：

12.根据权利要求8所述的装置，其特征在于，所述转换模块还用于：

13.根据权利要求10所述的装置，其特征在于，所述修正模块还具体用于：

14.根据权利要求8至13任一项所述的装置，其特征在于，所述语音处理包括下述处理中的至少一项：

15.一种语音合成语料库的构建设备，其特征在于，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行如权利要求1至7任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。