CN105261355A

CN105261355A - 一种语音合成方法和装置

Info

Publication number: CN105261355A
Application number: CN201510557009.7A
Authority: CN
Inventors: 李秀林; 谢延; 康永国; 关勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-09-02
Filing date: 2015-09-02
Publication date: 2016-01-20

Abstract

本发明公开了一种语音合成方法和装置。所述语音合成方法，包括：获取目标用户语音数据；根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型。所述语音合成装置包括：目标用户语音数据获取模块，用于获取目标用户语音数据；目标用户声学模型训练模块，用于根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型。本发明实现了在个性化语音合成过程中，降低对用户录音数据的规模要求的效果。

Description

一种语音合成方法和装置

技术领域

本发明实施例涉及文语转换技术领域，尤其涉及一种语音合成方法和装置。

背景技术

语音合成，又称文语转换技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术。

图1为现有技术中语音合成方法的流程示意图，如图1所示，语音合成系统的处理过程一般如下：首先，对输入文本进行文本预处理、分词、词性标注和注音等一系列处理后，然后进行韵律层级预测，再利用声学模型，生成目标声学参数序列，通过声码器生成语音，或者利用单元挑选技术从发音人录音数据制作的音库中挑选合适的片段，生成语音。而现有技术中声学模型的训练一般需要设计一定数量的录音文本语料，以满足音子覆盖、韵律覆盖等要求。其次，挑选合适的发音人，发音人根据录音文本语料录制语音数据，然后进行文本、拼音、韵律、单元边界的标注，并将标注好的数据用于模型训练、音库生成。

但是现有的语音合成系统，对用户录音数据的数量和质量都有较高的要求，如果想生成某个特定说话人的数据，需要进行大量的录音和数据加工，消耗大量的时间和精力。对于普通用户来说，如果想用自己的声音合成出语音，往往是不切实际的。语音合成数据制作的专业性和复杂性，与用户对个性化声音的强烈渴求之间，存在很大的矛盾。

发明内容

本发明提供一种语音合成方法和装置，以实现在个性化语音合成过程中，降低对用户录音数据的规模要求。

第一方面，本发明实施例提供了一种语音合成方法，包括：

获取目标用户语音数据；

根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型。

第二方面，本发明实施例还提供了一种语音合成装置，包括：

目标用户语音数据获取模块，用于获取目标用户语音数据；

目标用户声学模型训练模块，用于根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型。

本发明通过获取目标用户语音数据，并根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型，该目标声学模型的训练，仅需少量的目标用户语音数据，利用已有的预设基准声学模型训练获得符合目标用户语音特点的目标用户声学模型，即可以利用少量的语音数据就可实现个性化声学模型的训练，降低对用户录音数据的规模要求，提升了用户体验。

附图说明

图1为现有技术中语音合成方法的流程示意图；

图2为本发明实施例一提供的一种语音合成方法的流程图；

图3为本发明实施例二提供的一种语音合成方法的流程示意图；

图4为本发明实施例三提供的一种语音合成方法的流程示意图；

图5为本发明实施例四提供的一种语音合成装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图2为本发明实施例一提供的一种语音合成方法的流程图，本实施例可适用于个性化声学模型训练的情况，该方法主要通过计算机设备中的语音合成装置来执行，所述计算机设备包括但不限于以下中的至少一个：用户设备和网络设备。用户设备包括但便于计算机、智能手机和平板电脑等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或给予云计算的由大量计算机或网络服务器构成的云。如图2所示，所述方法具体包括如下操作：

S110、获取目标用户语音数据；

所述目标用户语音数据包含目标用户的语音特点，一般情况下，首先根据音子覆盖以及韵律覆盖等指标，预先设计录音文本，并提供给目标用户进行朗读，以获得所述目标用户语音数据。在设计录音文本时，例如汉语文本，优选的，设置所述录音文本包含全部的声韵母，以提高后续模型训练的准确度。需要说明的是，本发明可以直接由用户设备录制目标用户语音数据，并执行后续操作，还可以由用户设备录制目标用户语音数据后，并发送网络设备，由网络设备执行后续操作。进一步的，在录制目标用户语音数据时，优选的，将所述目标用户语音数据进行实时保存，若目标用户不能一次性完成全部目标用户语音数据的录制，可保留当前录制的目标用户语音数据，并在下次录制时，继续完成剩余未录制的目标用户语音数据。

S120、根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型。

该操作采用目标用户语音数据，在预设基准声学模型基础上，训练目标用户声学模型，使预设声学模型自适应更新为目标用户声学模型。

可选的，设置预设基准声学模型所对应的发音人为非目标用户，且所述预设基准声学模型是根据非目标用户的语音数据训练获得。预设基准声学模型，一般是利用大规模非目标用户的录音数据，通过神经网络训练获得，所述预设基准声学模型具有较好的音子覆盖和韵律覆盖能力，能够描述多种语音现象。因此，预设基准声学模型已构建好模型的框架结构，例如多层神经网络结构以及神经元连接关系等，因此在训练目标用户声学模型时，仅需获取少量目标用户语音数据，在上述预设基准声学模型基础上，自适应训练更新即可获得目标用户声学模型，使目标用户声学模型对应的发音人为目标用户。举例而言，例如已有用户A的声学模型，若想获得用户B、C、D等的声学模型，现有技术需要分别再重新获取大规模用户B、C、D等的语音数据进行重复训练，以获得用户B、C、D等的声学模型。而本发明在用户A的声学模型基础上，仅需获得少量用户B、C、D等的语音数据，分别进行自适应更新训练，从而获得用户B、C、D等的声学模型。

本发明实施例通过获取目标用户语音数据，并根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型，该目标声学模型的训练，大大降低了对用户语音数据的规模要求，例如可以从几千句的规模降低到几百句甚至几十句，即可以利用少量的用户语音数据就可实现个性化声学模型的训练，实现了用户个性化语音需求，提升了用户体验。

实施例二

图3为本发明实施例二提供的一种语音合成方法的流程示意图，如图3所示，所述方法具体包括：

S210、获取目标用户语音数据；

该操作与上述实施例一中的操作S110类似，本实施例在此不再赘述。

S220、对所述目标用户语音数据进行语音标注，以获得所述目标用户语音数据对应的文本上下文信息；

其中，所述语音标注包括：对所述目标用户语音数据的音节和音子切分标注、重音和语调标注、韵律标注、边界和词性标注等。汉语中一个汉字代表一个音节，声韵母为音子，韵律一般包括韵律词、韵律短语和语调短语三个层级。一个或者多个韵律词构成了韵律短语，然后一个或者多个韵律短语组成了语调短语。边界标注包括韵律词边界、韵律短语边界以及语调短语边界的标注。通过上述语音标注建立语音数据与对应的文本的关系，以获得所述目标用户语音数据对应的文本上下文信息，例如音节音律位置对应关系、音子序列等。

可选的，在对所述目标用户语音数据进行语音标注之前，还可以包括对所述目标用户语音数据进行数据降噪、数据检测以及数据筛选，例如滤除目标用户语音数据中的空白数据段等。

S230、获取所述目标用户语音数据的声学特征参数；

提取所述目标用户语音数据的声学特征参数，用于训练后续目标用户声学模型。其中，所述声学特征参数可选的包括时长特征参数、基频特征参数和频谱特征参数。

S240、根据所述声学特征参数、文本上下文信息以及预设基准声学模型，训练目标用户声学模型。

该操作根据操作S220和S230获得的文本上下文信息以及声学特征参数，在预设基准声学模型的基础上，训练获得具有目标用户语音特色的目标用户声学模型。

可选的，操作S240根据所述声学特征参数、文本上下文信息以及预设基准声学模型，训练目标用户声学模型，具体还包括：

A、获取预设基准声学模型的神经网络结构；

由于所述预设基准声学模型已经通过大规模的语音数据建出了模型的神经网络结构，因此本实施例可直接采用所述预设基准声学模型的神经网络结构进行后续目标用户声学模型的训练。

B、根据所述声学特征参数、文本上下文信息以及所述预设基准声学模型的神经网络结构，训练目标用户声学模型。

根据所述声学特征参数、文本上下文信息以及所述预设基准声学模型的神经网络结构，通过神经网络自适应技术，进行迭代运算，更新预设基准声学模型神经网络结构中神经元的连接权值等参数，以获得具有目标用户语音特点的目标用户声学模型。

本发明实施例在预设基准声学模型的基础上，对所述获取的目标用户语音数据进行语音标注处理，通过神经网络自适应技术，实现对预设基准声学模型的全局性修改，获得目标用户声学模型，其中所述目标用户声学模型所对应的发音人为目标用户。该方法在训练目标用户声学模型时，无需录制大规模的目标用户语音数据，即可实现个性化声学模型的训练，降低了训练过程中对录制语音数据的规模要求。

在上述实施例的基础上，可选的，在根据所述声学特征参数、文本上下文信息以及预设基准声学模型，训练目标用户声学模型之后，还包括将所述目标用户声学模型进行存储。所述目标用户声学模型既可以存储在用户设备，也可以存储在网络设备，用户可以在线或者离线情况下使用所述目标用户声学模型合成语音数据。需要说明的是，当所述目标用户声学模型存储在网络设备时，用户若想在离线情况下合成语音数据，需要预先将所述目标用户语音数据下载到用户设备中。

可选的，在将所述目标用户声学模型存储时，将所述目标用户声学模型与目标用户账户绑定。本实施例将所述目标用户声学模型存储并与目标用户账户绑定的好处是，只有用户在使用目标用户账户登录时，才有权限管理所述目标用户声学模型，避免不法分子盗用的情况。用户登录后，可以对所述目标用户声学模型进行管理，例如设置目标用户声学模型的授权方式，所述授权方式包括：私有、公开和部分公开。私有权限只允许登录者进行管理及使用。公开权限对所有用户开放，支持浏览器、试听和使用等。部分公开是指支持定向分享，例如指定某些用户可以使用所述目标用户声学模型。

进一步的，在存储过程中，还可以对所述目标用户声学模型进行加密。在解密时，解密的密钥包含授权信息。因此用户在使用或者分享目标用户声学模型时，只有授权才能使用。未加密的目标用户声学模型无法直接复用或者传播，保障了数据安全性。

实施例三

图4为本发明实施例三提供的一种语音合成方法的流程示意图，如图4所示，所述语音合成方法具体包括：

S310、获取目标用户语音数据；

S320、根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型；

S330、获取待合成文本数据；

其中，待合成文本数据可以是新闻文本数据、电子书，还可以是手机短信以及即时通信软件接收的文字数据。

S340、根据目标用户声学模型，将所述待合成文本数据转换为语音数据。

在有语音合成需求时，选择对应的目标用户声学模型，将上述待合成的文本数据转换文语音数据，所述转换后的语音数据带有目标用户的语音特色。

本发明实施例在预设基准声学模型的基础上，根据目标用户语音数据训练目标用户声学模型，并将待合成文本数据转化为带有目标用户语音特点的语音数据，全方位满足用户的语音个性化需求，容易被用户接收，使用户获得更好的体验效果。

在上述实施例的基础上，操作S340根据目标用户声学模型，将所述待合成文本数据转换为语音数据，具体包括：

a、对所述待合成文本数据进行文本分析，以获得所述待合成文本数据的上下文信息；

该操作主要功能是对所述待合成文本数据进行文本分析，模拟人对自然语言的理解过程，使计算机对于输入的文本能够理解。在进行文本分析前，一般先将待合成文本数据规范化，并处理拼写错误，将不规范或无法发音的字符过滤。然后分析待合成文本数据词或短语的边界、词性、确定各音节的读音，同时分析出文本中的数字、姓氏、特殊字符以及各种多音字的读音方式，以及进行韵律层级预测，以获得所述待合成文本数据的上下文信息。所述上下文信息是指所述待合成文本中相邻的音子、音节、音调和韵律位置等信息。

b、根据所述目标用户声学模型以及所述待合成文本数据的上下文信息，获得所述待合成文本数据的声学特征参数；

在对获得所述待合成文本数据的上下文信息之后，利用所述目标用户声学模型，预测所述待合成文本数据的声学特征参数。所述声学特征参数一般包括时长特征参数、基频特征参数和频谱特征参数等。

c、根据所述待合成文本数据的声学特征参数，将所述待合成文本数据转换为语音数据。

优选的，根据上述时长特征参数、基频特征参数和频谱特征参数等声学特征参数，利用声码器将所述待合成文本数据转换为语音数据；或者利用所述时长特征参数、基频特征参数和频谱特征参数等声学特征参数，从录音语料库中挑选声学片段进行拼接，以合成语音数据进行后续播放。其中，所述合成的语音数据携带有目标用户的语音特色。

实施例四

图5为本发明实施例四提供的一种语音合成装置的结构示意图。本如图5所示所述装置包括：

目标用户语音数据获取模块51，用于获取目标用户语音数据；

目标用户声学模型训练模块52，用于根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型。

在上述实施例的基础上，可选的，所述装置还包括：

预设基准声学模型训练模块，用于根据非目标用户的语音数据训练获得预设基准声学模型。

在上述实施例的基础上，可选的，所述目标用户声学模型训练模块包括：

语音标注单元，用于对所述目标用户语音数据进行语音标注，，以获得所述目标用户语音数据对应的文本上下文信息；

声学特征参数获取单元，用于获取所述目标用户语音数据的声学特征参数；

目标用户声学模型训练单元，用于根据所述声学特征参数、文本上下文信息以及预设基准声学模型，训练目标用户声学模型。

在上述实施例的基础上，可选的，所述目标用户声学模型训练单元具体用于：

获取预设基准声学模型的神经网络结构；

根据所述声学特征参数、文本上下文信息以及所述预设基准声学模型的神经网络结构，训练目标用户声学模型。

在上述实施例的基础上，可选的，所述装置还包括：

待合成文本数据获取模块，用于获取待合成文本数据；

语音合成模块，用于根据目标用户声学模型，将所述待合成文本数据转换为语音数据。

在上述实施例的基础上，可选的，所述语音合成模块包括：

文本分析单元，用于对所述待合成文本数据进行文本分析，以获得所述待合成文本数据的上下文信息；

声学特征参数获取单元，用于根据所述目标用户声学模型，以及所述待合成文本数据的上下文信息，获得所述待合成文本数据的声学特征参数；

语音合成单元，用于根据所述待合成文本数据的声学特征参数，将所述待合成文本数据转换为语音数据。

在上述实施例的基础上，可选的，所述声学特征参数包括：时长特征参数、基频特征参数和频谱特征参数。

上述语音合成装置可执行本发明任意实施例所提供的语音合成方法，具备执行方法相应的功能模块和有益效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音合成方法，其特征在于，包括：

获取目标用户语音数据；

2.根据权利要求1所述的方法，其特征在于，在根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型之前，还包括：

根据非目标用户的语音数据训练获得预设基准声学模型。

3.根据权利要求1所述的方法，其特征在于，根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型，包括：

对所述目标用户语音数据进行语音标注，以获得所述目标用户语音数据对应的文本上下文信息；

获取所述目标用户语音数据的声学特征参数；

根据所述声学特征参数、文本上下文信息以及预设基准声学模型，训练目标用户声学模型。

4.根据权利要求3所述的方法，其特征在于，根据所述声学特征参数、文本上下文信息以及预设基准声学模型，训练目标用户声学模型，包括：

获取预设基准声学模型的神经网络结构；

5.根据权利要求1所述的方法，其特征在于，在根据所述目标用户语音数据以及预设基准声学模型，训练目标用户声学模型之后，还包括：

获取待合成文本数据；

根据目标用户声学模型，将所述待合成文本数据转换为语音数据。

6.根据权利要求5所述的方法，其特征在于，所述根据目标用户声学模型，将所述待合成文本数据转换为语音数据，包括：

对所述待合成文本数据进行文本分析，以获得所述待合成文本数据的上下文信息；

根据所述目标用户声学模型以及所述待合成文本数据的上下文信息，获得所述待合成文本数据的声学特征参数；

根据所述待合成文本数据的声学特征参数，将所述待合成文本数据转换为语音数据。

7.根据权利要求3或6所述的方法，其特征在于，所述声学特征参数包括：时长特征参数、基频特征参数和频谱特征参数。

8.一种语音合成装置，其特征在于，包括：

目标用户语音数据获取模块，用于获取目标用户语音数据；

9.根据权利要求8所述的装置，其特征在于，还包括：

10.根据权利要求8所述的装置，其特征在于，所述目标用户声学模型训练模块包括：

语音标注单元，用于对所述目标用户语音数据进行语音标注，以获得所述目标用户语音数据对应的文本上下文信息；

11.根据权利要求10所述的装置，其特征在于，所述目标用户声学模型训练单元具体用于：

获取预设基准声学模型的神经网络结构；

12.根据权利要求8所述的装置，其特征在于，还包括：

待合成文本数据获取模块，用于获取待合成文本数据；

13.根据权利要求12所述的装置，其特征在于，所述语音合成模块包括：

14.根据权利要求10或13所述的装置，其特征在于，所述声学特征参数包括：时长特征参数、基频特征参数和频谱特征参数。