CN105206258A

CN105206258A - 声学模型的生成方法和装置及语音合成方法和装置

Info

Publication number: CN105206258A
Application number: CN201510680816.8A
Authority: CN
Inventors: 李秀林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-10-19
Filing date: 2015-10-19
Publication date: 2015-12-30
Anticipated expiration: 2035-10-19
Also published as: WO2017067246A1; US20180211649A1; CN105206258B; US10614795B2

Abstract

本发明提出一种声学模型的生成方法和装置及语音合成方法和装置，该声学模型的生成方法包括：获取个性化数据，所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的；获取预先生成的基准声学模型，所述基准声学模型是根据已有的大规模样本生成的；根据所述个性化数据和所述基准声学模型进行自适应模型训练，生成个性化声学模型。该方法能够实现声学模型的快速生成，并且可以满足用户的个性化需求。

Description

声学模型的生成方法和装置及语音合成方法和装置

技术领域

本发明涉及语音合成技术领域，尤其涉及一种声学模型的生成方法和装置及语音合成方法和装置。

背景技术

语音合成，又称文语转换(TexttoSpeech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。在语音合成时，首先需要对输入的文本进行处理，包括预处理、分词、词性标注、注音、韵律层级预测等，然后通过声学模型生成声学参数，最后利用声学参数直接通过声码器合成声音或者从录音语料库中挑选单元进行拼接。

现有技术中，声学模型的生成流程耗费时间长，也不能满足个性化需求。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种声学模型的生成方法，该方法可以提高生成声学模型的速度，并且可以满足用户的个性化需求。

本发明的另一个目的在于提出一种声学模型的生成装置。

本发明的另一个目的在于提出一种语音合成方法。

本发明的另一个目的在于提出一种语音合成装置。

为达到上述目的，本发明第一方面实施例提出的声学模型的生成方法，包括：获取个性化数据，所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的；获取预先生成的基准声学模型，所述基准声学模型是根据已有的大规模样本生成的；根据所述个性化数据和所述基准声学模型进行自适应模型训练，生成个性化声学模型。

本发明第一方面实施例提出的声学模型的生成方法，通过根据个性化数据和基准声学模型进行自适应模型训练，可以降低所需的个性化数据量，从而降低样本采集所需的时间，降低模型生成所需周期，实现模型的快速生成，通过获取个性化数据可以满足个性化需求。

为达到上述目的，本发明第二方面实施例提出的声学模型的生成装置，包括：第一获取模块，用于获取个性化数据，所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的；第二获取模块，用于获取预先生成的基准声学模型，所述基准声学模型是根据已有的大规模样本生成的；生成模块，用于根据所述个性化数据和所述基准声学模型进行自适应模型训练，生成个性化声学模型。

本发明第二方面实施例提出的声学模型的生成装置，通过根据个性化数据和基准声学模型进行自适应模型训练，可以降低所需的个性化数据量，从而降低样本采集所需的时间，降低模型生成所需周期，实现模型的快速生成，通过获取个性化数据可以满足个性化需求。

为达到上述目的，本发明第三方面实施例提出的语音合成方法，包括：对输入文本进行处理，得到处理后的文本；获取预先生成的个性化声学模型；根据所述个性化声学模型和处理后的文本进行声学参数生成；根据生成的声学参数进行语音合成，得到个性化合成语音；其中，所述个性化声学模型采用如本发明第一方面实施例所述的方法生成。

本发明第三方面实施例提出的语音合成方法，通过采用个性化声学模型，可以生成个性化合成语音，以满足用户个性化语音需求。

为达到上述目的，本发明第四方面实施例提出的语音合成装置，包括：处理模块，用于对输入文本进行处理，得到处理后的文本；获取模块，用于获取预先生成的个性化声学模型；生成模块，用于根据所述个性化声学模型和处理后的文本进行声学参数生成；合成模块，用于根据生成的声学参数进行语音合成，得到个性化合成语音；其中，所述个性化声学模型采用如本发明第一方面实施例所述的方法生成。

本发明第四方面实施例提出的语音合成装置，通过采用个性化声学模型，可以生成个性化合成语音，以满足用户个性化语音需求。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的声学模型的生成方法的流程示意图；

图2是本发明另一实施例提出的声学模型的生成方法的流程示意图；

图3是本发明另一实施例提出的声学模型的生成方法的流程示意图；

图4是本发明实施例中说话人模型的训练过程和识别过程的示意图；

图5是本发明另一实施例提出的语音合成方法的流程示意图；

图6是本发明另一实施例提出的语音合成方法的流程示意图；

图7是本发明另一实施例提出的声学模型的生成装置的结构示意图；

图8是本发明另一实施例提出的声学模型的生成装置的结构示意图；

图9是本发明另一实施例提出的语音合成装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的声学模型的生成方法的流程示意图，该方法包括：

S11：获取个性化数据，所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的。

例如，参见图2，获取个性化数据时，可以具体包括：

S21：获取个性化语音数据。

个性化语音数据是能够满足用户个性化需求的语音数据。

个性化语音数据可以仅包括目标发音人的语音数据，或者，可以包括：目标发音人的语音数据和与目标发音人语音相似的相似发音人的语音数据。

目标发音人的语音数据例如为：用户自己的语音数据、用户的家人或朋友的语音数据，或者，明星的语音数据等。

通过样本采集可以获取到个性化语音数据。

与普通声学模型训练时通常采集的几千句样本相比，当个性化语音数据仅是目标发音人的语音数据时，采集的目标发音人的语音数据的样本量在几百句或几十句的规模，当个性化语音数据还包括相似发音人的语音数据时，可以进一步降低目标发音人的语音数据的样本量，例如采集几句。

S22：对个性化语音数据进行数据加工。

数据加工例如包括：降噪处理和切分处理等。具体的降噪规则和切分规则可以预先设置。

S23：对数据加工后的个性化语音数据进行特征提取。

例如，提取的特征包括：谱、基频、时长等声学特征。

通过S21-S23可以获取到根据个性化语音数据处理后得到的个性化数据。

另外，个性化数据还包括个性化文本标注数据，相应的，参见图2，还包括：

S24：获取个性化文本标注数据。

其中，个性化文本标注数据是根据与上述的个性化语音数据对应的个性化文本进行标注后得到的。具体的，在采集个性化语音数据时，同时获取相应的个性化文本数据，可以在已有的数据库中查找是否存在个性化文本数据对应的标注数据，如果存在，则可以直接从已有的数据库中获取相应的标注数据作为个性化文本标注数据，如果不存在，则可以采用人工标注或自动标注的方式，获取个性化文本标注数据，自动标注的方式例如结合语音识别、自动边界切分等技术实现。

文本标注数据例如包括对文本的拼音、韵律层级标注等。

通过S21-S23以及S24可以实现个性化数据的获取。

S12：获取预先生成的基准声学模型，所述基准声学模型是根据已有的大规模样本生成的。

其中，可以采用通常的大规模样本训练的方式生成基准声学模型。

在模型训练时，为了解决通常采用的决策树模型训练方式存在的参数不够连贯造成的合成语音不自然的问题，本实施例中，采用神经网络进行模型训练，神经网络例如为LSTM网络结构或者双向LSTM网络结构，LSTM(Long-ShortTermMemory)是一种时间递推神经网络。相应的，生成的声学模型可以称为神经网络声学模型。

以神经网络模型训练为例，参见图2，生成基准神经网络声学模型时，可以具体包括：

S25：获取大规模语音数据。

S26：获取大规模文本标注数据。

其中，大规模语音数据和大规模文本标注数据是相互对应的，规模较大，且具有较好的音子覆盖和韵律覆盖能力，能够描述较多的语音现象。

S27：对大规模语音数据进行特征提取。

例如提取谱、基频、时长等声学特征。

S28：根据提取的特征以及大规模文本标注数据进行神经网络模型训练，生成基准神经网络声学模型。

S13：根据所述个性化数据和所述基准声学模型进行自适应模型训练，生成个性化声学模型。

与直接根据样本训练生成模型不同的是，本实施例中，在获取个性化数据后，可以根据该个性化数据对已有的基准声学模型进行自适应模型训练，从而可以不需要较大的样本规模。

例如，参见图2，在自适应模型训练时也可以采用自适应神经网络模型训练(S29)，从而生成个性化神经网络声学模型。

在基准声学模型的基础上，利用加工好的个性化声音数据，通过自适应技术，实现对模型参数的全局性修改，将其声音特点从基准声学参数所对应的发音人，自适应为个性化声音。由于神经网络模型的更新，是整个网络参数的全局更新，所以，可以实现用较少的录音数据，实现个性化声学模型的训练，大大降低了对录音数据的规模要求，从几千句的规模降低到几百句甚至几十句。而且，基准声学模型所覆盖的语言现象，也会较好地体现在生成的个性化声学模型之中。

本实施例中，通过根据个性化数据和基准声学模型进行自适应模型训练，可以降低所需的个性化数据量，从而降低样本采集所需的时间，降低模型生成所需周期，实现模型的快速生成，通过获取个性化数据可以满足个性化需求。另外，通过大规模样本生成基准声学模型，可以保证根据该基准声学模型生成的个性化声学模型的准确性和可靠性。进一步的，在模型训练时采用神经网络模型训练方式，可以提高模型参数的连贯性，从而提高合成语音的自然性。

图3是本发明另一实施例提出的声学模型的生成方法的流程示意图，该方法包括：

S31：获取目标发音人的语音数据。

目标发音人的语音数据例如：用户自己的语音数据、用户的家人或朋友的语音数据，或者，明星的语音数据等。

本实施例中，为了降低对目标发音人的语音数据的样本采集量，通过获取与目标发音人语音相似的相似发音人的语音数据，以丰富样本量。

相应的，该方法还可以包括：确定与目标发音人语音相似的相似发音人。

参见图3，确定相似发音人的流程可以包括：

S32：对所述目标发音人的语音数据进行特征提取。

例如，提取MFCC、PLP、fbank等特征。

S33：根据提取得到的目标发音人的特征，以及预设生成的多说话人模型，确定与目标发音人语音相似的发音人。

其中，所述多说话人模型是预先对作为样本的语音数据进行特征提取以及根据提取后的特征进行模型训练后生成的。

例如，基于一个预先训练好的多说话人模型，利用说话人识别技术，计算目标说话人与数据库中说话人的语音相似程度，挑选出与目标说话人非常接近(比如，超过某个预设的门限值则认为相似)的一个或者多个发音人。

多说话人模型的训练和识别流程可以参见图4，例如，在训练阶段，包括样本的特征提取(S41)，之后可以根据提取的特征训练生成多说话人模型。在识别阶段，对于当前输入的目标发音人的语音数据，可以先进行特征提取(S41)，再根据提取出的特征在多说话人模型中找到匹配的发音人(S42)，之后再经过相似度判定(S43)，如计算匹配值是否大于门限值等，从而确定出相似发音人。多说话人模型的训练算法可以采用GMM-UBM、SVM、SVM-GMM、JFA、i-vector等方法。

S34：获取相似发音人的语音数据作为相似语音数据。

例如，多说话人语音数据库中关联保存发音人与语音数据，因此，在确定出相似发音人后，根据该关联关系可以从多说话人语音数据库中获取相似发音人的语音数据。

S35：对目标发音人的语音数据和相似发音人的语音数据进行数据加工。

数据加工例如包括：降噪、切分等。

S36：对数据加工后的语音数据进行特征提取。

例如，提取谱、基频、时长等声学特征。

S37：从预先生成的多说话人语音数据库中，获取与相似语音数据对应的文本标注数据。

例如，多说话人语音数据库中关联保存语音数据和文本标注数据，因此，在获取到相似发音人的语音数据后，根据该关联关系可以获取相应的文本标注数据。

S38：从预先生成的多说话人语音数据库中或者采用人工标注或自动标注的方式，获取与目标发音人的语音数据对应的文本标注数据。

例如，如果在多说话人语音数据库中可以找到目标发音人对应的文本标注数据，则从多说话人语音数据库中获取。或者，如果不能在多说话人语音数据库中找到目标发音人对应的文本标注数据，则可以采用人工标注或自动标注方式获取目标发音人的语音数据对应的文本标注数据，自动标注的方式例如结合语音识别、自动边界切分等技术实现。

一些实施例中，如果在多说话人语音数据库中可以找到目标发音人对应的文本标注数据，则在人工标注或自动标注后，该方法还可以包括；

将所述目标发音人的语音数据和与目标发音人的语音数据对应的文本标注数据关联保存到所述多说话人语音数据库中。

新的个性化语音数据，可以加入到多说话人数据库中，不断丰富数据库的内容，并不断更新说话人模型。不断更新的数据库和说话人模型，可以参与到之后其他个性化声学模型训练的过程当中。可以想见，随着个性化声学模型的不断生成，可用的语音数据会越来越多，效果越来越好，这种不断迭代优化的方式，将大大改善个性化声学模型的表现力，满足用户的需求，提升其满意度。

S39：获取预先生成的基准声学模型，并根据提取后的声学特征以及目标发音人的语音数据对应的文本标注数据以及相似发音人的语音数据对应的文本标注数据对所述基准声学模型进行自适应模型训练，生成个性化声学模型。

其中，基准声学模型的生成流程可以参见图2所示实施例，在此不再赘述。

在获取个性化数据后，可以根据该个性化数据对基准声学模型进行自适应模型训练，以生成个性化声学模型。其中，个性化数据包括：对目标发音人的语音数据和相似发音人的语音数据进行数据加工和特征提取后的数据，以及，目标发音人的语音数据对应的文本标注数据和相似发音人的语音数据对应的文本标注数据。

目标发音人的个性化语音、与目标发音人相似的其他发音人语音数据，经过降噪、自动切分、特征提取等步骤后，就可以与对应的文本一起，在预先训练好的基准模型上，进行自适应模型训练了。所谓的对应文本，是指目标发音人语音所对应的标注文本、与目标发音人相似的其他发音人语音数据对应的标注文本。从而，构建出上下文信息与声学参数之间的对应关系，即个性化声学模型。所构建的声学模型，是在一个覆盖丰富语言现象的基准模型基础上，利用目标发音人的个性化声音，以及与目标发音人相似的声音共同自适应生成的，从而解决了目标发音人数据不易采集、或者采集难度大的问题，从而实现目标说话人仅仅需要几句话，即可训练出非常接近的个性化声学模型。由于加入了与目标说话人非常相似的语音数据，所以自适应训练的效果更加稳定，应用到语音合成系统中，所生成的语音效果也更好。

本实施例中，通过对说话人的特征进行分析，利用一个大规模的多说话人数据库，提取出与目标说话人相似的语音数据，共同参与自适应模型训练，从而可以大大降低对目标个性化语音数据的数量要求，同时能保证声学模型很好地反映目标个性化声音的特点，从而达到快速实现个性化语音合成系统的目的。随着大说话人语音数据库的不断丰富，其效果会持续改善，具有非常好的扩展性。

在得到个性化声学模型后，可以将该个性化声学模型用于语音合成，以合成个性化语音。

图5是本发明另一实施例提出的语音合成方法的流程示意图，该方法包括：

S51：对输入文本进行处理，得到处理后的文本。

例如，参见图6，处理流程可以包括：文本预处理(S61)、分词(S62)、词性标注(S63)、注音(S64)、韵律预测(S65)等。

S52：获取预先生成的个性化声学模型。

其中，个性化声学模型可以采用上述实施例生成，在此不再赘述。

S53：根据所述个性化声学模型和处理后的文本进行声学参数生成。

S54：根据生成的声学参数进行语音合成，得到个性化合成语音。

声学参数生成及语音合成的原理可以采用已有方式，与已有方式不同的是，本实施例采用个性化声学模型以区分于已有方式的普通声学模型。

本实施例中，通过采用个性化声学模型，可以生成个性化合成语音，以满足用户个性化语音需求。

图7是本发明另一实施例提出的声学模型的生成装置的结构示意图，该装置70包括：第一获取模块71、第二获取模块72和生成模块73。

第一获取模块71，用于获取个性化数据，所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的；

一些实施例中，所述第一获取模块71具体用于：

获取个性化语音数据，对所述个性化语音数据进行数据加工，以及，对数据加工后的个性化语音数据进行特征提取；以及，

获取与所述个性化语音数据对应的个性化文本标注数据，所述个性化文本标注数据是对所述个性化语音数据对应的个性化文本进行标注后得到的。

个性化语音数据是能够满足用户个性化需求的语音数据。

通过样本采集可以获取到个性化语音数据。

例如，提取的特征包括：谱、基频、时长等声学特征。

文本标注数据例如包括对文本的拼音、韵律层级标注等。

当所述个性化语音数据包括：目标发音人的语音数据和相似发音人的语音数据时，所述获取模块71用于获取个性化语音数据，包括：

获取目标发音人的语音数据；

确定与目标发音人语音相似的相似发音人；

获取相似发音人的语音数据作为相似语音数据。

一些实施例中，所述获取模块71用于确定与目标发音人语音相似的相似发音人，包括：

对所述目标发音人的语音数据进行特征提取；

根据提取得到的目标发音人的特征，以及预设生成的多说话人模型，确定与目标发音人语音相似的发音人，其中，所述多说话人模型是预先对作为样本的语音数据进行特征提取以及根据提取后的特征进行模型训练后生成的。

例如，提取MFCC、PLP、fbank等特征。

所述与所述个性化语音数据对应的个性化文本标注数据包括：与所述目标发音人的语音数据对应的文本标注数据，以及，与所述相似语音数据对应的文本标注数据，所述获取与所述个性化语音数据对应的个性化文本标注数据，包括：

从预先生成的多说话人语音数据库中，获取与相似语音数据对应的文本标注数据；

从预先生成的多说话人语音数据库中或者采用人工标注或自动标注的方式，获取与目标发音人的语音数据对应的文本标注数据，自动标注的方式例如结合语音识别、自动边界切分等技术实现。

例如，如果在多说话人语音数据库中可以找到目标发音人对应的文本标注数据，则从多说话人语音数据库中获取。或者，如果不能在多说话人语音数据库中找到目标发音人对应的文本标注数据，则可以采用人工标注或自动标注的方式获取目标发音人的语音数据对应的文本标注数据，自动标注的方式例如结合语音识别、自动边界切分等技术实现。

一些实施例中，参见图8，当与目标发音人的语音数据对应的文本标注数据是采用人工标注或自动标注方式得到的，所述装置还包括：

保存模块74，用于将所述目标发音人的语音数据和与目标发音人的语音数据对应的文本标注数据关联保存到所述多说话人语音数据库中。

第二获取模块72，用于获取预先生成的基准声学模型，所述基准声学模型是根据已有的大规模样本生成的；

以神经网络模型训练为例，生成基准神经网络声学模型的流程可以参见图2，在此不再赘述。

生成模块73，用于根据所述个性化数据和所述基准声学模型进行自适应模型训练，生成个性化声学模型。

图9是本发明另一实施例提出的语音合成装置的结构示意图，该装置90包括：处理模块91、获取模块92、生成模块93和合成模块94。

处理模块91，用于对输入文本进行处理，得到处理后的文本；

获取模块92，用于获取预先生成的个性化声学模型；

生成模块93，用于根据所述个性化声学模型和处理后的文本进行声学参数生成；

合成模块94，用于根据生成的声学参数进行语音合成，得到个性化合成语音；

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种声学模型的生成方法，其特征在于，包括：

获取个性化数据，所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的；

获取预先生成的基准声学模型，所述基准声学模型是根据已有的大规模样本生成的；

根据所述个性化数据和所述基准声学模型进行自适应模型训练，生成个性化声学模型。

2.根据权利要求1所述的方法，其特征在于，所述获取个性化数据，包括：

3.根据权利要求2所述的方法，其特征在于，当所述个性化语音数据包括：目标发音人的语音数据和相似发音人的语音数据时，所述获取个性化语音数据，包括：

获取目标发音人的语音数据；

确定与目标发音人语音相似的相似发音人；

获取相似发音人的语音数据作为相似语音数据。

4.根据权利要求3所述的方法，其特征在于，所述确定与目标发音人语音相似的相似发音人，包括：

对所述目标发音人的语音数据进行特征提取；

5.根据权利要求3所述的方法，其特征在于，所述与所述个性化语音数据对应的个性化文本标注数据包括：与所述目标发音人的语音数据对应的文本标注数据，以及，与所述相似语音数据对应的文本标注数据，所述获取与所述个性化语音数据对应的个性化文本标注数据，包括：

从预先生成的多说话人语音数据库中或者采用人工标注或自动标注的方式，获取与目标发音人的语音数据对应的文本标注数据。

6.根据权利要求5所述的方法，其特征在于，当与目标发音人的语音数据对应的文本标注数据是采用人工标注或自动标注方式得到的，所述方法还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述基准声学模型是基准神经网络模型，所述自适应模型训练是自适应神经网络模型训练，所述个性化声学模型是个性化神经网络模型。

8.一种语音合成方法，其特征在于，包括：

对输入文本进行处理，得到处理后的文本；

获取预先生成的个性化声学模型；

根据所述个性化声学模型和处理后的文本进行声学参数生成；

根据生成的声学参数进行语音合成，得到个性化合成语音；

其中，所述个性化声学模型采用如权利要求1-7任一项所述的方法生成。

9.一种声学模型的生成装置，其特征在于，包括：

第一获取模块，用于获取个性化数据，所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的；

第二获取模块，用于获取预先生成的基准声学模型，所述基准声学模型是根据已有的大规模样本生成的；

生成模块，用于根据所述个性化数据和所述基准声学模型进行自适应模型训练，生成个性化声学模型。

10.一种语音合成装置，其特征在于，包括：

处理模块，用于对输入文本进行处理，得到处理后的文本；

获取模块，用于获取预先生成的个性化声学模型；

生成模块，用于根据所述个性化声学模型和处理后的文本进行声学参数生成；

合成模块，用于根据生成的声学参数进行语音合成，得到个性化合成语音；