CN105355193B

CN105355193B - 语音合成方法和装置

Info

Publication number: CN105355193B
Application number: CN201510728762.8A
Authority: CN
Inventors: 李秀林; 关勇; 康永国; 徐扬凯; 陈汉英
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2020-09-25
Anticipated expiration: 2035-10-30
Also published as: CN105355193A

Abstract

本发明提出一种语音合成方法和装置，该语音合成方法包括：获取以段落或篇章为单位的文本数据；在发音人朗读所述文本数据时进行录制，得到所述文本数据对应的语音数据，其中，发音人在朗读时结合文本数据的语义进行个人情感表达；生成韵律模型，以及，根据所述文本数据和所述语音数据生成声学模型；在需要进行语音合成时，根据预先生成的韵律模型和声学模型对输入文本进行处理，得到所述输入文本对应的合成语音。该方法能够提高合成语音的情感表现力。

Description

语音合成方法和装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音合成方法和装置。

背景技术

语音合成，又称文语转换(Text to Speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。对于语音合成系统，首先需要对输入的文本进行处理，包括预处理、分词、词性标注、注音、韵律层级预测等，然后再通过声学模型预测声学参数，最后利用声学参数直接通过声码器合成声音，或者从录音语料库中挑选单元进行拼接。

为了实现上述的根据文本合成语音，需要事先进行数据准备。现有技术中，在准备数据时，通过是以句子为单元生成语料，再挑选合适的发音人对语料进行语音录制。一般要求发音人在语音录制时不加入情感平稳地录制，或者以某种与语料自身的情感无关的特定情感录制。这就会造成准备的数据难以表达语料内容包含的情感方面的信息，从而使得合成语音缺乏情感表现力。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种语音合成方法，该方法可以提高合成语音的情感表现力。

本发明的另一个目的在于提出一种语音合成装置。

为达到上述目的，本发明第一方面实施例提出的语音合成方法，包括：获取以段落或篇章为单位的文本数据；在发音人朗读所述文本数据时进行录制，得到所述文本数据对应的语音数据，其中，发音人在朗读时结合文本数据的语义进行个人情感表达；生成韵律模型，以及，根据所述文本数据和所述语音数据生成声学模型；在需要进行语音合成时，根据预先生成的韵律模型和声学模型对输入文本进行处理，得到所述输入文本对应的合成语音。

本发明第一方面实施例提出的语音合成方法，通过获取以段落或篇章为单位的文本数据，可以得到存在语义关联的文本数据，通过发音人在朗读时结合文本数据的语义进行个人情感表达，可以得到更具情感的语音数据，从而基于上述的文本数据和语音数据可以生成包含语义和情感信息的声学模型，进而可以生成更具情感表现力的合成语音。

为达到上述目的，本发明第二方面实施例提出的语音合成装置，包括：获取模块，用于获取以段落或篇章为单位的文本数据；录制模块，用于在发音人朗读所述文本数据时进行录制，得到所述文本数据对应的语音数据，其中，发音人在朗读时结合文本数据的语义进行个人情感表达；生成模块，用于生成韵律模型，以及，根据所述文本数据和所述语音数据生成声学模型；合成模块，用于在需要进行语音合成时，根据预先生成的韵律模型和声学模型对输入文本进行处理，得到所述输入文本对应的合成语音。

本发明第二方面实施例提出的语音合成装置，通过获取以段落或篇章为单位的文本数据，可以得到存在语义关联的文本数据，通过发音人在朗读时结合文本数据的语义进行个人情感表达，可以得到更具情感的语音数据，从而基于上述的文本数据和语音数据可以生成包含语义和情感信息的声学模型，进而可以生成更具情感表现力的合成语音。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的语音合成方法的流程示意图；

图2是本发明实施例中生成韵律模型的流程示意图；

图3是本发明实施例中生成声学模型的流程示意图；

图4是本发明实施例中语音合成的流程示意图；

图5是本发明另一实施例提出的语音合成装置的结构示意图；

图6是本发明另一实施例提出的语音合成装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的语音合成方法的流程示意图，该方法包括：

S11：获取以段落或篇章为单位的文本数据。

与常规采用的以句子为单元的文本数据不同的是，本发明实施例中获取以段落或篇章为单位的文本数据作为训练语料。

以句子为单元的语料通常是句子之间没有什么联系，基本都是独立的。而本发明实施例中通过以段落甚至篇章为单位获取语料，可以充分利用句子之间的关联性，以蕴含更为丰富的上下文特征信息。

S12：在发音人朗读所述文本数据时进行录制，得到所述文本数据对应的语音数据，其中，发音人在朗读时结合文本数据的语义进行个人情感表达。

常规录制过程中，一般要求发音人不加入任何情感，尽可能平稳地录制语音，从而导致语义信息无法融入到语音中。还有些学者，会专门设计少量句子，让发音人以某种情感来朗读，从而造成语义与情感可能存在错位，单个句子没有上下文的铺垫，容易造成情感过于夸张或者生硬，不自然。在本发明实施例中，允许发音人结合文本的语义信息，根据个人理解加入自然的情感表达，从而使得语音中蕴含丰富且自然的情感和语义表达方式。

S13：生成韵律模型，以及，根据所述文本数据和所述语音数据生成声学模型。

训练过程中还需要生成韵律模型和声学模型，以用于语音合成时的韵律预测和声学参数生成。

一些实施例中，在生成韵律模型和/或声学模型时，采用深度神经网络方式，以区分于常规的采用隐马尔可夫和决策树建模生成声学模型的方式。

深度神经网络具有自动学习能力，通过自动学习历史信息对当前预测的影响，更容易利用类似词向量这种矢量特征，建模性能更高。

具体的，深度神经网络采用双向长短时记忆(Bi-LSTM)网络。Bi-LSTM使用长短时记忆(Long-Short Term Memory，LSTM)结构作为其核心建模单元，通过LSTM结构中的状态结构缓存历史的状态信息，并且通过输入门、遗忘门以及输出门对上下文特征信息进行维护，从而实现了长距离上下文特征信息的有效缓存。

一些实施例中，参见图2，采用深度神经网络，生成韵律模型的流程可以包括：

S21：获取多个语句文本。

例如，在获取到上述的以段落或篇章为单位的文本数据后，可以将上述的文本数据分别为多个语句文本；或者，可以获取到其他的标注了韵律层级信息的数据，或者，获取的多个语句文本包括根据上述的文本数据得到的语句文本和其他的标注了韵律层级信息的数据等。

S22：获取每个语句文本对应的特征向量。

例如，可以先对每个语句文本进行分词，得到组成语句文本的一个或多个分词。对应每个分词，根据预先建立的词向量库，获取分词对应的词向量，另外还可以获取分词对应的词语长度和词性，从而用词向量+词语长度+词性表征一个分词，作为分词的特征向量，将组成一个语句文本的分词的特征向量进行组合，得到该语句文本的特征向量。

通过引入词向量，可以增强词语本身的泛化能力，提升韵律模型的鲁棒性。

S23：采用深度神经网络，根据语句文本对应的特征向量进行建模，生成韵律模型。

本实施例中，深度神经网络具体采用：使用全连接的前馈神经网络的深度神经网络(Deep Neural Networks，DNN)+Bi-LSTM网络。Bi-LSTM网络由LSTM单元组成，由于LSTM结构能够维护长距离的历史信息(如，历史的上下文特征信息)，因此特别适合韵律层级标注中的长距离韵律建模。在韵律层级模型训练过程中，将韵律层级预测问题看作对韵律词、韵律短语和语调短语的分类问题，采用DNN加Bi-LSTM的网络结构对模型进行训练。语句文本对应的特征向量作为DNN的输入，DNN的输出作为Bi-LSTM的输入，Bi-LSTM的输出是生成的韵律模型。在生成的韵律模型时对韵律词、韵律短语和语调短语同时进行分类，在误差反向传递的过程体现三种层级结构的相互关系。

一些实施例中，参见图3，采用深度神经网络生成声学模型的流程可以包括：

S31：获取所述文本数据的上下文特征信息。

与常规方式不同的是，本实施例的上下文特征信息不仅可以包括常规特征，还可以包括语义信息特征，语义信息特征例如包括如下项中的一项或多项：词向量信息、句式信息、重音、情感。常规特征例如包括：声韵母、音节、词中位置、韵律位置、词性等。

句式信息例如包括：陈述句、疑问句或感叹句等。

其中，可以对文本数据进行分词并在词向量库中进行查找后，得到词向量信息。

对文本数据进行文本分析可以得到句式信息、重音和情感等信息。

S32：采用深度神经网络，根据所述上下文特征信息和所述语音数据生成声学模型。

由于发音人在录音时采用更自然的表达方式，文本数据间存在关联关系，更利于表达，从而发音人可以提高录制效率，进而能够获取到大量的文本数据和对应的语音数据，扩展训练数据的规模。

另外，在训练生成声学模型时采用上下文特征信息，上下文特征信息会包含语义信息和情感信息等，从而可以得到规模更大、情感更丰富和表现力更强的数据，进而根据这些数据生成的声学模型具有更强的情感表现力。

另外，在生成声学模型时采用深度神经网络，例如为Bi-LSTM网络，可以自动学习记忆历史语境信息的特点之间对声学特征本身进行建模，而不是像常规方式那样对声学特征和其差分等动态特征一起建模，这样建模既可以降低建模维度提升建模精度，又可以跳过动态参数生成环节避免其带来的过平滑现象，更适合对具有高表现力的声学模型的建模。

S14：在需要进行语音合成时，根据预先生成的韵律模型和声学模型对输入文本进行处理，得到所述输入文本对应的合成语音。

例如，韵律模型和声学模型是采用上述的深度神经网络建模后得到的。

可以理解的是，韵律模型和声学模型也可以采用常规方式生成，在采用常规方式生成韵律模型或声学模型时，基于的数据可以包括上述的以段落或篇章为单元的文本数据，在需要时还可以包括其他文本数据，如果还需要语音数据，再采用上述的对应的发音人更自然表达的语音数据，从而在一定程度上提高韵律模型和声学模型的效果。

在得到韵律模型和声学模型后，可以应用到语音合成，以得到合成语音。

参见图4，语音合成的流程可以包括：

S41：对输入文本进行文本预处理。

S42：对预处理后的文本进行分词。

S43：对分词进行词性标注。

S44：根据词性标注结果和预先生成的韵律模型进行韵律层级预测。

其中，韵律模型可以采用上述实施例中的相关方法生成。

S45：对韵律层级预测结果进行注音。

S46：根据注音结果和预先生成的声学模型进行声学参数生成。

其中，声学模型可以采用上述实施例中的相关方法生成。

S47：根据声学参数进行语音生成，得到输入文本对应的合成语音。

语音生成时，可以利用声学参数直接通过声码器合成声音，或者从录音语料库中挑选单元进行拼接得到合成语音。

本实施例中，通过获取以段落或篇章为单位的文本数据，可以得到存在语义关联的文本数据，通过发音人在朗读时结合文本数据的语义进行个人情感表达，可以得到更具情感的语音数据，从而基于上述的文本数据和语音数据可以生成包含语义和情感信息的声学模型，进而通过该声学模型可以生成更具有情感表现力的合成语音。进一步的，采用上述的文本数据以及录制方式，可以获取到更大规模的数据，从而能够提高生成的韵律模型和声学模型的效果。另外，通过采用深度神经网络生成韵律模型和/或声学模型，可以充分利用深度神经网络对历史信息的缓存功能，更利于根据上述的数据生成韵律模型和/或声学模型。

图5是本发明另一实施例提出的语音合成装置的结构示意图，该装置50包括：获取模块51、录制模块52、生成模块53和合成模块54。

获取模块51，用于获取以段落或篇章为单位的文本数据；

录制模块52，用于在发音人朗读所述文本数据时进行录制，得到所述文本数据对应的语音数据，其中，发音人在朗读时结合文本数据的语义进行个人情感表达；

生成模块53，用于生成韵律模型，以及，根据所述文本数据和所述语音数据生成声学模型；

一些实施例中，所述生成模块53具体用于：

采用深度神经网络，生成韵律模型，和/或，根据所述文本数据和所述语音数据生成声学模型。

一些实施例中，参见图6，所述生成模块包括：用于生成声学模型的第一单元531，所述第一单元531具体用于：

获取所述文本数据的上下文特征信息；

采用深度神经网络，根据所述上下文特征信息和所述语音数据生成声学模型。

句式信息例如包括：陈述句、疑问句或感叹句等。

一些实施例中，参见图6，所述生成模块包括：用于生成韵律模型的第二单元532，所述第二单元532具体用于：

获取多个语句文本；

获取每个语句文本对应的特征向量；

采用深度神经网络，根据所述语句文本对应的特征向量进行建模，生成韵律模型。

本实施例中，深度神经网络具体采用：使用全连接的前馈神经网络的深度神经网络(Deep Neural Networks，DNN)+Bi-LSTM网络。Bi-LSTM网络由LSTM单元组成，由于LSTM结构能够维护长距离的历史信息(如，历史的上下文特征信息)，因此特别适合韵律层级标注中的长距离韵律建模。在韵律层级模型训练过程中，将韵律层级预测问题看作对韵律词、韵律短语和语调短语的分类问题，采用DNN加Bi-LSTM的网络结构对模型进行训练。深度神经网络的输出对韵律词、韵律短语和语调短语同时进行分类，在误差反向传递的过程体现三种层级结构的相互关系。

合成模块54，用于在需要进行语音合成时，根据预先生成的韵律模型和声学模型对输入文本进行处理，得到所述输入文本对应的合成语音。

具体的语音合成的流程可以参见图4，在此不再赘述。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音合成方法，其特征在于，包括：

获取以段落或篇章为单位的文本数据；

在发音人朗读所述文本数据时进行录制，得到所述文本数据对应的语音数据，其中，发音人在朗读时结合文本数据的语义进行个人情感表达；

生成韵律模型，以及，根据所述文本数据和所述语音数据生成声学模型，其中，所述根据所述文本数据和所述语音数据生成声学模型包括：获取所述文本数据的上下文特征信息；采用深度神经网络，根据所述上下文特征信息和所述语音数据生成声学模型，所述上下文特征信息包括语义信息的特征和常规特征，所述语义信息的特征如下项中的一项或多项：词向量信息、句式信息、重音、情感，所述声学模型是通过所述深度神经网络自动学习记忆历史语境信息的特点对声学特征进行建模后得到的，所述生成韵律模型包括：获取多个语句文本，对每个语句文本进行分词，获取分词对应的词向量、词语长度和词性作为分词的特征向量，将所述分词的特征向量组合得到语句文本的特征向量，采用深度神经网络，根据所述语句文本的特征向量进行建模，生成韵律模型；

在需要进行语音合成时，根据预先生成的韵律模型和声学模型对输入文本进行处理，得到所述输入文本对应的合成语音。

2.根据权利要求1所述的方法，其特征在于，所述深度神经网络包括：Bi-LSTM网络。

3.一种语音合成装置，其特征在于，包括：

获取模块，用于获取以段落或篇章为单位的文本数据；

录制模块，用于在发音人朗读所述文本数据时进行录制，得到所述文本数据对应的语音数据，其中，发音人在朗读时结合文本数据的语义进行个人情感表达；

生成模块，用于生成韵律模型，以及，根据所述文本数据和所述语音数据生成声学模型，其中，所述生成模块包括：用于生成声学模型的第一单元，用于生成韵律模型的第二单元，所述第一单元具体用于：获取所述文本数据的上下文特征信息；采用深度神经网络，根据所述上下文特征信息和所述语音数据生成声学模型，所述上下文特征信息包括语义信息的特征和常规特征，所述语义信息的特征如下项中的一项或多项：词向量信息、句式信息、重音、情感，所述声学模型是通过所述深度神经网络自动学习记忆历史语境信息的特点对声学特征进行建模后得到的，所述第二单元具体用于：获取多个语句文本，对每个语句文本进行分词，获取分词对应的词向量、词语长度和词性作为分词的特征向量，将所述分词的特征向量组合得到语句文本的特征向量，采用深度神经网络，根据所述语句文本的特征向量进行建模，生成韵律模型；

合成模块，用于在需要进行语音合成时，根据预先生成的韵律模型和声学模型对输入文本进行处理，得到所述输入文本对应的合成语音。