CN110379411B

CN110379411B - 针对目标说话人的语音合成方法和装置

Info

Publication number: CN110379411B
Application number: CN201810322979.2A
Authority: CN
Inventors: 黄智颖; 卢恒; 雷鸣; 王玉平
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2023-06-23
Anticipated expiration: 2038-04-11
Also published as: CN110379411A

Abstract

一种针对目标说话人的语音合成方法和装置。该方法包括：获取第一发音特征向量并输入声学模型组件；利用所述声学模型组件对所述第一发音特征向量进行处理，获得声学特征；其中所述声学模型组件包括基础机器学习模型组件和特征机器学习模型组件，特征机器学习模型组件是利用目标说话人的语音训练获得的；基于声学特征合成针对目标说话人的语音数据。该语音合成方法和装置利用插入的机器学习模型组件作为反映目标说话人的特征的模型组件，通过组合该基础机器学习模型组件和该特征机器学习模型组件形成声学模型组件，将输入的发音特征向量转换为声学特征，减少了目标说话人需要的训练语句的数量，提高了训练模型组件的速度。

Description

针对目标说话人的语音合成方法和装置

技术领域

本申请涉及计算机处理领域，特别是涉及一种针对目标说话人的语音合成方法和装置。

背景技术

语音合成系统是将文本合成语音的合成系统。该合成系统可以实现输入文本、输出语音。

随着科技的进步发展，单纯的语音合成已不能满足大家的需要。业界开始追求语音合成的多样化，例如为用户提供选择不同说话人的选项，这样就需要该语音合成系统能够提供多个不同说话人的语音。

一般来说，训练多个说话人相关的语音合成系统需要收集该说话人大量的语音，这在实际应用中具有成本过高的缺点。因此，业界提出了语音合成自适应技术，利用源说话人的语音合成系统加上目标说话人的少量语音，获得目标说话人的语音合成系统。

现有的语音合成自适应技术包括多说话人的说话人自适应技术、基于鉴别性矢量的说话人自适应技术、单说话人自适应技术等。

针对多说话人的说话人自适应技术是利用多个源说话人训练一个多说话人网络。在训练阶段，多说话人网络即不同训练集说话人共享神经网络的隐层，并且每个说话人拥有自己特有的输出层。在自适应阶段，多说话人网络利用目标说话人的数据训练该说话人特有的输出层，而隐层使用训练阶段训练的隐层。在合成阶段，将特征送入目标说话人的自适应模型组件，进行语音合成。

单说话人自适应技术是在训练阶段利用一个源说话人的数据训练该说话人的语音合成模型组件，在自适应阶段利用目标说话人的数据训练该模型组件的所有参数、某一层或者某几层。在合成阶段将特征送入目标说话人的自适应模型组件进行语音合成。

但是上述方法均具有各种缺点，例如，多说话人的说话人自适应技术需要利用一个源说话人的数据训练模型组件，训练过程复杂，算法难以实现；单说话人自适应技术虽然只需要单个源说话人，但是自适应技术算法过于简单，容易出现过拟合现象，导致合成出来的效果不佳。

发明内容

鉴于上述问题，本发明一实施例提出一种针对目标说话人的语音合成方法和装置，以解决现有技术存在的问题。

为了解决上述问题，本申请一实施例公开一种针对目标说话人的语音合成方法，包括：

获取第一发音特征向量并输入声学模型组件；

利用所述声学模型组件对所述第一发音特征向量进行处理，获得声学特征；其中所述声学模型组件包括基础机器学习模型组件和特征机器学习模型组件，所述特征机器学习模型组件是利用目标说话人的语音训练获得的；

基于所述声学特征合成针对目标说话人的语音数据。

为了解决上述问题，本申请一实施例还公开一种电子装置，该电子装置包括：

存储器，用于存储计算机可读程序；

处理器，当所述处理器读取所述存储器中的计算机可读程序时，所述电子装置执行如下操作：

获取第一发音特征向量并输入声学模型组件；

基于所述声学特征合成针对目标说话人的语音数据。

为了解决上述问题，本申请一实施例公开一种针对目标说话人的语音合成装置，包括：

获取模块，用于获取第一发音特征向量并输入声学模型组件；

声学模型组件处理模块，用于利用所述声学模型组件对所述第一发音特征向量进行处理，获得声学特征；其中所述声学模型组件包括基础机器学习模型组件和特征机器学习模型组件，所述特征机器学习模型组件是利用目标说话人的语音样本数据训练获得的；

合成模块，用于基于所述声学特征合成针对目标说话人的语音数据。

本申请一实施例还公开一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得终端设备执行上述的方法。

由上述可知，本申请实施例包括以下优点：

本发明实施例提出的针对目标说话人的语音合成方法和装置，利用插入的机器学习模型组件作为反映目标说话人的特征的模型组件，通过组合该基础机器学习模型组件和该特征机器学习模型组件形成声学模型组件，利用该声学模型组件将输入的发音特征向量转换为声学特征。减少了目标说话人需要的训练语句的数量，提高了训练模型组件的速度，以较少的计算量实现了输出声学特征及合成语音数据的多样性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1所示为一种语音合成系统的基础机器学习模型组件的示意图。

图2所示为利用图1的基础机器学习模型组件作为声学模型组件合成语音数据的系统示意图。

图3所示为本申请一实施例的声学模型组件的示意图。

图4所示为利用图3的声学模型组件合成语音数据的系统示意图。

图5是本申请第一实施例的针对目标说话人的语音合成方法的流程图。

图6是本申请第二实施例的针对目标说话人的语音合成方法的流程图。

图7是图6中步骤S204包括的子步骤的示意图。

图8所示为语音合成系统的一优选实施例的示意图。

图9是本申请第三实施例的针对目标说话人的语音合成装置的方框图。

图10是本申请第三实施例的针对目标说话人的语音合成装置的方框图。

图11示意性地示出了用于执行根据本发明的方法的终端设备的框图。

图12示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

语音合成系统是将输入的文本信息合成为语音的系统。语音合成系统主要包括三个模块：时长预测模型组件、声学模型组件和声码器。时长预测模型组件用于预测每一个音素的状态的时长信息；声学模型组件用于将输入的数据转化为声学特征。上述时长信息和声学特征输入声码器后，由声码器进行合成，输出语音。

现有多种机器学习模型组件可以作为声学模型组件，进行语音合成。机器学习模型组件可以用业界熟知的多种模型，例如深度神经网络(DNN)机器学习模型组件、卷积神经网络(CNN)机器学习模型组件、递归神经网络(RNN)机器学习模型组件和前向序列神经网络(FSMN)机器学习模型组件等。各种模型组件之间还可以相互组合形成更好的模型组件，例如基于深度神经网络-双向长短时记忆神经网络(DNN-BLSTM)的声学模型组件，是经过验证的效果相对较好的神经网络。

图1所示为基于深度神经网络-双向长短时记忆神经网络的基础神经网络模型组件的示意图。如图1所示，这一神经网络模型组件包括深度神经网络层和双向长短时记忆神经网络层，在图1中二者分别一层和三层为例。输入数据经过这些神经网络模型组件的处理之后作为输出数据输出，输出的内容为对应的声学特征。在声学特征的基础上结合时序特征，通过声码器进行组合则可以输出语音数据。

图2所示为以图1的基础机器学习模型组件作为声学模型组件合成语音数据的系统示意图。如图2所示，将第一发音特征向量输入声学模型组件，经过包括了深度机器学习层和双向长短时记忆机器学习层的基础机器学习模型组件的处理，生成了声学特征，再基于该声学特征生成了语音数据。

为了达到较优的语音数据输出效果，现有的DNN-BLSTM声学模型组件需要使用至少5000句目标说话人的语音训练模型组件，才能输出合格的目标说话人语音。该方案需要针对每一个目标说话人利用大量的语音样本训练声学模型组件，需要采集大量的目标说话人语音样本数据，增加了计算机数据处理量，影响了计算机的性能。

本发明一实施例提出一种语音合成方法和装置，能够通过较少的目标说话人的语音样本数据训练声学模型组件，获得较优的语音数据输出效果。图3所示为本发明一实施例提出的声学模型组件的示意图，图3在图1的基础机器学习模型组件上加入特征机器学习模型组件，可以通过一个或多个源说话人的语音样本数据训练基础机器学习模型组件，再通过少量目标说话人的语音样本数据训练基础机器学习模型组件和特征机器学习模型组件组成的声学模型组件，或者单独利用少量目标说话人的语音样本数据训练特征机器学习模型组件，获得输出的声学特征并生成语音数据。

图4所示为通过图3的声学模型组件合成语音数据的系统示意图。如图4所示，将第一发音特征向量输入声学模型组件，经过包括了基础机器学习模型和特征机器学习模型的系统的处理，生成了声学特征，再基于该声学特征生成了语音数据。对比图4与图2可知，本发明实施例在基础机器学习模型组件的基础上加入了特征机器学习模型组件，利用特征机器学习模型组件反映特定人(目标说话人)的特征，从而获得针对目标说话人的声学特征并生成语音数据。

以下通过多个实施例对本发明提出的语音合成方法进行具体描述。

第一实施例

本发明第一实施例提出一种语音合成方法。图5所示为本发明第一实施例的语音合成方法的步骤流程图。如图5所示，本发明实施例的语音合成方法包括如下步骤：

S101，获取第一发音特征向量并输入声学模型组件；

在这一步骤中，执行主体例如具有计算、处理功能的计算装置，其可以将第一发音特征向量输入声学模型组件。该第一发音特征向量例如是与文本信息对应的发音特征向量，或者是从前序处理步骤中采集到的发音特征向量，在此并不限定。

语音合成是利用语音合成系统将输入的文本信息合成为语音。第一发音特征向量可以是从文本信息中提取出的信息，例如当文本信息输入前序的特征向量提取模型组件之后，该特征向量提取模型组件可以将文本信息划分为多个发音单元，针对每个发音单元提取特征，这些特征构成第一发音特征向量的维度，并反映每一个发音单元的特性。即，第一发音特征向量包括多个维度，这些维度用于反映文本信息经过划分后生成的每一个发音单元的特性。

以“音素”这一汉语拼音当前最小的发音单元为例来说，这些维度可以是：该发音单元之前/之后的发音单元——即当前音素前面的音素、当前音素后面的音素；该发音单元在多个发音单元中的位置——即当前音素在拼音(word)中的位置、当前拼音在句子中的位置等等。

在执行步骤S101之后，该方法还可以包括如下步骤：

S102，利用所述声学模型组件对所述第一发音特征向量进行处理，获得声学特征；其中所述声学模型组件包括基础机器学习模型组件和特征机器学习模型组件，所述特征机器学习模型组件是利用目标说话人的语音训练获得的机器学习模型组件；

在这一步骤中，可以利用经过训练获得的声学模型组件对输入数据中包含的语音特征向量进行处理，该声学模型组件由两部分组成，一部分为基础机器学习模型组件，一部分为特征机器学习模型组件。基础机器学习模型组件由大量的源说话人数据训练形成，特征机器学习模型组件可以是一个线性的单位矩阵，或者是任意设置的机器学习模型组件，其包括多个特征和与特征相乘的权重。

在训练基础机器学习模型组件的过程中，输入的是源说话人的发音特征信息和该源说话人的语言信息，训练模型组件后输出一组权重系数。这组权重系数的每一个对应一个特征维度。

声学模型组件包括上述基础机器学习模型组件和特征机器学习模型组件。二者组合形成声学模型组件。在训练声学模型组件的过程中，输入的是目标说话人的发音特征信息和目标说话人的语音信息，训练模型组件后输出一组权重系数，这组权重系数的每一个对应一个特征维度。

特征机器学习模型组件可以是线性机器学习模型组件(线性模型)或者经过低秩分解的线性模型。特征机器学习模型组件可以插入基础机器学习模型组件中的一层或几层之间。上述的“层”包括基础机器学习模型组件的输入层、输出层和各隐层。特征机器学习可以是一个或多个，每个特征机器学习可以插入基础机器学习模型组件的两层之间，从特征机器学习的其中一个层获得输入，进行处理之后再输入到基础机器学习的下一个层中。

当线性模型插入基础机器学习模型组件的第L层和第L+1层之间时，插入后该声学模型组件在第L层的输出可以利用如下方式表示：

其中h^l为所述基础机器学习模型组件的第L层的输入，W_s为所述目标机器学习模型组件的连接权重矩阵，b_s为所述目标机器学习模型组件的偏置向量。

线性模型的优点在于简单、引入参数量少。除此之外，特征机器学习模型组件还可以是循环神经网络(RNN)机器学习模型组件(循环模型)或者前馈神经网络(FSMN)机器学习模型组件。

针对循环模型，当循环模型插入基础机器学习模型组件的第L层和第L+1层之间时，插入后该声学模型组件在第L层的输出可以利用如下方式表示：

其中h_t ^l为所述基础机器学习模型组件的第L层的输入，W_s、U_s为所述目标机器学习模型组件的连接权重矩阵，b_s为所述目标机器学习模型组件的偏置向量。

针对前馈神经网络机器学习模型组件，当前馈神经网络机器学习模型组件插入基础机器学习模型组件的第L层和第L+1层之间时，插入后该声学模型组件在第L层的输出可以利用如下方式表示：

除了插入基础机器学习模型组件的方式之外，特征机器学习模型组件也可以不插入基础机器学习模型组件中，在训练的过程中可分别训练基础机器学习模型组件和特征机器学习模型组件，使基础机器学习模型组件和特征机器学习模型组件独立存在。在后续的结合步骤中，将基础机器学习模型组件与特征机器学习模型组件之间通过已知的方式进行结合。

在这一步骤中，经过声学模型组件处理后的输入数据可以生成声学特征，声学特征例如包括声音的对数功率谱、静音和非静音、基频信息等信息。

在执行步骤S102之后，可以执行如下步骤：

S103，基于所述声学特征合成针对目标说话人的语音数据。

在这一步骤中，可以从文本信息中获取该第二发音特征向量，并输入时长预测模型组件获得时长信息。第二发音特征向量可以与第一发音特征向量相同，或者部分维度相同。在获得时长信息之后，将所述时长信息与所述声学特征输入现有的WORLD等声码器工具，合成针对目标说话人的语音数据。

由上述可知，本发明第一实施例提出的语音合成方法至少具有如下技术效果：

本发明第一实施例提出的语音合成方法，利用插入的机器学习模型组件作为反映目标说话人的特征的模型组件，通过组合该基础机器学习模型组件和该特征机器学习模型组件形成声学模型组件，利用该声学模型组件将输入的第一发音特征向量转换为声学特征。本发明提出的方法减少了目标说话人需要的训练语句的数量，提高了训练模型组件的效率，以较少的计算处理量实现了输出声学特征及合成语音数据的多样性。

第二实施例

本发明第二实施例提出一种语音合成方法。图6所示为本发明第二实施例的语音合成方法的步骤流程图。如图6所示，本发明实施例的语音合成方法如下步骤：

S202，获取第一发音特征向量，并输入声学模型组件；

S203，利用所述声学模型组件对所述第一发音特征向量进行处理，获得声学特征；其中所述声学模型组件包括基础机器学习模型组件和特征机器学习模型组件，所述特征机器学习模型组件是利用目标说话人的语音训练获得的机器学习模型组件；

S204，基于所述声学特征合成针对目标说话人的语音数据。

上述步骤S202至步骤S204与上一实施例的步骤S101至步骤S103相同或相似，在此不再赘述。本实施例重点说明与上一实施例的不同之处。

在本发明一可选实施例中，所述特征机器学习模型组件包括线性模型、循环模型、前馈型序列记忆网络模型组件至少其中之一。所述线性模型可以为经过低秩分解的线性模型。

在本发明一可选实施例中，所述基础机器学习模型组件也可以是上述的线性模型、循环模型、前馈型序列记忆网络模型组件至少其中之一。在另一实施例中，该基础机器学习模型组件包括多个双向长短期记忆神经网络(Bidirectional Long Short-termMemory,BLSTM)机器学习模型组件和深度神经网络(DNN)机器学习模型组件。

在本发明一可选实施例中，所述声学特征包括所述第一发音特征向量对应的对数功率谱、静音和非静音状态、基频信息等。

在本发明一可选实施例中，在步骤S202之前，所述方法还包括：

S200，利用源说话人的语音样本数据训练基础机器学习模型组件；以及

S201，利用目标说话人的语音样本数据训练所述特征机器学习模型组件。

在训练模型组件阶段，可以利用源说话人的大量语音数据作为样本训练基础机器学习模型组件，再利用相对少量的目标说话人语音数据训练特征网络模型组件。在一实施例中，可以利用5000句源说话人的语音样本数据训练样本，输入基础机器学习模型组件，对该基础机器学习模型组件进行训练。

源说话人的语音数据样本包含的文本数据和语音数据，通过将文本数据和语音数据输入基础机器学习模型组件，可以训练出一组权重。在训练完成之后，将文本数据输入该基础机器学习模型组件，可以输出源说话人的声学特征。在一实施例中，可以利用200句目标说话人的语音样本数据训练样本，输入特征机器学习模型组件，对该特征机器学习模型组件进行训练。该基础机器学习模型组件的初始模型组件可以为单位矩阵，在训练过程中经过迭代获得一组权重系数。

目标说话人的大量语音数据样本包含的文本数据和语音数据，通过将文本数据和语音数据输入基础机器学习模型组件，可以训练出一组权重。在训练完成之后，将文本数据输入该基础机器学习模型组件，可以输出源说话人的声学特征。

在另一可选实施例中，可以将特征机器学习模型组件插入基础机器学习模型组件中，获得声学网络。即，步骤S202之前，该方法还可以包括如下步骤：

S200，利用源说话人的语音样本数据训练基础机器学习模型组件；

S201a，将基础机器学习模型组件与目标机器学习模型组件组合，生成声学模型组件；以及

S201b，利用目标说话人的语音样本数据训练所述声学模型组件。

在步骤S201a中，可以将线性的特征机器学习模型组件插入基础机器学习模型组件的任意两层之间，例如插入第L层和第L+1层之间，使得第L层的输出为

其中Ws和bs分别表示线性网络的连接权重矩阵和偏置向量，均与目标说话人相关。

在步骤S201a中，还可以将基于矩阵分解的线性模型插入基础机器学习模型组件中，在基于矩阵分解的线性模型中，连接权重Ws可以表示为:

W_s，k×k≈U_s，k×rV_s，r×k+D_k×k

其中U_s，k×r和V_s，r×k表示两个矩阵，D_k×k为对角矩阵。这些矩阵均可以初始化为单位矩阵或者任意矩阵，在此不再赘述。

在上述步骤S200中，源说话人可以是包括了目标说话人或者不包括目标说话人的多个说话人，可以是单一的说话人，在此并不限制。基础机器学习模型组件是利用源说话人的大量语音样本数据训练获得的数据，该语音样本数据的数据量例如可以是用于训练特征机器学习模型组件的语音样本数据的10倍以上。

在步骤S201b中，是利用目标说话人的语音样本数据训练包含基础机器学习模型组件与目标机器学习模型组件的声学模型组件。在训练的过程中，可以通过改变学习率的方式，减小或者消除目标说话人的语音样本数据对基础机器学习模型组件的影响。例如可以将基础机器学习模型组件的参数对应的学习率设置为小于1的值或者设置为0。

在本发明一可选实施例中，如图7所示，所述步骤S204，即基于所述声学特征合成针对目标说话人的语音数据的步骤可以包括如下子步骤：

S204a,获取第二发音特征向量，并输入时长预测模型组件；

S204b,利用所述时长预测模型组件对所述第二发音特征向量进行处理，获得时长信息；

S204c，将所述时长信息与所述声学特征输入声码器，生成语音数据。

时长预测模型组件通常与声学模型组件相互独立存在、独立运行。在子步骤S204a中，在将发音特征向量输入时长预测模型组件之后，在步骤S204b中经过时长预测模型组件的处理，输出音素的时长信息。在一个具体示例中，发音单元，例如音素，可以细化为5个状态，时长预测模型组件的输出为每个状态对应的帧数，例如1状态，2帧；2状态，5帧……；5状态，2帧。这个帧的数目就对应的时长信息。在子步骤S204c中，将上一步骤获得的输入数据对应的时长信息和步骤S204中获得的声学特征输入声码器，生成语音数据。声码器例如为WORLD等现有的合成工具，在此不再赘述。

图8为本发明语音合成系统的一个优选实施方式的示意图。结合图7和图8所示，第一发音特征向量和第二发音特征向量例如是基于文本信息生成的；将第一发音特征向量输入声学模型组件生成声学特征，将第二发音特征向量输入时长预测模型组件生成时长信息，将声学特征和时长信息输入声码器进行编码，可以生成对应的语音数据。

综上所述，本实施例提出的语音合成方法至少具有如下优点：

本发明第二实施例提出的语音合成方法，利用插入的机器学习模型组件作为反映目标说话人的特征的模型组件，通过组合该基础机器学习模型组件和该特征机器学习模型组件形成声学模型组件，利用该声学模型组件将输入的发音特征向量转换为声学特征。减少了目标说话人需要的训练语句的数量，提高了训练模型组件的速度，实现了输出声学特征的多样性。

除此之外，本实施例提出的语音合成方法至少还包括如下优点：

本发明第二实施例提出的语音合成方法，经过验证可以利用200句目标说话人的句子，达到现有技术至少使用1000句目标说话人的语音信息所获得的声学模型组件的效果，减少了训练所需要的样本数据，改善了声学模型组件的效果。

在一实施例中，所述特征网络模型组件为线性模型，其结构简单、引入参数较少，方便计算。在其他实施例中，特征网络模型组件还可以是经过低秩分解的线性模型，分解之后降低了矩阵的秩，减少了引入的参数量，简化了计算。

在一实施例中，在训练模型组件是可以利用源说话人的语音训练基础机器学习模型组件，而利用目标说话人的语音训练特征机器学习模型组件，或者利用目标说话人的语音训练有基础机器学习模型组件和特征机器学习模型组件组成的声学模型组件，使得基础机器学习模型组件和特征机器学习模型组件能够分别训练，提高了训练模型组件的效率，降低了计算机计算处理的数据量。

第三实施例

本发明第三实施例提出一种针对目标说话人的语音合成装置，如图9所示，该装置包括：

获取模块601，用于获取第一发音特征向量，并输入声学模型组件；

声学模型组件处理模块602，用于利用所述声学模型组件对所述第一发音特征向量进行处理，获得声学特征；其中所述声学模型组件包括基础机器学习模型组件和特征机器学习模型组件，所述特征机器学习模型组件是利用所述目标说话人的语音样本数据训练获得的机器学习模型组件；

合成模块603，用于基于所述声学特征合成针对目标说话人的语音数据。

本实施例提出的语音合成装置至少具有如下优点：

本发明实施例提出的语音合成装置，利用插入的机器学习模型组件作为反映目标说话人的特征的模型组件，通过组合该基础机器学习模型组件和该特征机器学习模型组件形成声学模型组件，利用该声学模型组件将输入的发音特征向量转换为声学特征。减少了目标说话人需要的训练语句的数量，提高了训练模型组件的速度，实现了输出声学特征的多样性。

第四实施例

本发明第四实施例提出一种针对目标说话人的语音合成装置，如图10所示，该装置包括：

获取模块701，用于获取第一发音特征向量，并输入声学模型组件；

声学模型组件处理模块702，用于利用所述声学模型组件对所述第一发音特征向量进行处理，获得声学特征；其中所述声学模型组件包括基础机器学习模型组件和特征机器学习模型组件，所述特征机器学习模型组件是利用所述目标说话人的语音样本数据训练获得的机器学习模型组件；

合成模块703，用于基于所述声学特征合成针对目标说话人的语音数据。

在一实施例中，所述特征机器学习模型组件包括线性模型、循环模型、前馈型序列记忆网络模型组件至少其中之一。

在一实施例中，所述特征机器学习模型组件包括线性模型或经过低秩分解的线性模型。

在一实施例中，所述基础机器学习模型组件包括多个双向长短期记忆机器学习模型组件和深度机器学习模型组件。

在一实施例中，所述基础机器学习模型组件是由至少一个源说话人的语音样本数据训练获得的机器学习模型组件。

在一实施例中，所述合成模块703包括：

获取子模块，用于获取第二发音特征向量，并输入时长预测模型组件；

处理子模块，用于利用所述时长预测模型组件对所述第二发音特征向量进行处理，获得时长信息；

合成子模块，用于将所述时长信息与所述声学特征输入声码器，生成语音数据。

在一实施例中，所述文本信息对应多个发音单元，针对所述多个发音单元中的每一个发音单元，所述发音特征向量包括：该发音单元之前的发音单元、该发音单元之后的发音单元、该发音单元在所述文本信息中的位置。

在一实施例中，所述声学特征包括所述发音特征向量对应的对数功率谱、静音和非静音、基频信息。

在一实施例中，所述装置还包括：

第一训练模块704，用于利用源说话人的语音样本数据训练基础机器学习模型组件；以及

第二训练模块705，用于利用目标说话人的语音样本数据训练所述特征机器学习模型组件。

在一实施例中，所述装置还包括：

第三训练模块，用于利用源说话人的语音样本数据训练基础机器学习模型组件；

组合模块，用于将基础机器学习模型组件与目标机器学习模型组件组合，生成声学模型组件；以及

第四训练模块，用于利用目标说话人的语音样本数据训练所述声学模型组件。

在一实施例中，所述组合模块用于：

将所述目标机器学习模型组件插入所述基础机器学习模型组件的两层之间；

其中，所述声学模型组件的第L层的输出为

其中h^l为所述基础机器学习的第L层的输入，W_s为所述目标机器学习模型组件的连接权重矩阵，b_s为所述目标机器学习模型组件的偏置向量。

综上所述，本实施例提出的语音合成装置至少具有如下优点：

除此之外，本实施例提出的语音合成装置至少还包括如下优点：

本发明实施例提出的语音合成装置，经过验证可以利用200句目标说话人的句子，达到现有技术至少使用1000句目标说话人的语音信息所获得的声学模型组件的效果，减少了训练所需要的样本数据，改善了声学模型组件的效果。

在一实施例中，所述特征网络模型组件为线性模型，其结构简单、引入参数较少，方便计算。在其他实施例中，特征网络模型组件还可以是经过低秩分解的线性模型，分解之后降低了矩阵的秩，简化了计算。

在一实施例中，在训练模型组件是可以利用源说话人的语音训练基础机器学习模型组件，而利用目标说话人的语音训练特征机器学习模型组件，或者利用目标说话人的语音训练有基础机器学习模型组件和特征机器学习模型组件组成的声学模型组件，使得基础机器学习模型组件和特征机器学习模型组件能够分别训练，提高了训练模型组件的方便程度。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

图11为本申请一实施例提供的终端设备的硬件结构示意图。如图11所示，该终端设备可以包括输入设备90、处理器91、输出设备92、存储器93和至少一个通信总线94。通信总线94用于实现元件之间的通信连接。存储器93可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，存储器93中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述处理器91例如可以为中央处理器(Central Processing Unit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该处理器91通过有线或无线连接耦合到上述输入设备90和输出设备92。

可选的，上述输入设备90可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；可选的，上述收发信机可以是具有通信功能的射频收发芯片、基带处理芯片以及收发天线等。麦克风等音频输入设备可以接收语音数据。输出设备92可以包括显示器、音响等输出设备。

在本实施例中，该终端设备的处理器包括用于执行各设备中数据处理装置各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

图12为本申请另一实施例提供的终端设备的硬件结构示意图。图12是对图11在实现过程中的一个具体的实施例。如图12所示，本实施例的终端设备包括处理器101以及存储器102。

处理器101执行存储器102所存放的计算机程序代码，实现上述实施例中图5至图7的语音合成方法。

存储器102被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息，图片，视频等。存储器102可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

可选地，处理器101设置在处理组件100中。该终端设备还可以包括：通信组件103，电源组件104，多媒体组件105，音频组件106，输入/输出接口107和/或传感器组件108。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件100通常控制终端设备的整体操作。处理组件100可以包括一个或多个处理器101来执行指令，以完成上述图5至图7方法的全部或部分步骤。此外，处理组件100可以包括一个或多个模块，便于处理组件100和其他组件之间的交互。例如，处理组件100可以包括多媒体模块，以方便多媒体组件105和处理组件100之间的交互。

电源组件104为终端设备的各种组件提供电力。电源组件104可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。

多媒体组件105包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件106被配置为输出和/或输入音频信号。例如，音频组件106包括一个麦克风(MIC)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件103发送。在一些实施例中，音频组件106还包括一个扬声器，用于输出音频信号。

输入/输出接口107为处理组件100和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件108包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件108可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件108可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中，该传感器组件108还可以包括摄像头等。

通信组件103被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该终端设备中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得终端设备可以登录GPRS网络，通过互联网与服务端建立通信。

由上可知，在图12实施例中所涉及的通信组件103、音频组件106以及输入/输出接口107、传感器组件108均可以作为图11实施例中的输入设备的实现方式。

本申请实施例提供了一种终端设备，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述终端设备执行如本申请实施例中一个或多个所述的视频摘要的生成方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种语音合成方法和装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种针对目标说话人的语音合成方法，其特征在于，包括：

获取第一发音特征向量并输入声学模型组件；

利用所述声学模型组件对所述第一发音特征向量进行处理，获得声学特征；其中所述声学模型组件包括基础机器学习模型组件和特征机器学习模型组件，所述特征机器学习模型组件是利用所述目标说话人的语音样本数据训练获得的；

基于所述声学特征合成针对目标说话人的语音数据；

所述方法还包括：

利用源说话人的语音样本数据训练基础机器学习模型组件；

将基础机器学习模型组件与目标机器学习模型组件组合，生成声学模型组件；以及

利用目标说话人的语音样本数据训练所述声学模型组件。

2.根据权利要求1所述的方法，其特征在于，所述特征机器学习模型组件包括线性模型、循环模型、前馈型序列记忆网络模型组件至少其中之一。

3.根据权利要求2所述的方法，其特征在于，所述特征机器学习模型组件包括线性模型或经过低秩分解的线性模型。

4.根据权利要求1所述的方法，其特征在于，所述基础机器学习模型组件包括多个双向长短期记忆神经网络机器学习模型组件和深度神经网络机器学习模型组件。

5.根据权利要求4所述的方法，其特征在于，所述基础机器学习模型组件是由至少一个源说话人的语音样本数据训练获得的机器学习模型组件。

6.根据权利要求1所述的方法，其特征在于，所述基于所述声学特征合成针对目标说话人的语音数据的步骤包括：

获取第二发音特征向量并输入时长预测模型组件；

利用所述时长预测模型组件对所述第二发音特征向量进行处理，获得时长信息；

将所述时长信息与所述声学特征输入声码器，生成语音数据。

7.根据权利要求1所述的方法，其特征在于，所述第一发音特征向量是与文本信息对应的发音特征向量，所述文本信息对应多个发音单元，针对所述多个发音单元中的每一个发音单元，所述发音特征向量包括：该发音单元之前的发音单元、该发音单元之后的发音单元、该发音单元在所述多个发音单元中的位置。

8.根据权利要求1所述的方法，其特征在于，所述声学特征包括所述发音特征向量对应的对数功率谱、静音和非静音、基频信息。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

利用目标说话人的语音样本数据训练所述特征机器学习模型组件。

10.根据权利要求1所述的方法，其特征在于，所述将基础机器学习模型组件与目标机器学习模型组件组合，生成声学模型组件的步骤包括：

其中，所述声学模型组件的第L层的输出为

11.一种针对目标说话人的语音合成装置，其特征在于，包括：

合成模块，用于基于所述声学特征合成针对所述目标说话人的语音数据；

所述装置还包括：

12.根据权利要求11所述的装置，其特征在于，所述特征机器学习模型组件包括线性模型、循环模型、前馈型序列记忆网络模型组件至少其中之一。

13.根据权利要求12所述的装置，其特征在于，所述特征机器学习模型组件包括线性模型或经过低秩分解的线性模型。

14.根据权利要求11所述的装置，其特征在于，所述基础机器学习模型组件包括多个双向长短期记忆神经网络机器学习模型组件和深度神经网络机器学习模型组件。

15.根据权利要求14所述的装置，其特征在于，所述基础机器学习模型组件是由至少一个源说话人的语音样本数据训练获得的机器学习模型组件。

16.根据权利要求11所述的装置，其特征在于，所述合成模块包括：

获取子模块，用于获取第二发音特征向量并输入时长预测模型组件；

17.根据权利要求11所述的装置，其特征在于，所述第一发音特征向量是与文本信息对应的发音特征向量，所述文本信息对应多个发音单元，针对所述多个发音单元中的每一个发音单元，所述发音特征向量包括：该发音单元之前的发音单元、该发音单元之后的发音单元、该发音单元在所述多个中的位置。

18.根据权利要求11所述的装置，其特征在于，所述声学特征包括所述发音特征向量对应的对数功率谱、静音和非静音、基频信息。

19.根据权利要求11所述的装置，其特征在于，所述装置还包括：

第二训练模块，用于利用目标说话人的语音样本数据训练所述特征机器学习模型组件。

20.根据权利要求11所述的装置，其特征在于，所述组合模块用于：

其中，所述声学模型组件的第L层的输出为

21.一种终端设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述终端设备执行如权利要求1-10中一个或多个所述的方法。

22.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得终端设备执行如权利要求1-10中一个或多个所述的方法。