CN109147758B

CN109147758B - 一种说话人声音转换方法及装置

Info

Publication number: CN109147758B
Application number: CN201811063798.9A
Authority: CN
Inventors: 刘利娟; 江源; 王智国; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2020-02-14
Anticipated expiration: 2038-09-12
Also published as: CN109147758A

Abstract

本申请公开了一种说话人声音转换方法及装置，该方法包括：在获取到源说话人的源语音数据后，可以从其中提取出表征其语音内容的内容特征，然后，将该内容特征输入至预先构建的目标特征预测模型，从而可利用该模型预测得到目标说话人说出该源语音数据的语音内容时具有的目标声学特征，接着，合成具有目标声学特征的目标语音数据，该目标语音数据与源语音数据具有相同的语义信息。可见，基于源语音数据的语音内容，通过目标特征预测模型便可以预测出目标说话人说出该源语音数据的语音内容时具有的目标声学特征，而不再考虑源语音数据的频谱和基频，故而，不再受源说话人的基频提取误差等因素的影响，从而提升了声音转换的效果。

Description

一种说话人声音转换方法及装置

技术领域

本申请涉及语音合成技术领域，尤其涉及一种说话人声音转换方法及装置。

背景技术

说话人声音转换技术，是一种对源说话人的语音进行转换，使转换后语音具有目标说话人的音色，同时能够保持语音的语义内容不变的技术。这种技术可以应用于许多方面，具有广泛的应用前景和实用价值。

例如，说话人声音转换技术可以用来丰富合成语音效果，将这种技术与语音合成系统相结合，可以方便快捷的生成具有不同音色的语音。此外，说话人声音转换技术还可以用于娱乐领域进行影视配音、用于游戏领域进行角色配音、用于安全领域进行身份隐藏、以及用于医疗领域进行辅助发声，等等。

但是，采用现有的说话人声音转换方法对源说话人的语音进行转换时，转换后语音的音色与目标说话人的音色之间的相似度较低，即声音转换效果较差。

发明内容

本申请实施例的主要目的在于提供一种说话人声音转换方法及装置，实现提升声音转换效果的目的。

本申请实施例提供了一种说话人声音转换方法，包括：

获取源说话人的源语音数据；

从所述源语音数据中，提取表征所述源语音数据的语音内容的内容特征；

将从所述源语音数据中提取的内容特征输入至预先构建的目标特征预测模型，预测得到目标说话人说出所述源语音数据的语音内容时具有的目标声学特征；

合成具有目标声学特征的目标语音数据，所述目标语音数据与所述源语音数据具有相同的语义信息。

可选的，按照下述方式构建所述目标特征预测模型：

获取所述目标说话人的各个第一样本语音数据；

利用各个第一样本语音数据，训练得到所述目标特征预测模型。

可选的，所述利用各个第一样本语音数据，训练得到所述目标特征预测模型，包括：

利用各个第一样本语音数据，对预先构建的初始特征预测模型进行训练，得到所述目标特征预测模型；

其中，按照下述方式构建所述初始特征预测模型：

获取至少一个样本说话人的各个第二样本语音数据；

利用各个第二样本语音数据，训练得到所述初始特征预测模型，所述初始特征预测模型用于根据输入语音数据的内容特征预测得到所述样本说话人说出所述输入语音数据的语音内容时具有的声学特征。

可选的，所述利用各个第一样本语音数据，对预先构建的初始特征预测模型进行训练，得到所述目标特征预测模型，包括：

从所述第一样本语音数据中，提取表征所述第一样本语音数据的语音内容的内容特征；

从所述第一样本语音数据中，提取所述第一样本语音数据的声学特征；

利用从所述第一样本语音数据中提取的内容特征和声学特征，对预先构建的初始特征预测模型进行训练，得到所述目标特征预测模型。

可选的，所述利用各个第二样本语音数据，训练得到所述初始特征预测模型，包括：

从所述第二样本语音数据中，提取表征所述第二样本语音数据的语音内容的内容特征；

从所述第二样本语音数据中，提取所述第二样本语音数据的声学特征；

利用从各个所述第二样本语音数据中提取的内容特征和声学特征，训练得到所述初始特征预测模型。

可选的，所述利用从各个所述第二样本语音数据中提取的内容特征和声学特征，训练得到所述初始特征预测模型，包括：

将各个所述第二样本语音数据对应的特征数据分别作为训练数据，所述训练数据包括从所述第二样本语音数据中提取的内容特征、以及所述第二样本语音数据所属的样本说话人的编码特征；

利用所述各个训练数据进行多轮模型训练，训练得到所述初始特征预测模型。

可选的，所述内容特征是利用预先构建的内容特征提取模型从对应语音数据中所提取的。

本申请实施例还提供了一种说话人声音转换装置，包括：

源语音数据获取单元，用于获取源说话人的源语音数据；

内容特征提取单元，用于从所述源语音数据中，提取表征所述源语音数据的语音内容的内容特征；

目标特征预测单元，用于将从所述源语音数据中提取的内容特征输入至预先构建的目标特征预测模型，预测得到目标说话人说出所述源语音数据的语音内容时具有的目标声学特征；

目标语音合成单元，用于合成具有目标声学特征的目标语音数据，所述目标语音数据与所述源语音数据具有相同的语义信息。

可选的，所述装置还包括：

第一样本语音获取单元，用于获取所述目标说话人的各个第一样本语音数据；

目标预测模型训练单元，用于利用各个第一样本语音数据，训练得到所述目标特征预测模型。

可选的，所述目标预测模型训练单元，具体用于利用各个第一样本语音数据，对预先构建的初始特征预测模型进行训练，得到所述目标特征预测模型；

其中，所述装置还包括：

第二样本语音获取单元，用于获取至少一个样本说话人的各个第二样本语音数据；

初始预测模型训练单元，用于利用各个第二样本语音数据，训练得到所述初始特征预测模型，所述初始特征预测模型用于根据输入语音数据的内容特征预测得到所述样本说话人说出所述输入语音数据的语音内容时具有的声学特征。

可选的，所述目标预测模型训练单元包括：

第一内容特征提取子单元，用于从所述第一样本语音数据中，提取表征所述第一样本语音数据的语音内容的内容特征；

第一声学特征提取子单元，用于从所述第一样本语音数据中，提取所述第一样本语音数据的声学特征；

目标预测模型训练子单元，用于利用从所述第一样本语音数据中提取的内容特征和声学特征，对预先构建的初始特征预测模型进行训练，得到所述目标特征预测模型。

可选的，所述初始预测模型训练单元包括：

第二内容特征提取子单元，用于从所述第二样本语音数据中，提取表征所述第二样本语音数据的语音内容的内容特征；

第二声学特征提取子单元，用于从所述第二样本语音数据中，提取所述第二样本语音数据的声学特征；

第一初始模型训练子单元，用于利用从各个所述第二样本语音数据中提取的内容特征和声学特征，训练得到所述初始特征预测模型。

可选的，所述第一初始模型训练子单元包括：

训练数据确定子单元，用于将各个所述第二样本语音数据对应的特征数据分别作为训练数据，所述训练数据包括从所述第二样本语音数据中提取的内容特征、以及所述第二样本语音数据所属的样本说话人的编码特征；

第二初始模型训练子单元，用于利用所述各个训练数据进行多轮模型训练，训练得到所述初始特征预测模型。

本申请实施例还提供了一种说话人声音转换装置，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述说话人声音转换方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述说话人声音转换方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述说话人声音转换方法中的任意一种实现方式。

本申请实施例提供的一种说话人声音转换方法及装置，在获取到源说话人的源语音数据后，可以从其中提取出表征其语音内容的内容特征，然后，将该内容特征输入至预先构建的目标特征预测模型，从而可利用该模型预测得到目标说话人说出该源语音数据的语音内容时具有的目标声学特征，接着，合成具有目标声学特征的目标语音数据，该目标语音数据与源语音数据具有相同的语义信息。可见，本申请实施例通过将提取出的表征源语音数据的语音内容的内容特征输入至预先构建的目标特征预测模型，基于源语音数据的语音内容，便可以预测出目标说话人说出该源语音数据的语音内容时具有的目标声学特征，而不再考虑源语音数据的频谱和基频，故而，不再受源说话人的基频提取误差等因素的影响，从而提升了声音转换的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种说话人声音转换方法的流程示意图；

图2为本申请实施例提供的构建目标特征预测模型的流程示意图；

图3为本申请实施例提供的构建初始特征预测模型的流程示意图；

图4为本申请实施例提供的参数随机初始化后的模型结构示意图；

图5为本申请实施例提供的一种说话人声音转换装置的组成示意图。

具体实施方式

在一些说话人声音转换方法中，通常是对源说话人声音的频谱转换和基频转换进行分开建模，分别得到频谱转换模型以及基频转换模型，然后，利用频谱转换模型对源说话人声音的频谱进行转换得到转换频谱，同理，还可以利用基频转换模型对源说话人声音的基频进行转换得到转换基频，接着，再将转换频谱和转换基频输入声码器生成转换语音，使得转换后语音具有目标说话人的音色特征。

但是，这种说话人声音转换方式，需要源说话人、目标说话人一定量的语音训练数据，导致构建声音转换系统不够方便。并且，对源说话人声音进行基频转换一般采用的是基于单高斯的基频转换建模方法，会影响转换语音的音质和相似度，这是由于单高斯模型为线性转换模型，其建模能力较弱，对于基频转换特别是对跨性别下的基频转换效果较差；同时，线性转换还会保留源说话人语音中较强的韵律信息，从而影响转换语音与目标说话人的相似度；此外，该说话人声音转换方法是对源说话人的基频直接进行转换，比较容易受源说话人基频提取误差(比如清浊、二/半倍频等问题)的影响，进而影响说话人语音转换的效果。

为解决上述缺陷，本申请实施例提供了一种说话人声音转换方法，在获取到源说话人的源语音数据后，不再利用上述频谱转换模型和基频转换模型来分别对源说话人声音的频谱和基频进行转换，而是在提取出表征源语音数据的语音内容的内容特征后，仅利用一个预先构建的目标特征预测模型，来预测转换后语音需要具有的声学特征，然后，再将源说话人的源语音数据转换为具有该声学特征的语音数据，完成对源说话人的声音转换，可见，本申请实施例只需要一个目标特征预测模型，基于源语音数据的语音内容，便可以预测出转换后语音需要具有的声学特征，不考虑源语音数据的频谱和基频，故而，不再受源说话人的基频提取误差的影响，显著提升了基频转换的鲁棒性和声音转换的效果，这样，即便对音色差别较大的说话人进行声音转换，也能够具有较好的声音转换效果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种说话人声音转换方法的流程示意图，该方法包括以下步骤：

S101：获取源说话人的源语音数据。

在本实施例中，将需要进行声音转换的说话人定义为源说话人，将源说话人的需要进行声音转换的语音数据定义为源语音数据。需要说明的是，本实施例不限制源语音数据的语种，比如，源语音数据可以是中文构成的语音、或英文构成的语音等。

S102：从源语音数据中，提取表征源语音数据的语音内容的内容特征。

在本实施例中，通过步骤S101获取到源说话人的源语音数据后，可以利用现有或未来出现的语音数据分析方法对其进行数据分析，并从中提取出能够表征该源语音数据的语音内容的特征，这里将该特征定义为内容特征，该内容特征中应携带对应语音内容的语义信息。

其中，在本实施例的一种实现方式中，该内容特征可以是利用预先构建的内容特征提取模型从对应语音数据中所提取的。

具体来讲，语音数据中一般包含语音内容相关信息和说话人相关信息，其中，语音内容相关信息指的是说话人说话时，与语义相关的信息，而说话人相关信息指的是说话人的相关特征，比如说话人的性别、音色等信息。由此，在获取到源说话人的源语音数据后，可以利用现有或未来出现的语音数据分析方法对其进行数据分析，比如，可以利用一个已训练好的基于深度神经网络的内容特征提取模型，来提取源语音数据中的语音内容相关信息，用以作为表征该源语音数据的语音内容的内容特征。

在本实施例的一种实现方式中，步骤S102中“从源语音数据中提取表征源语音数据的语音内容的内容特征”的实现过程可以为：首先，根据源语音数据的语种类型，比如，源语音数据可以是中文语音数据或英文语音数据等，以帧为单位对源语音数据进行拆分，得到源语音数据包含的各个语音帧，其中，每帧语音对应了源语音数据所属语种中的某个音素或者某个音素的一部分；然后，再根据源语音数据所属语种包含的所有音素的总个数，比如32个，计算出源语音数据中每帧语音分别属于各个音素的概率值，比如，可以分别计算出源语音数据中每帧语音分别属于这32个音素的概率值，这样，每帧语音均对应一个概率值向量；接着，便可以使用源语音数据中每帧语音对应的概率值向量，作为源语音数据对应的内容特征，来表征源语音数据中包含的语音内容信息。

或者，在本实施例的另一种实现方式中，步骤S102中“从源语音数据中提取表征源语音数据的语音内容的内容特征”的实现过程可以为：当利用预先构建的内容特征提取模型，比如，一个已训练好的基于深度神经网络的内容特征提取模型(该模型的深度神经网络的隐层可以为多层循环神经网络)，从源语音数据中提取表征其语音内容的内容特征时，可以将该模型中多隐层深度神经网络中的最后一个层隐层输出的特征向量，作为源语音数据对应的内容特征。例如，可以利用基于双向长短期记忆网络(Bi-directional Long Short-Term Memory，简称BILSTM)的内容特征提取模型来提取内容特征，该BILSTM的最后一层隐层的输出即可表征其输入数据的语义信息，即，如果将源语音数据输入至基于BILSTM的内容特征提取模型后，可以将其最后一层隐层输出的特征向量作为源语音数据对应的内容特征，来表征源语音数据中包含的语音内容信息。此外，内容特征提取模型也可以是一个特殊设计的自编码器(autoencoder)，源语音数据对应的内容特征可以通过autoencoder网络提取得到，具体来讲，这个autoencoder包含一层特殊结构的隐层，这个隐层被分解为风格特征节点和内容特征节点两部分；在训练这个autoencoder时，通过加入额外设计的风格损失函数和内容损失函数，来保证风格特征节点只学习到与语音风格相关的信息，内容特征节点只学习到与语音内容相关的信息；待autoencoder网络训练结束之后，可以将表征源语音数据的特征数据作为autoencoder的输入，那么，autoencoder的与内容特征相关的隐层节点输出的值，即可作为源语音数据对应的内容特征。

需要说明的是，本实施例在构建内容特征提取模型时，首先，通过收集大量说话人的不同语音数据建立语音数据库；然后，再基于该语音数据库中的语音数据训练得到内容特征提取模型，具体来讲，对于不同说话人的不同语音数据，均可以提取得到一个表征该语音数据(比如语音内容、音色等)的特征序列，比如滤波器组(Filter banks，简称FBK)特征，基于此，内容特征提取模型的输入可以是输入语音数据的FBK特征，内容特征提取模型的输出即为该输入语音数据对应的预测内容特征，将该预测内容特征与该输入语音数据对应的实际内容特征进行对比，根据对比结果更新模型参数，当利用多个语音数据进行多轮训练后，即可得到内容特征提取模型。这样，可以通过大量说话人的不同语音数据的训练，进一步削弱该模型的输出特征与说话人之间的相关性，因此，该模型的输出特征可以近似看作与说话人无关，且仅包含与语音内容相关的特征，即，可以用该模型的输出特征作为内容特征来表征语音数据中包含的语音内容信息。

S103：将从源语音数据中提取的内容特征输入至预先构建的目标特征预测模型，预测得到目标说话人说出源语音数据的语音内容时具有的目标声学特征。

在本实施例中，将对源说话人的源语音数据进行声音转换后得到的语音数据所具有的声学特征称为目标声学特征，并将说出转换后的语音数据的说话人称为目标说话人，进一步将能够预测出目标声学特征的模型称为目标特征预测模型。

进而，在通过步骤S102提取出表征源语音数据的语音内容的内容特征后，可以将这些内容特征输入至预先构建的目标特征预测模型中，从而预测得到目标说话人说出源语音数据的语音内容时所具有的目标声学特征。其中，该目标声学特征通常应携带有转换后语音(即S104中提及的目标语音数据)的频谱特征和基频特征组成的联合特征，进一步可以包括清浊和非周期谐波成份等特征中的一种或多种特征，而其中的频谱特征可以是梅尔倒谱特征、线谱对特征、谱包络特征等，更具体地，当利用声码器(vocoder)生成转换后语音时，目标声学特征应至少包括频谱、基频、清浊这三种特征。此外，该目标声学特征也可以是转换后语音的FBK特征。

需要说明的是，为实现本步骤S103，需要预先构建一个目标特征预测模型，具体构建过程可参见后续第二实施例的相关介绍。

S104：合成具有目标声学特征的目标语音数据，其中，目标语音数据与源语音数据具有相同的语义信息。

在本实施例中，通过步骤S103获得目标说话人说出源语音数据的语音内容时具有的目标声学特征后，进一步可以将该目标声学特征输入至一个语音合成设备，比如声码器(vocoder)等，用以合成具有目标声学特征的目标语音数据，该目标语音数据即为转换后的语音数据，需要说明的是，源语音数据与目标语音数据的语音内容相同，即二者具有相同的语义信息。

举例说明：假设目标声学特征指的是转换后的目标语音数据具有的频谱、基频、清浊和非周期谐波成份特征组成的联合特征，则可以将这些频谱、基频、清浊和非周期谐波成份特征组成的联合特征输入至声码器中，以合成转换后的目标说话人的语音数据。即，实现了将源说话人的源语音数据转换为相对应的目标说话人的语音数据，完成了说话人声音转换。

综上，本实施例提供的一种说话人声音转换方法，在获取到源说话人的源语音数据后，可以从其中提取出表征其语音内容的内容特征，然后，将该内容特征输入至预先构建的目标特征预测模型，从而可利用该模型预测得到目标说话人说出该源语音数据的语音内容时具有的目标声学特征，接着，合成具有目标声学特征的目标语音数据，该目标语音数据与源语音数据具有相同的语义信息。可见，本申请实施例通过将提取出的表征源语音数据的语音内容的内容特征输入至预先构建的目标特征预测模型，基于源语音数据的语音内容，便可以预测出目标说话人说出该源语音数据的语音内容时具有的目标声学特征，而不再考虑源语音数据的频谱和基频，故而，不再受源说话人的基频提取误差等因素的影响，从而提升了声音转换的效果。

第二实施例

本实施例将对第一实施例中提及的目标特征预测模型的具体构建过程进行介绍。利用该预先构建的目标特征预测模型，可以预测得到目标说话人说出源语音数据的语音内容时具有的目标声学特征。

参见图2，其示出了本实施例提供的构建目标特征预测模型的流程示意图，该流程包括以下步骤：

S201：获取目标说话人的各个第一样本语音数据。

在本实施例中，为了构建目标特征预测模型，需要预先进行大量的准备工作，首先，需要收集目标说话人的少量干净语音数据，比如，可以预先收集100句目标说话人的语音数据，并将收集到的目标说话人的每一语音数据分别作为第一样本语音数据，用以训练目标特征预测模型。

S202：利用各个第一样本语音数据，训练得到目标特征预测模型。

在本实施例中，通过步骤S201获取到目标说话人的各个第一样本语音数据后，进一步可以将这些第一样本语音数据作为训练数据，用以训练得到目标特征预测模型。

具体来讲，一种可选的实现方式是，可以利用获取到的各个第一样本语音数据，对预先构建的初始特征预测模型进行训练，调整初始特征预测模型中的相关模型参数，以得到目标特征预测模型，其中，预先构建的初始特征预测模型可以是预先训练好的与目标说话人无关的声学特征预测模型。

通过训练得到目标特征预测模型的具体过程可以包括步骤A-C：

步骤A：从第一样本语音数据中，提取表征第一样本语音数据的语音内容的内容特征。

在本实现方式中，通过步骤S201获取到目标说话人的各个第一样本语音数据后，可以从各个第一样本语音数据中，提取出表征第一样本语音数据的语音内容的内容特征，具体来讲，可以采用与第一实施例步骤S102中从源语音数据中提取表征其语音内容的内容特征类似的方法，将源语音数据替换为第一样本语音数据，即可从各个第一样本语音数据中提取出表征各个第一样本语音数据的语音内容的内容特征，相关之处请参见第一实施例的介绍，在此不再赘述。

步骤B：从第一样本语音数据中，提取第一样本语音数据的声学特征。

在本实现方式中，通过步骤S201获取到目标说话人的各个第一样本语音数据后，不仅可以从中提取出相应的内容特征，还可以从各个第一样本语音数据中，提取出各个第一样本语音数据的声学特征，具体来讲，可以利用现有或未来出现的语音特征提取方法对各个第一样本语音数据进行声学特征提取，获取各个第一样本语音数据对应的声学特征，其中，声学特征可以是第一样本语音数据的频谱、基频、清浊和非周期谐波成份特征中的特征组成的联合特征，而其中的频谱特征可以是梅尔倒谱特征、线谱对特征、谱包络特征等，本实施例以梅尔倒谱特征为例进行说明，也就是说，声学特征可以是第一样本语音数据的梅尔倒谱特征、基频、清浊和非周期谐波成份特征中的特征组成的联合特征，这样，便得到对应于第一样本语音数据的联合声学特征向量。

需要说明的是，本实施例不限制步骤A-B的执行顺序。

步骤C：利用从第一样本语音数据中提取的内容特征和声学特征，对预先构建的初始特征预测模型进行训练，得到目标特征预测模型。

在本实现方式中，通过步骤A-B分别从第一样本语音数据中提取出内容特征和声学特征后，可以依次获取每一第一样本语音数据对应的内容特征和声学特征，并利用当前获取的特征数据对初始特征预测模型进行当前轮训练，以进行参数更新，经过多轮参数更新后(即满足训练结束条件后，比如达到预设训练轮数或模型参数变化量小于预设阈值等)，便训练得到目标特征预测模型。

具体地，在进行当前轮训练时，可以将当前轮获取的内容特征作为输入数据输入至当前初始特征预测模型，同时，将当前轮获取的声学特征作为当前初始特征预测模型的期望输出特征，当获取到当前初始特征预测模型的预测输出特征后，将预测输出特征与期望输出特征进行对比，根据对比差异对模型参数进行更新，从而完成当前轮训练。需要说明的是，每轮训练输入的内容特征、期望输出特征、以及预测输出特征的特征类型均是相同的，但每一特征类型对应的具体特征参数通常是不同的。

接下来，对如何构建初始特征预测模型进行介绍。

参见图3，其示出了本实施例提供的构建初始特征预测模型的流程示意图，该流程包括以下步骤：

S301：获取至少一个样本说话人的各个第二样本语音数据。

在本实施例中，为了构建初始特征预测模型，需要预先进行大量的准备工作，首先，需要收集大量不同说话人的干净语音数据，使收集到的语音数据应尽可能全的覆盖语音转换语种的各个音素类。比如，可以预先收集20个以上的不同说话人的语音数据，且收集到的每个说话人的语音数据在小时量级，这是因为若作为训练数据(即样本说话人的语音数据)的数据量比较少，则在训练过程时，容易出现过训练的问题。并且，由于模型需要实现基于内容特征对声学特征的预测，若训练数据过少，可能会存在音素覆盖不全的问题，导致模型对语音数据的发音、韵律的预测不稳定。因此，在本实施例中，需要收集大量不同说话人的语音数据，并将每个不同的说话人均作为一个样本说话人，同时，将收集的每条语音数据分别作为第二样本语音数据，用以训练得到初级特征预测模型。

S302：利用各个第二样本语音数据，训练得到初始特征预测模型，其中，初始特征预测模型用于根据输入语音数据的内容特征预测得到样本说话人说出该输入语音数据的语音内容时具有的声学特征。

在本实施例中，可以通过参数随机初始化的方式，构建一个包含输入层、隐层(即多隐层深度神经网络)以及输出层的特征预测模型，然后，在通过步骤S301获取到各个第二样本语音数据后，进一步可以将这些第二样本语音数据作为训练数据，用以对通过参数随机初始化构建的特征预测模型进行训练，以得到训练好的初始特征预测模型。其中，初始特征预测模型的作用是，能够根据输入语音数据的内容特征预测得到样本说话人说出该输入语音数据的语音内容时具有的声学特征。

在本实施例的一种实现方式中，S302具体可以包括步骤D-F：

步骤D：从第二样本语音数据中，提取表征第二样本语音数据的语音内容的内容特征。

在本实现方式中，通过步骤S301获取到至少一个样本说话人的各个第二样本语音数据后，可以从各个第二样本语音数据中，提取出表征第二样本语音数据的语音内容的内容特征，具体来讲，可以采用与第一实施例步骤S102中从源语音数据中提取表征其语音内容的内容特征类似的方法，将源语音数据替换为第二样本语音数据，即可从各个第二样本语音数据中提取出表征各个第二样本语音数据的语音内容的内容特征，相关之处请参见第一实施例的介绍，在此不再赘述。

步骤E：从第二样本语音数据中，提取第二样本语音数据的声学特征。

在本实现方式中，通过步骤S301获取到至少一个样本说话人的各个第二样本语音数据后，不仅可以从中提取出相应的内容特征，还可以从各个第二样本语音数据中，提取出各个第二样本语音数据的声学特征，具体来讲，可以利用现有或未来出现的语音特征提取方法对各个第二样本语音数据进行声学特征提取，获取各个第二样本语音数据对应的声学特征，其中，声学特征可以是第二样本语音数据的频谱、基频、清浊和非周期谐波成份特征中的特征组成的联合特征，而其中的频谱特征可以是梅尔倒谱特征、线谱对特征、谱包络特征等，本实施例以梅尔倒谱特征为例进行说明，也就是说，声学特征可以是第二样本语音数据的梅尔倒谱特征、基频、清浊和非周期谐波成份特征中的特征组成的联合特征。进而可以将所有获取到的第二样本语音数据对应的声学特征组合起来，得到所有第二样本语音数据对应的声学特征序列。

需要说明的是，本实施例不限制步骤D-E的执行顺序。

还需要说明的是，由于本实施例是以从第二样本语音数据中提取的声学特征作为训练数据，训练得到初始特征预测模型，再将从第一样本语音数据中提取的声学特征作为训练数据，训练初始特征预测模型，得到目标特征预测模型，因此，从第二样本语音数据中提取的声学特征的特征类型，需要至少包含从第一样本语音数据中提取的声学特征的特征类型。

步骤F：利用从各个第二样本语音数据中提取的内容特征和声学特征，训练得到初始特征预测模型。

在本实现方式中，通过步骤D-E分别从各个第二样本语音数据中提取出内容特征和声学特征后，进一步可以利用提取的内容特征和声学特征训练得到初始特征预测模型。

在本实施例的一种实现方式中，步骤F具体可以包括步骤(1)-(2)：

步骤(1)：将各个第二样本语音数据对应的特征数据分别作为训练数据，其中，训练数据包括从第二样本语音数据中提取的内容特征、以及第二样本语音数据所属的样本说话人的编码特征。

具体来讲，如上述步骤S302所述，本实施例首先采用参数随机初始化的方式，构建一个包含输入层、隐层(即多隐层深度神经网络)以及输出层的特征预测模型，在此基础上，训练生成初始特征预测模型。例如，如图4所示，其示出了本实现方式提供的参数随机初始化后的模型结构示意图，该模型包含三层结构，分别为输入层、隐层和输出层，其中，隐层可以采用全连接网络、循环神经网络、卷积网络中的一种或者几种网络的组合。

步骤(2)：利用各个训练数据进行多轮模型训练，训练得到初始特征预测模型。

在模型训练过程中，可以依次获取每一第二样本语音数据，并将当前获取的第二样本语音数据用于当前轮的模型训练，具体地，在当前轮训练过程中，可以将从第二样本语音数据中提取的内容特征、以及该第二样本语音数据所属的样本说话人的编码特征作为训练数据，并利用现有或未来出现的参数估计方法，比如基于最小均方误差准则，根据当前轮的模型输出结果对该模型的参数进行估计，从而对模型参数进行更新。这样，通过多轮训练后，即可训练得到一个可以对一个或多个样本说话人的声学特征进行预测的初始特征预测模型。

对于当前轮训练使用的第二样本语音数据来讲，将从该第二样本语音数据中提取的内容特征以及对应的样本说话人的编码特征的联合特征作为输入数据，输入至通过参数随机初始化构建的特征预测模型的输入层，需要说明的是，对于属于同一个样本说话人的每个内容特征，与其对应的样本说话人的编码特征都是相同的。其中，样本说话人的编码特征的形式可以有多种，比如，可以是独热编码(One-Hot Encoding)形式，此时，样本说话人的编码特征则可以是一个S×1维度的向量，进而对于第1个样本说话人来讲，其样本说话人的编码特征向量的第1维则为1，其他维全为0，具体形式为[1,0,0,...,0]^T，同理，对于第2个样本说话人，其样本说话人的编码特征向量的第2维为1，其他维全为0，具体形式为[0,1,0,...,0]^T，剩下样本说话人的编码特征向量以此类推得到。而通过参数随机初始化构建的特征预测模型的输出层的输出特征，则为对应样本说话人说出第二样本语音数据的语音内容时具有的预测声学特征，而上述通过步骤E从第二样本语音数据中提取的声学特征即为期望声学特征，将预测声学特征与期望声学特征进行对比，根据对比差异对模型参数进行更新，从而完成当前轮训练。

进一步的，由于在得到的上述对一个或多个样本说话人声学特征进行预测的模型中，输入数据中的样本说话人的编码特征包含了样本说话人的相关信息，使得该特征预测模型输出的声学特征是与对应的样本说话人相关的，所以，如图4所示，需要将样本说话人编码特征W不再与隐层连接，将剩下的由第二样本语音数据的内容特征对声学特征预测的网络模型作为初始特征预测模型，进而可以基于初始特征预测模型来构建目标特征预测模型，具体构建过程可参见上述步骤S201-S202。需要说明的是，上述样本说话人编码特征W在与隐层连接时，可以与隐层中的至少一层连接，即，可以与隐层中的任意一层或任意多层连接。

需要说明的是，利用上述步骤构建目标特征预测模型的方式，是在通过参数随机初始化的方式构建了一个包含输入层、隐层(即多隐层深度神经网络)以及输出层的特征预测模型后，首先通过大量样本说话人的语音数据训练得到一个初始特征预测模型，然后再利用目标说话人的语音数据，对已构建的初始特征预测模型进行训练，即调整初始特征预测模型的模型参数，以生成目标特征预测模型。可见，由于初始特征预测模型是经过训练得到的，这使得初始特征预测模型具有较好的预测性能，因此，可以使用较少的目标说话人语音数据对初始特征预测模型进行训练，得到目标特征预测模型；并且，初始特征预测模型具有较强的迁移能力，这是因为，在基于初始特征预测模型训练得到目标特征预测模型时，需要的目标说话人的语音数据量较少，故方便收集目标说话人的语音数据，进而可以基于初始特征预测模型训练出适用于不同目标说话人的目标特征预测模型。

还需要说明的是，除了可以通过上述步骤构建目标特征预测模型外，还可以在通过参数随机初始化的方式构建了一个包含输入层、隐层(即多隐层深度神经网络)以及输出层的特征预测模型后，直接将其作为初始特征预测模型，再通过收集大量目标说话人的语音数据，用以对该初始特征预测模型进行训练，调整该模型的模型参数，以生成目标特征预测模型，与上述目标特征预测模型的训练数据不同的是，这种方式需要的目标说话人的语音数据量较大。

综上，利用本实施例训练而成的目标特征预测模型，可以利用表征源语音数据的语音内容的内容特征，预测得到目标说话人说出源语音数据的语音内容时具有的目标声学特征，以便后续将源语音数据转换为具有该目标声学特征的目标语音数据，从而实现了源说话人声音向目标说话人声音的转换。

第三实施例

本实施例将对一种说话人声音转换装置进行介绍，相关内容请参见上述方法实施例。

参见图5，为本实施例提供的一种说话人声音转换装置的组成示意图，该装置500包括：

源语音数据获取单元501，用于获取源说话人的源语音数据；

内容特征提取单元502，用于从所述源语音数据中，提取表征所述源语音数据的语音内容的内容特征；

目标特征预测单元503，用于将从所述源语音数据中提取的内容特征输入至预先构建的目标特征预测模型，预测得到目标说话人说出所述源语音数据的语音内容时具有的目标声学特征；

目标语音合成单元504，用于合成具有目标声学特征的目标语音数据，所述目标语音数据与所述源语音数据具有相同的语义信息。

在本实施例的一种实现方式中，所述装置500还包括：

在本实施例的一种实现方式中，所述目标预测模型训练单元，具体用于利用各个第一样本语音数据，对预先构建的初始特征预测模型进行训练，得到所述目标特征预测模型；

其中，所述装置500还包括：

在本实施例的一种实现方式中，所述目标预测模型训练单元包括：

在本实施例的一种实现方式中，所述初始预测模型训练单元包括：

在本实施例的一种实现方式中，所述第一初始模型训练子单元包括：

在本实施例的一种实现方式中，所述内容特征是利用预先构建的内容特征提取模型从对应语音数据中所提取的。

进一步地，本申请实施例还提供了一种说话人声音转换装置，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述说话人声音转换方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述说话人声音转换方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述说话人声音转换方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种说话人声音转换方法，其特征在于，包括：

获取源说话人的源语音数据；

合成具有目标声学特征的目标语音数据，所述目标语音数据与所述源语音数据具有相同的语义信息；

其中，所述目标声学特征携带有所述目标语音数据的频谱特征和基频特征组成的联合特征。

2.根据权利要求1所述的方法，其特征在于，按照下述方式构建所述目标特征预测模型：

获取所述目标说话人的各个第一样本语音数据；

3.根据权利要求2所述的方法，其特征在于，所述利用各个第一样本语音数据，训练得到所述目标特征预测模型，包括：

其中，按照下述方式构建所述初始特征预测模型：

获取至少一个样本说话人的各个第二样本语音数据；

利用各个第二样本语音数据，训练得到所述初始特征预测模型，所述初始特征预测模型用于根据输入语音数据的内容特征预测得到所述样本说话人说出所述输入语音数据的语音内容时具有的声学特征，所述输入语音数据为所述第二样本语音数据。

4.根据权利要求3所述的方法，其特征在于，所述利用各个第一样本语音数据，对预先构建的初始特征预测模型进行训练，得到所述目标特征预测模型，包括：

5.根据权利要求3所述的方法，其特征在于，所述利用各个第二样本语音数据，训练得到所述初始特征预测模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述利用从各个所述第二样本语音数据中提取的内容特征和声学特征，训练得到所述初始特征预测模型，包括：

利用各个训练数据进行多轮模型训练，训练得到所述初始特征预测模型。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述内容特征是利用预先构建的内容特征提取模型从对应语音数据中所提取的。

8.一种说话人声音转换装置，其特征在于，包括：

源语音数据获取单元，用于获取源说话人的源语音数据；

目标语音合成单元，用于合成具有目标声学特征的目标语音数据，所述目标语音数据与所述源语音数据具有相同的语义信息；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述目标预测模型训练单元，具体用于利用各个第一样本语音数据，对预先构建的初始特征预测模型进行训练，得到所述目标特征预测模型；

其中，所述装置还包括：

初始预测模型训练单元，用于利用各个第二样本语音数据，训练得到所述初始特征预测模型，所述初始特征预测模型用于根据输入语音数据的内容特征预测得到所述样本说话人说出所述输入语音数据的语音内容时具有的声学特征，所述输入语音数据为所述第二样本语音数据。

11.根据权利要求10所述的装置，其特征在于，所述目标预测模型训练单元包括：

12.根据权利要求10所述的装置，其特征在于，所述初始预测模型训练单元包括：

13.根据权利要求12所述的装置，其特征在于，所述第一初始模型训练子单元包括：

第二初始模型训练子单元，用于利用各个训练数据进行多轮模型训练，训练得到所述初始特征预测模型。

14.根据权利要求8至13任一项所述的装置，其特征在于，所述内容特征是利用预先构建的内容特征提取模型从对应语音数据中所提取的。

15.一种说话人声音转换装置，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-7任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-7任一项所述的方法。