CN105390141B

CN105390141B - 声音转换方法和装置

Info

Publication number: CN105390141B
Application number: CN201510676304.4A
Authority: CN
Inventors: 陈凌辉; 张卫庆; 江源; 杨浦; 潘青华; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2015-10-14
Filing date: 2015-10-14
Publication date: 2019-10-18
Anticipated expiration: 2035-10-14
Also published as: CN105390141A

Abstract

本发明提出一种声音转换方法和装置，该声音转换方法包括预先构建声音转换模型；接收源发音人的语音信号，并提取语音信号的频谱特征；确定源发音人对应的声音转换模型；根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息。该声音转换方法能够有效提高声音转换的灵活性。

Description

声音转换方法和装置

技术领域

本发明涉及语音信号技术领域，尤其涉及一种声音转换方法和装置。

背景技术

声音转换的目标是将源说话人的语音转换为目标说话人的语音。近年来，由于其广泛的应用前景，声音转换技术得到了广泛的研究与关注。同样，声音转换技术在娱乐方面也有很大的应用前景，例如，可以将用户的声音转换为想要的明星的声音，或者转换为用户所熟悉的人的声音。此外，声音转换技术还可以帮助因发音器官受损而植入电子喉的病人发出高质量的语音，将说话语音变换为歌唱语音等等。另外，声音转换技术也可以作为语音合成技术的个性化音色构建的一种方法。

现有的声音转换方法都是一对一的转换方法，即转换方法是与源说话人和目标说话人相关的，例如，如果构建源发音人到目标发音人的声音转换模型，需要获得源发音人和目标发音人足够的训练语料，用以学习他们之间的转换关系，但是该转换模型对于其他源发音人或目标发音人并不适用，这样，转换模型的灵活性差，在实际产品应用中，技术门槛高。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种声音转换方法，该声音转换方法能够有效提高声音转换的灵活性。

本发明的另一个目的在于提出一种声音转换装置。

为达到上述目的，本发明第一方面实施例提出的声音转换方法，包括：预先构建声音转换模型；接收源发音人的语音信号，并提取所述语音信号的频谱特征；确定所述源发音人对应的声音转换模型；根据所述频谱特征和所述源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息。

本发明第一方面实施例提出的声音转换方法，通过预先构建声音转换模型，接收源发音人的语音信号并提取频谱特征，确定源发音人对应的声音转换模型，根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息，有效提高声音转换的灵活性。

为达到上述目的，本发明第二方面实施例提出的声音转换装置，包括：构建模块，用于预先构建声音转换模型；接收模块，用于接收源发音人的语音信号，并提取所述语音信号的频谱特征；确定模块，用于确定所述源发音人对应的声音转换模型；转换模块，用于根据所述频谱特征和所述源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息。

本发明第二方面实施例提出的声音转换装置，通过预先构建声音转换模型，接收源发音人的语音信号并提取频谱特征，确定源发音人对应的声音转换模型，根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息，有效提高声音转换的灵活性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的声音转换方法的流程示意图；

图2是本发明实施例中声音转换模型的结构示意图；

图3是本发明另一实施例提出的声音转换方法的流程示意图；

图4是本发明另一实施例提出的声音转换装置的结构示意图；

图5是本发明另一实施例提出的声音转换装置的结构示意图；

图6是本发明另一实施例提出的声音转换装置的结构示意图；

图7是本发明另一实施例提出的声音转换装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的声音转换方法的流程示意图，该方法包括：

S11：预先构建声音转换模型。

其中，声音转换模型可以是神经网络模型，参见图2，包括输入编码层21、中间转换层22、输出解码层23。

神经网络模型可以是深度神经网络(Deep Neural Networks，DNN)模型、递归神经网络(Recurrent Neural Networks，RNN)模型、卷积神经网络(Convolutional NeuralNetworks，CNN)模型等，本申请以DNN模型为例构建声音转换模型。

可选的，预先构建声音转换模型，可以包括：获取训练数据，并对训练数据进行预处理；提取训练数据的频谱特征；确定声音转换模型的拓扑结构；初始化声音转换模型的参数；根据训练数据的频谱特征，以及初始化后的声音转换模型的参数，训练声音转换模型。

S12：接收源发音人的语音信号，并提取语音信号的频谱特征。

其中，频谱特征例如能量谱特征，或者梅尔域倒谱系数(MCEP)。

本实施例中，提取语音信息的24维梅尔域倒谱系数MCEP和1维能量谱特征，共25维的频谱特征。

S13：确定源发音人对应的声音转换模型。

可选的，确定源发音人对应的声音转换模型，可以包括：确定目标发音人，并提取目标发音人的语音信号的频谱特征；根据目标发音人的语音信号的频谱特征，调整声音转换模型的输出解码层融合权值，以及，根据源发音人的语音信号的频谱特征，调整声音转换模型的输入编码层融合权值，以得到所述源发音人对应的声音转换模型。

S14：根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息。

具体地，将提取出的源发音人语音信号的25维的频谱特征，作为源发音人对应的声音转换模型的输入，进行声音转换，以得到目标发音人的语音信息。

本实施例中，通过预先构建声音转换模型，接收源发音人的语音信号并提取频谱特征，确定源发音人对应的声音转换模型，根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息，有效提高声音转换的灵活性。

图3是本发明另一实施例提出的声音转换方法的流程示意图，该方法包括：

S301：获取训练数据，并对训练数据进行预处理。

其中，训练数据为平行语料。

平行语料指针对同一文本内容，不同源发音人的语音信息。

可选的，获取训练数据，并对训练数据进行预处理，可以包括：

将平行语料进行配对，以构造声音转换模型的输入数据和输出数据；将输入数据和输出数据做时长对齐，以训练声音转换模型。

例如，可以根据动态时间规整(Dynamic Time Warping，DTW)算法将输入数据和输出数据做时长对齐。

具体地，可以收集至少一位的源发音人的语音信号，本实施例以收集100位不同的源发音人的每人10分钟的语音信号为例，构造训练数据，并对训练数据集内的100位发音人进行两两配对，得到9900对不同源发音人的语音信号，将每对不同源发音人的语音信号，分别构造声音转换模型的输入数据和输出数据。

进一步，对同一文本内容，不同的源发音人录音，由于源发音人的个体差异性，100位源发音人对同一文本内容的发音，不可能控制在完全相同的时长内，因此，需要使用时长对齐算法自动的做时长对齐，其中，时长对齐算法例如为DTW算法，将两两配对后，将每对不同源发音人的语音信号进行时长对齐，得到时长对齐后的9900对源-目标发音人的训练样本，作为声音转换模型的输入数据和输出数据用以训练模型。

例如，将第一位源发音人和第二位的源发音人的针对同一文本内容的语音信号进行配对，其中，第一位源发音人的语音信号时长为10s，第二位的源发音人的语音信号时长为12s，进而，采用DTW算法自动的做这两段语音信号时长对齐，得到时长对齐后的一对训练样本，将第一位源发音人的语音信号作为声音转换模型的输入数据，将第二位源发音人的语音信号作为声音转换模型的输出数据用以训练模型，并可以采用同样的方法构造出另外若干对训练数据。

S302：提取训练数据的频谱特征。

S303：确定声音转换模型的拓扑结构。

其中，声音转换模型可以是神经网络模型，参见图2，声音转换模型包括输入编码层21、中间转换层22、输出解码层23，本申请以DNN模型为例。

其中，输入编码层21由N个神经网络，即编码器组成，每个编码器代表整个声学空间中，某一类相似源发音人语音信息的本征空间。

本申请中，每个编码器为一个单层神经网络，其中，编码器的个数N一般由大量实验或经验确定，本实施例中，N取值16。

具体地，每个神经网络的输入数据是源发音人语音信号的频谱特征，本实施例中输入数据是25维的频谱特征，每个神经网络根据以下公式，对源发音人语音信号的频谱特征进行变换，输出结构化的高层特征，其中，

其中，表示输入编码层i的第n个本征空间模型的输出，表示输入层i的第n个本征空间模型对应的网络参数，σ表示激励函数，例如，σ可以是sigmoid函数。

中间转换层22由多层神经网络构成，本申请中，多层神经网络为3层的深度神经网络，中间转换层22的输入数据是由输入编码层21对源发音人语音信号的频谱特征，经过多个编码器编码后，进行融合得到的特征，输入编码层21中的各个编码器的融合权重分别为

本申请中，中间转换层22输入节点数取为512，经过中间转换层22转换后，输出节点数取为512。

输出解码层23由N个神经网络，即解码器组成，每个神经网络均可用来重建输出目标发音人的频谱特征，每个解码器代表整个声学空间中的某一类相似目标发音人的本征空间。

每个解码器的输入数据为中间转换层22的输出数据；每个解码器的输出数据为25维的频谱特征，每个神经网络根据以下公式，重建输出目标发音人的频谱特征，其中，

其中，表示输出解码层o的第n个本征空间的输出数据，分别为输出解码层o的第n个本征空间模型对应的网络参数。

需要说明的是，整个声音转换模型的输出数据是输出解码层23中各个解码器输出目标发音人语音信号的频谱特征，同样经过融合得到的融合后的频谱特征，其融合权值为

S304：初始化声音转换模型的参数。

其中，声音转换模型的参数包括：输入编码层融合权值、输出解码层融合权值、输入编码层参数、输出解码层参数，以及中间转换层各层间参数。

例如，模型参数包括输入编码层21的融合权值输出解码层23的融合权值输入编码层21的参数和输出解码层23参数和以及中间转换层22的各层间参数W_m和b_m。其中输入编码层21的参数、输出解码层23的参数以及中间转换层22的各层间的参数初始化，由大量实验或经验确定。

进一步，训练数据集中每位源发音人都有一套融合每位源发音人的权值，如对第s位源发音人，其融合权值为包括：输入编码层21融合权值和输出解码层23融合权值。

其中，融合权值由以下方法进行初始化：

首先将训练数据集中源发音人进行聚类，例如，可以使用声纹识别中的i-vector特征进行k-means聚类；并将每类源发音人对应到N位源发音人本征空间；然后对每个源发音人分配初始化的融合权值，包括：输入编码层21融合权值和输出解码层23融合权值，对应的本征空间权值为1，其余空间权值为0。

S305：根据训练数据的频谱特征，以及初始化后的声音转换模型的参数，训练声音转换模型。

可选的，可以根据训练数据的频谱特征，以及初始化后的输入编码层融合权值、输出解码层融合权值、输入编码层参数、输出解码层参数，以及中间转换层各层间参数，训练声音转换模型。

具体的，为确保各个本征空间的权值大于0且和为1，可以使用如下公式构造第s位源发音人的融合权值，其中，

其中，为训练阶段要更新的模型参数。

如果源发音人为S_p，目标发音人为S_k，则转换关系可以表示为如下公式，

其中，F_pk(x)表示源发音人为S_p经过声音转换模型转换后的语音信号的频谱特征，N为源发音人本征空间数，本申请中取N＝16，θ(.)表示中间转换层转换函数。

因此，声音转换模型的训练准则如下公式：

其中，表示参数和表示参数和θ表示参数W_m和b_m，S表示源发音人数目，T表示经过时长对齐后每个源发音人语音信号的总帧数，表示第t帧期望得到的目标发音人k的值，表示第t帧通过声音转换模型实际得到的从源发音人p到目标发音人k转换的值。

S306：接收源发音人的语音信号，并提取语音信号的频谱特征。

本实施例中，提取语音信号的24维梅尔域倒谱系数MCEP和1维能量谱特征，共25维的频谱特征。

S307：确定目标发音人，并提取目标发音人的语音信号的频谱特征。

具体地，提取目标发音人的语音信号的24维梅尔域倒谱系数MCEP和1维能量谱特征，共25维的频谱特征。

S308：根据目标发音人的语音信信号的频谱特征，调整声音转换模型的输出解码层融合权值。

具体的，在预先训练好的声音转换模型基础上，使用获取到的目标发音人训练数据，得到它对应的融合权值。

其中，声音转换模型作为自编码器，即输入数据和输出数据均为目标发音人语音信号的频谱特征，绑定输入编码层21与输出解码层23的融合权值，即两层的融合权值取相同值进行求解,其求解过程与声音转换模型参数训练过程相似，仅是调整融合权值，其余参数保持不变。

S309：根据源发音人的语音信号的频谱特征，调整声音转换模型的输入编码层融合权值，以得到所述源发音人对应的声音转换模型。

具体的，根据源发音人语音信号的频谱特征数据，调整确定输入编码层21的融合权值。

S310：根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息。

本实施例中，通过预先构建声音转换模型，接收源发音人的语音信号并提取频谱特征，确定源发音人对应的声音转换模型，根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息，有效提高声音转换的灵活性。另外，本实施例通过训练得到与源发音人和目标发音人无关的声音转换模型，可以实现从任意源发音人到任意目标发音人之间的声音转换，有效降低了声音转换方法的使用门槛。

图4是本发明另一实施例提出的声音转换装置的结构示意图，该装置40包括构建模块401、接收模块402、确定模块403，以及转换模块404，其中，构建模块401，用于预先构建声音转换模型；接收模块402，用于接收源发音人的语音信号，并提取语音信号的频谱特征；确定模块403，用于确定源发音人对应的声音转换模型；转换模块404，用于根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息。

构建模块401，用于预先构建声音转换模型。

一个实施例中，参见图5，构建模块401包括：

训练数据获取子模块4011，用于获取训练数据，并对训练数据进行预处理。

另一个实施例中，参见图6，训练数据为平行语料，训练数据获取子模块4011具体包括：

配对单元40111，用于将平行语料进行配对，以构造声音转换模型的输入数据和输出数据。

其中，训练数据为平行语料。

平行语料指针对同一文本内容，不同源发音人的语音信息。

将平行语料进行配对，以构造声音转换模型的输入数据和输出数据

对齐单元40112，用于将输入数据和输出数据做时长对齐，以训练声音转换模型。

第一提取子模块4012，用于提取训练数据的频谱特征。

确定子模块4013，用于确定声音转换模型的拓扑结构。

其中，表示输入编码层i的第n个本征空间模型的输出，表示输入层i的第n个本征空间模型对于的网络参数，σ表示激励函数，例如，σ可以是sigmoid函数。

初始化子模块4014，用于初始化声音转换模型的参数。

其中，融合权值由以下方法进行初始化：

训练子模块4015，用于根据训练数据的频谱特征，以及初始化后的声音转换模型的参数，训练声音转换模型。

可选的，训练子模块4015具体用于根据训练数据的频谱特征，以及初始化后的输入编码层融合权值、输出解码层融合权值、输入编码层参数、输出解码层参数，以及中间转换层各层间参数，训练声音转换模型。

可选的，可以根据训练数据的频谱特征，以及输入编码层参数、输出解码层参数，以及中间转换层各层间参数，训练声音转换模型。

其中，为训练阶段要更新的模型参数。

因此，声音转换模型的训练准则如下公式：

接收模块402，用于接收源发音人的语音信号，并提取语音信号的频谱特征。

其中，频谱特征例如能量谱特征，或者梅尔域倒谱系数MCEP。

确定模块403，用于确定源发音人对应的声音转换模型。

另一个实施例中，参见图7，确定模块403包括：

第二提取子模块4031，用于确定目标发音人，并提取目标发音人的语音信号的频谱特征。

调整子模块4032，用于根据目标发音人的语音信号的频谱特征，调整声音转换模型的输出解码层融合权值，以及，根据源发音人的语音信号的频谱特征，调整声音转换模型的输入编码层融合权值，以得到所述源发音人对应的声音转换模型。

转换模块404，用于根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种声音转换方法，其特征在于，包括：

预先构建与源发音人和目标发音人无关的声音转换模型；

接收源发音人的语音信号，并提取所述语音信号的频谱特征；

确定所述源发音人对应的声音转换模型，所述确定所述源发音人对应的声音转换模型，包括：确定目标发音人，并提取所述目标发音人的语音信号的频谱特征，根据所述目标发音人的语音信号的频谱特征，调整所述声音转换模型的输出解码层融合权值，以及，根据所述源发音人的所述语音信号的频谱特征，调整所述声音转换模型的输入编码层融合权值，以得到所述源发音人对应的声音转换模型；

根据所述源发音人的所述语音信号的频谱特征和所述源发音人对应的声音转换模型，进行声音转换，以得到所述目标发音人的语音信息。

2.根据权利要求1所述的声音转换方法，其特征在于，所述预先构建声音转换模型，包括：

获取训练数据，并对所述训练数据进行预处理；

提取所述训练数据的频谱特征；

确定所述声音转换模型的拓扑结构；

初始化所述声音转换模型的参数；

根据所述训练数据的频谱特征，以及所述初始化后的所述声音转换模型的参数，训练所述声音转换模型。

3.根据权利要求2所述的声音转换方法，其特征在于，所述训练数据为平行语料，所述获取训练数据，并对所述训练数据进行预处理，包括：

将所述平行语料进行配对，以构造所述声音转换模型的输入数据和输出数据；

将所述输入数据和所述输出数据做时长对齐，以训练所述声音转换模型。

4.根据权利要求1-3任一项所述的声音转换方法，其特征在于，所述声音转换模型为神经网络模型，所述声音转换模型包括输入编码层、中间转换层、输出解码层。

5.根据权利要求2所述的声音转换方法，其特征在于，所述声音转换模型的参数包括：所述输入编码层融合权值、所述输出解码层融合权值、所述输入编码层参数、所述输出解码层参数，以及中间转换层各层间参数。

6.根据权利要求2所述的声音转换方法，其特征在于，所述根据所述训练数据的频谱特征，以及所述初始化后的所述声音转换模型的参数，训练所述声音转换模型，具体包括：

根据所述训练数据的频谱特征，以及初始化后的所述输入编码层融合权值、所述输出解码层融合权值、所述输入编码层参数、所述输出解码层参数，以及中间转换层各层间参数，训练所述声音转换模型。

7.一种声音转换装置，其特征在于，包括：

构建模块，用于预先构建与源发音人和目标发音人无关的声音转换模型；

接收模块，用于接收源发音人的语音信号，并提取所述语音信号的频谱特征；

确定模块，用于确定所述源发音人对应的声音转换模型，其中，所述确定模块包括第二提取子模块和调整子模块，所述第二提取子模块用于确定目标发音人，并提取所述目标发音人的语音信号的频谱特征，所述调整子模块用于根据所述目标发音人的语音信号的频谱特征，调整所述声音转换模型的输出解码层融合权值，以及根据所述源发音人的所述语音信号的频谱特征，调整所述声音转换模型的输入编码层融合权值，以得到所述源发音人对应的声音转换模型；

转换模块，用于根据所述源发音人的所述语音信号的频谱特征和所述源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息。

8.根据权利要求7所述的声音转换装置，其特征在于，所述构建模块包括：

训练数据获取子模块，用于获取训练数据，并对所述训练数据进行预处理；

第一提取子模块，用于提取所述训练数据的频谱特征；

确定子模块，用于确定所述声音转换模型的拓扑结构；

初始化子模块，用于初始化所述声音转换模型的参数；

训练子模块，用于根据所述训练数据的频谱特征，以及所述初始化后的所述声音转换模型的参数，训练所述声音转换模型。

9.根据权利要求8所述的声音转换装置，其特征在于，所述训练数据为平行语料，所述训练数据获取子模块具体包括：

配对单元，用于将所述平行语料进行配对，以构造所述声音转换模型的输入数据和输出数据；

对齐单元，用于将所述输入数据和所述输出数据做时长对齐，以训练所述声音转换模型。

10.根据权利要求7-9任一项所述的声音转换装置，其特征在于，所述声音转换模型为神经网络模型，所述声音转换模型包括输入编码层、中间转换层、输出解码层。

11.根据权利要求8所述的声音转换装置，其特征在于，所述声音转换模型的参数包括：所述输入编码层融合权值、所述输出解码层融合权值、所述输入编码层参数、所述输出解码层参数，以及中间转换层各层间参数。

12.根据权利要求8所述的声音转换装置，其特征在于，所述训练子模块具体用于：