CN110136689B

CN110136689B - 基于迁移学习的歌声合成方法、装置及存储介质

Info

Publication number: CN110136689B
Application number: CN201910262713.8A
Authority: CN
Inventors: 王健宗; 曾振; 罗剑
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2022-04-22
Anticipated expiration: 2039-04-02
Also published as: CN110136689A

Abstract

本发明涉及语言信号处理领域，本发明提出一种基于迁移学习的歌声合成方法、装置及存储介质，其中的方法包括：基于语音数据库获取读模型训练数据；基于读模型训练数据训练读模型，读模型输出与语音特征及语音标签数据对应的声音声学特征；获取唱模型训练数据，基于唱模型训练数据创建唱模型；将待合成歌声的歌词输入读模型，生成与歌词对应的目标声音声学参数，同时将待合成的乐谱特征和读模型输出的与歌词对应的声音声学参数输入唱模型，输出目标歌声声学参数；通过声码器将目标歌声声学参数转换为歌声输出。本发明通过将歌声合成分为读与唱两个步骤，能够在有限的歌声数据下，学习出更好的歌声合成效果。

Description

基于迁移学习的歌声合成方法、装置及存储介质

技术领域

本发明涉及语言信号处理技术领域，尤其涉及一种基于迁移学习的歌声合成方法、装置及计算机可读存储介质。

背景技术

歌声合成是提供乐谱与歌词，机器自动合成出拟人的歌声的过程。传统的歌声合成与语音合成非常类似，不同的是歌声合成引入了乐谱信息，其合成的声音不仅与歌词相关，而且与乐谱也有着很大的联系。主流的歌声合成算法都是从语音合成算法中移植过来的，乐谱信息也只是作为数据特征的一部分融入到算法训练与合成过程中。但是，与语音合成相比较，歌声合成引入的乐谱信息增加了数据的复杂度，而且歌声的发音规律也是更加的复杂多变，这些因素都增加了歌声合成的难度。

常规的，我们可以通过录音更多的歌声数据，使用更复杂的声学模型，来达到比较好的合成效果。然而，录音的歌声数据需要耗费人力、财力，使用更复杂的声学模型也会加长训练时长、提升训练难度。

可知，现有的歌声合成方法，不仅需要大量的歌声数据，而且合成效果差，准确度低。

发明内容

本发明提供一种基于迁移学习的歌声合成方法、电子装置及计算机可读存储介质，其主要目的在于通过有限的歌声数据，合成出效果更好的歌声。

为实现上述目的，本发明提供一种基于迁移学习的歌声合成方法，应用于电子装置，所述方法包括：

基于语音数据库获取读模型训练数据，所述读模型训练数据包括语音特征及对应的语音标签数据；

基于所述读模型训练数据训练读模型，所述读模型输出与所述语音特征及语音标签数据对应的声音声学特征；

获取唱模型训练数据，所述唱模型训练数据包括从乐谱中提取出来的乐谱特征、从与所述乐谱对应的歌声数据中提取的样本歌声声学参数，以及从读模型中输出的样本声音声学参数；

基于唱模型训练数据创建唱模型；

将待合成歌声的歌词输入所述读模型，生成与所述歌词对应的目标声音声学参数，同时将待合成的乐谱特征和读模型输出的与所述歌词对应的目标声音声学参数输入所述唱模型，输出目标歌声声学参数；

通过声码器将所述目标歌声声学参数转换为歌声输出。

此外，优选地，所述语音数据库中的语音数据包括由录制的人声数据组成的语音录音数据以及与所述语音录音数据对应的语音标签数据；

所述语音特征为从与所述语音录音数据对应的每段录制声音中提取出的基频特征与梅尔倒谱系数；

所述语音标签数据包括与所述语音录音数据对应的每段录制声音的音节信息。

此外，优选地，所述读模型和/或所述唱模型采用因果卷积网络、长短期记忆神经网络或双向循环神经网络。

此外，优选地，当所述读模型采用因果卷积网络时：

所述因果卷积网络包括10个隐含层，各隐含层的扩张系数分别为：1、2、4、8、16、32、64、128、256、512，状态通道数为32；在相邻的两隐含层之间了连接有一个残差层，所述残差层的状态通道数为32；

所述各隐含层的输出会输入至一个全连接神经网络，所述全连接神经网络包括2个隐含层，状态通道数为512，激活函数为线性整流函数；

所述因果卷积网络的输出层为全连接层，所述全连接层的激活函数为S型函数，其输出通道数根据预测输出确定。

此外，优选地，所述基于所述读模型训练数据创建读模型的步骤包括：将所述语音标签数据作为所述读模型的条件输入；

所述基于所述唱模型训练数据创建唱模型的步骤包括：将所述乐谱特征作为所述唱模型的条件输入。

为实现上述目的，本发明还提供一种电子装置，该电子装置包括：存储器、处理器，所述存储器中包括基于迁移学习的歌声合成程序，所述基于迁移学习的歌声合成程序被所述处理器执行时实现如下步骤：

基于唱模型训练数据创建唱模型；

通过声码器将所述目标歌声声学参数转换为歌声输出。

此外，优选地，当所述读模型采用因果卷积网络时：

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括基于迁移学习的歌声合成程序，所述基于迁移学习的歌声合成程序被处理器执行时，实现如上所述的基于迁移学习的歌声合成方法的步骤。

本发明提出的基于迁移学习的歌声合成方法、电子装置及计算机可读存储介质，通过语音合成领域的语音数据库，创建读模型和唱模型，待合成歌声的歌词通过读模型处理后，形成相应的目标声音声学参数；同时，待合成歌声的乐谱，在提取其乐谱特征后，与声音声学参数或特征、目标歌声声学参数一同输入唱模型，通过唱模型输出合成的目标歌声声学参数，该方案能够避免使用复杂的声学模型，且可实现较好的歌声合成效果。

附图说明

图1为根据本发明基于迁移学习的歌声合成方法具体实施例的应用环境示意图；

图2为因果卷积网络的结构示意图一；

图3为因果卷积网络的结构示意图二；

图4为图1中基于迁移学习的歌声合成程序具体实施例的模块示意图；

图5为根据本发明基于迁移学习的歌声合成方法具体实施例的流程图；

图6为根据本发明基于迁移学习的歌声合成方法具体实施例的流程框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于迁移学习的歌声合成方法，应用于一种电子装置1。参照图1所示，为本发明基于迁移学习的歌声合成方法具体实施例的应用环境示意图。

在本实施例中，电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。

该电子装置1包括：处理器12、存储器11、网络接口14及通信总线15。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储器11，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于迁移学习的歌声合成程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行基于迁移学习的歌声合成程序10等。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接。

通信总线15用于实现这些组件之间的连接通信。

图1仅示出了具有组件11-15的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

此外，该电子装置1的显示器的面积可以与所述触摸传感器的面积相同，也可以不同。可选地，将显示器与所述触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

可选地，该电子装置1还可以包括射频(Radio Frequency，RF)电路，传感器、音频电路等等，在此不再赘述。

在图1所示的装置实施例中，作为一种计算机存储介质的存储器11中可以包括操作系统、以及基于迁移学习的歌声合成程序10；处理器12执行存储器11中存储的基于迁移学习的歌声合成程序10时实现如下步骤：

基于语音数据库获取读模型训练数据，其中的读模型训练数据包括语音特征及对应的语音标签数据；

基于读模型训练数据训练读模型，读模型输出与所述语音特征及语音标签数据对应的声音声学特征；

获取唱模型训练数据，唱模型训练数据包括从乐谱中提取出来的乐谱特征、从与所述乐谱对应的歌声数据中提取的样本歌声声学参数，以及从读模型中输出的样本声音声学参数；

基于唱模型训练数据创建唱模型；

通过声码器将所述目标歌声声学参数转换为歌声输出。

其中，语音数据库中的语音数据包括语音录音数据以及与所述语音录音数据对应的语音标签数据。语音录音数据由录制的人声数据组成，语音标签数据包括与语音录音数据对应的每段录制声音的音节信息。

在读模型训练数据获取过程中，首先从每段语音录音数据中提取出对应的声学参数作为语音特征，语音特征为从与所述语音录音数据对应的每段录制声音中提取出的基频特征与梅尔倒谱系数，所述语音特征与对应的语音标签数据作为后期读模型的训练数据。

优选地，读模型和/或所述唱模型可分别采用因果卷积网络、长短期记忆神经网络或双向循环神经网络。

可采用因果卷积网络作为读模型，将语音特征和对应的语音标签数据输入因果卷积网络，其中，语音标签数据作为因果卷积网络的条件输入，训练因果卷积网络直至生成的声音声学参数尽可能的接近语音录制数据中提取的声学参数。

具体地，因果卷积(causal convolution)，可以借鉴因果系统的概念，因果系统是指当且仅当输入信号激励系统时，才会出现输出响应的系统。即因果系统的响应不会出现在输入信号激励系统以前；也就是说因果系统的输出仅与当前与过去的输入有关，而与将来的输入无关的系统。因果卷积的意义就是在生成t时刻的元素时，只能使用0到t-1时刻的元素值。如下表所示，在因果卷积网络中利用，output输出只利用了之前的元素来生成，如图2因果卷积网络的结构一所示。

由于声音文件是时间上的一维数组，例如16KHz的采样率的文件，每秒钟就会有16000个元素，而上面所说的因果卷积的感受野非常小，即使堆叠很多层也只能使用到很少的数据来生成t时刻的元素，为了扩大卷积的感受野，采用了堆叠了(stack)多层带洞(dilated)卷积来增到网络的感受野，使得网络生成下一个元素的时候，能够使用更多之前的元素数值。作为具体示例，因果卷积网络的网络结构如图3因果卷积网络的结构二所示。

在该实施例中，当所述读模型采用因果卷积网络时：

因果卷积网络包括10个隐含层，各隐含层的扩张系数分别为：1、2、4、8、16、32、64、128、256、512，状态通道数为32；在相邻的两隐含层之间了连接有一个残差层，所述残差层的状态通道数为32；各隐含层的输出会输入至一个全连接神经网络，所述全连接神经网络包括2个隐含层，状态通道数为512，激活函数为Relu函数(线性整流函数)；因果卷积网络的输出层为全连接层，所述全连接层的激活函数为Sigmoid函数(S型函数)，其输出通道数根据预测输出确定。

此外，由于长短期记忆神经网络(LSTM)及双向循环神经网络等网络模型在语音合成中都有着非常成熟的应用，因此本发明基于迁移学习的歌声合成程序10中，也可采用长短期记忆神经网络(LSTM)或双向循环神经网络作为读模型。

同理，唱模型也可采用因果卷积网络，将乐谱特征作为条件输入，将唱模型训练数据输入所述唱模型中，训练所述唱模型直至生成的歌声声学参数与歌声数据中提取的歌声声学参数尽可能的接近。

其中，唱模型所使用的因果卷积网络结构与读模型相类似，只是模型的条件输入与预测输出不同。另外，唱模型也可以使用长短期记忆神经网络(LSTM)或双向循环神经网络来实现。

而声码器(vocoder)主要指语音信号某种模型的语音分析合成系统。是一种在传输中只利用模型参数，在编译码时利用模型参数估计和语音合成技术的语音信号编译码器，也称话音分析合成系统或话音频带压缩系统，通过声码器可将歌声声学参数转换为对应的歌声输出。

上述实施例提出的电子装置1，通过语音合成领域的语音数据库，创建读模型和唱模型，待合成歌声的歌词通过读模型处理后，形成相应的目标声音声学参数；同时，待合成歌声的乐谱，在提取其乐谱特征后，与声音声学参数(特征)、目标歌声声学参数一同输入唱模型，通过唱模型输出合成的目标歌声声学参数，该方案能够避免使用复杂的声学模型，且可实现较好的歌声合成效果。

在其他实施例中，基于迁移学习的歌声合成程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由处理器12执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图4所示，为图1中基于迁移学习的歌声合成程序10较佳实施例的程序模块图。

如图4所示，所述基于迁移学习的歌声合成析程序10可以被分割为：

读模型训练数据获取单元210，用于基于语音数据库获取读模型训练数据，所述读模型训练数据包括语音特征与对应的语音标签数据。语音特征从每段语音录音数据中提取获得。

读模型创建单元220，用于基于语音特征与对应的语音标签数据训练读模型，所述读模型输出与所述语音特征及语音标签数据对应的声音声学特征。

唱模型训练数据获取单元230，用于从乐谱中提取出来的乐谱特征、从与所述乐谱对应的歌声数据中提取的样本歌声声学参数，以及从读模型中输出的样本声音声学参数作为唱模型训练数据。

唱模型创建单元240，用于基于唱模型训练数据创建唱模型。

歌声合成单元250，包括声音声学参数获取模块和乐谱参数获取模块。声音声学参数获取模块，用于将待合成歌声的歌词输入所述读模型，生成与所述歌词对应的目标声音声学参数；乐谱参数获取模块，用于从待合成的乐谱中提取对应的乐谱参数，歌声声学参数获取模块，用于从与乐谱对应的歌声数据(歌声录音)中提取目标歌声声学参数。输出模块，用于将乐谱特征、目标歌声声学参数和读模型输出的目标声音声学参数输入所述唱模型，输出与歌词和乐谱对应的目标歌声声学参数。

转换输出单元260，用于通过声码器将所述目标歌声声学参数转换为歌声输出。

此外，本发明还提供一种基于迁移学习的歌声合成方法。参照图5所示，为本发明基于迁移学习的歌声合成方法具体实施例的流程图，参考图6所示，为本发明基于迁移学习的歌声合成方法的流程框图，其中，虚线上方部分为训练及模型创建部分，虚线下方为应用过程中，具体的歌声合成部分。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于迁移学习的歌声合成方法包括：

S110：基于语音数据库获取读模型训练数据，其中的读模型训练数据包括语音特征及对应的语音标签数据。

S120：基于读模型训练数据训练读模型，读模型输出与所述语音特征及语音标签数据对应的声音声学特征。

在该实施例中，当所述读模型采用因果卷积网络时：

S130：获取唱模型训练数据，唱模型训练数据包括从乐谱中提取出来的乐谱特征、从与所述乐谱对应的歌声数据中提取的样本歌声声学参数，以及从读模型中输出的样本声音声学参数。

S140：基于唱模型训练数据创建唱模型。

唱模型也可采用因果卷积网络，将乐谱特征作为条件输入，将唱模型训练数据输入所述唱模型中，训练所述唱模型直至生成的歌声声学参数与歌声数据中提取的歌声声学参数尽可能的接近。

S150：将待合成歌声的歌词输入所述读模型，生成与所述歌词对应的目标声音声学参数，同时将待合成的乐谱特征和读模型输出的与所述歌词对应的目标声音声学参数输入所述唱模型，输出目标歌声声学参数。

S160：通过声码器将所述目标歌声声学参数转换为歌声输出。

其中，声码器(vocoder)主要指语音信号某种模型的语音分析合成系统。是一种在传输中只利用模型参数，在编译码时利用模型参数估计和语音合成技术的语音信号编译码器，也称话音分析合成系统或话音频带压缩系统，通过声码器可将歌声声学参数转换为对应的歌声输出。

利用上述根据本发明的基于迁移学习的歌声合成方法，能够将歌声合成分为读和唱两个部分，对于读的部分，可以充分利用语音合成领域的数据集；对于唱的部分，只需要学习一个声音转变过程，其难度相对直接学习出歌声要减少很多，能够在有限的歌声数据下，学习出更好的歌声合成效果。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括基于迁移学习的歌声合成程序，所述基于迁移学习的歌声合成程序被处理器执行时实现如下操作：

基于唱模型训练数据创建唱模型；

通过声码器将所述目标歌声声学参数转换为歌声输出。

此外，优选地，当所述读模型采用因果卷积网络时：

本发明之计算机可读存储介质的具体实施方式与上述基于迁移学习的歌声合成方法、电子装置的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于迁移学习的歌声合成方法，应用于电子装置，其特征在于，所述方法包括：

基于唱模型训练数据训练唱模型；

通过声码器将所述目标歌声声学参数转换为歌声输出。

2.根据权利要求1所述的基于迁移学习的歌声合成方法，其特征在于，

所述语音数据库中的语音数据包括由录制的人声数据组成的语音录音数据以及与所述语音录音数据对应的语音标签数据；

3.根据权利要求1所述的基于迁移学习的歌声合成方法，其特征在于，

所述读模型和/或所述唱模型采用因果卷积网络、长短期记忆神经网络或双向循环神经网络。

4.根据权利要求3所述的基于迁移学习的歌声合成方法，其特征在于，

当所述读模型采用因果卷积网络时：

5.根据权利要求1所述的基于迁移学习的歌声合成方法，其特征在于，

所述基于所述读模型训练数据创建读模型的步骤包括：将所述语音标签数据作为所述读模型的条件输入；

6.一种电子装置，其特征在于，该电子装置包括：存储器、处理器，所述存储器中包括基于迁移学习的歌声合成程序，所述基于迁移学习的歌声合成程序被所述处理器执行时实现如下步骤：

基于唱模型训练数据创建唱模型；

通过声码器将所述目标歌声声学参数转换为歌声输出。

7.根据权利要求6所述的电子装置，其特征在于，

8.根据权利要求6所述的电子装置，其特征在于，

当所述读模型采用因果卷积网络时：

9.根据权利要求6所述的电子装置，其特征在于，

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括基于迁移学习的歌声合成程序，所述基于迁移学习的歌声合成程序被处理器执行时，实现如权利要求1至5中任一项所述的基于迁移学习的歌声合成方法的步骤。