CN113555001A

CN113555001A - 歌声合成方法、装置、计算机设备及存储介质

Info

Publication number: CN113555001A
Application number: CN202110837643.1A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-10-26

Abstract

本发明公开了一种歌声合成方法、装置、计算机设备及存储介质，应用于计算机技术领域。本发明提供的方法包括：获取目标歌曲的音乐数据，通过预设的编码器对所述音乐数据进行编码，生成音乐编码数据；将音乐数据编码输入到注意力机制网络进行编码，生成特征信息；将特征信息输入到歌声合成模型中，并生成第一声谱数据；对所述第一声谱数据进行解码，得到第一线性谱数据，并通过傅里叶变换方式，将所述第一线性谱数据转换成目标歌曲音频。本发明通过少量的训练数据训练得到歌声合成模型，提高了目标歌曲音频的合成效率，同时保证目标歌曲音频的合成效果。

Description

歌声合成方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种歌声合成方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，语音合成技术在趋向成熟，在交通、教育。医疗和社交等领域得到了广泛的应用。如交通语音导航、语言学习发音、医疗语音控制等，便利了人们的工作和生活。

进一步的歌声合成系统(singing voice synthesis，SVS)是一种根据给定的乐谱和歌词信息生成自然的歌声的系统。SVS要求每个音节的持续时间和音调具有可控性。

目前的歌声合成系统采用深度神经网络的方式，将目标歌手的音频数据作为训练数据，输入到神经网络中进行训练，以采用该歌手的声音合成音频。

但是，这种方法需要大量的训练数据，且只能针对同一个歌手进行训练，得到同一个歌手的歌声合成音频。这种方法导致歌声合成系统的适用性不高，且需要大量训练数据，合成歌声的效率不高。

发明内容

本发明提供一种歌声合成方法、装置、计算机设备及存储介质，用以提高歌声合成的效率。

一种歌声合成的方法，包括：

获取目标歌曲的音乐数据，通过预设的编码器对音乐数据进行编码，生成音乐编码数据，其中，音乐数据包括歌词数据、声谱数据、音调数据以及目标歌手的音频数据，音乐编码包括歌词编码、声谱编码、音调编码和音频编码；

将歌词编码、音频编码输入到第一注意力机制模型进行编码，得到音色特征信息；

将音频编码、声谱编码、音调编码输入到第二注意力机制模型进行编码，得到风格特征信息；

将音色特征信息与风格特征信息输入到歌声合成模型中进行声谱合成，得到第一声谱数据；

对第一声谱数据进行解码，得到第一线性谱数据，并通过傅里叶变换方式，将第一线性谱数据转换成目标歌曲音频。

一种歌声合成装置，包括：

数据编码模块，用于获取目标歌曲的音乐数据，通过预设的编码器对音乐数据进行编码，生成音乐编码数据，其中，音乐数据包括歌词数据、声谱数据、音调数据以及目标歌手的音频数据，音乐编码包括歌词编码、声谱编码、音调编码和音频编码；

第一特征信息生成模块，用于将歌词编码、音频编码输入到第一注意力机制模型进行编码，得到音色特征信息；

第二特征信息生成模块，用于将音频编码、声谱编码、音调编码输入到第二注意力机制模型进行编码，得到风格特征信息；

声谱数据生成模块，用于将音色特征信息与风格特征信息输入到歌声合成模型中进行声谱合成，得到第一声谱数据；

目标音频生成模块，用于对第一声谱数据进行解码，得到第一线性谱数据，并通过傅里叶变换方式，将第一线性谱数据转换成目标歌曲音频。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述歌声合成方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述歌声合成方法的步骤。

本发明提供的歌声合成方法、装置、计算机设备及存储介质，通过对目标合成歌曲的音乐数据，通过预设的编码器对所述音乐数据进行编码，生成音乐编码数据，其中，音乐数据包括歌词数据、声谱数据、音调数据和音频数据，音乐数据编码包括歌词编码、声谱编码、音调编码和音频编码；将歌词编码、音频编码输入都第一注意力机制模型进行编码，得到音色特征信息，将音频编码、声谱编码、音调编码输入到第二注意力机制进行编码，得到风格特征信息；基于音色特征信息和风格特征信息，将音色特征信息和风格特征信息输入到预先训练的歌声合成模型中，进而保证合成的目标歌曲音频中携带音色特征和风格特征，保证合成的目标歌曲音频具有接近真人演唱的听觉效果，采用少量的数据输入到训练过的歌声合成模型，提高合成目标歌曲音频的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中歌声合成方法的一应用环境示意图；

图2是本发明一实施例中歌声合成方法的一流程图；

图3是本发明一实施例中歌声合成装置的结构示意图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的歌声合成方法，可应用在如图1的应用环境中，其中，终端设备通过网络与服务器进行通信。其中，终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

系统框架100可以包括终端设备、网络和服务器。网络用以在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备通过网络与服务器交互，以接收或者发送消息等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture EpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureEperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本发明实施例所提供的歌声合成方法由服务器执行，相应地，歌声合成装置设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的，根据实现需要，可以具有任意数目的终端设备、网络和服务器，本发明实施例中的终端设备具体可以对应的是实际生产中的应用系统。

在一实施例中，如图2所示，提供一种歌声合成方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤S101至S105：

S101，获取目标歌曲的音乐数据，通过预设的编码器对音乐数据进行编码，生成音乐编码数据，其中，音乐数据包括歌词数据、声谱数据、音调数据以及目标歌手的音频数据，音乐编码包括歌词编码、声谱编码、音调编码和音频编码。

其中，目标歌曲指的是通过本发明实施例生成的合成歌曲，即生成目标歌手演唱某一首歌曲的音频。例如，生成张学友演唱《红日》的音频。

目标歌曲的音乐数据指的是目标歌曲的歌词数据、声谱数据、音调数据以及目标歌手的音频数据。

歌词数据指的是需要合成的歌曲的歌词文本，声谱数据指的是歌曲数据的频谱数据，本实施例中具体是歌曲的梅尔谱。音调数据指的是歌曲的旋律数据，对应了歌曲的音调数据。目标歌手的音频数据指的是该目标歌手实施说话或演唱行为时的音频数据，目的是通过音频数据提取该目标歌手的声纹特征。

进一步的，在本实施例中，选取目标歌手演唱歌曲时的音频数据，用以提取歌手的声调特征，进而模拟歌手的唱腔或歌唱风格。

预设的编码器对音乐数据进行特征提取，将音乐数据的特征提取，组成特征向量，其中，预设的编码器由双向门限循环单元构成，通过双向门限循环单元对特征向量进行编码，双向门限循环单元的前向输出一个隐藏编码向量，后向输出一个隐藏编码向量，将前向和后向输出的隐藏编码向量相连，输出音乐数据的隐码向量，将隐码向量作为音乐数据编码，其中音乐数据编码包括歌词编码、声谱编码、音调编码和音频编码。

作为一种优选方式，采用不同的编码器对音乐数据中的歌词数据、声谱数据、音调数据以及音频数据进行编码，提取每个音乐数据的特征信息，并生成每个音乐数据的隐码向量。

S102，将歌词编码、音频编码输入到第一注意力机制模型进行编码，得到音色特征信息。

其中，歌词数据输入到文本编码器中，生成歌词特征向量。将音频数据输入到歌手身份编码器，生成音频特征向量。将歌词特征向量和音频特征向量输入到第一注意力机制模型进行编码，生成音色特征编码，并将音色特征编码作为音色特征信息。

其中，第一注意力机制模型通过注意力矩阵计算公式，在每个注意力单元中，对歌词特征向量和音频特征向量进行计算，生成每个注意力单元的音色特征矩阵，将每个注意力单元的音色特征矩阵进行拼接，得到音色特征编码，作为音色特征信息。

其中，音色特征信息具体是指具有目标歌手音色特征以及目标合成歌曲的歌词特征的数据。

S103，将音频编码、声谱编码、音调编码输入到第二注意力机制模型进行编码，得到风格特征信息。

其中，声谱数据通过梅尔谱编码器进行编码，生成梅尔谱特征向量；音调数据通过音高编码器，生成音调特征向量。

将梅尔谱特征向量、音调特征向量和音频特征向量输入到第二注意力机制模型进行编码，生成风格特征编码，作为风格特征信息。

其中，第二注意力机制模型通过注意力矩阵计算公式，在每个注意力单元中，对梅尔谱特征向量、音调特征向量和音频特征向量进行计算，生成每个注意力单元的风格特征矩阵，将每个注意力单元的风格特征矩阵进行拼接，得到风格特征编码，作为风格特征信息。

其中，风格特征信息具体是表征一首歌曲的表现形式特征，指对一首歌曲的高音和低音的音高等。

S104，将音色特征信息与风格特征信息输入到歌声合成模型中进行声谱合成，得到第一声谱数据。

其中，选择用于歌声合成的深度神经网络作为初始歌声合成模型，可选地，该深度神经网络包括但不限于WaveNet模型、DeepVoice模型等，其中WaveNet模型是一种自回归的深度神经网络模型，融合了扩展卷积神经网络(DilatedCNN)、残差网络、门式结构等，可以用于语音生成建模。在语音合成的声学模型建模中，Wavenet模型可以直接学习到采样值序列的映射，因此具有很好的合成效果。

优选地，本实施例采用WaveNet模型，基于WaveNET模型直接采集到语音序列的映射，使得合成的目标歌曲音频更接近真人。

采用音乐数据对初始歌声合成模型进行训练，得到歌声合成模型。

将音乐特征信息与风格特征信息输入到歌声合成模型，得到第一声谱数据。

S105，对第一声谱数据进行解码，得到第一线性谱数据，并通过傅里叶变换方式，将第一线性谱数据转换成目标歌曲音频。

采用解码器对第一声谱数据进行解码，得到第一线性谱数据，再通过傅里叶变换方式，将第一线性谱数据转换成目标歌曲音频。

本发明实施例提供的歌声合成方法、装置、计算机设备及存储介质，通过对目标合成歌曲的音乐数据，通过预设的编码器对所述音乐数据进行编码，生成音乐编码数据，其中，音乐数据包括歌词数据、声谱数据、音调数据和音频数据，音乐数据编码包括歌词编码、声谱编码、音调编码和音频编码；将歌词编码、音频编码输入都第一注意力机制模型进行编码，得到音色特征信息，将音频编码、声谱编码、音调编码输入到第二注意力机制进行编码，得到风格特征信息；基于音色特征信息和风格特征信息，生成第一声谱数据，对第一声谱数据进行解码以及频谱变换，得到目标歌曲音频，简化了训练歌声合成网络的过程，提高进行歌声合成的效率。

在本实施例的一些可选的实现方式中，步骤S101中，通过预设的编码器对所述音乐数据进行编码，生成音乐编码数据的步骤包括如下：

S1011，获取所述歌词数据的音素特征，并通过所述文本编码器，生成所述歌词编码。

其中，音素(phone)是从音色的角度划分出来的最小语音单位，例如汉语中的声母和韵母。

其中，歌词数据指的是歌曲的唱词部分，具体表现为歌词文本。

例如，当前歌词文本中包括“歌词”，其中，“歌”的拼音是“ge”，“词”的拼音是“ci”，可以得出，“歌”的音素特征是“g”、“e”，“词”的音素特征是“c”、“i”，将歌词的音素特征提取出来，生成音素序列。通过文本编码器对音素序列进行编码，生成歌词编码。

在本实施例中，文本编码器可以是具有残差网络结构的编码器，残差网络结构的特点是容易优化，并且能够通过增加相当的深度来提高准确率。

S1012，获取所述音频数据的声纹特征，并通过所述歌手身份编码器，生成所述音频数据的音频编码。

其中，可通过预先训练好的声纹识别模型对音频数据进行识别，获取音频数据中的声纹特征向量。在本实施例中，歌手身份编码器可以是具有3层卷积层和双向GRU网络的组合，通过对声纹特征向量进行编码，得到音频编码、音频编码中包括与音色相关的特征信息。

S1013，获取所述声谱数据的基频特征，并通过所述梅尔谱编码器，生成所述声谱数据的声谱编码。

其中，基频特征对应目标歌曲的频谱参数，其中，每个频谱参数与每个歌词对应，形成频谱序列。

在本实施例中，频谱参数可以是梅尔谱和/或线性谱，梅尔谱经过变换可以生成线性谱。通过梅尔谱编码器，生成声谱编码。

S1014，获取所述音调数据的音高特征，并通过所述音调编码器，生成所述音调数据的音调编码。

其中，音高特征是指唱歌时声带的震动频率，其中音高f可以按照以下公式进行转换，获取MIDI(MusicalInstrumentDigitalInterface，乐器数字接口)特征p：

其中，69为MIDI协议中一个中音A的编码，完整的MIDI音阶共128个音，用数字0～127表示，一个完整的8度音程包含12个半音，相邻两个半音之间波长(周期)的比值相同，而每个8度之间的频率正好相差一倍。例如，中音A(La)的频率为440Hz(又称为国际标准音)，低音A的频率是220Hz，高音A的频率是880Hz。

以中音为基准，根据以上内容，可以得到每个音所对应的频率。

在本实施例中，通过对歌词数据、音频数据、声谱数据以及音调编码进行编码，生成歌词编码、音频编码、声谱编码和音调编码，对歌词编码和音频编码进行处理，生成音色特征信息，音色特征信息反映了歌曲的演唱者特征，即表示该歌曲由特定音色特征的人员演唱；通过对音频编码、声谱编码和音调编码进行处理，生成风格特征信息，风格特征信息反映了歌曲的演唱方式，从通过生成演唱者特征和演唱风格特征，实现特定需求的合成歌曲音频，扩展了歌声合成的适用性。

在本实施例的一些可选的实现方式中，步骤S102中，将歌词编码、音频编码输入到第一注意力机制模型进行编码，得到音色特征信息的步骤包括：

S1021，通过第一注意力机制模型，对歌词编码、音频编码以进行处理，得到共振峰掩码向量。

其中，通过第一注意力机制将歌词编码与音频编码进行融合，生成每个歌词的发音特征，生成所有歌词的发音特征，生成共振峰掩码向量。

共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰在频谱图上显示为水平方向的黑带，在线性频谱上体现为特定频率的振幅峰。共振峰掩码反映了发声物体的音质和音色。共振峰掩码参数包括共振峰频率、频带宽度和幅值。

将共振峰掩码参数作为特征提取出来，生成共振峰掩码向量。

S1022，通过共振峰掩码解码器对共振峰掩码向量进行解码，得到音色特征信息。

共振峰掩码解码器用于根据对应的频谱特征向量，解析出对应的共振峰系数，并对共振峰进行重构，用于得到包括音色特征信息的频谱。

共振峰掩码反映了目标歌唱者的声音特质即音色特点以及在唱词部分的处理特点，使得合成的音频具有个人特质，具有非常丰富的听觉享受。

其中，音色特征信息具体包括了用以表征音色特点的特征向量，具体表现为音频信号的波形。以乐器为例，不同音色的乐器输出的音频具有不同的波形。

在本实施例中，将歌词的音素特征与音色特征进行融合，得到共振峰掩码向量，对共振峰掩码向量进行解码，生成音色特征信息，将音色特征和歌词进行组合，可以根据目标音色进行音频合成，使得合成的音频更符合真实人声，具有多层次的听觉享受，使得音频合成的效果更好。

在本实施例的一些可选的实现方式中，步骤S103中，将音频编码、声谱编码、音调编码输入到第二注意力机制模型进行编码，得到风格特征信息的步骤包括：

S1031，通过第二注意力机制模型，对音频编码、声谱编码、音调编码进行处理，生成音调特征向量。

S1032，通过音调解码器对音调特征向量进行解码，得到风格特征信息。

其中，风格特征信息具是指包括了对歌曲的演唱风格的特征。演唱风格值演唱者在唱歌时的发音方式、发音技巧等。演唱风格可以与音素的市场和/或与音素对应的基频相关联。不同的演唱者在唱歌时可能具有不同的声母或者韵母的发音时长习惯，从而造成不同的发音方式。演唱者如果使用颤音等发音技巧，则对应的基频将反映出相应的特性。

通过第二注意力机制，对音频编码、声谱编码和音调编码进行处理，生产音调特征向量，其中，音调特征向量包括对应的演唱风格特征。具体可以理解为在特定的音高下线性谱对应的频率和幅度。

其中，音调解码器为梅尔谱解码器，在本实施例中，梅尔谱解码器可以是一个自回归递归神经网络，一次一帧从音调特征向量中预测一个梅尔谱，最将时长序列中的梅尔谱进行拼接，生成风格特征信息。

在本实施例中，风格特征信息反映了演唱者在演唱时的处理方式，使得合成的饮品中保留有演唱者在唱歌时的情感，使得合成的音频更加真实。

在本实施例的一些可选的实现方式中，在步骤S104之前，还包括如下步骤：

a.获取样本数据，样本数据包括样本歌词编码、样本声谱编码、样本音调编码和样本音频编码。

可选地，从样本数据中抽取梅尔频谱序列作为样本声谱编码，作为该样本数据的声学特征信息；采用人工标注的方法，对歌词信息进行音素特征标注，得到样本歌词编码，对音高进行编码得到样本音频编码；采集样本数据的共振峰特征，作为样本音频编码。

b.将样本数据输入到神经网络模型进行训练，根据训练结果得到损失参数。

c.基于损失参数，对神经网络模型进行参数调整，得到训练后的歌声合成模型。

将样本数据输入到神经网络模型进行训练，根据神经网络模型的训练结果确定损失参数，将损失参数输入到神经网络模型中进行反向传播训练，得到训练后的歌声合成模型。

在本实施例中，通过获取样本数据，并对样本数据进行音色特征和演唱风格的提取，并对歌声合成模型进行训练，使得歌声合成模型能够根据音乐数据合成目标歌曲音频，使得目标歌曲音频中携带音色特征和演唱风格特征，使得合成的目标歌曲音频具有与真人演唱接近的听觉享受，提高了目标歌曲音频的合成效果。

在本实施例的一些可选的实现方式中，步骤S104中，将音色特征信息与风格特征信息输入到歌声合成模型中进行声谱合成，得到第一声谱数据的步骤包括：

S1041，采用时值编码器对时值特征进行编码，得到时值特征向量。

S1042，将时值特征向量、音色特征信息以及风格特征信息输入至歌声合成模型，并生成第一声谱数据。

其中，时值指的是音符的时值，指在乐谱上表明的一个音应该唱的长度，可根据如下公式将时值转换成时值特征：

例如，一个谱子指明一分钟有234拍，也就是一拍的长度为60s/234＝256ms，该谱子的音符序列为一拍(256ms)、半拍(128ms)，则对应的时值特征为256/1500＝0.1707,128/1500＝0.0853。

通过时值编码器对时值特征进行编码，得到时值特征向量。

将时值特征向量、音色特征信息和风格特征信息输入到歌声合成模型进行编码，生成第一声谱数据。

作为一种可选方式，获取乐句的所有音符时长，以及歌词编码中每个因素的时长，使得乐句的音素序列发音时长之和等于该跃居所有音符时长之和。

在本实施例的一些可选的实现方式中，步骤S105中，对第一声谱数据进行解码，得到第一线性谱数据，并通过傅里叶变换方式，将第一线性谱数据转换成目标歌曲音频的步骤包括：

S1051，通过共振峰掩码解码方式，对第一声谱数据进行解码，得到第一线性谱数据。

S1052，基于线性谱判别器对第一线性谱进行判断，得到判断结果。

S1053，若判断结果为第一线性谱是线性谱数据，则通过傅里叶变换方式，将第一线性谱转换为目标歌曲音频。

其中，第一声谱数据的表现形式是梅尔谱，对梅尔谱进行转换可以生成对应的目标歌曲音频。

将梅尔谱转化成线性谱，并通过线性谱判别器对输入的线性谱进行判断，其中线性谱判别器是一个二分器结构，判断输入的数据是否是线性谱，在后续处理过程中保证处理的效果，使得目标歌曲音频的效果更好。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种歌声合成装置，该歌声合成装置与上述实施例中歌声合成方法一一对应。如图3所示，该歌声合成装置包括如下模块：

数据编码模块31，用于获取目标歌曲的音乐数据，通过预设的编码器对音乐数据进行编码，生成音乐编码数据，其中，音乐数据包括歌词数据、声谱数据、音调数据以及目标歌手的音频数据，音乐编码包括歌词编码、声谱编码、音调编码和音频编码。

第一特征信息生成模块32，用于将歌词编码、音频编码输入到第一注意力机制模型进行编码，得到音色特征信息。

第二特征信息生成模块33，用于将音频编码、声谱编码、音调编码输入到第二注意力机制模型进行编码，得到风格特征信息。

声谱数据生成模块34，用于将将音色特征信息与风格特征信息输入到歌声合成模型中进行声谱合成，得到第一声谱数据。

目标音频生成模块35，用于对第一声谱数据进行解码，得到第一线性谱数据，并通过傅里叶变换方式，将第一线性谱数据转换成目标歌曲音频。

在本实施例的一些可选的实现方式中，数据编码模块31包括如下单元：

歌词编码单元，用于获取所述歌词数据的音素特征，并通过所述文本编码器，生成所述歌词编码。

音频编码单元，用于获取所述音频数据的声纹特征，并通过所述歌手身份编码器，生成所述音频数据的音频编码。

音调编码单元，用于获取所述声谱数据的基频特征，并通过所述梅尔谱编码器，生成所述声谱数据的音调编码。

声谱编码单元，用于获取所述音调数据的音高特征，并通过所述音调编码器，生成所述音调数据的声谱编码。

在本实施例的一些可选的实现方式中，第一特征信息生成模块32包括如下单元：

共振峰掩码向量，用于通过第一注意力机制模型，对歌词编码、音频编码以及时值特征向量进行处理，得到共振峰掩码向量。

音色特征信息生成单元，用于通过共振峰掩码解码器对共振峰掩码向量进行解码，得到音色特征信息。

在本实施例的一些可选的实现方式中，第二特征信息生成模块33包括如下单元：

音调特征向量生成单元，用于通过第二注意力机制模型，对音频编码、声谱编码、音调编码以及时值特征向量进行处理，生成音调特征向量。

风格特征信息生成单元，用于通过音调解码器对音调特征向量进行解码，得到风格特征信息。

在本实施例的一些可选的实现方式中，声谱数据生成模块34包括如下单元：

时值特征向量生成单元，用于采用时值编码器对时值特征进行编码，得到时值特征向量；

第一声谱数据生成单元，用于将时值特征向量、音色特征信息以及风格特征信息输入至歌声合成模型，并生成第一声谱数据。

在本实施例的一些可选的实现方式中，目标音频生成模块35包括如下单元：

第一线性谱生成单元，用于通过共振峰掩码解码方式，对第一声谱数据进行解码，得到第一线性谱数据。

判断单元，用于基于线性谱判别器对第一线性谱进行判断，得到判断结果。

目标歌曲音频生成单元，用于若判断结果为第一线性谱是线性谱数据，则通过傅里叶变换方式，将第一线性谱转换为目标歌曲音频。

在本实施例的一些可选的实现方式中，歌声合成装置包括如下模块：

样本数据获取模块，用于获取样本数据，样本数据包括样本歌词编码、样本声谱编码、样本音调编码和样本音频编码。

损失参数获取模块，用于将样本数据输入到神经网络模型进行训练，根据训练结果得到损失参数。

歌声合成模型获取模块，用于基于损失参数，对神经网络模型进行参数调整，得到训练后的歌声合成模型。

其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。

关于歌声合成装置的具体限定可以参见上文中对于歌声合成方法的限定，在此不再赘述。上述歌声合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储歌声合成方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种歌声合成方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中歌声合成方法的步骤，例如图2所示的步骤S101至步骤S105及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机程序时实现上述实施例中歌声合成装置的各模块/单元的功能，例如图3所示模块31至模块35的功能。为避免重复，这里不再赘述。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中歌声合成方法的步骤，例如图2所示的步骤S101至步骤S105及该方法的其它扩展和相关步骤的延伸。或者，计算机程序被处理器执行时实现上述实施例中歌声合成装置的各模块/单元的功能，例如图3所示模块31至模块35的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种歌声合成方法，其特征在于，包括：

获取目标歌曲的音乐数据，通过预设的编码器对所述音乐数据进行编码，生成音乐编码数据，其中，所述音乐数据包括歌词数据、声谱数据、音调数据以及目标歌手的音频数据，所述音乐编码包括歌词编码、声谱编码、音调编码和音频编码；

将所述歌词编码、音频编码输入到第一注意力机制模型进行编码，得到音色特征信息；

将所述音频编码、声谱编码、音调编码输入到第二注意力机制模型进行编码，得到风格特征信息；

将所述音色特征信息与所述风格特征信息输入到歌声合成模型中进行声谱合成，得到第一声谱数据；

对所述第一声谱数据进行解码，得到第一线性谱数据，并通过傅里叶变换方式，将所述第一线性谱数据转换成目标歌曲音频。

2.根据权利要求1所述的歌声合成方法，其特征在于，所述通过预设的编码器对所述音乐数据进行编码，生成音乐编码数据的步骤还包括：

获取所述歌词数据的音素特征，并通过所述文本编码器，生成所述歌词编码；

获取所述音频数据的声纹特征，并通过所述歌手身份编码器，生成所述音频数据的音频编码；

获取所述声谱数据的基频特征，并通过所述梅尔谱编码器，生成所述声谱数据的声谱编码；

获取所述音调数据的音高特征，并通过所述音调编码器，生成所述音调数据的音调编码。

3.根据权利要求1所述的歌声合成方法，其特征在于，所述将所述歌词编码、音频编码输入到第一注意力机制模型进行编码，得到音色特征信息的步骤包括：

通过所述第一注意力机制模型，对所述歌词编码、所述音频编码进行处理，得到共振峰掩码向量；

通过共振峰掩码解码器对所述共振峰掩码向量进行解码，得到所述音色特征信息。

4.根据权利要求1所述的歌声合成方法，其特征在于，所述将所述音频编码、声谱编码、音调编码输入到第二注意力机制模型进行编码，得到风格特征信息的步骤包括：

通过所述第二注意力机制模型，对所述音频编码、声谱编码、音调编码进行处理，生成音调特征向量；

通过音调解码器对所述音调特征向量进行解码，得到所述风格特征信息。

5.根据权利要求1至4任一项所述的歌声合成方法，其特征在于，所述将所述音色特征信息与所述风格特征信息输入到歌声合成模型中进行声谱合成，得到第一声谱数据的步骤包括：

采用时值编码器对时值特征进行编码，得到时值特征向量；

将所述时值特征向量、所述音色特征信息以及所述风格特征信息输入至所述歌声合成模型，并生成所述第一声谱数据。

6.根据权利要求1所述的歌声合成方法，其特征在于，在所述将所述音色特征信息与所述风格特征信息输入到歌声合成模型中进行声谱合成，得到第一声谱数据的步骤之前，所述方法包括：

获取样本数据，所述样本数据包括样本歌词编码、样本声谱编码、样本音调编码和样本音频编码；

将所述样本数据输入到神经网络模型进行训练，根据训练结果得到损失参数；

基于所述损失参数，对神经网络模型进行参数调整，得到训练后的歌声合成模型。

7.根据权利要求1所述的歌声合成方法，其特征在于，所述对所述第一声谱数据进行解码，得到第一线性谱数据，并通过傅里叶变换方式，将所述第一线性谱数据转换成目标歌曲音频的步骤包括：

通过共振峰掩码解码方式，对所述第一声谱数据进行解码，得到第一线性谱数据；

基于线性谱判别器对所述第一线性谱进行判断，得到判断结果；

若所述判断结果为所述第一线性谱是线性谱数据，则通过傅里叶变换方式，将所述第一线性谱转换为所述目标歌曲音频。

8.一种歌声合成装置，其特征在于，包括：

数据编码模块，用于获取目标歌曲的音乐数据，通过预设的编码器对所述音乐数据进行编码，生成音乐编码数据，其中，所述音乐数据包括歌词数据、声谱数据、音调数据以及目标歌手的音频数据，所述音乐编码包括歌词编码、声谱编码、音调编码和音频编码；

第一特征信息生成模块，用于将所述歌词编码、音频编码输入到第一注意力机制模型进行编码，得到音色特征信息；

第二特征信息生成模块，用于将所述音频编码、声谱编码、音调编码输入到第二注意力机制模型进行编码，得到风格特征信息；

声谱数据生成模块，用于将所述音色特征信息与所述风格特征信息输入到歌声合成模型中进行声谱合成，得到第一声谱数据；

目标音频生成模块，用于对所述第一声谱数据进行解码，得到第一线性谱数据，并通过傅里叶变换方式，将所述第一线性谱数据转换成目标歌曲音频。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述歌声合成方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述歌声合成方法的步骤。