CN113345453B

CN113345453B - 歌声转换方法、装置、设备及存储介质

Info

Publication number: CN113345453B
Application number: CN202110607799.0A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2023-06-16
Anticipated expiration: 2041-06-01
Also published as: CN113345453A

Abstract

本发明涉及人工智能领域，公开了一种歌声转换方法、装置、设备及存储介质，用于提高歌声音频的合成效率。歌声转换方法包括：获取初始录音数据，对初始录音数据进行预处理，得到预处理后的录音数据；对预处理后的录音数据中的每一帧数据分别进行特征提取，得到录音梅尔谱特征；通过预置的基频提取算法，提取预处理后的录音数据中的旋律特征，得到旋律基频特征；获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对录音梅尔谱特征、旋律基频特征和歌词文本数据进行编码处理和解码处理，得到歌声音频梅尔谱图；调用预置的梅尔生成对抗网络模型确定目标歌声音频。此外，本发明还涉及区块链技术，目标歌声音频可存储于区块链节点中。

Description

歌声转换方法、装置、设备及存储介质

技术领域

本发明涉及音频转换领域，尤其涉及一种歌声转换方法、装置、设备及存储介质。

背景技术

歌声转换是将说话人的语音信息进行音色提取，然后根据歌词和旋律信息来合成跟说话人音色相同的歌声音频。

在现有技术中，声音的合成方法是对多种声学参数进行建模，这样合成的音质取决于各个控制环节的效果，如果某一环节效果不好则会对合成的音质产生较大的影响，类似的合成方法还有基于模板的生成方法，这种方法需要一个高音质的音色库来提取各种音乐的参数，且这种方法需要高质量的音乐来作为模板，但高质量的音乐模板建立过程比较困难，导致歌声音频的合成效率低下。

发明内容

本发明提供了一种歌声转换方法、装置、设备及存储介质，用于基于边界均衡生成对抗网络模型对录音梅尔谱特征、旋律基频特征和歌词数据进行编码处理和解码处理，得到歌声音频梅尔谱图，并调用梅尔生成对抗网络模型，对歌声音频梅尔谱图进行转换，得到目标歌声音频，提高了歌声音频的合成效率。

本发明第一方面提供了一种歌声转换方法，包括：获取初始录音数据，对所述初始录音数据进行预处理，得到预处理后的录音数据；对所述预处理后的录音数据中的每一帧数据分别进行特征提取，得到录音梅尔谱特征；通过预置的基频提取算法，提取所述预处理后的录音数据中的旋律特征，得到旋律基频特征；获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对所述录音梅尔谱特征、所述旋律基频特征和所述歌词文本数据进行编码处理和解码处理，得到歌声音频梅尔谱图；调用预置的梅尔生成对抗网络模型，对所述歌声音频梅尔谱图进行转换，得到初始歌声音频，调用预置的判别器对所述初始歌声音频进行判别，得到判别结果，基于所述判别结果确定目标歌声音频。

可选的，在本发明第一方面的第一种实现方式中，所述获取初始录音数据，对所述初始录音数据进行预处理，得到预处理后的录音数据包括：获取初始录音数据，调用预置的语音端点检测算法，对所述初始录音数据进行切分和检测，得到录音切分片段；删除所述录音切分片段中的无效片段，得到过滤后的录音数据，所述无效片段为包含噪音信号的录音片段和静音片段；对所述过滤后的录音数据依次进行预加重、分帧和加窗处理，得到预处理后的录音数据。

可选的，在本发明第一方面的第二种实现方式中，所述对所述预处理后的录音数据中的每一帧数据分别进行特征提取，得到录音梅尔谱特征包括：对所述预处理后的录音数据中的每一帧数据分别进行傅里叶变换，得到每一帧数据对应的频谱数据；通过预置的梅尔滤波器，对所述每一帧数据对应的频谱数据进行平滑化处理，得到平滑处理后的数据，将平滑处理后的数据确定为录音梅尔谱特征。

可选的，在本发明第一方面的第三种实现方式中，所述通过预置的基频提取算法，提取所述预处理后的录音数据中的旋律特征，得到旋律基频特征包括：调用预置的基频提取算法，对所述预处理后的录音数据进行计算，得到每一帧数据对应的差函数计算结果；在所述每一帧数据对应的差函数计算结果中，分别查询预设数量的谷值，得到每一帧数据对应的多个谷值，基于所述每一帧数据对应的多个谷值，确定旋律波形的最小正周期，得到初始基频特征；基于预设的基频转移规律，对所述初始基频特征进行平滑化处理，得到旋律基频特征。

可选的，在本发明第一方面的第四种实现方式中，所述调用预置的基频提取算法，对所述预处理后的录音数据进行计算，得到每一帧数据对应的差函数计算结果包括：获取所述预处理后的录音数据中每一帧数据对应的初始信号和平移信号；基于预置的基频提取算法中的差函数计算公式，将所述初始信号和所述平移信号相减，得到相减结果，对所述相减结果求平方数后再进行累加，得到每一帧数据对应的差函数计算结果。

可选的，在本发明第一方面的第五种实现方式中，所述获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对所述录音梅尔谱特征、所述旋律基频特征和所述歌词文本数据进行编码处理和解码处理，得到歌声音频梅尔谱图包括：获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对所述歌词文本数据进行基于因果卷积的编码，得到歌词编码向量；调用预置的边界均衡生成对抗网络模型，对所述录音梅尔谱特征和所述旋律基频特征分别进行基于一维卷积的编码，得到录音梅尔谱编码向量和旋律编码向量；对所述歌词编码向量、所述录音梅尔谱编码向量和所述旋律编码向量进行解码运算，得到歌声音频梅尔谱图。

可选的，在本发明第一方面的第六种实现方式中，所述调用预置的梅尔生成对抗网络模型，对所述歌声音频梅尔谱图进行转换，得到初始歌声音频，调用预置的判别器对所述初始歌声音频进行判别，得到判别结果，基于所述判别结果确定目标歌声音频包括：调用预置的梅尔生成对抗网络模型，对所述歌声音频梅尔谱图进行卷积和上采样处理，得到初始歌声音频；调用预置的判别器，对所述初始歌声音频进行降频处理，得到降频后的歌声音频；判断所述降频后的歌声音频是否满足预设条件；若所述降频后的歌声音频满足预设条件，则将所述降频后的歌声音频确定为目标歌声音频。

本发明第二方面提供了一种歌声转换装置，包括：获取模块，用于获取初始录音数据，对所述初始录音数据进行预处理，得到预处理后的录音数据；第一提取模块，用于对所述预处理后的录音数据中的每一帧数据分别进行特征提取，得到录音梅尔谱特征；第二提取模块，用于通过预置的基频提取算法，提取所述预处理后的录音数据中的旋律特征，得到旋律基频特征；编解码模块，用于获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对所述录音梅尔谱特征、所述旋律基频特征和所述歌词文本数据进行编码处理和解码处理，得到歌声音频梅尔谱图；判别模块，用于调用预置的梅尔生成对抗网络模型，对所述歌声音频梅尔谱图进行转换，得到初始歌声音频，调用预置的判别器对所述初始歌声音频进行判别，得到判别结果，基于所述判别结果确定目标歌声音频。

可选的，在本发明第二方面的第一种实现方式中，所述获取模块包括：获取单元，用于获取初始录音数据，调用预置的语音端点检测算法，对所述初始录音数据进行切分和检测，得到录音切分片段；过滤单元，用于删除所述录音切分片段中的无效片段，得到过滤后的录音数据，所述无效片段为包含噪音信号的录音片段和静音片段；预加重单元，用于对所述过滤后的录音数据依次进行预加重、分帧和加窗处理，得到预处理后的录音数据。

可选的，在本发明第二方面的第二种实现方式中，所述第一提取模块包括：变换单元，用于对所述预处理后的录音数据中的每一帧数据分别进行傅里叶变换，得到每一帧数据对应的频谱数据；第一平滑处理单元，用于通过预置的梅尔滤波器，对所述每一帧数据对应的频谱数据进行平滑化处理，得到平滑处理后的数据，将平滑处理后的数据确定为录音梅尔谱特征。

可选的，在本发明第二方面的第三种实现方式中，所述第二提取模块包括：计算单元，用于调用预置的基频提取算法，对所述预处理后的录音数据进行计算，得到每一帧数据对应的差函数计算结果；查询单元，用于在所述每一帧数据对应的差函数计算结果中，分别查询预设数量的谷值，得到每一帧数据对应的多个谷值，基于所述每一帧数据对应的多个谷值，确定旋律波形的最小正周期，得到初始基频特征；第二平滑处理单元，用于基于预设的基频转移规律，对所述初始基频特征进行平滑化处理，得到旋律基频特征。

可选的，在本发明第二方面的第四种实现方式中，所述计算单元可以具体用于：获取所述预处理后的录音数据中每一帧数据对应的初始信号和平移信号；基于预置的基频提取算法中的差函数计算公式，将所述初始信号和所述平移信号相减，得到相减结果，对所述相减结果求平方数后再进行累加，得到每一帧数据对应的差函数计算结果。

可选的，在本发明第二方面的第五种实现方式中，所述编解码模块包括：第一编码单元，用于获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对所述歌词文本数据进行基于因果卷积的编码，得到歌词编码向量；第二编码单元，用于调用预置的边界均衡生成对抗网络模型，对所述录音梅尔谱特征和所述旋律基频特征分别进行基于一维卷积的编码，得到录音梅尔谱编码向量和旋律编码向量；解码单元，用于对所述歌词编码向量、所述录音梅尔谱编码向量和所述旋律编码向量进行解码运算，得到歌声音频梅尔谱图。

可选的，在本发明第二方面的第六种实现方式中，所述判别模块包括：上采样单元，用于调用预置的梅尔生成对抗网络模型，对所述歌声音频梅尔谱图进行卷积和上采样处理，得到初始歌声音频；降频单元，用于调用预置的判别器，对所述初始歌声音频进行降频处理，得到降频后的歌声音频；判断单元，用于判断所述降频后的歌声音频是否满足预设条件；确定单元，用于若所述降频后的歌声音频满足预设条件，则将所述降频后的歌声音频确定为目标歌声音频。

本发明第三方面提供了一种歌声转换设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述歌声转换设备执行上述的歌声转换方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的歌声转换方法。

本发明提供的技术方案中，获取初始录音数据，对所述初始录音数据进行预处理，得到预处理后的录音数据；对所述预处理后的录音数据中的每一帧数据分别进行特征提取，得到录音梅尔谱特征；通过预置的基频提取算法，提取所述预处理后的录音数据中的旋律特征，得到旋律基频特征；获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对所述录音梅尔谱特征、所述旋律基频特征和所述歌词文本数据进行编码处理和解码处理，得到歌声音频梅尔谱图；调用预置的梅尔生成对抗网络模型，对所述歌声音频梅尔谱图进行转换，得到初始歌声音频，调用预置的判别器对所述初始歌声音频进行判别，得到判别结果，基于所述判别结果确定目标歌声音频。本发明实施例中，基于边界均衡生成对抗网络模型对录音梅尔谱特征、旋律基频特征和歌词数据进行编码处理和解码处理，得到歌声音频梅尔谱图，并调用梅尔生成对抗网络模型，对歌声音频梅尔谱图进行转换，得到目标歌声音频，提高了歌声音频的合成效率。

附图说明

图1为本发明实施例中歌声转换方法的一个实施例示意图；

图2为本发明实施例中歌声转换方法的另一个实施例示意图；

图3为本发明实施例中歌声转换装置的一个实施例示意图；

图4为本发明实施例中歌声转换装置的另一个实施例示意图；

图5为本发明实施例中歌声转换设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种歌声转换方法、装置、设备及存储介质，用于基于边界均衡生成对抗网络模型对录音梅尔谱特征、旋律基频特征和歌词数据进行编码处理和解码处理，得到歌声音频梅尔谱图，并调用梅尔生成对抗网络模型，对歌声音频梅尔谱图进行转换，得到目标歌声音频，提高了歌声音频的合成效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中歌声转换方法的一个实施例包括：

101、获取初始录音数据，对初始录音数据进行预处理，得到预处理后的录音数据。

可以理解的是，本发明的执行主体可以为歌声转换装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

服务器获取初始录音数据，对初始录音数据进行预处理，得到预处理后的录音数据。服务器通过调用预置的语音端点检测算法(Voice Activity Detection，VAD)对初始录音数据进行切分和检测，得到录音切分片段，初始录音数据通过爬虫获取，本实施例中运用到的初始录音数据都经过用户授权，得到录音切分片段后，将录音切分片段中的无效片段过滤掉，得到过滤后的录音数据，无效片段为包含噪音信号的语音片段和静音片段，对过滤后的录音数据分别进行预加重、分帧和加窗处理，得到预处理后的录音数据。

102、对预处理后的录音数据中的每一帧数据分别进行特征提取，得到录音梅尔谱特征。

服务器对预处理后的录音数据中的每一帧数据分别进行特征提取，得到录音梅尔谱特征。服务器对预处理后的录音数据进行特征提取的过程主要包括对每一帧数据进行傅里叶变换，并通过梅尔滤波器进行平滑化处理，消除谐波的作用，对预处理后的录音数据中的每一帧数据分别进行傅里叶变换，得到每一帧数据对应的频谱数据，对每一帧数据对应的频谱数据取模平方得到语音信号的谱线能量，将谱线能量通过一组梅尔尺度的三角形滤波器组，进行平滑化处理，得到平滑处理后的数据，将平滑处理后的数据确定为录音梅尔谱特征。

103、通过预置的基频提取算法，提取预处理后的录音数据中的旋律特征，得到旋律基频特征。

服务器通过预置的基频提取算法，提取预处理后的录音数据中的旋律特征，得到旋律基频特征。预置的基频提取算法可以为概率阴算法(probabilistic YIN，PYIN)，基频提取通常会先把信号分帧，再逐帧提取基频特征，大致可以分为时域法和频域法，时域法以声音的波形为输入，其基本原理是寻找波形的最小正周期，频域法则会先对信号做傅里叶变换，得到频谱，频谱上基频的整数倍处会有尖峰，频域法的基本原理就是要求出这些尖峰频率的最大公约数，本实施例中运用到的PYIN算法属于时域法，PYIN算法对每一帧数据查询对应的多个谷值，从而确定旋律基频特征。

104、获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对录音梅尔谱特征、旋律基频特征和歌词文本数据进行编码处理和解码处理，得到歌声音频梅尔谱图。

服务器获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对录音梅尔谱特征、旋律基频特征和歌词文本数据进行编码处理和解码处理，得到歌声音频梅尔谱图。本实施例中采用边界均衡生成对抗网络模型BEGAN进行歌声音频的转换，BEGAN将一个自编码器作为分类器，通过基于瓦瑟斯坦wasserstein距离的损失来匹配自编码器的损失分布，采用神经网络结构，训练中添加额外的均衡过程来平衡生成器与分类器，歌词文本数据通过爬虫获取，本实施例中的歌词文本数据都经过用户授权，歌词文本的编码过程采用因果卷积，得到歌词编码向量，录音梅尔谱特征、旋律基频特征基于一维卷积进行编码，得到录音梅尔谱编码向量和旋律编码向量其中，一维卷积可以为完全补0的full卷积、合法valid卷积或者相同same卷积，将歌词编码向量、录音梅尔谱编码向量和旋律编码向量通过全卷积网络U-net进行解码，得到歌声音频梅尔谱图。

105、调用预置的梅尔生成对抗网络模型，对歌声音频梅尔谱图进行转换，得到初始歌声音频，调用预置的判别器对初始歌声音频进行判别，得到判别结果，基于判别结果确定目标歌声音频。

服务器调用预置的梅尔生成对抗网络模型，对歌声音频梅尔谱图进行转换，得到初始歌声音频，调用预置的判别器对初始歌声音频进行判别，得到判别结果，基于判别结果确定目标歌声音频。本实施例中运用梅尔生成对抗网络模型MELGAN作为声音的还原部分，将歌声音频梅尔谱图还原为目标歌声音频，MELGAN是一种非自回归前馈卷积架构，由生成器和判别器组成，生成器的输入是歌声音频梅尔谱图，输出是初始歌声音频，再通过判别器判断初始歌声音频是否和初始录音数据中的人声相匹配，得到判别结果，若判别结果为初始歌声音频和初始录音数据中的人声相匹配，则可以确定目标歌声音频。

本发明实施例中，基于边界均衡生成对抗网络模型对录音梅尔谱特征、旋律基频特征和歌词数据进行编码处理和解码处理，得到歌声音频梅尔谱图，并调用梅尔生成对抗网络模型，对歌声音频梅尔谱图进行转换，得到目标歌声音频，提高了歌声音频的合成效率。

请参阅图2，本发明实施例中歌声转换方法的另一个实施例包括：

201、获取初始录音数据，对初始录音数据进行预处理，得到预处理后的录音数据。

服务器获取初始录音数据，对初始录音数据进行预处理，得到预处理后的录音数据。具体的，服务器获取初始录音数据，调用预置的语音端点检测算法，对初始录音数据进行切分和检测，得到录音切分片段；服务器删除录音切分片段中的无效片段，得到过滤后的录音数据，无效片段为包含噪音信号的录音片段和静音片段；服务器对过滤后的录音数据依次进行预加重、分帧和加窗处理，得到预处理后的录音数据。

语音端点检测算法就是将有效的语音信号和无用的语音信号或者噪音信号进行分离，需要从输入信号中找到语音部分的起止点和终止点，从中抽取语音情感识别所需的信号特征，本实施例中通过调用VAD算法对初始录音数据进行切分，分离并过滤掉无效片段，得到过滤后的录音数据，服务器对过滤后的录音数据依次进行预加重、分帧和加窗处理，得到预处理后的录音数据，预加重处理是将语音信号通过一个高通滤波器，从而抵消声门脉冲及唇边辐射引起的高端频谱幅度下降，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，同时，也是为了突出高频的共振峰。将N个采样点集合成一个观测单位，称为帧，通常情况下N的值为256或512，涵盖的时间约为20～30ms，为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，例如：一段录音的时长为30s，窗的长度为30ms，则不考虑重叠的区域的情况下可以将该段录音分为30s/30ms＝100帧，考虑重叠区域的情况下分为2*30s/30ms＝200帧。

202、对预处理后的录音数据中的每一帧数据分别进行特征提取，得到录音梅尔谱特征。

服务器对预处理后的录音数据中的每一帧数据分别进行特征提取，得到录音梅尔谱特征。具体的，服务器对预处理后的录音数据中的每一帧数据分别进行傅里叶变换，得到每一帧数据对应的频谱数据；服务器通过预置的梅尔滤波器，对每一帧数据对应的频谱数据进行平滑化处理，得到平滑处理后的数据，将平滑处理后的数据确定为录音梅尔谱特征。

服务器对预处理后的录音数据中的每一帧数据分别进行特征提取，得到录音梅尔谱特征。服务器对预处理后的录音数据进行特征提取的过程主要包括对每一帧数据进行傅里叶变换，并通过梅尔滤波器进行平滑化处理，消除谐波的作用，由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性，所以每一帧数据必须经过快速傅里叶变换以得到在频谱上的能量分布(即每一帧数据对应的频谱数据)，对每一帧数据对应的频谱数据取模平方得到语音信号的谱线能量，将谱线能量通过一组梅尔尺度的三角形滤波器组，进行平滑化处理，得到平滑处理后的数据，将平滑处理后的数据确定为录音梅尔谱特征。

203、调用预置的基频提取算法，对预处理后的录音数据进行计算，得到每一帧数据对应的差函数计算结果。

服务器调用预置的基频提取算法，对预处理后的录音数据进行计算，得到每一帧数据对应的差函数计算结果。具体的，服务器获取预处理后的录音数据中每一帧数据对应的初始信号和平移信号；服务器基于预置的基频提取算法中的差函数计算公式，将初始信号和平移信号相减，得到相减结果，对相减结果求平方数后再进行累加，得到每一帧数据对应的差函数计算结果。

差函数计算公式为

其中，x_i为初始信号，x_i+τ为平移信号，τ为平移量，可以代表信号在时间t处的周期，W为一帧内的采样点数，将初始信号和平移信号相减，得到相减结果，对相减结果求平方数后再进行累加，可以求出每一帧数据对应的差函数计算结果。

204、在每一帧数据对应的差函数计算结果中，分别查询预设数量的谷值，得到每一帧数据对应的多个谷值，基于每一帧数据对应的多个谷值，确定旋律波形的最小正周期，得到初始基频特征。

服务器在每一帧数据对应的差函数计算结果中，分别查询预设数量的谷值，得到每一帧数据对应的多个谷值，基于每一帧数据对应的多个谷值，确定旋律波形的最小正周期，得到初始基频特征。本实施例中采用PYIN算法提取旋律基频特征，相对原始的YIN算法，对每一帧数据只给出周期的一个估计值，一旦产生了倍频错误或半频错误，就很难恢复，PYIN算法主要针对的是基音轨迹的平滑性，对每一帧数据挑选多个谷值作为候选，得到每一帧数据对应的多个谷值，根据多个谷值对应的旋律波形图确定旋律波形的最小正周期，得到初始基频特征。

205、基于预设的基频转移规律，对初始基频特征进行平滑化处理，得到旋律基频特征。

服务器基于预设的基频转移规律，对初始基频特征进行平滑化处理，得到旋律基频特征。PYIN算法中运用到了隐马尔科夫模型(hidden markov model，HMM)进行基频建模，得到基频转移规律，使得基音轨迹尽可能平滑，并消除个别帧数据产生的倍频错误或半频错误，同时，HMM模型中设置了无基频状态，可以实现清浊音判别，服务器基于基频转移规律对初始基频特征进行平滑化处理，最终得到旋律基频特征。

206、获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对录音梅尔谱特征、旋律基频特征和歌词文本数据进行编码处理和解码处理，得到歌声音频梅尔谱图。

服务器获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对录音梅尔谱特征、旋律基频特征和歌词文本数据进行编码处理和解码处理，得到歌声音频梅尔谱图。具体的，服务器获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对歌词文本数据进行基于因果卷积的编码，得到歌词编码向量；服务器调用预置的边界均衡生成对抗网络模型，对录音梅尔谱特征和旋律基频特征分别进行基于一维卷积的编码，得到录音梅尔谱编码向量和旋律编码向量；服务器对歌词编码向量、录音梅尔谱编码向量和旋律编码向量进行解码运算，得到歌声音频梅尔谱图。

本实施例中采用边界均衡生成对抗网络模型BEGAN进行歌声音频的转换，BEGAN将一个自编码器作为分类器，通过基于瓦瑟斯坦wasserstein距离的损失来匹配自编码器的损失分布，采用神经网络结构，训练中添加额外的均衡过程来平衡生成器与分类器，歌词文本数据通过爬虫获取，本实施例中的歌词文本数据都经过用户授权，歌词文本的编码过程采用因果卷积，得到歌词编码向量，录音梅尔谱特征、旋律基频特征基于一维卷积进行编码，得到录音梅尔谱编码向量和旋律编码向量其中，一维卷积可以为完全补0的full卷积、合法valid卷积或者相同same卷积，将歌词编码向量、录音梅尔谱编码向量和旋律编码向量通过全卷积网络U-net进行解码，同时采用重构损失的方式，通过BEGAN模型中的超参数γ作为调节损失的因子，得到歌声音频梅尔谱图。

207、调用预置的梅尔生成对抗网络模型，对歌声音频梅尔谱图进行转换，得到初始歌声音频，调用预置的判别器对初始歌声音频进行判别，得到判别结果，基于判别结果确定目标歌声音频。

服务器调用预置的梅尔生成对抗网络模型，对歌声音频梅尔谱图进行转换，得到初始歌声音频，调用预置的判别器对初始歌声音频进行判别，得到判别结果，基于判别结果确定目标歌声音频。具体的，服务器调用预置的梅尔生成对抗网络模型，对歌声音频梅尔谱图进行卷积和上采样处理，得到初始歌声音频；服务器调用预置的判别器，对初始歌声音频进行降频处理，得到降频后的歌声音频；服务器判断降频后的歌声音频是否满足预设条件；若降频后的歌声音频满足预设条件，服务器则将降频后的歌声音频确定为目标歌声音频。

梅尔生成对抗网络模型MELGAN包括生成器和判别器，服务器通过生成器中的卷积层、上采样层和残差层，对歌声音频梅尔谱图进行卷积和上采样处理，得到初始歌声音频，其中，上采样层可以为四层，每两层上采样层中嵌套一层残差层，服务器调用MELGAN模型中的判别器，对初始歌声音频做降频处理，得到降频后的歌声音频，降频处理主要基于平均池化算法average pooling，再通过判别器判断初始歌声音频是否和初始录音数据中的人声相匹配(即预设条件)，得到判别结果，若判别结果为初始歌声音频和初始录音数据中的人声相匹配，则将降频后的歌声音频确定为目标歌声音频。

上面对本发明实施例中歌声转换方法进行了描述，下面对本发明实施例中歌声转换装置进行描述，请参阅图3，本发明实施例中歌声转换装置的一个实施例包括：

获取模块301，用于获取初始录音数据，对初始录音数据进行预处理，得到预处理后的录音数据；

第一提取模块302，用于对预处理后的录音数据中的每一帧数据分别进行特征提取，得到录音梅尔谱特征；

第二提取模块303，用于通过预置的基频提取算法，提取预处理后的录音数据中的旋律特征，得到旋律基频特征；

编解码模块304，用于获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对录音梅尔谱特征、旋律基频特征和歌词文本数据进行编码处理和解码处理，得到歌声音频梅尔谱图；

判别模块305，用于调用预置的梅尔生成对抗网络模型，对歌声音频梅尔谱图进行转换，得到初始歌声音频，调用预置的判别器对初始歌声音频进行判别，得到判别结果，基于判别结果确定目标歌声音频。

请参阅图4，本发明实施例中歌声转换装置的另一个实施例包括：

其中，第二提取模块303具体包括：

计算单元3031，用于调用预置的基频提取算法，对所述预处理后的录音数据进行计算，得到每一帧数据对应的差函数计算结果；

查询单元3032，用于在每一帧数据对应的差函数计算结果中，分别查询预设数量的谷值，得到每一帧数据对应的多个谷值，基于每一帧数据对应的多个谷值，确定旋律波形的最小正周期，得到初始基频特征；

第二平滑处理单元3033，用于基于预设的基频转移规律，对初始基频特征进行平滑化处理，得到旋律基频特征。

可选的，获取模块301包括：

获取单元3011，用于获取初始录音数据，调用预置的语音端点检测算法，对初始录音数据进行切分和检测，得到录音切分片段；

过滤单元3012，用于删除录音切分片段中的无效片段，得到过滤后的录音数据，无效片段为包含噪音信号的录音片段和静音片段；

预加重单元3013，用于对过滤后的录音数据依次进行预加重、分帧和加窗处理，得到预处理后的录音数据。

可选的，第一提取模块302包括：

变换单元3021，用于对预处理后的录音数据中的每一帧数据分别进行傅里叶变换，得到每一帧数据对应的频谱数据；

第一平滑处理单元3022，用于通过预置的梅尔滤波器，对每一帧数据对应的频谱数据进行平滑化处理，得到平滑处理后的数据，将平滑处理后的数据确定为录音梅尔谱特征。

可选的，计算单元3031还可以具体用于：

获取预处理后的录音数据中每一帧数据对应的初始信号和平移信号；基于预置的基频提取算法中的差函数计算公式，将初始信号和平移信号相减，得到相减结果，对相减结果求平方数后再进行累加，得到每一帧数据对应的差函数计算结果。

可选的，编解码模块304包括：

第一编码单元3041，用于获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对歌词文本数据进行基于因果卷积的编码，得到歌词编码向量；

第二编码单元3042，用于调用预置的边界均衡生成对抗网络模型，对录音梅尔谱特征和旋律基频特征分别进行基于一维卷积的编码，得到录音梅尔谱编码向量和旋律编码向量；

解码单元3043，用于对歌词编码向量、录音梅尔谱编码向量和旋律编码向量进行解码运算，得到歌声音频梅尔谱图。

可选的，判别模块305包括：

上采样单元3051，用于调用预置的梅尔生成对抗网络模型，对歌声音频梅尔谱图进行卷积和上采样处理，得到初始歌声音频；

降频单元3052，用于调用预置的判别器，对初始歌声音频进行降频处理，得到降频后的歌声音频；

判断单元3053，用于判断降频后的歌声音频是否满足预设条件；

确定单元3054，用于若降频后的歌声音频满足预设条件，则将降频后的歌声音频确定为目标歌声音频。

上面图3和图4从模块化功能实体的角度对本发明实施例中的歌声转换装置进行详细描述，下面从硬件处理的角度对本发明实施例中歌声转换设备进行详细描述。

图5是本发明实施例提供的一种歌声转换设备的结构示意图，该歌声转换设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对歌声转换设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在歌声转换设备500上执行存储介质530中的一系列指令操作。

歌声转换设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的歌声转换设备结构并不构成对歌声转换设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种歌声转换设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述歌声转换方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述歌声转换方法的步骤。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种歌声转换方法，其特征在于，所述歌声转换方法包括：

获取初始录音数据，对所述初始录音数据进行预处理，得到预处理后的录音数据；

对所述预处理后的录音数据中的每一帧数据分别进行特征提取，得到录音梅尔谱特征；

通过预置的基频提取算法，提取所述预处理后的录音数据中的旋律特征，得到旋律基频特征；

获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对所述录音梅尔谱特征、所述旋律基频特征和所述歌词文本数据进行编码处理和解码处理，得到歌声音频梅尔谱图；

调用预置的梅尔生成对抗网络模型，对所述歌声音频梅尔谱图进行转换，得到初始歌声音频，调用预置的判别器对所述初始歌声音频进行判别，得到判别结果，基于所述判别结果确定目标歌声音频。

2.根据权利要求1所述的歌声转换方法，其特征在于，所述获取初始录音数据，对所述初始录音数据进行预处理，得到预处理后的录音数据包括：

获取初始录音数据，调用预置的语音端点检测算法，对所述初始录音数据进行切分和检测，得到录音切分片段；

删除所述录音切分片段中的无效片段，得到过滤后的录音数据，所述无效片段为包含噪音信号的录音片段和静音片段；

对所述过滤后的录音数据依次进行预加重、分帧和加窗处理，得到预处理后的录音数据。

3.根据权利要求1所述的歌声转换方法，其特征在于，所述对所述预处理后的录音数据中的每一帧数据分别进行特征提取，得到录音梅尔谱特征包括：

对所述预处理后的录音数据中的每一帧数据分别进行傅里叶变换，得到每一帧数据对应的频谱数据；

通过预置的梅尔滤波器，对所述每一帧数据对应的频谱数据进行平滑化处理，得到平滑处理后的数据，将平滑处理后的数据确定为录音梅尔谱特征。

4.根据权利要求1所述的歌声转换方法，其特征在于，所述通过预置的基频提取算法，提取所述预处理后的录音数据中的旋律特征，得到旋律基频特征包括：

调用预置的基频提取算法，对所述预处理后的录音数据进行计算，得到每一帧数据对应的差函数计算结果；

在所述每一帧数据对应的差函数计算结果中，分别查询预设数量的谷值，得到每一帧数据对应的多个谷值，基于所述每一帧数据对应的多个谷值，确定旋律波形的最小正周期，得到初始基频特征；

基于预设的基频转移规律，对所述初始基频特征进行平滑化处理，得到旋律基频特征。

5.根据权利要求4所述的歌声转换方法，其特征在于，所述调用预置的基频提取算法，对所述预处理后的录音数据进行计算，得到每一帧数据对应的差函数计算结果包括：

获取所述预处理后的录音数据中每一帧数据对应的初始信号和平移信号；

基于预置的基频提取算法中的差函数计算公式，将所述初始信号和所述平移信号相减，得到相减结果，对所述相减结果求平方数后再进行累加，得到每一帧数据对应的差函数计算结果。

6.根据权利要求1所述的歌声转换方法，其特征在于，所述获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对所述录音梅尔谱特征、所述旋律基频特征和所述歌词文本数据进行编码处理和解码处理，得到歌声音频梅尔谱图包括：

获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对所述歌词文本数据进行基于因果卷积的编码，得到歌词编码向量；

调用预置的边界均衡生成对抗网络模型，对所述录音梅尔谱特征和所述旋律基频特征分别进行基于一维卷积的编码，得到录音梅尔谱编码向量和旋律编码向量；

对所述歌词编码向量、所述录音梅尔谱编码向量和所述旋律编码向量进行解码运算，得到歌声音频梅尔谱图。

7.根据权利要求1-6中任一项所述的歌声转换方法，其特征在于，所述调用预置的梅尔生成对抗网络模型，对所述歌声音频梅尔谱图进行转换，得到初始歌声音频，调用预置的判别器对所述初始歌声音频进行判别，得到判别结果，基于所述判别结果确定目标歌声音频包括：

调用预置的梅尔生成对抗网络模型，对所述歌声音频梅尔谱图进行卷积和上采样处理，得到初始歌声音频；

调用预置的判别器，对所述初始歌声音频进行降频处理，得到降频后的歌声音频；

判断所述降频后的歌声音频是否满足预设条件；

若所述降频后的歌声音频满足预设条件，则将所述降频后的歌声音频确定为目标歌声音频。

8.一种歌声转换装置，其特征在于，所述歌声转换装置包括：

获取模块，用于获取初始录音数据，对所述初始录音数据进行预处理，得到预处理后的录音数据；

第一提取模块，用于对所述预处理后的录音数据中的每一帧数据分别进行特征提取，得到录音梅尔谱特征；

第二提取模块，用于通过预置的基频提取算法，提取所述预处理后的录音数据中的旋律特征，得到旋律基频特征；

编解码模块，用于获取歌词文本数据，调用预置的边界均衡生成对抗网络模型，对所述录音梅尔谱特征、所述旋律基频特征和所述歌词文本数据进行编码处理和解码处理，得到歌声音频梅尔谱图；

判别模块，用于调用预置的梅尔生成对抗网络模型，对所述歌声音频梅尔谱图进行转换，得到初始歌声音频，调用预置的判别器对所述初始歌声音频进行判别，得到判别结果，基于所述判别结果确定目标歌声音频。

9.一种歌声转换设备，其特征在于，所述歌声转换设备包括：

存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述歌声转换设备执行如权利要求1-7中任意一项所述的歌声转换方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述歌声转换方法。