CN109817197B

CN109817197B - 歌声生成方法、装置、计算机设备和存储介质

Info

Publication number: CN109817197B
Application number: CN201910158956.7A
Authority: CN
Inventors: 朱映波; 吴三阳; 周耀杰; 王伟; 邓均敏; 曾荣
Original assignee: iMusic Culture and Technology Co Ltd
Current assignee: iMusic Culture and Technology Co Ltd
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2021-05-11
Anticipated expiration: 2039-03-04
Also published as: CN109817197A

Abstract

本申请涉及一种歌声生成方法、装置、计算机设备和存储介质。所述方法包括：获取第一歌声数据；提取出所述第一歌声数据的MFCC特征、基频、非周期性值及清浊音判决结果；将所述MFCC特征输入至语音识别模型，获得第一概率矩阵；将所述第一概率矩阵输入至音色转换模型，获得所述MFCC特征对应的幅度谱；根据所述幅度谱、基频、非周期性值及清浊音判决结果生成第二歌声数据。采用本方法能够快速高效地合成明星唱歌的声音，极大地降低了歌曲录制的难度。

Description

歌声生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及音频处理技术领域，特别是涉及一种歌声生成方法、装置、计算机设备和存储介质。

背景技术

音乐的制作是一个十分繁琐的过程，用户喜爱的歌手出场费用较高，且通常没有档期可以到场录音。一种解决的方法是采用电脑合成的歌声代替真人的歌声。

目前的电脑自动化合成歌曲，主要有两种途径，一种是基于波形拼接和音高调节的算法，一种是基于语音合成的算法。

基于波形拼接和音高调节的算法需要预先录制真人的不同音节发音，后期需要乐曲编辑员在编辑软件上对原始每个音节进行音高和音长编辑，并依次拼接成完成的歌曲。典型的如MUTA的嫣汐等。基于语音合成的算法需要前期录制大量语音，建立文本符号到声学特征的映射关系模型，后期需要乐曲编辑员在编辑软件上编辑每个音的音长和音高，将根据文本生成的声学特征与音高曲线送到声码器合成对应的歌声。典型的如雅马哈的洛天依。上述合成歌曲方法在制作模型通常需要1个月时间，编辑生成歌曲也需要1-2周时间，制作复杂度较高，生成时间较长。

发明内容

基于此，有必要针对上述技术问题，提供一种能够快速高效地合成明星歌声的歌声生成方法、装置、计算机设备和存储介质。

一种歌声生成方法，所述方法包括：

获取第一歌声数据；

提取出所述第一歌声数据的MFCC特征、基频、非周期性值及清浊音判决结果；

将所述MFCC特征输入至语音识别模型，获得第一概率矩阵；

将所述第一概率矩阵输入至音色转换模型，获得所述MFCC特征对应的幅度谱；

根据所述幅度谱、基频、非周期性值及清浊音判决结果生成第二歌声数据。

在其中一个实施例中，所述语音识别模型通过以下方式获得：

获取录音数据；

针对所述录音数据进行数据处理，得到添加数据及对齐数据；

提取出所述添加数据的MFCC特征；

将所述对齐数据及添加数据的MFCC特征输入至第一初始模型进行训练，得到所述语音识别模型。

在其中一个实施例中，所述音色转换模型通过以下方式获得：

获取初始歌声数据；

提取出所述初始歌声数据的声纹特征；

根据所述声纹特征提取出所述录音数据中大于第一预设相似度的第一录音；

提取出所述第一录音的MFCC特征；

将所述第一录音的MFCC特征输入至第二初始模型进行训练，得到所述音色转换模型。

在其中一个实施例中，所述方法还包括：

根据所述声纹特征提取出所述录音数据中小于第二预设相似度的第二录音；

提取出所述第二录音的MFCC特征；

将所述第二录音的MFCC特征输入至所述语音识别模型，得到输出的第二概率矩阵；

将所述第二概率矩阵输入至所述音色转换模型，得到输出的新的MFCC特征和幅度谱；

将所述新的MFCC特征输入至所述语音识别模型，得到输出的第三概率矩阵；

当所述第二概率矩阵与第三概率矩阵的均方误差最小时，停止将所述第二录音的MFCC特征输入至所述语音识别模型。

在其中一个实施例中，所述针对所述录音数据进行数据处理，得到添加数据及对齐数据，包括：

针对所述录音数据进行数据清洗，得到清洗数据；

将所述清洗数据进行数据增强，得到添加数据；

将所述添加数据进行对齐，得到对齐数据。

在其中一个实施例中，所述提取出所述第一歌声数据的MFCC特征、基频、非周期性值及清浊音判决结果，包括：

确定标准钢琴键中的每个键的音高作为频率候选边界；

根据所述频率候选边界提取出所述第一歌声数据的基频。

识别出所述第一歌声数据中的非周期信号；

确定所述非周期信号的权重为所述非周期性值。

获取所述第一歌声数据的中某段语音信号在预设范围内语音总能量的比例；

当所述语音总能量的比例大于预设比例阈值时，将所述语音信号确定为清音段信号；

当所述语音总能量的比例小于预设比例阈值时，将所述语音信号确定为浊音段信号。

在其中一个实施例中，所述根据所述幅度谱、基频、非周期性值及清浊音判决结果生成第二歌声数据，包括：

调用语音合成声码器；

将所述幅度谱、基频、非周期性值及清浊音判决结果输入至所述语音合成声码器中，获得输出的所述第二歌声数据。

在其中一个实施例中，所述针对所述录音数据进行数据清洗，得到清洗数据，包括：

计算出所述录音数据的信噪比；

当所述信噪比大于预设阈值时，将该录音数据确定为清洗数据。

在其中一个实施例中，所述将所述清洗数据进行数据增强，得到添加数据，包括：

将所述清洗数据进行切分，得到切分数据；

针对所述切分数据进行时长拉伸和缩短，添加不同类型及不同信噪比的噪音，获得添加数据。

一种歌声生成装置，所述装置包括：

第一获取模块，用于获取第一歌声数据；

提取模块，用于提取出所述第一歌声数据的MFCC特征、基频、非周期性值及清浊音判决结果；

矩阵获得模块，用于将所述MFCC特征输入至语音识别模型，获得第一概率矩阵；

幅度谱获得模块，用于将所述第一概率矩阵输入至音色转换模型，获得所述MFCC特征对应的幅度谱；

生成模块，用于根据所述幅度谱、基频、非周期性值及清浊音判决结果生成第二歌声数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取第一歌声数据；

将所述MFCC特征输入至语音识别模型，获得第一概率矩阵；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取第一歌声数据；

将所述MFCC特征输入至语音识别模型，获得第一概率矩阵；

上述歌声生成方法、装置、计算机设备和存储介质，通过获取第一歌声数据；提取出第一歌声数据的MFCC特征、基频、非周期性值及清浊音判决结果；将MFCC特征输入至语音识别模型，获得第一概率矩阵；将第一概率矩阵输入至音色转换模型，获得MFCC特征对应的幅度谱；根据幅度谱、基频、非周期性值及清浊音判决结果生成第二歌声数据；本发明利用大量录音材料和少量明星的歌声数据，通过声纹识别自动进行语音数据筛选，通过语音识别、音色转换及语音合成技术将普通用户的歌声转成明星的歌声，实现了全自动化歌声合成，可以快速高效地合成明星唱歌的声音，节省明星出场的费用，极大地降低了歌曲录制的难度。

附图说明

图1是一个实施例的一种歌声生成方法的流程示意图；

图2是一个实施例的一种获得语音识别模型步骤的流程示意图；

图3是一个实施例的一种获得音色转换模型步骤的流程示意图；

图4是一个实施例的一种停止输入MFCC特征步骤的流程示意图；

图5是一个实施例的一种获得添加数据及对齐数据步骤的流程示意图；

图6是一个实施例的一种提取基频步骤的流程示意图；

图7是一个实施例的一种确定非周期性值步骤的流程示意图；

图8是一个实施例的一种提取清浊音判决结果步骤的流程示意图；

图9是一个实施例的一种获得清洗数据步骤的流程示意图；

图10是一个实施例的一种获得添加数据步骤的流程示意图；

图11是一个实施例的一种歌声生成装置的结构框图；

图12是一个实施例的一种计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种歌声生成方法，包括以下步骤：

步骤201，获取第一歌声数据；

本实施例中，首先可以获取到第一歌声数据，该第一歌声数据可以包括某个特定群体的歌声数据，如音准正常的普通用户的歌声数据，具体而言，可以接受音准正常的普通用户按照预设歌曲及歌词歌唱的第一歌声数据；举例而言，该第一歌声数据可以为16KB(KiloByte)PCM(脉冲编码调制，Pulse Code Modulation)格式的语音波形信号WAV₁。

本实施例可以应用于终端或服务器中。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在本实施例中，服务器可以包括PC(Personal Computer，个人电脑)服务器、大型机、小型机，还可以包括云服务器，本实施例对服务器的种类及数量不作具体的限制。

在一种优选实施例中，当本实施例的执行主体为服务器时，服务器还可以与终端连接，将处理结果输出至终端，由终端进行展示。

步骤202，提取出第一歌声数据的MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征、基频、非周期性值及清浊音判决结果；

进一步应用到本实施例中，还可以提取出第一歌声数据的MFCC特征、基频、非周期性值及清浊音判决结果；

其中，MFCC特征是指梅尔频率倒谱系数特征，是一种在自动语音和说话人识别中广泛使用的特征，具体而言，首先提取出该第一歌声数据的MFCC特征。

进一步地，可以提取出该第一歌声数据的基频，基频是指基音的频率，其决定整个音的音高，具体而言，基频的提取可以通过Harvest算法进行，具体地，在Harvest算法的频率候选边界设定时，采用标准钢琴键中的每个键的音高作为频率候选边界。国际标准钢琴键采用440Hz作为中央A，每倍频音在对数域上被分为12等分，每个等分对应一个半音(semitone)，这种十二平均律生成的音高的数量非常丰富，采用此法可以覆盖几乎所有音乐可能的曲谱的音符；对Harvest算法进行改进，在基频候选的搜索过程中的基频边界的设定由盲目设定改为按照国际钢琴键各个音高来设定频率候选边界。

在提取出基频的情况下，还可以针对该基频进行修正，提取出的基频修改为与之最接近的国际标准钢琴键的频率，形成最终的F0曲线。这一步骤可以将用户声音中少量的跑调音拉回到正常的音符、音高上，从而进一步美化合成的歌声的音准；通过对基频进行直方图投影，自动将歌唱的音高投影到最接近的国际标准钢琴键音高上，并且通过外部指定的调阶，将歌唱的调阶调整整到指定的调阶上。

进一步地，还可以获取到第一歌声数据的非周期性值及清浊音判决结果，具体而言，语音数据是由非周期信号及周期信号叠加而成，其中，该非周期信号在语音信号中所占的比重称为非周期性值，类似的，周期信号在语音信号中所占的比重称为周期性值。

另一方面，该清浊音判决结果可以用于优化合成的语音信号，一般而言，语音信号可以划分为清音段信号及浊音段信号，其中，清单音段信号采用非周期信号合成，而浊音段信号采用周期信号与非周期信号加权合成，可以依据某段语音信号的总能量判断该语音信号是属于清音段信号或浊音段信号。具体地，可以接受针对该段语音信号的预设阈值的设置信息，将某段语音信号的总能量与该预设阈值相比较，从而判断出该段语音信号为清单音段信号或浊音段信号。

步骤203，将MFCC特征输入至语音识别模型，获得第一概率矩阵；

在一种优选实施例中，可以首先将MFCC特征输入至语音识别模型，获得输出的第一概率矩阵，需要说明的是，该第一概率矩阵为每帧语音属于每个音子的概率组成的矩阵。

而该语音识别模型是经过训练后的机器学习模型，训练的过程描述如下：首先可以将录音数据进行处理，得到添加数据及对齐数据；再提取出该添加数据的MFCC特征，将对齐数据及上述的MFCC特征输入至第一初始模型进行训练，得到该语音识别模型。

步骤204，将第一概率矩阵输入至音色转换模型，获得MFCC特征对应的幅度谱；

进一步应用到本实施例中，当得到上述的第一概率矩阵后，将该第一概率矩阵输入至音色转换模型，获得输出的MFCC特征对应的幅度谱。

同样地，该音色转换模型可以为训练后的机器学习模型，具体地，可以获取到初始歌声数据，提取出该初始歌声数据的声纹特征，具体而言，该初始歌声数据可以为明星歌唱家的歌声数据，即该声纹特征为明星歌唱家的声纹特征，利用该声纹特征在大量录音材料中查找到大于第一预设相似度的第一录音，提取出该第一录音的MFCC特征，通过该第一录音的MFCC特征训练第二初始模型，得到该音色转换模型；可以由少量的明星歌唱家的歌声数据及大量的录音数据得到的数据作为训练材料，训练该机器学习模型，得到音色转换模型，达到快速合成明星歌声的技术效果。

步骤205，根据幅度谱、基频、非周期性值及清浊音判决结果生成第二歌声数据。

在一个具体的实施例中，得到音色转换模型输出的幅度谱后，将该幅度谱与上述的基频、非周期性值及清浊音判决结果输入至语音合成声码器(如WORLD声码器)，得到第二歌声数据。因为作为输入材料的第一歌声数据，会经过音色转换模型，得到输出的数据，而该音色转换模型是采用明星歌唱家等特定用户的歌声数据及与该歌声数据相似度较高的大量录音数据进行训练得到的，通过音色转换模型输出的数据合成的歌声数据(即第二歌声数据)具有该明星歌唱家等特定用户的音色，如WORLD声码器输出的合成语音为WAV₂，则WAV₂是采用明星音色歌唱的歌声数据，实现了快速高效地合成明星歌声的技术效果。

根据本实施例提供的歌声生成方法，获取第一歌声数据；提取出第一歌声数据的MFCC特征、基频、非周期性值及清浊音判决结果；将MFCC特征输入至语音识别模型，获得第一概率矩阵；将第一概率矩阵输入至音色转换模型，获得MFCC特征对应的幅度谱；根据幅度谱、基频、非周期性值及清浊音判决结果生成第二歌声数据；本发明利用大量录音材料和少量明星的歌声数据，通过声纹识别自动进行语音数据筛选，通过语音识别、音色转换及语音合成技术将普通用户的歌声转成明星的歌声，实现了全自动化歌声合成，可以快速高效地合成明星唱歌的声音，节省明星出场的费用，极大地降低了歌曲录制的难度。

在另一个实施例中，参照图2，示出了本实施例的一种获得语音识别模型步骤的流程示意图，语音识别模型通过以下子步骤获得：

子步骤S11，获取录音数据；

子步骤S12，针对录音数据进行数据处理，得到添加数据及对齐数据；

子步骤S13，提取出添加数据的MFCC特征；

子步骤S14，将对齐数据及添加数据的MFCC特征输入至第一初始模型进行训练，得到该语音识别模型。

具体应用到本实施例中，首先可以获取到录音数据，该录音数据可以包括大量的录音数据；具体地，可以从网络上抓取录音数据，进一步地，还可以针对该录音数据进行数据处理，得到添加数据及对齐数据，提取出该添加数据的MFCC特征，将该对齐数据及添加数据的MFCC特征输入至第一初始模型进行训练，得到该语音识别模型。

需要说明的是，该第一初始模型可以为机器学习模型，举例而言，该第一初始模型可以以CBHG网络结构为底层，顶层为1层全连接层和1层Softmax层的神经网络模型，采用交叉熵损失最小化为目标进行训练。

在一种优选实施例中，还可以采用其他种类的神经网络模型，如递归神经网络模型、深度前馈神经网络模型、长短时记忆网络模型等，还可以采用其他种类的机器学习模型，本实施例对此不作限制。

进一步地，对于神经网络模型的具体组成，如采用的全连接层及Softmax层的层数可以由本领域技术人员根据实际情况而设定，本实施例对此不作限制。

在另一个实施例中，参照图3，示出了本实施例的一种获得音色转换模型步骤的流程示意图，音色转换模型通过以下子步骤获得：

子步骤S21，获取初始歌声数据；

子步骤S22，提取出初始歌声数据的声纹特征；

子步骤S23，根据声纹特征提取出录音数据中大于第一预设相似度的第一录音；

子步骤S24，提取出第一录音的MFCC特征；

子步骤S25，将第一录音的MFCC特征输入至第二初始模型进行训练，得到该音色转换模型。

在另一个实施例中，音色转换模型同样可以由机器学习模型经过训练得到，而初始歌声数据是指明星歌唱家的歌声数据，即该声纹特征为明星歌唱家的声纹特征，利用该声纹特征提取出在大量录音(即录音数据)中大于第一预设相似度的第一录音；即提取出与明星歌唱家的声纹特征较为相似的第一录音，并将该第一录音的MFCC特征作为机器学习模型的输入，针对该机器学习模型进行训练，得到训练后的音色转换模型。

需要说明的是，该第一预设相似度可以是本领域技术人员根据实际情况而设定任何数值，如80％或90％，本实施例对此不作限制。

在另一个实施例中，参照图4，示出了本实施例的一种停止输入MFCC特征步骤的流程示意图，包括以下子步骤：

子步骤S31，根据声纹特征提取出录音数据中小于第二预设相似度的第二录音；

子步骤S32，提取出第二录音的MFCC特征；

子步骤S33，将第二录音的MFCC特征输入至语音识别模型，得到输出的第二概率矩阵；

子步骤S34，将第二概率矩阵输入至音色转换模型，得到输出的新的MFCC特征和幅度谱；

子步骤S35，将新的MFCC特征输入至语音识别模型，得到输出的第三概率矩阵；

子步骤S36，当第二概率矩阵与第三概率矩阵的均方误差最小时，停止将第二录音的MFCC特征输入至语音识别模型。

在一种实施例中，还可以针对该语音识别模型进行优化，首先根据声纹特征提取出录音数据中小于第二预设相似度的第二录音；该第二录音可以为与明星歌唱家的声纹特征较不相似的录音，通过该第二录音优化语音识别模型。上述的第一录音及第二录音可以构成音色数据库。

具体而言，可以根据声纹特征从大量的录音数据中查找出小于第二预设相似度的第二录音，再将该第二录音进行MFCC特征的提取，将该MFCC特征输入至语音识别模型，得到输出的第二概率矩阵，将输出的第二概率矩阵输入至音色转换模型，得到新的MFCC特征和幅度谱，再将该新的MFCC特征和幅度谱输入至语音识别模型，得到输出的第三概率矩阵，不断重复上述的模型迭代过程，直至该第二概率矩阵与第三概率矩阵的均方误差最小时，认为语音识别模型优化完成，停止将第二录音的MFCC特征输入至语音识别模型，优化语音识别模型，提高模型输出的准确率。

需要说明的是，该第二预设相似度同样可以是本领域技术人员根据实际情况而设定任何数值，如20％或30％，本实施例对此不作限制。

在另一个实施例中，参照图5，示出了本实施例的一种获得添加数据及对齐数据步骤的流程示意图，针对录音数据进行数据处理，得到添加数据及对齐数据包括以下子步骤：

子步骤S121，针对录音数据进行数据清洗，得到清洗数据；

子步骤S122，将清洗数据进行数据增强，得到添加数据；

子步骤S123，将添加数据进行对齐，得到对齐数据。

在本实施例中，当获取到大量的录音数据之后，针对该录音数据进行数据清洗，得到清洗数据；该清洗数据即为清洗后的数据；针对该清洗数据进行数据增强，得到添加数据，该数据增强操作可以是指时长拉伸及缩短，添加不同信噪比的噪音，经过数据增强操作后即可获得添加数据，最后，将该添加数据进行对齐，得到对齐数据。

将该对齐数据储存于数据库中，具体地，该对齐数据可以储存于终端或服务器的数据库中。

在另一个实施例中，参照图6，示出了本实施例的一种提取基频步骤的流程示意图，提取出第一歌声数据的MFCC特征、基频、非周期性值及清浊音判决结果，包括以下子步骤：

子步骤S41，确定标准钢琴键中的每个键的音高作为频率候选边界；

子步骤S42，根据频率候选边界提取出第一歌声数据的基频。

具体应用到本实施例中，提取第一歌声数据的基频的方式可以是通过确定频率候选边界，根据该频率候选边界提取出第一歌声数据的基频；基频的提取可以为通过Harvest算法进行，具体地，在Harvest算法的基频候选边界设定时，采用标准钢琴键中的每个键的音高作为基频候选边界，再根据该基频候选边界提取出第一歌声数据的基频。

在另一个实施例中，参照图7，示出了本实施例的一种确定非周期性值步骤的流程示意图，提取出第一歌声数据的MFCC特征、基频、非周期性值及清浊音判决结果，包括以下子步骤：

子步骤S51，识别出第一歌声数据中的非周期信号；

子步骤S52，确定非周期信号的权重为非周期性值。

具体而言，针对该第一歌声数据的非周期性值的获得方式，首先可以识别出该第一歌声数据中的非周期信号及周期信号，具体地，首先可以通过该D4C算法进行第一歌声数据的各个频率子带的非周期信号的提取，采用1减去非周期信号即为周期信号。因为语音信号由周期信号和非周期信号叠加而成，其中周期信号的权重和非周期信号的权重分别为周期性值和非周期性值；如此，便可得到该非周期信号的权重。

在另一个实施例中，参照图8，示出了本实施例的一种提取清浊音判决结果步骤的流程示意图，提取出第一歌声数据的MFCC特征、基频、非周期性值及清浊音判决结果包括以下子步骤：

子步骤S61，获取第一歌声数据的中某段语音信号在预设范围内语音总能量的比例；

子步骤S62，当语音总能量的比例大于预设比例阈值时，将语音信号确定为清音段信号；

子步骤S63，当语音总能量的比例小于预设比例阈值时，将语音信号确定为浊音段信号。

进一步应用到本实施例中，可以根据清音段信号及浊音段信号的特性采用不同的判决策略；具体而言，清音段信号完全采用非周期信号合成，而浊音段信号由周期信号和非周期信号加权而成；可以计算第一歌声数据的中某段语音信号在预设范围内语音总能量的比例，并判断该语音总能量的比例是否大于预设比例阈值，从而确定该段语音信号为清音段信号或浊音段信号。

通常100Hz以内的频段容易受到外界杂音的影响，优选的是，在计算能量的时候，从100Hz以上频段开始算起，从而减少外界杂音的判决结果的干扰。

举例而言，上述的预设范围可以包括4000Hz以内的能量，即可以计算出该第一歌声数据的中某段语音信号在4000Hz以内的语音总能量的比例，在一种举例中，该预设比例阈值可以为0.85，当该语音总能量的比例大于0.85，则确定其为清音段信号；当该语音总能量的比例小于0.85，则确定其为浊音段信号。

需要说明的是，该上述的预设范围同样可以包括其他的范围，如3500Hz至4000Hz等，该预设范围可以是本领域技术人员根据实际情况而设定的任何数值范围，本实施例对此不作限制。

进一步地，该预设比例阈值同样可以是本领域技术人员根据实际情况而设定的任何数值，如0.9、0.8、0.75等，本实施例对此不作限制。

在另一个实施例中，根据幅度谱、基频、非周期性值及清浊音判决结果生成第二歌声数据，包括：调用语音合成声码器；将幅度谱、基频、非周期性值及清浊音判决结果输入至语音合成声码器中，获得输出的第二歌声数据。

进一步地，还可以通过语音合成声码器，如WORLD声码器，将幅度谱、基频、非周期性值及清浊音判决结果进行合成，获得第二歌声数据；该WORLD声码器即WORLD算法。

在另一个实施例中，参照图9，示出了本实施例的一种获得清洗数据步骤的流程示意图，针对录音数据进行数据清洗，得到清洗数据，包括以下子步骤：

子步骤S1211，计算出录音数据的信噪比；

子步骤S1212，当信噪比大于预设阈值时，将该录音数据确定为清洗数据。

在一种具体实施例中，可以计算出多段录音数据的信噪比，当该信噪比大于预设阈值时，将该录音数据确定为清洗数据；即清洗掉噪音太过严重的录音，只保留信噪比较高的录音数据；进一步地，还可以清洗掉大量的录音数据中发音不清楚的录音，保留信噪比符合要求且发音清楚的录音，记作DATA₁。

需要说明的是，该预设阈值可以是本领域技术人员根据实际情况而设定的任何数值，本实施例对此不作限制。

在另一个实施例中，参照图10，示出了本实施例的一种获得添加数据步骤的流程示意图，将清洗数据进行数据增强，得到添加数据，包括以下子步骤：

子步骤S1221，将清洗数据进行切分，得到切分数据；

子步骤S1222，针对切分数据进行时长拉伸和缩短，添加不同类型及不同信噪比的噪音，获得添加数据。

进一步地，将DATA₁进行切分，得到切分数据，如切分成5秒以内的语音信号片段，并针对切分数据进行时长拉伸和缩短，添加不同类型及不同信噪比的噪音，得到添加数据DATA₂。

在另一个实施例中，将添加数据进行对齐，得到对齐数据，包括以下子步骤：针对添加数据DATA₂进行强制对齐，标记出强制对齐数据中每个音子的开始时间与结束时间，获得对齐数据，将该标记后的对齐数据储存于数据库中，记为TRANS数据库；具体地，可以采集大量普通用户的录音数据，按录音数据的句子逐句标注，去掉噪音过大的句子，并为每句话添加随机噪音，信噪比控制在15dB以上，句子长度控制在5秒以内；采用强制对齐(force-alignment)技术对上述的录音数据进行对齐，对齐结果将自动标注标出每帧对应的基本发音单元(Phone)；强制对齐只对齐到每帧的Phone标签即可，无需对齐到Phone所处的状态。

应该理解的是，虽然图1-10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-10中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种歌声生成装置，包括：第一获取模块301、提取模块302、矩阵获得模块303、幅度谱获得模块304和生成模块305，其中：

第一获取模块301，用于获取第一歌声数据；

提取模块302，用于提取出所述第一歌声数据的MFCC特征、基频、非周期性值及清浊音判决结果；

矩阵获得模块303，用于将所述MFCC特征输入至语音识别模型，获得第一概率矩阵；

幅度谱获得模块304，用于将所述第一概率矩阵输入至音色转换模型，获得所述MFCC特征对应的幅度谱；

生成模块305，用于根据所述幅度谱、基频、非周期性值及清浊音判决结果生成第二歌声数据。

在其中一个实施例中，所述语音识别模型包括以下模块：

录音数据获取模块，用于获取录音数据；

对齐及添加数据获取模块，用于针对所述录音数据进行数据处理，得到添加数据及对齐数据；

提取模块，用于提取出所述添加数据的MFCC特征；

第一训练模块，用于将所述对齐数据及添加数据的MFCC特征输入至第一初始模型进行训练，得到所述语音识别模型。

在其中一个实施例中，所述音色转换模型包括以下模块：

歌声数据获取模块，用于获取初始歌声数据；

声纹特征提取模块，用于提取出所述初始歌声数据的声纹特征；

第一录音提取模块，用于根据所述声纹特征提取出所述录音数据中大于第一预设相似度的第一录音；

第一特征提取模块，用于提取出所述第一录音的MFCC特征；

第二训练模块，用于将所述第一录音的MFCC特征输入至第二初始模型进行训练，得到所述音色转换模型。

在其中一个实施例中，所述装置还包括：

第二录音提取模块，用于根据所述声纹特征提取出所述录音数据中小于第二预设相似度的第二录音；

第二特征提取模块，用于提取出所述第二录音的MFCC特征；

第二输出模块，用于将所述第二录音的MFCC特征输入至所述语音识别模型，得到输出的第二概率矩阵；

特征和幅度谱获得模块，用于将所述第二概率矩阵输入至所述音色转换模型，得到输出的新的MFCC特征和幅度谱；

第三输出模块，用于将所述新的MFCC特征输入至所述语音识别模型，得到输出的第三概率矩阵；

停止模块，用于当所述第二概率矩阵与第三概率矩阵的均方误差最小时，停止将所述第二录音的MFCC特征输入至所述语音识别模型。

在其中一个实施例中，所述对齐及添加数据获取模块包括：

清洗子模块，用于针对所述录音数据进行数据清洗，得到清洗数据；

增强子模块，用于将所述清洗数据进行数据增强，得到添加数据；

对齐子模块，用于将所述添加数据进行对齐，得到对齐数据。

在其中一个实施例中，所述提取模块包括：

第一确定子模块，用于确定标准钢琴键中的每个键的音高作为频率候选边界；

基频提取子模块，用于根据所述频率候选边界提取出所述第一歌声数据的基频。

在其中一个实施例中，所述提取模块包括：

识别子模块，用于识别出所述第一歌声数据中的非周期信号；

第二确定子模块，用于确定所述非周期信号的权重为所述非周期性值。

在其中一个实施例中，所述提取模块包括：

比例获取子模块，用于获取所述第一歌声数据的中某段语音信号在预设范围内语音总能量的比例；

第三确定子模块，用于当所述语音总能量的比例大于预设比例阈值时，将所述语音信号确定为清音段信号；

第四确定子模块，用于当所述语音总能量的比例小于预设比例阈值时，将所述语音信号确定为浊音段信号。

在其中一个实施例中，所述生成模块包括：

调用子模块，用于调用语音合成声码器；

输出子模块，用于将所述幅度谱、基频、非周期性值及清浊音判决结果输入至所述语音合成声码器中，获得输出的所述第二歌声数据。

在其中一个实施例中，所述清洗子模块包括：

计算单元，用于计算出所述录音数据的信噪比；

确定单元，用于计当所述信噪比大于预设阈值时，将该录音数据确定为清洗数据。

在其中一个实施例中，所述增强子模块包括：

切分单元，用于将所述清洗数据进行切分，得到切分数据；

添加数据获得单元，用于针对所述切分数据进行时长拉伸和缩短，添加不同类型及不同信噪比的噪音，获得添加数据。

关于歌声生成装置的具体限定可以参见上文中对于歌声生成方法的限定，在此不再赘述。上述歌声生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

上述提供的歌声生成装置可用于执行上述任意实施例提供的歌声生成方法，具备相应的功能和有益效果。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种歌声生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取第一歌声数据；

将所述MFCC特征输入至语音识别模型，获得第一概率矩阵；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取录音数据；

提取出所述添加数据的MFCC特征；

获取初始歌声数据；

提取出所述初始歌声数据的声纹特征；

提取出所述第一录音的MFCC特征；

提取出所述第二录音的MFCC特征；

针对所述录音数据进行数据清洗，得到清洗数据；

将所述清洗数据进行数据增强，得到添加数据；

将所述添加数据进行对齐，得到对齐数据。

确定标准钢琴键中的每个键的音高作为频率候选边界；

根据所述频率候选边界提取出所述第一歌声数据的基频。

识别出所述第一歌声数据中的非周期信号；

确定所述非周期信号的权重为所述非周期性值。

调用语音合成声码器；

计算出所述录音数据的信噪比；

将所述清洗数据进行切分，得到切分数据；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取第一歌声数据；

将所述MFCC特征输入至语音识别模型，获得第一概率矩阵；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取录音数据；

提取出所述添加数据的MFCC特征；

获取初始歌声数据；

提取出所述初始歌声数据的声纹特征；

提取出所述第一录音的MFCC特征；

提取出所述第二录音的MFCC特征；

针对所述录音数据进行数据清洗，得到清洗数据；

将所述清洗数据进行数据增强，得到添加数据；

将所述添加数据进行对齐，得到对齐数据。

确定标准钢琴键中的每个键的音高作为频率候选边界；

根据所述频率候选边界提取出所述第一歌声数据的基频。

识别出所述第一歌声数据中的非周期信号；

确定所述非周期信号的权重为所述非周期性值。

调用语音合成声码器；

计算出所述录音数据的信噪比；

将所述清洗数据进行切分，得到切分数据；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种歌声生成方法，其特征在于，包括：

获取第一歌声数据；

将所述MFCC特征输入至语音识别模型，获得第一概率矩阵；所述第一概率矩阵为每帧语音属于每个音子的概率组成的矩阵；

2.根据权利要求1所述的方法，其特征在于，所述语音识别模型通过以下方式获得：

获取录音数据；

提取出所述添加数据的MFCC特征；

3.根据权利要求2所述的方法，其特征在于，所述音色转换模型通过以下方式获得：

获取初始歌声数据；

提取出所述初始歌声数据的声纹特征；

提取出所述第一录音的MFCC特征；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

提取出所述第二录音的MFCC特征；

5.根据权利要求3所述的方法，其特征在于，所述针对所述录音数据进行数据处理，得到添加数据及对齐数据，包括：

针对所述录音数据进行数据清洗，得到清洗数据；

将所述清洗数据进行数据增强，得到添加数据；

将所述添加数据进行对齐，得到对齐数据。

6.根据权利要求1所述的方法，其特征在于，所述提取出所述第一歌声数据的MFCC特征、基频、非周期性值及清浊音判决结果，包括：

确定标准钢琴键中的每个键的音高作为频率候选边界；

根据所述频率候选边界提取出所述第一歌声数据的基频。

7.根据权利要求1所述的方法，其特征在于，所述提取出所述第一歌声数据的MFCC特征、基频、非周期性值及清浊音判决结果，包括：

识别出所述第一歌声数据中的非周期信号；

确定所述非周期信号的权重为所述非周期性值。

8.根据权利要求1所述的方法，其特征在于，所述提取出所述第一歌声数据的MFCC特征、基频、非周期性值及清浊音判决结果，包括：

9.根据权利要求7或8所述的方法，其特征在于，所述根据所述幅度谱、基频、非周期性值及清浊音判决结果生成第二歌声数据，包括：

调用语音合成声码器；

10.根据权利要求5所述的方法，其特征在于，所述针对所述录音数据进行数据清洗，得到清洗数据，包括：

计算出所述录音数据的信噪比；

11.根据权利要求5所述的方法，其特征在于，所述将所述清洗数据进行数据增强，得到添加数据，包括：

将所述清洗数据进行切分，得到切分数据；

12.一种歌声生成装置，其特征在于，包括：

第一获取模块，用于获取第一歌声数据；

矩阵获得模块，用于将所述MFCC特征输入至语音识别模型，获得第一概率矩阵；所述第一概率矩阵为每帧语音属于每个音子的概率组成的矩阵；

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的歌声生成方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的歌声生成方法的步骤。