CN106375780A

CN106375780A - 一种多媒体文件生成方法及其设备

Info

Publication number: CN106375780A
Application number: CN201610914733.5A
Authority: CN
Inventors: 赵伟峰
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2016-10-20
Filing date: 2016-10-20
Publication date: 2017-02-01
Anticipated expiration: 2036-10-20
Also published as: CN106375780B

Abstract

本发明实施例公开一种多媒体文件生成方法及其设备，其中方法包括如下步骤：获取目标音频标识对应的目标原始音频数据，并获取所述目标原始音频数据的目标原始频谱特征；基于预先训练的音频提取模型，并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征；根据所述目标清唱频谱特征生成所述目标清唱音频数据；提取所述目标清唱音频数据的基频信息，获取所述基频信息对应的音符值，并根据所述音符值生成所述目标音频标识对应的音频简谱文件。采用本发明，可以自动生成音频简谱文件，保证音频简谱文件的准确性，提升音频简谱文件的制作效率。

Description

一种多媒体文件生成方法及其设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种多媒体文件生成方法及其设备。

背景技术

目前，集合群聊、视频直播、K歌、应用游戏、在线影视等功能为一体的综合型的娱乐用户端已被广泛应用于个人电脑、手机等用户终端。在实际应用中，用户可以通过娱乐用户端进行歌曲演唱，并由服务器端对演唱歌曲进行评价打分等，实现了歌曲演唱的互动功能。

现有技术中，服务器端可以预先存储有演唱歌曲的音频简谱文件，音频简谱文件中描述有关于演唱歌曲对应的原唱歌手在演绎该歌曲的音高走势等，服务器端可以根据音频简谱文件对用户的演唱歌曲进行打分，同时音频简谱文件还可以用于提供可视化音符参考曲线以及对用户的演唱歌曲进行修音等。然而现有的音频简谱文件均是采用人工方式进行制作，容易导致音频简谱文件存在错误的情况发生，影响了音频简谱文件的准确性，同时需要耗费较多的人力资源以及时间资源，降低了音频简谱文件的制作效率。

发明内容

本发明实施例提供一种多媒体文件生成方法及其设备，可以自动生成音频简谱文件，保证音频简谱文件的准确性，提升音频简谱文件的制作效率。

本发明实施例第一方面提供了一种多媒体文件生成方法，可包括：

获取目标音频标识对应的目标原始音频数据，并获取所述目标原始音频数据的目标原始频谱特征；

基于预先训练的音频提取模型，并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征；

根据所述目标清唱频谱特征生成所述目标清唱音频数据；

提取所述目标清唱音频数据的基频信息，获取所述基频信息对应的音符值，并根据所述音符值生成所述目标音频标识对应的音频简谱文件。

本发明实施例第二方面提供了一种多媒体文件生成设备，可包括：

目标特征获取单元，用于获取目标音频标识对应的目标原始音频数据，并获取所述目标原始音频数据的目标原始频谱特征；

目标特征计算单元，用于基于预先训练的音频提取模型，并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征；

数据生成单元，用于根据所述目标清唱频谱特征生成所述目标清唱音频数据；

文件生成单元，用于提取所述目标清唱音频数据的基频信息，获取所述基频信息对应的音符值，并根据所述音符值生成所述目标音频标识对应的音频简谱文件。

在本发明实施例中，通过获取原始音频数据中的频谱特征，基于音频提取模型计算得到清唱音频数据的频谱特征，并根据所述目标清唱频谱特征生成所述目标清唱音频数据，最终基于清唱音频数据的基频信息对应的音符值生成所述目标音频标识对应的音频简谱文件，实现了自动生成音频简谱文件的过程，避免了音频简谱文件存在错误的情况，保证了音频简谱文件的准确性，同时节省了人力资源以及时间资源，有效的提升了音频简谱文件的制作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种多媒体文件生成方法的流程示意图；

图2是本发明实施例提供的另一种多媒体文件生成方法的流程示意图；

图3是本发明实施例提供的一种多媒体文件生成设备的结构示意图；

图4是本发明实施例提供的另一种多媒体文件生成设备的结构示意图；

图5是本发明实施例提供的目标特征获取单元的结构示意图；

图6是本发明实施例提供的数据生成单元的结构示意图；

图7是本发明实施例提供的文件生成单元的结构示意图；

图8是本发明实施例提供的又一种多媒体文件生成设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的多媒体文件生成方法可以应用于生成音乐文件的音频简谱文件的应用场景，例如：多媒体文件生成设备获取目标音频标识对应的目标原始音频数据，并获取所述目标原始音频数据的目标原始频谱特征，所述多媒体文件生成设备基于预先训练的音频提取模型，并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征，所述多媒体文件生成设备根据所述目标清唱频谱特征生成所述目标清唱音频数据，所述多媒体文件生成设备提取所述目标清唱音频数据的基频信息，获取所述基频信息对应的音符值，并根据所述音符值生成所述目标音频标识对应的音频简谱文件的场景等。通过获取原始音频数据中的频谱特征，基于音频提取模型计算得到清唱音频数据的频谱特征，并根据所述目标清唱频谱特征生成所述目标清唱音频数据，最终基于清唱音频数据的基频信息对应的音符值生成所述目标音频标识对应的音频简谱文件，实现了自动生成音频简谱文件的过程，避免了音频简谱文件存在错误的情况，保证了音频简谱文件的准确性，同时节省了人力资源以及时间资源，有效的提升了音频简谱文件的制作效率。

本发明实施例涉及的多媒体文件生成设备可以为具备存储音乐文件的音频数据、歌词文件、音频简谱文件等音乐相关文件在内的后台服务设备。

下面将结合附图1和附图2，对本发明实施例提供的多媒体文件生成方法进行详细介绍。

请参见图1，为本发明实施例提供了一种多媒体文件生成方法的流程示意图。如图1所示，本发明实施例的所述方法可以包括以下步骤S101-步骤S104。

S101，获取目标音频标识对应的目标原始音频数据，并获取所述目标原始音频数据的目标原始频谱特征；

具体的，多媒体文件生成设备可以获取目标音频标识对应的目标原始音频数据，需要说明的是，管理人员、开发人员等用户可以选择当前需要生成音频简谱文件的目标音乐的目标音频标识，所述多媒体文件生成设备可以获取所选择的所述目标音频标识，并获取所述目标音频标识对应的目标原始音频数据，可以理解的是，所述多媒体文件生成设备中可以预先存储有所述目标音频标识以及所述目标音频标识对应的目标原始音频数据，所述目标原始音频数据优选为所述目标音乐的原唱版本(例如：原唱歌手的演唱版本、其他歌手的翻唱版本等)的音频数据。

所述多媒体文件生成设备进一步可以获取所述目标原始音频数据的目标原始频谱特征，所述目标原始频谱特征可以包括所述目标原始音频数据的至少一帧原始音频数据中各帧原始音频数据的频谱特征，优选的，所述多媒体文件生成设备可以将至少一帧原始音频数据由时域特征转换为频域特征，并基于所述各帧原始音频数据的实域频谱和虚域频谱计算所述各帧原始音频数据的功率谱密度，并根据所述各帧原始音频数据的功率谱密度计算所述各帧原始音频数据的频谱特征，以形成所述目标原始音频数据的目标原始频谱特征。

S102，基于预先训练的音频提取模型，并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征；

具体的，所述多媒体文件生成设备可以基于预先训练的音频提取模型，并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征，所述目标清唱音频数据优选为所述目标音乐的清唱版本(即没有背景音乐的演唱版本)的音频数据，所述音频提取模型优选为深度神经网络(Deep Neural Networks，DNN)模型，用于对原唱音频数据的频谱特征及清唱音频数据的频谱特征进行相互转换。

S103，根据所述目标清唱频谱特征生成所述目标清唱音频数据；

具体的，所述多媒体文件生成设备可以根据所述目标清唱频谱特征生成所述目标清唱音频数据，所述目标清唱频谱特征可以包括所述目标清唱音频数据的至少一帧清唱音频数据中各帧清唱音频数据的频谱特征，优选的，所述多媒体文件生成设备可以根据所述各帧清唱音频数据的频谱特征计算所述各帧清唱音频数据的功率谱密度，并根据所述各帧清唱音频数据的功率谱密度计算所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱，所述多媒体文件生成设备将所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱转换为所述各帧清唱音频数据的时域特征，并按照各帧清唱音频数据的排列顺序对所述各帧清唱音频数据的时域特征进行特征叠加处理，以生成目标清唱音频数据。

S104，提取所述目标清唱音频数据的基频信息，获取所述基频信息对应的音符值，并根据所述音符值生成所述目标音频标识对应的音频简谱文件；

具体的，所述多媒体文件生成设备可以提取所述目标清唱音频数据的基频信息，获取所述基频信息对应的音符值，并根据所述音符值生成所述目标音频标识对应的音频简谱文件，可以理解的是，所述基频信息可以为所述目标清唱音频数据的基音，用于决定所述目标清唱音频数据中各音符点的音高，所述音频简谱文件可以包括所述各音符点的起始时间、持续时间以及音符值，所述音符值用于表示音高。

请参见图2，为本发明实施例提供了另一种多媒体文件生成方法的流程示意图。如图2所示，本发明实施例的所述方法可以包括以下步骤S201-步骤S213。

S201，在预设音频集合中获取训练原始音频数据，获取与所述训练原始音频数据相关联的训练清唱音频数据，并分别获取所述训练原始音频数据的频谱特征和所述训练清唱音频数据的频谱特征；

具体的，多媒体文件生成设备需要对原唱音频数据的频谱特征及清唱音频数据的频谱特征进行相互转换的音频提取模型进行训练，优选的，所述多媒体文件生成设备可以在预设音频集合中获取训练原始音频数据，获取与所述训练原始音频数据相关联的训练清唱音频数据，并分别获取所述训练原始音频数据的频谱特征和所述训练清唱音频数据的频谱特征，其中，所述训练原始音频数据优选为训练用的原唱音乐的音频数据，所述训练清唱音频数据优选为训练用的与所述训练原始音频数据对应的清唱音乐的音频数据，需要说明的是，所述多媒体文件生成设备中存储有预设音频集合，所述预设音频集合中存储有多个训练原始音频数据以及与各训练原始音频数据对应的多个清唱音频数据，所述清唱音频数据可以为用户历史对某首歌曲进行清唱后所上传的音频数据，所述多媒体文件生成设备可以对多个清唱音频数据进行打分，以获取分数较高的清唱音频数据，再经由人工筛选，例如：筛选出与对应的训练原始音频数据相似度最高的一个清唱音频数据作为训练清唱音频数据。

所述多媒体文件生成设备可以分别获取所述训练原始音频数据的频谱特征以及所述训练清唱音频数据的频谱特征，优选的，所述多媒体文件生成设备可以按照预设采样点数量和第一预设帧移对所述训练原始音频数据进行分帧处理，以生成至少一帧训练原始数据，按照预设采样点数量和第一预设帧移对所述训练清唱音频数据进行分帧处理，以生成至少一帧训练清唱数据，分别对至少一帧训练原始数据中各帧训练原始数据以及至少一帧训练清唱数据中各帧训练清唱数据添加汉明窗，并进行快速傅里叶变换，得到各帧训练原始数据的实域频谱和虚域频谱，以及各帧训练清唱数据的实域频谱和虚域频谱，所述多媒体文件生成设备可以根据所述各帧训练原始数据的实域频谱和虚域频谱计算所述各帧训练原始数据的功率谱密度，并根据所述各帧训练原始数据的功率谱密度计算所述各帧训练原始数据的频谱特征，同理，所述多媒体文件生成设备可以根据所述各帧训练清唱数据的实域频谱和虚域频谱计算所述各帧训练清唱数据的功率谱密度，并根据所述各帧训练清唱数据的功率谱密度计算所述各帧训练清唱数据的频谱特征。

S202，创建音频提取模型，将所述训练原始音频数据的频谱特征作为所述音频提取模型的输入参数，将所述训练清唱音频数据的频谱特征作为所述音频提取模型的输出参数，并基于所述输入参数和所述输出参数对所述音频提取模型进行训练以获取所述音频提取模型中的模型矩阵参数；

具体的，所述多媒体文件生成设备可以创建音频提取模型，将所述训练原始音频数据的频谱特征作为所述音频提取模型的输入参数，将所述训练清唱音频数据的频谱特征作为所述音频提取模型的输出参数，优选的，所述多媒体文件生成设备可以创建带有预设层数的隐藏层的音频提取模型，所述音频提取模型优选为DNN模型，所述多媒体文件生成设备可以将所述各帧训练原始数据的频谱特征分别作为所述音频提取模型的输入参数，进一步的，所述多媒体文件生成设备可以将所述各帧训练原始数据的频谱特征与所述各帧训练原始数据的前后各N帧(N为正整数，例如：5帧等)训练原始数据的频谱特征作为所述音频提取模型的输入参数，以增加音频提取模型的输入参考数据，保证音频提取模型的训练精度，并将所述各帧训练清唱数据的频谱特征分别作为所述音频提取模型的输出参数，可以理解的是，各帧训练原始数据与各帧训练清唱数据一一对应。

所述多媒体文件生成设备可以基于所述输入参数和所述输出参数对所述音频提取模型进行训练以获取所述音频提取模型中的模型矩阵参数，例如：假设音频提取模型的隐藏层的预设层数为3层，且各隐藏层的节点个数均为2048，则通过代入所述输入参数和所述输出参数，可以计算得出所述音频提取模型中各隐藏层的2048个节点之间、输入参数所在输入层的节点与第一个隐藏层的节点间以及输出参数所在输出层的节点与最后一个隐藏层的节点间的模型矩阵参数。以此得到训练完成的音频提取模型。

S203，获取目标音频标识对应的目标原始音频数据，并按照预设采样点数量和第一预设帧移对所述目标原始音频数据进行分帧处理，以生成至少一帧原始音频数据；

具体的，所述多媒体文件生成设备可以将目标原始音频数据按照预设格式进行解码，并按照预设采样点数量和第一预设帧移对所述目标原始音频数据进行分帧处理，以生成至少一帧原始音频数据，例如：可以设置预设采样点数量为512个采样点，第一预设帧移为128个采样点，采用512个采样点的帧长以及128个采样点的帧移对所述目标原始音频数据进行分帧处理。

S204，获取至少一帧音频数据中各帧原始音频数据的实域频谱和所述各帧原始音频数据的虚域频谱；

具体的，所述多媒体文件生成设备可以获取至少一帧音频数据中各帧原始音频数据的实域频谱和所述各帧原始音频数据的虚域频谱，优选的，所述多媒体文件生成设备可以对所述各帧原始音频数据添加汉明窗，并进行快速傅里叶变换，以将所述各帧原始音频数据由时域特征转换为频域特征，经变换后，可以在频谱中得到第一预设维度的实域频谱和第一预设维度的虚域频谱，再对容易出现混淆的频谱区域进行滤除，例如：将大于预设频带的频谱区域进行滤除等，可以得到第二预设维度的实域频谱和第三预设维度的虚域频谱，其中，所述第一预设维度大于或等于所述第二预设维度，所述第二预设维度大于或等于所述第三预设维度，将第二预设维度的实域频谱和第三预设维度的虚域频谱作为所述各帧原始音频数据的实域频谱和虚域频谱。以第一预设维度为512维为例，在进行快速傅里叶变换后可以得到512维的实域频谱和512维的虚域频谱，此变换后的结果对应于从0Hz到16000Hz的频带，为了避免出现频谱混淆，一般只采用8000Hz以内的频谱区域，因此可以将大于8000Hz的频谱区域进行滤除，得到8000Hz以内的257维实域频谱和255维虚域频谱，其中，相差的两维实域频谱分别为第1维和第257维，其中第1维用于表示总能量，不代表任意频带，第257维的虚部为0，其余的255维实域频谱与255维虚域频谱一一对应。

S205，根据所述各帧原始音频数据的实域频谱和各帧原始音频数据的虚域频谱计算所述各帧原始音频数据的功率谱密度，并根据所述各帧原始音频数据的功率谱密度计算所述各帧原始音频数据的频谱特征；

具体的，所述多媒体文件生成设备可以根据所述各帧原始音频数据的实域频谱和各帧原始音频数据的虚域频谱计算所述各帧原始音频数据的功率谱密度，优选的，所述多媒体文件生成设备可以分别获取各帧原始音频数据中相对应的1维实域频谱和1维虚域频谱，并求取平方和，以得到该维的功率谱密度，依据上述举例，所述多媒体文件生成设备可以基于功率谱密度计算公式计算各帧原始音频数据的功率谱密度，所述功率谱密度计算公式为：T_i＝S_i ²+U_i ²，其中，i属于区间【1，257】，T_i表示第i维的功率谱密度，S_i表示第i维实域频谱，U_i表示第i维虚域频谱，由于虚域频谱并不存在第1维和第257维，因此在计算第1维的功率谱密度和第257维的功率谱密度时，U₁＝U₂₅₇＝0。

所述多媒体文件生成设备可以根据所述各帧原始音频数据的功率谱密度计算所述各帧原始音频数据的频谱特征，优选的，所述多媒体文件生成设备可以对所述各帧原始音频数据的功率谱密度求取对数函数，以得到所述各帧原始音频数据的频谱特征，依据上述举例，所述各帧原始音频数据的频谱特征V_i＝ln T_i。

S206，采用所述各帧原始音频数据的频谱特征以及所述模型矩阵参数，计算至少一帧清唱音频数据中各帧清唱音频数据的频谱特征；

具体的，所述多媒体文件生成设备可以采用所述各帧原始音频数据的频谱特征以及所述模型矩阵参数，计算至少一帧清唱音频数据中各帧清唱音频数据的频谱特征。优选的，所述多媒体文件生成设备可以将所述各帧原始音频数据的频谱特征与所述各帧原始音频数据的前后各N帧(N为正整数，例如：5帧等)原始音频数据的频谱特征作为所述音频提取模型的输入参数，并根据预先训练好的所述模型矩阵参数分别计算得到各帧清唱音频数据的频谱特征，例如：假设有m帧清唱音频数据，若采用前后扩展5帧共11帧原始音频数据的频谱特征作为输入参数，由于第1-5帧原始音频数据并没有向前扩展5帧原始音频数据的条件，以及倒数1-5帧原始音频数据并没有向后扩展5帧原始音频数据的条件，则尽可以得到(m-10)帧输出参数，因此需要对输出参数前后各扩展5帧，以补齐m帧清唱音频数据。

S207，根据所述各帧清唱音频数据的频谱特征计算所述各帧清唱音频数据的功率谱密度，并根据所述各帧清唱音频数据的功率谱密度计算所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱；

具体的，所述多媒体文件生成设备可以根据所述各帧清唱音频数据的频谱特征计算所述各帧清唱音频数据的功率谱密度，优选的，所述多媒体文件生成设备可以对所述各帧清唱音频数据的频谱特征求取指数函数，以得到所述各帧清唱音频数据的功率谱密度，依据上述举例，所述各帧原始音频数据的频谱特征T_i’＝e^V_i’，其中，V_i’为所述各帧清唱音频数据的频谱特征。

所述多媒体文件生成设备可以根据所述各帧清唱音频数据的功率谱密度计算所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱，优选的，所述多媒体文件生成设备可以采用实域频谱计算公式，并根据所述各帧清唱音频数据的功率谱密度计算所述各帧清唱音频数据的实域频谱，同时可以采用虚域频谱计算公式，并根据所述各帧清唱音频数据的功率谱密度计算所述各帧清唱音频数据的虚域频谱，其中，所述实域频谱计算公式可以为：S_i’＝S_i/|S_i|*√(T_i’)，所述虚域频谱计算公式可以为：U_i’＝U_i/|U_i|*√(T_i’)，由于实域频谱为偶函数，虚域频谱为奇函数，因此可以将得到所述各帧清唱音频数据的第二预设维度的实域频谱和第三预设维度的虚域频谱还原为所述各帧清唱音频数据的第一预设维度的实域频谱和第一预设维度的虚域频谱。

S208，将所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱转换为所述各帧清唱音频数据的时域特征，并按照各帧清唱音频数据的排列顺序对所述各帧清唱音频数据的时域特征进行特征叠加处理，以生成目标清唱音频数据；

具体的，所述多媒体文件生成设备可以将所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱转换为所述各帧清唱音频数据的时域特征，并按照各帧清唱音频数据的排列顺序对所述各帧清唱音频数据的时域特征进行特征叠加处理，以生成目标清唱音频数据，优选的，所述多媒体文件生成设备可以将所述各帧清唱音频数据的第一预设维度的实域频谱和第一预设维度的虚域频谱进行逆傅里叶变换，由频域特征转换为时域特征，由于所述各帧清唱音频数据之间相邻帧的清唱音频数据存在重复的部分，因此所述多媒体文件生成设备可以依据所述各帧清唱音频数据的排列顺序对所述各帧清唱音频数据的时域特征进行特征叠加处理，将重复的部分进行重合，以生成目标清唱音频数据。

S209，采用所述目标音频标识对应的歌词时间信息对所述目标清唱音频数据进行分段处理，以获取包含歌词片段的至少一个音频片段；

具体的，所述多媒体文件生成设备可以采用所述目标音频标识对应的歌词时间信息对所述目标清唱音频数据进行分段处理，以获取包含歌词片段的至少一个音频片段，优选的，所述多媒体文件生成设备可以获取所述目标音频标识对应的歌词时间文件，所述歌词时间文件记录有所述目标音乐的每句歌词的起始时间和持续时间等歌词时间信息，所述多媒体文件生成设备可以采用所述歌词时间信息对所述目标清唱音频数据进行分段处理，以获取包含歌词片段的至少一个音频片段，例如：一句歌词对应一个音频片段等。

S210，提取所述至少一个音频片段中各音频片段的基频段，并按照预设帧长和第二预设帧移对所述基频段进行分帧处理，以生成至少一个基频点；

具体的，所述多媒体文件生成设备可以提取所述至少一个音频片段中各音频片段的基频段，并按照预设帧长和第二预设帧移对所述基频段进行分帧处理，以生成至少一个基频点，例如：假设预设帧长为30ms，第二预设帧移为10ms，则可以采用30ms的帧长以及10ms的帧移对所述个音频片段的基频段进行分帧处理。

S211，对所述至少一个基频点中各基频点的基频值进行调整，并将调整后的所述各基频点的基频值转换为所述各基频点的音符值；

具体的，所述多媒体文件生成设备可以对所述至少一个基频点中各基频点的基频值进行调整，需要说明的是，所述调整可以包括：对所述至少一个基频点中的奇异基频点的基频值进行置零处理，优选的，可以检测当前基频点的基频值与前后两个基频点的基频值的差值，若差值较大，则将当前基频点的基频值置为0；对所述各基频段进行中值滤波处理，通过中值滤波处理，可以使得基频段曲线平滑，避免噪点的出现，优选的，若当前基频段的长度(即基频点个数)小于预设基频点数量(例如：35个等)，则可以直接进行窗长为所述当前基频段长度的中值滤波处理，若当前基频段的长度大于或等于预设基频点数量，则在当前基频段中选取预设个数的基频点进行中值滤波处理；在所述各基频段中，将第一基频点后小于预设数量且连续的零基频点的基频值设置为所述第一基频点的基频值，通过对零基频点进行基频值的补充，可以避免用户在演唱过程中的换气动作所造成的音符损失，保证清唱音频数据的质量。

S212，将连续且具有相同音符值的基频点进行合并处理，以生成所述各音频片段的至少一个音符点，获取所述至少一个音符点中各音符点的简谱信息；

具体的，所述多媒体文件生成设备可以将调整后的所述各基频点的基频值转换为所述各基频点的音符值，优选的，所述多媒体文件生成设备可以采用预设音符转换公式，并根据调整后的所述各基频点的基频值，计算所述各基频点的音符值，所述预设音符转换公式可以为：

Y = (int) (12 * \log_{2} \frac{x}{440} + 69.5)

其中，Y表示为当前基频点的音符值，x表示为当前基频点的基频值。

S213，对所述各音符点的简谱信息进行排列以生成所述目标音频标识对应的音频简谱文件；

具体的，所述多媒体文件生成设备可以将连续且具有相同音符值的基频点进行合并处理，以生成所述各音频片段的至少一个音符点，优选的，所述连续且具有相同音符值的基频点需要存在于同一个基频段中，并在该基频段中的基频点合并处理后，得到该基频段对应的音频片段的至少一个音符点，同理，可以对其它基频段中的基频点进行合并处理，最终生成各音频片段的至少一个音符点。所述多媒体文件生成设备可以获取所述至少一个音符点中各音符点的简谱信息，所述简谱信息包括起始时间、持续时间和音符值，优选的，所述多媒体文件生成设备记录有所述各音频片段的起始时间和持续时间，并可以根据所述预设帧长和第二预设帧移计算得到所述各音符点的起始时间和持续时间，所述多媒体文件生成设备可以根据所述各音符点的起始时间和持续时间以及所述各音符点的音符值生成所述各音符点的简谱信息。

所述多媒体文件生成设备可以对所述各音符点的简谱信息进行排列以生成所述目标音频标识对应的音频简谱文件，优选的，所述多媒体文件生成设备可以依据所述各音符点的起始时间对所述各音符点的简谱信息进行排列，最终生成所述目标音频标识对应的音频简谱文件，进一步的，在对所述各音符点的简谱信息进行排列之后，所述多媒体文件生成设备可以生成所述目标音频标识对应的音频简谱参考文件，当在所述各音符点中存在第一音符点的音符值满足预设调整条件时，所述多媒体文件生成设备可以按照预设调整规则在所述音频简谱文件中删除所述第一音符点的简谱信息，以生成所述目标音频标识对应的音频简谱文件。需要说明的是，所述预设调整条件包括：所述第一音符点的音符值与所述第一音符点的下一个音符点的音符值的差的绝对值大于或等于第一预设差值，和所述第一音符点的音符值与所述第一音符点的上一个音符点的音符值的差的绝对值大于或等于第二预设差值，和所述第一音符点的上一个音符点的音符值与所述第一音符点的下一个音符点的音符值的差的绝对值小于或等于第三预设差值。即当前音符点的音符值与所述当前音符点的前后两个音符点的音符值相差较多，而所述前后两个音符点的音符值的差值较小时，确定需要按照预设调整规则在所述音频简谱文件中删除当前音符点的简谱信息。

所述预设调整规则包括：

若所述第一音符点的起始时间为所述第一音符点的上一个音符点的起始时间和持续时间之和，则将所述第一音符点和所述上一个音符点进行合并，并删除所述第一音符点的简谱信息；

若所述第一音符点的起始时间不为所述第一音符点的上一个音符点的起始时间和持续时间之和，且所述第一音符点的下一个音符点的起始时间为述第一音符点的起始时间和持续时间之和，则将所述第一音符点和所述下一个音符点进行合并，并删除所述第一音符点的简谱信息；

若所述第一音符点的起始时间不为所述第一音符点的上一个音符点的起始时间和持续时间之和，且所述第一音符点的下一个音符点的起始时间不为述第一音符点的起始时间和持续时间之和，则删除所述第一音符点的简谱信息。

在本发明实施例中，通过获取原始音频数据中的频谱特征，基于音频提取模型计算得到清唱音频数据的频谱特征，并根据所述目标清唱频谱特征生成所述目标清唱音频数据，最终基于清唱音频数据的基频信息对应的音符值生成所述目标音频标识对应的音频简谱文件，实现了自动生成音频简谱文件的过程，避免了音频简谱文件存在错误的情况，保证了音频简谱文件的准确性，同时节省了人力资源以及时间资源，有效的提升了音频简谱文件的制作效率；通过增加音频提取模型的输入参考数据，保证了音频提取模型的训练精度；通过中值滤波处理，可以使得基频段曲线平滑，避免了噪点的出现；通过对零基频点进行基频值的补充，可以避免用户在演唱过程中的换气动作所造成的音符损失，保证了清唱音频数据的质量。

下面将结合附图3-附图7，对本发明实施例提供的多媒体文件生成设备进行详细介绍。需要说明的是，附图3-附图7所示的多媒体文件生成设备，用于执行本发明图1和图2所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1和图2所示的实施例。

请参见图3，为本发明实施例提供了一种多媒体文件生成设备的结构示意图。如图3所示，本发明实施例的所述多媒体文件生成设备1可以包括：目标特征获取单元11、目标特征计算单元12、数据生成单元13和文件生成单元14。

目标特征获取单元11，用于获取目标音频标识对应的目标原始音频数据，并获取所述目标原始音频数据的目标原始频谱特征；

具体实现中，所述目标特征获取单元11可以获取目标音频标识对应的目标原始音频数据，需要说明的是，管理人员、开发人员等用户可以选择当前需要生成音频简谱文件的目标音乐的目标音频标识，所述目标特征获取单元11可以获取所选择的所述目标音频标识，并获取所述目标音频标识对应的目标原始音频数据，可以理解的是，所述多媒体文件生成设备1中可以预先存储有所述目标音频标识以及所述目标音频标识对应的目标原始音频数据，所述目标原始音频数据优选为所述目标音乐的原唱版本(例如：原唱歌手的演唱版本、其他歌手的翻唱版本等)的音频数据。

所述目标特征获取单元11进一步可以获取所述目标原始音频数据的目标原始频谱特征，所述目标原始频谱特征可以包括所述目标原始音频数据的至少一帧原始音频数据中各帧原始音频数据的频谱特征，优选的，所述目标特征获取单元11可以将至少一帧原始音频数据由时域特征转换为频域特征，并基于所述各帧原始音频数据的实域频谱和虚域频谱计算所述各帧原始音频数据的功率谱密度，并根据所述各帧原始音频数据的功率谱密度计算所述各帧原始音频数据的频谱特征，以形成所述目标原始音频数据的目标原始频谱特征。

目标特征计算单元12，用于基于预先训练的音频提取模型，并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征；

具体实现中，所述目标特征计算单元12可以基于预先训练的音频提取模型，并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征，所述目标清唱音频数据优选为所述目标音乐的清唱版本(即没有背景音乐的演唱版本)的音频数据，所述音频提取模型优选为DNN模型，用于对原唱音频数据的频谱特征及清唱音频数据的频谱特征进行相互转换。

数据生成单元13，用于根据所述目标清唱频谱特征生成所述目标清唱音频数据；

具体实现中，所述数据生成单元13可以根据所述目标清唱频谱特征生成所述目标清唱音频数据，所述目标清唱频谱特征可以包括所述目标清唱音频数据的至少一帧清唱音频数据中各帧清唱音频数据的频谱特征，优选的，所述数据生成单元13可以根据所述各帧清唱音频数据的频谱特征计算所述各帧清唱音频数据的功率谱密度，并根据所述各帧清唱音频数据的功率谱密度计算所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱，所述数据生成单元13将所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱转换为所述各帧清唱音频数据的时域特征，并按照各帧清唱音频数据的排列顺序对所述各帧清唱音频数据的时域特征进行特征叠加处理，以生成目标清唱音频数据。

文件生成单元14，用于提取所述目标清唱音频数据的基频信息，获取所述基频信息对应的音符值，并根据所述音符值生成所述目标音频标识对应的音频简谱文件；

具体实现中，所述文件生成单元14可以提取所述目标清唱音频数据的基频信息，获取所述基频信息对应的音符值，并根据所述音符值生成所述目标音频标识对应的音频简谱文件，可以理解的是，所述基频信息可以为所述目标清唱音频数据的基音，用于决定所述目标清唱音频数据中各音符点的音高，所述音频简谱文件可以包括所述各音符点的起始时间、持续时间以及音符值，所述音符值用于表示音高。

请参见图4，为本发明实施例提供了另一种多媒体文件生成设备的结构示意图。如图4所示，本发明实施例的所述多媒体文件生成设备1可以包括：目标特征获取单元11、目标特征计算单元12、数据生成单元13、文件生成单元14、训练特征获取单元15和参数获取单元16。

训练特征获取单元15，用于在预设音频集合中获取训练原始音频数据，获取与所述训练原始音频数据相关联的训练清唱音频数据，并分别获取所述训练原始音频数据的频谱特征和所述训练清唱音频数据的频谱特征；

具体实现中，所述多媒体文件生成设备1需要对原唱音频数据的频谱特征及清唱音频数据的频谱特征进行相互转换的音频提取模型进行训练，优选的，所述训练特征获取单元15可以在预设音频集合中获取训练原始音频数据，获取与所述训练原始音频数据相关联的训练清唱音频数据，并分别获取所述训练原始音频数据的频谱特征和所述训练清唱音频数据的频谱特征，其中，所述训练原始音频数据优选为训练用的原唱音乐的音频数据，所述训练清唱音频数据优选为训练用的与所述训练原始音频数据对应的清唱音乐的音频数据，需要说明的是，所述多媒体文件生成设备1中存储有预设音频集合，所述预设音频集合中存储有多个训练原始音频数据以及与各训练原始音频数据对应的多个清唱音频数据，所述清唱音频数据可以为用户历史对某首歌曲进行清唱后所上传的音频数据，所述训练特征获取单元15可以对多个清唱音频数据进行打分，以获取分数较高的清唱音频数据，再经由人工筛选，例如：筛选出与对应的训练原始音频数据相似度最高的一个清唱音频数据作为训练清唱音频数据。

所述训练特征获取单元15可以分别获取所述训练原始音频数据的频谱特征以及所述训练清唱音频数据的频谱特征，优选的，所述训练特征获取单元15可以按照预设采样点数量和第一预设帧移对所述训练原始音频数据进行分帧处理，以生成至少一帧训练原始数据，按照预设采样点数量和第一预设帧移对所述训练清唱音频数据进行分帧处理，以生成至少一帧训练清唱数据，分别对至少一帧训练原始数据中各帧训练原始数据以及至少一帧训练清唱数据中各帧训练清唱数据添加汉明窗，并进行快速傅里叶变换，得到各帧训练原始数据的实域频谱和虚域频谱，以及各帧训练清唱数据的实域频谱和虚域频谱，所述训练特征获取单元15可以根据所述各帧训练原始数据的实域频谱和虚域频谱计算所述各帧训练原始数据的功率谱密度，并根据所述各帧训练原始数据的功率谱密度计算所述各帧训练原始数据的频谱特征，同理，所述训练特征获取单元15可以根据所述各帧训练清唱数据的实域频谱和虚域频谱计算所述各帧训练清唱数据的功率谱密度，并根据所述各帧训练清唱数据的功率谱密度计算所述各帧训练清唱数据的频谱特征。

参数获取单元16，用于创建音频提取模型，将所述训练原始音频数据的频谱特征作为所述音频提取模型的输入参数，将所述训练清唱音频数据的频谱特征作为所述音频提取模型的输出参数，并基于所述输入参数和所述输出参数对所述音频提取模型进行训练以获取所述音频提取模型中的模型矩阵参数；

具体实现中，所述参数获取单元16可以创建音频提取模型，将所述训练原始音频数据的频谱特征作为所述音频提取模型的输入参数，将所述训练清唱音频数据的频谱特征作为所述音频提取模型的输出参数，优选的，所述参数获取单元16可以创建带有预设层数的隐藏层的音频提取模型，所述音频提取模型优选为DNN模型，所述参数获取单元16可以将所述各帧训练原始数据的频谱特征分别作为所述音频提取模型的输入参数，进一步的，所述参数获取单元16可以将所述各帧训练原始数据的频谱特征与所述各帧训练原始数据的前后各N帧(N为正整数，例如：5帧等)训练原始数据的频谱特征作为所述音频提取模型的输入参数，以增加音频提取模型的输入参考数据，保证音频提取模型的训练精度，并将所述各帧训练清唱数据的频谱特征分别作为所述音频提取模型的输出参数，可以理解的是，各帧训练原始数据与各帧训练清唱数据一一对应。

所述参数获取单元16可以基于所述输入参数和所述输出参数对所述音频提取模型进行训练以获取所述音频提取模型中的模型矩阵参数，例如：假设音频提取模型的隐藏层的预设层数为3层，且各隐藏层的节点个数均为2048，则通过代入所述输入参数和所述输出参数，可以计算得出所述音频提取模型中各隐藏层的2048个节点之间、输入参数所在输入层的节点与第一个隐藏层的节点间以及输出参数所在输出层的节点与最后一个隐藏层的节点间的模型矩阵参数。以此得到训练完成的音频提取模型。

具体的，请一并参见图5，为本发明实施例提供了目标特征获取单元的结构示意图。如图5所示，所述目标特征获取单元11可以包括：

数据分帧子单元111，用于获取目标音频标识对应的目标原始音频数据，并按照预设采样点数量和第一预设帧移对所述目标原始音频数据进行分帧处理，以生成至少一帧原始音频数据；

具体实现中，所述数据分帧子单元111可以将目标原始音频数据按照预设格式进行解码，并按照预设采样点数量和第一预设帧移对所述目标原始音频数据进行分帧处理，以生成至少一帧原始音频数据，例如：可以设置预设采样点数量为512个采样点，第一预设帧移为128个采样点，采用512个采样点的帧长以及128个采样点的帧移对所述目标原始音频数据进行分帧处理。

第一频谱获取子单元112，用于获取至少一帧音频数据中各帧原始音频数据的实域频谱和所述各帧原始音频数据的虚域频谱；

具体实现中，所述第一频谱获取子单元112可以获取至少一帧音频数据中各帧原始音频数据的实域频谱和所述各帧原始音频数据的虚域频谱，优选的，所述第一频谱获取子单元112可以对所述各帧原始音频数据添加汉明窗，并进行快速傅里叶变换，以将所述各帧原始音频数据由时域特征转换为频域特征，经变换后，可以在频谱中得到第一预设维度的实域频谱和第一预设维度的虚域频谱，再对容易出现混淆的频谱区域进行滤除，例如：将大于预设频带的频谱区域进行滤除等，可以得到第二预设维度的实域频谱和第三预设维度的虚域频谱，其中，所述第一预设维度大于或等于所述第二预设维度，所述第二预设维度大于或等于所述第三预设维度，将第二预设维度的实域频谱和第三预设维度的虚域频谱作为所述各帧原始音频数据的实域频谱和虚域频谱。以第一预设维度为512维为例，在进行快速傅里叶变换后可以得到512维的实域频谱和512维的虚域频谱，此变换后的结果对应于从0Hz到16000Hz的频带，为了避免出现频谱混淆，一般只采用8000Hz以内的频谱区域，因此可以将大于8000Hz的频谱区域进行滤除，得到8000Hz以内的257维实域频谱和255维虚域频谱，其中，相差的两维实域频谱分别为第1维和第257维，其中第1维用于表示总能量，不代表任意频带，第257维的虚部为0，其余的255维实域频谱与255维虚域频谱一一对应。

特征获取子单元113，用于根据所述各帧原始音频数据的实域频谱和各帧原始音频数据的虚域频谱计算所述各帧原始音频数据的功率谱密度，并根据所述各帧原始音频数据的功率谱密度计算所述各帧原始音频数据的频谱特征；

具体实现中，所述特征获取子单元113可以根据所述各帧原始音频数据的实域频谱和各帧原始音频数据的虚域频谱计算所述各帧原始音频数据的功率谱密度，优选的，所述特征获取子单元113可以分别获取各帧原始音频数据中相对应的1维实域频谱和1维虚域频谱，并求取平方和，以得到该维的功率谱密度，依据上述举例，所述特征获取子单元113可以基于功率谱密度计算公式计算各帧原始音频数据的功率谱密度，所述功率谱密度计算公式为：T_i＝S_i ²+U_i ²，其中，i属于区间【1，257】，T_i表示第i维的功率谱密度，S_i表示第i维实域频谱，U_i表示第i维虚域频谱，由于虚域频谱并不存在第1维和第257维，因此在计算第1维的功率谱密度和第257维的功率谱密度时，U₁＝U₂₅₇＝0。

所述特征获取子单元113可以根据所述各帧原始音频数据的功率谱密度计算所述各帧原始音频数据的频谱特征，优选的，所述特征获取子单元113可以对所述各帧原始音频数据的功率谱密度求取对数函数，以得到所述各帧原始音频数据的频谱特征，依据上述举例，所述各帧原始音频数据的频谱特征V_i＝ln T_i。

进一步的，所述目标特征计算单元12可以采用所述各帧原始音频数据的频谱特征以及所述模型矩阵参数，计算至少一帧清唱音频数据中各帧清唱音频数据的频谱特征。优选的，所述目标特征计算单元12可以将所述各帧原始音频数据的频谱特征与所述各帧原始音频数据的前后各N帧(N为正整数，例如：5帧等)原始音频数据的频谱特征作为所述音频提取模型的输入参数，并根据预先训练好的所述模型矩阵参数分别计算得到各帧清唱音频数据的频谱特征，例如：假设有m帧清唱音频数据，若采用前后扩展5帧共11帧原始音频数据的频谱特征作为输入参数，由于第1-5帧原始音频数据并没有向前扩展5帧原始音频数据的条件，以及倒数1-5帧原始音频数据并没有向后扩展5帧原始音频数据的条件，则尽可以得到(m-10)帧输出参数，因此需要对输出参数前后各扩展5帧，以补齐m帧清唱音频数据。

具体的，请一并参见图6，为本发明实施例提供了数据生成单元的结构示意图。如图6所示，所述数据生成单元13可以包括：

第二频谱获取子单元131，用于根据所述各帧清唱音频数据的频谱特征计算所述各帧清唱音频数据的功率谱密度，并根据所述各帧清唱音频数据的功率谱密度计算所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱；

具体实现中，所述第二频谱获取子单元131可以根据所述各帧清唱音频数据的频谱特征计算所述各帧清唱音频数据的功率谱密度，优选的，所述第二频谱获取子单元131可以对所述各帧清唱音频数据的频谱特征求取指数函数，以得到所述各帧清唱音频数据的功率谱密度，依据上述举例，所述各帧原始音频数据的频谱特征T_i’＝e^V_i’，其中，V_i’为所述各帧清唱音频数据的频谱特征。

所述第二频谱获取子单元131可以根据所述各帧清唱音频数据的功率谱密度计算所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱，优选的，所述第二频谱获取子单元131可以采用实域频谱计算公式，并根据所述各帧清唱音频数据的功率谱密度计算所述各帧清唱音频数据的实域频谱，同时可以采用虚域频谱计算公式，并根据所述各帧清唱音频数据的功率谱密度计算所述各帧清唱音频数据的虚域频谱，其中，所述实域频谱计算公式可以为：S_i’＝S_i/|S_i|*√(T_i’)，所述虚域频谱计算公式可以为：U_i’＝U_i/|U_i|*√(T_i’)，由于实域频谱为偶函数，虚域频谱为奇函数，因此可以将得到所述各帧清唱音频数据的第二预设维度的实域频谱和第三预设维度的虚域频谱还原为所述各帧清唱音频数据的第一预设维度的实域频谱和第一预设维度的虚域频谱。

数据生成子单元132，用于将所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱转换为所述各帧清唱音频数据的时域特征，并按照各帧清唱音频数据的排列顺序对所述各帧清唱音频数据的时域特征进行特征叠加处理，以生成目标清唱音频数据；

具体实现中，所述数据生成子单元132可以将所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱转换为所述各帧清唱音频数据的时域特征，并按照各帧清唱音频数据的排列顺序对所述各帧清唱音频数据的时域特征进行特征叠加处理，以生成目标清唱音频数据，优选的，所述数据生成子单元132可以将所述各帧清唱音频数据的第一预设维度的实域频谱和第一预设维度的虚域频谱进行逆傅里叶变换，由频域特征转换为时域特征，由于所述各帧清唱音频数据之间相邻帧的清唱音频数据存在重复的部分，因此所述数据生成子单元132可以依据所述各帧清唱音频数据的排列顺序对所述各帧清唱音频数据的时域特征进行特征叠加处理，将重复的部分进行重合，以生成目标清唱音频数据。

具体的，请一并参见图7，为本发明实施例提供了文件生成单元的结构示意图。如图7所示，所述文件生成单元14可以包括：

片段获取子单元141，用于采用所述目标音频标识对应的歌词时间信息对所述目标清唱音频数据进行分段处理，以获取包含歌词片段的至少一个音频片段；

具体实现中，所述片段获取子单元141可以采用所述目标音频标识对应的歌词时间信息对所述目标清唱音频数据进行分段处理，以获取包含歌词片段的至少一个音频片段，优选的，所述片段获取子单元141可以获取所述目标音频标识对应的歌词时间文件，所述歌词时间文件记录有所述目标音乐的每句歌词的起始时间和持续时间等歌词时间信息，所述片段获取子单元141可以采用所述歌词时间信息对所述目标清唱音频数据进行分段处理，以获取包含歌词片段的至少一个音频片段，例如：一句歌词对应一个音频片段等。

基频点生成子单元142，用于提取所述至少一个音频片段中各音频片段的基频段，并按照预设帧长和第二预设帧移对所述基频段进行分帧处理，以生成至少一个基频点；

具体实现中，所述基频点生成子单元142可以提取所述至少一个音频片段中各音频片段的基频段，并按照预设帧长和第二预设帧移对所述基频段进行分帧处理，以生成至少一个基频点，例如：假设预设帧长为30ms，第二预设帧移为10ms，则可以采用30ms的帧长以及10ms的帧移对所述个音频片段的基频段进行分帧处理。

音符值转换子单元143，用于对所述至少一个基频点中各基频点的基频值进行调整，并将调整后的所述各基频点的基频值转换为所述各基频点的音符值；

具体实现中，所述音符值转换子单元143可以对所述至少一个基频点中各基频点的基频值进行调整，需要说明的是，所述调整可以包括：对所述至少一个基频点中的奇异基频点的基频值进行置零处理，优选的，可以检测当前基频点的基频值与前后两个基频点的基频值的差值，若差值较大，则将当前基频点的基频值置为0；对所述各基频段进行中值滤波处理，通过中值滤波处理，可以使得基频段曲线平滑，避免噪点的出现，优选的，若当前基频段的长度(即基频点个数)小于预设基频点数量(例如：35个等)，则可以直接进行窗长为所述当前基频段长度的中值滤波处理，若当前基频段的长度大于或等于预设基频点数量，则在当前基频段中选取预设个数的基频点进行中值滤波处理；在所述各基频段中，将第一基频点后小于预设数量且连续的零基频点的基频值设置为所述第一基频点的基频值，通过对零基频点进行基频值的补充，可以避免用户在演唱过程中的换气动作所造成的音符损失，保证清唱音频数据的质量。

信息获取子单元144，用于将连续且具有相同音符值的基频点进行合并处理，以生成所述各音频片段的至少一个音符点，获取所述至少一个音符点中各音符点的简谱信息；

具体实现中，所述信息获取子单元144可以将调整后的所述各基频点的基频值转换为所述各基频点的音符值，优选的，所述信息获取子单元144可以采用预设音符转换公式，并根据调整后的所述各基频点的基频值，计算所述各基频点的音符值，所述预设音符转换公式可以为：

Y = (int) (12 * \log_{2} \frac{x}{440} + 69.5)

文件生成子单元145，用于对所述各音符点的简谱信息进行排列以生成所述目标音频标识对应的音频简谱文件；

具体实现中，所述文件生成子单元145可以将连续且具有相同音符值的基频点进行合并处理，以生成所述各音频片段的至少一个音符点，优选的，所述连续且具有相同音符值的基频点需要存在于同一个基频段中，并在该基频段中的基频点合并处理后，得到该基频段对应的音频片段的至少一个音符点，同理，可以对其它基频段中的基频点进行合并处理，最终生成各音频片段的至少一个音符点。所述文件生成子单元145可以获取所述至少一个音符点中各音符点的简谱信息，所述简谱信息包括起始时间、持续时间和音符值，优选的，所述文件生成子单元145记录有所述各音频片段的起始时间和持续时间，并可以根据所述预设帧长和第二预设帧移计算得到所述各音符点的起始时间和持续时间，所述文件生成子单元145可以根据所述各音符点的起始时间和持续时间以及所述各音符点的音符值生成所述各音符点的简谱信息。

所述文件生成子单元145可以对所述各音符点的简谱信息进行排列以生成所述目标音频标识对应的音频简谱文件，优选的，所述文件生成子单元145可以依据所述各音符点的起始时间对所述各音符点的简谱信息进行排列，最终生成所述目标音频标识对应的音频简谱文件，进一步的，在对所述各音符点的简谱信息进行排列之后，所述文件生成子单元145可以生成所述目标音频标识对应的音频简谱参考文件，当在所述各音符点中存在第一音符点的音符值满足预设调整条件时，所述文件生成子单元145可以按照预设调整规则在所述音频简谱文件中删除所述第一音符点的简谱信息，以生成所述目标音频标识对应的音频简谱文件。需要说明的是，所述预设调整条件包括：所述第一音符点的音符值与所述第一音符点的下一个音符点的音符值的差的绝对值大于或等于第一预设差值，和所述第一音符点的音符值与所述第一音符点的上一个音符点的音符值的差的绝对值大于或等于第二预设差值，和所述第一音符点的上一个音符点的音符值与所述第一音符点的下一个音符点的音符值的差的绝对值小于或等于第三预设差值。即当前音符点的音符值与所述当前音符点的前后两个音符点的音符值相差较多，而所述前后两个音符点的音符值的差值较小时，确定需要按照预设调整规则在所述音频简谱文件中删除当前音符点的简谱信息。

所述预设调整规则包括：

请参见图8，为本发明实施例提供了又一种多媒体文件生成设备的结构示意图。如图8所示，所述多媒体文件生成设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文件生成应用程序。

在图8所示的多媒体文件生成设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的文件生成应用程序，并具体执行以下操作：

根据所述目标清唱频谱特征生成所述目标清唱音频数据；

在一个实施例中，所述处理器1001在执行获取目标音频标识对应的目标原始音频数据之前，还执行以下操作：

在预设音频集合中获取训练原始音频数据，获取与所述训练原始音频数据相关联的训练清唱音频数据，并分别获取所述训练原始音频数据的频谱特征和所述训练清唱音频数据的频谱特征；

创建音频提取模型，将所述训练原始音频数据的频谱特征作为所述音频提取模型的输入参数，将所述训练清唱音频数据的频谱特征作为所述音频提取模型的输出参数，并基于所述输入参数和所述输出参数对所述音频提取模型进行训练以获取所述音频提取模型中的模型矩阵参数。

在一个实施例中，所述处理器1001在执行获取目标音频标识对应的目标原始音频数据，并获取所述目标原始音频数据的目标原始频谱特征时，具体执行以下操作：

获取目标音频标识对应的目标原始音频数据，并按照预设采样点数量和第一预设帧移对所述目标原始音频数据进行分帧处理，以生成至少一帧原始音频数据；

获取至少一帧音频数据中各帧原始音频数据的实域频谱和所述各帧原始音频数据的虚域频谱；

根据所述各帧原始音频数据的实域频谱和各帧原始音频数据的虚域频谱计算所述各帧原始音频数据的功率谱密度，并根据所述各帧原始音频数据的功率谱密度计算所述各帧原始音频数据的频谱特征。

在一个实施例中，所述处理器1001在执行基于预先训练的音频提取模型，并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征时，具体执行以下操作：

采用所述各帧原始音频数据的频谱特征以及所述模型矩阵参数，计算至少一帧清唱音频数据中各帧清唱音频数据的频谱特征。

在一个实施例中，所述处理器1001在执行根据所述目标清唱频谱特征生成所述目标清唱音频数据时，具体执行以下操作：

根据所述各帧清唱音频数据的频谱特征计算所述各帧清唱音频数据的功率谱密度，并根据所述各帧清唱音频数据的功率谱密度计算所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱；

将所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱转换为所述各帧清唱音频数据的时域特征，并按照各帧清唱音频数据的排列顺序对所述各帧清唱音频数据的时域特征进行特征叠加处理，以生成目标清唱音频数据。

在一个实施例中，所述处理器1001在执行提取所述目标清唱音频数据的基频信息，获取所述基频信息对应的音符值，并根据所述音符值生成所述目标音频标识对应的音频简谱文件时，具体执行以下操作：

采用所述目标音频标识对应的歌词时间信息对所述目标清唱音频数据进行分段处理，以获取包含歌词片段的至少一个音频片段；

提取所述至少一个音频片段中各音频片段的基频段，并按照预设帧长和第二预设帧移对所述基频段进行分帧处理，以生成至少一个基频点；

对所述至少一个基频点中各基频点的基频值进行调整，并将调整后的所述各基频点的基频值转换为所述各基频点的音符值；

将连续且具有相同音符值的基频点进行合并处理，以生成所述各音频片段的至少一个音符点，获取所述至少一个音符点中各音符点的简谱信息，所述简谱信息包括起始时间、持续时间和音符值；

对所述各音符点的简谱信息进行排列以生成所述目标音频标识对应的音频简谱文件。

在一个实施例中，所述处理器1001在执行对所述至少一个基频点中各基频点的基频值进行调整时，具体执行以下操作：

对所述至少一个基频点中的奇异基频点的基频值进行置零处理；

对所述各基频段进行中值滤波处理；

在所述各基频段中，将第一基频点后小于预设数量且连续的零基频点的基频值设置为所述第一基频点的基频值。

在一个实施例中，所述处理器1001在执行对所述各音符点的简谱信息进行排列以生成所述目标音频标识对应的音频简谱文件时，具体执行以下操作：

对所述各音符点的简谱信息进行排列以生成所述目标音频标识对应的音频简谱参考文件；

当在所述各音符点中存在第一音符点的音符值满足预设调整条件时，按照预设调整规则在所述音频简谱文件中删除所述第一音符点的简谱信息，以生成所述目标音频标识对应的音频简谱文件。

在一个实施例中，所述预设调整条件包括：

所述第一音符点的音符值与所述第一音符点的下一个音符点的音符值的差的绝对值大于或等于第一预设差值；和，

所述第一音符点的音符值与所述第一音符点的上一个音符点的音符值的差的绝对值大于或等于第二预设差值；和，

所述第一音符点的上一个音符点的音符值与所述第一音符点的下一个音符点的音符值的差的绝对值小于或等于第三预设差值。

在一个实施例中，所述预设调整规则包括：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种多媒体文件生成方法，其特征在于，包括：

根据所述目标清唱频谱特征生成所述目标清唱音频数据；

2.根据权利要求1所述的方法，其特征在于，所述获取目标音频标识对应的目标原始音频数据之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述获取目标音频标识对应的目标原始音频数据，并获取所述目标原始音频数据的目标原始频谱特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于预先训练的音频提取模型，并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标清唱频谱特征生成所述目标清唱音频数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述提取所述目标清唱音频数据的基频信息，获取所述基频信息对应的音符值，并根据所述音符值生成所述目标音频标识对应的音频简谱文件，包括：

7.根据权利要求6所述的方法，其特征在于，所述对所述至少一个基频点中各基频点的基频值进行调整，包括：

对所述各基频段进行中值滤波处理；

8.根据权利要求6所述的方法，其特征在于，所述对所述各音符点的简谱信息进行排列以生成所述目标音频标识对应的音频简谱文件，包括：

9.根据权利要求8所述的方法，其特征在于，所述预设调整条件包括：

10.根据权利要求8所述的方法，其特征在于，所述预设调整规则包括：

11.一种多媒体文件生成设备，其特征在于，包括：

12.根据权利要求11所述的设备，其特征在于，还包括：

训练特征获取单元，用于在预设音频集合中获取训练原始音频数据，获取与所述训练原始音频数据相关联的训练清唱音频数据，并分别获取所述训练原始音频数据的频谱特征和所述训练清唱音频数据的频谱特征；

参数获取单元，用于创建音频提取模型，将所述训练原始音频数据的频谱特征作为所述音频提取模型的输入参数，将所述训练清唱音频数据的频谱特征作为所述音频提取模型的输出参数，并基于所述输入参数和所述输出参数对所述音频提取模型进行训练以获取所述音频提取模型中的模型矩阵参数。

13.根据权利要求12所述的设备，其特征在于，所述目标特征获取单元包括：

数据分帧子单元，用于获取目标音频标识对应的目标原始音频数据，并按照预设采样点数量和第一预设帧移对所述目标原始音频数据进行分帧处理，以生成至少一帧原始音频数据；

第一频谱获取子单元，用于获取至少一帧音频数据中各帧原始音频数据的实域频谱和所述各帧原始音频数据的虚域频谱；

特征获取子单元，用于根据所述各帧原始音频数据的实域频谱和各帧原始音频数据的虚域频谱计算所述各帧原始音频数据的功率谱密度，并根据所述各帧原始音频数据的功率谱密度计算所述各帧原始音频数据的频谱特征。

14.根据权利要求13所述的设备，其特征在于，所述目标特征计算单元具体用于采用所述各帧原始音频数据的频谱特征以及所述模型矩阵参数，计算至少一帧清唱音频数据中各帧清唱音频数据的频谱特征。

15.根据权利要求14所述的设备，其特征在于，所述数据生成单元包括：

第二频谱获取子单元，用于根据所述各帧清唱音频数据的频谱特征计算所述各帧清唱音频数据的功率谱密度，并根据所述各帧清唱音频数据的功率谱密度计算所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱；

数据生成子单元，用于将所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱转换为所述各帧清唱音频数据的时域特征，并按照各帧清唱音频数据的排列顺序对所述各帧清唱音频数据的时域特征进行特征叠加处理，以生成目标清唱音频数据。

16.根据权利要求15所述的设备，其特征在于，所述文件生成单元包括：

片段获取子单元，用于采用所述目标音频标识对应的歌词时间信息对所述目标清唱音频数据进行分段处理，以获取包含歌词片段的至少一个音频片段；

基频点生成子单元，用于提取所述至少一个音频片段中各音频片段的基频段，并按照预设帧长和第二预设帧移对所述基频段进行分帧处理，以生成至少一个基频点；

音符值转换子单元，用于对所述至少一个基频点中各基频点的基频值进行调整，并将调整后的所述各基频点的基频值转换为所述各基频点的音符值；

信息获取子单元，用于将连续且具有相同音符值的基频点进行合并处理，以生成所述各音频片段的至少一个音符点，获取所述至少一个音符点中各音符点的简谱信息，所述简谱信息包括起始时间、持续时间和音符值；

文件生成子单元，用于对所述各音符点的简谱信息进行排列以生成所述目标音频标识对应的音频简谱文件。

17.根据权利要求16所述的设备，其特征在于，所述音符值转换子单元具体用于：

对所述各基频段进行中值滤波处理；

在所述各基频段中，将第一基频点后小于预设数量且连续的零基频点的基频值设置为所述第一基频点的基频值；

将调整后的所述各基频点的基频值转换为所述各基频点的音符值。

18.根据权利要求16所述的设备，其特征在于，所述文件生成子单元具体用于：

19.根据权利要求18所述的设备，其特征在于，所述预设调整条件包括：

20.根据权利要求18所述的设备，其特征在于，所述预设调整规则包括：