CN106649644B

CN106649644B - 一种歌词文件生成方法及装置

Info

Publication number: CN106649644B
Application number: CN201611124784.4A
Authority: CN
Inventors: 赵伟峰
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2020-02-07
Anticipated expiration: 2036-12-08
Also published as: CN106649644A

Abstract

本发明实施例提供了一种歌词文件生成方法及装置，其中方法包括：用户在针对目标歌曲上传清唱版本的音频数据后，歌词文件生成装置可以对音频数据进行语音切分，得到每个字的时间信息，然后根据时间信息计算该音频数据与其他音频数据之间的切分距离，从而得到该音频数据的切分距离和，从而从多个音频数据中选择出切分距离和最小的音频数据，利用其对应的每个字的时间信息生成目标歌曲的歌词文件。这样得到的歌词文件就包括了歌曲的每个字的时间信息，用户就可以根据该时间信息进行歌曲演唱，从而能够辅助用户以提高用户演唱的精准度。

Description

一种歌词文件生成方法及装置

技术领域

本发明涉及多媒体技术领域，具体涉及一种歌词文件生成方法及装置。

背景技术

唱歌类应用是目前深受用户尤其是年轻用户喜爱与追捧的一类应用，其具备在线独唱和在线合唱等多种功能。通常情况下，用户在演唱歌曲时需要对照着歌词进行，而现有的歌词文件只有每个句子的起始时间，用户在对照歌词文件进行演唱时，很难把握歌曲的演唱细节，这样会降低用户演唱的精准度。因此，如何辅助用户以提高演唱的精准度已成为亟待解决的问题。

发明内容

本发明实施例提供了一种歌词文件生成方法及装置，可以提供一种歌词文件，能够辅助用户演唱以提高演唱的精准度。

本发明实施例第一方面提供了一种歌词文件生成方法，包括：

获取针对目标歌曲上传的音频数据集合，所述音频数据集合包括多个音频数据。

对所述音频数据集合中的每个音频数据进行语音切分，得到所述每个音频数据中每个字的时间信息。

根据所述时间信息计算所述每个音频数据与第一音频数据之间的切分距离，并根据所述切分距离获得所述每个音频数据的切分距离和，所述第一音频数据为所述音频数据集合中除所述每个音频数据之外的任一音频数据。

按照切分距离和从小到大的顺序对所述音频数据集合中的每个音频数据进行排序，并确定排序首位的第二音频数据。

利用所述第二音频数据中每个字的时间信息生成所述目标歌曲的歌词文件。

本发明实施例第二方面提供了一种歌词文件生成装置，包括：

获取模块，用于获取针对目标歌曲上传的音频数据集合，所述音频数据集合包括多个音频数据。

切分模块，用于对所述音频数据集合中的每个音频数据进行语音切分，得到所述每个音频数据中每个字的时间信息。

计算模块，用于根据所述时间信息计算所述每个音频数据与第一音频数据之间的切分距离，并根据所述切分距离获得所述每个音频数据的切分距离和，所述第一音频数据为所述音频数据集合中除所述每个音频数据之外的任一音频数据。

排序模块，用于按照切分距离和从小到大的顺序对所述音频数据集合中的每个音频数据进行排序。

确定模块，用于确定排序首位的第二音频数据。

生成模块，用于利用所述第二音频数据中每个字的时间信息生成所述目标歌曲的歌词文件。

本发明实施例中，用户在针对目标歌曲上传清唱版本的音频数据后，歌词文件生成装置可以对音频数据进行语音切分，得到每个字的时间信息，然后根据时间信息计算该音频数据与其他音频数据之间的切分距离，从而得到该音频数据的切分距离和，从而从多个音频数据中选择出切分距离和最小的音频数据，利用其对应的每个字的时间信息生成目标歌曲的歌词文件。这样得到的歌词文件就包括了歌曲的每个字的时间信息，用户就可以根据该时间信息进行歌曲演唱，从而能够辅助用户以提高用户演唱的精准度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种歌词文件生成方法的流程示意图；

图2a为本发明实施例提供的歌词信息的示意图；

图2b为本发明实施例提供的一种歌词文件的示意图；

图3为本发明实施例提供的另一种歌词文件生成方法的流程示意图；

图4为本发明实施例提供的一种歌词文件生成设备的结构示意图；

图5为本发明实施例提供的一种歌词文件生成装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种歌词文件生成方法及装置，可以提供一种歌词文件，能够辅助用户演唱以提高演唱的精准度。以下分别进行详细说明。

请参阅图1，为本发明实施例提供的一种歌词文件生成方法的流程示意图。本实施例中所描述的方法，包括以下步骤：

101、歌词文件生成装置获取针对目标歌曲上传的音频数据集合。

本发明实施例中，歌词文件生成装置可以应用于客户端、唱歌类应用的服务器等，其中，客户端可以为唱歌类应用、可以为安装唱歌类应用的终端设备，该终端设备可以是笔记本电脑、台式电脑、手机、平板电脑、车载终端、智能可穿戴设备等，本发明实施例不做限定。

本发明实施例中，目标歌曲是指用户需要演唱的歌曲，可以是用户指定的需要演唱的歌曲，也可以是歌词文件生成装置的数据库中的任意一首歌曲，本发明实施例不做限定。其中，音频数据是指用户演唱目标歌曲的清唱数据，即，演唱中不包括音乐部分演唱数据。

本发明实施例中，用户可以针对目标歌曲演唱，从而将演唱版本上传到歌词文件生成装置，歌词文件生成装置从而可以从演唱版本中提取出用户清唱的音频数据，从而获取多个用户针对目标歌曲上传的清唱版本，得到目标歌曲的音频数据集合，该音频集合中包括了多个音频数据。

作为一种可行的实施方式，歌词文件生成装置可以检测针对目标歌曲上传的音频数据的数量，如果该数量达到数量阈值，获取该数量个音频数据，得到该目标歌曲的音频数据集合。

其中，音频数据的数量阈值越大，音频数据集合中出现效果较好的清唱音频数据的概率就越高。

作为另一种可行的实施方式，歌词文件生成装置在获取到针对目标歌曲上传的音频数据后，还可以执行以下操作：

计算音频数据集合中每个音频数据的噪声能量，将噪声能量大于噪声能量阈值的音频数据从音频数据集合中剔除，得到目标音频数据集合，然后对目标音频数据集合中的每个音频数据进行语音切分，得到每个音频数据中每个字的时间信息。

具体实现中，由于用户上传的清唱音频数据在录制的时候可能会有较大的背景噪声，这些背景噪声对后续的聚类效果会产生很大的影响，此步骤目的是将噪声过大的音频数据(即噪声能量超过噪声能量阈值的音频数据)过滤掉，步骤如下：

请一并参阅图2a，为本发明实施例提供的一种LRC歌词文件的歌词信息的示意图。从图2a中的歌词可以看出，正式歌词中每行就是连续演唱的一句话，在歌词开始就标识了这句话在目标歌曲中的起始毫秒数与持续毫秒数，如第一句是从第27.77秒开始，也就是说从开始到第27.77秒是没有歌词只有伴奏的。理论上在目标歌曲的伴奏阶段用户是不会演唱的，那么清唱音频数据中对应的伴奏阶段的能量会很低，如果能量较高的话，即表明该音频数据存在噪声，从而需要从获取的音频数据集合中过滤掉这些在伴奏阶段噪声能量较大超过噪声能量阈值的音频数据。

具体的，歌词文件生成装置首先会获取每个伴奏阶段在目标歌曲中的起止时间，然后根据起止时间对应获取音频数据中这段时间所对应的数据。

进一步的，歌词文件生成装置判断音频数据中伴奏阶段的能量是否超过噪声能量阈值的具体方式为：从该音频数据中确定出所有伴奏阶段对应的采样点，然后获取每个采样点对应的能量，记为x_e，e∈[1,g]，g为采样点的数量，为正整数，从而计算出该音频数据伴奏部分的平均能量，得到该音频数据的噪声能量，记为u，即：

当u大于噪声能量阈值时，表明该音频数据的噪声过大，从而将该音频数据从音频数据集合中剔除。

歌词文件生成装置对每个音频数据进行上述处理，将噪声能量大于噪声能量阈值的音频数据从音频数据集合中剔除，最终得到目标音频数据集合，目标音频数据集合中的音频数据的数量要小于音频数据集合中音频数据的数量。需要说明的是，后续的所提及的音频数据可以是指目标音频数据集合中的每个音频数据，本发明实施例在此不再赘述。

102、歌词文件生成装置对音频数据集合中的每个音频数据进行语音切分，得到每个音频数据中每个字的时间信息。

需要说明的是，由于用户是针对同一首歌曲进行演唱，那么上传的音频数据中所包含的字(即歌词)或者字的数量是相同的。

因此，歌曲文件生成装置在获取到用户针对目标歌曲上传的音频数据集合后，可以对每个音频数据进行语音切分，这样每个音频数据都对应得到目标歌曲的每个字的时间信息。其中，该时间信息包括了起始时间和持续时间。

具体的，歌词文件生成装置对音频数据集合中的每个音频数据进行语音切分，得到每个音频数据中每个字的时间信息的具体方式可以为：

歌词文件生成装置将音频数据集合中的每个音频数据转换得到对应的音素列表，将该每个音频数据对应的音素列表映射到预先建立的音素模型，得到该每个音频数据对应的音素模型序列。歌词文件生成装置通过将该每个音频数据语音切分后得到多帧音频数据，将该多帧音频数据中的每帧音频数据与该音素模型序列进行匹配，得到该每帧音频数据与该音素模型序列的匹配度，再确定出使得该每帧音频数据与该音素模型序列的匹配度最大化的最优匹配路径，进而根据该最优匹配路径得到该每个音频数据中每个音素的时间信息，通过将音素合并后即可确定该每个音频数据中每个字的时间信息。

具体实现中，歌词文件生成装置收集大量语料，例如用户上传的20个小时的历史音频数据，将语料切分(如人工切分)成音素，为每个音素训练对应的音素模型，音素模型具体可以采用高斯混合模型(Gaussian Mixture Mode，GMM)-隐马尔科夫模型(HiddenMarkov Model，HMM)或者深度神经网络(Deep Neural Network，DNN)-HMM，也可以选择基于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)等特征，由于每个音素的具体发音情况受到上下文的影响，在训练的时候把不同上下文的音素分开训练，例如对于音素a，在不同上下文的情况下，x-a+m(表示音素a前面的音素是x，后面的音素是m)和k-a+m(表示音素a前面的音素是k，后面的音素是m)是训练成两个音素模型的，这样音素总数为n时，实际训练得到的音素模型数为n³。对于一些较为生僻的音素可以将其音素模型映射到其它音素模型上，以减少数据的运算量。

进一步的，歌词文件生成装置将音频数据集合中的每个音频数据转换得到对应的音素列表，例如，将“我们”转换成“sil-w+o”、“w-o+m”、“o-m+en”、“m-en+sil”，将该音素列表映射到上述音素模型，从而得到该每个音频数据对应的音素模型序列。歌词文件生成装置通过将该每个音频数据语音切分后得到多帧音频数据，例如切分为10ms一帧，将该多帧音频数据中的每帧音频数据与该音素模型序列进行匹配，得到该每帧音频数据与该音素模型序列的匹配度，一个音素模型可以对应多帧音频数据，每帧音频数据与一个音素模型都有一个0～1的匹配度，将每帧音频数据与一个音素模型的匹配度的乘积作为一种匹配路径对应的置信度，例如共有5帧音频数据，有2个模型，则一共可能有5种不同的匹配路径，分别是(5，0)、(4，1)、(3，2)、(2，3)和(1，4)，其中(5，0)表示5帧音频数据对应模型1，0帧音频数据对应模型2，其它类似，则(5，0)这种匹配路径的置信度就是5帧音频数据中每帧音频数据与模型1的匹配度的乘积，将置信度最大的匹配路径作为使得该每帧音频数据与该音素模型序列的匹配度最大化的最优匹配路径，进而根据该最优匹配路径可以得到该每个音频数据中每个音素的时间信息，通过将音素合并后即可确定该每个音频数据中每个字的时间信息，即用户在哪个时间演唱了哪个字。

103、歌词文件生成装置根据该时间信息计算每个音频数据与第一音频数据之间的切分距离，并根据该切分距离获得该每个音频数据的切分距离和。

本发明实施例中，第一音频数据为音频数据集合中出该每个音频数据本身之外其他任意一个音频数据，本发明实施例不做限定。歌词文件生成装置在对音频数据进行语音切分得到该音频数据的每个字的时间信息后，可以针对每个音频数据，根据得到的该音频数据的每个字的时间信息分别计算该音频数据与其他音频数据之间的切分距离。

具体的，歌词文件生成装置根据时间信息计算每个音频数据与第一音频数据之间的切分距离的具体方式可以为：

针对音频数据集合中的每个音频数据，以及目标歌曲所包含的每个字，歌词文件生成装置分别获得该音频数据中每个字的第一起始时间和第一持续时间，以及第一音频数据中每个字的第二起始时间和第二持续时间。然后分别计算第一起始时间与第二起始时间之间的第一时间差，以及第一持续时间和第二持续时间的第二时间差，从而根据第一时间差和第二时间差计算该音频数据与第一音频数据之间的切分距离。

具体实现中，歌词文件生成装置会分别针对音频数据集合中的每个音频数据，计算该音频数据的每个字的起始时间和持续时间与其他音频数据(如第一音频数据)的起始时间和持续时间之间的时间差，利用这种方式可以得到该音频数据与第一音频数据之间目标歌曲的所有字的起始时间差之和以及持续时间差之和，从而根据该起始时间差之和以及持续时间差之和计算得到该音频数据与第一音频数据之间的切分距离。

可以理解的是，假设音频数据集合中的音频数据有n个，目标歌曲所包含的所有字的数量有m个，用s_j ⁱ表示对第i个音频数据进行歌词切分后第j个字的起始时间，单位为毫秒；用I_j ⁱ表示对第i个音频数据进行歌词切分后第j个字的持续时间，单位为毫秒。其中，n、m、i以及j均为正整数，且i∈[1,n]，j∈[1,m]。那么第i个音频数据与第t个音频数据的第j个字的起始时间之间的时间差为|s_j ⁱ-s_j ^t|；第i个音频数据与第t个音频数据的第j个字的持续时间之间的时间差为|I_j ⁱ-I_j ^t|，其中t为正整数，t∈[1,n]，当t＝i时，得到的起始时间差以及持续时间差为0。通过这种方式可以计算出第i个音频数据与第t个音频数据之间关于目标歌曲所包含的所有字的起始时间差以及持续时间差，据此得到第i个音频数据与第t个音频数据之间的切分距离，用w_ik表示，具体为：

进一步的，歌词文件生成装置根据第一时间差和第二时间差计算每个音频数据与第一音频数据之间的切分距离的具体方式可以理解为：

获取预设的起始时间的第一权重和预设的持续时间的第二权重，并利用第一权重、第二权重、第一时间差和第二时间差计算每个音频数据与第一音频数据之间的切分距离。

具体实现中，歌词文件生成装置还可以预先设置起始时间的权重和持续时间的权重，该权重用以表示在计算音频数据与其他音频数据之间的切分距离时，起始时间和持续时间的重要程度，其取值范围为(0,1)。歌词文件生成装置在计算出某一音频数据与其他音频数据(第一音频数据)之间的每个字的起始时间和持续时间之差，即第一时间差和第二时间差后，可以得到该音频数据的起始时间差之和以及持续时间差之和，从而将第一权重(用u1表示)与起始时间差之和相乘，并将第二权重(用u2表示，u2＝1-u1)与持续时间差之和相乘，从而合并得到该音频数据与第一音频数据之间的切分距离。那么第i个音频数据与第t个音频数据之间的切分距离就为：

因此，以上述两种方式可以求得该音频数据与每个其他音频数据之间的切分距离，从而得到该音频数据的切分距离和，用S_i表示第i个音频数据的切分距离和，那么：

104、歌词文件生成装置按照切分距离和从小到大的顺序对音频数据集合中的每个音频数据进行排序，并确定排序首位的第二音频数据。

本发明实施例中，歌词文件生成装置在计算出每个音频数据的切分距离和后，会按照切分距离和从小到大的顺序对音频数据集合中的所有音频数据进行排序，这样就可以确定出每个音频数据在音频数据集合中时间切分排序的位置。从而可以确定出排序首位的第二音频数据。

需要说明的是，如果音频数据的时间切分在音频数据集合中是最好的，那么该音频数据与其他音频数据之间的切分距离和应该是最小的，例如，某一歌曲的歌词为“只剩下钢琴”，原唱中“只”的起始时间为25570，持续时间为360，“剩”的起始时间为25930，持续时间为370，“下”的起始时间为26300，持续时间为100，“钢”的起始时间为26790，持续时间为390，“琴”的起始时间为27180，持续时间为420。假设用户上传的音频数据有A、B、C三个，其时间信息依次为[(25570，360)，(25930，365)，(26300，120)，(26795，383)，(27180，420)]、[(25570，355)，(25930，370)，(26300，110)，(26795，390)，(27185，415)]以及[(25569，350)，(25926，370)，(26300，100)，(26790，390)，(27173，427)]，假设起始时间的权重为0.7，持续时间的权重0.3，那么A与B的切分距离为13.1；A与C的切分距离为26.6；B与C的切分距离为23.5，那么A的切分距离和为39.7，B的切分距离和为36.6，C的切分距离和为50.1，从而可得到音频数据A、B和C之间的排列顺序，B排列在首位，即B更加接近原唱。

其中，n越大，第二音频数据为时间切分最好的音频数据的说服力也就越大。

105、歌词文件生成装置利用第二音频数据中每个字的时间信息生成目标歌曲的歌词文件。

本发明实施例中，歌词文件生成装置在确定出排序首位的第二音频数据后，可以进一步获取步骤102中进行语音切分后得到的第二音频数据中每个字的时间信息，从而利用该时间信息生成目标歌曲的歌词文件，如图2b所示，图2b为本发明实施例提供的一种歌词文件的示意图。由图2b可以看出，利用本发明实施例所生成的歌词文件展示了歌词中每个字的起始时间和持续时间，这样用户就可以对照着该歌词文件进行演唱。

也就是说，在确定出第二音频数据后，可以利用第二音频数据的语音切分结果，即第二音频数据所包含的每个字的时间信息(起始时间和持续时间)输出为目标歌曲的QRC文件。从用户上传的清唱数据中筛选出较好的音频数据，以此生成目标歌曲的QRC文件，不仅能够节省QRC的制作成本，还可以提高制作效率。

可见，在图1所描述的方法中，用户在针对目标歌曲上传清唱版本的音频数据后，歌词文件生成装置可以对音频数据进行语音切分，得到每个字的时间信息，然后根据时间信息计算该音频数据与其他音频数据之间的切分距离，从而得到该音频数据的切分距离和，从而从多个音频数据中选择出切分距离和最小的音频数据，利用其对应的每个字的时间信息生成目标歌曲的歌词文件。这样得到的歌词文件就包括了歌曲的每个字的时间信息，用户就可以根据该时间信息进行歌曲演唱，从而能够辅助用户以提高用户演唱的精准度。

请参阅图3，为本发明实施例提供的另一种歌词文件生成方法的流程示意图。本实施例中所描述的方法，包括以下步骤：

301、歌词文件生成装置获取针对目标歌曲上传的音频数据集合。

302、歌词文件生成装置对音频数据集合中的每个音频数据进行语音切分，得到每个音频数据中每个字的时间信息。

303、歌词文件生成装置根据该时间信息计算每个音频数据与第一音频数据之间的切分距离，并根据该切分距离获得该每个音频数据的切分距离和。

304、歌词文件生成装置按照切分距离和从小到大的顺序对音频数据集合中的每个音频数据进行排序，并确定排序首位的第二音频数据。

步骤301～304同上一实施例中步骤101～104，本发明实施例在此不再赘述。

305、歌词文件生成装置从音频数据集合中获取排序前k个音频数据。

本发明实施例中，歌词文件生成装置在确定出排序首位的第二音频数据后，可以进一步获取排序前k个音频数据，其中，k可以为3、5或者10，本发明实施例不做限定。例如，歌词文件生成装置获取排序前5的所有音频数据，其中，包括第二音频数据。

306、歌词文件生成装置根据第二音频数据的切分距离和与排序前k个音频数据的切分距离和计算第二音频数据的可用度。

本发明实施例中，歌词文件生成装置在获取排序前k个音频数据后，可以根据第二音频数据的距离和以及排序前k个音频数据的距离和来计算第二音频数据的可用度，用f表示。

其中，S₁表示排序首位的音频数据的距离和，S_j表示排序第j位的音频数据的距离和。

需要说明的是，可用度用于表示排序前k个音频数据时间切分的稳定程度，其值越大，越稳定，即说明排序首位的音频数据与排序前k个音频数据之间的差距越小，排序首位的音频数据作为时间切分效果较好的音频数据的力度也就越大，从而可以利用其语音切分结果生成目标歌曲的QRC歌词文件，用户以该歌词文件进行演唱，可以提高演唱的准确度。

307、歌词文件生成装置判断该可用度是否超过预设可用度门限，若是，执行步骤308；若否，结束本流程。

本发明实施例中，歌词文件生成装置可以预先设定可用度门限，当歌词文件生成装置计算出第二音频数据的可用度后，会判断该可用度是否超过预设的可用度门限，如果超过，则说明第二音频数据与排序前k个音频数据之间的差距较小，第二音频数据的时间切分较好，将其语音切分结果生成目标歌曲的QRC歌词文件的准确度较高，如果没有超过，则不会将其语音切分结果生成目标歌曲的QRC歌词文件，只有在存在更多的音频数据时再筛选时间切分较好的音频数据，从而将其语音切分结果生成目标歌曲的QRC歌词文件。

也即是说，第二音频数据是n个音频数据中时间切分较好的音频数据，如果n个音频数据的时间切分普遍都比较差，以第二音频数据的语音切分结果来生成目标歌曲的QRC歌词文件的准确力度就不够大，如果n个音频数据的时间切分普遍都比较好，以第二音频数据的语音切分结果来生成目标歌曲的QRC歌词文件的准确力度就大。

308、歌词文件生成装置利用第二音频数据中每个字的时间信息生成目标歌曲的歌词文件，并结束本流程。

进一步的，为了不断完善目标歌曲歌词文件中每个字的时间信息的准确度，无论第二音频数据的可用度是否达到可用度阈值，歌词文件生成装置都可以检测针对该目标歌曲再次上传的音频数据，如果新上传的音频数据达到一定数量阈值后，可以对新上传的音频数据进行语音切分，得到每个音频数据所包含的每个字的时间信息，然后将这些音频数据与之前上传的音频数据集合合并，再次执行步骤303～步骤308，从而得到更加准确的歌词文件。

通过这种方式，每次聚类都可以得到时间切分较好的指导音频数据，经过多次聚类后，筛选出的音频数据的时间切分效果更好，以该音频数据所包含的每个字的时间信息生成目标歌曲的QRC歌词文件的准确度更高，更适合用户以此进行演唱。

可见，在图3所描述的方法中，用户在针对目标歌曲上传清唱版本的音频数据后，歌词文件生成装置可以对音频数据进行语音切分，得到每个字的时间信息，然后根据时间信息计算该音频数据与其他音频数据之间的切分距离，从而得到该音频数据的切分距离和，从而从多个音频数据中选择出切分距离和最小的音频数据，利用其对应的每个字的时间信息生成目标歌曲的歌词文件。这样得到的歌词文件就包括了歌曲的每个字的时间信息，用户就可以根据该时间信息进行歌曲演唱，从而能够辅助用户以提高用户演唱的精准度。

基于上述实施例所示的歌词文件生成方法，本发明实施例还提供了一种歌词文件生成设备，可用于执行上述图1和图3所示方法流程的相应步骤。请参见图4，该歌词文件生成设备的内部结构可包括但不限于：处理器、网络接口及存储器。其中，歌词文件生成设备内的处理器、网络接口及存储器可通过总线或其他方式连接，在本发明实施例所示图4中以通过总线连接为例。

其中，处理器(或称CPU(Central Processing Unit，中央处理器))是歌词文件生成设备的计算核心以及控制核心。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)。存储器(Memory)是音歌词文件生成设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的存储装置。存储器提供存储空间，该存储空间存储了歌词文件生成的操作系统，可包括但不限于：Windows系统(一种操作系统)、Linux(一种操作系统)系统等等，本发明对此并不作限定。存储器的存储空间还存储了歌词文件生成装置。

在本发明实施例中，歌词文件生成设备通过运行存储器中的歌词文件生成装置来执行上述图1和图3所示方法流程的相应步骤。请一并参见图5，在执行如挑选时间切分较好的清唱音频数据，以该音频数据的每个字的时间信息生成目标歌曲的歌词文件的过程中，该装置运行如下单元：

获取模块501，用于获取针对目标歌曲上传的音频数据集合，所述音频数据集合包括多个音频数据。

切分模块502，用于对所述音频数据集合中的每个音频数据进行语音切分，得到所述每个音频数据中每个字的时间信息。

计算模块503，用于根据所述时间信息计算所述每个音频数据与第一音频数据之间的切分距离，并根据所述切分距离获得所述每个音频数据的切分距离和，所述第一音频数据为所述音频数据集合中除所述每个音频数据之外的任一音频数据

排序模块504，用于按照切分距离和从小到大的顺序对所述音频数据集合中的每个音频数据进行排序。

确定模块505，用于确定排序首位的第二音频数据。

生成模块506，用于利用所述第二音频数据中每个字的时间信息生成所述目标歌曲的歌词文件。

可选的，该装置还可以包括剔除模块507，其中：

计算模块503，还用于计算所述音频数据集合中每个音频数据的噪声能量。

剔除模块507，用于将噪声能量大于噪声能量阈值的音频数据从所述音频数据集合中剔除，得到目标音频数据集合。

其中，切分模块502对所述音频数据集合中的每个音频数据进行语音切分，得到所述每个音频数据中每个字的时间信息的具体方式可以为：

对所述目标音频数据集合中的每个音频数据进行语音切分，得到所述每个音频数据中每个字的时间信息。

可选的，切分模块502对所述音频数据集合中的每个音频数据进行语音切分，得到所述每个音频数据中每个字的时间信息的具体方式可以为：

将所述音频数据集合中的每个音频数据转换得到对应的音素列表。

将所述每个音频数据对应的音素列表映射到预先建立的音素模型，得到所述每个音频数据对应的音素模型序列。

将所述每个音频数据语音切分后得到多帧音频数据，获取所述多帧音频数据中的每帧音频数据与所述音素模型序列的匹配度。

确定所述每帧音频数据与所述音素模型序列的匹配度最大化的最优匹配路径，根据所述最优匹配路径得到所述每个音频数据中每个音素的时间信息，将音素合并后确定所述每个音频数据中每个字的时间信息。

可选的，该装置还可以包括判断模块508，其中：

获取模块501，还用于从所述音频数据集合中获取排序前k个音频数据。

计算模块503，还用于根据所述第二音频数据的切分距离和与所述排序前k个音频数据的切分距离和计算所述第二音频数据的可用度。

判断模块508，用于判断所述可用度是否超过预设可用度门限，若是，则触发生成模块506执行所述利用所述第二音频数据中每个字的时间信息生成所述目标歌曲的歌词文件的操作。

可选的，计算模块503根据所述时间信息计算所述每个音频数据与第一音频数据之间的切分距离的具体方式可以为：

针对所述目标歌曲所包含的每个字，根据所述时间信息分别获得所述每个音频数据中所述每个字的第一起始时间和第一持续时间，以及第一音频数据中所述每个字的第二起始时间和第二持续时间。

分别计算所述第一起始时间和所述第二起始时间的第一时间差，以及所述第一持续时间和所述第二持续时间的第二时间差。

根据所述第一时间差和所述第二时间差计算所述每个音频数据与所述第一音频数据之间的切分距离。

可选的，计算模块503根据所述第一时间差和所述第二时间差计算所述每个音频数据与所述第一音频数据之间的切分距离的具体方式可以为：

获取预设的起始时间的第一权重和预设的持续时间的第二权重。

利用所述第一权重、所述第二权重、所述第一时间差和所述第二时间差计算所述每个音频数据与所述第一音频数据之间的切分距离。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(Random AccessMemory，简称RAM)等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种歌词文件生成方法，其特征在于，包括：

获取针对目标歌曲上传的音频数据集合，所述音频数据集合包括多个音频数据；

对所述音频数据集合中的每个音频数据进行语音切分，得到所述每个音频数据中每个字的时间信息；

根据所述时间信息计算所述每个音频数据与第一音频数据之间的切分距离，并根据所述切分距离获得所述每个音频数据的切分距离和，所述第一音频数据为所述音频数据集合中除所述每个音频数据之外的任一音频数据；

按照切分距离和从小到大的顺序对所述音频数据集合中的每个音频数据进行排序，并确定排序首位的第二音频数据；

2.根据权利要求1所述的方法，其特征在于，所述获取针对目标歌曲上传的音频数据集合之后，所述对所述音频数据集合中的每个音频数据进行语音切分，得到所述每个音频数据中每个字的时间信息之前，所述方法还包括：

计算所述音频数据集合中每个音频数据的噪声能量；

将噪声能量大于噪声能量阈值的音频数据从所述音频数据集合中剔除，得到目标音频数据集合；

所述对所述音频数据集合中的每个音频数据进行语音切分，得到所述每个音频数据中每个字的时间信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述音频数据集合中的每个音频数据进行语音切分，得到所述每个音频数据中每个字的时间信息，包括：

将所述音频数据集合中的每个音频数据转换得到对应的音素列表；

将所述每个音频数据对应的音素列表映射到预先建立的音素模型，得到所述每个音频数据对应的音素模型序列；

将所述每个音频数据语音切分后得到多帧音频数据，获取所述多帧音频数据中的每帧音频数据与所述音素模型序列的匹配度；

4.根据权利要求1所述的方法，其特征在于，所述按照切分距离和从小到大的顺序对所述音频数据集合中的每个音频数据进行排序，并确定排序首位的第二音频数据之后，所述方法还包括：

从所述音频数据集合中获取排序前k个音频数据；

根据所述第二音频数据的切分距离和与所述排序前k个音频数据的切分距离和计算所述第二音频数据的可用度；

判断所述可用度是否超过预设可用度门限，若是，则执行所述利用所述第二音频数据中每个字的时间信息生成所述目标歌曲的歌词文件的操作。

5.根据权利要求1～4任一项所述的方法，其特征在于，所述时间信息包括起始时间和持续时间，所述根据所述时间信息计算所述每个音频数据与第一音频数据之间的切分距离，包括：

针对所述目标歌曲所包含的每个字，根据所述时间信息分别获得所述每个音频数据中所述每个字的第一起始时间和第一持续时间，以及第一音频数据中所述每个字的第二起始时间和第二持续时间；

分别计算所述第一起始时间和所述第二起始时间的第一时间差，以及所述第一持续时间和所述第二持续时间的第二时间差；

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一时间差和所述第二时间差计算所述每个音频数据与所述第一音频数据之间的切分距离，包括：

获取预设的起始时间的第一权重和预设的持续时间的第二权重；

7.一种歌词文件生成装置，其特征在于，包括：

获取模块，用于获取针对目标歌曲上传的音频数据集合，所述音频数据集合包括多个音频数据；

切分模块，用于对所述音频数据集合中的每个音频数据进行语音切分，得到所述每个音频数据中每个字的时间信息；

计算模块，用于根据所述时间信息计算所述每个音频数据与第一音频数据之间的切分距离，并根据所述切分距离获得所述每个音频数据的切分距离和，所述第一音频数据为所述音频数据集合中除所述每个音频数据之外的任一音频数据；

排序模块，用于按照切分距离和从小到大的顺序对所述音频数据集合中的每个音频数据进行排序；

确定模块，用于确定排序首位的第二音频数据；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括剔除模块，其中：

所述计算模块，还用于计算所述音频数据集合中每个音频数据的噪声能量；

所述剔除模块，用于将噪声能量大于噪声能量阈值的音频数据从所述音频数据集合中剔除，得到目标音频数据集合；

所述切分模块对所述音频数据集合中的每个音频数据进行语音切分，得到所述每个音频数据中每个字的时间信息的具体方式为：

9.根据权利要求7所述的装置，其特征在于，所述切分模块对所述音频数据集合中的每个音频数据进行语音切分，得到所述每个音频数据中每个字的时间信息的具体方式为：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括判断模块，其中：

所述获取模块，还用于从所述音频数据集合中获取排序前k个音频数据；

所述计算模块，还用于根据所述第二音频数据的切分距离和与所述排序前k个音频数据的切分距离和计算所述第二音频数据的可用度；

所述判断模块，用于判断所述可用度是否超过预设可用度门限，若是，则触发所述生成模块执行所述利用所述第二音频数据中每个字的时间信息生成所述目标歌曲的歌词文件的操作。

11.根据权利要求7～10任一项所述的装置，其特征在于，所述计算模块根据所述时间信息计算所述每个音频数据与第一音频数据之间的切分距离的具体方式为：

12.根据权利要求11所述的装置，其特征在于，所述计算模块根据所述第一时间差和所述第二时间差计算所述每个音频数据与所述第一音频数据之间的切分距离的具体方式为：