CN114038481A

CN114038481A - 一种歌词时间戳生成方法、装置、设备及介质

Info

Publication number: CN114038481A
Application number: CN202111319414.7A
Authority: CN
Inventors: 庄晓滨
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-02-11

Abstract

本申请公开了一种歌词时间戳生成方法、装置、设备及介质，包括：获取同一首歌曲对应的多个目标干声数据；获取每个所述目标干声数据对应的目标声学特征；基于所述目标声学特征确定每个目标干声数据中每一句歌词的开始时间和结束时间，得到第一开始时间和第一结束时间；利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间，得到第二开始时间和第二结束时间；基于多个目标干声数据对应的第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳。这样，最终确定出的歌词时间戳融合了基于多个目标干声数据的声学特征确定的时间以及MFA模型确定确定的时间，能够提升歌词时间戳的准确度。

Description

一种歌词时间戳生成方法、装置、设备及介质

技术领域

本申请涉及语音处理技术领域，特别涉及一种歌词时间戳生成方法、装置、设备及介质。

背景技术

当前，曲库中的歌词文件有两种生成方法，为人工精细标注和基于原唱分离干声自动生成。前者的制作需要消耗大量的人力成本和时间成本，后者的准确性并不高，主要因为原唱分离干声本身就存在很多频谱不完整以及吞字的情况，在质量不佳的分离干声上进行强制对齐，那么对齐结果的精确度也是难以保证的。综上，在实现本发明的过程中，发明人至少发现现有技术中存在生成的歌词时间戳准确度不高的问题。

发明内容

有鉴于此，本申请的目的在于提供一种歌词时间戳生成方法、装置、设备及介质，能够提升歌词时间戳的准确度。其具体方案如下：

第一方面，本申请公开了一种歌词时间戳生成方法，包括：

获取同一首歌曲对应的多个目标干声数据；

获取每个所述目标干声数据对应的目标声学特征；

基于所述目标声学特征确定每个所述目标干声数据中每一句歌词的开始时间和结束时间，得到第一开始时间和第一结束时间；

利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间，得到第二开始时间和第二结束时间；

基于多个所述目标干声数据对应的所述第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳。

可选的，所述获取同一首歌曲对应的多个目标干声数据，包括：

获取同一首歌曲对应的多个干声数据；

判断每个所述干声数据是否满足预设音准标准和/或预设音质标准；

若满足，则将相应的干声数据确定为目标干声数据。

可选的，判断每个所述干声数据是否满足预设音准标准，包括：

确定每个所述干声数据的基频与所述歌曲的旋律之间的偏差；

根据所述偏差确定所述干声数据的音准得分；

判断所述音准得分是否大于第一预设阈值，若是，则判定相应的所述干声数据满足所述预设音准标准，否则，判定相应的所述干声数据不满足所述预设音准标准。

可选的，判断每个所述干声数据是否满足预设音质标准，包括：

确定每个所述干声数据的谐波能量和非谐波能量之间的比值；

判断所述比值是否大于第二预设阈值，若是，则判定相应的所述干声数据满足所述预设音质标准，否则，判定相应的所述干声数据不满足所述预设音质标准。

可选的，所述获取每个所述目标干声数据对应的目标声学特征，包括：

利用低通滤波器对每个所述目标干声数据进行过滤，得到每个所述目标干声数据在预设频率以下的信号；

确定每个所述信号的能量值；

相应的，所述基于所述目标声学特征确定每个所述目标干声数据中每一句歌词的开始时间和结束时间，得到第一开始时间和第一结束时间，包括：

基于所述能量值从所述目标干声数据中确定出包含语音的干声片段；

将所述干声片段的起始时间确定为相应的一句歌词的起始时间，将所述干声片段的结束时间确定为相应的一句歌词的结束时间，得到第一开始时间和第一结束时间。

可选的，所述利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间，得到第二开始时间和第二结束时间，包括：

将每个所述目标干声数据的全部所述干声片段输入至目标MFA模型；

获取所述目标MFA模型输出的每个所述干声片段中每个字的开始时间和结束时间，得到第二开始时间和第二结束时间。

可选的，还包括：

获取干声训练数据集；其中，所述干声训练数据集包括整首歌曲对应的干声训练数据；

从所述干声训练数据中切分出干声片段数据，得到干声片段数据集；

利用所述干声片段数据集对MFA模型进行训练，直至所述MFA模型收敛，则将当前的所述MFA模型确定为所述目标MFA模型。

可选的，所述基于多个所述目标干声数据对应的所述第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳，包括：

对于任一句歌词，确定多个所述目标干声数据中该句歌词对应的所述第一开始时间的中位数，得到第一中位数，以及确定多个所述目标干声数据中该句歌词对应的所述第一结束时间的中位数，得到第二中位数；

将所述第一中位数确定为该句歌词中第一个字的时间戳，以及将所述第二中位数确定为该句歌词中最后一个字的时间戳；

确定多个所述目标干声数据中该句歌词中目标字对应的第二开始时间的中位数、第二结束时间的中位数，得到所述目标字的时间戳；

其中，所述目标字为该句歌词中的第一个字以及最后一个字之外的字。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的歌词时间戳生成方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的歌词时间戳生成方法。

可见，本申请先获取同一首歌曲对应的多个目标干声数据，之后获取每个所述目标干声数据对应的目标声学特征，然后基于所述目标声学特征确定每个所述目标干声数据中每一句歌词的开始时间和结束时间，得到第一开始时间和第一结束时间，并且利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间，得到第二开始时间和第二结束时间，最后基于多个所述目标干声数据对应的所述第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳。也即，本申请分别基于同一首歌曲对应的多个目标干声数据的声学特征确定出目标干声数据中每一句歌词的开始时间和结束时间，以及利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间，最后利用两种方式确定出的时间信息确定最终的歌曲的歌词时间戳，这样，最终确定出的歌词时间戳融合了基于多个目标干声数据的声学特征确定的时间以及MFA模型确定确定的时间，能够提升歌词时间戳的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的歌词时间戳生成方案所适用的系统框架示意图；

图2为本申请公开的一种歌词时间戳生成方法流程图；

图3为本申请公开的一种具体的歌词时间戳生成方法流程图；

图4为本申请公开的一种具体的歌词时间戳生成方法流程图；

图5为本申请公开的一种具体的歌词时间戳融合示意图；

图6为本申请公开的一种具体的歌词时间戳生成方法流程图；

图7为本申请提供的一种歌词时间戳生成装置结构示意图；

图8为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

当前，曲库中的歌词文件有两种生成方法，为人工精细标注和基于原唱分离干声自动生成。前者的制作需要消耗大量的人力成本和时间成本，后者的准确性并不高，主要因为原唱分离干声本身就存在很多频谱不完整以及吞字的情况，在质量不佳的分离干声上进行强制对齐，那么对齐结果的精确度也是难以保证的。综上，在实现本发明的过程中，发明人至少发现现有技术中存在生成的歌词时间戳准确度不高的问题。为此，本申请实施例公开了一种歌词时间戳生成方案，能够提升歌词时间戳的准确度。

本申请的歌词时间戳生成方案中，采用的系统框架具体可以参见图1所示，具体可以包括：后台服务器和与后台服务器建立通信连接的若干数量的用户端。其中，用户端包括但不限于平板电脑、笔记本电脑、智能手机、个人电脑(personal computer，PC)，此处不做限定。

本申请中，后台服务器执行歌词时间戳生成方法的步骤，包括获取同一首歌曲对应的多个目标干声数据；获取每个所述目标干声数据对应的目标声学特征；基于所述目标声学特征确定每个所述目标干声数据中每一句歌词的开始时间和结束时间，得到第一开始时间和第一结束时间；利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间，得到第二开始时间和第二结束时间；基于多个所述目标干声数据对应的所述第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳。当用户端播放相应歌曲时，后台服务器基于该歌曲的歌词时间戳将该歌曲的歌词推送至用户端显示。

参见图2所示，本申请实施例公开了一种歌词时间戳生成方法，包括：

步骤S11：获取同一首歌曲对应的多个目标干声数据。

在具体的实施方式中，可以获取同一首歌曲对应的多个干声数据；判断每个所述干声数据是否满足预设音准标准和/或预设音质标准；若满足，则将相应的干声数据确定为目标干声数据。

本申请实施例可以获取同一首歌曲的多个干声数据，比如，通过某款K歌APP获取同一首歌曲的多个用户的干声数据。由于每一首歌曲对应的用户的干声数据质量参差不齐，低质量的干声数据对最后生成歌词时间戳是存在负面作用的，因此，本申请实施例对多个干声数据进行筛选，具体可以从音质和/或音准两个维度进行筛选。

其中，判断每个所述干声数据是否满足预设音准标准，具体包括：确定每个所述干声数据的基频与所述歌曲的旋律之间的偏差；根据所述偏差确定所述干声数据的音准得分；判断所述音准得分是否大于第一预设阈值，若是，则判定相应的所述干声数据满足所述预设音准标准，否则，判定相应的所述干声数据不满足所述预设音准标准。

在具体的实施方式中，可以通过预设音准打分算法对干声数据进行评估，具体可以通过比较干声数据的基频信息和歌曲MIDI(即Musical Instrument DigitalInterface，乐器数字接口)文件中旋律之间的偏差来确定音准得分，偏差越小，音准得分越高。可以理解的是，MIDI文件中的旋律为具备标准音准的旋律。

并且，判断每个所述干声数据是否满足预设音质标准，包括：确定每个所述干声数据的谐波能量和非谐波能量之间的比值；判断所述比值是否大于第二预设阈值，若是，则判定相应的所述干声数据满足所述预设音质标准，否则，判定相应的所述干声数据不满足所述预设音质标准。

也即，本申请实施例可以通过分析干声数据的谐波能量和非谐波能量之比来评估干声数据的音质，比值越大，则干声数据越干净。

这样，通过音准和/或音质两个维度的评估，最终可以筛选出若干符合条件的优质干声。

步骤S12：获取每个所述目标干声数据对应的目标声学特征。

步骤S13：基于所述目标声学特征确定每个所述目标干声数据中每一句歌词的开始时间和结束时间，得到第一开始时间和第一结束时间。

也即，本申请实施例先获取目标干声数据的声学特征，之后基于声学特征确定出每一句歌词的开始时间和结束时间。

步骤S14：利用目标MFA(即Montreal Forced Aligner，强制对齐)模型确定每个所述目标干声数据中每个字的开始时间和结束时间，得到第二开始时间和第二结束时间。

步骤S15：基于多个所述目标干声数据对应的所述第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳。

需要指出的是，现有方案中，使用的是原唱歌曲的分离干声，虽然声伴分离技术在学术界和工业界有了较好的进展，但是仍然无法避免不同流派不同歌曲分离干声质量参差不齐的问题。多数表现为频谱缺失以及吞字的情况，因此声学模型在分离干声上的表现也会大打折扣。本申请实施例中的目标干声数据为经过筛选的优质的多个用户的目标干声数据，将基于同一首歌曲的多个优质的目标干声数据的声学特征确定的每一句歌词的开始时间和结束时间以及利用MFA模型确定的目标干声数据的每个字的开始时间和结束时间，确定出最终的歌词时间戳，相对利用原唱歌曲中分离出的干声数据，避免了声学模型分离出的干声质量不足，影响最终的歌词时间戳信息准确度的问题，能够准确的确定出歌词时间戳。

可见，本申请实施例先获取同一首歌曲对应的多个目标干声数据，之后获取每个所述目标干声数据对应的目标声学特征，然后基于所述目标声学特征确定每个所述目标干声数据中每一句歌词的开始时间和结束时间，得到第一开始时间和第一结束时间，并且利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间，得到第二开始时间和第二结束时间，最后基于多个所述目标干声数据对应的所述第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳。也即，本申请实施例分别基于同一首歌曲对应的多个目标干声数据的声学特征确定出目标干声数据中每一句歌词的开始时间和结束时间，以及利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间，最后利用两种方式确定出的时间信息确定最终的歌曲的歌词时间戳，这样，最终确定出的歌词时间戳融合了基于多个目标干声数据的声学特征确定的时间以及MFA模型确定确定的时间，能够提升歌词时间戳的准确度。

参见图3所示，本申请实施例公开了一种具体的歌词时间戳生成方法，包括：

步骤S21：获取同一首歌曲对应的多个目标干声数据。

关于上述步骤S21的具体实施过程可以参考前述实施例公开的内容，在此不再进行赘述。

步骤S22：利用低通滤波器对每个所述目标干声数据进行过滤，得到每个所述目标干声数据在预设频率以下的信号。

步骤S23：确定每个所述信号的能量值。

步骤S24：基于所述能量值从所述目标干声数据中确定出包含语音的干声片段。

需要指出的是，对于语音信号而言，在2KHz以下频带包含的能量较高，而噪声在2～4KHz或者4KHz以上频带比0～2HKz频带有更高的能量。因此对目标干声数据先使用低通滤波器，过滤出2K以下的信号，然后当该信号的能量大于某一阈值时，可以认为有语音存在。

在具体的实施方式中，对于任一所述信号，可以确定所述信号的每一帧数据的能量值，从所述信号中确定出目标信号片段，其中，所述目标信号片段为信号片段中能量值大于预设能量阈值的帧数与信号片段的总帧数的比值大于预设比例阈值的信号片段，将目标信号片段对应的目标干声数据中的片段确定为包含语音的干声片段。

需要指出的是，若目标干声数据为经过音质标准进行筛选得到的数据，对于信噪比较高的干声数据而言，本申请实施例中的基于能量强度的语音检测方法效果具有更好的效果。

步骤S25：将所述干声片段的起始时间确定为相应的一句歌词的起始时间，将所述干声片段的结束时间确定为相应的一句歌词的结束时间，得到第一开始时间和第一结束时间。

也即，本申请实施例以VAD(即Voice Activity Detection，话音激活检测)的方式，准确的确定出每一句歌词的开始时间和结束时间。

步骤S26：利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间，得到第二开始时间和第二结束时间。

步骤S27：基于多个所述目标干声数据对应的所述第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳。

可见，本申请实施例利用低通滤波器对每个所述目标干声数据进行过滤，得到每个所述目标干声数据在预设频率以下的信号，排除了噪声的干扰。然后确定每个所述信号的能量值，基于所述能量值从所述目标干声数据中确定出包含语音的干声片段，进而准确的确定出每一句歌词的开始时间和结束时间，得到VAD结果，并将VAD结果和MFA结果融合，从而提升了歌词时间戳的准确度。

参见图4所示，本申请实施例公开了一种具体的歌词时间戳生成方法，包括：

步骤S31：获取干声训练数据集；其中，所述干声训练数据集包括整首歌曲对应的干声训练数据。

在具体的实施方式中，所述干声训练数据可以为利用预设音准标准和/或预设音质标准筛选得到的数据，关于具体的筛选过程可以参考前述实施例公开的内容，在此不再进行赘述。

步骤S32：从所述干声训练数据中切分出干声片段数据，得到干声片段数据集。

在具体的实施方式中，可以利用低通滤波器对每个所述干声训练数据进行过滤，得到每个干声训练数据在预设频率以下的信号；确定每个信号的能量值；基于能量值从干声训练数据中确定出包含语音的干声片段数据，从干声训练数据中切分出包含语音的干声片段数据，得到干声片段数据集。

其中，关于包含语音的干声片段数据的具体过程可参考前述实施例公开的从所述目标干声数据中确定出包含语音的干声片段的过程。

需要指出的，一首歌曲的干声时长通常为3-5分钟，如果发生局部偏差会对全局造成较大干扰。因此对干声进行切分可以提升鲁棒性，也可以降低模型训练复杂度。

步骤S33：利用所述干声片段数据集对MFA模型进行训练，直至所述MFA模型收敛，则将当前的所述MFA模型确定为所述目标MFA模型。

本申请实施例中使用的对齐模型为基于kaldi的MFA强制对齐工具。首先构建中文到拼音(例如“汉→han，字→zi)以及拼音到音素(han→[h,an]，zi→[z,i])的映射关系，其中声母不发音的拼音需要通过特殊标记来构建映射关系(yu→[_u,u])。在训练MFA模型时，将干声片段、歌词片段拼音以及拼音到音素的映射表作为输入，在经过训练迭代后，MFA模型收敛，得到目标MFA模型。

步骤S34：获取同一首歌曲对应的多个目标干声数据。

步骤S35：获取每个所述目标干声数据对应的目标声学特征。

步骤S36：基于所述目标声学特征确定每个所述目标干声数据中每一句歌词的开始时间和结束时间，得到第一开始时间和第一结束时间。

关于上述步骤S34至S36的具体实施过程，可以参考前述实施例公开的内容，在此不再进行赘述。

并且，上述步骤S34至S36与步骤S31至S33不具有先后顺序。

步骤S37：将每个所述目标干声数据的全部干声片段输入至目标MFA模型。

也即，参考前述实施例公开的内容，从所述目标干声数据中确定出包含语音的干声片段，并从目标干声数据中切分出包含语音的干声片段，输入至目标MFA模型。

在具体的实施过程中，将每个所述目标干声数据的全部干声片段、干声片段对应的歌词拼音片段、以及拼音到音素的映射表输入至目标MFA模型。

步骤S38：获取所述目标MFA模型输出的每个所述干声片段中每个字的开始时间和结束时间，得到第二开始时间和第二结束时间。

步骤S39：基于多个所述目标干声数据对应的所述第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳。

在具体的实施方式中，可以对于任一句歌词，确定多个所述目标干声数据中该句歌词对应的所述第一开始时间的中位数，得到第一中位数，以及确定多个所述目标干声数据中该句歌词对应的所述第一结束时间的中位数，得到第二中位数；确定多个所述目标干声数据中该句歌词中第一个字对应的第二结束时间的中位数，得到第三中位数，以及确定多个所述目标干声数据中该句歌词中最后一个字对应的第二开始时间的中位数，得到第四中位数；将所述第一中位数和第三中位数确定为该句歌词中第一个字的时间戳，以及将所述第二中位数和第四中位数确定为该句歌词中最后一个字的时间戳；确定多个所述目标干声数据中该句歌词中目标字对应的第二开始时间的中位数、第二结束时间的中位数，得到所述目标字的时间戳；其中，所述目标字为该句歌词中的第一个字以及最后一个字之外的字。

需要指出的是，训练得到的目标MFA模型能够分析出干声片段中每个字的时间戳信息，但一方面用户干声片段会存在一些节奏不够准确的问题，另一方面MFA模型也存在着对齐精度不够的问题，因此需要进行信息的融合，本申请实施例中，对于每一句歌词，第一个字的时间戳中的开始时间和最后一个字的时间戳中的结束时间是对所有对应干声片段VAD结果的中位数，第一字的结束时间、最后一个字的开始时间以及其他字的时间戳是所有干声片段MFA结果中位数。这样，可以得到高精度的歌词时间戳。

例如，参见图5所示，图5为本申请实施例公开的一种具体的歌词时间戳融合示意图。同一句歌词对应3个干声片段，干声片段1、干声片段2、干声片段3，对3个干声片段的结果数据进行中值滤波，具体的，该句歌词的第一个字的开始时间和最后一个字的结束时间采用3个干声片段的VAD结果的中位数，第一个字的结束时间、最后一个字的开始时间以及其它字的时间戳为3个干声片段的MFA结果的中位数。

例如，参见图6所示，图6为本申请实施例公开的一种具体的歌词时间戳生成方法流程图。在训练阶段，先获取同一首歌曲对应的多个用户干声，以及歌词信息，歌词信息为歌词文本，然后基于预设音准标准和/或预设音质标准从多个用户干声中筛选出目标干声数据，图6中包括干声1、干声2、干声3，在具体的实施过程中不限于3个干声，VAD算法利用干声数据的声学特征，分析得到每一句歌词的开始和结束时间，并将一个完整的干声切分成多个干声片段，也即基于预设的VAD算法确定出包含语音的干声片段，以及干声片段对应的一句歌词的开始时间和结束时间，并切分出干声片段，具体的VAD算法可以参考前述实施例公开的内容，然后利用干声片段训练MFA模型，直到模型收敛，得到目标MFA模型。在应用阶段，同样的，获取待生成时间戳的歌曲的多个用户干声，以及歌词信息，然后基于预设音准标准和/或预设音质标准从多个用户干声中筛选出目标干声数据，图6中包括干声1、干声2、干声3，在具体的实施过程中不限于3个干声，然后基于预设的VAD算法确定出包含语音的干声片段，得到VAD结果即干声片段对应的一句歌词的开始时间和结束时间，并切分出干声片段，输入训练后的目标MFA模型，然后将VAD结果和MFA的对齐结果1、对齐结果2、对齐结果3融合，得到最终的歌词时间戳。

可见，本申请实施例利用干声片段训练MFA模型，提升模型的鲁棒性以及降低模型训练的复杂度，并且，从所述目标干声数据中确定出包含语音的干声片段，进而准确的确定出每一句歌词的开始时间和结束时间，得到VAD结果，并将VAD结果和MFA结果融合，融合方式为每句歌词的第一个字的开始时间和最后一个字的结束时间采用多个目标干声数据对应的VAD结果的中位数，其余字使用MFA结果的中位数，克服了单个干声经过MFA模型得到的时间戳信息通常在长元音以及边界信息上不够准确的问题，从而提升了歌词时间戳的准确度。

下面，以某款音乐APP为例，对本申请的技术方案进行说明。

假设用户在用户端安装了这款音乐APP，打开这款音乐APP，并查找到歌曲《你的样子》，点击唱这首歌，这款APP播放《你的样子》的伴奏，并基于《你的样子》的时间戳信息显示相应的歌词，用户对照歌词唱这首歌。

其中，这款音乐APP的后台服务器用于生成《你的样子》的歌词时间戳，具体过程包括：获取多个用户演唱的《你的样子》的干声数据，然后基于预设音准标准和预设音质标准从中筛选出多个优质的目标干声数据，然后利用低通滤波器对每个目标干声数据进行过滤，得到每个目标干声数据中频率在2KHZ以下的信号；确定每个信号的能量值，基于能量值从目标干声数据中确定出包含语音的干声片段，将干声片段的起始时间确定为相应的一句歌词的起始时间，将干声片段的结束时间确定为相应的一句歌词的结束时间，得到第一开始时间和第一结束时间，并切分出干声片段，输入至目标MFA模型，用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间，得到第二开始时间和第二结束时间，对于任一句歌词，确定多个所述目标干声数据中该句歌词对应的所述第一开始时间的中位数，得到第一中位数，以及确定多个所述目标干声数据中该句歌词对应的所述第一结束时间的中位数，得到第二中位数；确定多个所述目标干声数据中该句歌词中第一个字对应的第二结束时间的中位数，得到第三中位数，以及确定多个所述目标干声数据中该句歌词中最后一个字对应的第二开始时间的中位数，得到第四中位数；将所述第一中位数和第三中位数确定为该句歌词中第一个字的时间戳，以及将所述第二中位数和第四中位数确定为该句歌词中最后一个字的时间戳；确定多个所述目标干声数据中该句歌词中目标字对应的第二开始时间的中位数、第二结束时间的中位数，得到所述目标字的时间戳；其中，所述目标字为该句歌词中的第一个字以及最后一个字之外的字。也即，对VAD结果和MFA进行融合，得到最终的歌词时间戳。例如，筛选出3个目标干声数据，切分出相应的干声片段，其中，“我听到传来的谁的声音”这个句歌词对应的3个干声片段，第一开始时间分别为0分13.58秒、0分14.01秒，0分14.34秒，取中位数0分14.01秒作为“我”的开始时间、第一结束时间分别为0分16.59秒、0分17.01秒，0分17.34秒，取中位数0分17.01秒为“音”的结束时间，“我”的结束时间取相应第二结束时间的中位数、“音”的开始时间取相应第一开始时间的中位数。“听”、“到”、“传”、“来”、“的”、“谁”、“的”、“声”的时间戳信息为相应的各干声片段的第二开始时间、第二结束时间的中位数。

这样得到高精度的歌词戳，能够帮助用户更好地把握歌唱节奏，从而提升用户体验，也可以作为歌声节奏评价的参考标准。

参见图7所示，本申请实施例公开了一种歌词时间戳生成装置，包括：

目标干声数据获取模块11，用于获取同一首歌曲对应的多个目标干声数据；

目标声学特征获取模块12，用于获取每个所述目标干声数据对应的目标声学特征；

第一时间信息获取模块13，用于基于所述目标声学特征确定每个所述目标干声数据中每一句歌词的开始时间和结束时间，得到第一开始时间和第一结束时间；

第二时间信息获取模块14，用于利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间，得到第二开始时间和第二结束时间；

歌词时间戳生成模块15，用于基于多个所述目标干声数据对应的所述第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳。

其中，目标干声数据获取模块11，具体包括：

干声数据获取子模块，用于获取同一首歌曲对应的多个干声数据；

干声数据判断子模块，用于判断每个所述干声数据是否满足预设音准标准和/或预设音质标准；

目标干声数据确定子模块，用于干声数据判断子模块结果为满足，则将相应的干声数据确定为目标干声数据。

在具体的实施方式中，干声数据判断子模块，具体用于：

根据所述偏差确定所述干声数据的音准得分；

在具体的实施方式中，干声数据判断子模块，具体用于：

目标声学特征获取模块12，具体用于：

确定每个所述信号的能量值；

相应的，相应的，第一时间信息获取模块13，具体用于：

进一步的，第二时间信息获取模块14，具体用于：

另外，所述装置，还包括模型训练模块，用于：

在具体的实施方式中，歌词时间戳生成模块15，具体用于：

确定多个所述目标干声数据中该句歌词中第一个字对应的第二结束时间的中位数，得到第三中位数，以及确定多个所述目标干声数据中该句歌词中最后一个字对应的第二开始时间的中位数，得到第四中位数；

将所述第一中位数和第三中位数确定为该句歌词中第一个字的时间戳，以及将所述第二中位数和第四中位数确定为该句歌词中最后一个字的时间戳；

进一步的，本申请实施例还提供了一种电子设备。图8是根据一示例性实施例示出的电子设备20结构图，图中的内容不能被认为是对本申请的使用范围的任何限制。

图8为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的歌词时间戳生成方法中的相关步骤。另外，本实施例中的电子设备20具体可以为服务器。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及音频数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中音频数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的歌词时间戳生成方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的歌词时间戳生成方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种歌词时间戳生成方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种歌词时间戳生成方法，其特征在于，包括：

获取同一首歌曲对应的多个目标干声数据；

获取每个所述目标干声数据对应的目标声学特征；

2.根据权利要求1所述的歌词时间戳生成方法，其特征在于，所述获取同一首歌曲对应的多个目标干声数据，包括：

获取同一首歌曲对应的多个干声数据；

若满足，则将相应的干声数据确定为目标干声数据。

3.根据权利要求2所述的歌词时间戳生成方法，其特征在于，判断每个所述干声数据是否满足预设音准标准，包括：

根据所述偏差确定所述干声数据的音准得分；

4.根据权利要求2所述的歌词时间戳生成方法，其特征在于，判断每个所述干声数据是否满足预设音质标准，包括：

5.根据权利要求1所述的歌词时间戳生成方法，其特征在于，所述获取每个所述目标干声数据对应的目标声学特征，包括：

确定每个所述信号的能量值；

6.根据权利要求5所述的歌词时间戳生成方法，其特征在于，所述利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间，得到第二开始时间和第二结束时间，包括：

7.根据权利要求1所述的歌词时间戳生成方法，其特征在于，还包括：

8.根据权利要求1至7任一项所述的歌词时间戳生成方法，其特征在于，所述基于多个所述目标干声数据对应的所述第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至8任一项所述的歌词时间戳生成方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的歌词时间戳生成方法。