CN111210850B

CN111210850B - 歌词对齐方法及相关产品

Info

Publication number: CN111210850B
Application number: CN202010027977.8A
Authority: CN
Inventors: 庄晓滨
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2021-06-25
Anticipated expiration: 2040-01-10
Also published as: CN111210850A

Abstract

本申请实施例提供了一种歌词对齐方法及相关产品，该方法包括：根据预设的时间窗口对所述人声进行处理，得到N个音频帧；根据所述预设的时间窗口以及多个歌词数据中每句歌词的时间戳对每个歌词数据进行标记，得到每个歌词数据的标记序列；根据所述N个音频帧以及每个歌词数据的标记序列确定所述多个歌词数据中的目标歌词数据。采用本申请实施例可以提高歌词对齐效率。

Description

歌词对齐方法及相关产品

技术领域

本申请涉及音频处理技术领域，具体涉及一种歌词对齐方法及相关产品。

背景技术

近些年来，音乐创作速度呈现爆炸式增长，每天有成百上千首原创歌曲产生。对于K歌和音乐播放平台来说，歌曲和歌词数据的来源比较广泛，歌词数据的制作水准也参差不齐，难以保证每首歌曲的歌词数据是和歌曲严格对齐的。如果歌词和歌曲对不齐，会严重影响听歌和K歌的体验。

但是，判断歌词数据和歌曲是否对齐是通过人工进行实现的。但是，每天产生的音乐作品太多，通过人工对齐的方式来进行歌词对齐，需要投入大量的人力资源；而且，人工判断歌词与歌曲是否对齐，主观性比较强，会导致判断的精度较差，将未对齐的歌词和歌曲上传至K歌系统，影响用户的K歌体验。

发明内容

本申请实施例提供了一种歌词对齐方法及相关产品，通过多个音频帧以及每个歌词数据的标记序列自动对歌词进行对齐，进而提高歌词对齐的效率与智能化。

第一方面，本申请实施例提供一种歌词对齐方法，包括：

对歌曲进行分离，得到所述歌曲中的人声；

根据预设的时间窗口对所述人声进行处理，得到N个音频帧；

根据所述预设的时间窗口以及多个歌词数据中每句歌词的时间戳对每个歌词数据进行标记，得到每个歌词数据的标记序列；

根据所述N个音频帧以及每个歌词数据的标记序列确定所述N个歌词数据中的目标歌词数据。

第二方面，本申请实施例提供一种歌词对齐装置，其特征在于，包括：

分离单元，用于对歌曲进行分离，得到所述歌曲的人声和伴奏；

分帧单元，用于按照预设的时间窗口对所述人声进行处理，得到N个音频帧；

标记单元，用于根据所述预设的时间窗口以及多个歌词数据中每句歌词的时间戳对每个歌词数据进行标记，得到每个歌词数据的标记序列；

确定单元，用于根据所述N个音频以及每个歌词数据的标记序列确定所述 N个歌词数据中的目标歌词数据。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如第一方面所述的方法中的步骤的指令。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得计算机执行如第一方面所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机可操作来使计算机执行如第一方面所述的方法。

实施本申请实施例，具有如下有益效果：

可以看出，在本申请实施例中，首先对歌曲进行分离，得到人声；然后，对人声信号进行分帧，得到N个音频帧，并对每个歌词数据进行标记，得到标记序列；然后，基于每个歌词数据的标记序列以及该N个音频帧确定出该多个歌词数据中的目标歌词数据，进而得到了与该歌曲对齐的歌词数据，实现自动对歌词数据进行对齐，减少了人力的投入；并且排除了人工对齐时的主观因素，提高了歌词的对齐精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的一种歌词对齐方法的流程示意图；

图1b为本申请实施例提供的一种确定总能量值的示意图；

图2为本申请实施例提供的一种人声与伴奏分离方法的流程示意图；

图3为本申请实施例提供的另一种人声与伴奏分离方法的流程示意图；

图4a为本申请实施例提供的一种神经网络的网络结构图；

图4b为本申请实施例提供的另一种神经网络的网络结构图；

图5为本申请实施例提供的另一种歌词对齐方法的流程示意图；

图6为本申请实施例提供的一种歌词对齐装置的结构示意图；

图7为本申请实施例提供的一种歌词对齐装置的功能单元组成框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请中的歌词对齐装置可以包括智能手机(如Android手机、iOS手机、 WindowsPhone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备 MID(Mobile InternetDevices，简称：MID)或穿戴式设备等。上述歌词对齐装置仅是举例，而非穷举，包含但不限于上述歌词对齐装置。在实际应用中，上述歌词对齐装置还可以包括：智能车载终端、计算机设备等等。

为了便于理解本申请，首先对本申请所涉及到的相关技术进行解释说明。

声伴分离：将歌曲中的伴奏和人声分离出来的技术手段；

QRC格式：属于歌词数据的一种格式，即QQ音乐中一种记录歌词中每个歌词的时间戳的歌词数据格式，可精确到毫秒。

参阅图1a，图1a为本申请实施例提供的一种歌词对齐方法。该方法应用于歌词对齐装置。该方法包括但不限于以下步骤：

101：歌词对齐装置对歌曲进行分离，得到所述歌曲的人声和伴奏。

通过声伴分离技术对歌曲进行分离，得到该歌曲中的人声和伴奏。声伴分离技术在后面详细叙述，在此不做过多描述。

102：歌词对齐装置根据预设的时间窗口对所述人声进行处理，得到N个音频帧。

可选的，在按照预设的时间窗口对所述人声进行处理，得到N个音频帧之前，首先对该人声进行缩放处理。具体来说，根据该人声的响度确定缩放比例，即根据该人声的响度以及所要缩放到的目标响度确定缩放比例；然后，根据该缩放比例对该人声的响度进行缩放，得到缩放后的人声，避免音量过高或者过低而难以计算该人声的能量值。

在实际应用中，对该人声进行缩放时，实质上就是将该人声的响度与缩放比例对应的固定值进行相加减。例如，当缩放比例等于1/2时，在将该人声的响度进行缩小时，可将该人声的响度统一减去6dB。

进一步地，对缩放后的人声进行降采样，得到目标人声。

一般来说，从歌曲中分离出的人声的采样频率为44.1KHz，通过降采样之后得到的目标人声的采样频率为16KHz，从而减少了后续进行歌词数据匹配时的数据量，进而提升歌词数据匹配的精确度。

进一步地，对该目标人声进行傅里叶变换(包括短时傅里叶变换和快速傅里叶变换)，得到该目标人声对应的，并使用预设的时间窗口(窗函数)对该频域信号进行分帧处理，得到N个音频帧。

举例来说，该时间窗口对应的采样点n可以为1024，窗移hop_length可以为256，窗长win_length可以为1024。故使用该窗函数对该人声的频域信号进行分帧后，每个音频帧对应的时长为256/16000＝16ms。因此，当该歌曲为4分钟时，可划分出15000个音频帧。

103：歌词对齐装置根据所述预设的时间窗口以及多个歌词数据中每句歌词的时间戳对每个歌词数据进行标记，得到每个歌词数据的标记序列。

具体来说，首先根据该预设的时间窗口对该歌曲的播放时长进行分割，得到N个播放时间段。即按照对频域信号进行分帧的处理方式，对该播放时长进行切割，得到N个播放时间段，故该N个播放时间段与该N个音频帧一一对应。

举例来说，上述每个音频帧对应的时长为16ms。因此，将该播放时长每隔 16ms进行一次分割，得到一个播放时间段。同样可将4分钟的歌曲分割出1500 个播放时间段。

然后，根据每个歌词数据的时间戳确定该每个播放时间段是否对应有歌词数据，如果有，可以将该播放时间段以第一预设值进行标记，如果否，可以将该播放是简单以第二预设值进行标记，其中，每个歌词数据的格式为QRC格式。

该一预设值可以为1或者其他值，该第二预设值可以为0或者其他值。

具体来说，根据时间戳确定每一个歌词的播放时刻，然后，获取每个播放时间段的起始时刻和终止时刻，并确定该起始时刻和/或终止时刻是否均对应有歌词数据，如果该起始时刻和/或终止时刻对应有歌词数据，则确定该播放时间段对应有歌词数据，如果该起始时刻和终止时刻均没有歌词数据进行对应，则确定该播时间段内没有歌词对应。

然后，将各个播放时间段对应的标记好的预设值组成每个歌词数据的标记序列。

举例来说，如0-16ms、16ms-32ms、32ms-64ms、64ms-96ms均对应有歌词，而112ms-128ms、144ms-160ms、176ms-192ms、208ms-2240ms均没有歌词对应，则确定该歌词数据对应的标记序列为[1 1 1 1 0 0 0 0]。

可选的，在对每个歌词数据进行标记之前，首先需要得到该多个歌词数据，可将该多个歌词数据作为候选歌词数据。

具体地，根据预设的偏移量对歌曲的歌词数据(也可称为原始歌词数据) 进行M次调整，得到M个歌词数据，将该M个歌词数据和原始歌词数据组成该多个歌词数据。

其中，该偏移量为时间偏移量。即使用该偏移量对该原始歌词数据的时间戳进行偏移，在偏移时需要将该时间戳往前偏移多次，往后也偏移多次，得到 M个歌词数据。故该M个歌词数据中的部分歌词数据的时间戳中所记录的每个歌词的播放时间早于该歌曲的歌词数据的时间戳中所记录的播放时间(即往前偏移得到的多个歌词数据)，该M个歌词数据中的另一部分歌词数据的时间戳中所记录的每个歌词的播放时间晚于该歌曲的歌词数据的时间戳中所记录的播放时间(即往后偏移得到的多个歌词数据)。

其中，往前偏移的次数与往后偏移的次数可以相同，也可以不同，本申请对此不做限定。另外，每次往前偏移或者往后偏移所偏移的时间差可以相同，也可以不同。

此外，在偏移时，当偏移的次数过多时，则会导致生成的歌词数据的时间戳与原始歌词数据的时间戳之间的差值过大，此时，生成的歌词数据必然不会是与该歌曲对齐的文件。因此，在偏移之前为每个方向的偏移设置一个偏移阈值，其中，往前偏移和往后偏移的各自对应的阈值可以相同，也可以不同。

举例来说，如每次偏移的偏移量为2ms，且往前偏移和往后偏移的阈值均为 20ms。因此，往前偏移10次，往后偏移10次，则可得到20个对时间戳偏移后的歌词数据，将该20个歌词数据和原始歌词数据进行组合得到21个歌词数据。

104：歌词对齐装置根据所述多个音频以及每个歌词数据的标记序列确定所述多个歌词数据中的目标歌词数据。

可选的，确定每个音频帧的能量值，具体来说，确定每个音频帧上各个频点的幅值的平方之和，将该平方之和作为该音频帧的能量值。在实际应用中，还可以采用其他方式来计算每个音频帧的能量值。例如，计算每个音频帧上各个频点的实部的平方之和作为该音频帧的能量值。

然后，按照音频帧在时间上的先后顺序将该N个音频帧对应的能量值组成与该人声对应的能量值序列；根据该能量值序列以及每个歌词数据的标记序列得到每个歌词数据的总能量值，即将该能量值序列以及每个歌词数据的标记序列进行点乘操作，得到每个歌词数据的总能量值；最后，将总能量值最大的歌词数据作为该多个歌词数据中的目标歌词数据，也就是与该歌曲对齐的文件。

如图1b所示，根据各个歌词标记序列与音频帧的能量值进行点乘，得到每个歌词标记序列对应的总能量值。如图1b所示，计算出歌词标记序列2对应的总能量值最大，进而将该歌词标记序列2对应的歌词数据作为目标歌词数据。

另外，需要说明的是，由于歌词数据的时间戳与歌曲的播放时长是相对应的。因此，在本申请中还可以将人声进行偏移，得到多个候选人声，偏移方式与上述对歌词数据进行偏移的方式类似，不再叙述。然后，对多个候选人声分别进行处理，得到每个候选人声对应的能量值序列，其中，确定能量值的方式与上述一致，不再叙述；由于多人声进行了偏移，则无需对歌词数据进行偏移，因此，只需确定该原始歌词数据的标记序列；然后，将每个候选人声的能量值序列与该标记序列进行点乘，得到每个候选人声对应的总能量值；将总能量值对应的候选人声作为目标人声。最后，获取该目标人声对应的偏移量，使用该偏移量对该原始歌词数据的时间戳进行偏移，进而得到目标歌词数据。

下面提供一种对歌曲中人声和伴奏进行分离的方式。

参阅图2，图2为本申请实施例提供的一种人声和伴奏分离方法的流程示意图，该方法应用于歌词对齐装置。该方法包括但不限于以下步骤：

201：歌词对齐装置对歌曲进行傅里叶变换，得到歌曲的第一频谱图。

其中，该歌曲可以为单声道歌曲或者双声道歌曲。

可选的，在对该歌曲进行傅里叶变换之前，可对该歌曲的响度进行缩放，按照第一比例k1将该歌曲的响度缩放k1倍，避免音量过高或者过低而造成生成的第一频谱图中幅值过高或过低，从而难以从该第一频谱图中分离出人声的频谱图和伴奏的频谱图。在实际应用中，对该歌曲进行缩放时，实质上就是将歌曲的响度与固定值进行相加减。举例来说，当k1等于1/2时，在歌曲的响度进行缩小时，就是将歌曲的响度统一减去6dB，当k1等于1/3时，就是将歌曲的响度统一减去8dB，等等，

在对该歌曲进行缩放后，对该歌曲进行傅里叶变换，得到该第一频谱图。

其中，该傅里叶变换可以为快速傅里叶变换(Fast Fourier Transform，FFT)。其中，FFT的采样点数n可以为2048，窗移length可以为512，窗长length可以为2048。

202：歌词对齐装置将第一频谱图输入到神经网络，得到人声的第二频谱图以及伴奏的第三频谱图。

可选的，该第一频谱图为幅值频谱图，通过该神经网络确定该第一频谱图中各个频点对应的幅值中人声所占的第一比例以及伴奏所占的第二比例。如图3 所示，在得到人声所占的第一比例以及伴奏所占的第二比例后，使用该第一比例从该第一频谱图中剥离出人声的幅值，得到该第二频谱图，使用该第二比例从该第一频谱图中剥离伴奏的幅值，得到该第三频谱图。

具体来说，使用神经网络对第一频谱图进行处理，以增强第一频谱图中所述人声的谐波特性，得到第一处理结果；使用神经网络对第一处理结果进行处理，得到第二处理结果；使用神经网络对所述第二处理结果进行处理，以增强第二处理结果中所述人声在空间上的连续性，得到第三处理结果；使用神经网络对第三处理结果进行处理，得到第四处理结果；根据第四处理结果得到人声对应的第一比例以及伴奏对应的第二比例，第一比例为第一频谱图中各个频点所对应的幅值中人声所占的比例，第二比例所述第一频谱图中各个频点所对应的幅值中伴奏所占的比例；根据第一比例对第一频谱图进行分离，得到人声对应的第二频谱图，根据第二比例对第一频谱图进行分离，得到伴奏对应的第三频谱图。

203：歌词对齐装置根据第一频谱图以及第二频谱图对第二频谱图进行反傅里叶变换得到人声；以及根据所述第一频谱图以及第三频谱图对第三频谱图进行反傅里叶变换，得到伴奏。

可选的，对于傅里叶反变换来说，需要有每个频点的幅值和相位信息(相位角)才能将频域信号反变换为时域信号。对于从歌曲中分离人声和伴奏的情况，相位信息对人声和伴奏的本质(音色和响度)影响很小，因此可以使用混合音频的相位信息作为人声和伴奏的相位信息。由于不用考虑相位信息的特殊处理，故加快了伴奏和人声的分离速度。

具体来说，获取该第一频谱图上各个频点所对应的相位信息，即基于各个频点的实部大小和虚部大小，得到各个频点的相位信息，将第一频谱图上各个频点的相位信息作为该第二频谱图和第三频谱图上各个频点的相位信息。在确定出该第二频谱图上各个频点的相位信息后，使用该第二频谱图上各个频点的相位信息以及各个频点的幅值对各个频点进行快速傅里叶反变换，得到人声。同样，使用该第三频谱图上各个频点的相位信息以及各个频点的幅值对各个频点进行傅里叶反变换，得到伴奏。

此外，如果对歌曲进行了缩放处理。则上述所得到的人声和伴奏均为缩放后的人声和伴奏。因此，为了得到歌曲的真实人声和真实伴奏，则需要对上述的人声和伴奏进行反缩放处理。即使用第二比例k2对上述所得到的人声和伴奏的响度进行缩放处理，得到真实的人声和伴奏。其中，该第一比例k1和第二比例k2为倒数关系。

可以看出，在本申请实施例中，通过神经网络对歌曲的第一频谱图进行处理，得到人声的第二频谱图以及伴奏的第三频谱图，然后，基于该第一频谱图以及第二频谱图对第二频谱图执行反变换操作，得到人声；同样，基于该第一频谱图以及第三频谱图对第三频谱图进行傅里叶反变换，得到伴奏；由于该歌曲可以为单声道歌曲，进行声伴分离，得到人声和伴奏，从而实现对单声道音频的歌曲直接进行分离。

在一种可能的实现方式中，从歌曲中分离人声和伴奏时。还可以考虑相位信息的影响；在考虑相位信息的影响的情况下，参阅图3，图3为本申请实施例提供的另一种人声和伴奏分离方法的流程示意图，该方法还包括如下步骤：

301：对歌曲进行傅里叶变换，得到歌曲的第一频谱图。

302：将该第一频谱图输入到神经网络，得到人声的实部频谱图以及虚部频谱图，以及得到伴奏的实部频谱图和虚部频谱图。

具体来说，该神经网络为多任务网络，在对人声和伴奏进行分离时，可以完成多任务的输出。即对该第一频谱图中各个频点的实部和虚部分别进行分离，得到人声以及伴奏分别对第一频谱图中各个频点的实部所占比例，以及对各个频点的虚部所占比例；根据该人声以及伴奏分别对各个频点的实部所占比例对该第一频谱图中各个频点的实部进行分离，得到该人声的实部频谱图(即人声所对应的各个频点的实部大小)以及伴奏的实部频谱图(即伴奏所对应的各个频点的实部大小)；同样，根据该人声以及伴奏各个频点的虚部所占比例对该第一频谱中各个频点的虚部进行分离，得到该人声的虚部频谱图(即人声所对应的各个频点的虚部大小)以及伴奏的虚部频谱图(即人声所对应的各个频点的虚部大小)。

303：根据该人声的实部频谱图以及虚部频谱图得到该人声的相位信息，根据该伴奏的实部频谱图和虚部频谱图得到该伴奏的相位信息。

根据实部频谱图中各个频点的实部大小以及虚部频谱图中各个频点的虚部大小，得到各个频点的相位角，即相位信息。其中，人声以及伴奏的实部频谱图和虚部频谱图中的各个频点一一对应。

其中，相位角φ＝arctanb/a，其中，a为各个频点的实部大小，b为该个频点的虚部大小。

304：根据该人声的实部频谱图、虚部频谱图以及相位信息得到该人声，根据该伴奏的实部频谱图和虚部频谱图得到该伴奏。

具体来说，使用人声的各个频点的相位信息、实部大小以及虚部大小，对人声的各个频点进行傅里叶反变换，得到该人声。同样，使用伴奏的各个频点的相位信息、实部大小以及虚部大小进行傅里叶反变换，得到伴奏。

可以看出，在本申请实施例中，在对人声和伴奏进行分离时，还可单独考虑人声的相位信息以及伴奏的相位信息，从而提高人声和伴奏的分离精度。

参阅图4a，图4a为本申请实施例提供的一种神经网络的网络结构，该神经网络用于实现本申请所涉及的人声和伴奏分离方法。如图4a所示，该神经网络包括：预处理网络、卷积网络、门控循环(Gated Recurrent Unit，GRU)网络、反卷积网络以及全连接层。其中，该神经网络可以有N个通道，图3仅示出了一个通道上的网络结构。

具体来说，预测处理网络，用于对第一频谱图进行处理，得到第一处理结果，其中，该预处理网络由两个全连接层构成；由于人声的谐波是清晰、平行的，通过全连接层的权值可以放大人声的特征，即增强第一频谱图中人声的谐波特性；

卷积网络，用于对该第一处理结果进行卷积处理(特征提取)，得到第二处理结果，其中，该卷积网络可以由5个卷积层构成，每个卷积层包括相互连接的子卷积网络、激活层和池化层，其中，子卷积网络的卷积核尺寸可以为3*5，该激活层可以为Relu层，池化层的尺寸可以为2*2；

GRU网络，用于对该第二处理结果进行处理，得到第三处理结果，由于GRU 网络中重置门的输出结果用于控制前一时刻的状态信息被带入到当前状态中的程度，重置门的输出结果用于控制前一状态有多少信息被写入到当前记忆门的输出结果上，重置门的输出结果越小，前一状态的信息被写入的越少，通过重置门和更新门的控制，合适的信息将会被写入输出结果中，并保存到GRU的隐层中，并传递到下一个GRU单元，这样就解决了就把时间上的连续信息保留下来，从而增强了人声连续性的特点；

反卷积网络，用于对该第三处理进行反卷积处理，得到第四处理结果，其中，该反卷积网络可以包括5个反卷积层，每个反卷积层包括相互连接的子反卷积网络、激活层和池化层，其中，子卷积网络的卷积核尺寸可以为3*5，该激活层可以为Relu层，池化层的尺寸可以为2*2；

激活层，用于对第四处理结果进行激活，得到输出结果；

将该输入结果输入分类器，以执行类分类处理，得到各个频点的幅值中属于人声的幅值的第一概率以及属于伴奏的幅值的第二概率；然后，将该第一概率作为人声的第一比例，将第二概率作为伴奏的第二比例；

然后，根据该第一比例对第一频谱图进行分离，得到人声的第二频谱图，根据该第二比例对第一频谱图进行分离，得到伴奏的第三频谱图。

最后，基于第二频谱图以及第一频谱图对应的相位信息对第二频谱图进行傅里叶反变换，得到人声；基于第三频谱以及第一频谱图对应的相位信息对第三频谱图进行傅里叶反变换，得到伴奏。

可以理解的是，在考虑相位信息对声伴分离的影响时，可使用图3所示的神经网络进行多任务学习，以实现对第一频谱图上各个频点的实部和虚部进行分别分离，也就是预测人声以及伴奏在实部上各自所占的比例，预测人声以及伴奏在虚部上各自所占的比例，根据各自所占的比例分别对实部和虚部进行分离，如图4b所示，得到人声的实部频谱图和虚部频谱图，以及伴奏的实部频谱图和虚部频谱图。

然后，根据人声的实部频谱图和虚部频谱图得到人声的相位信息，基于该人声的相位信息、人声的实部频谱图和虚部频谱进行傅里叶反变换，得到该人声；同样，根据伴奏的实部频谱图和虚部频谱图得到伴奏的相位信息，基于该伴奏的相位信息、伴奏的实部频谱图和虚部频谱图进行傅里叶反变换，得到该伴奏。

参阅图5，图5为本申请实施例提供的另一种歌词对齐方法的流程示意图，该方法应用于歌词对齐装置。该方法包括但不限于以下步骤：

501：歌词对齐装置对歌曲进行分离，得到所述歌曲中的人声。

502：歌词对齐装置对所述人声的响度按照预设比例进行缩放，得到缩放后的所述人声。

503：歌词对齐装置对缩放后的所述人声进行降采样，得到目标人声。

504：对所述目标人声进行傅里叶变换，得到所述目标人声的频域信号。

505：歌词按照预设的时间窗口对所述频域信号进行分帧，得到N个音频帧。

506：歌词对齐装置根据预设的偏移量对所述歌曲的歌词数据的时间戳进行 M次调整，得到M个歌词数据，确定所述M个歌词数据和所述歌曲的歌词数据为所述多个歌词数据。

其中，所述M个歌词数据中的部分歌词数据的时间戳中所记录的每个歌词的播放时间早于所述歌曲的歌词数据的时间戳中所记录的播放时间，所述M个歌词数据中的另一部分歌词数据的时间戳中所记录的每个歌词的播放时间晚于所述歌曲的歌词数据的时间戳中所记录的播放时间。

507：歌词对齐装置根据所述预设的时间窗口以及所述多个歌词数据中每个歌词数据的时间戳对每个歌词数据进行标记，得到每个歌词数据的标记序列。

508：歌词对齐装置根据所述N个音频帧以及每个歌词数据的标记序列确定所述多个歌词数据中的目标歌词数据。

需要说明的是，图5所示的方法的各个步骤的具体实现过程可参见上述图 1a所述方法的具体实现过程，在此不再叙述。

参阅图6，图6为本申请实施例提供的一种歌词对齐装置的结构示意图。如图6所示，歌词对齐装置600包括处理器、存储器、通信接口以及一个或多个程序，且上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行以下步骤的指令：

对歌曲进行分离，得到所述歌曲中的人声；

根据预设的时间窗口对所述人声进行处理，得到N个音频帧；

根据所述N个音频帧以及每个歌词数据的标记序列确定所述多个歌词数据中的目标歌词数据。

在一种可能的实现方式中，在按照预设的时间窗口对所述人声进行处理，得到N个音频帧之前，上述程序还用于执行以下步骤的指令：

对所述人声的响度按照预设比例进行缩放，得到缩放后的所述人声；

对缩放后的所述人声进行降采样，得到目标人声；

所述按照预设的时间窗口对所述人声进行分帧，得到N个音频帧，包括：

对所述目标人声进行傅里叶变换，得到所述目标人声的频域信号；

按照预设的时间窗口对所述频域信号进行分帧，得到N个音频帧。

在一种可能的实现方式中，在根据所述预设的时间窗口以及多个歌词数据中每个歌词数据的时间戳对每个歌词数据进行标记，得到每个歌词数据的标记序列方面，上述程序具体用于执行以下步骤的指令：

根据所述预设的时间窗口对所述歌曲的播放时长进行分割，得到N个播放时间段，其中，所述N个播放时间段与所述N个音频帧一一对应；

根据每个歌词数据的时间戳确定每个播放时间段是否对应有歌词数据，若有歌词数据，将该播放时间段以第一预设值进行标记，若没有歌词数据，将该播放时间段以第二预设值进行标记；

按照所述N个播放时间段对应的先后顺序将所述N个时间段对应的标记好的预设值组成每个歌词数据的标记序列。

在一种可能的实现方式中，在根据所述N个音频帧以及每个歌词数据的标记序列确定所述多个歌词数据中的目标歌词数据方面，上述程序具体用于执行以下步骤的指令：

确定每个音频帧上各个频点的幅值的平方之和；

确定每个音频帧上各个频点的幅值的平方之和为每个音频帧的能量值；

按照音频帧在时间上的先后顺序将所述N个音频帧的能量值组成与所述人声对应的能量值序列；

根据所述人声对应的能量序列以及每个歌词数据的标记序列确定每个歌词数据对应的总能量值；

确定总能量值最大的歌词数据为所述多个歌词数据中的目标歌词数据。

在一种可能的实现方式中，在对歌曲进行分离，得到所述歌曲的人声和伴奏之后，上述程序还用于执行以下步骤的指令：

根据预设的偏移量对所述歌曲的歌词数据的时间戳进行M次调整，得到M 个歌词数据，确定所述M个歌词数据和所述歌曲的歌词数据为所述多个歌词数据，其中，所述M个歌词数据中的部分歌词数据的时间戳中所记录的每个歌词的播放时间早于所述歌曲的歌词数据的时间戳中所记录的播放时间，所述M个歌词数据中的另一部分歌词数据的时间戳中所记录的每个歌词的播放时间晚于所述歌曲的歌词数据的时间戳中所记录的播放时间。

在一种可能的实现方式中，在对歌曲进行分离，得到所述歌曲的人声和伴奏方面，上述程序具体用于执行以下步骤的指令：

对所述歌曲进行傅里叶变换，得到所述歌曲的第一频谱图；

将所述第一频谱图输入到神经网络，得到人声的第二频谱图以及伴奏的第三频谱图；

根据所述第一频谱图以及所述第二频谱图对所述第二频谱图进行反傅里叶变换得到所述人声；以及根据所述第一频谱图以及所述第三频谱图对所述第三频谱图进行反傅里叶变换，得到所述伴奏。

在一种可能的实现方式中，在将所述第一频谱图输入到神经网络，得到人声的第二频谱图以及伴奏的第三频谱图方面，上述程序具体用于执行以下步骤的指令：

使用所述神经网络对所述第一频谱图进行处理，以增强所述第一频谱图中所述人声的谐波特性，得到第一处理结果；

使用所述神经网络对所述第一处理结果进行处理，得到第二处理结果；

使用所述神经网络对所述第二处理结果进行处理，以增强所述第二处理结果中所述人声在空间上的连续性，得到第三处理结果；

使用所述神经网络对所述第三处理结果进行处理，得到第四处理结果；

根据所述第四处理结果得到所述人声对应的第一比例以及所述伴奏对应的第二比例，所述第一比例为所述第一频谱图中各个频点所对应的幅值中所述人声所占的比例，所述第二比例所述第一频谱图中各个频点所对应的幅值中所述伴奏所占的比例；

根据所述第一比例对所述第一频谱图进行分离，得到所述人声对应的第二频谱图，根据所述第二比例对所述第一频谱图进行分离，得到所述伴奏对应的第三频谱图。

参阅图7，图7本申请实施例提供的一种歌词对齐装置的功能单元组成框图。电子设备700包括：分离单元710、分帧单元720、标记单元730和确定单元740，其中：

分离单元710，用于对歌曲进行分离，得到所述歌曲的人声和伴奏；

分帧单元720，用于按照预设的时间窗口对所述人声进行处理，得到N个音频帧；

标记单元730，用于根据所述预设的时间窗口以及多个歌词数据中每句歌词的时间戳对每个歌词数据进行标记，得到每个歌词数据的标记序列；

确定单元740，用于根据所述N个音频以及每个歌词数据的标记序列确定所述多个歌词数据中的目标歌词数据。

在一种可能的实现方式中，在按照预设的时间窗口对所述人声进行处理，得到N个音频帧之前，歌词对齐装置700还包括预处理单元750；其中，预处理单元750，用于：

对缩放后的所述人声进行降采样，得到目标人声；

在按照预设的时间窗口对所述人声进行分帧，得到N个音频帧方面，分帧单元620，具体用于：

在一种可能的实现方式中，在根据所述预设的时间窗口以及多个歌词数据中每个歌词数据的时间戳对每个歌词数据进行标记，得到每个歌词数据的标记序列方面，标记单元730，,具体用于：

在一种可能的实现方式中，在根据所述N个音频帧以及每个歌词数据的标记序列确定所述多个歌词数据中的目标歌词数据方面，确定单元740，具体用于：

确定每个音频帧上各个频点的幅值的平方之和；

在一种可能的实现方式中，在对歌曲进行分离，得到所述歌曲的人声和伴奏之后，歌词对齐装置700还包括调整单元760；其中，调整单元760，用于：

在一种可能的实现方式中，在对歌曲进行分离，得到所述歌曲的人声和伴奏方面，分离单元710，具体用于：

对所述歌曲进行傅里叶变换，得到所述歌曲的第一频谱图；

在一种可能的实现方式中，在将所述第一频谱图输入到神经网络，得到人声的第二频谱图以及伴奏的第三频谱图方面，分离单元710，具体用于：

本申请实施例还提供一种计算机存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种歌词对齐方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种歌词对齐方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM， Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种歌词对齐方法，其特征在于，包括：

对歌曲进行分离，得到所述歌曲中的人声；

根据预设的时间窗口对所述人声进行处理，得到N个音频帧；根据所述预设的时间窗口以及多个歌词数据中每句歌词的时间戳对每个歌词数据进行标记，得到每个歌词数据的标记序列，其中，所述多个歌词数据是对同一个歌词数据进行时间偏移得到的；根据所述N个音频帧以及每个歌词数据的标记序列确定所述多个歌词数据中的目标歌词数据，具体包括：确定所述人声对应的能量序列，其中，所述人声对应的能量序列是将所述N个音频帧的能量值按照音频帧在时间上的先后顺序组成的，且每个音频帧的能量值为每个音频帧上各个频点的幅值的平方之和；将所述人声对应的能量序列以及每个歌词数据的标记序列进行点乘操作，得到每个歌词数据对应的总能量值；根据每个歌词数据对应的总能量值确定所述多个歌词数据中的目标歌词数据。

2.根据权利要求1所述的方法，其特征在于，在按照预设的时间窗口对所述人声进行处理，得到N个音频帧之前，所述方法还包括：

根据所述人声的响度确定缩放比例；

根据所述缩放比例对所述人声的响度进行缩放，得到缩放后的所述人声；

对缩放后的所述人声进行降采样，得到目标人声；

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述预设的时间窗口以及多个歌词数据中每个歌词数据的时间戳对每个歌词数据进行标记，得到每个歌词数据的标记序列，包括：

按照所述N个播放时间段对应的先后顺序将所述N个播放时间段对应的标记好的预设值组成每个歌词数据的标记序列。

4.根据权利要求3所述的方法，其特征在于，在对歌曲进行分离，得到所述歌曲的人声和伴奏之后，所述方法还包括：

根据预设的偏移量对所述歌曲的歌词数据的时间戳进行M次调整，得到M个歌词数据，确定所述M个歌词数据和所述歌曲的歌词数据为所述多个歌词数据，其中，所述M个歌词数据中的部分歌词数据的时间戳中所记录的每个歌词的播放时间早于所述歌曲的歌词数据的时间戳中所记录的播放时间，所述M个歌词数据中的另一部分歌词数据的时间戳中所记录的每个歌词的播放时间晚于所述歌曲的歌词数据的时间戳中所记录的播放时间。

5.根据权利要求4所述的方法，其特征在于，所述对歌曲进行分离，得到所述歌曲的人声和伴奏，包括：

对所述歌曲进行傅里叶变换，得到所述歌曲的第一频谱图；

6.根据权利要求5所述的方法，其特征在于，所述将所述第一频谱图输入到神经网络，得到人声的第二频谱图以及伴奏的第三频谱图，包括：

7.一种歌词对齐装置，其特征在于，包括：

标记单元，用于根据所述预设的时间窗口以及多个歌词数据中每句歌词的时间戳对每个歌词数据进行标记，得到每个歌词数据的标记序列，其中，所述多个歌词数据是对同一个歌词数据进行时间偏移得到的；

确定单元，用于根据所述N个音频以及每个歌词数据的标记序列确定所述多个歌词数据中的目标歌词数据，具体用于：确定所述人声对应的能量序列，其中，所述人声对应的能量序列是将所述N个音频帧的能量值按照音频帧在时间上的先后顺序组成的，且每个音频帧的能量值为每个音频帧上各个频点的幅值的平方之和；将所述人声对应的能量序列以及每个歌词数据的标记序列进行点乘操作，得到每个歌词数据对应的总能量值；根据每个歌词数据对应的总能量值确定所述多个歌词数据中的目标歌词数据。

8.一种电子设备，其特征在于，包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行权利要求1-6任一项方法中的步骤的指令。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-6任一项所述的方法。