CN110209872A

CN110209872A - 片段音频歌词生成方法、装置、计算机设备和存储介质

Info

Publication number: CN110209872A
Application number: CN201910456523.XA
Authority: CN
Inventors: 肖冠正; 苏宏林; 邓均敏; 朱映波; 王伟; 曾荣
Original assignee: iMusic Culture and Technology Co Ltd
Current assignee: iMusic Culture and Technology Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-09-06
Anticipated expiration: 2039-05-29
Also published as: CN110209872B

Abstract

本申请涉及一种片段音频歌词生成方法、装置、计算机设备和存储介质。所述方法包括：获取片段音频数据；提取片段音频数据的音频指纹；根据音频指纹，检索对应的全曲音频数据，并确定片段音频数据在全曲音频数据中的起始时刻和终止时刻；获取全曲音频数据对应的全曲歌词数据；根据起始时刻和终止时刻，从全曲歌词数据中得到目标歌词数据；根据目标歌词数据，生成片段音频数据的歌词数据。采用本方法无需利用歌曲名称或歌手姓名等标识信息进行检索，检索效率和准确率高；且可自动生成片段音频数据的歌词数据，耗时短，无需人工裁剪音频，且歌词与音频高度匹配，同步性佳。

Description

片段音频歌词生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机应用的技术领域，特别是涉及一种片段音频歌词生成方法、装置、计算机设备和存储介质。

背景技术

目前，市面上大多数的音乐产品均提供歌词服务，具有相同歌曲名称及歌手姓名的歌曲，一般均对应同一份歌词文件。然而，由歌曲衍生出的其他形式音频(如彩铃等从全曲中裁剪出片段的音频)，虽然与全曲的歌曲名称及歌手姓名相同，但直接使用全曲文件对应的歌词文件时，歌词与音频内容不同步。

传统处理方法一般通过人为处理方法；一方面，部分片段音频在传播过程中，其歌曲名称及歌手姓名等标识性的信息容易发生丢失，增加了人为制作歌词的难度；另一方面，人为处理一般需要为裁剪出的片段音频逐一制作歌词文件，该方法耗时长，且难以覆盖来自同一首歌曲的所有片段音频，同时容易因为裁剪误差导致音频与歌词不同步。

发明内容

基于此，有必要针对上述技术问题，提供一种片段音频歌词生成方法、装置、计算机设备和存储介质。

一方面，本发明实施例提供一种片段音频歌词生成方法，所述方法包括：

获取片段音频数据；

提取所述片段音频数据的音频指纹；

根据所述音频指纹，检索对应的全曲音频数据，并确定所述片段音频数据在所述全曲音频数据中的起始时刻和终止时刻；

获取所述全曲音频数据对应的全曲歌词数据；

根据所述起始时刻和所述终止时刻，从所述全曲歌词数据中得到目标歌词数据；

根据所述目标歌词数据，生成所述片段音频数据的歌词数据。

在其中一个实施例中，所述提取所述片段音频数据的音频指纹的步骤，包括：

解码所述片段音频数据，得到所述片段音频数据的PCM数据；

根据所述PCM数据，获取非静音起始帧；

从所述非静音起始帧开始，提取所述片段音频数据的音频指纹。

提取所述片段音频数据的多个音频指纹；

所述根据所述音频指纹，检索对应的全曲音频数据的步骤，包括：

将所述多个音频指纹组合为一个音频指纹集合；

根据所述音频指纹集合，从音频指纹库中检索出对应的全曲音频数据。

在其中一个实施例中，所述音频指纹中携带有所述音频指纹在所述片段音频数据中的第一所属时刻；

所述确定所述片段音频数据在所述全曲音频数据中的起始时刻和终止时刻的步骤，包括：

识别所述音频指纹中的所述第一所属时刻；

根据所述第一所属时刻，确定所述音频指纹在所述全曲音频数据中的第二所属时刻；

根据所述第一所属时刻、所述第二所属时刻以及所述片段音频数据的总时长，确定所述片段音频数据在所述全曲音频数据中的起始时刻和终止时刻。

在其中一个实施例中，所述根据所述起始时刻和所述终止时刻，从所述全曲歌词数据中得到目标歌词数据的步骤，包括：

根据所述起始时刻和所述终止时刻，确定所述全曲歌词数据中对应的起始歌词和终止歌词；

将所述起始歌词、所述起始歌词与所述终止歌词之间的歌词以及所述终止歌词依序连接，得到目标歌词数据。

在其中一个实施例中，所述全曲歌词数据包括多个歌词段，每个歌词段具有起始标签时刻和终止标签时刻；

所述根据所述起始时刻和所述终止时刻，确定所述全曲歌词数据中对应的起始歌词和终止歌词的步骤，包括：

遍历所述全曲歌词数据中的所述多个歌词段；

若检测到一个歌词段的起始标签时刻不大于所述起始时刻，且终止标签时刻大于所述起始时刻，将所述一个歌词段作为所述起始歌词；

若检测到另一个歌词段的终止标签时刻不小于所述终止时刻，且起始标签时刻小于所述终止时刻，将所述另一个歌词段作为所述终止歌词。

在其中一个实施例中，所述根据所述目标歌词数据，生成所述片段音频数据的歌词数据的步骤，包括：

对所述目标歌词数据执行时间修正操作，使得修正后的目标歌词数据能与所述片段音频数据的时间进度同步；

根据修正后的目标歌词数据，得到所述片段音频数据的歌词数据。

另一方面，本发明实施例提供一种片段音频歌词生成装置，所述装置包括：

音频获取模块，用于获取片段音频数据；

音频指纹提取模块，用于提取所述片段音频数据的音频指纹；

检索模块，用于根据所述音频指纹，检索对应的全曲音频数据，并确定所述片段音频数据在所述全曲音频数据中的起始时刻和终止时刻；

全曲歌词获取模块，用于获取所述全曲音频数据对应的全曲歌词数据；

目标歌词获取模块，用于根据所述起始时刻和所述终止时刻，从所述全曲歌词数据中得到目标歌词数据；

歌词生成模块，用于根据所述目标歌词数据，生成所述片段音频数据的歌词数据。

再一方面，本发明实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例的一种片段音频歌词生成方法的步骤。

再一方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例的一种片段音频歌词生成方法的步骤。

上述技术方案中的一个技术方案具有如下优点或有益效果：通过获取片段音频数据，并根据片段音频数据的音频指纹，检索对应的全曲音频数据，无需利用歌曲名称或歌手姓名等标识信息进行检索，检索效率和准确率高，解决了无标识信息或标识信息丢失造成的检索难度大的问题；通过确定片段音频数据在全曲音频数据中的起始时刻和终止时刻，并根据起始时刻和终止时刻，从全曲歌词数据中得到目标歌词数据，再根据目标歌词数据，即可自动生成片段音频数据的歌词数据，耗时短，无需人工裁剪音频，且歌词与音频高度匹配，同步性佳。

附图说明

图1为一个实施例中片段音频歌词生成方法的应用环境图；

图2为一个实施例中片段音频歌词生成方法的示意性流程图；

图3为一个实施例中片段音频歌词生成装置的示意性结构图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请提供的片段音频歌词生成方法，可以应用于如图1所示的应用环境中。其中，包括音频处理设备和音频数据库，音频处理设备和音频数据库可通过网络连接；音频数据库可内置于音频处理设备，也可独立于音频处理设备之外，该数据库中可存储有音频处理设备生成音频歌词所需的全部数据或部分数据；本发明实施例中，所说音频处理设备既可以是包含多台处理设备的一个设备群组，也可以是单台设备；音频数据库既可以是包含多个数据库的一个数据库集合，也可以是单个数据库。该音频处理设备可通过上述的音频数据库生成片段音频的歌词数据；具体可获取片段音频数据；提取片段音频数据的音频指纹；根据音频指纹，检索对应的全曲音频数据，并确定片段音频数据在全曲音频数据中的起始时刻和终止时刻；获取全曲音频数据对应的全曲歌词数据；根据起始时刻和终止时刻，从全曲歌词数据中得到目标歌词数据；根据目标歌词数据，生成片段音频数据的歌词数据。

在一个实施例中，如图2所示，提供了一种片段音频歌词生成方法，以该方法应用于图1中的音频处理设备为例进行说明，包括以下步骤：

S202，获取片段音频数据。

其中，片段音频数据指的是用户需要查找对应歌词的一段音频数据；该片段音频数据的格式不作限制，可以是但不局限于WAV、MP3、WMA、VQF；当然，该片段音频数据也可以是压缩或解压后的音频文件。

应当指出的是，片段音频数据可以是全曲音频数据，也可以是全曲音频数据中的一部分，具体片段音频数据的总时长及音频帧(其中音频帧可取2.5ms～60ms为单位的数据量为一帧音频)的长度均不作限制。

具体地，获取片段音频数据可通过互联网下载，也可通过云存储器、光盘、USB闪存盘或其它接口获取得到，此处不作限定。

S204，提取片段音频数据的音频指纹。

音频指纹技术(Audio fingerprinting technology)通过提取声音中的数据特征将需要被识别的内容与建立的音频指纹库进行比对完成的。识别过程不受音频本身的储存格式，编码方式，码率和压缩技术影响。

其中，音频指纹是音频对象简短的摘要。将音频指纹和音频对象建立映射关系后，在音频指纹识别时，只须在2个相似的音频对象之间建立一种知觉平等的有效的机制，不通过比较相对较大的音频对象本身，而是通过比较相关的指纹即可。

需要说明的是，提取片段音频数据的音频指纹时，可采用现有的音频指纹提取算法，例如飞利浦指纹提取算法，将相邻帧之间的能量关系用来做为音频的特征；具体通过能量差分的关系，求得相邻音频两个帧(两帧之间的重叠区域为31/32)之间的能量关系，产生指纹；其中，帧指的是一段固定时间的音频信息，相邻两个帧指的是两个帧重叠时间域为31/32。当然也可以根据实际情况选取其他指纹提取算法，此处不作限定。

S206，根据音频指纹，检索对应的全曲音频数据，并确定片段音频数据在全曲音频数据中的起始时刻和终止时刻。

根据音频指纹检索和识别全曲音频数据也可依据现有的检索算法，如Philips算法或者Shazam算法，在此不做赘述。一般通过音频指纹的识别，可获知数字媒体文件中是否含有相同的内容，例如全球知名网站YouTube和Facebook都是通过音频指纹技术建立的Content ID系统将受版权保护的内容指纹与用户新上传的内容进行匹配，可快速检索是否含有侵权内容，又如广电媒资系统可通过音频指纹的匹配获知媒体库中哪些内容是重复和关联的；本申请则利用该音频指纹在音频数据库中检索对应的全曲音频数据，以便于制作片段音频的歌词数据，解决了片段音频因无标识信息或标识信息丢失，造成的检索难度大的问题。

根据音频指纹确定片段音频数据在全曲音频数据中的起始时刻和终止时刻，具体可在音频指纹中携带时间信息，以便在检索全曲的同时，即可确定出片段音频数据在全曲音频数据中的起始时刻和终止时刻。

其中，片段音频数据在全曲音频数据中的起始时刻和终止时刻，可以理解为，片段音频数据是在全曲音频数据的哪两个时刻之间截取出来的，该两个时刻即为起始时刻和终止时刻。确定起止时刻，旨在确定片段音频数据在全曲音频数据中所处的时间点。

S208，获取全曲音频数据对应的全曲歌词数据。

全曲歌词数据即与全曲音频数据的播放进度同步的歌词数据。

获取全曲歌词数据的方式可为多种，例如，可与获取全曲音频数据的方式一样，通过音频指纹检索与全曲歌词数据对应的全曲歌词数据；还可通过已检索到的全曲音频数据，重新在数据库中查找对应的全曲歌词数据。

S210，根据起始时刻和终止时刻，从全曲歌词数据中得到目标歌词数据。

在获知全曲歌词数据以及片段音频数据在全曲音频数据中的起始时刻和终止时刻之后，即可通过截取全曲歌词数据，以得到片段音频数据的目标歌词数据。

需要说明的是，目标歌词数据可以直接作为片段音频数据的歌词数据，但若目标歌词数据与片段音频数据不能在时间上完全同步，还需要进行步骤S212进行修正和调整，以保证片段音频数据与其歌词数据在时间进度上准确同步。

S212，根据目标歌词数据，生成片段音频数据的歌词数据。

该步骤即用于将目标歌词数据转化为片段音频数据的歌词数据，以保证音频与歌词同步。

需要说明的是，上述的片段音频数据、全曲音频数据、全曲歌词数据、目标歌词数据等音频和歌词数据，均可以文件的形式保存和传输，便于数据处理，且文件易于播放和查看。本发明上述实施例中，执行主体可为音频处理器或运行在终端上的软件客户端，当然也可根据实际情况进行选择和变更。

上述实施例的片段音频歌词生成方法中，通过获取片段音频数据，并根据片段音频数据的音频指纹，检索对应的全曲音频数据，无需利用歌曲名称或歌手姓名等标识信息进行检索，检索效率和准确率高，解决了无标识信息或标识信息丢失造成的检索难度大的问题；通过确定片段音频数据在全曲音频数据中的起始时刻和终止时刻，并根据起始时刻和终止时刻，从全曲歌词数据中得到目标歌词数据，再根据目标歌词数据，即可自动生成片段音频数据的歌词数据，耗时短，无需人工裁剪音频，且歌词与音频高度匹配，同步性佳。

在一些实施例中，S204具体包括：解码片段音频数据，得到片段音频数据的PCM数据；根据PCM数据，获取非静音起始帧；从非静音起始帧开始，提取片段音频数据的音频指纹。

其中，PCM(Pulse Code Modulation)，即脉冲编码调制，指的是对声音进行采样、量化过程，未经过任何编码和压缩处理。

该提取音频指纹的过程可为：将用户输入的音频文件进行解码，获取到PCM数据后，使用快速傅立叶变换将PCM从时域数据转化成频域数据，通过计算PCM在各个频率带的能量和是否低于一定阈值来检测静音数据，寻找非静音起始帧；从非静音起始帧开始，利用音频指纹提取算法提取音频指纹。

在一些实施例中，S204具体包括：提取片段音频数据的多个音频指纹；同时，S206具体包括：将多个音频指纹组合为一个音频指纹集合；根据音频指纹集合，从音频指纹库中检索出对应的全曲音频数据。

由于单个音频指纹包含的信息较少，为了保证全曲文件检索的准确性和高效性，需要使用多个音频指纹构成的集合作为音频指纹集合，并通过音频指纹集合在指纹库中进行检索。

例如，多个音频指纹的提取位置可为片段音频数据的开始段、前段、中部、后段、结尾段中的任意位置，具体可根据实际情况进行设置；多个音频指纹的提取算法以及指纹类型，可以相同亦可不同。

另外，音频指纹库可独立于音频数据库，也可包含于音频数据库中。

在一些实施例中，音频指纹中携带有音频指纹在片段音频数据中的第一所属时刻；S206具体包括：识别音频指纹中的第一所属时刻；根据第一所属时刻，确定音频指纹在全曲音频数据中的第二所属时刻；根据第一所属时刻、第二所属时刻以及片段音频数据的总时长，确定片段音频数据在全曲音频数据中的起始时刻和终止时刻。

其中，第一所属时刻、第二所属时刻指的是音频指纹从片段音频数据中提取出的时刻点；片段音频数据的总时长指的是片段音频数据的终止时刻减去起始时刻得到的时间段数值。

一个具体的实施方式为，例如，片段音频数据的总时长为10s，音频指纹的数量为一个，根据该音频指纹，可检索到全曲音频数据；通过识别音频指纹，得到该音频指纹在片段音频数据中提取的位置为中部，对应的第一所属时刻为5s；通过将音频指纹与全曲音频数据进行匹配，可获取音频指纹在全曲音频数据中的第二所属时刻，假设为13s；由上述各时刻值可知，根据第一所属时刻5s、第二所属时刻13s以及片段音频数据的总时长10s，即可确定片段音频数据在全曲音频数据中的起始时刻为(13-5)s，即8s；终止时刻为(13+(10-5))s，即18s。

上述方法可快速确定片段音频数据在全曲音频数据中的截取位置，方法简单便于操作，且计算速度快，结果准确，可行性强。

在一些实施例中，S210具体包括：根据起始时刻和终止时刻，确定全曲歌词数据中对应的起始歌词和终止歌词；将起始歌词、起始歌词与终止歌词之间的歌词以及终止歌词依序连接，得到目标歌词数据。

应当指出的是，目标歌词数据的确定与全曲歌词数据中每一段歌词的时间标签，或者歌词中的每个字的时间标签相关；换句话说，目标歌词数据的确定方式可为多种，具体可根据全曲歌词数据中歌词的时间标签设置形式进行变更和设置。

具体例如，若全曲歌词数据中的每个字均具有一个与全曲音频数据同步对应的时间标签，则可以字为单位截取全曲歌词数据，从而获得目标歌词数据，相应地，获得的目标歌词数据也可以以字为单位与片段音频数据同步对应；若全曲歌词数据中的每一行歌词(即歌词分段呈现，简称歌词段)具有与全曲音频数据同步对应的起止时间标签，则可以行为单位截取全曲歌词数据，从而获得目标歌词数据，相应地，获得的目标歌词数据也可以以行或段为单位与片段音频数据同步对应。

然而，当以行或段为单位时，片段音频数据的起始歌词和终止歌词可能不是完整的歌词行或歌词段，此时在确定起始歌词和终止歌词时，为了避免歌词的遗漏，可采用下述实施例的技术方案。

在另一个实施例中，全曲歌词数据包括多个歌词段，每个歌词段具有起始标签时刻和终止标签时刻；S210具体包括：遍历全曲歌词数据中的多个歌词段；若检测到一个歌词段的起始标签时刻不大于起始时刻，且终止标签时刻大于起始时刻，将一个歌词段作为起始歌词；若检测到另一个歌词段的终止标签时刻不小于终止时刻，且起始标签时刻小于终止时刻，将另一个歌词段作为终止歌词。

此处，歌词段的起始标签时刻和终止标签时刻，指的是该歌词段在全曲音频数据中开始呈现的时刻和结束呈现的时刻，开始呈现意味着在起始标签时刻，歌曲开始与该歌词段同步，结束呈现意味着在终止标签时刻，歌曲开始与该歌词段的下一个歌词段同步。其中，需要说明的是，相邻两个歌词段中，前一歌词段的终止标签时刻可与后一歌词段的起始标签时刻相同。

下面将举例说明本实施例方案：

假设确定有片段音频数据在全曲音频数据中的起始时刻为8s，终止时刻为18s；若检测到一个歌词段的起始标签时刻为3s，终止标签时刻5s，此时，该歌词段过于靠前，可继续检测该歌词段的下一歌词段；若检测到下一个歌词段的起始标签时刻为5s，终止标签时刻10s，此时，即可将该歌词段作为起始歌词。

同理，若检测到一个歌词段的起始标签时刻为20s，终止标签时刻25s，此时，该歌词段过于靠后，可检测该歌词段的上一歌词段；若检测到上一个歌词段的起始标签时刻为18s，终止标签时刻20s，判断为该歌词段仍然过于靠后，可继续检测该歌词段的上一歌词段；若检测到上一个歌词段的起始标签时刻为15s，终止标签时刻18s，此时，即可将该歌词段作为终止歌词。

上述方法可有效对全曲歌词数据进行截取，得到片段音频数据对应的全部歌词段，避免歌词遗漏，保证了歌词数据的完整性。

在一些实施例中，S212具体包括：对目标歌词数据执行时间修正操作，使得修正后的目标歌词数据能与片段音频数据的时间进度同步；根据修正后的目标歌词数据，得到片段音频数据的歌词数据。

有上述内容可知，当以行或段为单位，对全曲歌词数据进行截取时，提取出来的歌词的时间标签均是基于全曲的时间；且片段音频数据的起始歌词和终止歌词也可能不是完整的歌词行或歌词段，因此得到的目标歌词数据可能与片段音频数据无法完全同步，而是存在一定的时间偏差；上述情况均需要对目标歌词数据进行时间修正，具体修正方法可依据下述实例：

例如，输入的音频文件是裁剪自全曲的第40秒到第60秒的片段，播放输入的音频文件时，播放第0秒时相当于播放全曲的第40秒，播放第20秒时相当于播放全曲的第60秒。因此，在提取的歌词数据中，每一段歌词的时间标签的时间点均偏移一固定时长，该时长即0s至音频文件在全曲中对应的起始时刻，只需将全部时间标签前移该固定时长，即可使修正后的歌词与输入的片段音频文件的时间进度保持同步。特别地，若片段音频文件的起始时刻是在第一段歌词开始显示间隔一段时间才开始的，此时，分离出来的歌词数据，第一段歌词的时间标签经过修正后可能为负数，此时即需经过容错处理，将该行歌词的时间标签修正成第0秒即可。

通过修正目标歌词数据，使得自动生成的片段音频数据对应的歌词数据与该片段音频数据的时间进度一致，同步性佳，保证了歌词与音频高度匹配，提高了歌词制作质量及歌词生成设备的用户体验度。

在一些实施例中，该片段音频歌词生成方法还可包括：将修正后歌词数据写入保存成新的歌词文件。

在本实施例中，可将修正后的歌词数据与标签信息(从全曲歌词中读取出来的歌手名、专辑名等)按照LRC歌词文件的格式，写入并生成LRC歌词文件；当然，也可保存为其它格式文件，此处不作限定。

综上，本申请旨在提供一种歌词生成方法，使用户在不依赖输入的音频文件携带的歌曲名和歌手名信息的情况下，匹配得到对应的全曲信息，并从全曲的歌词文件中裁剪出与输入的音频文件同步的歌词集合，进而生成与输入片段音频文件同步的歌词文件，从而解决彩铃等经过裁剪的音频数据，或者歌曲名歌手名发生丢失的音频文件，歌词查找难度大，匹配的歌词与音频内容不同步的问题。

本申请相对现有技术而言，所具有的优点和效果为：通过对全曲歌词文件进行裁剪，能自动为从全曲文件裁剪出来的片段音频文件生成精准的歌词文件，无需依赖人工处理。音频文件携带的歌手名及歌曲名信息丢失或者不准确时，也能为其生成精准的歌词文件。

应该理解的是，对于前述的各方法实施例，虽然流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，方法实施例的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于与上述实施例中的片段音频歌词生成方法相同的思想，本文还提供一种片段音频歌词生成装置。

在一个实施例中，如图3所示，提供了一种片段音频歌词生成装置，包括：音频获取模块401、音频指纹提取模块402、检索模块403、全曲歌词获取模块404、目标歌词获取模块405和歌词生成模块406，其中：

音频获取模块401，用于获取片段音频数据；

音频指纹提取模块402，用于提取片段音频数据的音频指纹；

检索模块403，用于根据音频指纹，检索对应的全曲音频数据，并确定片段音频数据在全曲音频数据中的起始时刻和终止时刻；

全曲歌词获取模块404，用于获取全曲音频数据对应的全曲歌词数据；

目标歌词获取模块405，用于根据起始时刻和终止时刻，从全曲歌词数据中得到目标歌词数据；

歌词生成模块406，用于根据目标歌词数据，生成片段音频数据的歌词数据。

在一些实施例中，音频指纹提取模块402，具体用于解码片段音频数据，得到片段音频数据的PCM数据；根据PCM数据，获取非静音起始帧；从非静音起始帧开始，提取片段音频数据的音频指纹。

在一些实施例中，音频指纹提取模块402，具体用于提取片段音频数据的多个音频指纹；且检索模块403，具体用于将多个音频指纹组合为一个音频指纹集合；根据音频指纹集合，从音频指纹库中检索出对应的全曲音频数据。

在一些实施例中，音频指纹中携带有音频指纹在片段音频数据中的第一所属时刻；检索模块403，具体用于识别音频指纹中的第一所属时刻；根据第一所属时刻，确定音频指纹在全曲音频数据中的第二所属时刻；根据第一所属时刻、第二所属时刻以及片段音频数据的总时长，确定片段音频数据在全曲音频数据中的起始时刻和终止时刻。

在一些实施例中，目标歌词获取模块405，具体用于根据起始时刻和终止时刻，确定全曲歌词数据中对应的起始歌词和终止歌词；将起始歌词、起始歌词与终止歌词之间的歌词以及终止歌词依序连接，得到目标歌词数据。

在一些实施例中，全曲歌词数据包括多个歌词段，每个歌词段具有起始标签时刻和终止标签时刻；目标歌词获取模块405，具体用于遍历全曲歌词数据中的多个歌词段；若检测到一个歌词段的起始标签时刻不大于起始时刻，且终止标签时刻大于起始时刻，将一个歌词段作为起始歌词；若检测到另一个歌词段的终止标签时刻不小于终止时刻，且起始标签时刻小于终止时刻，将另一个歌词段作为终止歌词。

在一些实施例中，歌词生成模块406，具体用于对目标歌词数据执行时间修正操作，使得修正后的目标歌词数据能与片段音频数据的时间进度同步；根据修正后的目标歌词数据，得到片段音频数据的歌词数据。

关于片段音频歌词生成装置的具体限定可以参见上文中对于片段音频歌词生成方法的限定，在此不再赘述。上述片段音频歌词生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

此外，上述示例的片段音频歌词生成装置的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将片段音频歌词生成装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是音频处理设备，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库可用于存储全曲音频数据和/或全曲歌词数据、音频指纹，或者用于处理音频的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种片段音频歌词生成方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取片段音频数据；

提取片段音频数据的音频指纹；

根据音频指纹，检索对应的全曲音频数据，并确定片段音频数据在全曲音频数据中的起始时刻和终止时刻；

获取全曲音频数据对应的全曲歌词数据；

根据起始时刻和终止时刻，从全曲歌词数据中得到目标歌词数据；

根据目标歌词数据，生成片段音频数据的歌词数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：解码片段音频数据，得到片段音频数据的PCM数据；根据PCM数据，获取非静音起始帧；从非静音起始帧开始，提取片段音频数据的音频指纹。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：提取片段音频数据的多个音频指纹；处理器执行计算机程序时还实现以下步骤：将多个音频指纹组合为一个音频指纹集合；根据音频指纹集合，从音频指纹库中检索出对应的全曲音频数据。

在一个实施例中，音频指纹中携带有音频指纹在片段音频数据中的第一所属时刻；处理器执行计算机程序时还实现以下步骤：识别音频指纹中的第一所属时刻；根据第一所属时刻，确定音频指纹在全曲音频数据中的第二所属时刻；根据第一所属时刻、第二所属时刻以及片段音频数据的总时长，确定片段音频数据在全曲音频数据中的起始时刻和终止时刻。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据起始时刻和终止时刻，确定全曲歌词数据中对应的起始歌词和终止歌词；将起始歌词、起始歌词与终止歌词之间的歌词以及终止歌词依序连接，得到目标歌词数据。

在一个实施例中，全曲歌词数据包括多个歌词段，每个歌词段具有起始标签时刻和终止标签时刻；处理器执行计算机程序时还实现以下步骤：遍历全曲歌词数据中的多个歌词段；若检测到一个歌词段的起始标签时刻不大于起始时刻，且终止标签时刻大于起始时刻，将一个歌词段作为起始歌词；若检测到另一个歌词段的终止标签时刻不小于终止时刻，且起始标签时刻小于终止时刻，将另一个歌词段作为终止歌词。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对目标歌词数据执行时间修正操作，使得修正后的目标歌词数据能与片段音频数据的时间进度同步；根据修正后的目标歌词数据，得到片段音频数据的歌词数据。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取片段音频数据；

提取片段音频数据的音频指纹；

获取全曲音频数据对应的全曲歌词数据；

根据目标歌词数据，生成片段音频数据的歌词数据。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：解码片段音频数据，得到片段音频数据的PCM数据；根据PCM数据，获取非静音起始帧；从非静音起始帧开始，提取片段音频数据的音频指纹。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：提取片段音频数据的多个音频指纹；计算机程序被处理器执行时实现以下步骤：将多个音频指纹组合为一个音频指纹集合；根据音频指纹集合，从音频指纹库中检索出对应的全曲音频数据。

在一个实施例中，音频指纹中携带有音频指纹在片段音频数据中的第一所属时刻；计算机程序被处理器执行时实现以下步骤：识别音频指纹中的第一所属时刻；根据第一所属时刻，确定音频指纹在全曲音频数据中的第二所属时刻；根据第一所属时刻、第二所属时刻以及片段音频数据的总时长，确定片段音频数据在全曲音频数据中的起始时刻和终止时刻。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：根据起始时刻和终止时刻，确定全曲歌词数据中对应的起始歌词和终止歌词；将起始歌词、起始歌词与终止歌词之间的歌词以及终止歌词依序连接，得到目标歌词数据。

在一个实施例中，全曲歌词数据包括多个歌词段，每个歌词段具有起始标签时刻和终止标签时刻；计算机程序被处理器执行时实现以下步骤：遍历全曲歌词数据中的多个歌词段；若检测到一个歌词段的起始标签时刻不大于起始时刻，且终止标签时刻大于起始时刻，将一个歌词段作为起始歌词；若检测到另一个歌词段的终止标签时刻不小于终止时刻，且起始标签时刻小于终止时刻，将另一个歌词段作为终止歌词。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：对目标歌词数据执行时间修正操作，使得修正后的目标歌词数据能与片段音频数据的时间进度同步；根据修正后的目标歌词数据，得到片段音频数据的歌词数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

本文实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或(模块)单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在本文中提及的“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种片段音频歌词生成方法，所述方法包括：

获取片段音频数据；

提取所述片段音频数据的音频指纹；

获取所述全曲音频数据对应的全曲歌词数据；

2.根据权利要求1所述的方法，其特征在于，所述提取所述片段音频数据的音频指纹的步骤，包括：

解码所述片段音频数据，得到所述片段音频数据的PCM数据；

根据所述PCM数据，获取非静音起始帧；

3.根据权利要求1所述的方法，其特征在于，所述提取所述片段音频数据的音频指纹的步骤，包括：

提取所述片段音频数据的多个音频指纹；

将所述多个音频指纹组合为一个音频指纹集合；

4.根据权利要求1至3任一项所述的方法，其特征在于，所述音频指纹中携带有所述音频指纹在所述片段音频数据中的第一所属时刻；

识别所述音频指纹中的所述第一所属时刻；

5.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述起始时刻和所述终止时刻，从所述全曲歌词数据中得到目标歌词数据的步骤，包括：

6.根据权利要求5所述的方法，其特征在于，所述全曲歌词数据包括多个歌词段，每个歌词段具有起始标签时刻和终止标签时刻；

遍历所述全曲歌词数据中的所述多个歌词段；

7.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述目标歌词数据，生成所述片段音频数据的歌词数据的步骤，包括：

8.一种片段音频歌词生成装置，其特征在于，所述装置包括：

音频获取模块，用于获取片段音频数据；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。