CN111507254A

CN111507254A - 制作逐字歌词的方法、装置、终端和非临时性计算机可读存储介质

Info

Publication number: CN111507254A
Application number: CN202010301384.6A
Authority: CN
Inventors: 马哲; 高超
Original assignee: Beijing Thunderstone Technology Co ltd
Current assignee: Beijing Thunderstone Technology Co ltd
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2020-08-07
Anticipated expiration: 2040-04-16
Also published as: CN111507254B

Abstract

本发明涉及语音信号处理技术领域，提供了制作逐字歌词的方法、装置终端和非临时性计算机可读存储介质，以实现逐字歌词的高效、精准制作。所述方法包括：获取待制作逐字歌词的音频文件的频域音频片段；判断频域音频片段中时域上两两紧邻的频域音频片段之间的频率是否发生跳变；若时域上两两紧邻的频域音频片段之间的频率发生跳变，则记录跳变的时刻；从跳变的时刻开始，对音频文件进行文字识别；将识别出来的文字生成逐字歌词文件。相对于现有的人工逐字歌词制作过程效率低下和精准度差的缺陷，本发明实现了逐字歌词制作效率高和精准度高等两方面的效果。

Description

制作逐字歌词的方法、装置、终端和非临时性计算机可读存储介质

技术领域

本发明涉及语音信号处理技术领域，特别涉及一种制作逐字歌词的方法、装置、终端和非临时性计算机可读存储介质。

背景技术

目前，市面上主流的音乐播放软件有逐行歌词和逐字歌词，与逐行歌词不同的是，逐字歌词的每个歌词文字都有独立的时间戳，播放器可以根据当前播放进度并依靠时间戳精确定位到歌曲唱到哪个字，便于在界面上精确地显示歌词进度。

现有的一种逐字歌词制作方法是人工制作，具体而言，就是通过人工一边听目标歌曲，一边对照目标歌曲的歌词，手工记录歌词中每一个字的开始时刻和结束时刻，然后按照格式填写，制作成相应的文件，最后再做一次检查，以修正前述制作过程中的错误。

显然，现有的逐字歌词制作方法一个较大的缺陷就是效率低下，尤其在歌词较长时，可能需要几个小时才能完成一首歌的逐字歌词制作；另一方面，若长时间听歌，人耳容易产生听觉疲劳，出现短暂的听觉反应迟钝，这也给制作的精准度带来影响即精准度会下降，例如，字的开始时刻被判断延迟或结束时刻被判断提前，等等。

发明内容

本发明提供一种制作逐字歌词的方法、装置、终端和非临时性计算机可读存储介质，以实现逐字歌词的高效、精准制作。

一方面，本发明提供了一种制作逐字歌词的方法，包括：

获取待制作逐字歌词的音频文件的频域音频片段；

判断频域音频片段中时域上两两紧邻的频域音频片段之间的频率是否发生跳变；

若时域上两两紧邻的频域音频片段之间的频率发生跳变，则记录跳变的时刻；

从跳变的时刻开始，对音频文件进行文字识别；

将识别出来的文字生成逐字歌词文件。

具体地，所述判断频域音频片段中时域上两两紧邻的频域音频片段之间的频率是否发生跳变，包括：

通过聚类算法，计算当前频域音频片段与当前频域音频片段紧邻的频域音频片段是否属于同一类别；

若当前频域音频片段与当前频域音频片段紧邻的频域音频片段不属于同一类别，则确定当前频域音频片段与当前频域音频片段紧邻的频域音频片段之间的频率发生跳变。

具体地，所述从跳变的时刻开始，对音频文件进行文字识别，包括：

去除音频文件中文字区域的图片背景；

通过边缘检测算法，获取已去除图片背景的音频文件中的预处理文字图片；

对预处理文字图片做进一步筛选，识别出音频文件中的文字。

具体地，所述通过边缘检测算法，获取已去除图片背景的音频文件中的预处理文字图片，包括：

对文字区域的图像二值化；

对二值化后的图像进行膨胀和腐蚀的形态化操作，得到预处理文字图片。

具体地，所述获取待制作逐字歌词的音频文件的频域音频片段，包括：

将待制作逐字歌词的音频文件在时域上切分成若干等长的音频片段；

通过傅里叶变换，将每一个音频片段变换为对应的频域音频片段。

另一方面，本发明提供了一种制作逐字歌词的装置，包括：

频域音频片段获取模块，用于获取待制作逐字歌词的音频文件的频域音频片段；

判断模块，用于判断频域音频片段中时域上两两紧邻的频域音频片段之间的频率是否发生跳变；

记录模块，用于若时域上两两紧邻的频域音频片段之间的频率发生跳变，则记录跳变的时刻；

文字识别模块，用于从跳变的时刻开始，对音频文件进行文字识别；

生成模块，用于将识别出来的文字生成逐字歌词文件。

具体地，所述判断模块包括：

聚类单元，用于通过聚类算法，计算当前频域音频片段与当前频域音频片段紧邻的频域音频片段是否属于同一类别；

结果确定单元，用于若当前频域音频片段与当前频域音频片段紧邻的频域音频片段不属于同一类别，则确定当前频域音频片段与当前频域音频片段紧邻的频域音频片段之间的频率发生跳变。

具体地，所述文字识别模块包括：

去背景单元，用于去除音频文件中文字区域的图片背景；

边缘检测单元，用于通过边缘检测算法，获取已去除图片背景的音频文件中的预处理文字图片；

筛选单元，用于对预处理文字图片做进一步筛选，识别出音频文件中的文字。

第三方面，本发明提供了一种终端，所述终端包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述技术方案的方法的步骤。

第四方面，本发明提供了一种非临时性计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述技术方案的方法的步骤。

不同于现有的逐字歌词制作方法的人工制作，本发明的技术方案中，频域音频片段的获取、频率发生跳变的判断以及对音频文件进行文字识别等，都是通过计算机程序或算法精确自动实现，因此，相对于现有的人工逐字歌词制作过程效率低下和精准度差的缺陷，本发明实现了逐字歌词制作效率高和精准度高等两方面的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种制作逐字歌词的方法的流程图；

图2是本发明实施例提供的从发生频率跳变的时刻开始，对音频文件进行文字识别的流程图；

图3是本发明实施例提供的制作逐字歌词的装置的结构示意图；

图4是本发明实施例提供的判断模块的结构示意图；

图5是本发明实施例提供的文字识别模块的结构示意图；

图6是本发明实施例提供的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本说明书中，诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分，而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下，参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个，而可以是元素、部件、或步骤中的一个或多个等。

在本说明书中，为了便于描述，附图中所示的各个部分的尺寸并不是按照实际的比例关系绘制的。

本发明提出了一种制作逐字歌词的方法和装置，其中，所述方法如图1所示，主要包括步骤S101至S105，详述如下：

步骤S101：获取待制作逐字歌词的音频文件的频域音频片段。

在本发明实施例中，频域音频片段是相对于时域音频片段而言的，即音频文件在频域上的片段，是频域上的表现方式。作为本发明实施例，获取待制作逐字歌词的音频文件的频域音频片段可以是将待制作逐字歌词的音频文件在时域上切分成若干等长的音频片段，然后，通过傅里叶变换，将每一个音频片段变换为对应的频域音频片段。至于在时域上音频片段的长短，可以结合精度要求和资源耗费多少等因素来确定，例如，可以将音频文件在时域上切分成若干段时长为0.1秒的音频片段。

步骤S102：判断经步骤S101获取的频域音频片段中时域上两两相邻的频域音频片段之间的频率是否发生跳变。

在本发明实施例中，判断经步骤S101获取的频域音频片段中时域上两两相邻的频域音频片段之间的频率是否发生跳变可以是：通过聚类算法，计算当前频域音频片段与当前频域音频片段紧邻的频域音频片段是否属于同一类别；若当前频域音频片段与当前频域音频片段紧邻的频域音频片段不属于同一类别，则确定当前频域音频片段与当前频域音频片段紧邻的频域音频片段之间的频率发生跳变。至于聚类算法，可以是K-最紧邻算法(KNN，K-NearestNeighbor)，其核心思想是如果一个样本在特征空间中的K个最紧邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性，该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。以音频文件被切分为5个时长为0.1秒的音频片段为例，假设这些音频片段落入到相应能量值范围的点数如下表所示：

从上表的聚类结果可知，在能量值在1-100、100-200和200-300这三个范围，前4个频域音频片段，其点数相差不大，因此，这4个频域音频片段属于同一类别，而第5个频域音频片段，其与第4个频域音频片段的点数相差甚远，则第5个频域音频片段与第4个频域音频片段或前4个频域音频片段不属于同一类别，即第5个频域音频片段与第5个频域音频片段紧邻的频域音频片段之间的频率发生跳变。

步骤S103：若频域音频片段中时域上两两紧邻的频域音频片段之间的频率发生跳变，则记录跳变的时刻。

记录频率发生跳变的时刻，是为了后续对音频文件进行文字识别。

步骤S104：从步骤S103记录的发生频率跳变的时刻开始，对音频文件进行文字识别。

由于带有歌词的音频和纯声乐的音频，其频率是不一样的，因此，在本发明实施例中，歌曲中歌词开始介入即伴奏进入有歌词唱出来的那一瞬间，音频文件的频率是发生了跳变的，而不同的字，发声的频率也不一样，因此，当歌词中开始切换字时，音频文件的频率也将发生跳变。从发生频率跳变的时刻开始，对音频文件进行文字识别，正是逐字歌词的本质意义。

作为本发明一个实施例，从步骤S103记录的发生频率跳变的时刻开始，对音频文件进行文字识别可通过如附图2示例的步骤S201至S203实现，详细说明如下：

步骤S201：去除音频文件中文字区域的图片背景。

文字区域的图片和其他图片背景是不一样的，为了后续对文字识别时排除噪声干扰，结果更加精准，在本发明实施例中，可以先去除音频文件中文字区域的图片背景，方法可以是KNN算法或/和高斯混合模型算法等。

步骤S202：通过边缘检测算法，获取已去除图片背景的音频文件中的预处理文字图片。

在本发明实施例中，边缘检测算法可以是基于索贝尔(Sobel)算子的边缘检测算法，具体可以是获取到文本矩形Sobel算子，基于Sobel算子，将文字区域的图片二值化，然后，对二值化后的图片进行膨胀和腐蚀的数学形态化(Morphology)操作，最终得到已去除图片背景的音频文件中的预处理文字图片。其中，将文字区域的图片二值化，是指将文字区域的灰度图片的灰度值大于预设灰度阈值的像素的灰度值设为灰度极大值(例如255)，而将灰度值小于该预设灰度阈值的像素的灰度值设为灰度极小值(例如0)；对灰度图的二值化使图像中数据量大为减少，从而能突显出目标的轮廓。至于对二值化后的图片进行膨胀和腐蚀的数学形态化操作，膨胀是将图像中的高亮部分进行膨胀，使其领域扩张，从而使得处理后的图片拥有比原图片更大的高亮区域，而腐蚀是将图像中的高亮部分腐蚀掉，使其领域缩减，从而使得处理后的图片拥有比原图片更小的高亮区域，例如，膨胀操作可以包括如下：定义一个卷积核，该卷积核可以是任何形状和大小，且拥有一个单独定义的参考点，即锚点(Anchorpoint)，卷积核通常可以为带参考点的正方形或者圆盘，可将该卷积核称为模板或掩膜；将卷积核与二值图像进行卷积，计算卷积核覆盖区域的像素点灰度最大值；将这个灰度最大值赋值给参考点指定的像素，因此，二值图像中的高亮区域逐渐增长。相反，腐蚀操作是将卷积核与二值图像进行卷积时，计算卷积核覆盖区域的像素点灰度最小值，将这个灰度最小值赋值给参考点指定的像素，因此，二值图像中的高亮区域逐渐减小。

步骤S203：对预处理文字图片做进一步筛选，识别出音频文件中的文字。

由于边缘检测算法本身具有的误差或者噪声干扰，返回的预处理文字图片未必都是文字，因此，在本发明实施例中，可以对预处理文字图片做进一步筛选，识别出音频文件中的文字，具体方法可以是去掉面积过小或/和面积过大的图片或者其他不符合文字特点的图片，等等。

步骤S105：将识别出来的文字生成逐字歌词文件。

最终生成的逐字歌词文件，其每个被识别出来的文字都有独立的时间戳，播放器可以根据当前播放进度并依靠时间戳精确定位到歌曲唱到哪个字，然后在界面上精确地显示歌词进度。

从上述附图1示例的制作逐字歌词的方法可知，不同于现有的逐字歌词制作方法的人工制作，本发明的技术方案中，频域音频片段的获取、频率发生跳变的判断以及对音频文件进行文字识别等，都是通过计算机程序或算法精确自动实现，因此，相对于现有的人工逐字歌词制作过程效率低下和精准度差的缺陷，本发明实现了逐字歌词制作效率高和精准度高等两方面的效果。

请参阅附图3，是本发明实施例提供的一种制作逐字歌词的装置，该制作逐字歌词的装置包括频域音频片段获取模块301、判断模块302、记录模块303、文字识别模块304和生成模块305，详述如下：

频域音频片段获取模块301，用于获取待制作逐字歌词的音频文件的频域音频片段；

判断模块302，用于判断频域音频片段中时域上两两紧邻的频域音频片段之间的频率是否发生跳变；

记录模块303，用于若时域上两两紧邻的频域音频片段之间的频率发生跳变，则记录跳变的时刻；

文字识别模块304，用于从跳变的时刻开始，对音频文件进行文字识别；

生成模块305，用于将识别出来的文字生成逐字歌词文件。

具体地，附图3示例的判断模块302可包括聚类单元401和结果确定单元402，其结构图如图4所示，详述如下：

聚类单元401，用于通过聚类算法，计算当前频域音频片段与当前频域音频片段紧邻的频域音频片段是否属于同一类别；

结果确定单元402，用于若当前频域音频片段与当前频域音频片段紧邻的频域音频片段不属于同一类别，则确定当前频域音频片段与当前频域音频片段紧邻的频域音频片段之间的频率发生跳变。

具体地，附图3示例的文字识别模块304可包括去背景单元501、边缘检测单元502和筛选单元503，其中：

去背景单元501，用于去除音频文件中文字区域的图片背景；

边缘检测单元502，用于通过边缘检测算法，获取已去除图片背景的音频文件中的预处理文字图片；

筛选单元503，用于对预处理文字图片做进一步筛选，识别出音频文件中的文字。

从以上技术方案的描述中可以看出，不同于现有的逐字歌词制作方法的人工制作，本发明的技术方案中，频域音频片段的获取、频率发生跳变的判断以及对音频文件进行文字识别等，都是通过计算机程序或算法精确自动实现，因此，相对于现有的人工逐字歌词制作过程效率低下和精准度差的缺陷，本发明实现了逐字歌词制作效率高和精准度高等两方面的效果。

图6是本发明一实施例提供的终端的结构示意图。如图6所示，该实施例的终端6主要包括：处理器60、存储器61以及存储在存储器61中并可在处理器60上运行的计算机程序62，例如制作逐字歌词的方法的程序。处理器60执行计算机程序62时实现上述制作逐字歌词的方法实施例中的步骤，例如图1所示的步骤S101至S105。或者，处理器60执行计算机程序62时实现上述各装置实施例中各模块/单元的功能，例如图3所示频域音频片段获取模块301、判断模块302、记录模块303、文字识别模块304和生成模块305的功能。

示例性地，制作逐字歌词的方法的计算机程序62主要包括：获取待制作逐字歌词的音频文件的频域音频片段；判断经步骤S101获取的频域音频片段中时域上两两相邻的频域音频片段之间的频率是否发生跳变；若频域音频片段中时域上两两紧邻的频域音频片段之间的频率发生跳变，则记录跳变的时刻；从步骤S103记录的发生频率跳变的时刻开始，对音频文件进行文字识别；将识别出来的文字生成逐字歌词文件。计算机程序62可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器61中，并由处理器60执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序62在终端5中的执行过程。例如，计算机程序62可以被分割成频域音频片段获取模块301、判断模块302、记录模块303、文字识别模块304和生成模块305(虚拟装置中的模块)的功能，各模块具体功能如下：频域音频片段获取模块301，用于获取待制作逐字歌词的音频文件的频域音频片段；判断模块302，用于判断频域音频片段中时域上两两紧邻的频域音频片段之间的频率是否发生跳变；记录模块303，用于若时域上两两紧邻的频域音频片段之间的频率发生跳变，则记录跳变的时刻；文字识别模块304，用于从跳变的时刻开始，对音频文件进行文字识别；生成模块305，用于将识别出来的文字生成逐字歌词文件。

终端6可包括但不仅限于处理器60、存储器61。本领域技术人员可以理解，图6仅仅是终端6的示例，并不构成对终端6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器61可以是终端6的内部存储单元，例如终端6的硬盘或内存。存储器61也可以是终端6的外部存储设备，例如终端6上配备的插接式硬盘，智能存储卡(Smart MediaCard，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器61还可以既包括终端6的内部存储单元也包括外部存储设备。存储器61用于存储计算机程序以及终端所需的其他程序和数据。存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即，将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非临时性计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，制作逐字歌词的方法的计算机程序可存储于一非临时性计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤，即，获取待制作逐字歌词的音频文件的频域音频片段；判断经步骤S101获取的频域音频片段中时域上两两相邻的频域音频片段之间的频率是否发生跳变；若频域音频片段中时域上两两紧邻的频域音频片段之间的频率发生跳变，则记录跳变的时刻；从步骤S103记录的发生频率跳变的时刻开始，对音频文件进行文字识别；将识别出来的文字生成逐字歌词文件。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。非临时性计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读内存(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，非临时性计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，非临时性计算机可读介质不包括电载波信号和电信信号。以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种制作逐字歌词的方法，其特征在于，所述方法包括：

获取待制作逐字歌词的音频文件的频域音频片段；

判断所述频域音频片段中时域上两两紧邻的频域音频片段之间的频率是否发生跳变；

若所述时域上两两紧邻的频域音频片段之间的频率发生跳变，则记录跳变的时刻；

从所述跳变的时刻开始，对所述音频文件进行文字识别；

将所述识别出来的文字生成逐字歌词文件。

2.如权利要求1所述制作逐字歌词的方法，其特征在于，所述判断所述频域音频片段中时域上两两紧邻的频域音频片段之间的频率是否发生跳变，包括：

通过聚类算法，计算当前频域音频片段与所述当前频域音频片段紧邻的频域音频片段是否属于同一类别；

若所述当前频域音频片段与所述当前频域音频片段紧邻的频域音频片段不属于同一类别，则确定所述当前频域音频片段与所述当前频域音频片段紧邻的频域音频片段之间的频率发生跳变。

3.如权利要求1所述制作逐字歌词的方法，其特征在于，所述从所述跳变的时刻开始，对所述音频文件进行文字识别，包括：

去除所述音频文件中文字区域的图片背景；

通过边缘检测算法，获取所述已去除图片背景的音频文件中的预处理文字图片；

对所述预处理文字图片做进一步筛选，识别出所述音频文件中的文字。

4.如权利要求3所述制作逐字歌词的方法，其特征在于，所述通过边缘检测算法，获取所述已去除图片背景的音频文件中的预处理文字图片，包括：

对所述文字区域的图像二值化；

对所述二值化后的图像进行膨胀和腐蚀的形态化操作，得到所述预处理文字图片。

5.如权利要求1至4任意一项所述制作逐字歌词的方法，其特征在于，所述获取待制作逐字歌词的音频文件的频域音频片段，包括：

将所述待制作逐字歌词的音频文件在时域上切分成若干等长的音频片段；

通过傅里叶变换，将所述每一个音频片段变换为对应的频域音频片段。

6.一种制作逐字歌词的装置，其特征在于，所述装置包括：

判断模块，用于判断所述频域音频片段中时域上两两紧邻的频域音频片段之间的频率是否发生跳变；

记录模块，用于若所述时域上两两紧邻的频域音频片段之间的频率发生跳变，则记录跳变的时刻；

文字识别模块，用于从所述跳变的时刻开始，对所述音频文件进行文字识别；

生成模块，用于将所述识别出来的文字生成逐字歌词文件。

7.如权利要求6所述制作逐字歌词的装置，其特征在于，所述判断模块包括：

聚类单元，用于通过聚类算法，计算当前频域音频片段与所述当前频域音频片段紧邻的频域音频片段是否属于同一类别；

结果确定单元，用于若所述当前频域音频片段与所述当前频域音频片段紧邻的频域音频片段不属于同一类别，则确定所述当前频域音频片段与所述当前频域音频片段紧邻的频域音频片段之间的频率发生跳变。

8.如权利要求6所述制作逐字歌词的装置，其特征在于，所述文字识别模块包括：

去背景单元，用于去除所述音频文件中文字区域的图片背景；

边缘检测单元，用于通过边缘检测算法，获取所述已去除图片背景的音频文件中的预处理文字图片；

筛选单元，用于对所述预处理文字图片做进一步筛选，识别出所述音频文件中的文字。

9.一种终端，所述终端包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任意一项所述方法的步骤。

10.一种非临时性计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任意一项所述方法的步骤。