CN105575414B

CN105575414B - 歌词文件的生成方法及装置

Info

Publication number: CN105575414B
Application number: CN201510938239.8A
Authority: CN
Inventors: 武大伟
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2015-12-15
Filing date: 2015-12-15
Publication date: 2018-05-11
Anticipated expiration: 2035-12-15
Also published as: CN105575414A

Abstract

本发明公开了一种歌词文件的生成方法及装置，属于音频处理技术领域。该方法包括：获取目标音频文件及参考音频文件，目标音频文件与参考音频文件为同一音频文件的不同版本；分别对目标音频文件和参考音频文件进行特征提取，得到第一音频特征和第二音频特征；根据第一音频特征和第二音频特征，计算目标音频文件与参考音频文件之间的时间偏差；根据时间偏差，调整参考音频文件对应歌词文件的时间戳，得到目标音频文件对应的歌词文件。本发明对于同一音频文件的不同版本，通过调整参考音频文件对应的歌词文件，即可为目标音频文件生成对应的歌词文件，无需重复生成多个歌词文件，提高了音频文件的制作效率，降低了制作成本。

Description

歌词文件的生成方法及装置

技术领域

本发明涉及音频处理技术领域，特别涉及一种歌词文件的生成方法及装置。

背景技术

随着音频处理技术的发展，用户对试听体验有了更高的要求，不仅要求音频播放应用能够播放音频文件，还希望音频播放应用能够同步显示与音频文件相应的歌词文件。

为了满足用户的需求，现有技术主要采用人工方式为音频文件数据库中的每个音频文件生成相应的歌词文件，并将所生成的歌词文件导入到音频播放应用中，从而在播放音频文件时，同步显示相应地歌词文件。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

对于音频文件数据库中不同版本的音频文件，现有技术也会采用人工方式为每个音频文件分别生成一个歌词文件，该过程效率较低、制作成本较高。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种歌词文件的生成方法及装置。所述技术方案如下：

一方面，提供了一种歌词文件的生成方法，所述方法包括：

获取目标音频文件及参考音频文件，所述目标音频文件与所述参考音频文件为同一音频文件的不同版本；

分别对所述目标音频文件和所述参考音频文件进行特征提取，得到第一音频特征和第二音频特征；

根据所述第一音频特征和所述第二音频特征，计算所述目标音频文件与所述参考音频文件之间的时间偏差；

根据所述时间偏差，调整所述参考音频文件对应歌词文件的时间戳，得到所述目标音频文件对应的歌词文件。

可选地，所述分别对所述目标音频文件和所述参考音频文件进行特征提取，得到第一音频特征和第二音频特征，包括：

采用预设频率对所述目标音频文件进行重采样；

将重采样后的目标音频文件划分为多个音频片段，每个音频片段中包含预设数量个采样点；

对于任意相邻的第一音频片段和第二音频片段，采用汉宁窗函数进行处理，得到第一加窗音频片段和第二加窗音频片段；

对所述第一加窗音频片段和所述第二加窗音频片段分别进行快速傅里叶变换FFT，得到所述第一音频片段对应的第一频谱和所述第二音频片段对应的第二频谱；

对所述第一频谱和所述第二频谱分别进行映射，得到所述第一音频片段对应的多个第一频率点和所述第二音频片段对应的多个第二频率点，所述第一频率点和所述第二频率点的数量相同；

根据所述多个第一频率点和多个所述第二频率点，获取所述第一音频片段的音频特征值；

对所述多个音频片段的音频特征值进行组合，得到所述第一音频特征。

可选地，所述对所述第一频谱和所述第二频谱分别进行映射，得到所述第一音频片段对应的第一频率点和所述第二音频片段对应的第二频率点，包括：

对于所述第一频谱，根据所述预设数量个采样点和所述预设频率，计算每个采样点对应的频率范围；

将小于指定范围的频率范围进行线性映射，得到多个线性频率点；

将大于所述指定范围的频率范围，应用以下公式，进行对数映射，得到多个对数频率点：

其中，Bin_new表示所述对数频率点，Bin表示大于所述指定范围的任一频率范围，Δf表示相邻两个采样点对应的频率范围之间的频率间隔，f_ref表示参考频率，*表示乘号；

将所述多个线性频率点和所述多个对数频率点作为所述多个第一频率点。

可选地，所述根据所述多个第一频率点和所述多个第二频率点，获取所述第一音频片段的音频特征值，包括：

获取所述第一音频片段对应的每个第一频率点的能量值，并获取所述第二音频片段对应的每个第二频率点的能量值；

获取所述第一音频片段上每个第一频率点的能量值与所述第二音频片段上位置相同的第二频率点的能量值之差，作为所述第一音频片段的音频特征值。

可选地，所述根据所述第一音频特征和所述第二音频特征，计算所述目标音频文件与所述参考音频文件之间的时间偏差，包括：

计算所述第一音频特征和所述第二音频特征之间的互相关函数；

根据所述互相关函数，计算所述第一音频特征和所述第二音频特征之间的时间偏差，作为所述目标音频文件与所述参考音频文件之间的时间偏差。

可选地，所述计算所述第一音频特征和所述第二音频特征之间的互相关函数，包括：

对于所述第一音频特征和所述第二音频特征，应用以下公式，计算所述互相关函数：

R_xy＝IFFT(conj(FFT(x))*FFT(y))

其中，x表示所述第一音频特征，y表示所述第二音频特征，R_xy表示所述互相关函数，conj表示共轭运算符，IFFT表示反傅里叶变换，FFT表示傅里叶变换，*表示乘号。

可选地，所述根据所述互相关函数，计算所述第一音频特征和所述第二音频特征之间的时间偏差，包括：

计算所述互相关函数的最大值；

获取所述互相关函数的最大值对应的位置偏差；

对于所述位置偏差，应用以下公式，计算所述第一音频特征和所述第二音频特征之间的时间偏差：

τ＝m₀/k₀

其中，τ表示所述第一音频特征和所述第二音频特征之间的时间偏差，m₀表示所述互相关函数的最大值所对应的位置偏差，k₀表示所述预设频率，/表示除号。

另一方面，提供了一种歌词文件的生成装置，所述装置包括：

获取模块，用于获取目标音频文件及参考音频文件，所述目标音频文件与所述参考音频文件为同一音频文件的不同版本；

提取模块，用于分别对所述目标音频文件和所述参考音频考文件进行特征提取，得到第一音频特征和第二音频特征；

计算模块，用于根据所述第一音频特征和所述第二音频特征，计算所述目标音频文件与所述参考音频文件之间的时间偏差；

调整模块，用于根据所述时间偏差，调整所述参考音频文件对应歌词文件的时间戳，得到所述目标音频文件对应的歌词文件。

可选地，所述提取模块，用于采用预设频率对所述目标音频文件进行重采样；将重采样后的目标音频文件划分为多个音频片段，每个音频片段中包含预设数量个采样点；对于任意相邻的第一音频片段和第二音频片段，采用汉宁窗函数进行处理，得到第一加窗音频片段和第二加窗音频片段；对所述第一加窗音频片段和所述第二加窗音频片段分别进行快速傅里叶变换FFT，得到所述第一音频片段对应的第一频谱和所述第二音频片段对应的第二频谱；对所述第一频谱和所述第二频谱分别进行映射，得到所述第一音频片段对应的多个第一频率点和所述第二音频片段对应的多个第二频率点，所述第一频率点和所述第二频率点的数量相同；根据所述多个第一频率点和多个所述第二频率点，获取所述第一音频片段的音频特征值；对所述多个音频片段的音频特征值进行组合，得到所述第一音频特征。

可选地，所述提取模块，还用于对于所述第一频谱，根据所述预设数量个采样点和所述预设频率，计算每个采样点对应的频率范围；将小于指定范围的频率范围进行线性映射，得到多个线性频率点；将大于所述指定范围的频率范围，应用以下公式，进行对数映射，得到多个对数频率点：

可选地，所述提取模块，用于获取所述第一音频片段对应的每个第一频率点的能量值，并获取所述第二音频片段对应的每个第二频率点的能量值；获取所述第一音频片段上每个第一频率点的能量值与所述第二音频片段上位置相同的第二频率点的能量值之差，作为所述第一音频片段的音频特征值。

可选地，所述计算模块，用于计算所述第一音频特征和所述第二音频特征之间的互相关函数；根据所述互相关函数，计算所述第一音频特征和所述第二音频特征之间的时间偏差，作为所述目标音频文件与所述参考音频文件之间的时间偏差。

可选地，所述计算模块，还用于对于所述第一音频特征和所述第二音频特征，应用以下公式，计算所述互相关函数：

R_xy＝IFFT(conj(FFT(x))*FFT(y))

可选地，所述计算模块，还用于计算所述互相关函数的最大值；获取所述互相关函数的最大值对应的位置偏差；对于所述位置偏差，应用以下公式，计算所述第一音频特征和所述第二音频特征之间的时间偏差：

τ＝m₀/k₀

本发明实施例提供的技术方案带来的有益效果是：

对于同一音频文件的不同版本，通过调整参考音频文件对应的歌词文件，即可为目标音频文件生成对应的歌词文件，无需重复生成多个歌词文件，提高了音频文件的制作效率，降低了制作成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本发明一个实施例提供的歌词文件的生成方法所涉及的实施环境的结构示意图；

图1B是本发明另一个实施例提供的一种歌词文件的生成方法流程图；

图2是本发明另一个实施例提供的一种歌词文件的生成方法流程图；

图3是本发明另一个实施例提供的一种音频特征提取过程的示意图；

图4是本发明另一个实施例提供的一种歌词文件的生成过程的示意图；

图5是本发明另一个实施例提供的一种歌词文件的生成装置的结构示意图；

图6是本发明另一个实施例提供的一种用于歌词文件的生成服务器。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

请参考图1A，其示出了本发明实施例提供的歌词文件的生成方法所涉及的实施环境的结构示意图，该实施环境包括第一客户端11、服务器12和至少一个第二客户端13。

第一客户端11通过无线或者有线网络和服务器12连接，第一客户端11可以为能够访问多媒体网站的电子设备，该电子设备可以为电脑，智能手机、平板电脑或者其他电子设备。

服务器12可以为多媒体网站的一个或者多个网站服务器，还可以是一个云计算中心。

第二客户端13通过无线或者有限网络和服务器12连接，第二客户端13可以为能够访问多媒体网站的电子设备，该电子设备可以为电脑，智能手机、平板电脑或者其他电子设备。

本发明实施例提供的一种歌词文件的生成方法，参见图1B，本实施例提供的方法流程包括：

101、获取目标音频文件及参考音频文件，该目标音频文件与参考音频文件为同一音频文件的不同版本。

102、分别对目标音频文件和参考音频文件进行特征提取，得到第一音频特征和第二音频特征。

103、根据第一音频特征和第二音频特征，计算目标音频文件与参考音频文件之间的时间偏差。

104、根据时间偏差，调整参考音频文件对应歌词文件的时间戳，得到目标音频文件对应的歌词文件。

本发明实施例提供的方法，对于同一音频文件的不同版本，通过调整参考音频文件对应的歌词文件，即可为目标音频文件生成对应的歌词文件，无需重复生成多个歌词文件，提高了音频文件的制作效率，降低了制作成本。

在本发明的另一个实施例中，分别对目标音频文件和参考音频文件进行特征提取，得到第一音频特征和第二音频特征，包括：

采用预设频率对目标音频文件进行重采样；

对第一加窗音频片段和第二加窗音频片段分别进行快速傅里叶变换FFT，得到第一音频片段对应的第一频谱和第二音频片段对应的第二频谱；

对第一频谱和第二频谱分别进行映射，得到第一音频片段对应的多个第一频率点和第二音频片段对应的多个第二频率点，第一频率点和第二频率点的数量相同；

根据多个第一频率点和多个第二频率点，获取第一音频片段的音频特征值；

对多个音频片段的音频特征值进行组合，得到第一音频特征。

在本发明的另一个实施例中，对第一频谱和第二频谱分别进行映射，得到第一音频片段对应的第一频率点和第二音频片段对应的第二频率点，包括：

对于第一频谱，根据预设数量个采样点和预设频率，计算每个采样点对应的频率范围；

将大于指定范围的频率范围，应用以下公式，进行对数映射，得到多个对数频率点：

其中，Bin_new表示对数频率点，Bin表示大于指定范围的任一频率范围，Δf表示相邻两个采样点对应的频率范围之间的频率间隔，f_ref表示参考频率，*表示乘号；

将多个线性频率点和多个对数频率点作为多个第一频率点。

在本发明的另一个实施例中，根据多个第一频率点和多个第二频率点，获取第一音频片段的音频特征值，包括：

获取第一音频片段对应的每个第一频率点的能量值，并获取第二音频片段对应的每个第二频率点的能量值；

获取第一音频片段上每个第一频率点的能量值与第二音频片段上位置相同的第二频率点的能量值之差，作为第一音频片段的音频特征值。

在本发明的另一个实施例中，根据第一音频特征和第二音频特征，计算目标音频文件与参考音频文件之间的时间偏差，包括：

计算第一音频特征和第二音频特征之间的互相关函数；

根据互相关函数，计算第一音频特征和第二音频特征之间的时间偏差，作为目标音频文件与参考音频文件之间的时间偏差。

在本发明的另一个实施例中，计算第一音频特征和第二音频特征之间的互相关函数，包括：

对于第一音频特征和第二音频特征，应用以下公式，计算互相关函数：

R_xy＝IFFT(conj(FFT(x))*FFT(y))

其中，x表示第一音频特征，y表示第二音频特征，R_xy表示互相关函数，conj表示共轭运算符，IFFT表示反傅里叶变换，FFT表示傅里叶变换，*表示乘号。

在本发明的另一个实施例中，根据互相关函数，计算第一音频特征和第二音频特征之间的时间偏差，包括：

计算互相关函数的最大值；

获取互相关函数的最大值对应的位置偏差；

对于位置偏差，应用以下公式，计算第一音频特征和第二音频特征之间的时间偏差：

τ＝m₀/k₀

其中，τ表示第一音频特征和第二音频特征之间的时间偏差，m₀表示互相关函数的最大值所对应的位置偏差，k₀表示预设频率，/表示除号。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

本发明实施例提供了一种歌词文件的生成方法，参见图2，本实施例提供的方法流程包括：

201、服务器获取目标音频文件及参考音频文件。

其中，服务器维护一个音频文件数据库，该音频文件数据库中存储着多个不同版本的音频文件，这些音频文件可能是同一歌手在不同演唱会中所录制的，也可能是不同歌手所录制，这些不同版本的音频文件对应的歌词文件具有相同的内容，但这些音频文件因录制年代、录制的码率不同，导致这些音频文件的播放时间并不相同。

由于音频文件数据库中存储的音频文件的数量较多，为了便于对多个音频文件进行区分，服务器在存储每个音频文件时，会存储每个音频文件的歌曲名、歌手、录制时间等信息，因此，当服务器从音频文件数据库中，获取任一音频文件的不同版本时，可按照歌曲名，从音频文件数据库中，与该歌曲名相同的多个音频文件，并从多个音频文件中随机选取两个音频文件，一个作为参考音频文件，另一个作为目标音频文件，进而采用人工的方式为所选取的参考音频文生成歌词文件。为了提高歌词文件的生成效率，节省歌词文件的制作成本，本发明采用人工的方式为参考音频文件生成歌词文件之后，通过调整参考音频文件对应歌词文件的时间戳，即可为目标音频文件生成歌词文件。

202、服务器对目标音频文件进行特征提取，得到第一音频特征。

在音频处理领域，每个音频文件都具有多个音频特征，例如时域特征、频域特征、韵律特征、音色特征等，本发明实施例以从目标音频文件中提取频域能量值作为第一音频特征、从参考音频文件中提取的音域能量值作为第二音频特征为例进行说明。对于服务器从目标音频文件中提取第一音频特征的具体过程，可参见下述步骤2021～2027：

2021、服务器采用预设频率对目标音频文件进行重采样。

由于目标音频文件和参考音频文件在录制时码率是不同的，而不同码率的音频文件之间不仅很难计算时间偏差，而且对不同码率的音频文件处理的计算量较大，为此，在本实施例中，服务器需要采用预设频率对目标音频文件进行重采样，将目标音频文件和参考音频文件重采样到同一速率。其中，预设频率可以为22.05kHz(千赫兹)、32kHz、44.1kHz、48kHz等，本实施例以预设频率为44.1kHz为例。

2022、服务器将重采样后的目标音频文件划分为多个音频片段，每个音频片段中包含预设数量个采样点。

在音频处理领域，音频文件实质上是由多个采样点组成的声音信号。受限于服务器的处理能力，服务器还以预设数量为单位，将重采样后的目标音频文件划分为多个音频片段，每个音频片段中包含预设数量个采样点。本实施例将重采样后的目标音频文件划分后的每个音频片段作为一帧，这样重采样后的目标音频文件由多帧音频片段组成。其中，预设数量可以为1000个、2000个、3000个等，本实施例以预设数量为2048为例，也即是，每个音频片段中包括2048个采样点。例如，目标音频文件中第1个采样点～第2048个采样点组成一个音频片段，第2049个采样点～4096个采样点组成一个音频片段，……。

2023、对于任意相邻的第一音频片段和第二音频片段，服务器采用汉宁窗函数进行处理，得到第一加窗音频片段和第二加窗音频片段。

在从目标音频片段中提取第一音频特征时，以对重采样后的目标音频片段所划分的多个音频片段中任意相邻的两个音频片段第一音频片段和第二音频片段为例。为了防止每个音频片段的能量泄露，确保对音频片段进行FFT变换得到的频谱光滑、无凸起，在对第一音频片段和第二音频片段进行FFT变换之前，服务器还将采用汉宁窗函数对第一音频片段和第二音频片段进行处理，得到第一加窗音频片段和第二加窗音频片段。其中，汉宁窗函数又称升余旋窗函数，可以看作3个矩形时间窗函数的频谱之和，可以消除高频干扰和漏能。

2024、服务器对第一加窗音频片段和第二加窗音频片段分别进行快速傅里叶变换FFT，得到第一音频片段对应的第一频谱和第二音频片段对应的第二频谱。

其中，FFT是离散傅里叶变换的快速算法，它是根据离散傅里叶变换的奇、偶、虚、实等特性，对离散傅里叶变换的算法的改进。当采用FFT对第一加窗音频片段进行处理之后，可得到第一音频片段对应的第一频谱；当采用FFT对第二加窗音频片段进行处理之后，可得到第二音频片段对应的第二频谱，该第一频谱和第二频谱的频率宽度与预设频率相同，也即是第一频谱和第二频谱的宽度均为44.1kHz。

2025、服务器对第一频谱和第二频谱分别进行映射，得到第一音频片段对应的多个第一频率点和第二音频片段对应的多个第二频率点，第一频率点和第二频率点的数量相同。

考虑到人耳听觉系统具有线性-对数频率敏感度的特性，服务器需要对第一频谱和第二频谱进行映射。对于服务器对第一频谱进行映射，得到第一音频片段对应的第一频率点的过程，具体参见步骤20251～20254。

20251、对于第一频谱，服务器根据预设数量个采样点和预设频率，计算每个采样点对应的频率范围。

服务器计算预设频率与第一音频片段中包含的采样点数量的比值，得到每个采样点对应的单位频率，服务器按照采样点在第一音频片段中的顺序，以单位频率为步长，获取每个采样点对应的频率范围，在本实施例中，该每个采样点对应的频率范围可用Bin表示。例如，预设频率为44.1kHz，每个音频片段中包含的采样点的数量为2048个，则将44.1kHz/2048，可得到每个采样点对应的单位频率为25.3Hz，之后服务器以单位频率为步长，获取到第1个采样点对应的频率范围为0～25.3Hz，第2个采用点对应的频率范围为25.4Hz～50.7Hz，....，第2048个采样点对应的频率范围44074.7Hz～44100Hz。

20252、服务器将小于指定范围的频率范围进行线性映射，得到多个线性频率点。

通过对第一频谱进行分析可知，当频率范围小于指定范围时，每个频率范围可以一一映射为线性频率点，服务器通过将第一频谱上小于指定范围的频率范围进行线性映射，可得到多个线性频率点。其中，指定范围可根据实际情况进行确定，本实施例对此不作具体的限定。

20253、服务器将大于指定范围的频率范围进行对数映射，得到多个对数频点。

当频率范围大于指定范围时，服务器可应用以下公式，进行对数映射，得到多个对数频率点：

其中，Bin_new表示对数频率点，Bin表示大于指定范围的任一频率范围，Δf表示相邻两个采样点对应的频率范围之间的频率间隔，f_ref表示参考频率，*表示乘号，在本实施例中f_ref为440Hz。通过线性映射，高频部分的多个频率范围可映射为一个对数频点。

20254、服务器将多个线性频率点和多个对数频率点作为多个第一频率点。

上述以对第一频率进行映射为例，对第二频率的映射过程参见上述步骤20251～20254，此处不再赘述。由于服务器对第一频谱进行映射时所采用的映射方法与服务器对第二频谱进行映射时所采用的方法相同，因此，第一频率映射后得到的第一频点的数量和第二频率映射后得到的第二频率的数量应该是相同的。

2026、服务器据多个第一频率点和多个第二频率点，获取第一音频片段的音频特征值。

服务器根据多个第一频率点和多个第二频率点，获取第一音频片段的音频特征值，包括以下步骤20261～20262。

20261、服务器获取第一音频片段对应的每个第一频率点的能量值，并获取第二音频片段对应的每个第二频率点的能量值。

由于第一音频片段对应的多个第一频率点中包括由小于指定范围的频率范围映射得到的第一频率点、以及由大于指定范围的频率范围映射得到的第一频率点，因此，在获取第一音频片段对应的每个第一频率点的能量值，对于由小于指定范围的频率范围映射得到的第一频率点，服务器可直接获取该频率范围内的能量值，并将获取到的能量值作为该第一频率点的能量值；对于由大于指定范围的频率范围映射得到的第一频率点，服务器需要获取构成该第一频率点的多个频率范围内的能量值之和，并将该能量值之和作为该第一频率点的能量值。

服务器在获取第二音频片段对应的每个第二频率点的能量值的方法与上述获取第一音频片段中每个第一频率点的能量值的方法相同，具体参见上述获取第一音频片段对应的每个第一频率点的能量值的过程，此处不再赘述。

20262、服务器获取第一音频片段上每个第一频率点的能量值与第二音频片段上位置相同的第二频率点的能量值之差，作为第一音频片段的音频特征值。

在本实施例中，第一音频片段和第二音频片段中包含的频率点数相同，服务器通过将第一音频片段上每个第一频率点的能量值与第二音频片段上位置相同的第二频率点的能量值相减，得到的多个能量值差值，并将得到的多个能量差值构成一个列向量，作为第一音频片段的音频特征值。具体地，服务器将第一音频片段上的第一个第一频率点的能量值减去第二音频片段上第一个第二频率点的能量值，将第一音频片段上的第二个第一频率点的能量值减去第二音频片段上第二个第二频率点的能量值，....，将第一音频片段上的最后一个第一频率点的能量值减去第二音频片段上最后一个第二频率点的能量值，将得到的所有差值构成一个列向量，该列向量即为第一音频片段的音频特征值。

例如，第一音频片段对应10个第一频率点，各个第一频率点的能量值依次为2.3、4.1、5.0、1.8、2.6、3.4、3.7、4.6、5.2、3.0，第二音频片段对应10个第二频率点，各个第二频率点的能量值依次为1.6、4、4.5、2、3、2.4、1.8、5、4.2、1.7，则将第一音频片段上的第一个第一频率点的能量值减去第二音频片段上第一个第二频率点的能量值＝2.3-1.6＝0.7，将第一音频片段上的第二个第一频率点的能量值减去第二音频片段上第二个第二频率点的能量值＝4.1-4＝0.1，.....，将第一音频片段上的第十个第一频率点的能量值减去第二音频片段上第十个第二频率点的能量值＝3.0-1.7＝1.3。最后将得到的所有差值构成一个列向量为(0.7，0.1，0.5，-0.2，-0.4，1，1.9，-0.4，1，1.3)，该列向量即为第一音频片段的音频特征值。

需要说明的是，上述以将第一音频片段上每个第一频率点的能量值减去第二音频片段上位置相同的第二频率点的能量值，作为第一音频片段的音频特征值为例进行说明的，实际上，也可将第二音频片段上每个第二频率点的能量值减去第一音频片段上每个第一频率点的能量值，作为第一音频片段的音频特征值，只要保证在提取目标音频文件和参考音频文件的音频特征值时，采用相同的减法相减即可。

2027、服务器对多个音频片段的音频特征值进行组合，得到第一音频特征。

在将重采样后的目标音频文件所划分的多个音频片段均采用上述方法获取到音频特征值之后，服务器通过对多个音频特征值进行组合，得到第一音频特征值。例如，服务器预先为不同的音频片段设置不同的权重，通过对多个音频片段的音频特征值带权相加，可得到第一音频特征值。

对于上述从目标音频文件中提取第一音频特征的过程，为了便于理解，下面将以图3为例进行说明。

当从音频文件数据库中获取到目标音频文件和参考音频文件之后，服务器对所获取到的目标音频文件进行重采样，并将重采样后的目标音频文件划分为多个音频片段，对于任意相邻的两个音频片段第一音频片段和第二音频片段，服务器采用汉宁窗函数进行处理，得到第一加窗音频片段和第二加窗音频片段，并利用FFT计算第一加窗音频片段和第二加窗音频片段的频谱，得到第一频谱和第二频谱。考虑到人耳的听觉系统具有线性-对数频率的敏感度的特性，服务器还将对第一频谱和第二频谱进行映射，进而根据映射结果进行能量聚合，并根据聚合后的能量计算第一音频片段的音频特征值。服务器通过将多个音频片段的音频特征值进行组合，得到第一音频特征。

203、服务器对参考音频文件进行特征提取，得到第二音频特征。

服务器对参考音频文进行特征提取的过程，与上述步骤202的实现方式相同，具体参见上述步骤203，此处不再赘述。

需要说明的是，上述步骤202中对目标音频文件进行特征提取和步骤203中对参考音频文件进行特征提取的过程是同时进行的，在本实施例中仅将从对目标音频文件进行特征提取作为步骤202，对参考音频文件进行特征提取作为步骤203，上述步骤202和上述步骤203并不代表具体的执行顺序。

204、服务器根据第一音频特征和第二音频特征，计算目标音频文件与参考音频文件之间的时间偏差。

在本实施例中，服务器根据第一音频特征和第二音频特征，计算目标音频文件与参考音频文件之间的时间偏差，包括以下步骤2041～2042。

2041、服务器计算第一音频特征和第二音频特征之间的互相关函数。

其中，互相关函数用于表示两个信号之间的相关程度。对于第一音频特征和第二音频特征，服务器在计算第一音频特征和第二音频特征之间的互相关函数时，可应用以下公式(1)：

R_xy＝IFFT(conj(FFT(x))*FFT(y)) (1)

2042、服务器根据互相关函数，计算第一音频特征和第二音频特征之间的时间偏差，作为目标音频文件与参考音频文件之间的时间偏差。

服务器根据互相关函数，计算第一音频特征和第二音频特征之间的时间偏差，包括以下步骤20421～20423。

20421、服务器计算互相关函数的最大值。

20422、服务器获取互相关函数的最大值对应的位置偏差。

20423、对于位置偏差，应用以下公式，计算第一音频特征和第二音频特征之间的时间偏差：

τ＝m₀/k₀

205、服务器根据时间偏差，调整参考音频文件对应歌词文件的时间戳，得到目标音频文件对应的歌词文件。

在计算出目标音频文件与参考音频文件之间的时间偏差之后，服务器根据该时间偏差对参考音频文件对应的歌词文件的时间戳进行调整，在该过程中，服务器对歌词文件中每句歌词对应的时间戳调整幅度均为时间偏差。通过参考音频文件对应的歌词文件的时间戳进行调整，可得到目标音频文件对应的歌词文件。

对于上述根据参考音频文件对应的歌词文件为目标音频文件生成对应歌词文件的过程，为了便于理解，下面以图4为例进行说明。

参见图4，服务器获取同一音频文件不同版本的目标音频文件和参考音频文件，并采用人工方式为参考音频文件生成歌词文件。之后，服务器从目标音频文件中提取第一音频特征，从参考音频文件中提取第二音频特征，进而根据第一音频特征和第二音频特征，计算目标音频文件和参考音频文件时间的时间偏差，并根据该时间偏差调整参考音频文件对应的歌词文件的时间戳，得到目标音频文件对应的歌词文件。

需要说明的是，上述从目标音频文件与参考音频文件中提取的音频特征除频域能量值外，还可以提取音色的chromagram特征。另外，上述以根据参考音频文件对应的歌词文件，为目标音频文件生成歌词文件为例进行说明的，对于为同一音频文件其他版本的音频文件生成歌词文件的过程，与上述为目标音频文件生成对应的歌词文件的实现方式相同，具体参见上述为目标音频文件生成对应歌词文件的过程，此处不再一一说明。

需要说明的是，本实施例提供的歌词文件的生成方法，可以应用于任何具有计算能力的电子设备中，例如，服务器、智能手机、多媒体播放器或者计算机等，本实施仅以歌词文件的生成方法应用于服务器中为例进行说明，但并不能对本发明的应用范围构成限定。

参见图5，本发明实施例提供了一种歌词文件的生成装置，该装置包括：

获取模块501，用于获取目标音频文件及参考音频文件，目标音频文件与参考音频文件为同一音频文件的不同版本；

提取模块502，用于分别对目标音频文件和参考音频文件进行特征提取，得到第一音频特征和第二音频特征；

计算模块503，用于根据第一音频特征和第二音频特征，计算目标音频文件与参考音频文件之间的时间偏差；

调整模块504，用于根据时间偏差，调整参考音频文件对应歌词文件的时间戳，得到目标音频文件对应的歌词文件。

在本发明的另一个实施例中，提取模块502，用于采用预设频率对目标音频文件进行重采样；将重采样后的目标音频文件划分为多个音频片段，每个音频片段中包含预设数量个采样点；对于任意相邻的第一音频片段和第二音频片段，采用汉宁窗函数进行处理，得到第一加窗音频片段和第二加窗音频片段；对第一加窗音频片段和第二加窗音频片段分别进行快速傅里叶变换FFT，得到第一音频片段对应的第一频谱和第二音频片段对应的第二频谱；对第一频谱和第二频谱分别进行映射，得到第一音频片段对应的多个第一频率点和第二音频片段对应的多个第二频率点，第一频率点和第二频率点的数量相同；根据多个第一频率点和多个第二频率点，获取第一音频片段的音频特征值；对多个音频片段的音频特征值进行组合，得到第一音频特征。

在本发明的另一个实施例中，提取模块502，还用于对于第一频谱，根据预设数量个采样点和预设频率，计算每个采样点对应的频率范围；将小于指定范围的频率范围进行线性映射，得到多个线性频率点；将大于指定范围的频率范围，应用以下公式，进行对数映射，得到多个对数频率点：

将多个线性频率点和多个对数频率点作为多个第一频率点。

在本发明的另一个实施例中，提取模块502，用于获取第一音频片段对应的每个第一频率点上的能量值，并获取第二音频片段对应的每个第二频率点上的能量值；获取第一音频片段上每个第一频率点的能量值与第二音频片段上位置相同的第二频率点的能量值之差，作为第一音频片段的音频特征值。

在本发明的另一个实施例中，计算模块503，用于计算第一音频特征和第二音频特征之间的互相关函数；根据互相关函数，计算第一音频特征和第二音频特征之间的时间偏差，作为目标音频文件与参考音频文件之间的时间偏差。

在本发明的另一个实施例中，计算模503块，还用于对于第一音频特征和第二音频特征，应用以下公式，计算互相关函数：

R_xy＝IFFT(conj(FFT(x))*FFT(y))

在本发明的另一个实施例中，计算模块503，还用于计算互相关函数的最大值；获取互相关函数的最大值对应的位置偏差；对于位置偏差，应用以下公式，计算第一音频特征和第二音频特征之间的时间偏差：

τ＝m₀/k₀

综上，本发明实施例提供的装置，对于同一音频文件的不同版本，通过调整参考音频文件对应的歌词文件，即可为目标音频文件生成对应的歌词文件，无需重复生成多个歌词文件，提高了音频文件的制作效率，降低了制作成本。

图6是根据一示例性实施例示出的一种用于歌词文件的生成服务器。参照图6，服务器600包括处理组件622，其进一步包括一个或多个处理器，以及由存储器632所代表的存储器资源，用于存储可由处理组件622的执行的指令，例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件622被配置为执行指令，以执行上述歌词文件的生成中服务器所执行的功能，该方法包括：

获取目标音频文件及参考音频文件，目标音频文件与参考音频文件为同一音频文件的不同版本；

分别对目标音频文件和参考音频文件进行特征提取，得到第一音频特征和第二音频特征；

根据第一音频特征和第二音频特征，计算目标音频文件与参考音频文件之间的时间偏差；

根据时间偏差，调整参考音频文件对应歌词文件的时间戳，得到目标音频文件对应的歌词文件。

采用预设频率对目标音频文件进行重采样；

将多个线性频率点和多个对数频率点作为多个第一频率点。

计算第一音频特征和第二音频特征之间的互相关函数；

R_xy＝IFFT(conj(FFT(x))*FFT(y))

计算互相关函数的最大值；

获取互相关函数的最大值对应的位置偏差；

τ＝m₀/k₀

服务器600还可以包括一个电源组件626被配置为执行服务器600的电源管理，一个有线或无线网络接口650被配置为将服务器600连接到网络，和一个输入输出(I/O)接口658。服务器600可以操作基于存储在存储器632的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本发明实施例提供的服务器，对于同一音频文件的不同版本，通过调整参考音频文件对应的歌词文件，即可为目标音频文件生成对应的歌词文件，无需重复生成多个歌词文件，提高了音频文件的制作效率，降低了制作成本。

需要说明的是：上述实施例提供的歌词文件的生成装置在生成歌词文件时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将歌词文件的生成装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的歌词文件的生成装置与歌词文件的生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种歌词文件的生成方法，其特征在于，所述方法包括：

采用预设频率对所述目标音频文件进行重采样；

根据所述多个第一频率点和所述多个第二频率点，获取所述第一音频片段的音频特征值；

对所述多个音频片段的音频特征值进行组合，得到第一音频特征；

按照对所述目标音频文件进行特征提取得到所述第一音频特征的方法，对所述参考音频文件进行特征提取得到第二音频特征；

2.根据权利要求1所述的方法，其特征在于，所述对所述第一频谱和所述第二频谱分别进行映射，得到所述第一音频片段对应的第一频率点和所述第二音频片段对应的第二频率点，包括：

<mrow> <msub> <mi>Bin</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>=</mo> <mn>12</mn> <mo>*</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mi>B</mi> <mi>i</mi> <mi>n</mi> <mo>*</mo> <mfrac> <mrow> <mi>&Delta;</mi> <mi>f</mi> </mrow> <msub> <mi>f</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>f</mi> </mrow> </msub> </mfrac> <mo>)</mo> </mrow> <mo>+</mo> <mn>69</mn> </mrow>

3.根据权利要求1所述的方法，其特征在于，所述根据所述多个第一频率点和所述多个第二频率点，获取所述第一音频片段的音频特征值，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一音频特征和所述第二音频特征，计算所述目标音频文件与所述参考音频文件之间的时间偏差，包括：

5.根据权利要求4所述的方法，其特征在于，所述计算所述第一音频特征和所述第二音频特征之间的互相关函数，包括：

R_xy＝IFFT(conj(FFT(x))*FFT(y))

6.根据权利要求5所述的方法，其特征在于，所述根据所述互相关函数，计算所述第一音频特征和所述第二音频特征之间的时间偏差，包括：

计算所述互相关函数的最大值；

获取所述互相关函数的最大值对应的位置偏差；

τ＝m₀/k₀

7.一种歌词文件的生成装置，其特征在于，所述装置包括：

提取模块，用于采用预设频率对所述目标音频文件进行重采样；将重采样后的目标音频文件划分为多个音频片段，每个音频片段中包含预设数量个采样点；对于任意相邻的第一音频片段和第二音频片段，采用汉宁窗函数进行处理，得到第一加窗音频片段和第二加窗音频片段；对所述第一加窗音频片段和所述第二加窗音频片段分别进行快速傅里叶变换FFT，得到所述第一音频片段对应的第一频谱和所述第二音频片段对应的第二频谱；对所述第一频谱和所述第二频谱分别进行映射，得到所述第一音频片段对应的多个第一频率点和所述第二音频片段对应的多个第二频率点，所述第一频率点和所述第二频率点的数量相同；根据所述多个第一频率点和所述多个第二频率点，获取所述第一音频片段的音频特征值；对所述多个音频片段的音频特征值进行组合，得到第一音频特征；按照对所述目标音频文件进行特征提取得到所述第一音频特征的方法，对所述参考音频文件进行特征提取得到第二音频特征；

8.根据权利要求7所述的装置，其特征在于，所述提取模块，还用于对于所述第一频谱，根据所述预设数量个采样点和所述预设频率，计算每个采样点对应的频率范围；将小于指定范围的频率范围进行线性映射，得到多个线性频率点；将大于所述指定范围的频率范围，应用以下公式，进行对数映射，得到多个对数频率点：

9.根据权利要求7所述的装置，其特征在于，所述提取模块，用于获取所述第一音频片段对应的每个第一频率点的能量值，并获取所述第二音频片段对应的每个第二频率点的能量值；获取所述第一音频片段上每个第一频率点的能量值与所述第二音频片段上位置相同的第二频率点的能量值之差，作为所述第一音频片段的音频特征值。

10.根据权利要求7所述的装置，其特征在于，所述计算模块，用于计算所述第一音频特征和所述第二音频特征之间的互相关函数；根据所述互相关函数，计算所述第一音频特征和所述第二音频特征之间的时间偏差，作为所述目标音频文件与所述参考音频文件之间的时间偏差。

11.根据权利要求10所述的装置，其特征在于，所述计算模块，还用于对于所述第一音频特征和所述第二音频特征，应用以下公式，计算所述互相关函数：

R_xy＝IFFT(conj(FFT(x))*FFT(y))

12.根据权利要求11所述的装置，其特征在于，所述计算模块，还用于计算所述互相关函数的最大值；获取所述互相关函数的最大值对应的位置偏差；对于所述位置偏差，应用以下公式，计算所述第一音频特征和所述第二音频特征之间的时间偏差：

τ＝m₀/k₀