CN106782600A

CN106782600A - 音频文件的评分方法及装置

Info

Publication number: CN106782600A
Application number: CN201611244581.9A
Authority: CN
Inventors: 刘翠; 肖纯智; 劳振锋; 陈传艺; 张超钢
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-05-31
Anticipated expiration: 2036-12-29
Also published as: CN106782600B

Abstract

本发明公开了一种音频文件的评分方法及装置，属于音频处理技术领域。方法包括：获取待评分的音频片段，音频片段具有确定的时长，且多个音频片段组成音频文件；从音频片段中，提取人声音高片段；当不存在原版伴奏文件时，将人声音高片段划分为多帧人声音高信号；根据多帧人声音高信号和音频文件对应的歌词文件，计算音频片段的得分；根据音频文件包含的多个音频片段的得分，计算音频文件的得分。本发明在无法获取到原版伴奏文件时，根据音频片段划分得到的多帧音频信号及音频文件对应的歌词文件，计算音频片段的得分，进而根据多个音频片段的得分，计算音频文件的得分，该过程中并不依赖于原版伴奏文件，因而应用范围更广。

Description

音频文件的评分方法及装置

技术领域

本发明涉及音频处理技术领域，特别涉及一种音频文件的评分方法及装置。

背景技术

随着直播平台、唱歌平台等音乐平台的兴起，积极地带动了用户的唱歌热情。通常用户在录音设备上录制音频文件时，希望录音设备能够对所录制的音频文件进行评分，从而了解自己的歌唱水平。

现有的音频文件的评分过程为：获取待评分的音频文件，并获取原版伴奏文件；从音频文件中提取人声音高信号，并从原版伴奏文件中提取原版伴奏音高信号；将所提取的人声音高信号和原版伴奏音高信号进行比较，得到比较结果，进而根据比较结果，确定音频文件的得分。

然而，由于现有的评分方法依赖于歌曲的原版伴奏文件，而很多歌曲的原版伴奏文件很难获取到，导致录音设备无法对所录制的音频文件进行评分，因此，现有的音频文件的评分方法在应用时具有很大的局限性。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种音频文件的评分方法及装置。所述技术方案如下：

一方面，提供了一种音频文件的评分方法，所述方法包括：

获取待评分的音频片段，所述音频片段具有确定的时长，且多个音频片段组成音频文件；

从所述音频片段中，提取人声音高片段；

当不存在原版伴奏文件时，将所述人声音高片段划分为多帧人声音高信号；

根据所述多帧人声音高信号和音频文件对应的歌词文件，计算所述音频片段的得分；

根据所述音频文件包含的多个音频片段的得分，计算所述音频文件的得分。

在本发明的另一个实施例中，所述获取待评分的音频片段，包括：

当录制所述音频文件的时长达到预设时长时，获取伴奏片段和声音片段；

分别对所述伴奏片段和所述声音片段进行降采样；

将降采样后的伴奏片段和降采样后的声音片段进行对齐处理；

消除对齐处理后的声音片段中的回声，得到所述音频片段。

在本发明的另一个实施例中，所述根据所述多帧人声音高信号和音频文件对应的歌词文件，计算所述音频片段的得分，包括：

计算每帧人声音高信号的人声音高值；

根据多帧人声音高信号的人声音高值，判断所述音频片段是否为人声片段；

如果所述音频片段为人声片段，获取所述音频片段的起始时间和结束时间；

以所述音频片段的起始时间和结束时间为端点，构成时间区间；

根据所述歌词文件，生成时间戳数组，所述时间戳数组包括多个时间点，每个时间点为一行歌词的起始时间；

从所述时间戳数组中，获取位于所述时间区间内的至少一个目标时间点；

获取每个目标时间点对应的人声音高信号的人声音高值；

根据至少一个目标时间点对应的人声音高信号的人声音高值，计算所述音频片段的得分。

在本发明的另一个实施例中，所述根据多帧人声音高信号的人声音高值，判断所述音频片段是否为人声片段，包括：

从所述多帧人声音高信号的人声音高值中，选取人声音高值大于第一阈值小于第二阈值的目标人声音高信号；

判断所述目标人声音高信号的数量是否大于指定数值；

如果所述目标人声音高信号的数量大于指定数值，则确定所述音频片段为人声片段。

在本发明的另一个实施例中，所述根据多帧人声音高信号的人声音高值，判断所述音频片段是否为人声片段之后，还包括：

如果所述音频片段不为人声片段，则确定所述音频片段的得分为0。

在本发明的另一个实施例中，所述根据至少一个目标时间点对应的人声音高信号的人声音高值，计算所述音频片段的得分，包括：

对于任一目标时间点，如果所述目标时间点对应的人声音高信号的人声音高值大于第一阈值小于第二阈值，则确定所述目标时间点的得分为第一分数；

如果所述目标时间对应的人声音高信号的人声音高值小于所述第一阈值或者大于所述第二阈值，则确定所述目标时间点的得分为第二分数，所述第一分数大于所述第二分数；

将所述至少一个目标时间点的得分之和作为所述音频片段的得分。

另一方面，提供了一种音频文件的评分装置，所述装置包括：

获取模块，用于获取待评分的音频片段，所述音频片段具有确定的时长，且多个音频片段组成音频文件；

提取模块，用于从所述音频片段中，提取人声音高片段；

划分模块，用于当不存在原版伴奏文件时，将所述人声音高片段划分为多帧人声音高信号；

第一计算模块，用于根据所述多帧人声音高信号和音频文件对应的歌词文件，计算所述音频片段的得分；

第二计算模块，用于根据所述音频文件包含的多个音频片段的得分，计算所述音频文件的得分。

在本发明的另一个实施例中，所述获取模块，用于当录制所述音频文件的时长达到预设时长时，获取伴奏片段和声音片段；分别对所述伴奏片段和所述声音片段进行降采样；将降采样后的伴奏片段和降采样后的声音片段进行对齐处理；消除对齐处理后的声音片段中的回声，得到所述音频片段。

在本发明的另一个实施例中，所述第一计算模块，用于计算每帧人声音高信号的人声音高值；根据多帧人声音高信号的人声音高值，判断所述音频片段是否为人声片段；如果所述音频片段为人声片段，获取所述音频片段的起始时间和结束时间；以所述音频片段的起始时间和结束时间为端点，构成时间区间；根据所述歌词文件，生成时间戳数组，所述时间戳数组包括多个时间点，每个时间点为一行歌词的起始时间；从所述时间戳数组中，获取位于所述时间区间内的至少一个目标时间点；获取每个目标时间点对应的人声音高信号的人声音高值；根据至少一个目标时间点对应的人声音高信号的人声音高值，计算所述音频片段的得分。

在本发明的另一个实施例中，所述第一计算模块，用于从所述多帧人声音高信号的人声音高值中，选取人声音高值大于第一阈值小于第二阈值的目标人声音高信号；判断所述目标人声音高信号的数量是否大于指定数值；当所述目标人声音高信号的数量大于指定数值时，确定所述音频片段为人声片段。

在本发明的另一个实施例，所述装置还包括：

确定模块，用于当所述音频片段不为人声片段时，确定所述音频片段的得分为0。

在本发明的另一个实施例中，所述第一计算模块，用于对于任一目标时间点，当所述目标时间点对应的人声音高信号的人声音高值大于第一阈值小于第二阈值时，确定所述目标时间点的得分为第一分数；当所述目标时间对应的人声音高信号的人声音高值小于所述第一阈值或者大于所述第二阈值时，确定所述目标时间点的得分为第二分数，所述第一分数大于所述第二分数；将所述至少一个目标时间点的得分之和作为所述音频片段的得分。

本发明实施例提供的技术方案带来的有益效果是：

本发明在无法获取到原版伴奏文件时，根据音频片段划分得到的多帧音频信号及音频文件对应的歌词文件，计算音频片段的得分，进而根据多个音频片段的得分，计算音频文件的得分，该过程中并不依赖于原版伴奏文件，因而应用范围更广。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种音频文件的评分方法的流程图；

图2是本发明另一个实施例提供的一种音频文件的评分方法的流程图；

图3是本发明另一个实施例提供的一种音频文件的评分过程的示意图；

图4是本发明另一个实施例提供的一种音频文件的评分装置的结构示意图。

图5其示出了本发明实施例所涉及音频文件的评分的终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种音频文件的评分方法，参见图1，本发明实施例的方法流程包括：

101、获取待评分的音频片段，该音频片段具有确定的时长，且多个音频片段组成音频文件。

102、从音频片段中，提取人声音高片段。

103、当不存在原版伴奏文件时，将人声音高片段划分为多帧人声音高信号。

104、根据多帧人声音高信号和音频文件对应的歌词文件，计算音频片段的得分。

105、根据音频文件包含的多个音频片段的得分，计算音频文件的得分。

本发明实施例提供的方法，本发明在无法获取到原版伴奏文件时，根据音频片段划分得到的多帧音频信号及音频文件对应的歌词文件，计算音频片段的得分，进而根据多个音频片段的得分，计算音频文件的得分，该过程中并不依赖于原版伴奏文件，因而应用范围更广。

在本发明的另一个实施例中，获取待评分的音频片段，包括：

当录制音频文件的时长达到预设时长时，获取伴奏片段和声音片段；

分别对伴奏片段和声音片段进行降采样；

消除对齐处理后的声音片段中的回声，得到音频片段。

在本发明的另一个实施例中，根据多帧人声音高信号和音频文件对应的歌词文件，计算音频片段的得分，包括：

计算每帧人声音高信号的人声音高值；

根据多帧人声音高信号的人声音高值，判断音频片段是否为人声片段；

如果音频片段为人声片段，获取音频片段的起始时间和结束时间；

以音频片段的起始时间和结束时间为端点，构成时间区间；

根据歌词文件，生成时间戳数组，时间戳数组包括多个时间点，每个时间点为一行歌词的起始时间；

从时间戳数组中，获取位于时间区间内的至少一个目标时间点；

获取每个目标时间点对应的人声音高信号的人声音高值；

根据至少一个目标时间点对应的人声音高信号的人声音高值，计算音频片段的得分。

在本发明的另一个实施例中，根据多帧人声音高信号的人声音高值，判断音频片段是否为人声片段，包括：

从多帧人声音高信号的人声音高值中，选取人声音高值大于第一阈值小于第二阈值的目标人声音高信号；

判断目标人声音高信号的数量是否大于指定数值；

如果目标人声音高信号的数量大于指定数值，则确定音频片段为人声片段。

在本发明的另一个实施例中，根据多帧人声音高信号的人声音高值，判断音频片段是否为人声片段之后，还包括：

如果音频片段不为人声片段，则确定音频片段的得分为0。

在本发明的另一个实施例中，根据至少一个目标时间点对应的人声音高信号的人声音高值，计算音频片段的得分，包括：

对于任一目标时间点，如果目标时间点对应的人声音高信号的人声音高值大于第一阈值小于第二阈值，则确定目标时间点的得分为第一分数；

如果目标时间对应的人声音高信号的人声音高值小于第一阈值或者大于第二阈值，则确定目标时间点的得分为第二分数，第一分数大于第二分数；

将至少一个目标时间点的得分之和作为音频片段的得分。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

本发明实施例提供了一种音频文件的评分方法，参见图2，本发明实施例提供的方法流程包括：

201、终端获取待评分的音频片段。

其中，终端可以为智能手机、平板电脑、笔记本电脑等设备，本实施例不对终端的产品类型作具体的限定。终端中安装有具有录制功能的音频应用，基于所安装的音频应用，用户可随时随地的录制自己喜欢的音频文件，并将录制好的音频文件分享给好友。

为了减轻对音频文件的处理压力，在音频文件的录制过程中，终端可预先设定一个预设时长，并以预设时长为单位将音频文件分为多个音频片段，进而通过对每个音频片段进行评分，实现对整个音频文件的评分，例如，预设时长为N，根据该预设时长可将音频文件分为M段，即音频文件包括M个音频片段。其中，预设时长根据终端的处理能力确定，该预设时长可以为10秒、12秒、15秒等。

在本实施例中，终端在获取待评分的音频片段时，包括但不限于采用如下步骤2011～2014：

2011、当录制音频文件的时长达到预设时长时，终端获取伴奏片段和声音片段。

在音频文件的录制过程中，为使用户身临其境地感受所歌唱的歌曲的旋律，终端通常会播放歌曲相应的伴奏文件，同时终端还将通过麦克风采用用户的人声信号及播放的伴奏信号等声音信号，当录制音频文件的时长达到预设时长时，终端从所播放的伴奏文件中获取伴奏片段，并获取麦克风所采集的声音信号，得到声音片段，该伴奏片段和声音片段具有相同的时长，均为预设时长。

需要说明的是，当终端中存储有歌曲的原版伴奏文件时，终端所播放的伴奏文件可以为原版伴奏文件，相应地，获取到的伴奏片段也为原版伴奏文件中的片段；当终端中未存储有歌曲的原版伴奏文件时，终端所播放的伴奏文件可以为非原版伴奏文件，相应地，获取到的伴奏片段也为非原版伴奏文件中的片段。

2012、终端分别对伴奏片段和声音片段进行降采样。

其中，降采样是指降低信号采样率的过程。通过对伴奏片段和声音片段进行降采样可减少伴奏片段和声音片段的采样点，从而减少对伴奏片段和声音片段处理时的计算量。

2013、终端将降采样后的伴奏片段和降采样后的声音片段进行对齐处理。

终端在将降采样后的伴奏片段和降采样后的声音片段进行对齐处理的过程可以为：

第一步，终端从降采样后的伴奏片段中提取第一音频特征，并从降采样后的声音片段中提取第二音频特征。

其中，音频特征包括时域特征、频域特征、韵律特征、音色特征等。

第二步，终端计算第一音频特征和第二音频特征之间的互相关函数，并根据互相关函数，计算第一音频特征和第二音频特征之间的时间偏差，作为降采样后的伴奏片段和降采样后的声音片段的时间偏差。

第三步，基于该时间偏差，通过调整降采样后的声音片段的时间戳将降采样后的伴奏片段和降采样后的声音片段对齐。

2014、终端消除对齐处理后的声音片段中的回声，得到音频片段。

终端可采用回声消除自适应滤波器消除对齐处理后的声音片段中的回声，得到音频片段。

202、终端从音频片段中，提取人声音高片段。

其中，音高是指各种不同高低的声音。终端可采用音源分离等方法从音频片段中提取人声音高片段。

203、终端判断是否存在原版伴奏文件，如果是，执行步骤204，如果否，执行步骤205。

在本实施例中，终端维护一个伴奏数据库，该伴奏数据库中存储有不同歌曲的多个伴奏文件，这些伴奏文件中有些伴奏文件为原版伴奏文件，有些为非原版伴奏文件，为了便于将原版伴奏文件和非原版伴奏文件区分开来，终端在存储每个伴奏文件时，除了存储每个伴奏文件的歌曲名、歌手等信息外，还将存储伴奏文件的版本标识，该版本标识包括原版标识和非原版标识等。

基于伴奏数据库中所存储的每个伴奏文件的版本标识，终端可根据当前录制的音频文件的歌曲名，从伴奏数据库中查找该歌曲名对应的伴奏文件，如果该歌曲名对应的伴奏文件的标识为原版标识，则可确定存在原版伴奏文件，此时终端将通过执行步骤204计算该音频片段的得分，如果该歌曲名对应的伴奏文件的标识为非原版标识，则可确定不存在原版伴奏文件，此时终端将通过执行步骤205计算该音频片段的得分。

204、终端根据人声音高片段和原版伴奏文件，计算音频片段的得分，执行步骤207。

当确定存在原版伴奏文件时，终端可从原版伴奏文件中获取人声音高片段对应的原版伴奏片段，并采用指定算法计算该原版伴奏片段的原版伴奏音高值，终端还将采用指定算法计算该人声音高片段的人声音高值，进而将该人声音高值和原版伴奏音高值进行比较，如果人声音高值和原版伴奏音高值之间的差值小于预设数值，则确定该音频片段的得分为第三分数，如果人声音高值和原版伴奏音高值之间的差值大于预设数值，则确定该音频片段的得分为第四分数。其中，该指定算法可以为yin、pyin、melody等，本发明实施例不对指定算法作具体的限定。第三分数高于第四分数，该第三分数可以为80分、90分等，该第四分数可以为20分、0分等。预设数值可以为1Hz、2Hz等。

205、终端将人声音高片段划分为多帧人声音高信号。

在音频处理领域，人声音高片段实质上是由多个采样点组成的人声音高信号。受限于终端的处理能力，同时为了提高对音频片段进行评分的准确性，终端还以预设数量个采样点为单位，将人声音高片段划分为多帧人声音高信号，每帧人声音高信号中包含预设数量个采样点。

其中，预设数量可以为256个、500个、600个等，本实施例以预设数量为256个为例，也即是，每帧人声音高信号中包括256个采样点。例如，预设时长为10秒，每秒采样8000次，预设数量为256个，则可将人声音高信号划分为(8000*10)/256＝312帧人声音高信号。

为了便于对每帧人声音高信号进行处理，终端将人声音高信号划分为多帧人声音高信号之后，还将按照录制时间顺序，为多帧人声音高信号进行编号，如1、2、3、4、5等。

206、终端根据多帧人声音高信号和音频文件对应的歌词文件，计算音频片段的得分，执行步骤207。

终端根据多帧人声音高信号和音频文件对应的歌词文件，计算音频片段的得分时，可采用如下步骤2061～2068：

2061、终端计算每帧人声音高信号的人声音高值。

终端可采用指定算法计算每帧人声音高信号的人声音高值，该指定算法可以为yin、pyin、melody等，本发明实施例不对指定算法作具体的限定。

2062、终端根据多帧人声音高信号的人声音高值，判断音频片段是否为人声片段。

终端在根据多帧人声音高信号的人声音高值，判断音频片段是否为人声片段时，可采用如下步骤20621～20623：

20621、终端从多帧人声音高信号的人声音高值中，选取人声音高值大于第一阈值小于第二阈值的目标人声音高信号。

其中，第一阈值和第二阈值可由经验值确定，且第一阈值小于第二阈值。该第一阈值为20Hz(赫兹)、50Hz等，第二阈值可以为200Hz、250Hz等。

对于每一帧人声音高信号，终端均将该帧人声音高信号的人声音高值与第一阈值和第二阈值进行比较，通过比较可确定该人声音高信号是否为目标人声音高信号，当该帧人声音高信号的人声音高值大于第一阈值小于第二阈值，则可确定该帧人声音高信号为目标人声音高信号。

20622、终端判断目标人声音高信号的数量是否大于指定数值。

其中，指定数量由音频文件中包含的音频片段的数量及阈值系数确定，即指定数量n＝x₁*M，其中，x₁为阈值系数，M为音频文件中包含的音频片段的数量。该指定数量可以为20个、50个、100个等。

20623、如果目标人声音高信号的数量大于指定数值，则终端确定音频片段为人声片段。

当目标人声音高信号的数量大于指定数值，说明该音频片段并不是纯伴奏的片段，为具有人声的人声片段。

在本发明的另一个实施例中，如果目标人声音高信号的数量小于指定数值，说明用户可能并未歌唱而是单纯的播放伴奏文件，因而可确定该音频片段不为人声片段。进一步地，当确定该音频片段不为人声片段后，终端可直接确定该音频片段的得分为0分。

2063、如果音频片段为人声片段，终端获取音频片段的起始时间和结束时间。

当确定音频片段为人声片段，终端可根据人声音高信号的数量，获取该音频片段的起始时间和结束时间。本实施例中，音频片段的起始时间可用t₁表示，音频片段的结束时间可用t₂表示。

2064、终端以音频片段的起始时间和结束时间为端点，构成时间区间。

终端以音频片段的起始时间为左端点、以音频片段的结束时间为右端点，构造一个时间区间，该时间区间的时长为预设时长。

2065、终端根据歌词文件，生成时间戳数组。

其中，时间戳数组包括多个时间点，每个时间点为一行歌词的起始时间。

由于歌词文件具有时间戳信息，且歌词文件中指示了歌词中每行的起始位置、结束位置及每个字对应时间戳信息，因此，终端从歌词文件中提取每行歌词的起始时间，并将每行歌词的起始时间作为一个时间点。在本实施例中，时间戳数组可用TT表示，每个时间点可用T₁、T₂、T₃、…表示。

2066、终端从时间戳数组中，获取位于时间区间内的至少一个目标时间点。

由于时间戳数组中的每个时间点都具有确定的时间戳信息，因而终端可从时间戳数组中，获取位于时间区间内的至少一个时间点，并将所获取的至少一个时间点作为至少一个目标时间点。

为了便于后续处理，终端还可对至少一个目标时间点进行编号，如c₁、c₂、c₃等。

2067、终端获取每个目标时间点对应的人声音高信号的人声音高值。

在本实施例中，音频片段具有一个时间区间，该时间区间实际上也是人声音高片段对应的时间区间，当将人声音高片段划分为多帧人声音高信号时，每帧人声音高信号也对应一个时间区间。例如，如果音频片段的时间区间为(10秒，20秒)，将从音频片段中提取的人声音高信号划分为10帧人声音高信号，则第一帧人声音高信号对应的时间区间为(10秒，11秒)，第二帧人声音高信号对应的时间区间为(11秒，12秒)，….，第十帧人声音高信号对应的时间区间为(19秒，20秒)。

因此，对于任一个目标时间点，终端可将该目标时间点与每帧人声音高信号的时间区间进行比较，当该目标时间点位于某一人声音高信号的时间区间内，终端获取该人声音高信号的人声音高值，该人声音高信号的人声音高值即为目标时间点对应的人声音高信号的人声音高值。

为了便于叙述，终端还可根据每个目标时间点的编号，将至少一个目标时间点对应的人声音高信号的人声音高值记为Ac₁、Ac₂、Ac₃等。

2068、终端根据至少一个目标时间点对应的人声音高信号的人声音高值，计算音频片段的得分。

终端在根据至少一个目标时间点对应的人声音高信号的人声音高值，计算音频片段的得分时，可采用如下步骤20681～20683：

20681、对于任一目标时间点，如果目标时间点对应的人声音高信号的人声音高值大于第一阈值小于第二阈值，则终端确定目标时间点的得分为第一分数。

20682、如果目标时间对应的人声音高信号的人声音高值小于第一阈值或者大于第二阈值，则终端确定目标时间点的得分为第二分数。

其中，第一分数大于第二分数，该第一分数可以为80分、90分等，第二分数可以为50分、60分等。

20683、终端将至少一个目标时间点的得分之和作为音频片段的得分。

在本发明实施例中，当确定的出每个目标时间点的得分之后，终端可将至少一个目标时间点的得分之和作为对音频片段的得分。终端还可将至少一个目标时间点的得分的平均值作为音频片段的得分。当然，终端还可以采用其他方法计算音频片段的得分，本实施例对此不作具体的限定。

需要说明的，上述步骤204及步骤205-206以对一个音频片段的评分为例进行说明，对于音频文件中的其他音频片段的评分过程，可采用上述步骤204或步骤205-206，本发明实施例不再进行赘述。

207、终端根据音频文件包含的多个音频片段的得分，计算音频文件的得分。

当确定出音频文件中包含的每个音频片段的得分之后，终端即可根据音频文件包含的多个音频片段的得分，计算音频文件的得分。例如，终端可将多个音频片段的得分之和作为音频文件的得分，终端还可将多个音频片段的得分的平均值作为音频文件的得分。

对于音频文件的评分过程，下面将以图3为例进行说明。

参见图3，在音频文件的录制过程中，终端获取输入的伴奏信号和麦克风采集的声音信号，并对伴奏信号和声音信号进行降采样，进而对降采样后的伴奏信号和声音信号进行对齐处理，接着消除降采样后的声音信号中的回声，得到音频片段。终端从音频片段中提取人声音高片段，并判断是否存在原版伴奏文件，如果存在原版伴奏文件，则通过对原版伴奏音高值和人声音高信号的人声音高值进行比较，计算音频片段的得分，如果不存在原版伴奏文件，则根据人声音高信号的人声音高值和歌词文件，计算音频片段的得分。

参见图4，本发明实施例提供了一种音频文件的评分装置，该装置包括：

获取模块401，用于获取待评分的音频片段，该音频片段具有确定的时长，且多个音频片段组成音频文件；

提取模块402，用于从音频片段中，提取人声音高片段；

划分模块403，用于当不存在原版伴奏文件时，将人声音高片段划分为多帧人声音高信号；

第一计算模块404，用于根据多帧人声音高信号和音频文件对应的歌词文件，计算音频片段的得分；

第二计算模块405，用于根据音频文件包含的多个音频片段的得分，计算音频文件的得分。

在本发明的另一个实施例中，获取模块401，用于当录制音频文件的时长达到预设时长时，获取伴奏片段和声音片段；分别对伴奏片段和声音片段进行降采样；将降采样后的伴奏片段和降采样后的声音片段进行对齐处理；消除对齐处理后的声音片段中的回声，得到音频片段。

在本发明的另一个实施例中，第一计算模块404，用于计算每帧人声音高信号的人声音高值；根据多帧人声音高信号的人声音高值，判断音频片段是否为人声片段；如果音频片段为人声片段，获取音频片段的起始时间和结束时间；以音频片段的起始时间和结束时间为端点，构成时间区间；根据歌词文件，生成时间戳数组，时间戳数组包括多个时间点，每个时间点为一行歌词的起始时间；从时间戳数组中，获取位于时间区间内的至少一个目标时间点；获取每个目标时间点对应的人声音高信号的人声音高值；根据至少一个目标时间点对应的人声音高信号的人声音高值，计算音频片段的得分。

在本发明的另一个实施例中，第一计算模块404，用于从多帧人声音高信号的人声音高值中，选取人声音高值大于第一阈值小于第二阈值的目标人声音高信号；判断目标人声音高信号的数量是否大于指定数值；当目标人声音高信号的数量大于指定数值时，确定音频片段为人声片段。

在本发明的另一个实施中，该装置还包括：

确定模块，用于当音频片段不为人声片段时，确定音频片段的得分为0。

在本发明的另一个实施例中，第一计算模块404，用于对于任一目标时间点，当目标时间点对应的人声音高信号的人声音高值大于第一阈值小于第二阈值时，确定目标时间点的得分为第一分数；当目标时间对应的人声音高信号的人声音高值小于第一阈值或者大于第二阈值时，确定目标时间点的得分为第二分数，第一分数大于第二分数；将至少一个目标时间点的得分之和作为音频片段的得分。

综上所述，本发明实施例提供的装置，本发明在无法获取到原版伴奏文件时，根据音频片段划分得到的多帧音频信号及音频文件对应的歌词文件，计算音频片段的得分，进而根据多个音频片段的得分，计算音频文件的得分，该过程中并不依赖于原版伴奏文件，因而应用范围更广。

参见图5，其示出了本发明实施例所涉及音频文件的评分的终端的结构示意图，该终端可以用于实施上述实施例中提供的音频文件的评分装置。具体来讲：

终端500可以包括RF(Radio Frequency，射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(Wireless Fidelity，无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图5中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端500的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端500的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图5中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

终端500还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在终端500移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与终端500之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与终端500的通信。

WiFi属于短距离无线传输技术，终端500通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块170，但是可以理解的是，其并不属于终端500的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是终端500的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端500的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理核心；可选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

终端500还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端500还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端500的显示单元是触摸屏显示器，终端500还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。所述一个或者一个以上程序包含用于执行上述图2中的音频文件的评分操作的指令。

本发明实施例提供的终端，本发明在无法获取到原版伴奏文件时，根据音频片段划分得到的多帧音频信号及音频文件对应的歌词文件，计算音频片段的得分，进而根据多个音频片段的得分，计算音频文件的得分，该过程中并不依赖于原版伴奏文件，因而应用范围更广。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质存储有一个或者一个以上程序，该一个或者一个以上程序被一个或者一个以上的处理器用来执行图2所示的音频文件的评分方法。

本发明实施例提供的计算机可读存储介质，本发明在无法获取到原版伴奏文件时，根据音频片段划分得到的多帧音频信号及音频文件对应的歌词文件，计算音频片段的得分，进而根据多个音频片段的得分，计算音频文件的得分，该过程中并不依赖于原版伴奏文件，因而应用范围更广。

本发明实施例中提供了一种图形用户接口，该图形用户接口用在音频文件的评分终端上，该执行音频文件的评分终端包括触摸屏显示器、存储器和用于执行一个或者一个以上的程序的一个或者一个以上的处理器；该图形用户接口用于执行图2所示的音频文件的评分方法。

本发明实施例提供的图形用户接口，本发明在无法获取到原版伴奏文件时，根据音频片段划分得到的多帧音频信号及音频文件对应的歌词文件，计算音频片段的得分，进而根据多个音频片段的得分，计算音频文件的得分，该过程中并不依赖于原版伴奏文件，因而应用范围更广。

需要说明的是：上述实施例提供的音频文件的评分装置在对音频文件进行评分时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将音频文件的评分装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频文件的评分装置与音频文件的评分方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频文件的评分方法，其特征在于，所述方法包括：

从所述音频片段中，提取人声音高片段；

2.根据权利要求1所述的方法，其特征在于，所述获取待评分的音频片段，包括：

分别对所述伴奏片段和所述声音片段进行降采样；

消除对齐处理后的声音片段中的回声，得到所述音频片段。

3.根据权利要求1所述的方法，其特征在于，所述根据所述多帧人声音高信号和音频文件对应的歌词文件，计算所述音频片段的得分，包括：

计算每帧人声音高信号的人声音高值；

获取每个目标时间点对应的人声音高信号的人声音高值；

4.根据权利要求3所述的方法，其特征在于，所述根据多帧人声音高信号的人声音高值，判断所述音频片段是否为人声片段，包括：

判断所述目标人声音高信号的数量是否大于指定数值；

5.根据权利要求3所述的方法，其特征在于，所述根据多帧人声音高信号的人声音高值，判断所述音频片段是否为人声片段之后，还包括：

6.根据权利要求3所述的方法，其特征在于，所述根据至少一个目标时间点对应的人声音高信号的人声音高值，计算所述音频片段的得分，包括：

7.一种音频文件的评分装置，其特征在于，所述装置包括：

提取模块，用于从所述音频片段中，提取人声音高片段；

8.根据权利要求7所述的装置，其特征在于，所述获取模块，用于当录制所述音频文件的时长达到预设时长时，获取伴奏片段和声音片段；分别对所述伴奏片段和所述声音片段进行降采样；将降采样后的伴奏片段和降采样后的声音片段进行对齐处理；消除对齐处理后的声音片段中的回声，得到所述音频片段。

9.根据权利要求7所述的装置，其特征在于，所述第一计算模块，用于计算每帧人声音高信号的人声音高值；根据多帧人声音高信号的人声音高值，判断所述音频片段是否为人声片段；如果所述音频片段为人声片段，获取所述音频片段的起始时间和结束时间；以所述音频片段的起始时间和结束时间为端点，构成时间区间；根据所述歌词文件，生成时间戳数组，所述时间戳数组包括多个时间点，每个时间点为一行歌词的起始时间；从所述时间戳数组中，获取位于所述时间区间内的至少一个目标时间点；获取每个目标时间点对应的人声音高信号的人声音高值；根据至少一个目标时间点对应的人声音高信号的人声音高值，计算所述音频片段的得分。

10.根据权利要求9所述的装置，其特征在于，所述第一计算模块，用于从所述多帧人声音高信号的人声音高值中，选取人声音高值大于第一阈值小于第二阈值的目标人声音高信号；判断所述目标人声音高信号的数量是否大于指定数值；当所述目标人声音高信号的数量大于指定数值时，确定所述音频片段为人声片段。

11.根据权利要求9所述的装置，其特征在于，所述装置还包括：

12.根据权利要求9所述的装置，其特征在于，所述第一计算模块，用于对于任一目标时间点，当所述目标时间点对应的人声音高信号的人声音高值大于第一阈值小于第二阈值时，确定所述目标时间点的得分为第一分数；当所述目标时间对应的人声音高信号的人声音高值小于所述第一阈值或者大于所述第二阈值时，确定所述目标时间点的得分为第二分数，所述第一分数大于所述第二分数；将所述至少一个目标时间点的得分之和作为所述音频片段的得分。