CN109003627B

CN109003627B - 确定音频得分的方法、装置、终端及存储介质

Info

Publication number: CN109003627B
Application number: CN201811049705.7A
Authority: CN
Inventors: 劳振锋
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2021-02-12
Anticipated expiration: 2038-09-07
Also published as: CN109003627A

Abstract

本发明公开了一种确定音频得分的方法、装置、终端及存储介质，属于互联网技术领域。该方法包括：获取待打分的目标音频文件，该目标音频文件包括目标对象演唱目标歌曲时的音频数据；根据多个音频采样点在当前音调下的音高，对该目标音频文件进行变调处理，得到该多个音频采样点在多个音调下的音高，该多个音频采样点为该目标音频文件中的采样点；根据该多个音频采样点在多个音调下的音高和该目标歌曲的标准音高，确定该目标音频文件在该多个音调下的得分，该标准音高为该目标歌曲的原唱中的音高；根据该目标音频文件在该多个音调下的多个得分，确定该目标音频文件的目标得分。通过多个音调下的多个得分确定打分，提高了确定音频得分的准确性。

Description

确定音频得分的方法、装置、终端及存储介质

技术领域

本发明涉及互联网技术领域，特别涉及一种确定音频得分的方法、装置、终端及存储介质。

背景技术

随着互联网技术的发展，许多音乐播放器不仅支持海量歌曲的在线播放，还可以为用户提供K歌服务，K歌服务是指音乐播放器录制用户演唱的歌曲，并基于用户的演唱水平，对用户演唱的歌曲进行打分，以使用户能够对自己演唱水平有所了解。

目前，确定音频得分的方式为：终端获取用户演唱的目标歌曲的目标音频，并提取该目标音频中的数字信号，确定该目标音频中的数字信号和该目标歌曲的原唱音频中的标准数字信号之间的相似度，并根据该目标歌曲的难度系数和该相似度，确定该用户所演唱的目标音频的得分。

上述方法实际上是以原唱音频为标准音频，确定目标音频的得分，然而，用户实际演唱时的音调可能与原唱音频中的音调并不一致，导致上述过程所确定出的目标音频的得分并不准确。

发明内容

本发明实施例提供了一种确定音频得分的方法、装置、终端及存储介质，可以解决相关技术中目标音频的得分并不准确的问题。所述技术方案如下：

一方面，提供了一种确定音频得分的方法，所述方法包括：

获取待打分的目标音频文件，所述目标音频文件包括目标对象演唱目标歌曲时的音频数据；

根据多个音频采样点在当前音调下的音高，对所述目标音频文件进行变调处理，得到所述多个音频采样点在多个音调下的音高，所述多个音频采样点为所述目标音频文件中的采样点；

根据所述多个音频采样点在多个音调下的音高和所述目标歌曲的标准音高，确定所述目标音频文件在所述多个音调下的得分，所述标准音高为所述目标歌曲的原唱中的音高；

根据所述目标音频文件在所述多个音调下的多个得分，确定所述目标音频文件的目标得分。

可选的，所述根据所述多个音频采样点在多个音调下的音高和所述目标歌曲的标准音高，确定所述目标音频文件在所述多个音调下的得分包括：

对于每个音调，根据所述多个音频采样点在所述每个音调下的音高和所述标准音高，通过预设算法，确定所述目标音频文件在所述每个音调下的第一得分；

对所述多个音频采样点进行时移处理，确定时移处理后的所述目标音频文件的第二得分；

根据所述目标音频文件的第一得分和第二得分，确定所述目标音频文件在所述每个音调下的得分。

可选的，所述根据多个音频采样点在当前音调下的音高，对所述目标音频文件进行变调处理，得到所述多个音频采样点在多个音调下的音高之前，所述方法还包括：

根据所述目标音频文件中目标时段的音频采样点的音频能量，确定所述目标音频文件中所述目标对象演唱时的起始音频采样点和终止音频采样点；

将所述目标音频文件中从所述起始音频采样点到所述终止音频采样点的多个采样点，确定为所述目标音频文件的目标音频采样点。

可选的，所述根据所述多个音频采样点在所述多个音调下的音高和所述目标歌曲的标准音高，确定所述目标音频文件在所述多个音调下的得分包括：

根据所述目标音频文件中目标音频采样点的音高和所述标准音高，确定所述目标音频文件在所述多个音调下的得分。

将所述多个音频采样点的频率调整至目标频率范围内，所述目标频率范围为所述标准音高所在的频率范围；

根据调整后的多个音频采样点的频率，确定所述多个音频采样点在当前音调下的音高。

可选的，所述根据多个音频采样点在当前音调下的音高，对所述目标音频文件进行变调处理，得到所述多个音频采样点在多个音调下的音高包括：

根据所述多个音频采样点在当前音调下的音高，通过以下公式一，确定所述多个音频采样点在多个音调下的音高，

公式一：

其中，pf为所述多个音频采样点在当前音调下的音高，pf_shift为变调后的音高，m为当前音调与变调后的音调的差值。

可选的，所述获取待打分的目标音频文件包括：

当接收到录制指令时，录制所述目标对象演唱目标歌曲时的音频数据；

根据所述音频数据，生成所述目标音频文件。

另一方面，提供了一种确定音频得分的装置，所述装置包括：

获取模块，用于获取待打分的目标音频文件，所述目标音频文件包括目标对象演唱目标歌曲时的音频数据；

变调模块，用于根据多个音频采样点在当前音调下的音高，对所述目标音频文件进行变调处理，得到所述多个音频采样点在多个音调下的音高，所述多个音频采样点为所述目标音频文件中的采样点；

确定模块，用于根据所述多个音频采样点在多个音调下的音高和所述目标歌曲的标准音高，确定所述目标音频文件在所述多个音调下的得分，所述标准音高为所述目标歌曲的原唱中的音高；

所述确定模块，还用于根据所述目标音频文件在所述多个音调下的多个得分，确定所述目标音频文件的目标得分。

可选的，所述确定模块，还用于对于每个音调，根据所述多个音频采样点在所述每个音调下的音高和所述标准音高，通过预设算法，确定所述目标音频文件在所述每个音调下的第一得分；对所述多个音频采样点进行时移处理，确定时移处理后的所述目标音频文件的第二得分；根据所述目标音频文件的第一得分和第二得分，确定所述目标音频文件在所述每个音调下的得分。

可选的，所述确定模块，还用于根据所述目标音频文件中目标时段的音频采样点的音频能量，确定所述目标音频文件中所述目标对象演唱时的起始音频采样点和终止音频采样点；将所述目标音频文件中从所述起始音频采样点到所述终止音频采样点的多个采样点，确定为所述目标音频文件的目标音频采样点。

可选的，所述确定模块，还用于根据所述目标音频文件中目标音频采样点的音高和所述标准音高，确定所述目标音频文件在所述多个音调下的得分。

可选的，所述装置还包括：

调整模块，用于将所述多个音频采样点的频率调整至目标频率范围内，所述目标频率范围为所述标准音高所在的频率范围；

所述确定模块，还用于根据调整后的多个音频采样点的频率，确定所述多个音频采样点在当前音调下的音高。

可选的，所述变调模块，还用于根据所述多个音频采样点在当前音调下的音高，通过以下公式一，确定所述多个音频采样点在多个音调下的音高，

公式一：

可选的，所述获取模块，还用于当接收到录制指令时，录制所述目标对象演唱目标歌曲时的音频数据；根据所述音频数据，生成所述目标音频文件。

另一方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述的确定音频得分的方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述的确定音频得分的方法所执行的操作。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，该终端获取待打分的目标音频文件，该目标音频文件包括目标对象演唱目标歌曲时的音频数据；根据多个音频采样点在当前音调下的音高，对该目标音频文件进行变调处理，得到该多个音频采样点在多个音调下的音高，该多个音频采样点为该目标音频文件中的采样点；根据该多个音频采样点在多个音调下的音高和该目标歌曲的标准音高，确定该目标音频文件在该多个音调下的得分，该标准音高为该目标歌曲的原唱中的音高；根据该目标音频文件在该多个音调下的多个得分，确定该目标音频文件的目标得分。由于该终端可以计算出用户在多个音调下的得分，并结合多个得分，确定出音频文件的最终得分，解除了原唱的音调的限制，从而提高了对音频文件打分的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种确定音频得分的方法的流程图；

图2是本发明实施例提供的一种确定音频得分的方法的流程图；

图3是本发明实施例提供的一种确定音频得分的装置的结构示意图；

图4是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种确定音频得分的方法流程图。该发明实施例的执行主体为终端，参见图1，该方法包括：

101、获取待打分的目标音频文件，该目标音频文件包括目标对象演唱目标歌曲时的音频数据；

102、根据多个音频采样点在当前音调下的音高，对该目标音频文件进行变调处理，得到该多个音频采样点在多个音调下的音高，该多个音频采样点为该目标音频文件中的采样点；

103、根据该多个音频采样点在多个音调下的音高和该目标歌曲的标准音高，确定该目标音频文件在该多个音调下的得分，该标准音高为该目标歌曲的原唱中的音高；

104、根据该目标音频文件在该多个音调下的多个得分，确定该目标音频文件的目标得分。

可选的，该根据该多个音频采样点在多个音调下的音高和该目标歌曲的标准音高，确定该目标音频文件在该多个音调下的得分包括：

对于每个音调，根据该多个音频采样点在该每个音调下的音高和该标准音高，通过预设算法，确定该目标音频文件在该每个音调下的第一得分；

对该多个音频采样点进行时移处理，确定时移处理后的该目标音频文件的第二得分；

根据该目标音频文件的第一得分和第二得分，确定该目标音频文件在该每个音调下的得分。

可选的，该根据多个音频采样点在当前音调下的音高，对该目标音频文件进行变调处理，得到该多个音频采样点在多个音调下的音高之前，该方法还包括：

根据该目标音频文件中目标时段的音频采样点的音频能量，确定该目标音频文件中该目标对象演唱时的起始音频采样点和终止音频采样点；

将该目标音频文件中从该起始音频采样点到该终止音频采样点的多个采样点，确定为该目标音频文件的目标音频采样点。

可选的，该根据该多个音频采样点在该多个音调下的音高和该目标歌曲的标准音高，确定该目标音频文件在该多个音调下的得分包括：

根据该目标音频文件中目标音频采样点的音高和该标准音高，确定该目标音频文件在该多个音调下的得分。

将该多个音频采样点的频率调整至目标频率范围内，该目标频率范围为该标准音高所在的频率范围；

根据调整后的多个音频采样点的频率，确定该多个音频采样点在当前音调下的音高。

可选的，该根据多个音频采样点在当前音调下的音高，对该目标音频文件进行变调处理，得到该多个音频采样点在多个音调下的音高包括：

根据该多个音频采样点在当前音调下的音高，通过以下公式一，确定该多个音频采样点在多个音调下的音高，

公式一：

其中，pf为该多个音频采样点在当前音调下的音高，pf_shift为变调后的音高，m为当前音调与变调后的音调的差值。

可选的，该获取待打分的目标音频文件包括：

当接收到录制指令时，录制该目标对象演唱目标歌曲时的音频数据；

根据该音频数据，生成该目标音频文件。

图2是本发明实施例提供的一种确定音频得分的方法流程图。该发明实施例的执行主体为终端，参见图2，该方法包括：

201、当接收到录制指令时，终端录制目标对象演唱目标歌曲时的音频数据，得到目标音频文件。

其中，该录制指令用于指示录制该目标对象演唱目标歌曲时的目标音频文件。该目标音频文件包括该目标对象演唱目标歌曲时的音频数据；本发明实施例中，当接收到录制指令时，该终端开启音频采集设备，采集该目标对象演唱目标歌曲时的音频数据，并根据该音频数据，生成该目标音频文件。

在一种可能的实施方式中，该终端可以在目标对象演唱过程中，向目标对象提示目标歌曲的歌词。本步骤可还以为：当终端接收到该录制指令时，终端根据该目标歌曲的歌曲标识，获取该目标歌曲的歌词文件，并根据该歌词文件，在显示界面上显示该目标歌曲的歌词，以使该目标对象基于该歌词，演唱该目标歌曲。其中，该目标对象还可以仅演唱目标歌曲的部分歌词，例如，该目标对象还可以仅演唱目标歌曲的高潮部分的歌词。因此，终端根据该歌词文件，在显示界面上显示该目标歌曲的歌词步骤还可以为：该终端从该歌词文件中筛选出目标歌词，并在显示界面上显示该目标歌曲的目标歌词。当然，该终端还可以在接收到录制指令时，根据该目标歌曲的歌曲标识，获取该目标歌曲的目标分歌词文件，该目标歌词文件包括该目标歌曲的目标歌词，该终端根据该目标歌词文件，在显示界面上显示该目标歌曲的目标歌词。其中，该目标歌词可以为该目标歌曲的高潮部分的歌词，或者该歌词文件中被目标对象所选定的部分歌词。

需要说明的是，本步骤实际上是步骤“终端获取待打分的目标音频文件”的具体实现方式，本步骤主要是通过实时录制得到该目标音频文件，然而，该终端还可以事先录制并存储该目标音频文件，该终端确定该目标音频文件的步骤还可以为：终端从本地存储空间中获取待打分的目标音频文件。

本发明实施例中，当终端确定该目标音频文件后，该终端可以直接步骤204，以确定该目标音频文件中多个音频采样点的音高，或者，该终端还可以先执行步骤202-203，确定出该目标音频文件中目标对象实际演唱的目标音频采样点，基于该目标音频采样点，执行步骤204。本发明实施例对此不做具体限定。

202、终端根据目标音频文件中目标时段的音频采样点的音频能量，确定该目标音频文件中该目标对象演唱时的起始音频采样点和终止音频采样点。

本发明实施例中，该终端开始录制的时间和该目标对象开始演唱的时间可能不一致，该目标音频文件中可能包括该目标对象演唱之前的静音数据，该终端还可以确定出该目标音频文件中目标对象实际演唱时的起始音频采样点和终止音频采样点。本步骤中，以起始音频采样点为例，终端根据该第一目标时段内的音频文件中音频采样点的时间戳，提取该音频文件中在第一目标时段的音频采样点；终端根据该第一时段内的音频采样点和该第一目标时段的起始时间、终止时间，确定该第一时段内的音频采样点的音频能量；当该第一时段内的音频采样点的音频能量不小于预设阈值时，终端将该第一时段内的音频采样点中的第一个音频采样点确定为该起始音频采样点。其中，该目标音频文件中还可以存储各个音频采样点的时间戳，该终端可以基于每个音频采样点的时间戳，从该目标音频文件中提取时间戳在第一目标时段内的音频采样点。其中，该第一目标时段可以基于需要进行设置，本发明实施例对此不作具体限定。例如，该第一目标时段可以为该目标音频文件的前0.2秒、前0.1秒等。

其中，该终端根据该第一目标时段的起始时间和终止时间，通过以下公式二，确定该目标音频采样点的音频能量：

公式二：

其中，pos_start为该第一目标时段的起始时间，该pos_end为该第一目标时段的终止时间，Ep为该第一目标时段内的音频采样点的音频能量，abs(x_k)为该第一目标时段内的音频采样点中第k个音频采样点的能量。t_k为第k个音频采样点的时间戳，t₁为第k个音频采样点的起始时间，t₂为第k个音频采样点的终止时间。一般的，该起始时间和终止时间之间存在如下关系：pos_end＝pos_start+t*fs，其中，t为第一目标时段的时长，以第一目标时段为该目标音频文件的前0.2秒为例，则pos_end＝pos_start+0.2*fs。

如果该目标音频采样点的音频能量大于预设阈值，则该目标音频采样点中第一个音频采样点为起始音频采样点，否则，该目标音频采样点中第一个音频采样点不是起始音频采样点。当该目标音频采样点的音频能量不大于预设阈值时，该终端可以重新基于各个音频采样点的时间戳，重新选取第一目标时段内音频采样点。在一种可能的实施方式中，该终端可以基于各个音频采样点的时间戳，更新该第一目标时段。该过程可以为：该终端将该第一目标时段的起始时间和终止时间分别增加预设时间数值，也即是，将该第一目标时段的起始时间和终止时间后延该预设时间数值，并根据该多个音频采样点的时间戳，选取更新后的第一目标时段内的多个音频采样点作为目标音频采样点。例如，选取目标音频文件中前0.1秒至前0.3秒之间的多个音频采样点为该目标音频采样点。然后，该终端重新基于上述公式二，确定重新选取的第一目标时段内的音频采样点的音频能量，并判断该第一目标时段内的音频采样点的音频能量是否大于预设阈值，直至查找到起始音频采样点。

对于确定终止音频采样点的过程，该终端基于该目标音频文件的预设终止时段，提取该音频文件中在第二目标时段内的音频采样点；并确定该第二目标时段内的音频采样点的音频能量；基于该第二目标时段内的音频采样点的音频能量，确定出该目标音频文件的终止音频采样点。其中，该第二目标时段可以基于需要进行设置，本发明实施例对此不作具体限定。例如，该第二目标时段可以为该目标音频文件的最后0.2秒、最后0.1秒等。终端确定终止音频采样点的过程，为与上述确定起始音频采样点同理的过程，此处不再赘述。

例如，以音频格式是wav为例，wav文件的音频采样点中，音频数据的值域为[-1，1]，预设阈值可以设为0.005，如果第一次计算时，t₁为起始音频采样点，否则，t₁＝t₁+1，再次基于上述公式二重新计算音频采样点的音频能量，直至音频采样点的音频能量大于阈值为止。当然，如果终端始终没有找到起始音频采样点，则此目标音频文件中均为静音音频。对于终止音频采样点的处理过程，在找到起始音频采样点的前提下，基于目标音频文件的终点处的音频采样点的时间戳，确定出该目标音频文件的第二目标时段，也即是，令pos1_start＝pos1_end-0.2*fs，其中，pos1_start为第二目标时段的起始时间，pos1_end的终止时间，该终止时间也即是该目标音频文件的终点处的音频采样点的时间戳。同理，如果第二目标时段内音频采样点的音频能量大于预设阈值，pos1_end即为终止音频采样点，否则更新该第二目标时段，也即是，在pos1_start-1大于目标音频文件的第一目标时段的起始时间的情况下，令pos1_start＝pos1_start-1，继续寻找终止音频采样点，若始终无法找到，则判断目标音频文件中均为静音音频。

203、终端将该目标音频文件中从该起始音频采样点到该终止音频采样点的多个信号，确定为该目标音频文件的目标音频采样点。

终端直接将目标音频文件中，从起始音频采样点到终止音频采样点的多个采样点，均作为目标音频文件的目标音频采样点，该目标音频采样点为目标对象实际演唱的音频采样点。

204、终端将目标音频采样点的频率调整至目标频率范围内，根据调整后的目标音频采样点的频率，确定目标音频采样点在当前音调下的音高。

其中，该目标频率范围是指该标准音高所在的频率范围，该标准音高为该目标歌曲的原唱中的音高；本发明实施例中，该终端可以先将多个音频采样点的频率与该目标歌曲的标准音高的频率统一到相同的频率范围内，再执行基于音高确定得分的过程。本步骤中，该终端确定该目标音频采样点中频率不在该目标频率范围的采样点，并通过预设调整算法，将该目标音频采样点中频率不在该目标频率范围的目标音频采样点的频率调整至目标频率范围内。其中，该预设调整算法可以基于需要进行设置，本发明实施例对此不做具体限定，例如，该预设调整算法可以为将该目标音频采样点的频率进行乘二或除二的算法。

其中，终端可以从该目标歌曲的原唱音频文件中，获取该目标歌曲的原唱音高。其中，在该原唱音频文件中，该原唱音频的音高一般是指一个音符的音高，对于每个音符，该终端可以将该音符的起始时间、音符的时长以及该音符的音高对应存储，存储形式可以为：<音符起始时间，音符时长，音高>。本步骤中，该终端可以基于该音符的起始时间、音符时长和音高之前的对应关系，查找该原唱音频文件中的标准音频采样点。具体的，该终端可以根据目标音频文件中每个目标音频采样点的时间戳，查找该时间戳在原唱音频文件中所对应的音符，将该音符的音高作为该标准采样点的音高。

在一种可能的实施方式中，该终端还可以直接对目标音频采样点的音高和标准音频采样点的音高进行调整，从而将目标音频采样点的音高和标准音频采样点的音高均调整都一个目标音高范围内。例如，该终端选取人声所在的频率范围(127，254)，将该频率范围(127，254)对应的音高范围(48，59)作为目标音高范围。相应的，则步骤204还可以为：该终端获取目标音高范围，通过预设音高调整算法，将标准音频采样点的音高调整至该目标音高范围内，该终端通过该目标音频文件的目标音频采样点的频率，确定该模块音频采样点的音高，并通过预设音高调整算法，将目标音频采样点的音高调整至该目标音高范围内。当然，该终端还可以先将目标音频采样点的频率调整到该目标音高范围所对应的频率范围内，然后终端直接基于调整后的目标音频采样点的频率，确定出目标音频采样点的音高，从而使得目标音频采样点的音高也都在该目标音频范围内。例如，终端先将目标音频采样点的频率调整至人声所在的频率范围(127，254)，在基于该调整后的频率，查找该目标音频采样点的音高。其中，该标准音频采样点是指该目标歌曲的原唱音频文件中的采样点；该终端根据音高调整后的标准音频采样点的音高，作为该标准音频采样点的标准音高。该目标音高范围可以为基于需要进行设置，本发明实施例对此不做具体限定。例如，该目标音高范围可以为人声所在的频率范围(127，254)对应的音高范围(48，59)，由于人的声音大多会落在该频率范围内，从而降低了后续计算过程的计算强度。

其中，多个音频采样点的音高，也即是，midi(Musical Instrument DigitalInterface，乐器数字接口)值，该终端可以从目标音频文件的起始音频采样点开始，依次提取出目标音频文件中各个目标音频采样点的频率，并根据十二平均律，将该多个音频采样点的频率调整至目标频率范围内，该目标频率范围可以取人声所在的频率范围(127，254)，以减少后续计算过程的计算量，如以下序列所示，调整后的各个目标音频采样点的频率值分别可以为：{127.08794，134.64499，142.6514，151.1339，160.12077，169.64206，179.72949，190.41676，201.73955，213.7356，226.44498，239.9101，254.17588}，根据目标音频采样点的频率与相邻的目标音频采样点的频率之间的组成的频率区间，基于十二平均律，从音高和频率的对应关系表中，查找该频率区间对应的音高，将该频率区间对应的音高，确定为该目标音采样点的音高，也即是，基于十二平均律，调整后的各个目标音频采样点的频率区间的音高可以为：{48，49，50，51，52，53，54，55，56，57，58，59}。并且，终端也可以将多个标准音频采样点的频率也调整至(127，254)内，并基于调整后的标准频率，确定该原唱中各个标准音频采样点的音高。

在一种可能的实施方式中，当终端执行步骤201之后，直接执行步骤204时，该步骤204可以替换为：终端将该多个音频采样点的频率调整至目标频率范围内，根据调整后的多个音频采样点的频率，确定该多个音频采样点在当前音调下的音高。其中，该步骤的实现过程，同终端确定目标音频采样点在当前音调下的音高同理的过程，此处不再赘述。

205、终端根据目标音频采样点在当前音调下的音高，对该目标音频文件进行变调处理，得到该目标音频采样点在多个音调下的音高。

本发明实施例中，该多个音调为包括该当前音调在内的多个音调。该终端确定该目标音频文件中目标音频采样点当前音调下的得分后，该终端根据该目标音频文件中目标音频采样点在当前音调下的音高，通过以下公式一，确定该目标音频采样点在多个音调下的音高；

公式一：

其中，pf为该目标音频采样点在当前音调下的音高，pf_shift为变调后的音高，m为当前音调与变调后的音调的差值。其中，根据十二平均律可知，一共可以分为12个音调，该m的取值范围为[1,11]，例如，当前音调为第2个音调，变调后为第10个音调，则m此时取值为10与2之间的差值，也即是，m＝8。

在一种可能的实施方式中，当终端执行步骤201之后，直接执行步骤204时，相应的，该步骤205可以替换为：终端根据多个音频采样点在当前音调下的音高，对该目标音频文件进行变调处理，得到该多个音频采样点在多个音调下的音高。其中，该步骤的实现过程，同终端对目标音频采样点的变调处理过程同理的过程，此处不再赘述。

206、终端根据该目标音频采样点在该多个音调下的音高和该目标歌曲的标准音高，确定该目标音频文件在该多个音调下的得分。

其中，终端在确定该目标音频文件的得分时，该终端还可以对目标音频采样点进行时移处理，基于时移处理的音频采样点来确定得分，具体的，该终端确定该目标音频文件在多个音调下的得分的步骤可以为：对于每个音调，终端根据该多个音频采样点在该每个音调下的音高和该标准音高，通过预设算法，确定该目标音频文件在该每个音调下的第一得分；对该多个音频采样点进行时移处理，确定时移处理后的该目标音频文件的第二得分；终端根据该目标音频文件的第一得分和第二得分，确定该目标音频文件在该每个音调下的得分。

其中，以a1音调为例，该终端可以将目标音频文件中的目标音频采样点前后移动n个采样点(n＝1、2、3...)，其中，n指目标音频采样点的移动距离为n个音频采样点，终端基于移动后的音高与标准音高做比对，得到a1音调下的清唱得分a1b(n)，其中，该过程可以为：对于每个音调，该终端可以将目标音频采样点往前移动，直至移动后的目标音频采样点满足第一预设条件，并将目标音频采样点往后移动，直至移动后的目标音频采样点满足第二预设条件，同时，该终端在前后时移该目标音频采样点的过程中，分别确定该目标音频文件在每次移动后的得分，将移动过程中计算得到的目标音频文件的最大得分值确定为该目标音频文件在每个音调下的得分amax(1)，也即是目标音频文件在当前音调下的得分。

其中，该第一预设条件和第二预设条件可以基于需要进行设置，本发明实施例对此不做具体限定。例如，该第一预设条件可以为：起始音频采样点的起始时间大于多个标准音频采样点中最后一个标准音频采样点的终止时间，也即是原唱中最后一个音符的终止时间；该第二预设条件可以为：终止音频采样点的终止时间小于多个标准音频采样点中第一个标准音频采样点的起始时间，也即是，原唱中第一个音符的起始时间。需要说明的是，随着终端的多次移动，可能该目标音频文件的得分会发生变化，当该多次移动时，目标音频文件的得分逐渐增大或减小时，该第一预设条件或第二预设条件还可以为：多次移动过程中，该目标音频文件的得分不再增大时停止移动，或者，多次移动过程中，该目标音频文件的得分逐渐减小时停止移动。

其中，对于每个音调，该终端可以根据每个目标音频采样点的音高和目标歌曲在原唱中的标准音高，通过预设算法，计算该每个目标音频采样点的在当前音调下的音高和标准音高之间的相对距离，并根据该相对距离，从相对距离和得分之间的对应关系，获取该每个目标音频采样点的得分，从而得到多个目标音频采样点在每个音调下的得分。

其中，该预设算法可以基于需要进行设置，本发明实施例对此不作具体限定。例如，该预设算法可以为欧氏距离算法。

该终端通过计算目标音频采样点的音高pf与原唱中的标准音高ps的最小相对距离[abs(ps-pf),12-abs(ps-pf)]，来确定每个目标音频采样点的得分。如：距离为0，则得1分，距离为1，得0.5分，距离大于1，不得分。例如，在a1音调为，将所有目标音频采样点的得分累加得到a1音调下的目标音频文件的得分a1b(1)。另外，该终端还可以删除该多个得分中的最大值和最小值，并计算删除后的多个得分的平均值或和值，将该平均值或和值作为该目标音频文件在每个音调下的最终得分。

207、终端根据该目标音频文件在该多个音调下的多个得分，确定该目标音频文件的目标得分。

本步骤中，该终端确定该目标音频文件在多个音调下的得分中的最大值，也即是，将该多个得分中的最高得分，确定为该目标音频文件的目标得分。

图3是本发明实施例提供的一种确定音频得分的装置的结构示意图。参见图3，该装置包括：获取模块301、变调模块302、确定模块303。

获取模块301，用于获取待打分的目标音频文件，该目标音频文件包括目标对象演唱目标歌曲时的音频数据；

变调模块302，用于根据多个音频采样点在当前音调下的音高，对该目标音频文件进行变调处理，得到该多个音频采样点在多个音调下的音高，该多个音频采样点为该目标音频文件中的采样点；

确定模块303，用于根据该多个音频采样点在多个音调下的音高和该目标歌曲的标准音高，确定该目标音频文件在该多个音调下的得分，该标准音高为该目标歌曲的原唱中的音高；

该确定模块303，还用于根据该目标音频文件在该多个音调下的多个得分，确定该目标音频文件的目标得分。

可选的，该确定模块303，还用于对于每个音调，根据该多个音频采样点在该每个音调下的音高和该标准音高，通过预设算法，确定该目标音频文件在该每个音调下的第一得分；对该多个音频采样点进行时移处理，确定时移处理后的该目标音频文件的第二得分；根据该目标音频文件的第一得分和第二得分，确定该目标音频文件在该每个音调下的得分。

可选的，该确定模块303，还用于根据该目标音频文件中目标时段的音频采样点的音频能量，确定该目标音频文件中该目标对象演唱时的起始音频采样点和终止音频采样点；将该目标音频文件中从该起始音频采样点到该终止音频采样点的多个采样点，确定为该目标音频文件的目标音频采样点。

可选的，该确定模块303，还用于根据该目标音频文件中目标音频采样点的音高和该标准音高，确定该目标音频文件在该多个音调下的得分。

可选的，该装置还包括：

调整模块，用于将该多个音频采样点的频率调整至目标频率范围内，该目标频率范围为该标准音高所在的频率范围；

该确定模块303，还用于根据调整后的多个音频采样点的频率，确定该多个音频采样点在当前音调下的音高。

可选的，该变调模块302，还用于根据该多个音频采样点在当前音调下的音高，通过以下公式一，确定该多个音频采样点在多个音调下的音高，

公式一：

可选的，该获取模块301，还用于当接收到录制指令时，录制该目标对象演唱目标歌曲时的音频数据；根据该音频数据，生成该目标音频文件。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的确定音频得分的装置在确定音频得分时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的确定音频得分的装置与确定音频得分的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本发明实施例提供的一种终端的结构示意图。该终端400可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本申请中方法实施例提供的确定音频得分的方法。

在一些实施例中，终端400还可选包括有：外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地，外围设备包括：射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。

外围设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个，设置终端400的前面板；在另一些实施例中，显示屏405可以为至少两个，分别设置在终端400的不同表面或呈折叠设计；在再一些实施例中，显示屏405可以是柔性显示屏，设置在终端400的弯曲表面上或折叠面上。甚至，显示屏405还可以设置成非矩形的不规则图形，也即异形屏。显示屏405可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位终端400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源409用于为终端400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以终端400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器412可以检测终端400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对终端400的3D动作。处理器401根据陀螺仪传感器412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在终端400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在终端400的侧边框时，可以检测用户对终端400的握持信号，由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时，由处理器401根据用户对触摸显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹，由处理器401根据指纹传感器414采集到的指纹识别用户的身份，或者，由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置终端400的正面、背面或侧面。当终端400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制触摸显示屏405的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏405的显示亮度；当环境光强度较低时，调低触摸显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416，也称距离传感器，通常设置在终端400的前面板。接近传感器416用于采集用户与终端400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与终端400的正面之间的距离逐渐变小时，由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与终端400的正面之间的距离逐渐变大时，由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图4中示出的结构并不构成对终端400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中的确定音频得分的方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种确定音频得分的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个音频采样点在多个音调下的音高和所述目标歌曲的标准音高，确定所述目标音频文件在所述多个音调下的得分包括：

3.根据权利要求1所述的方法，其特征在于，所述根据多个音频采样点在当前音调下的音高，对所述目标音频文件进行变调处理，得到所述多个音频采样点在多个音调下的音高之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个音频采样点在所述多个音调下的音高和所述目标歌曲的标准音高，确定所述目标音频文件在所述多个音调下的得分包括：

根据所述目标音频文件中目标音频采样点在所述多个音调下的音高和所述标准音高，确定所述目标音频文件在所述多个音调下的得分。

5.根据权利要求1所述的方法，其特征在于，所述根据多个音频采样点在当前音调下的音高，对所述目标音频文件进行变调处理，得到所述多个音频采样点在多个音调下的音高之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述根据多个音频采样点在当前音调下的音高，对所述目标音频文件进行变调处理，得到所述多个音频采样点在多个音调下的音高包括：

公式一：

7.根据权利要求1所述的方法，其特征在于，所述获取待打分的目标音频文件包括：

根据所述音频数据，生成所述目标音频文件。

8.一种确定音频得分的装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，

所述确定模块，还用于对于每个音调，根据所述多个音频采样点在所述每个音调下的音高和所述标准音高，通过预设算法，确定所述目标音频文件在所述每个音调下的第一得分；对所述多个音频采样点进行时移处理，确定时移处理后的所述目标音频文件的第二得分；根据所述目标音频文件的第一得分和第二得分，确定所述目标音频文件在所述每个音调下的得分。

10.根据权利要求8所述的装置，其特征在于，

所述确定模块，还用于根据所述目标音频文件中目标时段的音频采样点的音频能量，确定所述目标音频文件中所述目标对象演唱时的起始音频采样点和终止音频采样点；将所述目标音频文件中从所述起始音频采样点到所述终止音频采样点的多个采样点，确定为所述目标音频文件的目标音频采样点。

11.根据权利要求10所述的装置，其特征在于，

所述确定模块，还用于根据所述目标音频文件中目标音频采样点在所述多个音调下的音高和所述标准音高，确定所述目标音频文件在所述多个音调下的得分。

12.根据权利要求8所述的装置，其特征在于，所述装置还包括：

13.根据权利要求8所述的装置，其特征在于，

所述变调模块，还用于根据所述多个音频采样点在当前音调下的音高，通过以下公式一，确定所述多个音频采样点在多个音调下的音高，

公式一：

14.根据权利要求8所述的装置，其特征在于，

所述获取模块，还用于当接收到录制指令时，录制所述目标对象演唱目标歌曲时的音频数据；根据所述音频数据，生成所述目标音频文件。

15.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求7任一项所述的确定音频得分的方法所执行的操作。

16.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的确定音频得分的方法所执行的操作。