CN114664277A

CN114664277A - 音频评估方法及装置

Info

Publication number: CN114664277A
Application number: CN202210350330.8A
Authority: CN
Inventors: 李子涵; 李楠; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-06-24

Abstract

本公开关于一种音频评估方法及装置。该音频评估方法包括：对至少一个音频进行基频检测，得到所述至少一个音频的音高序列；基于评估模式对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行序列对齐处理，并将所述至少一个音频中的每个音频的互相对齐的音高序列和参考音高序列作为所述至少一个音频中的每个音频的音高序列和参考音高序列；基于所述至少一个音频的音高序列和参考音高序列确定所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果；基于所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果确定所述至少一个音频的评估结果。根据本公开的音频评估方法及装置，可提高音频评估结果的准确性。

Description

音频评估方法及装置

技术领域

本公开涉及音视频技术领域。更具体地，本公开涉及一种音频评估方法及装置。

背景技术

卡拉OK是一种伴奏系统，演唱者可以在预先录制的音乐伴奏下参与歌唱，在电子屏幕上同步播放有节拍提示的歌词，然后由演唱者边看歌词边持麦克风唱歌。卡拉OK能通过声音处理使演唱者的声音得到美化与润饰，当再与音乐伴奏有机结合时，就变成了浑然一体的立体声歌曲。这种演唱方式，给歌唱爱好者们带来了极大的方便和愉悦，是人们休闲娱乐的一种方式，现多叫K歌。

随着移动互联网的普及，现在人们不止会在线下KTV歌房里K歌，还会在手机K歌软件上在线K歌。线下K歌成本高，而在线K歌不仅成本低而且使用门槛也低。为了给在线K歌的音乐爱好者们提供比肩线下甚至超越线下的K歌体验，K歌软件往往会有丰富的K歌功能，例如音频3A、智能降噪、智能混音、K歌打分、声伴对齐、智能修音等。现有软件的K歌打分功能只有一种模式，并且为了让大多数普通演唱者获得较好的主观使用体验，在这种打分模式下打分比较宽松，分数比较高，提升了演唱者的自信心，让其拥有再次使用的欲望。但对于那些有一定音乐素养的演唱者来说，现有的打分模式不能较好地体现他们的专业能力，评分粒度太粗。因此，需要设计一种能满足专业演唱者打分需求的K歌打分方法，以提高频评估结果的准确性。

发明内容

本公开的示例性实施例在于提供一种音频评估方法及装置，以至少解决相关技术中的音频评估的问题，也可不解决任何上述问题。

根据本公开的示例性实施例，提供一种音频评估方法，包括：对至少一个音频进行基频检测，得到所述至少一个音频的音高序列；基于评估模式对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行序列对齐处理，并将所述至少一个音频中的每个音频的互相对齐的音高序列和参考音高序列作为所述至少一个音频中的每个音频的音高序列和参考音高序列；基于所述至少一个音频的音高序列和参考音高序列确定所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果；基于所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果确定所述至少一个音频的评估结果。

可选地，基于评估模式对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行序列对齐处理，可包括：当评估模式是第一评估模式时，对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行第一粒度的序列对齐处理；当评估模式是第二评估模式时，对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行第二粒度的序列对齐处理，其中，第一粒度大于第二粒度。

可选地，基于所述至少一个音频的音高序列和参考音高序列确定所述至少一个音频的音高评估结果，可包括：分别确定所述至少一个音频中的每个音频的音高序列和参考音高序列之间的平均音高距离；根据所述至少一个音频中的每个音频的平均音高距离分别确定所述至少一个音频中的每个音频的音高评估结果。

可选地，基于所述至少一个音频的音高序列和参考音高序列确定所述至少一个音频的音准评估结果以及节奏评估结果，可包括：分别确定所述至少一个音频中的每个音频的音高序列和参考音高序列之间的相似度距离和相对序列偏移；基于所述至少一个音频中的每个音频的相似度距离分别确定所述至少一个音频中的每个音频的音准评估结果；基于所述至少一个音频中的每个音频的相对序列偏移分别确定所述至少一个音频中的每个音频的节奏评估结果。

可选地，分别确定所述至少一个音频的音高序列和参考音高序列之间的相似度距离和相对序列偏移，可包括：分别对所述至少一个音频中的每个音频的音高序列和参考音高序列执行动态时间规整，得到所述至少一个音频中的每个音频的音高序列和参考音高序列之间的相似度距离和相对序列偏移。

可选地，基于所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果确定所述至少一个音频的评估结果，可包括：分别确定所述至少一个音频中的每个音频的音高评估结果、音准评估结果以及节奏评估结果的平均值；将所述至少一个音频中的每个音频的所述平均值分别确定为所述至少一个音频中的每个音频的评估结果。

可选地，所述至少一个音频包括一段歌的音频，所述至少一个音频中的每个音频是所述一段歌中的一句歌的音频。

可选地，所述音频评估方法还可包括：对所述至少一个音频中的每个音频的评估结果执行平均处理，得到所述至少一个音频的总评估结果。

可选地，所述音频评估方法还可包括：基于所述至少一个音频的总评估结果确定所述至少一个音频的等级。

根据本公开的示例性实施例，提供一种音频评估装置，包括：基频检测单元，被配置为对至少一个音频进行基频检测，得到所述至少一个音频的音高序列；序列对齐单元，被配置为基于评估模式对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行序列对齐处理，并将所述至少一个音频中的每个音频的互相对齐的音高序列和参考音高序列作为所述至少一个音频中的每个音频的音高序列和参考音高序列；第一确定单元，被配置为基于所述至少一个音频的音高序列和参考音高序列确定所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果；和第二确定单元，被配置为基于所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果确定所述至少一个音频的评估结果。

可选地，序列对齐单元，被配置为：当评估模式是第一评估模式时，对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行第一粒度的序列对齐处理；当评估模式是第二评估模式时，对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行第二粒度的序列对齐处理，其中，第一粒度大于第二粒度。

可选地，第一确定单元可被配置为：分别确定所述至少一个音频中的每个音频的音高序列和参考音高序列之间的平均音高距离；根据所述至少一个音频中的每个音频的平均音高距离分别确定所述至少一个音频中的每个音频的音高评估结果。

可选地，第一确定单元可被配置为：分别确定所述至少一个音频中的每个音频的音高序列和参考音高序列之间的相似度距离和相对序列偏移；基于所述至少一个音频中的每个音频的相似度距离分别确定所述至少一个音频中的每个音频的音准评估结果；基于所述至少一个音频中的每个音频的相对序列偏移分别确定所述至少一个音频中的每个音频的节奏评估结果。

可选地，第一确定单元可被配置为：分别对所述至少一个音频中的每个音频的音高序列和参考音高序列执行动态时间规整，得到所述至少一个音频中的每个音频的音高序列和参考音高序列之间的相似度距离和相对序列偏移。

可选地，第二确定单元可被配置为：分别确定所述至少一个音频中的每个音频的音高评估结果、音准评估结果以及节奏评估结果的平均值；将所述至少一个音频中的每个音频的所述平均值分别确定为所述至少一个音频中的每个音频的评估结果。

可选地，所述至少一个音频可包括一段歌的音频，所述至少一个音频中的每个音频可以是所述一段歌中的一句歌的音频。。

可选地，所述音频评估装置还可包括：平均处理单元，被配置为对所述至少一个音频中的每个音频的评估结果执行平均处理，得到所述至少一个音频的总评估结果。

可选地，所述音频评估装置还可包括：等级评估单元，被配置为基于所述至少一个音频的总评估结果确定所述至少一个音频的等级。

根据本公开的示例性实施例，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现根据本公开的示例性实施例的音频评估方法。

根据本公开的示例性实施例，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被电子设备的处理器执行时，使得电子设备执行根据本公开的示例性实施例的音频评估方法。

根据本公开的示例性实施例，提供一种计算机程序产品，包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，实现根据本公开的示例性实施例的音频评估方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

提高音频评估结果的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出本公开的示例性实施例可以应用于其中的示例性系统架构。

图2示出根据本公开的示例性实施例的音频评估方法的流程图。

图3示出根据本公开的示例性实施例的音频评估系统的示意图。

图4和图5示出参考音高序列和歌声音高序列的匹配关系图的示例。

图6示出根据本公开的示例性实施例的音频评估装置的框图。

图7是根据本公开的示例性实施例的电子设备700的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

下面，将参照图1至图7具体描述根据本公开的示例性实施例的音频评估方法及装置。

图1示出本公开的示例性实施例可以应用于其中的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息(例如，音频评估请求、歌声评估请求、待评估音频、待评估歌声)等。终端设备101、102、103上可以安装有各种音视频应用。终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且能够进行音视频播放、录制、编辑等的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块(例如，用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

终端设备101、102、103可以安装有音频采集装置(例如，麦克风)，以采集音频数据。此外，终端设备101、102、103也可以安装有用于将电信号转换为声音的组件(例如，扬声器)以播放声音，并且还可以安装有用于将模拟音频信号转换为数字音频信号的装置(例如，麦克风)以采集声音。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上所安装的多媒体应用提供支持的后台服务器。后台服务器可以基于接收到的音频评估请求对待评估音频进行评估，并且还可以将评估结果反馈至终端设备101、102、103。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如，用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的音频评估方法通常由终端设备执行，但是也可由服务器执行，或者也可以由终端设备和服务器协作执行。相应地，音频评估装置可设置在终端设备中、服务器中或者设置在终端设备和服务器两者中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本公开对此并无限制。

参照图2，在步骤S201，对至少一个音频进行基频检测，得到所述至少一个音频的音高序列。

在本公开的示例性实施例中，在得到所述至少一个音频的音高序列之后，还可对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行序列对齐处理，并将所述至少一个音频中的每个音频的互相对齐的音高序列和参考音高序列作为所述至少一个音频中的每个音频的音高序列和参考音高序列，从而使得所述至少一个音频中的每个音频的音高序列和参考音高序列是分别互相对齐的。

在步骤S202，基于评估模式对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行序列对齐处理，并将所述至少一个音频中的每个音频的互相对齐的音高序列和参考音高序列作为所述至少一个音频中的每个音频的音高序列和参考音高序列。

在本公开的示例性实施例中，在基于评估模式对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行序列对齐处理时，可当评估模式是第一评估模式时，对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行第一粒度的序列对齐处理；当评估模式是第二评估模式时，对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行第二粒度的序列对齐处理，其中，第一粒度大于第二粒度。这里，由于第一评估模式的在序列对齐时的粒度更粗，第二评估模式的在序列对齐时的粒度更细，因此，第二评估模式下的序列对齐处理的效果高于第一评估模式下的序列对齐处理的效果。也就是说，第二评估模式下的序列对齐处理结果比第一评估模式下的序列对齐处理结果更精确。

在步骤S203，基于所述至少一个音频的音高序列和参考音高序列确定所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果。

在本公开的示例性实施例中，在基于所述至少一个音频的音高序列和参考音高序列确定所述至少一个音频的音高评估结果时，可首先分别确定所述至少一个音频中的每个音频的音高序列和参考音高序列之间的平均音高距离，然后根据所述至少一个音频中的每个音频的平均音高距离分别确定所述至少一个音频中的每个音频的音高评估结果，从而得到所述至少一个音频中的每个音频的音高评估结果。

在本公开的示例性实施例中，在基于所述至少一个音频的音高序列和参考音高序列确定所述至少一个音频的音准评估结果以及节奏评估结果时，可首先分别确定所述至少一个音频中的每个音频的音高序列和参考音高序列之间的相似度距离和相对序列偏移，然后基于所述至少一个音频中的每个音频的相似度距离分别确定所述至少一个音频中的每个音频的音准评估结果，并且基于所述至少一个音频中的每个音频的相对序列偏移分别确定所述至少一个音频中的每个音频的节奏评估结果，从而得到所述至少一个音频中的每个音频的音准评估结果和节奏评估结果。

在本公开的示例性实施例中，在分别确定所述至少一个音频的音高序列和参考音高序列之间的相似度距离和相对序列偏移时，可分别对所述至少一个音频中的每个音频的音高序列和参考音高序列执行动态时间规整，得到所述至少一个音频中的每个音频的音高序列和参考音高序列之间的相似度距离和相对序列偏移，从而通过动态时间规整得到所述至少一个音频中的每个音频的相似度距离和相对序列偏移。

在步骤S204，基于所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果确定所述至少一个音频的评估结果。

在本公开的示例性实施例中，在基于所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果确定所述至少一个音频的评估结果时，可首先分别确定所述至少一个音频中的每个音频的音高评估结果、音准评估结果以及节奏评估结果的平均值，然后将所述至少一个音频中的每个音频的所述平均值分别确定为所述至少一个音频中的每个音频的评估结果，从而分别得到所述至少一个音频中的每个音频的最终评估结果。

在本公开的示例性实施例中，所述至少一个音频可包括一段歌的音频，所述至少一个音频中的每个音频可以是所述一段歌中的一句歌的音频。

在本公开的示例性实施例中，在分别得到所述至少一个音频中的每个音频的最终评估结果之后，还可对所述至少一个音频中的每个音频的评估结果执行平均处理，得到所述至少一个音频的总评估结果。

在本公开的示例性实施例中，在得到所述至少一个音频的总评估结果之后，还可基于所述至少一个音频的总评估结果确定所述至少一个音频的等级。

此外，还可基于所述至少一个音频中的每个音频的评估结果确定所述至少一个音频中的每个音频的等级。

演唱者在选择了待演唱的歌曲后从娱乐模式和专业模式中选择一种K歌模式，同时系统从服务端获取该歌曲的乐器数字接口(Musical Instrument Digital Interface，简称MIDI)文件和歌词文件用于解析，从乐器数字接口文件中提取出参考音高序列，从歌词文件中提取出分句信息。接下来，演唱者开始唱歌，每唱一句歌，进行m轮打分过程，假设有N句歌，则共重复N*m次打分过程，其中m为搜索一句歌最高分的次数。对于一句歌的一次打分过程，首先对演唱者的歌声进行基频检测，获得歌声音高序列，根据演唱者在最开始选择的K歌打分模式，对歌声音高序列和参考音高序列执行对应模式的序列对齐操作。完成对齐后，计算对齐后的2个序列的平均音高距离，并根据平均音高距离计算音高得分ToneScore。同时将对齐后的2个序列执行DTW算法，获得两个序列的相似度距离和相对序列偏移，用来后续分别计算音准得分PitchScore和节奏得分TimeScore，对三个维度的得分求加权平均分获得最终得分AvgScore。重复N*m次打分过程后获得整首歌曲的演唱得分，并据此给演唱者划分本次演唱等级。

如图3所示，首先在步骤1需要选择一种K歌打分模式，分为娱乐模式和专业模式。专业模式可以记为Mode1，特点为分数计算粒度高，打分严格；娱乐模式可以记为Mode2，特点为分数计算粒度低，打分宽松。

在确定好K歌打分模式后，在步骤2和步骤3对歌曲的基本信息进行解析和提取，包括解析歌曲的乐器数字接口信息和歌词信息。乐器数字接口信息将所要演唱的歌曲信息用字节进行描述，包括时间差、音符、控制器、系统信息等，从乐器数字接口信息中可以提取歌曲的音高、音高开始的时间和音高持续的时间。由于乐器数字接口信息包含是音符信息，所以需要按照音符-音高对照表，将音符映射为对应的音高进行存储，记为参考音高RefTone,同时根据音高和频率转换公式计算出参考频率RefPitch，转换公式为：

此外，还需要从歌词信息中提取歌词的句子数量N和每句歌词的开始时间与结束时间。

在步骤4，提取演唱者歌声的基频，转换为演唱者歌声的音高信息。在一种实现中，可以通过自相关系数来得到歌声音高的基频。自相关系数的计算公示如下：

这里，x为歌声的时域信号，τ为延迟的指数，acf是对应的自相关系数，N是序列x的长度。由于波形是有周期性的，所以当延迟指数是周期的倍数时，自相关系数可以达到最大值。因此通过计算自相关系数，可以得到波形的周期P。最后可以通过周期P与采样率f_s的关系得到此段波形的频率

在另一种实现中，可以使用Yin算法进行基频检测，与自相关相乘的方法不同，Yin算法是把平移后的信号与原始信号相减求平方再积分，得到差函数(differencefunction)d_t(τ)：

这里，x为歌声的时域信号，τ为延迟的指数，可以代表在t处的周期。

在差函数的基础上，Yin算法定义了一种累积均值归一化差函数(cumulativemean normalized difference function，简称CMNDF)d′_t(τ)：

累积均值归一化差函数(CMDF)去除了差函数在原点处的谷，且纵坐标不再依赖于信号本身的幅度，但是信号的周期的性并不理想，最小值可能并不是最左边最深的谷，因此需要设置一个谷深阈值。

为了得到一句歌声时间段内的基频序列，可以将歌声分帧检测基频，通常以30ms为一帧检测出一个基频值。

K歌场景歌声的基频范围在通常80Hz到2200Hz以内，因此在此范围之外的频率都看作是噪声。同时为了保证基频的准确性，可以计算本句歌词的平均歌声频率与平均参考频率的比值，如果比值小于等于1.8，则过滤掉超过本句歌词参考频率最大值+200的歌声频率，否则则过滤掉超过本句歌词参考频率最大值的2倍+200的歌声频率。

此外，得到较为干净的歌声频率序列之后，还可对得到的歌声频率进行平滑处理，最常见的一种平滑方式就是滑动窗口取平均数，计算公式如下：

SmoothVocalPitch(t)

＝β*SmoothVocalPitch(t-1)+(1-β)*VocalPitch(t)

这里，t代表当前帧，t-1代表上一帧，β为平滑因子(可以取例如0.9)，VocalPitch是歌声频率，SmoothVocalPitch是平滑后的歌声频率。当t＝1时，SmoothVocalPitch(1)＝VocalPitch(1)。

在得到平滑后的歌声频率SmoothVocalPitch后，需要将其转化为对应的歌声音高VocalTone，转换公示如下：

VocalTone＝69+12×log₂(SmoothVocalPitch/440)

在步骤5，根据K歌打分模式对一句歌词的参考音高序列RefTone(r1,r2,…,rm)和歌声音高序列VocalTone(v1,v2,…,vn)进行对齐。若K歌打分模式为Mode1,则将参考音高序列RefTone(r1,r2,…,rm)重采样成长度为n的参考音高序列RefTone^*(r1,r2,…,rn)；若K歌打分模式为Mode2,则将歌声音高序列VocalTone(v1,v2,…,vn)重采样成长度为m的歌声音高序列VocalTone^*(v1,v2,…,vm)。因为一句歌词的参考音高序列长度较短，而检测出的演唱者歌声音高序列长度较长，即一句歌词的参考音高序列长度m远远小于歌声音高序列长度n，所以一般Mode1时进行上采样，Mode2时进行下采样。Mode1为了使专业演唱者获得高标准体验，让打分粒度更精准细致，体现出高水平演唱的差异，所以采用下采样对齐策略，会对参考音高做重采样，让参考音高序列向歌声音高序列对齐，后续计算以长度较长的歌声音高序列长度为基准，最终使得打分颗粒度更细，高水平演唱也能体现出得分的差异和变化。Mode2为了使一般演唱者获得较好娱乐体验，把用户唱出高分的难度降低，所以采用上采样对齐策略，会对演唱者音高做分段平均，让歌声音高序列向参考音高序列对齐，后续计算以长度较短的参考音高序列长度为基准，最终使得打分颗粒度较粗，较容易就能唱得高分。

在步骤6，计算对齐后的两个音高序列的平均音高差距MeanToneDiff。首先计算参考音高序列RefTone的平均值为MeanRefTone,歌声音高序列VocalTone的平均值为MeanVocalTone,将2个平均值相减得到两个音高序列的平均音高差距，再进行四舍五入得到音高距离的整数值MeanToneDiff。

计算一句歌词的音高得分ToneScore，计算公式如下：

在步骤7，通过动态规整算法(Dynamic Time Warping，简称DTW)计算参考音高序列RefTone和歌声音高序列VocalTone的整体序列相似度。

在DTW中，序列Q和序列C的每一个点的相似度都将被计算，一般采用欧式距离，即：

d(Q_i，C_j)＝(Q_i-C_j)²

然后，DTW通过以下公式，自动搜索规整代价最小的路径，从原点开始匹配这两个序列Q和C，最后得到最小累积距离即最佳规整路径。

γ(i，j)＝d(O_i，C_j)+min{γ(i-1，j-1)，γ(i-1，j)，γ(i，j-1)}

这里，γ(i，j)为累积距离，最佳路径可以通过动态规划算法(dynamicprogramming)得到。

通过以上方式得到参考音高序列RefTone和歌声音高序列VocalTone的对应关系。

图4和图5示出参考音高序列和歌声音高序列的匹配关系图的示例。在参考音高序列RefTone和歌声音高序列VocalTone的匹配关系图中，线条为最佳的匹配路径。如果歌声音高的变化情况与参考音高的变化情况比较相似，匹配出来的路径将是一条对角线。如果两者相差甚远或者毫无关系，则匹配出来的路径线性度会很低。图4是相似度较高的两个序列的匹配关系图。图5是相似度较低的两个序列的匹配关系图。

通过以上DTW算法可以得到参考音高序列RefTone和歌声音高序列VocalTone的相似度距离SimiDist和相对序列偏移TimeDist。

在步骤8，计算音准得分。例如，可根据以下公式计算这句歌词的音准得分PitchScore：

在步骤9，计算节奏得分。例如，可根据以下公式计算这句歌词的节奏得分：

TimeScore＝e^{-2.3*TimeDist}*100

在步骤10，计算最终得分。例如，可根据以上获得的一句歌词的音高得分ToneScore、音准得分PitchScore、节奏得分TimeScore，计算这句歌词的多维度加权平均分，公式如下：

AvgScore(i)

＝α*ToneScore(i)+γ*PitchScore(i)+(1-α-γ)*TimeScore(i)

为了实现实时场景K歌，以上步骤1至步骤10均针对一句歌词计算处理。在K歌场景中，一般认为演唱者演唱时带有300ms的时间误差是合理的，所以我们会对演唱者演唱一句歌的前后300ms歌声进行搜索。假设这句歌词的准确开始时间是StartTime，准确结束时间是EndTime，歌词时间长度为TimeLength＝EndTime-StartTime。保持歌词时间长度TimeLength不变，从StartTime-300ms处提取TimeLength长度的歌声执行步骤3至步骤10，下一次从StartTime-300ms+StepTime处执行步骤3至步骤10，以此类推，每次向前移动StepTime直到StartTime+300ms处为止。计算一句歌词m轮计算AvgScore的最大值，作为该句歌词的最终得分，其中m＝600/StepTime。

根据步骤2解析出的歌词句子数量N，重复N次步骤3至步骤10，即可得到整首歌的K歌得分，根据整首歌的K歌平均分给演唱者划分K歌等级。

以上已经结合图1至图5对根据本公开的示例性实施例的音频评估方法进行了描述。在下文中，将参照图6对根据本公开的示例性实施例的音频评估装置及其单元进行描述。

图6示出根据本公开的示例性实施例的音频评估装置的框图。

参照图6，音频评估装置包括基频检测单元61、序列对齐单元62、第一确定单元63和第二确定单元64。

基频检测单元61被配置为对至少一个音频进行基频检测，得到所述至少一个音频的音高序列。

在本公开的示例性实施例中，所述至少一个音频可包括一段歌的音频，所述至少一个音频中的每个音频是所述一段歌中的一句歌的音频。

序列对齐单元62被配置为基于评估模式对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行序列对齐处理，并将所述至少一个音频中的每个音频的互相对齐的音高序列和参考音高序列作为所述至少一个音频中的每个音频的音高序列和参考音高序列。

在本公开的示例性实施例中，序列对齐单元62可被配置为：当评估模式是第一评估模式时，对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行第一粒度的序列对齐处理；当评估模式是第二评估模式时，对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行第二粒度的序列对齐处理，其中，第一粒度大于第二粒度。这里，由于第一评估模式的在序列对齐时的粒度更粗，第二评估模式的在序列对齐时的粒度更细，因此，第二评估模式下的序列对齐处理效果高于第一评估模式下的序列对齐处理效果。也就是说，第二评估模式下的序列对齐处理结果比第一评估模式下的序列对齐处理结果更精确。

第一确定单元63被配置为基于所述至少一个音频的音高序列和参考音高序列确定所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果。

在本公开的示例性实施例中，第一确定单元63可被配置为：分别确定所述至少一个音频中的每个音频的音高序列和参考音高序列之间的平均音高距离；根据所述至少一个音频中的每个音频的平均音高距离分别确定所述至少一个音频中的每个音频的音高评估结果。

在本公开的示例性实施例中，第一确定单元63可被配置为：分别确定所述至少一个音频中的每个音频的音高序列和参考音高序列之间的相似度距离和相对序列偏移；基于所述至少一个音频中的每个音频的相似度距离分别确定所述至少一个音频中的每个音频的音准评估结果；基于所述至少一个音频中的每个音频的相对序列偏移分别确定所述至少一个音频中的每个音频的节奏评估结果。

在本公开的示例性实施例中，第一确定单元63可被配置为：分别对所述至少一个音频中的每个音频的音高序列和参考音高序列执行动态时间规整，得到所述至少一个音频中的每个音频的音高序列和参考音高序列之间的相似度距离和相对序列偏移。

第二确定单元64被配置为基于所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果确定所述至少一个音频的评估结果。

在本公开的示例性实施例中，第二确定单元64可被配置为：分别确定所述至少一个音频中的每个音频的音高评估结果、音准评估结果以及节奏评估结果的平均值；将所述至少一个音频中的每个音频的所述平均值分别确定为所述至少一个音频中的每个音频的评估结果。

在本公开的示例性实施例中，所述音频评估装置还可包括：平均处理单元，被配置为对所述至少一个音频中的每个音频的评估结果执行平均处理，得到所述至少一个音频的总评估结果。

在本公开的示例性实施例中，所述音频评估装置还可包括：等级评估单元，被配置为基于所述至少一个音频的总评估结果确定所述至少一个音频的等级。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

以上已经结合图6对根据本公开的示例性实施例的音频评估装置进行了描述。接下来，结合图7对根据本公开的示例性实施例的电子设备进行描述。

图7是根据本公开的示例性实施例的电子设备700的框图。

参照图7，电子设备700包括至少一个存储器701和至少一个处理器702，所述至少一个存储器701中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器702执行时，执行根据本公开的示例性实施例的音频评估的方法。

在本公开的示例性实施例中，电子设备700可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备700并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备700还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备700中，处理器702可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器702可运行存储在存储器701中的指令或代码，其中，存储器701还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器701可与处理器702集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器701可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器701和处理器702可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器702能够读取存储在存储器中的文件。

此外，电子设备700还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备700的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还提供一种包括指令的计算机可读存储介质，例如包括指令的存储器701，上述指令可由装置700的处理器702执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，实现根据本公开的示例性实施例的音频评估的方法。

以上已参照图1至图7描述了根据本公开的示例性实施例的音频评估方法及装置。然而，应该理解的是：图6中所示的音频评估装置及其单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合，图7中所示的电子设备并不限于包括以上示出的组件，而是可根据需要增加或删除一些组件，并且以上组件也可被组合。

根据本公开的音频评估方法及装置，通过对至少一个音频进行基频检测，得到所述至少一个音频的音高序列，基于评估模式对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行序列对齐处理，并将所述至少一个音频中的每个音频的互相对齐的音高序列和参考音高序列作为所述至少一个音频中的每个音频的音高序列和参考音高序列，基于所述至少一个音频的音高序列和参考音高序列确定所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果，基于所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果确定所述至少一个音频的评估结果，从而提高音频评估结果的准确性。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频评估方法，其特征在于，包括：

对至少一个音频进行基频检测，得到所述至少一个音频的音高序列；

基于评估模式对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行序列对齐处理，并将所述至少一个音频中的每个音频的互相对齐的音高序列和参考音高序列作为所述至少一个音频中的每个音频的音高序列和参考音高序列；

基于所述至少一个音频的音高序列和参考音高序列确定所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果；

基于所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果确定所述至少一个音频的评估结果。

2.根据权利要求1所述的音频评估方法，其特征在于，基于评估模式对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行序列对齐处理，包括：

当评估模式是第一评估模式时，对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行第一粒度的序列对齐处理；

当评估模式是第二评估模式时，对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行第二粒度的序列对齐处理，

其中，第一粒度大于第二粒度。

3.根据权利要求1所述的音频评估方法，其特征在于，基于所述至少一个音频的音高序列和参考音高序列确定所述至少一个音频的音高评估结果，包括：

分别确定所述至少一个音频中的每个音频的音高序列和参考音高序列之间的平均音高距离；

根据所述至少一个音频中的每个音频的平均音高距离分别确定所述至少一个音频中的每个音频的音高评估结果。

4.根据权利要求1所述的音频评估方法，其特征在于，基于所述至少一个音频的音高序列和参考音高序列确定所述至少一个音频的音准评估结果以及节奏评估结果，包括：

分别确定所述至少一个音频中的每个音频的音高序列和参考音高序列之间的相似度距离和相对序列偏移；

基于所述至少一个音频中的每个音频的相似度距离分别确定所述至少一个音频中的每个音频的音准评估结果；

基于所述至少一个音频中的每个音频的相对序列偏移分别确定所述至少一个音频中的每个音频的节奏评估结果。

5.根据权利要求4所述的音频评估方法，其特征在于，分别确定所述至少一个音频的音高序列和参考音高序列之间的相似度距离和相对序列偏移，包括：

分别对所述至少一个音频中的每个音频的音高序列和参考音高序列执行动态时间规整，得到所述至少一个音频中的每个音频的音高序列和参考音高序列之间的相似度距离和相对序列偏移。

6.根据权利要求1所述的音频评估方法，其特征在于，基于所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果确定所述至少一个音频的评估结果，包括：

分别确定所述至少一个音频中的每个音频的音高评估结果、音准评估结果以及节奏评估结果的平均值；

将所述至少一个音频中的每个音频的所述平均值分别确定为所述至少一个音频中的每个音频的评估结果。

7.根据权利要求1所述的音频评估方法，其特征在于，所述至少一个音频包括一段歌的音频，所述至少一个音频中的每个音频是所述一段歌中的一句歌的音频。

8.一种音频评估装置，其特征在于，包括：

基频检测单元，被配置为对至少一个音频进行基频检测，得到所述至少一个音频的音高序列；

序列对齐单元，被配置为基于评估模式对所述至少一个音频中的每个音频的音高序列和参考音高序列分别执行序列对齐处理，并将所述至少一个音频中的每个音频的互相对齐的音高序列和参考音高序列作为所述至少一个音频中的每个音频的音高序列和参考音高序列；

第一确定单元，被配置为基于所述至少一个音频的音高序列和参考音高序列确定所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果；和

第二确定单元，被配置为基于所述至少一个音频的音高评估结果、音准评估结果以及节奏评估结果确定所述至少一个音频的评估结果。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至9中任一项所述的音频评估方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，当所述计算机程序被电子设备的处理器执行时，使得电子设备执行如权利要求1至9中任一项所述的音频评估方法。