CN114491140A

CN114491140A - 音频匹配检测方法及装置、电子设备、存储介质

Info

Publication number: CN114491140A
Application number: CN202210082795.XA
Authority: CN
Inventors: 李婧如; 田思达; 袁微
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-05-13

Abstract

本申请的实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景，揭示了一种音频匹配检测方法及装置、电子设备、存储介质、程序产品，该方法包括：在获取标准音频对应第一音符序列以及待监测音频对应的第二音符序列后，从第一音符序列中筛选出时长大于或等于第一阈值的第一音符，从第二音符序列中查找出起止时间与第一音符的起止时间相匹配的多个第二音符，从多个第二音符中筛选出音高与第一音符的音高相匹配的第一目标音符，并根据第一目标音符的时长与第一音符的时长确定待检测音频与标准音频的音准相似度，根据音准相似度确定待检测音频的音准匹配参数。本申请实施例的技术方案能够提升音准匹配检测的准确性。

Description

音频匹配检测方法及装置、电子设备、存储介质

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种音频匹配检测方法及装置、电子设备、存储介质、程序产品。

背景技术

随着科技和经济的发展，人们的生活越来越丰富，不仅可以欣赏歌曲、器乐、影视等音频，还可以通过演唱、演奏等方式模仿该音频。为了使用户知晓自身模仿所得的音频与标准音频之间是否匹配，需要对音频进行检测。但是，目前的音频匹配检测方法准确度较低。

发明内容

为解决上述技术问题，本申请的实施例提供了一种音频匹配检测方法及装置、电子设备、存储介质、程序产品。

根据本申请实施例的一个方面，提供了一种音频匹配检测方法，所述方法包括：

获取标准音频对应的第一音符序列以及待检测音频对应的第二音符序列；

从所述第一音符序列中筛选出时长大于或等于第一阈值的第一音符，并从所述第二音符序列中查找出起止时间与所述第一音符的起止时间相匹配的多个第二音符；

从所述多个第二音符中筛选出音高与所述第一音符的音高相匹配的第一目标音符，并根据所述第一目标音符的时长与所述第一音符的时长确定所述待检测音频与所述标准音频的音准相似度；

根据所述音准相似度确定所述待检测音频的音准匹配参数。

根据本申请实施例的一个方面，提供了一种音频匹配检测装置，所述装置包括：

获取模块，配置为获取标准音频对应的第一音符序列以及待检测音频对应的第二音符序列；

查找模块，配置为从所述第一音符序列中筛选出时长大于或等于第一阈值的第一音符，并从所述第二音符序列中查找出起止时间与所述第一音符的起止时间相匹配的多个第二音符；

相似度确定模块，配置为从所述多个第二音符中筛选出音高与所述第一音符的音高相匹配的第一目标音符，并根据所述第一目标音符的时长与所述第一音符的时长确定所述待检测音频与所述标准音频的音准相似度；

匹配检测模块，配置为根据所述音准相似度确定所述待检测音频的音准匹配参数。

根据本申请实施例的一个方面，提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如前所述的音频匹配检测方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被电子设备的处理器执行时，使电子设备执行如前所述的音频匹配检测方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机指令被处理器执行时实现如前所述的音频匹配检测方法。

在本申请的实施例所提供的技术方案中，在获取标准音频对应第一音符序列以及待监测音频对应的第二音符序列后，从第一音符序列中筛选出时长大于或等于第一阈值的第一音符，从第二音符序列中查找出起止时间与第一音符的起止时间相匹配的多个第二音符，从多个第二音符中筛选出音高与第一音符的音高相匹配的第一目标音符，并根据第一目标音符的时长与第一音符的时长确定待检测音频与标准音频的音准相似度，根据音准相似度确定待检测音频的音准匹配参数，也就是说，在检测待检测音频的音准匹配参数时，若对应标准音频中包含时间相对较长的第一音符，则根据第一音符的时长以及待检测音频中与第一音符的起止时间和音高均匹配的第一目标音符的时长来确定音准匹配参数，从而可以降低“颤音”对音准匹配检测的影响，提升音准匹配检测的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请涉及的一种实施环境的示意图；

图2是本申请的一示例性实施例示出的音频匹配检测方法的流程图；

图3是本申请的一示例性实施例示出的音符序列示意图；

图4是图2所示实施例中的步骤S110在一示例性实施例中的流程图；

图5是本申请的一示例性实施例示出的音频信号的示意图；

图6是本申请的一示例性实施例示出的对基频进行量化得到音符的示意图；

图7是图2所示实施例中的步骤S130在一示例性实施例中的流程图；

图8是本申请的一示例性实施例示出的确定节奏匹配参数的流程图；

图9是图8所示实施例中的步骤S220在一示例性实施例中的流程图；

图10是本申请的一示例性实施例示出的音频帧映射关系示意图；

图11是图2所示实施例中的步骤S110在一示例性实施例中的流程图；

图12是本申请的一示例性实施例示出的确定音准匹配参数的过程图；

图13是本申请的一示例性实施例示出的确定节奏匹配参数的过程图；

图14是本申请的一示例性实施例示出的音频匹配检测装置的结构示意图；

图15示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

还需要说明的是：在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

为了使用户知晓自身模仿所得的音频与标准音频是否匹配，需要对音频进行检测，目前，通常以标准音频为标准，根据待检测音频的音高偏移程度确定音准匹配参数，但是，这种方式的准确度较低。基于此，本申请的实施例提供了一种音频匹配检测方法及装置、电子设备、存储介质、程序产品，丰富了视频事件的内容，提高了视频事件生成效率。

请参阅图1，图1是本申请涉及的一种实施环境的示意图。该实施环境包括终端设备100和服务器200，终端设备100和服务器200之间通过有线或者无线网络进行通信，终端设备100可以将自身的数据上传至服务器200，也可以从服务器200获取数据。

应该理解，图1中的终端设备100和服务器200的数目仅仅是是示意性的。根据实际需要，可以具有任意数目的终端设备100和服务器200。

终端设备100可以包括但不限于智能手机、平板、笔记本电脑、计算机、智能语音交互设备、智能家电、车载终端等等。

服务器200可以是提供各种服务的服务器，其可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器，本处不对此进行限制。

在一示例性实施例中，本申请实施例提供的音频匹配检测方法可以由终端设备100执行，相应地，音频匹配检测装置可以置于终端设备100中。其中，终端设备100可以获取标准音频对应的第一音符序列以及待检测音频对应的第二音符序列，然后，从第一音符序列中筛选出时长大于或等于第一阈值的第一音符，并从第二音符序列中查找出起止时间与第一音符的起止时间相匹配的多个第二音符，进而从多个第二音符中筛选出音高与第一音符的音高相匹配的第一目标音符，并根据第一目标音符的时长与第一音符的时长确定待检测音频与标准音频的音准相似度，根据音准相似度确定待检测音频的音准匹配参数。这样，根据第一目标音符和第二目标音符的时长确定待检测音频的音准匹配参数，可以降低“颤音”对音准匹配检测的影响，提升音准匹配检测的准确性。

在另一示例性实施例中，服务器200可以具有与终端设备100相似的功能从而执行本申请实施例提供的音频匹配检测方法，相应地，音频匹配检测装置可以置于服务器200中。其中，终端设备100可以将待检测音频上传至服务器200，服务器200在接收到终端设备100上传的待检测音频后，获取待检测音频对应的标准音频，并获取标准音频对应的第一音符序列以及待检测音频对应的第二音符序列，从第一音符序列中筛选出时长大于或等于第一阈值的第一音符，从第二音符序列中查找出起止时间与第一音符的起止时间相匹配的多个第二音符，然后，从第二音符序列中查找出起止时间与第一音符的起止时间相匹配的第一目标音符，从而根据第一目标音符的时长与第一音符的时长确定待检测音频与标准音频的音准相似度，并根据音准相似度确定待检测音频的音准匹配参数。

在另一示例性实施例中，终端设备100和服务器200还可以共同执行本申请实施例提供的音频匹配检测方法。例如，可以由终端设备100获取待检测音频对应的第二音符序列并上传至服务器200，服务器200获取标准音频对应的第一音符序列，并从第一音符序列中筛选出时长大于或等于第一阈值的第一音符，从第二音符序列中查找出起止时间与第一音符的起止时间相匹配的多个第二音符，从第二音符中筛选出音高与第一音符的音高相匹配的第一目标音符，根据第一目标音符的时长与第一音符的时长确定待检测音频与标准音频的音准相似度，根据音准相似度确定待检测音频的音准匹配参数，并将音准匹配参数发送至终端设备100。

需要说明的是，除了前述所涉及的应用场景，本申请实施例还可以应用于各种应用场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等，在实际应用中，可以根据具体应用场景进行相应调整。例如，如果应用于云技术场景，音准匹配检测方法对应的步骤可以在云端进行；如果应用于智慧交通或辅助驾驶场景，终端设备100可以是车载终端、导航终端等，音频匹配检测方法可以应用于对车载终端获取到的待检测音频进行匹配检测。

需要说明的是，本申请中，涉及到待检测音频等与用户相关的数据，在本申请的方法应用于具体产品或技术中时，其均为获得用户许可或者同意，且相关的数据的提取、使用和处理均遵守当地安全标准和当地法律法规的规定。

参见图2，图2是本申请的一示例性实施例示出的一种音频匹配检测方法的流程图。该方法可以应用于图1所示的实施环境，其可以由图1所示的实施环境中的终端设备100执行，也可以由服务器200执行，或者，也可以由终端设备100和服务器200共同执行。

如图2所示，在一示例性实施例中，该音频匹配检测方法可以包括步骤S110至步骤S140，详细介绍如下：

步骤S110，获取标准音频对应的第一音符序列以及待检测音频对应的第二音符序列。

需要说明的是，待检测音频为待检测其与标准音频的匹配程度的音频，其可以是由用户上传的音频，例如，包括但不限于用户唱的一首歌、说的一段话或演奏的一段乐曲等。

标准音频是检测待检测音频的标准，其可以是与待检测音频表达的内容相同的音频，例如，标准音频和待检测音频可以是针对同一歌曲进行演唱得到的音频，针对同一乐曲进行演奏得到的音频，针对同一段话得到的音频等。根据表达的内容不同，音频匹配检测方法可以应用于不同的应用场景，例如，音频匹配检测方法可以应用于歌曲评分场景，相应地，待检测音频可以为用户演唱某一歌曲得到的音频，标准音频可以为该歌曲的原唱音频；音频匹配检测方法可以应用于演奏评分场景，相应地，待检测音频可以为用户演奏某一乐曲得到的音频，标准音频可以为专业人士演奏该乐曲得到的音频；音频匹配检测方法可以应用于配音评分场景，相应地，标准音频可以是影视作品的原音音频，待检测音频可以是用户为该影视作品进行配音得到的音频。需要说明的是，此处列举的应用场景仅仅是示例性的，根据实际需要，还可以将音频匹配检测方法应用于其他应用场景，本实施例不对音频检测方法的应用场景进行限制。

第一音符序列为对标准音频进行处理得到的音符序列，其包括多个音符，其中，每个音符对应有音高以及起止时间，应当理解的是，音高为音的高度，声的本质是机械波，音的高低由机械波的频率决定；起止时间包括起始时间和结束时间。

第二音符序列为对待检测音频进行处理得到的音符序列，其包括多个音符，每个音符对应有音高以及起止时间。

为了确定待检测音频与标准音频的匹配程度，本实施例中，可以获取待检测音频，并对待检测音频进行处理得到第二音符序列；还需要确定待检测音频对应的标准音频，并获取标准音频对应的第一音符序列。

获取第一音符序列的具体方式可以根据实际需要灵活设置。例如，在一个示例中，可以从对应存储位置中查找标准音频对应的第一音符序列，也就是说，可以预先对标准音频进行处理得到第一音符序列，并将得到的第一音符序列存储至对应存储位置，在获取待检测音频，并根据待检测音频确定标准音频后，直接从对应存储位置查找出第一音符序列，从而提升响应速度；在另一个示例中，可以在获取待检测音频，并根据待检测音频确定标准音频后，对标准音频进行处理得到第一音符序列。其中，对标准音频进行处理得到第一音符序列的方式包括但不限于将标准音频的格式转换为MIDI(Musical Instrument DigitalInterface)格式，以得到第一音符序列。

获取第二音符序列的具体方式可以根据实际需要灵活设置。其中，为了使第一音符序列和第二音符序列的比对更具有参考性，对待检测音频进行处理得第二音符序列的方式可以与对标准音频进行处理得到第一音符序列的方式相同，例如，若对标准音频进行处理得到第一音符序列的方式为将标准音频的格式转换为MIDI格式，以得到第一音符序列；则对待检测音频进行处理得到第二音符序列的方式可以为将待检测音频的格式转换为MIDI格式，以得到第二音符序列。

在一些实施方式中，为了进一步提升音准匹配参数的准确性，还可以将待检测音频与标准音频在时间上进行对齐，具体对齐方式可以根据实际需要灵活设置，例如，可以采用DTW(Dynamic Time Warping，动态时间规整)算法对待检测音频进行调整以使待检测音频与标准音频对齐。在进行对齐处理后，再获取待检测音频对应的第二音符序列。

步骤S120，从第一音符序列中筛选出时长大于或等于第一阈值的第一音符，并从第二音符序列中查找出起止时间与第一音符的起止时间相匹配的多个第二音符。

第一阈值为用于确定第一音符的时间，其具体取值可以根据实际需要灵活设置，例如，可以为1.5秒等。

由于发声的基频不稳定，若用户提供的音频中出现了颤音，则会使得在得到待检测音频对应的第二音符序列的过程中，同一音符被分为多个，例如，参见图3所示，在标准音频对应的第一音符序列31中，存在时间较长的第一音符311，在待检测音频中，由于存在“颤音”，导致在待检测音频对应的第二音符序列32中，第一音符311对应位置处存在多个时间相对较短的第二音符321。并且，若某一音符的时长(即音符的起始时间与结束时间的时差)较长，则容易出现颤音。因此，为了降低“颤音”对音准匹配参数的影响，本实施例中，从第一音符序列中筛选出时长大于等于第一阈值的第一音符，即从第一音符序列中筛选从时长较长的第一音符，然后，从第二音符序列中查找出起止时间与第一音符的起止时间相匹配的多个第二音符。

其中，第二音符的起止时间与第一音符的起止时间相匹配包括但不限于以下情况中的至少一种：

第一种，第二音符的起止时间处于第一音符的起止时间范围内的音符，即，第二音符的起始时间大于或等于第一音符的起始时间，且第二音符的结束时间小于或等于第一音符的结束时间，例如，第一音符的起止时间范围为：2分05秒至5分20秒，则第二音符的起始时间和结束时间均处于2分05秒至5分20秒这一范围；

第二种，第二音符的起始时间与第一音符的起始时间的时差小于预设第一时长阈值的音符；

第三种，第二音符的结束时间与第一音符的结束时间的时差小于预设第一时长阈值的音符。其中，预设第一时长阈值的具体取值可以根据实际需要灵活设置，例如，可以设置为0.1秒等，为了提升准确率，第一时长阈值小于第一阈值。

步骤S130，从多个第二音符中筛选出音高与第一音符的音高相匹配的第一目标音符，并根据第一目标音符的时长与第一音符的时长确定待检测音频与标准音频的音准相似度。

其中，第二音符的音高与第一音符的音高相匹配可以是第一音符的音高与第一音符的音高的差距小于或等于音高阈值，该音高阈值可以根据实际需要灵活设置，例如，可以设置为一个半音。

本实施例中，在确定第一音符以及第一音符对应的多个第二音符后，从多个第二音符中筛选出与第一音符的音高相匹配的音符，将筛选出的音符作为第一目标音符，并根据第一目标音符与第一音符的时长来确定待检测音频与标准音频的音准相似度。

步骤S140，根据音准相似度确定待检测音频的音准匹配参数。

在确定音准相似度后，本实施例中，还可以根据音准相似度确定待检测音频的音准匹配参数，其中，可以直接将待检测音频的音准相似度作为待检测音频的音准匹配参数，当然，还可以对待检测音频的音准相似度进行处理，以得到待检测音频的音准匹配参数，具体处理方式可以根据实际需要灵活设置，例如，音准匹配参数可以是百分制的(即最高分为一百分)，相应的，可以确定音准相似度的百分比，将百分比的分子作为音准匹配参数。

本实施例中，在检测待检测音频与对应标准音频的音准匹配程度时，若标准音频中包含时间相对较长的第一音符，则根据第一音符的时长以及待检测音频中与第一音符的起止时间和音高均匹配的第一目标音符的时长来确定音准匹配参数，从而可以降低“颤音”等对音准匹配检测的影响，提升音准匹配检测的准确性。

参见图4，图4为图2所示实施例中的步骤S110在一示例性实施例中的示意图。如图4所示，获取标准音频对应的第一音符序列以及待检测音频对应的第二音符序列的过程可以包括步骤S111-步骤S112，详细介绍如下：

步骤S111，若待检测音频的类型为混合音频，则对待检测音频进行音源分离，得到干声音频。

需要说明的是，干声即无音乐的纯人声。

在一些实施方式中，音频匹配检测方法可以应用于对人声音频进行检测，例如，待检测音频可以是用户唱的一首歌、说的一段话等，在录制待检测音频时，可能会将伴奏等杂音录制进去。为了避免杂音对音准匹配检测的影响，本实施例中，还可以确定待检测音频的类型是否为混合音频，若是，则对待检测音频进行音源分离，得到干声音频。

步骤S112，提取干声音频的基频，并对提取到的基频进行量化，以得到第二音符序列。

在得到干声音频后，可以提取干声音频的基频，并对提取到的基频进行量化，以得到第二音符序列。

其中，提取干声音频的基频的方式可以根据实际需要灵活设置，例如，可以采用pYIN算法从干声音频中提取基频。其中，pYIN算法为一种提取音频的基频的算法。

在一个示例中，待检测音频的干声音频可以如图5所示，从待检测音频的干声音频中提取出基频，并对提取到的基频进行量化得到第二音符序列的过程可以参见图6所示，图6中，曲线为基频，直线为量化得到的音符。

需要说明的是，在一些实施方式中，为了进一步提升音准匹配参数的准确性，还可以对标准音频进行音源分离，得到标准音频对应的干声音频，提取标准音频对应的干声音频的基频，并对提取到的基频进行量化，以得到第一音符序列。其中，该过程可以是预先处理的，也可以是在确定待检测音频之后进行的。

本实施例中，若待检测音频的类型为混合音频，则对待检测音频进行音源分离，得到干声音频，提取干声音频的基频，并对提取到的基频进行量化，以得到第二音符序列，从而可以避免伴奏等杂音对音准匹配检测的影响，提升音准匹配参数的准确性。

参见图7，图7为图2所示实施例中的步骤S130在一示例性实施例中的示意图。如图7所示，根据第一目标音符的时长与第一音符的时长确定待检测音频与标准音频的音准相似度的过程可以包括步骤S131-步骤S133，详细介绍如下：

步骤S131，从第一音符序列中确定除第一音符以外的第三音符。

本实施例中，除了需要将第一音符序列中包含的第一音符与第二音符序列中的音符进行比较外，还需要将第一音符序列中除第一音符以外的音符与第二音符序列中的音符进行比较。因此，可以先从第一音符序列中确定除第一音符以外的音符，并将确定出的音符作为第三音符。

步骤S132，从第二音符序列中确定起始时间与第三音符的起始时间相匹配、且音高与第三音符的音高相匹配的第二目标音符。

其中，起始时间相匹配可以是起始时间之间的时差小于预设第二时长阈值，音高相匹配可以是音高之间的差距小于或等于音高阈值。第二时长阈值可以根据实际需要灵活设置，例如，可以设置为0.5秒。

本实施例中，在确定第三音符后，从第二音符序列中确定起始时间与第三音符的起始时间相匹配、且音高与第三音符的音高相匹配的第二目标音符。在一个示例中，可以从第二音符序列中查找出与第三音符的起始时间的差距不超过0.5秒，且与第三音符的音高差距不超过一个半音的音符，并将查找出的音符作为第二目标音符。

为了提升准确度，在一些实施方式中，还可以从第二音符序列中确定除第一音符外的多个第四音符，并确定每个第三音符唯一对应的第四音符，其中，第三音符唯一对应的四音符可以为：多个第四音符中，与该第三音符的起始时间匹配、且起始时间差最小的第四音符；然后，确定第四音符与对应第三音符的音高是否匹配，若匹配，则将该第四音符作为第二目标音符；也就是说，对于第一音符序列中除第一音符的第三音符，第二音符序列中除第二音符外的第四音符，按照较为严格的一一对应关系进行比对，以确定第四音符是否为第二目标音符。

步骤S133，根据第一目标音符的时长、第一音符的时长、第二目标音符的时长以及第三音符的时长确定待检测音频与标准音频的音准相似度。

在确定第一目标音符、第一音符、第二目标音符、第三音符后，可以根据第一目标音符的时长、第一音符的时长、第二目标音符的时长以及第三音符的时长确定待检测音频与标准音频的音准相似度，其中，具体确定方式可以根据实际需要灵活设置。

在一种实施方式中，步骤S133可以包括：获取第一目标音符的时长与第一音符的时长的第一比值，以及第二目标音符的时长与第三音符的时长的第二比值；对第一比值以及第二比值进行加权求和，以得到待检测音频与标准音频的音准相似度。

其中，若第一目标音符、第一音符、第二目标音符以及第三音符的数量均为多个，则第一比值为多个第一目标音符的时长之和与多个第一音符的时长之和的比值；第二比值为多个第二目标音符的时长之和与多个第三音符的时长之和的比值。

第一比值和第二比值对应的权重可以根据实际需要灵活设置，例如，可以根据第一音符和第三音符所占的时长进行确定，例如，时长越长，对应的权重值越大。

在另一种实施方式中，步骤S133可以包括：将第一目标音符的时长与第二目标音符的时长的和作为第一数值，并将第一音符的时长与第三音符的时长的和作为第二数值，将第一数值与第二数值的比值作为待检测音频与标准音频的音准相似度。

本实施例中，从第一音符序列中确定除第一音符以外的第三音符，从第二音符序列中确定起始时间与第三音符的起始时间相匹配、且音高与第三音符的音高相匹配的第二目标音符，根据第一目标音符的时长、第一音符的时长、第二目标音符的时长以及第三音符的时长确定待检测音频与标准音频的音准相似度，从而可以提升音准匹配检测的准确性。

参见图8，图8为一示例性实施例示出的获取待检测音频节奏匹配参数的流程图。如图8所示，音频匹配检测方法还可以包括步骤S210-步骤S230，详细介绍如下：

步骤S210，获取标准音频对应的第一倒谱以及待检测音频对应的第二倒谱。

需要说明的是，倒谱是一种信号的傅里叶变换谱经对数运算后再进行的傅里叶反变换得到的信号谱。

本实施例中，可以获取标准音频对应的第一倒谱以及待检测音频对应的第二倒谱。其中，具体获取方式可以根据实际需要灵活设置。

在一些实施方式中，获取待检测音频对应的第二倒谱的具体过程可以包括步骤211-步骤213，详细介绍如下：

步骤211，对待检测音频进行傅里叶变换，得到频谱。

本实施例中，为了确定待检测音频的节奏匹配程度，可以对获取到的待检测音频的信号进行傅里叶变换，从而得到待检测音频的频谱。

步骤212，根据滤波信息对得到的频谱进行过滤，并对过滤后的频谱进行对数运算，得到对数谱；其中，滤波信息包括多种滤波参数，不同频率对应的滤波参数不同。

由于人的听觉系统对不同频率的音频信号的敏感程度不同，其只关注某些特定的频率分量，即人的听觉系统对频率是有选择性的。因此，为了提升节奏匹配检测的准确性，本实施例中，可以根据滤波信息对得到的频谱进行过滤，并对过滤后的频谱进行对数运算，得到对数谱。其中，滤波信息包括多种滤波参数，不同频率对应的滤波参数不同，从而使过滤后得到的频谱更接近人的听觉系统接收到的音频信号。

需要说明的是，滤波信息可以根据实际需要灵活设置。在一个示例中，由于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)考虑到了人类的听觉特征，因此，可以采用Mel对应的滤波参数对得到的频谱进行过滤，从而将线性频谱映射到基于听觉感知的Mel非线性频谱中。

步骤213，对对数谱进行傅里叶反变换，得到第二倒谱。

对得到的对数谱进行傅里叶反变换，可以得到第二倒谱。

获取标准音频对应的第一倒谱的方式可以根据实际需要灵活设置。在一个示例中，可以从对应存储位置中查找标准音频对应的第一倒谱，也就是说，可以预先对标准音频进行处理得到第一倒谱，并存储至对应存储位置，后续可以从对应存储位置直接查找标准音频对应的第一倒谱；或者，在另一个示例中，可以在获取到待检测音频后，确定标准音频，再对标准音频进行处理得到第一倒谱。其中，对标准音频进行处理得到第一倒谱的方式与对待检测音频进行处理得到第二倒谱的方式类似，例如，对标准音频进行处理得到第一倒谱的方式可以与步骤211-步骤212类似，即可以对标准音频进行傅里叶变换得到对应的频谱，在根据滤波信息对标准音频的频谱进行过滤得到标准音频的对数谱，再对标准音频的对数谱进行傅里叶反变换，得到第一倒谱。

步骤S220，根据第一倒谱与第二倒谱的相似度确定待检测音频与标准音频的节奏相似度。

在得到第一倒谱和第二倒谱后，可以根据第一倒谱与第二倒谱的相似度确定待检测音频与标准音频的节奏相似度。其中，可以直接将第一倒谱与第二倒谱的相似度作为待检测音频与标准音频的节奏相似度，或者，可以对第一倒谱与第二倒谱的相似度进行处理后，再作为待检测音频与标准音频的节奏相似度，具体处理方式可以根据实际需要灵活设置。

在一些实施方式中，为了提升节奏匹配检测的准确性，还可以先对第一倒谱和第二倒谱在时间上对齐，再根据对齐后的第一倒谱和第二倒谱的相似度确定待检测音频与标准音频的节奏相似度。其中，具体的对齐方式可以根据实际需要灵活设置，例如，可以采用DTW算法对第一倒谱和第二倒谱进行对齐。

步骤S230，根据节奏相似度确定待检测音频的节奏匹配参数。

在确定待检测音频与标准音频的节奏相似度后，根据待检测音频与标准音频的节奏相似度确定待检测音频的节奏匹配参数，其中，可以直接将待检测音频与标准音频的节奏相似度作为待检测音频的节奏匹配参数，或者，可以对将待检测音频与标准音频的节奏相似度进行处理，得到待检测音频的节奏匹配参数，具体处理方式可以根据实际需要灵活设置，例如，节奏匹配参数可以是百分制的(即最高分为一百分)，相应的，可以确定节奏相似度的百分比，将百分比的分子作为节奏匹配参数。

本实施例中，获取标准音频对应的第一倒谱以及待检测音频对应的第二倒谱，根据第一倒谱与第二倒谱的相似度确定待检测音频与标准音频的节奏相似度，根据节奏相似度确定待检测音频的节奏匹配参数，从而可以确定待检测音频的节奏匹配程度，并且，是基于待检测音频和标准音频各自对应的倒谱的相似度确定节奏匹配程度，可以降低音准的偏差对节奏匹配程度的影响，提升节奏匹配检测的准确性。

参见图9，图9是图8所示实施例中的步骤S220在一示例性实施例中的流程图，如图9所示，根据第一倒谱与第二倒谱的相似度确定待检测音频与标准音频的节奏相似度可以包括步骤S221-步骤S223，详细介绍如下：

步骤S221，获取第一倒谱包含的第一音频帧与第二倒谱包含的第二音频帧之间的多种映射关系，并计算第一倒谱和第二倒谱在不同映射关系下的差异；其中，差异包括第一音频帧与对应第二音频帧之间的差异。

需要说明的是，第一倒谱与第二倒谱的差异包括第一音频帧与对应第二音频帧之间的能量谱差异；若第一音频帧的数量和第二音频帧的数量为多个，则可以先确定各第二倒谱与对应第一倒谱的差异，再对确定出的差异进行求和或者对确定出的差异取平均值，从而得到第一倒谱与第二倒谱的差异。

在一些实施方式中，若第一倒谱和第二倒谱为基于Mel对应的滤波参数进行滤波得到的，则可以分别从第一倒谱和第二倒谱中分别提取MFCC特征，得到第一倒谱对应的第一MFCC特征序列，第二倒谱对应的第二MFCC特征序列，一个MFCC特征为一个音频帧对应的特征，一个MFCC特征包括多个特征向量；然后，根据MFCC特征之间各特征向量的差值的平方和，确定对应第一音频帧和第二音频帧的差异。

由于第一音频帧与第二音频帧之间的映射关系不同，因此，第一倒谱和第二倒谱的差异也不同。为了确定第一倒谱与第二倒谱的最小差异，本实施例中，可以获取第一音频帧与第二音频帧之间的多种映射关系，并计算第一倒谱和第二倒谱在不同映射关系下的差异。

步骤S222，从计算得到的差异中确定最小差异，并从多种映射关系中选择最小差异对应的目标映射关系。

从计算得到的差异中确定最小差异，并从多种映射关系中选择出最小差异对应的映射关系，将选择出的映射关系作为目标映射关系。

需要说明的是，对于步骤S221-步骤S222，可以采用DTW算法确定第一音频帧和第二音频帧之间的目标映射关系。

步骤S223，根据目标映射关系确定第一倒谱与第二倒谱的相似度，并将确定出的相似度作为待检测音频与标准音频的节奏相似度。

参见图10所示，图10中，横坐标为第一音频帧的帧数，纵坐标为第二音频帧的帧数，若待检测音频的节奏与标准音频的节奏完全一致，则第一音频帧与第二音频帧的映射关系为图中的对角线1001，即待检测音频中的第n帧与标准音频中的第n帧匹配，其中，n为大于等于1的整数；若第一音频帧与第二音频帧的映射关系为图10中的实线1002，则表明待检测音频的节奏与标准音频的节奏存在差异，为了确定差异程度，在确定出目标映射关系后，可以根据目标映射关系确定第一倒谱与第二倒谱的相似度，并将确定出的相似度作为待检测音频与标准音频的节奏相似度。需要说明的是，帧数表征音频帧在音频中的位置，例如，第1帧、第2帧、第3帧等。

其中，根据目标映射关系确定第一倒谱与第二倒谱的相似度的具体方式可以根据实际需要灵活设置。

例如，在一种实施方式中，在第一音频帧和第二音频帧的数量分别为多个的条件下，根据目标映射关系确定第一倒谱与第二倒谱的相似度的过程可以包括步骤310-步骤320，详细介绍如下：

步骤310，根据目标映射关系从多个第二音频帧中筛选出与对应第一音频帧的时差小于第二阈值的目标音频帧。

其中，第二阈值可以根据实际需要灵活设置，例如，可以是3等。

若目标映射关系中，第二音频帧与对应第一音频帧的时差较大，则表明待检测音频的节奏与标准音频的节奏不一致，因此，可以根据目标映射关系从多个第二音频帧中筛选出与对应第一音频帧的时差小于第二阈值的目标音频帧。

其中，第二音频帧与对应第一音频帧的时差可以是第二音频帧与对应第一音频帧的起始时间之差。

或者，第二音频帧与对应第一音频帧的时差可以是第二音频帧与对应第一音频帧的帧数之差。帧数之差可以表征音频帧之间的时差。例如，假设目标映射关系中，第二倒谱中的第1帧与第一倒谱中的第10帧对应，第二倒谱中的第2帧与第一倒谱中的第20帧对应，第二阈值为15帧，由于第二倒谱中的第1帧与第一倒谱中的第10帧的时差为9帧，第二倒谱中的第2帧与第一倒谱中的第20帧的时差为18帧，因此，第二倒谱中的第1帧为目标音频帧，第二倒谱中的第2帧非目标音频帧。

步骤320，根据目标音频帧的数量与第一音频帧的数量确定第一倒谱与第二倒谱的相似度。

若目标音频帧的数量越多，则表明第一倒谱和第二倒谱的相似度越高，因此，可以根据目标音频帧的数量与第一音频帧的数量确定第一倒谱与第二倒谱的相似度。其中，可以将目标音频帧的数量与第一音频帧的数量的比值作为第一倒谱与第二倒谱的相似度。

在另一种实施方式中，在第一音频帧和第二音频帧的数量分别为多个的条件下，根据目标映射关系确定第一倒谱与第二倒谱的相似度的过程可以包括步骤410-步骤430，详细介绍如下：

步骤410，根据目标映射关系分别获取多个第一音频帧与对应第二音频帧的时差。

其中，第二音频帧与对应第一音频帧的时差的计算方式可以参见前述记载，此处不再赘述。

步骤420，对获取到的时差进行求和，得到总时差。

在获取到多个第二音频帧各自对应的时差后，可以对获取到的时差进行求和，得到总时差。

步骤430，根据总时差确定第一倒谱与第二倒谱的相似度。

其中，总时差越小，则第一倒谱和第二倒谱越相似，因此，可以根据总时差确定第一倒谱与第二倒谱的相似度。其中，总时差与相似度可以呈反比。

本实施例中，获取第一倒谱包含的第一音频帧与第二倒谱包含的第二音频帧之间的多种映射关系，并计算第一倒谱和第二倒谱在不同映射关系下的差异；其中，差异包括第一音频帧与对应第二音频帧之间的差异；从计算得到的差异中确定最小差异，并从多种映射关系中选择最小差异对应的目标映射关系；根据目标映射关系确定第一倒谱与第二倒谱的相似度，并将确定出的相似度作为待检测音频与标准音频的节奏相似度，从而可以提升后续节奏匹配参数的准确度。

在一示例性实施例中，在图8所示的步骤S230之后，音频匹配检测方法还可以包括：对节奏匹配参数和音准匹配参数进行加权求和，得到待检测音频的综合匹配参数。其中，节奏匹配参数和音准匹配参数各自对应的权重值可以根据实际需要灵活设置。

在一示例性实施例中，参见图11所示，图11为图2所示实施例中的步骤S110在一示例性实施例中的流程图。如图11所示，获取标准音频对应的第一音符序列以及待检测音频对应的第二音符序列的过程可以包括步骤S510-步骤S530，详细介绍如下：

步骤S510，获取标准音频包含的多个第一子音频各自对应的第一音符序列；其中，多个第一子音频包括根据预设分段方式对标准音频进行分段得到的多个子音频。

需要说明的是，预设分段方式可以根据实际需要灵活设置，例如，可以按照时间段进行划分，将标准音频划分为多个时长相同的子音频；或者，若标准音频为人声音频，人声音频中通常包括用户说的一段话，则可以按照话语的停顿时间对标准音频进行划分，从而得到包含不同语句的子音频，例如，可以是一句话对应一个子音频。

本实施例中，获取标准音频包含的多个第一子音频各自对应的第一音符序列的具体方式可以根据实际需要灵活设置。例如，在一个示例中，可以从对应存储位置中获取多个第一子音频各自对应的第一音符序列；也就是说，预先根据预设分段方式对标准音频进行分段得到多个第一子音频，分别对多个第一子音频进行处理得到各自对应的第一音符序列，并进行存储，从而便于后续直接从对应存储位置中获取第一音符序列。在另一示例中，可以根据预设分段方式对标准音频进行分段得到多个第一子音频，分别对多个第一子音频进行处理，以得到多个第一子音频各自对应的第一音符序列。

步骤S520，根据预设分段方式对待检测音频进行分段，得到多个第二子音频。

本实施例中，采用与标准音频相同的分段方式对待检测音频进行分段，从而得到多个第二子音频。

步骤S530，分别对多个第二子音频进行处理，得到多个第二子音频各自对应的第二音符序列。

本实施例中，在得到多个第二子音频后，可以分别对多个第二子音频进行处理，得到多个第二子音频各自对应的第二音符序列。其中，对每个第二子音频进行处理得到对应第二音符序列的方式可以参见前述记载(例如，前述步骤S111-步骤S112)，此处不再赘述。

本实施例中，可以获取标准音频包含的多个第一子音频各自对应的第一音符序列；其中，多个第一子音频包括根据预设分段方式对标准音频进行分段得到的多个子音频；根据预设分段方式对待检测音频进行分段，得到多个第二子音频；分别对多个第二子音频进行处理，得到多个第二子音频各自对应的第二音符序列，从而便于后续对子音频进行处理，提升处理速度。

在一些实施方式中，若第一子音频的数量和第二子音频的数量分别为多个，待检测音频与标准音频的音准相似度可以包括多个音频组合分别对应的音频相似度，其中，每个音频组合包括待检测音频包含的第一子音频以及标准音频包含的第二子音频，且第一子音频的起始时间与第二子音频的起始时间相匹配。在一个示例中，每个音符组合可以包括一个第一子音频以及一个第二子音频，第二子音频为与待检测音频中与第一子音频的起始时间差最小的子音频，从而将第一子音频和第二子音频一一对应进行比较，提升准确度。

为了确定多个音频组合分别对应的音频相似度，图2所示实施例中的步骤S120中，从多个第二音符中筛选出音高与第一音符的音高相匹配的第一目标音符，并根据第一目标音符的时长与第一音符的时长确定待检测音频与标准音频的音准相似度的过程可以包括：针对每个音频组合，从该音频组合对应的多个第二音符中筛选出音高与该音频组合对应的第一音符的音高相匹配的第一目标音符，并根据该音频组合对应的第一目标音符的时长与第一音符的时长确定该音频组合中第一子音频与第二子音频的音准相似度，将得到的音准相似度作为对应音频组合的相似度。

在第一子音频的数量和第二子音频的数量分别为多个，待检测音频与标准音频的音准相似度包括多个音频组合分别对应的音频相似度的条件下，图2所示实施例中的步骤S130中，根据音准相似度确定待检测音频的音准匹配参数的过程可以包括：根据每个音频组合的音准相似度确定对应第二子音频的音准匹配参数；对确定出的音准匹配参数进行加权求和，以得到待检测音频的音准匹配参数。

其中，根据音频组合的音准相似度确定对应第二子音频的音准匹配参数的具体过程可以参见前述记载，此处不再赘述。例如，可以直接将音频组合的音准相似度作为对应第二子音频的音准匹配参数。

在一些实施方式中，在第一子音频的数量和第二子音频的数量分别为多个的情况下，前述步骤S210-步骤S230中，第一倒谱可以包括多个第一子音频分别对应的第一子倒谱，第二倒谱可以包括多个第二子音频分别对应的第二子倒谱，从而根据第一子倒谱与对应第二子倒谱的相似度确定对应第一子音频与第二子音频的节奏相似度，根据第一子音频与对应第二子音频的节奏相似度确定对应第二子音频的节奏匹配参数，再对多个第二子音频各自对应的节奏匹配参数进行加权求和，得到待检测音频的节奏匹配参数。这样，不仅可以得到待检测音频的节奏匹配参数，还可以得到每个分段音频的节奏匹配参数。

本实施例中，不仅可以确定出待检测音频的音准匹配参数，还可以确定出待检测音频包括的每个第二子音频的音准匹配参数，从而使用户了解每个分段的音准匹配程度。

以下以本申请的音频匹配检测方法应用于歌曲评分场景进行说明。其中，确定音准匹配参数的过程可以参见图12所示，包括：

获取第一干声音频以及第二干声音频。其中，待检测音频可以是用户针对某一歌曲进行演唱得到的音频，标准音频可以为该歌曲的原唱音频；可以分别对待检测音频和标准音频进行音源分离，得到标准音频对应的第一干声音频以及待检测音频对应的第二干声音频。

基频提取：可以通过pYIN算法从第一干声音频和第二干声音频中分别提取基频，得到第一干声音频对应的第一基频，第二干声音频对应的第二基频。

音频转录：可以通过Tony算法，分别对第一干声音频和第二干声音频进行量化，得到第一干声音频对应的第一音符序列以及第二干声音频对应的第二音符序列。其中，第一音符序列和第二音符序列对应的格式可以是MIDI。

音频校准：从第一音符序列中筛选出时长大于或等于第一阈值的第一音符，并从第二音符序列中查找出起止时间与第一音符的起止时间相匹配的多个第二音符，从多个第二音符中筛选出音高与第一音符的音高相匹配的音符，并获取第一目标音符的时长与第一音符的时长的第一比值。

确定音准匹配参数：从第一音符序列中确定除第一音符以外的第三音符，从第二音符序列中确定满足预设条件的第二目标音符；获取第二目标音符的时长与第三音符的时长的第二比值，对第一比值和第二比值进行加权求和得到音准匹配参数。该预设条件可以是与第三音符的音准相差不超过一个半音且起始时间相差不超过0.5s。

其中，可以根据二部图的最大匹配算法，确定第二目标音符，例如，可以从第二音符序列中确定除第一音符序列外的第四音符，将第三音符作为二部图中一个子集中的节点，第四音符作为二部图中另一个子集中的节点从而形成二部图，然后，执行最大匹配算法，在执行最大匹配算法的过程中，将两个子集中的节点进行比对，若满足音准相差不超过一个半音且起始时间相差不超过0.5s，则确定两个节点匹配。从而确定出第二目标音符。

确定节奏匹配参数的过程可以参见图13所示，包括：

提取MFCC特征序列：分别获取第一干声音频对应的第一MFCC特征序列，第二干声音频对应的第二MFCC特征序列。

进行动态时间规划调整：基于DTW算法确定第一MFCC特征序列与第二MFCC特征序列之间的差异最小时，第一MFCC特征序列中的第一音频帧与第二MFCC特征序列中第二音频帧的目标映射关系。

确定节奏匹配参数：根据目标映射关系计算每一个第一音频帧与对应第二音频帧之间的帧数之差，若帧数之差小于或等于第二阈值，则对应第二音频帧作为目标音频帧，将目标音频帧与第一音频中的数量的比值作为节奏匹配参数。

通过上述方式确定节奏匹配参数和音准匹配参数，可以提升准确度。

参见图14，图14是本申请的一示例性实施例示出的音频匹配检测装置的框图。如图14所示，该装置包括：

获取模块1401，配置为获取标准音频对应的第一音符序列以及待检测音频对应的第二音符序列；

查找模块1402，配置为从第一音符序列中筛选出时长大于或等于第一阈值的第一音符，并从第二音符序列中查找出起止时间与第一音符的起止时间相匹配的多个第二音符；

相似度确定模块1403，配置为从多个第二音符中筛选出音高与第一音符的音高相匹配的第一目标音符，并根据第一目标音符的时长与第一音符的时长确定待检测音频与标准音频的音准相似度；

匹配检测模块1404，配置为根据音准相似度确定待检测音频的音准匹配参数。

在另一示例性实施例中，该装置还包括：

倒谱获取模块，配置为获取标准音频对应的第一倒谱以及待检测音频对应的第二倒谱；

第一确定模块，配置为根据第一倒谱与第二倒谱的相似度确定待检测音频与标准音频的节奏相似度；

第二确定模块，配置为根据节奏相似度确定待检测音频的节奏匹配参数。

在另一示例性实施例中，倒谱获取模块包括：

频谱确定模块，配置为对待检测音频进行傅里叶变换，得到频谱；

对数谱确定模块，配置为根据滤波信息对得到的频谱进行过滤，并对过滤后的频谱进行对数运算，得到对数谱；其中，滤波信息包括多种滤波参数，不同频率对应的滤波参数不同；

倒谱确定模块，配置为对对数谱进行傅里叶反变换，得到第二倒谱。

在另一示例性实施例中，第一确定模块包括：

差异确定模块，配置为获取第一倒谱包含的第一音频帧与第二倒谱包含的第二音频帧之间的多种映射关系，并计算第一倒谱和第二倒谱在不同映射关系下的差异；其中，差异包括第一音频帧与对应第二音频帧之间的差异；

映射关系确定模块，配置为从计算得到的差异中确定最小差异，并从多种映射关系中选择最小差异对应的目标映射关系；

第三确定模块，配置为根据目标映射关系确定第一倒谱与第二倒谱的相似度，并将确定出的相似度作为待检测音频与标准音频的节奏相似度。

在另一示例性实施例中，在第一音频帧和第二音频帧的数量分别为多个的条件下，第三确定模块包括：

筛选模块，配置为根据目标映射关系从多个第二音频帧中筛选出与对应第一音频帧的时差小于第二阈值的目标音频帧；

第四确定模块，配置为根据目标音频帧的数量与第一音频帧的数量确定第一倒谱与第二倒谱的相似度。

时差获取模块，配置为根据目标映射关系分别获取多个第一音频帧与对应第二音频帧的时差；

总时差获取模块，配置为对获取到的时差进行求和，得到总时差；

第四确定模块，配置为根据总时差确定第一倒谱与第二倒谱的相似度。

在另一示例性实施例中，该装置还包括：

综合匹配检测模块，配置为对节奏匹配参数和音准匹配参数进行加权求和，得到待检测音频的综合匹配参数。

在另一示例性实施例中，相似度确定模块1403包括：

音符确定模块，配置为从第一音符序列中确定除第一音符以外的第三音符；

目标音符确定模块，配置为从第二音符序列中确定起始时间与第三音符的起始时间相匹配、且音高与第三音符的音高相匹配的第二目标音符；

音准相似度确定模块，配置为根据第一目标音符的时长、第一音符的时长、第二目标音符的时长以及第三音符的时长确定待检测音频与标准音频的音准相似度。

在另一示例性实施例中，音准相似度确定模块包括：

比值确定模块，配置为获取第一目标音符的时长与第一音符的时长的第一比值，以及第二目标音符的时长与第三音符的时长的第二比值；

加权求和模块，配置为对第一比值以及第二比值进行加权求和，以得到待检测音频与标准音频的音准相似度。

在另一示例性实施例中，获取模块1401包括：

分离模块，配置为若待检测音频的类型为混合音频，则对待检测音频进行音源分离，得到干声音频；

转录模块，配置为提取干声音频的基频，并对提取到的基频进行量化，以得到第二音符序列。

在另一示例性实施例中，获取模块1401包括：

子音频获取模块，配置为获取标准音频包含的多个第一子音频各自对应的第一音符序列；其中，多个第一子音频包括根据预设分段方式对标准音频进行分段得到的多个子音频；

分段模块，配置为根据预设分段方式对待检测音频进行分段，得到多个第二子音频；

音符序列确定模块，配置为分别对多个第二子音频进行处理，得到多个第二子音频各自对应的第二音符序列。

在另一示例性实施例中，在准相似度包括多个音频组合分别对应的音频相似度，每个音频组合包括待检测音频包含的第一子音频以及标准音频包含的第二子音频，第一子音频的起始时间与第二子音频的起始时间相匹配的条件下，匹配检测模块1404包括：

子音频匹配检测模块，配置为根据每个音频组合的音准相似度确定对应第二子音频的音准匹配参数；

音频匹配检测模块，配置对确定出的音准匹配参数进行加权求和，以得到待检测音频的音准匹配参数。

需要说明的是，上述实施例所提供的音频匹配检测装置与上述实施例所提供的音频匹配检测方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

本申请的实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得电子设备实现上述各个实施例中提供的音频匹配检测方法。

需要说明的是，图15示出的电子设备的计算机系统1500仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图15所示，计算机系统1500包括中央处理单元(Central Processing Unit，CPU)1501，其可以根据存储在只读存储器(Read-Only Memory，ROM)1502中的程序或者从储存部分1508加载到随机访问存储器(Random Access Memory，RAM)1503中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1503中，还存储有系统操作所需的各种程序和数据。CPU 1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(Input/Output，I/O)接口1505也连接至总线1504。

以下部件连接至I/O接口1505：包括键盘、鼠标等的输入部分1506；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1507；包括硬盘等的储存部分1508；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至I/O接口1505。可拆卸介质1511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1510上，以便于从其上读出的计算机程序根据需要被安装入储存部分1508。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1509从网络上被下载和安装，和/或从可拆卸介质1511被安装。在该计算机程序被中央处理单元(CPU)1501执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机可读指令，该计算机可读指令被电子设备的处理器执行时，使电子设备实现如前所述的方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，计算机指令被处理器执行时实现上述各个实施例中提供的方法。其中，该计算机指令可以存储在计算机可读存储介质中；电子设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述各个实施例中提供的方法。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种音频匹配检测方法，其特征在于，所述方法包括：

根据所述音准相似度确定所述待检测音频的音准匹配参数。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述标准音频对应的第一倒谱以及所述待检测音频对应的第二倒谱；

根据所述第一倒谱与所述第二倒谱的相似度确定所述待检测音频与所述标准音频的节奏相似度；

根据所述节奏相似度确定所述待检测音频的节奏匹配参数。

3.如权利要求2所述的方法，其特征在于，所述获取所述标准音频对应的第一倒谱以及所述待检测音频对应的第二倒谱，包括：

对所述待检测音频进行傅里叶变换，得到频谱；

根据滤波信息对得到的频谱进行过滤，并对过滤后的频谱进行对数运算，得到对数谱；其中，所述滤波信息包括多种滤波参数，不同频率对应的滤波参数不同；

对所述对数谱进行傅里叶反变换，得到所述第二倒谱。

4.如权利要求2所述的方法，其特征在于，所述根据所述第一倒谱与所述第二倒谱的相似度确定所述待检测音频与所述标准音频的节奏相似度，包括：

获取所述第一倒谱包含的第一音频帧与所述第二倒谱包含的第二音频帧之间的多种映射关系，并计算所述第一倒谱和所述第二倒谱在不同映射关系下的差异；其中，所述差异包括第一音频帧与对应第二音频帧之间的差异；

从计算得到的差异中确定最小差异，并从所述多种映射关系中选择所述最小差异对应的目标映射关系；

根据所述目标映射关系确定所述第一倒谱与所述第二倒谱的相似度，并将确定出的相似度作为所述待检测音频与所述标准音频的节奏相似度。

5.如权利要求4所述的方法，其特征在于，所述第一音频帧和所述第二音频帧的数量分别为多个；所述根据所述目标映射关系确定所述第一倒谱与所述第二倒谱的相似度，包括：

根据所述目标映射关系从多个第二音频帧中筛选出与对应第一音频帧的时差小于第二阈值的目标音频帧；

根据所述目标音频帧的数量与所述第一音频帧的数量确定所述第一倒谱与所述第二倒谱的相似度。

6.如权利要求4所述的方法，其特征在于，所述第一音频帧和所述第二音频帧的数量分别为多个，所述根据所述目标映射关系确定所述第一倒谱与所述第二倒谱的相似度，包括：

根据所述目标映射关系分别获取多个第一音频帧与对应第二音频帧的时差；

对获取到的时差进行求和，得到总时差；

根据所述总时差确定所述第一倒谱与所述第二倒谱的相似度。

7.如权利要求2所述的方法，其特征在于，在所述根据所述节奏相似度确定所述待检测音频的节奏匹配参数之后，所述方法还包括：

对所述节奏匹配参数和所述音准匹配参数进行加权求和，得到所述待检测音频的综合匹配参数。

8.如权利要求1所述的方法，其特征在于，所述根据所述第一目标音符的时长与所述第一音符的时长确定所述待检测音频与所述标准音频的音准相似度，包括：

从所述第一音符序列中确定除所述第一音符以外的第三音符；

从所述第二音符序列中确定起始时间与所述第三音符的起始时间相匹配、且音高与所述第三音符的音高相匹配的第二目标音符；

根据所述第一目标音符的时长、所述第一音符的时长、所述第二目标音符的时长以及所述第三音符的时长确定所述待检测音频与所述标准音频的音准相似度。

9.如权利要求8所述的方法，其特征在于，所述根据所述第一目标音符的时长、所述第一音符的时长、所述第二目标音符的时长以及所述第三音符的时长确定所述待检测音频与所述标准音频的音准相似度，包括：

获取所述第一目标音符的时长与所述第一音符的时长的第一比值，以及所述第二目标音符的时长与所述第三音符的时长的第二比值；

对所述第一比值以及所述第二比值进行加权求和，以得到所述待检测音频与所述标准音频的音准相似度。

10.如权利要求1～9任一项所述的方法，其特征在于，所述获取标准音频对应的第一音符序列以及待检测音频对应的第二音符序列，包括：

若待检测音频的类型为混合音频，则对所述待检测音频进行音源分离，得到干声音频；

提取所述干声音频的基频，并对提取到的基频进行量化，以得到所述第二音符序列。

11.如权利要求1～9任一项所述的方法，其特征在于，所述获取标准音频对应的第一音符序列以及待检测音频对应的第二音符序列，包括：

获取所述标准音频包含的多个第一子音频各自对应的第一音符序列；其中，所述多个第一子音频包括根据预设分段方式对所述标准音频进行分段得到的多个子音频；

根据所述预设分段方式对待检测音频进行分段，得到多个第二子音频；

分别对所述多个第二子音频进行处理，得到所述多个第二子音频各自对应的第二音符序列。

12.如权利要求11所述的方法，其特征在于，所述音准相似度包括多个音频组合分别对应的音频相似度，每个音频组合包括所述待检测音频包含的第一子音频以及所述标准音频包含的第二子音频，所述第一子音频的起始时间与所述第二子音频的起始时间相匹配；所述根据所述音准相似度确定所述待检测音频的音准匹配参数，包括：

根据每个音频组合的音准相似度确定对应第二子音频的音准匹配参数；

对确定出的音准匹配参数进行加权求和，以得到所述待检测音频的音准匹配参数。

13.一种音频匹配检测装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1-12中的任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-12中的任一项所述的方法。