CN110889010A

CN110889010A - 音频匹配方法、装置、介质和电子设备

Info

Publication number: CN110889010A
Application number: CN201811052362.XA
Authority: CN
Inventors: 刘华平; 郑渊中
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2020-03-17

Abstract

本发明提供了一种音频匹配方法。该方法，包括：根据待匹配音频的一级指纹转换得到所述待匹配音频的二级指纹；根据所述待匹配音频的二级指纹在第一音频集合的二级指纹库中进行匹配，得到第二音频集合；根据所述待匹配音频的一级指纹在所述第二音频集合的一级指纹库中进行匹配，得到目标音频。通过对待匹配音频的一级指纹进行转换得到二级指纹，而由二级指纹组成的二级指纹库的数据量远小于由一级指纹组成的一级指纹库的数据量，进一步通过待匹配音频的二级指纹在参考音频的二级指纹库中进行匹配得到满足一定匹配度的音频集合，从而剔除匹配度低的音频，达到减小参考音频范围的目的，从而显著地降提高了音频匹配效率，为用户带来了更好的体验。

Description

音频匹配方法、装置、介质和电子设备

技术领域

本发明涉及通信及计算机技术领域，更具体地，本发明涉及一种音频匹配方法、音频匹配装置、计算机可读介质和电子设备。

背景技术

本部分旨在为权利要求书中陈述的本发明提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着科学技术的发展，人们的娱乐生活越来越丰富。为了满足用户日益增长的查找目标音频(例如：音乐歌曲、影视剧中台词音频等)的需求，相关技术提供了基于音频指纹的方法音频匹配方法，用以查找用户所需的目标音频。

目前的基于音频指纹的音频匹配方法一般是，获取用户提供的待匹配音频片段(一般是用户不清楚该音频片段的出处)，获取待匹配音频片段的原始音频指纹后，直接在参考音频的原始音频指纹库中搜索，直到搜索到与上述待匹配音频片段对应的目标原始音频指纹，从而确定目标音频。

发明内容

但是，随着互联网络上音频数量的不断增加，原始音频指纹库中音频指纹越来越多，则利用待匹配音频片段的原始音频指纹直接在原始音频指纹库中搜索是搜索对象越来越多，导致采用相关技术中的方法效率越来越低。

为此，非常需要一种改进的音频匹配方法，以提高音频匹配效率。

在本上下文中，本发明的实施方式期望提供一种音频匹配方法、音频匹配装置、计算机可读介质和电子设备。

在本发明实施方式的第一方面中，提供了一种音频匹配方法，包括：

根据待匹配音频的一级指纹转换得到所述待匹配音频的二级指纹；

根据所述待匹配音频的二级指纹在第一音频集合的二级指纹库中进行匹配，得到第二音频集合；

根据所述待匹配音频的一级指纹在所述第二音频集合的一级指纹库中进行匹配，得到目标音频；其中，

所述第一音频集合由M个参考音频组成，第二音频集合由所述M个所述参考音频中的N个所述参考音频组成，M、N为正整数，M≥N。

在本发明的一些实施例中，在根据所述待匹配音频的二级指纹在第一音频集合的二级指纹库中进行匹配之前，该音频匹配方法还包括：

获取所述第一音频集合中所述M个参考音频的M个一级指纹，组成所述第一音频集合的一级指纹库；

根据所述第一音频集合的一级指纹库转换获得所述第一音频集合的二级指纹库。

在本发明的一些实施例中，在根据待匹配音频的一级指纹转换得到所述待匹配音频的二级指纹之前，该音频匹配方法还包括：

将所述待匹配音频进行预处理，确定所述待匹配音频的频谱，所述待匹配音频的频谱包括X个预设频带区间；

将所述待匹配音频的频谱中的X个预设频带区间的每一个预设频带区间分为S+1个子区间，根据所述S+1个子区间的能量变化数据获取每一个预设频带区间对应的一级指纹单元，并将X个所述一级指纹单元组成所述待匹配音频的一级指纹；

其中，所述一级指纹单元包括S位二进制数，X、S为正整数。

在本发明的一些实施例中，根据待匹配音频的一级指纹转换得到所述待匹配音频的二级指纹，包括：

提取所述一级指纹单元的在后Q位二进制数，并根据Q位二进制数确定2^Q个类；

统计多个所述一级指纹单元的在后Q位二进制数在所述2^Q个类中的分布值作为二级指纹单元，根据二级指纹单元确定待匹配音频的二级指纹；其中，1≤Q≤S。

在本发明的一些实施例中，第一音频集合的二级指纹库的每个二级指纹的二级指纹单元包括在所述2^Q个类中的分布值，

根据所述待匹配音频的二级指纹在第一音频集合的二级指纹库中进行匹配，得到第二音频集合，包括：

根据所述待匹配音频的二级指纹的二级指纹单元确定第一分布值组合；

根据所述第一音频集合的二级指纹库的二级指纹确定M个第二分布值组合；

计算所述第一指纹单元组合和M个所述第二指纹单元组合的欧几里得距离，以确定所述第二音频集合。

在本发明的一些实施例中，根据所述待匹配音频的一级指纹在所述第二音频集合的一级指纹库中进行匹配，得到目标音频，包括：

获取所述欧几里得距离小于预设阈值的第二分布值组合对应的所述第一音频集合中的参考音频，作为第二音频集合；

获取所述第二音频集合的一级指纹库；

计算所述待匹配音频的一级指纹与所述第二音频集合的一级指纹库中每个一级指纹之间的误码率，以确定目标音频。

在本发明的一些实施例中，获取所述第一音频集合中所述M个参考音频的M个一级指纹，组成所述第一音频集合的一级指纹库，包括：

将所述第一音频集合中的所述M个参考音频进行预处理，确定所述M个参考音频的M个频谱，所述M个频谱均包括Y个预设频带区间；

将每一个所述参考音频的频谱的Y个预设频带区间的每一个预设频带区间分为S+1个子区间，根据所述S+1个子区间的能量变化数据获取每一个预设频带区间对应的一级指纹单元，并将Y个所述一级指纹单元组成所述参考音频的一级指纹，从而得到所述M个一级指纹；

将所述M个一级指纹组成所述第一音频集合的一级指纹库；其中，所述一级指纹单元包括S位二进制数，Y、S为正整数。

在本发明的一些实施例中，根据所述第一音频集合的一级指纹库转换获得所述第一音频集合的二级指纹库，包括：

对于所述第一音频集合的每一个所述参考音频：提取所述一级指纹单元的在后Q位二进制数，并根据Q位二进制数确定2^Q个类；以及，统计多个所述二级指纹单元在2^Q个类中的分布值，作为所述参考音频的二级指纹；

将每个所述参考音频的二级指纹组成所述第一音频集合的二级指纹库；其中，1≤Q≤S。

在本发明实施方式的第二方面中，提供了一种音频匹配装置，包括：

第一转换模块，用于根据待匹配音频的一级指纹转换得到所述待匹配音频的二级指纹；

第一匹配模块，用于根据所述待匹配音频的二级指纹在第一音频集合的二级指纹库中进行匹配，得到第二音频集合；

第二匹配模块，用于根据所述待匹配音频的一级指纹在所述第二音频集合的一级指纹库中进行匹配，得到目标音频；其中，

在本发明实施方式的第三方面中，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述第一方面中所述的音频匹配方法。

在本发明实施方式的第四方面中，提供了一种电子设备，包括：处理器和存储器，所述存储器存储有可执行指令，所述处理器用于调用所述存储器存储的可执行指令执行如上述第一方面中所述的音频匹配方法。

根据本发明实施方式的对待匹配音频的一级指纹(原始指纹)转换得到其二级指纹，而由二级指纹组成的二级指纹库的数据量远小于由一级指纹组成的一级指纹库的数据量，进而有利于加快匹配过程。具体地，首先通过待匹配音频的二级指纹在参考音频的二级指纹库中进行匹配得到满足一定匹配度的音频集合，从而剔除匹配度低的音频，达到减小参考音频范围的目的；进一步地，可以通过待匹配音频的一级指纹在上述满足一定匹配度的音频集合的一级指纹库中进行再次匹配得到目标音频。再次匹配过程中，无需对原始参考音频库中的所有音频指纹进行匹配，从而显著地降低了音频匹配时间，提高了音频匹配效率，为用户带来了更好的体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明一些实施例的应用场景的示意框图；

图2示意性地示出了根据本发明实施例的音频匹配方法的流程示意图；

图3示意性地示出了根据本发明实施例的第一音频集合的二级指纹库的确定方法的流程示意图；

图4示意性地示出了根据本发明实施例的待匹配音频的一级指纹的确定方法的流程示意图；

图5示例性地示出了根据本发明实施例的待匹配音频的二级指纹的确定方法的流程示意图；

图6示例性地示出了根据本发明实施例的待匹配音频的第一匹配过程的流程示意图；

图7示例性地示出了根据本发明实施例的待匹配音频的第二匹配过程的流程示意图；

图8示例性地示出了根据本发明实施例的第一音频集合的一级指纹库的确定方法的流程示意图；

图9示例性地示出了根据本发明实施例的第一音频集合的二级指纹库的确定方法的流程示意图；

图10示意性地示出了根据本发明实施例的音频匹配装置的结构示意图；

图11示意性地示出了根据本发明的示例实施例的计算机可读介质的示意图；以及

图12示意性地示出了根据发明的示例实施例的电子设备的方框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备或计算机程序产品。因此，本发明可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种音频匹配方法、音频匹配装置、计算机可读介质和电子设备。

在本发明中，需要理解的是，所涉及的“第一音频集合”为参考音频库，提供待匹配音频提供匹配对象，包括互联网上可获得的任何出处为已知的音频资源。“一级指纹”为直接根据指纹提取算法(例如，Philips指纹提取算法)对音频进行提取得到的原始指纹，包含有被提取音频的所有特征。“一级指纹库”为一级指纹组成的集合。“二级指纹”根据一级指纹转换得到，二级指纹提取了一级指纹的部分特征，从而由二级指纹组成的二级指纹库的数据量远小于由一级指纹组成的一级指纹库的数据量，进而有利于加快匹配速度。“二级指纹库”为二级指纹组成的集合。一个“一级指纹单元”对应于一个音频帧，多个一级指纹单元组成对应的多个音频帧构成的音频片段的一级指纹。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，在一种技术方案中，获取待匹配音频片段的原始音频指纹后，直接在参考音频的原始音频指纹库中搜索，直到搜索到与上述待匹配音频片段对应的目标原始音频指纹来确定目标音频，这种音频匹配方法虽然可以保证较高匹配正确率，但是随着原始音频指纹库的不断增大，导致音频匹配时间较长，从而音频匹配效率有待提高。

基于上述内容，本发明的基本思想在于，通过对待匹配音频的一级指纹(原始指纹)转换得到其二级指纹，而由二级指纹组成的二级指纹库的数据量远小于由一级指纹组成的一级指纹库的数据量，进而有利于加快匹配过程。具体地，首先通过待匹配音频的二级指纹在参考音频的二级指纹库中进行匹配得到满足一定匹配度的音频集合，从而剔除匹配度低的音频，达到减小参考音频范围的目的；进一步地，可以通过待匹配音频的一级指纹在上述满足一定匹配度的音频集合的一级指纹库中进行再次匹配得到目标音频。再次匹配过程中，无需对原始参考音频库中的所有音频指纹进行匹配，从而显著地降低了音频匹配时间，在保证较高匹配正确率的同时，提高了音频匹配效率，为用户带来了更好的体验。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

需要注意的是，下述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

示例性的，本发明适用于“听歌识曲”应用场景中，首先参考图1，图1示出了根据本发明的一些实施例的示例性应用场景的示意框图。如图1所示，该音频匹配方法可以包括：根据待匹配音频的一级指纹11转换得到待匹配音频的二级指纹12；根据待匹配音频的二级指纹12在第一音频集合的二级指纹库13中进行第一匹配，得到第二音频集合；根据待匹配音频的一级指纹11在第二音频集合的一级指纹库14中进行第二匹配，最终，得到目标音频；其中，第一音频集合由M个第一音频组成，第二音频集合由所述M个所述参考音频中的N个组成，M、N均为正整数，且M小于N。

示例性方法

下面结合上述的应用场景，参考图2至图9来描述根据本发明示例性实施方式的音频匹配方法。

图2示意性地示出了根据本发明实施例的音频匹配方法的流程示意图，参考图2，该方法包括步骤S21-步骤S23。

在步骤S21中，根据待匹配音频的一级指纹转换得到所述待匹配音频的二级指纹。

在示例性的实施例中，以“听歌识曲”为例。待匹配音频可以是用户提供的待匹配音乐片段，其中，待匹配音乐片段可以是用户实时录制并上传的，还可以是用户提供的一段现成的音乐片段。通过本实施例提供的方法为用户提供该待匹配音乐片段对应的目标音乐，从而用户获取待匹配片段的具体信息，例如：曲名、演唱者等。在本实施例提供的步骤S21中，将上述待匹配音乐片段的一级指纹进行转换，已得到包含信息量较少的二级指纹。

在步骤S22中，根据所述待匹配音频的二级指纹在第一音频集合的二级指纹库中进行匹配，得到第二音频集合。

仍以上述“听歌识曲”使用场景为例进行说明。假如曲库(即第一音频集合)中包含M首不同的歌曲，即待匹配音乐存在M个匹配对象。另外，参考图3，通过步骤S31：获取所述第一音频集合中所述M个第一音频的M个一级指纹，组成所述第一音频集合的一级指纹库。即获取曲库中M首歌曲的第一指纹以得到第一指纹库。此时，若像相关技术所述直接使用待匹配音乐片段的第一指纹在上述第一指纹库中进行匹配过程的话，会造成匹配效率低下。

因此，本实施例提供的技术方案中还包括步骤S32：根据所述第一音频集合的一级指纹库转换获得所述第一音频集合的二级指纹库。即对曲库中每一首歌的第一指纹均进行步骤S21中的转化过程，曲库的第一指纹库转换获得曲库的第二指纹库。由于相较于第一指纹，第二指纹包含有较少的信息，因此有利于克服相关技术中匹配效率低的缺点，从而，本实施例提供的“听歌识曲”过程中，将待匹配音乐片段的第二指纹在上述第二指纹库中进行匹配，以筛选出匹配度较高的歌曲。同时，将匹配度较低的歌曲剔除，减小了匹配对象的个数(确定了包含有N个参考音频的第二音频集合)，缩小了匹配范围，进一步提高了匹配效率。

在步骤S23中，根据所述待匹配音频的一级指纹在所述第二音频集合的一级指纹库中进行匹配，得到目标音频。

仍以上述“听歌识曲”使用场景为例进行说明。由于第二指纹包含有较少的信息量，虽然在步骤S22中可以通过第二指纹用来减小匹配范围，但是不能保证匹配准确度，因而，在本步骤中，仍然使用第一指纹进行匹配。具体的，通过步骤S22可以确定匹配范围减小的第二音频集合，进而确定第二音频集合的第一指纹库，用于获取待匹配音乐片段的第一指纹的目标音乐。由于匹配范围被缩小，所以本实施例提供的音频匹配方法在保证匹配准确性的前提下，提高了匹配效率。

需要说明的是，上述实施例中M、N为正整数，M≥N。

图4示例性地示出了根据本发明实施例的待匹配音频的一级指纹的确定方法的流程示意图。以下结合图4介绍待匹配音频的一级指纹的确定过程。参考图4，该方法包括：

步骤S41，将所述待匹配音频进行预处理，确定所述待匹配音频的频谱，所述待匹配音频的频谱包括X个预设频带区间；

步骤S42，将所述待匹配音频的频谱中的X个预设频带区间的每一个预设频带区间分为S+1个子区间；

步骤S43，根据所述S+1个子区间的能量变化数据获取每一个预设频带区间对应的一级指纹单元，并将X个所述一级指纹单元组成所述待匹配音频的一级指纹；其中，所述一级指纹单元包括S位二进制数，X、S为正整数。

在示例性的实施例中，步骤S41中所述“预处理”可以指将待匹配音频由时域变换到频域，变换方法可以采用FFT快速傅里叶变换。例如，Philips算法将帧长定义为0.37秒，其重叠因子为31/32，因而对每一音频帧对应的11.6ms的音频片段进行FFT使其转换为频谱。从而确定待匹配音频的频谱图，其中频谱图是一个三维图，三维坐标分别表示：时间、频率和能量值。

示例性的，待匹配音频包括X帧，则待匹配音频的频谱包括X个预设频带区间；例如所述预设频带区间为300-2000Hz。则进一步地，以对数距离为间隔分割为33(即S＝32)个无重叠的子区间。根据33个子区间的能量变化数据获取一个预设频带区间对应的一级指纹单元，包括：将相邻子区间中能量的增加编码为1，将相邻子区间中能量的减少编码为0，从而产生一个32bit的一级指纹单元。重复上述确定一级指纹单元的操作，确定X个音频帧对应的X个一级指纹单元，并将X个一级指纹单元组成所述待匹配音频的一级指纹。可见，待匹配音频的一级指纹包括X个32bit的二进制数。

需要说明的是，X、S均为正整数。

图5示例性地示出了根据本发明实施例的待匹配音频的二级指纹的确定方法的流程示意图。以下结合图5介绍图2中步骤S21中根据待匹配音频的一级指纹转换得到所述待匹配音频的二级指纹的过程。参考图5，该方法包括：

步骤S211，提取所述一级指纹单元的在后Q位二进制数，并根据Q位二进制数确定2^Q个类；

步骤S212，统计多个所述一级指纹单元的在后Q位二进制数在所述2^Q个类中的分布值作为二级指纹单元，根据二级指纹单元确定待匹配音频的二级指纹；其中，1≤Q≤S。

仍以图4所述实施例为例，待匹配音频的一级指纹中每个一级指纹单元包括S位二进制数，则提取所述一级指纹单元的在后Q位二进制数记作中间指纹单元，从而，根据X个一级指纹单元可以确定X个中间指纹单元。例如，S＝32，Q＝10，则一级指纹单元为32bit的二进制数，中间指纹单元为10bit的二进制数。

进一步地，统计多个中间指纹单元在2^Q个类中的分布值作为二级指纹单元，并根据二级指纹单元确定待匹配音频的二级指纹。示例性的，首先，根据Q值为10确定1024(2^Q)个类，具体为：00000 00000，00000 00001,00000 00010，...，11111 11111。其次，采用第一跳跃滑窗法确定A组中间指纹单元。然后，分别统计每组中间指纹单元在上述1024个类的分布值。例如，某一音频帧对应的中间指纹单元为1101111000(十进制为888)，则在1024个类的第888个类1101111000中分布值加1，另一音频帧对应的中间指纹单元1110010000(十进制为912)，则在1024个类的第914个类1110010000中分布值加1，以此类推统计上述A组中间指纹单元在1024个类中分布值。其中，A为正整数。

在示例性的实施例中，对于上述X个音频帧对应的中间指纹单元，可以采用第一跳跃滑窗法确定A组中间指纹单元。例如，每间隔8帧，收集24帧对应的中间指纹单元用于作为一组中间指纹单元进行上述分布值的计算，以确定一个二级指纹单元。示例性的，采用第一跳跃滑窗法获得A组中间指纹单元，进而确定A个分布值，即确定了A个二级指纹单元。并进一步，根据A个二级指纹单元确定待匹配音频的二级指纹。

其中可以看出，每个二级指纹单元是一个在2^Q类中的统计值，即每个二级指纹单元是一个2^Q位数。

图6示例性地示出了根据本发明实施例的待匹配音频的第一匹配过程的流程示意图。以下结合图6介绍图2中步骤S22中根据所述待匹配音频的二级指纹在第一音频集合的二级指纹库中进行匹配，得到第二音频集合的过程。需要说明的是，第一音频集合的二级指纹库的每个二级指纹的二级指纹单元包括在所述2^Q个类中的分布值。

参考图6，该方法包括：

步骤S221，根据所述待匹配音频的二级指纹的二级指纹单元确定第一分布值组合；

步骤S222，根据所述第一音频集合的二级指纹库的二级指纹确定M个第二分布值组合；

步骤S223，计算所述第一指纹单元组合和M个所述第二指纹单元组合的欧几里得距离，以确定所述第二音频集合。

在示例性的实施例中，由于每个二级指纹单元是一个在2^Q类中的统计值，即每个二级指纹确定一个分布值组合。

在步骤S221中，根据所述待匹配音频的二级指纹的二级指纹单元确定第一分布值组合。示例性的，可以将待匹配音频的二级指纹的所有二级指纹单元作为第一分布值组合，还可以采用其中连续帧对应的多个二级指纹单元作为第一分布值组合。示例性的，第一分布值组合包括B个二级指纹单元。其中，B为正整数。

在步骤S222中，对于第一音频组合的二级指纹库中的每一个二级指纹(在“听歌识曲”场景中，每个二级指纹对应于一首歌曲)，采用第二跳跃滑窗法每间隔一定数目的二级指纹单元获取B个二级指纹单元作为第二分布值组合。鉴于参考音频的时长一般是待匹配音频的几倍，可知，每个第二分布值组合可能包括多组的B个二级指纹单元。

在步骤S223中，对于每个第二分布值组合，将每组的B个二级指纹单元与第一分布值组合分别计算欧几里得距离后相加得到此第二分布值组合对应的总欧几里得距离，根据该总欧几里得距离确定此第二分布值组合对应的匹配度。在“听歌识曲”场景中，由于每个二级指纹/第二分布值组合对应于一首歌曲，进而确定此首歌曲与待匹配音频的匹配度。

图7示例性地示出了根据本发明实施例的待匹配音频的第二匹配过程的流程示意图。以下结合图7介绍图2中步骤S23中根据所述待匹配音频的一级指纹在所述第二音频集合的一级指纹库中进行匹配，得到目标音频的过程。

参考图7，该方法包括：

步骤S231，获取所述欧几里得距离小于预设阈值的第二分布值组合对应的所述第一音频集合中的参考音频，作为第二音频集合；

步骤S232，获取所述第二音频集合的一级指纹库；以及

步骤S233，计算所述待匹配音频的一级指纹与所述第二音频集合的一级指纹库中每个一级指纹之间的误码率，以确定目标音频。

在示例性的实施例中，设置欧几里得距离的预设阈值为0.5。上述实施例中对于M组第二分布值组合和第一分布值组合确定了M个欧几里得距离，进一步确定其中N组第二分布值组合对应的欧几里得距离小于上述预设阈值0.5，则获取N组第二分布值组合对应的参考音频，用于作为第二音频集合。并进一步地，在第一音频组合的一级指纹库中筛选上述N个参考音频组成的第二音频组合的第一指纹，得到第二音频集合的一级指纹库。

进一步地，计算所述待匹配音频的一级指纹与所述第二音频集合的一级指纹库中每个一级指纹之间的误码率，将误码率小于预设阈值(例如为0.35)的参考因此作为目标音频，从而完成对待匹配音频的匹配过程。

图8和图9依次示例性地示出了根据本发明实施例的第一音频集合的一级指纹库的确定方法的流程示意图，和第一音频集合的二级指纹库的确定方法的流程示意图。

需要说明的是，为了保证音频匹配结果的准确性，对待匹配音频的处理方法与对参考音频的处理方法应当保持一致。

在示例性的实施例中，对获取待匹配音频的一级指纹和获取参考指纹的一级指纹的处理方法是一致的。具体地，以下结合图8介绍图3中步骤S31中获取所述第一音频集合中所述M个参考音频的M个一级指纹，组成所述第一音频集合的一级指纹库的过程。

参考图8，第一音频集合的一级指纹库的确定方法包括：

步骤S311，将所述第一音频集合中的所述M个参考音频进行预处理，确定所述M个参考音频的M个频谱，所述M个频谱均包括Y个预设频带区间；

步骤S312，将每一个所述参考音频的频谱的Y个预设频带区间的每一个预设频带区间分为S+1个子区间；

步骤S313，根据所述S+1个子区间的能量变化数据获取每一个预设频带区间对应的一级指纹单元，并将Y个所述一级指纹单元组成所述参考音频的一级指纹，从而得到所述M个一级指纹；

步骤S314，将所述M个一级指纹组成所述第一音频集合的一级指纹库；其中，所述一级指纹单元包括S位二进制数，Y、S为正整数。

在示例性的实施例中，步骤S311中所述“预处理”可以指将待匹配音频由时域变换到频域，变换方法与图4所示的对待匹配指纹进行“预处理”的方法一致。即可以采用FFT快速傅里叶变换。并例如，Philips算法将帧长定义为0.37秒，其重叠因子为31/32，因而对每一音频帧对应的11.6ms的音频片段进行FFT使其转换为频谱。从而确定M个参考音频的频谱图，同前所述，频谱图是一个三维图，三维坐标分别表示：时间、频率和能量值。

示例性的，M个参考音频中的一个参考音频包括Y帧，则此参考音频的频谱包括Y个预设频带区间；例如所述预设频带区间为300-2000Hz。则进一步地，以对数距离为间隔分割为33(即S＝32)个无重叠的子区间。根据33个子区间的能量变化数据获取一个预设频带区间对应的一级指纹单元，包括：将相邻子区间中能量的增加编码为1，将相邻子区间中能量的减少编码为0，从而产生一个32bit的一级指纹单元。重复上述确定一级指纹单元的操作，确定Y个音频帧对应的Y个一级指纹单元，并将Y个一级指纹单元组成所述参考音频的一级指纹。可见，参考音频的一级指纹包括Y个32bit的二进制数。

进一步地，重复上述步骤，获取M个参考音频的一级指纹，进而M个参考音频的一级指纹组成所述第一音频集合的一级指纹库。更进一步，第一拼组合的一级指纹库可以用于图9所示的第一音频集合的二级指纹库的确定，还可以用于获取第二音频集合的一级指纹库，以进行图7所示待匹配音频的第二匹配过程。

在示例性的实施例中，对获取待匹配音频的二级指纹和获取参考指纹的二级指纹的处理方法也应是一致的。具体地，以下结合图9介绍图3中步骤S32中根据所述第一音频集合的一级指纹库转换获得所述第一音频集合的二级指纹库的过程。

参考图9，第二音频集合的二级指纹库的确定方法包括：

步骤S321，对于所述第一音频集合的每一个所述参考音频：提取所述一级指纹单元的在后Q位二进制数，并根据Q位二进制数确定2^Q个类；以及，统计多个所述二级指纹单元在2^Q个类中的分布值，作为所述参考音频的二级指纹；

步骤S322，将每个所述参考音频的二级指纹组成所述第一音频集合的二级指纹库；其中，1≤Q≤S。

仍以图8所述实施例为例，上述任一参考音频的一级指纹中每个一级指纹单元包括S位二进制数，则提取所述一级指纹单元的在后Q位二进制数记作中间指纹单元，从而，根据Y个一级指纹单元可以确定Y个中间指纹单元。例如，S＝32，Q＝10，则一级指纹单元为32bit的二进制数，中间指纹单元为10bit的二进制数。

进一步地，统计多个中间指纹单元在2^Q个类中的分布值作为二级指纹单元，并根据二级指纹单元确定参考音频的二级指纹。示例性的，首先，根据Q值为10确定1024(2^Q)个类，具体为：00000 00000，00000 00001,00000 00010，...，11111 11111。其次，采用第一跳跃滑窗法确定A组中间指纹单元。然后，分别统计每组中间指纹单元在上述1024个类的分布值。例如，某一音频帧对应的中间指纹单元为1101111000(十进制为888)，则在1024个类的第888个类1101111000中分布值加1，另一音频帧对应的中间指纹单元1110010000(十进制为912)，则在1024个类的第914个类1110010000中分布值加1，以此类推统计上述A组中间指纹单元在1024个类中分布值。

在示例性的实施例中，对于上述Y个音频帧对应的中间指纹单元，可以采用第一跳跃滑窗法确定A组中间指纹单元。例如，每间隔8帧，收集24帧对应的中间指纹单元用于作为一组中间指纹单元进行上述分布值的计算，以确定一个二级指纹单元。示例性的，采用第一跳跃滑窗法获得A组中间指纹单元，进而确定A个分布值，即确定了A个二级指纹单元。并进一步，根据A个二级指纹单元确定参考音频的二级指纹。

进一步地，重复上述步骤，获取M个参考音频的二级指纹，进而M个参考音频的二级指纹组成所述第一音频集合的二级指纹库。用于进行图6所示待匹配音频的第一匹配过程。

示例性装置

在介绍了本发明示例性实施例的方法之后，接下来，参考图10-图11对本发明示例性实施方式的音频匹配装置进行说明。

图10示意性地示出了根据本发明实施例的音频匹配装置的结构示意图。参考图10，音频匹配装置1000，包括：

第一转换模块1001，用于根据待匹配音频的一级指纹转换得到所述待匹配音频的二级指纹；

第一匹配模块1002，用于根据所述待匹配音频的二级指纹在第一音频集合的二级指纹库中进行匹配，得到第二音频集合；

第二匹配模块1003，用于根据所述待匹配音频的一级指纹在所述第二音频集合的一级指纹库中进行匹配，得到目标音频；其中，所述第一音频集合由M个参考音频组成，第二音频集合由所述M个所述参考音频中的N个所述参考音频组成，M、N为正整数，M≥N。

在示例性的实施例中，根据权利要求1所述的方法，音频匹配装置1000，还包括：获取模块1004和第二转换模块1005。

所述获取模块1004，用于在所述第一匹配模块1002根据所述待匹配音频的二级指纹在第一音频集合的二级指纹库中进行匹配之前，获取所述第一音频集合中所述M个参考音频的M个一级指纹，组成所述第一音频集合的一级指纹库；

所述第二转换模块1005，用于根据所述第一音频集合的一级指纹库转换获得所述第一音频集合的二级指纹库。

在示例性的实施例中，音频匹配装置1000，还包括：第一指纹确定模块1006。

所述第一指纹确定模块1006用于：在所述第一转换模块1001根据待匹配音频的一级指纹转换得到所述待匹配音频的二级指纹之前，将所述待匹配音频进行预处理，确定所述待匹配音频的频谱，所述待匹配音频的频谱包括X个预设频带区间；以及

将所述待匹配音频的频谱中的X个预设频带区间的每一个预设频带区间分为S+1个子区间，根据所述S+1个子区间的能量变化数据获取每一个预设频带区间对应的一级指纹单元，并将X个所述一级指纹单元组成所述待匹配音频的一级指纹；其中，所述一级指纹单元包括S位二进制数，X、S为正整数。

在示例性的实施例中，所述第一转换模块1001，包括：提取单元10011和统计单元10012。

所述提取单元10011，用于提取所述一级指纹单元的在后Q位二进制数，并根据Q位二进制数确定2^Q个类；

所述统计单元10012，用于统计多个所述一级指纹单元的在后Q位二进制数在所述2^Q个类中的分布值作为二级指纹单元，根据二级指纹单元确定待匹配音频的二级指纹；其中，1≤Q≤S。

在示例性的实施例中，第一音频集合的二级指纹库的每个二级指纹的二级指纹单元包括在所述2^Q个类中的分布值，所述第一匹配模块1002，包括：确定单元10021和计算单元10022。

所述确定单元10021，用于根据所述待匹配音频的二级指纹的二级指纹单元确定第一分布值组合；

所述确定单元10021还用于：根据所述第一音频集合的二级指纹库的二级指纹确定M个第二分布值组合；

所述计算单元10022，用于计算所述第一指纹单元组合和M个所述第二指纹单元组合的欧几里得距离，以确定所述第二音频集合。

在示例性的实施例中，所述第二匹配模块1003，包括：获取单元10031和计算单元10032。

所述获取单元10031，用于获取所述欧几里得距离小于预设阈值的第二分布值组合对应的所述第一音频集合中的参考音频，作为第二音频集合；

所述获取单元10031还用于：获取所述第二音频集合的一级指纹库；

所述计算单元10032，用于计算所述待匹配音频的一级指纹与所述第二音频集合的一级指纹库中每个一级指纹之间的误码率，以确定目标音频。

在示例性的实施例中，所述获取模块1004，包括：预处理模块10041、第一指纹获得单元10042以及第一指纹库获得单元10043。

所述预处理模块10041，用于将所述第一音频集合中的所述M个参考音频进行预处理，确定所述M个参考音频的M个频谱，所述M个频谱均包括Y个预设频带区间；

所述第一指纹获得单元10042，用于将每一个所述参考音频的频谱的Y个预设频带区间的每一个预设频带区间分为S+1个子区间，根据所述S+1个子区间的能量变化数据获取每一个预设频带区间对应的一级指纹单元，并将Y个所述一级指纹单元组成所述参考音频的一级指纹，从而得到所述M个一级指纹；以及，

所述第一指纹库获得单元10043，用于将所述M个一级指纹组成所述第一音频集合的一级指纹库；其中，所述一级指纹单元包括S位二进制数，Y、S为正整数。

在示例性的实施例中，所述第二转换模块1005，包括：二级指纹获得单元10051和二级指纹库获得单元10052。

所述二级指纹获得单元10051，用于对于所述第一音频集合的每一个所述参考音频：提取所述一级指纹单元的在后Q位二进制数，并根据Q位二进制数确定2^Q个类；以及，

所述二级指纹库获得单元10052，用于统计多个所述二级指纹单元在2^Q个类中的分布值，作为所述参考音频的二级指纹；将每个所述参考音频的二级指纹组成所述第一音频集合的二级指纹库；其中，1≤Q≤S。

示例性介质

在介绍了本发明示例性实施例的装置之后，接下来，对本发明示例性实施方式的介质进行说明。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种介质，其上存储有程序代码，当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的音频匹配方法中的步骤。

例如，所述设备的处理器执行所述程序代码时可以实现如图2中所述的步骤S201，根据待匹配音频的一级指纹转换得到所述待匹配音频的二级指纹；步骤S202，根据所述待匹配音频的二级指纹在第一音频集合的二级指纹库中进行匹配，得到第二音频集合；步骤S203，根据所述待匹配音频的一级指纹在所述第二音频集合的一级指纹库中进行匹配，得到目标音频；其中，所述第一音频集合由M个参考音频组成，第二音频集合由所述M个所述参考音频中的N个所述参考音频组成，M、N为正整数，M≥N。

参考图11所示，描述了根据本发明的实施例的用于实现上述数据处理方法的程序产品1100，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此。

在本发明的一些实施方式中，所述设备的处理器执行所述程序代码时用于实现如图2至图9任一图示的步骤。

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

示例性电子设备

在介绍了本发明示例性实施方式的音频匹配方法、音频匹配装置、计算机可读介质之后，接下来，介绍根据本发明的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明实施方式的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的音频匹配方法中的步骤。例如，所述处理器可以执行如图2中所示的步骤S201，根据待匹配音频的一级指纹转换得到所述待匹配音频的二级指纹；步骤S202，根据所述待匹配音频的二级指纹在第一音频集合的二级指纹库中进行匹配，得到第二音频集合；步骤S203，根据所述待匹配音频的一级指纹在所述第二音频集合的一级指纹库中进行匹配，得到目标音频；其中，所述第一音频集合由M个参考音频组成，第二音频集合由所述M个所述参考音频中的N个所述参考音频组成，M、N为正整数，M≥N。

又如，所述处理器也可以执行如图3至图9任一图示的步骤。

下面参照图12来描述根据本发明的示例实施例的电子设备1200。图12所示的电子设备1200仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示，电子设备1200以通用电子设备的形式表现。电子设备1200的组件可以包括但不限于：上述至少一个处理单元1201、上述至少一个存储单元1202、连接不同系统组件(包括存储单元1202和处理单元1201)的总线1203、显示单元1207。

总线1203表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元1202可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)12021和/或高速缓存存储器12022，还可以进一步包括只读存储器(ROM)12023。

存储单元1202还可以包括具有一组(至少一个)程序模块12024的程序/实用工具12025，这样的程序模块12024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备1200也可以与一个或多个外部设备1204(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与电子设备1200交互的设备通信，和/或与使得电子设备1200能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1205进行。并且，电子设备1200还可以通过网络适配器1206与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1206通过总线1203与电子设备1200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了数据处理装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施例，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

应当注意，尽管在上文详细描述中提及了音频匹配装置的若干单元或子单元，但是这种划分仅仅是示例性的，并非是强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或单元的特征和功能可以在一个模块或单元中具体化。反之，上文描述的一个模块或单元的特征和功能可以进一步划分为由多个模块或单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所发明的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种音频匹配方法，包括：

2.根据权利要求1所述的方法，在根据所述待匹配音频的二级指纹在第一音频集合的二级指纹库中进行匹配之前，还包括：

3.根据权利要求1或2所述的方法，在根据待匹配音频的一级指纹转换得到所述待匹配音频的二级指纹之前，还包括：

其中，所述一级指纹单元包括S位二进制数，X、S为正整数。

4.根据权利要求3所述的方法，根据待匹配音频的一级指纹转换得到所述待匹配音频的二级指纹，包括：

统计多个所述一级指纹单元的在后Q位二进制数在所述2^Q个类中的分布值作为二级指纹单元，根据二级指纹单元确定待匹配音频的二级指纹；

其中，1≤Q≤S。

5.根据权利要求4所述的方法，第一音频集合的二级指纹库的每个二级指纹的二级指纹单元包括在所述2^Q个类中的分布值，

6.根据权利要求5所述的方法，根据所述待匹配音频的一级指纹在所述第二音频集合的一级指纹库中进行匹配，得到目标音频，包括：

获取所述第二音频集合的一级指纹库；

7.根据权利要求2所述的方法，获取所述第一音频集合中所述M个参考音频的M个一级指纹，组成所述第一音频集合的一级指纹库，包括：

将所述M个一级指纹组成所述第一音频集合的一级指纹库；

其中，所述一级指纹单元包括S位二进制数，Y、S为正整数。

8.一种音频匹配装置，包括：

9.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1至7中任一项所述的音频匹配方法。

10.一种电子设备，包括：处理器和存储器，所述存储器存储有可执行指令，所述处理器用于调用所述存储器存储的可执行指令执行如权利要求1至7中任一项所述的音频匹配方法。