CN111522991B

CN111522991B - 一种音频指纹的提取方法和装置以及设备

Info

Publication number: CN111522991B
Application number: CN202010293880.1A
Authority: CN
Inventors: 肖龙源; 李稀敏; 刘晓葳; 谭玉坤; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2022-05-17
Anticipated expiration: 2040-04-15
Also published as: CN111522991A

Abstract

本发明公开了一种音频指纹的提取方法和装置以及设备。其中，所述方法包括：获取至少一个用户的音频数据，和将该获取的每个用户的音频数据分别生成频谱图，和根据该分别生成的频谱图，分别提炼该获取的每个用户的音频数据的音频周期性特征，和分别还原该音频周期性特征对应的音频数据的现场音频，以及分别提取该现场音频的音频指纹。通过上述方式，能够实现对获取的用户的音频数据的准确率进行提高，进而能够实现提高从该音频数据中提取的音频指纹的准确率。

Description

一种音频指纹的提取方法和装置以及设备

技术领域

本发明涉及音频指纹技术领域，尤其涉及一种音频指纹的提取方法和装置以及设备。

背景技术

音频指纹是指通过特定的算法将一段音频中独一无二的数字特征以标识符的形式提取出来，用于识别海量的声音样本或跟踪定位样本在数据库中的位置。音频指纹作为内容自动识别技术的的核心算法，已广泛应用于音乐识别，版权内容监播，内容库去重和电视第二屏互动等领域。

现有的音频指纹的提取方案，一般是通过从获取的用户的音频数据中提取音频指纹的方式来完成对音频数据的音频指纹的提取，在该音频指纹的提取过程中，该提取的音频指纹的准确率主要受到该获取的用户的音频数据准确率的影响。

但是，发明人发现现有技术中至少存在如下问题：

现有的音频指纹的提取方案，在音频指纹的提取过程中，该提取的音频指纹的准确率主要受到所获取的用户的音频数据准确率的影响，无法实现对获取的用户的音频数据的准确率进行提高，进而无法实现提高从该音频数据中提取的音频指纹的准确率。

发明内容

有鉴于此，本发明的目的在于提出一种音频指纹的提取方法和装置以及设备，能够实现对获取的用户的音频数据的准确率进行提高，进而能够实现提高从该音频数据中提取的音频指纹的准确率。

根据本发明的一个方面，提供一种音频指纹的提取方法，包括：获取至少一个用户的音频数据；将所述获取的每个用户的音频数据分别生成频谱图；根据所述分别生成的频谱图，分别提炼所述获取的每个用户的音频数据的音频周期性特征；分别还原所述音频周期性特征对应的音频数据的现场音频；分别提取所述现场音频的音频指纹。

其中，所述将所述获取的每个用户的音频数据分别生成频谱图，包括：将所述获取的每个用户的音频数据分别作自相关卷积，和对所述经作自相关卷积后的所述每个用户的音频数据分别进行对数计算，和对所述经对数计算后的所述每个用户的音频数据分别进行傅里叶变换，和根据所述经傅里叶变换后的所述每个用户的音频数据分别生成频谱图。

其中，所述根据所述分别生成的频谱图，分别提炼所述获取的每个用户的音频数据的音频周期性特征，包括：在所述分别生成的频谱图上分别配置关联所述获取的每个用户的音频数据的自功率谱分布图，和从所述分别配置的自功率谱分布图中分别提炼所述获取的每个用户的音频数据的音频周期性特征。

其中，所述分别还原所述音频周期性特征对应的音频数据的现场音频，包括：按照所述音频周期性特征的时间先后顺序，采用音频封装的方式，分别还原所述时间先后顺序对应的时间点上的音频数据的现场音频，并将所述分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式，还原所述音频周期性特征对应的音频数据的现场音频。

其中，在所述分别提取所述现场音频的音频指纹之后，还包括：对所述分别提取的音频指纹分配匹配检索索引，并根据所述检索索引，构建关联所述分别提取的音频指纹的音频指纹数据库。

根据本发明的另一个方面，提供一种音频指纹的提取装置，包括：获取模块、生成模块、提炼模块、还原模块和提取模块；所述获取模块，用于获取至少一个用户的音频数据；所述生成模块，用于将所述获取的每个用户的音频数据分别生成频谱图；所述提炼模块，用于根据所述分别生成的频谱图，分别提炼所述获取的每个用户的音频数据的音频周期性特征；所述还原模块，用于分别还原所述音频周期性特征对应的音频数据的现场音频；所述提取模块，用于分别提取所述现场音频的音频指纹。

其中，所述生成模块，具体用于：将所述获取的每个用户的音频数据分别作自相关卷积，和对所述经作自相关卷积后的所述每个用户的音频数据分别进行对数计算，和对所述经对数计算后的所述每个用户的音频数据分别进行傅里叶变换，和根据所述经傅里叶变换后的所述每个用户的音频数据分别生成频谱图。

其中，所述提炼模块，具体用于：在所述分别生成的频谱图上分别配置关联所述获取的每个用户的音频数据的自功率谱分布图，和从所述分别配置的自功率谱分布图中分别提炼所述获取的每个用户的音频数据的音频周期性特征。

其中，所述还原模块，具体用于：按照所述音频周期性特征的时间先后顺序，采用音频封装的方式，分别还原所述时间先后顺序对应的时间点上的音频数据的现场音频，并将所述分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式，还原所述音频周期性特征对应的音频数据的现场音频。

其中，所述音频指纹的提取装置，还包括：构建模块；所述构建模块，用于对所述分别提取的音频指纹分配匹配检索索引，并根据所述检索索引，构建关联所述分别提取的音频指纹的音频指纹数据库。

根据本发明的又一个方面，提供一种音频指纹的提取设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述的音频指纹的提取方法。

根据本发明的再一个方面，提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的音频指纹的提取方法。

可以发现，以上方案，可以获取至少一个用户的音频数据，和可以将该获取的每个用户的音频数据分别生成频谱图，和可以根据该分别生成的频谱图，分别提炼该获取的每个用户的音频数据的音频周期性特征，和可以分别还原该音频周期性特征对应的音频数据的现场音频，以及可以分别提取该现场音频的音频指纹，能够实现对获取的用户的音频数据的准确率进行提高，进而能够实现提高从该音频数据中提取的音频指纹的准确率。

进一步的，以上方案，可以将该获取的每个用户的音频数据分别作自相关卷积，和对该经作自相关卷积后的该每个用户的音频数据分别进行对数计算，和对该经对数计算后的该每个用户的音频数据分别进行傅里叶变换，和根据该经傅里叶变换后的该每个用户的音频数据分别生成频谱图，这样的好处是该作自相关卷积能够去掉该获取的每个用户的音频数据的随机干扰噪声，该进行的对数计算能够使该获取的每个用户的音频数据中的那些振幅较低的成分相对高振幅成分得以拉高，以便观察掩盖在低幅噪声中的音频周期信号，该进行的傅里叶变换能够使该获取的每个用户的音频数据的音频周期性信号更加突出，便于根据该分别生成的频谱图分别提炼该获取的每个用户的音频数据的音频周期性特征。

进一步的，以上方案，可以在该分别生成的频谱图上分别配置关联该获取的每个用户的音频数据的自功率谱分布图，和从该分别配置的自功率谱分布图中分别提炼该获取的每个用户的音频数据的音频周期性特征，这样的好处是由于该配置的自功率谱分布图能够使音频周期性信号更加突出，便于分别提炼该获取的每个用户的音频数据的音频周期性特征。

进一步的，以上方案，可以按照该音频周期性特征的时间先后顺序，采用音频封装的方式，分别还原该时间先后顺序对应的时间点上的音频数据的现场音频，并将该分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式，还原该音频周期性特征对应的音频数据的现场音频，这样的好处是能够实现通过还原该音频数据的现场音频的方式，对该获取的每个用户的音频数据的准确率进行提高。

进一步的，以上方案，可以对该分别提取的音频指纹分配匹配检索索引，并根据该检索索引，构建关联该分别提取的音频指纹的音频指纹数据库，这样的好处是能够实现便于通过该检索索引在该构建的音频指纹数据库中检索到对应的音频指纹。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明音频指纹的提取方法一实施例的流程示意图；

图2是本发明音频指纹的提取方法另一实施例的流程示意图；

图3是本发明音频指纹的提取装置一实施例的结构示意图；

图4是本发明音频指纹的提取装置另一实施例的结构示意图；

图5是本发明音频指纹的提取设备一实施例的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供一种音频指纹的提取方法，能够实现对获取的用户的音频数据的准确率进行提高，进而能够实现提高从该音频数据中提取的音频指纹的准确率。

请参见图1，图1是本发明存储设备的测试方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括如下步骤：

S101：获取至少一个用户的音频数据。

在本实施例中，可以一次性获取多个用户的音频数据，也可以分多次获取多个用户的音频数据，还可以逐一逐个用户的获取用户的音频数据等，本发明不加以限定。

在本实施例中，可以是获取同一用户的多个音频数据，也可以是获取同一用户的单个音频数据，还可以是获取多个用户的多个音频数据等，本发明不加以限定。

S102：将该获取的每个用户的音频数据分别生成频谱图。

其中，该将该获取的每个用户的音频数据分别生成频谱图，可以包括：

将该获取的每个用户的音频数据分别作自相关卷积，和对该经作自相关卷积后的该每个用户的音频数据分别进行对数计算，和对该经对数计算后的该每个用户的音频数据分别进行傅里叶变换，和根据该经傅里叶变换后的该每个用户的音频数据分别生成频谱图，这样的好处是该作自相关卷积能够去掉该获取的每个用户的音频数据的随机干扰噪声，该进行的对数计算能够使该获取的每个用户的音频数据中的那些振幅较低的成分相对高振幅成分得以拉高，以便观察掩盖在低幅噪声中的音频周期信号，该进行的傅里叶变换能够使该获取的每个用户的音频数据的音频周期性信号更加突出，便于根据该分别生成的频谱图分别提炼该获取的每个用户的音频数据的音频周期性特征。

S103：根据该分别生成的频谱图，分别提炼该获取的每个用户的音频数据的音频周期性特征。

其中，该根据该分别生成的频谱图，分别提炼该获取的每个用户的音频数据的音频周期性特征，可以包括：

在该分别生成的频谱图上分别配置关联该获取的每个用户的音频数据的自功率谱分布图，和从该分别配置的自功率谱分布图中分别提炼该获取的每个用户的音频数据的音频周期性特征，这样的好处是由于该配置的自功率谱分布图能够使音频周期性信号更加突出，便于分别提炼该获取的每个用户的音频数据的音频周期性特征。

S104：分别还原该音频周期性特征对应的音频数据的现场音频。

其中，该分别还原该音频周期性特征对应的音频数据的现场音频，可以包括：

按照该音频周期性特征的时间先后顺序，采用音频封装的方式，分别还原该时间先后顺序对应的时间点上的音频数据的现场音频，并将该分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式，还原该音频周期性特征对应的音频数据的现场音频，这样的好处是能够实现通过还原该音频数据的现场音频的方式，对该获取的每个用户的音频数据的准确率进行提高。

S105：分别提取该现场音频的音频指纹。

其中，在该分别提取该现场音频的音频指纹之后，还可以包括：

对该分别提取的音频指纹分配匹配检索索引，并根据该检索索引，构建关联该分别提取的音频指纹的音频指纹数据库，这样的好处是能够实现便于通过该检索索引在该构建的音频指纹数据库中检索到对应的音频指纹。

可以发现，在本实施例中，可以获取至少一个用户的音频数据，和可以将该获取的每个用户的音频数据分别生成频谱图，和可以根据该分别生成的频谱图，分别提炼该获取的每个用户的音频数据的音频周期性特征，和可以分别还原该音频周期性特征对应的音频数据的现场音频，以及可以分别提取该现场音频的音频指纹，能够实现对获取的用户的音频数据的准确率进行提高，进而能够实现提高从该音频数据中提取的音频指纹的准确率。

进一步的，在本实施例中，可以将该获取的每个用户的音频数据分别作自相关卷积，和对该经作自相关卷积后的该每个用户的音频数据分别进行对数计算，和对该经对数计算后的该每个用户的音频数据分别进行傅里叶变换，和根据该经傅里叶变换后的该每个用户的音频数据分别生成频谱图，这样的好处是该作自相关卷积能够去掉该获取的每个用户的音频数据的随机干扰噪声，该进行的对数计算能够使该获取的每个用户的音频数据中的那些振幅较低的成分相对高振幅成分得以拉高，以便观察掩盖在低幅噪声中的音频周期信号，该进行的傅里叶变换能够使该获取的每个用户的音频数据的音频周期性信号更加突出，便于根据该分别生成的频谱图分别提炼该获取的每个用户的音频数据的音频周期性特征。

进一步的，在本实施例中，可以在该分别生成的频谱图上分别配置关联该获取的每个用户的音频数据的自功率谱分布图，和从该分别配置的自功率谱分布图中分别提炼该获取的每个用户的音频数据的音频周期性特征，这样的好处是由于该配置的自功率谱分布图能够使音频周期性信号更加突出，便于分别提炼该获取的每个用户的音频数据的音频周期性特征。

进一步的，在本实施例中，可以按照该音频周期性特征的时间先后顺序，采用音频封装的方式，分别还原该时间先后顺序对应的时间点上的音频数据的现场音频，并将该分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式，还原该音频周期性特征对应的音频数据的现场音频，这样的好处是能够实现通过还原该音频数据的现场音频的方式，对该获取的每个用户的音频数据的准确率进行提高。

请参见图2，图2是本发明音频指纹的提取方法另一实施例的流程示意图。本实施例中，该方法包括以下步骤：

S201：获取至少一个用户的音频数据。

可如上S101所述，在此不作赘述。

S202：将该获取的每个用户的音频数据分别生成频谱图。

可如上S102所述，在此不作赘述。

S203：根据该分别生成的频谱图，分别提炼该获取的每个用户的音频数据的音频周期性特征。

可如上S103所述，在此不作赘述。

S204：分别还原该音频周期性特征对应的音频数据的现场音频。

可如上S104所述，在此不作赘述。

S205：分别提取该现场音频的音频指纹。

可如上S105所述，在此不作赘述。

S206：对该分别提取的音频指纹分配匹配检索索引，并根据该检索索引，构建关联该分别提取的音频指纹的音频指纹数据库。

可以发现，在本实施例中，可以对该分别提取的音频指纹分配匹配检索索引，并根据该检索索引，构建关联该分别提取的音频指纹的音频指纹数据库，这样的好处是能够实现便于通过该检索索引在该构建的音频指纹数据库中检索到对应的音频指纹。

本发明还提供一种音频指纹的提取装置，能够实现对获取的用户的音频数据的准确率进行提高，进而能够实现提高从该音频数据中提取的音频指纹的准确率。

请参见图3，图3是本发明音频指纹的提取装置一实施例的结构示意图。本实施例中，该音频指纹的提取装置30包括获取模块31、生成模块32、提炼模块33、还原模块34和提取模块35。

该获取模块31，用于获取至少一个用户的音频数据。

该生成模块32，用于将该获取的每个用户的音频数据分别生成频谱图。

该提炼模块33，用于根据该分别生成的频谱图，分别提炼该获取的每个用户的音频数据的音频周期性特征。

该还原模块34，用于分别还原该音频周期性特征对应的音频数据的现场音频。

该提取模块35，用于分别提取该现场音频的音频指纹。

可选地，该生成模块32，可以具体用于：

将该获取的每个用户的音频数据分别作自相关卷积，和对该经作自相关卷积后的该每个用户的音频数据分别进行对数计算，和对该经对数计算后的该每个用户的音频数据分别进行傅里叶变换，和根据该经傅里叶变换后的该每个用户的音频数据分别生成频谱图。

可选地，该提炼模块33，可以具体用于：

在该分别生成的频谱图上分别配置关联该获取的每个用户的音频数据的自功率谱分布图，和从该分别配置的自功率谱分布图中分别提炼该获取的每个用户的音频数据的音频周期性特征。

可选地，该还原模块34，可以具体用于：

按照该音频周期性特征的时间先后顺序，采用音频封装的方式，分别还原该时间先后顺序对应的时间点上的音频数据的现场音频，并将该分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式，还原该音频周期性特征对应的音频数据的现场音频。

请参见图4，图4是本发明音频指纹的提取装置另一实施例的结构示意图。区别于上一实施例，本实施例所述音频指纹的提取装置40还包括构建模块41。

该构建模块41，用于对该分别提取的音频指纹分配匹配检索索引，并根据该检索索引，构建关联该分别提取的音频指纹的音频指纹数据库。

该音频指纹的提取装置30/40的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。

本发明又提供一种音频指纹的提取设备，如图5所示，包括：至少一个处理器51；以及，与至少一个处理器51通信连接的存储器52；其中，存储器52存储有可被至少一个处理器51执行的指令，指令被至少一个处理器51执行，以使至少一个处理器51能够执行上述的音频指纹的提取方法。

其中，存储器52和处理器51采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器51和存储器52的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器51处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器51。

处理器51负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器52可以被用于存储处理器51在执行操作时所使用的数据。

本发明再提供一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

在本发明所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的部分实施例，并非因此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音频指纹的提取方法，其特征在于，包括：

获取至少一个用户的音频数据；

将所述获取的每个用户的音频数据分别生成频谱图，将所述获取的每个用户的音频数据分别作自相关卷积，和对所述经作自相关卷积后的所述每个用户的音频数据分别进行对数计算，和对所述经对数计算后的所述每个用户的音频数据分别进行傅里叶变换，和根据所述经傅里叶变换后的所述每个用户的音频数据分别生成频谱图；

根据所述分别生成的频谱图，分别提炼所述获取的每个用户的音频数据的音频周期性特征；

分别还原所述音频周期性特征对应的音频数据的现场音频，按照所述音频周期性特征的时间先后顺序，采用音频封装的方式，分别还原所述时间先后顺序对应的时间点上的音频数据的现场音频，并将所述分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式，还原所述音频周期性特征对应的音频数据的现场音频；

分别提取所述现场音频的音频指纹。

2.如权利要求1所述的音频指纹的提取方法，其特征在于，所述根据所述分别生成的频谱图，分别提炼所述获取的每个用户的音频数据的音频周期性特征，包括：

在所述分别生成的频谱图上分别配置关联所述获取的每个用户的音频数据的自功率谱分布图，和从所述分别配置的自功率谱分布图中分别提炼所述获取的每个用户的音频数据的音频周期性特征。

3.如权利要求1所述的音频指纹的提取方法，其特征在于，在所述分别提取所述现场音频的音频指纹之后，还包括：

对所述分别提取的音频指纹分配匹配检索索引，并根据所述检索索引，构建关联所述分别提取的音频指纹的音频指纹数据库。

4.一种音频指纹的提取装置，其特征在于，包括：

获取模块、生成模块、提炼模块、还原模块和提取模块；

所述获取模块，用于获取至少一个用户的音频数据；

所述生成模块，用于将所述获取的每个用户的音频数据分别生成频谱图，将所述获取的每个用户的音频数据分别作自相关卷积，和对所述经作自相关卷积后的所述每个用户的音频数据分别进行对数计算，和对所述经对数计算后的所述每个用户的音频数据分别进行傅里叶变换，和根据所述经傅里叶变换后的所述每个用户的音频数据分别生成频谱图；

所述提炼模块，用于根据所述分别生成的频谱图，分别提炼所述获取的每个用户的音频数据的音频周期性特征；

所述还原模块，用于分别还原所述音频周期性特征对应的音频数据的现场音频，按照所述音频周期性特征的时间先后顺序，采用音频封装的方式，分别还原所述时间先后顺序对应的时间点上的音频数据的现场音频，并将所述分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式，还原所述音频周期性特征对应的音频数据的现场音频；

所述提取模块，用于分别提取所述现场音频的音频指纹。

5.如权利要求4所述的音频指纹的提取装置，其特征在于，所述提炼模块，具体用于：

6.如权利要求4所述的音频指纹的提取装置，其特征在于，所述音频指纹的提取装置，还包括：

构建模块；

所述构建模块，用于对所述分别提取的音频指纹分配匹配检索索引，并根据所述检索索引，构建关联所述分别提取的音频指纹的音频指纹数据库。