CN108763492A

CN108763492A - 一种音频模板提取方法及装置

Info

Publication number: CN108763492A
Application number: CN201810536337.2A
Authority: CN
Inventors: 邓菁; 王黎明
Original assignee: Sichuan Yuan Jian Technology Co Ltd
Current assignee: Sichuan Yuan Jian Technology Co Ltd
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-11-06

Abstract

本发明实施例提供一种音频模板提取方法及装置。所述方法包括获取多个音频数据并提取对应的音频指纹，根据音频指纹建立音频指纹哈希表；根据音频指纹哈希表计算任意两个音频指纹的相似度，获取相似度大于预设阈值的两个音频指纹对应的匹配音频片段；对匹配音频片段建立标识符，根据标识符通过聚类准则将匹配音频片段进行聚类，根据聚类后标识符对聚类后音频数据进行切分获得音频模板。装置用于执行所述方法。本发明实施例通过根据音频数据对应的音频指纹建立音频指纹哈希表并获取对应的匹配音频片段，根据匹配音频片段进行聚类获得音频模板，能够从海量音频数据中找出重复出现的音频片段作为音频模板，为音频数据的搜索、分类、标识提供帮助。

Description

一种音频模板提取方法及装置

技术领域

本发明涉及音频处理技术领域，具体而言，涉及一种音频模板提取方法及装置。

背景技术

音频指纹技术(Audio fingerprinting technology)是指通过特定的算法将一段音频数据中独一无二的数字特征以标识符的形式提取出来，跟音频模版库中的音频指纹进行比对，以便确定出现了哪一个音频模版以及出现的位置。

在音频指纹领域，音频模版都是通过事先标注好的，从这些音频模版中提取音频指纹构建音频模版数据库。在搜索过程中，将待搜索音频数据中提取的音频指纹与音频模版库中的音频指纹进行相似度计算，从而找出待搜索音频数据中出现的音频模版。音频指纹作为音频内容自动识别技术的核心算法，已广泛应用于广告监播，音乐识别，版权内容监播，内容库去重和电视第二屏互动等领域。

但是，现有技术中用于建立音频模版的音频数据都是已经存在的，如音乐、广告音频、节目音频流等。对于一些事先没有音频模版数据的应用领域，则无法实现从海量音频数据中提取到所需的音频模板。

发明内容

有鉴于此，本发明实施例的目的在于提供一种音频模板提取方法及装置，以解决上述技术问题。

第一方面，本发明实施例提供了一种音频模板提取方法，包括：

获取多个音频数据，并提取各所述音频数据对应的音频指纹，根据各所述音频指纹建立对应的音频指纹哈希表；

根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度，获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段；

对所述匹配音频片段建立标识符，根据所述标识符通过聚类准则将所述匹配音频片段进行聚类，根据聚类后标识符对相应的聚类后音频数据进行切分，获得音频模板。

进一步地，所述获取多个音频数据，并提取各所述音频数据对应的音频指纹，根据所述音频指纹建立音频指纹哈希表，包括：

获取所述多个音频数据；

对获取到的所述音频数据按照预设帧长和预设帧移进行分帧处理；

将每一帧的音频数据从时域信号变换为频域信号，获得每一频点对应的幅度值；

将所述音频数据对应的频域空间划分为多个子空间，根据所述幅度值计算每一子空间中的幅度极值；

根据每一子空间中的所述幅度极值获得对应的所述音频数据的音频指纹，并记录所述幅度极值对应的帧序号；

根据所述音频指纹和所述帧序号建立对应的所述音频指纹哈希表。

进一步地，所述根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度，获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段，包括：

获取所述每一音频指纹对应所述音频指纹哈希表，所述音频指纹哈希表包括帧序号；

任意获取两个所述音频指纹哈希表中相同的所述音频指纹分别对应的所述帧序号，并将所述帧序号之间的差值作为时间差；

根据所述时间差建立时间差哈希表；

根据所述时间差哈希表计算对应的所述音频指纹的相似度；

获取所述相似度大于预设阈值的两个音频指纹对应的所述匹配音频片段，并记录所述匹配音频片段对应的起始帧序号、结束帧序号和匹配长度。

进一步地，所述对所述匹配音频片段建立标识符，根据所述标识符通过聚类准则将所述匹配音频片段进行聚类，包括：

获取所述匹配音频片段；

分别为每一所述匹配音频片段对应的所述音频数据分配一个标识符，所述标识符包括音频文件ID、起始帧序号、结束帧序号；

根据所述音频文件ID、所述起始帧序号和所述结束帧序号对所述匹配音频片段进行聚类，获得聚类后标识符。

进一步地，所述根据聚类后的所述匹配音频片段对应的所述类别标识对相应的所述音频数据进行切分，获得音频模板，包括：

根据所述聚类后标识符获取对应的聚类后音频数据，并对所述聚类后音频数据按照所述起始帧序号和所述结束帧序号进行切分，获得所述音频模板。

进一步地，所述根据所述音频文件ID、所述起始帧序号和所述结束帧序号对所述匹配音频片段进行聚类，获得聚类后标识符，包括：

获取待聚类的第一匹配音频片段和第二匹配音频片段，所述第一匹配音频片段包括第一标识符、第一音频文件ID、第一起始帧序号、第一结束帧序号和第一相似度，所述第二匹配音频片段包括第二标识符、第二音频文件ID、第二起始帧序号、第二结束帧序号和第二相似度；所述第一起始帧序号与所述第一结束帧序号构成的第一区间，所述第二起始帧序号与所述第二结束帧序号构成的第二区间；

若判断获知所述第一音频文件ID与所述第二音频文件ID一致，且所述第一起始帧序号与所述第二起始帧序号一致，且所述第一结束帧序号与所述第二结束帧序号一致，则将所述第一匹配音频片段对应的标识符作为所述聚类后标识符；

若判断获知所述第一区间包含所述第二起始帧序号与所述第二区间，则将所述第一匹配音频片段对应的标识符作为所述聚类后标识符；

若判断获知所述第一区间与所述第二区间部分重叠，则生成新的标识符作为所述聚类后标识符；

若判断获知所述第一区间与所述第二区间不重叠，则将所述第一匹配音频片段对应的标识符和所述第二匹配音频片段对应的标识符均作为所述聚类后标识符。

第二方面，本发明实施例提供了一种音频模板提取装置，包括：

音频指纹提取模块，用于获取多个音频数据，并提取各所述音频数据对应的音频指纹，根据各所述音频指纹建立对应的音频指纹哈希表；

音频指纹比对模块，用于根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度，获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段；

音频模板提取模块，用于对所述匹配音频片段建立标识符，根据所述标识符通过聚类准则将所述匹配音频片段进行聚类，根据聚类后标识符对相应的聚类后音频数据进行切分，获得音频模板。

进一步地，所述音频指纹提取模块具体用于：

音频数据读取单元，用于获取所述多个音频数据；

分帧单元，用于对获取到的所述音频数据按照预设帧长和预设帧移进行分帧处理；

FFT计算单元，用于将每一帧的音频数据从时域信号变换为频域信号，获得对应的频点数及每一频点对应的幅度值；

极值计算单元，用于将所述音频数据对应的频域空间划分为多个子空间，根据所述每一频点对应的幅度值计算每一子空间中的幅度极值；

音频指纹计算单元，用于根据每一子空间中的所述幅度极值获得对应的所述音频数据的音频指纹，并记录所述幅度极值对应的帧序号；

音频指纹哈希表计算单元，用于根据所述音频指纹和所述帧序号建立对应的所述音频指纹哈希表。

进一步地，所述音频指纹比对模块，具体用于：

音频指纹哈希表读取单元，用于获取所述每一音频指纹对应所述音频指纹哈希表，所述音频指纹哈希表包括帧序号；

时间差计算单元，用于任意获取两个所述音频指纹哈希表中相同的所述音频指纹分别对应的所述帧序号，并将所述帧序号之间的差值作为时间差；

时间差哈希表建立单元，用于根据所述时间差建立时间差哈希表；

相似度计算单元，根据所述时间差哈希表计算对应的所述音频指纹的相似度；

匹配音频获取单元，用于获取所述相似度大于预设阈值的两个音频指纹对应的所述匹配音频片段，并记录所述匹配音频片段对应的起始帧序号、匹配长度和所述相似度。

进一步地，所述音频模板提取模块，具体用于：

匹配音频片段获取单元，用于获取所述匹配音频片段；

音频片段标识单元，用于分别为每一所述匹配音频片段对应的所述音频数据分配一个标识符，所述标识符包括音频文件ID、起始帧序号、结束帧序号和所述相似度；

聚类单元，用于根据所述音频文件ID、所述起始帧序号、所述结束帧序号和所述相似度对所述匹配音频片段进行聚类，获得聚类后标识符。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行第一方面的方法步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，包括：

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面的方法步骤。

本发明实施例通过根据各音频数据对应的音频指纹建立音频指纹哈希表，根据音频指纹哈希表计算任意两个音频指纹的相似度，并获取对应的匹配音频片段，根据匹配音频片段进行聚类，获得音频模板，能够从海量音频数据中，找出重复出现的音频片段作为音频模板，为后期音频数据的搜索、分类、标识提供帮助。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种音频模板提取方法流程示意图；

图2为本发明实施例提供的一种音频模板提取装置结构示意图；

图3为本发明实施例提供的音频指纹提取模块结构示意图；

图4为本发明实施例提供的音频指纹比对模块结构示意图；

图5为本发明实施例提供的音频模板提取模块结构示意图；

图6为本发明实施例提供的电子设备的结构框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1为本发明实施例提供的一种音频模板提取方法流程示意图，如图1所示，该方法包括：

步骤101：获取多个音频数据，并提取各所述音频数据对应的音频指纹，根据各所述音频指纹建立对应的音频指纹哈希表。

在具体的实施过程中，装置获取海量的音频数据，应当说明的是，可以从互联网上获取音频数据，在获取到音频数据后，提取每一个音频数据中的数字特征，并根据数字特征获得对应的音频指纹，根据音频指纹建立对应的音频指纹哈希表，可以理解的是，音频数据、音频指纹和音频指纹哈希表是一一对应关系。

步骤102：根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度，获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段。

在具体的实施过程中，由于获取了多个音频数据，因此建立了相应数量的音频指纹哈希表。从大量的音频指纹哈希表中进行两两比对，即每次获取任意两个音频指纹哈希表，计算这两个音频指纹哈希表分别对应的两个音频指纹之间的相似度，在计算得到所有的两两音频指纹的相似度后，对所有的相似度进行大小排序，获取大于预设阈值的相似度对应的音频指纹，并获取这些音频指纹对应的匹配音频片段。

步骤103：对所述匹配音频片段建立标识符，根据所述标识符通过聚类准则将所述匹配音频片段进行聚类，根据聚类后标识符对相应的聚类后音频数据进行切分，获得音频模板。

在具体的实施过程中，为获得到的每一个匹配音频片段建立对应的标识符，通过标识符来标识其匹配音频片段，并根据标识符利用聚类准则将匹配音频片段进行聚类，即将匹配音频片段中属于一类的匹配音频片段归为一类，剔除冗余的数据，获得聚类后标识符，应当说明的是，一个聚类后标识符对应一个聚类后音频数据，对聚类后音频数据进行切分，获得音频模板。

在上述实施例的基础上，所述获取多个音频数据，并提取各所述音频数据对应的音频指纹，根据所述音频指纹建立音频指纹哈希表，包括：

获取所述多个音频数据；

在具体的实施过程中，装置将音频数据进行读取，音频数据格式优选为8kHz或16kHz采样率，16bit采样精度的windows waveform格式。

在具体的实施过程中，装置将获取到的音频数据按照预设帧长和预设帧移进行分帧操作，应当说明的是，可以采用的帧长为32毫秒，帧移为16毫秒，因此一秒的音频数据被切分为连续的62帧，按照音频数据的时间顺序给每一帧标记一个序号，从0开始。

在具体的实施过程中，分别将每一帧的音频数据从时域信号变换到频域信号，应当说明的是，可以使用FFT大小为256，FFT变换后得到128个频率点及每一频率点上的幅度值。

在具体的实施过程中，在将音频数据从时域信号变换为频域信号后，构成对应的频域空间，将频域空间分为N个子空间，计算每一个子空间中的幅度极值。应当说明的是，可以将频率空间分为4个子空间，即[0,31]，[32,63]，[64,95]，[96,127]，针对每个子空间，找出最大幅度值对应的频率点，共得到4个极值点对应的频率点。

在具体的实施过程中，在获取到每一频域子空间对应的幅度极值后，将幅度极值拼接为一个整型值，该所述整型值记作音频指纹，并记录帧的序号，本发明计算音频指纹的实施方法如下：一帧音频数据中的音频指纹为一个整型数值，在计算机中保存为4个字节，按照高位在前，低位在后的顺序，第一个字节表示频率点区间[0,31]上的幅度极值对应的频率点，第二个字节表示频率点区间[32,63]上的幅度极值对应的频率点，该频率点减去32记录在第二个字节里，第三个字节表示频率点区间[64,95]上的幅度极值对应的频率点，该频率点减去64记录在第三个字节里，第四个字节表示频率点区间[96,127]上的幅度极值对应的频率点，该频率点减去96记录在第四个字节里，同时记录该帧的帧序号。

在具体的实施过程中，装置将前述获得的所有音频帧的音频指纹，以音频指纹为键值建立哈希表，所述键值对应的哈希表中的数据为包含帧序号的数组，即所有具有相同音频指纹的帧序号。

本发明实施例通过提取音频数据的音频指纹，根据音频指纹建立音频指纹哈希表，用于计算两个音频指纹之间的相似度，进而获得音频模板，解决了只有音频数据，没有音频模板的应用难题。

在上述实施例的基础上，所述根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度，获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段，包括：

在具体的实施过程中，获取每一音频指纹对应的音频指纹哈希表，由于键值对应的音频指纹哈希表中的数据为包含帧序号的数组，即所有具有相同音频指纹的帧序号，因此，音频指纹哈希表中包括帧序号。

在具体的实施过程中，任意获取两个音频指纹哈希表，并计算这两个音频指纹哈希表中相同的音频指纹分别对应的帧序号之间的差值，该差值记作时间差。例如，设一个音频指纹哈希表为A，另一个音频指纹哈希表为B。遍历A中的每一个音频指纹数据，设当前音频指纹为K，在B中查找是否存在相同的音频指纹K，如果存在，则将A，B两个哈希表中K键值对应的帧序号数组中的每一个帧序号按如下公式进行求差运算，

其中，为音频指纹K得到的时间差，为哈希表A中K值对应的第j个帧序号，为哈希表B中K值对应的第k个帧序号。构建一个时间差数据结构TimeDeltaItem，该结构中包含前述计算的时间差，A中的帧序号，B中的帧序号。

根据所述时间差建立时间差哈希表；

在具体的实施过程中，将所述时间差数据结构TimeDeltaItem中的时间差作为键值建立时间差哈希表，该键值对应的数值包含哈希表A和B中的起始帧序号，最大匹配长度，时间差出现次数。本发明实施中，给定一个时间差t₁，如果在时间差哈希表中发现有同样的时间差t₂，则比较t₁和t₂中哈希表A的帧序号的大小，将t₂中A的帧序号更新为较小的帧序号值，对t₂中的哈希表B的帧序号做前述同样的操作，同时计算t₁和t₂中原先两个哈希表A的帧序号间的差值，该差值记作匹配长度，如果该长度大于t₂中的最大匹配长度，则更新t₂中最大匹配长度的数值，并对t₂中的时间差出现次数加1。

根据所述时间差哈希表计算对应的所述音频指纹的相似度；

在具体的实施过程中，根据时间差哈希表计算时间差数据t中时间差出现次数和最大匹配长度的比值，该比值记作相似度，将相似度按照从大到小的顺序排序，若所述相似度得分的数值大于预设阈值，则认为两个时间差哈希表对应的音频数据中存在相匹配的音频片段，记录该音频片段的起始帧序号，匹配长度，相似度。本发明中使用的相似度匹配阈值为0.5，音频片段记录了音频A的起始帧位置，音频B的起始帧位置，匹配的帧数，相似度得分。

在具体的实施过程中，获取相似度大于预设阈值的两个音频指纹对应的匹配音频片段，并将匹配音频片段的原始音频数据对应的音频文件ID、起始帧序号、匹配长度以及相似度得分输出到文件或数据库中。本发明中的匹配音频片段数据包括：A音频文件ID，B音频文件ID，A音频起始帧序号，B音频起始帧序号，匹配帧数，相似度得分。

本发明实施例通过音频指纹哈希表计算获得两个音频指纹的相似度，并根据相似度获得匹配音频片段，进而获得音频模板，能够从海量音频数据中，找出相似的音频片段。

在上述实施例的基础上，所述对所述匹配音频片段建立标识符，根据所述标识符通过聚类准则将所述匹配音频片段进行聚类，包括：

获取所述匹配音频片段；

分别为每一所述匹配音频片段对应的所述音频数据分配一个标识符，所述标识符包括音频文件ID、起始帧序号、结束帧序号。

在具体的实施过程中，装置给每一个获得到的匹配音频片段按照对应的原始的音频数据分配一个标识符，该标识符包含音频文件ID，起始帧序号，结束帧序号，应当说明的是，标识符中还可以包括相似度；本发明中，将一个匹配音频片段分为两个标识，一个是来源于音频A的音频片段标识，记为A001，一个是来源于音频B的音频片段标识，记为B001。A001中包括：音频A中的起始帧序号，音频A中的结束帧序号，音频A文件ID，B001中包括：音频B中的起始帧序号、音频B中的结束帧序号、音频B文件ID。

在具体的实施过程中，根据标识符利用聚类准则将匹配音频片段进行聚类，即将匹配音频片段中属于一类的匹配音频片段归为一类，剔除冗余的数据，获得聚类后标识符。

在上述实施例的基础上，所述根据聚类后的所述匹配音频片段对应的所述类别标识对相应的所述音频数据进行切分，获得音频模板，包括：

在具体的实施过程中，根据聚类后标识符获取音频文件ID对应的聚类后音频数据，按照起始帧序号和结束帧序号将音频数据截取出来，作为音频模版。

本发明所述音频模版自动提取方法，适用于从海量音频数据中，找出重复出现的音频片段作为音频模版，为后期音频数据的搜索、分类、标识提供帮助。本发明中的音频指纹提取方法，音频指纹比对算法也可以用于广告监播，音乐识别，版权内容监播，内容库去重和电视第二屏互动等领域。

在上述实施例的基础上，所述根据所述音频文件ID、所述起始帧序号和所述结束帧序号对所述匹配音频片段进行聚类，获得聚类后标识符，包括：

从所有的匹配音频片段中任意获取两个匹配音频片段，分别作为待聚类的第一匹配音频片段和第二匹配音频片段。获取待聚类的第一匹配音频片段和第二匹配音频片段，所述第一匹配音频片段包括第一标识符、第一音频文件ID、第一起始帧序号、第一结束帧序号和第一相似度，所述第二匹配音频片段包括第二标识符、第二音频文件ID、第二起始帧序号、第二结束帧序号和第二相似度；所述第一起始帧序号与所述第一结束帧序号构成的第一区间，所述第二起始帧序号与所述第二结束帧序号构成的第二区间；

应当说明的是，也可以将第二匹配音频片段对应的标识符作为聚类后标识符。

即，若其中一个标识中的起始帧和结束帧序号包含另外一个标识中的起始帧和结束帧，则将较长帧匹配长度的标识保留，另一个抛弃，保留的那个匹配音频片段对应的标识符作为聚类后标识符。

即，若第一区间与第二区间部分重叠，则生成一个新的标识，其中包含最小的帧序号和最长的帧序号，以及新的匹配长度，并将第一标识符和第二标识符丢弃，应当说明的是，帧序号包括第一起始帧序号、第一结束帧序号、第二起始帧序号和第二结束帧序号。

应当说明的是，如果第一音频文件ID与第二音频文件ID不一致，则须看第一音频文件ID与第二音频文件ID是否都与其他匹配音频片段(第三匹配音频片段)对应的第三音频文件ID有匹配关系，若存在，则看第三匹配音频的匹配部分是否存在相同、包含、重叠和不重叠的关系，处理方式与上述类似；若不存在，则保留两个音频片段标识；重复上述两个聚类准则，直至音频片段标识没有变化为止。

本发明实施例通过具体的聚类算法将待聚类的匹配音频片段进行聚类，能够获取准确的聚类结果，从而提高了音频模板提取的准确性。

图2为本发明实施例提供的一种音频模板提取装置结构示意图，如图2所示，该装置包括：音频指纹提取模块201、音频指纹比对模块202和音频模板提取模块203，其中，

音频指纹提取模块201用于获取多个音频数据，并提取各所述音频数据对应的音频指纹，根据各所述音频指纹建立对应的音频指纹哈希表；音频指纹比对模块202用于根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度，获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段；音频模板提取模块203用于对所述匹配音频片段建立标识符，根据所述标识符通过聚类准则将所述匹配音频片段进行聚类，根据聚类后标识符对相应的聚类后音频数据进行切分，获得音频模板。

在上述实施例的基础上，图3为本发明实施例提供的音频指纹提取模块结构示意图，如图3所示，所述音频指纹提取模块201具体包括：

音频数据读取单元2011用于获取所述多个音频数据；

分帧单元2012用于对获取到的所述音频数据按照预设帧长和预设帧移进行分帧处理；

FFT计算单元2013用于将每一帧的音频数据从时域信号变换为频域信号，获得对应的频点数及每一频点对应的幅度值；

极值计算单元2014用于将所述音频数据对应的频域空间划分为多个子空间，根据所述每一频点对应的幅度值计算每一子空间中的幅度极值；

音频指纹计算单元2015用于根据每一子空间中的所述幅度极值获得对应的所述音频数据的音频指纹，并记录所述幅度极值对应的帧序号；

音频指纹哈希表计算单元2016用于根据所述音频指纹和所述帧序号建立对应的所述音频指纹哈希表。

在上述实施例的基础上，图4为本发明实施例提供的音频指纹比对模块结构示意图，如图4所示，所述音频指纹比对模块202，具体包括：

音频指纹哈希表读取单元2021用于获取所述每一音频指纹对应的所述音频指纹哈希表，所述音频指纹哈希表包括帧序号；

时间差计算单元2022用于任意获取两个所述音频指纹哈希表中相同的所述音频指纹分别对应的所述帧序号，并将所述帧序号之间的差值作为时间差；

时间差哈希表建立单元2023用于根据所述时间差建立时间差哈希表；

相似度计算单元2024用于根据所述时间差哈希表计算对应的所述音频指纹的相似度；

匹配音频获取单元2025用于获取所述相似度大于预设阈值的两个音频指纹对应的所述匹配音频片段，并记录所述匹配音频片段对应的起始帧序号、匹配长度和所述相似度。

在上述实施例的基础上，图5为本发明实施例提供的音频模板提取模块结构示意图，如图5所示，所述音频模板提取模块203，具体用于：

匹配音频片段获取单元2031用于获取所述匹配音频片段；

音频片段标识单元2032用于分别为每一所述匹配音频片段对应的所述音频数据分配一个标识符，所述标识符包括音频文件ID、起始帧序号、结束帧序号和所述相似度；

聚类单元2033用于根据所述音频文件ID、所述起始帧序号、所述结束帧序号和所述相似度对所述匹配音频片段进行聚类，获得聚类后标识符。

应当说明的是，音频模板提取模块203还包括音频模板切分单元2034，用于根据所述聚类后标识符获取对应的聚类后音频数据，并对所述聚类后音频数据按照所述起始帧序号和所述结束帧序号进行切分，获得所述音频模板。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

综上所述，本发明实施例通过根据各音频数据对应的音频指纹建立音频指纹哈希表，根据音频指纹哈希表计算任意两个音频指纹的相似度，并获取对应的匹配音频片段，根据匹配音频片段进行聚类，获得音频模板，能够从海量音频数据中，找出重复出现的音频片段作为音频模板，为后期音频数据的搜索、分类、标识提供帮助。

请参照图6，图6为本发明实施例提供的电子设备的结构框图。电子设备可以包括音频模板提取装置601、存储器602、存储控制器603、处理器604、外设接口605、输入输出单元606、音频单元607、显示单元608。

所述存储器602、存储控制器603、处理器604、外设接口605、输入输出单元606、音频单元607、显示单元608各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述音频模板提取装置601包括至少一个可以软件或固件(firmware)的形式存储于所述存储器602中或固化在音频模板提取装置601的操作系统(operating system，OS)中的软件功能模块。所述处理器604用于执行存储器602中存储的可执行模块，例如音频模板提取装置601包括的软件功能模块或计算机程序。

其中，存储器602可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器602用于存储程序，所述处理器604在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器604中，或者由处理器604实现。

处理器604可以是一种集成电路芯片，具有信号的处理能力。上述的处理器604可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器604也可以是任何常规的处理器等。

所述外设接口605将各种输入/输出装置耦合至处理器604以及存储器602。在一些实施例中，外设接口605，处理器604以及存储控制器603可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

输入输出单元606用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元606可以是，但不限于，鼠标和键盘等。

音频单元607向用户提供音频接口，其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。

显示单元608在所述电子设备与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中，所述显示单元608可以是液晶显示器或触控显示器。若为触控显示器，其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作，并将该感应到的触控操作交由处理器604进行计算和处理。

所述外设接口605将各种输入/输入装置耦合至处理器604以及存储器602。在一些实施例中，外设接口605，处理器604以及存储控制器603可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

输入输出单元606用于提供给用户输入数据实现用户与处理终端的交互。所述输入输出单元606可以是，但不限于，鼠标和键盘等。

可以理解，图6所示的结构仅为示意，所述电子设备还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种音频模板提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取多个音频数据，并提取各所述音频数据对应的音频指纹，根据所述音频指纹建立音频指纹哈希表，包括：

获取所述多个音频数据；

3.根据权利要求1所述的方法，其特征在于，所述根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度，获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段，包括：

获取所述每一音频指纹对应的所述音频指纹哈希表，所述音频指纹哈希表包括帧序号；

根据所述时间差建立时间差哈希表；

根据所述时间差哈希表计算对应的所述音频指纹的相似度；

4.根据权利要求1任一项所述的方法，其特征在于，所述对所述匹配音频片段建立标识符，根据所述标识符通过聚类准则将所述匹配音频片段进行聚类，包括：

获取所述匹配音频片段；

5.根据权利要求4所述的方法，其特征在于，所述根据聚类后的所述匹配音频片段对应的所述类别标识对相应的所述音频数据进行切分，获得音频模板，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述音频文件ID、所述起始帧序号和所述结束帧序号对所述匹配音频片段进行聚类，获得聚类后标识符，包括：

7.一种音频模板提取装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述音频指纹提取模块具体包括：

音频数据读取单元，用于获取所述多个音频数据；

9.根据权利要求7所述的装置，其特征在于，所述音频指纹比对模块，具体包括：

音频指纹哈希表读取单元，用于获取所述每一音频指纹对应的所述音频指纹哈希表，所述音频指纹哈希表包括帧序号；

相似度计算单元，用于根据所述时间差哈希表计算对应的所述音频指纹的相似度；

10.根据权利要求7-9任一项所述的装置，其特征在于，所述音频模板提取模块，具体用于：

匹配音频片段获取单元，用于获取所述匹配音频片段；