CN107577773A

CN107577773A - 一种音频匹配方法与装置、电子设备

Info

Publication number: CN107577773A
Application number: CN201710803315.3A
Authority: CN
Inventors: 李永超; 方昕; 刘俊华
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2018-01-12

Abstract

本发明公开了一种音频匹配方法及装置、电子设备，所述方法包括如下步骤：步骤一，获取待匹配音频数据；步骤二，对所述待匹配音频数据进行分割，得到多个分割后的待匹配音频片段；步骤三，提取每段待匹配音频片段的音频指纹特征，根据提取的音频指纹特征利用预先构建的音频匹配库对每段待匹配音频片段进行音频匹配，得到每段待匹配音频片段的音频匹配结果；步骤四，对各待匹配音频片段的匹配结果进行合并，得到所述待匹配音频数据的匹配结果，通过本发明可提高音频检索的效率。

Description

一种音频匹配方法与装置、电子设备

技术领域

本发明涉及语音信号处理、信息检索技术领域，尤其涉及一种音频匹配方法与装置、电子设备。

背景技术

随着信息技术和大数据产业的爆发，海量的音视频以数字的形式存储起来，基于音频内容的信息检索技术在很多场合都有了实际的应用，例如音乐原声检索、音频犯罪证据搜集、音频管控等领域；优秀的音频匹配检索技术对提高这些领域的效果和效率起着举足轻重的作用，因此也得到了学者们越来越多的研究和关注。

现有的基于音频内容的检索技术主要是针对较短的检索片段来进行的，检索耗时与检索音频的长短成线性增长关系，即时间为20秒的检索片段检索耗时一般是时间为5秒片段的4倍左右，同时由于提取的音频指纹特征密度较大，导致匹配计算和硬件存储的代价都快速增长，而这些特性直接影响了系统的检索效率和效果体验。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种音频匹配方法与装置、电子设备，以提高音频检索的效率。

为达上述目的，本发明提供的技术方案如下：

一种音频匹配方法，包括如下步骤：

步骤一，获取待匹配音频数据；

步骤二，对所述待匹配音频数据进行分割，得到多个分割后的待匹配音频片段；

步骤三，提取每段待匹配音频片段的音频指纹特征，根据提取的音频指纹特征利用预先构建的音频匹配库对每段待匹配音频片段进行音频匹配，得到每段待匹配音频片段的音频匹配结果；

步骤四，对各待匹配音频片段的匹配结果进行合并，得到所述待匹配音频数据的匹配结果。

可选地，所述音频匹配库通过如下步骤构建：

预先收集大量音频数据；

提取每段音频数据的音频指纹特征；

将每段音频数据的指纹特征进行结构化存储，构建获得所述音频匹配库。

可选地，步骤二包括：

根据所述待匹配音频数据的静音段将所述待匹配音频数据分割为多个音频片段；

依次检查每个音频片段长度是否超过预先设定阈值；

将超过预先设定阈值的音频片段按固定长度再次进行分割。

可选地，所述音频指纹特征的提取步骤包括：

确定每帧音频数据的原始候选极值点；

基于候选极值点之间的影响系数和/或基于候选极值点的密度和/或基于候选极值点之间的差分计算结果对所述原始候选极值点进行筛选，获得每帧音频数据的极值点列表；

根据每帧音频数据的极值点列表，提取每帧音频数据的指纹特征。

可选地，所述基于候选极值点之间的影响系数进行筛选的步骤包括：

依次选择当前帧音频数据的原始候选极值点作为候选中心极值点，构建以该候选中心极值点为中心的区域，获得该区域内的所有候选极值点；

分别计算所述候选中心极值点与其他候选极值点之间的影响系数；

根据影响系数以及候选极值点的频域幅度确定是否保留该候选中心极值点。

可选地，所述基于候选极值点的密度进行筛选的步骤包括：

依次选择每帧音频数据的原始候选极值点或经基于候选极值点之间的影响系数筛选后的候选极值点中的每个极值点作为当前候选极值点，计算当前候选极值点的密度；

若当前候选极值点的密度大于预先设定的阈值，则删除所述当前候选极值点，否则保留当前候选极值点。

可选地，所述基于候选极值点之间的差分计算结果进行筛选的步骤包括：

对原始候选极值点或经基于候选极值点之间的影响系数筛选后的候选极值点或经基于候选极值点的密度筛选后的候选极值点中的每个候选极值点进行差分计算，得到每个候选极值点的差分频谱值；

根据每个候选极值点的差分频谱值确定每帧音频数据的极值点列表。

可选地，所述差分计算的步骤具体为：根据当前帧前一或多帧音频数据的候选极值点及当前帧后一或多帧音频数据的候选极值点的频谱值对当前帧音频数据的候选极值点进行差分计算得到当前帧音频数据每个候选极值点差分后的差分频谱值。

可选地，所述根据每帧音频数据的极值点列表，提取每帧音频数据的指纹特征的步骤包括：

基于所述极值点列表中每个极值点构建候选区域，确定每个极值点的极值点对；

根据所述极值点列表中的每个极值点对，提取每帧音频数据的指纹特征；

将每帧音频数据的指纹特征进行合并，获得每段音频数据的音频指纹特征。

可选地，所述音频匹配库采用二级哈希表结构存储音频数据的指纹特征，所述利用预先构建的音频匹配库对每段待匹配音频片段进行音频匹配的步骤具体为：依次选择各段待匹配音频片段作为当前待匹配音频片段，利用所述音频匹配库对其进行全库和/或特定目标匹配，匹配成功后返回所述音频匹配库中音频的标识符和时间信息。

可选地，所述利用所述音频匹配库对其进行全库和/或特定目标匹配的步骤具体为：

判断当前待匹配音频片段的匹配结果，根据当前待匹配音频片段的匹配结果确定下一个待匹配音频片段进行全库匹配还是特定目标匹配。

可选地，若当前待匹配音频片段为全库匹配成功或特定目标完全匹配成功，则下一个待匹配音频片段根据返回的标识符进行特定目标匹配；

若当前待匹配音频片段为全库匹配失败特定目标匹配失败，则下一个待匹配音频片段重新进行全库匹配；

若当前待匹配音频片段为特定目标匹配，且音频片段内部匹配成功，则将没有匹配成功的部分重新进行全库匹配。

可选地，于构建所述音频匹配库时，还预先计算出所述音频匹配库中每段音频数据的音频指纹特征包含的信息量，以于音频匹配时，选择所述音频匹配库中信息量超过预先设定阈值的音频指纹特征进行匹配。

可选地，所述对各待匹配音频片段的匹配结果进行合并的步骤具体为：根据待匹配音频片段匹配得到的分片的标识符、分片时间进行合并，得到最终待匹配音频数据的匹配结果。

为达到上述目的，本发明还提供一种音频匹配装置，包括：

音频数据获取单元，用于获取待匹配音频数据；

分割单元，用于对所述待匹配音频数据进行分割，得到多个分割后的待匹配音频片段；

音频指纹特征提取及匹配单元，用于提取每段待匹配音频片段的音频指纹特征，根据提取的音频指纹特征利用预先构建的音频匹配库对每段待匹配音频片段进行音频匹配，得到每段待匹配音频片段的音频匹配结果；

匹配结果合并单元，用于对各待匹配音频片段的匹配结果进行合并，得到所述待匹配音频数据的匹配结果。

进一步地，所述音频指纹特征提取及匹配单元包括：

候选极值点确定单元，用于确定每帧音频数据的候选极值点；

候选极值点筛选单元，基于候选极值点之间的影响系数和/或基于候选极值点的密度和/或基于候选极值点之间的差分计算结果对所述候选极值点进行筛选，获得每帧音频数据的极值点列表；

指纹特征提取单元，用于根据每帧音频数据的极值点列表，提取每帧音频数据的指纹特征；

音频指纹特征匹配单元，用于依次选择待匹配音频片段作为当前待匹配音频片段，利用所述音频匹配库对其进行全库和/或特定目标匹配，匹配成功后返回所述音频匹配库中音频的标识符和时间信息。

本发明还提供一种电子设备，所述电子设备包括；

存储介质，存储有多条指令，所述指令由处理器加载，执行权利要求上述方法的步骤；以及

处理器，用于执行所述存储介质中的指令。

与现有技术相比，本发明一种音频匹配方法及装置、电子设备的有益效果在于：

本发明一种音频匹配方法及装置、电子设备通过在音频匹配时，将待匹配音频数据先进行分割得到分割后的每段音频片段，再提取每段音频片段的音频指纹特征利用预先构建的音频匹配库依次对每段音频片段进行匹配，从而可以准确高效的匹配到音频匹配库中音频数据，提高了匹配效率。

附图说明

图1为本发明一种音频匹配方法的一个实施例的步骤流程图；

图2为本发明具体实施例中步骤102的细部流程图；

图3为本发明具体实施例中音频分割示意图；

图4为本发明具体实施例中音频指纹特征提取的细部流程图；

图5为本发明具体实施例中候选中心极值点的矩形区域示意图；

图6为图5中固定极值点对的构建示意图；

图7为一种音频匹配方法的另一实施例的步骤流程图；

图8为本发明具体实施例中步骤100的细部流程图；

图9为本发明一种音频匹配装置的一个实施例的结构示意图；

图10为本发明具体实施例中音频指纹特征提取及匹配单元的细部结构图；

图11为本发明用于音频匹配方法的电子设备的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

在本发明的一个实施例中，如图1所示，本发明一种音频匹配方法，包括如下步骤：

步骤101，获取待匹配音频数据。

所述待处理音频数据可以为包含有效语音的语音数据，也可以为纯音乐音频数据，亦或是歌曲数据，所述待处理音频数据可以通过智能设备的语音采集装置例如麦克风采集获得，智能设备可以为手机、个人电脑、平板电脑等，当然所述待处理音频数据也可以是预先存储或外部设备传送的音频数据，具体本发明不作限定。

步骤102，对待匹配音频数据进行分割，得到多个分割后的待匹配音频片段。

由于初始获得的待匹配音频数据往往容量较大且时间较长，因此在匹配前需对其进行分割。在本发明具体实施例中，为进一步得到便于处理的待匹配音频片段，对待匹配音频数据采用两次分割的方法实现分割，具体地，如图2所示，步骤102进一步包括如下步骤：

步骤S11，根据待匹配音频数据的静音段将该音频数据分割为多个音频片段，将音频片段中的静音段删除，并记录每个有效音频片段在待匹配音频数据中的时间信息；

步骤S12，依次检查每个音频片段长度是否超过预先设定阈值；

步骤S13，将超过预先设定阈值的音频片段按固定长度进行分割，如固定长度为M秒，得到多个分割后的音频片段，两次分割得到的音频片段长度小于等于固定长度，如M秒，如图3为音频分割示意图，图中第一行为待匹配的音频片段，音频片段中存在拼接点，如两首歌曲拼接后的音频，第二行为删除音频数据静音段后的音频片段，第三行为根据固定长度将拼接后的音频片段再次分割后得到的音频片段，最终将待匹配音频数据最终分割成5个音频片段，其中，音频片段1,2,4的长度相同，都为固定长度如M秒，第2个音频片段存在拼接，音频片段3,5的长度小于固定长度。

可见，通过两次分割，得到的待匹配音频片段的长度都小于预设阈值，以便于后续的特征提取及匹配处理。

步骤103，提取每段待匹配音频片段的音频指纹特征，根据提取的音频指纹特征利用预先构建的音频匹配库对每段待匹配音频片段进行音频匹配，得到每段待匹配音频片段的音频匹配结果。

所述音频指纹特征包括音频数据中极值点的时域值、频域值、极值点对中极值点的时域差值和频域差值及该音频数据的唯一标识符。具体地，如图4所示，所述提取每段待匹配音频片段的音频指纹特征的步骤进一步包括：

步骤S21，确定待匹配音频片段每帧音频数据的原始候选极值点。具体地，步骤S21包括：

步骤a)将该音频数据转换到频域，得到音频数据的频谱能量幅度，具体转换方法与现有技术相同，在此不予赘述；

步b)根据每帧音频数据的频谱能量幅度，选择频谱能量幅度超过阈值的点，作为每帧音频数据的候选极值点；

步骤S22，基于候选极值点之间的影响系数和/或基于候选极值点的密度和/或基于候选极值点之间的差分计算结果对所述原始候选极值点进行筛选，获得每帧音频数据的极值点列表。也就是说，于步骤S22中，可基于候选极值点之间的影响系数、基于候选极值点的密度、基于候选极值点之间的一种或多种方式对原始候选极值点进行筛选。

作为一种示例，于步骤S22中，可基于听候选极值点之间的影响系数对每帧音频数据的候选极值点进行初次筛选，得到每帧音频数据的第一候选极值点列表作为所述待处理音频数据的极值点列表。

本发明具体实施例中，在时间维度和频率维度上使用G(i,j)用于表示第i个候选极值点和第j个候选极值点之间的影响系数，所述影响系数基于听觉掩蔽效应确定，所述听觉掩蔽效应是指人对声音感知时，频谱峰值频率点之间是相互影响，一个频率分量可能掩蔽与其相近的频率分量；

本发明利用所述影响系数对候选极值点进行初次筛选，具体地，所述初次筛选步骤如下：依次选择当前帧音频数据的原始候选极值点作为候选中心极值点，构建以该候选中心极值点为中心的区域，获得该区域内的所有候选极值点，例如首先选择当前帧音频数据的原始候选极值点的一个候选极值点作为候选中心极值点，在该候选中心极值点的语谱图上构建以该极值点为中心的矩形区域，找到矩形区域内每帧音频数据的候选极值点，所述语谱图的横轴为时间，纵轴为频率值、图中每个候选极值点的颜色深浅表示幅度，如图5所示为候选中心极值点矩形区域示意图；分别计算所述候选中心极值点与矩形区域内其它候选极值点之间的影响系数G(i,j)，如下式(1)所示：

式中，i_t和j_t分别表示第i个候选极值点和第j个候选极值点的时间取值，i_f和j_f第i个候选极值点和第j个候选极值点的频率取值，l和w分别表示中心极值点矩形区域的长度和宽度；

根据影响系数以及候选极值点的频域幅度确定是否保留该候选中心极值点，具体地，如果所述候选中心极值点的矩形区域内每个非候选中心极值点的频域幅度取值与影响系数的乘积都小于中心极值点的频域幅度取值时，则保留该候选中心极值点，如式(2)所示：

P(i)≥P(j)×G(i,j) (2)

其中，P(i)为中心极值点的频域幅度取值，P(j)表示矩形区域内其他非中心极值点的频域幅度取值。在此需说明的是，若矩形区域内无其他候选极值点，则直接保留该候选中心极值点。

如图5中的当前候选中心极值点的矩形区域中，除当前候选中心极值点外，还有8个其他候选极值点，候选中心极值点需要分别于该8个候选极值点按照式(2)进行计算，只有当全部满足式(2)的条件时，该候选中心极值点才会保留，否则需要删除。

作为一种示例，在基于候选极值点之间的影响系数对每帧音频数据的候选极值点进行筛选后，还可基于候选极值点的密度对经基于候选极值点之间的影响系数筛选后的第一候选极值点列表进行再次筛选，以过滤电流音，得到每帧音频数据的第二候选极值点列表作为所述待处理音频数据的极值点列表。

部分音频中某些频带上，存在能量和密度都很大的时间上连续的极值点，即电流音。电流音会导致音频匹配在短时间内匹配度很高，误导音频匹配结果；因此，为了防止音频数据中某些频段上存在较密集的高频谱能量点，本发明基于候选极值点的密度对第一候选极值点列表进行筛选，具体地，步骤2.2具体包括：

依次选择第一候选极值点列表中每个极值点作为当前候选极值点，以当前极值点为起点分别向前或向后移动固定时间后，统计该段时间内候选极值点总数，作为当前候选极值点的密度，所述固定时间例如5s；

若当前候选极值点的密度大于预先设定的阈值，则删除该候选极值点，否则保留当前候选极值点；

这样通过依次对第一候选极值点列表中每个极值点进行筛选，得到第二候选极值点列表。

当然，本发明也可以基于候选极值点的密度对每帧音频数据的原始候选极值点直接进行筛选，具体筛选步骤与上述相同，在此不予赘述。

作为一种示例，为了提高极值点的抗噪性和自适应性，本发明还可以对经基于候选极值点的密度筛选后的第二候选极值点列表中的极值点依次进行差分计算，以确保音频能量被整体缩放之后仍然能匹配上。

具体差分计算时，根据当前帧前面一或多帧音频数据的候选极值点及当前帧后面一或多帧音频数据的候选极值点的频谱值对当前帧音频数据的候选极值点进行差分计算得到当前帧音频数据每个候选极值点差分后的频谱取值，具体差分计算公式如式(3)所示:

ΔP(i)＝|P(i)+P(i(t+1))-P(i(t-1))-P(i(t-2))| (3)

其中，ΔP(i)表示当前帧候选极值点i差分计算后的取值，P(i(t+1))表示与候选极值点i同频段的后一帧的候选极值点的频谱值，P(i(t-1))和P(i(t-2))分别表示与候选极值点i同频段的前一帧和前两帧候选极值点的频谱值；

对第二候选极值点列表中的极值点差分计算结束后，得到候选极值点列表中每个候选极值点的差分频谱值；选择每帧音频数据差分频谱值超过预设阈值的候选极值点作为每帧音频数据的极值点，当然也可以对第二候选极值点列表中的每个候选极值点的差分频谱值进行排序，依据差分频谱值的大小选择差分频谱值排名前面的N个候选极值点作为每帧音频数据的极值点，从而得到每帧音频数据的极值点列表。

当然，本发明也可以对原始候选极值点或经基于候选极值点之间的影响系数筛选后的第一候选极值点列表进行差分计算，获得每帧音频数据的极值点列表，具体差分计算的步骤与上述相同，在此不予赘述。

步骤S23，根据每帧音频数据的极值点列表，提取每帧音频数据的指纹特征。

具体地，步骤S23进一步包括：

基于极值点列表中每个极值点构建候选区域，确定每个极值点的极值点对。具体地，依次选择极值点列表中每个极值点作为当前固定极值点；

基于该固定极值点，在固定频带和时间范围内构建候选区域，选择频谱能量较大g个极值点分别和该固定极值点组成点对，如在图5中，候选区域中含有8个候选极值点，只选择了频谱能量较大的5个点和固定极值点构建点对，如图6为图5中固定极值点对构建示意图。将上述过程应用于极值点列表中的每个极值点，可以得到每帧音频数据极值点列表中每个极值点组成的极值点对；

根据所述极值点列表中每个极值点对，提取每帧音频数据的指纹特征。具体提取时，依次选择极值点列表中每个极值点作为当前极值点，根据当前极值点及其组成的极值点对提取当前帧音频数据的指纹特征F，这里的指纹特征F包括当前极值点所在帧对应的时间信息t、当前极值点的频域频谱取值f、当前极值点分别与其极值点对中每个极值点所在帧对应的时间信息取值的差值Δt、当前极值点分别与其极值点对中每个极值点频域频谱取值的差值Δf、当前帧音频数据的唯一性标识符audioID中的部分或全部，作为一种示例，当前帧音频数据的指纹特征表示为F＝{t,f,Δt,Δf,audioID}；

最后将每段音频数据包含的每帧音频数据的音频指纹特征进行组合，得到每段音频数据的音频指纹特征。例如每帧音频数据的音频指纹特征的时间信息t进行组合。

本发明于步骤103中，于获得每段音频数据的音频指纹特征后，根据提取的音频指纹特征利用预先构建的音频匹配库对每段待匹配音频片段进行音频匹配进行全库匹配和/或特定目标匹配。在本发明具体实施例中，所述音频匹配库采用二级哈希表结构存储音频数据，由于音频匹配时，获取时间信息t和标识符audioID最重要，因此，音频匹配库采用音频数据极值点的频谱取值及极值点对的时间差值和频率差值作为第一级哈希存储结构以进行全库匹配，则哈希键值对定义为：Hash_1(key:value)＝{f,Δf,Δt}:{t:audioID}；为了进行特定目标匹配，所述音频匹配库还构建了第二级哈希存储结构记录每段音频数据所有指纹特征的存储位置，第二级哈希键值对定义为Hash_2(key:value)＝{audioID}:{list_head_pos}，其中list_head_pos代表存储标识符为audioID的音频数据指纹特征链表起始位置。以下将分别介绍利用音频匹配库进行全库匹配和特定目标匹配这两种匹配方法：

全库匹配，即利用音频匹配库的第一级哈希存储结构进行匹配，将待匹配音频片段的音频指纹特征分别与音频匹配库中所有音频片段的音频指纹特征进行匹配，统计音频指纹特征匹配成功的数量，将匹配特征数超过阈值且匹配时间不交叉的音频片段作为匹配成功的音频片段，返回该音频片段的标识符和时间信息；若没有匹配特征数超过阈值的音频片段，则匹配失败；

特定目标匹配，即利用音频匹配库的第二级哈希存储结构进行匹配，将待匹配音频片段与音频匹配库中确定标识符的音频片段进行匹配，将匹配特征数超过阈值的音频片段匹配成功的音频片段，返回该音频片段的标识符和时间信息；如果没有匹配特征数超过阈值的音频片段，则匹配失败。

因此，所述利用预先构建的音频匹配库对每段待匹配音频片段进行音频匹配的步骤依次选择待匹配音频片段作为当前待匹配音频片段，进行音频匹配，依次选择音频匹配库中的音频与当前待匹配音频片段进行全库匹配和/或特定目标匹配，匹配成功后返回音频匹配库中音频的标识符和时间信息，具体匹配步骤为：判断当前待匹配音频片段的匹配结果，根据当前待匹配音频片段的匹配结果确定下一个待匹配音频片段进行全库匹配还是特定目标匹配，具体过程如下：

若当前待匹配音频片段为全库匹配成功或特定目标完全匹配成功，则下一个待匹配音频片段根据返回的标识符进行特定目标匹配；

若当前待匹配音频片段为全库匹配失败或特定目标匹配失败，则下一个待匹配音频片段重新进行全库匹配；

也就是说，若当前待匹配音频片段全库匹配成功，则下一个待匹配音频片段根据当前待匹配音频片段匹配结果返回的标识符，直接与该标识符对应的音频数据进行特定目标匹配；若当前待匹配音频片段全库匹配失败，则继续选择下一个待匹配音频片段进行全库匹配；

若当前待匹配音频片段是特定目标匹配，且完全匹配成功，返回相应匹配到音频的标识符，则选择下一个待匹配音频片段直接与该标识符对应的音频进行特定目标匹配；若当前待匹配音频片段是特定目标匹配，且音频片段内部匹配成功，则当前待匹配音频片段存在拼接，将没有匹配成功的部分重新进行全库匹配；若当前待匹配音频片段是特定目标匹配，且匹配失败，则下一个待匹配音频片段重新进行全库匹配。

这样依次对待匹配音频片段进行上述匹配，可得到每个待匹配音频片段的匹配结果。

步骤104，对待匹配音频片段的匹配结果进行合并，得到待匹配音频数据的匹配结果。具体地，可根据待匹配音频片段匹配得到的分片的标识符、分片时间对待匹配音频片段的匹配结果进行合并。

作为一种示例，具体合并时，根据待匹配音频片段匹配得到的分片的标识符audioID、分片时间，将匹配时间连续并且匹配到相同标识符的待匹配音频片段进行合并，得到最终待匹配音频数据的匹配结果。例如合并结果可以表示为{src_t1～src_t2,target_t1～target_t2:ID1；src_t3～src_t4,target_t1～target_t2:ID2}，其中，src_t1～src_t2和src_t1～src_t2表示时间连续且匹配到相同标识符的待匹配音频片段合并后的时间，target_t1～target_t2:ID1表示匹配到的标识符为ID1的分片时间，target_t1～target_t2:ID2表示匹配到的标识符为ID2的分片时间；

例如上例中分割后的5个待匹配音频片段分别为1s～10s，11s～20s(第16秒是拼接点)，21s～26s，28s～38s，38s～45s；

其中，1s～16s的待匹配音频片段匹配到标识符为A，时间为targetA_t1～targetA_t2的分片；17s～45s的待匹配音频片段匹配到标识符为B，时间为targetB_t1～targetB_t2的分片，则合并后的最终音频匹配结果表示为{1～16,targetA_t1～targetA_t2:A；17～45,targetB_t1～targetB_t2:B}。

优选地，如图7所示，于步骤101之前，本发明一种音频匹配方法还包括如下步骤：

步骤100，预先收集大量音频数据，构建音频匹配库。在本发明具体实施例中，所述音频匹配库采用二级哈希表结构存储音频数据。

具体地，如图8所示，步骤100进一步包括如下步骤：

步骤S1，预先收集大量音频数据。

所述音频数据可以通过预先录制得到或从网络上搜索得；所述音频数据可以为一种类型的音频数据，如小说音频数据，也可以为同时包含多种类型的音频数据，如同时包含小说、新闻、会议、歌曲等类型的音频数据，具体本发明不作限定；

步骤S2，提取每段音频数据的音频指纹特征。

所述音频指纹特征包含音频数据中极值点的时域值、频域值、极值点对中极值点的时域差值和频域差值及该音频数据的唯一标识符，具体提取方法可如前述步骤103所述。

步骤S3，将每段音频数据的指纹特征进行结构化存储，构建音频匹配库。在本发明具体实施例中，所述音频匹配库采用如前所述的二级哈希表结构存储音频数据，在此不再赘述。

优选地，为了提高音频匹配的效率，本发明在构建音频匹配库时，可以预先计算出音频匹配库中每段音频数据音频指纹特征包含的信息量，这样于步骤103中根据提取的音频指纹特征利用所述音频匹配库进行全库匹配和/或特定目标匹配时，可选择信息量超过预先设定阈值的音频指纹特征进行匹配。所述音频指纹特征的信息量计算方法如下所述：

所述音频指纹特征的信息量根据每段音频数据的第一级哈希存储结构中键值key确定，如果当前段音频数据进行全库匹配时，当前段音频数据的第一级哈希存储结构中键值key与音频匹配库中其它音频数据的第一级哈希存储结构中键值key碰撞频率较高，则认为当前音频数据指纹特征在音频匹配库中音频数据经常出现，区分度较弱，包含的信息量较少，反之，当前段音频数据指纹特征包含的信息量较高；具体计算时，构建当前段音频数据第一级哈希存储结构时，统计音频匹配库中包含当前段音频指纹特征的音频数据总数，计算当前音频数据第一级哈希存储结构中键值key与其它音频数据的碰撞频率idf；

其中，N表示音频匹配库中音频数据的总数，N_key是指包含当前段音频数据第一级哈希存储结构中键值key的音频数据总数，计算出的idf值越大，说明当前段音频数据指纹特征的碰撞频率越少，包含的信息量越高。

在本发明的一个实施例中，如图9所示，本发明一种音频匹配装置，包括：音频数据获取单元91、分割单元92、音频指纹特征提取及匹配单元93以及匹配结果合并单元94。

音频数据获取单元91，用于获取待匹配音频数据。所述待匹配音频数据可以为任意的音频数据，如会议录音、采访数据、新闻录音等，当然，也可以为音乐相关音频数据，如歌曲片段等。

分割单元92，用于对待匹配音频数据进行分割，得到多个分割后的待匹配音频片段。

具体地，分割单元92进一步包括：

首次分割单元920，用于根据待匹配音频数据的静音段将该音频数据分割为多个音频片段，将音频片段中的静音段删除，并记录每个有效音频片段在待匹配音频数据中的时间信息；

长度检查单元921，用于依次检查每个音频片段长度是否超过预先设定阈值；

再次分割单元922，用于将超过预先设定阈值的音频片段按固定长度进行分割。

音频指纹特征提取及匹配单元93，用于提取每段待匹配音频片段的音频指纹特征，利用提取的音频指纹特征及预先构建的音频匹配库对每段待匹配音频片段进行音频匹配，得到每段待匹配音频片段的音频匹配结果。

所述音频指纹特征包含音频数据中极值点的时域值、频域值、极值点对中极值点的时域差值和频域差值及该音频数据的唯一标识符。具体地，如图10所示，音频指纹特征提取及匹配单元93的音频指纹特征提取单元包括：

候选极值点确定单元931，用于确定待匹配音频片段每帧音频数据的原始候选极值点，候选极值点确定单元931通过将该音频数据转换到频域，得到音频数据的频谱能量幅度，根据每帧音频数据的频谱能量幅度，选择频谱能量幅度超过阈值的点，作为每帧音频数据的原始候选极值点；

候选极值点筛选单元932，基于候选极值点之间的影响系数和/或基于候选极值点的密度和基于候选极值点之间的差分计算结果对所述原始候选极值点进行筛选，获得每帧音频数据的极值点列表。

在本发明具体实施例中，候选极值点筛选单元932进一步包括：

第一筛选单元，用于基于候选极值点之间的影响系数对每帧音频数据的原始候选极值点进行筛选，在本发明具体实施例中，第一筛选单元利用影响系数G(i,j)对候选极值点进行初次筛选；和/或

第二筛选单元，用于基于候选极值点的密度对每帧音频数据的原始候选极值点进行筛选或经所述第一筛选单元筛选后的候选极值点进行筛选，过滤电流音；和/或

第三筛选单元，用于对原始候选极值点或经所述第一筛选单元筛选后的候选极值点或经所述第二筛选单元筛选后的候选极值点进行筛选。

指纹特征提取单元933，根据每帧音频数据的极值点列表，提取每帧音频数据的指纹特征。指纹特征提取单元933具体用于：

音频指纹特征提取及匹配单元93的音频指纹特征匹配单元934采用全库匹配和/或特定目标匹配，用于依次选择待匹配音频片段作为当前待匹配音频片段，进行音频匹配，依次选择音频匹配库中的音频与当前待匹配音频片段进行匹配，匹配成功后返回音频匹配库中音频的标识符和时间信息，音频指纹特征匹配单元934判断当前待匹配音频片段的匹配结果，根据当前待匹配音频片段的匹配结果确定下一个待匹配音频片段进行全库匹配还是特定目标匹配，具体过程如下：

音频指纹特征匹配单元934依次对待匹配音频片段进行上述匹配，得到每个待匹配音频片段的匹配结果；

优选地，音频指纹特征匹配单元934在进行全库匹配和\或待定目标匹配时，可以只选择音频匹配库中信息量超过预先设定阈值的音频数据指纹特征进行匹配。

匹配结果合并单元94，用于对待匹配音频片段的匹配结果进行合并，得到待匹配音频数据的匹配结果。具体地，匹配结果合并单元93根据待匹配音频片段匹配得到的分片的标识符、分片时间对待匹配音频片段进行合并，得到最终待匹配音频数据的匹配结果。

优选地，本发明一种音频匹配装置还包括：

音频匹配库构建单元，用于预先收集大量音频数据，构建音频匹配库。在本发明具体实施例中，所述音频匹配库采用二级哈希表结构存储音频数据。

具体地，音频匹配库构建单元进一步包括：

音频数据收集模块，用于预先收集大量音频数据。

指纹特征提取模块，提取每段音频数据的音频指纹特征。

结构化存储模块，用于将每段音频数据的指纹特征进行结构化存储，构建音频匹配库。

优选地，为了提高音频匹配的效率，音频匹配库构建单元还包括音频指纹特征信息量计算模块，以于构建音频匹配库时，预先计算出音频匹配库中每段音频数据音频指纹特征包含的信息量，以在待匹配音频数据进行音频匹配时，可选择信息量超过预先设定阈值的音频指纹特征进行匹配。

参见图11，示出了本发明用于音频匹配方法的电子设备300的结构示意图。参照图11，电子设备300包括处理组件301，其进一步包括一个或多个处理器，以及由存储介质302所代表的存储设备资源，用于存储可由处理组件301的执行的指令，例如应用程序。存储介质302中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件301被配置为执行指令，以执行上述音频匹配方法的各步骤。

电子设备300还可以包括一个电源组件303，被配置为执行电子设备300的电源管理；一个有线或无线网络接口304，被配置为将电子设备300连接到网络；和一个输入输出(I/O)接口305。电子设备300可以操作基于存储在存储设备302的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

综上所述，本发明一种音频匹配方法及装置、电子设备通过在音频指纹特征提取时利用听觉屏蔽、过滤电流音、极值点密度等确定每帧音频数据的极值点后再组成极值点对提取相应音频指纹特征，提取的音频指纹特征经过了多重筛选，有效减少了音频数据的存储代价,在音频匹配时，将待匹配音频数据先进行分割得到分割后的每段音频片段，再利用预先构建的音频匹配库依次对每段音频片段进行匹配，并于具体匹配时采用全库匹配和\或特定目标匹配，从而可以准确高效的匹配到音频匹配库中音频数据，提高了匹配效率。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频匹配方法，包括如下步骤：

步骤一，获取待匹配音频数据；

2.如权利要求1所述的一种音频匹配方法，其特征在于，所述音频匹配库通过如下步骤构建：

预先收集大量音频数据；

提取每段音频数据的音频指纹特征；

3.如权利要求1所述的一种音频匹配方法，其特征在于，步骤二进一步包括：

依次检查每个音频片段长度是否超过预先设定阈值；

将超过预先设定阈值的音频片段按固定长度再次进行分割。

4.如权利要求1所述的一种音频匹配方法，其特征在于，所述音频指纹特征的提取步骤进一步包括：

确定每帧音频数据的原始候选极值点；

5.如权利要求4所述的一种音频匹配方法，其特征在于，所述基于候选极值点之间的影响系数进行筛选的步骤进一步包括：

6.如权利要求4所述的一种音频匹配方法，其特征在于，所述基于候选极值点的密度进行筛选的步骤进一步包括：

7.如权利要求4所述的一种音频匹配方法，其特征在于,所述基于候选极值点之间的差分计算结果进行筛选的步骤进一步包括：

8.如权利要求7所述的一种音频匹配方法，其特征在于：所述差分计算的步骤具体为：根据当前帧前一或多帧音频数据的候选极值点及当前帧后一或多帧音频数据的候选极值点的频谱值对当前帧音频数据的候选极值点进行差分计算得到当前帧音频数据每个候选极值点差分后的差分频谱值。

9.如权利要求4所述的一种音频匹配方法，其特征在于，所述根据每帧音频数据的极值点列表，提取每帧音频数据的指纹特征的步骤进一步包括：

10.如权利要求4所述的一种音频匹配方法，其特征在于，所述音频匹配库采用二级哈希表结构存储音频数据的指纹特征，所述利用预先构建的音频匹配库对每段待匹配音频片段进行音频匹配的步骤具体为：依次选择各段待匹配音频片段作为当前待匹配音频片段，利用所述音频匹配库对其进行全库和/或特定目标匹配，匹配成功后返回所述音频匹配库中音频的标识符和时间信息。

11.如权利要求10所述的一种音频匹配方法，其特征在于，所述利用所述音频匹配库对其进行全库和/或特定目标匹配的步骤具体为：

12.如权利要求11所述的一种音频匹配方法，其特征在于：

13.如权利要求12所述的一种音频匹配方法，其特征在于：于构建所述音频匹配库时，预先计算出所述音频匹配库中每段音频数据的音频指纹特征包含的信息量，以于音频匹配时，选择所述音频匹配库中信息量超过预先设定阈值的音频指纹特征进行匹配。

14.如权利要求1所述的一种音频匹配方法，其特征在于，所述对各待匹配音频片段的匹配结果进行合并的步骤具体为：根据待匹配音频片段匹配得到的分片的标识符、分片时间进行合并，得到最终待匹配音频数据的匹配结果。

15.一种音频匹配装置，包括：

音频数据获取单元，用于获取待匹配音频数据；

16.如权利要求15所述的一种音频匹配装置，其特征在于，所述音频指纹特征提取及匹配单元包括：

17.一种电子设备，其特征在于，所述电子设备包括；

存储介质，存储有多条指令，所述指令由处理器加载，执行权利要求1至14任一项所述方法的步骤；以及

处理器，用于执行所述存储介质中的指令。