CN108509558B

CN108509558B - 一种抗变速干扰的采样计数音频检索方法

Info

Publication number: CN108509558B
Application number: CN201810243704.XA
Authority: CN
Inventors: 牛保宁; 姚姗姗
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2021-11-05
Anticipated expiration: 2038-03-23
Also published as: CN108509558A

Abstract

本发明公开了一种抗变速干扰的采样计数音频检索方法，该方法的步骤包括：提取参考音频的指纹，建立音频指纹库，并对音频指纹库中音频的指纹建立Fibonacci哈希索引表；提取待检索音频的音频指纹，并在音频指纹库的哈希索引表中进行索引检索，利用采样计数方法过滤不相似音频片段，确定待检索音频片段的候选序号集；在候选序号集对应的指纹中，用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配，获取最终检索结果。通过本发明，能够克服现有检索方法中Philips音频指纹无法抵抗变速干扰的不足，在保持检索效率和对各种噪声干扰鲁邦的前提下，增加对变速干扰的抵抗性。

Description

一种抗变速干扰的采样计数音频检索方法

技术领域

本发明涉及音频检索领域，特别是涉及一种抗变速干扰的采样计数音频检索方法。

背景技术

随着新世纪以来互联网在全世界范围的广泛普及、音频编解码技术的迅猛发展以及高容量存储介质的诞生，网络中的数字音频资源数量呈现指数级别的增长。海量的网络数字音频资源给人们带来极大便利的同时，由于现阶段互联网数字音频管理体系和版权保护制度的不规范和不完善，网络用户可以随意上传或下载数字音频资源甚至对音频内容进行更改，这在无形中严重侵犯了数字音频资源版权拥有者的合法权益。

目前主要的音频检索方法分为基于文本和基于内容两大类，而基于内容的音频检索已成为近年来国内外研究的热点。基于内容的音频指纹检索是将待检索音频指纹与音频指纹数据库中的指纹进行相似度匹配，通过比较相似度获取检索结果的过程。

首先，音频指纹是检索准确的基础。提取具有强代表性，高区分性和好鲁棒性的指纹是准确检索的前提，但是没有一种音频指纹对所有类型的噪声干扰都鲁邦。Philips指纹和Shazam指纹是两类典型的指纹代表。许多后续提出的指纹都是根据这两种指纹的核心思想——基于类Philips指纹的频段能量或者类Shazam指纹的频谱峰值信息——进行改进的。Philips指纹无法抵抗大于±4％的变速干扰。Joe等人将这一比例提高到±10％。这是类Philips指纹的常见问题。Quads是类Shazam指纹中最新的代表，它可以抵抗极其严重的变速干扰，但在GSM压缩干扰下表现不佳。

随着大数据时代的到来，保持音频检索系统在应对大规模的音频数据时的高效和精确是一项挑战。采样技术方法（Sampling and Counting, SC）和QUAD是目前解决这个问题的高效的两种音频检索方法。SC通过对子指纹采样和对匹配值计数来确保其高效性，这可以快速滤除大多数不相关的音频，得到一个比原始数据库小很多的候选音频集，来应对后续极为耗时的精确匹配。该策略利用了Philips指纹的特性——连续子指纹的重叠率高达31/32。但是，SC也继承了Philips指纹的缺点，不可抵抗变速干扰。QUAD通过使用Quads指纹可以抵抗变速。但是由于Quads没有连续子指纹重叠的特性，QUAD不能像SC那样使用采样策略来提高检索效率。因此，性能比SC差，尤其是在查询短音频片段时。另外QUAD也很难应对GSM压缩。

发明内容

本发明主要为解决现有问题的不足之处而提供一种抗变速干扰的采样计数音频检索方法。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种抗变速干扰的采样计数音频检索方法，该方法的步骤包括：提取参考音频的指纹，建立音频指纹库，并对音频指纹库中音频的指纹建立Fibonacci哈希索引表；提取待检索音频的音频指纹，并在音频指纹库的哈希索引表中进行索引检索，利用采样计数方法过滤不相似音频片段，确定待检索音频片段的候选序号集；在候选序号集对应的指纹中，用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配，获取最终检索结果。

其中，用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配的步骤包括：利用转折点判别方法找到待检索音频片段中的所有转折点，生成转折点判别表；利用转折点判别方法找到参考音频中的转折点；利用基于LSH的转折点对齐方法将参考音频中的转折点与转折点判别表对比，得到转折点匹配对；利用阈值过滤方法来筛选和统计转折点匹配对，得到最终的匹配结果。

其中，音频指纹为飞利浦音频指纹。

其中，利用转折点判别方法找到待检索音频片段中的所有判别点，生成判别表的步骤包括：识别飞利浦指纹的每一32位的二进制子指纹；依次比较飞利浦音频子指纹序列中相邻的两个二进制子指纹，若相邻的两个子指纹高位比特值发生变化，则视为转折点并记录位置。

其中，在利用基于LSH的转折点对齐方法将参考音频中的转折点与转折点判别表对比，得到转折点匹配对的步骤中，基于LSH的转折点对齐方法的步骤包括：

将待检索音频和候选序号集中音频的转折点处的子指纹分别分割成4个8位的子串，将转折点处两个连续的子指纹对应位置的8位连成一个16位的子串，形成4个字串，若待检索音频子指纹和候选序号集中音频的子指纹4个子串中任何一个能匹配成功，则得到一个转折点匹配对。

其中，在利用阈值过滤方法来筛选和统计转折点匹配对，得到最终的匹配结果的步骤中，阈值过滤方法的步骤包括：

设定转折点阈值δ_no，用以判断一首音频中的某处是否出现转折点；若相邻两个子指纹变化的最高位大于δ_no，则认为是转折点；

设定转折点误差阈值δ_err用以判断待检索音频和候选序号集中的音频的转折点是否匹配；给定待检索音频A_q的转折点T_q处的两个子指纹Fq_i-1和Fq_i，以及候选序号集中的音频A_r的转折点T_r处的两个子指纹Fr_i-1和Fr_i，T_q和T_r的转折点误差定义为Fq_i-1和Fr_i-1，以及Fq_i和Fr_i之间的比特误差之和，若小于δ_err，则认为<T_q,T_r>匹配；其中，δ_err是大于0的整数，范围0-64；

设定序列异常过滤阈值ε_seq，用以对任意两个匹配对<T_q-1,T_r-1>和<T_q,T_r>，按T_q由小到大排列，若

=(T_r-T_r-1)/(T_q-T_q-1)为负数或者大于

，则认为序列异常，不列入进一步的考虑范围；其中，

是大于0的实数；

设定速率限制阈值ε_rate，音频的速率变化超过速率限制阈值ε_rate时，听觉感受差，筛除超过此范围的音频；其中， ε_rate是大于0的实数，范围0-2；

设定序列长度阈值ε_length和序列权重阈值μ_rate，用以将剩余的匹配对排列形成序列；所述序列中匹配对个数不能小于ε_length；并且匹配对个数需要大于匹配对总数乘以μ_rate；其中，ε_length是大于0的整数，μ_rate是大于0的实数，范围0-1；

设定相似度权重阈值μ_sim和相似度过滤阈值ε_sim，用以由转折点计算的待检索音频片段和参考音频的相似度为S_tp=1-64N_tp/N_err；其中，N_tp表示转折点的个数，是大于0的整数；N_err表示所有转折点的相邻两个子指纹的比特误差之和，是大于0的整数，范围0-64N_tp。

其中，在用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配的步骤之前，还包括步骤：在候选序号集对应的音频指纹中，用基于阈值的固定间隔抽样匹配方法对待检索音频片段的指纹进行精确匹配，获取检索结果。

其中，基于阈值的固定间隔抽样匹配方法的步骤包括：对于包含N个子指纹的待检索音频指纹，在参考音频上选取长度为N的指纹片段；针对选取的两个片段，对每间隔Q帧，分别取一个子指纹并计算相似度；其中Q是一个范围1-N的常数，N为大于零的整数；若相似度不满足所设定的阈值，再向后滑窗，在参考音频上选取另一段长度为N帧的音频片段，重复上述判断过程；直到判断满足相似度阈值而停止，或者滑窗到音频结尾，求出音频的整体相似度，完成一次匹配。

区别于现有技术，本发明的抗变速干扰的采样计数音频检索方法的步骤包括：提取参考音频的指纹，建立音频指纹库，并对音频指纹库中音频的指纹建立Fibonacci哈希索引表；提取待检索音频的音频指纹，并在音频指纹库的哈希索引表中进行索引检索，利用采样计数方法过滤不相似音频片段，确定待检索音频片段的候选序号集；在候选序号集对应的指纹中，用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配，获取最终检索结果。通过本发明，能够克服现有检索方法中Philips音频指纹无法抵抗变速干扰的不足，在保持检索效率和对各种噪声干扰鲁邦的前提下，增加对变速干扰的抵抗性。

附图说明

图1是本发明提供的一种抗变速干扰的采样计数音频检索方法的流程示意图。

图2是本发明提供的一种抗变速干扰的采样计数音频检索方法的本发明的检索系统逻辑示意图。

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

参阅图1，图1是本发明提供的一种抗变速干扰的采样计数音频检索方法的流程示意图。该方法的步骤包括：

S110：提取参考音频的指纹，建立音频指纹库，并对音频指纹库中音频的指纹建立Fibonacci哈希索引表。

在本发明中，通过使用斐波那契哈希算法，可以根据内存的大小来调整生成索引的大小，减少存储空间的过度使用。

S120：提取待检索音频的音频指纹，并在音频指纹库的哈希索引表中进行索引检索，利用采样计数方法过滤不相似音频片段，确定待检索音频片段的候选序号集。

加入SC（采样技术）方法，可以快速过滤掉大量不相似音频，得到结果候选集。

S130：在候选序号集对应的指纹中，用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配，获取最终检索结果。

本发明在进行音频快速检索时，可以达到在不降低精度和检索效率的前提下，扩充检索能力，得到待检索音频片段属于变速干扰类的检索结果。

所述转折点对齐匹配方法包括下述内容：

（1）利用转折点判别方法找到待检索音频片段中的所有转折点，生成判别表；

（2）利用转折点判别方法找到候选参考音频中的转折点；

（3）利用基于LSH的转折点对齐方法将候选参考音频中的转折点与转折点判别表对比，得到转折点匹配对；

（4）利用阈值过滤方法来筛选和统计转折点匹配对，得到最终的匹配结果；

所述转折点判别方法如下：

在对大量指纹进行了可视化分析之后，如果将Philips指纹的32位二进制序列转换成10进制数，并且按照顺序画成图像,则干扰前后的音频有着极为相似的波形走向，且变换前后的对应关系在波形陡峭变换的点处表现明显。我们将这些点定义为转折点，即Philips指纹的32位二进制子指纹序列转换成10进制数并按照顺序画成图像后波形陡峭变换的点，包含变化前后的两个相邻子指纹。而转折点的出现是由于两个连续子指纹之间变化的比特位出现在较高位。观察发现一般子指纹变化的最高位出现在第26位是临界转折点。大于26时转折明显；小于26波形平稳。因此只需要依次比较音频子指纹序列中相邻的两个子指纹，若高27-32位中有位变化，则视为转折点并记录其位置。

所述基于LSH的转折点对齐方法如下：

将32位子指纹分割成4个8位的子串，将转折点处两个连续的子指纹对应位置的8位连成一个16位的子串，只要4个子串有任何一个能匹配成功，则可以认为得到了一个转折点匹配对。

所述阈值过滤内容如下：

①转折点阈值δ_no：用来判断一首音频中的某处是否出现转折点。若两个子指纹变化的最高位大于δ_no，则认为是转折点；δ_no为26；

②转折点误差阈值δ_err：用来判断两首音频中的某两个转折点是否匹配；给定待检索音频A_q的转折点T_q处的两个子指纹Fq_i-1和Fq_i，以及参考音频A_r的转折点T_r处的两个子指纹Fr_i-1和Fr_i，T_q和T_r的转折点误差定义为Fq_i-1和Fr_i-1，以及Fq_i和Fr_i之间的比特误差之和，若小于δ_err，则认为<T_q, T_r>匹配；δ_err是大于0的整数，范围0-64；

③序列异常过滤阈值ε_seq：对于任意两个匹配对<T_q-1,T_r-1>和<T_q,T_r>，按T_q由小到大排列，若

=(T_r-T_r-1)/(T_q-T_q-1)为负数或者大于ε_seq，则认为序列异常，不列入进一步的考虑范围；ε_seq是大于0的实数；

④速率限制阈值ε_rate：音频的速率变化超过2倍通常来说会提供一个较差的听觉感受，因此此文不考虑超过此范围的音频；ε_rate是大于0的实数，范围0-2；

⑤序列长度阈值ε_length和序列权重阈值μ_rate：在排除前述异常匹配对之后，剩余匹配对形成序列；首先序列中匹配对个数不能小于ε_length；并且匹配对个数需要大于匹配对总数乘以μ_rate；其中，ε_length是大于0的整数，μ_rate是大于0的实数，范围0-1。

⑥相似度权重阈值μ_sim和相似度过滤阈值ε_sim：由转折点计算的待检索音频片段和参考音频的相似度为S_tp=1-64N_tp/N_err；其中，N_tp表示转折点的个数，是大于0的整数；N_err表示所有转折点的相邻两个子指纹的比特误差之和，是大于0的整数，范围0-64N_tp。

在用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配的步骤之前，还包括步骤：在候选序号集对应的音频指纹中，用基于阈值的固定间隔抽样匹配方法对待检索音频片段的指纹进行精确匹配，获取检索结果。

待检索音频片段与候选参考音频的子指纹的相似度用比特误差率（BER）来判断。

Similarity=1-a/b

其中，a代表匹配过程中不相同位的个数，b代表匹配过程中用到的待检索音频片段指纹的长度。

以上转折点对齐匹配方法，包括转折点判别方法、基于LSH的转折点对齐方法和阈值过滤，应用在待检索音频片段的精确匹配中，可以抵抗变速干扰造成的指纹序列无法对齐，实现对变速干扰音频的检索。

具体的，首先生成待检索音频的匹配表，存储结构为<key,N_o,T_q>。

依次比较待检索音频A_q子指纹序列中相邻的两个子指纹Fq_i-1和Fq_i，若满足转折点阈值δ_no，则：

（1）分别取Fq_i-1和Fq_i对应的4个8位子串Sq_(i-1)j和Sq_ij连成4个16位子串；

（2）将Fq_i在整个序列中的位置标号i记录在这4个16位key对应的链表中，用T_q表示；

（3）将16位子串属于Fq_i的次序标号j（范围0-3，3代表高位）记录在各自对应的链表中，用N_o表示。

然后与第二步骤生成的候选集中的音频进行比较并检查匹配结果。对于任一候选集中的参考音频A_r，具体步骤如下：

（1）获取候选参考音频的转折点信息<16b,N_o,T_r>，根据16位key值在匹配表中找到相应链，并选择与N_o一致的Tq₁,Tq₂,…,Tq_m。

（2）比较转折点Tr_i-1和Tq_i-1，以及转折点Tr_i和Tq_i处的两个连续子指纹得到比特误差值，如果比特误差小于阈值转折点误差阈值δ_err，则将结果对<T_q,T_r>放入候选集I并按T_q由小到大排序。

（3）比较候选集I中相邻的匹配对<Tr_i-1, Tq_i-1>和<Tr_i, Tq_i>的比值(Tr_i-Tr_i-1)/(Tq_i-Tq_i-1)，如果该比值满足ε_seq，则将其放入候选集II。

（4）在候选集II中，计算rate=(Tr_i-Tr₁)/(Tq_i-Tq₁)，并找出出现次数最高的rate，若该rate不满足序列长度阈值ε_length或序列权重阈值μ_rate，则本次比较结束。

（5）在候选集II中找到出现次数最高的rate对应的匹配对<T_q,T_r>，计算相对应的连续两个子指纹的比特误差，按照相似度权重阈值μ_sim和相似度过滤阈值ε_sim得到相似度。

所述转折点判别方法只需要依次比较音频子指纹序列中相邻的两个子指纹，若高27-32位中有位变化，则视为转折点并记录其位置。

所述基于LSH的转折点对齐方法是将32位子指纹分割成4个8位的子串，并将转折点处两个连续的子指纹对应位置的8位连成一个16位的子串，只要4个子串有任何一个能匹配成功，则可以认为得到了一个转折点匹配对。

阈值过滤内容按照前述的过滤方法，对转折点阈值δ_no、转折点误差阈值δ_err、序列异常过滤阈值ε_seq、速率限制阈值ε_rate、序列长度阈值ε_length、序列权重阈值μ_rate、相似度权重阈值μ_sim和相似度过滤阈值ε_sim分别进行过滤。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种抗变速干扰的采样计数音频检索方法，其特征在于，包括：

提取参考音频的指纹，建立音频指纹库，并对音频指纹库中音频的指纹建立Fibonacci哈希索引表；

提取待检索音频的音频指纹，并在音频指纹库的哈希索引表中进行索引检索，利用采样计数方法过滤不相似音频片段，确定待检索音频片段的候选序号集；

在候选序号集对应的指纹中，用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配，获取最终检索结果；

其中，转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配包括步骤：

利用转折点判别方法找到待检索音频片段中的所有转折点，生成转折点判别表；

利用转折点判别方法找到参考音频中的转折点；

利用基于LSH的转折点对齐方法将参考音频中的转折点与转折点判别表对比，得到转折点匹配对；

利用阈值过滤方法来筛选和统计转折点匹配对，得到最终的匹配结果

转折点判别方法包括步骤：

将飞利浦音频指纹作为音频指纹，将飞利浦音频指纹的32位二进制子指纹序列转换成10进制数，并按照顺序画成图像后波形陡峭变换的点作为转折点，转折点包含变化前后的两个相邻子指纹；

转折点的出现是由于两个连续子指纹之间变化的比特位出现在较高位，故依次比较音频子指纹序列中相邻的两个子指纹，若高27-32位中有位变化，则视为转折点并记录其位置；

基于LSH的转折点对齐方法如下：

将相邻的两个子指纹分割成4个8位的子串，将转折点处两个连续的子指纹对应位置的8位连成一个16位的子串，只要4个子串有任何一个能匹配成功，则认为得到了一个转折点匹配对；

阈值过滤方法如下：

设定转折点阈值δ_no，用来判断一首音频中的某处是否出现转折点；若两个子指纹变化的最高位大于δ_no，则认为是转折点；

设定转折点误差阈值δ_err，用来判断两首音频中的某两个转折点是否匹配；给定待检索音频A_q的转折点T_q处的两个子指纹Fq_i-1和Fq_i，以及参考音频A_r的转折点T_r处的两个子指纹Fr_i-1和Fr_i，T_q和T_r的转折点误差定义为Fq_i-1和Fr_i-1，以及Fq_i和Fr_i之间的比特误差之和，若小于δ_err，则认为<T_q, T_r>匹配；

设定序列异常过滤阈值ε_seq，对于任意两个匹配对<T_q-1,T_r-1>和<T_q,T_r>，按T_q由小到大排列，若

=(T_r-T_r-1)/(T_q-T_q-1)为负数或者大于ε_seq，则认为序列异常，不列入进一步的考虑范围；

设定速率限制阈值ε_rate，音频的速率变化超过2倍时，提供较差的听觉感受；

设定序列长度阈值ε_length和序列权重阈值μ_rate，在排除前述异常匹配对之后，剩余匹配对形成序列；序列中匹配对个数不能小于ε_length；并且匹配对个数大于匹配对总数乘以μ_rate；

设定相似度权重阈值μ_sim和相似度过滤阈值ε_sim，由转折点计算的待检索音频片段和参考音频的相似度为S_tp=1-64N_tp/N_err；其中，N_tp表示转折点的个数，是大于0的整数；N_err表示所有转折点的相邻两个子指纹的比特误差之和。

2.根据权利要求1所述的抗变速干扰的采样计数音频检索方法，其特征在于，在用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配的步骤之前，还包括步骤：

在候选序号集对应的音频指纹中，用基于阈值的固定间隔抽样匹配方法对待检索音频片段的指纹进行精确匹配，获取检索结果。

3.根据权利要求1所述的抗变速干扰的采样计数音频检索方法，其特征在于，基于阈值的固定间隔抽样匹配方法的步骤包括：对于包含N个子指纹的待检索音频指纹，在参考音频上选取长度为N的指纹片段；针对选取的两个片段，对每间隔Q帧，分别取一个子指纹并计算相似度；其中Q是一个范围1-N的常数，N为大于零的整数；若相似度不满足所设定的阈值，再向后滑窗，在参考音频上选取另一段长度为N帧的音频片段，重复上述判断过程；直到判断满足相似度阈值而停止，或者滑窗到音频结尾，求出音频的整体相似度，完成一次匹配。