CN112784099B

CN112784099B - 抵抗变调干扰的采样计数音频检索方法

Info

Publication number: CN112784099B
Application number: CN202110125352.XA
Authority: CN
Inventors: 姚姗姗; 牛保宁; 钱宇华
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-11-11
Anticipated expiration: 2041-01-29
Also published as: CN112784099A

Abstract

本发明提供一种抵抗变调干扰的采样计数音频检索方法，属于音频检索领域，以解决现有Philips指纹音频检索方法无法抵抗变调干扰的问题。通过在去边的斐波那契哈希索引表中对第一目标音频指纹进行检索，在待检索音频的频谱图上利用变频带间隔的查询指纹生成方法计算第二目标音频指纹，利用多频率尺度的查询匹配方法对第二目标音频指纹进行检索匹配，可抵抗变调的音频信号在频率方向缩放所导致的指纹移位，使本发明可在保持检索效率和对各种噪声干扰鲁棒的前提下实现了对变调干扰音频的检索。通过采样计数法可快速过滤掉大量不相似音频，得到结果候选序号集。通过加入基于阈值的固定间隔抽样匹配方法，可保证对其它非变调干扰音频的快速检索。

Description

抵抗变调干扰的采样计数音频检索方法

技术领域

本发明涉及音频检索技术领域，尤其涉及一种抵抗变调干扰的采样计数音频检索方法。

背景技术

音频检索已被广泛应用于音乐识别、版权监测等任务。目前，基于内容的音频检索已成为近年来国内外研究的热点。基于内容的音频检索方法是将待查询音频的目标音频指纹与音频指纹数据库中的参考音频指纹进行相似度匹配，通过比较相似度获取检索结果的过程。音频检索系统通常包括音频指纹和检索方法两部分，其中，音频指纹的鲁棒性决定了检索的准确性，检索方法的效率则决定了检索系统的效率。

提取具有强代表性、高区分性和好鲁棒性的音频指纹是准确进行音频检索的前提。Philips指纹(飞利浦指纹)是典型的指纹代表。提取Philips类的指纹是基于频带能量来实现的，但是Philips指纹无法抵抗大于±4％的变调干扰。基于Philips指纹的采样计数音频检索方法(Sampling and Counting Retrieval Method,SC)，利用Philips指纹重叠帧的特性，有效地提高了检索的效率，但是由于使用了Philips指纹，同时也继承了Philips指纹无法抵抗±4％以上的变调干扰的缺点。如果能解决Philips指纹的这一缺点，则SC方法将进一步趋于理想。

发明内容

为解决现有的基于Philips指纹的采样计数音频检索方法无法抵抗变调干扰的技术问题，本发明提供一种抵抗变调干扰的采样计数音频检索方法。

为解决上述技术问题，本发明采用的技术方案是：

一种抵抗变调干扰的采样计数音频检索方法，其包括如下步骤：

S1，计算并保存待检索音频的频谱图，并基于频谱图提取待检索音频的第一目标音频指纹，所述第一目标音频指纹为Philips指纹；

S2，在预先建立的去边的斐波那契哈希索引表中对第一目标音频指纹进行检索，得到第一目标音频指纹的第一候选序号集；

S3，利用采样计数法对第一候选序号集进行筛选，得到第二候选序号集；

S4，通过基于阈值的固定间隔抽样匹配方法将第二候选序号集中的序号在预先建立的音频指纹库中对应的指纹与第一目标音频指纹进行匹配，根据匹配结果确定第二候选序号集中的序号在音频指纹库中对应的音频指纹是否包括第一目标音频指纹；

S5，如果第二候选序号集中的序号在音频指纹库中对应的音频指纹不包括第一目标音频指纹，则在待检索音频的频谱图上利用变频带间隔的查询指纹生成方法计算第二目标音频指纹；

S6，利用多频率尺度的查询匹配方法对第二目标音频指纹进行检索匹配，得到检索结果。

可选地，所述步骤S2，在预先建立的去边的斐波那契哈希索引表中对第一目标音频指纹进行检索之前，还包括：

S21，提取所有参考音频的音频指纹，得到音频指纹数据库，所述音频指纹数据库包括每一条参考音频的序号和音频指纹，每一条参考音频的音频指纹由若干音频子指纹组成；

S22，对于音频指纹数据库中每一条参考音频的音频指纹，利用如下公式(1)计算每一个音频子指纹对应的哈希值，使用音频子指纹作为key，将该参考音频的序号加入哈希值对应的哈希桶中，得到去边的斐波那契哈希索引表；

f(key)＝((key＜＜l)＞＞(l+r))×C_w (1)；

公式(1)中，key是32位的0/1字符串，代表参考音频的音频子指纹；C_w由黄金分割比例导出，依据斐波那契方法，当key是32位时，C_w取2654435769；l代表左移的位数；r代表右移的位数；f(key)表示音频子指纹对应的哈希值；哈希桶的数量为2^32-(l+r)。

可选地，所述S5中在待检索音频的频谱图上利用变频带间隔的查询指纹生成方法计算第二目标音频指纹，包括如下步骤：

S51，在待检索音频的频谱图上取300Hz至2000Hz之间的频率，再使用自然对数划分33个对数间隔，通过如下公式(2)对待检索音频的频带间隔进行划分：

lnf_b＝ln300+(ln2000-ln300)×n_b/33+lnC (2)

公式(2)中，n_b表示第n_b个频带划分点，取0到33；f_b表示第n_b个频带划分点的对应频率值，通过取不同的n_b，即可得到34个对应的频率值f_b；设定C为频率缩放因子，通过取不同的C，可计算出不同频率缩放所对应的频带划分频率；

S52，通过如下公式(3)计算采样点与频率之间的对应关系：

公式(3)中，n_m表示频率f对应的第n_m个幅度值点；将公式(2)得到的34个频率值f_b代入公式(3)中的f，得到对应的34个幅度值点n_m，通过34个幅度值点n_m即可划分33个频带；F_s表示采样率；N_s表示一帧音频子指纹的采样点个数；

S53，分别累加n_m到n_m+1之间的幅度值之和，得到第m+1个频带的能量值E(n,m+1)，利用如下公式(4)计算相邻两个频带之间的能量值的差值，再比较相邻两帧之间对应频带的能量差，得到32位音频子指纹：

公式(4)中，E(n,m)表示待检索音频第n帧第m个频带的能量值，F(n,m)表示待检索音频第n帧第m位的音频子指纹；

S54，分别计算待检索音频的所有帧的音频子指纹，得到第二目标音频指纹。

可选地，所述S6在利用多频率尺度的查询匹配方法对第二目标音频指纹进行检索匹配时，包括如下步骤：

S61，设定待检索音频的变调幅度的位移方向δ和位移个数N_δ，其中δ取0和1，0代表变调幅度缩小，1代表变调幅度放大；N_δ取1到P，代表缩放尺度，以5％为间隔递增，则位移方向δ和位移个数N_δ对应的缩放频率为(100±p×5)％，其中，p∈(1,P)，当δ为0时，取-号，当为1时，取+号，将(100±p×5)％代入S51中的C，得到(100±p×5)％对应的第二目标音频指纹；

S62，在去边的斐波那契哈希索引表中对(100±p×5)％对应的第二目标音频指纹进行检索，并使用采样计数法筛选得到候选序号集；

S63，将(100±p×5)％对应的第二目标音频指纹与候选序号集中的序号在音频指纹库中对应的音频进行匹配，如果匹配未成功，则返回S61；如果匹配成功，则检索结束。

本发明的有益效果是：

通过在去边的斐波那契哈希索引表中对第一目标音频指纹进行检索，在待检索音频的频谱图上利用变频带间隔的查询指纹生成方法计算第二目标音频指纹，并利用多频率尺度的查询匹配方法对第二目标音频指纹进行检索匹配，可以抵抗变调的音频信号在频率方向缩放所导致的指纹移位，使得本发明可以在保持检索效率和对各种噪声干扰鲁棒的前提下实现了对变调干扰音频的检索。该方法通过采样计数法，可以快速过滤掉大量不相似音频，得到结果候选序号集。通过加入基于阈值的固定间隔抽样匹配方法，可以保证对其它非变调干扰的音频的快速检索。本发明在进行音频快速检索时，可以达到在不降低精度和检索效率的前提下，扩充检索能力，实现对于变调的待检索音频片段的检索。

附图说明

图1是本发明的流程图。

具体实施方式

下面将结合附图和实施例对本发明作进一步地详细描述。

如图1本实施例中的一种抵抗变调干扰的采样计数音频检索方法，其特征在于，包括如下步骤：

S1，计算并保存待检索音频的频谱图，并基于频谱图提取待检索音频的第一目标音频指纹，所述第一目标音频指纹为Philips指纹。

其中，计算检索音频的频谱图时，可以利用短时傅里叶变换得到。

S2，在预先建立的去边的斐波那契哈希索引表中对第一目标音频指纹进行检索，得到第一目标音频指纹的第一候选序号集。

其中，所述步骤S2，在预先建立的去边的斐波那契哈希索引表中对目标音频指纹进行检索之前，还包括建立去边的斐波那契哈希索引表的步骤。建立去边的斐波那契哈希索引表的步骤包括如下步骤S21和S22：

S21，提取所有参考音频的音频指纹，得到音频指纹数据库，所述音频指纹数据库包括每一条参考音频的序号和音频指纹，每一条参考音频的音频指纹由若干音频子指纹组成。

f(key)＝((key＜＜l)＞＞(l+r))×C_w (1)；

S3，利用采样计数法对第一候选序号集进行筛选，得到第二候选序号集。

S4，通过基于阈值的固定间隔抽样匹配方法将第二候选序号集中的序号在预先建立的音频指纹库中对应的指纹与第一目标音频指纹进行匹配，根据匹配结果确定第二候选序号集中的序号在音频指纹库中对应的音频指纹是否包括第一目标音频指纹。

其中，在将第二候选序号集中的序号在音频指纹库中对应的指纹与第一目标音频指纹进行匹配时，可以通过计算相似度来实现，计算相似度Similarity的公式如下公式(5)。

公式(5)中，a代表匹配过程中不相同位的个数，b代表第一目标音频指纹的总长度。

S5，如果第二候选序号集中的序号在音频指纹库中对应的音频指纹不包括第一目标音频指纹，则在待检索音频的频谱图上利用变频带间隔的查询指纹生成方法计算第二目标音频指纹。

其中，所述S5中在待检索音频的频谱图上利用变频带间隔的查询指纹生成方法计算第二目标音频指纹，包括如下步骤S51至S54：

lnf_b＝ln300+(ln2000-ln300)×n_b/33+lnC (2)

公式(2)中，n_b表示第n_b个频带划分点，取0到33；f_b表示第n_b个频带划分点的对应频率值，通过取不同的n_b，即可得到34个对应的频率值f_b；设定C为频率缩放因子，通过取不同的C，可计算出不同频率缩放所对应的频带划分频率。例如对于95％频率变换的音频，取C＝0.95即可。

S52，通过如下公式(3)计算采样点与频率之间的对应关系：

公式(3)中，n_m表示频率f对应的第n_m个幅度值点；将公式(2)得到的34个频率值f_b代入公式(3)中的f，得到对应的34个幅度值点n_m，通过34个幅度值点n_m即可划分33个频带；F_s表示采样率；N_s表示一帧音频子指纹的采样点个数。

公式(4)中，E(n,m)表示待检索音频第n帧第m个频带的能量值，F(n,m)表示待检索音频第n帧第m位的音频子指纹。

其中，所述S6在利用多频率尺度的查询匹配方法对第二目标音频指纹进行检索匹配时，包括如下步骤S61至S63：

S61，设定待检索音频的变调幅度的位移方向δ和位移个数N_δ，其中δ取0和1，0代表变调幅度缩小，1代表变调幅度放大；N_δ取1到P，代表缩放尺度，以5％为间隔递增，则位移方向δ和位移个数N_δ对应的缩放频率为(100±p×5)％，其中，p∈(1,P)，当δ为0时，取-号，当为1时，取+号，将(100±p×5)％代入S51中的C，得到(100±p×5)％对应的第二目标音频指纹。

由于Philips指纹无法抵抗±4％以上的频率变换，本发明实施例以5％的频率缩放为间隔，假设变调幅度为70％至130％，则共需使用12种不同的缩放频率。在检索匹配时，比较不同变调幅度的音频，则此时P为6，N_δ取1到6。比如，当δ＝1，N_δ＝1时，代表变调幅度为105％；当δ＝0，N_δ＝2，代表变调幅度为90％，以此类推。

在检索匹配时，按照变换程度由低到高进行匹配。逐次增加N_δ，在每个缩放尺度中，根据δ缩小或者放大，分别进行两次匹配，得到结果即检索结束，否则继续匹配。比如先匹配变调幅度为95％和105％的情况，若未匹配成功，再匹配90％和110％，依次进行。在最坏的情况下，即变调幅度为130％时，需要一共匹配12次，才能得到检索结果。

S62，在去边的斐波那契哈希索引表中对(100±p×5)％对应的第二目标音频指纹进行检索，并使用采样计数法筛选得到候选序号集。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种抵抗变调干扰的采样计数音频检索方法，其特征在于，包括如下步骤：

S6，利用多频率尺度的查询匹配方法对第二目标音频指纹进行检索匹配，得到检索结果；

所述S5中在待检索音频的频谱图上利用变频带间隔的查询指纹生成方法计算第二目标音频指纹，包括如下步骤：

lnf_b＝ln300+(ln2000-ln300)×n_b/33+lnC(2)

S52，通过如下公式(3)计算采样点与频率之间的对应关系：

S54，分别计算待检索音频的所有帧的音频子指纹，得到第二目标音频指纹；

所述S6在利用多频率尺度的查询匹配方法对第二目标音频指纹进行检索匹配时，包括如下步骤：

2.根据权利要求1所述的抵抗变调干扰的采样计数音频检索方法，其特征在于，所述步骤S2，在预先建立的去边的斐波那契哈希索引表中对第一目标音频指纹进行检索之前，还包括：

f(key)＝((key＜＜l)＞＞(l+r))×C_w(1)；