CN110767248A

CN110767248A - 一种抗变调干扰的音频指纹提取方法

Info

Publication number: CN110767248A
Application number: CN201910833151.8A
Authority: CN
Inventors: 褚仁杰; 牛保宁; 姚姗姗
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2020-02-07
Anticipated expiration: 2039-09-04
Also published as: CN110767248B

Abstract

本发明公开了一种抗变调干扰的音频指纹提取方法，该方法的步骤包括：对音频信号分帧加窗，做傅里叶变换，收集每帧信号对应的傅里叶系数；在收集到的傅里叶系数中，用基于峰值点的能量段索引计算方法计算每帧信号对应的能量段索引；利用能量段索引计算能量段值，并以二维过滤核过滤能量段提取指纹。通过本发明，能够克服现有飞利浦指纹无法抵抗变调干扰的不足，在保持原飞利浦指纹的子指纹连续性和对各种噪声干扰鲁棒的前提下，增加对变调干扰的抵抗性。

Description

一种抗变调干扰的音频指纹提取方法

技术领域

本发明涉及音频信息检索领域，特别是涉及一种抗变调干扰的音频指纹提取方法。

背景技术

随着信息电子技术与移动互联网在全世界范围的广泛发展、音频编解码技术的迅猛发展以及高容量存储介质的诞生，网络中的数字音频资源数量呈现指数级别的增长。海量的网络数字音频资源给人们带来极大便利的同时，对于其网络版权保护也随着现阶段互联网数字音频管理体系和版权保护制度的发展而逐渐引起重视。为了对网络用户随意上传或下载的数字音频资源与更改后的音频内容进行版权监控，保护数字音频资源版权拥有者的合法权益，需要音频检索技术。

目前主要的音频检索方法分为基于文本和基于内容两大类，在版权监控及其它如听歌识曲等应用中主要依赖基于内容的音频检索方法。基于内容的音频指纹检索是将待检索音频指纹与音频指纹数据库中的指纹进行相似度匹配，通过比较相似度获取检索结果的过程。

音频指纹是检索准确与高效的基础。提取的指纹需有强代表性，高区分性与高鲁棒性，但是目前没有一种音频指纹对所有类型的噪音干扰都鲁棒。飞利浦（Philips）指纹与沙赞（Shazam）指纹是音频指纹的两类代表。在对飞利浦指纹改进时多基于改变提取指纹所依据的信息，原指纹无法抵抗大于±4%的变速干扰，Joe等人利用傅里叶变换的相位信息将这一范围提高到±10%。这是类飞利浦指纹的常见问题。在对沙赞指纹改进时，多是考虑利用峰值点的变换不变性组合形成指纹，Quads指纹是其中的代表，可以抵抗极其严重的变速干扰，但在GSM压缩干扰下表现不佳。

随着大数据时代的到来，音频指纹检索方法中检索方法在应对大规模音频数据时需要保持检索高效与精确。增强型采样技术方法（enhanced Sampling and Counting,eSC）是为类飞利浦指纹提出的高效的检索方法。eSC通过在过滤阶段对音频子指纹采样和对匹配对计数取得高效性，快速过滤掉大部分不相关的音频，得到一个比原始数据库小很多的候选音频集；在精确匹配阶段采用转折点匹配方法进行待检索音频与候选集音频的配对，获得对变速干扰中时间延展干扰的抵抗性，但是仍然没有解决飞利浦指纹弱变调干扰的缺点。

发明内容

本发明主要为解决现有技术的不足之处而提供一种抗变调干扰的音频指纹提取方法。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种抗变调干扰的音频指纹提取方法，该方法的步骤包括：对音频信号分帧加窗，做傅里叶变换，收集每帧信号对应的傅里叶系数；在收集到的傅里叶系数中，用基于峰值点的能量段索引计算方法计算每帧信号对应的能量段索引；利用能量段索引计算能量段值，并以二维过滤核过滤能量段提取指纹。

其中，用基于峰值点的能量段索引计算方法计算每帧信号对应的能量段索引的步骤包括：利用峰值点判别方法找到音频中每帧信号对应的傅里叶系数的峰值点频率段，作为计算能量段索引的起始点；利用恒定的对数间隔计算能量段索引值。

其中，利用基于峰值点判别方法找到音频中每帧信号对应的傅里叶系数的峰值点频率段，作为计算能量段索引的起始点的步骤中，基于峰值点判别方法的步骤包括：

设定频率段位置阈值ε_freq用以决定每帧音频信号中峰值点的位置；设定p表示每一帧峰值点所处的频率段，通过比较确定每一帧音频信号对应的傅里叶系数中具有最大傅里叶系数的频率段，即峰值点所在的频率段p，且该频率段的位置应位于频率段位置阈值ε_freq规定的范围内。

其中，利用恒定的对数间隔计算能量段索引值的步骤包括：设定I(n)表示音频信号第n帧的能量段索引，将第n帧的p转化为对数，作为能量段索引I(n)的起始点，并逐次加以恒定的对数间隔d直至得到一定数量的能量段，将得到的能量段索引I(n)转化回与频率段对应的自然数值；对音频信号的每一帧施以同样的前述操作得到音频信号的能量段索引。

其中，利用能量段索引计算能量段值，并以二维过滤核过滤能量段提取指纹的步骤包括：用能量段连续计算方法计算提取每帧子指纹依赖的能量段值；用适配的二维过滤核提取指纹。

其中，利用能量段连续计算方法计算每帧子指纹依赖的能量段值的步骤包括：设定E(n,c,m)表示用能量段索引I(n)在第n帧音频信号对应的傅里叶系数上计算得到的第n帧第m段的能量段值，E(n,p,m)表示用能量段索引I(n)在第n-1帧音频信号对应的傅里叶系数上计算得到的第n帧第m段的能量段值。利用计算得到的能量段索引计算音频信号每一帧上的E(n,c,m)与E(n,p,m)。

其中，利用适配的二维过滤核提取指纹的步骤包括：设定F(n,m)表示音频第n帧子指纹的第m位，利用计算得到的E(n,c,m)与E(n,p,m)根据如下公式提取F(n,m)，有效组织后即为从音频内容中提取的指纹。

其中，提取的音频指纹形式为0-1字符串的集合。

区别于现有技术，本发明的抗变调干扰的音频指纹提取方法的步骤包括：对音频信号分帧加窗，做傅里叶变换，收集每帧信号对应的傅里叶系数；在收集到的傅里叶系数中，用基于峰值点的能量段索引计算方法计算每帧信号对应的能量段索引；利用能量段索引计算能量段值，并以二维过滤核过滤能量段提取指纹。通过本发明，能够克服现有飞利浦指纹无法抵抗变调干扰的不足，在保持原飞利浦指纹的子指纹连续性和对各种噪声干扰鲁棒的前提下，增加对变调干扰的抵抗性。

附图说明

图1是本发明提供的一种抗变调干扰的音频指纹提取方法的流程示意图。

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

参阅图1，图1是本发明提供的一种抗变调干扰的音频指纹提取方法的流程示意图。该方法的步骤包括：

S110：对音频信号分帧加窗，做傅里叶变换，收集每帧信号对应的傅里叶系数。

在本发明中，通过使用较高的窗长与较短的分帧间隔，可以提高后续计算能量段索引的精确度，提升指纹的鲁棒性。

S120：在收集到的傅里叶系数中，用基于峰值点的能量段索引计算方法计算每帧信号对应的能量段索引。

S130：利用能量段索引计算能量段值，并以二维过滤核过滤能量段提取指纹。

本发明在进行音频指纹提取时，可以达到在不影响子指纹连续性和略微降低对其它噪声干扰的鲁棒性的前提下，扩充指纹有鲁棒性的范围，得到提取指纹对变调干扰鲁棒的结果。

所述基于峰值点的能量段索引计算方法包括下述内容：

（1）利用峰值点判别方法找到音频中每帧信号对应的傅里叶系数的峰值点频率段，作为计算能量段索引的起始点；

（2）利用恒定的对数间隔计算能量段索引值。

所述峰值点判别方法如下：

在对大量经过变调干扰的音频信号进行了可视化分析之后，如果将音频信号时频谱图中每一帧处于低频区域且具有最大傅里叶系数的频率段称为峰值点，则干扰前后的音频在峰值点的位置上有着一一对应的关系，且干扰后的峰值点位置普遍为干扰前对应的峰值点位置乘以干扰系数。在这样的情况下设定频率段位置阈值ε_freq用以决定每帧音频信号中峰值点的位置；设定p表示每一帧峰值点所处的频率段，通过比较确定每一帧音频信号对应的傅里叶系数中具有最大傅里叶系数的频率段，即峰值点所在的频率段p，且该频率段的位置应位于频率段位置阈值ε_freq规定的范围内。

所述利用恒定的对数间隔计算能量段索引值的方法如下：

由于干扰后的峰值点位置普遍为干扰前对应的峰值点位置乘以干扰系数，对于其它傅里叶系数也是一样。设定I(n)表示音频信号第n帧的能量段索引，将第n帧的p转化为对数，作为能量段索引I(n)的起始点，并逐次加以恒定的对数间隔d直至得到一定数量的能量段，将得到的能量段索引I(n)转化回与频率段对应的自然数值；对音频信号的每一帧施以同样的前述操作得到音频信号的能量段索引。

所述利用能量段索引计算能量段值，并以二维过滤核过滤能量段提取指纹包括下述内容：

（1）用能量段连续计算方法计算提取每帧子指纹依赖的能量段值；

（2）用适配的二维过滤核提取指纹。

所述能量段连续计算方法如下：

提取指纹依赖于能量段，为了保证子指纹的连续性，需要设定E(n,c,m)表示用能量段索引I(n)在第n帧音频信号对应的傅里叶系数上计算得到的第n帧第m段的能量段值，E(n,p,m)表示用能量段索引I(n)在第n-1帧音频信号对应的傅里叶系数上计算得到的第n帧第m段的能量段值。利用计算得到的能量段索引计算音频信号每一帧上的E(n,c,m)与E(n,p,m)。

所述适配的二维过滤核提取指纹方法如下：

由于采取的能量段计算方式与原飞利浦指纹不同，需要适配更改，设定F(n,m)表示音频第n帧子指纹的第m位，利用计算得到的E(n,c,m)与E(n,p,m)根据如下公式提取F(n,m)，有效组织后即为从音频内容中提取的指纹。

所述音频指纹形式为0-1字符串的集合。

以上基于峰值点的能量段索引计算方法与依据能量段进行指纹提取的方法，应用在音频指纹提取中，可以抵抗变调干扰造成的指纹变动，实现对变调干扰音频的检索。

具体的，首先将音频信号用帧长为N，帧间隔为H的短时傅里叶变换转化为时频谱图。

依次识别时频谱图每帧上频率段位置处于ε_freq范围内且具有该范围内最大傅里叶系数的频率段，称之为峰值点p。

每一帧能量段索引I(n)就可以通过每一帧峰值点p的位置和恒定对数间距d求得：将p转化为对数，逐次加上d直至得到需求的能量段数，并将对数索引变换回与频率段对应的自然数。

每一帧指纹提取依赖的能量段E(n,c,m)与E(n,p,m)就可以通过I(n)分别在当前帧与前一帧的傅里叶系数上求得，每一段间的能量值为当前段索引上下限间的傅里叶系数加和。

在采用上述能量段计算方式与如下公式提取指纹后，可以保证子指纹的连续性与对变调干扰的鲁棒性。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种抗变调干扰的音频指纹提取方法，其特征在于，包括：

对音频信号分帧加窗，做傅里叶变换，收集每帧信号对应的傅里叶系数；

在收集到的傅里叶系数中，用基于峰值点的能量段索引计算方法计算每帧信号对应的能量段索引；

利用能量段索引计算能量段值，并以二维过滤核过滤能量段提取指纹。

2.根据权利要求1所述的抗变调干扰的音频指纹提取方法，其特征在于，用基于峰值点的能量段索引计算方法计算每帧信号对应的能量段索引的步骤包括：

利用峰值点判别方法找到音频中每帧信号对应的傅里叶系数的峰值点频率段，作为计算能量段索引的起始点；

利用恒定的对数间隔计算能量段索引值。

3.根据权利要求2所述的抗变调干扰的音频指纹提取方法，其特征在于，利用基于峰值点判别方法找到音频中每帧信号对应的傅里叶系数的峰值点频率段，作为计算能量段索引的起始点的步骤中，基于峰值点判别方法的步骤包括：

设定频率段位置阈值ε_freq，用以决定每帧音频信号中峰值点的位置；

设定p表示每一帧峰值点所处的频率段，通过比较确定每一帧音频信号对应的傅里叶系数中具有最大傅里叶系数的频率段，即峰值点所在的频率段p，且该频率段的位置应位于频率段位置阈值ε_freq规定的范围内。

4.根据权利要求3所述的抗变调干扰的音频指纹提取方法，其特征在于，利用恒定的对数间隔计算能量段索引值的步骤包括：

设定I(n)表示音频信号第n帧的能量段索引，将第n帧的p转化为对数，作为能量段索引I(n)的起始点，并逐次加以恒定的对数间隔d直至得到一定数量的能量段，将得到的能量段索引I(n)转化回与频率段对应的自然数值；

对音频信号的每一帧施以同样的前述操作得到音频信号的能量段索引。

5.根据权利要求2所述的抗变调干扰的音频指纹提取方法，其特征在于，利用能量段索引计算能量段值，并以二维过滤核过滤能量段提取指纹的步骤包括：

用能量段连续计算方法计算提取每帧子指纹依赖的能量段值；

用适配的二维过滤核提取指纹。

6.根据权利要求5所述的抗变调干扰的音频指纹提取方法，其特征在于，利用能量段连续计算方法计算每帧子指纹依赖的能量段值的步骤包括：

设定E(n,c,m)表示用能量段索引I(n)在第n帧音频信号对应的傅里叶系数上计算得到的第n帧第m段的能量段值，E(n,p,m)表示用能量段索引I(n)在第n-1帧音频信号对应的傅里叶系数上计算得到的第n帧第m段的能量段值；利用计算得到的能量段索引计算音频信号每一帧上的E(n,c,m)与E(n,p,m)。

7.根据权利要求6所述的抗变调干扰的音频指纹提取方法，其特征在于，利用适配的二维过滤核提取指纹的步骤包括：

设定F(n,m)表示音频第n帧子指纹的第m位，利用计算得到的E(n,c,m)与E(n,p,m)根据如下公式提取F(n,m)，有效组织后即为从音频内容中提取的指纹，公式表示为：

。

8.根据权利要求7所述的抗变调干扰的音频指纹提取方法，其特征在于，提取的音频指纹形式为0-1字符串的集合。