CN110767248A - 一种抗变调干扰的音频指纹提取方法 - Google Patents

一种抗变调干扰的音频指纹提取方法 Download PDF

Info

Publication number
CN110767248A
CN110767248A CN201910833151.8A CN201910833151A CN110767248A CN 110767248 A CN110767248 A CN 110767248A CN 201910833151 A CN201910833151 A CN 201910833151A CN 110767248 A CN110767248 A CN 110767248A
Authority
CN
China
Prior art keywords
frame
energy segment
energy
fingerprint
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910833151.8A
Other languages
English (en)
Other versions
CN110767248B (zh
Inventor
褚仁杰
牛保宁
姚姗姗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201910833151.8A priority Critical patent/CN110767248B/zh
Publication of CN110767248A publication Critical patent/CN110767248A/zh
Application granted granted Critical
Publication of CN110767248B publication Critical patent/CN110767248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/14Transforming into visible information by displaying frequency domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Abstract

本发明公开了一种抗变调干扰的音频指纹提取方法,该方法的步骤包括:对音频信号分帧加窗,做傅里叶变换,收集每帧信号对应的傅里叶系数;在收集到的傅里叶系数中,用基于峰值点的能量段索引计算方法计算每帧信号对应的能量段索引;利用能量段索引计算能量段值,并以二维过滤核过滤能量段提取指纹。通过本发明,能够克服现有飞利浦指纹无法抵抗变调干扰的不足,在保持原飞利浦指纹的子指纹连续性和对各种噪声干扰鲁棒的前提下,增加对变调干扰的抵抗性。

Description

一种抗变调干扰的音频指纹提取方法
技术领域
本发明涉及音频信息检索领域,特别是涉及一种抗变调干扰的音频指纹提取方法。
背景技术
随着信息电子技术与移动互联网在全世界范围的广泛发展、音频编解码技术的迅猛发展以及高容量存储介质的诞生,网络中的数字音频资源数量呈现指数级别的增长。海量的网络数字音频资源给人们带来极大便利的同时,对于其网络版权保护也随着现阶段互联网数字音频管理体系和版权保护制度的发展而逐渐引起重视。为了对网络用户随意上传或下载的数字音频资源与更改后的音频内容进行版权监控,保护数字音频资源版权拥有者的合法权益,需要音频检索技术。
目前主要的音频检索方法分为基于文本和基于内容两大类,在版权监控及其它如听歌识曲等应用中主要依赖基于内容的音频检索方法。基于内容的音频指纹检索是将待检索音频指纹与音频指纹数据库中的指纹进行相似度匹配,通过比较相似度获取检索结果的过程。
音频指纹是检索准确与高效的基础。提取的指纹需有强代表性,高区分性与高鲁棒性,但是目前没有一种音频指纹对所有类型的噪音干扰都鲁棒。飞利浦(Philips)指纹与沙赞(Shazam)指纹是音频指纹的两类代表。在对飞利浦指纹改进时多基于改变提取指纹所依据的信息,原指纹无法抵抗大于±4%的变速干扰,Joe等人利用傅里叶变换的相位信息将这一范围提高到±10%。这是类飞利浦指纹的常见问题。在对沙赞指纹改进时,多是考虑利用峰值点的变换不变性组合形成指纹,Quads指纹是其中的代表,可以抵抗极其严重的变速干扰,但在GSM压缩干扰下表现不佳。
随着大数据时代的到来,音频指纹检索方法中检索方法在应对大规模音频数据时需要保持检索高效与精确。增强型采样技术方法(enhanced Sampling and Counting,eSC)是为类飞利浦指纹提出的高效的检索方法。eSC通过在过滤阶段对音频子指纹采样和对匹配对计数取得高效性,快速过滤掉大部分不相关的音频,得到一个比原始数据库小很多的候选音频集;在精确匹配阶段采用转折点匹配方法进行待检索音频与候选集音频的配对,获得对变速干扰中时间延展干扰的抵抗性,但是仍然没有解决飞利浦指纹弱变调干扰的缺点。
发明内容
本发明主要为解决现有技术的不足之处而提供一种抗变调干扰的音频指纹提取方法。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种抗变调干扰的音频指纹提取方法,该方法的步骤包括:对音频信号分帧加窗,做傅里叶变换,收集每帧信号对应的傅里叶系数;在收集到的傅里叶系数中,用基于峰值点的能量段索引计算方法计算每帧信号对应的能量段索引;利用能量段索引计算能量段值,并以二维过滤核过滤能量段提取指纹。
其中,用基于峰值点的能量段索引计算方法计算每帧信号对应的能量段索引的步骤包括:利用峰值点判别方法找到音频中每帧信号对应的傅里叶系数的峰值点频率段,作为计算能量段索引的起始点;利用恒定的对数间隔计算能量段索引值。
其中,利用基于峰值点判别方法找到音频中每帧信号对应的傅里叶系数的峰值点频率段,作为计算能量段索引的起始点的步骤中,基于峰值点判别方法的步骤包括:
设定频率段位置阈值εfreq用以决定每帧音频信号中峰值点的位置;设定p表示每一帧峰值点所处的频率段,通过比较确定每一帧音频信号对应的傅里叶系数中具有最大傅里叶系数的频率段,即峰值点所在的频率段p,且该频率段的位置应位于频率段位置阈值εfreq规定的范围内。
其中,利用恒定的对数间隔计算能量段索引值的步骤包括:设定I(n)表示音频信号第n帧的能量段索引,将第n帧的p转化为对数,作为能量段索引I(n)的起始点,并逐次加以恒定的对数间隔d直至得到一定数量的能量段,将得到的能量段索引I(n)转化回与频率段对应的自然数值;对音频信号的每一帧施以同样的前述操作得到音频信号的能量段索引。
其中,利用能量段索引计算能量段值,并以二维过滤核过滤能量段提取指纹的步骤包括:用能量段连续计算方法计算提取每帧子指纹依赖的能量段值;用适配的二维过滤核提取指纹。
其中,利用能量段连续计算方法计算每帧子指纹依赖的能量段值的步骤包括:设定E(n,c,m)表示用能量段索引I(n)在第n帧音频信号对应的傅里叶系数上计算得到的第n帧第m段的能量段值,E(n,p,m)表示用能量段索引I(n)在第n-1帧音频信号对应的傅里叶系数上计算得到的第n帧第m段的能量段值。利用计算得到的能量段索引计算音频信号每一帧上的E(n,c,m)与E(n,p,m)。
其中,利用适配的二维过滤核提取指纹的步骤包括:设定F(n,m)表示音频第n帧子指纹的第m位,利用计算得到的E(n,c,m)与E(n,p,m)根据如下公式提取F(n,m),有效组织后即为从音频内容中提取的指纹。
Figure 49939DEST_PATH_IMAGE001
其中,提取的音频指纹形式为0-1字符串的集合。
区别于现有技术,本发明的抗变调干扰的音频指纹提取方法的步骤包括:对音频信号分帧加窗,做傅里叶变换,收集每帧信号对应的傅里叶系数;在收集到的傅里叶系数中,用基于峰值点的能量段索引计算方法计算每帧信号对应的能量段索引;利用能量段索引计算能量段值,并以二维过滤核过滤能量段提取指纹。通过本发明,能够克服现有飞利浦指纹无法抵抗变调干扰的不足,在保持原飞利浦指纹的子指纹连续性和对各种噪声干扰鲁棒的前提下,增加对变调干扰的抵抗性。
附图说明
图1是本发明提供的一种抗变调干扰的音频指纹提取方法的流程示意图。
具体实施方式
下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
参阅图1,图1是本发明提供的一种抗变调干扰的音频指纹提取方法的流程示意图。该方法的步骤包括:
S110:对音频信号分帧加窗,做傅里叶变换,收集每帧信号对应的傅里叶系数。
在本发明中,通过使用较高的窗长与较短的分帧间隔,可以提高后续计算能量段索引的精确度,提升指纹的鲁棒性。
S120:在收集到的傅里叶系数中,用基于峰值点的能量段索引计算方法计算每帧信号对应的能量段索引。
S130:利用能量段索引计算能量段值,并以二维过滤核过滤能量段提取指纹。
本发明在进行音频指纹提取时,可以达到在不影响子指纹连续性和略微降低对其它噪声干扰的鲁棒性的前提下,扩充指纹有鲁棒性的范围,得到提取指纹对变调干扰鲁棒的结果。
所述基于峰值点的能量段索引计算方法包括下述内容:
(1)利用峰值点判别方法找到音频中每帧信号对应的傅里叶系数的峰值点频率段,作为计算能量段索引的起始点;
(2)利用恒定的对数间隔计算能量段索引值。
所述峰值点判别方法如下:
在对大量经过变调干扰的音频信号进行了可视化分析之后,如果将音频信号时频谱图中每一帧处于低频区域且具有最大傅里叶系数的频率段称为峰值点,则干扰前后的音频在峰值点的位置上有着一一对应的关系,且干扰后的峰值点位置普遍为干扰前对应的峰值点位置乘以干扰系数。在这样的情况下设定频率段位置阈值εfreq用以决定每帧音频信号中峰值点的位置;设定p表示每一帧峰值点所处的频率段,通过比较确定每一帧音频信号对应的傅里叶系数中具有最大傅里叶系数的频率段,即峰值点所在的频率段p,且该频率段的位置应位于频率段位置阈值εfreq规定的范围内。
所述利用恒定的对数间隔计算能量段索引值的方法如下:
由于干扰后的峰值点位置普遍为干扰前对应的峰值点位置乘以干扰系数,对于其它傅里叶系数也是一样。设定I(n)表示音频信号第n帧的能量段索引,将第n帧的p转化为对数,作为能量段索引I(n)的起始点,并逐次加以恒定的对数间隔d直至得到一定数量的能量段,将得到的能量段索引I(n)转化回与频率段对应的自然数值;对音频信号的每一帧施以同样的前述操作得到音频信号的能量段索引。
所述利用能量段索引计算能量段值,并以二维过滤核过滤能量段提取指纹包括下述内容:
(1)用能量段连续计算方法计算提取每帧子指纹依赖的能量段值;
(2)用适配的二维过滤核提取指纹。
所述能量段连续计算方法如下:
提取指纹依赖于能量段,为了保证子指纹的连续性,需要设定E(n,c,m)表示用能量段索引I(n)在第n帧音频信号对应的傅里叶系数上计算得到的第n帧第m段的能量段值,E(n,p,m)表示用能量段索引I(n)在第n-1帧音频信号对应的傅里叶系数上计算得到的第n帧第m段的能量段值。利用计算得到的能量段索引计算音频信号每一帧上的E(n,c,m)与E(n,p,m)。
所述适配的二维过滤核提取指纹方法如下:
由于采取的能量段计算方式与原飞利浦指纹不同,需要适配更改,设定F(n,m)表示音频第n帧子指纹的第m位,利用计算得到的E(n,c,m)与E(n,p,m)根据如下公式提取F(n,m),有效组织后即为从音频内容中提取的指纹。
Figure 781134DEST_PATH_IMAGE001
所述音频指纹形式为0-1字符串的集合。
以上基于峰值点的能量段索引计算方法与依据能量段进行指纹提取的方法,应用在音频指纹提取中,可以抵抗变调干扰造成的指纹变动,实现对变调干扰音频的检索。
具体的,首先将音频信号用帧长为N,帧间隔为H的短时傅里叶变换转化为时频谱图。
依次识别时频谱图每帧上频率段位置处于εfreq范围内且具有该范围内最大傅里叶系数的频率段,称之为峰值点p。
每一帧能量段索引I(n)就可以通过每一帧峰值点p的位置和恒定对数间距d求得:将p转化为对数,逐次加上d直至得到需求的能量段数,并将对数索引变换回与频率段对应的自然数。
每一帧指纹提取依赖的能量段E(n,c,m)与E(n,p,m)就可以通过I(n)分别在当前帧与前一帧的傅里叶系数上求得,每一段间的能量值为当前段索引上下限间的傅里叶系数加和。
Figure 462914DEST_PATH_IMAGE002
在采用上述能量段计算方式与如下公式提取指纹后,可以保证子指纹的连续性与对变调干扰的鲁棒性。
区别于现有技术,本发明的抗变调干扰的音频指纹提取方法的步骤包括:对音频信号分帧加窗,做傅里叶变换,收集每帧信号对应的傅里叶系数;在收集到的傅里叶系数中,用基于峰值点的能量段索引计算方法计算每帧信号对应的能量段索引;利用能量段索引计算能量段值,并以二维过滤核过滤能量段提取指纹。通过本发明,能够克服现有飞利浦指纹无法抵抗变调干扰的不足,在保持原飞利浦指纹的子指纹连续性和对各种噪声干扰鲁棒的前提下,增加对变调干扰的抵抗性。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种抗变调干扰的音频指纹提取方法,其特征在于,包括:
对音频信号分帧加窗,做傅里叶变换,收集每帧信号对应的傅里叶系数;
在收集到的傅里叶系数中,用基于峰值点的能量段索引计算方法计算每帧信号对应的能量段索引;
利用能量段索引计算能量段值,并以二维过滤核过滤能量段提取指纹。
2.根据权利要求1所述的抗变调干扰的音频指纹提取方法,其特征在于,用基于峰值点的能量段索引计算方法计算每帧信号对应的能量段索引的步骤包括:
利用峰值点判别方法找到音频中每帧信号对应的傅里叶系数的峰值点频率段,作为计算能量段索引的起始点;
利用恒定的对数间隔计算能量段索引值。
3.根据权利要求2所述的抗变调干扰的音频指纹提取方法,其特征在于,利用基于峰值点判别方法找到音频中每帧信号对应的傅里叶系数的峰值点频率段,作为计算能量段索引的起始点的步骤中,基于峰值点判别方法的步骤包括:
设定频率段位置阈值εfreq,用以决定每帧音频信号中峰值点的位置;
设定p表示每一帧峰值点所处的频率段,通过比较确定每一帧音频信号对应的傅里叶系数中具有最大傅里叶系数的频率段,即峰值点所在的频率段p,且该频率段的位置应位于频率段位置阈值εfreq规定的范围内。
4.根据权利要求3所述的抗变调干扰的音频指纹提取方法,其特征在于,利用恒定的对数间隔计算能量段索引值的步骤包括:
设定I(n)表示音频信号第n帧的能量段索引,将第n帧的p转化为对数,作为能量段索引I(n)的起始点,并逐次加以恒定的对数间隔d直至得到一定数量的能量段,将得到的能量段索引I(n)转化回与频率段对应的自然数值;
对音频信号的每一帧施以同样的前述操作得到音频信号的能量段索引。
5.根据权利要求2所述的抗变调干扰的音频指纹提取方法,其特征在于,利用能量段索引计算能量段值,并以二维过滤核过滤能量段提取指纹的步骤包括:
用能量段连续计算方法计算提取每帧子指纹依赖的能量段值;
用适配的二维过滤核提取指纹。
6.根据权利要求5所述的抗变调干扰的音频指纹提取方法,其特征在于,利用能量段连续计算方法计算每帧子指纹依赖的能量段值的步骤包括:
设定E(n,c,m)表示用能量段索引I(n)在第n帧音频信号对应的傅里叶系数上计算得到的第n帧第m段的能量段值,E(n,p,m)表示用能量段索引I(n)在第n-1帧音频信号对应的傅里叶系数上计算得到的第n帧第m段的能量段值;利用计算得到的能量段索引计算音频信号每一帧上的E(n,c,m)与E(n,p,m)。
7.根据权利要求6所述的抗变调干扰的音频指纹提取方法,其特征在于,利用适配的二维过滤核提取指纹的步骤包括:
设定F(n,m)表示音频第n帧子指纹的第m位,利用计算得到的E(n,c,m)与E(n,p,m)根据如下公式提取F(n,m),有效组织后即为从音频内容中提取的指纹,公式表示为:
8.根据权利要求7所述的抗变调干扰的音频指纹提取方法,其特征在于,提取的音频指纹形式为0-1字符串的集合。
CN201910833151.8A 2019-09-04 2019-09-04 一种抗变调干扰的音频指纹提取方法 Active CN110767248B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910833151.8A CN110767248B (zh) 2019-09-04 2019-09-04 一种抗变调干扰的音频指纹提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910833151.8A CN110767248B (zh) 2019-09-04 2019-09-04 一种抗变调干扰的音频指纹提取方法

Publications (2)

Publication Number Publication Date
CN110767248A true CN110767248A (zh) 2020-02-07
CN110767248B CN110767248B (zh) 2022-03-22

Family

ID=69329413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910833151.8A Active CN110767248B (zh) 2019-09-04 2019-09-04 一种抗变调干扰的音频指纹提取方法

Country Status (1)

Country Link
CN (1) CN110767248B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214635A (zh) * 2020-10-23 2021-01-12 昆明理工大学 一种基于倒频谱分析的快速音频检索方法
CN112784099A (zh) * 2021-01-29 2021-05-11 山西大学 抵抗变调干扰的采样计数音频检索方法
CN114036341A (zh) * 2022-01-10 2022-02-11 腾讯科技(深圳)有限公司 音乐标签的预测方法、相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100115849A (ko) * 2009-04-21 2010-10-29 서울대학교산학협력단 다중 해싱에 기초한 오디오 핑거프린팅 시스템
CN103294696A (zh) * 2012-02-27 2013-09-11 盛乐信息技术(上海)有限公司 音视频内容检索方法及系统
CN104050259A (zh) * 2014-06-16 2014-09-17 上海大学 一种基于som算法的音频指纹提取方法
CN107633078A (zh) * 2017-09-25 2018-01-26 北京达佳互联信息技术有限公司 音频指纹提取方法、音视频检测方法、装置及终端
CN108509558A (zh) * 2018-03-23 2018-09-07 太原理工大学 一种抗变速干扰的采样计数音频检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100115849A (ko) * 2009-04-21 2010-10-29 서울대학교산학협력단 다중 해싱에 기초한 오디오 핑거프린팅 시스템
CN103294696A (zh) * 2012-02-27 2013-09-11 盛乐信息技术(上海)有限公司 音视频内容检索方法及系统
CN104050259A (zh) * 2014-06-16 2014-09-17 上海大学 一种基于som算法的音频指纹提取方法
CN107633078A (zh) * 2017-09-25 2018-01-26 北京达佳互联信息技术有限公司 音频指纹提取方法、音视频检测方法、装置及终端
CN108509558A (zh) * 2018-03-23 2018-09-07 太原理工大学 一种抗变速干扰的采样计数音频检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAITSMA J 等: "A highly robust audio fingerprinting system", 《3RD INTERNATIONAL CONFERENCE ON》 *
孙宁 等: "一种改进的Philips音频指纹检索算法", 《计算机工程》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214635A (zh) * 2020-10-23 2021-01-12 昆明理工大学 一种基于倒频谱分析的快速音频检索方法
CN112784099A (zh) * 2021-01-29 2021-05-11 山西大学 抵抗变调干扰的采样计数音频检索方法
CN112784099B (zh) * 2021-01-29 2022-11-11 山西大学 抵抗变调干扰的采样计数音频检索方法
CN114036341A (zh) * 2022-01-10 2022-02-11 腾讯科技(深圳)有限公司 音乐标签的预测方法、相关设备
CN114036341B (zh) * 2022-01-10 2022-03-29 腾讯科技(深圳)有限公司 音乐标签的预测方法、相关设备

Also Published As

Publication number Publication date
CN110767248B (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
CN110767248B (zh) 一种抗变调干扰的音频指纹提取方法
TWI480855B (zh) 聲音訊號之特徵指紋擷取與匹配
JP4885842B2 (ja) コンテンツ、特に2つのコンピュータファイルに共通する抽出部分の検索方法
CN108509558B (zh) 一种抗变速干扰的采样计数音频检索方法
WO2013029838A1 (en) A method to generate audio fingerprints
WO2004030341A1 (en) Fingerprint extraction
Zhang et al. SIFT-based local spectrogram image descriptor: a novel feature for robust music identification
CN110600038B (zh) 一种基于离散基尼系数的音频指纹降维方法
CN103729368A (zh) 一种基于局部频谱图像描述子的鲁棒音频识别方法
CN105975568A (zh) 一种音频处理方法及装置
Kamaladas et al. Fingerprint extraction of audio signal using wavelet transform
CN111583957B (zh) 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法
CN101594527B (zh) 从音频视频流中高精度检测模板的两阶段方法
CN108564967B (zh) 面向哭声检测系统的Mel能量声纹特征提取方法
Thiruvengatanadhan Music Classification using MFCC and SVM
CN111445924B (zh) 基于自回归模型系数检测定位语音片段内平滑处理的方法
CN116884431A (zh) 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置
CN103294696A (zh) 音视频内容检索方法及系统
WO2021088176A1 (zh) 基于二值多频带能量分布的低信噪比声音事件检测方法
CN111382302B (zh) 一种基于变速模板的音频样例检索方法
Wang et al. Automatic audio segmentation using the generalized likelihood ratio
Roopalakshmi et al. A novel approach to video copy detection using audio fingerprints and PCA
Liu et al. DCT based multiple hashing technique for robust audio fingerprinting
CN113990297A (zh) 一种基于enf的音频篡改识别方法
Htun Analytical approach to MFCC based space-saving audio fingerprinting system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant