CN108091346A - 一种局部傅里叶变换的音频相似判断方法 - Google Patents
一种局部傅里叶变换的音频相似判断方法 Download PDFInfo
- Publication number
- CN108091346A CN108091346A CN201711345157.8A CN201711345157A CN108091346A CN 108091346 A CN108091346 A CN 108091346A CN 201711345157 A CN201711345157 A CN 201711345157A CN 108091346 A CN108091346 A CN 108091346A
- Authority
- CN
- China
- Prior art keywords
- audio
- domain
- frequency
- frequency domain
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 8
- 238000001228 spectrum Methods 0.000 claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 230000009466 transformation Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种局部傅里叶变换的音频相似判断方法。第一步,将音频平均切割成64段;第二步,将每个分割后的音频进行傅里叶频域变换,取频域最大的五个分割段,串接组成一个新的频谱;再进一步分割为32段;第三步,分别取频域谱和时域谱中,最大的值组成一个64位数列,先是32位频域值,后是32位时域值;第四步,分别求出32位频域值和32位时域值的均值;第五步,将每位频域值和32位时域与对应的均值做对比;大于或等于为1,小于为0;组成新的64位基于1、0的散列;第六步,比较两段音频的散列,得到位数不同的数量,小于或等于3,则音频相似。
Description
技术领域
本发明涉及音频处理领域,特别涉及一种局部傅里叶变换的音频相似判断方法。
背景技术
音频的相似判断有很多种,在这里就不一一介绍。但是,适合工程使用的,需要具备一个必要的特点:快速;几十万首歌曲,需要几秒种的时间筛选完毕,因此,可以要求其准确率稍差,但是一定要快速;再快速筛选过后,可以再精确筛选或用人工筛选。
傅里叶变换,可以很好的提取音频的特征,而散列之后对比,取汉明距离,可以做到快速的处理数据。二者结合,可以快速的对音频做相似判断。
申请人在同时申请的“一种基于傅里叶变换的音频相似判断方法”和“一种傅里叶变换时域与频域的音频相似判断方法”,均是对整个音频做对比,但是音乐作品侵权往往仅是一小段,而通常这一小段是高潮部分,频域值较大。
发明内容
为了克服上述问题,本发明提供了一种傅里叶变换时域与频域的音频相似判断方法。
第一步,将音频平均切割成64段;
第二步,将每个分割后的音频进行傅里叶频域变换,取频域最大的五个分割段,串接组成一个新的频谱;再进一步分割为32段;
第三步,分别取频域谱和时域谱中,最大的值组成一个64位数列,先是32位频域值,后是32位时域值;
第四步,分别求出32位频域值和32位时域值的均值;
第五步,将每位频域值和32位时域与对应的均值做对比;大于或等于为1,小于为0;组成新的64位基于1、0的散列;
第六步,比较两段音频的散列,得到位数不同的数量,小于或等于3,则音频相似。
有益效果:本发明通过选取频域值较大的五段音频,之后将五段音频的时域与频域的信息做均值的散列,然后做对比,形成基于局部特征的比较方法。
具体实施方式
实施例:
第一步,将音频平均切割成64段;
第二步,将每个分割后的音频进行傅里叶频域变换,取频域最大的五个分割段,串接组成一个新的频谱;再进一步分割为32段;
第三步,分别取频域谱和时域谱中,最大的值组成一个64位数列,先是32位频域值,后是32位时域值;
第四步,分别求出32位频域值和32位时域值的均值;
第五步,将每位频域值和32位时域与对应的均值做对比;大于或等于为1,小于为0;组成新的64位基于1、0的散列;
第六步,比较两段音频的散列,得到位数不同的数量,小于或等于3,则音频相似。
Claims (1)
1.一种局部傅里叶变换的音频相似判断方法,包括以下步骤:
第一步,将音频平均切割成64段;
第二步,将每个分割后的音频进行傅里叶频域变换,取频域最大的五个分割段,串接组成一个新的频谱;再进一步分割为32段;
第三步,分别取频域谱和时域谱中,最大的值组成一个64位数列,先是32位频域值,后是32位时域值;
第四步,分别求出32位频域值和32位时域值的均值;
第五步,将每位频域值和32位时域与对应的均值做对比;大于或等于为1,小于为0;组成新的64位基于1、0的散列;
第六步,比较两段音频的散列,得到位数不同的数量,小于或等于3,
则音频相似。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711345157.8A CN108091346A (zh) | 2017-12-15 | 2017-12-15 | 一种局部傅里叶变换的音频相似判断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711345157.8A CN108091346A (zh) | 2017-12-15 | 2017-12-15 | 一种局部傅里叶变换的音频相似判断方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108091346A true CN108091346A (zh) | 2018-05-29 |
Family
ID=62176285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711345157.8A Withdrawn CN108091346A (zh) | 2017-12-15 | 2017-12-15 | 一种局部傅里叶变换的音频相似判断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108091346A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079044A (zh) * | 2006-05-25 | 2007-11-28 | 北大方正集团有限公司 | 一种音频片断之间相似度度量的方法 |
WO2012120531A2 (en) * | 2011-02-02 | 2012-09-13 | Makarand Prabhakar Karanjkar | A method for fast and accurate audio content match detection |
CN102750948A (zh) * | 2011-04-19 | 2012-10-24 | 索尼公司 | 音乐搜索设备及方法、程序以及记录介质 |
CN103440873A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种基于相似性的音乐推荐方法 |
EP3023884A1 (en) * | 2014-11-21 | 2016-05-25 | Thomson Licensing | Method and apparatus for generating fingerprint of an audio signal |
CN106484837A (zh) * | 2016-09-30 | 2017-03-08 | 腾讯科技(北京)有限公司 | 相似视频文件的检测方法和装置 |
CN106935248A (zh) * | 2017-02-14 | 2017-07-07 | 广州孩教圈信息科技股份有限公司 | 一种语音相似度检测方法及装置 |
-
2017
- 2017-12-15 CN CN201711345157.8A patent/CN108091346A/zh not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079044A (zh) * | 2006-05-25 | 2007-11-28 | 北大方正集团有限公司 | 一种音频片断之间相似度度量的方法 |
WO2012120531A2 (en) * | 2011-02-02 | 2012-09-13 | Makarand Prabhakar Karanjkar | A method for fast and accurate audio content match detection |
CN102750948A (zh) * | 2011-04-19 | 2012-10-24 | 索尼公司 | 音乐搜索设备及方法、程序以及记录介质 |
CN103440873A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种基于相似性的音乐推荐方法 |
EP3023884A1 (en) * | 2014-11-21 | 2016-05-25 | Thomson Licensing | Method and apparatus for generating fingerprint of an audio signal |
CN106484837A (zh) * | 2016-09-30 | 2017-03-08 | 腾讯科技(北京)有限公司 | 相似视频文件的检测方法和装置 |
CN106935248A (zh) * | 2017-02-14 | 2017-07-07 | 广州孩教圈信息科技股份有限公司 | 一种语音相似度检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104464726B (zh) | 一种相似音频的确定方法及装置 | |
CN107103908B (zh) | 复调音乐多音高估计方法及伪双谱在多音高估计中的应用 | |
US20060041753A1 (en) | Fingerprint extraction | |
CN107274911A (zh) | 一种基于声音特征的相似度分析方法 | |
CN108665903A (zh) | 一种音频信号相似程度的自动检测方法及其系统 | |
CN106098079B (zh) | 音频信号的信号提取方法与装置 | |
CN110782915A (zh) | 一种基于深度学习的波形音乐成分分离方法 | |
CN104635223A (zh) | 基于经验模式分解与分数阶傅里叶变换的激光回波去噪方法 | |
Kamaladas et al. | Fingerprint extraction of audio signal using wavelet transform | |
Srivastava et al. | Histogram equalization: A comparative analysis & a segmented approach to process digital images | |
CN108680782B (zh) | 基于极值点对称模式分解的电压闪变参数检测方法 | |
WO2016091994A4 (en) | Method and installation for processing a sequence of signals for polyphonic note recognition | |
CN108091346A (zh) | 一种局部傅里叶变换的音频相似判断方法 | |
Seo | An asymmetric matching method for a robust binary audio fingerprinting | |
CN105353358B (zh) | 一种基于索引差分的通用雷达脉冲信号提取方法 | |
CN104882152B (zh) | 生成歌词文件的方法及装置 | |
Gulati et al. | Discovering rāga motifs by characterizing communities in networks of melodic patterns | |
CN108039178A (zh) | 一种傅里叶变换时域与频域的音频相似判断方法 | |
CN104598598A (zh) | 一种关系型数据标准性的评估方法 | |
CN108091347A (zh) | 一种基于傅里叶变换的音频相似判断方法 | |
Wang et al. | Audio fingerprint based on spectral flux for audio retrieval | |
CN104299621A (zh) | 一种音频文件的节奏感强度获取方法及装置 | |
CN105283915B (zh) | 数字水印嵌入装置及方法以及数字水印检测装置及方法 | |
Jiang | An exponential-squared estimator in the autoregressive model with heavy-tailed errors | |
Jo et al. | Melody pitch estimation based on range estimation and candidate extraction using harmonic structure model. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180529 |