CN108091346A - 一种局部傅里叶变换的音频相似判断方法 - Google Patents

一种局部傅里叶变换的音频相似判断方法 Download PDF

Info

Publication number
CN108091346A
CN108091346A CN201711345157.8A CN201711345157A CN108091346A CN 108091346 A CN108091346 A CN 108091346A CN 201711345157 A CN201711345157 A CN 201711345157A CN 108091346 A CN108091346 A CN 108091346A
Authority
CN
China
Prior art keywords
audio
domain
frequency
frequency domain
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711345157.8A
Other languages
English (en)
Inventor
王祝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yixiang (dalian) Science And Technology Co Ltd
Original Assignee
Yixiang (dalian) Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yixiang (dalian) Science And Technology Co Ltd filed Critical Yixiang (dalian) Science And Technology Co Ltd
Priority to CN201711345157.8A priority Critical patent/CN108091346A/zh
Publication of CN108091346A publication Critical patent/CN108091346A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种局部傅里叶变换的音频相似判断方法。第一步,将音频平均切割成64段;第二步,将每个分割后的音频进行傅里叶频域变换,取频域最大的五个分割段,串接组成一个新的频谱;再进一步分割为32段;第三步,分别取频域谱和时域谱中,最大的值组成一个64位数列,先是32位频域值,后是32位时域值;第四步,分别求出32位频域值和32位时域值的均值;第五步,将每位频域值和32位时域与对应的均值做对比;大于或等于为1,小于为0;组成新的64位基于1、0的散列;第六步,比较两段音频的散列,得到位数不同的数量,小于或等于3,则音频相似。

Description

一种局部傅里叶变换的音频相似判断方法
技术领域
本发明涉及音频处理领域,特别涉及一种局部傅里叶变换的音频相似判断方法。
背景技术
音频的相似判断有很多种,在这里就不一一介绍。但是,适合工程使用的,需要具备一个必要的特点:快速;几十万首歌曲,需要几秒种的时间筛选完毕,因此,可以要求其准确率稍差,但是一定要快速;再快速筛选过后,可以再精确筛选或用人工筛选。
傅里叶变换,可以很好的提取音频的特征,而散列之后对比,取汉明距离,可以做到快速的处理数据。二者结合,可以快速的对音频做相似判断。
申请人在同时申请的“一种基于傅里叶变换的音频相似判断方法”和“一种傅里叶变换时域与频域的音频相似判断方法”,均是对整个音频做对比,但是音乐作品侵权往往仅是一小段,而通常这一小段是高潮部分,频域值较大。
发明内容
为了克服上述问题,本发明提供了一种傅里叶变换时域与频域的音频相似判断方法。
第一步,将音频平均切割成64段;
第二步,将每个分割后的音频进行傅里叶频域变换,取频域最大的五个分割段,串接组成一个新的频谱;再进一步分割为32段;
第三步,分别取频域谱和时域谱中,最大的值组成一个64位数列,先是32位频域值,后是32位时域值;
第四步,分别求出32位频域值和32位时域值的均值;
第五步,将每位频域值和32位时域与对应的均值做对比;大于或等于为1,小于为0;组成新的64位基于1、0的散列;
第六步,比较两段音频的散列,得到位数不同的数量,小于或等于3,则音频相似。
有益效果:本发明通过选取频域值较大的五段音频,之后将五段音频的时域与频域的信息做均值的散列,然后做对比,形成基于局部特征的比较方法。
具体实施方式
实施例:
第一步,将音频平均切割成64段;
第二步,将每个分割后的音频进行傅里叶频域变换,取频域最大的五个分割段,串接组成一个新的频谱;再进一步分割为32段;
第三步,分别取频域谱和时域谱中,最大的值组成一个64位数列,先是32位频域值,后是32位时域值;
第四步,分别求出32位频域值和32位时域值的均值;
第五步,将每位频域值和32位时域与对应的均值做对比;大于或等于为1,小于为0;组成新的64位基于1、0的散列;
第六步,比较两段音频的散列,得到位数不同的数量,小于或等于3,则音频相似。

Claims (1)

1.一种局部傅里叶变换的音频相似判断方法,包括以下步骤:
第一步,将音频平均切割成64段;
第二步,将每个分割后的音频进行傅里叶频域变换,取频域最大的五个分割段,串接组成一个新的频谱;再进一步分割为32段;
第三步,分别取频域谱和时域谱中,最大的值组成一个64位数列,先是32位频域值,后是32位时域值;
第四步,分别求出32位频域值和32位时域值的均值;
第五步,将每位频域值和32位时域与对应的均值做对比;大于或等于为1,小于为0;组成新的64位基于1、0的散列;
第六步,比较两段音频的散列,得到位数不同的数量,小于或等于3,
则音频相似。
CN201711345157.8A 2017-12-15 2017-12-15 一种局部傅里叶变换的音频相似判断方法 Withdrawn CN108091346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711345157.8A CN108091346A (zh) 2017-12-15 2017-12-15 一种局部傅里叶变换的音频相似判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711345157.8A CN108091346A (zh) 2017-12-15 2017-12-15 一种局部傅里叶变换的音频相似判断方法

Publications (1)

Publication Number Publication Date
CN108091346A true CN108091346A (zh) 2018-05-29

Family

ID=62176285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711345157.8A Withdrawn CN108091346A (zh) 2017-12-15 2017-12-15 一种局部傅里叶变换的音频相似判断方法

Country Status (1)

Country Link
CN (1) CN108091346A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079044A (zh) * 2006-05-25 2007-11-28 北大方正集团有限公司 一种音频片断之间相似度度量的方法
WO2012120531A2 (en) * 2011-02-02 2012-09-13 Makarand Prabhakar Karanjkar A method for fast and accurate audio content match detection
CN102750948A (zh) * 2011-04-19 2012-10-24 索尼公司 音乐搜索设备及方法、程序以及记录介质
CN103440873A (zh) * 2013-08-27 2013-12-11 大连理工大学 一种基于相似性的音乐推荐方法
EP3023884A1 (en) * 2014-11-21 2016-05-25 Thomson Licensing Method and apparatus for generating fingerprint of an audio signal
CN106484837A (zh) * 2016-09-30 2017-03-08 腾讯科技(北京)有限公司 相似视频文件的检测方法和装置
CN106935248A (zh) * 2017-02-14 2017-07-07 广州孩教圈信息科技股份有限公司 一种语音相似度检测方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079044A (zh) * 2006-05-25 2007-11-28 北大方正集团有限公司 一种音频片断之间相似度度量的方法
WO2012120531A2 (en) * 2011-02-02 2012-09-13 Makarand Prabhakar Karanjkar A method for fast and accurate audio content match detection
CN102750948A (zh) * 2011-04-19 2012-10-24 索尼公司 音乐搜索设备及方法、程序以及记录介质
CN103440873A (zh) * 2013-08-27 2013-12-11 大连理工大学 一种基于相似性的音乐推荐方法
EP3023884A1 (en) * 2014-11-21 2016-05-25 Thomson Licensing Method and apparatus for generating fingerprint of an audio signal
CN106484837A (zh) * 2016-09-30 2017-03-08 腾讯科技(北京)有限公司 相似视频文件的检测方法和装置
CN106935248A (zh) * 2017-02-14 2017-07-07 广州孩教圈信息科技股份有限公司 一种语音相似度检测方法及装置

Similar Documents

Publication Publication Date Title
CN104464726B (zh) 一种相似音频的确定方法及装置
CN107103908B (zh) 复调音乐多音高估计方法及伪双谱在多音高估计中的应用
US20060041753A1 (en) Fingerprint extraction
CN107274911A (zh) 一种基于声音特征的相似度分析方法
CN108665903A (zh) 一种音频信号相似程度的自动检测方法及其系统
CN106098079B (zh) 音频信号的信号提取方法与装置
CN110782915A (zh) 一种基于深度学习的波形音乐成分分离方法
CN104635223A (zh) 基于经验模式分解与分数阶傅里叶变换的激光回波去噪方法
Kamaladas et al. Fingerprint extraction of audio signal using wavelet transform
Srivastava et al. Histogram equalization: A comparative analysis & a segmented approach to process digital images
CN108680782B (zh) 基于极值点对称模式分解的电压闪变参数检测方法
WO2016091994A4 (en) Method and installation for processing a sequence of signals for polyphonic note recognition
CN108091346A (zh) 一种局部傅里叶变换的音频相似判断方法
Seo An asymmetric matching method for a robust binary audio fingerprinting
CN105353358B (zh) 一种基于索引差分的通用雷达脉冲信号提取方法
CN104882152B (zh) 生成歌词文件的方法及装置
Gulati et al. Discovering rāga motifs by characterizing communities in networks of melodic patterns
CN108039178A (zh) 一种傅里叶变换时域与频域的音频相似判断方法
CN104598598A (zh) 一种关系型数据标准性的评估方法
CN108091347A (zh) 一种基于傅里叶变换的音频相似判断方法
Wang et al. Audio fingerprint based on spectral flux for audio retrieval
CN104299621A (zh) 一种音频文件的节奏感强度获取方法及装置
CN105283915B (zh) 数字水印嵌入装置及方法以及数字水印检测装置及方法
Jiang An exponential-squared estimator in the autoregressive model with heavy-tailed errors
Jo et al. Melody pitch estimation based on range estimation and candidate extraction using harmonic structure model.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180529