CN103065661A - 录制媒体的信号侦测方法 - Google Patents
录制媒体的信号侦测方法 Download PDFInfo
- Publication number
- CN103065661A CN103065661A CN2012105322318A CN201210532231A CN103065661A CN 103065661 A CN103065661 A CN 103065661A CN 2012105322318 A CN2012105322318 A CN 2012105322318A CN 201210532231 A CN201210532231 A CN 201210532231A CN 103065661 A CN103065661 A CN 103065661A
- Authority
- CN
- China
- Prior art keywords
- media segment
- feature
- recording medium
- index
- signal detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 47
- 239000012634 fragment Substances 0.000 claims description 33
- 239000000284 extract Substances 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 9
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Television Signal Processing For Recording (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
一种录制媒体的信号侦测方法,录制与分析媒体装置的信号内容,与内容提供商所提供的信号内容信息相互比较,从而侦测出相似的信号内容片段。本发明可应用于行动装置上,通过录音录像的方式找寻相似的歌曲或电影;也可应用于电子储存设备中,自动分析及标记及整理数字内容。
Description
技术领域
本发明是关于一种在录制媒体中信号侦测的方法,特别为一种利用信号处理与比对技术,将录制的信号与内容提供商所提供的信号相互比对,自动侦测相似片段的方法。
背景技术
随着科技进步,多媒体信息已成为我们生活的重心,在多媒体搜寻这个议题上,如何快速地响应使用者的需求一直都是热门的研究主题,特别是在这个信息爆炸的年代,信息量更以倍数的速度成长,如果单靠人工方式进行搜寻,既耗时又费力。因此我们希望利用数据索引技术,从原本杂乱无章的数据中,萃取出与使用者兴趣相近的内涵特征,进而达到快速而有效的检索搜寻。
目前多媒体数据的检索技术,主要是以多媒体本身的文字信息作为判断,在先前的专利技术中有提及类似的概念:台湾DigitalInn公开号200307874,此专利是一种方法与系统,其使用便携设备,将音档上传服务器,利用其音频指纹辨识音文件内容并比对搜寻数据库内相同的音文件,然而该专利中,音频指纹只限于一首歌曲被播出的时间、地区等周边文字信息,并不包括音乐本身撷取出的音频信息。
另外文献中也有利用音频信息的方法,如Microsoft台湾专利号:I329455是一种自多媒体串流中辨识和撷取重复声音或视讯对象的系统与方法,使用自我相关系数做为辨识准则,然而该专利不包括加速搜寻的索引技术,且用于比对的音乐特征如BPM以及Bark Spectra应该无法有效辨识音乐片段。又如HP专利美国专利号6995309,是一种用于音乐识别的系统与方法,录制音乐样本,产生该样本的特征向量,与曲库中的音乐特征向量,一同计算特征差异,若符合歌曲匹配规则,则提供歌曲信息给用户。本篇专利重在其匹配比对方法,使用FFT重迭存取卷积及夹角余弦公式计算;至于特征抽取方法则不在专利宣告范围内;Dolby专利美国专利号US20100205174,是一种使用多个搜寻组合改良音频/视讯指纹搜寻正确性的技术。
针对音频/视讯片段,取得其指纹特征,并在数据库中搜寻指纹以获得可能的匹配。指纹之间差值测量的方法,有汉明距离、位错误率、Lp范数、L2距离、自相关系数等,若有符合,则反馈搜寻成功信息给用户,若不符合,则会反馈搜寻结果没有存在数据库中。前述两篇专利的缺点为数学运算多,计算量大,反馈速度较慢。此外GraceNote专利US7,549,051B2以讯号的Time-Frequencycomponents的一阶变化为基础的音频指纹建立索引与pattern match;Shazam专利US2009/0265174A9以讯号Time-Frequency landmarks为基础并产生频率峰值对的invariant/variant两种哈希数值,搜寻时先比对invariant pattern找出所有可能的频率峰值对再运用相对时间偏移的histogram统计找出有线性关系(histogram peak)的音乐。
前述两篇专利皆只能用于音乐档案,无法处理多媒体影片。
由此可见,上述传统方式仍有许多不足,不是一个完善的设计,而亟待加以改良。
发明内容
随着压缩方式快速发展,数字内容已成为生活中的一部份,在这样的环境下,经常会发生我们对某些内容很感兴趣、却无法使用传统关键词搜寻的方法来找出该内容的信息。而利用录制媒体搜寻的方式可以在这种情形下达到搜寻该数字内容的目标。例如:当我们听到一首很感兴趣的音乐,但却又不晓得任何有关该音乐的信息,这时可以利用录音装置记录音乐片段,然后利用搜寻系统对这段音乐进行特征值分析,进而找出其低阶特征值,之后利用这些低阶特征值找出在音乐数据库中最有可能包括该音乐片段的音乐,如此一来即使我们无法对该音乐下关键词,系统也可以依照音乐本身的特性进而完成搜寻的工作。
本发明的目的即在于提出一种录制媒体的信号侦测的方法,可应用于行动装置上,通过录音录像的方式找寻相似的歌曲或电影;也可应用于电子储存设备中,自动分析及标记及整理数字内容。
达成上述发明目的的录制媒体信号侦测方法,将内容提供商所提供的信号内容信息进行特征抽取、分群并建立索引,当用户想要查询某个媒体信号时,可录制与分析媒体装置的信号内容,进行特征抽取并求出每个特征和内容提供商的群中心的间的距离,取最小的距离的群作为代表,接着利用索引文件找出该代表所对应的内容位置,计算录制的信号内容与那位置附近的内容相似度,以判断出最相似的信号内容片段。
本发明提供一种录制媒体的信号侦测方法,与其他传统技术相互比较时,具备下列优点:
1.可自动处理多媒体内容,产生多媒体索引;
2.可通过录制媒体信号的方式自动找出对应的多媒体内容片段;
3.可自动分析电子储存设备中的数字内容,进行自动标记与整理;
4.利用编码及取样技术,可较为快速地找出结果;
5.利用分群及容错技术,可有效对抗录制媒体信号时的干扰或噪声。
附图说明
图1为本发明的多媒体内容索引建立方法实施例的流程图;
图2为本发明的录制媒体信号侦测方法实施例的流程图;
图3为多媒体内容索引建立方法及录制媒体信号侦测方法的时序分割及特征抽取步骤示意图;
图4为多媒体内容索引建立方法及录制媒体信号侦测方法的特征编码范例;以及
图5为多媒体内容索引建立方法的建立索引的范例;
附图标记说明
100 时序分割;
200 特征抽取;
300 特征编码;
400 建立索引;
500 索引比对。
具体实施方式
为能更进一步了解本发明的技术内容,以一较佳具体实施例配合说明如下。
本发明为一种录制媒体的信号侦测方法,通过录制多媒体信号内容,进行分析与处理,搜寻相似多媒体片段,其至少包括相连接的多媒体索引建立方法与录制媒体索引比对方法。
其中,上述该多媒体索引建立方法其步骤可包括:
a.时序分割,将N个多媒体档案,编号1~N,按照时间顺序分割成长度为若干秒的多媒体片段,每个片段都命名为该多媒体档案编号加上底线及一个时间片段序号,这个序号等于该片段开头在源文件中是第几秒。
b.特征抽取,步骤a.该些多媒体片段若为视讯,则抽取960个维度的场景导向特征(GIST);若为音讯,则抽取13维度的梅尔频率倒频谱特征(MFCC)。
c.特征编码,步骤b.中每一片段所抽取的特征,与其后一片段所抽取的特征,每一维度的差异进行二元化编码,若两者差异大于0则编码成1,否则编码成0,故若多媒体片段为视讯,则每一片段将会有960个维度0或是1,若多媒体片段为音频,则每一片段有13个维度0或是1,以下称为特征编码。
d.建立索引。
然而,上述的步骤d该建立索引系为建立出多媒体索引,即依据该些特征编码,将这些特征编码利用分群演算法分群并取得群中心,将每个特征编码所对应的多媒体档案编号与时间片段序号,纪录在距离该二元化编码最接近的群中心的索引中。
进一步说明,该分群演算法系为使用非监督式分群法,给定群中心的个数为总共的多媒体个数开根号。
且,该距离的计算为依据汉明距离或欧式距离。
本发明的录制媒体的信号侦测方法,其中该录制媒体索引比对方法,其步骤可包括:
a.时序分割,将多媒体档案按照时间顺序分割成长度为若干秒的多媒体片段,每个片段都命名为一个时间片段序号,这个序号等于该片段开头在源文件中是第几秒;
b.特征抽取,步骤a.的多媒体片段若为视讯,则抽取960个维度的场景导向特征(GIST);若为音讯,则抽取13维度的梅尔频率倒频谱特征(MFCC);
c.特征编码,将b.中每一片段所抽取的特征,与其后一片段所抽取的特征,每一维度的差异进行二元化编码,若两者差异大于0则编码成1,否则编码成0,故若多媒体片段为视讯,则每一片段将会有960个维度0或是1,若多媒体片段为音频,则每一片段有13个维度0或是1,以下称为特征编码。
d.索引比对。
其中,上述的步骤d该索引比对系将该每一片段的特征编码,逐一与该些群中心相比,找出与该特征编码距离最相近的群中心,接着对于该群中心索引中包括的对应多媒体文件名及时间片段,个别求出录制媒体内容特征与该时间片段的特征的距离,距离最小的片段即为最相似的多媒体片段。
然而该步骤d的索引比对提出距离的计算系依据汉明距离或欧式距离。
本发明以音乐的信号侦测为例,音乐的信号可为mp3或wav文件格式。
请参阅图1所示,为本发明的多媒体内容索引建立方法实施例的流程图,当内容供应者想建立其音乐内容的索引时,可使用本发明所提出的多媒体索引建立方法,依序执行下列四个步骤:
a.将所有音乐切割成每秒38个片段。
b.每个片段都以梅尔导频谱系数(MFCC)方法抽取特征,a.与b.的步骤如图3所示。
c.将每个片段的梅尔导频谱系数向量与其后一个向量相减,该差值向量中的数值若大于0则设为1,其余设为0,其结果如图5第1栏所示。
d.将c.所建立的差值向量利用K-means演算法分成10,0000群,如图4,并建立群中心与索引文件,索引文件格式如图5第2及第3栏所示
请参阅图2所示,为本发明的录制媒体信号侦测方法实施例的流程图,当用户想查询其音乐内容的索引时,可使用本发明所提出的录制媒体的信号侦测的方法,依序执行下列四个步骤:
e.将查询音乐切割成每秒38个片段。
f.每个片段都以梅尔导频谱系数(MFCC)方法抽取特征,e.与f.的步骤如图3所示。
g.将每个片段的梅尔导频谱系数向量与其后一个向量相减,该差值向量中的数值若大于0则设为1,其余设为0,其结果如图5第1栏所示。
h.将每个g.所建立的编码与d.所建立的索引文件进行比对,找出数据库中所有相似的片段,一一比较查询音乐的片段及其前后的编码与该片段前后的编码,加总计算出汉明距离(Hamming Distance),而最后数据库中汉明距离最小的音乐即为所求。
本发明提供一种录制媒体的信号侦测方法,与其他传统技术相互比较时,具备下列优点:
1.本发明可自动处理多媒体内容,产生多媒体索引。
2.本发明可通过录制媒体信号的方式自动找出对应的多媒体内容片段。
3.本发明可自动分析电子储存设备中的数字内容,进行自动标记与整理。
4.本发明利用编码及取样技术,可较为快速地找出结果。
5.本发明利用分群及容错技术,可有效对抗录制媒体信号时的干扰或噪声。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种录制媒体的信号侦测方法,其特征在于,通过录制多媒体信号内容,进行分析与处理,搜寻相似多媒体片段,所述信号侦测方法至少包括相连接的多媒体索引建立方法与录制媒体索引比对方法。
2.根据权利要求1所述的录制媒体的信号侦测方法,其特征在于,所述多媒体索引建立方法包括步骤:
a.时序分割,将N个多媒体档案,编号1~N,按照时间顺序分割成长度为若干秒的多媒体片段,各个多媒体片段都命名为所述多媒体档案编号加上底线及一个时间片段序号,所述时间片段序号为所述多媒体片段开头在源文件中是第几秒;
b.特征抽取,步骤a.所述多媒体片段若为视讯,则抽取960个维度的场景导向特征(GIST);所述多媒体片段若为音讯,则抽取13维度的梅尔频率倒频谱特征(MFCC);
c.特征编码,步骤b.中每一多媒体片段所抽取的特征,与其后一多媒体片段所抽取的特征,每一维度的差异进行二元化编码,若两者差异大于0则编码成1,否则编码成0,故若多媒体片段为视讯,则每一多媒体片段将会有960个维度0或是1,若多媒体片段为音频,则每一多媒体片段有13个维度0或是1,以下称为特征编码;以及
d.建立索引。
3.根据权利要求2所述的录制媒体的信号侦测方法,其特征在于,步骤d所述建立索引为建立出多媒体索引,即依据所述特征编码,将所述特征编码利用分群演算法分群并取得群中心,将每个所述特征编码所对应的所述多媒体档案编号与所述时间片段序号,纪录在距离所述二元化编码最接近的群中心的索引中。
4.根据权利要求3所述的录制媒体的信号侦测方法,其特征在于,其中,所述分群演算法为使用非监督式分群法,给定所述群中心的个数为总共的多媒体个数开根号。
5.根据权利要求3所述的录制媒体的信号侦测方法,其特征在于,所述距离的计算为依据汉明距离或欧式距离。
6.根据权利要求1所述的录制媒体的信号侦测方法,其特征在于,所述录制媒体索引比对方法,包括步骤:
a.时序分割,将多媒体档案按照时间顺序分割成长度为若干秒的多媒体片段,各个多媒体片段都命名为一个时间片段序号,所述时间片段序号为所述多媒体片段开头在源文件中是第几秒;
b.特征抽取,步骤a.的所述多媒体片段若为视讯,则抽取960个维度的场景导向特征(GIST);所述多媒体片段若为音讯,则抽取13维度的梅尔频率倒频谱特征(MFCC);
c.特征编码,将b.中每一多媒体片段所抽取的特征,与其后一多媒体片段所抽取的特征,每一维度的差异进行二元化编码,若两者差异大于0则编码成1,否则编码成0,故若多媒体片段为视讯,则每一多媒体片段将会有960个维度0或是1,若多媒体片段为音频,则每一多媒体片段有13个维度0或是1,以下称为特征编码。
d.索引比对。
7.根据权利要求6所述的录制媒体的信号侦测方法,其特征在于,步骤d所述索引比对是将每一片段的所述特征编码,逐一与群中心相比,找出与所述特征编码距离最相近的群中心,接着对于所述群中心索引中包括的对应多媒体文件名及时间片段,个别求出录制媒体内容特征与所述时间片段的特征的距离,距离最小的片段即为最相似的多媒体片段。
8.根据权利要求7所述的录制媒体的信号侦测方法,其特征在于,其中步骤d所述索引比对提出距离的计算是依据汉明距离或欧式距离。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101134398A TWI516098B (zh) | 2012-09-20 | 2012-09-20 | Record the signal detection method of the media |
TW101134398 | 2012-09-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103065661A true CN103065661A (zh) | 2013-04-24 |
Family
ID=48108256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012105322318A Pending CN103065661A (zh) | 2012-09-20 | 2012-12-11 | 录制媒体的信号侦测方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN103065661A (zh) |
TW (1) | TWI516098B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103974143A (zh) * | 2014-05-20 | 2014-08-06 | 北京速能数码网络技术有限公司 | 一种生成媒体数据的方法和设备 |
CN114978840A (zh) * | 2022-05-13 | 2022-08-30 | 天津理工大学 | 一种无线网络中物理层安全和高谱效通信方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006132596A1 (en) * | 2005-06-07 | 2006-12-14 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for audio clip classification |
CN101196888A (zh) * | 2006-12-05 | 2008-06-11 | 云义科技股份有限公司 | 应用数字音频特征集分类音频的系统及其方法 |
CN101894251A (zh) * | 2009-05-21 | 2010-11-24 | 国家广播电影电视总局广播科学研究院 | 一种视频检测方法及装置 |
CN102033927A (zh) * | 2010-12-15 | 2011-04-27 | 哈尔滨工业大学 | 一种基于gpu实现的快速音频检索方法 |
CN102508910A (zh) * | 2011-11-11 | 2012-06-20 | 大连理工大学 | 基于多哈希表映射误差最小化的图像检索方法 |
-
2012
- 2012-09-20 TW TW101134398A patent/TWI516098B/zh active
- 2012-12-11 CN CN2012105322318A patent/CN103065661A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006132596A1 (en) * | 2005-06-07 | 2006-12-14 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for audio clip classification |
CN101196888A (zh) * | 2006-12-05 | 2008-06-11 | 云义科技股份有限公司 | 应用数字音频特征集分类音频的系统及其方法 |
CN101894251A (zh) * | 2009-05-21 | 2010-11-24 | 国家广播电影电视总局广播科学研究院 | 一种视频检测方法及装置 |
CN102033927A (zh) * | 2010-12-15 | 2011-04-27 | 哈尔滨工业大学 | 一种基于gpu实现的快速音频检索方法 |
CN102508910A (zh) * | 2011-11-11 | 2012-06-20 | 大连理工大学 | 基于多哈希表映射误差最小化的图像检索方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103974143A (zh) * | 2014-05-20 | 2014-08-06 | 北京速能数码网络技术有限公司 | 一种生成媒体数据的方法和设备 |
CN114978840A (zh) * | 2022-05-13 | 2022-08-30 | 天津理工大学 | 一种无线网络中物理层安全和高谱效通信方法 |
CN114978840B (zh) * | 2022-05-13 | 2023-08-18 | 天津理工大学 | 一种无线网络中物理层安全和高谱效通信方法 |
Also Published As
Publication number | Publication date |
---|---|
TW201414289A (zh) | 2014-04-01 |
TWI516098B (zh) | 2016-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7359889B2 (en) | Method and apparatus for automatically creating database for use in automated media recognition system | |
US8352259B2 (en) | Methods and apparatus for audio recognition | |
CN107293307B (zh) | 音频检测方法及装置 | |
US7451078B2 (en) | Methods and apparatus for identifying media objects | |
Cano et al. | Audio fingerprinting: concepts and applications | |
CN105975568B (zh) | 一种音频处理方法及装置 | |
CN102411578A (zh) | 一种多媒体播放系统和方法 | |
CN105825850B (zh) | 一种音频处理方法及装置 | |
Sonnleitner et al. | Quad-Based Audio Fingerprinting Robust to Time and Frequency Scaling. | |
Grosche et al. | Toward characteristic audio shingles for efficient cross-version music retrieval | |
WO2016189307A1 (en) | Audio identification method | |
CN102436806A (zh) | 一种基于相似度的音频拷贝检测的方法 | |
CN108447501A (zh) | 一种云存储环境下基于音频字的盗版视频检测方法与系统 | |
Burges et al. | Using audio fingerprinting for duplicate detection and thumbnail generation | |
Bano et al. | Discovery and organization of multi-camera user-generated videos of the same event | |
Yu et al. | Combining multi-probe histogram and order-statistics based lsh for scalable audio content retrieval | |
Xiao et al. | Fast Hamming Space Search for Audio Fingerprinting Systems. | |
George et al. | Scalable and robust audio fingerprinting method tolerable to time-stretching | |
CN103065661A (zh) | 录制媒体的信号侦测方法 | |
CN103294696A (zh) | 音视频内容检索方法及系统 | |
Silva et al. | A video compression-based approach to measure music structural similarity | |
Smith et al. | Classifying derivative works with search, text, audio and video features | |
JP2011248671A (ja) | 多数の参照用映像の中から検索キー用映像を用いて検索する映像検索装置、プログラム及び方法 | |
Shao et al. | Automatically generating summaries for musical video | |
Camarena-Ibarrola et al. | On musical performances identification, entropy and string matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130424 |