CN104077336B - 一种拖拽音频文件进行音频文件信息检索的方法和装置 - Google Patents

一种拖拽音频文件进行音频文件信息检索的方法和装置 Download PDF

Info

Publication number
CN104077336B
CN104077336B CN201310169150.0A CN201310169150A CN104077336B CN 104077336 B CN104077336 B CN 104077336B CN 201310169150 A CN201310169150 A CN 201310169150A CN 104077336 B CN104077336 B CN 104077336B
Authority
CN
China
Prior art keywords
audio
audio file
frequency
fingerprint
key frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310169150.0A
Other languages
English (en)
Other versions
CN104077336A (zh
Inventor
陈剑锋
李深远
赵伟峰
张李伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310169150.0A priority Critical patent/CN104077336B/zh
Publication of CN104077336A publication Critical patent/CN104077336A/zh
Application granted granted Critical
Publication of CN104077336B publication Critical patent/CN104077336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0486Drag-and-drop

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种拖拽音频文件进行音频文件信息检索的方法和装置,所述方法包括:检测作用于所述音频文件的拖拽操作;根据所述拖拽操作,获取所述音频文件的音频信号;对所述音频信号进行分帧处理,生成至少一个音频分帧;利用起始点检测算法(ODF)确定所述至少一个音频分帧中的关键帧;提取所述关键帧的音频指纹;利用所述音频指纹在音频指纹数据库中进行检索,获得与所述音频指纹相对应的音频文件的信息。通过本发明,可以实现无文字输入的检索方式,并且还可以缩短检索时的信息输入时间。

Description

一种拖拽音频文件进行音频文件信息检索的方法和装置
技术领域
本发明涉及音频处理技术,尤其涉及一种拖拽音频文件进行音频文件信息检索的方法和装置。
背景技术
现有的音频文件(例如歌曲文件)的搜索都是通过手工输入音频文件的名称、音频文件的词曲作者、音频文件的演绎着(例如歌手)或者音乐专辑名等文本信息进行搜索的。然而,如果用户本地有这样的一首歌曲文件,其文件信息已经被破坏,没有歌曲名或歌手名或专辑名,这时,按现有的搜索方法,用户难以查看这首歌的真实信息,下载此歌曲的歌词,或者找到更高品质的相同歌曲等。并且,即使知道这首歌曲的歌曲名、歌手名、专辑名等信息,用户手工输入过于麻烦,容易出错,而且经常搜索出来的结果有很多,要用户自己判别哪个搜索结果才是自己想要的,导致过多的结果筛选耗时。
发明内容
有鉴于此,本发明提供了一种拖拽音频文件进行音频文件信息检索的方法和装置,来解决以上背景技术部分提到的技术问题。
一方面,本发明提供了一种拖拽音频文件进行音频文件信息检索的方法,所述方法包括:
检测作用于所述音频文件的拖拽操作,其中,所述拖拽操作为通过鼠标对所述音频文件进行点击和拖放,或者,通过手指或指点笔对所述音频文件的点击和移动;
根据所述拖拽操作,获取所述音频文件的音频信号;
对所述音频信号进行分帧处理,生成至少一个音频分帧;
利用起始点检测算法(ODF)确定所述至少一个音频分帧中的关键帧;
提取所述关键帧的音频指纹;
利用所述音频指纹在音频指纹数据库中进行检索,获得与所述音频指纹相对应的音频文件的信息。
对应地,本发明还提出了一种拖拽音频文件进行音频文件信息检索的装置,所述装置包括:
检测模块,用于检测作用于所述音频文件的拖拽操作,其中,所述拖拽操作为通过鼠标对所述音频文件进行点击和拖放,或者,通过手指或指点笔对所述音频文件的点击和移动;
音频信号获取模块,用于根据所述拖拽操作获取所述音频文件的音频信号;
分帧处理模块,用于对所述音频信号进行分帧处理,生成至少一个音频分帧;
关键帧确定模块,用于利用起始点检测算法(ODF)确定所述至少一个音频分帧中的关键帧;
音频指纹提取模块,用于提取所述关键帧的音频指纹;
检索模块,用于利用所述音频指纹在音频指纹数据库中进行检索,获得与所述音频指纹相对应的音频文件的信息。
本发明提出的拖拽音频文件进行音频文件信息检索的方法和装置具有如下特点:首先,通过对音频文件的拖拽操作而非直接的文本输入操作,减少了用户在检索时手工输入音频文件的文本信息可能带来的误输入,同时也有助于缩短检索时的信息输入时间;其次,通过直接利用音频文件的经提取的音频指纹来在音频指纹数据库中检索相应的音频文件的信息,对于文件信息已经被破坏的音频文件而言,提供了新的无文字输入的检索方式。
附图说明
图1是根据本发明第一实施例的拖拽音频文件进行音频文件信息检索的方法的实现流程图;
图2是时长为20秒的音频信号的谱能量特征分布示意图;
图3是根据本发明第一实施例的起始点检测算法(ODF)的实现过程的示意图;
图4是在音频指纹数据库中存储音频文件的音频指纹的实现过程的示意图;
图5是在如图4所示的音频指纹数据库中检索音频指纹的实现过程的示意图;
图6是根据本发明第二实施例的拖拽音频文件进行音频文件信息检索的装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
在图1-3中示出了本发明的第一实施例。
图1为根据本发明第一实施例的一种拖拽音频文件进行音频文件信息检索的方法的实现流程100,该实现流程100详述如下:
在步骤101中,检测作用于音频文件的拖拽操作。
在第一实施例中,在音频文件是存储于台式机或者膝上型计算机中的情况下,用户可以借助于鼠标的点击和拖放来实现所述音频文件的拖拽操作;而在音频文件是存储于带触摸屏的移动终端(例如手机、平板电脑或者导航仪)的情况下,用户还可以借助手指或者指点笔的点击和移动来实现所述音频文件的拖拽操作。
在本申请中,所述音频文件包括但不限于:CD格式、WAVE(*.WAV)格式、AIFF格式、AU格式、MP3格式、MIDI格式、WMA格式、RealAudio格式、VQF格式、OggVorbis格式、AAC格式、APE格式的声音文件以及支持音频输出的视频文件。
在步骤102中,根据拖拽操作,获取上述音频文件的音频信号。
在第一实施例中,在检测到作用于音频文件的拖拽操作的情况下,可以判断用户的所述拖拽操作是否满足了预设的拖拽规则,如果满足,则对所述音频文件进行频谱解析,从而生成可以用频谱图的形式进行视觉呈现的音频信号。以支持鼠标操作的计算机为例,上述拖拽规则可以为:在鼠标指针悬停在音频文件上之后鼠标左键被按下;鼠标指针的移动距离大于或等于预设距离阈值,或者对所述音频文件的拖拽时间超过预设时间阈值。其中,上述预设距离阈值和预设时间阈值可以是缺省值,也可以根据实际应用需要由用户手动设置。
可选地,还可以通过设置拖拽操作的处理控件来对所拖拽的音频文件进行频谱解析:例如,首先可以获取由于所述拖拽操作而移动的所述音频文件的当前位置;接着,判断所述当前位置是否落入预设的拖拽处理控件区域;最后,在所述判断的结果为是的情况下,对所述音频文件进行频谱解析,从而生成音频信号。对于台式机客户端而言,所述处理控件可以是视图窗口控件,这时,可以使用微软公司提供的MFC类库的CView类中的COleDropTarget类对象,在处理控件(例如视图窗口)初始化时,调用COleDropTarget类成员函数Register(),以此在系统中注册该视图窗口为拖拽操作的处理窗口。当进行拖放操作的鼠标指针处于视图窗口范围内时,COleDropTarget类会做出反应,它的OnDragEnter、OnDragOver、OnDropEx、OnDrop等成员函数被依次调用,这些函数默认均是调用与其相对应的CView类成员函数OnDragEnter、OnDragOver、OnDropEx、OnDrop等,程序员只需重载这些CView类成员函数,即可对拖拽操作的过程及结果进行控制。对于网页形式的客户端而言,可以使用javascript和html5的开放API进行实现对拖拽操作的处理;而对于平板电脑客户端而言,也可以使用产商提供的API实现对拖拽操作的处理。
在步骤103中,对音频信号进行分帧处理,生成至少一个音频分帧。
在第一实施例中,可以对步骤102中获取的音频信号的完整的频谱图,以预定时间间隔(例如15毫秒的时间间隔)随机提取其固定时间长度(例如11.6毫秒窗长)的频谱图分段,从而得到至少一个音频分帧,其中所述音频分帧与所述频谱图分段是一一对应的。在本实施例中,上述预定时间间隔和固定时间长度可以是缺省值,也可以根据实际应用需要由用户手动设置。
在步骤104中,利用起始点检测算法(ODF,OnsetDetectionAlgorithm)确定至少一个音频分帧中的关键帧。
在实际应用中,音频信号是一种短时信号,换而言之,该信号在小时间单位(比如20毫秒)内在频域上变化不大。随着时间的变化,音频信号的变化会逐渐加大(这种逐渐加大的变化例如是,对于歌曲的音频信号而言,歌手的演唱歌词的改变或又是歌曲配乐的变化等),因此,音频信号会在时间轴上呈不均匀变化,如图2所示,图2是时长为20秒的音频信号的谱能量特征分布图。从图2中可以看出,由于音频信号本身在时间轴上存在着这种不均衡性,可以选取音频信号的关键帧(即音频信号中能量最集中、变化最剧烈的帧)进行音频指纹检索,而选取音频信号关键帧的处理过程称为起始点检测算法(ODF)。
图3示出了根据本发明第一实施例的起始点检测算法(ODF)的实现过程的示意图。如图3所示,对步骤102中获取的音频信号进行分帧处理后,利用起始点检测算法(ODF)确定关键帧的流程可以包括:对分帧处理后得到的至少一个音频分帧中的各音频分帧进行快速傅里叶变换(FFT,FastFourierTransformation);从所述各音频分帧中提取ODF所需的ODF特征参数;最后,根据所述ODF特征参数确定所述各音频分帧中的关键帧。确定关键帧时,具体地,可以将所述ODF特征参数满足预设的ODF阈值条件的分帧确定为关键帧。所述ODF阈值条件例如可以是不低于预设的ODF阈值。在本实施例中,ODF阈值与所述ODF特征参数相对应,可以包含所述ODF特征参数的取值阈值和/或音频分帧的时间阈值。例如,图2中能量为"1e7"的位置所在的平行于时间轴的横线表示ODF阈值条件,图2中高于该横线的所有分帧为关键帧,具体为图2中黑点所标记的点。
在步骤105中,提取关键帧的音频指纹。
在本步骤中,对步骤104中确定的关键帧,可以基于离散余弦变换(DCT,DiscreteCosineTransform)和最小哈希算法提取所述关键帧的音频指纹。具体流程如下:首先,对所述关键帧进行短时的DCT,并保留部分DCT系数(例如,在对DCT系数按照从大到小排序后,保留前N个DCT系数,在此,N为大于零的整数且可以根据实际需要确定);之后,将所保留的DCT系数采用二进制表示;最后,采用最小哈希算法将采用二进制表示的DCT系数转换为音频指纹。
在步骤106中,利用音频指纹在音频指纹数据库中进行检索,获得音频文件的信息。
在第一实施例中,利用步骤105中提取的音频指纹,在音频指纹数据库(例如哈希表)中进行检索,获得与所述音频指纹相对应的音频文件的信息。根据本实施例,在所述音频指纹数据库中,音频指纹和所述音频指纹对应的音频文件的信息是相关联地存储的。
在本实施例的一个优选实施方式中,上述步骤104中的从各音频分帧中提取ODF所需的ODF特征参数,可以采用如下的一个或多个算法实现:能量算法、差分相位算法、高频分量(HFC,High-frequencyContent)算法、改进的库尔贝克和莱伯勒散度(ModifiedKullback-Leiblerdivergence)算法、美尔倒谱系数(MFCC,MelFrequencyCepstrumCoefficient)、线谱对(LSP,LinearSpectralPair)和加权相位差分(WPD,WeightedPhaseDeviation)等。
在图4中示出了在音频指纹数据库中存储音频文件的音频指纹的过程。
在图4中,音频指纹数据库可以表现为哈希表的形式。如图4所示,在哈希表中存储音频指纹的过程具体可以包括如下步骤:
步骤1:对给定的音频文件的完整音频信号,以预定时间间隔(例如15毫秒的时间间隔)随机提取其固定时间长度(例如11.6毫秒窗长)的频谱图分段,从而得到至少一个音频分帧。
步骤2:通过起始点检测算法检测所得到的各音频分帧的频谱图是否对应关键帧,将对应关键帧的音频分帧的频谱图保留,抛弃不是对应关键帧的音频分帧的频谱图。
步骤3:对于所保留的各音频分帧的频谱图进行处理,提取获得各音频分帧的频谱图的音频指纹。
具体地,对于各音频分帧的频谱图进行如下处理,得到其音频指纹:对各音频分帧的频谱图进行短时的离散余弦变换(DCT,DiscreteCosineTransform),保留主要的DCT系数;将所保留的DCT系数采用二进制表示;采用最小哈希算法将采用二进制表示的DCT系数转换为音频指纹。
这里,所述保留主要的DCT系数,可以是指:将所有DCT系数按大小排序后,保留前N(N为大于零的整数)个DCT系数,例如,可以保留前20个DCT系统。
步骤4:对于提取得到的音频指纹:用位置敏感哈希(LocalitySensitiveHashing)方法将各音频指纹分为b块音频子指纹,并将所述b块音频子指纹分别存储到M个哈希子表中。
如图4所示,"ABCDEFGHIJKLMNOPQRSTUVWXY"表示提取得到的一个音频指纹,"ABCDE"、"EFGHI"、……、"UVWXY"分别表示由分割一个音频指纹后得到的音频子指纹。
如图4所示,将所述b块音频子指纹分别存储到M个哈希子表中时,将音频子指纹"ABCDE"、"EFGHI"、……、"UVWXY"与对应的歌曲信息分别对应存储到哈希表1、哈希表2、……、哈希表M中。其中,各哈希表中的7、12、50、92、102、302均表示歌曲信息,例如,可以分别表示歌曲ID。
在图5中示出了在如图4所示的音频指纹数据库中检索音频指纹的过程。
如图5所示,需要进行音频文件信息检索时,在如图4所示的音频指纹数据库中检索音频指纹的过程,具体可以包括如下步骤:
步骤1:对于根据用户的拖拽操作而获取的音频文件的音频信号,以预定时间间隔(例如15毫秒的时间间隔)随机提取其固定时间长度(例如11.6毫秒窗长)的频谱图分段,从而得到至少一个音频分帧。
步骤2:通过起始点检测算法检测所得到的各音频分帧的频谱图是否对应关键帧,将对应关键帧的音频分帧的频谱图保留,抛弃不是对应关键帧的音频分帧的频谱图。
步骤3:对于所保留的各音频分帧的频谱图进行处理,提取获得各音频分帧的频谱图的音频指纹。
步骤4:对于所得到的各音频指纹,用位置敏感哈希方法将各音频指纹分为m块(m为正整数)音频子指纹,得到各音频指纹的音频子指纹组,并分别从所述M个哈希子表中,查询与所述音频子指纹组中各音频子指纹近似匹配的音频子指纹,得到各音频子指纹组的近似匹配音频子指纹组。
在步骤4中,从M个哈希子表中查询一个音频子指纹的近似匹配音频子指纹具体为:从M个哈希子表中查询有一个或多个维度的取值、与所述音频子指纹的对应维度的取值相同的音频子指纹,放弃维度匹配次数小于预设的匹配阈值v的音频子指纹,所保留的即为与所述音频子指纹近似匹配的音频子指纹。
如图5所示,"abcdefghijklmnopqrstuvwxy"表示提取得到的一个音频指纹,"abcde"、"efghi"、……、"uvwxy"分别表示由分割一个音频指纹后得到的音频子指纹。音频文件的信息7、12、50、92、102、302所对应的音频子指纹与所述音频子指纹的匹配次数分别为1、1、1、3、2、1。当前预设的匹配阈值v为2,则音频文件信息92、102所对应的音频子指纹为要查询的近似匹配音频子指纹。
其中,音频子指纹一般为一组向量,即多维数组,例如,音频子指纹为25维的数组时,如果设置匹配阈值v为5,则两个音频子指纹之间有5维数组相同时,则认为该两个音频子指纹之间近似匹配。
步骤5:对于所得到的各近似匹配音频子指纹组:根据所述近似匹配音频子指纹与所述各音频子指纹的哈明距离(Hammingdistance),计算出匹配误差,根据匹配误差,查询得到精确匹配音频子指纹,得到精确匹配音频子指纹组。
对于步骤5而言,如图5所示,分别计算音频文件信息92、102所对应的音频子指纹对应的匹配误差,如果音频文件信息92对应的匹配误差较小,则将音频文件信息92对应的音频子指纹作为精确匹配音频子指纹。
步骤6:将与所述精确匹配音频子指纹组对应的音频文件信息(例如歌曲信息),用动态规划算法或直线检测算法在时间轴上合并所查询到的音频文件信息后,对所述音频文件信息进行输出,如图5所示,最终输出匹配结果92。
图6示出了本发明的第二实施例。
图6为根据本发明第二实施例的一种拖拽音频文件进行音频文件信息检索的装置的结构示意图。如图6所示,本实施例所述的拖拽音频文件进行音频文件信息检索的装置600包括:检测模块601,音频信号获取模块602,分帧处理模块603,关键帧确定模块604,音频指纹提取模块605和检索模块606。其中,检测模块601用于检测作用于所述音频文件的拖拽操作;音频信号获取模块602用于根据所述拖拽操作获取所述音频文件的音频信号;分帧处理模块603用于对所述音频信号获取模块602获取的音频信号进行分帧处理,生成至少一个音频分帧;关键帧确定模块604用于利用起始点检测算法(ODF)确定所述至少一个音频分帧中的关键帧;音频指纹提取模块605用于提取所述关键帧确定模块604确定的关键帧的音频指纹;而检索模块606用于利用所述音频指纹在音频指纹数据库中进行检索,获得与所述音频指纹相对应的音频文件的信息。
本发明所述的技术方案能够通过对音频文件的拖拽操作而非直接的文本输入操作,减少了用户在检索时手工输入音频文件的文本信息可能带来的误输入,同时也有助于缩短检索时的信息输入时间;此外,所述的技术方案通过直接利用音频文件的经提取的音频指纹来在音频指纹数据库中检索相应的音频文件的信息,对于文件信息已经被破坏的音频文件而言,提供了新的检索方式。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (18)

1.一种拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述方法包括:
检测对客户端设备中存储的所述音频文件的拖拽操作,其中,所述拖拽操作为通过鼠标对所述音频文件进行点击和拖放,或者,通过手指或指点笔对所述音频文件的点击和移动;
当判断出所述拖拽操作满足预设的拖拽规则时,获取所述音频文件的音频信号,其中,所述拖拽规则包括:在鼠标指针悬停在所述音频文件上之后鼠标左键被按下;鼠标指针的移动距离大于或等于预设阈值;或者,鼠标指针对所述音频文件的拖拽时间超过预设时间阈值;
对所述音频信号进行分帧处理,生成至少一个音频分帧;
利用起始点检测算法ODF确定所述至少一个音频分帧中的关键帧;
提取所述关键帧的音频指纹;
利用所述音频指纹在音频指纹数据库中进行检索,获得与所述音频指纹相对应的音频文件的信息。
2.根据权利要求1所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述当判断出所述拖拽操作满足预设的拖拽规则时,获取所述音频文件的音频信号的步骤包括:获取由于所述拖拽操作而移动的所述音频文件的当前位置;判断所述当前位置是否落入预设的拖拽处理控件区域;在所述判断的结果为是的情况下,对所述音频文件进行频谱解析,从而生成音频信号。
3.根据权利要求1所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述对所述音频信号进行分帧处理生成至少一个音频分帧的步骤包括:按照预定时间间隔从所述音频信号中提取固定时间长度的频谱图分段,从而得到至少一个音频分帧。
4.根据权利要求1所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述利用起始点检测算法ODF确定所述至少一个音频分帧中的关键帧包括:对所述至少一个音频分帧中的各音频分帧进行快速傅里叶变换FFT;提取所述各音频分帧的ODF特征参数;根据所述ODF特征参数确定所述各音频分帧中的关键帧。
5.根据权利要求4所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述根据所述ODF特征参数确定所述各音频分帧中的关键帧包括:将所述ODF特征参数满足预设ODF阈值条件的音频分帧确定为关键帧。
6.根据权利要求4-5之一所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述提取所述各音频分帧的ODF特征参数,通过以下算法中的一种算法或一种以上的算法的组合来实现:
能量算法、差分相位算法、高频分量算法、改进的库尔贝克和莱伯勒散度算法、美尔倒谱系数、线谱对和加权相位差分。
7.根据权利要求1所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述提取所述关键帧的音频指纹包括:基于离散余弦变换DCT和最小哈希算法得到所述关键帧的音频指纹。
8.根据权利要求7所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述基于离散余弦变换DCT和最小哈希算法得到所述关键帧的音频指纹,包括:对所述关键帧进行短时的DCT,并保留部分DCT系数;将所保留的DCT系数采用二进制表示;采用最小哈希算法将采用二进制表示的DCT系数转换为音频指纹。
9.根据权利要求1所述的拖拽音频文件进行音频文件信息检索的方法,其特征在于,所述音频指纹数据库包括音频指纹和与所述音频指纹相关联存储的音频文件的信息。
10.一种拖拽音频文件进行音频文件信息检索的装置,其特征在于,所述装置包括:
检测模块,用于检测对客户端设备中存储的所述音频文件的拖拽操作,其中,所述拖拽操作为通过鼠标对所述音频文件进行点击和拖放,或者,通过手指或指点笔对所述音频文件的点击和移动;
音频信号获取模块,用于当判断出所述拖拽操作满足预设的拖拽规则时,获取所述音频文件的音频信号,其中,所述拖拽规则包括:在鼠标指针悬停在所述音频文件上之后鼠标左键被按下;鼠标指针的移动距离大于或等于预设阈值;或者,鼠标指针对所述音频文件的拖拽时间超过预设时间阈值;
分帧处理模块,用于对所述音频信号进行分帧处理,生成至少一个音频分帧;
关键帧确定模块,用于利用起始点检测算法ODF确定所述至少一个音频分帧中的关键帧;
音频指纹提取模块,用于提取所述关键帧的音频指纹;
检索模块,用于利用所述音频指纹在音频指纹数据库中进行检索,获得与所述音频指纹相对应的音频文件的信息。
11.根据权利要求10所述的拖拽音频文件进行音频文件信息检索的装置,其特征在于,所述音频信号获取模块包括:获取由于所述拖拽操作而移动的所述音频文件的当前位置;判断所述当前位置是否落入预设的拖拽处理控件区域;在所述判断的结果为是的情况下,对所述音频文件进行频谱解析,从而生成音频信号。
12.根据权利要求10所述的拖拽音频文件进行音频文件信息检索的装置,其特征在于,所述分帧处理模块包括:按照预定时间间隔从所述音频信号中提取固定时间长度的频谱图分段,从而得到至少一个音频分帧。
13.根据权利要求10所述的拖拽音频文件进行音频文件信息检索的装置,其特征在于,所述关键帧确定模块包括:对所述至少一个音频分帧中的各音频分帧进行快速傅里叶变换FFT;提取所述各音频分帧的ODF特征参数;根据所述ODF特征参数确定所述各音频分帧中的关键帧。
14.根据权利要求13所述的拖拽音频文件进行音频文件信息检索的装置,其特征在于,所述关键帧确定模块进一步包括:将所述ODF特征参数满足预设ODF阈值条件的音频分帧确定为关键帧。
15.根据权利要求13-14之一所述的拖拽音频文件进行音频文件信息检索的装置,其特征在于,所述关键帧确定模块通过以下算法中的一种算法或一种以上的算法的组合来提取所述各音频分帧的ODF特征参数:
能量算法、差分相位算法、高频分量算法、改进的库尔贝克和莱伯勒散度算法、美尔倒谱系数、线谱对和加权相位差分。
16.根据权利要求10所述的拖拽音频文件进行音频文件信息检索的装置,其特征在于,所述音频指纹提取模块包括:基于离散余弦变换DCT和最小哈希算法得到所述关键帧的音频指纹。
17.根据权利要求16所述的拖拽音频文件进行音频文件信息检索的装置,其特征在于,所述音频指纹提取模块进一步包括:对所述关键帧进行短时的DCT,并保留部分DCT系数;将所保留的DCT系数采用二进制表示;采用最小哈希算法将采用二进制表示的DCT系数转换为音频指纹。
18.根据权利要求10所述的拖拽音频文件进行音频文件信息检索的装置,其特征在于,所述音频指纹数据库包括音频指纹和与所述音频指纹相关联存储的音频文件的信息。
CN201310169150.0A 2013-05-09 2013-05-09 一种拖拽音频文件进行音频文件信息检索的方法和装置 Active CN104077336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310169150.0A CN104077336B (zh) 2013-05-09 2013-05-09 一种拖拽音频文件进行音频文件信息检索的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310169150.0A CN104077336B (zh) 2013-05-09 2013-05-09 一种拖拽音频文件进行音频文件信息检索的方法和装置

Publications (2)

Publication Number Publication Date
CN104077336A CN104077336A (zh) 2014-10-01
CN104077336B true CN104077336B (zh) 2016-08-03

Family

ID=51598595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310169150.0A Active CN104077336B (zh) 2013-05-09 2013-05-09 一种拖拽音频文件进行音频文件信息检索的方法和装置

Country Status (1)

Country Link
CN (1) CN104077336B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648733A (zh) * 2018-03-15 2018-10-12 北京雷石天地电子技术有限公司 一种迪曲生成方法及系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844578B (zh) * 2017-11-10 2021-08-13 阿基米德(上海)传媒有限公司 一种识别音频流中重复片段方法及装置
CN107967922A (zh) * 2017-12-19 2018-04-27 成都嗨翻屋文化传播有限公司 一种基于特征的音乐版权识别方法
CN108198573B (zh) * 2017-12-29 2021-04-30 北京奇艺世纪科技有限公司 音频识别方法及装置、存储介质及电子设备
CN109522445A (zh) * 2018-11-15 2019-03-26 辽宁工程技术大学 一种融合CNNs与相位算法的音频分类检索方法
CN109525787B (zh) * 2018-12-13 2021-03-16 南京邮电大学 面向直播场景的实时字幕翻译及系统实现方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102118539A (zh) * 2009-12-30 2011-07-06 Tcl集团股份有限公司 一种多媒体播放终端及其文件拖动播放方法和装置
CN102521281A (zh) * 2011-11-25 2012-06-27 北京师范大学 一种基于最长匹配子序列算法的哼唱计算机音乐检索方法
CN103093761A (zh) * 2011-11-01 2013-05-08 腾讯科技(深圳)有限公司 音频指纹检索方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102118539A (zh) * 2009-12-30 2011-07-06 Tcl集团股份有限公司 一种多媒体播放终端及其文件拖动播放方法和装置
CN103093761A (zh) * 2011-11-01 2013-05-08 腾讯科技(深圳)有限公司 音频指纹检索方法及装置
CN102521281A (zh) * 2011-11-25 2012-06-27 北京师范大学 一种基于最长匹配子序列算法的哼唱计算机音乐检索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648733A (zh) * 2018-03-15 2018-10-12 北京雷石天地电子技术有限公司 一种迪曲生成方法及系统
CN108648733B (zh) * 2018-03-15 2020-07-03 北京雷石天地电子技术有限公司 一种迪曲生成方法及系统

Also Published As

Publication number Publication date
CN104077336A (zh) 2014-10-01

Similar Documents

Publication Publication Date Title
CN104077336B (zh) 一种拖拽音频文件进行音频文件信息检索的方法和装置
US10417344B2 (en) Exemplar-based natural language processing
US9299342B2 (en) User query history expansion for improving language model adaptation
US8326637B2 (en) System and method for processing multi-modal device interactions in a natural language voice services environment
KR20190024711A (ko) 정보 검증 방법 및 장치
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
WO2014093749A2 (en) Local recognition of content
WO2017050175A1 (zh) 音频识别方法和系统
EP2227757A1 (en) Cjk name detection
CN112037819B (zh) 一种基于语义的语音质检方法和装置
Park et al. Validation of Markov state models using Shannon’s entropy
US20110238698A1 (en) Searching text and other types of content by using a frequency domain
KR20150054300A (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
US9280973B1 (en) Navigating content utilizing speech-based user-selectable elements
CN111723235B (zh) 音乐内容识别方法、装置及设备
CN108959316A (zh) 一种将网页添加至收藏夹的方法和装置
CN106446280A (zh) 歌曲数据处理方法及装置
CN107168627B (zh) 用于触摸屏的文本编辑方法和装置
CN114783423A (zh) 基于语速调整的语音切分方法、装置、计算机设备及介质
CN103440270B (zh) 实现音频文件重复模式发现的系统和方法
CN113778717A (zh) 内容分享方法、装置、设备以及存储介质
CN103137138A (zh) 一种音频重复插入的检测方法
Kaiser et al. Adaptive temporal modeling of audio features in the context of music structure segmentation
Bachtiar et al. Home Monitoring and Control Using Smartphone and Speech Processing
Abdallah et al. Automatic Transcription and Pitch Analysis of the British Library World and Traditional Music Collections

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20161208

Address after: 510665 Guangzhou City, Tianhe District Province branch Yun Yun Road, No. 16, building No. 1301, room 2

Patentee after: Guangzhou KuGou Networks Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: No. 315, Huangpu Avenue middle, Tianhe District, Guangzhou City, Guangdong Province

Patentee after: GUANGZHOU KUGOU COMPUTER TECHNOLOGY Co.,Ltd.

Address before: 510665 room 1301, building 2, No.16 Keyun Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU KUGOU COMPUTER TECHNOLOGY Co.,Ltd.