CN102253993B - 一种基于词汇树的音频片段检索算法 - Google Patents

一种基于词汇树的音频片段检索算法 Download PDF

Info

Publication number
CN102253993B
CN102253993B CN 201110190726 CN201110190726A CN102253993B CN 102253993 B CN102253993 B CN 102253993B CN 201110190726 CN201110190726 CN 201110190726 CN 201110190726 A CN201110190726 A CN 201110190726A CN 102253993 B CN102253993 B CN 102253993B
Authority
CN
China
Prior art keywords
feature
tree
mfcc
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110190726
Other languages
English (en)
Other versions
CN102253993A (zh
Inventor
许恬菁
刘祥龙
余韡
郎波
李未
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN 201110190726 priority Critical patent/CN102253993B/zh
Publication of CN102253993A publication Critical patent/CN102253993A/zh
Application granted granted Critical
Publication of CN102253993B publication Critical patent/CN102253993B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种基于词汇树的音频片段检索算法:(1)通过聚类的方法训练一个层次化的用于量化特征的词汇树;(2)从音频文件提取MFCC Peaks特征,通过词汇树量化成单词;(3)将单词以文本检索的倒排文件索引的方式存储和索引;(4)在得到最匹配的结果数据集后用旋律线匹配的方式调整顺序提高排名第一的结果的准确率。本发明提出一种新的音频特征MFCC Peaks,并根据该特征的特点设计了一套基于词汇树的检索方案,本方法具有检索效率高和准确率高的特点。

Description

一种基于词汇树的音频片段检索算法
技术领域
本发明涉及一种音频基于内容的片段检索的领域下,基于词汇树的量化方法,结合旋律线匹配,查找原始音频的检索算法。
背景技术
随着现代信息技术,特别是网络技术和多媒体技术的迅速发展,多媒体数据已成为互联网上所传送数据的主要部分,声音媒体是除视觉媒体外最重要的媒体。
基于内容的音频信息检索技术有着广泛的应用前景:(1)它是音频信息搜索引擎的关键技术,用户可通过该技术快速获取所需的信息资源,还可以根据音频信息的内容实现更加灵活的信息搜索策略;(2)它可实现对音视频点播和网上电视节目等媒体中的音频信息进行实时检索、审查和有效监控;可应用于市场调查、网络管理、信息安全等诸多领域;(3)它可用于各种数字音频产品的版权保护,如音乐的版权保护,即搜索未经授权的使用等;(4)它在音频信息分类与统计技术的研究中扮演重要的角色。如在广播电视新闻节目、学术会议的录音报告、数字图书馆等内容中包含着大量的语音、音乐等信息,使用音频信息检索技术可以有效地对这些信息进行分类、统计与检索,更好地利用这些资源。
基于词汇树的音频片段检索就是一种基于内容的音频信息检索技术,可以实现用小的片段,即时间比较短的片段,一般为10s,检索出原始的音频文件,并且较高的准确率和较短的响应时间。
发明内容
本发明要解决的技术问题:基于音频数据内容的音频信息的片段检索。
本发明采用的技术方案:一种基于词汇树的音频片段检索方案,其特征在于步骤如下:
(1)采用一定量的MFCC Peaks特征,使用k-means的聚类方法训练出一棵词汇树。词汇树是层次化的树,每一层表现为子节点是父父节点数据的k个分类。词汇树的每个叶子节点被记为一个单词。
(2)在插入数据的时候,首先提取出MFCC Peaks特征,使用词汇树将特征变成单词,将单词按照文本检索的方法存储。同时还需要提取旋律线的特征,用字符串的形式存储在数据库中。这是一个离线的过程。
(3)在获得一个查询片段的时候,首先从片段提取MFCC Peaks特征,使用相同的词汇树将特征变成单词,使用文件检索中的计算得分的方式计算库中音频的得分,根据得分的大小排序,获得前5个结果。同时需要对检索的片段提取出旋律线,在前面获得的前5个结果中,进一步用旋律线进行字符串的相似匹配,根据这个得分重新对这5个结果进行排序。
根据本发明的又一个方面,其中步骤(1)又进一步包括:对MFCC Peaks特征的定义。MFCC Peaks特征定义为在MFCC上面的包含峰值点的向量。具体提取包括:
(a)首先提取音频文件的MFCC特征。
(b)在MFCC维度和时间的二维图上,以某个点为中心的一个大小为P的范围内,没有一个点的值大于这个点,这个点就认为是峰值点。MFCC Peaks特征指的是包含这样的峰值点的一个MFCC向量。
根据本发明的又一个方面,其中步骤(1)还包括词汇树的构建:
(a)词汇树的构建:首先将所有训练数据划分成K类,记下每类的中心点。然后把每类的数据再划分成K类,记下每类的中心点。这样递归,构造成一棵L层的树,并给树的每个叶子节点赋值一个单词。
其中步骤(3)还包括词汇树的使用。
(a)词汇树的使用:当有一个特征需要转化为单词时,首先与树的根节点所记下的中心点比较,找到距离最近的点,移动到对应的子节点,直到遇到叶子节点为止,当前叶子节点的单词就是这个特征所量化的单词。
附图说明
图1为本发明的方法基本流程图。
具体实施方式
下面参考附图1,对本发明的实施例进行详细的说明。
本发明的方法原理为:使用词汇树的方法把音频片段检索的问题转化为文本的检索问题,同时可以结合现有的旋律线匹配等方法进一步调整前5个返回结果,实现高效率、高准确率的音频片段检索。
具体而言,本发明所提出的方法基本流程如图1所示。
本发明主要包括如下步骤:
(1)采用一定量的MFCC Peaks特征,使用k-means的聚类方法训练出一棵词汇树,词汇树是层次化的树,每一层表现为子节点是父父节点数据的k个分类,词汇树的每个叶子节点被记为一个单词;
(2)在插入数据的时候,首先提取出MFCC Peaks特征,使用词汇树将特征变成单词,将单词按照文本检索的方法存储,同时还需要提取旋律线的特征,用字符串的形式存储在数据库中,这是一个离线的过程;
(3)在获得一个查询片段的时候,首先从片段提取MFCC Peaks特征,使用相同的词汇树将特征变成单词,使用文件检索中的计算得分的方式计算库中音频的得分,根据得分的大小排序,获得前5个结果,同时需要对检索的片段提取出旋律线,在前面获得的前5个结果中,进一步用旋律线进行字符串的相似匹配,根据这个得分重新对这5个结果进行排序;
根据本发明的又一个方面,其中步骤(1)又进一步包括:对MFCC Peaks特征的定义。MFCC Peaks特征定义为在MFCC上面的包含峰值点的向量。具体提取包括:
(a)首先提取音频文件的MFCC特征;
(b)在MFCC维度和时间的二维图上,以某个点为中心的一个大小为P的范围内,没有一个点的值大于这个点,这个点就认为是峰值点,MFCC Peaks特征指的是包含这样的峰值点的一个MFCC向量;
根据本发明的又一个方面,其中步骤(1)进一步包括词汇树的构建,步骤(3)又进一步包括词汇树的使用。具体包括:
(a)词汇树的构建:首先将所有训练数据划分成K类,记下每类的中心点,然后把每类的数据再划分成K类,记下每类的中心点,依次递归,构造成一棵L层的树,并给树的每个叶子节点赋值一个单词;
(b)词汇树的使用:当有一个特征需要转化为单词时,首先与树的根节点所记下的中心点比较,找到距离最近的点,移动到对应的子节点,直到遇到叶子节点为止,当前叶子节点的单词就是这个特征所量化的单词;
综上所述,根据上述方法就可以实现快速有效的基于内容的音频片段的检索。
对于本领域的普通技术人员来说可显而易见的得出其他优点和修改。因此,具有更广方面的本发明并不局限于这里所示出的并且所描述的具体说明及示例性实施例。因此,在不脱离由随后权利要求及其等价体所定义的一般发明构思的精神和范围的情况下,可对其作出各种修改。

Claims (1)

1.一种基于词汇树的音频片段检索方法,其特征在于步骤如下:
(1)采用一定量的MFCC Peaks特征,使用k-means的聚类方法训练出一棵词汇树,词汇树是层次化的树,每一层表现为子节点是父节点数据的K个分类,词汇树的每个叶子节点赋值一个单词;
(2)在插入数据的时候,首先提取出MFCC Peaks特征,使用词汇树将特征变成单词,将单词按照文本检索的方法存储,同时还需要提取旋律线的特征,用字符串的形式存储在数据库中,这是一个离线的过程;
(3)在获得一个查询片段的时候,首先从片段提取MFCC Peaks特征,使用相同的词汇树将特征变成单词,使用文件检索中的计算得分的方式计算数据库中音频的得分,根据得分的大小排序,获得前5个结果,同时需要对查询片段提取出旋律线,在前面获得的前5个结果中,进一步用旋律线进行字符串的相似匹配,根据匹配程度重新对这5个结果进行排序;
其中步骤(1)又进一步包括:对MFCC Peaks特征定义为在MFCC上面的包含峰值点的向量,具体提取MFCC Peaks特征的步骤包括:
(a)首先提取音频文件的MFCC特征;
(b)在MFCC维度和时间的二维图上,以某个点为中心的一个大小为P的范围内,如果没有一个点的值大于这个点,这个点就认为是峰值点;MFCCPeaks特征指的是包含这样的峰值点的一个MFCC向量;
其中所述步骤(1)中训练出一棵词汇树具体为:
(a)构建词汇树:首先将所有训练数据划分成K类,记下每类的中心点,然后把每类的数据再划分成K类,记下每类的中心点,依次递归,构造成一棵L层的树,并给树的每个叶子节点赋值一个单词;
所述步骤(3)中还包括词汇树的使用:
(a)使用词汇树:当有一个特征需要转化为单词时,首先与树的根节点所记下的中心点比较,找到距离最近的点,移动到对应的子节点;直到遇到叶子节点为止,当前叶子节点的单词就是这个特征所量化的单词。
CN 201110190726 2011-07-08 2011-07-08 一种基于词汇树的音频片段检索算法 Expired - Fee Related CN102253993B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110190726 CN102253993B (zh) 2011-07-08 2011-07-08 一种基于词汇树的音频片段检索算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110190726 CN102253993B (zh) 2011-07-08 2011-07-08 一种基于词汇树的音频片段检索算法

Publications (2)

Publication Number Publication Date
CN102253993A CN102253993A (zh) 2011-11-23
CN102253993B true CN102253993B (zh) 2013-08-21

Family

ID=44981257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110190726 Expired - Fee Related CN102253993B (zh) 2011-07-08 2011-07-08 一种基于词汇树的音频片段检索算法

Country Status (1)

Country Link
CN (1) CN102253993B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500165B (zh) * 2013-08-21 2016-08-31 新华通讯社 一种结合聚类和双key值的高维向量检索方法
CN105205059A (zh) * 2014-06-11 2015-12-30 中兴通讯股份有限公司 数字图像处理方法、智能早教服务器及智能早教客户端
CN106202311B (zh) * 2016-06-30 2020-03-10 北京奇艺世纪科技有限公司 一种文件聚类方法及装置
CN106844726B (zh) * 2017-02-10 2020-11-10 成都弥知科技有限公司 一种基于词汇树检索与暴力匹配的图像识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
CN1897109A (zh) * 2006-06-01 2007-01-17 电子科技大学 一种基于mfcc的单一音频信号识别方法
CN101226558A (zh) * 2008-01-29 2008-07-23 福州大学 一种基于mfccm的音频数据检索方法
CN101566999A (zh) * 2009-06-02 2009-10-28 哈尔滨工业大学 一种快速音频检索的方法
CN101911145A (zh) * 2007-12-28 2010-12-08 佳明有限公司 用于导航相关数据的语音包

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
CN1897109A (zh) * 2006-06-01 2007-01-17 电子科技大学 一种基于mfcc的单一音频信号识别方法
CN101911145A (zh) * 2007-12-28 2010-12-08 佳明有限公司 用于导航相关数据的语音包
CN101226558A (zh) * 2008-01-29 2008-07-23 福州大学 一种基于mfccm的音频数据检索方法
CN101566999A (zh) * 2009-06-02 2009-10-28 哈尔滨工业大学 一种快速音频检索的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
万旺根等.音频信息检索研究现状与发展趋势.《上海大学学报( 自然科学版)》.2007,第13卷(第4期),
基于内容的音频检索: 概念和方法;李国辉等;《小型微型计算机系统》;20001130;第21卷(第11期);1173-1177页 *
李国辉等.基于内容的音频检索: 概念和方法.《小型微型计算机系统》.2000,第21卷(第11期),
音频信息检索研究现状与发展趋势;万旺根等;《上海大学学报( 自然科学版)》;20070831;第13卷(第4期);363-370页 *

Also Published As

Publication number Publication date
CN102253993A (zh) 2011-11-23

Similar Documents

Publication Publication Date Title
US10515133B1 (en) Systems and methods for automatically suggesting metadata for media content
US10445359B2 (en) Method and system for classifying media content
Heck et al. Leveraging knowledge graphs for web-scale unsupervised semantic parsing
US20130185289A1 (en) Popularity of content items
JP2006510114A5 (zh)
Cheng et al. On effective personalized music retrieval by exploring online user behaviors
CN102262670A (zh) 一种基于移动可视设备的跨媒体信息检索系统及方法
CN109857898A (zh) 一种海量数字音频指纹存储与检索的方法及系统
CN109710792B (zh) 一种基于索引的快速人脸检索系统应用
CN102143001B (zh) 一种基于语义理解的音频资源管理方法
CN102253993B (zh) 一种基于词汇树的音频片段检索算法
CN101833986A (zh) 一种三级音频索引的创建方法及音频检索方法
Chen et al. Improving music genre classification using collaborative tagging data
CN102339294A (zh) 一种对关键词进行预处理的搜索方法和系统
Amato et al. Searching and annotating 100M Images with YFCC100M-HNfc6 and MI-File
CN103761286A (zh) 一种基于用户兴趣的服务资源检索方法
CN102622353A (zh) 一种固定音频检索方法
EP3144825A1 (en) Enhanced digital media indexing and retrieval
CN112784056B (zh) 一种基于视频智能识别及智能语义搜索的短视频生成方法
US20170075999A1 (en) Enhanced digital media indexing and retrieval
Nagavi et al. Content based audio retrieval with MFCC feature extraction, clustering and sort-merge techniques
CN102984147A (zh) 一种基于旋律识别的多媒体安全过滤方法
CN102682042B (zh) 概念识别设备和方法
Sandesh et al. Lecture video indexing and retrieval using topic keywords
Wu et al. Data-driven approaches to community-contributed video applications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130821

Termination date: 20140708

EXPY Termination of patent right or utility model