CN102799684B - 一种视音频文件编目标引、元数据存储索引与搜索方法 - Google Patents
一种视音频文件编目标引、元数据存储索引与搜索方法 Download PDFInfo
- Publication number
- CN102799684B CN102799684B CN201210263201.1A CN201210263201A CN102799684B CN 102799684 B CN102799684 B CN 102799684B CN 201210263201 A CN201210263201 A CN 201210263201A CN 102799684 B CN102799684 B CN 102799684B
- Authority
- CN
- China
- Prior art keywords
- cataloguing
- video
- information
- mark
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明公开了一种视音频文件编目标引、元数据存储索引与搜索方法,它包括以下步骤:为视音频文件构建多维多层面编目标注体系;多维度的编目标注;通过图像分析算法抽取代表帧图片;场景检测,获取高层语义信息并自动标注与定义到编目标注体系中;对多维度编目标注体系构建存储与索引系统;实现快速、精确的查找。本发明构建了多维度的编目框架,使得可以从多种视角和维度去编目并标引,让资料的查找工作变成选择工作;很大程度上提高了视频高层语音和艺术角度的标记和搜索的速度,在馆藏编目体系之上,为记者、编辑等艺术类用户提供了基于视频内容的、基于艺术观点和视角的查询手段与方法,提高了工作效率。
Description
技术领域
本发明涉及一种视音频文件编目标引、元数据存储索引与搜索方法。
背景技术
随着目前媒体资料的不断大量涌现,而视音频文件素材自身的描述信息非常有限,通常只包含标题文件信息,因此通常的方法管理这些海量的多媒体内容的方法是按照一定的馆藏元数据规范,如DC元数据(Dublin Core Metadata),进行人工标引编目,这种方法是科学与严谨的,但是它又存在一定的专业性和狭隘性,它要求音视频资料的使用者必须要学习这种“科学严谨”的规范和方法,并牢记这种编目标准的专业术语(行话),才能通过关键词进行搜索与查找。
目前,媒体资料的编目标引和检索还停留在键入关键字的方式,无法快速、准确地记录这些重要信息。搜索时同样无法快速搜索需要的内容,即便找到了媒体资料,仅依靠文字信息对视频的简单说明,搜索结果也无法直观地呈现出媒体工作者所真正关心的相关视音频序列,仍需要通过不停地对视音频浏览查看,最终确定是否为所需资料,检准率和选中率非常低。由此增加了媒资系统应用和推广的难度,最终结果是无法实现媒体资产的价值再现与价值最大化。
发明内容
本发明的目的在于解决现有技术的不足,提供一种对视音频文件构建多维度的编目框架,使得可以从多种视角和维度去编目并标引,达到资料的检索者、使用者能够运用他们的专业知识查找并发现所需视音频资料,让资料的查找工作变成选择工作的,可实现快速、精确查找的视音频文件编目标引、元数据存储索引与搜索方法。
本发明的目的是通过以下技术方案来实现的:一种视音频文件编目标引、元数据存储索引与搜索方法,它包括以下步骤:
S1:为视音频文件构建一套多维多层面编目标注体系,容纳对视音频文件多层面属性的标注;
S2:基于该编目标注体系,进行多维度的编目标注;
S3:通过图像分析算法抽取代表帧图片;
S4:对代表帧图片进行场景检测,获取高层语义信息,并自动标注与定义到编目标注体系中;
S5:对多维度编目标注体系构建存储与索引系统,提供对编目信息的随机高效存取;
S6:通过多维度编目标注的层面组合与递进检索手段,实现快速、精确的查找。
本发明所述的进行多维度的编目标注的步骤包括以下子步骤:
A、手工标注:依次浏览整个视音频文件素材,在浏览过程中逐渐记录其中自包含的信息,并将这些信息文字化;
B、自动智能标注:对视音频文件进行分析,对场景进行识别和切分,并查找出关键帧图片,对关键帧图片应用图像处理算法获取出图像特征,最后通过人工智能手段对这些场景进行识别并文字化。
本发明所述的信息存储过程中,将海量的信息表达为JSON格式并存储于NoSQL数据库中。
本发明所述的音视频文件素材检索过程中,将检索变革为选取操作,通过识别操作者的检索意图,对结果进行聚类组合,为操作者提供直观的选择。
本发明的有益效果是:本发明针对视音频媒体资料,实现一种多维度的编目标引框架,以及对此产生的海量非结构化数据的存储和读取方法,基于图像特征信息的自动抽取,并将特征信息填充标注到编目标引框架系统中,提供一套基于标注的组合递进搜索方法;该方法突破了传统的基于馆藏元数据标准对视音频资料进行编目和检索的手段,并在此基础上构建多维度的编目框架,使得可以从馆藏、事件、技术、艺术等多种视角和维度去编目并标引,达到资料的检索者、使用者能够运用他们专业领域的知识、技能和手段查找并发现他们所需要的视音频资料,让资料的查找工作变成选择工作;很大程度上提高了视频高层语音和艺术角度的标记和搜索的速度,在馆藏编目体系之上,为记者、编辑等艺术类用户提供了基于视频内容的、基于艺术观点和视角的查询手段与方法,提高了工作效率。
附图说明
图1为本发明的操作流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种视音频文件编目标引、元数据存储索引与搜索方法,它包括以下步骤:
S1:为视音频文件构建一套多维多层面编目标注体系,容纳对视音频文件多层面属性的标注;
定义多维多层面编目的编目框架:
该方法运行的基础是设计一套开放的、兼容并包的数据框架--编目体系架构,突破传统馆藏的规范、格式的视音频信息描述局限,提供一种非结构化的信息描述和表达架构;采用非关系型数据模型,实现对视频进行任意的、非对称的、非关系的描述信息定义,因此能够实现如馆藏、编码技术、拍摄技术、拍摄手法、内容语义、环境特征、情感等方面的高层概念和语义的综合标注。
对视音频素材应用编目框架:
视音频素材自身的描述信息非常有限,通常只包含了标题文件名信息。但实际上,视音频素材本身包含了大量丰富的信息,如果能够充分利用这些信息,对视音频的管理、查找和再利用都会有巨大的帮助。因此,将上一步定义的多维多层面编目的框架应用到视音频素材上,构建一个基础平台,有了这个平台,才有可能通过各种技术手段,将视音频素材自包含的信息获取出来,达到通过一定的搜索引擎进行搜索的能力和目标。
S2:基于该编目标注体系,进行多维度的编目标注;
将视音频素材自包含的信息抽取出来,基于第二步中应用的框架,将这些抽取出来的信息附加到音视频上,实现从抽象的自表达信息变成为具体的、可以存储为数据的、可以识别和检索的信息。
进一步的,编目标准有两种方案:第一种方案是由人来识别这些信息,将这些信息用文字表达出来,方法是依次浏览整个视音频素材,在这个过程中逐渐记录其自包含的信息,并将其文字化。第二种方案采用图像处理手段,自动地获取出来,方法是对视频文件进行分析,对场景进行识别和切分,并查找出关键帧图片,对关键帧图片再应用图像处理算法,获取出图像特征,如颜色、文理、对象、场景等,然后通过人工智能的手段对这些场景进行识别并将其文字化。第一种方案简单直接,但是费时费力,识别的效果好坏完全依赖于识别者的知识和技能;第二种技术难度大,但是一旦突破了技术门槛,它的识别效率、准确度都相比第一种方案高。本方法中,应用第二种方案为主,辅以第一种方案进行适当地调校和优化,达到更佳的效果。
S3:通过图像分析算法抽取代表帧图片;
S4:对代表帧图片进行场景检测,获取高层语义信息,并自动标注与定义到编目标注体系中;
S5:对多维度编目标注体系构建存储与索引系统,提供对编目信息的随机高效存取;
S6:通过多维度编目标注的层面组合与递进检索手段,实现快速、精确的查找。
本发明可以通过以下途径来实施:
灵活的编目框架,可以采用XML技术手段来定义容纳各种信息的的编目框架,在GUI 表达上,采用InEdit技术,实现属性的动态拖动编辑与布局。
关键帧抽取算法,可以采用图像向量空间距离对比,直方图对比等图像素材,计算场景变换与抽取代表的关键帧。
图像处理算法,采用颜色计算、灰度化、二值化、直方图、模式识别等通用的成熟算法,获取图像的基本特征,在此基础上,采用人工智能与神经网络,通过机器学习将图像特征与高层语义结合起来,达到自动识别场景并表达为人能够理解的文字与概念的目的。
海量信息存储,采用NoSQL数据库和JSON 数据结构,来达到快速、高效的非结构数据存储与读取。海量信息索引,采用Lucene作为引擎框架,采用Hadoop实现海量数据的分布式调度与索引。
层面的聚类与组合,在检索技术上,采用全文检索作为入口,然后根据概念对结果进行聚类组合,技术上可以采用划分发、层次法、基于密度的方法、基于网格的方法和基于模型的方法等聚类算法或几种算法的组合来实现层面的聚类与组合。
本发明包括:交换机、编目框架定义模块、手工标注模块、自动智能分析、海量元数据存储索引、搜索模块、层面聚类组合模块:
1、 编目框架定义模式实现灵活框架的建模,并采用XML 进行模型Schema表达,实现InEdit的在线框架模版编辑,该模块实现了该系统的核心建模与模型定义;
2、 手工标注模块:将编目框架进行可视化,人工查看浏览视频内容,将内容表达的语义文字和记录在编目框架上,这个模块作为该方法与系统的输入和信息调校;
3、 自动智能分析模块通过软件手段,从视音频素材中摘取自低层特征信息与高层语义概念信息;
① 场景检测单元,将视音频按照场景进行切片;
② 关键帧分析单元,根据场景语义,获取场景的代表图片;
③ 图像预处理单元,对关键帧图片进行预处理,成为计算机可是别的信息记录;
④ 低层语义抽取单元,获取图像的低层语义如何颜色、幅面等;
⑤ 高层语义抽取单元,获取图像的语义信息如场景:雪地、秋天等。
4、 海量信息存储与索引模块,对手工标引和自动标引的信息进行存储与索引;
① 存储单元:采用NoSql技术,用JSON数据结构,将数据存储在非关系数据库中;
② 索引单元:通过Lucene实现非关系数据的索引,为检索提供基础;
5、 检索模块,通过web界面,提供友好的操作界面,在该模块实现对视音频的多维度组合筛选,完成递进的选择,而不是检索。
本发明的编目框架定义在工作时,包含如下工作步骤:
1、从头定义一个编目框架,确定视音频描述的层面和维度,定义每个维度的特性,并在InEdit界面上画出来。
2、从已经定义的规范进行继承,如NewML、EventML、EXIF、IPTC等。
3、将定义的结果导出,保存为XML 文件文件。
4、将XML 文件引入到人工和自动编目模块,提供标注的数据容器。
本发明的系统包括:图像智能处理子系统,存储与索引子系统,基于层面和维度的检索子系统:
图像智能处理子系统:图像智能处理包括4个阶段,场景识别与切片阶段、关键帧识别阶段、语义信息抽取阶段、语义信息识别与表达阶段:
1、场景识别阶段,通过对音视频素的分析,根据图像的直方图、向量矩阵等信息,计算输出视频的场景转换点,并完成切片;
2、关键帧识别阶段,对场景语义进行分析,通过计算选取出一张最能代表本场景的图片,作为关键帧;
3、语义信息抽取阶段 ,从各个维度抽取音视频高层和低层的语义特征,包括低层的颜色、文理已经高层的场景、艺术以及技术方面的语义特征;
4、语义识别与表达阶段,对识别出来的特定语义特征,通过人工智能与神经网络技术,基于已经训练好的语义库,构建人能够识别的场景标识,将这些标识信息作为编目信息,标注。
海量编目信息存储与索引:在人工或自动标注阶段,会产生大量的编目信息,这些信息通过关系型数据库是没有办法存储与读取的,本方法采用NoSQL作为数据存储,通过NoSQL的高性能与海量数据处理能力。在索引方法上,通过Hadoop 的分布式文件系统和数据处理能力,实现海量数据的索引。
基于层面的搜索与选取:通过对检索意图的预判,结合检索关键词,按照编目信息的维度进行聚类与组合,提供给操作者选择的选择,由于在人工与自动标注步骤中对高层语义、艺术语义与技术语义进行标准,操作者能够按照视频表达的喜怒哀乐等情感、拍摄的角度与技术等方面来选择需要的音视频和画面。
Claims (2)
1.一种视音频文件编目标引、元数据存储索引与搜索方法,其特征在于:它包括以下步骤:
S1:为视音频文件构建一套多维多层面编目标注体系,容纳对视音频文件多层面属性的标注;
定义多维多层面编目的编目框架:运行基础是设计一套开放的、兼容并包的数据框架--编目体系架构,突破传统馆藏的规范、格式的视音频信息描述局限,提供一种非结构化的信息描述和表达架构;采用非关系型数据模型,实现对视频进行任意的、非对称的、非关系的描述信息定义,能够实现高层概念和语义的综合标注;
对视音频素材应用编目框架:将上一步定义的多维多层面编目的框架应用到视音频素材上,构建一个基础平台,将视音频素材自包含的信息获取出来,达到通过一定的搜索引擎进行搜索的能力和目标;
S2:基于该编目标注体系,进行多维度的编目标注;
将视音频素材自包含的信息抽取出来,基于第二步中应用的框架,将这些抽取出来的信息附加到音视频上,实现从抽象的自表达信息变成为具体的、可以存储为数据的、可以识别和检索的信息;
所述的进行多维度的编目标注的步骤包括以下子步骤:
A、手工标注:依次浏览整个视音频文件素材,在浏览过程中逐渐记录其中自包含的信息,并将这些信息文字化;
B、自动智能标注:对视音频文件进行分析,对场景进行识别和切分,并查找出关键帧图片,对关键帧图片应用图像处理算法获取出图像特征,最后通过人工智能手段对这些场景进行识别并文字化;
第一种方案是由人来识别这些信息,将这些信息用文字表达出来,方法是依次浏览整个视音频素材,在这个过程中逐渐记录其自包含的信息,并将其文字化;第二种方案采用图像处理手段,自动地获取出来,方法是对视频文件进行分析,对场景进行识别和切分,并查找出关键帧图片,对关键帧图片再应用图像处理算法,获取出图像特征,然后通过人工智能的手段对这些场景进行识别并将其文字化;应用第二种方案为主,辅以第一种方案进行适当地调校和优化,达到更佳的效果;
S3:通过图像分析算法抽取代表帧图片;
S4:对代表帧图片进行场景检测,获取高层语义信息,并自动标注与定义到编目标注体系中;
S5:对多维度编目标注体系构建存储与索引系统,提供对编目信息的随机高效存取;
S6:通过多维度编目标注的层面组合与递进检索手段,实现快速、精确的查找;
灵活的编目框架,采用XML技术手段来定义容纳各种信息的编目框架,在GUI 表达上,采用InEdit技术,实现属性的动态拖动编辑与布局;
关键帧抽取算法,采用图像向量空间距离对比,直方图对比的图像素材,计算场景变换与抽取代表的关键帧;
图像处理算法,采用颜色计算、灰度化、二值化、直方图、模式识别的通用的成熟算法,获取图像的基本特征,在此基础上,采用人工智能与神经网络,通过机器学习将图像特征与高层语义结合起来,达到自动识别场景并表达为人能够理解的文字与概念的目的;
信息存储过程中,将海量的信息表达为JSON格式并存储于NoSQL数据库中,达到快速、高效的非结构数据存储与读取;海量信息索引,采用Lucene作为引擎框架,采用Hadoop实现海量数据的分布式调度与索引;
层面的聚类与组合,在检索技术上,采用全文检索作为入口,然后根据概念对结果进行聚类组合,技术上采用划分法、层次法、基于密度的方法、基于网格的方法和基于模型的方法的聚类算法或几种算法的组合来实现层面的聚类与组合。
2.根据权利要求1所述的一种视音频文件编目标引、元数据存储索引与搜索方法,其特征在于:音视频文件素材检索过程中,将检索变革为选取操作,通过识别操作者的检索意图,对结果进行聚类组合,为操作者提供直观的选择。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210263201.1A CN102799684B (zh) | 2012-07-27 | 2012-07-27 | 一种视音频文件编目标引、元数据存储索引与搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210263201.1A CN102799684B (zh) | 2012-07-27 | 2012-07-27 | 一种视音频文件编目标引、元数据存储索引与搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102799684A CN102799684A (zh) | 2012-11-28 |
CN102799684B true CN102799684B (zh) | 2015-09-09 |
Family
ID=47198794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210263201.1A Active CN102799684B (zh) | 2012-07-27 | 2012-07-27 | 一种视音频文件编目标引、元数据存储索引与搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102799684B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103428494A (zh) * | 2013-08-01 | 2013-12-04 | 浙江大学 | 基于云计算平台的图像序列编码及恢复方法 |
CN103995826A (zh) * | 2014-04-09 | 2014-08-20 | 浙江图讯科技有限公司 | 一种安全生产监督管理政务信息的自动编目方法 |
CN105183729A (zh) * | 2014-05-30 | 2015-12-23 | 中国电信股份有限公司 | 音视频内容的检索方法和装置 |
CN106534886B (zh) * | 2015-09-09 | 2019-07-26 | 无锡天脉聚源传媒科技有限公司 | 一种节目的标引方法及装置 |
CN105120336A (zh) * | 2015-09-23 | 2015-12-02 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN106708876B (zh) * | 2015-11-16 | 2020-04-21 | 任子行网络技术股份有限公司 | 一种基于Lucene的相似视频检索方法及系统 |
CN105654114A (zh) * | 2015-12-24 | 2016-06-08 | 国家电网公司信息通信分公司 | 一种文献查新的方法及装置 |
CN106021393B (zh) * | 2016-05-11 | 2018-03-30 | 南方电网科学研究院有限责任公司 | 面向移动设备的电网设备标准信息检索方法和系统 |
CN106354861B (zh) * | 2016-09-06 | 2019-09-20 | 中国传媒大学 | 电影标签自动标引方法及自动标引系统 |
CN107657990A (zh) * | 2017-09-22 | 2018-02-02 | 中国科学院重庆绿色智能技术研究院 | 一种手术记录录入的辅助支持系统及方法 |
CN108229363A (zh) * | 2017-12-27 | 2018-06-29 | 北京市商汤科技开发有限公司 | 关键帧调度方法和装置、电子设备、程序和介质 |
CN108490460A (zh) * | 2018-02-28 | 2018-09-04 | 上海交通大学 | 基于卫星导航中频数据库的自动化测试方法 |
CN108717382B (zh) * | 2018-05-11 | 2021-07-13 | 北京奇虎科技有限公司 | 基于json结构的音视频文件处理方法、装置及终端设备 |
CN109213760B (zh) * | 2018-08-02 | 2021-10-22 | 南瑞集团有限公司 | 非关系数据存储的高负载业务存储及检索方法 |
CN109918539B (zh) * | 2019-02-28 | 2022-04-22 | 华南理工大学 | 一种基于用户点击行为的音、视频互相检索方法 |
CN110826101B (zh) * | 2019-11-05 | 2021-01-05 | 安徽数据堂科技有限公司 | 用于企业的私有化部署数据处理方法 |
CN111488741A (zh) * | 2020-04-14 | 2020-08-04 | 税友软件集团股份有限公司 | 一种税收知识数据语义标注方法及相关装置 |
CN112599119B (zh) * | 2020-05-12 | 2023-12-15 | 安徽中医药大学 | 大数据背景下运动性构音障碍语音库的建立及分析方法 |
CN112291574B (zh) * | 2020-09-17 | 2023-07-04 | 上海东方传媒技术有限公司 | 一种基于人工智能技术的大型体育赛事内容管理系统 |
CN113542820B (zh) * | 2021-06-30 | 2023-12-22 | 北京中科模识科技有限公司 | 一种视频编目方法、系统、电子设备及存储介质 |
CN115186119B (zh) * | 2022-09-07 | 2022-12-06 | 深圳市华曦达科技股份有限公司 | 基于图文结合的图片处理方法、系统和可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799827A (zh) * | 2010-03-11 | 2010-08-11 | 浙江大学 | 基于层次化结构的视频素材库管理方法 |
-
2012
- 2012-07-27 CN CN201210263201.1A patent/CN102799684B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799827A (zh) * | 2010-03-11 | 2010-08-11 | 浙江大学 | 基于层次化结构的视频素材库管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102799684A (zh) | 2012-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102799684B (zh) | 一种视音频文件编目标引、元数据存储索引与搜索方法 | |
CN102663015B (zh) | 基于特征袋模型和监督学习的视频语义标注方法 | |
CN104239501B (zh) | 一种基于Spark的海量视频语义标注方法 | |
CN110442747B (zh) | 一种基于关键词的视频摘要生成方法 | |
Rabbath et al. | Automatic creation of photo books from stories in social media | |
CN101799827A (zh) | 基于层次化结构的视频素材库管理方法 | |
CN106354860A (zh) | 基于标签集的信息资源自动贴标签并自动推送的方法 | |
CN103942274B (zh) | 一种基于lda的生物医疗图像的标注系统及方法 | |
KR101316780B1 (ko) | 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법 | |
CN103995826A (zh) | 一种安全生产监督管理政务信息的自动编目方法 | |
Truong et al. | Video search based on semantic extraction and locally regional object proposal | |
KR101640317B1 (ko) | 오디오 및 비디오 데이터를 포함하는 영상의 저장 및 검색 장치와 저장 및 검색 방법 | |
Huang et al. | Tag refinement of micro-videos by learning from multiple data sources | |
Zhang | Up-to-date summary of semantic-based visual information retrieval | |
Nagaraja et al. | Content based video retrieval using support vector machine classification | |
CN107480156A (zh) | 一种视频搜索方法 | |
Lin et al. | An automatic classification system of online E-learning resources | |
Jadhav et al. | Unstructured big data information extraction techniques survey: Privacy preservation perspective | |
Memar et al. | Concept-based video retrieval model based on the combination of semantic similarity measures | |
Saravanan | Video Data Extraction Using Image Characteristic Method | |
Guldogan et al. | Adaptive image classification based on folksonomy | |
Yue | Application of Directed Recommendation in Text Manual Annotation | |
Amato et al. | Gennaro c.; Vadicamo L.; Vairo C. The VISIONE Video Search System. J | |
Tani et al. | Hierarchical video indexing and retrieval system | |
Lin et al. | Social image tagging by mining sparse tag patterns from auxiliary data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |