CN102799684B

CN102799684B - 一种视音频文件编目标引、元数据存储索引与搜索方法

Info

Publication number: CN102799684B
Application number: CN201210263201.1A
Authority: CN
Inventors: 余军; 李正平; 张汨; 余刚; 韩志红
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2012-07-27
Filing date: 2012-07-27
Publication date: 2015-09-09
Anticipated expiration: 2032-07-27
Also published as: CN102799684A

Abstract

本发明公开了一种视音频文件编目标引、元数据存储索引与搜索方法，它包括以下步骤：为视音频文件构建多维多层面编目标注体系；多维度的编目标注；通过图像分析算法抽取代表帧图片；场景检测，获取高层语义信息并自动标注与定义到编目标注体系中；对多维度编目标注体系构建存储与索引系统；实现快速、精确的查找。本发明构建了多维度的编目框架，使得可以从多种视角和维度去编目并标引，让资料的查找工作变成选择工作；很大程度上提高了视频高层语音和艺术角度的标记和搜索的速度，在馆藏编目体系之上，为记者、编辑等艺术类用户提供了基于视频内容的、基于艺术观点和视角的查询手段与方法，提高了工作效率。

Description

一种视音频文件编目标引、元数据存储索引与搜索方法

技术领域

本发明涉及一种视音频文件编目标引、元数据存储索引与搜索方法。

背景技术

随着目前媒体资料的不断大量涌现，而视音频文件素材自身的描述信息非常有限，通常只包含标题文件信息，因此通常的方法管理这些海量的多媒体内容的方法是按照一定的馆藏元数据规范，如DC元数据（Dublin Core Metadata），进行人工标引编目，这种方法是科学与严谨的，但是它又存在一定的专业性和狭隘性，它要求音视频资料的使用者必须要学习这种“科学严谨”的规范和方法，并牢记这种编目标准的专业术语（行话），才能通过关键词进行搜索与查找。

目前，媒体资料的编目标引和检索还停留在键入关键字的方式，无法快速、准确地记录这些重要信息。搜索时同样无法快速搜索需要的内容，即便找到了媒体资料，仅依靠文字信息对视频的简单说明，搜索结果也无法直观地呈现出媒体工作者所真正关心的相关视音频序列，仍需要通过不停地对视音频浏览查看，最终确定是否为所需资料，检准率和选中率非常低。由此增加了媒资系统应用和推广的难度，最终结果是无法实现媒体资产的价值再现与价值最大化。

发明内容

本发明的目的在于解决现有技术的不足，提供一种对视音频文件构建多维度的编目框架，使得可以从多种视角和维度去编目并标引，达到资料的检索者、使用者能够运用他们的专业知识查找并发现所需视音频资料，让资料的查找工作变成选择工作的，可实现快速、精确查找的视音频文件编目标引、元数据存储索引与搜索方法。

本发明的目的是通过以下技术方案来实现的：一种视音频文件编目标引、元数据存储索引与搜索方法，它包括以下步骤：

S1：为视音频文件构建一套多维多层面编目标注体系，容纳对视音频文件多层面属性的标注；

S2：基于该编目标注体系，进行多维度的编目标注；

S3：通过图像分析算法抽取代表帧图片；

S4：对代表帧图片进行场景检测，获取高层语义信息，并自动标注与定义到编目标注体系中；

S5：对多维度编目标注体系构建存储与索引系统，提供对编目信息的随机高效存取；

S6：通过多维度编目标注的层面组合与递进检索手段，实现快速、精确的查找。

本发明所述的进行多维度的编目标注的步骤包括以下子步骤：

A、手工标注：依次浏览整个视音频文件素材，在浏览过程中逐渐记录其中自包含的信息，并将这些信息文字化；

B、自动智能标注：对视音频文件进行分析，对场景进行识别和切分，并查找出关键帧图片，对关键帧图片应用图像处理算法获取出图像特征，最后通过人工智能手段对这些场景进行识别并文字化。

本发明所述的信息存储过程中，将海量的信息表达为JSON格式并存储于NoSQL数据库中。

本发明所述的音视频文件素材检索过程中，将检索变革为选取操作，通过识别操作者的检索意图，对结果进行聚类组合，为操作者提供直观的选择。

本发明的有益效果是：本发明针对视音频媒体资料，实现一种多维度的编目标引框架，以及对此产生的海量非结构化数据的存储和读取方法，基于图像特征信息的自动抽取，并将特征信息填充标注到编目标引框架系统中，提供一套基于标注的组合递进搜索方法；该方法突破了传统的基于馆藏元数据标准对视音频资料进行编目和检索的手段，并在此基础上构建多维度的编目框架，使得可以从馆藏、事件、技术、艺术等多种视角和维度去编目并标引，达到资料的检索者、使用者能够运用他们专业领域的知识、技能和手段查找并发现他们所需要的视音频资料，让资料的查找工作变成选择工作；很大程度上提高了视频高层语音和艺术角度的标记和搜索的速度，在馆藏编目体系之上，为记者、编辑等艺术类用户提供了基于视频内容的、基于艺术观点和视角的查询手段与方法，提高了工作效率。

附图说明

图1为本发明的操作流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种视音频文件编目标引、元数据存储索引与搜索方法，它包括以下步骤：

定义多维多层面编目的编目框架:

该方法运行的基础是设计一套开放的、兼容并包的数据框架--编目体系架构，突破传统馆藏的规范、格式的视音频信息描述局限，提供一种非结构化的信息描述和表达架构；采用非关系型数据模型，实现对视频进行任意的、非对称的、非关系的描述信息定义，因此能够实现如馆藏、编码技术、拍摄技术、拍摄手法、内容语义、环境特征、情感等方面的高层概念和语义的综合标注。

对视音频素材应用编目框架：

视音频素材自身的描述信息非常有限，通常只包含了标题文件名信息。但实际上，视音频素材本身包含了大量丰富的信息，如果能够充分利用这些信息，对视音频的管理、查找和再利用都会有巨大的帮助。因此，将上一步定义的多维多层面编目的框架应用到视音频素材上，构建一个基础平台，有了这个平台，才有可能通过各种技术手段，将视音频素材自包含的信息获取出来，达到通过一定的搜索引擎进行搜索的能力和目标。

S2：基于该编目标注体系，进行多维度的编目标注；

将视音频素材自包含的信息抽取出来，基于第二步中应用的框架，将这些抽取出来的信息附加到音视频上，实现从抽象的自表达信息变成为具体的、可以存储为数据的、可以识别和检索的信息。

进一步的，编目标准有两种方案：第一种方案是由人来识别这些信息，将这些信息用文字表达出来，方法是依次浏览整个视音频素材，在这个过程中逐渐记录其自包含的信息，并将其文字化。第二种方案采用图像处理手段，自动地获取出来，方法是对视频文件进行分析，对场景进行识别和切分，并查找出关键帧图片，对关键帧图片再应用图像处理算法，获取出图像特征，如颜色、文理、对象、场景等，然后通过人工智能的手段对这些场景进行识别并将其文字化。第一种方案简单直接，但是费时费力，识别的效果好坏完全依赖于识别者的知识和技能；第二种技术难度大，但是一旦突破了技术门槛，它的识别效率、准确度都相比第一种方案高。本方法中，应用第二种方案为主，辅以第一种方案进行适当地调校和优化，达到更佳的效果。

S3：通过图像分析算法抽取代表帧图片；

本发明可以通过以下途径来实施：

灵活的编目框架，可以采用XML技术手段来定义容纳各种信息的的编目框架，在GUI 表达上，采用InEdit技术，实现属性的动态拖动编辑与布局。

关键帧抽取算法，可以采用图像向量空间距离对比，直方图对比等图像素材，计算场景变换与抽取代表的关键帧。

图像处理算法，采用颜色计算、灰度化、二值化、直方图、模式识别等通用的成熟算法，获取图像的基本特征，在此基础上，采用人工智能与神经网络，通过机器学习将图像特征与高层语义结合起来，达到自动识别场景并表达为人能够理解的文字与概念的目的。

海量信息存储，采用NoSQL数据库和JSON 数据结构，来达到快速、高效的非结构数据存储与读取。海量信息索引，采用Lucene作为引擎框架，采用Hadoop实现海量数据的分布式调度与索引。

层面的聚类与组合，在检索技术上，采用全文检索作为入口，然后根据概念对结果进行聚类组合，技术上可以采用划分发、层次法、基于密度的方法、基于网格的方法和基于模型的方法等聚类算法或几种算法的组合来实现层面的聚类与组合。

本发明包括：交换机、编目框架定义模块、手工标注模块、自动智能分析、海量元数据存储索引、搜索模块、层面聚类组合模块：

1、编目框架定义模式实现灵活框架的建模，并采用XML 进行模型Schema表达，实现InEdit的在线框架模版编辑，该模块实现了该系统的核心建模与模型定义；

2、手工标注模块：将编目框架进行可视化，人工查看浏览视频内容，将内容表达的语义文字和记录在编目框架上，这个模块作为该方法与系统的输入和信息调校；

3、自动智能分析模块通过软件手段，从视音频素材中摘取自低层特征信息与高层语义概念信息；

① 场景检测单元，将视音频按照场景进行切片；

② 关键帧分析单元，根据场景语义，获取场景的代表图片；

③ 图像预处理单元，对关键帧图片进行预处理，成为计算机可是别的信息记录；

④ 低层语义抽取单元，获取图像的低层语义如何颜色、幅面等；

⑤ 高层语义抽取单元，获取图像的语义信息如场景：雪地、秋天等。

4、海量信息存储与索引模块，对手工标引和自动标引的信息进行存储与索引；

① 存储单元：采用NoSql技术，用JSON数据结构，将数据存储在非关系数据库中；

② 索引单元：通过Lucene实现非关系数据的索引，为检索提供基础；

5、检索模块，通过web界面，提供友好的操作界面，在该模块实现对视音频的多维度组合筛选，完成递进的选择，而不是检索。

本发明的编目框架定义在工作时，包含如下工作步骤：

1、从头定义一个编目框架，确定视音频描述的层面和维度，定义每个维度的特性，并在InEdit界面上画出来。

2、从已经定义的规范进行继承，如NewML、EventML、EXIF、IPTC等。

3、将定义的结果导出，保存为XML 文件文件。

4、将XML 文件引入到人工和自动编目模块，提供标注的数据容器。

本发明的系统包括：图像智能处理子系统，存储与索引子系统，基于层面和维度的检索子系统：

图像智能处理子系统：图像智能处理包括4个阶段，场景识别与切片阶段、关键帧识别阶段、语义信息抽取阶段、语义信息识别与表达阶段：

1、场景识别阶段，通过对音视频素的分析，根据图像的直方图、向量矩阵等信息，计算输出视频的场景转换点，并完成切片；

2、关键帧识别阶段，对场景语义进行分析，通过计算选取出一张最能代表本场景的图片，作为关键帧；

3、语义信息抽取阶段，从各个维度抽取音视频高层和低层的语义特征，包括低层的颜色、文理已经高层的场景、艺术以及技术方面的语义特征；

4、语义识别与表达阶段，对识别出来的特定语义特征，通过人工智能与神经网络技术，基于已经训练好的语义库，构建人能够识别的场景标识，将这些标识信息作为编目信息，标注。

海量编目信息存储与索引：在人工或自动标注阶段，会产生大量的编目信息，这些信息通过关系型数据库是没有办法存储与读取的，本方法采用NoSQL作为数据存储，通过NoSQL的高性能与海量数据处理能力。在索引方法上，通过Hadoop 的分布式文件系统和数据处理能力，实现海量数据的索引。

基于层面的搜索与选取：通过对检索意图的预判，结合检索关键词，按照编目信息的维度进行聚类与组合，提供给操作者选择的选择，由于在人工与自动标注步骤中对高层语义、艺术语义与技术语义进行标准，操作者能够按照视频表达的喜怒哀乐等情感、拍摄的角度与技术等方面来选择需要的音视频和画面。

Claims

1.一种视音频文件编目标引、元数据存储索引与搜索方法，其特征在于：它包括以下步骤：

定义多维多层面编目的编目框架:运行基础是设计一套开放的、兼容并包的数据框架--编目体系架构，突破传统馆藏的规范、格式的视音频信息描述局限，提供一种非结构化的信息描述和表达架构；采用非关系型数据模型，实现对视频进行任意的、非对称的、非关系的描述信息定义，能够实现高层概念和语义的综合标注；

对视音频素材应用编目框架：将上一步定义的多维多层面编目的框架应用到视音频素材上，构建一个基础平台，将视音频素材自包含的信息获取出来，达到通过一定的搜索引擎进行搜索的能力和目标；

S2：基于该编目标注体系，进行多维度的编目标注；

将视音频素材自包含的信息抽取出来，基于第二步中应用的框架，将这些抽取出来的信息附加到音视频上，实现从抽象的自表达信息变成为具体的、可以存储为数据的、可以识别和检索的信息；

所述的进行多维度的编目标注的步骤包括以下子步骤：

B、自动智能标注：对视音频文件进行分析，对场景进行识别和切分，并查找出关键帧图片，对关键帧图片应用图像处理算法获取出图像特征，最后通过人工智能手段对这些场景进行识别并文字化；

第一种方案是由人来识别这些信息，将这些信息用文字表达出来，方法是依次浏览整个视音频素材，在这个过程中逐渐记录其自包含的信息，并将其文字化；第二种方案采用图像处理手段，自动地获取出来，方法是对视频文件进行分析，对场景进行识别和切分，并查找出关键帧图片，对关键帧图片再应用图像处理算法，获取出图像特征，然后通过人工智能的手段对这些场景进行识别并将其文字化；应用第二种方案为主，辅以第一种方案进行适当地调校和优化，达到更佳的效果；

S3：通过图像分析算法抽取代表帧图片；

S6：通过多维度编目标注的层面组合与递进检索手段，实现快速、精确的查找；

灵活的编目框架，采用XML技术手段来定义容纳各种信息的编目框架，在GUI 表达上，采用InEdit技术，实现属性的动态拖动编辑与布局；

关键帧抽取算法，采用图像向量空间距离对比，直方图对比的图像素材，计算场景变换与抽取代表的关键帧；

图像处理算法，采用颜色计算、灰度化、二值化、直方图、模式识别的通用的成熟算法，获取图像的基本特征，在此基础上，采用人工智能与神经网络，通过机器学习将图像特征与高层语义结合起来，达到自动识别场景并表达为人能够理解的文字与概念的目的；

信息存储过程中，将海量的信息表达为JSON格式并存储于NoSQL数据库中，达到快速、高效的非结构数据存储与读取；海量信息索引，采用Lucene作为引擎框架，采用Hadoop实现海量数据的分布式调度与索引；

层面的聚类与组合，在检索技术上，采用全文检索作为入口，然后根据概念对结果进行聚类组合，技术上采用划分法、层次法、基于密度的方法、基于网格的方法和基于模型的方法的聚类算法或几种算法的组合来实现层面的聚类与组合。

2.根据权利要求1所述的一种视音频文件编目标引、元数据存储索引与搜索方法，其特征在于：音视频文件素材检索过程中，将检索变革为选取操作，通过识别操作者的检索意图，对结果进行聚类组合，为操作者提供直观的选择。