CN103678569A

CN103678569A - 一种面向虚拟场景生成的视频图像素材库的构造方法

Info

Publication number: CN103678569A
Application number: CN201310660958.9A
Authority: CN
Inventors: 陈小武; 张宇; 赵沁平; 蒋恺; 谭文婷
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2013-12-09
Filing date: 2013-12-09
Publication date: 2014-03-26
Anticipated expiration: 2033-12-09
Also published as: CN103678569B

Abstract

本发明公开了一种面向虚拟场景生成的视频图像素材库的构造方法，首先定义视频图像素材在虚拟场景生成领域下的本体概念及表示；再将所述本体的信息从网络本体语言OWL描述转换成关系数据库描述，以构造视频图像素材库；针对虚拟场景生成的应用需求，结合所构造的视频图像素材库，在对象、动作、事件三个语义层次上标注生成虚拟场景所需视频图像素材的语义并写入素材标注库；或在对象、动作、事件三个语义层次上检索所述视频图像素材库中的视频图像素材；该方法能够提供生成虚拟场景所需的视频图像素材，并有效组织和管理视频图像素材库，为基于视频图像素材的虚拟场景生成系统提供数据库支持。

Description

一种面向虚拟场景生成的视频图像素材库的构造方法

技术领域

本发明涉及数据库技术领域，尤其涉及一种面向虚拟场景生成的视频图像素材库的构造方法。

背景技术

目前，虚拟场景普遍应用于游戏娱乐、军事训练、影视制作，医学等领域，虚拟场景的生成方法具体分为两种，一种通过传统的三维建模技术渲染生成，通常需要大量的数据采集、模型搭建方面的工作，同时为达到逼真的绘制效果，往往需要对海量场景细节进行人工构造，其代价较高，工作周期较长。基于上述原因，视频图像素材在虚拟场景生成领域逐渐成为重要的资源。一方面，摄像技术广泛应用于人类生产活动的各个领域，视频图像数据相对三维模型而言，来源丰富、采集过程更为便捷；另一方面，视频图像具有真实感强，易于编辑的优点，其相应的算法工具也较容易由非领域专家的人员理解和掌握，更具普遍意义。因此，围绕基于视频图像素材的虚拟场景生成技术的理论、技术和系统研究正成为当下计算机视觉领域的研究热点，其应用前景体现了虚拟现实技术在人类社会生活中的应用趋势。

数字视频图像数据量呈海量增长，在各个应用领域均存在大量冗余情况，例如在影视、广告节目制作中，实际拍摄的素材长度往往是最终剪辑完成的影片长度的数倍甚至是数十倍，因此有必要将素材入库，以进行统一、有效的管理；另一方面，素材查找在影视图像编辑工作中占据很大比重，为方便用户定位适合的素材数据，应为素材标记语义信息，为此还需要完善的知识表达方法对素材进行标注和表达，而现有技术中却缺乏一套面向虚拟场景生成的视频图像语义素材库的构造方法。

发明内容

本发明的目的是提供一种面向虚拟场景生成的视频图像素材库的构造方法，该方法能够提供生成虚拟场景所需的视频图像素材，并有效组织和管理视频图像素材库，为基于视频图像素材的虚拟场景生成系统提供数据库支持。

一种面向虚拟场景生成的视频图像素材库的构造方法，所述方法包括：

定义视频图像素材在虚拟场景生成领域下的本体概念及表示；

将所述本体的信息从网络本体语言OWL描述转换成关系数据库描述，以构造视频图像素材库；

其中，所述视频图像素材库包括素材数据库，素材标注库和素材知识库：

所述素材数据库用于存储视频图像素材数据以及长度、帧率、分辨率的基本信息；

所述素材知识库用于存储相关领域素材的本体知识集合；

所述素材标注库用于在所述素材知识库的指导下，存储视频图像素材的语义标注信息，建立素材的语义结构到存储结构的映射关系；

针对虚拟场景生成的应用需求，结合所构造的视频图像素材库，在对象、动作、事件三个语义层次上标注生成虚拟场景所需视频图像素材的语义并写入所述素材标注库；或在对象、动作、事件三个语义层次上检索所述视频图像素材库中的视频图像素材。

由上述本发明提供的技术方案可以看出，该方法能够提供生成虚拟场景所需的视频图像素材，并有效组织和管理视频图像素材库，为基于视频图像素材的虚拟场景生成系统提供数据库支持。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例所述面向虚拟场景生成的视频图像素材库的构造方法流程示意图；

图2为本发明实施例所构建的体育视频图像素材的领域本体顶层示意图；

图3为本发明实施例所述足球领域Entity类结构示意图；

图4为本发明实施例所述足球领域Action类结构示意图；

图5为本发明实施例所述足球领域Event类结构示意图；

图6为本发明实施例所构造的领域本体的属性约束示意图；

图7为本发明实施例所构造的部分领域本体数据库结构示意图；

图8为本发明实施例所构造的素材标注库E-R图；

图9为本发明实施例所构造的部分素材标注库数据库结构示意图；

图10为本发明实施例视频图像素材语义标注的层次示意图；

图11为本发明实施例所述标注文件入库的数据流程示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实施例作进一步地详细描述，如图1所示为本发明实施例所述面向虚拟场景生成的视频图像素材库的构造方法流程示意图，所述方法包括：

步骤11：定义视频图像素材在虚拟场景生成领域下的本体概念及表示；

在具体实现中，所述本体概念按照领域经验规定属性约束，具有面向领域的通用性、完备性以及可扩展性，具体来说：

针对虚拟场景生成的不同领域素材建立支持语义规范化描述的本体；

所述本体呈树状结构，树内的每一个节点代表某一类通用的概念，概念之间具有继承关系，并以多个层次描述所述本体中符合人类经验的常用概念的属性；

且所述本体使用网络本体语言OWL语言进行描述。举例来说，针对体育足球领域，可以将顶层实体继承为球员、球场等实体，而球员实体可以做进一步继承，成为场上球员、替补球员等更具体化的实体等，最终获得足球领域内的本体树。

步骤12：将所述本体的信息从网络本体语言OWL描述转换成关系数据库描述，以构造视频图像素材库；

其中，所述视频图像素材库包括素材数据库，素材标注库和素材知识库为：

所述素材数据库用于存储视频图像素材数据以及长度、帧率、分辨率的基本信息；具体实现中，所述素材数据库包括视频和图像素材，且所述视频和图像素材的构造过程中具有统一的构造方法，将图像素材作为时间长度为1帧的视频素材进行处理。

所述素材知识库用于存储相关领域，例如影视、体育等领域素材的本体知识集合；

所述素材标注库用于在所述素材知识库的指导下，存储视频图像素材的语义标注信息，建立素材的语义结构到存储结构的映射关系；进一步的，该素材标注库包括视频、帧、对象、对象帧、事件、事件对象和事件关系，其中：

所述视频和所述帧用于记录视频和图像帧的物理属性；所述对象和所述事件用于记录视频图像的对象、动作、事件语义属性，且所述事件用于描述作为原子事件的动作；所述对象帧用于记录包含语义信息的帧区域；所述事件对象用于记录所述对象和所述事件的组成关系；所述事件关系用于描述不同事件之间的时序、空间位置关系。

另外，在将所述本体的信息从网络本体语言OWL描述转换成关系数据库描述的过程中，具体包含如下13类的转换模式(相应的中文名称需要标注出来)：

1)命名空间实体：namespaces(ID，name)；

2)资源实体：resources(ID，namespace，localname，type)；

3)三元组实体：triple(subject，predicate，object)；

4)类继承关系：subClassOf(subclassID，superclassID)；

5)属性继承关系：subPropertyOf(subpropertyID，superpropertyID)；

6)隶属关系：individuals(individualID，classID)；

7)属性域实体：propertyField(propertyID，domain，range)；

8)等价关系：equivalentRelation(resource1ID，type，resource2ID)；

9)不等价关系：differentRelation(resource1ID，type，resource2ID)；

10)属性特征实体：propertyCharacter(propertyID，character)；

11)属性约束关系：propertyRestriction(classID，propertyID，type，value)；

12)类操作关系：classOperation(resourceID，type，resource1ID，resource2ID)；

13)类注释关系：label(labelID，labelText，resourceID)。

步骤13：针对虚拟场景生成的应用需求，结合所构造的视频图像素材库，在对象、动作、事件三个语义层次上进行相应处理。

在该步骤中，具体是结合所构造的视频图像素材库，在对象、动作、事件三个语义层次上标注生成虚拟场景所需视频图像素材的语义并写入所述素材标注库；这里素材内容语义标注具有层级关系，一般来讲，动作标注在对象标注的基础上进行，事件标注在动作或者事件标注的基础上进行，具体来说：

标注生成虚拟场景所需视频图像素材的对象类别以及名称，并在视频帧或者图像上勾勒包含语义的对象区域，若是在视频上标注对象，则需要连续勾勒多帧对象区域；

标注生成虚拟场景所需视频图像素材的动作类别、名称、起止时间，并指定动作的主体和客体，所述动作的主体和客体均为对象标注结果；

标注生成虚拟场景所需视频图像素材的事件类别、名称、起止时间，并指定组成事件的子事件，所述事件由子事件或者动作组成，且所述动作可看作原子事件。

或者，可以在对象、动作、事件三个语义层次上检索所述视频图像素材库中的视频图像素材，在这过程中：可以根据检索结果中不同层次的标注信息，定位到具体的视频流、图像流以及具有语义信息的像素区域。

下面以体育视频中足球比赛为例来对上述构造方法进行详细说明，首先是定义视频图像素材在虚拟场景生成领域下的本体概念及表示：

如图2所示为本发明实施例所构建的体育视频图像素材的领域本体顶层示意图，途图2中：每一个节点是一个概念类，所有的类都是根类“Thing”的子类。深色的节点表示枚举类。以足球领域为例，Thing按照语义划分为Action、Ball_Status、Ball-Direction、Entity、Event五个子类，其中枚举类Ball_Status由moving、stil两个实例组成，枚举类Ball_Direction由backward，left，forward，right四个实例组成。

Entity类描述了足球领域的常见实体，部分结构如图3所示。Player(球员)、Pitch(球场)、Ball(足球)、Body_Parts(身体部位)等概念类都是Entity的子类。Player又可以进一步细分为Player_On_Pitch(场上球员)和Substitle(替补队员)。场上球员还可以做进一步细分。球场上的位置(Pitch)可以分为两类，Point(点)和Area(区域)。点有中点和罚球点两个子类，区域有前场、后场、中场、罚球区、角球区等七个子类。足球比赛中常见的身体部位可以分为手、足、胸、头四个子类。Action、Event类的构造规则与Entity类相似，描述了足球领域常见的动作概念和事件概念，其部分结构如图4、5所示。这里，所有的概念命名规则参考中国足球协会裁判委员会编写的《足球竞赛规则与裁判法分析》以及900余条足球比赛视频文字播报。

参阅图6本发明实施例所构造的领域本体的属性约束示意图，领域本体的部分类定义有属性约束，以便于本体的完善和演化。例如，Action类最多只有一个action_location(发生位置)属性，其定义域是Action类，值域是Pitch类。类似的定义其他属性约束并为其他类增加必要的属性及属性约束，从而得到一个完善的面向特定领域素材的本体。

参阅图7部分足球领域本体在数据库中的存储结构示意图，图7中：黑色箭头表示不同表结构的字段的对应关系。该存储结构是一种将本体的信息从网络本体语言OWL描述转换成关系数据库描述的模式，完整地存储了本体信息，考虑了本体的可拓展性，并且利用了关系数据库查询的高效性，这里具体包含13类关系模式：

(1)namespaces(ID，name)。该模式记录本体中命名空间的概念。其中ID字段用于唯一标识一个命名空间，字段name用于记录地址字符串的值。

(2)resources(ID，namespace，localname，type)。描述本体的资源概念。ID用于唯一标识一个资源。namespace字段和localname字段共同构成本体中标识资源地址的URI。namespace字段的取值参照namespaces表中的ID字段，localname存储标识符字符串。资源的类型用字段type进行区分。类用用“C”表示，属性用“P”表示，实例用“I”表示，文字用“L”表示。

(3)triple(subject，predicate，object)。描述本体中的三元组，表中的每一个字段的取值都参照resources表中的ID字段，用来保存实例在属性上的具体取值。

(4)subClassOf(subclassID，superclassID)。subClassOf模式存储类之间的从属关系。subclassID字段存储子类的ID，取值参照resources表中的ID字段；superclassID字段存储父类的ID，取值参照resources表中的ID字段。

(5)subPropertyOf(subpropertyID，superpropertyID)。subPropertyOf模式存储属性之间的从属关系。subpropertyID字段存储子属性的ID，取值参照resources表中的ID字段；superpropertyID字段存储父属性的ID，取值参照resources表中的ID字段。

(6)individuals(individualID，classID)。根据原则1，OWL中从RDFS继承过来的特征要分开存储，于是为实例和类之间的隶属关系Individual创建单独的individuals表。其中各字段的取值均参照resources表中的ID字段。

(7)propertyField(propertyID，domain，range)。propertyField模式存储OWL本体中的属性域。表中各字段的取值均参照resources表中的ID字段。

(8)equivalentRelation(resource1ID，type，resource2ID)。equivalentRelation模式存储OWL中的类、属性和实例的等价关系。resource1ID字段和resource2ID字段的取值均参照resources表中的ID字段，字段type可选取值为“equivalentClass”、“equivalentProperty”或“sameAs”，用来表示resource1ID所代表的资源和resource2ID所代表的资源是同一种type类型间的关系。

(9)differentRelation(resource1ID，type，resource2ID)。differentRelation模式存储OWL中的类、属性和实例的不等价关系。resource1ID字段和resource2ID字段的取值均参照resources表中的ID字段，字段type可选取值为“differentFrom”和“AllDifferent”，用来表示resource1ID所代表的资源和resource2ID所代表的资源是同一种type类型间的关系。

(10)propertyCharacter(properyID，character)。propertyCharacter存储OWL本体中六个查询率较低的特征。这六个特征用character字段进行区分，可能的取值有“ObjectProperty”、“DatatypeProperty”、“TransitiveProperty”、“SymmetricProperty”、“FunctionalProperty”或“InverseFunctionalProperty”。properyID字段的取值参照resources表中的ID字段。

(11)propertyRestriction(classID，propertyID，type，value)。存储OWL中的属性约束。classID字段和propertyID字段的取值参照resources表中的ID字段。type字段可选取的值为“allValuesFrom”、“someValuesFrom”、“minCardinality”、“maxCardinality”或“cardinality”。value字段中的取值随type的取值而定，type值为“allValuesFrom”、“someValuesFrom”时，value取值参照resources表中的ID字段；type值为“minCardinality”、“maxCardinality″、“cardinality″时，value取值为具体的数值，如0或1。

(12)classOperation(resourceID，type，resource1ID，resource2ID)。OWL中用IntersectionOf特征来描述一个类是某个命名类和限制之间的相交，它是一个三元关系，classOperation存储这种关系。表中除type外的字段取值均参照resources表中的ID字段。type字段说明resoureceID是由resource1ID和resource2ID经过type类型的运算而得到的。

(13)label(labelID，labelText，resourceID)。label表用于存储对本体概念的注释，注释的具体内容存储在labelText字段里，resourceID字段的取值参照resources表中的ID字段。labelID字段用于唯一标识一个注释。

参阅图8为本发明实施例所述素材标注库的E-R图，素材标注库包括视频、帧、对象、对象帧、事件、事件对象和事件关系，如图8所示：“视频”实体记录视频URL地址、视频缩略图等基本信息，图像在入库时，可看作长度为1帧的视频进行处理。“帧”实体记录了帧所在的视频ID、帧在视频中出现的时间、帧的偏移。“对象”实体记录了对象的名称和类型。“帧”实体与“对象”实体通过关系“对象帧”关联起来，每个对象在某帧中的轮廓点序列保存在“对象帧”关系中。“事件”实体是对事件的抽象。动作可以看作原子事件，亦由“事件”实体描述。事件与事件之间的关系由“事件关系”来体现。“事件对象”关系存储动作中的主体和客体。“属性”实体记录标注过程产生的其他属性信息，其中资源类型和资源ID指明该属性值的拥有者实体的类型以及相应的ID。资源类型包括对象、动作、事件。属性值均对应领域本体的某一概念，相应的属性ID对应于知识库中的属性ID值。

该E-R图所转换的数据库结构部分如图9所示：一共包含8类关系模式。其中需要说明的是事件关系模式包含6类时间关系取值，分别是“before”、“meet”、“overlap”、“start”、“during”、“same”，和4类空间关系取值“during”、“side-by-side”、“face-to-face”、“back-to-back”、“confusion”。

参阅图10为本发明实施例视频图像素材语义标注的层次示意图，本发明实施例支持对象、动作、以及事件三种不同层次的语义标注。其中，对象标注需要勾勒出视频图像中具有语义含义的对象区域，并在此基础上指定对象类别、名称。若在视频上标注对象，则需要对对象的轮廓进行跟踪，连续标注多个对象帧。动作标注建立在对象标注的基础上，需要指定动作的主体对象与客体对象，动作发生的时间区域，动作类别、名称等属性。事件标注建立在动作标注或事件标注的基础上，指定一个或者多个动作或事件与它们之间的时空关系、事件类别、名称等。不同层级的语义标注具有继承关系，例如动作标注继承对象标注的属性，事件标注继承动作、子事件标注的属性等。标注信息以XML文档结构描述，便于为虚拟场景生成的有关工具算法提供输入。

参阅图11为本发明实施例所述标注文件入库的数据流程示意图，图11中：标注文件的根元素信息存储视频图像文件的基本物理信息，存入素材标注库中的视频信息表。事件信息分析模块把解析得到的事件元素与一些视频信息进行分析获取事件信息，并把事件信息存储到素材标注库中的事件信息表；动作信息分析模块把标注文件解析得到的动作元素信息和必要的视频信息一起进行分析，把分析的结果存入事件信息表，一些必要的动作信息还将流向对象一帧信息分析模块。在对象一帧信息分析模块中，对象信息、帧信息、对象和帧的关系信息、对象和动作的关系信息被一一分析出来并分别存储到素材标注库中的对象信息表、帧信息表、对象一帧关系表、动作一对象关系表中。

另外，本发明实施例还可以根据语义概念关键字检索视频图像素材，检索条件可以是单一或多关键字，关键字对应领域本体的某一级概念节点，其根类型对应领域本体的二级节点，还是以足球领域为例，关键字内容应对应Action、Ball_Status、Ball-Direction、Entity、Event五个二级概念的子类。查询关键字组合转换为数据库查询语句对素材标注库进行检索，并根据检索结果中视频或图像的URL信息定位视频流和图像流，最后通过对象帧实体记录的点序列定位视频图像流中具有语义信息的像素区域。

综上所述，本发明实施例所述构造方法具有完善的领域本体支撑，可利用可扩展的领域知识本体对视频图像素材进行统一组织管理，保证了标注内容的一致性与完整性；同时支持多层次的视频图像素材语义标注和检索，不仅可以标注和检索完整的视频图像素材，还支持对视频图像素材中的对象、动作以及事件语义进行标注或检索，给出以XML文件描述的检索结果供虚拟场景生成系统的系列工具及算法调用。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种面向虚拟场景生成的视频图像素材库的构造方法，其特征在于，所述方法包括：

所述素材知识库用于存储相关领域素材的本体知识集合；

2.根据权利要求1所述面向虚拟场景生成的视频图像素材库的构造方法，其特征在于，所述本体概念及表示，具体为：

且所述本体使用网络本体语言OWL语言进行描述。

3.根据权利要求1所述面向虚拟场景生成的视频图像素材库的构造方法，其特征在于，所述素材数据库包括视频和图像素材，且所述视频和图像素材的构造过程中具有统一的处理方法，将图像素材作为时间长度为1帧的视频素材进行处理。

4.根据权利要求1所述面向虚拟场景生成的视频图像素材库的构造方法，其特征在于，在将所述本体的信息从网络本体语言OWL描述转换成关系数据库描述的过程中，具体包含如下13类的转换模式：

1)命名空间实体：namespaces(ID，name)；

2)资源实体：resources(ID，namespace，localname，type)；

3)三元组实体：triple(subject，predicate，object)；

4)类继承关系：subClassOf(subclassID，superclassID)；

5)属性继承关系：subPropertyOf(subpropertyID，superpropertyID)；

6)隶属关系：individuals(individualID，classID)；

7)属性域实体：propertyField(propertyID，domain，range)；

8)等价关系：equivalentRelation(resource1ID，type，resource2ID)；

9)不等价关系：differentRelation(resource1ID，type，resource2ID)；

10)属性特征实体：propertyCharacter(propertyID，character)；

13)类注释关系：label(labelID，labelText，resourceID)。

5.根据权利要求1所述面向虚拟场景生成的视频图像素材库的构造方法，其特征在于，所述素材标注库包括视频、帧、对象、对象帧、事件、事件对象和事件关系。

6.根据权利要求1所述面向虚拟场景生成的视频图像素材库的构造方法，其特征在于，

所述视频和所述帧用于记录视频和图像帧的物理属性；

所述对象和所述事件用于记录视频图像的对象、动作、事件语义属性，且所述事件用于描述作为原子事件的动作；

所述对象帧用于记录包含语义信息的帧区域；

所述事件对象用于记录所述对象和所述事件的组成关系；

所述事件关系用于描述不同事件之间的时序、空间位置关系。

7.根据权利要求1所述面向虚拟场景生成的视频图像素材库的构造方法，其特征在于，所述在对象、动作、事件三个语义层次上标注生成虚拟场景所需视频图像素材的语义并入库，具体包括：

8.根据权利要求1所述面向虚拟场景生成的视频图像素材库的构造方法，其特征在于，所述在对象、动作、事件三个语义层次上检索所述视频图像素材库中的视频图像素材的过程中，具体包括：

根据检索结果中不同层次的标注信息，定位到具体的视频流、图像流以及具有语义信息的像素区域。