CN102027467A

CN102027467A - 视频数据的非线性表征

Info

Publication number: CN102027467A
Application number: CN2008801291223A
Authority: CN
Inventors: 金声; 欧思乐
Original assignee: MULTI BASE Ltd
Current assignee: MULTI BASE Ltd
Priority date: 2008-05-27
Filing date: 2008-05-27
Publication date: 2011-04-20
Also published as: US20100306197A1; JP2011523484A; WO2009143648A1

Abstract

以非线性范式表征视频数据的方法。视频数据被分类为语义内容，所述语义内容包括多层结构且每一层表示语义参考(例如不同的影片实体)。以分层结构组织所述语义内容，其中顶层表示综合信息，而最低层表征基本信息。在所述顶层中的所述影片实体被超链接到在第二层中的实体。在所述第二层中的所述实体被超链接到第三层并以此类推。在最低层中的每一影片实体被指派到所述视频内容的一部分并且被超链接到对应的视频数据。所述语义内容包括在多对多关系中被超链接的视频数据。多对多关系意味着所述数据为超链接的视频数据并且所述视频数据支持多路访问和多路显示。用于向使用者表征分类的语义内容的装置，其中所述视频数据可以无需编码转换被线性地逐段可视化并播放。所述语义内容的所述分层结构还可以在逻辑上被可视化为关系图和关键帧的显示。使用者可以从所述顶层开始向下到所述最低层浏览所述语义内容。与所述语义内容的每一影片实体相对应的所述视频可以被单独地作为短视频来播放。以及用于在视频数据的分类的语义内容的贮藏库上执行搜索的装置。

Description

视频数据的非线性表征

技术领域

本发明总地涉及以非线性方式表征视频数据的方法。

背景技术

目前，视频的观看与表征均是以线性方式实现的。基于帧的方式对视频进行表征，并且以递增的顺序一帧一帧地观看视频。视频分类和搜索均是以时间上为线性的形式处理的。也就是说，视频片段以线性时基式的方式被分割。在视频搜索期间，系统可以指向特定的帧。大部分视频特征(例如，快进和快退)为基于线性的操作。

当前，网站(例如YouTube)允许对视频数据标记关键字。使用者可以通过敲入关键字并且与网站上的视频所标记的关键字匹配来搜索视频。这种技术使得能够通过实例进行查询。然而，如果使用者无法想到准确的关键字来匹配时，这样搜索视频是非常困难的。

存在这样的现有技术，允许基于低级的视觉特征(例如，颜色、纹理以及运动)的视频索引。选择关键帧(key-frame)和场景(scene)来以压缩方式概略地表征视频。然而，关键帧和场景是仅可以通过眼球来观看的，并且因此是不能扩展到针对视频数据库来搜索的。另一现有技术针对包含模型帧(例如，车、花、狗等)的帧库来匹配关键帧。匹配结果将用来索引视频内容。然而，这就回到了与线性索引相同的限制，即其中视频数据仅可以支持关键字搜索。现阶段的技术具有有限的能力且不能使用视频数据的所有潜力。

发明内容

本发明提供基于非线性的视频表征以及用于视频数据表征的方法。这样的表征为用于非线性视频观看和搜索的系统提供能力。

视频数据被显示为多层结构，其中每一层表示不同的影片实体(cinematic entity)。在所述结构的顶层一般为抽象(abstract)信息，其中在基本层表示具体信息。视频数据被分类到语义视频数据中，语义视频数据在多对多关系中是被超链接的。视频数据成为超视频(hyper-video)，并且所述视频数据支持多路访问和多路显示。

本发明包括用于向使用者显示分类的视频数据的装置。语义数据可以被描述为纯文本格式。使用者可以从顶层开始向下到最低层来浏览语义数据。语义数据的分层结构被显示为关系图。使用者可以观看可以作为短视频单独播放的对应于每一语义数据的视频的每一部分。

本发明还包括用于在语义视频数据的贮藏库上执行搜索的装置。使用者可以指定要在分类的视频数据的语义内容中进行搜索的关键字。可以在语义内容上执行本体搜索(ontology search)，其中所述搜索操作基于分层的关系而不仅仅是关键字。采用泛型排列和群集算法来将内容分组并使内容相互关联。

视频可以根据其内容、语义含义、事件等被分类。因此，使用者可以选择观看和搜索来自视频的任何特定的内容。

语义含义关系和本体论

从最低的对象层到最高的场景层，向每一视频数据实例给出语义含义。本发明为了组织语义描述采用本体论方法。本体论是采用最先进技术的知识管理方法论，并且常用来描述概念之间的关系。在许多技术网站中(例如，http://www.w3.org/TR/webont-req/)对本体论的定义和实施进行了描述。例如，帧包含对象富士山，该对象属于地理山脉和国家日本的组。在下一层中，日本属于亚洲。

附图说明

附图被引入并作为本公开的一部分，图示说明本发明的各种实施方案和各方面。在附图中：

图1图示说明视频数据多层结构；

图2示出视频显示的线性视图；

图3示出示例逻辑视图；

图4示出对传统媒体数据进行分类的过程；

图5示出用于显示分类的语义数据的装置的优选的实施方案；以及

图6示出在媒体搜索中的数据流。

具体实施方式

如下的具体说明涉及附图。尽可能地在附图和如下的说明中使用相同的参考标号来表示相同或相似的部分。尽管本文描述本发明的数个示例性实施方案和特征，修改、变通和其他实施方式均为可能的，而不背离本发明的精神和范围。例如，可以对附图中图示说明的部件进行替换、增加或修改，而本文所描述的示例性方法可以通过对已公开的方法进行替换、重排序或增加步骤来修改。因此，如下的具体说明并不限制本发明。相反，本发明适合的范围由所附的权利要求书限定。

本发明提供用于以语义和非线性的分层结构表征视频数据和显示视频数据模型的方法。

本发明以基于内容的结构表征视频数据单元，而不是仅仅将视频表征为帧实体的序列。具体地，视频数据被显示为多层结构，其中每一层表示不同的影片实体。在所述结构的顶层一般为抽象信息，其中在基本层表示具体信息。

可以根据视频的内容、语义含义、事件等对视频进行分类。这样的分类通过创建特定的标签来实现，该特定的标签具有被分配到至少一种语义参考(semantic reference)的字段。所述语义参考包括关于记录的信息，所述记录具有带有至少一种语义参考的字段。

因此，使用者可以选择观看和搜索来自视频的任何特定内容，这样的内容是载有具有相同的语义参考的标签的视频文件数据。在优选的实施方案中，这样的内容按顺序被排列并表征。例如，新闻剪辑可以被分组到各种类别中，例如角色(cast)、事件、日期、场地、主题等。历史性的网球比赛可以被归类到比赛、发球、拦击、非受迫性失误、运动员等中。影片可以被分组到角色、事件、场地等中。

由于本体论对语义内容搜索的支持，针对不同使用者而言语义内容贮藏库(repository)成为有价值的资源。例如，新闻视频可以更多地以电视台来组织，历史性体育运动事件可以容易地通过人员方面信息(例如教练等)来进行检索。

图1图示说明视频数据多层结构，并且出于图示说明的目的，该多层结构具有这样的六层，即场景、情节(plot)、情景(play)、截段(shot)、截镜(take)、帧以及对象(object)。最基本的层1为对象。该对象可以为富有意义的语义对象(例如人、车、建筑物、海滨、天空等)或者为视觉上明显的区域(例如具有相同颜色、类似纹理等的区域)，该视觉上明显的区域为视觉对象。该对象还可以为交互式地分组的区域。语义对象和视觉对象形成感知对象的概念。语义内容的分层结构可以在逻辑上被可视化为关系图和关键帧的显示。

下一层为帧2。对象为帧中的区域。帧是视频数据基本单元的传统的且物理的表征。帧的序列形成视频，其中典型地，视频中的1秒包括25帧。帧在显示上为一个完整的单元。一系列连续的帧形成视频序列。I-帧(I-frame)在一组帧中为识别帧，与在MPEG压缩标准中的I-帧的定义一致。

层3表示截段和截镜。截镜为包含感知对象的一个动作的帧序列。动作是由如在帧序列中示出的对象所实现的连续运动，然而所述运动演绎(process)语义含义。例如，情景可以为从一个人开始散步开始到这个人停止散步的帧的序列。它是描述动作的最小序列。截段是给出特定感知对象的清晰描述的帧序列。例如，截段可以为从汽车出现开始到汽车消失的帧序列。它是描述感知对象的最小单元。

截镜和截段均为抽象的影片实体。它们可以出现在相同的帧序列中，并且相互之间不必具有任何物理关系。

包含在同一场地执行许多动作的多个感知对象的视频形成情景4。场地为对视频截镜(video shot)起到背景作用的视觉对象。同一场地可以在视频中出现多次。场地的景象可以从不同的影片角度进行拍摄。

来自同一场地的所有情景4的集合形成场景6，而在同一故事下生成的多个情景形成情节5。请注意的是，层的定义允许截镜和截段，以及情节和场景之间的交叠。

在可替换的实施方案中，可以针对各种类型的视频数据采用多层结构中的不同数目的层。例如，为了进行影片视频数据搜索和显示，可以采用比较综合的信息(global information)作为影片制作的来源、影片公司的名称和/或制片年份。

图2给出传统线性视频数据结构的图形显示。在传统视频数据表征范例中，视频帧2以线性形式连接。也就是说，视频帧在其之前有一个且只有一个视频帧，并且在其之后有一个且只有一个帧。

图3示出示例逻辑视图。被分类到语义信息层中的视频数据以分层的形式相互关联。在逻辑视图中给出这一关系。注意到的是，每一个视频剪辑对其他剪辑形成多对多关系。多对多关系意味着所述数据为超视频并且所述视频数据支持多路访问和多路显示。这些剪辑通过语义关系而不是时间关系连接。

图4示出对序列媒体数据进行分类的过程。序列媒体7满足被预期以之进行表达的预先限定的帧序列。例如：影片、音频唱片、预先编程的虚拟世界场景、周复一周的静态数据的集合等。

在限定和分类截段8的过程中，序列媒体7的部分、具有特定兴趣的片段被识别并被给出一些分类信息(例如，可搜索的文本描述)。这样的被识别的片段称为截段(shot)9。截段可以由手动方式限定或通过应用适当的域相关算法的编程方式限定。这一过程的结果是截段集合。

每个截段包括有关原始媒体、开始和结束帧/序列号/时间标记以及分类信息的参考。截段仅仅包含涉及原始媒体的部分的信息。

截段贮藏库10用来储存上面识别的截段对象，做好准备来被搜索和检索。截段进一步被分组为情景、情节、场景等。

图5示出用于在不同层显示分类的语义数据的装置的优选的实施方案。优选具有用于表征要被表征的视频文件数据的视频文件数据表征装置。这样的装置被设计来储存具有图形用户界面的计算机程序，用于使用者访问视频数据的分类语义信息。在最低层，分类的视频可以无需编码转换而被线性地逐段可视化并播放。在浏览层，语义数据的分层结构可以在逻辑上被可视化为关系图和关键帧的显示。

视频的语义表征以文本的形式被显示在文本窗口11上，其中使用者可以浏览视频的内容。

类似于传统的显示，在物理层，视频可以在内容页面中示出。在播放窗口14中提供线性视图。在这种表征中，视频数据被可视化为一帧一帧的序列。本发明允许帧被分组到截段和截镜中。截段和截镜的顺序连接形成整个视频。这些截段和截镜在低层视图13中示出。

根据其内容，截段和截镜可以被归类到各种类别中。使用者可以为每个视频动态地限定类别。示例类别为角色、事件、场地、情景、场景等。这些语义类别被显示为高层视图12。

被分类到语义信息层中的视频数据以分层的形式相互关联。包含针对视频文件数据的语义参考的标签被创建，以包含关于记录的信息，所述记录具有带有至少一种所述视频文件数据上的语义参考的字段。这样的标签便利由使用者进行的搜索和检索。在逻辑视图15中给出分层关系。

可视化窗口16示出每一场景、情景、截段或截镜相对于整个视频的物理位置。

用于在语义视频数据的贮藏库上执行搜索的装置的优选的实施方案为搜索引擎(例如计算机程序)。分类的视频数据储存在数据库贮藏库中。在分层结构的不同层的视频数据由关键帧的泛型排列和群集算法分组以进行截段再分组。

视频数据表征由用于表征要被表征的视频文件数据的装置实现，所述要被表征的视频文件数据载有这样的标签，所述标签具有被分配到至少一种语义参考并且还被分配到多层分层结构中的指定的层的字段，并且所述要被表征的视频文件数据被这样构造，从而载有具有相同语义参考的标签的视频文件数据按顺序被排列并表征。所述装置包括多个标签，所述多个标签包含针对视频文件数据的语义参考，所述语义参考包括关于记录的信息，所述记录具有带有至少一种所述要被搜索的视频文件数据上的语义参考的字段，并且所述语义参考包含通过使用多个层次级(hierarchical level)对所述要被搜索的视频文件数据进行归类的指定的层的信息。所述装置提供输入单元，所述输入单元用于给出指令来搜索与所述要被搜索的视频文件数据上的指定的语义参考关联的标签，并且搜索与所述要被搜索的视频文件上的相同语义参考关联和具有所述层次级中的指定的层的标签；检索单元，所述检索单元用于从标签中检索关于记录的信息，所述记录具有所述要被搜索的视频文件数据上的相同语义参考和层次级中的指定的层；提取单元，所述提取单元用于提取载有具有指定的语义参考和所述层次级中的指定的层的标签的所述视频文件数据；表征单元，所述表征单元用于按顺序表征提取出的载有具有指定的语义参考和所述层次级中的指定的层的标签的所述视频文件数据。

优选地，本发明提供用于指示计算机来表征视频文件数据的计算机可读存储器产品，而这样的存储器产品储存程序，以指示计算机接收指令来进行搜索、检索和提取与指定的语义参考关联的标签，并且按顺序表征被提取出的载有这样的标签的视频文件数据，该标签具有指定的语义参考和层次级中的指定的层。

与使用者仅可以执行线性搜索(例如快进/快退以及跳到适当章节)的传统视频搜索相反的是，本发明允许应用程序在语义内容贮藏库上执行本体搜索。例如，针对网球视频中的拦击训练进行的使用搜索，本体论自动地支持具有正手拦击和反手拦击的连接(link)。在另一实施例中，使用者可以通过指定内容搜索特定的截段。例如，使用者可以搜索比尔·克林顿，而系统将返回所有包含比尔·克林顿的截段和截镜。

使用者可以在视频上执行浏览操作。这在传统线性视频数据显示的方法论中是不可能的。例如，使用者可以选择国家(例如美国)并且在这一类别下浏览内容。在国家类别下，可以有包括总统的子类别，并且转而所述子类别总统可以包括比尔·克林顿。选择比尔·克林顿将列出来自视频纪录的包含比尔·克林顿的全部视频剪辑。

图6示出媒体搜索中的数据流。搜索标准由用户应用程序17经由用户界面收集，并且搜索请求被发送到搜索服务器18，其中所述搜索服务器通过截段贮藏库19搜索匹配所述搜索标准的截段。截段贮藏库19返回关于与给出的标准匹配的截段的信息。然后，截段信息被返回到用户应用程序17。基于返回的截段信息，用户应用程序向媒体服务器20提交请求，媒体服务器20处理所述请求并且通过给出的截段信息返回如所描述的序列媒体的片段。

尽管已经描述了本发明的特定特征和实施方案，对本领域技术人员来说，从本文所公开的本发明实施方案的说明和实践的理解中，本发明的其他实施方案将会是显然的。因此，意图的是，说明和实施例被认为仅仅是示例性的，其中本发明的真正范围和精神由所附的权利要求书及其全部的等同范围所指明。

Claims

1.一种用于表征要被表征的视频文件数据的视频文件数据表征方法，所述要被表征的视频文件数据载有这样的标签，所述标签具有被分配到至少一种语义参考的字段，并且所述要被表征的视频文件数据被这样构造，从而载有具有指定的语义参考的标签的视频文件数据按顺序被排列并表征，该方法包括：

为视频文件数据创建包含语义参考的标签，所述语义参考包括关于记录的信息，所述记录具有带有至少一种所述要被搜索的视频文件数据上的语义参考的字段；

接收指令来搜索与所述要被搜索的视频文件数据上的指定的语义参考关联的标签；

从标签中检索关于记录的信息，所述记录具有所述要被搜索的视频文件数据上的指定的语义参考；

提取载有具有指定的语义参考的标签的所述视频文件数据；

按顺序表征提取出的载有具有所述指定的语义参考的标签的视频文件数据。

2.一种用于表征要被表征的视频文件数据的视频文件数据表征方法，所述要被表征的视频文件数据载有这样的标签，所述标签具有被分配到至少一种语义参考并且还被分配到多层分层结构中的指定的层的字段，并且所述要被表征的视频文件数据被这样构造，从而载有具有所述指定的语义参考和指定的层的标签的视频文件数据按顺序被排列并表征，该方法包括：

为视频文件数据创建包含语义参考的标签，所述语义参考包括关于记录的信息，所述记录具有带有至少一种所述要被搜索的视频文件数据上的语义参考的字段，并且所述语义参考包含通过使用多个层次级对所述要被搜索的视频文件数据上的所述语义参考进行归类的指定的层的信息；

进一步接收指令来搜索与所述指定的语义参考关联并且具有要被搜索的视频文件上的所述层次级中的指定的层的标签；

从标签中检索关于记录的信息，所述记录具有所述要被搜索的视频文件数据上的所述指定的语义参考和所述层次级中的所述指定的层；

提取载有具有指定的语义参考和所述层次级中的指定的层的标签的所述视频文件数据；

按顺序表征提取出的载有具有所述指定的语义参考和所述层次级中的所述指定的层的标签的视频文件数据。

3.如权利要求1或2所述的视频文件数据表征方法，其中内容页面示出多个所述提取出的视频文件数据及所述视频文件数据的标签，从而所述表征支持多个具有多对多关系的视频文件数据的表征，并且支持多路访问和多路显示。

4.如权利要求2所述的视频文件数据表征方法，其中所述分层结构包括多个层，在所述多个层中顶层表示综合信息，较低的一层表示比较基本信息，并且最低层表示最基本信息。

5.如权利要求2所述的视频文件数据表征方法，其中所述分层结构包括六层，即场景、情节、情景、截段、截镜、帧以及对象，在所述六层中顶层表示综合信息，较低的一层表示比较基本信息，并且最低层表示最基本信息。

6.如权利要求2所述的视频文件数据表征方法，其中多个载有具有指定的语义参考和指定的层的信息的标签的所述视频文件数据为超链接的并且按顺序被显示。

7.一种用于表征要被表征的视频文件数据的装置，所述要被表征的视频文件数据载有这样的标签，所述标签具有被分配到至少一种语义参考的字段，并且所述要被表征的视频文件数据被这样构造，从而载有具有指定的语义参考的标签的视频文件数据按顺序被排列并表征，该装置包括：

视频文件数据或多个载有包含语义参考的标签的视频文件数据，所述语义参考包括关于记录的信息，所述记录具有带有至少一种所述要被搜索的视频文件数据上的语义参考的字段；

输入单元，所述输入单元用于给出指令来搜索与所述要被搜索的视频文件数据上的指定的语义参考关联的标签；

检索单元，所述检索单元用于从标签中检索关于记录的信息，所述记录具有所述要被搜索的视频文件数据上的指定的语义参考；

提取单元，所述提取单元用于提取载有具有指定的语义参考的标签的所述视频文件数据；以及

表征单元，所述表征单元用于按顺序表征提取出的载有具有所述指定的语义参考的标签的视频文件数据。

8.一种用于表征要被表征的视频文件数据的装置，所述要被表征的视频文件数据载有这样的标签，所述标签具有被分配到至少一种语义参考并且还被分配到多层分层结构中的指定的层的字段，并且所述要被表征的视频文件数据被这样构造，从而载有具有所述指定的语义参考和指定的层的标签的视频文件数据按顺序被排列并表征，该装置包括：

视频文件数据或多个载有包含语义参考的标签的视频文件数据标签，所述语义参考包括关于记录的信息，所述记录具有带有至少一种所述要被搜索的视频文件数据上的语义参考的字段，并且所述语义参考包含通过使用多个层次级对所述要被搜索的视频文件数据上的语义参考进行归类的指定的层的信息；

输入单元，所述输入单元用于给出指令来搜索与所述要被搜索的视频文件数据上的指定的语义参考关联的标签，并且搜索与所述指定的语义参考关联并且具有要被搜索的视频文件上的所述层次级中的指定的层的标签；

检索单元，所述检索单元用于从标签中检索关于记录的信息，所述记录具有所述要被搜索的视频文件数据上的指定的语义参考和所述层次级中的指定的层；

提取单元，所述提取单元用于提取载有具有指定的语义参考和所述层次级中的指定的层的标签的所述视频文件数据；

表征单元，所述表征单元用于按顺序表征提取出的载有具有指定的语义参考和所述层次级中的指定的层的标签的所述视频文件数据。

9.一种用于指示计算机来表征要被表征的视频文件数据的计算机可读存储器产品，所述要被表征的视频文件数据载有这样的标签，所述标签具有被分配到至少一种语义参考的字段，并且所述要被表征的视频文件数据被这样构造，从而通过使用多个包含针对视频文件数据的语义参考的标签，载有具有所述指定的语义参考的标签的视频文件数据按顺序被排列并表征，所述语义参考包括关于记录的信息，所述记录具有带有至少一种所述要被搜索的视频文件数据上的语义参考的字段，所述存储器产品储存程序来指示计算机进行如下操作：

提取载有具有指定的语义参考的标签的所述视频文件数据；

按顺序表征提取出的具有所述指定的语义参考的标签的视频文件数据。

10.一种用于指示计算机来表征要被表征的视频文件数据的计算机可读存储器产品，所述要被表征的视频文件数据载有这样的标签，所述标签具有被分配到至少一种语义参考并且还被分配到多层分层结构中的指定的层的字段，并且所述要被表征的视频文件数据被这样构造，从而通过使用多个包含针对视频文件数据的语义参考的标签，载有具有所述指定的语义参考的标签的视频文件数据按顺序被排列并表征，所述语义参考包括关于记录的信息，所述记录具有带有至少一种所述要被搜索的视频文件数据上的语义参考的字段，并且所述语义参考包括通过使用多个层次级对所述要被搜索的视频文件数据上的语义参考进行归类的指定的层的信息，所述存储器产品储存产品来指示计算机进行如下操作：

接收指令来搜索与所述要被搜索的视频文件数据上的指定的语义参考关联的标签，并且搜索与所述指定的语义参考关联并且具有要被搜索的视频文件上的所述层次级中的指定的层的标签；

从标签中检索关于记录的信息，所述记录具有所述要被搜索的视频文件数据上的指定的语义参考和层次级中的指定的层；

提取载有具有指定的语义参考和所述层次级中的指定的层的标签的所述视频文件数据；以及

按顺序表征提取出的载有具有指定的语义参考和所述层次级中的指定的层的标签的所述视频文件数据。