CN1312643A

CN1312643A - 产生合成关键帧的方法和使用该方法的视频浏览系统

Info

Publication number: CN1312643A
Application number: CN01109124A
Authority: CN
Inventors: 田星培; 郑灿义; 尹庆老
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2000-03-08
Filing date: 2001-03-08
Publication date: 2001-09-12
Anticipated expiration: 2021-03-08
Also published as: EP1132835A1; KR20010087683A; JP2006101526A; JP2001320670A; US20010020981A1; CN1168036C; KR100512138B1

Abstract

提供了一种产生合成关键帧的方法,能够在受限装置上显示大量信息。还提供一种利用合成关键帧的视频浏览系统。产生合成关键帧的方法包括以下步骤:从一第一源接收一视频流并将其划分成有意义的区段;选择代表一所划分区段的一个或多个关键帧或关键区;组合所选择关键帧或关键区以产生一个合成关键帧。

Description

产生合成关键帧的方法和使用该方法的视频浏览系统

本发明涉及基于内容的多媒体搜索系统，具体涉及能够在具有固定尺寸的屏幕上显示大量信息的合成关键帧产生方法和使用该方法的视频浏览系统。

随着近年来图像/视频处理技术的发展，用户可以在所希望的时间搜索/过滤和浏览所希望视频内容(或运动图像，例如电影，戏剧，记录片节目等)的所希望部分。

用于非线性视频浏览或搜索的基本技术包括镜头分段(shotsegmentation)和镜头群集(shot clustering)。这些技术用于分析和搜索或浏览多媒体内容。

在图像/视频处理技术中，镜头(shot)是由一个摄像机在不间断情况下所获得的一个视频帧序列，镜头是用于构建和分析一个视频的基本单位。场景(scene)是视频中一个有意义的组成单元，即，是故事发展中的一个重要单元。一个场景包括多个镜头。

同时，视频索引系统利用镜头分段引擎和镜头群集引擎在结构上分析视频内容并检测镜头和场景。视频索引系统还根据所检测的镜头和场景提取能够代表一个分段的关键帧或关键区，并提供用于概括该视频流或直接移动到该视频流中所希望位置的工具。

图1显示一般视频流的结构信息。参见图1，一个视频流由一系列场景构成，场景是与视频类型无关的逻辑故事单位，每个场景包括多个子场景或镜头，每个镜头包括一系列的帧。

大多数视频索引系统从视频流提取镜头并根据所提取的镜头检测场景，从而索引该视频流的结构信息。即，视频索引系统提取关键帧(为了很好地代表一个单位分段而从视频流提取的视频帧)或关键区，和索引数据，以用于概括/搜索/浏览视频内容。

图2显示根据现有技术在新闻内容中锚定帧(anchor frame)与关键区之间的关系。锚定帧F-an中的新闻图标由用于概括一个新闻分段的一个图像或多个字符构成，代表锚定镜头(anchor shot)或相应新闻文章的内容。当选择该新闻图标作为关键区Reg-k时，它成为代表该相应分段的单元。即，关键区Reg-k意味着一个能够简明地代表特定分段的内容(例如文本，人物面孔，新闻图标)的区域。

图3显示一个常规的非线性视频浏览界面，其包括：视频重放窗口V-VD；关键帧窗口V-Fk，其一维地显示代表每个镜头或每个场景的关键帧；树形内容表(TOC)窗口V-TOC，用于向用户直接提供视频流的结构信息。此处，树形TOC的每个节点(ND)是代表低层树中所包含内容的镜头和场景，并且其表示一个关键帧。因此，该界面允许用户能够轻松地移动到一个视频的所希望部分或选择和浏览该视频流中的所希望部分，而无需观看全部内容。

但是，上述常规视频浏览系统利用关键帧或关键区来代表部分序列以便检索/概括/浏览视频，因而具有以下问题。

1)该常规系统无法在具有固定尺寸的屏幕上显示较大量信息。在非线性视频浏览系统和通用多媒体访问应用(UMA)中使用的常规关键帧和关键区被用作一种手段，以通过图像向用户传送视频流的概括内容。但是，基于在具有固定尺寸的屏幕上显示的少量关键帧或关键区，用户无法了解视频流的全部内容。一个镜头包括显示时间为几秒到几十秒的视频帧，一个场景由多个镜头构成，尽管这取决于视频中包含的节目的类型或特性。在一个镜头较长或变化很大的情况下，不适于用一个关键帧代表这个镜头。因此，应该为一个镜头或场景设置多个关键帧。

此外，对于无法一次在具有固定尺寸的屏幕上显示很多关键帧的电视机或便携式终端，在向其提供较大量的关键帧以便代表镜头和/或场景的全部内容的情况下，因为用户不得不浏览这么多的关键帧，因此必须多次操作他/她的输入装置。可以减少关键帧的数量来解决这个问题。但是，如上所述，在此情况下，少量的关键帧无法代表视频流的内容。因此，需要一种能够在具有固定尺寸的屏幕上显示大量信息的高效用户界面。

2)很难将一个包括多个镜头或子场景的场景的内容选择作为一个关键帧。即，通常难以选择一个简明地代表了一个场景的内容的关键帧。

因此，需要一种概括具有分层结构(hierarchical structure)的视频流的新方法，以允许上层结构的关键帧很好地反映下层结构中包含的内容。

因此，本发明的一个目的是提供一种产生合成关键帧的方法，能够在具有固定尺寸的屏幕上代表很多信息。

本发明的另一个目的是提供一种描述通过组合关键帧或关键区逻辑地或物理地形成的合成关键帧的方法。

本发明的另一个目的是提供一种利用合成关键帧分层地概括视频的方法。

本发明的另一个目的是提供一种利用合成关键帧的视频浏览界面。

本发明的另一个目的是提供一种利用合成关键帧的非线性视频浏览方法。

本发明的另一个目的是提供一种利用合成关键帧的数据管理方法。

为了实现本发明的目的，提供一种产生合成关键帧的方法，包括以下步骤：从第一源接收一视频流，并将其划分成有意义的区段(section)；选择代表一所划分区段的一个或多个关键帧或关键区；组合所选择的关键帧或关键区以产生一个合成关键帧。

为了实现本发明的目的，提供一种描述合成关键帧数据的方法，包括以下步骤：将视频流划分成有意义的区段，并将代表每个区段内容的关键帧或关键区合成为一个图像，以产生一合成关键帧；描述该合成关键帧的组成单元中包含的关键帧/关键区的列表。

为了实现本发明的目的，还提供一种描述合成关键帧数据的方法，包括以下步骤：将视频流划分成有意义的区段，并将代表每个区段内容的关键帧或关键区合成为一个图像，以产生一合成关键帧；产生该合成关键帧的组成单元中包含的关键帧或关键区，或关键帧和关键区的组合，并物理地存储该组合以描述该合成关键帧。

为了实现本发明的目的，提供一种利用合成关键帧的分层视频概括方法，包括以下步骤：将视频流划分成有意义的区段，并将代表每个区段内容的关键帧或关键区合成为一个图像以产生一合成关键帧；将该合成关键帧分配给一关键图像定位器(1ocator)，一用于描述低层概括结构的分层概括列表，和该视频流的结构信息。

为了实现本发明的目的，提供一种用于提供视频浏览界面的方法，包括以下步骤：将视频流划分成有意义的区段，并将代表每个区段内容的关键帧或关键区合成为一个图像，以产生一合成关键帧；将一用户界面提供给一预定显示器以浏览与所产生的合成关键帧有关的视频。

为了实现本发明的目的，还提供一种非线性视频浏览方法，包括以下步骤：将视频流划分成有意义的区段，并将代表每个区段内容的关键帧或关键区合成为一个图像以产生一关键帧；将一用户界面提供给一预定显示器以浏览与所产生的合成关键帧有关的视频；根据用户的输入选择该合成关键帧；重放由所选择的合成关键帧代表的分段。

通过以下参照附图的详细说明，可以对本发明及其附带的优点有更好的理解，在附图中相同符号表示相同的或相似的单元，其中：

图1显示一般视频流的结构信息；

图2显示现有技术中一锚定帧与一新闻图标之间的关系；

图3显示常规的非线性视频浏览界面；

图4A和4B是用于解释根据本发明的合成关键帧概念的示意图；

图5A显示根据本发明的分段定位器的描述结构；

图5B显示根据本发明的图像定位器的描述结构；

图6显示根据本发明的关键帧定位器的描述结构；

图7显示根据本发明的关键区定位器的描述结构；

图8显示根据本发明的合成关键帧信息的描述结构；

图9显示根据本发明的合成关键帧的组成单元的布置形式的描述结构；

图10显示根据本发明的新闻视频的结构；

图11显示根据本发明的新闻标题的合成关键帧；

图12A和12B显示根据本发明的详细新闻区段的合成关键帧；

图13A和13B显示根据本发明的从足球比赛视频产生的合成关键帧；

图14显示根据本发明的视频的结构信息和分层合成关键帧；

图15显示根据本发明的用于分层视频流概括的分层图像概括单元的描述结构；

图16显示根据本发明的利用合成关键帧的视频浏览界面；

图17显示将根据本发明的合成关键帧应用到UMA的例子；

图18是显示利用被应用于UMA的根据本发明的合成关键帧进行信息通信的方法的流程图例子。

下面将参照附图中显示的例子对本发明的优选实施例进行详细说明。

图4A和4B是用于解释根据本发明的合成关键帧概念的示意图。参见图4A，在将视频流划分成预定数目的分段Sgt1,Sgt2,…,Sgti,Sgti+1时，通过组合来自帧Fl,Fm,Fn的关键帧或关键区Reg-k产生根据本发明的合成关键帧，其中这些帧是在一个分段Sgti内的预定时间点tl,tm,tn提取的。参见图4B，在将视频流划分成预定数目的分段Sgt1,Sgt2,…,Sgtj,Sgtj+1时，通过组合来自帧Fo,Fp,Fq,Fr和从外部源提供的外部帧Fext的关键帧或关键区Reg-k产生本发明的合成关键帧，其中这些帧Fo,Fp,Fq,Fr是在一个分段Sgtj+1内的预定时间点to,tp,tq,tr提取的。

与现有技术中的关键帧不同，本发明的合成关键帧不是已经在视频流中物理地产生的帧，因为为了表示视频流中的一特定分段，该合成关键帧是通过组合具有有意义信息的区域或关键帧来产生的。

图5A和5B分别显示根据本发明的分段定位器和图像定位器的描述结构。参见图5A，用于指定视频流中的分段的分段定位器包括：分段ID，媒体URL或用于指定视听分段的实际分段数据，以及诸如分段开始/结束时间或长度等的分段时间信息，分段注释的描述信息，和相关分段列表。

此处，相关分段列表用于代表各分段之间的概要/详细内容、原因/结果关系的描述，并且该列表的组成部分包括各种变量，例如分段定位器或用于引用分段定位器的标识符。

参见图5B，用于指定图像的图像定位器包括：固有ID，图像URL，或用于指定图像的图像数据。图像定位器可以具有这样一种结构，该结构能够描述诸如与图像相关的分段列表和注释这样的信息。

图6显示根据本发明的关键帧定位器的描述结构。如图6所示，关键帧定位器包括：图像定位器；以及一代表性分段定位器，用于指示哪个分段是由相应关键帧代表的；逼真度值(fidelity value)，用于指示由关键帧代表相应分段时的忠实程度。

图7显示根据本发明的关键区定位器的描述结构，其是一个逻辑或物理的关键区描述结构。

逻辑关键区描述结构包括：ID，图像定位器，与图像定位器指定的图像的关键区相应的区域信息(region area information)。它还包括：代表性分段定位器，用于指示哪个分段是由相应关键区代表的；逼真度值，用于指示由关键区代表相应分段时的忠实程度；用于其它注释的描述信息；相关分段列表，用于指定与关键区相关的分段。该逻辑关键区描述结构利用元数据(metadata)描述关键区。

物理关键区描述结构包括：固有ID；区域数据；代表性分段定位器，用于指示哪个分段是由相应关键区代表的(如果需要)；逼真度值；描述；相关分段列表。对于利用根据本发明的合成关键帧的视频浏览界面，必须已经物理地产生了合成关键帧或者必须在针对视频流的基于内容的数据区中逻辑地描述该合成关键帧。

图8显示根据本发明的合成关键帧信息的描述结构，其具有逻辑描述结构和物理描述结构。

如图8所示，逻辑合成关键帧描述结构包括各种变量，例如：ID；代表性分段定位器，用于指定由合成关键帧代表的分段；作为该合成关键帧的组成单元的关键帧列表和关键区列表；逼真度，用于指示由合成关键帧代表该分段时的忠实程度；布置信息，用于指示该合成关键帧的组成单元的布置状态。

物理合成关键帧描述结构包括各种变量，例如：ID；图像定位器，用于指定实际合成关键帧；代表性分段定位器，用于指定由合成关键帧代表的分段；逼真度，用于指示由合成关键帧代表该分段时的忠实程度；与合成关键帧相关的关键区列表；布置信息，用于指示该合成关键帧的组成单元的布置状态。

此处，如图8所示，构建关键帧列表的关键帧单元包括：关键帧定位器，用于指定一相应关键帧；逼真度，用于指示该相应关键帧在合成关键帧结构中代表的有意义信息的重要程度。此外，构建关键区列表的关键区单元包括：关键区定位器，用于指定一相应关键区；逼真度信息，用于指示该相应关键区在合成关键帧结构中代表的有意义信息的重要程度。可以自动或手动提取逼真度。关于以下信息获得自动提取的逼真度，例如关键区的持续时间、对象、音频等的大小，和这些信息项的匹配级。

图9显示根据本发明的合成关键帧的组成单元的布置信息的描述结构。该描述结构由一种标记语言(markup language)(例如HTML和XML)表示。因为合成关键帧的组成单元可以被布置为重叠的，该布置描述结构包括：关于第一层(层=0)、第二层(层=1)等等的层信息；关于每个层中包含的关键帧或关键区在屏幕上显示或将要显示的位置的信息。

下面将说明把根据本发明的合成关键帧结构和合成关键帧产生方法应用于一广播节目的例子。A)从新闻视频产生的合成关键帧

图10显示根据本发明的新闻视频的结构。该新闻视频一般地由以下区段构成：标题新闻区段NS-HL，详细新闻区段NS-DT，概括新闻区段和天气/体育区段。还可以加入商业广告区段。每个区段进一步包括子区段。区段对应于视频流结构中的一个场景。例如，标题新闻区段NS-HL可以被划分成标题项HL-it，详细新闻区段NS-DT可以被分类为新闻项DT-it。此处，这些项可以由关键帧形成。每个新闻项DT-it基本上被划分成锚定场景(anchor scene)Scn-an和片段场景(episode scene)Scn-ep。

图11显示根据本发明产生标题新闻区段NS-HL的合成关键帧的过程的例子。

标题新闻区段NS-HL由五个标题项HL-it构成。这些标题项由23个镜头构成，运行时间大约是59秒。利用分别在时间点t1,t2,t3,t4和t5提取的关键帧F1,F2,F3,F4和F5概括五个标题项。因此，根据本发明的一个合成关键帧Fsk是以如下方式产生的：从所要组合的关键帧F1,F2,F3,F4和F5提取由文本构成的关键区Reg1,Reg2,Reg3,Reg4和Reg5。该合成关键帧可以在具有固定尺寸的屏幕上一次显示标题新闻区段NS-HL的全部内容。

反之，常规视频索引系统必须选择代表该标题新闻区段的几个关键帧，例如，因为它将至少一个关键帧分配给单个镜头或场景。此外，其无法在屏幕上一次显示标题区段的全部内容。

图12A和12B显示根据本发明的详细新闻区段的合成关键帧。图12A表示从一个由21个镜头构成的54秒长的新闻项NS-it形成的合成关键帧Fsk，图12B表示从一个由21个镜头构成的107秒长的新闻项NS-it提取的合成关键帧Fsk。即，可以不同地形成对应于一个新闻节目的新闻项的合成关键帧。当合成关键帧被布置或分配到TOC界面中的相应节点时，TOC界面的下层结构的内容可以被一次显示。反之，常规视频索引系统必须提取用于单个新闻项的大量关键帧，其无法在屏幕上同时显示这些关键帧。B)从体育视频产生的合成关键帧

除了新闻以外，还需要根据体育新闻中基于分段的概括来概括视频流。例如，足球视频流由大量视频帧构成，因此运行时间很长。因此，为了概括足球视频流，应该由大量关键帧来代表一个镜头，并且一个关键帧难以代表一个由多个镜头构成的场景。

图13A和13B显示根据本发明从足球比赛视频产生的合成关键帧。

图13A表示从一个由9个镜头构成的运行时间是65秒的场景产生的合成关键帧Fsk，图13B表示从一个由9个镜头构成的运行时间是53秒的场景产生的合成关键帧Fsk。

虽然一个场景中包含的各个镜头具有不同的内容，根据本发明的合成关键帧Fsk可以给出一个组合了代表该场景全部内容的关键帧或关键区的图像，而不选择代表一个场景的一个关键帧。因此，该合成关键帧Fsk可以概括该场景的全部内容。

可以利用娱乐、记录片、现场访谈、教育、广告和家庭购物节目以及参考图11,12A,12B,13A和13B说明的新闻和体育视频节目的关键帧或关键区来产生本发明的合成关键帧。

同时，如果描述了合成关键帧的组成单元(例如关键区或关键帧)的布置信息，用户不仅能够利用该合成关键帧浏览相应视频，而且能够利用这些组成单元进行非线性视频浏览。例如，由于通过组合从标题新闻区段提取的关键帧的关键区Reg1,Reg2,Reg3,Reg4,Reg5来产生图11中显示的合成关键帧，用户选择该合成关键帧的一个关键区(例如Reg1)，使得他/她可以浏览对应于所选择关键区的标题新闻项或详细新闻项。

图14显示根据本发明的视频流的结构信息和分层概括该结构信息的合成关键帧。在图14中，各个节点对应于代表一个节目、镜头和场景的多个帧。节点Na,Nb,Nc和Nd是代表低层内容的合成关键帧。为了概括低层结构，可以将低层的关键区或关键帧用于高层结构的合成关键帧。因此，用户可以利用在所希望层的视频分层结构和合成关键帧来搜索/浏览视频流。如果为节点Na,Nb,Nc，和Nd选择一个关键帧或关键区，用户在不浏览低层的情况下将无法完全理解低层结构和内容。但是利用合成关键帧，用户无需确切地浏览低层就可以轻松理解低层的结构和内容。

必须定义分层图像概括单元以便概括具有分层结构的视频流。图15显示根据本发明的用于分层视频流概括的分层图像概括单元的描述结构。分层图像概括单元的描述结构是一种递归结构，包括各种变量，例如：关键图像定位器；子分层图像概括单元的列表；概括层信息；逼真度，指示由相应合成关键帧代表低层结构时的忠实程度。此处，关键图像定位器是一种能够指定关键帧、关键区、和合成关键帧的数据结构，并且子分层图像概括单元的列表描述一个低层概括结构，该列表中的每个单元是一个分层图像概括单元。例如，当子分层图像概括单元的列表中的单元数目是“0”时，其对应于最低节点(叶节点)，并且意味着不存在更低的概括单元。

图16显示根据本发明的利用合成关键帧的非线性视频浏览界面。该视频浏览界面包括：视频显示窗口V-VD，关键帧/关键区窗口V-Fk/Reg，和合成关键帧窗口V-Fsk。视频显示窗口V-VD和关键帧/关键区窗口V-Fk/Reg与图3所示的一般非线性视频浏览界面中的相应窗口具有相同功能。合成关键帧窗口V-Fsk利用合成关键帧在屏幕上显示视频概括，使得用户可以选择该合成关键帧或者包含在该合成关键帧中的关键帧或关键区，以便轻松地移动到对应于该关键帧或关键区的区段。如图16所示，合成关键帧窗口V-Fsk可以以一维显示，或者以TOC树形结构显示。

同时，根据本发明的合成关键帧可以在UMA应用中使用。此处，UMA是一种具有改进的信息传输性能的设备，其可以将任何多媒体信息处理为最适用于用户环境的形式，适应于用户环境中的各种变化，以使用户能够便利地使用该信息。具体地说，基于用户终端或将用户终端连接到服务器的网络环境，用户只能得到有限的信息。例如，用户使用的装置可能不支持运动图像而支持静止图像，或者不支持视频而支持音频。此外，根据网络连接方法/介质，由于通过网络的数据传输能力的不足，会存在对预定时间段内能够发送到用户装置的数据量的限制。UMA利用用户环境中数量较少的尺寸被减小的关键帧，将视频流转换并发送到由于装置/网络的限制条件而无法接收和显示该视频流的用户。由此，UMA可以帮助用户理解该视频流中包含的内容。

在应用于UMA后，本发明的合成关键帧可以用于提供大量有意义信息并同时减少所要发送的关键帧的数量，以便降低所要传送的数据量。

图17显示将根据本发明的合成关键帧应用于UMA的例子。该应用包括：服务器S，产生根据本发明的合成关键帧；终端T，用于从服务器S接收合成关键帧，并将预定请求信号发送到服务器。如上所述，合成关键帧Fsk由文本、关键区和关键帧构成。

图18是显示利用被应用于UMA的根据本发明的合成关键帧接收信息的方法的流程图。参见图18，当合成关键帧Fsk被从服务器S发送到用户终端T时，用户对应于它希望浏览的部分选择该合成关键帧或其一个组成部分，然后请求服务器传送相应部分的音频(ST1)。当服务器S将该音频发送到用户时，用户接收该音频，而当该音频不是他/她希望的信息时，用户不再浏览包含在该合成关键帧中的内容。但是，如果他/她希望有更多的信息，则请求对应于该相应区段的更多关键帧(ST2)。由此，用户可以更多地浏览该合成关键帧的内容，并且还可以请求该视频以便浏览视频流(ST3)。

在将合成关键帧应用于UMA的情况下，用户可以选择希望的部分并轻松地浏览它，从而可以节省通信成本。此外，服务器可以容易地将关于多媒体流内容的信息发送到具有有限功能的装置。

如上所述，通过组合用于代表视频流的特定区段或分段的关键帧或关键区来产生本发明的合成关键帧，从而在受限制的装置上显示大量信息。此外，合成关键帧可以一维地或分层地概括视频流，并且它可以用于非线性视频浏览。而且，本发明的合成关键帧可以应用于具有有限性能的终端或发送装置的UMA，并且它可以应用于所有视频类型。本发明的利用合成关键帧的视频概括方法可以有效地概括视频的内容，因为其利用合成关键帧在具有固定尺寸的屏幕上充分地显示镜头或场景的内容。

虽然已经例示和说明了包括优选实施例在内的特定实施例，但是本领域技术人员可以知道，在不偏离仅由所附权利要求定义的本发明精神和范围的情况下，可以进行各种修改。

Claims

1．一种产生合成关键帧的方法，包括以下步骤：

从一第一源接收视频流并将其划分成有意义的区段；

选择代表所划分区段的一个或多个关键帧或关键区；

组合所选择关键帧或关键区以产生一个合成关键帧。

2．根据权利要求1的产生合成关键帧的方法，其中所述划分步骤包括以下步骤：从一第二源接收一视频流并将其划分成有意义的区段。

3．根据权利要求1的产生合成关键帧的方法，其中所述选择步骤还包括以下步骤：选择从第二源输出的一个或多个关键帧或关键区。

4．根据权利要求1的产生合成关键帧的方法，其中所述区段是分段的单位。

5．一种描述合成关键帧数据的方法，包括以下步骤：

将视频流划分成有意义的区段，并将代表每个区段内容的关键帧或关键区合成为一个图像以产生合成关键帧；

描述该合成关键帧的组成单元中包含的关键帧和/或关键区的列表。

6．根据权利要求5的描述合成关键帧数据的方法，其中所述描述步骤包括：

ID，用于标识该合成关键帧；

代表性分段定位器，描述该合成关键帧代表的分段的时间信息；

关键帧列表或关键区列表，用于标识该合成关键帧的单元；

其中所述描述步骤还可以包括

逼真度值，指示由该合成关键帧代表该分段时的忠实程度；

当将关键帧或关键区显示为该合成关键帧的组成单元时关于每个组成单元的布置的信息。

7．根据权利要求6的描述合成关键帧数据的方法，其中关于布置的信息包括组成单元的二维位置信息或者作为组成单元的三维位置信息的层信息。

8．根据权利要求5的描述合成关键帧数据的方法，其中，当合成关键帧包括关键帧列表时，关键帧列表的每个单元具有一关键帧定位器作为关键帧描述单元结构，并且当合成关键帧包括关键区列表时，关键区列表的每个单元具有一关键区定位器作为关键区描述单元结构。

9．根据权利要求8的描述合成关键帧数据的方法，其中关键帧定位器包括：一图像定位器，可包含对于一所存储图像的位置、注释和相关分段，作为用于指定关键帧的数据；分段定位器，用于指示由相应关键帧代表的分段的信息；以及逼真度值，指示由关键帧代表该分段时的忠实程度。

10．根据权利要求8的描述合成关键帧数据的方法，其中关键区定位器作为用于描述关键区的数据结构，是逻辑或物理地指定所存储位置或分段数据的信息，其中关键区定位器包括：

固有ID，用于标识关键区；

图像定位器和用于定位该区域的区域信息或用于定位该区域的区域数据；

代表性分段定位器；

其中关键区定位器可以另外包括：

逼真度值，指示由关键区代表该分段时的忠实程度；

注释；和

与关键区相关分段的列表。

11．根据权利要求5的描述合成关键帧数据的方法，其中，当合成关键帧包括关键帧列表时，关键帧列表的每个组成单元具有逼真度作为关键帧描述单元结构，该逼真度指示由相应关键帧代表合成关键帧中的有意义内容时的忠实程度，并且当合成关键帧包括关键区列表时，关键区列表的每个组成单元具有一逼真度值作为关键区描述单元结构，该逼真度值指示由相应关键区代表合成关键帧中的有意义内容时的忠实程度。

12．一种描述合成关键帧数据的方法，包括以下步骤：

将视频流划分成有意义的区段，并将代表每个区段内容的关键帧或关键区合成为一个图像，以产生一合成关键帧；

产生该合成关键帧的组成单元中包含的关键帧或关键区，或关键帧和关键区的组合，并物理地存储该组合以描述该合成关键帧。

13．根据权利要求12的描述合成关键帧数据的方法，其中合成关键帧描述包括：

ID，用于标识该合成关键帧；

图像定位器，用于指定所存储的合成关键帧文件；

ID，用于标识该合成关键帧；

关键区列表，用于标识合成关键帧的单元；

其中所述描述可以另外包括

逼真度值，指示合成关键帧包括关于由其代表的分段的区段信息时的忠实程度；

关于作为合成关键帧的组成单元的关键帧和关键区的布置的信息。

14．根据权利要求12的描述合成关键帧数据的方法，其中合成关键帧组成单元的关键区列表的每个单元具有关键帧定位器或关键区定位器。

15．根据权利要求14的描述合成关键帧数据的方法，其中关键区定位器作为用于描述关键区的数据结构，是逻辑/物理地指定所存储位置或分段数据的信息，关键区定位器包括：

固有ID，用于标识关键区；图像定位器和用于定位该区域的区域信息或用于定位该区域的区域数据；

代表性分段定位器；

其中关键区定位器可以另外包括

逼真度值，指示由关键区代表该分段时的忠实程度；

注释；

与关键区相关分段的列表。

16．根据权利要求13的描述合成关键帧数据的方法，其中关键区列表的每个单元包括逼真度值作为关键区描述单元结构，该逼真度值指示由相应关键区代表合成关键帧中的有意义内容时的忠实程度。

17．根据权利要求13的描述合成关键帧数据的方法，其中关于布置的信息包括组成单元的二维位置信息或作为组成单元的三维位置信息的层信息。

18．一种利用合成关键帧的分层视频概括方法，包括以下步骤：

将合成关键帧分配给一关键图像定位器，一用于描述低层概括结构的分层概括列表，和视频流的结构信息。

19．根据权利要求18的利用合成关键帧的分层视频概括方法，其中关键图像定位器是一个利用关键区定位器、关键帧定位器和合成关键帧定位器来指定图像的数据结构。

20．根据权利要求18的利用合成关键帧的分层视频概括方法，其中每个分层概括结构由特定分段的代表性图像代表。

21．根据权利要求18的利用合成关键帧的分层视频概括方法，其中低层的分层概括列表的每个组成单元使用分层/递归概括结构作为低层的分层概括结构。

22．根据权利要求18的利用合成关键帧的分层视频概括方法，其中分层概括结构具有概括层信息。

23．根据权利要求18的利用合成关键帧的分层视频概括方法，其中分层概括结构包括一逼真度值，其指示由低层的分层概括列表代表一个部分时的忠实程度。

24．一种用于提供视频浏览界面的方法，包括：

将一用户界面提供给一预定显示器，以浏览与所产生的合成关键帧相关的视频。

25．根据权利要求24的用于提供视频浏览界面的方法，其中用户界面以窗口的形式提供合成关键帧。

26．根据权利要求24的用于提供视频浏览界面的方法，其中按时间顺序布置合成关键帧，和以树形布置合成关键帧。

27．根据权利要求24的用于提供视频浏览界面的方法，其中将合成关键帧分配给TOC形式的各个节点。

28．一种非线性视频浏览方法，包括以下步骤：

将一用户界面提供给一预定显示器，以浏览与所产生的合成关键帧相关的视频；

根据用户的输入选择合成关键帧；

重放由所选择的合成关键帧代表的分段。

29．根据权利要求28的非线性视频浏览方法，其中重放步骤重放与关键帧的内容的组成单元(关键区或关键帧)或由用户输入选择的关键帧相关的分段。