CN1334677A

CN1334677A - 由视频重放系统从压缩数字视频信号中动态地提取特征

Info

Publication number: CN1334677A
Application number: CN01118957A
Authority: CN
Inventors: A·维特罗; A·迪瓦卡兰; H·孙; 浅井光太郎; 西川博文; 关口俊一; 村上笃道; 守屋芳美
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2000-05-17
Filing date: 2001-05-16
Publication date: 2002-02-06
Anticipated expiration: 2021-05-16
Also published as: EP1162844A3; CN1166202C; HK1041755A1; JP2001333389A; EP1162844A2

Abstract

一种视频播放系统包括连接成接收输入的压缩数字视频信号的接收器。在接收输入的压缩数字视频信号时,与接收器相连接的编码器从输入的压缩数字视频信号中提取特征,并将所提取的特征编码成为内容描述符。与接收器相连接的搜索引擎根据内容描述符通过用户接口来访问所接收的输入压缩数字视频信号。

Description

由视频重放系统从压缩数字视频信号中动态地提取特征

本发明一般说来涉及从压缩数字视频信号中提取特征，而更具体地说，涉及使用所提取的特征来访问视频信号的内容。

近来提出了许多关于传送可视信息的标准。对于视频信号，最广泛采用的标准包括：MPEG-1(用于运动图象的存储和检索)，MPEG-2(用于数字电视)以及H.263，参见ISO/IEC JTC1 CD 11172，MPEG，“信息技术-用于数字存储媒体速率高达大约1.5兆位/秒的运动图象及其伴音的编码-第二部分：运动图象信息的编码”，1991；LeGall，“MPEG：多媒体应用的视频压缩标准”，ACM通信，第34卷，第四分册，第45-58页，1991；ISO/IEC DIS 13818-2，MPEG-2，“信息技术-运动图象及其伴音信息的通用编码-第二部分：视频”，1994；ITU-T SG XV，DRAFT H.263，“用于低位率通信的视频编码”，1996；ITU-T SG XVI，DRAFT13 H.263＋Q15-A-60rev.0，“用于低位率通信的视频编码”，1997。

这些标准相对来说是低级的规范，主要涉及到视频信号的时间和空间压缩。这些标准具有一个共同特征：它们都是以每帧为基础进行压缩。采用了这些标准，可以在广泛的应用范围内获得高的压缩率。

较新的视频编码标准，例如MPEG-4(用于多媒体应用)，参见“信息技术-音频/可视对象的通用编码”，ISO/IEC 14496-2：1999(MPEG4Visual)，允许将任意形状的对象作为独立的视频对象平面(VOP)和帧组(GOF)来进行编码和解码。这些对象可以是可视、音频、天然、人工合成、原始、复合等形式或者上述形式的组合。

这个新兴的标准用来实现多媒体应用，如交互式视频，其中集成了天然及人工合成材料，而且Internet也为其提供了通用访问的方法。例如，人们可能想将一个运动图象或对象从一段视频中“剪切并粘贴”到另一段视频中。在这种应用中，假定多媒体内容中的对象已经被某种分割方法所识别，如参见序列号为09/326,750的美国专利申请“对图象空间进行排序以搜索对象表面的方法”，1999年6月4日由林(Lin)等人申请。

图1示出高层的传统视频重放系统100。重放系统100包含一个视频接收器/解码器/显示器(以下称作“接收器”200)。接收器200连接到用户接口120，如远程控制器、键盘或鼠标。压缩数字输入位流101形式的视频节目101来自存储设备、摄像机，或者通过广播频道接收。接收器200接收该输入位流，对其进行解码，最后再将已解码的图象向用户102显示。显示器可以是电视或电脑终端。

在先有技术中，所允许的对本地视频内容的访问相对比较简单。用户接口提供有限的一组命令来遍历(“访问”)视频的内容，例如快进、播放以及回退等。如果该内容存储在DVD上，那么就能够进行随机访问。无论如何，用户的访问都是以该视频中帧的位置为基础的，其中所述位置或者由时间或者由帧对该视频开头的偏移量来确定。访问视频时并不考虑该视频的内容。

如果不知道内容，就很难为用户提供访问该内容的先进方法。例如，如果用户想要跳进到视频中一场赛事的得分镜头部分，那么仅有快进、播放以及回退等命令则难于实现。

这样有限的一组位置访问命令只能允许用户在视频中确定所需的位置。目前的视频重放系统不支持基于内容的访问。基于内容的访问需要对视频进行一些预先分析，以便确定并定位特定用户感兴趣的部分。

某些重放系统可能具有极为有限的基于内容的访问功能，例如，可以为所需的特定帧做标记或注释，所标记的帧的位置和注释可以存储在内存中。那么用户以后就可以跳进到以前所标记的帧进行重放。但是，提供这种视频注释功能的系统通常不能与其它设备协同操作，而且还要求用户进行大量的操作。也就是说，用户必须查看这些帧，并选取所需的特定帧。

因此，先有技术的视频重放系统和用户就受到限制，只能共同参与定位。换句话说，用户必须即时访问该内容。在内容放置在远端的情况下，先有技术系统通常不允许基于内容的访问。例如，通过Web浏览器和Internet对存储在远程服务器上的视频数据进行访问的用户。

将来，基于内容的访问以及可交换的重放系统将是一个必须支持的关键特征。以可交换的方式对基于内容的访问的支持将需要描述该内容的元数据。

先有技术的接收器200的详细结构在图2中给出。解码发生在两个基本阶段。在第一阶段，从压缩的视频中提取特征，并且在第二阶段，所提取的特征被用来重组视频。为了支持基于内容的访问，本发明(如下所述)采用不同的方式进行解码。

多路分离器(demux)210接收压缩的位流101。该多路分离器与所接收的位流数据包同步，并将位流中的视频、音频以及数据部分分离成各原始位流。利用内存控制器230将压缩数据发送到共享内存单元220。前端分析程序240对压缩视频进行分析。分析程序240负责提取位流的高层语法，例如，在MPEG-2标准的片层之上。

在此等级之下，位被传送到符号处理器250，该符号处理器主要负责可变长解码(VLD)运算。例如，在MPEG位流中，运动矢量和离散余弦变换(DCT)系数通过可变长编码连同其它信息(如宏块方式等)进行编码。

经过符号处理器，宏块(MB)和运动矢量(MV)信息251被发送到地址生成器260，同时DCT信息252被发送到反向DCT(IDCT)270。

地址生成器负责生成内存地址，该地址将用于在内存单元220中写入和读取视频数据。地址生成器在很大程度上要依靠诸如预测方式、当前块的位置以及运动矢量值等信息。某些信息被传递到运动补偿单元280，此单元把从内存单元中读取的数据与从IDCT 270接收的数据进行组合。

在帧内方式预测的情况下，由于从内存中读取的数据属于预测性信息，就可能没有从内存中读取的数据。重组的数据将从运动补偿单元280写入到内存220中。要显示此数据时，显示处理器290读取该数据以便进行任何所需的处理。用户接口120与内存控制器230相互配合，从而能够实现如上所述的有限的位置访问。

MPEG委员会最近进行的标准化工作就是关于MPEG-7，命名为“多媒体内容描述接口”，参见“MPEG-7环境、目标以及技术说明”，ISO/IEC N2861，1999年7月。该标准主要是计划加入一套描述符和描述方案(DS)，它们可以用于描述各种类型的多媒体内容。描述符和描述方案与内容本身相关联，并允许对特定用户感兴趣的内容进行快速及有效的检索。

重要的是要认识到，MPEG-7标准并不是要取代以前的编码标准。相反，它是基于以前的标准方案的，尤其是MPEG-4，这是因为多媒体内容可以分解为不同的对象，而且可以给每个对象指定一套唯一的描述符。同时，该标准与存储内容的格式无关。

MPEG-7的主要应用将是在搜索和检索应用方面，参见“MPEG-7应用”，ISO/IECN2861，1999年7月。在简单的应用环境中，用户指定一个特定对象的某些属性。在该低级表示法，这些属性可以包含描述该特定对象的结构、运动及形状等的描述符。一种表示和比较形状的方法在序列号为09/326,759的美国专利申请“对图象空间进行排序以表示对象形状的方法”中进行了说明，该专利由林(Lin)等人于1999年6月4日申请，另外，一种描述运动活动性的方法在序列号为09/406,444的美国专利申请“视频序列活动性描述符”中进行了说明，该专利由迪瓦卡伦(Divakaran)等人于1999年9月27日申请。

为了获得高层表示法，就可能要考虑结合了多个低级描述符的更为详细的描述方案。实际上，这些描述方案甚至还可以包含其它描述方案，参见“MPEG-7多媒描述方案WD(V1.0)”，ISO/IECN3113，1999年12月，以及由林(Lin)等人于1999年8月30日申请的序列号为09/385,169的美国专利申请“表示及比较多媒体内容的方法”。

将由MPEG-7标准提供的描述符和描述方案可以看作是语法或语义的。语法信息指的是内容的物理和逻辑信号方面。语义信息指的是内容的概念上的含义。对于视频序列，语法元素可能涉及到特定对象的色彩、形状以及运动。另一方面，语义元素可能涉及到无法从低级描述符中提取的信息，如视频序列中事件的时间和位置或某个人的名字。

在数字视频压缩标准(如MPEG-2和MPEG-4)以及规定描述内容方式的标准(如MPEG-7)的背景下，将会涌现新的应用，这些应用允许对内容进行改进的访问。这就需要提供能够实现这些应用的视频重放系统。此外，该视频重放系统还应该允许对远程及本地内容进行基于内容的访问。

本发明提供一种用于处理输入的压缩数字视频信号的视频重放系统。该重放系统包括连接成接收输入的压缩数字视频信号的接收器。运行过程中，在接收输入的压缩数字视频信号的同时，与接收器相连接的特征提取单元从输入的压缩数字视频信号中动态地提取特征，而与特征提取单元相连接的描述方案例示程序将所提取的特征编码成为内容描述符。在本发明的一个方面，相对于接收器来说，输入的压缩数字视频信号的视频信号源可以是本地的或者是远程的。

视频重放系统还可以包括搜索引擎，该搜索引擎与接收器相连接，用于根据内容描述符来访问所接收的输入的压缩数字视频信号。在这种情况下，与接收器和搜索引擎相连接的用户接口根据与内容描述符有关的用户命令来访问输入的压缩数字视频信号。

经过内存控制器与接收器相连接的内存单元可以用于存储输入的压缩数字视频信号和内容描述符。

与特征提取单元相连接的符号处理器用于从输入的压缩数字视频信号中提取运动矢量、宏块以及DCT系数。与特征提取单元相连接的前端分析程序用于从输入的压缩数字视频信号中提取电子编程指南。

与特征提取单元相连接的系统多路分离器可以提取内容制作和用法信息。与内存单元相连接的位流处理器可以用于产生输出的压缩数字视频信号，其中还包括输入的压缩数字视频信号和内容描述符。

图1是先有技术视频重放系统的方块图；

图2是图1所示系统的接收器的方块图；

图3是依照本发明的视频重放系统的高层方块图；

图4是图3所示视频重放系统的低层方块图；

图5是包括频道冲浪器的视频重放系统的高层方块图；

图6是图5所示视频重放系统所使用的访问方法的方块图。

最佳实施例的详细说明

系统概述

图3示出依照本发明的高层视频重放系统300。该重放系统包括接收器/解码器/显示器(“接收器”)302。该接收器与编码器303以及可选的搜索引擎304相连接。编码器和搜索引擎将在下面详细说明。接收器和搜索引擎由增强型用户接口305来控制，该用户接口能够对视频进行基于内容的访问。正如在图1和图2所示的系统中，压缩数字输入位流301由视频接收器接收。

为了能够进行基于内容的访问，本系统采用编码器303来进行动态特征提取以及MPEG-7编码。编码器生成内容描述(扩充的位流)306。扩充的位流可以包含原始输入位流301。搜索引擎执行改进的用户命令，以视频内容为基础，使用已编码的内容描述符来访问视频。与先有技术系统形成对比，可以对本地或者远程内容进行这种基于内容的访问。

图4更为详细地示出重放系统300。在内部运行和输出方面，本重放系统不同于图1和图2所示的系统。图4中的虚线框标出了与一些组件的连接，这些组件是先有技术视频重放系统中所没有的。

重放系统300包括多路分离器(demux)310、内存单元320、内存控制器330、前端分析程序340以及符号处理器350。这些系统组件用于第一阶段解码过程中的特征提取。

该系统还包括地址生成器360、反向DCT(IDCT)370、运动补偿器380以及显示处理器390。这些组件用于第二阶段解码过程中的图象重组。与先有技术的接收器相反，在下述的某些运行方式下，用于第二阶段的这些组件可以断开，使得全部内存带宽均用于特征提取及第一阶段编码。

对内部运行所作的变更就是编码器中的动态特征提取单元410和MPEG-7描述方案例示程序420。提取单元进行动态特征提取，正如本文中所述。低层数据(包括运动矢量信息、DCT系数以及形状信息)从符号处理器350传递到特征提取单元410。

如下所述，该数据可以映射到MPEG-7描述符，该描述符有助于搜索和检索。映射由MPEG-7例示程序420来执行。例示程序420还可以接收来自前端分析程序340及系统多路分离器310的信息。

在最佳实施例中，编码器根据所选择的标准(如MPEG-7标准)来例示描述方案。大家应该了解，其它类型的编码器可以按照其它标准进行例示。描述方案被写入与搜索引擎304交互作用的本地存储器430。最后，可以将所提取的数据通过内存控制器330传递到主存单元320。

因此，在本重放系统中，内存单元存储三种类型的视频数据，全部或部分原始压缩位流(BS)321，所选的或即时帧(帧)322，以及描述方案(DS)323。

除了具有特征提取功能之外，本系统还可以通过位流处理器440来输出扩充的位流401。位流处理器通过内存控制器接收来自主存单元的数据。输出位流可以包含压缩内容，即原始位流301、内容概要以及内容描述等。位流处理器440规定信息的格式，使其适合于传送给远离此内容的用户。

输出内容和/或其相应描述的目的是为了给用户提供改进基于内容访问远程内容的信息。即使该信息是从本地内容中提取的，但仍然为远程重放系统提供了一种灵活性，使其能够正确地修改及变更访问远程内容的方式。

系统运行

本视频重放系统从压缩数字视频信号中动态地提取特征。使用这些特征，可以实现对远程和本地内容进行改进的基于内容的访问。对于基于内容的访问，我们指的是内容检索、内容解码以及内容重放。

本系统的关键特征是其与其它设备的互用性。通过采用标准压缩技术来传送和重放视频内容，以及采用标准描述方案(DS)来描述、检索及访问内容，可以实现互用性。本重放系统可以在许多不同方式下运行。

部分解码

在第一方式中，所接收的压缩位流由本重放系统进行分析并只进行部分解码。部分解码定义为仅包括第一阶段的解码操作。重组视频的第二阶段解码被禁用。换句话说，在此方式下，与传统接收器不同，没有地址生成，没有反向DCT计算，没有运动补偿，而且自然也没有显示。这就是说，第二阶段解码被略去了。

因为没有显示，所以所有内存带宽都可以用于部分解码、特征提取以及编码。因此，在此方式下，本系统能够有效地处理压缩输入位流的所选元素，从而能够提取有关该内容的低层和高层两种信息。部分解码可以在相对短的时间内提取重要的特征。例如，可以在数分钟或更短的时间内对一段完整的视频进行处理，而不是要花数小时来进行完整地查看。

有助于此目的的所提取的位流元素的实例是位流中的运动矢量、DCT系数以及图象/宏块编码方式。这些元素从符号处理器350和前端分析程序340中输出。另外，信息还可以从辅助位流中提取。这样的信息从系统多路分离器(demux)310中输出。这样的数据的实例包括电子编程指南(EPG)信息和其它类型的元数据，其中包括MPEG-7元数据。EPG数据可以包含有关内容的注释信息，如片名、等级以及演员表等。

对位流进行部分解码及提取信息所带来的益处在于可以在相对短的时间内实现改进的基于内容的访问。部分解码方式最适用于访问预先存储的信息，如存储在DVD或本地及远程重放系统的其它存储单元中。因为部分解码极快，例如只需数分钟或更少，所以对于在能够进行基于内容的访问之前提取这样的信息，用户将只会感受到很短暂的启动延时。

完全解码

与第一部分解码方式相比，第二方式的不同之处在于不需要启动延时。在完全解码方式中，特征是作为内容描述符被提取及编码的，与前述的部分方式完全一样。但是特征提取是与视频数据的显示同时进行的。也就是说，特征提取和编码是在视频重放时动态进行的。在此方式下，就能够对已经查看过的视频部分进行基于内容的访问。

混合解码

在第三方式中，在以可能的最高位率接收及处理压缩位流时，位流被部分地解码。该部分解码的位流存储在内存单元320中。同时，存储在内存单元320中的已解码位流也发生了阶段二的重组，使得该视频可以被显示。在从整个视频中提取特征及对特征进行编码的时间段，帧率可以减少，例如减少到每秒十五帧或更少，使得更多的系统资源可以为特征提取及编码所使用。当特征提取及编码完成时，可以恢复正常的帧率。在此方式的一个实例应用中，特征是在播放演职员表或预告片时从该视频中提取的。在进入正片时，就可以开始对整个视频进行基于内容的访问了。

所有这些方式的关键在于：符合所选标准的元数据是从可用的压缩数据中提取的。可用的数据可能只是从压缩位流中提取的低层特征或是来自辅助数据流的信息，甚至包含一些MPEG-7元数据，这些元数据可能是完整的或者可能是不完整的。有了MPEG-7元数据，就不仅能够描述本地存储的内容，而且也能够描述远程存储的内容。这样，就实现了与其它设备的互用性。一些可以使用本视频重放系统的应用将在下面进行说明。

改进的访问的类型

改进的访问需要对视频内容的分析。尽管有专利权的重放系统实际上可能进行了这样的分析并在基于位置的访问方面取得了一些改进，但重要的是要指出，有专利权的视频重放系统所实现的与其它设备的互用性是极为有限的。

这里所说的改进的访问类型是能够通过所规定的描述符和描述方案(如由新兴的MPEG-7标准所规定的)来实现的。该标准预计在2001年下半年确立。

内容概要

内容概要是基于内容访问的重要特征。采用内容概要，就能够在相对短的时间内查看视频的重要部分。要生成内容概要，就需要分析视频数据，并规定对该视频的重要片断提供链接的描述方案。概要可能适合于某个赛事的精彩部分、电影中的气候场景或者有吸引力的新闻节目部分。所生成的符合MPEG-7标准的相应描述方案将被例示。一个顺应的MPEG-7分析程序或Web浏览器懂得例示的描述方案。在进行分析后，就可以重放相应的概要，即可以显示和查看。根据概要，用户可以选择视频的特定部分进行完整的查看。对所选择内容的访问可以直接进行，而避免了象在先有技术中那样采用快进、播放以及回退命令进行前后移动的麻烦。

内容活动性

按照概要来遍历视频只是一种基于内容访问的方法。但是，依照本发明的基于内容的访问则更为普遍。例如，如果人们想先查看影片中最“活跃”的内容，或者查看喜剧片中最幽默的镜头，那么就需要一些描述此查看顺序的方法。MPEG-7中的描述方案将包括这个特征。有关可用技术的更多信息可以查看序列号为09/518,937的美国专利申请“使用排序来表示及比较多媒体内容的方法”，该专利由迪瓦卡伦等人于2000年3月6日申请。其中说明的技术使本重放系统能够根据语法和语义信息对内容进行排序。

内容浏览

其它类型的改进的访问包括同时浏览多段节目，并搜索想要重放和/或录制的内容。在一个广播剧中，本视频重放系统可以帮助用户定位到其特别感兴趣的内容上，即使是在本重放系统的用户各不相同的情况下，就是说，某个特定的显示终端有多个用户。在这种情况下，本重放系统通过编辑现有的元数据来适应特定用户的爱好。这样，本重放系统可以自动录制所需的视频节目。

为了强调互用性方面，内容可以被本地或远程的不同用户所访问，并且内容可能需要以不同的方式进行访问。为此，动态特征提取是必须的，以便内容及内容描述可以被共享。

特征提取

压缩位流中的特征提取已经在文献中广泛地进行了报道。这种提取的主要优势在于其计算上的简便，这是因为它依靠多路分离器、分析程序以及符号处理器等的输出而避免了对反向DCT的计算。符号处理器的输出包括运动矢量信息(MV)351和DCT系数(DCT)352。

最适合于这种提取的特征是色彩、亮度以及运动。还应当指出，特征提取单元410的输出送到例示描述符值的DS例示程序420。描述符例示则用于诸如浏览、概要等等的各种应用中。

亮度和色彩-应当指出，对于I帧，符号处理器350的输出包含亮度的“dc”值和块的色度。这样，I帧的“dc图象”可以采用符号处理器350的输出来轻松地组建。大家都知道如何使用dc图象来检测场景变化。还能够从dc图象中确定诸如主色、彩色条带、压缩色、GOF/GOP彩色条带、彩色结构条带以及彩色分布等色彩描述符。例如，下面考察表A中主色描述符的二进制语法：

表A

Dominant Color{	位数	助记符
Dominant Color{	位数	助记符	ColorSpace	在3.1.1.3中指定
ColorQuantization	在3.4.1.3中指定		ColorSpace	在3.1.1.3中指定
ColorQuantization	在3.4.1.3中指定		DominantColorsNumber	3位	uimsbf
ConfidenceMeasure	5位	Uimsbf	DominantColorsNumber	3位	uimsbf
ConfidenceMeasure	5位	Uimsbf	}

structDominantColor{	位数
structDominantColor{	位数		ColorValue	按色彩空间中所定义
Percentage	5位	uimsbf	ColorValue	按色彩空间中所定义
Percentage	5位	uimsbf

应当指出，对于MPEG压缩视频信号，色彩空间(Color Space)缺省为YUV或YcrCb，色彩量化(Color Quantization)(即二进制(bins)的数量、色彩阈值的初始值等)由特征提取单元本身来决定，就象主色的数量一样。信用量度(Confiderce Measure)、色彩值(Color Value)以及百分比(Percentage)则从图象本身来确定，将宏块的dc值用作属于该宏块每个象素的色彩。以上简要地说明了主色是如何可以从符号处理器350的输出来进行确定的。

符号处理器的输出必须进行不同的处理，以便从P帧获得dc图象。由于宏块通常是预测性地编码的，所以这个处理过程也是不同的。为了获得dc分量，可以使用在DCT域中进行运动补偿的一些方法，如美国专利申请08/742,124“数字视频解码器及对视频信号进行解码的方法”中说明的那些方法。应当指出，与计算反向DCT相比，这种计算开销相当小。

运动-运动特征相对地比较容易在压缩域中进行提取，这是因为对于运动补偿帧来说，符号处理器的输出包含每个宏块的运动矢量。有多种方法能够用于从运动矢量中进行特征提取，参见美国专利申请09/236,838“视频序列特征提取的方法”。

可以在压缩域中确定的MPEG-7运动描述符包括运动活动性(Motion Activity)、摄像机运动(Camera Motion)、运动轨迹(MotionTrajectory)以及参数运动(Parametric Motion)。下面考察图B所示运动活动性描述符的二进制(Binary)表示语法：

表B

MotionActivity{	位数	助记符
MotionActivity{	位数	助记符	Intensity	3	uimsbf
DirectionFlag	1	blsbf	Intensity	3	uimsbf
DirectionFlag	1	blsbf	SpatialDistributionFlag	1	blsbf
TemporalDistributionFlag	1	blsbf	SpatialDistributionFlag	1	blsbf
TemporalDistributionFlag	1	blsbf	If(DirectionFlag＝0)
DominantDirection	3	uimsbf	If(DirectionFlag＝0)

If(SpatialDirectionFlag＝0)
If(SpatialDirectionFlag＝0)		SpatialParameters＝{Nsr，Nmr，Nlr}	6，5，5	uimsbf
If(TemporlDistributionFlag＝0)	uimsbf	SpatialParameters＝{Nsr，Nmr，Nlr}	6，5，5	uimsbf
If(TemporlDistributionFlag＝0)	uimsbf	TemporalParameters＝{N₀，N₁，N₂，N₃，N₄}	5^*6	uimsbf
}		TemporalParameters＝{N₀，N₁，N₂，N₃，N₄}	5^*6	uimsbf

应当指出，上表中的所有栏目均可以很容易地从运动矢量中计算出来，运动矢量是符号处理器的输出。例如，强度参数可以按以下方法进行计算：首先计算运动矢量幅度的标准偏差，然后再将标准偏差量化为一个3位的值。

元数据编码器

在MPEG-2或MPEG-4中有一个完整规定的编码器结构，它必须用来产生相符的位流。一致点以简要表/层次定义为基础，也就是说，MPEG-2 Main Profile(主简要表)@High Level(高层)(MP@HL)编码器在图象大小及数据率等方面受到限制。但是大家知道，必须要有某种块来进行运动预测，也要有一个块来处理DCT。如果在一个缩放性简要表中进行操作，其中必须对一个基本和增强层进行编码，那么我们就知道该编码器需要进行什么样的改变。该标准已清楚地定义了这一点。

在MPEG-7中，例示描述方案就象是MPEG-7编码器。但是，描述方案的大矩阵适合于许多不同类型的元数据。每种数据产生的方式可能是独特的，该标准没有对其作出规定。因为MPEG-7将不会规定例示描述方案的方式，而且这是该标准的规范部分，所以MPEG-7编码器就没有任何结构。这样，每个DS必须以应用场合为基础来进行例示并在特定的应用范围内有效。

这里要说的是，在没有认识到特定目标或应用时，通用MPEG-7编码器是没有意义的。目标就在于本视频重放系统实现了改进的基于内容的访问。因此，本重放系统要例示的描述方案以及本系统才具有的例示方法将在下面进行说明。

另一个需要了解的是，本重放系统对元数据进行编码以便实现与其它设备的互用性。如果不是为了互用性，就不需要根据MPEG-7标准来对元数据进行编码。一个系统可以仅使用它自己专有的描述符和描述方案，这些描述符和描述方案是属于内部的而且是只有特定系统才能理解的。在这种情况下，也不需要输出扩充的位流。

描述方案例示程序的详细说明

可以将描述方案(DS)作为描述符的容器来进行查看。也可以将它们作为组织各种描述符的数据结构来进行查看。参考附录A所述“MPEG-7 VideoSegment描述方案(DS)”的语义，附录A选自“MPEG-7多媒体方案工作草案”。

注意VideoSegment DS是如何封装色彩及运动描述符的，这些描述符在描述符部分已经提到。在这种情况下，如前所述，通过确定各个描述符就可以例示描述方案。应当指出，通过压缩域的特征提取，VideoSegment DS确实有助于例示。这样，DS允许它们自己使用各自的描述符，并且可以结合其它描述符，从而实现所有可能的MPEG-7的应用，包括快速内容浏览、视频数据库检索、监控以及灵活的多媒体编辑-表示等等。

VideoSegment DS是MPEG-7 DS的一个实例，它说明内容的结构特征。其它类似的DS包括段DS(Segment DS)及其子集，如活动区域DS(Moving Region DS)等。其它DS强调应用，如由即时DS(Summary DS)实现的概要、表达式(Expression)以及由用户优先选择DS(User Preference DS)实现的满足用户优先选择等等。

加权DS(Weight DS)表示描述方案中的各种描述符的相关加权。这样，它就能够在MPEG-7 DS例示程序中按需要进行例示。实体相关图表DS(Entity-Relation Graph DS)表示不同实体之间的关系。符号处理器的输出能够进行关系识别，如更活跃或最活跃、更快、更大以及更绿等等。这样，相应实体关系图表(Entity Relation Graphs)类就可以在压缩域中进行例示。

数字视频的节目流(Program Stream)包含象电子编程指南(Electronic Programming Guide)(EPG)之类有用的信息。前端分析程序340捕捉这样的信息。类似地，多路分离器310捕捉有关内容制作和使用的信息。这样的元数据可以用于增加DS，如媒体ID DS(Media IDDS)以及创建DS(Creation DS)等。

还有一些基本DS，如时间DS(Time DS)、媒体定位器DS(MediaLocator DS)、栅(Grids)以及条带(Histograms)，这些DS可以用于所有DS，因此是最为重要的。在例示程序420中处理符号处理器350的输出可以增加所有这些描述符方案。例如，使用压缩位流所提供的时间戳信息可以增加时间DS(Time DS)。

MPEG-7还包含“高层”DS，此DS表示文字描述(注释DS)、概念方面(即语义DS)以及内容的固有属性(如模型DS)等。

简而言之，由系统多路分离器310、前端分析程序340以及符号处理器350所提供的信息可以用于例示功能强大的描述方案子集。

解码环节与特征提取之间的互用性问题

对于部分解码方式，互用性就没有什么问题。在完全解码方式下，对于特征提取及解码，尤其是在与基于内容访问的颗粒度相关时，互用性可能就成了一个问题。例如，当特征从每个帧或镜头中提取时，就可能要确定重写特征或判断特征为无用的时间。

增强型用户接口

增强型用户接口是一种解释用户命令并给各种系统组件下指令的机制。用户可以在两种方式下进行操作，一种是输入方式，另一种是输出方式。在输入方式下，用户指定进行特征提取及编码的方式，例如，提取是否要产生概要以及该概要的长度是多少。而且在此方式下，用户可以指定要提取的特定特征以及要忽略的其它特征。在输出方式下，用户指定查看内容的方式以及要查看的内容。用户命令允许进行前述改进的基于内容的访问，如概要、基于内容的遍历、多个节目的浏览以及对用户优先选择的适应性等。该系统中受用户接口影响的主要组件包括搜索引擎、编码器以及内存控制器等。

增强型用户接口可以通过键盘、鼠标、话筒、摄像机、传感器或其它外设来实现。在通过键盘和鼠标输入的情况下，该系统具有基于Web的界面，允许用户键入自己的身份标识(必要时还有密码)。这样就可以访问某个特定用户的优先选择项，并允许该用户键入有关所搜索内容的语法和/或语义信息，以及所搜索内容的类型(如图象、视频、特殊格式以及分辨率等)。这样的界面对于搜索、过滤以及浏览应用是最为有用的。在找到所需的内容时，还可以从菜单中拉出一组命令，使用户能够以有趣而且有效的方式来对该内容进行摘要及遍历。

在通过话筒和摄像机输入的情况下，该增强型用户接口接受音频和可视命令。通过语音识别，该增强型用户接口可以包含有限的一组口头命令，使用户能够执行诸如开始/结束一段、搜索内容以及指定所搜索的内容类型等任务。实际上，查询本身就可能是一段音频，例如该用户哼一段要查找的音调。类似地，对于视频，该输入可能是一个特殊的运动，如一个舞步或一场赛事的重演。

对于通过传感器的输入，该用户要有某种触摸板，如用于接受指纹。采用这样的识别方法，就可以很容易地建立身份证明，而且用户的优先选择项也可以得到解决。

对于受影响的系统组件，搜索引擎必须处理属于匹配过程的这样一类命令。增强型用户接口将会把语义和语法输入传送给搜索引擎，搜索引擎则将定位相关及相应的描述方案，并提供关于内容与查询条件相匹配程度的记录。对于完全匹配的内容，命令就必须随即传送给内存控制器，使该内容可以进行定位并发送到显示器。在这种情况下，地址生成器也可以起重要的作用，即将所需内容转化为内存单元320中的实际地址。

增强型用户接口除了必须处理查询和摘要类型的命令之外，还要处理用户/设备对远程内容及内容描述的请求。在这种情况下，该接口请求内存控制器来定位远程压缩内容及/或远程内容描述符，并通过位流处理器440将该信息传送到其它重放系统。位流处理器将负责在传送数据之前在缓冲器中对各种流进行多路复用、对数据进行分组和平整。

应用系统及方案

本系统的应用可以扩展到增强型DVD重放器、家庭影院、本地/远程服务器上的内容检索以及广播视频。

图5示出通用视频重放系统500。此处，接收器302和编码器303和上述情况相同。在此应用中的搜索引擎是频道冲浪器510。视频源(内容)510可以是本地的或远程的，例如象DVD之类的光盘，这类光盘将被连接到本地客户机或远程服务器、捕捉压缩的现场视频的摄像机，或来自电台的传输流。内容描述可能与相应的内容相关、或者可能与相应的内容无关。

图6给出了多个视频重放系统601-604的布置600，各个视频处理系统(VPS)基本上与上述情况相同。该重放系统可以访问相应的本地内容611-614或者远程内容，例如，VPS 620请求对内容613进行基于内容的访问。因此，在需要远程访问时，该重放系统就被连接到网络650，它是局域网(LAN)或是广域网(WAN)(如Internet)。当然，如果所有访问都是针对本地内容来进行的话，那么就不需要网络连接。

重放系统601可以产生它自己的内容描述DS1 621。视频数据则可以采用上述改进的内容访问来进行重放。在本系统与网络相连接时，其它重放系统(如家庭602、办公室603以及大学604)也可以访问此内容以及本系统产生的内容描述621。该描述的某些部分可能适用于所有用户，因此就不需要进行任何编辑。但是，该描述的其它部分可能需要进行编辑，以便适合于特定用户的优先选择。在这种情况下，动态特征提取将被使用，而且在不同终端可以实现改进的内容访问。

在广播电台620传送内容的情况下，只要在本地重放系统中有存储资源来支持此选项，内容612可以被重放系统602在本地存储。在此情况下，动态特征提取被运用到内容612的本地拷贝上，以便产生内容描述(DS2)622。

但是，在重放系统604中没有这样的本地存储资源的情况下，它仍然可以访问远程内容612并产生它自己的内容612的内容描述(DS4)624。使用所述系统，动态特征提取使许多设备能够共享及编辑内容描述，而不管该内容是本地存储的还是远程存储的。通过使用压缩视频的特征提取以及对实现改进的内容访问的描述方案进行例示，这种功能将会有效地实现。

多频道过滤

另一个有兴趣的应用系统是多频道过滤系统，该系统允许对来自多个频道的数字视频中的所需内容进行过滤。在该多频道过滤系统中，频道冲浪器510是自动的。该冲浪器定期处理各个频道，以便提取特征并确定“需要性”或“显著部分的质量”。需要性是指对于用户所指定的优先选择的接近程度，例如，用户也许想将频道冲浪限制在体育频道，在这个情况下，非体育频道将不需要。

显著部分的质量是指该节目的显著特征，此特征将有助于用户决定是否继续浏览该视频节目。例如，在选择一个或多个频道之前，用户也许想先领略一下运动活动性的强度或者各个频道中的情节。冲浪器510的计算速度以及频道的数量确定冲浪器510在每个频道上所花费的时间。在每个频道所花费的时间与冲浪速度之间存在一个明显的折衷方案。注意，每个频道上所花费的时间越多，特征提取就可以更细致。

很明显，在显示帧时提取特征与通过完全遍历所存储的整段节目来提取特征之间，频道冲浪器采取一个折衷立场。一方面，频道冲浪器在每个频道上不能花费太多时间，因此在实时的情况下，它就无法存储大量的频道信息块，即使还有大量的存储空间可以使用。另一方面，随着所存储信息块的增大，冲浪器的准确性也会增加。应当指出，频道冲浪器既可以提供原始的特征又可以提供该特征的高层解释(如可视概要)。例如，在观看一部喜剧时，冲浪器仍然可以追踪另一个节目(如一场赛事)。在这种情况下，当从运动活动性特征提取中确定的精彩事件发生时，冲浪器510就会发信号给用户307。该信号可以是在屏幕上以小图象显示的频道号或者关键帧，或者是任何其它不抢眼但行之有效的方式。

尽管已经以最佳实施例作为例子描述了本发明，但是，显然，还可以在本发明的主旨及范围之内进行其它各种变化或修改。因此，后附的权利要求书的目的就是要涵盖所有在本发明的主旨及范围内所作的改编或修改。

附录A

名称	定义
名称	定义	VideoSegment	来自视频序列帧组。VideoSegment可以持续一帧的时间(属于一个视频序列的单帧)。运动信息可以与VideoSegment相关联，即使它是在时间上延续一帧。帧不需要在时间上连续(参见TemporalConnectivity属性)。
Time	视频段的起始时间及其持续时间。如果视频段是非连接的，此持续时间应等于包含非连接视频段的最小连接视频段的持续时间。该DS为强制性的。	VideoSegment
Time		TimeMask	如果省略，该段由单个连接组件组成，并且指的是由Time定义的帧的整个区间。如果出

	现，该段指的是较短的非重叠子区间的集合。这些子区间在TimeMask中定义。
	现，该段指的是较短的非重叠子区间的集合。这些子区间在TimeMask中定义。	ColorSpace	色彩空间的描述，用于色彩Ds及视频段的DS(参见该标准的“可视”部分)
ColorQuantization	色彩量化的描述，用于色彩Ds及视频段的DS(参见该标准的“可视”部分)	ColorSpace	色彩空间的描述，用于色彩Ds及视频段的DS(参见该标准的“可视”部分)
ColorQuantization	色彩量化的描述，用于色彩Ds及视频段的DS(参见该标准的“可视”部分)	GofGopColorHistogram	一组帧的色彩条带的描述(参见该标准的“可视”部分)
CameraMotion	视频段中摄像机操作的描述(参见该标准的“可视”部分)	GofGopColorHistogram	一组帧的色彩条带的描述(参见该标准的“可视”部分)
CameraMotion	视频段中摄像机操作的描述(参见该标准的“可视”部分)	MotionActivity	视频段中运动活动性的描述(参见该标准的“可视”部分)

Claims

1.一种用于处理输入的压缩数字视频信号的视频重放系统，它包括：

接收器，连接成接收所述输入的压缩数字视频信号；

特征提取单元，与所述接收器相连接，用于从所述输入的压缩数字视频信号中动态地提取特征；

描述方案例示程序，与所述特征提取单元相连接，用于在接收所述输入的压缩数字视频信号时，将所述提取的特征编码成为内容描述符。

2.权利要求1的视频重放系统，其特征在于还包括：

视频源，用于所述接收器本地的所述输入的压缩数字视频信号。

3.权利要求1的视频重放系统，其特征在于还包括：

视频源，用于远离所述接收器的所述输入的压缩数字视频信号。

4.权利要求1的视频重放系统，其特征在于还包括：

搜索引擎，与所述接收器相连接，用于根据所述内容描述符来访问所述接收到的输入的压缩数字视频信号。

5.权利要求4的视频重放系统，其特征在于还包括：

用户接口，与所述接收器及所述搜索引擎相连接，用于根据与所述内容描述符相关的用户命令来访问所述输入的压缩数字视频信号。

6.权利要求1的视频重放系统，其特征在于还包括：

内存单元，通过内存控制器与所述接收器相连接，用于存储所述输入的压缩数字视频信号以及所述内容描述符。

7.权利要求1的视频重放系统，其特征在于所述接收器还包括：

符号处理器，与所述特征提取单元相连接，用于从所述输入的压缩数字视频信号中提取运动矢量、宏块以及DCT系数。

8.权利要求1的视频重放系统，其特征在于所述接收器还包括：

前端分析程序，与所述特征提取单元相连接，用于从所述输入的压缩数字视频信号中提取电子编程指南。

9.权利要求1的视频重放系统，其特征在于所述接收器还包括：

系统多路分离器，与所述特征提取单元相连接，用于提取内容制作和用法信息。

10.权利要求6的视频重放系统，其特征在于还包括：

位流处理器，与所述内存单元相连接，用于产生输出的压缩数字视频信号，后者包含括所述输入的压缩数字视频信号以及所述内容描述符。

11.权利要求1的视频重放系统，其特征在于：在提取特征并且将其编码成为内容描述符时，禁止视频重组。

12.权利要求1的视频重放系统，其特征在于：在提取特征并且将其编码成为内容描述符时，同时执行视频重组。

13.权利要求1的视频重放系统，其特征在于：在提取特征并且将其编码成为内容描述符时，同时以降低的帧率执行视频重组。

14.权利要求1的视频重放系统，其特征在于：根据视频编码标准对所述内容描述符进行编码。

15.权利要求14的视频重放系统，其特征在于：所述视频编码标准是MPEG-7。

16.权利要求10的视频重放系统，其特征在于：所述输出的压缩数字视频信号被发送到远程接收器。

17.权利要求1的视频重放系统，其特征在于：所述编码器根据所述内容描述符产生所述输入的压缩数字视频信号的概要。

18.权利要求15的视频重放系统，其特征在于：所述输入的压缩数字视频信号的所述概要被存储在所述接收器的内存单元中。

19.权利要求1的视频重放系统，其特征在于：所述内容描述符基于所述输入的压缩数字视频信号的活动性。

20.权利要求4的视频重放系统，其特征在于：所述搜索引擎根据所述内容描述符而浏览多个输入的压缩数字视频信号。

21.一种处理输入的压缩数字视频信号的方法，它包括：

接收输入的压缩数字视频信号；

从所述输入的压缩数字视频信号中提取特征；以及

在接收所述输入的压缩数字视频信号时，将所述提取的特征编码成为内容描述符。

22.权利要求12的方法，其特征在于还包括：

根据所述内容描述符来访问所接收的输入的压缩数字视频信号。

23.权利要求21中的方法，其特征在于还包括

在内存单元中存储所述内容描述符。

24.权利要求21中的方法，其特征在于还包括：

根据所述内容描述符产生所述输入的压缩数字视频信号的概要。