CN1306438C

CN1306438C - 媒介分段系统和相关的方法

Info

Publication number: CN1306438C
Application number: CNB011230681A
Authority: CN
Inventors: 林童; 张洪江
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2000-07-28
Filing date: 2001-07-30
Publication date: 2007-03-21
Anticipated expiration: 2021-07-30
Also published as: CN1359082A; JP2002125178A; JP4981221B2; US6724933B1

Abstract

一种方法，包括接收媒介内容和分析所接收的媒介的连续场面的一个或多个属性。至少部分基于一个或多个属性的分析，对每个连续场面产生相关值，其中，执行场景分段以对语义相关的场面进行分组。

Description

媒介分段系统和相关的方法

技术领域

本发明涉及一种图象处理，更具体地说，是涉及一种媒介分段系统和相关的方法。

技术背景

随着近年来数据处理、存储及网络技术的发展，许多个人计算机系统有能力接收、处理和再现多媒体对象(例如音频、图象和视频内容)。例如，应用于多媒体再现领域的这种计算能力的一个示例，是使视频内容从一个远程服务器通过网络“流”到一个具有适当配置的计算系统，用于在该计算系统上再现。再现系统有很多种，所提供的功能类似于典型的视频盒式磁带放象机/录像机(VCR)。然而，随着计算能力的增强，消费者期望能有更先进的性能。这种期望的最初示例是快速访问相关媒介内容的能力。现有技术的系统尚不能满足这一期望。

为了适应和访问媒介庞大的数据量，目前可以采用各种图象数据库和视觉信息系统。这些系统已用于各种各样的应用装置，包括医学图象管理、CAD/CAM系统、罪犯识别系统、剪辑图库等等。现有技术的系统可能采用多种搜索技术之任一种，以访问及检索相关信息。这些现有技术的系统基本上是利用基于文本的、关键词方法对这种媒介内容进行编索引和检索。根据这一方法，每一帧(frame)、场面(shot)或场景(scene)(每一项包括一个或多个前者)被存储为数据库对象，其中数据库中的每一幅图象(例如帧、场面、场景)与人工产生的该对象的文字说明相关。于是采用逻辑查询可以检索这些关键词描述信息，其中的检索是基于对查询文本的精确匹配或概率匹配。

而这些现有技术系统的作用是激励了人们对这种技术的欲望，这些现有技术的系统中没有一个真正促进了基于内容的媒介搜索，因此未能全面地寻到所需的位置以访问和检索特定的媒介内容。专门基于文本的系统中存在几个问题。自动产生描述性关键词或提取建立分类层次所需的语义信息，已超出了当前计算图象和智能技术的能力。相应地，这种图象的文字描述应该是人工产生的。应该理解的是，人工输入关键词描述信息是冗长乏味的、耗费时间的过程，易于不精确和受描述的限制。而且，某些视觉特性，例如结构和图案的描述，如果不是不可能的话，也往往是难以充分地或精确地用一些文字说明来描述，特别是对于那些多用途的索引编制和检索应用装置而言。

而已讨论的其它方法试图基于内容对媒介定性地分段.所有方法的计算量是巨大的，结果，对于几乎是实时用户应用装置而言是不适用的。这些现有技术的方法一般都试图在各帧之间识别相似材料以检测出场面边界线。本领域技术人员可理解的是，场面边界线常常表示编辑点，例如摄像渐变，并不是语义的边界线。而且，由于所涉及的计算的复杂性，这种场面往往被定义为静态的，或在前的固定数量的帧，或是随后的编辑点(例如在先的三帧和后来的三帧)。在这方面，这种在先技术的系统一般都利用帧的固定窗口定义一个场面。

相反，场景包括语义上相似的场面，因此可包含多个场面边界线。相应地，在先技术的方法是基于两个场面之间帧的视觉相似性，往往不会产生好的效果，所需要的是对场面之间语义相关性的定量值。

因此，提出一种媒介分段系统和相关的方法，不受在先技术的系统一般常带有的局限性的妨碍。

本发明概述

本发明涉及一种媒介分段系统和相关的方法，便于实现在语义级对媒介内容的快速访问和检索。根据本发明的一个实施例，所提出的一种方法包括：接收媒介内容并分析所接收媒介的连续场面的一个或多个属性；至少是部分地根据对该一个或多个属性的分析，产生相对于每一个连续场面的相关值，其中实现场景分段，将语义上紧密结合的场面分组。

附图简述

在所有附图中相同的参考编号用于表示相同的部件和装置。

图1是含有本发明之思想的计算系统示例的方框图；

图2是根据本发明的一个实施例实现基于内容的场景分段的媒介分析工具之示例的方框图；

图3说明了根据本发明的一个方面表示颜色对象分段和跟踪；

图4说明根据本发明的一个方面表示扩展窗口场面分组技术；

图5说明根据本发明的一个方面的数据结构，该数据结构包括扩展场景窗口；

图6说明了根据本发明的一个方面的共生矩阵(co-occurrencematrices)，它用于瞬间切片分析；

图7是根据本发明的一个实施例的用于基于内容的场景分段方法示例之流程图；

图8是根据本发明的一个方面的颜色对象分段方法之示例的流程图，该方法用于识别媒介内容的场面之间的语义相似性；

图9是根据本发明的一个方面的瞬间切片分析方法之示例的流程图，该方法可识别媒介内容的场面之间的语义相似性；

图10是存储媒介示例的方块图，该存储媒介含有存储其中的多条可执行指令，在这些可执行指令中至少包括一个子集，当执行该指令子集时，实现含有本发明之思想的媒介分析工具。

详细说明

本发明涉及一种基于内容的场景分段系统和相关的方法。在这方面，本发明克服了现有技术的图象存储和检索系统所带有的常见的多种局限性，这些现有技术的系统主要依赖于文字的关键词。本发明的创造性特征是在视觉的媒介内容范围设计的。然而，应该理解的是，本发明并未限制于此，以下说明的创新的媒介分析工具充分利用这里所述的创造性思想，对各种各样的任何多媒体内容实现基于内容的媒介分段，例如所述的多媒体内容包括音频内容、图象内容等。在这方面，以下所述的实施例只是对本发明的范围和宗旨做出例证。

在对本发明的说明中，将根据以上的附图说明网络结构和相关方法之示例。然而，应该注意的是，在不背离本发明的情况下，可以对这里所述的结构和方法适当地做出修改。实际上，这种替代的实施例在本发明的范围和宗旨内是可以预料的。

计算系统示例

图1说明了一种计算系统102示例，它包括一种创新的媒介分析工具104，该工具分析媒介内容，在一个场面的每帧内识别一个或多个对象，将含有类似对象的场面分段成场景，用于存储并在之后用于基于内容的访问和检索。正如以上所介绍的，并根据以下说明可以理解的是，在不背离本发明的宗旨和范围的情况下.该分析工具104可被充分利用，为实现基于内容的搜索之目的而对其它类型的媒介进行识别和分段。应该理解的是，尽管在图1中的分析工具104被描述为一个分离的、独立的应用程序，它也可以适当地作为应用程序的一个功能来实现，例如媒介播放器、媒介信息库、支解者(ripper)应用程序等。由以下的说明将清楚地看出，计算机102是用来表示任何种类的、为一般目的或特定目的的计算平台，当该计算平台具有创新的分析工具104时，它根据上述的第一实施例实现本发明的思想。可以理解的是，尽管在图1的说明中，分析工具104被描述为一种软件应用程序，可以选择的是，计算机102也支持工具104实现为一种硬件。在这方面，除了对分析工具104的说明外，以下对计算机系统102的说明只是用来作为例证，在不背离本发明的宗旨和范围的情况下，性能更好或更弱的计算机系统可以适当地被替代。

如图所示，计算机102包括一个或多个处理器或处理单元132、系统存储器134和总线136，总线136将各种系统部件(包括系统存储器134)连接至处理器132。

总线136表示任何种类的总线结构之一种或多种，包括存储器总线或存储器控制器、外围设备总线、加速图形端口及处理器或采用多种总线结构之任何总线的局部总线。系统存储器包括只读存储器(ROM)138和随机存取存储器(RAM)140。基本输入/输出系统(BIOS)142存储于ROM 138中，该系统包括有助于在计算机102内各部件之间传输信息的基本程序库。计算机102还包括一个硬盘驱动器144，用于对硬盘(未示出)的读写；一个磁盘驱动器146，用于对可携带磁盘148进行读写；以及一个光盘驱动器150，用于对可携带光盘152进行读或写操作，例如CD ROM、DVD ROM或其它类似的光学媒介。该硬盘驱动器144、磁盘驱动器146和光盘驱动器150通过SCSI(小型计算机系统接口)接口154或某些其它适用的总线接口而连接到总线136。这些驱动器及其相关的计算机可读媒介为计算机102提供计算机可读指令、数据结构、程序模块和其它数据的非易失性存储。

尽管这里所述的操作平台示例采用了硬盘144、可携带磁盘148和可携带光盘152，本领域技术人员可以理解的是，能够存储数据的其它类型的计算机可读媒介可以由计算机存取，例如盒式磁带、闪速(flash)存储器卡、数字式视频光盘、随机存取存储器(RAM)、只读存储器(ROM)等等，这些媒介也可以被用于该示例的操作平台。

在硬盘144、磁盘148、光盘152、ROM 138或RAM 140上可存储多个程序模块，包括操作系统158、一个或多个应用程序160(例如，包含有与本发明之思想相结合的分析工具104)、其它程序模块162和程序数据164(例如结果、语言、模型、数据结构等)。用户可通过输入装置(例如键盘166和点击装置168)向计算机102输入指令和信息。其它输入装置(未示出)可包括(话筒、操纵杆、游戏手柄、卫星碟型天线、扫描仪或其它类似装置。这些输入装置和其它输入装置通过接口170连接至处理单元132，该接口连接至总线136。监视器172或其它类型的显示装置也通过一个接口(例如视频适配器174)连接至总线136。除了监视器172外，个人计算机往往包括其它外围输出设备(未示出)，例如扬声器和打印机。

如图所示，计算机102运行在网络环境之中，采用逻辑连接方式连接一个或多个远程计算机，例如远程计算机176。远程计算机176可以是另一台个人计算机、个人数字助理、服务器、路由器或其它网络设备、网络“瘦客户机(thin-client)”PC、同位体(peer)设备或其它常见的网络节点，一般包括与计算机102类似的上述许多或全部的组件，尽管在图1中只图示出存储器存储装置178。在这方面，创新的分析工具104可以由远程计算系统(例如计算系统176)充分调用和利用。

如图所示，在图1中描述的逻辑连接包括局域网(LAN)180和远程网(WAN)182。这种网络平台常见于办公室、企业区域计算机网络、企业内部互连网和因特网。在一个实施例中，远程计算机执行一个因特网浏览器程序以访问和利用在线服务，例如由位于华盛顿的雷德蒙德的微软公司生产和销售的“Internet Explorer”网上浏览器。

当用于局域网的网络平台中时，计算机102通过网络接口或适配器184连接至局域网180。当用于远程网的网络平台时，计算机102一般包括调制解调器186或其它用于在远程网182(例如因特网)上建立连接的装置。调制解调器186可以是内置式或外置式的，它经过输入/输出(I/O)接口156连接至总线136。除了网络的连通性之外，I/O接口156也支持一个或多个打印机188。在一个网络平台中，所描述的与个人计算机102相关的程序模块、或是其中的部分可存储于远程存储器存储装置。可以理解的是，所示的网络连接是示例性的，可以采用其它的手段在各计算机之间建立通信链接。

一般来说，通过在不同时间存储于计算机的各种计算机可读存储媒介的指令，计算机102的数据处理器被编程。程序和操作系统一般被分布在例如软盘或CD-ROM上。由此，它们被安装或调入计算机的辅助存储器中。在执行时，它们至少被部分调入计算机的主电子存储器中。在此描述的本发明包括这些以及其它各种类型的计算机可读存储媒介，这种媒介包含指令或程序，所述的指令或程序与微处理器或其它数据处理器相结合而共同实现以下所述的创新步骤。本发明也包括计算机本身，这种计算机是根据以下所述的方法和技术被编程的。而且，计算机的某些子部件可被编程，以实现以下所述的功能和步骤。当这种子部件按所述内容编程时，本发明包括这种子部件。另外，这里所述的本发明包括数据结构，这些数据结构被包含于各种类型的存储媒介上，如下所述。

为了实现所述的用途，程序和其它可执行程序部件(例如操作系统)在此被图示为分立的方块，尽管可以理解的是，这些程序和部件在不同的时间驻留在该计算机的不同存储部件之中，并由该计算机的数据处理器执行之。

媒介分析工具示例

图2说明了根据本发明的一个实施例、结合有本发明之思想的媒介分析工具示例的方框图。根据图2所述的实施例，所描述的媒介分析工具104包括一个或多个控制器202、媒介分析引擎204、存储器/存储装置206、输入/输出接口以及可选择的一个或多个应用程序210，每一部分具有如图所示的连接关系。如上所述，媒介分析工具104分析所接收的媒介各帧之内容，至少是部分地根据所接收媒介之内容的一个或多个属性，将该媒介分段为不同的场景。

根据本发明的一个实施例，媒介分析工具104可以有选择地调用颜色对象分析器212、瞬间切片分析功能214和相关性检测器216之中的一个或多个，对媒介场景进行识别和分段。根据一个实施例，颜色对象分析器212或瞬间切片分析功能被调用，并与相关性检测器216组合，以识别各场面之间的语义相似性，实现场景检测和分段。如图所示，颜色对象分析器包括颜色空间量化器(quantizer)218。所描述的瞬间切片分析功能214包括运动图形分析和关键帧提取功能220，以下将做更详细的说明。如图所示，存储装置/存储器206包括的存储器存有一个或多个所接收的媒介内容224、扩展的场景窗口数据结构226和(或)被识别的场景数据结构228。以下将要详细说明的是，媒介分析引擎204分析所接收媒介的一个或多个属性(例如颜色、结构、时空信息等)，以识别各场面之间的语义相似性。至少是部分地根据对语义相似性的分析，媒介分析引擎204将所接收的媒介分段为场景，随后用于基于内容的访问和检索。

可以理解的是，尽管部件202-228被描述为多个不同的功能块，其中的一个或多个可以适当地组合成一个或多个功能块。同样，分析工具104可以适当地用更少的功能块实现，即，在不背离本发明的宗旨和范围的情况下，只用对象识别功能212或瞬间切片分析功能214中的一个功能。

根据一个实施例，控制器202从任意多个源接收媒介内容，例如这些源包括本机存储装置(206)、远程媒介供应者和(或)内容存储源，通过网络连接至媒介分析工具104(参见图7)。根据一个实施例，由控制器202自远程信息源接收媒介内容并存放在存储装置/存储器224中用于分析。根据一个实施例，由主计算机102以压缩格式接收该媒介并解压，然后呈现给媒介分析工具104。在一个可选的实施例中，控制器202有选择地调用驻留在媒介分析工具104内的解码器应用程序(例如210)，将以压缩格式接收的媒介解压，然后有选择地调用媒介分析引擎204。除了本发明的上述创新方面之外，控制器202是用来表示任何各种各样本领域中已知的控制逻辑，例如处理器、特定用途的集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)等等。而且，应该理解的是，控制器202可以用软件充分地实现，作为多个可执行指令，当执行这些指令时(例如由处理单元132执行)，实现上述的控制功能。

媒介分析引擎204被选择性地被控制器202调用，以识别所接收媒介各场面之间的语义相关性，以便将该媒介精确地分段为场景。与现有技术不同，现有技术最多是识别各帧之间的视觉相似性，以识别出场面边界线，而媒介分析引擎204有选择地调用一个或多个语义上下文的分析器212和(或)214，以识别连续场面内的一个或多个定性的帧属性。以下将详细说明，这些属性的量化信息被提交给相关性检测器216，以确定是否这些场面在语义上是相关的或相似的。如果满足相似性的一个阈值，这些场面被分组为一个场景的至少一个子集。

根据图2所描述的示例，所描述的媒介分析引擎204包括两个语义上下文的媒介分析器：颜色对象分析器212和瞬间切片分析功能214。由以下的说明可以理解到的是，可以调用一个或多个媒介分析器用于场景分段。因此，在不背离本发明的宗旨和范围的情况下，可以用语义分析性能更强或更弱的媒介分析引擎替代所说明的

实施例。

颜色对象分析器

如图所示，颜色对象分析器212包括颜色量化器218。与测量视觉相似性的现有技术之方法不同，颜色对象分析器212调用颜色量化器，对于连续各场面内的一帧或多帧的一个或多个主对象和(或)周围对象，计算在颜色空间中的颜色柱状图。根据一个实施例，色度、饱和度和浓淡色度，即“HSV”，颜色空间被用于颜色量化及计算柱状图。HSV颜色空间为这种分析提供优于其它颜色空间的多个优点，因为它是自然的及与知觉近似一致的，所以，HSV颜色空间的量化产生一个色彩集，该色彩集是密集的和完整的。根据一个实施例，该HSV颜色空间是由颜色量化器218以一个三维直角坐标系进行量化，该直角坐标系分别对于X和Y有10个值、对于Z(亮度)有5个值。本领域技术人员可以理解的是，采用10个值表示颜色(即X和Y坐标)使得颜色量化器218能区别出该HSV空间中即使是稍有不同的颜色之间的差别，能够识别出更多的对象，即使是照明条件变化的情况下。

为了确定视频场面的主颜色对象，由颜色量化器218将该场面的每一帧的象素和(或)内编码(intra-encoded)帧(I)投影到已量化的颜色空间中(例如HSV颜色空间)。这些象素在三维颜色空间中的归一化分布构成该帧的三维颜色柱状图。在该三维颜色柱状图中所有主要的局部最大点被识别；由颜色量化器218将在该颜色空间中一个小邻域内环绕每个局部最大点的区域定义为一个颜色对象(例如参见图3)。一旦识别出颜色对象，颜色对象分析器212用最多的象素信息识别一个或多个对象。这些对象被识别为包含相对该帧的最重要的颜色信息，对噪声更有反弹性。根据一个实施例，颜色对象分析器212选择最高的20个对象作为主要对象。

于是，通过只对包含在主颜色对象中的象素进行计数，颜色对象分析器212产生相对于每一帧的3D主颜色柱状图。根据一个实施例，该主颜色柱状图被表示为：

hist_d(k，x，y，z) (1)

其中，k表示帧数，x、y、z表示颜色箱(bin)。应该理解的是，已知上述内容，颜色对象分析器212在空间区域中尚不能实现对象分段，而要考虑到归入对象的颜色空间中主要区域的象素。

一旦识别出主要对象，颜色对象分析器212跟踪通过各帧的颜色空间中的对象，以识别场面的主要对象。如果在两个相邻帧中两个颜色对象的中心充分接近，这两个颜色对象被识别为相同的颜色对象。这种颜色跟踪过程一直持续到该场面中所有的帧都被跟踪。在跟踪之后，只有那些在场面中具有最长持续时间的颜色对象被记为主要对象。根据一个实施例，颜色对象分析器212对每个场面产生一个总的主颜色柱状图，表示为：

hist_d ^a(x，y，z) (2)

其中a表示一个场面。总的主颜色柱状图包括的主要颜色对象是通过该场面的各帧所共有的。根据一个实施例，颜色对象分析器212对在一个场面中具有较长持续时间的颜色对象采用一个加权值，用数学式表示为：

hist_d ^A(x，y，z)＝hist_d ^a(x，y，z)×d₁/d₀ (3)

其中d₀是该场面的持续时间，d₁是具有颜色(x，y，z)的主颜色对象的持续时间。根据一个实施例，颜色对象分析器212通过使该场面内的每个主颜色对象的平均尺寸归一化，进一步改善柱状图(3)。因此，一个场面的主颜色柱状图表示一帧中的结构内容和一个场面中的瞬间内容。此外，这些主颜色对象往往表示一个场面中的主要对象或背景，在两个场面中这些颜色对象之间的相关性能够表示这两个场面之间的相关性。

参见图3，图中表示根据本发明的一个方面、填充有所识别对象的HSV颜色空间之示例。如图所示，描述了两个HSV颜色空间圆柱体，例如一个表示帧(N)302，一个表示帧(N+1)304。该HSV颜色柱状图302和304被用于识别相关帧(302，304)内的主颜色对象(例如306A...N，308A...N)，以识别一个场面中的主颜色对象。接着，这种HSV颜色柱状图被用于为场景分段而识别主颜色对象。

再参见图2，一旦由颜色对象分析器212产生主颜色对象柱状图，控制器202有选择地调用相关性检测器216的情况，得出两场面a和b之间的相关性值。相关性检测器216可以采用多种统计技术的任何技术，以识别场面之间的相关性。根据一个实施例，通过计算场面a和b的两个主颜色柱状图之间的柱状图交集，相关性检测器216计算出这两个场面之间的相关性，用数学式表示为：

Cor(a，b)＝∑x∑y∑z min[hist_d ^A(x，y，z)，hist_d ^B(x，y，z)] (4)

其特性是：

1)0≤cor(a，b)≤1，cor(a，a)＝1

2)cor(a，b)＝cor(b，a)

用于场面分组的扩展窗配置

至少部分基于相关性检测器216执行的相关性分析，控制器202将各场面分组以将媒介分段为场景。根据一实施例，控制器202将满足最小相关性阈值(Tc)的场面分组。

根据本发明的一个方面，控制器202利用存储器206的扩展窗218将相关的连续场面分组为至少部分基于相关性检测器216取出的相关性记分的一个场景。可以理解的是，根据下面的说明，扩展窗技术省略了比较许多场面对或构造复杂的场面链接的需要.因此减少了计算复杂度。

另外，考虑到瞬间约束，即时间相互接近的场面很可能属于同一场，两个场面间的相关性记分由一个瞬间接近(或吸收)参数w加权：

w＝1/(1+d/C) (5)

其中，d为两场面间的最小距离，C为至少部分由场面长度确定的常数。根据一实施例，控制器202假设每场景至少包括三场面。首先，第一组三个场面形成新场景，扩展窗的尺寸设置为3。每次分析新场面时，其相关值与窗中的上三个场面比较，确定三个相关值中的最大值v。然后，如果计算的最大值大于包含扩展窗的场面的平均最大相关性记分减任何变量，场面被吸收入扩展窗中的当前场景。控制器202执行的比较的数学表示式为：

v＞平均值-变量 (6)

如果最大值(v)不满足这个阈值，分析几个更靠后的场面以改善当前场面代表新场景之起始的可信度。根据经验可以确定，在一个场景中常常有一场面不满足前面的要包括在该场景内的要求。然而，对其它连续场面的分析可能会确认当前场面不代表语义场景的结束。如果控制器202判定一个或多个后续场面满足公式(6)，任何前面的场面可被包括在扩展窗218中导出的场景中。控制器202导出的当前场面I对新场景的吸收比表示为数学式：

R(i)＝(right(i)+right(i+1))/(left(i)+left(i+1)) (7)

其中：如果R(i)＞T且R(i)＞R(i-1)且R(i)＞R(i+1)，其中T为阈值，

则：left(i)＝max{cor(i，i-1)，cor(i，i-2)，cor(i，i-3)}

left(i+1)＝max{cor(i+1，i-1)，cor(i+1，i-2)}

right(i)＝max{cor(i，i+1)，cor(i，i+2)，cor(i，i+3)}

right(i+1)＝max{cor(i+1，i+2)，cor(i+1，i+3)，cor(i+1，i-4)}

根据一实施例，控制器202设置阈值T为1.5。因此，在从右端对场面i的吸收大于从左端的吸收之位置，判定当前场面i开始一个新场景。否则，控制器202放置场面i于扩展窗的当前场景中。下文参照图4和5图示描绘扩展窗。

参照图4，该图描述了将场面加入至少部分基于上述相关性测量的扩展场景窗。如图所示，控制器202将各场面的相关值与在前的及连续的场面相比较，以识别每个场面应放置在哪一个场景。

图5描绘根据本发明的一个方面的存储装置/存储器206，它包括扩展场景窗218。如上所述，扩展窗218用于将具有类似语义内容(如相关性测量所定义)的场面分组。

时空分析功能

除颜色对象分析器212外，或是作为对颜色对象分析器212的替代，控制器202可选择地调用时空切片分析功能214的实例(instance)，以识别场面之间的语义类似性，从中可识别独立的场景。如图所示，瞬间切片分析功能214包括移动分析功能220和空间分析功能222。以下做更详细的说明，瞬间切片分析功能214从连续场面的帧中切割一个或多个横向或纵向的一维(1D)切片，以量化切片的移动图象，并选择关键帧代表一个场面的每个移动分段。至少部分地基于由该1D切片的量化特征，控制器202调用相关性检测器216的实例，以测量相邻场面的量化特征间的类似性，来识别场景边界。此外，与现有技术不同，该瞬间切片分析功能214识别场面间的语义内聚性(cohesive)以识别媒介场景。

根据一实施例，瞬间切片分析功能214从接收的媒介的垂直和水平面切割1D切片，并选择调用移动分析功能220的实例。移动分析功能220反复划分每个场面的切片为更小的片断，其每个具有连贯的移动图象。在二维时空切片，瞬间结构包含指示移动轨道的信息。根据一实施例，通常的结构分析方法是采用例如共生矩阵计算，以特征化场面中的移动图象。根据一实施例，计算15个共生矩阵以对在3个不同方向中通过5个扫描的轨道进行模拟，而代表每个矩阵的平滑度和对比度的30个特征被提取。参照图6描绘15个共生矩阵的例子。

根据一实施例，根据下列4种至少部分基于场面的基本移动之一，分析功能220特征化场面内的每个片断的移动；1)不移动或细微移动；2)放大或缩小；3)摇摄(pan)；和4)字幕(title)。至少基于相对于连贯移动图象的每个片断的移动图象，根据下列原则选择一个或多个关键帧：

1)不移动或细微移动；选择任意帧用于检索

2)放大或缩小；选择第一帧和最后帧用于检索

3)摇摄；选择对应的垂直切片用于检索

4)字幕：选择对应的水平切片用于检索

一旦被检索，每个场面将由一个或多个关键帧的一组特征表示，这些关键帧至少是部分地基于上述移动分析而提取的。关键帧的特征可以是颜色柱状图或其它图象特征。至少部分基于场面的关键帧的特征，相关性检测器计算场面的类似性之值，以确定这些场面是否语义相关，如果是，控制器202将这些场面分段为一个场景，它至少暂时存储在存储器228。在一实施例中，控制器202通过识别两场面的关键帧间的柱状图交集计算场面间的相似性。另外，如上所述，根据一实施例，媒介分析工具104利用扩展窗动态地由那些满足语义相似性的阈值的场面产生场景。

这里所用的每一个存储装置/存储器206和输入/输出接口208都是用来表示本领域所公知的那些元件。媒介分析工具104利用存储器206至少部分暂时地保存媒介内容224、扩展场景窗226和/或所识别的场景228。I/O接口208使媒介分析工具104能与外部元件和系统通信，有助于实现分布式结构和远程操作。

应用程序210是用来包括各种各样的应用程序，它们可使用媒介分析引擎204、或由媒介分析引擎204所用，以自动识别具有语义内聚性的场面用于场景分段。在这方面，应用程序210可适当包括图象用户接口(GUI)、媒介播放器、媒介发生器、媒介数据库控制器等。

按以上所做的描述，可以理解的是，媒介分析工具可在多个可选的实施例中充分实现。根据一实施例，媒介分析工具104可以用软件实现而作为一个独立的应用程序，作为较高级多媒体应用的子集，如媒介解码应用程序、媒介着色(rendering)应用程序、浏览器应用程序、媒介播放器应用程序等。可选的是，媒介分析工具104也可由硬件充分实现，例如采用专用集成电路(ASIC)、控制器、可编程逻辑器件(PLD)、多媒体加速器外围装置等。这些可选的实现方式在本发明的宗旨和范围内可以预期到的。

运行和实施示例

以上参照图1至图6介绍了媒介分析工具104的运行环境和功能组件，以下参照图7至图10将更充分地阐述系统的运行。为简化描述，并不受限制，以下对媒介分析工具104的阐述是在按语义对视频媒介进行分段的范围中。然而，本领域技术人员知道，该媒介分析工具104可扩展到按语义对其它类型的媒介(例如音频内容)进行分段。

图7的流程图描绘了根据本发明的一个实施例、将媒介动态分段为语义类似单元的方法示例。更具体地说，根据所描述的实施例，图7表示用于将视频内容动态分段为场景的方法示例，这种分段至少部分是基于组成场景的场面间的语义类似性。

如图7所示的方法，在框702，开始接收对媒介内容分段的指示。更具体地说，媒介分析工具104的控制器202从本机应用程序(如210)或外部源(即通过I/O接口208)接收指示。

作为响应，在框704，媒介分析工具104调用媒介分析引擎204的实例来分析所识别的媒介内容，以识别组成媒介的场面间的语义类似性。如上所述，媒介分析引擎204选择地调用颜色对象分析器212以执行颜色对象分段，和/或瞬间切片分析功能214以对媒介内容进行瞬间切片分析。至少部分地基于这种分析，调用相关性检测器216识别具有统计上的语义内聚性的场面。

在框706，那些被找出的具有统计上的语义相关性的场面被分组在一起，形成语义相关的媒介内容的场景。如上所述，一旦相关性检测器216确定一个场面与在前的场面和/或随后的场面语义相关，该场景被加入到一个定义场景的场面的扩展窗(218)。利用扩展窗218使得媒介分析工具104免于现有技术常有的繁琐的复杂计算。

图8的流程图描绘了根据本发明的一个方面、颜色对象分段的方法示例。根据所述的实施例，该方法始于框802，其中，在HSV颜色空间分析媒介内容。即，来自帧的内容由颜色量化器218在HSV颜色空间中进行量化。

在框804，在HSV颜色空间中通过帧和场面识别和跟踪主对象。更具体地说，如上所述，控制器202在HSV颜色空间中识别对象，跟踪这种对象通过帧边界。帧间对象的小的位置移动指示相似的语义结构。

在框806，关于HSV颜色空间中主颜色对象的信息被发送到相关性检测器216，它至少部分地基于连续场面中的主颜色对象产生语义相似性之值。在框808，与其它场面在统计的语义上相似的场面被分组在场面的扩展窗中。一旦识别了所有语义相似的场面(并因此保存在扩展窗中)，这些场面被定义为场景，存储之以方便以后的访问和检索。

图9的流程图描绘了根据本发明的一个方面、瞬间切片分析的方法示例。如上所述，媒介分析引擎204可以有选择地调用瞬间切片分析功能214作为可选方案，或者另加上颜色对象分析器212，以识别语义相似的场面，用于分段为场景。不象颜色对象分析器212，瞬间切片分析功能214分析所接收的媒介内容的移动和时空结构属性，以分段场景。

因此，根据图9的实施例，该方法始于框902，从一个或多个连续场面的一个或多个帧中提取一维水平和垂直方向的切片。在框904，至少部分地基于这些分段的移动属性，移动分析功能220反复划分这些切片更小的分段。

在框906，控制器202选择地调用瞬间分析功能222，以根据移动模式分析提取场面的关键帧，并提取这些关键帧的特征，代表该场面的视觉内容。根据上述实施例，瞬间分析功能222提取关键帧的移动、颜色和/或瞬间结构属性中的一个或多个，代表该场面的视觉内容。

在框908，向相关性检测器216提供所识别的关键帧的特征，至少部分地根据这些特征，相关性检测器216得出场面间的语义相似性的统计数值。如上所述，具有统计上的语义相似性的内容被分组在一起构成一个场景。如上所述，控制器202可充分使用扩展窗218将场面分组在场景分段中。

可选实施例

图10是一种存储媒介的方框图，在该存储媒介中存储有多个指令，根据本发明的另一实施例，其中包括实现根据本发明的思想的指令。图10在整体上描述了一种存储媒介/装置1000，它存储有多个可执行指令，其中至少包括在执行时可实现本发明的媒介分析工具104的可执行指令之子集。

这里所用的存储媒介1000是用来代表本领域技术人员已知的多种存储装置和/或存储媒介之一种或多种，如：易失性存储装置、非易失性存储装置、磁存储媒介、光学存储媒介等。类似地，可执行指令是用来表现任何在本领域中公知的软件语言，如：C++、VisualBasic、Hypertext Markup Language(HTML，超文本标记语言)、Java、eXtensible Markup Language(XML，可扩充标记语言)等。另外，可以理解的是，存储媒介/装置1000并不是非要与任何主机系统设在一处。即，存储媒介/装置1000可位于一个远程服务器内，该服务器与一个执行系统建立通信连接，并可由该系统访问。因此，图10的软件实现被认为是例证性的，其它存储媒介和软件实施例也在本发明的精神和范围内。

虽然本发明对结构特征和方法性步骤采用特定的术语描述，应该理解的是，权利要求书中所限定的本发明并不限于所述的具体特征或步骤。例如，这里所表述的发明原理可以适当地用于识别具有多种音频内容的存储媒介(例如音乐CD)上不同的音频内容(例如歌曲)。根据这个可选的实施例，媒介分析工具104的应用程序210产生存储媒介上的音频内容的颜色表示。有很多技术都可以适当地用于执行这个声音到视觉的转换，如：频谱分析等。一旦完成声音到视觉的转换，根据以上公开的本发明的思想，媒介分析工具104选择性地调用颜色对象分析器212、颜色量化器218和相关性检测器216，从该多种音频内容中识别出语义不同的音频内容。因此，可以理解的是，虽然公开了具体特征和步骤，但只是作为本发明的实施例，在这里说明更广泛的发明原理。

Claims

1.一种用于图像处理的方法，包括：

分析所接收的媒介内容的连续场面的一个或多个属性；和

至少部分地基于对所述场面的一个或多个属性的分析，产生连续场面的相关值。

2.如权利要求1的方法，其中所述媒介内容是从远程提供者和/或本地存储器接收。

3.如权利要求1的方法，其中所述的相关值反映所述连续场面之间的语义相关性。

4.如权利要求1的方法，其中，对媒介的连续场面的一个或多个属性的分析包括：

产生帧的颜色柱状图；和

识别所述颜色柱状图中的主要颜色对象。

5.如权利要求4的方法，其中产生帧的颜色柱状图之步骤包括：

将帧的象素、和/或内部编码帧的DC块投影至一个量化的颜色空间；和

产生所述象素和/或块的归一化的分布，为每一帧产生颜色柱状图。

6.如权利要求5的方法，其中所述量化的颜色空间是色度、饱和度、及浓淡色度(HSV)颜色空间。

7.如权利要求4的方法，还包括：

在通过帧的颜色空间中跟踪所识别的颜色对象；和

至少部分地基于通过帧的主颜色对象的相对位置，检测场面的边界。

8.如权利要求1的方法，还包括：

产生所检测的场面间的相关值；和

至少部分基于所产生的相关值，把场面加入一动态调整大小的、定义场景的场面的扩展窗。

9.如权利要求8的方法，其中所产生的相关性至少部分地反映所述场面中颜色对象的相关性。

10.如权利要求8的方法，其中产生相关值之步骤包括：

识别与两个或多个场面之每个场面相关的颜色柱状图的交集。

11.一种用于控制计算机处理媒介分段的装置，所述的装置在需要时与所述计算机连接以控制所述计算机，所述装置包括媒介分析工具和相关性检测器，该媒介分析工具和相关性检测器分别包括多个可执行指令的子集，其中

当所述媒介分析工具通过该装置与所述计算机连接时，所述媒介分析工具用于控制所述计算机以分析接收到的媒介内容的连续场面的一个或更多的属性；

当所述相关性检测器通过该装置与所述计算机连接时，所述相关性检测器用于控制所述计算机以至少部分地基于场面的一个或更多的属性的分析产生用于连续场面的相关值。

12.一种用于图像处理的方法，包括：

分析在一颜色空间中与所接收的媒介内容有关的颜色信息，以识别一个或多个颜色对象；

通过所接收的媒介内容跟踪颜色对象，以识别场面；及

量化场面间的相关性，以至少部分地基于所分析的颜色信息来识别场景，该颜色信息与所接收的媒介内容有关。

13.如权利要求12的方法，其中分析颜色信息之步骤包括：

将每帧的象素、或内部编码帧的DC块投影到一个量化的颜色空间；和

产生所述象素和/或块的归一化的分布，以产生媒介内容的颜色柱状图。

14.如权利要求13的方法，还包括

识别所述颜色柱状图中的局部最大点；

定义颜色对象为环绕每个所识别的局部最大点的N个量化单元的区域。

15.如权利要求14的方法，其中所述颜色对象定义为环绕识别的局部最大点的3个量化单元的区域。

16.如权利要求14的方法，其中通过媒介内容跟踪颜色对象还包括：

在关联于两帧的颜色空间中，选择一个或多个颜色对象；和

产生对于帧的相关值，表示出现在每帧的对象是同一对象的可能性。

17.如权利要求16的方法，其中产生帧间相关值包括：

在两帧中的每帧中，定位颜色对象的中心点；和

计算每帧中的每一个对象的中心点的相对位置，其中，如果对象的相对位置不偏离预定的阈值，对象被识别为一般对象。

18.如权利要求14的方法，还包括：

产生场面颜色柱状图，以仅包括通过帧并具有最长持续时间的颜色对象，所述的帧包括所识别的场面。

19.如权利要求18的方法，其中量化场面间的相关性包括：

计算两场面颜色柱状图间的柱状图交集，以确定场面间的语义相关性。

20.如权利要求19的方法，还包括：

当场面间的相关值大于预定阈值时，将扩展窗中语义相关的场面分组。

21.如权利要求20的方法，其中场面的组合包括场景。

22.如权利要求12的方法，还包括：

23.一种用于控制计算机处理媒介分段的装置，所述的装置在需要时与所述计算机连接以控制所述计算机，所述装置包括媒介分析工具和相关性检测器，该媒介分析工具和相关性检测器分别包括多个可执行指令的子集，其中

当所述媒介分析工具通过该装置与所述计算机连接时，所述媒介分析工具用于控制所述计算机以分析在一颜色空间中与所接收的媒介内容有关的颜色信息，以识别一个或多个颜色对象，通过所接收的媒介内容跟踪颜色对象，以识别场面；及

当所述相关性检测器通过该装置与所述计算机连接时，所述相关性检测器用于控制所述计算机，以至少部分地基于与所接收的媒介内容有关的所分析的颜色信息，来量化场面间的相关性以识别场景。

24.一种用于图像处理的方法，包括：

分析一个或多个所接收的媒介内容的属性，以识别所接收的内容的元素间的语义相似性；和

将接收的媒介内容分段为语义相关元素的场景。

25.如权利要求24的方法，其中的分析步骤包括：

识别所接收媒介的帧的颜色空间内的对象；和

跟踪在通过帧的颜色空间中所识别的对象，以产生帧间相关值，检测场面边界。

26.如权利要求24的方法，其中的分析步骤包括

从所接收的媒介的帧中提取一个或多个切片，以分析所接收的媒介的帧的一个或多个时空属性；

至少部分基于帧的时空属性，产生帧间相关值；及

至少部分基于该帧间相关值，选择场面内的分段边界。

27.如权利要求24的方法，其中的分段包括：

产生所识别的场面间的相关值；

用相关值大于预定阈值的场面填充动态扩展窗。

28.如权利要求27的方法，其中产生相关值之步骤包括：

至少部分地基于帧的时空属性，为所识别的场面的每个分段选择一个或多个关键帧

至少部分基于场面的关键帧的视觉特征，产生所识别场面间的相关值。

29.一种用于控制计算机以作为一媒介分析工具来处理媒介分段的装置，所述的装置在需要时与所述计算机连接以控制所述计算机，所述装置包括媒介分析工具和相关性检测器，该媒介分析工具和相关性检测器分别包括多个可执行指令的子集，其中

当所述媒介分析工具通过该装置与所述计算机连接以将分析指令传送到所述计算机时，所述媒介分析工具用于控制所述计算机以分析接收到的媒介内容的一个或更多的属性以识别所接收的内容的元素之间的语义的相似性；及

当所述相关性检测器通过该装置与所述计算机连接以将这样的指令传送给所述计算机时，所述相关性检测器用于控制所述计算机以将所述接收的媒介内容分段成语义相关元素的场景。

30.如权利要求29的装置，其中，分析所接收的媒介内容的一个或多个属性的指令包括在所接收的媒介的帧的颜色空间内识别对象的指令，和在通过帧的颜色空间中跟踪所识别的对象、以产生帧间相关值来检测场景边界的指令。

31.如权利要求29的装置，其中，分析所接收的媒介内容的一个或多个属性的指令包括从所接收的媒介的帧提取一个或多个切片的指令，以分析所接收的媒介的帧的一个或多个时空属性；至少部分地基于帧的时空属性，产生帧间相关值的指令，和至少部分基于帧间相关值选择场景边界的指令。

32.如权利要求29的装置，其中，将所接收的媒介分段的指令包括产生所识别的场面间的相关值的指令，和用相关值大于预定阈值的场面填充动态扩展窗的指令。

33.一种计算系统，包括：

盘驱动器，可移动并接收如权利要求31的存储媒介；

执行单元，连接到该盘驱动器，执行在所述可移动接收的存储媒介上的多个指令的至少一个子集，实现媒介分析工具。

34.一种计算系统，包括：

存储装置，接收和提供媒介内容；和

媒介分析工具，连接到所述存储装置，分析媒介内容的一个或多个属性，识别所接收的内容的元素间的语义相似性，和分段所接收媒介内容为语义相关元素的场景。

35.如权利要求34的计算系统，其中媒介分析工具包括：

颜色对象分析器，以将帧的象素、和/或内部编码的帧的DC块投影到一个量化的颜色空间；和产生帧的颜色柱状图。

36.如权利要求35的计算系统，其中所述颜色对象分析器从颜色柱状图中的局部最大点识别颜色空间对象，和跟踪通过帧的主要颜色空间对象，以识别语义相似帧的场面。

37.如权利要求33的计算系统，其中媒介分析工具还包括：

相关性检测器，以从颜色对象分析器接收与多个场面有关的一个或多个属性，并计算两个或多个场面间的相关值。

38.如权利要求37的计算系统，其中的媒介分析工具还包括：

动态确定尺寸的扩展窗，连接到该相关性检测器，以保留定义一个场景的语义相关场面，直到所有统计分析的场面都包括在该场景中。

39.如权利要求34的计算系统，其中媒介分析工具包括：

瞬间切片分析器，以从一个或多个帧中提取一维切片，并分析切片的一个或多个时空属性，以检测场面边界。

40.如权利要求39的计算系统，其中媒介分析工具包括：

相关性检测器，以从瞬间切片分析器接收与多个场面相关的一个或多个属性，并计算两个或多个场面间的相关值。

41.如权利要求40的计算系统，其中媒介分析工具还包括：

动态确定尺寸的扩展窗，连接到该相关性检测器，以保留定义一个场景的语义相关场面，直到所有统计分析的场面包括在该场景中。