CN101084510B

CN101084510B - 变换技术在语义描述构造中的应用

Info

Publication number: CN101084510B
Application number: CN2004800280702A
Authority: CN
Inventors: H·K·赖辛三世
Original assignee: Sony Electronics Inc
Current assignee: Sony Electronics Inc
Priority date: 2003-09-29
Filing date: 2004-09-29
Publication date: 2010-06-02
Anticipated expiration: 2024-09-29
Also published as: US20050091279A1; KR20060126928A; WO2005033893A3; JP2007519068A; WO2005033893A8; CN101084510A; WO2005033893A2; EP1668464A2; EP1668464A4

Abstract

现有描述被混合以创建一个新描述，并从多个现有描述中的各描述抽取残余物。另外，利用从所述现有描述中抽取的残余物为所述新描述创建一组图式锥形。

Description

变换技术在语义描述构造中的应用

相关申请

本申请涉及并要求2003年9月29日提交的、专利申请序号为60/506931的美国临时专利申请的利益，通过引用其内容而将其结合于此。

技术领域

本发明通常涉及多媒体内容的描述，并且具体涉及利用变换技术来构造语义描述。

著作权公告/许可

本专利文件的公开部分包含受著作权保护的材料。当专利文件在专利商标局的专利文件或记录中公布时，著作权的所有者不反对任何人对专利文件或专利公开内容的精确复制，然而在其他方面将保留其所有权利。如下的告示适用于如下所述的以及本说明书附图涉及的软件和数据：

2001，Sony Electronics，Inc.，AllRights Reserved。

背景技术

数字多媒体信息在广播传输(如数字电视信号)和交互式传输(如互联网)中日益得以广泛应用。信息可以是静止图像、音频输送或视频数据流。然而，这类大容量信息的存在导致了难以识别哪些是用户特别关心的内容。各种机构曾试图通过提供可用来搜索、过滤和/或浏览来定位特定内容的信息描述以解决这个问题。移动图像专家组(MPEG)曾经发布了通常称为MPEG-7的多媒体内容描述接口标准，以使多媒体信息的内容描述标准化。与以前的、定义视听内容编码表示的MPEG标准(如MPEG-1和MPEG-2)形成对比，MPEG-7内容描述不是对内容本身进行描述，而是对其结构和语义进行描述。

以电影为例，对应的MPEG-7内容描述将包含“描述符”，该“描述符”是描述电影特征如场景、场景的标题、场景中的镜头以及这些镜头的时间、颜色、形状、移动和音频信息的部件(成分)。内容描述还将包含一个或多个“描述方案(description scheme)”，该“描述方案”是描述两个或多个描述符之间关系的部件，例如涉及镜头(shot)特征的镜头描述方案。描述方案还可描述其它描述方案之间、以及描述方案和描述符之间的关系，例如涉及场景中不同镜头的以及将场景的标题特征与镜头相联系的场景描述方案。

MPEG-7用数据定义语言(Data Definition Language)(DDL)来定义描述符和描述方案，并设置了一个核心组的描述符和描述方案。一组描述符和描述方案的DDL定义被组织成不同内容类别的“模式(schema)”。模式中每个描述符的DDL定义规定了相应特征的句法和语义。模式中每个描述方案的DDL定义规定了其子部件、描述符以及描述方案之间的关系的结构和语义。DDL可用来修改并扩展现有的描述方案并产生新的描述方案和描述符。

MPEG-7DDL基于XML(可扩展标注语言)和XML模式标准。描述符、描述方案、语义、句法和结构由XML元素和XLM属性表示。某些XML元素和属性是可选的。

特定内容片段的MPEG-7内容描述是MPEG-7模式的一例；也就是说，它包含了遵守模式中所定义的句法和语义的数据。该内容描述被编码成一个参照适当模式的“实例文档”。该实例文档包含一组“描述符值”，用于在该模式中定义的所需元素和属性并用于任何必要的可选元素和/或属性。例如，某些用于特定电影的描述符值可规定电影具有三个场景，其中场景一具有六个镜头，场景二具有五个镜头，场景三具有十个镜头。可利用XML以文本格式或以二进制格式(如为MPEG-7数据规定的二进制格式，称为“BiM”)或以这两种格式的混合对实例文档进行编码。

实例文档通过通信信道(如计算机网络)传输至另一个用包含在实例文档内的内容描述数据来搜索、过滤和/或浏览相应内容数据流的系统。一般来说，为了快速传输，将实例文档压缩。编码器部件可编码并压缩实例文档或者通过不同的部件实施这些功能。此外，可通过一个系统生成实例文档，然后再通过另一个系统传输。接收系统中的相应的解码器部件用被参照的模式将实例文档解码。模式可作为同一传输的一部分而与实例文档分开传输至解码器，或者从另一来源由接收系统获得。另外，某些模式还可被结合进解码器。

目的在于描述内容的描述方案通常不是涉及内容的结构就是涉及其语义。通常用表示内容的物理、空间和/或时间特征(如区域、场景、镜头)以及它们之间关系的段(segment)来定义基于结构的描述方案。段的细节通常用信号(如颜色、纹理、形状、移动等)来描述。

内容的语义描述由基于语义的描述方案来实现。这些描述方案用它所描绘的方面(如物体、人、事件及其关系)来描述内容。根据用户范畴和应用，可利用不同类型的特征来描述内容，可调整应用范围。例如，可利用如物体的形状、大小、纹理、颜色、移动和位置这样的内容特征的描述，以较低的抽象水平对内容进行描述。在更高的抽象水平上，描述方案可提供关于由内容所记录的现实的概念信息，例如有关物体和事件以及物体间相互作用的信息。例如，高抽象水平描述可设置下列语义信息：“这是一个场景，其中深棕色的狗在左边，落下来的蓝色的球在右边，以经过的小汽车的声音为背景”。

目前用于构造语义描述的方法便于自动生成简单的、低水平的描述。然而，人类的描述常常是指示性和隐喻性的。因此，上述方法不能用于模仿更为复杂的人类描述的语义描述。

发明内容

将现有描述混合以创建新的描述，并且将残余物从多个现有描述的每一个中抽取出来。另外，利用从现有描述中抽取的残余物，为新的描述创建一组图式锥形(image style pyramids图像风格锥体)。

根据本发明，提供一种计算机化的方法，包含：

混合多个现有描述，以创建新的描述，其中每一个现有描述包括描述内容的元数据和将多个现有描述之中的每一个现有描述表示为图形的图形数据，所述图形包括对应于所述元数据的节点和对应于所述元数据之间关系的节点之间的边，和使用图形变换操作来执行所述混合，且所述新描述包括具有共享共同元数据的现有描述的类属空间；

从所述多个现有描述之中的每一个现有描述中抽取残余物，其中抽取残余物包括确定所述多个现有描述之中的每一个现有描述和所述类属空间之间的差异；和

利用从所述多个现有描述中抽取的残余物，为所述新描述创建一组图式锥形。

附图说明

图1说明多媒体内容描述系统的一个实施例。

图2和3说明现有技术的、用于创建心智空间(mental space)的实施例。

图4和5说明本发明某些实施例的、由服务器执行的过程。

图6A-6C说明本发明一个实施例的、用于将描述混合的过程的操作；和

图7是示范性计算机系统的框图。

具体实施方式

在下面对本发明实施例的详细说明中，参考了附图，其中相同的附图标记表示相同的部分，并且其中所示的特定实施例只是为了说明本发明可被实现。这些实施例被足够详细地描述，以使本领域技术人员可实施本发明，并且他们会理解，在不背离本发明范围的条件下，可利用其他的实施例并且可进行逻辑的、机械的、电学的、功能性的以及其他的改变。因此，下面的详细描述不应被认为具有限制意义，本发明的范围仅由所附的权利要求书规定。

首先，概述本发明的操作，图1说明多媒体内容描述系统100的一个实施例。一个新内容描述101由服务器107上的描述构造函数127创建。描述构造函数127根据存储在内容描述资料档案库103中的一个或多个现有描述来创建新内容描述101。利用服务器107上的编码器109将内容描述101编码成实例文档111。实例文档111通过服务器107被传输至客户系统113。

客户系统113包括内容存取模块115，内容存取模块115利用内容描述101来搜索、过滤和/或浏览相应的内容数据流。内容存取模块115可利用解码器119来获得有关使用实例文档111的内容的结构和语义信息。

在一个实施例中，描述构造函数127为新内容描述101创建一组图式锥形。该组图式锥形可包括比如高斯锥形、拉普拉斯锥形和小波锥形。编码器109接着将新描述的图式锥形传输至客户系统113。在一个实施例中，资料档案库103存储语义描述的图式锥形，以有效地构造新描述。另外，图式锥形可用于语义描述的分析或语义描述的任何其他处理。在控制数据丢失的限制条件下，图式锥形可被解码来恢复原始描述。

在一个实施例中，新描述是与内容的语义方面有关的MPEG-7描述方案(DS)。每个语义描述可以被表示为图形，其中节点从SemanticBase(语义库)DS中导出，且边是从语义对象的符合关系(conforming relation)的列表中选择的语义关系。特别是，可利用图形分类方案(GCS)来存储可被再用的描述的模板以及可被再用的图形变换步骤。图形变换可包括比如推出(如被称为粘贴操作的单推出或被称为剪切和粘贴操作的双推出)和拉回(如被称为节点替换的单拉回或被称为用于复杂部分的替换操作的双拉回)。描述可属于某一相对于GCS中的模板和变换来表示语法的应用范畴，这取决于内容的区域。语法可用来分割一个描述。也就是说，在GCS中可利用通过模板或若干不同的语法对描述进行因式分解(factoring)来将描述分解。

在一个实施例中，描述构造函数127利用模仿心智空间模型的过程构造新的语义描述。心智空间通过输入大量的、言语中不包括的信息来提供用于通信的语境，从而提供了语言中解释语义内容的机制。用映像输入所述信息。这些映像的功能在于，使用(即“补充”)代表预定的解释构造的框架、将结构从一个心智空间投射到另一个心智空间、以及整合或抽取来自不止一个其他心智空间的输入材料。因此，各心智空间可代表一个包含实体、关系和框架的扩展描述。为了适当地定义描述中的所有实体，若干心智空间可同时起作用。这些心智空间可彼此关联。因为心智空间彼此之间借用结构和实体，因此在这些心智空间之间建立映像是必要的。整个复合(composite)形成了所表述的描述的背景并完成了将语义加到所涉及实体上的过程。

图2和3说明了现有技术的、用于创建心智空间的实施例。参见图2，通过补充某些框架210并借用现有的心智空间220和230的结构来创建新的心智空间250。这些结构可包括元素(如物体、事件、地点等)和子空间，子空间可通过根据预定规则压缩现有空间形成，或者作为以语境依赖方式共同激活的聚合(aggregates)创建。

参见图3，通过混合或整合两个现有的心智空间362和364创建新的心智空间370。接着，通过从所有三个心智空间中抽取新的心智空间370和现有的心智空间362和364可以创建类属(generic)空间366。类属空间366包含对于心智空间362、364和370是共有的结构。

MPEG-7模型允许这样的心智空间，它们包含例如为当前描述创建的基本描述、允许确认和补充(recruitment)的模板元素、用于提供(“运行空间(run the space)”)过程的制作步骤、允许解释和补充的制作步骤和本体(ontology)链接、以及图形和制作等基本元素。另外，MPEG-7模型便于进行混合。混合的结果可表达为选择性投射(可通过限制输入集合的子集实现的对推出映像的限制)、组合(在反覆步骤中融合)、完成(来自已被用来进行描述的GCS的补充)、精制(对由完成发现的过程进行试运行)以及突现结构(被记录，以将新实体加入GCS或完成该描述)。

图4和5说明本发明某些实施例的、由服务器107执行的过程。这些过程可通过可包含硬件(如电路、专用逻辑电路等)、软件(如在通用计算机系统或专用计算机上运行的软件)或两者组合的处理逻辑电路加以执行。对于由软件实现的过程，流程图的描述使本领域技术人员可开发出这样的包含可在适当配置的计算机(计算机的处理器执行取自计算机可读介质(包括存储器)的指令)上执行的指令的程序。可用计算机编程语言编写计算机可执行指令或者将计算机可执行指令嵌入固件逻辑电路中。如果以编程语言编写的计算机可执行指令与公认的标准一致，则这样的指令可在各种硬件平台上执行并且可接入各种操作系统。另外，对本发明实施例的描述没有涉及任何特定的编程语言。将会了解，可利用各种编程语言实现这里所描述的内容。此外，在本领域中，在进行操作或取得结果时，以一种形式或另外一种形式(如程序(program)、程序(procedure)、过序(process)、应用(application)、模块(module)、逻辑电路(logic)等)提及软件是很常见的事。这样的表述仅仅是表示由计算机执行软件以使计算机的处理器实施操作或产生结果的一种简化方式。将会了解，在不背离本发明范围的条件下，到图4和5中说明的过程可涉及更多或更少的操作，并且这里描述及示出的步骤并不意味着存在特定的顺序。

图4是说明一个用于构造描述的过程400的实施例的流程图。

参见图4，过程400从识别可用作一个新内容描述之源的两个或多个内容描述的处理逻辑开始(处理步骤402)。当接收到与新内容描述关联的一个或多个元素(如形容被描述实体特性的词、该实体和另一实体之间关系、实体的结构等)时可执行识别过程。根据接收到的元素，处理逻辑可以识别与新的内容描述具有共同元素的现有内容描述。在一个实施例中，内容描述是与内容的语义方面有关的MPEG-7描述方案(DS)。

接着，处理逻辑将已识别内容描述混合在一起。尤其是，处理逻辑为每对已识别描述创建混合(处理步骤404)、为每对已识别描述创建类属空间(处理步骤406)以及从每个输入描述中抽取残余物(处理步骤408)。然后，处理步骤混合各对在先结果(处理步骤410)、为每对在先结果创建下一类属空间(处理步骤412)、并从各在先结果中抽取残余物(处理步骤414)。处理步骤410至414的操作被反覆执行直至处理步骤410产生单个输出为止(处理步骤416)。

另外，利用残余物、导致的类属空间和/或导致的混合，处理逻辑为新内容描述创建一组图式锥形(处理步骤418)。该组图式锥形可包括比如小波锥形、拉普拉斯锥形和高斯锥形。

图式锥形的创建便于对描述的分析、描述的有效传输和存储以及新描述的有效构造。

在一个实施例中，根据运行混合的规则以及保存在小波锥形内的信息，集合中的所有锥形可被用来重构原始描述。如果通过从经混合的空间减去(切掉)类属空间而导致了两个空间，则小波变换可被恢复。否则，可能需要保存一些额外空间，这一点将在下面连同图6C一起详细讨论。

在一个实施例中，多重图像描述以包括一组新图像描述的小波变换被编码。随后，原始图像描述可无损耗或有损耗地(取决于控制数据丢失的限制条件)从小波变换中解码。

图5是说明一个用于混合源描述的过程500的实施例的流程图。

参见图5，过程500从处理逻辑为第一对源描述形成不相交并集并搜索规则以融合这些源描述的元素开始(处理步骤502)。

在处理步骤504处，根据这些源描述的匹配元素，处理逻辑创建这些源描述的混合。该混合可通过执行推出来创建，然后运行混合。

在处理步骤506处，处理逻辑通过将得到的映像拉回到类属空间为源描述创建类属空间。

在处理步骤508处，处理逻辑从各输入源描述中抽取残余物。

如果源描述包含多于两个的描述，则为每一对额外的源描述重复过程500，然后这些结果在后面的反覆步骤中被混合，直至产生单个输出为止。

图6A-6C说明过程500的操作。

参见图6，为两个输入描述602和604形成一个不相交并集606。然后，执行推出并运行混合以创建一个混合空间610。另外，执行拉回以到达类属空间608。如果使用了四个源描述且混合未被示出，则类属空间序列导致图6C中说明的高斯锥形620。

类属空间608可被用来从输入描述602和604中抽取残余物。图6B说明用残余物612和614表达的混合610。如果使用四个源描述，则类属空间序列可导致图6C中说明的拉普拉斯锥形622。

残余物也可由混合导出。接着，类属空间序列可导致图6C示出的小波锥形624或626。如果从经混合的空间(B)减去(切掉)类属空间(G)而导致两个空间，则小波变换626是可恢复的。否则，额外空间(R)需要被保存，如小波锥形624中那样。小波锥形626可用来例如创建新描述和因式分解层次结构。因为各组合同时产生类属空间和混合，锥形的创建可从在锥形内任意处开始(这与信号处理设置中的小波不同)。

图式锥形620至624具有常见的图像分析、多媒体名称和特性，以便于描述的分析及有效的存储、传输和构造。

图7是说明可用来执行这里所述的、一个或多个操作的、示范性计算机系统700的框图。在可选实施例中，机器可包括网络路由器、网络交换机、网桥、个人数字助理(PDA)、移动电话、网络用具(webappliance)或任何能够执行规定该机器行动的指令序列的机器。计算机系统700包含处理器720、主存储器704和静态存储器706，它们彼此通过总线708进行通信。计算机系统700还可包括视频显示单元710(如液晶显示器(LCD)或阴极射线管(CRT))。计算机系统700还包括字符输入装置712(如键盘)、光标控制装置714(如鼠标)、磁盘驱动单元716、信号生成装置720(如扬声器)和网络接口装置722。磁盘驱动单元716包含计算机可读介质724，其上存有一组实现上述任何一种或全部方法的指令(即软件)726。所述软件726完全或者至少部分地位于主存储器704和/或处理器702内。软件726还可通过网络接口装置722传输或接收。本说明书中采用的术语“计算机可读介质”，应当包括能够存储或编码由计算机执行的指令序列的以及使计算机执行本发明任意一种方法的任何介质。因此，所采用的术语“计算机可读介质”应当包括(但不限于)固态存储器、光盘和磁盘以及载波信号。

以上，说明了利用变换技术来构造语义描述的方法和装置。尽管这里已经对特定的实施例作了说明和描述，但是本领域技术人员当会了解，可用任何打算达到相同目的之配置替代所说明的特定实施例。本申请涵盖对本发明的任何修改编或变形。

在本申请中使用的涉及MPEG-7的术语包括所有提供内容描述的环境。显然，本发明仅受限于后附的权利要求书及其等效物。

Claims

1.一种计算机化的方法，包括：

混合多个现有描述，以创建新描述，其中每一个现有描述包括描述内容的元数据和将多个现有描述之中的每一个现有描述表示为图形的图形数据，所述图形包括对应于所述元数据的节点和对应于所述元数据之间关系的节点之间的边，和利用图形变换操作来执行所述混合，且所述新描述包括具有共享共同元数据的现有描述的类属空间；

2.如权利要求1所述的计算机化的方法，其中所述多个现有描述之中的每一个现有描述为语义描述方案。

3.如权利要求1所述的计算机化的方法，其中所述图形变换操作为推出操作。

4.如权利要求1所述的计算机化的方法，其中混合多个现有描述包括：

创建所述多个现有描述之中的每一对现有描述的混合；和

混合每一对创建的混合。

5.如权利要求4所述的计算机化的方法，还包括：

为所述多个现有描述之中的每一对现有描述，创建类属空间。

6.如权利要求5所述的计算机化的方法，其中该组图式锥形利用残余物、混合和类属空间来创建，其中所述类属空间是为所述多个现有描述而创建的。

7.如权利要求5所述的计算机化的方法，其中所述图形变换操作为拉回操作。

8.如权利要求1所述的计算机化的方法，其中该组图式锥形包含小波锥形、拉普拉斯锥形和高斯锥形。

9.如权利要求1所述的计算机化的方法，还包括：

将所述新描述的该组图式锥形传送给客户。

10.如权利要求1所述的计算机化的方法，还包括：

将该组图式锥形存储在数据库中。

11.如权利要求1所述的计算机化的方法，还包括：

利用该组图式锥形来分析所述新描述。