CN102667770A

CN102667770A - 用于计算机辅助地注解多媒体数据的方法和设备

Info

Publication number: CN102667770A
Application number: CN2010800500248A
Authority: CN
Inventors: T.施瓦策; A.胡特; T.里格尔
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2009-11-04
Filing date: 2010-11-03
Publication date: 2012-09-12
Anticipated expiration: 2030-11-03
Also published as: EP2497037A1; CN102667770B; US20120219223A1; DE102009060687A1; WO2011054858A1; US9020268B2

Abstract

本发明描述了一种用于计算机辅助地注解多媒体数据（MD）的方法，所述多媒体数据包括数字化图像序列。根据本发明的方法包括步骤：执行对多媒体数据（MD）的分析用于标识多媒体数据（MD）中的一个或多个对象（O1，O2，O3）以及将所述一个或多个对象（O1，O2，O3）分别分配给角色。角色分配在处理上下文信息（KW）的情况下被确定，所述上下文信息代表多媒体数据（MD）的模型。

Description

用于计算机辅助地注解多媒体数据的方法和设备

技术领域

本发明涉及一种用于计算机辅助地注解多媒体数据的方法和设备。

背景技术

在包括数字化图像序列的多媒体数据情况下，存在以下问题：自动地识别什么在各个图像上被表示，以便能够根据内容注解多媒体数据。尤其是应该如下注解多媒体数据：哪些人物（也即其身份）在所述多媒体数据中被表示。此外注解可以涉及所表示的对象的上下文，如例如何时创建了多媒体数据，以何种关系创建了所述多媒体数据，表示外部记录还是内部记录等。

就此而论，已知的是，首先将多媒体数据分解成各个场景，也即在逻辑上或在语义上息息相关的图像。根据面部识别软件自动地探测人物。人物的区别也通过以下方式能够实现，即分析人物的语言，以便能够根据不同的语言分布图（Sprachprofile）区分人物。对所识别的人物的标识通常通过与在数据库中所存储的信息比较来进行，在所述数据库中存放关于相应人物的语音学和/或可视特征的参考信息。但是如果在多媒体数据中所表示的人物没有存放在数据库中，则标识通过这种方式是不可能的。

其他方法使用因特网搜索来注解多媒体数据。在此情况下，首先手动地搜索要注解的人物的所注解的图像。接着，将为找到的图像所确定的特性与在多媒体数据中所表示的人物的图像相比较。在一致的情况下，可以通过传输来自图像的手动注解来用确定的人物注解多媒体数据。

从现有技术中已知的行为方式在实际所有情况下要求进行手动干预，使得不能自动化地进行多媒体数据的注解。

发明内容

本发明的任务是，说明一种方法，利用所述方法能够计算机辅助地、也即自动地进行多媒体数据的注解。本发明的另一任务在于，说明一种设备，所述设备能够实现对多媒体数据的自动化的、计算机辅助的注解。

所述任务通过根据专利权利要求1的特征的方法以及根据专利权利要求13的特征的设备来解决。有利的扩展方案分别由从属专利权利要求得出。

本发明实现一种用于计算机辅助地注解多媒体数据的方法，所述多媒体数据包括数字化图像序列。根据本发明的方法包括以下步骤：执行对多媒体数据的分析用于探测多媒体数据中的一个或多个对象。将所述一个或多个对象分配分别分配给角色，其中角色分配在处理上下文信息的情况下能够实现，所述上下文信息代表多媒体数据的模型。

在下面的描述中尤其是将角色理解为在多媒体数据中人物的作用。人物的作用例如根据分配给人物的文本来测定。

在本描述中尤其是将对象理解为在多媒体数据中所表示的人物。但是，对象也可以是与此不同的目标。

根据本发明的方法的优点在于，可以计算机辅助地和自动化地进行用于注解多媒体数据的方法。在分析多媒体数据和将在分析时所确定的对象分配给角色之间不需要手动的工作步骤，由此根据本发明的方法快速和有效地工作。

尤其是，从与多媒体数据不同的信息源中确定上下文信息。换句话说，这意味着，上下文信息不来自多媒体数据或者从所述多媒体数据得出。上下文信息例如包括关于所分析的多媒体数据的背景信息，所述背景信息通过业务运营商或通过其他方式被提供。

根据适宜的扩展方案，作为另一步骤，将对象分配给对象类，其中对象类包括被标识为类似的对象，使得可以认为，以高概率涉及相同的对象。对象类因此包括类似对象的分组。通过该中间步骤可以通过更简单和更快速地方式将对象分配给角色。

为了将两个对象归类为类似的，尤其是为所述两个对象确定对象特定的类似度，所述类似度考虑对象的可视的和/或语音的和/或几何的特性。对象例如可以通过面部跟踪或者类似性检验基于可视特征被检测为类似的。在多媒体数据中所确定的对象的语音类似性例如通过语言分析被找出。

根据另一适宜的扩展方案，作为另一步骤，为相应的角色确定身份。对象、尤其是人物的身份表示其本质的表征对象并且与其他对象不同的个性。通过根据本发明的方法的多级性、观察对象以便探测对象、将对象分配给至少一个对象类、将一个或多个对象类分配给角色并且将相应的角色分配给身份，可以使本发明方法的计算耗费保持得小并且提高将身份指派给对象的可靠性。尤其是以快速的时间实现收敛。

根据另一优选的扩展方案，在处理上下文信息的情况下基于所确定的角色来确定身份。另外适宜的是，将所述确定的身份分配给有关的对象和/或有关的对象类。

在另一适宜的扩展方案中，上下文信息包括关于在多媒体数据中所涉及的身份的信息。所述身份表示角色，其中所观察的、未知的对象应该被分配给所述角色。可能的是，身份在多媒体数据的进程中也可以采取多个角色。如果角色随着时间变化，则标识只有经由角色和时间戳的组合才变成明确的。

上下文信息可选地此外包括关于多媒体数据的上下文的统计上的或程序上的知识。后者例如可以是在电视中所发射的节目的常见流程，所述流程例如包括片头字幕、随后的具有宾客的采访、关于宾客的所录制的报道或者由宾客做广告的产品等。例如在对象在多媒体数据中出现的频率被确定时，存在统计知识。从所述信息中可以（在相应的上下文情况下）推断出对象的角色或身份。

此外，上下文信息可以包括逻辑限制。例如如果两个所标识的对象同时在图像序列中出现，则所述对象不能具有相同的身份。通过该排除准则可以减少对象向角色或身份的可能的分配的数目。由此也可以加速方法的收敛。

在另一扩展方案中，上下文信息包括其他数据源、尤其是具有关于多媒体数据的信息的数据库的数据。所述数据源例如可以是电子节目杂志或关于节目的概括，其典型地在数据库中可用。

本发明此外实现一种用于计算机辅助地注解多媒体数据的设备，所述多媒体数据包括数字化图像序列。所述设备包括用于执行多媒体的分析用来探测多媒体数据中的一个或多个对象的第一装置。另外，所述设备包括用于将所述一个或多个对象分别分配给角色的第二装置，通过所述第二装置可以在处理上下文信息的情况下确定角色分配，其中上下文信息代表多媒体数据的模型。所述模型可以包括多个子模型。

根据本发明的设备具有与结合根据本发明的方法所描述的所述优点相同的优点。

在适宜的扩展方案中，根据本发明的设备具有用于执行上述方法的其他装置。

附图说明

下面根据实施例在附图中更详细地阐述本发明。其中：

图1示出根据本发明的方法的示意流程，和

图2示出用于计算机辅助地注解多媒体数据的根据本发明的设备的示意图。

具体实施方式

图1以示意形式示出用于计算机辅助地注解多媒体数据MD的基本行为。多媒体数据MD包括数字化图像序列，例如电视节目序列。多个逻辑上息息相关的图像构成视频序列，其中在图1中示例性地示出了三个视频序列VS1、VS2、VS3。在视频序列VS1、VS2、VS3的每一个中，包含多个首先未知的对象O1、O2、O3。示例性地在视频序列VS1中所示的三个对象O1、O2、O3例如是在节目中出现的人物。

为了在已知的语义上下文中找出未知的对象O1、O2、O3的角色分布，使用分配给多媒体数据MD的上下文知识KW。首先，适宜的是，上下文知识KW包括关于在多媒体数据中的所涉及的身份的信息。所涉及的身份表示角色，其中所观察的未知的对象应该被分配给所述角色。在采访情形中，例如存在采访者和受访者。对象向角色的分配最终在其相应的身份方面标识对象。

另外适宜的是，上下文知识KW包括上下文的统计知识。该统计知识例如描述在新闻报导中主要演员和次要演员的出现的通常可观察的频率分布。因此，例如已知的是，在采访情形中受访者相对最经常地在图像序列中可被看到。图像序列在此例如可以对应于所分析的多媒体数据的视频序列。

上下文知识KW此外可以包含关于逻辑限制的信息。逻辑限制例如对对象的角色归属给以排他的提示。如果两个对象同时出现，只要在视频序列中不表示对象的反照，则所述两个对象不能具有相同的身份。

上下文知识KW另外优选地包括关于在多媒体数据中所包含的对象的要确定的身份的附加信息源。这样的信息源例如可以是节目杂志或文本简短概括，其在数据库中被提供。

这些类型的上下文知识的任意组合允许将在多媒体数据MD中所包含的对象O1、O2、O3分配给身份。在人物的情况下，身份表示其本质的表征所述人物并且作为个体与其他人不同的个性。尤其是应该通过该方法找出，哪个人物或哪些人物在多媒体数据中被表示。

观察对象、也即在多媒体数据的总体或优选地相应的各个视频序列VS1、VS2、VS3中执行多媒体数据的分析不允许单独地确定，在多媒体数据MD或相应的视频序列VS1、VS2、VS3中所确定的对象O1、O2、O3在上下文中属于哪个角色。但是，角色分配随着关于对象O1、O2、O3的知识增加而简化。在此情况下相关的信息例如是各个对象O1、O2、O3在多媒体数据MD或相应的视频序列VS1、VS2、VS3中出现的频率。

为了能够实现角色分配，规定，通过观察使各个对象O1、O2、O3处于适当的关系。这例如在对象O1、O2、O3的可视的类似性情况下在不同的视频序列VS1、VS2、VS3中是可能的。通过对象O1、O2、O3（所述对象基于其可视的类似性代表相同的对象）在处理步骤TA1中被概括成对应于对象的未知的身份的对象类OK，进行分配：代替许多单个在视频序列VS1、VS2、VS3中所探测的对象O1、O2、O3，仅仅仍将几个对象类OK分配给角色。

在处理步骤TA1中，应用集群方法，利用所述集群方法将在多媒体数据或相应的视频序列VS1、VS2、VS3中所确定的对象O1、O2、O3的类似对象分组到对象类中。两个对象O1、O2、O3的类似性程度在此是对象特定的。除了可视的特性之外，例如可以通过几何因子来描述类似性的程度。优选地，在多媒体数据MD或视频序列VS1、VS2、VS3中所确定的对象按时间顺序处理，以便能够保证，两个同时确定的对象不被分配给相同的对象类OK。

处理步骤TA1的结果是将对象O1、O2、O3分配给对象类OK。就此而论应该看出的是，对象类OK不必被给出，而是在分析多媒体数据MD或相应的视频序列VS1、VS2、VS3时被产生。

在另一处理步骤TA2中，首先将所找到的对象类OK指派给角色并且然后将所述角色指派给身份。来自多媒体数据MD或相应的视频序列VS1、VS2、VS3的上下文中的统计背景知识在此情况下在与所找到的对象类分配和对象类的特性的关联中构成强证据。

这应该以采访的情景为例来说明。在访谈节目中的电视新闻报导中采访的焦点明显地处于被问者方（受访者或宾客）。在采访的情况下，这首先具有以下基础：即观众对被问者感兴趣，而不太对采访者感兴趣。因此，被问者在渐显时在视频材料中被优选。另外，采访者的提问从时间上看平均短于被问者的回答。因此，被问者明显更经常地和更长地在视频材料中存在。由此相比于主持人或采访者，在多媒体数据或视频序列中的各个场景中宾客明显更高地出席。

在两个人物之间的采访情况下，因此仅仅相应的出现者的频率足以标识两个参加者（对象）的角色。可以在无关于所述参加者本身的知识的所有形式的情况下进行角色分配。

哪些角色（采访者或者一个宾客/多个宾客）存在于多媒体数据MD中并且哪些身份从事哪些角色，可以从上下文信息KW中得知。通过处理所有信息，例如可以找出，在视频序列VS1中，对象O1是受访者，对象O2是采访者并且对象O3是节目的另一宾客。与例如具有节目的主持人以及所邀请的宾客（受访者）的上下文知识结合，身份可以被指派给这些角色。

身份向对象类并且从而所有其中所包含的对象的已经确定的分配可以使多媒体数据或者相应的视频序列VS1、VS2、VS3中的其他仍未标识的身份的分配变得容易。如果例如确定出，对象O1被分配给对象类OK1并且所述对象类OK1被分配给身份A，则与O1不同的对象不能包含在对象OK1中并且从而不能对应于身份A。另一方面，如果确定出，首先未知的对象基于其类似性同样包含在对象类OK1中，则该对象也必须对应于身份A。对已经已知的知识的考虑由此使身份向对象类以及对象的其他分配变得容易。

通过连续地处理多媒体数据或各个视频序列VS1、VS2、VS3，由此可以计算机辅助地注解多媒体数据。

在试验中已经表明，如果多媒体数据的越小的片段、也即各个视频序列分开地被研究，则未知对象向对象类的分配能够越好地被实现。例如，从采访的视频记录中搜索场景，所述场景根据存在的上下文信息被处理。在此情况下，可以以比较简单的方式进行对象向角色或身份的分配。

该方法的附加的扩展可以在于，基于（时间局部的）集群与视频序列中的频率分布的统计模型组合地执行视频序列（例如采访情形）中的场景的分类。

图2示出用于计算机辅助地注解多媒体数据的根据本发明的设备R，所述多媒体数据包括数字化图像序列。所述设备R包括用于执行多媒体数据的分析用来标识一个或多个在多媒体数据中所表示的对象的第一装置M1。计算机R此外包括用于将所述一个或多个对象O1、O2、O3分别分配给角色的第二装置M2，通过所述第二装置在处理上下文信息的情况下能够确定角色分配，其中上下文信息代表多媒体数据的模型。

设备R、第一装置M1和第二装置M2可以以硬件、软件或以硬件和软件的组合来实现和实施。因此，可以在设备中设置具有存储器的处理器，所述处理器实施第一和/或第二装置的各个方法步骤并且将结果以组织的方式存储在存储器中，所述方法步骤例如作为程序代码被存储在存储器中。此外，第一装置和第二装置可能能够作为专用硬件组件、例如作为电路来实现和实施。另外，所述设备可以具有接口，以便能够检测用于控制和用于处理例如多媒体数据的参数并且传输给其他处理单元。

Claims

1.用于计算机辅助地注解多媒体数据（MD）的方法，所述多媒体数据包括数字化图像序列，具有以下步骤：

-执行对多媒体数据（MD）的分析用来探测多媒体数据（MD）中的一个或多个对象（O1、O2、O3），和

-将所述一个或多个对象（O1、O2、O3）分别分配给角色，其中在处理上下文信息（KW）的情况下确定角色分配，所述上下文信息代表多媒体数据（MD）的模型或模型集合。

2.根据权利要求1所述的方法，其中上下文信息（KW）从与多媒体数据（MD）不同的信息源来确定。

3.根据权利要求1或2所述的方法，其中作为另一步骤，将对象（O1、O2、O3）分配给对象类（OK），其中对象类（OK）包括被标识为类似的对象（O1、O2、O3）。

4.根据权利要求3所述的方法，其中为了将两个对象（O1、O2、O3）归类为类似的，为所述两个对象（O1、O2、O3）确定对象特定的类似度，所述类似度考虑对象（O1、O2、O3）的可视的和/或语音的和/或几何的特性。

5.根据前述权利要求之一所述的方法，其中作为另一步骤，为相应的角色确定身份。

6.根据权利要求5所述的方法，其中在处理上下文信息（KW）的情况下确定所确定的角色的身份。

7.根据权利要求5或6所述的方法，其中将所确定的身份分配给有关的对象（O1、O2、O3）和/或有关的对象类（OK）。

8.根据前述权利要求之一所述的方法，其中上下文信息（KW）包括关于在多媒体数据（MD）中所涉及的身份的信息。

9.根据前述权利要求之一所述的方法，其中上下文信息（KW）包括关于多媒体数据（MD）的上下文的统计知识。

10.根据权利要求9所述的方法，其中确定对象（O1、O2、O3）在多媒体数据（MD）中出现的频率。

11.根据前述权利要求之一所述的方法，其中上下文信息（KW）包括逻辑限制。

12.根据前述权利要求之一所述的方法，其中上下文信息（KW）包括其他数据源、尤其是具有关于多媒体数据（MD）的信息的数据库的数据。

13.用于计算机辅助地注解多媒体数据（MD）的设备，所述多媒体数据包括数字化图像序列，包括：

-用于执行对多媒体数据（MD）的分析用来标识多媒体数据（MD）中的一个或多个对象（O1、O2、O3）的第一装置（M1），

-用于将所述一个或多个对象（O1、O2、O3）分别分配给角色的第二装置（M2），通过所述第二装置能够在处理上下文信息（KW）的情况下确定角色分配，其中上下文信息（KW）代表多媒体数据（MD）的模型。

14.根据权利要求13所述的设备，所述设备具有用于执行根据权利要求2至12之一所述的方法的其他装置。