CN102187336A

CN102187336A - 用于识别视频档案中的对象的方法

Info

Publication number: CN102187336A
Application number: CN2009801336430A
Authority: CN
Inventors: M·斯图尔泽; F·菲里耶
Original assignee: European Aeronautic Defence and Space Company EADS France
Current assignee: Airbus Group SAS
Priority date: 2008-08-27
Filing date: 2009-08-26
Publication date: 2011-09-14
Anticipated expiration: 2029-08-26
Also published as: CN102187336B; US8594373B2; US20120039506A1; WO2010023213A1; IL211129A0; FR2935498A1; FR2935498B1; EP2316082A1

Abstract

本发明涉及一种用于识别视频档案中的对象的方法，所述视频档案包括在摄像机网络中获得的多个图像，所述方法包括：对要识别的对象进行特征描述的阶段和在所述档案中搜索所述对象的阶段，其中，所述特征描述阶段包括为所述对象定义至少一个语义特征，所述语义特征能够从所述视频档案中被提取出来，即使对低分辨率的图像也是如此。

Description

用于识别视频档案中的对象的方法

技术领域

本发明属于在视频档案中搜索信息的领域，并且更特别地涉及一种用于识别视频档案中的对象的方法和设备，该视频档案包括从照相机网络中获得的多个图像。

本发明还涉及一种在记录媒介上所记录的计算机程序，当其在计算机上执行时能够用于实现根据本发明的方法。

背景技术

现代数据库使得能够存档数量不断增加的不同类型(数据、文本、音频、视频等)的信息。使用数据库的效率主要取决于用于在数据库中构造数据的模型。

在一种分级模型中，根据具有层级的树形结构来组织信息，仅可从该树形结构的根部进行访问。

这种表示方式的主要不足之处源自于存在访问由分级树的根组成的信息的唯一点的事实，这导致搜索信息中的问题。

还可以根据图表形式的网络模型来组织数据，其中利用逻辑指针将存档的实体相互链接。

面向对象的数据库同样是公知的，其能够存储对象中的多种信息，该对象例如单个表格、机器、资源等，值和属性与它们相关联。

多种搜索途径已经提出了一种用于数据库的语义模型，其中根据概念图来组织数据，该概念图由语义上相互链接的概念的集合表示构成。然而，仍然没有可用的语义模块。

无论数据库的类型是什么，根本问题源自于特别难于迅速地识别包含大量图像的数据库的视频档案中的对象的事实，特别是当被搜索对象上有很少信息可用时。

例如，基于简单的描述，在包含数千小时记录的视频监视档案中搜索一个之前没有被识别的个体期间，这种情况会发生。

在这种情况下，当前必须手动浏览所有被记录的视频档案。

除了这个过程非常复杂之外，并且如果视频监视摄像机网络中的摄像机数量越大，这些网络的密度越大，则情况更是如此，这对于搜索运行个体情形下的紧急情况是不适用的。此外，这意味着禁止了与需要快速进行调查相矛盾的分析时期。

本发明的一个目的是通过自动分析来优化在这种数据库中的操作，以便加速视频档案中的搜索过程。

本发明的另一个目的是使得操作员能够访问各种各样视频数据库中出现的对象的结构化的可视概要。

本发明的另一个目的是给予操作员优化的工具，用于通过交互式搜索策略在数据库中操作。

发明内容

这些目的通过一种用于识别视频档案中的对象的方法来实现，所述视频档案包括在摄像机网络中获得的许多图像，所述方法包括对要识别的对象进行特征描述的阶段和在所述档案中搜索所述对象的阶段，其中，所述特征描述阶段包括为所述对象定义至少一个语义特征，所述语义特征能够从所述视频档案中被提取出来，即使对低分辨率的图像也是如此，并且所述语义特征能够直接由操作员解释，其中，所述搜索阶段包括根据之前定义的语义特征从所述视频档案中过滤所述图像，从所述档案中自动提取包含具有所述语义特征的对象的图像，定义一组对象，所述一组对象包括所述视频档案中出现的具有所述语义特征的所有对象，以及根据与所述摄像机网络覆盖的空间中的所述要识别的对象的路线有关的视觉和时空特征来度量所述要识别的对象与之前定义的组中的每个其他对象之间的相似性。

根据本发明的另一个特征，相似性度量的步骤包括如下步骤：

-评估所述要识别的对象的语义特征与从之前定义的组中的其他对象的图像中提取的语义特征之间的一致性(compatibility)，和/或，

-评估所述要识别的对象的路线与之前定义的组中的另一个对象的路线之间的时空一致性，其中，所述另一个对象具有类似的语义特征，并且不具有与所述要识别的对象的特征不一致的任何特征。

根据本发明的方法优选地还包括将概率系数分配给每一个相似性度量的步骤。

根据本发明的方法还包括如下步骤：合并相似性度量步骤的结果，以便定义单个统一的相似性度量，使得能够定义在所述要识别的对象的空间中的距离。

此外，根据本发明的方法包括：通过之前定义的距离，进行感兴趣对象的空间的动态构造，以便能够利用分层树在所述视频档案中交互操作。

本发明可以应用于对于人的搜索，其中所述要识别的对象是一个仅能获得简单描述的人。在这样的应用中，这个人的语义特征由可视的身体特征和/或可视的附属物组成。

本发明特别有利于搜索视频档案中的嫌疑人，该视频档案包括在远程监视摄像机网络覆盖的空间中分布的多个摄像机拍摄的多个视频序列。

根据本发明的方法通过用于识别视频档案中的对象的设备来实现，所述视频档案包括在摄像机网络中获得的许多图像，所述设备的特征在于其包括：特征描述模块，用于对要识别的对象进行特征描述；和搜索模块，用于在所述档案中搜索所述对象，其中，所述特征描述模块包括用于为所述对象定义至少一个语义特征的模块，所述语义特征能够从所述视频档案中被提取出来，即使对低分辨率的图像也是如此，并且所述语义特征能够直接由操作员解释，其中，所述搜索模块包括用于根据之前定义的语义特征从所述视频档案中过滤所述图像的模块，用于从所述档案中自动提取包含具有所述语义特征的对象的图像的模块，用于定义一组对象的模块，所述一组对象包括所述视频档案中出现的具有所述语义特征的所有对象，以及用于根据与所述摄像机网络覆盖的空间中的所述要识别的对象的路线有关的视觉和时空特征来度量所述要识别的对象与之前定义的组中的每个其他对象之间的相似性的模块。

优选地，用于相似形度量的模块包括：

-第一计算模块，其配置来评估所述要识别的对象的语义特征与从之前定义的组中的其他对象的图像中提取的语义特征之间的一致性，和/或，

-第二计算模块，其配置来评估所述要识别的对象的路线与之前定义的组中的另一个对象的路线之间的时空一致性，其中，所述另一个对象具有与所述要识别的对象的语义特征类似的语义特征。

根据本发明的方法在所述设备中通过记录在记录介质上的计算机程序来实现，当其在计算机上执行时适于识别视频档案中的对象，所述视频档案包括在摄像机网络中获得的许多图像，其中，所述计算机程序包括：用于执行对要识别的对象进行特征描述的阶段的指令和用于执行在所述档案中搜索所述对象的阶段的指令，其中，所述特征描述阶段包括为所述对象定义至少一个语义特征，所述语义特征能够从所述视频档案中被提取出来，即使与低分辨率图像有关，并且能够直接由操作员解释，其中，所述搜索阶段包括根据之前定义的语义特征从所述视频档案中过滤所述图像，从所述档案中自动提取包含具有所述语义特征的对象的图像，定义一组对象，所述一组对象包括所述视频档案中出现的具有所述语义特征的所有对象，以及根据视觉特征和所述摄像机网络覆盖的空间中的所述要识别的对象的时空路线上的约束来度量所述要识别的对象与之前定义的组中的每个其他对象之间的相似性。

附图说明

参考附图，本发明的其他特性和优点在下面的描述中将更清晰，该描述作为非限制性的实例而给出。

具体实施方式

本发明将在一特定应用的环境中被描述，其中考虑了现有的视频监视摄像机的扩展网络，例如城市交通网络或机场网络。我们采用对事件(攻击、盗窃、恐怖事件)之后的调查的特定环境的观察。

还可以预先假定多个目击证人给出了嫌疑人的描述。然后迅速地确定目标为找到事件的图像(如果任何图像存在的话)，以及发现摄像机网络所覆盖的区域内嫌疑人的完整路线，以便确定时空路线并识别他们。

传统的方式包括浏览由接近事件发生位置的摄像机和非常接近目击证人指示的位置的摄像机拍摄的图像，以便在视频摄制档案中识别该事件。

本发明建议的方式包括利用目击证人给出的描述来组织对嫌疑人的搜索，并且在优化对视频监视档案中的图像的搜索之前过滤数据。

为了达到这个目的，由目击证人给出的嫌疑人的描述被用来定义与嫌疑人有关的语义信息。从而，其可以例如是高的、非常瘦、穿着长款黑色外套并且带着墨镜，而且有胡须和长头发。根据本发明的方法能够使用一些这样的特征，并且它们能够被直接编入到系统中。

随后自动预处理存在于档案中的所有视频数据。这种预处理包括以下步骤：

-分析所有移动对象并跟踪他们，特别考虑堵塞和停止；

-侦查档案图像中的人；

-利用专用算法来表征每个被识别的人，该算法基于特定的输入，在输出端给出语义属性列表，并且对于每个属性给出信任度度量、概率度量和/或似然性度量。

在本发明的优选实施例中，可以通过由高斯混合模型化场景(其中背景是固定的)来实现移动检测，可以通过卡尔曼(Kalman)滤波器来实现跟踪，并且随后通过本地分析来完成，该本地分析例如利用SIFT或SURF类型的本地描述，或者可能更简单且更不常见的模型化形式，以便解决由堵塞导致的模糊性。

在这个实施例中，例如通过如下方式获取人员的检测：通过使用级联分类器技术(例如和Haar滤波器技术)来检测脸部，然后可能通过形体分析得出完整的身体轮廓，该形体分析可能需要基于学习技术来考虑自然规律系数或各个检测器。

用来表征每个人的专用算法是优选的，例如，能够指示某个个体具有长头发还是短头发、有没有胡须、是圆脸还是长脸、是矮胖的还是修长的轮廓等的分类器。

有利地针对被提取信息的每个要素给出响应可靠性的度量。这些特征描述(或从图像提取的描述符)可以直接被操作员解释并能够直接关联到在目击证人说明期间收集的语义信息。此外，即使对于低分辨率的图像也可以计算它们。实际上，没有必要使用与一张脸有关的由数百像素组成的宽度来确定一个人是否戴了眼镜。

在优选实施例中，利用下面描述的方法获取分类器：

-从与提取的极小特征相关的描述符中局部地提取图像(例如，为了确定一个人是否有胡须，考虑脸部检测模型的下半部)；这些描述符例如可以是颜色柱状图、梯度、表征纹理的空间分布特性、对滤波器(例如Gabor滤波器)的响应等；

-然后由机器学习来构造分类器，以便指出哪些脸具有“胡须”特征；一种可选的方法包括学习特定于这些特征的距离度量，并然后使用这些特定距离来确定与某些语义方面有关的的两张脸之间的接近度或区别。可靠性度量可以由分类器直接提供。也可以在事件之后模型化，例如，通过将之前的输出转换为概率。另外，考虑到档案图像的质量，还可能启用多个标准，以便确定极小特征中语义特征的评估是否可靠。因此，一张非常杂乱的图像，或者一张人工压缩后生成的高度失真的图像是非常难以分析的，在这种情况下，这种评估很自然地不太安全且不太可靠。

-当时空信息可用则启动要被链接的摄像机，这用来建立在不同摄像机中进行的观察之间的第一链接。

因此，如果各个摄像机的相对位置和查看领域的区域被获知，能够建立在不同摄像机中的移动之间的与时空相关的一致性；这点特别地使得通过了解移动速度，能够得出一个全局速度已经被测量的实体不会在某个时期之前出现在视频中，并且可能会在一预测时期附近出现。该时空一致性约束可以是二元的(同一时间一个人不会出现在两个地方)，或者含糊不清的(不确定的信任值，即较大或较小的概率)。利用这些约束，多个摄像机之间的观察可以彼此关联，且因此在数据库中的所有实体之间建立了或多或少的复杂和可靠的关系。

根据前述的这一点，由与在至少一个视频中看到的每个个体相关联的语义数据的数据库来表示视频监视档案。

构造语义数据库包括以下步骤：

-使用目击证人给出的描述。该描述包括语义特征，可能具有相关联的信任度度量，依赖于目击证人的记忆力以及声明的一致性；

-利用所述语义特征在数据库中应用滤波器，仅保留那些具有这些特征的个体，并排除没有这些特征的所有个体；

-所有具有相似外貌的个体以分层方式被编组；换句话说，基于相似性标准来对个体编组，为每个组以及每个子组建立该组的个体的共同特征描述。如果个体之间的相似性度量是基于语义标准，那么分层编组还可以被限定为语义。因此，不会仅仅由于他们彼此相像(两个个体穿着几乎相同的衣服)的事实而将两个图像编组，还因为他们具有一个或多个共同的描述信息元素(例如，两个个体有胡须并戴着墨镜)。有利地，数据库的结构可以是动态的。为了这个目的，只需要添加、删除或修改用于分层结构的语义标准以使其能够被更新，从而反映操作员的期望。因此，有可能限定关于肥胖的信息项目的可靠性，或者添加一条新的信息项目来考虑脸部形状以及是否戴了帽子。还可以想到的是，可以自动地向用户建议新的结构形式。

当数据库已经被构造，用户就能够根据个体以及他们的特征在数据库中高效地操作，并且不再根据摄像机和时间流逝。

当个体被指定时，相应的视频序列可以被浏览；这种指定使得可视的外貌能够被更精确地指定，其使得相似性度量能够被完成。此外，提供考虑了个体的位置的时空信息。因此，再次对之前过滤的数据库进行过滤，以排除采集位置和日期与该指定的个体的正常移动的时空约束不匹配的所有个体。

通过与移动有关的时空约束(由于距离可以被估计，所以能够计算出可能的速度，并定义最大速度)，根据语义要素、外貌特征以及这确实是指定的个体的概率的组合来对剩余的个体进行排序。接着，通过利用时空约束、语义属性和外貌标准来浏览档案，而不需要考虑摄像机的选择或数据的时间戳，用户能够浏览这个排序后的列表并能够采用非常高效且非常迅速的方式跟踪和反向跟踪(其包括及时返回)该被指定的个体。

附图描述了根据上述应用背景下的本发明的方法的主要步骤。

在T1阶段过程中，由摄像机网络4记录场景图像(步骤2)，所述摄像机网络包括地理上分布于被监视区域的多个摄像机。

在步骤6中，选择要在其中分析被记录的图像的时间范围。

在T2阶段过程中，被记录的图像中的个体被检测(步骤8)并生成该检测到的个体的小图像(步骤10)。

在T3阶段过程中，提取所述小图像的语义特征(步骤12)。其随后被编码和索引。

在步骤14中，具有一个或多个描述的共同信息项目的小图像被编组在一起。在步骤16中，生成具有图像的可视概要的文件，然后在步骤18中进行显示。

T4阶段描述了操作员20对在T1-T3阶段过程中构造的数据库的使用。

在步骤22中，操作员指定拍摄的事件的时间范围。

在步骤24中，操作员经由用户接口提供搜索个体的属性。系统显示(步骤26)从之前的步骤过程中已经生成的被构造的数据库中过滤的图像。

上面描述的特定实施例被应用于个体。可以将该概念更宽泛地应用于其他实体，例如交通工具。

Claims

1.一种用于识别视频档案中的对象的方法，所述视频档案包括在摄像机网络中获得的许多图像，所述方法的特征在于其包括：

对要识别的对象进行特征描述的阶段和在所述档案中搜索所述对象的阶段，其中，所述特征描述阶段包括为所述对象定义至少一个语义特征，所述语义特征能够从所述视频档案中被提取出来，即使对低分辨率的图像也是如此，并且所述语义特征能够直接由操作员解释，其中，所述搜索阶段包括根据之前定义的语义特征从所述视频档案中过滤所述图像，从所述档案中自动提取包含具有所述语义特征的对象的图像，定义一组对象，所述一组对象包括所述视频档案中出现的具有所述语义特征的所有对象，以及根据与所述摄像机网络覆盖的空间中的所述要识别的对象的路线有关的视觉和时空特征来度量所述要识别的对象与之前定义的组中的每个其他对象之间的相似性。

2.根据权利要求1所述的方法，其中，所述相似性的度量包括如下步骤：

-评估所述要识别的对象的语义特征与从所述之前定义的组中的其他对象的图像中提取的语义特征之间的一致性，和/或，

-评估所述要识别的对象的路线与所述之前定义的组中的另一个对象的路线之间的时空一致性，其中，所述另一个对象具有类似的语义特征，并且不具有与所述要识别的对象的特征不一致的任何特征。

3.根据权利要求2所述的方法，还包括如下步骤：

将概率系数分配给每一个相似性度量。

4.根据权利要求3所述的方法，还包括如下步骤：

合并相似性度量步骤的结果，以便定义单个统一的相似性度量，使得能够定义在所述要识别的对象的空间中的距离。

5.根据权利要求3所述的方法，还包括如下步骤：

通过所述距离，进行所述要识别的对象的空间的动态构造，以便能够利用分层树在所述视频档案中交互操作。

6.根据权利要求5所述的方法，其中，所述要识别的对象是人类。

7.根据权利要求6所述的方法，其中，所述人类的语义特征包括可视的身体特征。

8.根据权利要求6所述的方法，其中，所述人类的语义特征包括可视的服装配件。

9.一种用于识别视频档案中的对象的设备，所述视频档案包括在摄像机网络中获得的许多图像，所述设备的特征在于其包括：

特征描述模块，用于对要识别的对象进行特征描述；和搜索模块，用于在所述档案中搜索所述对象，其中，所述特征描述模块包括用于为所述对象定义至少一个语义特征的模块，所述语义特征能够从所述视频档案中被提取出来，即使对低分辨率的图像也是如此，并且所述语义特征能够直接由操作员解释，其中，所述搜索模块包括用于根据之前定义的语义特征从所述视频档案中过滤所述图像的模块，用于从所述档案中自动提取包含具有所述语义特征的对象的图像的模块，用于定义一组对象的模块，所述一组对象包括所述视频档案中出现的具有所述语义特征的所有对象，以及用于根据与所述摄像机网络覆盖的空间中的所述要识别的对象的路线有关的视觉和时空特征来度量所述要识别的对象与之前定义的组中的每个其他对象之间的相似性的模块。

10.根据权利要求9所述的设备，其中，所述用于度量相似性的模块包括：

-第一计算模块，其配置来评估所述要识别的对象的语义特征与从所述之前定义的组中的其他对象的图像中提取的语义特征之间的一致性，和/或，

-第二计算模块，其配置来评估所述要识别的对象的路线与所述之前定义的组中的另一个对象的路线之间的时空一致性，其中，所述另一个对象具有与所述要识别的对象的语义特征类似的语义特征。

11.一种记录在记录介质上的计算机程序，当其在计算机上执行时适于识别视频档案中的对象，所述视频档案包括在摄像机网络中获得的许多图像，其中，所述计算机程序的特征在于其包括：

用于执行对要识别的对象进行特征描述的阶段的指令和用于执行在所述档案中搜索所述对象的阶段的指令，其中，所述特征描述阶段包括为所述对象定义至少一个语义特征，所述语义特征能够从所述视频档案中被提取出来并且能够直接由操作员解释，其中，所述搜索阶段包括根据之前定义的语义特征从所述视频档案中过滤所述图像，从所述档案中自动提取包含具有所述语义特征的对象的图像，定义一组对象，所述一组对象包括所述视频档案中出现的具有所述语义特征的所有对象，以及根据视觉特征和所述摄像机网络覆盖的空间中的所述要识别的对象的时空路线上的约束来度量所述要识别的对象与之前定义的组中的每个其他对象之间的相似性。