CN110008787B

CN110008787B - 从视频中确定人的装置和方法以及搜索人的装置

Info

Publication number: CN110008787B
Application number: CN201810009238.9A
Authority: CN
Inventors: 谭诚; 黄耀海; 那森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-01-04
Filing date: 2018-01-04
Publication date: 2023-10-31
Anticipated expiration: 2038-01-04
Also published as: CN110008787A

Abstract

本发明公开一种从视频中确定人的装置和方法以及搜索人的装置。一种从视频中确定人的装置，所述装置包括：被构造为从输入视频中检测人的单元；被构造为通过检测检测到的人与输入的第一个人之间的动作来从所述检测到的人中确定第二个人的单元；以及被构造为基于检测到的动作更新所述第二个人的单元。其中，所述第一人是关注的人，所述第二人是与所述关注的人相关联的人。根据本发明，可提高人搜索的准确性。

Description

从视频中确定人的装置和方法以及搜索人的装置

技术领域

本发明涉及图像处理，尤其涉及例如从视频中确定人的装置和方法以及搜索人的装置。

背景技术

在人物视频和图像检索应用中，人搜索是重要的应用之一，诸如从案发现场的视频中搜索嫌疑人的目击者、从相关场景的视频中搜索失踪人的目击者等。其中，目击者是看到案发现场或者看到嫌疑人/失踪人的信息(例如，脸部信息、衣服信息)的人。以从案发现场的视频中搜索嫌疑人的目击者为例，由于嫌疑人总是通过背对相机来隐藏他/她的脸部，因此调查者通常需要从视频中找到相关联的目击者以从相关联的目击者获得嫌疑人的信息或案发现场的信息。通常，嫌疑人周围会有若干人，这些人可被视为候选目击者。因此，重要的任务是如何找到优质目击者(即，有用目击者)来获得嫌疑人的有用信息或案发现场的有用信息。

中国专利申请CN104794429A中公开了一种示例性的目击者搜索技术，所述技术主要包括：首先，对于输入视频的每一个视频帧，将该视频帧中与输入的嫌疑人同时出现的人确定为嫌疑人的目击者；然后，通过计算确定的目击者与嫌疑人在视频的所有视频帧中同时出现的频率来对确定的目击者进行排序。

以搜索案发现场的嫌疑人的目击者为例，通常，调查者寻找相关联的目击者的目的是获得关注的信息，诸如案发现场的信息或嫌疑人的信息。然而，在某些情况下，虽然目击者与嫌疑人同时出现，但是该目击者仍可能无法向调查者提供任何有用信息。其中，对应的情况例如包括：该目击者没有看到案发现场、该目击者没有看到嫌疑人或该目击者与嫌疑人之间没有任何互动等。因此，根据上述示例性技术，在仅使用同时出现的频率来对目击者进行排序的情况下，一些能够提供有用信息的目击者可能被排在后边，而一些不能提供有用信息的目击者可能被排在前边。也就是说，在仅使用同时出现的频率来对目击者进行排序的情况下，有用目击者可能被排在后边，这使得调查者不得不再次从确定的目击者中寻找有用目击者，甚至调查者不得不检查输入视频以判断排在前边的目击者是否为有用目击者。换言之，在仅使用同时出现的频率来对目击者进行排序的情况下，难以区分有用目击者与无用目击者，这将影响目击者搜索的准确性。

发明内容

因此，鉴于上面的背景技术中的记载，本发明旨在解决上述问题中的至少一点。

根据本发明的一个方面，提供一种从视频中确定人的装置，所述装置包括：检测单元，被构造为从输入视频中检测人；确定单元，被构造为通过检测检测到的人与输入的第一人之间的动作来从所述检测到的人中确定第二人；以及更新单元，被构造为基于检测到的动作更新所述第二人。其中，所述第一人是关注的人(例如，嫌疑人、失踪人)，所述第二人是与所述关注的人相关联的人(即，目击者)。

其中，对于所述检测到的人中的任何一者，所述检测到的动作例如包括该检测到的人与所述第一人之间的看到动作和/或该检测到的人与所述第一人之间的互动动作。例如，所述互动动作为交谈动作、握手动作、购买动作、打架动作等。

利用本发明，将提高人搜索的准确性。

根据以下参照附图的描述，本发明的其他特性特征和优点将显而易见。

附图说明

包含在说明书中并构成本说明书的一部分的附图例示本发明的实施例，并与文字描述一起用于解释本发明的原理。

图1示意性地示出案发现场的视频的示例性视频帧。

图2是示意性地示出可实现根据本发明实施例的技术的硬件结构的框图。

图3是例示根据本发明实施例的用于确定人的装置的结构的框图。

图4示意性地示出根据本发明实施例的用于确定人的流程图。

图5示意性地示出根据本发明实施例的如图4中所示的步骤S420的流程图。

图6示意性地示出根据本发明的人A的示例性可视区域和人B的示例性可视区域。

图7示意性地示出根据本发明的由相机1拍摄的示例性人S和由相机2拍摄的人D的示例性可视区域。

图8示意性地示出根据本发明实施例的如图4中所示的步骤S470的流程图。

图9示意性地示出根据本发明实施例的如图4中所示的步骤S470的另一流程图。

图10示意性地示出根据本发明实施例的如图4中所示的步骤S470的又一流程图。

图11是例示根据本发明实施例的用于搜索人的装置的结构的框图。

图12A至图12E示意性地示出根据本发明的任何两个人之间的目击动作的示例性信息。

图13示意性地示出根据本发明的示例性动作索引。

图14示意性地示出根据本发明的示例性搜索查询。

图15示意性地示出根据本发明的与图14中所示的搜索查询对应的示例性搜索结果。

具体实施方式

应注意，下面的描述实质上仅为说明性和示例性的，并且决不意图限制本发明及其应用或用途。除非另有具体说明，否则实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本发明的范围。另外，本领域技术人员已知的技术、方法和设备可能不会被详细地讨论，但在适当的情况下其应当是本说明书的一部分。

请注意，相似的附图标记和字母指代附图中相似的项目，因此，一旦一个项目在一个附图中被定义，则不必在下面的附图中对其进行讨论。

考虑到调查者寻找相关联的目击者的目的，发明人发现，看到关注的场景(例如，案发现场)或对关注的人有动作(例如，看到动作、互动动作)的目击者可提供关注的人(例如，案发现场中的嫌疑人)的更多有用信息。例如，如图1中所示，在案发现场的视频的一个视频帧中有四个人，其中人S为嫌疑人，人A至人C为目击者。可以看出，与人B和人C相比，由于人A对人S具有更好的视觉范围，因此人A为较优目击者(即，更有用目击者)。因而，与人B和人C相比，人A可提供人S的更多有用信息。

因此，在寻找相关联的目击者的处理过程中，发明人将目击者与关注的人之间的动作(下文中称为“目击动作”)考虑在内。一个目击者与关注的人之间的目击动作代表该目击者的一系列例如可指明或暗示该目击者看到关注的人所在的场景、看到关注的人或与关注的人有互动的行为。发明人认为，对于一个目击者，可通过使用该目击者与关注的人之间的目击动作判断该目击者是否可提供关注的人的有用信息。换言之，可通过使用目击者与关注的人之间的目击动作帮助提高区分有用目击者与无用目击者的能力。

对于一个目击者，该目击者与关注的人之间有多种类型的目击动作。例如，对应的目击动作为该目击者与关注的人之间的看到动作、该目击者与关注的人之间的互动动作、该目击者仅与关注的人同行的动作、该目击者仅从关注的人身边跑过的动作等。为了能够更有力地区分有用目击者与无用目击者，优选目击动作为看到动作和互动动作。其中，一个目击者与关注的人之间的看到动作代表该目击者看到关注的人一段时间。其中，一个目击者与关注的人之间的互动动作代表该目击者与关注的人在一段时间内有至少一个互动。例如，在该目击者与关注的人交谈的情况下，互动动作可被视为交谈动作。例如，在该目击者与关注的人握手的情况下，互动动作可被视为握手动作。例如，在该目击者从关注的人处购买东西的情况下，互动动作可被视为购买动作。例如，在该目击者与关注的人打架的情况下，互动动作可被视为打架动作。对于如何检测目击者与关注的人之间的对应的目击动作，下面将参照附图进行详细描述。

此外，发明人认为，可使用目击者与关注的人之间的目击动作来确定目击者可经由所述目击动作获得关注的人的信息的概率。发明人还认为，可使用确定的概率来对目击者进行排序。对于如何根据目击者与关注的人之间的目击动作确定对应的概率，下面将参照附图进行详细描述。

根据本发明，由于根据目击者可经由目击动作获得关注的人的信息的概率对所述目击者进行排序，因此能够提供有用信息的目击者将被排在前边，而不能提供有用信息的目击者将被排在后边。因此，通过使用对应的目击动作可有力地区分有用目击者与无用目击者。因此，根据本发明，可提高人搜索的准确性。

(硬件结构)

首先，将参照图2描述可实现下文中描述的技术的硬件结构。

硬件结构200例如包括中央处理单元(CPU)210、随机存取存储器(RAM)220、只读存储器(ROM)230、硬盘240、输入设备250、输出设备260、网络接口270和系统总线280。进一步地，硬件结构200可由诸如相机、个人数字助理(PDA)、移动电话、平板电脑、笔记本电脑、台式电脑或其他合适的电子设备来实现。

在一种实现方式中，根据本发明的人确定/搜索由硬件或固件构造并且用作硬件结构200的模块或组件。例如，将在下文参照图3详细描述的装置300和将在下文参照图11详细描述的装置1100用作硬件结构200的模块或组件。在另一种实现方式中，根据本发明的人确定/搜索由存储在ROM 230或硬盘240中且由CPU 210执行的软件构造。例如，将在下文参照图4详细描述的过程400用作存储在ROM 230或硬盘240中的程序。

CPU 210是任何合适的可编程控制设备(诸如，处理器)，并且可通过执行存储在ROM 230或硬盘240(诸如，存储器)中的各种应用程序来执行下文中要描述的各种功能。RAM220用于临时存储从ROM 230或硬盘240加载的程序或数据，并且也被用作CPU 210在其中执行各种过程(诸如，实施将在下文中参照图4至图10详细描述的技术)以及其他可用功能的空间。硬盘240存储多种信息，诸如，操作系统(OS)、各种应用、控制程序、图像/视频、检测器、跟踪器、动作索引、预定义加权值或参数等。

在一种实现方式中，输入设备250用于允许用户与硬件结构200交互。在一个实例中，用户可通过输入设备250输入图像/视频/搜索查询。在另一实例中，用户可通过输入设备250触发本发明的对应处理。此外，输入设备250可采用诸如按钮、键盘或触摸屏等各种形式。在另一种实现方式中，输入设备250用于接收从诸如数码相机、摄像机和/或网络摄像机等专门电子设备输出的图像/视频。

在一种实现方式中，输出设备260用于向用户显示处理结果(诸如，搜索结果)。并且，输出设备260可采用诸如阴极射线管(CRT)或液晶显示器等各种形式。

网络接口270提供用于将硬件结构200连接到网络的接口。例如，硬件结构200可经由网络接口270与经由网络连接的其他电子设备进行数据通信。另一种选择是，可以为硬件结构200提供无线接口以进行无线数据通信。系统总线280可以提供用于在CPU 210、RAM220、ROM 230、硬盘240、输入设备250、输出设备260和网络接口270等之间相互传输数据的数据传输路径。虽然被称为总线，但是系统总线280并不限于任何特定的数据传输技术。

上述硬件结构200仅是说明性的，并且决不意图限制本发明、其应用或用途。为了简明起见，在图2中只示出一个硬件结构。但是，根据需要也可使用多个硬件结构。

(人确定/搜索)

接下来，将参照图3至图15描述根据本发明的人确定/搜索。

图3是例示根据本发明实施例的用于确定人的装置300的结构的框图。其中，图3中所示的一些或全部模块可由专用硬件实现。如图3中所示，装置300包括检测单元310、确定单元320和更新单元330。

另外，图3中所述的存储设备340存储例如将由检测单元310使用的人检测器或分类器、将由确定单元320使用的检测器、将由更新单元330使用的预定义加权值或参数等。另一种选择是，上述检测器/分类器/数据可存储在不同的存储设备中。在一种实现方式中，存储设备340为图2中所示的ROM 230或硬盘240。在另一种实现方式中，存储设备340为经由网络(未示出)与装置300连接的服务器或外部存储设备。

在该实施例中，将以确定案发现场中的嫌疑人的目击者为例。然而，显然不必局限于此。首先，一方面，图2中所示的输入设备250接收从专门电子设备(例如，相机)输出或由调查者/警察输入的案发现场的视频。另一方面，输入设备250接收调查者/警察关注及输入的嫌疑人。也就是说，嫌疑人对调查者/警察而言是关注的人。接着，输入设备250经由系统总线280将接收到的视频和接收到的嫌疑人传输到装置300。

然后，如图3中所示，检测单元310获取接收到的视频(即，输入视频)并从接收到的视频中检测所有人。在一种实现方式中，检测单元310通过使用从存储设备340中获取的人检测器来检测人。

在检测到人之后，确定单元320获取接收到的嫌疑人(即，第一人)并且检测检测到的人与嫌疑人之间的目击动作。然后，确定单元320根据检测到的目击动作从检测到的人中确定目击者(即，第二人)。实际上，目击者是与嫌疑人(即，关注的人)相关联的人。在一种实现方式中，对于一个检测到的人，在检测到该检测到的人与嫌疑人之间的目击动作的情况下，确定单元320将该检测到的人确定为一个目击者。其中，如上所述，优选目击动作包括例如该检测到的人与嫌疑人之间的看到动作和/或该检测到的人与嫌疑人之间的互动动作。然而，显然不必局限于此。

在检测到目击动作并确定目击者之后，更新单元330基于目击动作更新目击者。在一种实现方式中，首先，对于每一个目击者，更新单元330计算与该目击者对应的目击动作的数量。然后，更新单元330基于所计算的数量对目击者进行排序。

考虑到目击者可经由不同的目击动作获得嫌疑人的不同信息，即不同的目击动作针对目击者具有不同的重要程度，因此，为了使最有用目击者能够尽可能地在前边，在另一种实现方式中，如图3中所示，更新单元330包括分数确定单元331和排序单元332。

一方面，对于每一个目击动作，分数确定单元331确定与该目击动作有关的概率，其中，与该目击动作有关的概率代表与该目击动作对应的目击者可经由该目击动作获得嫌疑人的信息的概率。另一方面，对于每一个目击者，分数确定单元331基于与跟该目击者对应的目击动作有关的概率确定该目击者的分数。然后，排序单元332基于第二人的分数对第二人进行排序。

更新目击者之后，更新单元330经由系统总线280将更新后的目击者传输到图2中所示的输出设备260，以向调查者/警察显示最终确定的目击者。

图4中所示的流程图400是图3中所示的装置300的对应过程。

如图4中所示，在检测步骤S410中，检测单元310从接收到的视频中检测M个人。其中，M是自然数并且代表从接收到的视频中检测到的人的总数。

另一种选择是，通常，恰好在案发地点的人对调查者/警察而言更重要，因此，为了增加整个处理的速度，作为替代操作，在步骤S410中，检测单元310从接收到的视频的一部分中检测人，其中基于与嫌疑人对应的关注地点(即，案发地点)和/或与嫌疑人对应的关注时间(即，案发时间))从接收到的视频中确定接收到的视频的所述部分。

在步骤S420中，对于第m人(例如，第一人)，其中，1≤m≤M，确定单元320检测第m人与接收到的嫌疑人之间的目击动作。如上所述，优选目击动作包括第m人与嫌疑人之间的看到动作和/或第m人与嫌疑人之间的互动动作。下文中，将对检测第m人与嫌疑人之间的对应的目击动作进行详细描述。

在下文中，将参照图5至图7对检测第m人与嫌疑人之间的看到动作进行详细描述。

图5中示出步骤S420的流程图。如图5中所示，在步骤S421中，确定单元320基于第m人的位置和姿势，确定第m人的可视区域。在一种实现方式中，如下确定第m人的可视区域。

首先，确定单元320从存储设备340中获取宽度和深度检测器及姿势检测器。并且，确定单元320通过使用宽度和深度检测器，检测第m人在接收到的视频中第m人所在的视频帧中的位置。确定单元320还通过使用姿势检测器，检测第m人在对应视频帧中的姿势。即，在用于拍摄与第m人对应的视频(即，第m人所在的视频)的相机的坐标空间中，检测第m人的位置和姿势。

然后，确定单元320基于检测到的位置和姿势绘制出第m人的可视区域。在本发明中，例如在用于拍摄与第m人对应的视频的相机的坐标空间中绘制出第m人的可视区域。在本发明中，可视区域例如被绘制为扇形区域，扇形区域的角度为预定义参数(例如，60度)，并且扇形区域的半径也为预定义参数(例如，10米)。然而，显然不必局限于此。例如，可视区域还可被绘制为环带扇形或梯形。

例如，如图6中所示，假设在一个视频帧中有三个人，其中人S为嫌疑人，人A和人B为从视频帧中检测到的人。在视频帧中检测到的人A的位置例如为(15，17)，这意味着人A的位置的宽度值为15，而人A的位置的深度值为17。在视频帧中检测到的人A的姿势例如用带箭头的线A表示。因此，如上所示，区域1(例如，扇形区域)例如是确定的人A的可视区域，其中区域1的角度例如为60度，区域1的半径例如为10米，而区域1的中线方向例如为人A的姿势的方向。此外，在视频帧中检测到的人B的位置例如为(16，14)。在视频帧中检测到的人B的姿势例如用带箭头的线B表示。因此，如上所述，区域2(例如，扇形区域)例如是确定的人B的可视区域，其中区域2的角度例如为60度，区域2的半径例如也为10米，而区域2的中线方向例如为人B的姿势的方向。

返回至图5，在步骤S422中，确定单元320判断嫌疑人是否在第m人的可视区域中。考虑到与嫌疑人对应的视频和与目击者对应的视频可能由同一相机或不同相机拍摄(即，接收到的视频可能由同一相机或不同相机拍摄)，一方面，在与嫌疑人对应的视频和与第m人对应的视频由同一相机拍摄的情况下，确定单元320通过直接判断嫌疑人的位置是否在第m人的可视区域中来判断嫌疑人是否在第m人的可视区域中。例如，通过使用宽度和深度检测器，在接收到的视频中嫌疑人所在的视频帧中检测嫌疑人的位置。此外，在嫌疑人在第m人的可视区域中的情况下，确定单元320判断第m人与嫌疑人之间有看到动作。否则，确定单元320判断第m人与嫌疑人之间没有看到动作。例如，如图6中所示，假设在对应视频帧中检测到的人S的位置为(11，14)，由于人S在区域1中而不在区域2中，因此，在人A与人S之间有看到动作而在人B与人S之间没有看到动作。

另一方面，在与嫌疑人对应的视频和与第m人对应的视频是由例如彼此相邻的不同相机拍摄的情况下，由于嫌疑人的坐标空间(即，用于拍摄与嫌疑人对应的视频的相机的坐标空间)与第m人的坐标空间(即，用于拍摄与第m人对应的视频的相机的坐标空间)不同，因此，在该情况下，为了将看到动作的检测从一个相机扩展到不只一个相机以便可以尽可能地检测到看到动作，确定单元320如下判断嫌疑人是否在第m人的可视区域中。其中，假设在图5中所示的步骤S421中，在用于拍摄与第m人对应的视频的相机的坐标区间中绘制出第m人的可视区域。

首先，确定单元320将嫌疑人的位置转换到第m人的坐标空间中。更具体而言，假设将用于拍摄与嫌疑人对应的视频的相机视为相机1并且将用于拍摄与第m人对应的视频的相机视为相机2，第一，获得相机1在监视空间的位置和相机2在监视空间的位置。在一个实例中，从预定义监视设置获得相机1的位置和相机2的位置。在另一实例中，通过使用宽度和深度检测器或全球定位系统(Global Positioning System，GPS)获得相机1的位置和相机2的位置。第二，基于相机1的位置和相机2的位置获得相机1投影到相机2的偏移。例如，假设相机1的位置为(宽度1，深度1)且相机2的位置为(宽度2，深度2)，通过以下公式(1)和公式(2)获得对应偏移：

偏移_宽度＝宽度1-宽度2...(1)

偏移_深度＝深度1-深度2...(2)

第三，基于对应偏移，将嫌疑人的位置从相机1的坐标空间转换到相机2的坐标空间(即，第m人的坐标空间)。例如，假设嫌疑人在相机1的坐标空间的位置为(宽度_相机1，深度_相机1，通过以下公式(3)和公式(4)确定嫌疑人在相机2的坐标空间的位置：

宽度_相机2＝宽度_相机1+偏移_宽度...(3)

深度_相机2＝深度_相机1+偏移_深度...(4)

然后，确定单元320判断嫌疑人转换后的位置(即，(宽度_相机2，深度_相机2))是否在第m人的可视区域中。在嫌疑人转换后的位置在第m人的可视区域中的情况下，确定单元320判断第m人与嫌疑人之间有看到动作。否则，确定单元320判断第m人与嫌疑人之间没有看到动作。

例如，如图7中所示，人S为对应的视频是由相机1拍摄的嫌疑人，人D为从相机2拍摄的一个视频帧中检测到的人。相机1在监视空间中的位置为(10，10)并且相机2在监视空间中的位置为(14，15)。人S在相机1的坐标空间中的位置为(3，3)并且人D在相机2的坐标空间中的位置为(2，2)。区域3(例如，扇形区域)例如是确定的人D的可视区域，其中区域3的角度例如为60度，区域3的半径例如为10米，而区域3的中线方向例如为人D的姿势的方向。因此，如上所述，相机1投影到相机2的对应偏移为偏移_宽度＝-4和偏移_深度＝-5。人S在相机2的坐标空间中的位置为(-1，-2)。由于人S在区域3中，因此在人D与人S之间有看到动作。

如上所述，在用于拍摄与第m人对应的视频的相机的坐标空间中绘制出第m人的可视区域。并且，将嫌疑人的位置也转换到用于拍摄与第m人对应的视频的相机的坐标空间中。然而，显然不必局限于此。例如，可在预定义空间中绘制出第m人的可视区域，并且也可将对应的位置(例如，嫌疑人的位置、第m人的位置)转换到该预定义空间中。然后，可在该预定义空间中检测嫌疑人与第m人之间的对应的看到动作。

在下文中，将对检测第m人与嫌疑人之间的互动动作进行详细描述。在一种实现方式中，确定单元320如下检测第m人与嫌疑人之间的互动动作。

首先，确定单元320从存储设备340中获取动作检测器。如上所述，互动动作例如包括交谈动作、握手动作、购买动作、打架动作等。因此，动作检测器例如包括交谈动作检测器、握手动作检测器、购买动作检测器、打架动作检测器等。并且，确定单元320通过使用动作检测器在接收到的视频中第m人所在的视频帧中检测第m人与嫌疑人之间的对应的互动动作。

然后，确定单元320基于动作检测器的检测结果，判断第m人与嫌疑人之间是否有某种互动动作。例如，在交谈动作检测器检测到第m人与嫌疑人曾交谈过的情况下，确定单元320判断第m人与嫌疑人之间有交谈动作。

返回至图4，在步骤S430中，确定单元320判断是否在步骤S420中检测到第m人与嫌疑人之间的任何目击动作。在步骤S420中未检测到目击动作的情况下，过程前进到步骤S450。否则，在步骤S420中检测到某些目击动作(诸如，看到动作和/或交谈动作)的情况下，在步骤S440中，确定单元320将第m人确定为一个目击者。

在步骤S450中，确定单元320判断从检测步骤S410中检测到的所有人是否都经过处理。即，确定单元320判断m是否大于M。在m大于M的情况下，过程前进到更新步骤S470。否则，在步骤S460中，确定单元320设置m＝m+1，并重复执行从步骤S420至步骤S460的对应的操作。

在确定所有目击者之后，在更新步骤S470中，更新单元330基于检测到的目击动作更新目击者。如上所述，为了使最有用目击者能够尽可能地在前边，在一种实现方式中，图8中示出更新步骤S470的流程图。

如图8中所示，在步骤S471中，对于从图4中所示的步骤S420中检测到的每一个目击动作，图3中所示的分数确定单元331确定与该目击动作有关的概率，其中，与该目击动作有关的概率代表与该目击动作对应的目击者可经由该目击动作获得嫌疑人的信息的概率。在本发明中，至少基于一个目击动作的持续时间、嫌疑人与跟该目击动作对应的目击者之间的距离及与该目击动作对应的预定义加权值来确定与该目击动作有关的概率。

对于一个目击者与嫌疑人之间的看到动作，一方面，在该看到动作的持续时间较长的情况下(意味着目击者看到嫌疑人的详细信息的概率更高)，与该看到动作有关的概率应更高。其中，该看到动作的持续时间为例如其中存在该看到动作的视频帧的经过时间。另一方面，在目击者与嫌疑人之间的距离较小的情况下(也意味着目击者看到嫌疑人的详细信息的概率更高)，与该看到动作有关的概率也应更高。其中，由于在整个看到动作期间目击者与嫌疑人之间的距离可能变化，因此目击者与嫌疑人之间的距离例如被视为整个看到动作期间目击者与嫌疑人之间的平均距离或最小距离。因此，例如通过以下公式(5)确定与该看到动作有关的概率：

其中，“概率(动作＝看到|目击者)”表示与一个目击者与嫌疑人之间的看到动作有关的概率，“看到_时间”表示看到动作的持续时间，“看到_距离”表示目击者与嫌疑人之间的距离，“λ_看到”表示归一化参数，“MIN(A，B)”表示用于从值A和值B算出最小值的函数。

例如，如图6中所示，对于人A，假设人A与人S之间的看到动作的持续时间为3秒钟，人A与人S之间的距离为5米，“λ_看到”预定义为2，因此，例如如下计算跟人A与人S之间的看到动作有关的概率：

对于人B，由于在人B与人S之间没有看到动作，因此，对应的概率为0。

对于一个目击者与嫌疑人之间的互动动作，以交谈动作为例，一方面，在该交谈动作的持续时间较长的情况下(意味着目击者知道嫌疑人的详细信息的概率更高)，与该交谈动作有关的概率应更高。其中，该交谈动作的持续时间为例如其中存在该交谈动作的视频帧的经过时间。另一方面，在目击者与嫌疑人之间的距离较小的情况下(也意味着目击者知道嫌疑人的详细信息的概率更高)，与该交谈动作有关的概率也应更高。其中，目击者与嫌疑人之间的距离例如被视为整个交谈动作期间目击者与嫌疑人之间的平均距离或最小距离。因此，例如通过以下公式(6)确定与该交谈动作有关的概率：

其中，“概率(动作＝交谈|目击者)”表示与一个目击者与嫌疑人之间的交谈动作有关的概率，“交_谈时间”表示交谈动作的持续时间，“交谈_距离”表示目击者与嫌疑人之间的距离，“λ_交谈”表示归一化参数，“权重(交谈)”表示与交谈动作对应的预定义加权值(即，一个互动动作的预定义加权值)。

例如，对于如图6中所示的人B，假设人B曾在其他场景中与人S交谈过，人B与人S之间的交谈动作的持续时间为2秒钟，人B与人S之间的距离为5米，“λ_交谈”预定义为2，“权重(交谈)”预定义为1，因此，例如如下计算与人B与人S之间的交谈动作有关的概率：

另外，如上所述，有多种类型的互动动作(例如，交谈动作、握手动作、购买动作、打架动作)，也可与交谈动作类似地确定与其他互动动作有关的概率。其中，由于不同的互动动作可对目击者可经由对应的互动动作获得嫌疑人信息的概率提供不同重要程度，因此，在本发明中，不同的加权值针对不同的互动动作预定义并且例如存储在图3中所示的存储设备340中。例如，示例性加权值如下：

然而，显然不必局限于此。另外，对于看到动作，可认为例如将与看到动作对应的加权值预定义为1。

返回至图8，在步骤S472中，对于从图4中所示的步骤S440中确定的每一个目击者，图3中所示的分数确定单元331基于与跟该目击者对应的目击动作有关的概率确定该目击者的分数。在一种实现方式中，对于一个目击者，该目击者的分数为与跟该目击者对应的目击动作有关的概率的和。例如，通过以下公式(7)确定一个目击者的分数：

分数(目击者)＝∑概率(动作_n|目击者)…(7)

其中，动作_n表示与目击者对应的第n个目击动作。其中，1≤n≤N，N是自然数并且代表与目击者对应的目击动作的总数。

另外，通常将从整个接收到的视频中检测若干目击动作，从而可确定若干目击者。在确定目击者的分数的处理过程中，为了使属于同一个人的目击者可被视为一个目击者，以便可在图8中所示的后续排序步骤S473中更准确地对目击者进行排序，在步骤S472的另一种实现方式中，对于任何两个目击者，首先，分数确定单元331通过使用跟踪方法、再鉴别(re-identification)方法、相似性检测方法中的至少一个判断这两个目击者是否属于同一个人。对于判断属于同一个人的目击者，分数确定单元331将这些目击者确定为同一目击者，并且将这些目击者与嫌疑人之间的目击动作视为与该同一目击者对应的目击动作。然后，对于一个经过上述处理的目击者，分数确定单元331将与跟该目击者对应的目击动作有关的概率的和确定为该目击者的分数。

返回至图8，在排序步骤S473中，排序单元332基于目击者的分数对目击者进行排序。

此外，通常在某些嫌疑人信息被较少目击者知道的情况下，这类信息对于调查者/警察而言更重要。由此，知道该类信息的目击者对调查者/警察而言将更重要，并且这些目击者与嫌疑人之间的目击动作也将更重要。因此，为了使与目击动作有关的概率能够反映该类目击动作的重要程度，以便在后续步骤中更重要的目击者可被确定有较高分数，作为替代实现方式，图9中示出图4种所示的更新步骤S470的另一流程图。

将图9与图8进行比较，主要差别在于更新步骤S470进一步包括步骤S4711。如图9中所示，在步骤S471中确定与目击动作有关的概率之后，在步骤S4711中，对于每一个确定的目击动作，图3中所示的分数确定单元331基于与该目击动作对应的出现频率，更新与该目击动作有关的概率。其中，与一个目击动作对应的出现频率代表在所有确定的目击动作中该目击动作的分布信息。

以一个看到动作为例，首先，分数确定单元331例如通过使用以下公式(8)确定与该看到动作对应的出现频率：

其中，“总数_看到动作”表示在所有确定的目击动作中看到动作的总数，“ω_看到动作”表示针对看到动作的预定义参数。其中，“ω_看到动作”通常预定义为1。

例如，假设在所有确定的目击动作中有5个看到动作，对于一个看到动作，例如如下计算与该看到动作对应的出现频率：

然后，分数确定单元331通过将与该看到动作对应的出现频率乘以在步骤S471中确定的与该看到动作有关的概率来更新与该看到动作有关的概率。即，例如如下更新与一个看到动作有关的概率：

概率(动作＝看到)＝概率(动作＝看到)*出现频率(看到动作)

本领域技术人员应理解，对于其他目击动作，更新与这些目击动作有关的概率的方式与以上更新与目击动作有关的概率的方式相似，此处将不再重复。

返回至图9，在步骤S4711中更新与目击动作有关的概率之后，在步骤S472中，将基于更新后的与目击动作有关的概率来确定目击者的分数。由于图9中所示的步骤S471、S472和S473与图8中所示的对应步骤的操作相似，因此此处将不再重复详细描述。

另一选择是，通常恰好在案发地点发生的目击动作和恰好在案发时间前后发生的目击动作对于调查者/警察而言更重要，这是因为对应的目击者可经由该类目击动作获得嫌疑人的更多有用信息。因此，为了使与目击动作有关的概率可反映该类目击动作的重要程度，以便在后续步骤中更重要的目击者可被确定有更高分数，作为替代操作，在步骤S4711中，对于每一个目击动作，图3中所示的分数确定单元331基于一个值更新与该目击动作有关的概率，该值是基于与嫌疑人对应的关注地点(即，案发地点)和/或与嫌疑人对应的关注时间(即，案发时间)确定的。

对于一个目击动作，在一种实现方式中，分数确定单元331如下更新与该目击动作有关的概率。

一方面，判断该目击动作是否发生在案发地点并且根据判断结果获得与地点对应的预定义加权值(例如，权重(地点))。在本发明中，不同的加权值针对不同地点预定义并且例如存储在图3中所示的存储设备340中。例如，示例性加权值如下：

然而，显然不必局限于此。

另一方面，基于案发时间和该目击动作发生的时间计算与时间对应的加权值(例如，权重(时间))。通常，案发时间与该目击动作发生的时间之间的时间间隔越长，目击动作的重要程度越低。因此，在一种实现方式中，例如通过以下公式(9)计算与时间对应的加权值：

其中，“目击动作的时间”表示一个目击动作发生的时间，“案发时间”表示案发时间，“ABS(A-B)”表示用于算出值A与值B之间的差值的绝对值的函数。

然后，基于与地点对应的加权值和与时间对应的加权值确定与案发现场对应的值(例如，值(案发现场))。并且，基于与案发现场对应的值更新与该目击动作有关的概率。

例如，通过将与地点对应的加权值乘以与时间对应的加权值来确定与案发现场对应的值。即，例如如下确定与案发现场对应的值：

值(案发现场)＝权重(地点)*权重(时间)

例如，通过将与案发现场对应的值乘以在步骤S471中确定的与该目击动作有关的概率来更新与该目击动作有关的概率。即，例如如下更新与该目击动作有关的概率：

概率(目击动作)＝概率(目击动作)*值(案发现场)

此外，调查者/警察通常希望找到可立即交谈的目击者。或者，调查者/警察通常希望找到所提供的嫌疑人信息更可信的目击者。因此，为了使调查者/警察最希望找到的目击者可被确定有较高分数，作为替代实现方式，图10中示出图4中所示的更新步骤S470的又一流程图。

将图10与图8进行比较，主要差别在于更新步骤S470进一步包括步骤S4722。如图10中所示，在步骤S472中确定目击者的分数之后，在步骤S4722中，对于每一个目击者，图3中所示的分数确定单元331基于一个值更新该目击者的分数，该值是基于该目击者的可用性和/或该目击者的可信性确定的。一个目击者的可用性代表该目击者当前是否可跟踪。在本发明中，通过使用跟踪器检测一个目击者的可用性。所述跟踪器例如存储在图3中所示的存储设备340中。例如，在一个目击者当前能够被跟踪到的情况下，该目击者可被视为可用性较高。在一个目击者当前不能被跟踪到的情况下，该目击者可被视为可用性较低。一个目击者的可信性代表该目击者是否可信。例如，在本发明中，一个目击者的角色被用于判断该目击者的可信性，其中，一个目击者的角色例如代表该目击者为大人、小孩、门卫等。在本发明中，通过使用角色分析器来检测一个目击者的角色。角色分析器例如存储在图3中所示的存储设备340中。例如，在一个目击者为大人的情况下，该目击者通常被视为可信性较高。而在一个目击者为小孩的情况下，该目击者通常被视为可信性较低。

对于一个目击者，假设使用可用性和可信性两者来更新该目击者的分数，在一种实现方式中，分数确定单元331如下更新对应的分数。

第一，检测该目击者的可用性和该目击者的可信性。

第二，根据检测到的可用性和检测到的可信性，获得与可用性对应的预定义加权值(例如，权重(可用性))和与可信性对应的预定义加权值(例如，权重(可信性))。在本发明中，不同的加权值针对不同的性质预定义并且例如存储在图3中所示的存储设备340中。例如，示例性加权值如下：

然而，显然不必局限于此。

第三，基于与可用性对应的加权值和与可信性对应的加权值，确定与所述性质对应的值(例如，值(性质))。并且，基于与所述性质对应的值更新该目击者的分数。

例如，通过将与可用性对应的加权值乘以与可信性对应的加权值，来确定与所述性质对应的值。即，例如如下确定与所述性质对应的值：

值(性质)＝权重(可用性)*权重(可信性)

例如，通过将与所述性质对应的值乘以在步骤S472中确定的该目击者的分数，更新该目击者的分数。即，例如如下更新该目击者的分数：

分数(目击者)＝分数(目击者)*值(性质)

对于本领域技术人员显而易见的是，在仅使用可用性或仅使用可信性来更新一个目击者的分数的情况下，将直接使用与该性质对应的加权值来更新对应的分数。返回至图10，在步骤S4722中更新目击者的分数之后，在步骤S473中，将基于更新后的分数对目击者进行排序。由于图10中所示的步骤S471、S472和S473与图8中所示的对应步骤的操作相似，因此此处将不再重复详细描述。

另外，如图9和图10中所述，在不同的流程中实现用于更新与目击动作有关的概率的操作(即，步骤S4711)和用于更新目击者的分数的操作(即，步骤S4722)。对于本领域技术人员显而易见的是，可在同一流程中实现这两个更新操作。

根据上述参照图3至图10的实施例，由于将目击者与嫌疑人之间的目击动作考虑在内并且由于也将目击者可经由目击动作获得嫌疑人的信息的概率考虑在内，因此可有力地区分有用目击者与无用目击者。因此，根据本发明，可提高人搜索的准确性。

在上述本发明实施例中，直接从输入视频的视频帧中确定(即搜索)与关注的人有关联的人。同时，根据本发明，为了提高搜索速度，也可从根据本发明确定的动作索引中搜索与关注的人相关联的人。图11是例示根据本发明实施例的用于搜索人的装置1100的结构的框图。其中，图11中所示的一些或全部模块可由专用硬件实现。如图11中所示，装置1100包括存储单元1110、确定单元1120和更新单元1130。

在该实施例中，也将以确定(即搜索)案发现场中的嫌疑人的目击者为例。然而，显然不必局限于此。

一方面，预先确定包括第一人列表和第二人列表的动作索引并将所述动作索引预先存储在存储设备1110中。其中，第一人列表和第二人列表基于从第二人列表中的人到第一人列表中的人的动作(即目击动作)彼此相关联。也就是说，在第一人列表中的人与第二人列表中的人之间有目击动作。其中，第一人列表中的人为接受目击动作的人，在下文中，例如将第一人列表视为“接受者列表”。其中，第二人列表中的人为发出目击动作的人，在下文中，例如将第二人列表视为“发出者列表”。在本发明中，嫌疑人与“接受者列表”中的人对应，而目击者与“发出者列表”中的人对应。

在一种实现方式中，为了减小人搜索的计算量，如下确定动作索引：

1)从输入视频(例如，样本视频)中检测人。由于对应的操作与上述图4中所示的检测步骤S410的操作相似，因此此处将不再重复详细描述。

2)检测任何两个检测到的人之间的目击动作。由于对应的操作与上述图4中所示的检测步骤S420的操作相似，因此此处将不再重复详细描述。

对于一个目击动作，有两个相关联的人：一个是发出目击动作的人(即，目击者、目击动作中的“发出者”)，另一个是接受目击动作的人(即，嫌疑人、目击动作中的“接受者”)。例如，图12A至图12E示意性地示出任何两个人之间的示例性目击动作信息。以图12B为例，可以看到在人B与人A之间有两个目击动作(即，动作2和动作3)。其中“人B-＞人A”表示对应的目击动作是从人B到人A。即，在该情况下，人B是目击动作中的“发出者”(即，目击者)，而人A是目击动作中的“接受者”(即，嫌疑人)。其中，“信息”表示对应的目击动作的信息，诸如，目击动作的类型(例如，看到动作、交谈动作等)、目击动作的持续时间、相关的两个人之间的距离等。

3)通过使用倒排索引方法，基于检测到的人和检测到的目击动作确定动作索引。也就是说，确定的动作索引为倒排索引。在本发明中，目击动作中的“接受者”将被用作倒排索引的关键字，而目击动作中的“发出者”将被用作倒排索引中与倒排索引的关键字有关的值数据。例如，基于图12A至图12E中所示的目击动作的信息，图13中示出示例性倒排索引(即，动作索引)。如图13中所示，“接受者列表”与倒排索引的关键字对应，而“发出者列表”与倒排索引的值数据对应。

另一方面，如图11中所示，首先，图2中所示的输入设备250接收调查者/警察关注及输入的嫌疑人。也就是说，嫌疑人为调查者/警察关注的人。接着，输入设备250经由系统总线280将接收到的嫌疑人传输到装置1100。

然后，确定单元1120从存储单元1110中获取动作索引，并基于接收到的嫌疑人从动作索引中确定目击者。更具体而言，首先，确定单元1120通过使用嫌疑人作为查询的人从动作索引的“接受者列表”中搜索人。换言之，从动作索引的“接受者列表”中搜索到的人即为嫌疑人。然后，确定单元1120基于搜索到的人从动作索引的“发出者列表”中获得目击者。

然后，如图11中所示，在确定对应的目击者之后，更新单元1130从动作索引的“发出者列表”中获取目击者与嫌疑人之间的目击动作的信息，并基于获取的目击动作的信息更新目击者。以图13中所示的动作索引为例，假设嫌疑人为人A，可从动作索引得知嫌疑人的目击者为人B和人C、在人A与人B之间有两个目击动作(即，动作2和动作3)及在人A与人C之间有两个目击动作(即，动作6和动作7)。此外，与图3中所示的更新单元330相似，为了使更有用目击者能够尽可能地在前边，更新单元1130还包括分数确定单元1131和排序单元1132。其中，分数确定单元1131基于目击者经由从目击者到嫌疑人的目击动作获得嫌疑人的信息的概率来确定目击者的分数。并且，排序单元1132基于目击者的分数对目击者进行排序。由于对应的操作与参考图8至图10所述的操作相似，因此此处将不再重复详细描述。

另外，为了使调查者/警察可更方便地将对应的信息输入到装置1110并且为了使调查者/警察可更方便地基于排序的目击者进行后续判断，图11中所示的装置1100还包括界面单元1140。界面单元1140设置嫌疑人的搜索信息并显示经排序单元1132排序的目击者以及与目击者对应的目击动作的代表性信息。换言之，界面单元1140在本发明中被用作用户界面(UI)。

一方面，调查者/警察经由界面单元1140设置嫌疑人的搜索信息。然后，界面单元1140将嫌疑人的搜索信息传输到图2中所示的输入设备250。在本发明中，嫌疑人的搜索信息被用作用于搜索对应的目击者的搜索查询。其中，嫌疑人的搜索信息包括例如嫌疑人的图像、案发地点、案发时间等。图14示意性地示出示例性搜索查询。例如，1410示出嫌疑人的图像。1420示出案发地点，例如，对应的地点为相机1可拍摄对应视频的地点。1430示出案发时间。

另一方面，除了向调查者/警察显示排序的目击者，为了使调查者/警察能够更方便地鉴别目击者，通过界面单元1140向调查者/警察显示目击者的脸部。此外，由于与目击者对应的目击动作也可辅助调查者/警察更方便地鉴别目击者，因此也通过界面单元1140向调查者/警察显示与目击者对应的目击动作的代表性信息。在一种实现方式中，对于一个目击者，界面单元1140如下确定并显示对应的代表性信息：

1)从该目击者与嫌疑人之间的目击动作中确定最重要的目击动作。在本发明中，例如，将有关概率最高的目击动作确定为最重要的目击动作。

2)直接将其中存在最重要的目击动作的视频帧确定为与该目击者对应的目击动作的代表性信息；或者将最重要的目击动作的示意图确定为与该目击者对应的目击动作的代表性信息。另外，还可通过界面单元1140向调查者/警察显示最重要的目击动作的详细信息，其中，所述详细信息例如包括该最重要的目击动作发生的地点、该最重要的目击动作发生的时间等。

以图14中所示的搜索查询为例，图15示意性地示出界面单元1140显示的与该搜索查询对应的示例性搜索结果。如图15中所示，有两个目击者，即人C和人B。以人C为例，人C的脸部在“脸部”列中显示，与人C对应的最重要的目击动作的示意图在“目击动作”列中显示，以及与人C对应的最重要的目击动作的详细信息在“详细信息”列中显示。

根据上述参照图11至图15的实施例，除了可提高人搜索的准确性，还可提高人搜索的速度，并且还可提高搜索互动的便利性。

上述所有单元都是用于实现本公开中所述的处理的示例性和/或优选模块。这些单元可以是硬件单元(诸如，现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(诸如，计算机可读程序)。以上没有详尽描述用于实现各步骤的单元。然而，当有执行某一过程的步骤的情况下，可以有用于实现该同一过程的对应的功能模块或单元(由硬件和/或软件实现)。描述的步骤和对应于这些步骤的单元的所有组合的技术方案均包括在本申请的公开内容中，只要它们所构成的技术方案是完整的、适用的即可。

可以以多种方式来实施本发明的方法和装置。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。除非另有具体说明，否则上述方法的步骤顺序仅旨在是说明性的，并且本发明的方法的步骤不局限于上述具体描述的顺序。此外，在一些实施例中，本发明还可以被实施为记录在记录介质中的程序，包括用于实现根据本发明的方法的机器可读指令。因此，本发明也涵盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已经通过示例详细展示了本发明的一些具体实施例，但是本领域的技术人员应该理解，上述示例仅旨在是说明性的，并不限制本发明的范围。本领域的技术人员应该理解，上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求约束。

Claims

1.一种从视频中确定人的装置，所述装置包括：

检测单元，被构造为从输入视频中检测人；

确定单元，被构造为通过检测检测到的人与输入的第一人之间的动作来从所述检测到的人中确定第二人；以及

更新单元，被构造为基于检测到的动作更新所述第二人；

其中，所述第一人是关注的人，所述第二人是与所述关注的人相关联的人，

其中，对于所述检测到的人中的任何一者，所述检测到的动作包括该检测到的人与所述第一人之间的看到动作和/或该检测到的人与所述第一人之间的互动动作。

2.根据权利要求1所述的装置，其中，对于所述检测到的人中的任何一者，在检测到该检测到的人与所述第一人之间的动作的情况下，所述确定单元将该检测到的人确定为所述第二人中的一者。

3.根据权利要求1所述的装置，其中，对于所述检测到的人中的任何一者，在所述第一人的位置在该检测到的人的可视区域中的情况下，检测到该检测到的人与所述第一人之间的看到动作；

其中，基于该检测到的人的位置和该检测到的人的姿势，确定该检测到的人的所述可视区域。

4.根据权利要求3所述的装置，其中，对于所述检测到的人中的任何一者，在与所述第一人对应的输入视频和与该检测到的人对应的输入视频是从不同相机获得的情况下，将所述第一人的位置转换到该检测到的人的坐标空间中，并且所述第一人转换后的位置用于判断是否在该检测到的人的所述可视区域中。

5.根据权利要求1所述的装置，其中，所述更新单元包括：

分数确定单元，被构造为基于所述第二人经由所述检测到的动作获得所述第一人的信息的概率，确定所述第二人的分数；以及

排序单元，被构造为基于所述第二人的所述分数对所述第二人进行排序。

6.根据权利要求5所述的装置，其中，对于所述检测到的动作中的任何一者，至少基于该检测到的动作的持续时间、所述第一人与跟该检测到的动作对应的所述第二人之间的距离及与该检测到的动作对应的预定义加权值，确定与该检测到的动作对应的所述第二人经由该检测到的动作获得所述第一人的信息的概率。

7.根据权利要求6所述的装置，其中，对于所述检测到的动作中的任何一者，基于与该检测到的动作对应的出现频率，更新与该检测到的动作对应的所述第二人经由该检测到的动作获得所述第一人的信息的概率；

其中，所述与该检测到的动作对应的出现频率代表所有所述检测到的动作中该检测到的动作的分布信息。

8.根据权利要求6所述的装置，其中，对于所述检测到的动作中的任何一者，基于一个值更新与该检测到的动作对应的所述第二人经由该检测到的动作获得所述第一人的信息的概率，所述值是基于与所述第一人对应的关注地点和/或与所述第一人对应的关注时间确定的。

9.根据权利要求5所述的装置，其中，对于任何两个所述第二人，所述分数确定单元通过使用跟踪方法、再鉴别方法和相似性检测方法中的至少一个判断这两个第二人是否属于同一个人；

其中，对于判断属于同一个人的第二人，所述分数确定单元将这些第二人视为同一个第二人，并且将这些第二人与所述第一人之间的检测到的动作视为与该同一第二人对应的检测到的动作。

10.根据权利要求5或权利要求9所述的装置，其中，对于所述第二人中的任何一者，所述分数确定单元基于一个值更新该第二人的分数，所述值是基于该第二人的可用性和/或该第二人的可信性确定的；

其中，所述该第二人的可用性代表该第二人当前是否可跟踪；

其中，所述该第二人的可信性代表该第二人是否可信。

11.根据权利要求1所述的装置，其中，所述检测单元从所述输入视频的一部分中检测人，其中，基于与所述第一人对应的关注地点和/或与所述第一人对应的关注时间，从所述输入视频中确定所述输入视频的所述部分。

12.一种从视频中确定人的方法，所述方法包括：

检测步骤，用于从输入视频中检测人；

确定步骤，用于通过检测检测到的人与输入的第一人之间的动作来从所述检测到的人中确定第二人；以及

更新步骤，用于基于检测到的动作更新所述第二人；

13.根据权利要求12所述的方法，其中，对于所述检测到的人中的任何一者，在所述第一人的位置在该检测到的人的可视区域中情况下，检测到该检测到的人与所述第一人之间的看到动作；

14.根据权利要求13所述的方法，其中，对于所述检测到的人中的任何一者，在与所述第一人对应的输入视频和与该检测到的人对应的输入视频是从不同相机获得的情况下，将所述第一人的位置转换到该检测到的人的坐标空间中，并且所述第一人转换后的位置用于判断是否在该检测到的人的所述可视区域中。

15.根据权利要求12所述的方法，其中，所述更新步骤包括：

分数确定步骤，用于基于所述第二人经由所述检测到的动作获得所述第一人的信息的概率，确定所述第二人的分数；以及

排序步骤，用于基于所述第二人的所述分数对所述第二人进行排序。

16.一种搜索人的装置，所述装置包括：

存储单元，被构造为存储包括第一人列表和第二人列表的动作索引，其中所述第一人列表和所述第二人列表基于从所述第二人列表中的人到所述第一人列表中的人的动作彼此相关联；

确定单元，被构造为基于所述第一人列表中的人和输入的第一人，从所述第二人列表中的人确定第二人；以及

更新单元，被构造为基于从所述第二人到所述第一人的动作，更新所述第二人；

17.根据权利要求16所述的装置，其中，如下确定所述动作索引：

从输入视频中检测人；

检测任何两个检测到的人之间的动作；

通过使用倒排索引方法，基于所述检测到的人和检测到的动作确定动作索引。

18.根据权利要求16所述的装置，其中，所述更新单元包括：

分数确定单元，被构造为基于所述第二人经由从所述第二人到所述第一人的所述动作获得所述第一人的信息的概率，确定所述第二人的分数；以及

19.根据权利要求16所述的装置，其中，所述装置还包括：

界面单元，被构造为设置所述第一人的搜索信息并显示由所述排序单元排序的所述第二人及与所述第二人对应的动作的代表性信息。