CN112446258A

CN112446258A - 行人重识别设备及方法

Info

Publication number: CN112446258A
Application number: CN201910823726.8A
Authority: CN
Inventors: 竹梦圆; 郭心语; 李安新; 陈岚; 山谷佳祐; 小岛诚也; 酒井俊树
Original assignee: NTT Korea Co Ltd
Current assignee: NTT Docomo Inc; NTT Korea Co Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2021-03-05
Also published as: JP2021039740A

Abstract

本公开提供行人重识别设备、方法和计算机存储介质。所述设备包括：行人检测单元，配置为在视频序列的各视频帧中进行行人检测；特征提取单元，配置为对于在视频帧中检测到的各个行人，提取其外观特征；以及行人识别单元，配置为将检测到的各个行人的外观特征与目标行人的目标外观特征匹配，并根据匹配结果从视频帧中识别目标行人，其中，所述目标行人的目标外观特征基于该目标行人的初始外观特征与新近外观特征生成。利用所述设备、方法和计算机存储介质，在行人姿态发生较大变化或者跨摄像头识别的场景下，提高了行人重识别的准确度。

Description

行人重识别设备及方法

技术领域

本公开涉及图像处理，并且具体涉及行人重识别设备、方法以及计算机存储介质。

背景技术

行人重识别是指通过对来源于多个视野交叠或非交叠的摄像机的图像或者视频序列进行分析以判断其中是否存在特定目标行人的技术。不同于普通的行人跟踪，行人重识别可以在跨不同的摄像头拍摄的图像或视频序列中识别出特定目标行人，以实现对特定目标行人的长期跟踪与监视，因此其在监控领域、刑侦工作等中有着非常大的应用前景。

目前，行人重识别通常是通过将图像或者视频序列中检测到的各个行人的特征与事先构建的目标行人库中已知目标行人的特征进行匹配，来判断检测到的行人是否对应于已知目标行人，其效果往往并不理想，主要原因在于：不同摄像头之间的拍摄角度、视野范围、光照条件等存在差异，从而导致同一行人在不同摄像头拍摄的图片中的姿态和外观可能相差很大；行人往往具有较强的移动性，因此其姿态和外观也会随时间发生一定程度的变化；事先构建的目标行人的特征单一，从而导致在同一行人的姿态和外观发生变化时，容易发生识别错误。

发明内容

根据本公开的一个方面，提供了一种行人重识别设备，包括：行人检测单元，配置为在视频序列的各视频帧中进行行人检测；特征提取单元，配置为对于在视频帧中检测到的各个行人，提取其外观特征；以及行人识别单元，配置为将检测到的各个行人的外观特征与目标行人的目标外观特征匹配，并根据匹配结果从视频帧中识别目标行人，其中，所述目标行人的目标外观特征基于该目标行人的初始外观特征与新近外观特征生成。

根据本公开的另一方面，提供了一种行人重识别设备，包括：处理器；以及存储器，在所述存储器中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：在视频序列的各视频帧中进行行人检测；对于在视频帧中检测到的各个行人，提取其外观特征；以及将检测到的各个行人的外观特征与目标行人的目标外观特征匹配，并根据匹配结果从视频帧中识别目标行人，其中，所述目标行人的目标外观特征基于该目标行人的初始外观特征与新近外观特征生成。

根据本公开的另一方面，提供了一种行人重识别方法，包括：在视频序列的各视频帧中进行行人检测；对于在视频帧中检测到的各个行人，提取其外观特征；以及将检测到的各个行人的外观特征与目标行人的目标外观特征匹配，并根据匹配结果从视频帧中识别目标行人，其中，所述目标行人的目标外观特征基于该目标行人的初始外观特征与新近外观特征生成，

根据本公开的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述的行人重识别方法。

根据本公开的上述方面的设备、方法和计算机存储介质，在行人姿态发生较大变化或者跨摄像头识别的场景下，提高了行人重识别的准确度。

附图说明

从下面结合附图对本公开实施例的详细描述中，本公开的这些和/或其它方面和优点将变得更加清楚并更容易理解，其中：

图1示出了根据目标行人的初始外观特征进行行人重识别时的示例性识别错误的情形。

图2示出了根据目标行人的新近外观特征进行行人重识别时的示例性识别错误的情形。

图3示出了根据本公开实施例的行人重识别设备的示例性结构框图。

图4示出了根据本公开实施例的行人重识别设备依据目标行人的目标外观特征进行行人重识别的示意图。

图5示出了用于实现本公开实施例的行人重识别设备的示例性计算设备的硬件框图。

图6示出了根据本公开实施例的行人重识别方法的示意性流程图。

图7(a)-图7(c)示出了根据对现有的以及本公开实施例的行人重识别方法的测试结果示意图。

具体实施方式

为了使本领域技术人员更好地理解本公开，下面结合附图和具体实施方式对本公开作进一步详细说明。

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

如前所述，目前的行人重识别通常是将图像或者视频序列中检测到的各个行人的特征与事先构建的目标行人库中已知目标行人的特征进行匹配，来判断检测到的行人是否对应于已知目标行人，然而，出于行人的姿态变化等各种原因，现有的行人重识别方法容易对行人做出错误的识别。特别是，在用于进行特征匹配的目标行人库中的特征单一的情形下，一旦同一行人的姿态和外观发生较大变化，就可能将其错误识别成另一行人，并且有可能会一直持续该识别错误。以下结合图1和图2描述行人重识别中可能出现的示例性行人识别错误的情形。

图1示出了根据目标行人的初始外观特征进行特征匹配时产生的示例性行人识别错误的情形。在该情形下，对于目标行人库中的目标行人，将其第一次出现时的特征作为该目标行人ID的初始外观特征存入到目标行人库，后续均与该目标行人的初始外观特征进行匹配。如图1中所示，在用视野重叠或非重叠的摄像头对同一行人拍摄的三张(连续或非连续)图片中，在第1张图片中初始地将其识别为ID1，并将其在第1张图片中的特征作为该目标行人ID1的初始外观特征以供后续进行匹配，然而，此后由于行人姿态、拍摄角度等发生了较大变化，在第2张图片中将其错误地识别为ID2，并且在第3张图片中同样地将其错误地识别为ID3。可见，在该情形下，用于进行匹配的目标行人的初始外观特征是固定的，无法很好地应对行人姿态、拍摄角度发生较大变化的情形。

图2示出了根据目标行人的新近外观特征进行特征匹配时产生的示例性行人识别错误的情形。在该情形下，对于目标行人，将其最近一次出现时的特征作为该目标行人ID的新近外观特征存入到目标行人库并删除该目标行人上一次出现时的特征，后续均与该目标行人的新近外观特征进行匹配。如图2中所示，在用视野重叠或非重叠的摄像头对同一行人拍摄的三张图片中，在第1张图片中将其识别为ID1，并且可以将该次出现时的特征作为目标行人ID1的新近外观特征，此后，由于行人重叠等各种原因，在第2张图片中将其错误地识别为ID2，并且将其该次出现时的特征作为目标行人ID2的新近外观特征以替换先前所存有的外观特征，从而导致在第3张图片中维持将目标行人ID1识别为ID2的错误结果。可见，在该情形下，虽然根据新近外观特征进行匹配可以在一定程度上应对行人姿态、拍摄角度等发生的变化，然而，一旦由于行人重叠等原因出现了识别错误，该错误识别的结果倾向于被维持下去而无法得到纠正。

针对上述情况，在本公开中综合考虑目标行人的初始外观特征和新近外观特征来构建目标行人的特征，以用于与检测到的行人的特征进行匹配，在行人姿态发生较大变化或者跨摄像头识别的场景下均能够提供足够精度的识别结果。

下面，将参照图3来描述根据本公开的实施例的行人重识别设备。图3示出了根据本公开实施例的行人重识别设备100的示例性结构框图。如图3所示，行人重识别设备100可以包括行人检测单元110、特征提取单元120以及行人识别单元130。以下对该行人重识别设备100的各单元的主要功能进行描述。

行人检测单元110可以在视频序列的各视频帧中进行行人检测。如上文中提到的，不同于普通的行人跟踪，根据本公开的行人重识别技术可以在跨不同的摄像头拍摄的图像或视频序列中识别出特定目标行人，以实现对特定目标行人的长期跟踪与监视。更明确地，该视频序列即需要从中识别是否存在目标行人的待分析视频序列，该视频序列与先前拍摄到目标行人并从中提取其初始或新近外观特征的视频帧可以是由不同的摄像头拍摄的，或者由同一摄像头在不同时刻拍摄的。

具体地，行人检测单元110所分析的视频序列可以包括一个或多个视频帧，各视频帧可以是由单个摄像头或多个视野重叠或非重叠的摄像头拍摄的连续或非连续的视频帧。行人检测单元110可以采用本领域中任何适当的图像检测技术从视频序列的各视频帧中检测行人，本公开对此不做限制。例如，行人检测单元110可以对每个视频帧进行前景分割、边缘提取、运动检测等处理，确定与出现在该视频帧中的各个行人相对应的各个子图像区域，例如，该视频帧的子图像区域可以用外接于检测到的行人的身体轮廓的矩形框来表示。又例如，行人检测单元110可以采用神经网络、支持向量机等机器学习方法，通过预先训练的行人检测分类器对每个视频帧进行行人检测，以确定该视频帧中出现的各个行人所在的位置。

特征提取单元120可以对于在视频帧中检测到的各个行人，提取其外观特征。在本公开中，外观特征可以包括颜色特征、纹理特征、形状特征和人脸特征等反映行人的外观形态的特征，本公开在此不做限定。上述各种特征的提取方法是本领域公知的，在此不予赘述。

行人识别单元130可以将检测到的各个行人的外观特征与目标行人的目标外观特征匹配，并根据匹配结果从视频帧中识别目标行人。具体地，行人识别单元130可以将检测到的各个行人的外观特征与目标行人的外观特征进行匹配，基于二者的相似度来确定在视频帧中检测到的行人是否对应该目标行人，从而进行行人重识别。可选的，目标行人的数量可以是多个，相应的，行人识别单元130可以将检测到的各个行人的外观特征分别与已构建的各个目标行人的外观特征进行匹配，基于二者的相似度来确定在视频帧中检测到的行人是否对应各个目标行人之中的某个目标行人，从而进行行人重识别。可以理解，目标行人的目标外观特征可以包含于预先构建的行人外观特征库中，该行人外观特征库可以存储在该行人重识别设备本地处，或者存储在该行人重识别设备可访问的服务器处。可替代地，目标行人的目标外观特征可以是在需要时从图片中生成的并从外部输入，而并非事先存储在行人外观特征库中。本公开不对目标行人的目标外观特征的存储或获取方式进行限制。

如前所述，在仅根据目标行人的初始外观特征进行识别时，无法很好地应对行人姿态、拍摄角度发生变化的情况，而在仅根据目标行人的新近外观特征进行识别时，一旦发生识别错误则很难得到纠正。在本公开中，目标行人的目标外观特征是基于该目标行人的初始外观特征与新近外观特征二者生成的，以使得所生成的特征能够充分反映出目标行人的固有外观特性及其外观和姿态变化，从而保证行人重识别的准确性。所述初始外观特征可以包括从包含该目标行人的初始视频帧中预先提取的外观特征，所述新近外观特征可以包括从包含该目标行人的新近视频帧中预先提取的外观特征。在本公开中，可以通过将目标行人的初始外观特征与新近外观特征融合，生成该目标行人的目标外观特征，以便将检测到的行人特征与之进行匹配。以下对行人识别单元130进行特征匹配时所依据的目标行人的目标外观特征进行描述。

根据本公开的一个实施例，可以基于预设的权重，将目标行人的初始外观特征与新近外观特征加权融合，作为该目标行人的目标外观特征。在本公开实施例中，可以采用各种方法基于预设的权重对目标行人的初始外观特征与新近外观特征加权融合，仅为了说明的完整性，以下描述两种示例性方法。

在一个示例中，首先，可以基于预设的权重，确定用于加权融合的该目标行人的初始视频帧和新近视频帧的数量。具体地，可以将目标行人的初始外观特征与新近外观特征二者在加权融合时所占的比重作为一项考虑因素，通过该预设的权重，来确定该目标行人的初始视频帧以及新近视频帧的相对数量。该预设的权重可以通过多种方式获得，例如可以采用经验值或者经机器学习得到，本公开对此不进行限制。然后，可以计算该目标行人在所确定数量的初始视频帧和新近视频帧中的各外观特征的加权平均值。具体地，可以采用如上所述的诸如颜色特征、纹理特征、形状特征和人脸特征提取方法，从所确定数量的视频帧中包含该目标行人的子图像区域中提取其外观特征，之后计算所提取到的各个外观特征的平均值，作为该目标行人的目标外观特征。作为一种示意性举例，在初始外观特征与新近外观特征的权重为0.3:0.7时，可以确定加权融合时所需的初始视频帧和新近视频帧的数量分别为3和7帧，并且将该目标行人在总共10张的视频帧中的外观特征的平均值作为该目标行人的目标外观特征。

在另一示例中，首先，可以获得预定数量的该目标行人的初始视频帧和新近视频帧，例如，可以获得该目标行人的5帧初始视频帧和5帧新近视频帧。然后，可以在加权融合时，对初始视频帧中和新近视频帧中所提取的外观特征赋予不同的权重，例如，在初始外观特征与新近外观特征的权重为0.8：0.2时，可以计算目标行人在5帧初始视频帧中的初始外观特征平均值的0.8倍与目标行人在5帧新近视频帧中的新近外观特征平均值的0.2倍之和，作为该目标行人的目标外观特征。

可以理解，上述实施例中的权重以及视频帧数量的举例均为示意性的，本公开可以基于预设的权重，根据实际的运算速度与精度要求，将该目标行人在任意数量的初始视频帧中的初始外观特征与在任意数量的新近视频帧中的新近外观特征加权融合。

根据本公开的另一实施例，可以通过将该目标行人的初始外观特征与新近外观特征级联，并对级联后的外观特征进行卷积操作，以将该初始外观特征与新近外观特征级联融合，作为该目标行人的目标外观特征。可以采用各种方法对目标行人的初始外观特征与新近外观特征级联融合，仅为了说明的完整性，以下描述一种示例性方法。首先，可以将初始外观特征与新近外观特征在通道维上进行级联。然后，可以对级联后的特征应用卷积操作，例如，1x1卷积层，以对级联后的特征进行融合，同时将级联后的特征维度压缩到至少与级联之前的维度相同，从而既能通过降维来减少计算量，又能融合各个通道的特征。

以上描述了本公开实施例的行人识别单元130进行行人重识别时所依据的目标行人的目标外观特征的示例，下面将具体描述该行人识别单元130的行人识别操作。如上所述，行人识别单元130可以将检测到的各个行人的外观特征与目标行人的目标外观特征进行匹配，基于二者的相似度从视频帧中识别出目标行人。具体地，行人识别单元130可以计算检测到的各个行人的外观特征与目标行人的目标外观特征之间的特征距离，诸如，曼哈顿距离、欧氏距离和巴氏距离等，并将其与预设阈值比较，以确定检测到的行人是否对应于该目标行人。可选的，目标行人的数量可以是多个，在该情形中，行人识别单元130可以对于检测到的行人，计算其与各个目标行人的各个特征距离，并将各个特征距离与预设阈值比较，从低于该预设阈值的特征距离之中确定最近特征距离，将该检测到的行人识别为最近特征距离所对应的目标行人。行人识别单元130可以根据该匹配结果，输出行人重识别结果，例如在检测到的行人对应于某一目标行人时，将检测到的行人与该目标行人的身份相关联，以及在检测到的行人无法与目标行人匹配时，为检测到的行人分配新的身份。

以下结合图4描述根据公开实施例的行人识别单元130基于目标行人的目标外观特征进行行人重识别的示例。如图4所示，左侧的第1张图片为目标行人ID1的初始视频帧，中间的第2张图片为该目标行人ID1的新近视频帧，从初始视频帧和新近视频帧中分别提取该目标行人ID1的初始外观特征和新近外观特征，并将其初始外观特征与新近外观特征融合，作为该目标行人ID1的目标外观特征，该目标外观特征不仅可以跟踪该行人最新的姿态和外观变化，还可以保留该行人的初始外观特性。此后，如图4中右侧的第3张图片所示，当该行人的姿态和外观发生较大变化时，仍然能够基于该目标外观特征准确地将该行人识别为ID1。

可选的，该行人重识别设备100还可以包括特征更新单元(未图示)。该特征更新单元可以根据行人识别单元130的识别结果，更新目标行人的目标外观特征。例如，当行人识别单元130确定在视频帧中检测到的行人对应于某一目标行人并且将检测到的行人与该目标行人的身份相关联时，该特征更新单元可以将该检测到的行人在该视频帧中的外观特征作为该目标行人的最新近外观特征，并通过融合该目标行人的初始外观特征和该最新近外观特征生成该目标行人的新的目标外观特征，或者该特征更新单元可以将最新近外观特征发送到维护目标行人的目标外观特征的一服务器，使得该服务器基于接收到的该最新近外观特征来更新目标行人的目标外观特征，从而使得所更新的特征能够时刻跟踪目标行人新近的姿态和外观变化。此外，当行人识别单元130确定在视频帧中检测到的行人无法与目标行人相匹配并为检测到的行人分配新的身份时，特征更新单元可以为该新的目标行人构建其目标外观特征以供后续的特征匹配。

如上文中所描述的，根据本公开实施例的行人重识别设备100利用目标行人的初始外观特征和新近外观特征进行目标行人的识别，从而可以有效跟踪目标行人新近的姿态和外观变化，并且可以基于目标行人的初始特征有效进行纠错，在行人姿态发生较大变化或者跨摄像头识别的场景下，提高了行人重识别的准确度。

上述实施方式的说明中使用的框图示出了以功能为单位的块。这些功能块(结构单元)通过硬件和/或软件的任意组合来实现。此外，各功能块的实现手段并不特别限定。即，各功能块可以通过在物理上和/或逻辑上相结合的一个装置来实现，也可以将在物理上和/或逻辑上相分离的两个以上装置直接地和/或间接地(例如通过有线和/或无线)连接从而通过上述多个装置来实现。

图5是示出用于实现本公开实施例的行人重识别设备的示例性计算设备的硬件框图。上述的行人重识别设备100可以作为在物理上包括处理器501、内存502、存储器503、通信装置504、输入装置505、输出装置506、总线507等的计算机装置来构成。

另外，在以下的说明中，“装置”这样的文字也可替换为电路、设备、单元等。行人重识别设备100的硬件结构可以包括一个或多个图中所示的各装置，也可以不包括部分装置。

例如，处理器501仅图示出一个，但也可以为多个处理器。此外，可以通过一个处理器来执行处理，也可以通过一个以上的处理器同时、依次、或采用其它方法来执行处理。另外，处理器501可以通过一个以上的芯片来安装。

行人重识别设备100中的各功能例如通过如下方式实现：通过将规定的软件(程序)读入到处理器501、内存502等硬件上，从而使处理器501进行运算，对由通信装置504进行的通信进行控制，并对内存502和存储器503中的数据的读出和/或写入进行控制。

处理器501例如使操作系统进行工作从而对计算机整体进行控制。处理器501可以由包括与周边装置的接口、控制装置、运算装置、寄存器等的中央处理器(CPU，CentralProcessing Unit)构成。例如，上述的行人检测单元110、特征提取单元120和行人识别单元130等可以通过处理器501实现。

此外，处理器501将程序(程序代码)、软件模块、数据等从存储器503和/或通信装置504读出到内存502，并根据它们执行各种处理。作为程序，可以采用使计算机执行在上述实施方式中说明的动作中的至少一部分的程序。

内存502是计算机可读取记录介质，例如可以由只读存储器(ROM，Read OnlyMemory)、可编程只读存储器(EPROM，Erasable Programmable ROM)、电可编程只读存储器(EEPROM，Electrically EPROM)、随机存取存储器(RAM，Random Access Memory)、其它适当的存储介质中的至少一个来构成。内存502也可以称为寄存器、高速缓存、主存储器(主存储装置)等。内存502可以保存用于实施本发明的一实施方式所涉及的行人重识别方法的可执行程序(程序代码)、软件模块等。

存储器503是计算机可读取记录介质，例如可以由软磁盘(flexible disk)、软(注册商标)盘(floppy disk)、磁光盘(例如，只读光盘(CD-ROM(Compact Disc ROM)等)、数字通用光盘、蓝光(Blu-ray，注册商标)光盘)、可移动磁盘、硬盘驱动器、智能卡、闪存设备(例如，卡、棒(stick)、密钥驱动器(key driver))、磁条、数据库、服务器、其它适当的存储介质中的至少一个来构成。存储器503也可以称为辅助存储装置。

通信装置504是用于通过有线和/或无线网络进行计算机间的通信的硬件(发送接收设备)，例如也称为网络设备、网络控制器、网卡、通信模块等。通信装置504为了实现例如频分双工(FDD，Frequency Division Duplex)和/或时分双工(TDD，Time DivisionDuplex)，可以包括高频开关、双工器、滤波器、频率合成器等。例如，可以通过通信装置504来接收待分析的视频序列。

输入装置505是接受来自外部的输入的输入设备(例如，键盘、鼠标、麦克风、开关、按钮、传感器等)。输出装置506是实施向外部的输出的输出设备(例如，显示器、扬声器、发光二极管(LED，Light Emitting Diode)灯等)。另外，输入装置505和输出装置506也可以为一体的结构(例如触控面板)。

此外，处理器501、内存502等各装置通过用于对信息进行通信的总线507连接。总线507可以由单一的总线构成，也可以由装置间不同的总线构成。

此外，行人重识别设备100可以包括微处理器、数字信号处理器(DSP，DigitalSignal Processor)、专用集成电路(ASIC，Application Specific Integrated Circuit)、可编程逻辑器件(PLD，Programmable Logic Device)、现场可编程门阵列(FPGA，FieldProgrammable Gate Array)等硬件，可以通过该硬件来实现各功能块的部分或全部。例如，处理器501可以通过这些硬件中的至少一个来安装。

下面，将参照图6来描述根据本公开的实施例的行人重识别方法的流程图。

如图6所示，在步骤S601，在视频序列的各视频帧中进行行人检测。如上文中提到的，不同于普通的行人跟踪，根据本公开的行人重识别技术可以在跨不同的摄像头拍摄的图像或视频序列中识别出特定目标行人，以实现对特定目标行人的长期跟踪与监视。该视频序列即需要从中识别是否存在目标行人的待分析视频序列，该视频序列与先前拍摄到目标行人并从中提取其初始或新近外观特征的视频帧可以是由不同的摄像头拍摄的，或者由同一摄像头在不同时刻拍摄的。该视频序列可以包括一个或多个视频帧，各视频帧可以是由单个摄像头或多个视野重叠或非重叠的摄像头拍摄的连续或非连续的视频帧。

该步骤中，可以采用本领域中任何适当的图像检测技术从视频序列的各视频帧中检测行人，本公开对此不做限制。例如，可以对每个视频帧进行前景分割、边缘提取、运动检测等处理，确定与出现在该视频帧中的各个行人相对应的各个子图像区域，例如，该视频帧的子图像区域可以用外接于检测到的行人的身体轮廓的矩形框来表示。又例如，可以采用神经网络、支持向量机等机器学习方法，通过预先训练的行人检测分类器对每个视频帧进行行人检测，以确定该视频帧中出现的各个行人所在的位置。

在步骤S602，对于在视频帧中检测到的各个行人，提取其外观特征。所述外观特征可以包括颜色特征、纹理特征、形状特征和人脸特征等反映行人的外观形态的特征，本公开在此不做限定。该步骤可以采用本领域公知的特征提取方法，提取检测到的各个行人的外观特征，在此不予赘述。

在步骤S603，将检测到的各个行人的外观特征与目标行人的目标外观特征匹配，并根据匹配结果从视频帧中识别目标行人。该步骤中，可以将检测到的各个行人的外观特征与目标行人的外观特征进行匹配，基于二者的相似度来确定在视频帧中检测到的行人是否对应该目标行人，从而进行行人重识别。可选的，目标行人的数量可以是多个，相应的，该步骤中可以将检测到的各个行人的外观特征分别与已构建的各个目标行人的外观特征进行匹配，基于二者的相似度来确定在视频帧中检测到的行人是否对应各个目标行人之中的某个目标行人，从而进行行人重识别。可以理解，目标行人的目标外观特征可以包含于预先构建的行人外观特征库中，该行人外观特征库可以存储在该行人重识别设备本地处，或者存储在该行人重识别设备可访问的服务器处。可替代地，目标行人的目标外观特征可以是在需要时从图片中生成的并从外部输入，而并非事先存储在行人外观特征库中。

该步骤中，进行特征匹配时所依据的目标行人的目标外观特征是基于该目标行人的初始外观特征与新近外观特征二者生成的，以使得所生成的特征能够充分反映出目标行人的固有外观特性及其外观和姿态变化，从而保证行人重识别的准确性。所述初始外观特征可以包括从包含该目标行人的初始视频帧中预先提取的外观特征，所述新近外观特征可以包括从包含该目标行人的新近视频帧中预先提取的外观特征。可以通过将目标行人的初始外观特征与新近外观特征融合，生成该目标行人的目标外观特征，以便将检测到的行人特征与之进行匹配。该步骤中进行特征匹配时所依据的目标行人的目标外观特征与以上针对行人重识别设备100的行人识别单元130所具体描述的相类似，以下仅对其进行简要的描述。

根据本公开的一个实施例，可以基于预设的权重，将目标行人的初始外观特征与新近外观特征加权融合，作为该目标行人的目标外观特征。在本公开实施例中，可以采用各种方法基于预设的权重对目标行人的初始外观特征与新近外观特征加权融合。在一个示例中，首先，可以基于预设的权重，确定用于加权融合的该目标行人的初始视频帧和新近视频帧的数量。然后，可以计算该目标行人在所确定数量的初始视频帧和新近视频帧中的各外观特征的加权平均值。在另一示例中，首先，可以获得预定数量的该目标行人的初始视频帧和新近视频帧。然后，可以在加权融合时，对初始视频帧中和新近视频帧中所提取的外观特征赋予不同的权重，通过加权平均得到该目标行人的目标外观特征。

根据本公开的另一实施例，可以通过将该目标行人的初始外观特征与新近外观特征级联，并对级联后的外观特征进行卷积操作，以将该初始外观特征与新近外观特征级联融合，作为该目标行人的目标外观特征。

继续回到步骤S603，下面将具体描述基于如上所述的目标外观特征进行行人重识别的具体操作。例如，可以计算检测到的各个行人的外观特征与目标行人的目标外观特征之间的特征距离，诸如，曼哈顿距离、欧氏距离和巴氏距离等，并将其与预设阈值比较，以确定检测到的行人是否对应于该目标行人。可选的，目标行人的数量可以是多个，在该情形中，可以对于检测到的行人，计算其与各个目标行人的各个特征距离，并将各个特征距离与预设阈值比较，从低于该预设阈值的特征距离之中确定最近特征距离，将该检测到的行人识别为最近特征距离所对应的目标行人。接下来，可以根据该匹配结果，输出行人重识别结果，例如在检测到的行人对应于某一目标行人时，将检测到的行人与该目标行人的身份相关联，以及在检测到的行人无法与目标行人匹配时，为检测到的行人分配新的身份。

可选的，该行人重识别方法还可以包括以下步骤：根据识别结果，更新目标行人的目标外观特征。例如，当如上所述的确定在视频帧中检测到的行人对应于某一目标行人并且将检测到的行人与该目标行人的身份相关联时，可以将该检测到的行人在该视频帧中的外观特征作为该目标行人的最新近外观特征，并通过融合该目标行人的初始外观特征和该最新近外观特征生成该目标行人的新的目标外观特征，从而使得所更新的特征能够时刻跟踪目标行人新近的姿态和外观变化。此外，当如上所述的确定在视频帧中检测到的行人无法与目标行人相匹配并为检测到的行人分配新的身份时，可以为该新的目标行人构建其目标外观特征以供后续的特征匹配。

如上文中所描述的，根据本公开实施例的行人重识别方法利用目标行人的初始外观特征和新近外观特征进行目标行人的识别，从而可以有效跟踪目标行人新近的姿态和外观变化，并且可以基于目标行人的初始特征有效进行纠错，在行人姿态发生较大变化或者跨摄像头识别的场景下，提高了行人重识别的准确度。

除了上述方法和设备以外，本公开的实施例还可以包括计算机可读存储介质，在所述计算机可读存储介质上存储了计算机程序指令，所述计算机程序指令可由处理器执行以使得所述处理器执行上述的行人重识别方法。

结果验证

在下文中，示出了对以下三种行人重识别方法进行验证的结果：(1)基于目标行人的初始外观特征的行人重识别；(2)基于目标行人的新近外观特征的行人重识别；(3)基于目标行人的目标外观特征的行人重识别。具体地，在该示例性验证中，预先构建包含多个目标行人的外观特征的目标行人库，并对待分析视频序列中的一个或多个视频帧进行行人检测，通过计算在视频帧中检测到的各个行人的外观特征与已构建的目标行人的外观特征的特征距离，从视频帧中识别目标行人。在该验证中，采用以下两个指标对利用上述三种行人重识别方法进行行人重识别的准确性进行评估：

Rank1：该指标表示将检测到的行人的外观特征与各目标行人的外观特征进行匹配后，各目标行人中识别结果最靠前的目标行人(即，特征距离最近的目标行人)恰好是正确结果的概率，其表达式为：

准确率：该指标表示同一行人在图像序列中保持同一ID的概率的平均值，其表达式为：

基于上述两项指标，对三种行人重识别方法的测试结果如表1所示。

表1

行人重识别方法	Rank1	准确率
			基于初始外观特征的行人重识别	92.4％	92.6％
基于新近外观特征的行人重识别	90.0％	92.9％
			基于目标外观特征的行人重识别	97.7％	97.9％

如表1所示，根据本公开的基于目标外观特征的行人重识别方法在两项指标上均取得最好结果。

此外，图7(a)-7(c)中示意性示出了采用上述三种行人重识别方法对行人进行重识别的结果示意图。具体地，图7(a)示出了基于目标行人的初始外观特征进行行人重识别的结果，其中以圈出的同一行人为例，由于拍摄角度和姿态的变化，该行人分别在不同的视频帧中被识别为P12和P7。图7(b)示出了基于目标行人的新近外观特征进行行人重识别的结果，其中以圈出的同一行人为例，该行人从P17错误地识别为了P15，此后该行人一直保持P15的错误识别结果而无法得到纠正。图7(c)示出了基于目标行人的目标外观特征的行人重识别的结果，由于目标行人的目标外观特征基于其初始外观特征和新近外观特征生成，在不同的拍摄角度和行人姿态下均得到了正确的识别结果。

可以看出，与仅基于目标行人的初始外观特征或新近外观特征进行行人重识别相比，本公开的基于目标外观特征的行人重识别方法在行人姿态发生较大变化或者跨摄像头识别的场景下，提高了行人重识别的准确度。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中使用的“根据”这样的记载，只要未在其它段落中明确记载，则并不意味着“仅根据”。换言之，“根据”这样的记载是指“仅根据”和“至少根据”这两者。

本说明书中使用的对使用“第一”、“第二”等名称的单元的任何参照，均非全面限定这些单元的数量或顺序。这些名称可以作为区别两个以上单元的便利方法而在本说明书中使用。因此，第一单元和第二单元的参照并不意味着仅可采用两个单元或者第一单元必须以若干形式占先于第二单元。

本说明书中使用的“判断(确定)(determining)”这样的用语有时包含多种多样的动作。例如，关于“判断(确定)”，可以将计算(calculating)、推算(computing)、处理(processing)、推导(deriving)、调查(investigating)、搜索(looking up)(例如表、数据库、或其它数据结构中的搜索)、确认(ascertaining)等视为是进行“判断(确定)”。此外，关于“判断(确定)”，也可以将接收(receiving)(例如接收信息)、发送(transmitting)(例如发送信息)、输入(input)、输出(output)、存取(accessing)(例如存取内存中的数据)等视为是进行“判断(确定)”。此外，关于“判断(确定)”，还可以将解决(resolving)、选择(selecting)、选定(choosing)、建立(establishing)、比较(comparing)等视为是进行“判断(确定)”。也就是说，关于“判断(确定)”，可以将若干动作视为是进行“判断(确定)”。

本说明书中使用的“连接的(connected)”、“结合的(coupled)”这样的用语或者它们的任何变形是指两个或两个以上单元间的直接的或间接的任何连接或结合，可以包括以下情况：在相互“连接”或“结合”的两个单元间，存在一个或一个以上的中间单元。单元间的结合或连接可以是物理上的，也可以是逻辑上的，或者还可以是两者的组合。例如，“连接”也可以替换为“接入”。在本说明书中使用时，可以认为两个单元是通过使用一个或一个以上的电线、线缆、和/或印刷电气连接，以及作为若干非限定性且非穷尽性的示例，通过使用具有射频区域、微波区域、和/或光(可见光及不可见光这两者)区域的波长的电磁能等，被相互“连接”或“结合”。

在本说明书或权利要求书中使用“包括(including)”、“包含(comprising)”、以及它们的变形时，这些用语与用语“具备”同样是开放式的。进一步地，在本说明书或权利要求书中使用的用语“或(or)”并非是异或。

本说明书中说明的各方式/实施方式可以单独使用，也可以组合使用，还可以在执行过程中进行切换来使用。此外，本说明书中说明的各方式/实施方式的处理步骤、序列、流程图等只要没有矛盾，就可以更换顺序。例如，关于本说明书中说明的方法，以示例性的顺序给出了各种各样的步骤单元，而并不限定于给出的特定顺序。

还需要指出的是，在本公开的设备和方法中，软件无论被称为软件、固件、中间件、微代码、硬件描述语言，还是以其它名称来称呼，都应宽泛地解释为是指命令、命令集、代码、代码段、程序代码、程序、子程序、软件模块、应用程序、软件应用程序、软件包、例程、子例程、对象、可执行文件、执行线程、步骤、功能等。

此外，软件、命令、信息等可以经由传输介质被发送或接收。例如，当使用有线技术(同轴电缆、光缆、双绞线、数字用户线路(DSL，Digital Subscriber Line)等)和/或无线技术(红外线、微波等)从网站、服务器、或其它远程资源发送软件时，这些有线技术和/或无线技术包括在传输介质的定义内。

以上对本发明进行了详细说明，但对于本领域技术人员而言，显然，本发明并非限定于本说明书中说明的实施方式。本发明在不脱离由权利要求书的记载所确定的本发明的宗旨和范围的前提下，可以作为修改和变更方式来实施。因此，本说明书的记载是以示例说明为目的，对本发明而言并非具有任何限制性的意义。

Claims

1.一种行人重识别设备，包括：

行人检测单元，配置为在视频序列的各视频帧中进行行人检测；

特征提取单元，配置为对于在视频帧中检测到的各个行人，提取其外观特征；以及

行人识别单元，配置为将检测到的各个行人的外观特征与目标行人的目标外观特征匹配，并根据匹配结果从视频帧中识别目标行人，

其中，所述目标行人的目标外观特征基于该目标行人的初始外观特征与新近外观特征生成。

2.根据权利要求1所述的设备，其中，所述初始外观特征包括从包含该目标行人的初始视频帧中预先提取的外观特征，所述新近外观特征包括从包含该目标行人的新近视频帧中预先提取的外观特征。

3.根据权利要求2所述的设备，其中，通过将所述目标行人的初始外观特征与新近外观特征融合，生成所述目标行人的目标外观特征。

4.根据权利要求3所述的设备，其中，基于预设的权重，将所述目标行人的初始外观特征与新近外观特征加权融合。

5.根据权利要求4所述的设备，其中，基于预设的权重，将所述目标行人的初始外观特征与新近外观特征加权融合包括：基于预设的权重，确定用于加权融合的该目标行人的初始视频帧和新近视频帧的数量，并计算该目标行人在所确定数量的初始视频帧和新近视频帧中的外观特征的加权平均值。

6.根据权利要求3所述的设备，其中，通过将所述目标行人的初始外观特征与新近外观特征级联，并对级联后的外观特征进行卷积操作，将所述初始外观特征与新近外观特征级联融合。

7.根据权利要求2所述的设备，其中，所述行人识别单元进一步配置为基于检测到的行人的外观特征与所述目标外观特征的相似度，确定在该视频帧中检测到的行人是否对应于目标行人。

8.根据权利要求7所述的设备，还包括：

特征更新单元，配置为当在该视频帧中检测到的行人对应于目标行人时，该将检测到的行人在视频帧中的外观特征作为该目标行人的最新近外观特征。

9.根据权利要求2所述的设备，其中，所述视频序列与从中提取目标行人的目标外观特征的初始视频帧和新近视频帧是由不同的摄像头拍摄的，或者是由同一摄像头在不同的时刻拍摄的。

10.一种行人重识别设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：

在视频序列的各视频帧中进行行人检测；

对于在视频帧中检测到的各个行人，提取其外观特征；以及

将检测到的各个行人的外观特征与目标行人的目标外观特征匹配，并根据匹配结果从视频帧中识别目标行人，