CN109784130B

CN109784130B - 行人重识别方法及其装置和设备

Info

Publication number: CN109784130B
Application number: CN201711129237.XA
Authority: CN
Inventors: 韩颖婕
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2023-04-28
Anticipated expiration: 2037-11-15
Also published as: CN109784130A

Abstract

本发明涉及视频监控领域，公开了一种行人重识别方法及其装置。本发明中的行人重识别方法包括以下步骤：从第一视频的图像中提取待识别行人的与各人体部件对应的第一子图像；基于所述待识别行人的所述第一子图像和目标行人的各人体部件的第二子图像，识别所述第一视频的图像中的所述待识别行人是否为目标行人。本发明采用先检测监控视频图像中行人的各人体部件的图像再确定整个行人的图像特征的方式，克服了行人重识别中，行人检测漏检行人的缺点，并有效消除了背景对行人检测的影响，极大地提高了行人重识别的准确度。

Description

行人重识别方法及其装置和设备

技术领域

本发明涉及视频监控领域，特别涉及一种行人重识别方法及其装置和设备。

背景技术

在视频监控领域，很多时候需要在不同摄像头中找到同一个人，比如罪犯的行踪，在商场找到走丢的儿童或老人等。人脸识别是较为准确的一种视频识别技术，但它依赖于视频拍摄角度，只有正面人脸才能达到较高的识别率，而很多时候监控视频中是无法看到人脸的，可能只能看到背影或侧面或被帽子口罩遮档。不依赖于人脸识别技术，通过对人的整体特征来进行识别的技术被称为行人重识别技术(person reID)。但是因为行人重识别是对人的整体特征进行识别，不同摄像头采集到的行人的角度不同，识别难度大，因此识别准确率没有人脸识别高，该技术可以找到很多相似的人，可以用于跨摄像头视频检索的初选筛查。

在传统的行人重识别方法中，首先利用行人检测技术，得到人的边框(boundingbox)矩形图，然后再利用人的边框图来进行行人重识别。这种检测技术存在如下问题：

1)行人重识别的结果依赖于行人检测的结果，当存在遮挡的情况或人的姿态异常时，漏检严重，或者人的边框提取误差大，行人检测误检率高，这就导致后续的行人重识别困难。

2)人的边框图中除了包含人的肢体图像外，还包含背景图像，背景图像会对行人重识别产生干扰。某些背景相似的不同行人会被检测为同一个行人。

3)每个人都用边框图来描述，边框图是行人重识别的输入。但是人是3维的，边框图是人在当前摄像头视角下的一个2维图像，不足以描述一个人的全部特征。人的正面，背面，侧面有时相差很大，一个摄像头拍到的可能是人的正面，另一个摄像头拍到的可能是人的背面，通过2维边框图在这两个摄像头中找到同一个人，识别率低。

针对上述问题，目前有些技术使用深度图像进行行人重识别。对每一帧深度图像中的行人，进行骨架关节点提取，将每一帧深度图像中的每个行人姿态正规化为预定视角下的姿态，然后进行特征提取。基于所属特征进行目标识别。该技术为了进行视角变换的计算，必须使用深度图像。一般要获得深度图像，需要双目摄像头。而在大多数视频监控的应用中，使用的是单目摄像头，无法得到深度图像，故该方法不适用于现有的视频监控系统，实现成本很大。

发明内容

本发明的目的在于提供一种行人重识别方法及其装置和设备，可采用先检测监控视频图像中行人的各人体部件的图像再确定整个行人的图像特征的方式进行行人重识别，极大地提高了行人重识别的准确度。

为解决上述技术问题，本发明的实施方式公开了一种行人重识别方法，该方法包括以下步骤：

提取步骤，从第一视频的图像中提取待识别行人的与各人体部件对应的第一子图像；

识别步骤，基于待识别行人的第一子图像和目标行人的各人体部件的第二子图像，识别第一视频的图像中的待识别行人是否为目标行人；

其中，目标行人的各人体部件的第二子图像是从第二视频的图像中提取的，并且

第一视频和第二视频由不同的摄像头拍摄，或者第一视频和第二视频由同一摄像头在不同的时刻拍摄。

在一示范例中，上述识别步骤包括：

从第一子图像中选取至少一张形成待识别行人的第一识别图像，并将待识别行人的第一识别图像与目标行人的第二识别图像进行匹配，以确定待识别行人是否为目标行人；

其中，第二识别图像包含目标行人的至少一张人体部件的第二子图像，并且

第一识别图像至少包含一张第一子图像与第二识别图像中的至少一张第二子图像具有相同的部位属性和方向属性，方向属性包括正面属性、背面属性和中间属性。

在一示范例中，通过以下方式生成第一识别图像：

对第一视频中多帧相邻的图像，获取所述多帧相邻图像中的同一待识别行人的多张第一子图像，并计算来自不同帧图像的部位属性和方向属性均相同的第一子图像的平均子图像以生成第一描述图像；

对待识别行人的每个第一描述图像，判断是否具有与第一描述图像部位属性和方向属性均相同的第二描述图像对应；

如果判断结果为是，则将第一描述图像加入第一识别图像中；

其中，第二识别图像仅包含与加入第一识别图像的第一描述图像对应的第二描述图像，第二描述图像通过如下方式得到：

对第二视频中多帧相邻的图像，获取每帧图像中的目标行人的第二子图像，并计算来自不同帧图像的部位属性和方向属性均相同的第二子图像的平均子图像以生成第二描述图像。

在一示范例中，在第一识别图像中，具有相同方向属性的第一描述图像被拼接成待识别行人的该方向属性的人形图像；并且在第二识别图像中，具有相同方向属性的第二描述图像被拼接成待识别行人的该方向属性的人形图像；并且

对于部位属性相同的第一描述图像，具有中间属性的第一描述图像为具有正面属性的第一描述图像与具有背面属性的第一描述图像的平均图像；对于部位属性相同的第二描述图像，具有中间属性的第二描述图像为具有正面属性的第二描述图像与具有背面属性的第二描述图像的平均图像。

在一示范例中，通过以下方式生成第一识别图像：

对第一视频中的当前帧图像中待识别行人的每个第一子图像，判断是否存在与第一子图像的部位属性和方向属性均相同的第二描述图像对应；

如果判断结果为是，则将第一子图像作为第一描述图像加入第一识别图像中；

在一示范例中，通过以下方式追踪多帧相邻的图像中的同一行人：

提取多帧相邻的图像中的每帧图像中的行人的各关节的关节点坐标；

基于提取的关节点坐标计算每个关节的颜色直方图；

基于提取的颜色直方图，确定多帧相邻图像中的同一行人。

在一示范例中，人体部件包括肢体和躯干；并通过以下方式提取每帧视频图像中行人的各人体部件的子图像：

提取视频图像中行人各关节的关节点坐标；

基于提取的关节点坐标，确定视频图像中行人的各肢体和/或躯干的边界和方向属性，并基于确定的边界提取对应各肢体和/或躯干的子图像。

在一示范例中，肢体或者躯干的边界为以肢体或者躯干具有的关节的连线为中轴线的矩形。

本发明的实施方式还公开了一种行人重识别装置，该装置包括：

提取单元，用于从第一视频的图像中提取待识别行人的与各人体部件对应的第一子图像；

识别单元，用于基于待识别行人的第一子图像和目标行人的各人体部件的第二子图像，识别第一视频的图像中的待识别行人是否为目标行人；

在一示范例中，识别单元从第一子图像中选取至少一张形成待识别行人的第一识别图像，并将待识别行人的第一识别图像与目标行人的第二识别图像进行匹配，以确定待识别行人是否为目标行人；

在一示范例中，该装置还包括第一生成单元，该第一生成单元通过以下方式生成第一识别图像：

对第一视频中多帧相邻的图像，获取多帧相邻图像中同一待识别行人的多张第一子图像，并计算来自不同帧图像的部位属性和方向属性均相同的第一子图像的平均子图像以生成第一描述图像；对待识别行人的每个第一描述图像，判断是否具有与第一描述图像部位属性和方向属性均相同的第二描述图像对应；如果判断结果为是，则将第一描述图像加入第一识别图像中；

该第一生成单元通过以下方式生成第二识别图像：

对第二视频中多帧相邻的图像，获取每帧图像中的目标行人的第二子图像，并计算来自不同帧图像的部位属性和方向属性均相同的第二子图像的平均子图像以生成第二描述图像；将与加入第一识别图像的第一描述图像对应的第二描述图像加入第二识别图像中。

在一示范例中，该装置还包括第二生成单元，该第二生成单元通过以下方式生成第一识别图像：

对第一视频中的当前帧图像中待识别行人的每个第一子图像，判断是否存在与第一子图像的部位属性和方向属性均相同的第二描述图像对应；如果判断结果为是，则将第一子图像作为第一描述图像加入第一识别图像中；

该第二生成单元通过以下方式生成第二识别图像：

在一示范例中，该装置还包括跟踪单元，跟踪单元通过以下方式追踪多帧相邻的图像中的同一行人：

基于提取的关节点坐标计算每个关节的颜色直方图；

基于提取的颜色直方图，确定多帧相邻图像中的同一行人。

提取视频图像中行人各关节的关节点坐标；

本发明的实施方式还公开了一种设备，该设备包括存储有计算机可执行指令的存储器和处理器，处理器被配置为执行指令以实施行人重识别方法，行人重识别方法包括：

本发明实施方式与现有技术相比，主要区别及其效果在于：

采用先检测监控视频图像中行人的各人体部件的图像再确定整个行人的图像特征的方式进行行人重识别，克服了行人重识别中，行人检测漏检行人的缺点，并有效消除了背景对行人检测的影响，极大地提高了行人重识别的准确度。

进一步地，将部位属性和方向属性均相同的人体部件的子图像都加入识别图像中，无需深度图像，便能够得到去除了背景的行人的正面、背面和中间的三维描述图，从而更全面的描述行人特征，极大的提高行人重识别的准确性。

附图说明

图1是根据本发明第一实施方式的行人重识别方法的流程示意图。

图2是本发明中识别图像的组成形式图。

图3是根据本发明第三实施方式该行人重识别装置的结构示意图。

图4是本发明中行人的关节分布示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

本发明第一实施方式涉及一种行人重识别方法。图1是该行人重识别方法的流程示意图。

具体地，如图1所示，该行人重识别方法包括以下步骤：

提取步骤101，从第一视频的图像中提取待识别行人的与各人体部件对应的第一子图像。

可以理解，在本发明的各实施方式中，对于视频中的单帧图像，如果其中显示的行人的身体部件有多个，则从单帧图像提取的子图像有多个，即每张子图像对应一个部件。

可以理解，为了使得识别结果更准确，此处可以提取第一视频中的多帧图像的第一子图像。此外，人体部件可以是肢体和躯干，也可以以其他方式对人体进行划分，以提取第一子图像，在此不做限制。

此后进入步骤102。

在识别步骤102中，基于待识别行人的第一子图像和目标行人的各人体部件的第二子图像，识别第一视频的图像中的待识别行人是否为目标行人。其中，第二视频中目标行人的身份已知。目标行人的各人体部件的第二子图像是从第二视频的图像中提取的，并且第一视频和第二视频由不同的摄像头拍摄，或者第一视频和第二视频由同一摄像头在不同的时刻拍摄。

可以理解，此处可以将具有相同部位属性和方向属性的第一子图像和第二子图像进行逐个进行比对，综合各比对结果得到总的比对结果，从而确定待识别行人是否为目标行人。也可以分别将待识别行人的第一子图像和目标行人的第二子图像合并成人形状的第一识别图像和第二识别图像，将两张识别图像进行重识别，以确定待识别行人是否为目标行人。例如，待识别行人的第一子图像包括待识别行人的右上臂、右下臂、右小腿、右大腿、左上臂、左下臂、左小腿、左下臂和上半身的子图像，这些子图像有些是正面的，有些是背面，有些是行人侧对摄像头或者无法确定其面对摄像头的方向的中间图像。将这些子图像重新合并形成待识别行人的正面人形图像、背面人形图像和中间人形图像，并将正、背、中间人形图像三张合并在一张图像中得到具备行人的三维图像信息的第一识别图像。同理，可以得到目标行人的第二识别图像。最后，将两张识别图像进行比对，确定待识别行人是否为目标行人。

此后结束本流程。

可以理解，在本发明的中，各子图像具有部位属性和方向属性。部位属性是指子图像显示的是人体的哪个部位，方向属性是指子图像显示的部位是正面、背面还是介于两者之间的中间属性，即提取子图像的图像中行人是从正对摄像头的还是背对摄像头的，还是侧对或者无法确定是正对或者背对摄像头的。因此，方向属性包括正面属性、背面属性和中间属性。因此，正面属性是指子图像被提取的视频图像中的相应的行人是正对着摄像头；背面属性是子图像被提取的视频图像中的相应的行人是背对着摄像头；中间属性是指子图像被提取的视频图像中的相应的行人是侧对着摄像头或者无法确定是正对还是背对摄像头的。

此外，可以理解，当采用第一视频或者第二视频中的多张图像进行第一或者第二子图像的提取时，可以将具有相同部位属性和方向属性的多张子图像求平均得到其平均子图像，然后将平均子图像合并到第一或者第二识别图像中进行比对。对于中间属性的子图像，可以是将部位属性相同的正面子图像和背面子图像求平均得到平均子图像。

在一示范例中，人体部件包括肢体和躯干。并且，上述步骤101可以通过以下方式提取每帧视频图像中行人的各人体部件的子图像：

提取视频图像中行人各关节的关节点坐标；基于提取的关节点坐标，确定视频图像中行人的各肢体和/或躯干的边界和方向属性，并基于确定的边界提取对应各肢体和/或躯干的子图像。其中，肢体或者躯干的边界为以肢体或者躯干具有的关节的连线为中轴线的矩形。

此外，可以理解，此处的子图像提取方式适用于本发明中各种子图像的提取，例如第一子图像和第二子图像的提取。并且在本发明的其他实施方式中，子图像的边界也可以是其他形状，如椭圆形、圆形、规则多边形或者不规则多边形，其中与子图像对应的肢体或者躯干所具有的关节的关节点坐标位于这些图形的边(即边界)上。

在本发明的其他实施方式中，也可以采用别的方式确定子图像的方向属性，并不局限于根据关节点坐标确定，例如，根据行人图像来确定行人的方向属性，进而确定子图像的方向属性。

采用先检测监控视频图像中行人的各人体部件的图像再确定整个行人的图像特征的方式，克服了行人重识别中，行人检测漏检行人的缺点，并有效消除了背景对行人检测的影响，极大地提高了行人重识别的准确度。

本发明的第二实施方式涉及一种行人重识别方法。该实施方式是第一实施方式的一种具体应用方式，主要将每个行人的子图像合并成识别图像进行重识别，以确定两个视频中的行人是否为同一人。

具体地，在该实施方式中，上述识别步骤102包括：

第一识别图像至少包含一张第一子图像与第二识别图像中的至少一张第二子图像具有相同的部位属性和方向属性。

可以理解，在该实施方式中，可以设定应选取部件的数目，也可以将具有的相同部位的部件都选取。

此外，可以理解，部位属性和方向属性相同是指子图像中显示的部件和提取子图像的行人针对摄像头的朝向都是相同的。例如，如果有第一子图像和第二子图像均为行人右上臂的正面子图像，则认为这两张子图像的部位属性和方向属性均相同。

在一示范例中，为了提高分析的准确性，待识别行人的第一识别图像和目标行人的第二识别图像都是基于多帧图像生成的。即可以是从通过以下方式生成第一识别图像：

对第一视频中多帧相邻的图像，获取多帧相邻图像中同一待识别行人的多张第一子图像，并计算来自不同帧图像的部位属性和方向属性均相同的第一子图像的平均子图像以生成第一描述图像；对待识别行人的每个第一描述图像，判断是否具有与第一描述图像部位属性和方向属性均相同的第二描述图像对应；如果判断结果为是，则将第一描述图像加入第一识别图像中；其中，第二识别图像仅包含与加入第一识别图像的第一描述图像对应的第二描述图像，第二描述图像通过如下方式得到：

例如，在一具体的例子中，对第一视频中10帧相邻的图像P1-P10，提取每帧图像中的待识别行人A的与各身体部件对应的多张第一子图像(如每张图像可提取9张第一子图像(分别为右上臂、右下臂、右小腿、右大腿、左上臂、左下臂、左小腿、左下臂和上半身的第一子图像)，总共270张，其中正面、背面和中间属性的各90张)，然后求部位属性和方向属性均相同的第一子图像的平均图像以生成27张第一描述图像，即右上臂正面的、背面的和中间属性的3张第一描述图像，右下臂正面的、背面的和中间属性的3张第一描述图像，右小腿正面的、背面的和中间属性的3张第一描述图像，右大腿正面的、背面的和中间属性的3张第一描述图像，左上臂正面的、背面的和中间属性的3张第一描述图像，左下臂正面的、背面的和中间属性的3张第一描述图像，左小腿正面的、背面的和中间属性的3张第一描述图像，左下臂正面的、背面的和中间属性的3张第一描述图像，以及上半身的正面的、背面的和中间属性的3张第一描述图像。

对于上述描述图像，判断是否有对应的部位属性和方向属性均相同的第二描述图像对应，如果有，则将其加入第一识别图像中。例如，右小腿正面的第一描述图像具有对应的右小腿正面的第二描述图像，则将右小腿正面的第一描述图像加入第一识别图像中，将右小腿正面的第二描述图像加入第二识别图像中。

此外，可以理解，在上述方式中，优选地，加入识别图像的描述图像可以有如下形式：

在第一识别图像中，具有相同方向属性的第一描述图像被拼接成所述待识别行人的该方向属性的人形图像；并且在第二识别图像中，具有相同方向属性的第二描述图像被拼接成所述目标行人的该方向属性的人形图像例如，如图2所示，在每张识别图像中，行人的具有正面属性的描述图像被拼接，形成其正面的人形图像，背面的描述图像被拼接，形成其背面的人形图像，而中间属性的描述图像被拼接成非正面和侧面的人形图像。

此外，优选地，对于部位属性相同的第一描述图像，具有中间属性的第一描述图像为具有正面属性的第一描述图像与具有背面属性的第一描述图像的平均图像；对于部位属性相同的第二描述图像，具有中间属性的第二描述图像为具有正面属性的第二描述图像与具有背面属性的第二描述图像的平均图像。

可以理解，在本发明的各实施方式中，视频中相邻的图像可以是连续相邻的图像，如第1、2、3......N-1、N帧图像，也可以是间隔地相邻的图像，如第1、3......N-3、N帧图像，再次不做限制。

此外，在另一示范例中，为了提高分析的准确性和效率，目标行人的第二识别图像都是基于多帧图像生成的，而待识别行人的第一识别图像则基于当前需要识别的图像生成，即通过以下方式生成第一识别图像：

对第一视频中的当前帧图像中待识别行人的每个第一子图像，判断是否存在与第一子图像的部位属性和方向属性均相同的第二描述图像对应；如果判断结果为是，则将第一子图像作为第一描述图像加入第一识别图像中；其中，第二识别图像仅包含与加入第一识别图像的第一描述图像对应的第二描述图像，第二描述图像通过如下方式得到：

对第二视频中多帧相邻的图像，获取每帧图像中的目标行人的第二子图像，并计算来自不同帧图像的部位属性和方向属性均相同的第二子图像的平均子图像以生成第二描述图像。其中，当前帧是指当前需要识别的第一视频中的图像。

同样地，在该示范例中，在第一识别图像中，具有相同方向属性的第一子图像被拼接成待识别行人的该方向属性的人形图像；并且在第二识别图像中，具有相同方向属性的第二平均子图像被拼接成目标行人的该方向属性的人形图像。

此外，在本发明的其他类似实施方式中，也可以基于一帧或者两帧来自第二视频的图像确定目标行人的识别图像，在此处，采用的图像的数量不做限制，以实际需要为准。

此外，可以理解，在本发明的各实施方式中，通过以下方式追踪多帧相邻的图像中的同一行人：

提取多帧相邻的图像中的每帧图像中的行人的各关节的关节点坐标；基于提取的关节点坐标计算每个关节的颜色直方图；基于提取的颜色直方图，确定多帧相邻图像中的同一行人。

具体地，例如，在一实例中，视频的每一帧图像利用行人各关节的关节点坐标跟踪视频中的同一个行人。将第n帧中的每个人与第n-1帧中每个人做匹配。匹配的方法为：

1)计算第n帧和第n-1帧中每个人的各个关节点的颜色直方图。第n-1帧中第j个人第k个关节点局部区域(如大小为10*10的局部区域)的颜色直方图

第n帧中第i个人第k个关节点局部区域(如大小为10*10的局部区域)的颜色直方图

颜色直方图作为每个关节点的特征向量。所有关节点的特征向量构成每个人的特征向量。

2)将第n帧和第n-1帧中的人两两比较，即求每个人所有关节点的特征向量的欧式距离。距离最近的认为是同一个人。

距离计算公式为：

跟踪方法不限于此方法，其他利用关节点信息来进行跟踪的方法均可使用。

上述方式适用于第一视频的多帧图像中同一待识别行人的追踪和第二视频的多帧图像中目标行人的追踪。

此外，在本发明的其他实施方式中，还可以采用其他方式确定多帧视频中的同一个行人，在此不做限制，例如基于关节的纹理图确定，或者其他的行人追踪方法。

将部位属性和方向属性均相同的人体部件的子图像都加入识别图像中，无需深度图像，便能够得到行人正面、背面和中间去除了背景的三维描述图，从而更全面的描述行人特征，极大的提高行人重识别的准确性。

此外，可以理解，在本发明的其他实施方式中，也可以不将行人的正面、背面和中间属性的描述图像拼接成人形图像进行重识别，而是分别比较各描述图像，最后综合比较结果得到重识别结果。

本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现，指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的，易失性的或者非易失性的，固态的或者非固态的，固定的或者可更换的介质等等)。同样，存储器可以例如是可编程阵列逻辑(Programmable ArrayLogic，简称“PAL”)、随机存取存储器(Random Access Memory，简称“RAM”)、可编程只读存储器(Programmable Read Only Memory，简称“PROM”)、只读存储器(Read-Only Memory，简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM，简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc，简称“DVD”)等等。

本发明第三实施方式涉及一种行人重识别装置。图3是该行人重识别装置的结构示意图。

具体地，如图3所示，该行人重识别装置包括：

识别单元，用于基于待识别行人的第一子图像和目标行人的各人体部件的第二子图像，识别第一视频的图像中的待识别行人是否为目标行人。

可以理解，上述目标行人的各人体部件的第二子图像是从第二视频的图像中提取的，并且第一视频和第二视频由不同的摄像头拍摄，或者第一视频和第二视频由同一摄像头在不同的时刻拍摄。

此外，在一示范例中，人体部件包括肢体和躯干；并通过以下方式提取每帧视频图像中行人的各人体部件的子图像：

提取视频图像中行人各关节的关节点坐标；基于提取的关节点坐标，确定视频图像中行人的各肢体和/或躯干的边界和方向属性，并基于确定的边界提取对应各肢体和/或躯干的子图像。优选地，肢体或者躯干的边界为以肢体或者躯干具有的关节的连线为中轴线的矩形。

第一实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

本发明的第四实施方式涉及一种行人重识别装置。该实施方式是第三实施方式的一种具体应用方式，主要将每个行人的子图像合并成识别图像进行重识别，以确定两个视频中的行人是否为同一人。

具体的，识别单元从第一子图像中选取至少一张形成待识别行人的第一识别图像，并将待识别行人的第一识别图像与目标行人的第二识别图像进行匹配，以确定待识别行人是否为目标行人；其中，第二识别图像包含目标行人的至少一张人体部件的第二子图像，并且第一识别图像至少包含一张第一子图像与第二识别图像中的至少一张第二子图像具有相同的部位属性和方向属性，方向属性包括正面属性、背面属性和中间属性。

在一优选例中，该行人重识别装置还包括第一生成单元，该第一生成单元通过以下方式生成第一识别图像：

对第一视频中多帧相邻的图像，获取多帧图像中同一待识别行人的多张第一子图像，并计算来自不同帧图像的部位属性和方向属性均相同的第一子图像的平均子图像以生成第一描述图像；对待识别行人的每个第一描述图像，判断是否具有与第一描述图像部位属性和方向属性均相同的第二描述图像对应；如果判断结果为是，则将第一描述图像加入第一识别图像中；

该第一生成单元通过以下方式生成第二识别图像：

在另一优选例中，该行人重识别装置还包括第二生成单元，该第二生成单元通过以下方式生成第一识别图像：

该第二生成单元通过以下方式生成第二识别图像：

在另一优选例中，该行人重识别装置还包括跟踪单元，跟踪单元通过以下方式追踪多帧相邻的图像中的同一行人：

基于提取的关节点坐标计算每个关节的颜色直方图；

基于提取的颜色直方图，确定多帧相邻图像中的同一行人。

第二实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第二实施方式中。

将部位属性和方向属性均相同的人体部件的子图像都加入识别图像中，无需深度图像，便能够得到行人正面、背面和侧面的去除了背景的三维描述图，从而更全面的描述行人特征，极大的提高行人重识别的准确性。

本发明的第五实施方式还公开了一种设备，该设备包括存储有计算机可执行指令的存储器和处理器，处理器被配置为执行指令以实施行人重识别方法，行人重识别方法包括：

本专利采用关节点检测技术进行行人重识别，与行人检测相比，两者区别在于：

行人检测是，首先定义一个人的描述特征，然后在图像中寻找符合之前定义的人的描述特征的区域，把这个区域用矩形框框出来，就检测到了行人。

关节点检测是，首先定义一个关节点(比如左脚踝)的特征描述，然后在图像中找到哪一个点符合这个关节点的描述特征，那么这个点就是一个关节点。举例，一张图上如果检测到3个左脚踝，那么这张图上可能会有3个人。将一张图上所有关节点检测出来(比如脚踝，手腕，颈部等)，再判断哪些关节点属于同一个人，将属于同一个人的关节点连起来，得到一个人的关节点描述信息。

如上可以看出，本发明将关节点检测技术应用到行人重识别中，能有效避免行人漏检，提高重识别的准确性。

本发明的的第六实施方式涉及一种行人重识别方法。具体地，该行人重识别方法包括以下步骤：

1)提取第一视频的图像和第二视频的图像中行人关节的关节点坐标。该步骤的实现方式如下：

可参照文献“Realtime Multi-Person 2D Pose Estimation using PartAffinity Fields.”ZheCao.CVPR2017。使用该文献的深度神经网络模型，输入原始视频的单帧图像，得到该图像中每个人的关节点的坐标，关节点的分布如图4所示。第n帧图像中第i个人的第k个关节点的坐标可表示为

关节点提取方法不限于此方法，其他可以得到各个关节点坐标的方法均可使用。

2)对于第一视频或者第二视频中的多帧图像，通过下列跟踪方式，确定多帧图像中同一行人的位置。

视频的每一帧图像均利用上述关节点提取方法得到每个人的关节点坐标。将第n帧中的每个人与第n-1帧中每个人做匹配。匹配的方法为：

a)计算第n帧和第n-1帧中每个人的各个关节点的颜色直方图。第n-1帧中第j个人第k个关节点局部区域(如大小为10*10的局部区域)的颜色直方图

b)将第n帧和第n-1帧中的人两两比较，即求每个人所有关节点的特征向量的欧式距离。距离最近的认为是同一个人。

距离计算公式为：

正背面判断步骤的实现方法：

可以通过神经网络来实现，输入为个关节点的坐标，输出为3分类即正面属性，背面属性和中间属性。通过大量的标注了正背中间属性的图像样本来学习神经网络的参数。

正背面判断方法不限于此方法，其他利用关节点信息来进行正背面判断的方法均可使用。

3)利用上述跟踪方式，提取第一视频图像中的同一待识别行人的各人体部件的第一子图像并生成第一描述图像，并提取第二视频图像中的目标行人的各人体部件的第二子图像生成第二描述图像。

具体通过下列方式生成第一描述图像和第二描述图像：

a)每个人由9个人体部件组成，每个人体部件由相应的关节点组成。

人体部件包含：[右上臂：右1关节+右2关节]，[右下臂：右2关节+右3关节]，[右大腿：右4关节+右5关节]，[右小腿：右5关节+右6关节]，[左上臂：左1关节+左2关节]，[左下臂：左2关节+左3关节]，[左大腿：左4关节+左5关节]，[左小腿：左5关节+左6关节]，[上半身：右1关节+右4关节+左1关节+左4关节]。

b)计算单帧子图像。每一个人体部件包含3种方向属性的子图像：正面属性的子图像，背面属性的子图像和中间属性的子图像。

子图像的计算方法：通过关节点坐标的连线来确定人体部件的中轴线。比如右上臂的中轴线就是右1关节和右2关节的连线。以中轴线为对称轴，提取一定宽度的矩形作为人体部件的子图像。若当前帧在正背面判断步骤中判定为正面图像，则得到人体部件的单帧正面子图像；

若当前帧在正背面判断步骤中判定为背面图像，则得到人体部件的单帧背面子图像；

若当前帧在正背面判断步骤中判定为侧面图像或者无法判定是正面还是背面，则得到人体部件的单帧中间子图像。

c)计算多帧图像中同一行人的各描述图像。

因为人在摄像头中移动，不同视频帧可能采集到人的多角度的图像，有正面有背面。

从一个人进入摄像头到离开，某一人体部件的所有单帧正面子图像求平均得到该人体部件的正面的描述图像，所有单帧背面子图像求平均得到该人体部件的背面的描述图像，正面描述图像和背面描述图像求平均得到中间描述图像。

若不存在正面描述图像，则正面描述图像为空，中间描述图像即为背面描述图像。若不存在背面描述图像，则背面描述图像为空，中间描述图像即为正面描述图像。

3)通过掩码设置，生成第一识别图像和第二识别图像

掩码的作用是过滤掉未检测到的人体部件的描述图像，只使用待识别行人A和目标行人B均检测到的人体部件的描述图像作为行人重识别的输入。

对于每个人体部件k，掩码设置如下：

行人A和B的人体部件k的中间描述图(具有中间属性)均不为空，则将人体部件k的中间描述图像的掩码设为1，否则掩码为0。

行人A和B的人体部件k的正面图像均不为空,则将人体部件k的正面描述图像的掩码设为1，否则掩码为0。

行人A和B的人体部件k的背面描述图像均不为空,则将人体部件k的背面描述图像的掩码设为1，否则掩码为0。

描述图像与掩码相乘得到行人重识别的识别图像。例如，行人A和B均具有正面描述图时，才将两者的正面描述图分别加入第一和第二识别图像中。

4)对第一和第二识别图像进行比对或者匹配，实现行人重识别。

例如，具体的实现方法如下：

可以使用深度神经网络来实现。输入为行人A和行人B的第一和第二识别图像，输出为行人A和行人B的相似距离。

网络训练中使用的卷积神经网络可以为AlexNet(一种卷积神经网络)或者GoogleNet(一种卷积神经网络)。关于神经网络AlexNet，请参见论文：ImageNetClassification with Deep Convolutional Neural Networks(出处：https://papers.nips.cc/paper/4824-imagenet -classification-with-deep-convolutional-neural-networks.pdf)。关于神经网络，请参见论文：Going deeper with convolutions(出处：https://www.cs.unc.edu/～wliu/papers/GoogLeNet.pdf)。

此外，也可以采用其他的现有技术进行行人重识别，在此不做限制。

本发明的一个应用场景如下：

1〉王某(作为目标行人)进入摄像头A的拍摄区域，拍摄到王某正面及清晰人脸，通过人脸识别系统，确认该人为王某。通过本发明的上述各实施方式，可以计算得到王某的第二描述图像并存储，主要为具有正面属性的描述图像。

2〉王某离开摄像头A的拍摄区域，背面进入摄像头B的拍摄区域。该区域有门禁，需要指经脉识别开门。通过指静脉识别系统，识别出该人为王某。通过本发明的上述各实施方式，可以计算得到王某的第二描述图像并存储，主要为具有背面属性的描述图像。

3〉经过摄像头A和摄像头B后,已得到王某较为全面的正背面的三维的描述信息。

4〉在摄像头C中，未能拍到人脸，无法通过人脸识别进行跟踪。该区域内也没有其他身份认证系统。这时可以利用已得到的王某较为全面的正背面第二描述图像，通过本发明的上述各实施方式，获取摄像头C拍到的视频中各行人的第一描述图像，并通过行人重识别技术再次跟踪到目标王某。

本发明在应用时可以与其他可以进行身份认证的产品相结合来提高行人跨摄像头跟踪的准确性。其他可以进行身份认证的产品包括：人脸识别系统，指纹系统，指静脉系统等。

需要说明的是，本发明各设备实施方式中提到的各单元都是逻辑单元，在物理上，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现，这些逻辑单元本身的物理实现方式并不是最重要的，这些逻辑单元所实现的功能的组合才是解决本发明所提出的技术问题的关键。此外，为了突出本发明的创新部分，本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，这并不表明上述设备实施方式并不存在其它的单元。

需要说明的是，在本专利的权利要求和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本发明的某些优选实施方式，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种行人重识别方法，其特征在于，包括以下步骤：

识别步骤，基于所述待识别行人的所述第一子图像和目标行人的各人体部件的第二子图像，识别所述第一视频的图像中的所述待识别行人是否为目标行人；

其中，所述目标行人的各人体部件的第二子图像是从第二视频的图像中提取的，并且

所述第一视频和第二视频由不同的摄像头拍摄，或者所述第一视频和第二视频由同一摄像头在不同的时刻拍摄，

所述识别步骤包括：从所述第一子图像中选取至少一张形成所述待识别行人的第一识别图像，并将所述待识别行人的第一识别图像与目标行人的第二识别图像进行匹配，以确定所述待识别行人是否为目标行人；

其中，所述第二识别图像包含所述目标行人的至少一张人体部件的第二子图像，并且

所述第一识别图像至少包含一张第一子图像与所述第二识别图像中的至少一张第二子图像具有相同的部位属性和方向属性，所述方向属性包括正面属性、背面属性和中间属性，

通过以下方式生成所述第一识别图像：

对所述第一视频中多帧相邻的图像，获取所述多帧相邻图像中同一待识别行人的多张第一子图像，并计算来自不同帧图像的部位属性和方向属性均相同的所述第一子图像的平均子图像以生成第一描述图像；

对所述待识别行人的每个第一描述图像，判断是否具有与所述第一描述图像部位属性和方向属性均相同的第二描述图像对应；

如果判断结果为是，则将所述第一描述图像加入所述第一识别图像中；

其中，所述第二识别图像仅包含与加入所述第一识别图像的所述第一描述图像对应的第二描述图像，所述第二描述图像通过如下方式得到：

对所述第二视频中多帧相邻的图像，获取每帧图像中的目标行人的第二子图像，并计算来自不同帧图像的部位属性和方向属性均相同的第二子图像的平均子图像以生成第二描述图像。

2.根据权利要求1所述的行人重识别方法，其特征在于，在所述第一识别图像中，具有相同方向属性的第一描述图像被拼接成所述待识别行人的所述方向属性的人形图像；并且在所述第二识别图像中，具有相同方向属性的第二描述图像被拼接成所述目标行人的所述方向属性的人形图像；并且

3.根据权利要求1或2所述的行人重识别方法，其特征在于，通过以下方式追踪所述多帧相邻的图像中的同一行人：

提取所述多帧相邻的图像中的每帧图像中的行人的各关节的关节点坐标；

基于提取的所述关节点坐标计算每个所述关节的颜色直方图；

基于提取的所述颜色直方图，确定所述多帧相邻图像中的同一行人。

4.根据权利要求1或2所述的行人重识别方法，其特征在于，所述人体部件包括肢体和躯干；并通过以下方式提取每帧视频图像中行人的各人体部件的子图像：

提取所述视频图像中行人各关节的关节点坐标；

基于提取的所述关节点坐标，确定所述视频图像中行人的各肢体和/或躯干的边界和方向属性，并基于确定的所述边界提取对应各肢体和/或躯干的子图像。

5.根据权利要求4所述的行人重识别方法，其特征在于，所述肢体或者躯干的边界为以所述肢体或者躯干具有的关节的连线为中轴线的矩形。

6.一种行人重识别装置，其特征在于，包括：

识别单元，用于基于所述待识别行人的所述第一子图像和目标行人的各人体部件的第二子图像，识别所述第一视频的图像中的所述待识别行人是否为目标行人；

所述识别单元从所述第一子图像中选取至少一张形成所述待识别行人的第一识别图像，并将所述待识别行人的第一识别图像与目标行人的第二识别图像进行匹配，以确定所述待识别行人是否为目标行人；

还包括第一生成单元，该第一生成单元通过以下方式生成所述第一识别图像：

对所述第一视频中多帧相邻的图像，获取所述多帧相邻图像中同一待识别行人的多张第一子图像，并计算来自不同帧图像的部位属性和方向属性均相同的所述第一子图像的平均子图像以生成第一描述图像；对所述待识别行人的每个第一描述图像，判断是否具有与所述第一描述图像部位属性和方向属性均相同的第二描述图像对应；如果判断结果为是，则将所述第一描述图像加入所述第一识别图像中；

该第一生成单元通过以下方式生成第二识别图像：

对所述第二视频中多帧相邻的图像，获取每帧图像中的目标行人的第二子图像，并计算来自不同帧图像的部位属性和方向属性均相同的第二子图像的平均子图像以生成第二描述图像；将与加入所述第一识别图像的所述第一描述图像对应的第二描述图像加入所述第二识别图像中。

7.根据权利要求6所述的行人重识别装置，其特征在于，还包括跟踪单元，所述跟踪单元通过以下方式追踪所述多帧相邻的图像中的同一行人：

8.根据权利要求6或7所述的行人重识别装置，其特征在于，所述人体部件包括肢体和躯干；并通过以下方式提取每帧视频图像中行人的各人体部件的子图像：

提取所述视频图像中行人各关节的关节点坐标；

9.根据权利要求8所述的行人重识别装置，其特征在于，所述肢体或者躯干的边界为以所述肢体或者躯干具有的关节的连线为中轴线的矩形。

10.一种行人重识别设备，其特征在于，包括存储有计算机可执行指令的存储器和处理器，所述处理器被配置为执行所述指令以实施行人重识别方法，所述行人重识别方法包括：

通过以下方式生成所述第一识别图像：

11.一种行人重识别方法，其特征在于，包括以下步骤：

通过以下方式生成所述第一识别图像：

对第一视频中的当前帧图像中待识别行人的每个第一子图像，判断是否存在与所述第一子图像的部位属性和方向属性均相同的第二描述图像对应；

如果判断结果为是，则将所述第一子图像作为第一描述图像加入所述第一识别图像中；

12.根据权利要求11所述的行人重识别方法，其特征在于，在所述第一识别图像中，具有相同方向属性的第一描述图像被拼接成所述待识别行人的所述方向属性的人形图像；并且在所述第二识别图像中，具有相同方向属性的第二描述图像被拼接成所述目标行人的所述方向属性的人形图像；并且

13.根据权利要求11或12所述的行人重识别方法，其特征在于，通过以下方式追踪所述多帧相邻的图像中的同一行人：

14.根据权利要求11或12所述的行人重识别方法，其特征在于，所述人体部件包括肢体和躯干；并通过以下方式提取每帧视频图像中行人的各人体部件的子图像：

提取所述视频图像中行人各关节的关节点坐标；

15.根据权利要求14所述的行人重识别方法，其特征在于，所述肢体或者躯干的边界为以所述肢体或者躯干具有的关节的连线为中轴线的矩形。

16.一种行人重识别装置，其特征在于，包括：

还包括第二生成单元，该第二生成单元通过以下方式生成所述第一识别图像：

对第一视频中的当前帧图像中待识别行人的每个第一子图像，判断是否存在与所述第一子图像的部位属性和方向属性均相同的第二描述图像对应；如果判断结果为是，则将所述第一子图像作为第一描述图像加入所述第一识别图像中；

该第二生成单元通过以下方式生成所述第二识别图像：

17.根据权利要求16所述的行人重识别装置，其特征在于，还包括跟踪单元，所述跟踪单元通过以下方式追踪所述多帧相邻的图像中的同一行人：

18.根据权利要求16或17所述的行人重识别装置，其特征在于，所述人体部件包括肢体和躯干；并通过以下方式提取每帧视频图像中行人的各人体部件的子图像：

提取所述视频图像中行人各关节的关节点坐标；

19.根据权利要求18所述的行人重识别装置，其特征在于，所述肢体或者躯干的边界为以所述肢体或者躯干具有的关节的连线为中轴线的矩形。

20.一种行人重识别设备，其特征在于，包括存储有计算机可执行指令的存储器和处理器，所述处理器被配置为执行所述指令以实施行人重识别方法，所述行人重识别方法包括：

通过以下方式生成第一识别图像：

其中，第二识别图像仅包含与加入所述第一识别图像的所述第一描述图像对应的第二描述图像，所述第二描述图像通过如下方式得到：