CN111783736A

CN111783736A - 一种基于人体语义对齐的行人重识别方法、装置和系统

Info

Publication number: CN111783736A
Application number: CN202010716215.9A
Authority: CN
Inventors: 邵汉阳; 黄惠南; 樊治国
Original assignee: Shanghai Gaozhong Information Technology Co ltd
Current assignee: Shanghai Gaozhong Information Technology Co ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-10-16

Abstract

本发明公开了一种基于人体语义对齐的行人重识别方法，涉及视频监控技术领域，所述方法包括：获取来自一图片数据集的第一图片信息；建立基础神经网络，提取所述第一图片信息中的特征并输出为特征图；提取所述特征图中的全局特征向量和若干局部区域特征向量；构建包括三元损失函数、交叉熵分类损失函数和语义对齐损失函数的联合损失函数，对所述基础神经网络进行调整，使得输出的所述全局语义特征向量含有所述若干局部区域特征向量的信息，完成深度卷积神经网络模型的建立，其中，所述语义对齐损失函数对所述全局特征向量和所述若干局部区域特征向量进行语义对齐损失计算。

Description

一种基于人体语义对齐的行人重识别方法、装置和系统

技术领域

本发明涉及视频监控技术领域，尤其涉及一种基于人体语义对齐的行人重识别方法、装置和系统。

背景技术

行人重识别技术是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的一种技术。可以把行人重识别技术认为是一个图像检索的子问题，常应用于对人体的跨镜追踪。跨镜追踪是指在非交叉的摄像设备(如监控摄像头、手机摄像头等)下将多人(最多可能到几千人)的活动场景拍摄下来作为数据库，再输入一个需要检索的行人图像，从而检索数据库中所有可能存在的该行人的图像。行人重识别技术是视频安全监控领域的核心技术，可以完成行人识别、定位和活动轨迹等重要应用。

近年来，随着对行人重识别研究的深入，利用深度神经网络(DCNN)的方法进行行人重识别取得较好的效果。这些方法主要分成两类：第一类是提取人体的整体语义特征；第二类是先对人体进行横向或者竖向分割，提取多个局部语义特征后再进行识别。第二类方法认为人体中某些具有辨识度的局部区域可以较好完成行人识别。

上述两种方法均能取得一定的效果，但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述两种方法至少存在如下技术问题：在实际场景中应用上述技术方案进行行人重识别的过程中，大量存在的人体相互遮挡使得上述两种方法的应用效果很差。上述两种方法所提供的技术方案并没有考虑到在实际遮挡情况下相同的人体图像会因为遮挡而不同，从而导致人体图像在空间语义不对齐，进而影响到行人重识别的鲁棒性和有效性。

因此，本领域的技术人员致力于开发一种基于人体语义对齐的行人重识别方法、装置和系统，解决在行人重识别中由于人体遮挡严重所导致的应用效果差的问题。

发明内容

本申请实施例通过提供一种基于人体语义对齐的行人重识别方法、装置和系统，解决了现有技术中人体遮挡所导致的语义不对齐问题，使得因为人体遮挡所导致的语义不对齐问题对行人重识别的影响减少，行人重识别方法在各数据集上的平均检索精度得到提高。

在人体遮挡严重和姿态视角变形大的情况下，现有的技术方案中存在的无法对行人进行识别或识别不准确的问题，其背后的原因是检索中对不同人体图像进行比对时，存在在空间上语义不对齐，进而影响到行人重识别的鲁棒性和有效性。

人体语义对齐技术，指的是针对两张进行匹配的行人图片，图片上相同的空间位置对应的内容的语义应该保持一致，比如头部对应头部。如果相同的空间位置上一张图片的头部对应另一张图片的肩部，就是人体语义不对齐。

为实现上述目的，本申请实施例针对人体语义不对齐的情况进行改进，特别涉及一种基于贝叶斯优化技术的行人重识别方法、装置和计算机系统。

具体来说，本申请实施例提供了一种基于人体语义对齐的行人重识别方法，所述方法包括：

获取来自一图片数据集的第一图片信息；

建立基础神经网络，提取所述第一图片信息中的特征并输出为特征图；

提取所述特征图中的全局特征向量和若干局部区域特征向量；

构建包括三元损失函数、交叉熵分类损失函数和语义对齐损失函数的联合损失函数，对所述基础神经网络进行调整，使得输出的所述全局语义特征向量含有所述若干局部区域特征向量的信息，完成深度卷积神经网络模型的建立，其中，所述语义对齐损失函数对所述全局特征向量和所述若干局部区域特征向量进行语义对齐损失计算。

进一步地，所述联合损失函数为：

其中，I为输入的所述第一图片信息，y为对应所述第一图片信息中的真实标注数据，T为所述基础神经网络每次迭代需要的小批量输入图片的个数，T(θ，y)为所述三元损失函数，C(θ，y)为所述交叉熵分类损失函数，M(θ，y)为所述语义对齐损失函数。

进一步地，所述三元损失函数为：

所述三元损失函数接受三张图片同时作为输入；

在式子(2)中：

a代表anchor，指的是基准图片；

p代表positive，指的是和所述基准图片a为同一个人的图片；

n代表negative，指的是和所述基准图片a不是同一个人的图片；

D_a，p指的是所述基准图片a和所述图片p提取出的特征向量之间的距离；

D_a，n指的是所述基准图片a和所述图片n提取出的特征向量之间的距离；

m代表阈值margin，为可调参数，用来区分D_a，p和D_a，n距离之间的边界值。

进一步地，所述方法包括：所述语义对齐损失函数为：

在式子(3)中，f_g为所述全局特征向量，f_l为所述局部区域特征向量。

进一步地，所述语义对齐损失函数以所述全局特征向量与所述局部区域特征向量的欧式距离差值作为需要优化的损失值反馈给所述基础神经网络进行反向传导。

进一步地，所述方法还包括：

所述深度卷积神经网络模型对第二图片信息进行运算，提取所述第二图片信息的所述全局语义特征向量作为特征，并存入检索特征数据库中。

进一步地，所述方法还包括：

所述深度卷积神经网络模型对待检索图像进行运算，提取所述待检索图像的所述全局语义特征向量；

计算所述待检索图像的所述全局语义特征向量与所述检索特征数据库的所有全局语义特征向量的欧式距离，得到一系列的距离值；

按照从小到大的顺序对所述距离值进行排序，返回排序结果的前K项。

本申请实施例还提供了一种基于人体语义对齐的行人重识别装置，所述装置包括：

行人检测模块，所述行人检测模块检测视频中出现的行人；

特征提取模块，所述特征提取模块通过权利要求1～5任一项所述的基于人体语义对齐的行人重识别方法对所述行人检测模块中检测出的所述行人提取全局语义特征向量作为特征，并存入检索特征数据库中；

行人检索模块，所述行人检索模块提取待检索图像的所述全局语义特征向量，并计算所述待检索图像的所述全局语义特征向量与所述检索特征数据库的所有全局语义特征向量的欧式距离，得到一系列的距离值，按照从小到大的顺序对所述距离值进行排序，返回排序结果的前K项。

本申请实施例还提供了一种基于人体语义对齐的行人重识别系统，所述系统包括：

存储器，所述存储器存储可执行指令；

若干处理器，所述处理器与所述存储器通信，以执行所述可执行指令，从而完成以下操作：

1)行人检测，应用目标检测算法对视频进行行人检测，获得行人图像；

2)特征提取，通过权利要求1～5任一项所述的基于人体语义对齐的行人重识别方法对所述视频中检测到的所述行人图像进行特征提取，并存入检索特征数据库中；

3)行人检索，提取待检索图像的所述全局语义特征向量，并计算所述待检索图像的所述全局语义特征向量与所述检索特征数据库的所有全局语义特征向量的欧式距离，得到一系列的距离值，按照从小到大的顺序对所述距离值进行排序，返回排序结果的前K项。

进一步地，所述系统还包括：

输入部分、输出部分、存储部分和通信部分。

本申请实施例至少具有以下技术效果：

在Market1501、CUHK03和DukeMTMC三个大规模公开行人重识别数据集上进行测试，对比表格如表1所示：

表1：行人重识别方法在各数据集上的平均检索精度

数据集	Market1501	CUHK03L	DukeMTMC
				未采用语义对齐方法	84.5％	72.2％	74.7％
采用语义对齐方法	87.2％	74.4％	77.1％
				提高	2.7％	2.2％	2.4％

使用相同的模型和训练方法，采用语义对齐技术比不采用在三个数据集上分别提高了2.7％、2.2％和2.4％。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是一种基于人体语义对齐技术的行人重识别方法流程图；

图2是一种深度卷积神经网络模型的构成图；

图3是一种基于人体语义对齐技术的行人重识别系统组成图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

本申请实施例的目的在于针对行人重识别方法中人体遮挡严重的问题，提出一种基于人体语义对齐的遮挡行人重识别方法。

该方法包括：特征提取部分。

在特征提取部分，特征提取分为模型训练和模型推理两个阶段。

其中，训练阶段采用公开的行人重识别数据集。在本申请实施例中，采用的公开行人重识别数据集为Market1501、DukeMTMC和CUHK03数据集，但是不限于使用MSMT17、Mars等公开数据集或者是私人数据集等。

具体来说，在训练阶段的具体步骤如下：

获取来自一图片数据集的第一图片信息；其中的图片数据集即为上述公开数据集或者是私人数据集，第一图片信息为上述公开数据集或者是私人数据集中的图片信息。

建立基础神经网络，提取第一图片信息中的特征并输出为特征图；

如图2所示，为本发明构建的一个前向传播的深度卷积神经网络。网络的输入为图片数据，输出数据为图片的特征向量。网络总体结构分为基础神经网络、全局语义特征模块和局部语义特征模块。

其中，基础神经网络包含一系列的卷积层和池化层，来自去除分类层之后的经典分类网络，比如Resnet和Mobilenet系列网络；全局语义特征模块由最大全局池化层、瓶颈网络层和分类层，其中瓶颈网络层，由单个卷积层、批归一化层、非线性激励函数层组成；分类层指的是最后具有多个类别的全连接层，类别数为数据集中不同人的个数；局部语义特征模块包含两种不同的局部池化层组成。

在训练过程中，提取特征图中的全局特征向量和若干局部区域特征向量。

构建包括三元损失函数、交叉熵分类损失函数和语义对齐损失函数的联合损失函数，对基础神经网络进行调整，使得输出的全局语义特征向量含有若干局部区域特征向量的信息，完成深度卷积神经网络模型的建立，其中，语义对齐损失函数对全局特征向量和若干局部区域特征向量进行语义对齐损失计算。

基础神经网络可以实现对行人特征的有效提取，输出按输入原图比例的特征图。全局语义特征模块对该特征图进行全局最大池化操作后压缩提取出的特征向量，同时进行三元损失函数和分类损失函数联合并作用于网络；局部语义特征模块可以对输入图像中的某一个区域进行特征提取。如图2所示，对特征图同时进行从上到下的横向二次和横向三次切分，可以视作提取出该行人的上半身、下半身、头肩、腹部、和下肢五种人体的局部区域，再池化得到相应局部区域的特征向量，最后将这五种向量分别和全局特征向量进行语义对齐损失计算，作用于整个网络中进行参数更新。

更具体来说，

(1)对公开数据集中的行人图形数据进行预处理和数据增强(包括且不限于尺寸统一化、色彩增强，随机裁剪，随机擦除等)，再进行加载，得到图像数据。

(2)构建训练的深度卷积神经网络，如图2所示。该网络由基础深度卷积网络f0、瓶颈网络层f1和全连接层FC组成。在本发明的实际运用中，基础卷积网络采用Resnet50，但不限于为MobileNet或ShuffleNet等网络结构。

(3)构建联合损失函数为：

其中，I为输入的第一图片信息，y为对应第一图片信息中的真实标注数据，T为基础神经网络每次迭代需要的小批量输入图片的个数，T(θ，y)为三元损失函数，C(θ，y)为交叉熵分类损失函数，M(θ，y)为语义对齐损失函数。

三元损失函数为：

三元损失函数接受三张图片同时作为输入；

在式子(2)中：

a代表anchor，指的是基准图片；

p代表positive，指的是和基准图片a为同一个人的图片；

n代表negative，指的是和基准图片a不是同一个人的图片；

D_a，p指的是基准图片a和图片p提取出的特征向量之间的距离；

D_a，n指的是基准图片a和图片n提取出的特征向量之间的距离；

在本发明的实际运用中，选择P＝16和K＝8，也就是16个人，每个人有8张不同的图片组成128张(T＝128)的小批量图片数据集作为输入，实际计算采用的是欧氏距离，距离边界值选取的是0.3。

交叉熵分类损失函数为标准的分类函数，对全局语义特征模块输出的特征s进行归一化和对数化处理后，与实际分类的数据计算误差。交叉熵分类损失函数的公式如下：

语义对齐损失函数是指计算局部语义特征的全局语义特征的欧式距离差值作为需要优化的损失值反馈给网络进行反向传导。经过大量的迭代，逐渐减小全局语义特征和局部语义特征的差距，从而使得全局语义特征富含丰富的局部语义信息，从而达到语义对齐的目的。

语义对齐损失函数为：

在式子(3)中，f_g为全局特征向量，f_l为局部区域特征向量。

本申请实施例采用三元损失函数、交叉熵分类损失函数和语义对齐损失函数联合的方式，共同调整基础网络完成对行人特征的提取，可以有效地提高分类的精度，比单独使用一种损失函数的效果要好。在本发明的实际运用中，瓶颈网络层f1输出的特征维度为2048。

在本申请实施例中使用了Resnet50的预训练模型(去除Resnet50最后的分类层)加快收敛，采用Adam优化求解器。网络模型的常规训练，采用Adam优化求解器，每次大轮数训练300步，前150步学习速率为3e-4，从第150步开始进行学习速率的调整，逐渐下降到3e-7。

在模型推理阶段，首先实施行人检测。

具体的行人检测方式为：

(1)收集行人相关监控视频，将该视频以至少5fps保存为图片，作为行人检测基本数据源。

(2)利用深度目标检测算法对每一帧待检测行人图像进行检测，并从检测出的行人区域中提取行人整体特征，作为第二图片信息。具体地，预设深度目标检测算法为业界最广泛使用的Faster-RCNN(也可以是SSD、YOLO等通用目标检测算法)。

深度卷积神经网络模型对第二图片信息进行运算，提取第二图片信息的全局语义特征向量作为特征，并存入检索特征数据库中。

具体按照以下步骤进行操作：

(1)输入数据：

对行人检测部分提取的行人图形数据进行预处理(包括且不限于尺寸归一化等)，再进行加载，得到图像数据。

(2)构建网络，加载模型：

如图2和式子1所示，构建训练的深度卷积神经网络，由基础深度卷积神经网络和全局语义特征模块和局部语义特征模块组成。加载训练阶段中训练好的网络模型，并去除局部语义特征模块和全局语义特征模块中分类层的权重参数。

(3)获取行人深度特征

加载模型后，输入图片数据进行运算，提取全局语义特征模块中瓶颈网络层后输出的全局特征作为行人的深度特征。在本发明的实际运用中，深度特征的维度为2048维。单进程的网络推理速度达到20,000张图片/秒以上。

最后，进行行人的检索。

深度卷积神经网络模型对待检索图像进行运算，提取待检索图像的全局语义特征向量；

计算待检索图像的全局语义特征向量与检索特征数据库的所有全局语义特征向量的欧式距离，得到一系列的距离值；

按照从小到大的顺序对距离值进行排序，返回排序结果的前K项。

因为深度卷积神经网络模型比较精简，在实际推理中提取特征速度非常快，有效地提高了行人重识别系统的检索效率。

本申请实施例还提供了一种基于人体语义对齐的行人重识别装置(如图1所示)，装置包括：

行人检测模块，行人检测模块检测视频中出现的行人；

特征提取模块，特征提取模块通过权利要求1～5任一项的基于人体语义对齐的行人重识别方法对行人检测模块中检测出的行人提取全局语义特征向量作为特征，并存入检索特征数据库中；

行人检索模块，行人检索模块提取待检索图像的全局语义特征向量，并计算待检索图像的全局语义特征向量与检索特征数据库的所有全局语义特征向量的欧式距离，得到一系列的距离值，按照从小到大的顺序对距离值进行排序，返回排序结果的前K项。

本申请实施例还提供了一种基于人体语义对齐的行人重识别系统(如图3所示)，系统包括：

存储器，存储器存储可执行指令；

若干处理器，处理器与存储器通信，以执行可执行指令，从而完成以下操作：

2)特征提取，通过权利要求1～5任一项的基于人体语义对齐的行人重识别方法对视频中检测到的行人图像进行特征提取，并存入检索特征数据库中；

3)行人检索，提取待检索图像的全局语义特征向量，并计算待检索图像的全局语义特征向量与检索特征数据库的所有全局语义特征向量的欧式距离，得到一系列的距离值，按照从小到大的顺序对距离值进行排序，返回排序结果的前K项。

具体来说，如图3，计算机系统500包括中央处理单元(CPU)501，其可根据存储在只读存储器(ROM)502中的程序或从存储部分508加载至随机存取存储器(RAM)503中的程序而执行各种适当的动作和过程。在RAM503中，还存储有系统500操作所需要的各种程序和数据。CPU501、ROM502和RAM503通过总线彼此连接。输入/输出I/O接口505也与总线504连接。

以下为与I/O接口连接的部件：包括键盘、鼠标等的输入部分506；包括阴极射线管CRT、液晶显示设备LCD和扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括网络接口卡(如LAN卡和调制解调器等)的通信部分509。通信部分509通过诸如因特网等网络执行通信处理。根据需要，驱动器510也与I/O接口505连接。如磁盘、光盘、磁光盘、半导体存储器等的可拆卸介质511可安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

具体地，根据本申请公开的实施方式，以上参照图2描述的过程可实施为计算机软件程序。例如，本申请公开的实施方式包括计算机程序产品，该产品包括有形地体现在机器可读介质中的计算机程序。该计算机程序包括用于执行图2的方法的程序代码。在这种实施方式中，计算机程序可通过通信部分509从网络上下载并进行安装，和/或可从可拆卸介质511安装。

本发明可以应用于终端设备、计算机系统以及服务器等电子设备中，其可与众多其它通用或专用计算系统环境或配置一起操作，并适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子，包括但不限于：

个人计算机系统、服务器计算机系统、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统以及包括上述任何系统的分布式云计算技术环境等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。

通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于人体语义对齐的行人重识别方法，其中，所述方法包括：

获取来自一图片数据集的第一图片信息；

2.如权利要求1所述的基于人体语义对齐的行人重识别方法，其中，所述联合损失函数为：

其中，I为输入的所述第一图片信息，y为对应所述第一图片信息中的真实标注数据，T为所述基础神经网络每次迭代需要的小批量输入图片的个数，

为所述三元损失函数，C(θ，y)为所述交叉熵分类损失函数，M(θ，y)为所述语义对齐损失函数。

3.如权利要求1所述的基于人体语义对齐的行人重识别方法，其中，所述三元损失函数为：

所述三元损失函数接受三张图片同时作为输入；

在式子(2)中：

a代表anchor，指的是基准图片；

p代表positive，指的是和所述基准图片a为同一个人的图片；

n代表negative，指的是和所述基准图片a不是同一个人的图片；

4.如权利要求1所述的基于人体语义对齐的行人重识别方法，其中，所述方法包括：所述语义对齐损失函数为：

5.如权利要求4所述的基于人体语义对齐的行人重识别方法，其中，所述语义对齐损失函数以所述全局特征向量与所述局部区域特征向量的欧式距离差值作为需要优化的损失值反馈给所述基础神经网络进行反向传导。

6.如权利要求1～5任一项所述的基于人体语义对齐的行人重识别方法，其中，所述方法还包括：

7.如权利要求6所述的基于人体语义对齐的行人重识别方法，其中，所述方法还包括：

8.一种基于人体语义对齐的行人重识别装置，其中，所述装置包括：

行人检测模块，所述行人检测模块检测视频中出现的行人；

9.一种基于人体语义对齐的行人重识别系统，其中，所述系统包括：

存储器，所述存储器存储可执行指令；

10.如权利要求9所述的基于人体语义对齐的行人重识别方法，其中，所述系统还包括：

输入部分、输出部分、存储部分和通信部分。