CN111652035A

CN111652035A - 一种基于ST-SSCA-Net的行人重识别方法及系统

Info

Publication number: CN111652035A
Application number: CN202010234813.2A
Authority: CN
Inventors: 种衍文; 王悟信; 付建红
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-09-11
Anticipated expiration: 2040-03-30
Also published as: CN111652035B

Abstract

本发明公开了一种基于ST‑SSCA‑Net的行人重识别方法及系统，该方法采用pytorch构建网络，利用Yolov3算法对视频中的行人进行定位与跟踪，裁剪出Yolov3算法提取的行人范围，将此范围图片送入基于ST‑SSCA‑Net的行人重识别算法对此行人与图片库行人身份进行对比识别，辅以边缘段高清视频摄像头、实时可视化系统进行系统构建。相对比同类行人重识别算法，本发明加强了注意力机制的获取，提高了模型准确率。同时本发明设计了一种加强的三元组损失用于模型训练，对模型聚类效果有较大提升。

Description

一种基于ST-SSCA-Net的行人重识别方法及系统

技术领域

本发明涉及视频安全监控领域，具体涉及一种基于ST-SSCA-Net的行人重识别方法及系统。

背景技术

近年来，随着经济快速发展造成的人员频繁流动特别是跨境人口流动使得各地区公共安全维护愈发困难。当前人工视频检索存在原始视频肉眼辨别难度大、人眼搜索时间长等问题。而由于拍摄角度及摄像头分辨率等因素的限制，使得摄像头监控中捕获到的行人脸部模糊，无法使用人脸识别技术直接进行身份判断，这就使得需要按照身体形态或者衣着等特征进行人员检索。同时，监控网络中摄像头彼此之间一般相隔一段距离，目标人物在监控网络中任意的摄像头中都有可能出现，快速再次定位也很困难，这些问题在一定程度上造成了案件侦破困难的结果。针对以上情况，且出于减少人工成本的考虑，业界对图像检索尤其是行人重识别技术的需求越来越大。

行人重识别的定义为：行人重识别(Person re-identification，ReID)也称行人再识别,是利用计算机视觉技术判断图像或者视频中是否存在特定行人的技术, 即给定一个监控行人图像检索跨设备下的该行人图像。

行人重识别技术主要可运用在公共安全视频监控上。传统的手工设计特征进行检索的方法存在不能很好适应大数据量检索、预测图像id时模型计算复杂度高等问题。随着深度学习技术的兴起，特别是2016年AlexNet一举拿下ImageNet 冠军且相较传统方法有很大提升，使得卷积神经网络在图像处理领域例如图像检索、分类等问题上的研究成为热点。同时，近年来计算机视觉顶级会议中如CVPR、 ICCV、ECCV等，利用深度学习方法进行行人重识别的研究也表明深度学习方法更加适应这类细粒度图像分类检索问题。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

现有技术中，行人重识别算法多采用多模型融合的方法进行，模型大小对于边缘段部署不友好且准确率还有局限。

由此可知，现有技术中存在识别准确性不高的技术问题。

发明内容

本发明提出一种基于ST-SSCA-Net(Strong-Triplet& Self-Spatial-Channel-Attention-Net)的行人重识别方法及系统，用于解决或者至少部分解决现有技术中存在的识别准确性不高的技术问题。

为了解决上述技术问题，本发明第一方面提供了一种基于ST-SSCA-Net的行人重识别方法，包括：

S1：采集预设场景中行人的视频数据；

S2：采用Yolov3算法从采集的视频数据中对行人进行提取，获得包含行人范围的图片；

S3：通过预先构建的神经网络ST-SSCA-Net对基于包含行人范围图片进行重识别，得到识别结果，其中，ST-SSCA-Net的主干网络为去掉最后一层的下采样部分的ResNet50网络，采用SSCA注意力机制对ResNet50网络第一层获取的特征图信息进行增强，利用多层次语义信息及全局、局部特征融合的方法和对网络进行优化。

在一种实施方式中，在步骤S3之后，所述方法还包括：

对识别结果进行可视化展示。

在一种实施方式中，S1包括：采用边缘端高清视频摄像头对预设场景中行人的视频数据进行采集，并将采集的视频数据实时传输到云端服务器数据库存储。

在一种实施方式中，S3中采用SSCA注意力机制对ResNet50网络第一层获得的特征图信息进行增强，利用多层次语义信息及全局、局部特征融合的方法和对网络进行优化，包括：

对ResNet50网络第一层提取的原特征图feature分别进行通道最大池化与通道均值池化，获得最大统计空间注意力spa_max与均值统计空间注意力spa_avg；

将最大统计空间注意力spa_max和均值统计空间注意力spa_avg分别进行softmax激活后相加得到空间注意力A_spa；

将空间注意力A_spa与原特征图feature内积获得全局上下文空间注意力gsc；

对全局上下文空间注意力gsc进行通道压缩、正则化、激活和扩张，获得有全局上下文语义的空间方位各像素之间的关联关系注意力ssca，再将ssca与原特征图feature相加获得SSCA注意力加强的特征，再SSCA注意力加强的特征送入下一残差部分运算，其中，每层之间对特征图采用SSCA注意力整合通道特征与空间特征。

在一种实施方式中，S3中ST-SSCA-Net的损失函数包括基于全局特征计算的加强三元组损失与平滑标签的交叉熵损失，基于串联局部分块特征分别计算的加强三元组损失与平滑标签的交叉熵损失，其中，加强三元组损失用于对特征进行聚类，平滑标签交叉熵损失用于分类，

加强三元组损失为：

其中，d(a，n)为固定样本与负样本间的距离，d(a，p)为固定样本与正样本间的距离，margin为手动设置的阈值用于约束d(a，n)-d(a，p)，α与β为对应约束的权值，

平滑标签的交叉熵损失为：

其中，N表示ID数，p_i为预测ID为i的概率，y为其真实ID，ε为标签平滑扰动量。

基于同样的发明构思，本发明第二方面提供了一种基于ST-SSCA-Net的行人重识别系统，包括：

视频采集模块，用于采集预设场景中行人的视频数据；

行人范围提取模块，用于采用Yolov3算法从采集的视频数据中对行人进行提取，获得包含行人范围的图片；

行人重识别模块，用于通过预先构建的神经网络ST-SSCA-Net对基于包含行人范围图片进行重识别，得到识别结果，其中，ST-SSCA-Net的主干网络为去掉最后一层的下采样部分的ResNet50网络，采用SSCA注意力机制对ResNet50 网络第一层获取的特征图信息进行增强，利用多层次语义信息及全局、局部特征融合的方法和对网络进行优化。

在一种实施方式中，还包括显示模块，用于对识别结果进行可视化展示。

在一种实施方式中，视频采集模块为高清视频摄像头，形成拓扑网络结构部署到场景周围，采集的视频数据实时传输到云端服务器，并采用MongoDB对采集的视频数据进行存储。

在一种实施方式中，所述显示模块为监控显示器，监控显示器置于监控室，用于接收云端服务器传输的监控标记视频数据，并进行高清播放，其中，云端服务器传输的监控标记视频数据为重识别模块获得的识别结果。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供了一种基于ST-SSCA-Net的行人重识别方法，首先采集预设场景中行人的视频数据；然后采用Yolov3算法从采集的视频数据中对行人进行提取，获得包含行人范围的图片；再通过预先构建的神经网络ST-SSCA-Net对基于包含行人范围图片进行重识别，得到识别结果，相对比现有的识别算法，本发明通过对ResNet50第一层获得的特征图进行SSCA注意力机制引导，提高了特征在通道方向和空间方位的关联性，从而可以提高ST-SSCA-Net的识别准确性。

本发明的神经网络ST-SSCA-Net基于ResNet50进行改进，结果简单，便于进行边缘部署。

本发明结合了全局特征与局部特征，融合了多种语义信息提高重识别精度。

本发明采用云计算技术，数据传输稳定性强，数据保存速度快，处理运算能力具有弹性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于ST-SSCA-Net的行人重识别方法的实现流程示意图；

图2为本发明实施例提供的行人重识别系统的框架图；

图3是本发明采用深度学习算法模型YOLOv3结构图；

图4是本发明基于ST-SSCA-Net的行人重识别算法结构图

图5是本发明的SSCA注意力机制结构图。

具体实施方式

本发明的目的在于针对现有的识别方法在准确率上的不足以及复杂的多模型融合造成的不便于边缘部署的问题，提供一种基于ST-SSCA-Net的行人重识别方法，从而达到提高准确性以及减少模型的复杂性的目的。

为了实现上述目的，本发明的主要构思如下：

该方法采用pytorch构建网络，利用Yolov3算法对视频中的行人进行定位与跟踪，裁剪出Yolov3算法提取的行人范围，将此范围图片送入基于ST-SSCA-Net 的行人重识别算法对此行人与图片库行人身份进行对比识别，辅以边缘段高清视频摄像头、实时可视化系统进行系统构建。相对比同类行人重识别算法，本发明加强了注意力机制的获取，提高了模型准确率。同时本发明设计了一种加强的三元组损失用于模型训练，对模型聚类效果有较大提升。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种基于ST-SSCA-Net的行人重识别方法，请参见图1，该方法包括：

S1：采集预设场景中行人的视频数据；

具体来说，采集的视频数据可以在数据库中进行存储，然后从数据库读取视频数据，利用Yolov3算法对视频中的行人进行定位与跟踪，裁剪出Yolov3算法提取的行人范围。

请参见图3，YOLOv3采用darknet网络作为基准，使用残差构建网络，使用k-means构建尺度先验框，通过Darknet-53骨干网络获取三个尺寸的特征图，卷积层主要用来提取特征，全连接层主要用来预测类别概率和坐标。通过Yolov3 算法可以提取出行人的范围。

Yolov3算法提取出的行人的范围输入ST-SSCA-Net进行重识别，请参见图4，基于ST-SSCA-Net的行人重识别过程：通过对ResNet50算法进行改进，去掉最后一层的下采样部分，扩展特征图大小；通过对ResNet50第一层获得的特征图进行SSCA注意力机制引导，提高特征在通道方向和空间方位的关联性，对每个注意力激活的中间层特征图计算分类损失，最后对特征水平切块计算各块分类损失。最终训练损失函数为所有损失的加权求和。

在一种实施方式中，在步骤S3之后，所述方法还包括：

对识别结果进行可视化展示。

具体来说，可以通过实时可视化系统，通过网络将云端行人重识别算法对比结果通过视频标注的形式可视化在监控大屏幕上进行展示。

具体地，云端服务器数据库采用基于分布式文件存储的数据库：MongoDB。

具体来说，请参见图5，为本发明采用的SSCA注意力机制的原理图，SSCA 注意力机制，对特征图使用空间注意力与自相关获得自相关空间注意力，再使用压缩扩张对通道层面进行注意力增强，获得自相关空间通道注意力。

原特征图feature的维度为C*H*W，最大统计空间注意力spa_max的维度为 1*H*W，spa_avg的维度为1*H*W，其余的不一一列举。

加强三元组损失为：

平滑标签的交叉熵损失为：

具体来说，最终的损失函数为全局特征、串联局部分块特征后分别计算加强三元组损失与平滑标签的交叉熵损失。固定样本可以预先设定，正样本是指属于某一类别的样本，负样本是指不属于某一类别的样本，可以通过预先标注得到。

实施例二

基于同样的发明构思，本实施例提供了一种基于ST-SSCA-Net的行人重识别系统，包括：

视频采集模块，用于采集预设场景中行人的视频数据；

在一种实施方式中，所述系统还包括显示模块，用于对识别结果进行可视化展示。

具体来说，请参见图2，包括视频捕获模块(视频采集模块)、数据存储模块(云服务器和数据库)、数据处理模块(行人范围提取模块+行人重识别模块) 以及实时可视化模块(显示模块)。

其中，视频采集模块通过高清摄像头捕获视频信息，然后进行视频流解析，再实时传输至服务器，通过摄像头构建监控网络结构获取行人视频数据，关键帧数据通过网络传输到云端服务器数据库，数据稳定性、实时性强。数据处理模块主要用于行人提取以及行人重识别。

具体地，视频采集模块为边缘端高清视频摄像头，摄像头用于捕获场景中行人视频与图片，摄像头数据通过网络传输到云计算平台服务器数据库存储。为了确保数据的实时性，摄像头形成拓扑网络结构部署到场景周围，视频标记时间戳信息。云计算平台数据库采用MongoDB对视频图片信息进行存储。

行人范围提取模块和行人重识别模块为云计算平台服务器的组成部分，行人范围提取模块负责从数据库读取视频数据，利用Yolov3算法对视频中的行人进行定位与跟踪，裁剪出Yolov3算法提取的行人范围，将此范围图片送入基于 ST-SSCA-Net的行人重识别模块，该模块用于对此行人与图片库行人身份进行对比识别；显示模块为实时可视化系统，通过网络将云端行人重识别算法对比结果通过视频标注的形式可视化在监控大屏幕上进行展示。

由于本发明实施例二所介绍的系统，为实施本发明实施例一中基于 ST-SSCA-Net的行人重识别方法所采用的系统，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该系统的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于ST-SSCA-Net的行人重识别方法，其特征在于，包括：

S1：采集预设场景中行人的视频数据；

2.如权利要求1所述的方法，其特征在于，在步骤S3之后，所述方法还包括：

对识别结果进行可视化展示。

3.如权利要求1所述的方法，其特征在于，S1包括：采用边缘端高清视频摄像头对预设场景中行人的视频数据进行采集，并将采集的视频数据实时传输到云端服务器数据库存储。

4.如权利要求3所述的方法，其特征在于，S3中采用SSCA注意力机制对ResNet50网络第一层获得的特征图信息进行增强，利用多层次语义信息及全局、局部特征融合的方法和对网络进行优化，包括：

5.如权利要求1所述的方法，其特征在于，S3中ST-SSCA-Net的损失函数包括基于全局特征计算的加强三元组损失与平滑标签的交叉熵损失，基于串联局部分块特征分别计算的加强三元组损失与平滑标签的交叉熵损失，其中，加强三元组损失用于对特征进行聚类，平滑标签交叉熵损失用于分类，

加强三元组损失为：

平滑标签的交叉熵损失为：

6.一种基于ST-SSCA-Net的行人重识别系统，其特征在于，包括：

视频采集模块，用于采集预设场景中行人的视频数据；

行人重识别模块，用于通过预先构建的神经网络ST-SSCA-Net对基于包含行人范围图片进行重识别，得到识别结果，其中，ST-SSCA-Net的主干网络为去掉最后一层的下采样部分的ResNet50网络，采用SSCA注意力机制对ResNet50网络第一层获取的特征图信息进行增强，利用多层次语义信息及全局、局部特征融合的方法和对网络进行优化。

7.如权利要求6所述的系统，其特征在于，还包括显示模块，用于对识别结果进行可视化展示。

8.如权利要求6所述的系统，其特征在于，视频采集模块为高清视频摄像头，形成拓扑网络结构部署到场景周围，采集的视频数据实时传输到云端服务器，并采用MongoDB对采集的视频数据进行存储。

9.如权利要求7所述的系统，其特征在于，所述显示模块为监控显示器，监控显示器置于监控室，用于接收云端服务器传输的监控标记视频数据，并进行高清播放，其中，云端服务器传输的监控标记视频数据为重识别模块获得的识别结果。