CN111652035A - 一种基于ST-SSCA-Net的行人重识别方法及系统 - Google Patents
一种基于ST-SSCA-Net的行人重识别方法及系统 Download PDFInfo
- Publication number
- CN111652035A CN111652035A CN202010234813.2A CN202010234813A CN111652035A CN 111652035 A CN111652035 A CN 111652035A CN 202010234813 A CN202010234813 A CN 202010234813A CN 111652035 A CN111652035 A CN 111652035A
- Authority
- CN
- China
- Prior art keywords
- ssca
- pedestrian
- attention
- network
- net
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 230000007246 mechanism Effects 0.000 claims abstract description 17
- 238000012544 monitoring process Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 238000007500 overflow downdraw method Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 claims description 3
- 230000000903 blocking effect Effects 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000012800 visualization Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012549 training Methods 0.000 abstract description 3
- 238000013461 design Methods 0.000 abstract description 2
- 238000010276 construction Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明公开了一种基于ST‑SSCA‑Net的行人重识别方法及系统,该方法采用pytorch构建网络,利用Yolov3算法对视频中的行人进行定位与跟踪,裁剪出Yolov3算法提取的行人范围,将此范围图片送入基于ST‑SSCA‑Net的行人重识别算法对此行人与图片库行人身份进行对比识别,辅以边缘段高清视频摄像头、实时可视化系统进行系统构建。相对比同类行人重识别算法,本发明加强了注意力机制的获取,提高了模型准确率。同时本发明设计了一种加强的三元组损失用于模型训练,对模型聚类效果有较大提升。
Description
技术领域
本发明涉及视频安全监控领域,具体涉及一种基于ST-SSCA-Net的行人重识别方法及系统。
背景技术
近年来,随着经济快速发展造成的人员频繁流动特别是跨境人口流动使得各地区公共安全维护愈发困难。当前人工视频检索存在原始视频肉眼辨别难度大、人眼搜索时间长等问题。而由于拍摄角度及摄像头分辨率等因素的限制,使得摄像头监控中捕获到的行人脸部模糊,无法使用人脸识别技术直接进行身份判断,这就使得需要按照身体形态或者衣着等特征进行人员检索。同时,监控网络中摄像头彼此之间一般相隔一段距离,目标人物在监控网络中任意的摄像头中都有可能出现,快速再次定位也很困难,这些问题在一定程度上造成了案件侦破困难的结果。针对以上情况,且出于减少人工成本的考虑,业界对图像检索尤其是行人重识别技术的需求越来越大。
行人重识别的定义为:行人重识别(Person re-identification,ReID)也称行人再识别,是利用计算机视觉技术判断图像或者视频中是否存在特定行人的技术, 即给定一个监控行人图像检索跨设备下的该行人图像。
行人重识别技术主要可运用在公共安全视频监控上。传统的手工设计特征进行检索的方法存在不能很好适应大数据量检索、预测图像id时模型计算复杂度高等问题。随着深度学习技术的兴起,特别是2016年AlexNet一举拿下ImageNet 冠军且相较传统方法有很大提升,使得卷积神经网络在图像处理领域例如图像检索、分类等问题上的研究成为热点。同时,近年来计算机视觉顶级会议中如CVPR、 ICCV、ECCV等,利用深度学习方法进行行人重识别的研究也表明深度学习方法更加适应这类细粒度图像分类检索问题。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
现有技术中,行人重识别算法多采用多模型融合的方法进行,模型大小对于边缘段部署不友好且准确率还有局限。
由此可知,现有技术中存在识别准确性不高的技术问题。
发明内容
本发明提出一种基于ST-SSCA-Net(Strong-Triplet& Self-Spatial-Channel-Attention-Net)的行人重识别方法及系统,用于解决或者至少部分解决现有技术中存在的识别准确性不高的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于ST-SSCA-Net的行人重识别方法,包括:
S1:采集预设场景中行人的视频数据;
S2:采用Yolov3算法从采集的视频数据中对行人进行提取,获得包含行人范围的图片;
S3:通过预先构建的神经网络ST-SSCA-Net对基于包含行人范围图片进行重识别,得到识别结果,其中,ST-SSCA-Net的主干网络为去掉最后一层的下采样部分的ResNet50网络,采用SSCA注意力机制对ResNet50网络第一层获取的特征图信息进行增强,利用多层次语义信息及全局、局部特征融合的方法和对网络进行优化。
在一种实施方式中,在步骤S3之后,所述方法还包括:
对识别结果进行可视化展示。
在一种实施方式中,S1包括:采用边缘端高清视频摄像头对预设场景中行人的视频数据进行采集,并将采集的视频数据实时传输到云端服务器数据库存储。
在一种实施方式中,S3中采用SSCA注意力机制对ResNet50网络第一层获得的特征图信息进行增强,利用多层次语义信息及全局、局部特征融合的方法和对网络进行优化,包括:
对ResNet50网络第一层提取的原特征图feature分别进行通道最大池化与通道均值池化,获得最大统计空间注意力spa_max与均值统计空间注意力spa_avg;
将最大统计空间注意力spa_max和均值统计空间注意力spa_avg分别进行softmax激活后相加得到空间注意力A_spa;
将空间注意力A_spa与原特征图feature内积获得全局上下文空间注意力gsc;
对全局上下文空间注意力gsc进行通道压缩、正则化、激活和扩张,获得有全局上下文语义的空间方位各像素之间的关联关系注意力ssca,再将ssca与原特征图feature相加获得SSCA注意力加强的特征,再SSCA注意力加强的特征送入下一残差部分运算,其中,每层之间对特征图采用SSCA注意力整合通道特征与空间特征。
在一种实施方式中,S3中ST-SSCA-Net的损失函数包括基于全局特征计算的加强三元组损失与平滑标签的交叉熵损失,基于串联局部分块特征分别计算的加强三元组损失与平滑标签的交叉熵损失,其中,加强三元组损失用于对特征进行聚类,平滑标签交叉熵损失用于分类,
加强三元组损失为:
其中,d(a,n)为固定样本与负样本间的距离,d(a,p)为固定样本与正样本间的距离,margin为手动设置的阈值用于约束d(a,n)-d(a,p),α与β为对应约束的权值,
平滑标签的交叉熵损失为:
其中,N表示ID数,pi为预测ID为i的概率,y为其真实ID,ε为标签平滑扰动量。
基于同样的发明构思,本发明第二方面提供了一种基于ST-SSCA-Net的行人重识别系统,包括:
视频采集模块,用于采集预设场景中行人的视频数据;
行人范围提取模块,用于采用Yolov3算法从采集的视频数据中对行人进行提取,获得包含行人范围的图片;
行人重识别模块,用于通过预先构建的神经网络ST-SSCA-Net对基于包含行人范围图片进行重识别,得到识别结果,其中,ST-SSCA-Net的主干网络为去掉最后一层的下采样部分的ResNet50网络,采用SSCA注意力机制对ResNet50 网络第一层获取的特征图信息进行增强,利用多层次语义信息及全局、局部特征融合的方法和对网络进行优化。
在一种实施方式中,还包括显示模块,用于对识别结果进行可视化展示。
在一种实施方式中,视频采集模块为高清视频摄像头,形成拓扑网络结构部署到场景周围,采集的视频数据实时传输到云端服务器,并采用MongoDB对采集的视频数据进行存储。
在一种实施方式中,所述显示模块为监控显示器,监控显示器置于监控室,用于接收云端服务器传输的监控标记视频数据,并进行高清播放,其中,云端服务器传输的监控标记视频数据为重识别模块获得的识别结果。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供了一种基于ST-SSCA-Net的行人重识别方法,首先采集预设场景中行人的视频数据;然后采用Yolov3算法从采集的视频数据中对行人进行提取,获得包含行人范围的图片;再通过预先构建的神经网络ST-SSCA-Net对基于包含行人范围图片进行重识别,得到识别结果,相对比现有的识别算法,本发明通过对ResNet50第一层获得的特征图进行SSCA注意力机制引导,提高了特征在通道方向和空间方位的关联性,从而可以提高ST-SSCA-Net的识别准确性。
本发明的神经网络ST-SSCA-Net基于ResNet50进行改进,结果简单,便于进行边缘部署。
本发明结合了全局特征与局部特征,融合了多种语义信息提高重识别精度。
本发明采用云计算技术,数据传输稳定性强,数据保存速度快,处理运算能力具有弹性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于ST-SSCA-Net的行人重识别方法的实现流程示意图;
图2为本发明实施例提供的行人重识别系统的框架图;
图3是本发明采用深度学习算法模型YOLOv3结构图;
图4是本发明基于ST-SSCA-Net的行人重识别算法结构图
图5是本发明的SSCA注意力机制结构图。
具体实施方式
本发明的目的在于针对现有的识别方法在准确率上的不足以及复杂的多模型融合造成的不便于边缘部署的问题,提供一种基于ST-SSCA-Net的行人重识别方法,从而达到提高准确性以及减少模型的复杂性的目的。
为了实现上述目的,本发明的主要构思如下:
该方法采用pytorch构建网络,利用Yolov3算法对视频中的行人进行定位与跟踪,裁剪出Yolov3算法提取的行人范围,将此范围图片送入基于ST-SSCA-Net 的行人重识别算法对此行人与图片库行人身份进行对比识别,辅以边缘段高清视频摄像头、实时可视化系统进行系统构建。相对比同类行人重识别算法,本发明加强了注意力机制的获取,提高了模型准确率。同时本发明设计了一种加强的三元组损失用于模型训练,对模型聚类效果有较大提升。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供了一种基于ST-SSCA-Net的行人重识别方法,请参见图1,该方法包括:
S1:采集预设场景中行人的视频数据;
S2:采用Yolov3算法从采集的视频数据中对行人进行提取,获得包含行人范围的图片;
S3:通过预先构建的神经网络ST-SSCA-Net对基于包含行人范围图片进行重识别,得到识别结果,其中,ST-SSCA-Net的主干网络为去掉最后一层的下采样部分的ResNet50网络,采用SSCA注意力机制对ResNet50网络第一层获取的特征图信息进行增强,利用多层次语义信息及全局、局部特征融合的方法和对网络进行优化。
具体来说,采集的视频数据可以在数据库中进行存储,然后从数据库读取视频数据,利用Yolov3算法对视频中的行人进行定位与跟踪,裁剪出Yolov3算法提取的行人范围。
请参见图3,YOLOv3采用darknet网络作为基准,使用残差构建网络,使用k-means构建尺度先验框,通过Darknet-53骨干网络获取三个尺寸的特征图,卷积层主要用来提取特征,全连接层主要用来预测类别概率和坐标。通过Yolov3 算法可以提取出行人的范围。
Yolov3算法提取出的行人的范围输入ST-SSCA-Net进行重识别,请参见图4,基于ST-SSCA-Net的行人重识别过程:通过对ResNet50算法进行改进,去掉最后一层的下采样部分,扩展特征图大小;通过对ResNet50第一层获得的特征图进行SSCA注意力机制引导,提高特征在通道方向和空间方位的关联性,对每个注意力激活的中间层特征图计算分类损失,最后对特征水平切块计算各块分类损失。最终训练损失函数为所有损失的加权求和。
在一种实施方式中,在步骤S3之后,所述方法还包括:
对识别结果进行可视化展示。
具体来说,可以通过实时可视化系统,通过网络将云端行人重识别算法对比结果通过视频标注的形式可视化在监控大屏幕上进行展示。
在一种实施方式中,S1包括:采用边缘端高清视频摄像头对预设场景中行人的视频数据进行采集,并将采集的视频数据实时传输到云端服务器数据库存储。
具体地,云端服务器数据库采用基于分布式文件存储的数据库:MongoDB。
在一种实施方式中,S3中采用SSCA注意力机制对ResNet50网络第一层获得的特征图信息进行增强,利用多层次语义信息及全局、局部特征融合的方法和对网络进行优化,包括:
对ResNet50网络第一层提取的原特征图feature分别进行通道最大池化与通道均值池化,获得最大统计空间注意力spa_max与均值统计空间注意力spa_avg;
将最大统计空间注意力spa_max和均值统计空间注意力spa_avg分别进行softmax激活后相加得到空间注意力A_spa;
将空间注意力A_spa与原特征图feature内积获得全局上下文空间注意力gsc;
对全局上下文空间注意力gsc进行通道压缩、正则化、激活和扩张,获得有全局上下文语义的空间方位各像素之间的关联关系注意力ssca,再将ssca与原特征图feature相加获得SSCA注意力加强的特征,再SSCA注意力加强的特征送入下一残差部分运算,其中,每层之间对特征图采用SSCA注意力整合通道特征与空间特征。
具体来说,请参见图5,为本发明采用的SSCA注意力机制的原理图,SSCA 注意力机制,对特征图使用空间注意力与自相关获得自相关空间注意力,再使用压缩扩张对通道层面进行注意力增强,获得自相关空间通道注意力。
原特征图feature的维度为C*H*W,最大统计空间注意力spa_max的维度为 1*H*W,spa_avg的维度为1*H*W,其余的不一一列举。
在一种实施方式中,S3中ST-SSCA-Net的损失函数包括基于全局特征计算的加强三元组损失与平滑标签的交叉熵损失,基于串联局部分块特征分别计算的加强三元组损失与平滑标签的交叉熵损失,其中,加强三元组损失用于对特征进行聚类,平滑标签交叉熵损失用于分类,
加强三元组损失为:
其中,d(a,n)为固定样本与负样本间的距离,d(a,p)为固定样本与正样本间的距离,margin为手动设置的阈值用于约束d(a,n)-d(a,p),α与β为对应约束的权值,
平滑标签的交叉熵损失为:
其中,N表示ID数,pi为预测ID为i的概率,y为其真实ID,ε为标签平滑扰动量。
具体来说,最终的损失函数为全局特征、串联局部分块特征后分别计算加强三元组损失与平滑标签的交叉熵损失。固定样本可以预先设定,正样本是指属于某一类别的样本,负样本是指不属于某一类别的样本,可以通过预先标注得到。
实施例二
基于同样的发明构思,本实施例提供了一种基于ST-SSCA-Net的行人重识别系统,包括:
视频采集模块,用于采集预设场景中行人的视频数据;
行人范围提取模块,用于采用Yolov3算法从采集的视频数据中对行人进行提取,获得包含行人范围的图片;
行人重识别模块,用于通过预先构建的神经网络ST-SSCA-Net对基于包含行人范围图片进行重识别,得到识别结果,其中,ST-SSCA-Net的主干网络为去掉最后一层的下采样部分的ResNet50网络,采用SSCA注意力机制对ResNet50 网络第一层获取的特征图信息进行增强,利用多层次语义信息及全局、局部特征融合的方法和对网络进行优化。
在一种实施方式中,所述系统还包括显示模块,用于对识别结果进行可视化展示。
在一种实施方式中,视频采集模块为高清视频摄像头,形成拓扑网络结构部署到场景周围,采集的视频数据实时传输到云端服务器,并采用MongoDB对采集的视频数据进行存储。
在一种实施方式中,所述显示模块为监控显示器,监控显示器置于监控室,用于接收云端服务器传输的监控标记视频数据,并进行高清播放,其中,云端服务器传输的监控标记视频数据为重识别模块获得的识别结果。
具体来说,请参见图2,包括视频捕获模块(视频采集模块)、数据存储模块(云服务器和数据库)、数据处理模块(行人范围提取模块+行人重识别模块) 以及实时可视化模块(显示模块)。
其中,视频采集模块通过高清摄像头捕获视频信息,然后进行视频流解析,再实时传输至服务器,通过摄像头构建监控网络结构获取行人视频数据,关键帧数据通过网络传输到云端服务器数据库,数据稳定性、实时性强。数据处理模块主要用于行人提取以及行人重识别。
具体地,视频采集模块为边缘端高清视频摄像头,摄像头用于捕获场景中行人视频与图片,摄像头数据通过网络传输到云计算平台服务器数据库存储。为了确保数据的实时性,摄像头形成拓扑网络结构部署到场景周围,视频标记时间戳信息。云计算平台数据库采用MongoDB对视频图片信息进行存储。
行人范围提取模块和行人重识别模块为云计算平台服务器的组成部分,行人范围提取模块负责从数据库读取视频数据,利用Yolov3算法对视频中的行人进行定位与跟踪,裁剪出Yolov3算法提取的行人范围,将此范围图片送入基于 ST-SSCA-Net的行人重识别模块,该模块用于对此行人与图片库行人身份进行对比识别;显示模块为实时可视化系统,通过网络将云端行人重识别算法对比结果通过视频标注的形式可视化在监控大屏幕上进行展示。
由于本发明实施例二所介绍的系统,为实施本发明实施例一中基于 ST-SSCA-Net的行人重识别方法所采用的系统,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种基于ST-SSCA-Net的行人重识别方法,其特征在于,包括:
S1:采集预设场景中行人的视频数据;
S2:采用Yolov3算法从采集的视频数据中对行人进行提取,获得包含行人范围的图片;
S3:通过预先构建的神经网络ST-SSCA-Net对基于包含行人范围图片进行重识别,得到识别结果,其中,ST-SSCA-Net的主干网络为去掉最后一层的下采样部分的ResNet50网络,采用SSCA注意力机制对ResNet50网络第一层获取的特征图信息进行增强,利用多层次语义信息及全局、局部特征融合的方法和对网络进行优化。
2.如权利要求1所述的方法,其特征在于,在步骤S3之后,所述方法还包括:
对识别结果进行可视化展示。
3.如权利要求1所述的方法,其特征在于,S1包括:采用边缘端高清视频摄像头对预设场景中行人的视频数据进行采集,并将采集的视频数据实时传输到云端服务器数据库存储。
4.如权利要求3所述的方法,其特征在于,S3中采用SSCA注意力机制对ResNet50网络第一层获得的特征图信息进行增强,利用多层次语义信息及全局、局部特征融合的方法和对网络进行优化,包括:
对ResNet50网络第一层提取的原特征图feature分别进行通道最大池化与通道均值池化,获得最大统计空间注意力spa_max与均值统计空间注意力spa_avg;
将最大统计空间注意力spa_max和均值统计空间注意力spa_avg分别进行softmax激活后相加得到空间注意力A_spa;
将空间注意力A_spa与原特征图feature内积获得全局上下文空间注意力gsc;
对全局上下文空间注意力gsc进行通道压缩、正则化、激活和扩张,获得有全局上下文语义的空间方位各像素之间的关联关系注意力ssca,再将ssca与原特征图feature相加获得SSCA注意力加强的特征,再SSCA注意力加强的特征送入下一残差部分运算,其中,每层之间对特征图采用SSCA注意力整合通道特征与空间特征。
6.一种基于ST-SSCA-Net的行人重识别系统,其特征在于,包括:
视频采集模块,用于采集预设场景中行人的视频数据;
行人范围提取模块,用于采用Yolov3算法从采集的视频数据中对行人进行提取,获得包含行人范围的图片;
行人重识别模块,用于通过预先构建的神经网络ST-SSCA-Net对基于包含行人范围图片进行重识别,得到识别结果,其中,ST-SSCA-Net的主干网络为去掉最后一层的下采样部分的ResNet50网络,采用SSCA注意力机制对ResNet50网络第一层获取的特征图信息进行增强,利用多层次语义信息及全局、局部特征融合的方法和对网络进行优化。
7.如权利要求6所述的系统,其特征在于,还包括显示模块,用于对识别结果进行可视化展示。
8.如权利要求6所述的系统,其特征在于,视频采集模块为高清视频摄像头,形成拓扑网络结构部署到场景周围,采集的视频数据实时传输到云端服务器,并采用MongoDB对采集的视频数据进行存储。
9.如权利要求7所述的系统,其特征在于,所述显示模块为监控显示器,监控显示器置于监控室,用于接收云端服务器传输的监控标记视频数据,并进行高清播放,其中,云端服务器传输的监控标记视频数据为重识别模块获得的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010234813.2A CN111652035B (zh) | 2020-03-30 | 2020-03-30 | 一种基于ST-SSCA-Net的行人重识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010234813.2A CN111652035B (zh) | 2020-03-30 | 2020-03-30 | 一种基于ST-SSCA-Net的行人重识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652035A true CN111652035A (zh) | 2020-09-11 |
CN111652035B CN111652035B (zh) | 2022-05-13 |
Family
ID=72348232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010234813.2A Expired - Fee Related CN111652035B (zh) | 2020-03-30 | 2020-03-30 | 一种基于ST-SSCA-Net的行人重识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652035B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257628A (zh) * | 2020-10-29 | 2021-01-22 | 厦门理工学院 | 一种户外比赛运动员的身份识别方法、装置及设备 |
CN112418345A (zh) * | 2020-12-07 | 2021-02-26 | 苏州小阳软件科技有限公司 | 细粒度小目标快速识别的方法和装置 |
CN113259840A (zh) * | 2021-05-15 | 2021-08-13 | 西南交通大学 | 基于lte性能参数进行列车定位系统 |
CN113852858A (zh) * | 2021-08-19 | 2021-12-28 | 阿里巴巴(中国)有限公司 | 视频处理方法及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180330205A1 (en) * | 2017-05-15 | 2018-11-15 | Siemens Aktiengesellschaft | Domain adaptation and fusion using weakly supervised target-irrelevant data |
CN110046553A (zh) * | 2019-03-21 | 2019-07-23 | 华中科技大学 | 一种融合属性特征的行人重识别模型、方法及系统 |
CN110059616A (zh) * | 2019-04-17 | 2019-07-26 | 南京邮电大学 | 基于融合损失函数的行人重识别模型优化方法 |
CN110110642A (zh) * | 2019-04-29 | 2019-08-09 | 华南理工大学 | 一种基于多通道注意力特征的行人重识别方法 |
CN110309701A (zh) * | 2019-04-17 | 2019-10-08 | 武汉大学 | 一种基于跨视角同一区域的行人重识别方法 |
US20190377987A1 (en) * | 2018-06-10 | 2019-12-12 | Adobe Inc. | Discriminative Caption Generation |
CN110659589A (zh) * | 2019-09-06 | 2020-01-07 | 中国科学院自动化研究所 | 基于姿态和注意力机制的行人再识别方法、系统、装置 |
-
2020
- 2020-03-30 CN CN202010234813.2A patent/CN111652035B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180330205A1 (en) * | 2017-05-15 | 2018-11-15 | Siemens Aktiengesellschaft | Domain adaptation and fusion using weakly supervised target-irrelevant data |
US20190377987A1 (en) * | 2018-06-10 | 2019-12-12 | Adobe Inc. | Discriminative Caption Generation |
CN110046553A (zh) * | 2019-03-21 | 2019-07-23 | 华中科技大学 | 一种融合属性特征的行人重识别模型、方法及系统 |
CN110059616A (zh) * | 2019-04-17 | 2019-07-26 | 南京邮电大学 | 基于融合损失函数的行人重识别模型优化方法 |
CN110309701A (zh) * | 2019-04-17 | 2019-10-08 | 武汉大学 | 一种基于跨视角同一区域的行人重识别方法 |
CN110110642A (zh) * | 2019-04-29 | 2019-08-09 | 华南理工大学 | 一种基于多通道注意力特征的行人重识别方法 |
CN110659589A (zh) * | 2019-09-06 | 2020-01-07 | 中国科学院自动化研究所 | 基于姿态和注意力机制的行人再识别方法、系统、装置 |
Non-Patent Citations (3)
Title |
---|
DANIEL ORGANISCIAK 等: "Triplet Loss with Channel Attention for Person Re-identification", 《RESEARCHGATE》 * |
YINGYING ZHANG 等: "Learning Incremental Triplet Margin for Person Re-identification", 《ARXIV》 * |
陈巧媛 等: "基于困难样本三元组损失的多任务行人再识别", 《基于困难样本三元组损失的多任务行人再识别》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257628A (zh) * | 2020-10-29 | 2021-01-22 | 厦门理工学院 | 一种户外比赛运动员的身份识别方法、装置及设备 |
CN112418345A (zh) * | 2020-12-07 | 2021-02-26 | 苏州小阳软件科技有限公司 | 细粒度小目标快速识别的方法和装置 |
CN112418345B (zh) * | 2020-12-07 | 2024-02-23 | 深圳小阳软件有限公司 | 细粒度小目标快速识别的方法和装置 |
CN113259840A (zh) * | 2021-05-15 | 2021-08-13 | 西南交通大学 | 基于lte性能参数进行列车定位系统 |
CN113852858A (zh) * | 2021-08-19 | 2021-12-28 | 阿里巴巴(中国)有限公司 | 视频处理方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111652035B (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652035B (zh) | 一种基于ST-SSCA-Net的行人重识别方法及系统 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN107153817B (zh) | 行人重识别数据标注方法和装置 | |
CN110263712B (zh) | 一种基于区域候选的粗精行人检测方法 | |
CN104303193A (zh) | 基于聚类的目标分类 | |
CN109492583A (zh) | 一种基于深度学习的车辆重识别方法 | |
CN110555420B (zh) | 一种基于行人区域特征提取和重识别融合模型网络及方法 | |
CN113269091A (zh) | 一种面向智慧园区的人员轨迹分析方法、设备及介质 | |
CN110796074A (zh) | 一种基于时空数据融合的行人再识别方法 | |
CN112634369A (zh) | 空间与或图模型生成方法、装置、电子设备和存储介质 | |
CN112634368A (zh) | 场景目标的空间与或图模型生成方法、装置及电子设备 | |
CN113963399A (zh) | 基于多算法融合应用的人员轨迹检索方法及装置 | |
US20230095533A1 (en) | Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling | |
CN115620090A (zh) | 模型训练方法、低照度目标重识别方法和装置、终端设备 | |
CN112733666A (zh) | 一种难例图像的搜集、及模型训练方法、设备及存储介质 | |
CN112907138B (zh) | 一种从局部到整体感知的电网场景预警分类方法及系统 | |
CN116704490B (zh) | 车牌识别方法、装置和计算机设备 | |
CN111897993A (zh) | 一种基于行人再识别的高效目标人物轨迹生成方法 | |
CN116311166A (zh) | 交通障碍物识别方法、装置及电子设备 | |
Li et al. | Fast monocular visual place recognition for non-uniform vehicle speed and varying lighting environment | |
CN114387496A (zh) | 一种目标检测方法和电子设备 | |
CN114445787A (zh) | 非机动车重识别方法及相关设备 | |
Ay et al. | A New Automatic Vehicle Tracking and Detection Algorithm for Multi-Traffic Video Cameras. | |
Alfarrarjeh et al. | Object Detection and Counting Challenges in Real Street Monitoring: Case Study of Homeless Encampments | |
CN116453194B (zh) | 一种人脸属性判别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220513 |