CN111931624B - 基于注意力机制的轻量级多分支行人重识别方法及系统 - Google Patents

基于注意力机制的轻量级多分支行人重识别方法及系统 Download PDF

Info

Publication number
CN111931624B
CN111931624B CN202010767119.7A CN202010767119A CN111931624B CN 111931624 B CN111931624 B CN 111931624B CN 202010767119 A CN202010767119 A CN 202010767119A CN 111931624 B CN111931624 B CN 111931624B
Authority
CN
China
Prior art keywords
module
branch
global
feature
inclusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010767119.7A
Other languages
English (en)
Other versions
CN111931624A (zh
Inventor
钟福金
朱逸成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Totem Technology Hefei Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010767119.7A priority Critical patent/CN111931624B/zh
Publication of CN111931624A publication Critical patent/CN111931624A/zh
Application granted granted Critical
Publication of CN111931624B publication Critical patent/CN111931624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及行人重识别系统领域,具体涉及一种基于注意力机制的轻量级多分支行人重识别方法及系统,包括:获取带有行人的图片集合作为数据集,对数据集进行预处理;将预处理后的数据集输入到主干网络中通过多个轻量级模块对全局特征提取以构建全局支路;将全局特征支路提取的特征分享到局部分支中,构建局部分支,进行局部特征提取;联合全局分支损失和局部分支损失进行交叉熵损失求解,并将损失之和回传给神经网络进行迭代训练;训练完成后,将包含行人的图像输入到训练好的神经网络模型中,按照相似度进行排序得到行人重识别结果,并对行人图片进行可视化。本发明计算成本较低,精度高,便于在移动端部署,增加了相关产品的适用性。

Description

基于注意力机制的轻量级多分支行人重识别方法及系统
技术领域
本发明涉及行人重识别系统领域,具体涉及一种基于注意力机制的轻量级多分支行人重识别方法及系统。
背景技术
行人重识别也称行人再识别,被广泛认为是一个图像检索的子问题,是利用计算机视觉技术判断图像或者视频中是否存在特定行人的技术,即给定一个监控行人图像检索跨设备下的该行人图像。行人重识别技术可以弥补目前固定摄像头的视觉局限,并可与行人检测、行人跟踪技术相结合,随着公共安全的需要,大规模的监控应用在城市道路中,特别是视频监控、智能安防等领域。
由于视频监控中的摄像机通常不能覆盖所有角落,且由于行人、车辆的遮挡、行人的位置任意变动,都会导致行人在摄像机网络中的运动轨迹出现变动或者丢失。而当该行人再次出现时,就需要用计算机视觉技术,利用行人特征和相似度将行人轨迹关联起来。行人重识别就是在这一需求下产生的,专门用于解决跨摄像机视角下行人匹配的问题。
实际应用中,由于应用场景的复杂性,行人重识别的研究仍然非常具有挑战性。这是因为在自然条件下识别非常复杂,如在识别同一个目标时,视角变化、尺度变化、低分辨率、光照变化、姿态多变性、部分遮挡等,都会影响目标的特征提取,并最终影响图像相似度的可靠性和行人重识别的性能。因此,如何使用注意力机制引导CNN模型对图片显著区域进行关注,避免无用信息的干扰成为了主要的问题。
注意力机制是图像识别领域中常见的特征强化策略,来源于对人类视觉观察方式的模仿,在物体观察与识别时会忽视全局信息和背景信息,有针对性的把视觉注意力集中在物体的显著部分,通过对物体局部信息的理解综合得到对整个物体的理解,在图片识别任务中,视觉注意力机制能有针对性的弱化出无用的信息,让模型集中于显著信息的理解,从而有效的减缓复杂背景、物体遮挡所带来的干扰。对于研究鲁棒的行人重识别模型和算法具有很强的理论价值和广阔的应用前景。
发明内容
为了解决上述问题,本发明提供一种基于注意力机制的轻量级多分支行人重识别方法及系统。
一种基于注意力机制的轻量级多分支行人重识别方法,包括以下步骤:
获取带有行人的图片集合作为数据集,对数据集进行预处理;
将预处理后的数据集输入到改进的轻量级网络中,先构建全局特征支路,通过全局特征支路的轻量级模块对预处理后的数据集进行全局特征提取,得到全局特征和全局分支损失;
将全局特征分享到局部分支中,构建局部分支,并通过局部分支的轻量级模块进行局部特征提取,得到局部特征和局部分支损失;
联合全局分支损失和局部分支损失进行交叉熵损失求解,并将损失之和回传给神经网络进行迭代训练,直至神经网络的总损失趋于稳定时,训练完成,得到训练好的神经网络模型,训练好的神经网络模型中包括全部CNN架构及训练的全部参数;
将包含行人的图像输入到训练好的神经网络模型中,神经网络模型按照输入的图像输出预测结果,得到并输出MAP和Rank-1正确率,并对结果进行可视化。
进一步的,所述全局特征支路由一个预处理基本卷积块、第一特征提取模块、第二特征提取模块和第三特征提取模块串联而成。
进一步的,对于任意一个特征提取模块,包含一个Inception-A模块、一个Inception-B模块和一个HA模块,且Inception-A模块、Inception-B模块和HA模块依次串联,其中,第一特征提取模块由串联的第一Inception-A模块、第一Inception-B模块和第一HA模块组成,第二特征提取模块由串联的第二Inception-A模块、第二Inception-B模块和第二HA模块组成,第三特征提取模块由串联的第三Inception-A模块、第三Inception-B模块和第三HA模块组成,Inception-A模块、Inception-B模块用于提取特征,HA模块由软注意力模块和硬注意力模块组成,HA模块用于融合硬注意力和软注意力。
进一步的,通过全局特征支路的轻量级模块对预处理后的数据集进行全局特征提取,得到全局特征和全局分支损失,具体包括:首先将预处理后的数据集通过一个基本卷积块进行特征提取,然后再将经过基本卷积块的特征图输入到全局特征支路,在全局特征支路中,首先经过第一特征提取模块进行特征提取,得到第一特征图和第一硬注意力位置信息,将获得的第一硬注意力位置信息反馈到第一Inception-A模块和第一Inception-B模块之前,用于传递给局部特征支路,将第一特征图传输至第二特征提取模块进行特征提取,得到第二特征图和第二硬注意力位置信息,并将得到的第二硬注意力位置信息反馈到第二Inception-A模块和第二Inception-B模块之前,用于传递给局部特征支路,将会第二特征图传输至第三特征模块进行特征提取,得到第三特征图和第三硬注意力位置信息,将获得的第三硬注意力位置信息反馈到第三Inception-A模块和第三Inception-B模块之前,用于传递给局部特征支路,最后将第三特征图通过GeM层和一个全连接层fc,得到全局特征和全局分支损失。
进一步的,第一特征提取模块进行特征提取包括:经过基本卷积块的特征图首先经过第一特征提取模块的第一Inception-A模块和第一Inception-B模块,然后经过第一特征提取模块的第一HA模块,在第一HA模块中将空间注意力和深度注意力相乘以后,获得第一特征图和第一硬注意力位置信息。
进一步的,联合全局分支损失和局部分支损失进行交叉熵损失求解包括:
Figure BDA0002615100410000031
Figure BDA0002615100410000032
其中,
Figure BDA0002615100410000041
是由l+1层得到的硬注意力区域输入回来的对应到l层的相应位置的全局特征,
Figure BDA0002615100410000042
是第k个区域的局部特征,
Figure BDA0002615100410000043
是第k个区域的全局特征,
Figure BDA0002615100410000044
表示交叉熵损失,
Figure BDA0002615100410000045
为局部损失,
Figure BDA0002615100410000046
为全局损失,T表示行人图像的T个局部图像区域。
进一步的,全局特征支路由3个块串联而成,每个块中包括一个Inception-A模块、一个Inception-B模块和一个HA模块,其中,Inception-A模块和Inception-B模块用于提取特征,HA模块用于融合硬注意力和软注意力。
一种基于注意力机制的轻量级多分支行人重识别系统,包括:图像获取模块、数据预处理模块、神经网络训练模块、图像识别模块、存储模块、可视化模块和输出模块;所述图像获取模块用于输入数据集,获取历史图像数据集和实时图像数据;所述数据预处理模块用于对输入的历史图像数据集中的原始图像进行翻转、裁剪、擦除和随机修复处理,对有限的训练数据进行扩增;所述神经网络训练模块用于训练神经网络,最终得到训练好的神经网络模型,所述神经网络训练模块包括全局分支模块、局部分支模块、共享模块、软注意力模块、硬注意力模块,所述全局分支模块用于全局特征的提取与学习,所述局部分支模块用于局部特征的提取和学习,共享模块作为全局分支模块和局部分支模块之间的共享层,允许全局分支的“知识”转移到局部分支;所述图像识别模块通过训练好的神经网络模型对实时图像数据可进行处理,得到并输出预测结果;所述存储模块用于存储预测结果;所述可视化模块用于输出rank可视化结果和激活图;所述输出模块用于输出行人图片的分类结果。
本发明的有益效果:
(1)本发明的多分支行人重识别方法速度快、精度高,网络小。本发明的轻量级多分支网络结构,使得神经网络既能适应地调节全局特征支路的权重,又能在局部分支中共享在全局特征支路提取到的全局信息,联合全局分支—局部分支结构,共享不同类型、层次、深度的行人特征,增强了网络的特征表达能力,又不会带来过多的参数量和计算量,能够以略大于普通卷积块的参数量达到超过注意力模块精度的效果。
(2)本发明提出了一种轻量级卷积块,该轻量级卷积块采用3×3大小、步长为1的深度卷积模块,取消了BN层,在不提高计算量的情况下,能够使得网络输出越来越准确。
(3)本发明在软注意力模块中嵌入了SE块,以便在通道和空间注意力部分能够提取到更精确范围内的特征,提高全局特征支路网络所提取特征的精度,在共享特征时的同时提高局部分支所获得的细节特征。
(4)本发明在全局特征支路后采用GeM(广义均值池化)而非GAP(全局平均池化),以便增大输入特征图的对比度,专注于输入特征图突出、跳跃的部分,提高网络对特征区域的敏感性。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1为本发明实施例的训练流程示意图;
图2为本发明实施例的一种基于注意力机制的轻量级多分支网络结构示意图;
图3为本发明实施例的轻量级多分支网络结构示意图;
图4为本发明实施例的轻量级卷积块的结构示意图;
图5为本发明实施例的应用效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于注意力机制的轻量级多分支行人重识别方法,包括但不限于以下步骤:
在行人重识别任务数据集Market-1501中获取训练集和测试集,对训练集进行预处理。
获取Market-1501行人重识别数据集,该数据集包括由6个摄像头(其中5个高清摄像头和1个低清摄像头)拍摄到的1501个行人、32668个检测到的行人矩形框。其中,训练集有751人,包含12,936张图像;测试集有750人,包含19,732张图像;3368张查询图像。
对训练集进行预处理,进行数据增强,包括:对训练集中的行人图片进行随机水平翻转、随机裁剪、随机擦除、随机修复等一系列数据扩增操作,并将训练集中的行人图片大小统一改变为160×64,扩增数据集的大小,增强模型泛化能力。
将数据增强后的训练集依次输入到神经网络中,进行网络模型的训练。
本发明所选用的神经网络是基于轻量级网络inceptionV4的改进网络,该网络采用全局分支—局部分支结构,不采用额外的残差块,不采用预训练模型,具有网络结构简单、网络参数少的优点。
在一个实施例中,如图2所示,所述神经网络的结构包括:预处理基本卷积块、全局特征支路(即网络的骨干部分)、多个局部特征支路。其中,预处理基本卷积块的核为3×3、通道数为32、步长为2,主要用于对输入的行人图片进行特征提取,并将提取的特征图传输给全局特征支路和局部分支。所述全局特征支路用于提取行人图片的全局特征,所述局部特征支路用于提取行人图片的局部特征。
在一些实施例中,一个局部分支由具有相同结构的T个流组成,每个流是用于学习人的边界框图像的T个局部图像区域中最具有区别性的视觉特征。
将预处理后的训练集中的行人图片输入到改进的轻量级网络中,首先经过一个基本卷积块进行特征提取并改变特征图大小,具体的,经过核为3×3、通道数为32、步长为2的基本卷积块进行特征提取,得到大小为80×32×32的特征图输出,将该基本卷积块的输出特征图作为全局—局部分支的输入特征图。
将经过预处理基本卷积块的特征图输入到全局分支中,构建全局特征支路,进行全局特征提取,得到全局向量特征和全局分支损失LossG;
在一个实施例中,所述全局特征支路由一个预处理基本卷积块和3个特征提取模块串联而成,3个特征提取模块分别是第一特征提取模块、第二特征提取模块和第三特征提取模块。对于任一特征提取模块均包括一个Inception-A模块、一个Inception-B模块和一个HA(Harmonious Attention)模块,其中,第一特征提取模块由串联的第一Inception-A模块、第一Inception-B模块和第一HA模块组成,第二特征提取模块由串联的第二Inception-A模块、第二Inception-B模块和第二HA模块组成,第三特征提取模块由串联的第三Inception-A模块、第三Inception-B模块和第三HA模块组成。Inception-A模块、Inception-B模块都是用来提取特征的,HA模块用于融合硬注意力和软注意力,在功能上模拟了人类大脑的背部和腹部注意机制。
在一些实施例中,一个inception-A/B模块内部包括基本卷积模块、聚合模块、和多条具有多个轻量级卷积块的轻量级卷积块支路,如图3所示是一个轻量级多分支网络结构的示意图,其中,一个inception-A/B模块内部包括一个基本卷积模块、3条轻量级卷积块支路和一个聚合模块,所述基本卷积模块核为3×3、通道数为32、步长为2,用于提取输入inception-A/B模块的图像特征;3条轻量级卷积块支路分别是第一轻量级卷积块支路、第二轻量级卷积块支路和第三轻量级卷积块支路,其中第一轻量级卷积块支路具有一个轻量级卷积块,第二轻量级卷积块支路由两个轻量级卷积块串联组成,第三轻量级卷积块支路由三个轻量级卷积块串联组成;第一轻量级卷积块支路、第二轻量级卷积块支路和第三轻量级卷积块支路均与基本卷积块的输出端连接,基本卷积块的输出结果作为多条支路的的输入;所述聚合模块用于将第一轻量级卷积块支路、第二轻量级卷积块支路和第三轻量级卷积块支路上提取的特征进行拼接作为inception-A/B模块的输出结果。
进一步的,在一些实施例中,所述轻量级卷积块采用3×3大小、步长为1的深度卷积模块。
进一步的,在一些实施例中,所述预处理基本卷积块和基本卷积块的结构一致,核为3×3、通道数为32、步长为2。
HA模块由软注意力模块和硬注意力模块组成,其中,软注意力模块包括空间注意力模块和通道注意力模块,从上层获取的特征分别通过空间注意力模块和通道注意力模块后进行相乘,最后将相乘所获得的结果通过sigmoid函数进行激活。
所述空间注意力模块包括一个全局的跨通道平均池层,一个核为3×3、步长为2的卷积层,一个双线性层,一个自适应学习融合层和一个SE块,将输入的大小为h×w×c的特征图变更为h×w×1,相对于第二层卷积降低了c倍的参数,公式为:
Figure BDA0002615100410000081
其中,
Figure BDA0002615100410000082
为经过神经网络后的空间注意力输出,h为输入的行人图片高度,w为输入的行人图片宽度,c为输入的通道数,
Figure BDA0002615100410000083
表示第l层卷积层中通道i的空间注意力输出,l表示第l层卷积层。
所述通道注意力模块是将h×w×c的输入经过一个池化层(0参数)变为1×1×c,再通过
Figure BDA0002615100410000084
个1×1、步长为1的卷积层得到
Figure BDA0002615100410000085
的特征,最后通过c个1×1、步长为1的卷积层得到1×1×c的特征,公式为:
Figure BDA0002615100410000086
其中,
Figure BDA0002615100410000087
为经过神经网络后的通道注意力输出,h为输入的行人图片高度,w为输入的行人图片宽度,c为输入的通道数,
Figure BDA0002615100410000088
表示第l层卷积层中通道c的通道注意力输出。
最后,将空间注意力分支得到的h×w×1和通道注意力得到的1×1×c相乘之后,再经过c个1×1的卷积核,得到最终的软注意力,并采用sigmoid操作将最终的软注意力正则化到0.5-1之间。
其中,硬注意力模块通过如下转换矩阵来定位输入的行人图像中T个潜在的显著性区域:
Figure BDA0002615100410000091
其中,Al表示定位行人图像中T个潜在的显著性区域的转换矩阵,shsw为比例因子,txty为二维空间位置。
通过变换两个尺度参数shsw和txty对图像进行裁剪、平移和缩放变换。为了减小模型复杂度,事先固定区域大小shsw的值,因此学习的模型只用输出T对txty的值。
HA模块是模块化的,可以进行多层次的关注学习,不仅简化了注意力建模的复杂性,而且还以顺序方式提供额外的注意力补充。
经过预处理基本卷积块的特征图大小为80×32×32,将其输入到全局特征支路(网络的骨干部分),在全局特征支路中,首先经过第一Inception-A模块和第一Inception-B模块,得到大小为80×32×d1的特征图,然后经过第一HA模块,在第一HA模块中将空间注意力和深度注意力相乘以后特征图大小变为40×16×d1,即第一特征图,同时获得第一硬注意力位置信息(T个box的坐标)。将获得的第一硬注意力位置信息反馈到第一Inception-A模块和第一Inception-B模块之前,用于传递给局部特征支路;将上述得到的大小为40×16×d1的第一特征图经过第二Inception-A模块和第二Inception-B模块,得到大小为40×16×d2的特征图,然后经过第二HA模块,在第二HA模块中将空间注意力和深度注意力相乘以后特征图大小变为20×8×d2,即获得第二特征图20×8×d2,同时获得第二硬注意力位置信息,并将得到的第二硬注意力位置信息反馈到第二Inception-A模块和第二Inception-B模块之前,用于传递给局部特征支路。将上述得到的大小为20×8×d2的第二特征图再经过第三Inception-A模块和第三Inception-B模块后大小变为20×8×d3,然后经过第三HA模块乘以空间、深度注意力后,得到大小为10×4×d3的特征图,即第三特征图,同时获得第三硬注意力位置信息,并将获得的第三硬注意力位置信息反馈到第三Inception-A模块和第三Inception-B模块之前,用于传递给局部特征支路,最后将得到的大小为10×4×d3的第三特征图通过GeM层,来更好的表示从行人图像中提取到的特征信息,得到大小为1×d3的特征图,再经过一个全连接层fc,得到512维的全局向量特征和全局分支损失LossG。
经过全局特征支路提取特征后,通过全局支路与局部支路之间的共享层将全局特征支路提取的特征分享到3个局部分支中,构建局部分支,并进行局部特征提取,得到局部向量特征和局部分支损失LossL。
所述局部分支用来提取局部特征,主要包括3个局部分支网络,每个局部分支网络包含3个Inception-B模块,分别是第四Inception-B模块、第五Inception-B模块、第六Inception-B模块。
在一个实施例中,每个局部支路有4个具有相同结构的本地流(Tstreams,T=4),本地流是为了学习人的边界框图像的T个局部图像区域中最具有区别性的视觉特征。
进一步的,在一个实施例中,构建局部支路过程包括以下步骤:每支网络的输入来自预处理基本卷积块得到的80×32×32特征图,经过第四Inception-B模块,得到大小为12×14×d1的特征图,然后将全局特征支路的第一特征图40×16×d1乘以
Figure BDA0002615100410000101
从中找到与特征图12×14×d1相对应的位置,并将得到的特征图12×14×d1与全局特征支路的第一特征图40×16×d1的对应位置相加,得到跨越注意力。全局分支对应的特征图的1/T对应的是原图同样的部分,全局分支经过多层卷积层,再和局部特征支路相加可以使局部特征支路在经过卷积层少的情况下仍然有较好的表达能力。跨越注意力主要利用了全局特征支路的表达能力,使局部分支不丢失表达能力的情况下能够减少卷积层数,降低参数量。因为全局特征支路经过的卷积层多,和局部分支相加就可以使局部分支在经过卷积层少的情况下仍然有较好的表达能力。相加后12×14×d1经过第五Inception-B模块,得到大小为6×7×d2的特征图,将得到的6×7×d2特征图和全局特征支路特征图对应位置、
Figure BDA0002615100410000111
大小相加,相加后6×7×d2经过第六Inception-B模块,得到大小为3×4×d3的特征图,将得到的3×4×d3特征图再和全局特征支路特征图对应位置、
Figure BDA0002615100410000112
大小相加,最后经过全局平均池化层GAP后变成1×d3,将T个局部特征支路得到的T个1×d3连接在一起后再经过全连接层fc,得到512维的局部向量特征LossL。
最后,将512维的全局向量特征和512维的局部向量特征连接在一起构成1024维的向量特征。
联合全局分支损失lossG和局部分支损失lossL进行交叉熵损失求解,对全局分支和局部分支进行联合优化求解,对神经网络进行迭代训练。
具体的,通过反向传播最小化损失函数,通过对全局特征支路和局部特征支路进行联合优化,对神经网络进行迭代训练,反向传播过程中,全局特征支路从全局特征支路和局部特征支路获取梯度,因此全局分支损失lossG和局部分支损失lossL同时用于优化全局特征支路的
Figure BDA0002615100410000113
参数,因此,全局特征支路的学习与多个层次的局部特征支路的学习相互作用,而两者都受到相同的约束。交叉熵损失求解的公式如下所示:
Figure BDA0002615100410000114
Figure BDA0002615100410000115
其中,
Figure BDA0002615100410000116
是由l+1层得到的硬注意力区域输入回来的对应到l层的相应位置的全局特征,
Figure BDA0002615100410000117
是第k个区域的局部特征,
Figure BDA0002615100410000118
是第k个区域的全局特征,
Figure BDA0002615100410000119
表示交叉熵损失,
Figure BDA00026151004100001110
为局部损失,
Figure BDA00026151004100001111
为全局损失,T表示行人图像的T个局部图像区域。
进一步的,在一个实施例中,使用随机梯度下降SGD优化器进行训练,如图4所示。
经过多轮训练后,神经网络总损失趋于稳定,迭代过程结束,训练完成,得到训练好的网络模型,如图2、图3所示,训练好的网络模型中包括全部CNN架构及训练的全部参数;
将测试集输入到训练好的神经网络模型中,训练好的神经网络模型输出预测结果,将预测结果和测试集原数据对比并输出MAP和Rank-1正确率,再将神经网络模型输入到可视化模块中,可以得到rank可视化结果和激活图(activation maps),如图5所示。
一种基于注意力机制的轻量级多分支行人重识别系统,包括:图像获取模块、数据预处理模块、神经网络训练模块、图像识别模块、存储模块、可视化模块和输出模块;
图像获取模块作为整个系统的数据读取入口,用于输入数据集,获取获取历史图像数据集和实时图像数据;
数据预处理模块用于对输入的历史图像数据集中的原始图像进行翻转、裁剪、擦除和随机修复处理,对有限的训练数据进行扩增,使得网络能够学习到更加复杂的遮挡情况下的特征,能够应对更加复杂的识别情况;
所述神经网络训练模块用于神经网络的训练与测试,是整个系统的核心模块,所述神经网络训练模块包括全局分支模块、局部分支模块、共享模块、软注意力模块、硬注意力模块,所述全局分支模块用于全局特征的提取与学习,所述局部分支模块用于局部特征的提取和学习,共享模块作为全局分支模块和局部分支模块之间的共享层,允许全局分支的“知识”转移到局部分支;
进一步的,神经网络训练模块包括共享模块、全局模块以及局部模块,共享模块作为全局模块和局部模块之间的共享层,允许不同分支间的“知识”转移,全局模块中的数据可以通过共享模块转移到局部模块;局部模块也可以通过共享模块转移到全局模块;全局模块由3个inceptionA、3个inceptionB模块和3个HA模块组合而成,用于全局特征的提取和学习,并且能够将一些重要特征共享给局部分支。每个局部模块主要由3个inceptionB模块组成,用于对局部特征进行提取和学习。
进一步的,所述的轻量级多分支网络包括:轻量级卷积块、SE块。
更进一步的,轻量级卷积块包括卷积模块、深度卷积模块和通道注意力模块。
通道注意力模块用于自适应的调整各卷积滤波器的权重,使得对任务更有效的特征的通道权重更大,效果小的或无效的特征的通道权重更小。
深度卷积模块可以在损失精度不多的情况下大幅度降低参数量和计算量。
进一步的,轻量级卷积模块中包括卷积模块、深度卷积模块和通道注意力模块,如图4所示,1×1大小的卷积模块用于整合各个通道的信息,同时缩减输出通道数,以此压缩参数量;本发明采用3×3大小、步长为1的深度卷积模块,用于对特征图进行运算,大幅度降低参数量和计算量;最后使用通道注意力模块对深度卷积模块得到的特征图进行挤压操作,得到通道级的全局特征,然后对全局特征进行激励操作,学习各个通道间的关系,也得到不同通道的权重,最后乘以原来的特征图得到最终特征,对于使对任务更有效的特征的通道权重更大,效果小的或无效的特征的通道权重更小,抑制那些不重要的通道特征。最终的轻量级卷积模块结构组合如图3所示。
所述图像识别模块通过训练好的神经网络模型对实时图像数据可进行处理,得到并输出预测结果。
所述存储模块用于存储预测结果。
所述可视化模块用于输出rank可视化结果和激活图(activation maps)。
所述输出模块用于输出行人图片的分类结果。
当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
此外,术语“第一”、“第二”、“第三”、“第四”、“第五”、“第六”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,由此,限定有“第一”、“第二”、“第三”、“第四”、“第五”、“第六”的特征可以明示或者隐含地包括至少一个该特征。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种基于注意力机制的轻量级多分支行人重识别方法,其特征在于,包括以下步骤:
将包含行人的图像输入到训练好的神经网络模型中,神经网络模型按照输入的图像输出预测结果,得到并输出MAP和Rank-1正确率,并对结果进行可视化;
所述训练好的神经网络模型采用以下方式获取:
获取带有行人的图片集合作为数据集,对数据集进行预处理;
将预处理后的数据集输入到改进的轻量级网络中,先构建全局特征支路,通过全局特征支路的轻量级模块对预处理后的数据集进行全局特征提取,得到全局特征和全局分支损失;
将全局特征分享到局部分支中,构建局部分支,并通过局部分支的轻量级模块进行局部特征提取,得到局部特征和局部分支损失;
联合全局分支损失和局部分支损失进行交叉熵损失求解,并将损失之和回传给神经网络进行迭代训练,直至神经网络的总损失趋于稳定时,训练完成,得到训练好的神经网络模型,训练好的神经网络模型中包括全部CNN架构及训练的全部参数;
所述全局特征支路由一个预处理基本卷积块、第一特征提取模块、第二特征提取模块和第三特征提取模块串联而成;
对于任意一个特征提取模块,包含一个Inception-A模块、一个Inception-B模块和一个HA模块,且Inception-A模块、Inception-B模块和HA模块依次串联,其中,第一特征提取模块由串联的第一Inception-A模块、第一Inception-B模块和第一HA模块组成,第二特征提取模块由串联的第二Inception-A模块、第二Inception-B模块和第二HA模块组成,第三特征提取模块由串联的第三Inception-A模块、第三Inception-B模块和第三HA模块组成,Inception-A模块、Inception-B模块用于提取特征,HA模块由软注意力模块和硬注意力模块组成,HA模块用于融合硬注意力和软注意力;
一个inception-A模块内部包括一个基本卷积模块、3条轻量级卷积块支路和一个聚合模块,所述基本卷积模块核为3×3、通道数为32、步长为2,用于提取输入inception-A模块的图像特征;3条轻量级卷积块支路分别是第一轻量级卷积块支路、第二轻量级卷积块支路和第三轻量级卷积块支路,其中第一轻量级卷积块支路具有一个轻量级卷积块,第二轻量级卷积块支路由两个轻量级卷积块串联组成,第三轻量级卷积块支路由三个轻量级卷积块串联组成;第一轻量级卷积块支路、第二轻量级卷积块支路和第三轻量级卷积块支路均与基本卷积块的输出端连接,基本卷积块的输出结果作为多条支路的输入;所述聚合模块用于将第一轻量级卷积块支路、第二轻量级卷积块支路和第三轻量级卷积块支路上提取的特征进行拼接作为inception-A模块的输出结果;inception-B模块的结构与inception-A模块相同;
软注意力模块包括空间注意力模块和通道注意力模块,所述空间注意力模块包括一个全局的跨通道平均池层,一个核为3×3、步长为2的卷积层,一个双线性层,一个自适应学习融合层和一个SE块。
2.根据权利要求1所述的一种基于注意力机制的轻量级多分支行人重识别方法,其特征在于,通过全局特征支路的轻量级模块对预处理后的数据集进行全局特征提取,得到全局特征和全局分支损失,具体包括:首先将预处理后的数据集通过一个基本卷积块进行特征提取,然后再将经过基本卷积块的特征图输入到全局特征支路,在全局特征支路中,首先经过第一特征提取模块进行特征提取,得到第一特征图和第一硬注意力位置信息,将获得的第一硬注意力位置信息反馈到第一Inception-A模块和第一Inception-B模块之前,用于传递给局部特征支路,将第一特征图传输至第二特征提取模块进行特征提取,得到第二特征图和第二硬注意力位置信息,并将得到的第二硬注意力位置信息反馈到第二Inception-A模块和第二Inception-B模块之前,用于传递给局部特征支路,将会第二特征图传输至第三特征模块进行特征提取,得到第三特征图和第三硬注意力位置信息,将获得的第三硬注意力位置信息反馈到第三Inception-A模块和第三Inception-B模块之前,用于传递给局部特征支路,最后将第三特征图通过GeM层和一个全连接层fc,得到全局特征和全局分支损失。
3.根据权利要求2所述的一种基于注意力机制的轻量级多分支行人重识别方法,其特征在于,第一特征提取模块进行特征提取包括:经过基本卷积块的特征图首先经过第一特征提取模块的第一Inception-A模块和第一Inception-B模块,然后经过第一特征提取模块的第一HA模块,在第一HA模块中将空间注意力和深度注意力相乘以后,获得第一特征图和第一硬注意力位置信息。
4.根据权利要求1所述的一种基于注意力机制的轻量级多分支行人重识别方法,其特征在于,联合全局分支损失和局部分支损失进行交叉熵损失求解包括:
Figure FDA0003837179590000031
Figure FDA0003837179590000032
其中,
Figure FDA0003837179590000033
是由l+1层得到的硬注意力区域输入回来的对应到l层的相应位置的全局特征,
Figure FDA0003837179590000034
是第k个区域的局部特征,
Figure FDA0003837179590000035
是第k个区域的全局特征,
Figure FDA0003837179590000036
表示交叉熵损失,
Figure FDA0003837179590000037
为局部损失,
Figure FDA0003837179590000038
为全局损失,T表示行人图像的T个局部图像区域。
5.根据权利要求1所述的一种基于注意力机制的轻量级多分支行人重识别方法,其特征在于,全局特征支路由3个块串联而成,每个块中包括一个Inception-A模块、一个Inception-B模块和一个HA模块,其中,Inception-A模块和Inception-B模块用于提取特征,HA模块用于融合硬注意力和软注意力。
6.一种基于注意力机制的轻量级多分支行人重识别系统,其特征在于,包括:图像获取模块、数据预处理模块、神经网络训练模块、图像识别模块、存储模块、可视化模块和输出模块;
所述图像获取模块用于获取历史图像数据集和实时图像数据;
所述数据预处理模块用于对输入的历史图像数据集的原始图像进行翻转、裁剪、擦除和随机修复处理,对有限的训练数据进行扩增;
所述神经网络训练模块用于训练神经网络,最终得到训练好的神经网络模型,所述神经网络训练模块包括全局分支模块、局部分支模块、共享模块、软注意力模块、硬注意力模块,所述全局分支模块用于全局特征的提取与学习,所述局部分支模块用于局部特征的提取和学习,共享模块作为全局分支模块和局部分支模块之间的共享层,允许全局分支的“知识”转移到局部分支;
所述图像识别模块通过训练好的神经网络模型对实时图像数据可进行处理,得到并输出预测结果;
所述存储模块用于存储预测结果;
所述可视化模块用于输出rank可视化结果和激活图;
所述输出模块用于输出行人图片的分类结果。
CN202010767119.7A 2020-08-03 2020-08-03 基于注意力机制的轻量级多分支行人重识别方法及系统 Active CN111931624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010767119.7A CN111931624B (zh) 2020-08-03 2020-08-03 基于注意力机制的轻量级多分支行人重识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010767119.7A CN111931624B (zh) 2020-08-03 2020-08-03 基于注意力机制的轻量级多分支行人重识别方法及系统

Publications (2)

Publication Number Publication Date
CN111931624A CN111931624A (zh) 2020-11-13
CN111931624B true CN111931624B (zh) 2023-02-07

Family

ID=73306381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010767119.7A Active CN111931624B (zh) 2020-08-03 2020-08-03 基于注意力机制的轻量级多分支行人重识别方法及系统

Country Status (1)

Country Link
CN (1) CN111931624B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158739B (zh) * 2021-01-28 2024-01-05 中山大学 基于注意力机制的孪生网络解决换装行人重识别的方法
CN112836637B (zh) * 2021-02-03 2022-06-14 江南大学 一种基于空间逆向注意网络的行人重识别方法
CN113158815B (zh) * 2021-03-27 2023-05-12 复旦大学 一种无监督行人重识别方法、系统及计算机可读介质
WO2022204868A1 (zh) * 2021-03-29 2022-10-06 深圳高性能医疗器械国家研究院有限公司 一种基于多重约束的卷积神经网络校正图像伪影的方法
CN112927783B (zh) * 2021-03-30 2023-12-26 泰康同济(武汉)医院 图像检索方法及装置
CN113516012B (zh) * 2021-04-09 2022-04-15 湖北工业大学 一种基于多层级特征融合的行人重识别方法及系统
CN113409191B (zh) * 2021-06-02 2023-04-07 广东工业大学 一种基于注意力反馈机制的轻量级图像超分方法及系统
CN113537032B (zh) * 2021-07-12 2023-11-28 南京邮电大学 一种基于图片分块丢弃的分集多支路行人重识别方法
CN113420742B (zh) * 2021-08-25 2022-01-11 山东交通学院 一种用于车辆重识别的全局注意力网络模型
CN114529836B (zh) * 2022-02-23 2022-11-08 安徽大学 一种sar图像目标检测方法
CN115100509B (zh) * 2022-07-15 2022-11-29 山东建筑大学 基于多分支块级注意力增强网络的图像识别方法及系统
CN115841683B (zh) * 2022-12-27 2023-06-20 石家庄铁道大学 一种联合多级特征的轻量行人重识别方法
CN116152792B (zh) * 2023-04-23 2023-07-21 山东交通学院 基于跨上下文和特征响应注意力机制的车辆重识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN109376767A (zh) * 2018-09-20 2019-02-22 中国科学技术大学 基于深度学习的视网膜oct图像分类方法
CN109583502A (zh) * 2018-11-30 2019-04-05 天津师范大学 一种基于对抗擦除注意力机制的行人再识别方法
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110110642A (zh) * 2019-04-29 2019-08-09 华南理工大学 一种基于多通道注意力特征的行人重识别方法
CN110781739A (zh) * 2019-09-19 2020-02-11 平安科技(深圳)有限公司 提取行人特征的方法、装置、计算机设备和存储介质
CN110969124A (zh) * 2019-12-02 2020-04-07 重庆邮电大学 基于轻量级多分支网络的二维人体姿态估计方法及系统
CN111368815A (zh) * 2020-05-28 2020-07-03 之江实验室 一种基于多部件自注意力机制的行人重识别方法
CN111461038A (zh) * 2020-04-07 2020-07-28 中北大学 一种基于分层多模式注意力机制的行人再识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2564668B (en) * 2017-07-18 2022-04-13 Vision Semantics Ltd Target re-identification
JP7085812B2 (ja) * 2017-08-02 2022-06-17 キヤノン株式会社 画像処理装置およびその制御方法
US11138469B2 (en) * 2019-01-15 2021-10-05 Naver Corporation Training and using a convolutional neural network for person re-identification

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376767A (zh) * 2018-09-20 2019-02-22 中国科学技术大学 基于深度学习的视网膜oct图像分类方法
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN109583502A (zh) * 2018-11-30 2019-04-05 天津师范大学 一种基于对抗擦除注意力机制的行人再识别方法
CN110110642A (zh) * 2019-04-29 2019-08-09 华南理工大学 一种基于多通道注意力特征的行人重识别方法
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110781739A (zh) * 2019-09-19 2020-02-11 平安科技(深圳)有限公司 提取行人特征的方法、装置、计算机设备和存储介质
CN110969124A (zh) * 2019-12-02 2020-04-07 重庆邮电大学 基于轻量级多分支网络的二维人体姿态估计方法及系统
CN111461038A (zh) * 2020-04-07 2020-07-28 中北大学 一种基于分层多模式注意力机制的行人再识别方法
CN111368815A (zh) * 2020-05-28 2020-07-03 之江实验室 一种基于多部件自注意力机制的行人重识别方法

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
"Cross-Camera Person Re-Identification With Body-Guided Attention Network";Yixiang Xie等;《 IEEE Sensors Journal ( Volume: 20, Issue: 1, Jan.1, 1 2020)》;20190918;全文 *
"Deep Network with Spatial and Channel Attention for Person Re-identification";Tiansheng Guo等;《2018 IEEE Visual Communications and Image Processing (VCIP)》;20190425;全文 *
"Harmonious Attention Network for Person Re-identification";Wei Li等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181217;正文第3-4章节,图2,图3,图6,表2 *
"Local to Global with Multi-Scale Attention Network for Person Re-Identification";Lingchuan Sun等;《2019 IEEE International Conference on Image Processing (ICIP)》;20190826;全文 *
"Mixed Attention-Aware Network for Person Re-identification";Wenchen Sun等;《2019 12th International Symposium on Computational Intelligence and Design (ISCID)》;20200514;全文 *
"基于多尺度和注意力融合学习的行人重识别";王粉花等;《电子与信息学报》;20200722;全文 *
"基于多尺度注意力机制的多分支行人重识别算法";李聪等;《激光与光电子学进展》;20200602;全文 *
"基于注意力机制的行人重识别特征提取方法";刘紫燕等;《计算机应用》;20191031;全文 *
"基于软构件的人脸识别系统的开发与集成";钟福金等;《微电子学与计算机》;20130505;全文 *
"局部方向模式在人脸识别中的改进方案";钟福金;《宜宾学院学报》;20120517;全文 *
"面向行人重识别的局部特征研究进展、挑战与展望";姚足等;《自动化学报》;20200507;全文 *

Also Published As

Publication number Publication date
CN111931624A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111931624B (zh) 基于注意力机制的轻量级多分支行人重识别方法及系统
CN111259850B (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
Fu et al. Image fusion based on generative adversarial network consistent with perception
CN110348376B (zh) 一种基于神经网络的行人实时检测方法
CN110210551A (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
US20210264144A1 (en) Human pose analysis system and method
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN110781736A (zh) 基于双流网络将姿态和注意力相结合的行人重识别方法
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及系统
CN114972976B (zh) 基于频域自注意力机制的夜间目标检测、训练方法及装置
CN113095254A (zh) 一种人体部位关键点的定位方法及系统
CN115761484A (zh) 一种基于遥感图像的云检测方法及装置
CN113920581A (zh) 一种时空卷积注意力网络用于视频中动作识别的方法
WO2021109118A1 (en) Object re-identification using pose part based models
CN110135435B (zh) 一种基于广度学习系统的显著性检测方法及装置
CN117391938B (zh) 一种红外图像超分辨率重建方法、系统、设备及终端
Liu et al. Student behavior recognition from heterogeneous view perception in class based on 3-D multiscale residual dense network for the analysis of case teaching
Guo et al. Scale region recognition network for object counting in intelligent transportation system
CN116863241A (zh) 一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法、模型及设备
CN114091519A (zh) 一种基于多粒度遮挡感知的遮挡行人重识别方法
Ma PANet: parallel attention network for remote sensing image semantic segmentation
CN114140524A (zh) 一种多尺度特征融合的闭环检测系统及方法
Ge et al. A visual tracking algorithm combining parallel network and dual attention-aware mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240108

Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee after: Dragon totem Technology (Hefei) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right