CN112507800A - 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法 - Google Patents

一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法 Download PDF

Info

Publication number
CN112507800A
CN112507800A CN202011273516.5A CN202011273516A CN112507800A CN 112507800 A CN112507800 A CN 112507800A CN 202011273516 A CN202011273516 A CN 202011273516A CN 112507800 A CN112507800 A CN 112507800A
Authority
CN
China
Prior art keywords
attribute
pedestrian
feature map
output
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011273516.5A
Other languages
English (en)
Inventor
卓力
袁帅
李嘉锋
张辉
张菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202011273516.5A priority Critical patent/CN112507800A/zh
Publication of CN112507800A publication Critical patent/CN112507800A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法。该方法采用“特征提取+映射”的思路,通过对行人属性标签的组合编码,挖掘行人属性特征之间的内在关联关系,在一个统一的框架下同时对行人的多种属性进行准确识别,有效降低了实现复杂度。通过网络模型的训练,建立行人图像的深度特征和行人属性标签组合编码向量之间的映射关系,用于对行人属性进行准确识别。在行人属性公共数据集PETA和RAP上的实验结果表明,与现有的基于深度学习的行人多属性识别方法相比,采用本发明提出的识别方法可以可以获得最优的识别准确率,分别达到89.09%和88.14%的识别率。

Description

一种基于通道注意力机制和轻型卷积神经网络的行人多属性 协同识别方法
技术领域
本发明属于计算机视觉领域,涉及一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法。
背景技术
行人多属性识别可以广泛应用在行人再识别、智能化视频监控等诸多领域,近年来受到了专家学者们的广泛关注。由于应用场景的不确定性,受行人携带物的遮挡、光照强度变化大等复杂因素的影响,行人多属性识别面临着巨大的挑战。
传统的基于人工设计特征的行人多属性识别采用的是“特征提取+分类器”的框架,如何高效准确地对行人的外观特征进行表达并设计合适的分类器是其中的关键所在。人们常常依赖设计者的先验知识或者经验为每个属性单独设计特征,特征的表达能力有限,区分能力不足,鲁棒性较差。同时,由于需要为每个属性的识别设计专门的分类器,因此算法的实现复杂度高,参数冗余。由于无法充分利用属性之间的内在关联关系,导致属性的识别准确率低,难以满足实际应用的需求。
近年来,深度学习在图像分类、目标检测以及语义分割等诸多领域取得了巨大成功。相较于传统机器学习方法,深度学习具有更优秀的模型泛化能力。学者们将深度学习应用于行人属性识别中,相继提出了多种行人属性识别方法。这类方法利用深度学习强大的特征表达能力和上下文信息提取能力,直接从海量数据中自动学习层次式的特征表示,通过构建一个多层神经网络,使机器自动地学习隐含在数据内部的关系,可以对目标实现从细节纹理到局部块再到高层语义的层次化递进表达,获得更具鲁棒性、表达能力更强的特征。与手工特征相比,深度学习可以针对新的应用从训练数据中很快学习得到新的有效的特征表示,在提取图像的多层次特征和上下文信息方面具有更为突出的优势,因此获得了远超过传统方法的性能。
基于深度学习的行人属性识别方法的关键在于如何设计一个深度神经网络架构,有效提取行人图像的深度特征,进行多个属性的识别。现有的方法往往采用复杂的网络结构来提取特征,网络模型训练速度慢,并且属性识别准确率难以令人满意。
发明内容
针对上述技术存在的问题,本发明提出了一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法。该方法不是采用常用的“特征提取+分类器”的识别思路,而是采用“特征提取+映射”的思路,即,通过设计一种轻型卷积神经网络架构,将特征提取和映射纳入一个统一的框架中加以实现,利用同一个轻型卷积神经网络可以同时对行人图像的多种属性进行准确识别,有效降低了实现复杂度。由于充分利用了行人属性之间的关联关系,该方法可以获得更高的识别准确度。
本发明主要包括行人图像属性标签的预处理、行人多属性识别模型建立等两个主要环节。每个环节具体采用了如下的技术方案:
步骤1:行人图像属性标签的预处理
为了充分利用行人图像多个属性之间的内在关联关系,本发明提出了一种行人图像属性标签的预处理方法。该方法将行人图像原有的标签进行编码、组合,得到二进制标签组合向量。这样的处理方式便于在一个统一的框架下同时实现多个属性的识别。
步骤1.1:构建行人图像的二进制标签组合向量
首先,将行人的原有属性标签进行二进制编码,并将各个属性的编码结果组合起来,得到一个行人属性标签组合向量。通过这种方式,每幅图像原始的多个属性标签将由一个二进制标签组合向量来代替。
步骤1.2:行人图像大小的归一化处理
将数据集中的行人图像大小统一为96x96。这样数据集中的每幅图像对应着一个二进制标签组合向量,用于训练网络模型。
步骤2:行人多属性识别模型建立
本发明设计了一个轻型卷积神经网络架构来实现行人多属性的协同识别。网络的输入为归一化后的行人图像,输出为二进制标签组合向量。整个网络可以细划为深度特征提取和映射两部分,其中深度特征提取部分采用的是本发明设计的轻型卷积神经网络结构作为骨干网络;而映射部分则由多个全连接层组成,用于将提取到的深度特征映射为二进制标签组合向量。通过训练该网络,可以直接建立行人图像与二进制标签组合向量之间的映射模型。在识别时,将行人图像输入到该模型,输出即为预测的二进制标签组合向量。可以看出,这种架构设计将深度特征提取和映射纳入到一个统一的架构下加以实现,仅利用一个轻型的卷积神经网络就可以同时实现多个行人属性的识别。
步骤2.1:轻型卷积神经网络架构设计
本发明设计了一种轻型卷积神经网络架构,该网络共包括五个卷积层、三个池化层和三个全连接层。利用经过步骤1处理后的数据对该网络架构进行训练,得到优化后的网络模型,利用该网络模型实现行人多属性的识别。
为了进一步提升特征的表达能力,本发明在轻型神经网络架构中加入了通道注意力机制。通道注意力机制可以对分类任务有用的特征通道进行加强,而对无用的特征通道进行抑制。通过这种处理,可以有效提升特征的区分能力,从而提升识别精度。
步骤2.2:行人多属性识别模型的建立
网络的输入为利用步骤1处理后的归一化行人图像和对应的二进制标签组合向量。通过训练该网络,建立行人图像与行人属性二进制标签组合向量之间的映射模型。在进行行人属性识别时,将行人图像输入到该模型,输出即为该图像预测的二进制标签组合向量,这样在一个框架下就可以同时实现行人多个属性的识别。
与现有技术相比,本发明具有以下明显的优势和有益的效果:
1.采用“特征提取+映射”的设计思路,将深度特征提取和映射纳入到一个统一的架构下加以实现,仅利用一个轻型卷积神经网络就可以同时实现多个行人属性的识别;
2.网络结构简单,计算复杂度低。设计了一种轻型的神经网络架构,实现简单,能够大大缩短模型训练时间;
3.行人属性识别精度高。在轻型神经网络架构中加入了通道注意力机制,可以有效提升深度特征的表达和区分能力。另外,通过行人属性标签的编码组合,充分利用了行人属性之间的内在关联关系,并通过人工神经网络建立行人图像与标签组合向量之间的映射模型,能够提升行人属性识别精度。
附图说明
图1本发明方法的整体网络框架图
图2 PETA数据集中的图像示例
图3行人多属性识别模型建立流程图
图4通道注意力机制示意图
表1 PETA数据集中的105个属性标签具体值
表2本发明方法的网络训练参数
表3采用不同方法在PETA数据集上的识别精度对比结果
表4采用不同方法在RAP数据集上的识别精度对比结果
具体实施方式
以下结合附图和具体实施方式对本发明做进一步说明。
本发明提出的基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法整体网络框架如图1所示,整个框架分为特征提取和映射两部分。具体实施方式如下:
步骤1:行人图像属性标签的预处理
步骤1.1:构建行人图像属性标签组合向量
下面以常用的行人属性公共数据集PETA中的一张行人图像作为示例(如图2所示),详细介绍行人图像属性二进制标签组合向量的构建过程。
在PETA数据集中,共包含65个属性标注(61个二值属性和4个多分类属性标注)。将4个多分类属性标签按照二值化的形式进行处理,可进一步拆分为11个二分类属性。将上述属性拆分整理后,每一张行人图像样本将得到一个61+11x4=105维的二进制属性标签组合向量,且每个属性在标签向量中的位置是固定的。PETA数据集中的105个行人属性标签编码位置及含义如表1所示:
表1 PETA数据集105个行人属性标签具体值
Figure BDA0002778409440000041
Figure BDA0002778409440000051
假设需要转换的图像有N(11400)张,每一张图像对应的属性有L个,包含性别、年龄范围、头发长度、衣服颜色、衣服类别等。
将每个行人图像样本用xn,n∈[1,2…,N]表示,对应的属性向量为yn。每个标签向量yn中包含的属性值为yn,l,yn,l∈[0,1],l∈[1,2…,L]。根据原有的属性标注,若行人图像样本xn包含这个属性,则对应的yn,l=1;否则yn,l=0。
图2的原属性标注内容为:(upper Body White lower Body Black hair Blackfoot wear Black lower Body Casual lower Body Trousers personal Less30personalMale upper Body Casual upper Body Long Sleeve hair Short foot wear LeatherShoes carrying Nothing accessory Nothing),共计14个属性。按照上述105个属性标签信息对这些属性标签进行编码,即,将标签组合向量相对应属性位置的数值置为1,其余置为0。采用本发明使用的标签组合向量编码方法对图2的标签进行编码后,得到一个105维的二进制属性标签组合向量,具体表示如下:
[0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 01 0 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 10 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0]。
步骤1.2:行人图像大小的归一化
由于行人图像是通过不同的设备采集得到的,行人图像的大小存在着很大的差别。综合考虑网络架构、处理复杂度等因素,本发明将行人图像大小归一化为96x96。归一化后的每幅图像均对应着一个行人属性标签组合向量,用于训练网络模型。
步骤2:行人多属性识别模型的建立
行人多属性识别模型的建立包括训练和识别两个阶段,如图3所示。在训练阶段,将归一化后的行人图像和对应的二进制标签组合向量送入到轻型卷积神经网络中,通过训练,建立行人图像与属性标签组合向量之间的映射模型。在识别阶段,将待识别的行人图像输入到训练好的网络中,输出即为该图像预测的二进制标签组合向量。
步骤2.1:训练数据增强
为了降低训练样本数量不足对网络训练性能的影响,本发明采取实时在线数据增强的策略,如平移、随机旋转、缩放等,增加各类属性样本的数量。
步骤2.2:通道注意力机制的使用
本发明通过采用通道注意力机制,来提升行人图像特征的表达与区分能力。通道注意力机制如图4所示:首先对输入特征进行压缩操作Fsq(·)即全局平均池化,获取全局感受野,其次进行激励操作Fex(·,w)即两个1x1x通道数/16的全连接操作,预测各通道重要性,使用sigmoid激活函数输出各通道的权重,最后通过乘法操作Fscale(·)逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重标定,增强图像特征的表达能力。
本发明在网络的第1、4、5个卷积层后面加入了通道注意力机制,这种添加方式可以获得最优的识别性能。
步骤2.3:轻型卷积神经网络的训练
利用训练样本数据,对图1所示的网络架构进行训练,主要包括特征提取以及映射两部分操作。网络模型训练参数如表2所示,训练过程详情如下:
表2 轻型神经网络训练参数
Figure BDA0002778409440000071
Figure BDA0002778409440000081
a)特征提取
将归一化后分辨率为96x96的行人图像进行第一次3x3x32卷积操作,卷积步长为1,补边padding的模式采用SAME,输出的特征图大小为96x96x32。然后对该特征图依次进行添加通道注意力、批正则化batch normalization、线性激活函数ReLU以及3x3x3的最大池化这4个连续的操作,最终输出为带有通道注意力的32x32x32的特征图。
将第一次卷积最终输出的32x32x32特征图进行第二次3x3x64卷积操作,卷积步长为1,补边padding的模式采用SAME,输出的特征图大小为32x32x64。然后对该特征图依次进批正则化batch normalization以及线性激活函数ReLU这2个连续的操作,最终输出大小为32x32x64的特征图。
将第二次卷积最终输出的32x32x64特征图进行第三次3x3x64卷积操作,卷积步长为1,补边padding的模式采用SAME,输出的特征图大小为32x32x64。然后对该特征图依次进行批正则化batch normalization、线性激活函数ReLU以及2x2x2的最大池化这3个连续的操作,最终输出大小为16x16x64的特征图。
将第三次卷积最终输出的16x16x64特征图进行第四次3x3x128卷积操作,卷积步长为1,补边padding的模式采用SAME,输出的特征图大小为16x16x128。然后对该特征图依次进行添加通道注意力、批正则化batch normalization、线性激活函数ReLU这3个连续的操作,最终输出为带有通道注意力的16x16x128特征图。
将第四次卷积最终输出的16x16x128特征图进行第五次3x3x128卷积操作,卷积步长为1,补边padding的模式采用SAME,输出的特征图大小为16x16x128。然后对该特征图依次进行添加通道注意力、批正则化batch normalization、线性激活函数ReLU以及2x2x2的最大池化这4个连续的操作,最终输出为带有通道注意力的8x8x128特征图。
b)映射
将第五次最终输出的8x8x128特征图送入到过渡层,将多维的输入一维化,输出结果为1x1x8192。过渡层用于卷积层到全连接层的过渡,过渡层不影响batch的大小。
将1x1x8192的特征图送入到1x1x1024的全连接层降维,并依次进行线性激活函数ReLU、批正则化batch normalization以及dropout操作,丢包率为0.5,输出特征图大小为1x1x1024。
将1x1x1024的特征图送入到1x1x128的全连接层降维,并依次进行线性激活函数ReLU、批正则化batch normalization操作,输出大小为1x1x128的特征图。
将1x1x128的特征图送入到1x1x105的全连接层降维,并使用激活函数sigmoid输出105个属性各自的预测概率。当各个属性输出的预测概率大于0.5时,将二进制标签向量相应位置的属性置为1,否则为0。
本发明使用基于Sigmoid二值交叉熵的损失函数进行网络的优化训练。该函数能够以输出概率的形式来表征分类结果,可以在神经网络的输出端处理多分类的问题,满足行人的多属性识别要求。具体公式如式(1)所示,式中的xn,l表示带有第l个属性的第n张样本,pn,l为第n个样本第l个属性的输出概率:
pn,l=1/(1+exp(-xn,l)) (1)
因为本发明提出的深度神经网络用于对某一行人的多个属性同时进行识别,所以需要关注属性之间的关联关系,对属性的损失综合考虑。为此,本发明采用整体的Sigmoid交叉熵损失函数,如式(2)所示。
Figure BDA0002778409440000101
考虑到在实际训练的过程中样本分布并不是十分均衡,且不同属性的正样本所占比例也不平衡。为了解决这一问题,提高损失函数对模型的优化能力,本发明引入了正样本比例指数因子wl来综合考虑每个属性的损失值,应对属性的严重不平衡分布问题。wl表示第l个属性损失值的权重,加入正样本比例因子的损失函数值可由式(3)求出:
Figure BDA0002778409440000102
其中,pl是训练集中第l个属性正样本所占的比例,数据增强以后可从程序中直接计算得到。实验过程中,式(4)中σ参数的值取1。
wl=exp(-pl2) (4)
通过训练,建立起行人图像与属性标签组合向量之间的映射模型。
步骤2.4:行人多属性识别
将待识别的行人图像输入到训练好的映射模型中,网络输出的是该图像预测的二进制标签组合向量。利用该模型,可以同时识别行人的多个属性。
本发明模型训练过程中,采用随机梯度下降法优化网络,初始学习率(init_lr)为0.0001,权重衰减(weight decay)设置为0.005,batch size大小为64,epochs大小为75。在训练过程中,PETA数据集按照规定,训练集与测试集的比例分别为60%、40%,RAP数据集按照规定,训练集与测试集的比例分别为80%、20%。通过实验发现,初始学习率对于本模型的训练过程有十分明显的影响,具体表现为训练过程中的“梯度抖动”现象,当初始学习率为大于等于0.001时,有十分明显的抖动现象,初始学习率小于0.00001时,训练时长有明显的增加,初始学习率为0.0001时,梯度最平滑,训练时长适中。batch size大小为64时,能够获得最优的实验性能。epochs大小为75时,实验获得最优的实验性能。
本发明方法与其他方法的识别性能对比
为了验证本发明提出的行人多属性识别方法的性能,在PETA和RAP两个最常用的行人属性识别数据集上,将其与目前8种基于深度学习的行人属性识别方法进行了对比实验。对比方法包括ACN、DeepMAR、JRL、VeSPA等。实验中,采用平均精度(mean Accuracy,mA)作为属性识别准确性的评判指标。其计算方式如下:
Figure BDA0002778409440000111
其中,L表示进行训练的属性个数,Pi表示测试样本中第i个属性的正样本的数目,TPi表示测试样本中第i个属性的正标签被预测正确的数目。Ni表示测试样本中第i个属性的负样本的数目,TNi表示测试样本中第i个属性的负标签被预测正确的数目。
表3和表4所示的是在PETA和RAP两个数据集上的对比实验结果。由实验结果可得,本发明方法在PETA和RAP数据集上均可以获得最高的属性识别准确率,分别达到89.09%和88.14%,与现有的各种基于深度学习的行人多属性识别方法相比,能够获得最优的性能。上述实验结果充分验证了本发明提出方法的有效性。
表3 采用不同方法在PETA数据集上的识别精度对比结果
Figure BDA0002778409440000112
Figure BDA0002778409440000121
表4 采用不同方法在RAP数据集上的识别精度对比结果
Figure BDA0002778409440000122
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭示的技术范围内可以轻易想到的替换或变化都应涵盖在本发明的保护范围之内。

Claims (2)

1.一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法,其特征在于:
步骤1:行人图像属性标签的预处理,具体如下:
步骤1.1:构建行人图像的二进制标签组合向量
首先,将行人的原有属性标签进行二进制编码,并将各个属性的编码结果组合起来,得到一个行人属性标签组合向量;通过这种方式,每幅图像原始的多个属性标签将由一个二进制标签组合向量来代替;
步骤1.2:行人图像大小的归一化处理
将数据集中的行人图像大小统一为96x96;这样数据集中的每幅图像对应着一个二进制标签组合向量,用于训练网络模型;
步骤2:行人多属性识别模型建立
设计了一个轻型卷积神经网络架构来实现行人多属性的协同识别;网络的输入为归一化后的行人图像,输出为二进制标签组合向量;
整个网络可以细划为深度特征提取和映射两部分,其中深度特征提取部分采用的轻型卷积神经网络结构作为骨干网络;而映射部分则由多个全连接层组成,用于将提取到的深度特征映射为二进制标签组合向量;
通过训练该网络,直接建立行人图像与二进制标签组合向量之间的映射模型;在识别时,将行人图像输入到该模型,输出即为预测的二进制标签组合向量;
步骤2.1:轻型卷积神经网络架构设计
设计了一种轻型卷积神经网络架构,在轻型神经网络架构中加入了通道注意力机制;该网络共包括五个卷积层、三个池化层和三个全连接层;利用经过步骤1处理后的数据对该网络架构进行训练,得到优化后的网络模型,利用该网络模型实现行人多属性的识别;
步骤2.2:行人多属性识别模型的建立
网络的输入为利用步骤1处理后的归一化行人图像和对应的二进制标签组合向量;通过训练步骤2.1的网络,建立行人图像与行人属性二进制标签组合向量之间的映射模型;在进行行人属性识别时,将行人图像输入到该模型,输出即为该图像预测的二进制标签组合向量。
2.根据权利要求1所述的一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法,其特征在于:
步骤1:行人图像属性标签的预处理
步骤1.1:构建行人图像属性标签组合向量
以常用的行人属性公共数据集PETA中的,介绍行人图像属性二进制标签组合向量的构建过程;
在PETA数据集中,共包含65个属性标注,包括61个二值属性和4个多分类属性标注;将4个多分类属性标签按照二值化的形式进行处理,可进一步拆分为11个二分类属性;将上述属性拆分整理后,每一张行人图像样本将得到一个61+11x4=105维的二进制属性标签组合向量,且每个属性在标签向量中的位置是固定的;
假设需要转换的图像有N张,每一张图像对应的属性有L个,包含性别、年龄范围、头发长度、衣服颜色、衣服类别;
将每个行人图像样本用xn,n∈[1,2L,N]表示,对应的属性向量为yn;每个标签向量yn中包含的属性值为yn,l,yn,l∈[0,1],l∈[1,2L,L];根据原有的属性标注,若行人图像样本xn包含这个属性,则对应的yn,l=1;否则yn,l=0;
按照上述105个属性标签信息对这些属性标签进行编码,即,将标签组合向量相对应属性位置的数值置为1,其余置为0;采用本发明使用的标签组合向量编码方法对标签进行编码后,得到一个105维的二进制属性标签组合向量;
步骤1.2:行人图像大小的归一化
将行人图像大小归一化为96x96;归一化后的每幅图像均对应着一个行人属性标签组合向量,用于训练网络模型;
步骤2:行人多属性识别模型的建立
行人多属性识别模型的建立包括训练和识别两个阶段,在训练阶段,将归一化后的行人图像和对应的二进制标签组合向量送入到轻型卷积神经网络中,通过训练,建立行人图像与属性标签组合向量之间的映射模型;在识别阶段,将待识别的行人图像输入到训练好的网络中,输出即为该图像预测的二进制标签组合向量;
步骤2.1:训练数据增强
通过采用通道注意力机制,通道注意力机制:首先对输入特征进行压缩操作Fsq(g)即全局平均池化,获取全局感受野,其次进行激励操作Fex(g,w)即两个1x1x通道数/16的全连接操作,预测各通道重要性,使用sigmoid激活函数输出各通道的权重,最后通过乘法操作Fscale(g)逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重标定;
在网络的第1、4、5个卷积层后面加入了通道注意力机制,具体如下
a)特征提取
将归一化后分辨率为96x96的行人图像进行第一次3x3x32卷积操作,卷积步长为1,补边padding的模式采用SAME,输出的特征图大小为96x96x32;然后对该特征图依次进行添加通道注意力、批正则化batch normalization、线性激活函数ReLU以及3x3x3的最大池化这4个连续的操作,最终输出为带有通道注意力的32x32x32的特征图;
将第一次卷积最终输出的32x32x32特征图进行第二次3x3x64卷积操作,卷积步长为1,补边padding的模式采用SAME,输出的特征图大小为32x32x64;然后对该特征图依次进批正则化batch normalization以及线性激活函数ReLU这2个连续的操作,最终输出大小为32x32x64的特征图;
将第二次卷积最终输出的32x32x64特征图进行第三次3x3x64卷积操作,卷积步长为1,补边padding的模式采用SAME,输出的特征图大小为32x32x64;然后对该特征图依次进行批正则化batch normalization、线性激活函数ReLU以及2x2x2的最大池化这3个连续的操作,最终输出大小为16x16x64的特征图;
将第三次卷积最终输出的16x16x64特征图进行第四次3x3x128卷积操作,卷积步长为1,补边padding的模式采用SAME,输出的特征图大小为16x16x128;然后对该特征图依次进行添加通道注意力、批正则化batch normalization、线性激活函数ReLU这3个连续的操作,最终输出为带有通道注意力的16x16x128特征图;
将第四次卷积最终输出的16x16x128特征图进行第五次3x3x128卷积操作,卷积步长为1,补边padding的模式采用SAME,输出的特征图大小为16x16x128;然后对该特征图依次进行添加通道注意力、批正则化batch normalization、线性激活函数ReLU以及2x2x2的最大池化这4个连续的操作,最终输出为带有通道注意力的8x8x128特征图;
b)映射
将第五次最终输出的8x8x128特征图送入到过渡层,将多维的输入一维化,输出结果为1x1x8192;过渡层用于卷积层到全连接层的过渡,过渡层不影响batch的大小;
将1x1x8192的特征图送入到1x1x1024的全连接层降维,并依次进行线性激活函数ReLU、批正则化batch normalization以及dropout操作,丢包率为0.5,输出特征图大小为1x1x1024;
将1x1x1024的特征图送入到1x1x128的全连接层降维,并依次进行线性激活函数ReLU、批正则化batch normalization操作,输出大小为1x1x128的特征图;
将1x1x128的特征图送入到1x1x105的全连接层降维,并使用激活函数sigmoid输出105个属性各自的预测概率;当各个属性输出的预测概率大于0.5时,将二进制标签向量相应位置的属性置为1,否则为0;
使用基于Sigmoid二值交叉熵的损失函数进行网络的优化训练;具体公式如式(1)所示,式中的xn,l表示带有第l个属性的第n张样本,pn,l为第n个样本第l个属性的输出概率:
pn,l=1/(1+exp(-xn,l)) (1)
采用整体的Sigmoid交叉熵损失函数,如式(2)所示;
Figure FDA0002778409430000041
引入了正样本比例指数因子wl来综合考虑每个属性的损失值,应对属性的严重不平衡分布问题;wl表示第l个属性损失值的权重,加入正样本比例因子的损失函数值由式(3)求出:
Figure FDA0002778409430000042
其中,pl是训练集中第l个属性正样本所占的比例,式(4)中σ参数的值取1;
wl=exp(-pl2) (4)
通过训练,建立起行人图像与属性标签组合向量之间的映射模型;
步骤2.4:行人多属性识别
模型训练过程中,采用随机梯度下降法优化网络,初始学习率(init_lr)为0.0001,权重衰减(weight decay)设置为0.005,batch size大小为64,epochs大小为75;
模型输出的是该图像预测的二进制标签组合向量;利用该模型,可以同时识别行人的多个属性。
CN202011273516.5A 2020-11-14 2020-11-14 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法 Pending CN112507800A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011273516.5A CN112507800A (zh) 2020-11-14 2020-11-14 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011273516.5A CN112507800A (zh) 2020-11-14 2020-11-14 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法

Publications (1)

Publication Number Publication Date
CN112507800A true CN112507800A (zh) 2021-03-16

Family

ID=74957756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011273516.5A Pending CN112507800A (zh) 2020-11-14 2020-11-14 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法

Country Status (1)

Country Link
CN (1) CN112507800A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239820A (zh) * 2021-05-18 2021-08-10 中国科学院自动化研究所 基于属性定位与关联的行人属性识别方法及系统
CN113283404A (zh) * 2021-07-22 2021-08-20 新石器慧通(北京)科技有限公司 行人属性识别方法、装置、电子设备及存储介质
CN113822147A (zh) * 2021-08-04 2021-12-21 北京交通大学 一种协同机器语义任务的深度压缩方法
CN115310677A (zh) * 2022-07-18 2022-11-08 四川大学 一种基于二进制编码表示与多分类的航迹预测方法及装置
CN115331262A (zh) * 2022-09-06 2022-11-11 通号通信信息集团有限公司 图像识别方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020682A (zh) * 2019-03-29 2019-07-16 北京工商大学 一种基于小样本学习的注意力机制关系对比网络模型方法
CN110457984A (zh) * 2019-05-21 2019-11-15 电子科技大学 监控场景下基于ResNet-50的行人属性识别方法
CN110728183A (zh) * 2019-09-09 2020-01-24 天津大学 一种基于注意力机制的神经网络的人体动作识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020682A (zh) * 2019-03-29 2019-07-16 北京工商大学 一种基于小样本学习的注意力机制关系对比网络模型方法
CN110457984A (zh) * 2019-05-21 2019-11-15 电子科技大学 监控场景下基于ResNet-50的行人属性识别方法
CN110728183A (zh) * 2019-09-09 2020-01-24 天津大学 一种基于注意力机制的神经网络的人体动作识别方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239820A (zh) * 2021-05-18 2021-08-10 中国科学院自动化研究所 基于属性定位与关联的行人属性识别方法及系统
CN113239820B (zh) * 2021-05-18 2023-06-27 中国科学院自动化研究所 基于属性定位与关联的行人属性识别方法及系统
CN113283404A (zh) * 2021-07-22 2021-08-20 新石器慧通(北京)科技有限公司 行人属性识别方法、装置、电子设备及存储介质
CN113822147A (zh) * 2021-08-04 2021-12-21 北京交通大学 一种协同机器语义任务的深度压缩方法
CN113822147B (zh) * 2021-08-04 2023-12-15 北京交通大学 一种协同机器语义任务的深度压缩方法
CN115310677A (zh) * 2022-07-18 2022-11-08 四川大学 一种基于二进制编码表示与多分类的航迹预测方法及装置
CN115331262A (zh) * 2022-09-06 2022-11-11 通号通信信息集团有限公司 图像识别方法和装置

Similar Documents

Publication Publication Date Title
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN110442684B (zh) 一种基于文本内容的类案推荐方法
CN111144448B (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN112507800A (zh) 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法
CN111898736B (zh) 基于属性感知的高效行人重识别方法
CN112329760B (zh) 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN111340123A (zh) 一种基于深度卷积神经网络的图像分数标签预测方法
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN111461025B (zh) 一种自主进化的零样本学习的信号识别方法
CN110647907A (zh) 利用多层分类和字典学习的多标签图像分类算法
CN112861524A (zh) 一种基于深度学习的多层次中文细粒度情感分析方法
Akhand et al. Convolutional Neural Network based Handwritten Bengali and Bengali-English Mixed Numeral Recognition.
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN113627266A (zh) 基于Transformer时空建模的视频行人重识别方法
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
CN116258989A (zh) 基于文本与视觉的时空关联型多模态情感识别方法、系统
CN115761757A (zh) 基于解耦特征引导的多模态文本页面分类方法
Li et al. Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes
CN113255602A (zh) 基于多模态数据的动态手势识别方法
CN114329031A (zh) 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法
Sen et al. Face recognition using deep convolutional network and one-shot learning
CN115062727A (zh) 一种基于多阶超图卷积网络的图节点分类方法及系统
CN118230354A (zh) 一种基于改进YOLOv5的复杂场景下手语识别方法
CN117635935A (zh) 轻量化无监督自适应图像语义分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination