CN111199212A - 基于注意力模型的行人属性识别方法 - Google Patents

基于注意力模型的行人属性识别方法 Download PDF

Info

Publication number
CN111199212A
CN111199212A CN202010001740.2A CN202010001740A CN111199212A CN 111199212 A CN111199212 A CN 111199212A CN 202010001740 A CN202010001740 A CN 202010001740A CN 111199212 A CN111199212 A CN 111199212A
Authority
CN
China
Prior art keywords
attention
feature
network
attribute
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010001740.2A
Other languages
English (en)
Other versions
CN111199212B (zh
Inventor
任劼
胡剑波
章万韩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Polytechnic University
Original Assignee
Xian Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Polytechnic University filed Critical Xian Polytechnic University
Priority to CN202010001740.2A priority Critical patent/CN111199212B/zh
Publication of CN111199212A publication Critical patent/CN111199212A/zh
Application granted granted Critical
Publication of CN111199212B publication Critical patent/CN111199212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于注意力模型的行人属性识别方法,具体包括如下步骤:步骤1:对输入图像进行卷积特征提取,得到特征F;步骤2:将步骤1中提取的特征送入CBAM模块进行注意力特征提取,得到注意力特征向量F″;步骤3:经过Inception网络以及每个Inception网络后的CBAM,得到最终的特征向量;步骤4:对特征向量进行识别进而分类得到识别结果。本发明旨在改进传统算法训练时间长与硬件要求高的缺点,即减小网络模型大小的同时又能保持、接近、甚至优于传统算法的精确度。

Description

基于注意力模型的行人属性识别方法
技术领域
本发明属于智能识别技术领域,具体涉及一种基于注意力模型的行人属 性识别方法。
背景技术
在智能监控中,行人的属性识别是一个热点研究课题。行人属性是指人 的一些可观测的外部特征,可作为重要的生物特征信息被用于行人再识别, 安防监控,智慧城市等任务中。根据属性的类型,可将行人属性分为具体属 性和抽象属性两个部分。具体属性是对人物图像中,人的不同区域的具体细 节描述。例如,发型及头发颜色、帽子、眼镜等。抽象属性与一些抽象概念 相对应,如性别、身体方向和年龄,这些抽象概念通常不能从单个区域进行 分析。
根据不同的特征层次,行人属性识别的方法大致可以分成两类:基于整 体区域的分析方法和基于局部区域的分析方法。基于整体区域的分析方法是 将整个人体作为输入进行处理,所需的模型通常较为简单。然而,不同于目 标检测,行人属性识别是一个细粒度的识别,包含了对同一类中不同子类物 体间的更细化的分类。在实际场景中,某些特定的行人属性总是由图像中某 一小块区域决定。因此,有许多研究者提出了基于局部区域的分析方法,利 用不同属性和身体部位之间的对应关系来识别这些属性。J.Zhu等人提出了一个多标签卷积神经网络MLCNN,它将整张图分成15个重叠区域,用了一个 卷积神经网络去获取特征。这类方法通常包括三个步骤:首先检测重要的人 体图像子区域,然后提取每个子区域的特征,最后基于预先训练的分类器对 特征进行属性识别。考虑到不同的属性大多发生在女性身上,所以头发的长 度可以作为性别的判断依据。因此,更好地识别出行人属性特征的细节,并 将不同细节更好地结合起来可以提高行人属性识别的准确度。
随着深度学习的研究,深度CNN(ConvolutionalNeuralNetworks)在行人 属性识别中展现出了显著的效果。为了进一步提高性能,一些学者采用了增 加网络深度的方法对CNN的网络结构进行改进。但是,随着网络深度的增加 和模型的复杂度增高,所需的训练时间和硬件实现难度增加。
发明内容
本发明的目的是提供一种基于注意力模型的行人属性识别方法,旨在改 进传统方法训练时间长与硬件要求高的缺点,即减小网络模型大小的同时又 能保持、接近、甚至优于传统方法的精确度。
本发明所采用的技术方案是,一种基于注意力模型的行人属性识别方法, 具体包括如下步骤:
步骤1:对输入图像进行卷积特征提取,得到特征F;
步骤2:将步骤1中提取的特征送入CBAM模块进行注意力特征提取, 得到注意力特征向量F″;
步骤3:经过Inception网络以及每个Inception网络后的CBAM,得到最 终的特征向量;
步骤4:对特征向量进行识别进而分类得到识别结果。
本发明的特点还在于:
步骤2中CBAM是一个结合通道特征以及空间特征的注意力图提取模型, 由简称为CAM的通道注意力模块和简称为SAM的空间注意力模块串联而成。
步骤2的具体过程如下:
步骤2.1:F通过CAM得到通道注意力图MC(F);
步骤2.2:MC(F)与F进行元素相乘得到通道注意力特征F′;
步骤2.3:F′传入SAM中,得到空间注意力图MS(F′);
步骤2.4:MS(F′)再与F′进行元素相乘,得到注意力特征向量F″。
步骤3中Inception网络选取Inception-v3作为特征提取的基础网络。
步骤3的具体过程如下:
步骤3.1:将步骤2中得到的输出F″输入到Inception网络使用小卷积核 进行降维,减少参数的个数;
步骤3.2:将3.1中经过降维的特征输入CBAM模块,进行步骤2中的 操作;
步骤3.3:重复上述两个步骤共三次,得到最终的特征向量。
步骤4的具体过程为:
步骤4.1:将步骤3中得到的特征向量传入简称为GAP的全局平均池化 层与简称为FC的全连接;
步骤4.2:对每个特征图进行平均值计算;
步骤4.3:将上一步得到的结果用Softmax进行分类,Softmax是一个多 分类器,可以计算预测对象属于各个类别的概率,得到该输入的识别结果。
其计算公式为:
Figure BDA0002353742860000031
其中,z是上一层的输出,Softmax分类器的输入,维度为C。yi为预测 对象属于第C类的概率。
步骤2.1的具体过程为:
CAM将输入分别通过最大池化层和平均池化层,对特征进行空间维度的 压缩,然后用Sigmoid函数对其进行归一化,得出通道注意力图MC(F)。
步骤2.3的具体过程为:
将F′传入SAM模块中使F′经过最大池化和平均池化操作重新结合,然后 经过卷积操作,通过Sigmoid函数进行归一化,得到MS(F)。
最大池化操作,即对邻域内特征点取最大,计算公式为:
Figure BDA0002353742860000041
其中h代表所选池化窗口的高度,w代表池化窗口的宽度,xi,j表示坐标 为(i,j)的特征点值;
平均池化操作,对邻域内特征点求平均,计算公式为:
Figure BDA0002353742860000042
其中h代表所选池化窗口的高度,w代表池化窗口的宽度,xi,j表示坐标 为(i,j)的特征点值;
Sigmoid函数可以将输入的数据映射在(0,1)之间,其计算公式为:
Figure BDA0002353742860000043
其中x为输入的数据。
本发明的有益效果是,本发明提出了一种基于注意力模型的行人属性识 别方法——MCBAM。所提出的方法采用了已在各识别任务中表现良好的 Inception-V3,对感兴趣区域快速定位,提高对细节属性的识别能力。 Inception-V3网络利用较小的卷积核和不对称的卷积概念来减少网络参数的 数量。卷积块注意力模块(ConvolutionalBlockAttentionModule,以下简称 CBAM)采用通道注意模块和空间注意模块,分别将通道信息和空间信息进 行提取。再将生成的注意图与Inception-V3特征图相乘,进行自适应特征细化, 进一步提高了识别性能。本发明提供的方法在减小网络模型大小的同时保持、 接近、甚至优于传统算法的精确度。
附图说明
图1是本发明一种基于注意力模型的行人属性识别方法的流程图;
图2是本发明CBAM模块的结构示意图;
图3是图2中CAM模块的结构示意图;
图4是图2中SAM模块的结构示意图;
图5是图2中IBC模块的结构示意图;
图6是Inception-v3网络结构示意图;
图7是采用PETA数据集时的两组属性分析结果图;
图8是本发明在批尺寸等于8时,PETA数据集行人属性的准确率示意图;
图9是采用PA-100K的数据集时的两组行人属性分析结果图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于注意力模型的行人属性识别方法,如图1所示,具体包 括如下步骤:
步骤1:对输入图像进行卷积特征提取,得到特征F;
步骤2:将步骤1中提取的特征送入CBAM模块进行注意力特征提取, 得到注意力特征向量F″;
步骤2的具体过程为:
步骤2.1:F通过CAM得到通道注意力图MC(F),具体的,CAM将输入 分别通过最大池化层和平均池化层,对特征进行空间维度的压缩,然后用Sigmoid函数对其进行归一化,得出通道注意力图MC(F)。
步骤2.2:MC(F)与F进行元素相乘得到通道注意力特征F′;
步骤2.3:F′传入SAM中,得到空间注意力图MS(F′),具体的,将F′传入 SAM模块中使F′经过最大池化和平均池化操作重新结合,然后经过卷积操作, 通过Sigmoid函数进行归一化,得到MS(F′)。
步骤2.4:MS(F′)再与F′进行元素相乘,得到注意力特征向量F″。
其中,CBAM模块的结构如图2所示,CBAM是一个结合通道特征以及 空间特征的注意力图提取模型,由CAM(channelattentionmodule)和SAM (spatialattentionmodule)两个模块组成,CBAM的输入是由图像经过卷积层 计算得到的特征,即
Figure BDA0002353742860000061
F通过CAM得到通道注意力图MC(F)。MC(F) 与F进行元素相乘得到通道注意力特征F′。然后,F′传入SAM中,得到空间 注意力图MS(F′)。MS(F′)再与F′进行元素相乘,最终得到
Figure BDA0002353742860000062
整体 过程可概括为:
Figure BDA0002353742860000063
Figure BDA0002353742860000064
式中
Figure BDA0002353742860000065
表示元素相乘。
如图3所示,为提取通道注意力特征图的模型CAM的模块结构示意图, CAM将输入分别通过最大池化层和平均池化层,对特征进行空间维度的压缩, 然后用Sigmoid函数对其进行归一化,得出通道注意力图MC(F)。
最大池化操作,即对邻域内特征点取最大。计算公式为:
Figure RE-GDA0002435383350000066
Figure BDA0002353742860000067
其中j=1,…,K,…
平均池化操作,对邻域内特征点求平均。计算公式为:
αi∈{0,1}K,αi,j=1当且仅当
Figure BDA0002353742860000071
Figure BDA0002353742860000072
其中j=1,…,K,…
Sigmoid函数可以将输入的数据映射在(0,1)之间,其计算公式为:
Figure BDA0002353742860000073
由于特征图的每个通道都被视为特征检测器,CAM注重的是对输入图像 有意义的特征。为了有效地计算通道注意力特征,网络压缩了输入特征图的 空间尺寸。
对于空间信息部分,目前采用的是平均池化的方法进行提取。同时,最大 池化的方法收集了关于不同对象特征的另外一个线索,即空间信息,用以推 断更精细的通道注意力特征。因此,同时使用最大池化和平均池化两种池化 方法可提升网络的特征提取能力,从而大大提高网络的表示能力。
如图4所示,SAM表示的是一个提取空间注意力特征图的模型。输入的 F′传入最大池化层和平均池化层再对其进行结合,再经过卷积层后,通过 Sigmoid函数对其进行归一化。
与CAM不同的是,空间注意力特征注重的是提供信息的区域,它与通道 注意力特征互补。为了总结空间信息,目前普遍采用平均池化。周等人使用 平均池化有效地了解目标对象的范围,Hu等人在他们的注意力模块中采用平 均池化来计算空间统计。通过连接最大池化和平均池化,计算出空间注意力 特征;再将空间注意力特征通过卷积层,最终生成空间注意力特征图。
图2中的IBC模块在其不断加深网络结构的背景下,庞大的计算量使得 网络计算成本不断增加。在现有的特征抽取网络后加入注意力提取模块则可 以提高网络识别性能,使深度不太深的简单网络也可以达到深度较深的网络 的所能达到的性能。所以,本文将Inception网络和CBAM结合,组成了IBC 模块,对特征进行抽取,其网络结构如图5所示。
步骤3:经过Inception网络以及每个Inception网络后的CBAM,得到最 终的特征向量,其中,Inception网络选取Inception-v3作为特征提取的基础网 络,具体结构如图6所示,选取Inception-v3作为特征提取的基础网络是由于 该网络不仅可以减少计算量和参数的个数,并且在增加了网络宽度的同时, 增加了网络对尺度的适应性,Inception-v3与Inception-v1相比,Inception-v3 网络将一个n×n的卷积核分解为1×n和n×1两个卷积核,并且加入BN (batchnormalized)进行正则化处理。例如,如果将一个5×5的卷积核分成 了2个3×3的卷积核,在计算成本上,一个5×5的卷积是一个3×3卷积的2.78 倍。再将3×3的卷积核分解成1×3和3×1的卷积核。该方法在计算成本上 要比单个3×3的卷积核降低33%。因此,采用Inception-v3网络的优势是在减 少计算成本的同时,保证了网络的性能。
步骤3的具体过程为:
步骤3.1:将步骤2中得到的输出F″输入到Inception网络使用小卷积核 进行降维,减少参数的个数;
步骤3.2:将3.1中经过降维的特征输入CBAM模块,进行步骤2中的 操作;
步骤3.3:重复上述两个步骤共三次,得到最终的特征向量。
步骤4:对特征向量进行识别进而分类得到识别结果。
步骤4的具体过程为:
步骤4.1:将步骤3中得到的特征向量传入简称为GAP的全局平均池化 层与简称为FC的全连接;
其中,GAP层的作用是对整个网络在结构上做正则化防止过拟合,在引入GAP 层的同时加入FC层。FC层的作用则是对特征进行分类。经过主网络得出的 特征,将其全部联系起来,这时得到的是经过多次卷积(CBAM模块和IBC 模块)后高度抽象化的特征,然后经过GAP层和FC层的整合,对各种分类 情况都输出一个概率,之后可以根据FC层得到的概率进行分类。
步骤4.2:对每个特征图进行平均值计算;
步骤4.3:将上一步得到的结果用Softmax进行分类,所述Softmax是一 个多分类器,可以计算预测对象属于各个类别的概率,得到该输入的识别结 果。其计算公式为:
Figure BDA0002353742860000091
其中,z是上一层的输出,Softmax分类器的输入,维度为C。yi为预测 对象属于第C类的概率。
针对上述方法对其进行实验分析
实验在ubuntu16.04系统下进行,选取了pytorch作为网络框架,采用两 个公版的NVIDIAGEFORCE2080(8GB)GPU进行SLI。
在实验中,我们将随机梯度下降的方法作为优化器,初始学习率设置为 0.002,动量设置为0.9。为了验证所提出算法的有效性,本文采用了平均准确 率(mA)、准确度(Accu)、精准度(Prec)、召回率(recall)andF1得分 (F1-score)这五个评估标准对所提出的算法和现有的算法在使用PETA和 PA-100K两个数据集下进行了对比。
(1)PETA数据集中结果分析
PETA数据集是由香港中文大学信息工程系的邓等人提出。它是由8个室 外场景和2个室内场景组成的,包含8705个行人,共19000张图像。其分辨 率范围较大,由范围从17*39至169*365大小的图片组成。每个行人标注了 61个二值的和4个多类别的属性。如图7所示,为采用PETA数据集时的两 组属性分析结果,行人属性分析的结果在图片的右边展示。例如图7a中的识 别结果为年龄在31-45岁之间,穿着鞋子的短发男性;图7b中的识别结果为 年龄在16-30岁之间,穿着牛仔裤的短发男性,同图7a一样,性别属性作为 默认属性,并不显示。
表1采用PETA数据集的性能分析
Figure BDA0002353742860000101
表1为本发明所提出算法与ELF-mm,FC7-mm,FC6-mm,ACN算法在 PETA数据集下的对比结果。考虑到不同批尺寸下对特征提取时的侧重点不同, 本文还对所提出算法在不同批尺寸下的结果进行了对比。表1中B表示批尺 寸(batchsize)。实验结果表明MCBAM网络在Prec和Recall上有着不错的 效果。从B的对比中可以发现,在PETA数据集中,B=16的时候为相对最适 参数。当批尺寸的大小B为8的时候,训练实验时间约为47张/s;当B为 16时,训练实验时间约为70张/s;当B为32时,训练实验时间约为88张/s。 模型大小约为18MB。
如图8所示,展示的是本文所提出的算法在批尺寸等于8时,PETA数据 集行人属性的准确率,由表可见,该算法在PETA数据集下也能得到良好的 效果。
(2)PA-100K数据集下实验对比
PA-100K是由刘等人提出的,作为一个大规模的行人属性数据集, PA-100K包含100000张行人图片,分别拍摄于598个场景。PA-100K数据集 中,属性被设置为26种,有性别、年龄以及物体属性,如手提包,穿着等。 与其他公开数据集相比,PA-100K提供了一个广泛的行人属性数据集。针对 PA-100K数据集,本文所提出的算法与DeepMar,MNet以及HY-net的结果 进行了对比。
如图9所示,采用PA-100K的数据集时的两组行人属性分析结果,行人 属性分析的结果在图片的右边展示。例如图9c中的识别结果为年龄在18-60 岁之间,戴眼镜穿着长袖、裤子的男性,其中性别属性作为默认属性,并不 显示;图9d中的识别结果为年龄在18-60岁之间,穿着长袖、裤子的女性。
表2 PA-100K下实验方法对比
Figure BDA0002353742860000111
从表2中可以看出,在PA-100K数据集中,MCBAM在Prec以及F1的 得分中,超过HY-net。当B=32时,MCBAM的F1得分上升0.07%,Prec得 分上升2.5%。而对比MNet,B=8时,MCBAM的mA得分上升0.33%,Accu 得分上升0.76%,Prec得分上升3.11%,F1得分上升0.73%。
相比于PETA数据集,MCBAM在数据量更大的PA-100K数据集上更能展 示网络优势。从B的对比中可以发现,网络MCBAM在B=8的时候,mA超 过了B=16和B=32的网络。实验表明,当B=8时,mA的值高于B=16和 32。在对比各项属性预测值之后,当B取值小,网络模型更加注重细小的特 征。
本发明一种基于注意力模型的行人属性识别方法,所提出的方法采用了 已在各识别任务中表现良好的Inception-V3,对感兴趣区域快速定位,提高对 细节属性的识别能力。Inception-V3网络利用较小的卷积核和不对称的卷积概 念来减少网络参数的数量。卷积块注意力模块 (ConvolutionalBlockAttentionModule,以下简称CBAM)采用通道注意模块 和空间注意模块,分别将通道信息和空间信息进行提取。再将生成的注意图 与Inception-V3特征图相乘,进行自适应特征细化,进一步提高了识别性能。 本发明提供的方法在减小网络模型大小的同时保持、接近、甚至优于传统算 法的精确度。

Claims (9)

1.一种基于注意力模型的行人属性识别方法,其特征在于,具体包括如下步骤:
步骤1:对输入图像进行卷积特征提取,得到特征F;
步骤2:将步骤1中提取的特征送入CBAM模块进行注意力特征提取,得到注意力特征向量F″;
步骤3:经过Inception网络以及每个Inception网络后的CBAM,得到最终的特征向量;
步骤4:对特征向量进行识别进而分类得到识别结果。
2.如权利要求1所述的一种基于注意力模型的行人属性识别方法,其特征在于,所述步骤2中CBAM是一个结合通道特征以及空间特征的注意力图提取模型,由简称为CAM的通道注意力模块和简称为SAM的空间注意力模块串联而成。
3.如权利要求2所述的一种基于注意力模型的行人属性识别方法,其特征在于,所述步骤2的具体过程如下:
步骤2.1:F通过CAM得到通道注意力图MC(F);
步骤2.2:MC(F)与F进行元素相乘得到通道注意力特征F′;
步骤2.3:F′传入SAM中,得到空间注意力图MS(F′);
步骤2.4:MS(F′)再与F′进行元素相乘,得到注意力特征向量F″。
4.如权利要求1所述的一种基于注意力模型的行人属性识别方法,其特征在于,所述步骤3中Inception网络选取Inception-v3作为特征提取的基础网络。
5.如权利要求4所述的一种基于注意力模型的行人属性识别方法,其特征在于,所述步骤3的具体过程如下:
步骤3.1:将步骤2中得到的输出F″输入到Inception网络使用小卷积核进行降维,减少参数的个数;
步骤3.2:将3.1中经过降维的特征输入CBAM模块,进行步骤2中的操作;
步骤3.3:重复上述两个步骤共三次,得到最终的特征向量。
6.如权利要求1所述的一种基于注意力模型的行人属性识别方法,其特征在于,所述步骤4的具体过程为:
步骤4.1:将步骤3中得到的特征向量传入简称为GAP的全局平均池化层与简称为FC的全连接;
步骤4.2:对每个特征图进行平均值计算;
步骤4.3:将上一步得到的结果用Softmax进行分类,所述Softmax是一个多分类器,可以计算预测对象属于各个类别的概率,得到该输入的识别结果。其计算公式为:
Figure FDA0002353742850000021
其中,z是上一层的输出,Softmax分类器的输入,维度为C。yi为预测对象属于第C类的概率。
7.如权利要求3所述的一种基于注意力模型的行人属性识别方法,其特征在于,所述步骤2.1的具体过程为:
CAM将输入分别通过最大池化层和平均池化层,对特征进行空间维度的压缩,然后用Sigmoid函数对其进行归一化,得出通道注意力图MC(F)。
8.如权利要求3所述的一种基于注意力模型的行人属性识别方法,其特征在于,所述步骤2.3的具体过程为:
将F′传入SAM模块中使F′经过最大池化和平均池化操作重新结合,然后经过卷积操作,通过Sigmoid函数进行归一化,得到MS(F′)。
9.如权利要求7-8任一项所述的一种基于注意力模型的行人属性识别方法,其特征在于,所述最大池化操作,即对邻域内特征点取最大,计算公式为:
Figure FDA0002353742850000031
其中h代表所选池化窗口的高度,w代表池化窗口的宽度,xi,j表示坐标为(i,j)的特征点值;
平均池化操作,对邻域内特征点求平均,计算公式为:
Figure FDA0002353742850000032
其中h代表所选池化窗口的高度,w代表池化窗口的宽度,xi,j表示坐标为(i,j)的特征点值;
Sigmoid函数可以将输入的数据映射在(0,1)之间,其计算公式为:
Figure FDA0002353742850000033
其中x为输入的数据。
CN202010001740.2A 2020-01-02 2020-01-02 基于注意力模型的行人属性识别方法 Active CN111199212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010001740.2A CN111199212B (zh) 2020-01-02 2020-01-02 基于注意力模型的行人属性识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010001740.2A CN111199212B (zh) 2020-01-02 2020-01-02 基于注意力模型的行人属性识别方法

Publications (2)

Publication Number Publication Date
CN111199212A true CN111199212A (zh) 2020-05-26
CN111199212B CN111199212B (zh) 2023-04-07

Family

ID=70746713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010001740.2A Active CN111199212B (zh) 2020-01-02 2020-01-02 基于注意力模型的行人属性识别方法

Country Status (1)

Country Link
CN (1) CN111199212B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084953A (zh) * 2020-09-10 2020-12-15 济南博观智能科技有限公司 一种人脸属性识别的方法、系统、设备及可读存储介质
CN112270666A (zh) * 2020-11-03 2021-01-26 辽宁工程技术大学 基于深度卷积神经网络的非小细胞肺癌病理切片识别方法
CN112434683A (zh) * 2021-01-27 2021-03-02 中国科学院自动化研究所 基于注意力机制的行人属性识别方法、系统、装置
CN113223730A (zh) * 2021-03-30 2021-08-06 武汉市疾病预防控制中心 基于人工智能的疟疾分类方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871777A (zh) * 2019-01-23 2019-06-11 广州智慧城市发展研究院 一种基于注意力机制的行为识别系统
CN109902693A (zh) * 2019-02-16 2019-06-18 太原理工大学 一种基于多注意力空间金字塔特征图像识别方法
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN110598543A (zh) * 2019-08-05 2019-12-20 华中科技大学 基于属性挖掘和推理的模型训练方法及行人再识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN109871777A (zh) * 2019-01-23 2019-06-11 广州智慧城市发展研究院 一种基于注意力机制的行为识别系统
CN109902693A (zh) * 2019-02-16 2019-06-18 太原理工大学 一种基于多注意力空间金字塔特征图像识别方法
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110598543A (zh) * 2019-08-05 2019-12-20 华中科技大学 基于属性挖掘和推理的模型训练方法及行人再识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孔言等: "基于视觉注意力的人体行为识别", 《计算机系统应用》 *
陈萍等: "基于深度学习的行人属性识别", 《信息通信》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084953A (zh) * 2020-09-10 2020-12-15 济南博观智能科技有限公司 一种人脸属性识别的方法、系统、设备及可读存储介质
CN112270666A (zh) * 2020-11-03 2021-01-26 辽宁工程技术大学 基于深度卷积神经网络的非小细胞肺癌病理切片识别方法
CN112434683A (zh) * 2021-01-27 2021-03-02 中国科学院自动化研究所 基于注意力机制的行人属性识别方法、系统、装置
CN113223730A (zh) * 2021-03-30 2021-08-06 武汉市疾病预防控制中心 基于人工智能的疟疾分类方法及设备

Also Published As

Publication number Publication date
CN111199212B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111199212B (zh) 基于注意力模型的行人属性识别方法
CN106548149B (zh) 监控视频序列中人脸微表情图像序列的识别方法
CN109522853B (zh) 面向监控视频的人脸检测与搜索方法
Chen et al. Facial expression recognition using geometric and appearance features
Liu et al. Learning expressionlets via universal manifold model for dynamic facial expression recognition
CN105975932B (zh) 基于时间序列shapelet的步态识别分类方法
Mady et al. Face recognition and detection using Random forest and combination of LBP and HOG features
CN111488855A (zh) 疲劳驾驶检测方法、装置、计算机设备和存储介质
Xia et al. Face occlusion detection using deep convolutional neural networks
Punitha et al. Texture based emotion recognition from facial expressions using support vector machine
Singh et al. Pattern based gender classification
Shanthi et al. Algorithms for face recognition drones
Lu et al. Automatic gender recognition based on pixel-pattern-based texture feature
Akbar et al. Face recognition using hybrid feature space in conjunction with support vector machine
Rai et al. An illumination, expression, and noise invariant gender classifier using two-directional 2DPCA on real Gabor space
Huo et al. 3DVSD: An end-to-end 3D convolutional object detection network for video smoke detection
Zhou et al. Real-time Gender Recognition based on Eigen-features selection from Facial Images
Chang et al. Using gait information for gender recognition
Shehata et al. Does my gait look nice? human perception-based gait relative attribute estimation using dense trajectory analysis
CN105678265A (zh) 基于流形学习的数据降维方法及装置
Chen et al. Multi-pose face ensemble classification aided by Gabor features and deep belief nets
Yang et al. Dynamic soft encoded patterns for facial event analysis
Chen Evaluation technology of classroom students’ learning state based on deep learning
CN115439884A (zh) 一种基于双分支自注意力网络的行人属性识别方法
Zhang et al. A multi-view camera-based anti-fraud system and its applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant