CN115439884A - 一种基于双分支自注意力网络的行人属性识别方法 - Google Patents

一种基于双分支自注意力网络的行人属性识别方法 Download PDF

Info

Publication number
CN115439884A
CN115439884A CN202210978456.XA CN202210978456A CN115439884A CN 115439884 A CN115439884 A CN 115439884A CN 202210978456 A CN202210978456 A CN 202210978456A CN 115439884 A CN115439884 A CN 115439884A
Authority
CN
China
Prior art keywords
attribute
self
attention
branch
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210978456.XA
Other languages
English (en)
Inventor
单彩峰
刘振宇
张彰
张鹏
陈宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN202210978456.XA priority Critical patent/CN115439884A/zh
Publication of CN115439884A publication Critical patent/CN115439884A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双分支自注意力网络的行人属性识别方法,属于模式识别技术领域,包括如下步骤:图像数据采集及处理,构建并划分数据集;图像特征提取;构建双分支自注意力行人属性识别网络模型获取图像属性相关信息和上下文区域信息;训练输出性能良好的双分支自注意力网络模型;通过监控视频实时采集行人图像,利用训练完成的两分支自注意力网络模型进行行人属性的自动识别。本发明采用双分支自注意力网络获取属性相关信息和上下文关系,并结合约束损失等对属性特征分类进行限制,提升了属性分类性能,能够在大规模监控场景下稳定实现行人属性识别。

Description

一种基于双分支自注意力网络的行人属性识别方法
技术领域
本发明属于模式识别技术领域,具体涉及一种基于双分支自注意力网络的行人属性识别方法。
背景技术
行人属性是一系列人类高级的视觉语义特征,包含人口统计信息(性别、年龄等)以及外观属性(如发型、发色、衣服类型及颜色)等广泛的抽象特征。行人属性识别任务主要内容是给定一幅人的图像,从一个预定义的属性列表中描述这个人的特征,对行人分析、检测具有重要意义。行人属性识别可以在很多领域应用,例如,在城市安全和安防方面,可以快速从海量监控视频中寻找关键目标,对性别、年龄、衣着、步行姿态等属性进行解析;在商业方面的应用,现代城市服务提供商依靠大数据等信息技术,正逐渐为每个人提供智能化、个性化服务,从每个人外观、衣服风格中为其匹配更为精准的适用商品等;在图像检索方面,由于现代城市摄像头数量的日渐增多,每天都会产生大量图片视频数据,如何从这些数据中实现分类存储、图像检索面临巨大挑战,因此可以利用相关属性信息对其进行自动标注和分类,为缓解数据存储压力、高效检索图像提供重要依据。
行人属性识别在真实监控场景中仍然是一项具有挑战性的任务,在这些场景中,诸如遮挡、复杂背景和各种视图等噪声会降低识别精度。基于图片的行人属性识别分类算法的一般流程如下:1)数据划分,将图片裁剪成统一像素的图片集并进行数据集划分,2)输入图片,利用ResNet等骨干网络模型算法进行行人图像特征提取,使用分类器进行属性特征分类,3) 进行迭代训练,寻找最优值,并保存模型参数。目前属性识别技术大多是基于标准卷积神经网络设计的,通过采集监控场景下得到的行人样本并人工赋予标签,对识别模型进行训练,使模型从样本中学习到有用的外观表达和动作特征,并能够依据这些特征进行识别。
以往的工作主要从以下几个方面解决行人属性识别的任务:
1)在行人属性识别领域,通常需要同时分析几十个属性。在这些属性中,有些属性密切相关。比如,当“裙子”“长发”属性出现时往往会联系到“性别为女性”这一属性,服装类型的属性可以为判断年龄提供一定的信息。通过探索不同属性之间的相关性可以有效提升属性识别性能,先前方法大都忽略了这一点。
2)另外一方面,探索不同图像区域中的空间上下文关系也有助于属性识别。一个可以想象的例子是,当识别行人的性别时,人们倾向于关注多个区域,如头部周围、着装和携带物品的区域等,即需要考虑图片中存在的区域上下文关系。虽然深度卷积网络在行人属性识别方面取得了巨大成功,但上下文关系尚未得到充分利用。这是因为深度卷积网络中单元的感受野受到严重限制,可能无法了解全局背景并捕捉不同区域的长距离依赖性。
发明内容
为了解决上述问题,本发明提出了一种基于双分支自注意力网络的行人属性识别方法,首先挖掘属性之间的高阶信息,结合一阶信息并利用属性自注意力模块和约束函数获取属性相关性信息,然后利用聚合上下文信息和上下文自注意模块实现捕捉不同区域长期依赖性,从获取属性相关性特征、属性上下文关系两方面高性能地实现行人属性识别,在提高检测准确性同时,拓宽属性识别应用场景,预期创造可观的经济价值。
本发明的技术方案如下:
一种基于双分支自注意力网络的行人属性识别方法,包括如下步骤:
步骤1、图像数据采集及处理,构建并划分数据集;
步骤2、图像特征提取;
步骤3、构建双分支自注意力行人属性识别网络模型获取图像属性相关信息和上下文区域信息,双分支包括属性分支和上下文分支,属性分支包括二阶自注意力模块和属性自注意力模块,上下文分支包括区域特征映射模块和上下文自注意力模块;
步骤4.训练输出性能良好的双分支自注意力网络模型;
步骤5、通过监控视频实时采集行人图像,利用训练完成的两分支自注意力网络模型进行行人属性的自动识别。
进一步地,步骤1的具体过程为:从监控视频中提取行人图像,并进行属性标注和裁剪;将图像统一裁剪成大小为256×128像素的图片,构成图片数据集D,并将数据集D划分为训练集Dtrain和测试集Dtest
进一步地,步骤2的具体过程为:使用ResNet50作为骨干网络,利用批处理方法批量输入图片,得到特征图X∈RC×H×W,其中H、W和C分别代表特征图的长度、宽度和维度。
进一步地,步骤3的具体过程为:
步骤3.1、基于二阶自注意力模块和属性自注意力模块计算属性分支的预测值
Figure BDA0003799227720000021
步骤3.2、基于上下文自注意力模块计算上下文分支的预测值
Figure BDA0003799227720000022
步骤3.3、最终分类预测结果表示为
Figure BDA0003799227720000023
Figure BDA0003799227720000024
的平均值,利用Sigmoid进行加权处理,获取最终属性分类结果,为了与实例标签值对应,将最终属性分类结果大于0.5的取1,小于等于0.5的取0。
进一步地,步骤3.1的具体过程为:
二阶自注意力模块的计算过程如下:
步骤3.1.1、特征图X通过1×1卷积得到维度为
Figure BDA0003799227720000031
的三维张量,再改变该张量的维度变换成二维矩阵
Figure BDA0003799227720000032
Q=H×W,相同操作重复三次生成特征图X的三个投影,分别为KS、 QS和VS,维度均为
Figure BDA0003799227720000033
其中,输入通道为C维,输出通道为
Figure BDA0003799227720000034
维,r表示采样降低倍率;
步骤3.1.2、使用投影KS和投影QS计算协方差矩阵
Figure BDA0003799227720000035
如式(1)所示,
Figure BDA0003799227720000036
其中,I和1分别是Q维单位矩阵和全一矩阵;
步骤3.1.3、采用Softmax函数处理协方差矩阵Σ并采用Q作为协方差矩阵的缩放因子;
步骤3.1.4、将步骤3.1.3得到的结果与VS点乘得到
Figure BDA0003799227720000037
如式(2)所示,并将
Figure BDA0003799227720000038
展开为形状为
Figure BDA0003799227720000039
的三维张量;
Figure BDA00037992277200000310
步骤3.1.5、最后将
Figure BDA00037992277200000311
和特征图X通过1×1卷积得到的维度为
Figure BDA00037992277200000312
一阶特征拼接起来,共同作为后续属性自注意力模块的输入;
属性自注意力模块的计算过程如下:
步骤3.1.6、输入形状为
Figure BDA00037992277200000313
的特征图通过不同的1×1卷积并将最后两维数据维度变换成一维以获得KA、QA和VA,KA、QA和VA分别表示属性自注意力模块的三个输入投影,其中QA,
Figure BDA00037992277200000314
NH和M分别是注意力头数和属性个数,DA表示属性特征映射的维度;
步骤3.1.7、根据式(3),将矩阵KA和矩阵QA的转置相乘,在通过Sigmoid操作得到各属性的注意力分数
Figure BDA00037992277200000315
该分数代表了输入中包含某种属性的概率,式中M表示属性个数;
Figure BDA00037992277200000316
步骤3.1.8、将上述注意力分数
Figure BDA00037992277200000317
与VA相乘得到各注意力头数对应的预测值
Figure BDA00037992277200000318
步骤3.1.9、然后沿NH维度对
Figure BDA00037992277200000319
进行求和,将其拉伸成一个维度为M的属性自注意力模块初步预测结果
Figure BDA0003799227720000041
步骤3.1.10、设计约束损失函数
Figure BDA0003799227720000049
来限制预测分数,如式(4)所示,
Figure BDA0003799227720000042
其中,ωj表示训练数据集中第j个属性所占的权重,M代表属性个数;pij、yij分别表示第i个样本的第j个属性的预测值和标签值;
步骤3.1.11、最后,对初步预测结果
Figure BDA0003799227720000043
进行线性化处理,并且与KA相加,得到属性分支最终预测结果
Figure BDA0003799227720000044
表示为式(5),
Figure BDA0003799227720000045
其中,WA∈RM×M表示线性化处理分类器参数。
进一步地,步骤3.2的具体过程为:
步骤3.2.1、首先采用标记化方案将特征图聚合成K个紧凑视觉标记,其中K<<H×W;对于输入特征图X∈RH×W×C,通过局部聚合描述符向量计算核进行标记软分配,并计算第k 个视觉标记Tk∈RK×C,如式(6)所示,
Figure BDA0003799227720000046
其中,αk(xl)表示将第l个局部特征xl分配给第k个视觉标记的加权值,ck是第k个可学习的锚点;
步骤3.2.2、利用自注意模块来捕获不同视觉标记之间的上下文关系;采用多头自注意力层和前馈神经网络在所有视觉标记之间传播消息,它们的状态通过等式(7)更新,
Figure BDA0003799227720000047
其中,d1表示调节因子;Qc,
Figure BDA0003799227720000048
是通过对输出全局特征Tk进行线性变换得到,Qc,Kc,Vc表示上下文自注意力的三个输入投影;WT∈RM×M代表线性化处理中分类器参数;
步骤3.2.3、然后,将Qc,Kc进行矩阵相乘,再通过Softmax操作和Dropout操作,随机裁剪50%参数得到上下文注意力分数,通过与Vc相加引入残差结构来加速收敛;最后,通过线性层和批标准化操作获得上下文分支预测值
Figure BDA0003799227720000051
如式(8)所示,
Figure BDA0003799227720000052
其中,BN代表批标准化操作,WC∈RM×C代表线性化处理中分类器参数。
进一步地,步骤4的具体过程为:
首先采用训练集Dtrain训练模型,学习率设置为0.0001,迭代次数为30次,优化器采用 Adam优化器,每迭代一次输入64幅图像;
然后计算两个分支损失函数和约束损失,得到的总损失
Figure BDA0003799227720000054
,最小化损失值;其中,两个分支损失函数
Figure BDA0003799227720000055
Figure BDA0003799227720000056
均采用如式(9)所示的加权交叉熵损失函数,
Figure BDA0003799227720000053
其中,ωj表示训练数据集中第j个属性所占的权重;M代表属性个数;pij、yij表示第i 个样本的第j个属性的预测值和标签值;
整个双分支自注意力网络模型总的损失函数
Figure BDA0003799227720000057
表示为下式(10),根据得到的总损失
Figure BDA0003799227720000058
最小化损失值,
Figure BDA0003799227720000059
其中,λ123分别为两个分支损失函数和约束损失函数的权重;
最后利用Dtest测试模型,每次训练之后都在测试集Dtest上进行测试,比较各测试结果,并保存测试集结果最好的网络模型参数。
本发明所带来的有益技术效果:
本发明采用两分支自注意力网络获取属性相关信息和上下文关系,并结合约束损失等对属性特征分类进行限制,提升了属性分类性能。本发明能够在大规模监控场景下稳定实现行人属性识别,可以应用于人员图像检索、安全安防检测、商业广告投放等领域,提高属性识别技术的性能和实用性,对加快科技发展,提高人民生活水平,促进社会生产力提高具有重要意义。
附图说明
图1为本发明基于双分支自注意力网络的行人属性识别方法的流程图;
图2为本发明双分支自注意力网络模型的整体结构示意图;
图3为本发明二阶自注意力模块模型的计算过程示意图;
图4为本发明属性自注意力模块的计算过程示意图;
图5为本发明上下文自注意力模块的计算过程示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
在行人属性识别领域中,常常需要将性别、年龄、太阳镜、服装类型、发型等数个属性集中分析。在这些属性中,有些密切相关,例如,“裙子”属性通常与“女性”属性相关联,服装类型属性可以提供一定的信息来判断年龄,因此探索属性间关系有助于提升属性识别性能。探索不同图像区域的上下文关系同样有助于属性识别。例如,当识别一个行人的性别时,人们倾向于关注多个区域,如头部周围区域、身体穿着等,并考虑它们的上下文关系,因此本发明阐述一种基于双分支自注意力网络的行人属性识别方法,综合获取输入图片属性相关信息和上下文区域信息,高性能实现行人属性识别所必需的“图片特征提取”、“属性特征分类”等关键算法。
本发明为行人属性识别提出一种新颖的双分支网络(即属性分支和上下文分支),属性分支提出二阶自注意力模块来充分利用有限特征维度信息,进一步提高特征表示能力;上下文分支使用标记化方案来聚合特征图,并提出上下文自注意模块来探索基于多个视觉标记的上下文关系。
如图1所示,一种基于双分支自注意力网络的行人属性识别方法,包括如下步骤:
步骤1、图像数据采集及处理,构建并划分数据集。从监控视频中提取行人图像,并进行属性标注和裁剪;将图像统一裁剪成大小为256×128像素的图片,构成图片数据集D,并将数据集D划分为训练集Dtrain和测试集Dtest
步骤2、图像特征提取。使用ResNet50作为骨干网络,利用批处理方法批量输入图片,得到特征图X∈RC×H×W,其中H、W和C分别代表特征图的长度、宽度和维度,在本发明实施例中分别设为8、4和2048。或者,使用层数更深、参数更多的ResNet101网络模型进行图像特征提取,从而达到更好的识别精度。
步骤3、构建如图2所示的双分支自注意力行人属性识别网络模型获取图像属性相关信息和上下文区域信息;双分支包括属性分支和上下文分支,属性分支包括二阶自注意力模块和属性自注意力模块,上下文分支包括区域特征映射模块和上下文自注意力模块。模型总损失包含三部分,其中属性分支损失、上下文分支损失分别用
Figure BDA0003799227720000061
表示,属性分支中约束损失则用
Figure BDA0003799227720000062
表示。
步骤3.1、基于二阶自注意力模块和属性自注意力模块计算属性分支的预测值;具体过程如下:
二阶自注意力模块的计算过程如图3所示,
步骤3.1.1、特征图X通过1×1卷积(输入通道为C维,输出通道为
Figure BDA0003799227720000071
维,其中r表示采样降低倍率,在本发明实施例中r设为8)得到维度为
Figure BDA0003799227720000072
的张量,再改变该张量的维度变换成二维张量
Figure BDA0003799227720000073
Q=H×W,相同操作重复三次便生成了特征图X的三个投影,表示为KS、QS和VS,维度均为
Figure BDA0003799227720000074
步骤3.1.2、使用投影KS和投影QS计算协方差矩阵
Figure BDA0003799227720000075
如式(1)所示,
Figure BDA0003799227720000076
其中,I和1分别是Q维单位矩阵和全一矩阵;
步骤3.1.3、采用Softmax函数处理协方差矩阵Σ并采用Q作为协方差矩阵的缩放因子,此步骤可以起到调节的作用;
步骤3.1.4、将步骤3.1.3得到的结果与VS点乘得到二阶自注意力值
Figure BDA0003799227720000077
如式(2)所示,并将
Figure BDA0003799227720000078
展开为形状为
Figure BDA0003799227720000079
的张量;
Figure BDA00037992277200000710
步骤3.1.5、最后将
Figure BDA00037992277200000711
和特征图X通过1×1卷积得到的维度为
Figure BDA00037992277200000712
一阶特征拼接起来,共同作为后续属性自注意力模块的输入。
上述二阶自注意力模块输出将作为下面介绍的属性自注意力模块的输入,属性自注意力模块的计算过程如图4所示,
步骤3.1.6、将步骤3.1.5的输出特征图(形状为
Figure BDA00037992277200000713
)通过不同的1×1卷积并将最后两维数据维度变换(Reshape)成一维以获得KA、QA和VA三个矩阵,KA、QA和VA分别表示属性自注意力模块的三个输入投影,其中QA,
Figure BDA00037992277200000714
NH和M分别是注意力头数和属性个数,DA表示属性特征映射的维度,本发明实施例中设为256;
步骤3.1.7、根据式(3),将矩阵KA和矩阵QA的转置相乘,在通过Sigmoid操作得到各属性的注意力分数
Figure BDA00037992277200000715
该分数代表了输入中包含某种属性的概率,式中M表示属性个数;
Figure BDA00037992277200000716
步骤3.1.8、将上述注意力分数
Figure BDA0003799227720000081
与VA相乘得到各注意力头数对应的预测值
Figure BDA0003799227720000082
步骤3.1.9、然后沿NH维度对
Figure BDA0003799227720000083
进行求和,将其拉伸成一个维度为M的属性分支初步预测结果
Figure BDA0003799227720000084
步骤3.1.10、为了确保属性特定特征的学习,设计了约束损失函数
Figure BDA00037992277200000810
来限制预测分数,如式(4)所示,
Figure BDA0003799227720000085
其中,ωj表示训练数据集中第j个属性所占的权重,M代表属性个数;pij、yi j分别表示第i个样本的第j个属性的预测值和标签值;
步骤3.1.11、最后,对初步预测结果
Figure BDA0003799227720000086
进行线性化处理,用于提升模型鲁棒性,并且与KA相加,得到属性分支最终预测结果
Figure BDA0003799227720000087
可以表示为式(5),
Figure BDA0003799227720000088
其中WA∈RM×M表示线性化处理分类器参数。
步骤3.2、基于上下文自注意力模块计算上下文分支的预测值;
由于现实场景中监控相机视角的影响,图像经常会发生变形,但身体部位的位置和附带物品的位置往往有一定的关系,因此有必要探索上下文区域关系。在上下文分支中,从特征图中提取视觉标记,并进一步用于探索不同区域之间的上下文关系。具体过程如下,
步骤3.2.1、首先采用标记化方案将特征图聚合成K个紧凑视觉标记,其中K<<H×W。对于输入特征图X∈RH×W×C,通过局部聚合描述符向量(Vector of LocallyAggregated Descriptors,VLAD)计算核(VLAD core)进行标记软分配,并计算第k个视觉标记Tk∈RK×C,如式(6)所示。
Figure BDA0003799227720000089
其中,αk(xl)表示将第l个局部特征xl分配给第k个视觉标记的加权值,ck是第k个可学习的锚点。
步骤3.2.2、如附图5所示,利用自注意模块来捕获不同视觉标记之间的上下文关系。采用多头自注意力层和前馈神经网络(FFN)在所有视觉标记之间传播消息,它们的状态通过等式(7)更新,
Figure BDA0003799227720000091
其中,d1表示调节因子,指输入维度除以多头注意力头数,本发明实施例中为256;Qc,
Figure BDA0003799227720000092
是通过对输出全局特征Tk进行线性变换得到,本发明实施示例中的中间特征维度nc1=256,nc2=64,Qc,Kc,Vc表示上下文自注意力的三个输入投影;WT∈RM×M代表线性化处理中分类器参数。
步骤3.2.3、然后,利用Qc,Kc矩阵相乘以及Softmax操作并通过Dropout随机裁剪50%参数得到上下文注意力分数,通过与Vc相加引入残差结构来加速收敛。最后,通过使用线性层(FC)和批标准化操作(BN)获得上下文分支预测值
Figure BDA0003799227720000093
如式(8)所示,
Figure BDA0003799227720000094
其中,BN代表批标准化操作,WC∈RM×C代表线性化处理中分类器参数。
步骤3.3、最终分类预测结果表示为
Figure BDA0003799227720000095
Figure BDA0003799227720000096
的平均值,利用Sigmoid进行加权处理,获取最终属性分类结果,为了与实例标签值对应,将最终属性分类结果大于0.5的取1,小于等于0.5的取0。
步骤4.训练输出性能良好的双分支自注意力网络模型。本发明通过迭代训练,寻找模型最优值,具体过程为:
首先采用训练集Dtrain训练模型,学习率设置为0.0001,迭代次数为30次,优化器采用 Adam优化器,每迭代一次输入64幅图像;
然后计算两个分支损失函数和约束损失,得到的总损失
Figure BDA0003799227720000098
,最小化损失值;其中,两个分支损失函数
Figure BDA0003799227720000099
Figure BDA00037992277200000910
均采用如式(9)所示的加权交叉熵损失函数,
Figure BDA0003799227720000097
其中,ωj表示训练数据集中第j个属性所占的权重;M代表属性个数;pij、yij表示第i 个样本的第j个属性的预测值和标签值;
整个双分支自注意力网络模型总的损失函数
Figure BDA00037992277200000912
可以表示为下式(10),根据得到的总损失
Figure BDA00037992277200000913
最小化损失值,
Figure BDA00037992277200000911
其中,λ123分别为两个分支损失函数和约束损失函数的权重,本发明实施例中设λ1=1,λ2=1,λ3=0.1。
最后利用Dtest测试模型,每次训练之后都在测试集Dtest上进行测试,比较各测试结果,并保存测试集结果最好的网络模型参数。
或者,也可以使用AdamW优化器算法进一步加速迭代过程。
步骤5、通过监控视频实时采集行人图像,利用训练完成的两分支自注意力网络模型进行行人属性的自动识别。
为了证明本发明的可行性与优越性,采用三个常用属性识别数据集(PETA、PA00K、RAP) 上进行对比实验,基准模型采用ResNet50和线性分类器,本模型测试结果在上述数据集上的识别准确率分别达到了87.70%、82.27%、83.68%,相较于基准模型的准确率分别提升了2.59%、 2.89%、5.20%,充分说明了本发明能够有效改善行现有人属性识别方法的应用效果。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (7)

1.一种基于双分支自注意力网络的行人属性识别方法,其特征在于,包括如下步骤:
步骤1、图像数据采集及处理,构建并划分数据集;
步骤2、图像特征提取;
步骤3、构建双分支自注意力行人属性识别网络模型获取图像属性相关信息和上下文区域信息,双分支包括属性分支和上下文分支,属性分支包括二阶自注意力模块和属性自注意力模块,上下文分支包括区域特征映射模块和上下文自注意力模块;
步骤4.训练输出性能良好的双分支自注意力网络模型;
步骤5、通过监控视频实时采集行人图像,利用训练完成的两分支自注意力网络模型进行行人属性的自动识别。
2.根据权利要求1所述基于双分支自注意力网络的行人属性识别方法,其特征在于,所述步骤1的具体过程为:从监控视频中提取行人图像,并进行属性标注和裁剪;将图像统一裁剪成大小为256×128像素的图片,构成图片数据集D,并将数据集D划分为训练集Dtrain和测试集Dtest
3.根据权利要求1所述基于双分支自注意力网络的行人属性识别方法,其特征在于,所述步骤2的具体过程为:使用ResNet50作为骨干网络,利用批处理方法批量输入图片,得到特征图X∈RC×H×W,其中H、W和C分别代表特征图的长度、宽度和维度。
4.根据权利要求1所述基于双分支自注意力网络的行人属性识别方法,其特征在于,所述步骤3的具体过程为:
步骤3.1、基于二阶自注意力模块和属性自注意力模块计算属性分支的预测值
Figure FDA0003799227710000011
步骤3.2、基于上下文自注意力模块计算上下文分支的预测值
Figure FDA0003799227710000012
步骤3.3、最终分类预测结果表示为
Figure FDA0003799227710000013
Figure FDA0003799227710000014
的平均值,利用Sigmoid进行加权处理,获取最终属性分类结果,将最终属性分类结果大于0.5的取1,小于等于0.5的取0。
5.根据权利要求4所述基于双分支自注意力网络的行人属性识别方法,其特征在于,所述步骤3.1的具体过程为:
二阶自注意力模块的计算过程如下:
步骤3.1.1、特征图X通过1×1卷积得到维度为
Figure FDA0003799227710000015
的三维张量,再改变该张量的维度变换成二维矩阵
Figure FDA0003799227710000016
Q=H×W,相同操作重复三次生成特征图X的三个投影矩阵,分别为KS、QS和VS,维度均为
Figure FDA0003799227710000017
其中,输入通道为C维,输出通道为
Figure FDA0003799227710000018
维,r表示采样降低倍率;
步骤3.1.2、使用投影KS和投影QS计算协方差矩阵
Figure FDA0003799227710000021
如式(1)所示,
Figure FDA0003799227710000022
其中,I和1分别是Q维单位矩阵和全一矩阵;
步骤3.1.3、采用Softmax函数处理协方差矩阵Σ并采用Q作为协方差矩阵的缩放因子;
步骤3.1.4、将步骤3.1.3得到的结果与VS点乘得到
Figure FDA0003799227710000023
如式(2)所示,并将
Figure FDA0003799227710000024
展开为形状为
Figure FDA0003799227710000025
的张量;
Figure FDA0003799227710000026
步骤3.1.5、最后将
Figure FDA0003799227710000027
和特征图X通过1×1卷积得到的维度为
Figure FDA0003799227710000028
一阶特征拼接起来,共同作为后续属性自注意力模块的输入;
属性自注意力模块的计算过程如下:
步骤3.1.6、输入形状为
Figure FDA0003799227710000029
的三维特征图通过不同的1×1卷积并将最后两维数据维度变换成一维以获得KA、QA和VA,分别表示属性自注意力模块的三个输入投影矩阵,其中
Figure FDA00037992277100000210
NH和M分别是注意力头数和属性个数,DA表示属性特征映射的维度;
步骤3.1.7、根据式(3),将矩阵KA和矩阵QA的转置相乘,在通过Sigmoid操作得到各属性的注意力分数
Figure FDA00037992277100000211
该分数代表了输入中包含某种属性的概率,式中M表示属性个数;
Figure FDA00037992277100000212
步骤3.1.8、将上述注意力分数
Figure FDA00037992277100000213
与VA相乘得到各注意力头数对应的预测值
Figure FDA00037992277100000214
步骤3.1.9、然后沿NH维度对
Figure FDA00037992277100000215
进行求和,将其拉伸成一个维度为M的属性自注意力模块初步预测结果
Figure FDA00037992277100000216
步骤3.1.10、设计约束损失函数
Figure FDA00037992277100000217
来限制预测分数,如式(4)所示,
Figure FDA00037992277100000218
其中,ωj表示训练数据集中第j个属性所占的权重,pij、yij分别表示第i个样本的第j个属性的预测值和标签值;
步骤3.1.11、最后,对初步预测结果
Figure FDA0003799227710000031
进行线性化处理,并且与KA相加,得到属性分支最终预测结果
Figure FDA0003799227710000032
表示为式(5),
Figure FDA0003799227710000033
其中,WA∈RM×M表示线性化处理分类器参数。
6.根据权利要求4所述基于双分支自注意力网络的行人属性识别方法,其特征在于,所述步骤3.2的具体过程为:
步骤3.2.1、首先采用标记化方案将特征图聚合成K个紧凑视觉标记,其中K<<H×W;对于输入特征图X∈RH×W×C,通过局部聚合描述符向量计算核进行标记软分配,并计算第k个视觉标记Tk∈RK×C,如式(6)所示,
Figure FDA0003799227710000034
其中,αk(xl)表示将第l个局部特征xl分配给第k个视觉标记的加权值,ck是第k个可学习的锚点;
步骤3.2.2、利用自注意模块来捕获不同视觉标记之间的上下文关系;采用多头自注意力层和前馈神经网络在所有视觉标记之间传播消息,它们的状态通过等式(7)更新,
Figure FDA0003799227710000035
其中,d1表示调节因子;
Figure FDA0003799227710000036
是通过对输出全局特征Tk进行线性变换得到,Qc,Kc,Vc表示上下文自注意力的三个输入投影;WT∈RM×M代表线性化处理中分类器参数;
步骤3.2.3、然后,将Qc,Kc进行矩阵相乘,再通过Softmax操作和Dropout操作,随机裁剪50%参数得到上下文注意力分数,通过与Vc相加引入残差结构来加速收敛;最后,通过线性层和批标准化操作获得上下文分支预测值
Figure FDA0003799227710000037
如式(8)所示,
Figure FDA0003799227710000038
其中,BN代表批标准化操作,WC∈RM×C代表线性层中的参数。
7.根据权利要求1所述基于双分支自注意力网络的行人属性识别方法,其特征在于,所述步骤4的具体过程为:
首先采用训练集Dtrain训练模型,学习率设置为0.0001,迭代次数为30次,优化器采用Adam优化器,每迭代一次输入64幅图像;
然后计算两个分支损失函数和约束损失,得到的总损失
Figure FDA0003799227710000041
最小化损失值;其中,两个分支损失函数
Figure FDA0003799227710000042
Figure FDA0003799227710000043
均采用如式(9)所示的加权交叉熵损失函数,
Figure FDA0003799227710000044
其中,ωj表示训练数据集中第j个属性所占的权重;M代表属性个数;pij、yij表示第i个样本的第j个属性的预测值和标签值;
整个双分支自注意力网络模型总的损失函数
Figure FDA0003799227710000045
表示为下式(10),根据得到的总损失
Figure FDA0003799227710000047
最小化损失值,
Figure FDA0003799227710000046
其中,λ123分别为两个分支损失函数和约束损失函数的权重;
最后利用Dtest测试模型,每次训练之后都在测试集Dtest上进行测试,比较各测试结果,并保存测试集结果最好的网络模型参数。
CN202210978456.XA 2022-08-16 2022-08-16 一种基于双分支自注意力网络的行人属性识别方法 Pending CN115439884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210978456.XA CN115439884A (zh) 2022-08-16 2022-08-16 一种基于双分支自注意力网络的行人属性识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210978456.XA CN115439884A (zh) 2022-08-16 2022-08-16 一种基于双分支自注意力网络的行人属性识别方法

Publications (1)

Publication Number Publication Date
CN115439884A true CN115439884A (zh) 2022-12-06

Family

ID=84242336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210978456.XA Pending CN115439884A (zh) 2022-08-16 2022-08-16 一种基于双分支自注意力网络的行人属性识别方法

Country Status (1)

Country Link
CN (1) CN115439884A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095447A (zh) * 2023-10-18 2023-11-21 杭州宇泛智能科技有限公司 一种跨域人脸识别方法、装置、计算机设备及存储介质
CN117152552A (zh) * 2023-07-27 2023-12-01 至本医疗科技(上海)有限公司 用于训练模型的方法、设备和介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152552A (zh) * 2023-07-27 2023-12-01 至本医疗科技(上海)有限公司 用于训练模型的方法、设备和介质
CN117095447A (zh) * 2023-10-18 2023-11-21 杭州宇泛智能科技有限公司 一种跨域人脸识别方法、装置、计算机设备及存储介质
CN117095447B (zh) * 2023-10-18 2024-01-12 杭州宇泛智能科技有限公司 一种跨域人脸识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN111639544B (zh) 基于多分支跨连接卷积神经网络的表情识别方法
Zhao et al. Recurrent attention model for pedestrian attribute recognition
Wang et al. Multi-scale dilated convolution of convolutional neural network for crowd counting
Parkhi et al. Deep face recognition
CN111523462B (zh) 基于自注意增强cnn的视频序列表情识别系统及方法
Liong et al. Evaluation of the spatio-temporal features and gan for micro-expression recognition system
Chai et al. Boosting palmprint identification with gender information using DeepNet
CN105975932B (zh) 基于时间序列shapelet的步态识别分类方法
Yang et al. Rankboost with l1 regularization for facial expression recognition and intensity estimation
CN115439884A (zh) 一种基于双分支自注意力网络的行人属性识别方法
CN112464730B (zh) 一种基于域无关前景特征学习的行人再识别方法
CN111199212B (zh) 基于注意力模型的行人属性识别方法
CN111444488A (zh) 一种基于动态手势的身份认证方法
CN115830637B (zh) 一种基于姿态估计和背景抑制的遮挡行人重识别方法
CN112541421A (zh) 一种开放空间的行人换装重识别方法
Agbo-Ajala et al. A lightweight convolutional neural network for real and apparent age estimation in unconstrained face images
Ma et al. Landmark‐Based Facial Feature Construction and Action Unit Intensity Prediction
Li et al. Multi-scale joint feature network for micro-expression recognition
Singh et al. Automation of surveillance systems using deep learning and facial recognition
Ma et al. Bottleneck feature extraction-based deep neural network model for facial emotion recognition
CN116434010A (zh) 一种多视图的行人属性识别方法
Zhao et al. Research on human behavior recognition in video based on 3DCCA
Stylianou-Nikolaidou et al. A novel CNN-LSTM hybrid architecture for the recognition of human activities
Xie et al. Micro-expression recognition based on deep capsule adversarial domain adaptation network
Dembani et al. UNSUPERVISED FACIAL EXPRESSION DETECTION USING GENETIC ALGORITHM.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination