CN116434010A - 一种多视图的行人属性识别方法 - Google Patents

一种多视图的行人属性识别方法 Download PDF

Info

Publication number
CN116434010A
CN116434010A CN202310423403.6A CN202310423403A CN116434010A CN 116434010 A CN116434010 A CN 116434010A CN 202310423403 A CN202310423403 A CN 202310423403A CN 116434010 A CN116434010 A CN 116434010A
Authority
CN
China
Prior art keywords
graph
visual
semantic
association
inter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310423403.6A
Other languages
English (en)
Inventor
于洋
刘龙龙
朱叶
郝小可
郭迎春
师硕
阎刚
吕华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN202310423403.6A priority Critical patent/CN116434010A/zh
Publication of CN116434010A publication Critical patent/CN116434010A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明为一种多视图的行人属性识别方法,从语义相关性、区域相关性以及语义区域之间的相关性三个视图识别属性,使用语义图卷积学习语义相关性,使用视觉图卷积学习区域相关性,联合语义关联图和视觉关联图构建合成图,通过合成图图卷积来学习语义与区域相关性,利用融合两图特征信息的嵌入图间边预测属性。对于损失函数而言,传统的方法都对所有数据集采用相同的加权策略,导致在某个数据集上的权重过重和过轻,本方法对不同的数据集采用不同的损失函数加权方式,对不同的数据集有效地缓解属性不平衡问题。

Description

一种多视图的行人属性识别方法
技术领域
本发明涉及用于识别图形的记录载体的行人属性识别技术领域,具体地说是一种多视图的行人属性识别方法。
背景技术
行人属性识别指的是给定一张行人图片和每个数据集预定的属性列表,行人属性识别算法的目的是从这张图片中识别出行人具有哪些预定的属性,属性信息一般为大致年龄、性别、穿着和行为动作等。属性信息不仅包含长发、裙子等低级语义,还包含年龄、性别等高级语义,这些信息与低级语义不同,对视角变换和成像条件的变化比较鲁棒。由于行人属性识别在公共安全和智慧安防等领域的广泛应用,已经成为了计算机视觉领域的热点。
行人属性识别的方法一般分为两种方法,一种方法比较直观,直接对属性进行定位,根据人体先验知识或者借助其他模型来提取局部特征,使用局部特征来辅助全局特征识别属性,例如使用注意力机制可以提取特定的属性特征以预测相应属性,但这类方法容易受光照、遮挡、人体姿态变化等外部因素的影响,同时一些高级语义属性对应的视觉信息又比较抽象,以及一些细粒度属性对应区域较小,使得网络更加地难以定位属性。另一种方法则是学习属性间的相关性。行人的属性类别较多,如性别、年龄、太阳镜、服装类型和发型。在这些属性中,有些属性是密切相关的。例如,属性“裙子”经常与属性“女性”相关联,服装类型的属性可以为判断年龄提供一定的信息。因此,属性相关性可以提高行人属性识别的性能。面对不同外观、部位遮挡以及分辨率低等挑战时,需要根据上下文信息来推理该区域的信息,例如在识别人的性别时,人们往往会关注多个区域,比如头部、人体和携带物品的区域,并考虑它们的上下文关系。CN108921051A对行人的属性按照区域进行分组,使用注意力机制学习每个组对应的特征,结合循环神经网络学习属性组间特征的关联,但属性组内特征关系只能通过全连接层学习,无法有效地学习到所有属性之间的关系。CN109190472A将视觉特征和属性特征送入长短期记忆网络中,以学习属性与视觉特征的关系,但长短期网络只能学习到属性之间单向的关系,行人属性之间的关联往往是双向的,例如‘裙子’属性往往可以推断出‘女性’属性,‘女性’属性会增大‘裙子’属性出现的概率。CN115482584A公布了一种基于GCN的行人属性识别方法,它使用行人的轨迹数据转化为图形式表达,这样可以学习空间之间的联系,但是它无法学习属性之间的关联。同时行人属性不平衡的问题也是难点之一,对损失函数进行加权、分类前使用批归一化是缓解行人属性不平衡的常用手段,但不同行人属性数据集的不平衡性严重程度不同,对不同的数据集训练时采用一致的损失函数加权方式很难起到良好的效果。此外,低分辨率、部分身体遮挡、复杂的外观变化均为行人属性识别需要解决的重要问题。
发明内容:
针对现有技术的不足,本发明所要解决的技术问题是:提供一种多视图的行人属性识别方法,使用图卷积学习语义关联、区域关联以及语义与区域之间的关联。使用属性特定的特征向量构建语义图,利用图卷积学习语义相关性;根据视觉图特征构建视觉图,利用图卷积学习区域相关性;联合视觉图与语义图构建合成图,结合图卷积构建语义与区域相关性。本发明方法还针对数据集的特性对损失函数使用不同的加权策略。本发明方法克服了低分辨率、部分身体遮挡、复杂的外观变化以及不同数据集的属性的不平衡性导致的行人属性识别率较低的问题。
本发明解决该技术问题所采用的技术方案是:
一种多视图的行人属性识别方法,该识别方法包括以下内容:
对公开数据集进行属性分组,利用公开数据集行人图片通过ResNet-101网络的前三层处理后进入第四层分成两个分支,两个分支分别获得语义特征图
Figure BDA0004187534660000021
和视觉特征图/>
Figure BDA0004187534660000022
前三层共享权重,第四层单独训练权重不共享;/>
Figure BDA0004187534660000023
经过池化后得到特征向量/>
Figure BDA0004187534660000024
经过分类器进行语义分类预测,并使用语义约束损失/>
Figure BDA0004187534660000025
约束;
同时
Figure BDA0004187534660000026
经过多个全连接层得到属性特定的特征向量/>
Figure BDA0004187534660000027
每个属性特定的特征向量为语义图的一个节点,所有的属性特定的特征向量/>
Figure BDA0004187534660000028
构成语义图,语义图邻接矩阵根据公开数据集的先验知识被构建,语义图和语义图邻接矩阵输入语义图卷积GCN中,学习语义的相关性,并得到语义关联图/>
Figure BDA0004187534660000029
语义关联图/>
Figure BDA00041875346600000210
经过分类器进行语义图预测,并使用语义图约束损失/>
Figure BDA00041875346600000211
约束;
Figure BDA00041875346600000212
通过软分配策略得到多个视觉聚类特征/>
Figure BDA00041875346600000213
每个视觉聚类特征对应每个属性组的区域特征,多个视觉聚类特征/>
Figure BDA00041875346600000214
构成视觉图,根据聚类之间的相似度和拓扑距离得到视觉图邻接矩阵,视觉图和视觉图邻接矩阵输入视觉图卷积GCN中,学习属性组对应的区域之间的相关性,得到视觉关联图/>
Figure BDA00041875346600000215
视觉关联图/>
Figure BDA00041875346600000216
经过分类器进行视觉图预测,并用视觉图约束损失/>
Figure BDA00041875346600000217
约束;
联合语义关联图与视觉关联图构建合成图,合成图中通过语义关联图和视觉关联图之间的图间边相互嵌入,指导对方的学习,构建语义与区域相关性;
利用公开数据集进行训练后用于行人属性识别。
在合成图的构建过程中,利用语义关联图
Figure BDA00041875346600000218
与视觉关联图/>
Figure BDA00041875346600000219
经过融合操作、全连接层获得图间边/>
Figure BDA00041875346600000220
语义关联图/>
Figure BDA00041875346600000221
的更新分为图内更新和图间更新,其中图间更新由图间边引导;语义关联图/>
Figure BDA00041875346600000222
经过一个语义图卷积进行图内更新;
视觉关联图
Figure BDA00041875346600000223
的更新分为图内更新和图间更新,视觉关联图/>
Figure BDA00041875346600000224
经过一个视觉图卷积进行图内更新;
图间更新过程是:语义关联图
Figure BDA00041875346600000225
或视觉关联图/>
Figure BDA00041875346600000226
分别与语义关联图映射矩阵/>
Figure BDA00041875346600000227
或视觉关联图映射矩阵/>
Figure BDA00041875346600000228
相乘,再与图间边/>
Figure BDA00041875346600000229
进行融合操作,给定语义关联图权重矩阵WA,V和视觉关联图权重矩阵WV,A,将与图间边融合后的结果分别与语义关联图权重矩阵WA,V或视觉关联图权重矩阵WV,A各自进行矩阵相乘操作,完成视觉关联图和语义关联图的图间更新;
语义关联图和视觉关联图的图间更新结果
Figure BDA00041875346600000230
再分别与语义关联图的图内更新结果、视觉关联图的图内更新结果进行融合操作,最后对融合后的结果分别经过一个全连接层后获得视觉嵌入图/>
Figure BDA0004187534660000031
和语义嵌入图/>
Figure BDA0004187534660000032
视觉嵌入图/>
Figure BDA0004187534660000033
图间边/>
Figure BDA0004187534660000034
和语义嵌入图/>
Figure BDA0004187534660000035
再经过融合操作、一个全连接层后获得更新后的嵌入图间边/>
Figure BDA0004187534660000036
更新后的嵌入图间边
Figure BDA0004187534660000037
再经过嵌入图间边分类器进行嵌入图间边预测,并用合成图约束损失/>
Figure BDA0004187534660000038
约束。
多视图的行人属性识别方法的具体步骤是:
第一步,对行人图像进行预处理和特征提取:
将行人图片调整为256×128后,使用随机水平翻转、色调和饱和度、旋转、平移、裁剪、擦除和添加随机高斯模糊来增强训练图像,通过ResNet-101以获得第i张图片的语义特征图
Figure BDA0004187534660000039
和视觉特征图/>
Figure BDA00041875346600000310
ResNet-101的前三层共享权重,第四层分成两个分支并单独训练不共享权重;其中视觉图分支中去除ResNet-101第四层中的下采样和该部分的通道增加操作;
第二步,语义图学习语义相关性:
根据上述第一步得到的语义特征图
Figure BDA00041875346600000326
通过语义约束损失约束得到每个属性特定的特征向量,使用属性特定的特征向量构建语义图,使用训练集中属性的条件概率构建邻接矩阵,以进行图卷积,然后每个节点得到相应的属性概率,使用损失函数约束语义图的训练;
第2.1步,使用语义约束损失约束得到的属性特定特征向量:
将从ResNet-101提取到的语义特征图
Figure BDA00041875346600000311
经过全局平均池化得到特征向量/>
Figure BDA00041875346600000312
其中c为/>
Figure BDA00041875346600000313
的通道数;/>
Figure BDA00041875346600000314
经过由输出维度为属性个数的全连接层、批归一化和激活函数构成的语义分类器得到语义分类预测结果/>
Figure BDA00041875346600000315
语义分类器在数学上表示为:
Figure BDA00041875346600000316
其中WA,1表示全连接层的参数,σ是sigmoid函数,BN表示批量归一化层。利用语义分类预测使用语义约束损失函数约束。
Figure BDA00041875346600000317
经过不同的输出维度为d的全连接层得到不同属性特定的特征向量/>
Figure BDA00041875346600000318
此时全连接层的数量与属性的个数一致,在数学上表示为:
Figure BDA00041875346600000319
Figure BDA00041875346600000320
是全连接层中第j个属性的参数,得到的/>
Figure BDA00041875346600000321
d为特征向量/>
Figure BDA00041875346600000322
的长度;
第2.2步,语义图卷积:
使用所有属性特定的特征向量
Figure BDA00041875346600000323
融合为/>
Figure BDA00041875346600000324
作为语义图的输入,对语义图进行语义图卷积,以挖掘行人属性之间的语义关系,这部分为图内更新,在面对低分辨率等困难导致一些细粒度属性难以识别时,借助其他属性的预测和属性之间的语义关系来预测这部分细粒度属性,用以下公式表示:
Figure BDA00041875346600000325
其中AA是可学习的邻接矩阵,
Figure BDA0004187534660000041
为语义图卷积的输出,即语义关联图,/>
Figure BDA0004187534660000042
为邻接矩阵AA取倒数和平方根后的对角线组成的矩阵,I为单位矩阵。邻接矩阵AA是根据行人属性的训练集的先验知识得到的。训练集中一种属性出现时另一种属性的条件概率P可以通过以下公式得到:
Pab=Mab/Nb (4),
其中Pab表示b属性出现时a属性出现的概率,Mab表示训练集中a属性和b属性同时出现的次数,Nb表示b属性出现的次数,将训练集中某个属性出现的频率作为该属性的概率。AA由Pab根据阈值归一化得到。
语义图
Figure BDA0004187534660000043
先与权重矩阵WA相乘,然后与归一化后相邻矩阵/>
Figure BDA0004187534660000044
相乘,实现图卷积。将WA设置为d×d的大小,d为特征向量的长度,语义关联图/>
Figure BDA0004187534660000045
的大小与/>
Figure BDA0004187534660000046
相同。
Figure BDA0004187534660000047
经过由全局平均池化GAP、批归一化BN和sigmoid激活函数构成的语义图分类器得到语义图预测结果/>
Figure BDA0004187534660000048
并用语义图约束损失约束,语义图分类器公式如下:
Figure BDA0004187534660000049
第三步,视觉图学习区域相关性:
根据从ResNet-101提取到的视觉特征图
Figure BDA00041875346600000410
构建视觉图,使用拓扑关系和相似度构建邻接矩阵,进行视觉图卷积,具体步骤是:
第3.1步,对视觉特征图
Figure BDA00041875346600000411
使用软分配策略构建视觉图:
为了学习图片中的区域关系,将从ResNet-101提取到的视觉特征图
Figure BDA00041875346600000412
经过软分配策略映射到各个聚类上,每个聚类表示一组属性,这组属性对应着相同的视觉聚类特征;在软分配策略中,/>
Figure BDA00041875346600000413
的每个局部特征都对每个聚类有着权重,所有局部特征对同一个聚类的贡献和为1,得到的视觉聚类特征是通过分配权重对变换的局部特征进行加权求和来计算的;这样网络自己学习聚类可以应对人类姿势和相机视角的变化,得到的视觉聚类特征为
Figure BDA00041875346600000414
多个视觉聚类特征/>
Figure BDA00041875346600000415
构成视觉图,其中m表示视觉图的节点数量,不同的数据集有着不同数量的视觉图节点,l表示每个节点特征向量的长度,计算公式如下:
Figure BDA00041875346600000416
其中,AVS为映射矩阵,表示在每个位置使用softmax进行规范化;Wvs为权重矩阵;at,s∈AVS的计算公式如下:
Figure BDA00041875346600000417
at,s∈AVS表示视觉特征图
Figure BDA00041875346600000418
第s个点/>
Figure BDA00041875346600000419
赋给视觉图/>
Figure BDA00041875346600000420
节点t的置信度,/>
Figure BDA00041875346600000421
为计算赋值权重的可训练权重矩阵;
第3.2步,根据聚类之间的拓扑距离和相似度构建邻接矩阵进行图卷积:
视觉图就会根据这些属性组对应区域之间的距离和相似程度来更新,从而学习上下文的关系,在遇到外观变化和部分身体被遮挡时,可以通过其他区域来识别难以识别的区域对应属性,这部分图卷积为图内更新,公式如下:
Figure BDA0004187534660000051
其中
Figure BDA0004187534660000052
为视觉图卷积得到的结果,即视觉关联图,WV1∈Rl×l和WV2∈Rl×l为可训练的权重矩阵。AV1∈Rm×m和AV2∈Rm×m为邻接矩阵,AV1由聚类之间相似度的归一化结果得到的。首先计算k节点和p节点两个局部区域的成对相似度:
Figure BDA0004187534660000053
其中
Figure BDA0004187534660000054
和/>
Figure BDA0004187534660000055
分别为视觉特征的变换,对/>
Figure BDA0004187534660000056
进行归一化得到AV1,公式如下:
Figure BDA0004187534660000057
其中m为视觉图节点的数量。
AV1由聚类之间拓扑距离的归一化结果得到的。公式如下:
Figure BDA0004187534660000058
其中d(·)表示计算拓扑距离操作,视觉关联图
Figure BDA0004187534660000059
利用视觉图分类器进行预测,对于/>
Figure BDA00041875346600000510
的每个节点/>
Figure BDA00041875346600000511
都经过视觉图分类器得到视觉图节点预测结果/>
Figure BDA00041875346600000512
所有节点的输出构成了视觉图预测/>
Figure BDA00041875346600000513
所述视觉图分类器也包括全连接层、批量归一化层和sigmoid函数,视觉图分类器中的全连接层输出维度为该节点对应属性组所包含的属性个数,视觉图分类器的公式如下:
Figure BDA00041875346600000514
其中,
Figure BDA00041875346600000515
表示视觉图分类器的全连接层的参数;
使用视觉图约束损失对视觉图分类器进行约束,以使每个视觉聚类特征能学习到对应属性组的区域特征;
第四步,合成图图卷积:
为了能更好地学习属性之间的视觉语义关系,将语义关联图与视觉关联图合成为合成图,具体是:
第4.1步,联合语义关联图和视觉关联图构建合成图:
语义关联图的所有节点与视觉关联图的所有节点相连,形成图间边
Figure BDA00041875346600000516
图间边的特征由两端节点生成,图间边/>
Figure BDA00041875346600000517
的公式如下:
Figure BDA00041875346600000518
其中
Figure BDA00041875346600000519
为视觉关联图映射矩阵,/>
Figure BDA00041875346600000520
为全连接层,c(·)为融合操作,图间边/>
Figure BDA00041875346600000521
RK×m×d,K为语义关联图节点的个数,即属性的个数,m为视觉关联图节点的个数,d为语义关联图节点向量的长度,图间边/>
Figure BDA0004187534660000061
的个数为语义图节点的个数与视觉图节点的个数乘积;合成图/>
Figure BDA0004187534660000062
由视觉关联图/>
Figure BDA0004187534660000063
语义关联图/>
Figure BDA0004187534660000064
和图间边/>
Figure BDA0004187534660000065
组成;
第4.2步,构建合成图图卷积策略:
在合成图
Figure BDA0004187534660000066
中,语义关联图和视觉关联图的分为图内更新和图间更新,其中图间更新由图间边引导。语义关联图的图内更新为语义图卷积,另一部分则是由图间边结合视觉关联图引导生成,视觉关联图经过映射矩阵映射到d维,然后与图间边融合,再与权重矩阵计算加权和,这部分是为了将视觉信息嵌入到语义关联图中,利用区域关系指导语义关系的学习,语义关联图的图间更新用如下的公式表示:
Figure BDA0004187534660000067
其中
Figure BDA0004187534660000068
为语义关联图图间更新得到的结果,/>
Figure BDA0004187534660000069
为图间边,c(·)为融合操作,/>
Figure BDA00041875346600000610
为视觉关联图映射矩阵,将视觉关联图的维度映射到与语义关联图相同的维度,WV,A为视觉关联图权重矩阵,从图间边和视觉关联图得到的信息要分配给每个语义关联图的节点,连接语义关联图节点的所有图间边和视觉关联图节点对该节点更新的贡献和为1;
语义关联图的更新公式如下:
Figure BDA00041875346600000611
其中
Figure BDA00041875346600000612
为更新后得到的语义嵌入图,/>
Figure BDA00041875346600000613
为输入维度为2d、输出维度为d的全连接层,c(·)为融合操作,WA为语义图卷积的权重矩阵,视觉关联图与语义关联图的更新类似,其中视觉关联图的图间更新公式如下:
Figure BDA00041875346600000614
其中
Figure BDA00041875346600000615
为视觉关联图图间更新得到的结果,/>
Figure BDA00041875346600000616
为图间边,c(·)为融合操作,/>
Figure BDA00041875346600000617
为语义关联图映射矩阵,WA,V是语义关联图权重矩阵;
视觉关联图的更新公式如下:
Figure BDA00041875346600000618
其中
Figure BDA00041875346600000619
为更新后得到的视觉嵌入图,/>
Figure BDA00041875346600000620
为输入维度为2l、输出维度为l的全连接层,c(·)为融合操作,WV1和WV2为视觉图卷积的权重矩阵;
在语义关联图和视觉关联图完成图间更新操作后,图间边进行更新,它由图间边
Figure BDA00041875346600000621
视觉嵌入图/>
Figure BDA00041875346600000622
以及语义嵌入图/>
Figure BDA00041875346600000623
经过输入维度为3l、输出维度为l的全连接层得到,公式如下:
Figure BDA00041875346600000624
其中
Figure BDA00041875346600000625
为输入维度为3l、输出维度为l的全连接层,c(·)为融合操作,/>
Figure BDA00041875346600000626
为映射矩阵,得到的嵌入图间边/>
Figure BDA00041875346600000627
和/>
Figure BDA00041875346600000628
大小相同。
第4.2步,嵌入图间边预测属性:
嵌入图间边经过嵌入图间边分类器得到嵌入图间边预测结果
Figure BDA0004187534660000071
所述嵌入图间边分类器包括全局最大池化、全局平均池化、批量归一化层以及激活函数,嵌入图间边分类器的公式如下:
Figure BDA0004187534660000072
其中GMP为全局最大池化,GAP为全局平均池化,BN为批归一化,σ为激活函数,使用
Figure BDA0004187534660000073
作为最终预测,并用合成图约束损失/>
Figure BDA0004187534660000074
约束。
第五步,加权损失函数:
所用损失函数为基于二分类聚损失函数(polyloss)的适应二分类聚损失函数。用于指导整个网络训练的损失有四个,一个是语义约束损失,两个是语义图约束损失和视觉图约束损失,一个是合成图约束损失。二分类聚损失函数损失由许多个多项式组成,将二分类交叉熵损失函数和二分类焦点损失函数统一起来,根据行人属性数据集的不平衡性使用了更好的损失加权方式,在二分类聚损失函数的基础上提出了适应二分类聚损失函数并将它应用于这四个损失(参见公式(20)),以语义图中属性特征的损失为例,可以写成:
Figure BDA0004187534660000075
Figure BDA0004187534660000076
其中
Figure BDA0004187534660000077
为二分类交叉熵损失函数,∈为超参数,n为样本数量,i、j分别表示第i张图片第j个属性,pt表示属性对于目标类别的预测值,可以由如下公式表示:
Figure BDA0004187534660000078
ρij是用于缓解行人属性识别中的不平衡数据问题的惩罚系数。在网络中使用了两种策略。我们用一个数据集中属性正样本率来衡量属性不平衡性,每个属性都有一个正样本率,其中j属性的正样本率的公式如下:
rj=Nj/N (23),
其中Nj表示训练集中j属性出现的次数,N表示训练集的所有样本数量。
我们认为一个数据集中所有属性正样本率的最大值与最小值的比值大于100为不平衡性严重,小于100则不平衡性不严重。该比值如下:
r=Max(r1,r2,...,rj)/Min(r1,r2,...,rj)
(24),
在行人属性识别的三个公开数据集中,PETA数据集的该比值为48,RAP数据集和PA-100K数据集的该比值为230和1880。对于PETA数据集(数据集量小,属性的不平衡不严重)采用指数策略,它采用了相对比较平滑的属性权重:
Figure BDA0004187534660000081
其中rj是属性j的正样本比率。而对于RAP数据集和PA-100K数据集(属性的不平衡性严重,正样本少)采用了平方根策略,强调了更罕见正样本的属性:
Figure BDA0004187534660000082
语义图、视觉图以及合成图的损失也以类似的方式计算,分别为
Figure BDA0004187534660000083
以及/>
Figure BDA0004187534660000084
训练网络的总损失如下:
Figure BDA0004187534660000085
为了减少容易负样本的影响,在计算损失之前,令p=max(p-0.15,0)。这些损失被联合和同时优化,以充分学习行人属性识别的属性和上下文关系。为了能够在合成图中有效地学习到语义和视觉的关系,需要使汇入到合成图的语义图和视觉图能够具有良好的语义、视觉特征,因此,在训练的前15个迭代只训练视觉关联图和语义关联图获取部分,视觉关联图和语义关联图获取部分的预测结果为语义图预测和视觉图预测的平均结果
Figure BDA0004187534660000086
为:
Figure BDA0004187534660000087
Figure BDA0004187534660000088
用于评估获取部分的精度;前15个迭代之后训练整个网络,网络的预测结果为嵌入图间边预测结果/>
Figure BDA0004187534660000089
用嵌入图间边预测结果/>
Figure BDA00041875346600000810
评估整个网络的精度。
本发明还保护一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序适用于被计算机加载时执行所述的多视图的行人属性识别方法。
与现有技术相比,本发明的有益效果是:
本发明的显著进步如下:
本发明从语义相关性、区域相关性以及语义区域之间的相关性三个视图识别属性,使用语义图卷积学习语义相关性,使用视觉图卷积学习区域相关性,联合语义关联图和视觉关联图构建合成图,通过新颖的合成图图卷积来学习语义与区域相关性,利用融合两图特征信息的嵌入图间边预测属性。对于损失函数而言,传统的方法都对所有数据集采用相同的加权策略,导致在某个数据集上的权重过重和过轻,本方法对不同的数据集采用不同的损失函数加权方式,且与主流的加权有所区别,对不同的数据集有效地缓解属性不平衡问题。
本发明突出的实质性特点是:
(1)本发明方法采用了多视图的方式来识别行人的属性,利用图卷积分别学习三种视图:语义关联、区域关联以及语义与区域的关联,将学习语义关联的语义图卷积得到的语义关联图和学习区域关联的视觉图卷积得到的视觉关联图联合构建合成图,将视觉关联图和语义关联图的信息结合起来得到图间边,合成图图卷积分为图内更新和图间更新。图内更新保证了区域关系和语义关系的稳定学习,图间更新则将包含两图信息的图间边和另一个图的信息结合起来,这样,最终的更新可以将两种关系有效地结合,最后嵌入图间边再将两图信息结合,经过对两种关系地多次结合,区域关系和语义关系都有效地指导了对方的学习。
(2)本发明方法对高级特征分别使用语义约束和软分配映射得到属性特定的特征向量和视觉聚类特征,使用属性特定的特征向量构建语义图,使用训练集属性间条件概率构建邻接矩阵,对语义图进行图卷积,学习语义相关性,使用视觉聚类特征构建视觉图,利用每个属性组对应区域接近的特点,每个聚类对应每个属性组的特征,使用聚类间相似性和拓扑距离构建邻接矩阵,对视觉图进行图卷积,学习区域相关性,两者都被损失约束,网络聚合学习。
(3)本发明针对行人属性公开数据集属性不平衡性问题严重程度不同的问题,对损失函数加权采用了不同的方式,与主流的两种加权方式相比,更有效地在多个数据集缓解相应的属性不平衡。在训练过程中,首先对语义图和视觉图进行训练,保证语义图和视觉图可以良好地学习到两种关系后,再对合成图训练。
(4)本发明与CN115346237A相比:CN115346237A中使用inception网络提取特征,使用SeNet注意力机制使网络更多地关注到行人属性的空间位置。注意力是有选择地集中在信息的一个离散方面的行为和认知过程,忽略其他可感知的信息。但是行人图像受光照影响和低分辨率等影响,导致行人属性难以定位。而且其在注意力后直接采用全连接层和激活函数用于分类,这很难学习到区域相关性和语义相关性,而本方法通过图卷积的方式可以良好地学习到两种相关性,利用其他属性或者区域来学习难以学习到的属性。
(5)本方法与CN114663908A相比:CN114663908A是一种基于多尺度特征融合的行人属性识别方法,它以VGG19为主干网络,将Conv4_3和Conv5_3卷积层后的特征输入特征融合模块,融合后的特征经过Resize和分类器后预测属性,融合多尺度的特征可以将低级语义特征和高级语义特征结合起来,但这种方法难以明确地学习区域相关性,也无法学习语义相关性,该方法针对数据集的不平衡性,对损失函数采用了指数加权方式,但不同数据集的不平衡性问题情况不同,采用统一的加权方式难以在每个数据集都起到良好的效果,本方法对不同的数据集采用不同的加权方式,且加权与主流的加权有所区别,在每个数据集上都起到了不错的效果。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明行人属性识别方法的流程示意图。
图2是本发明方法中语义关联图获取部分的网络结构示意图。
图3是本发明方法中视觉关联图获取部分的网络结构示意图。
图4是本发明方法中合成图构建和合成图图卷积过程的示意图。
具体实施方式
图1所示实施例表明,本发明方法的流程为:行人属性识别预处理和特征提取→语义图构建语义相关性→视觉图构建区域相关性→合成图构建和图卷积→加权损失函数。对公开数据集进行属性分组,每组中为一类属性,如年龄、性别为一组,采用ResNet-101为主干网络,对于第i个图像Ii,它首先利用公开数据集行人图片通过ResNet-101的前三层处理后进入第四层分成两个分支包括语义分支和视觉分支,分别获得语义特征图
Figure BDA0004187534660000101
和视觉特征图/>
Figure BDA0004187534660000102
前三层共享权重,第四层单独训练权重不共享。/>
Figure BDA0004187534660000103
经过池化后得到特征向量/>
Figure BDA0004187534660000104
经过分类器进行预测,并使用语义约束损失/>
Figure BDA0004187534660000105
约束。/>
Figure BDA0004187534660000106
经过多个全连接层得到语义图,进行语义图卷积,学习语义相关性,并使用语义图约束损失/>
Figure BDA0004187534660000107
约束。
Figure BDA0004187534660000108
经过软分配策略得到多个视觉聚类特征/>
Figure BDA0004187534660000109
多个视觉聚类特征/>
Figure BDA00041875346600001010
构成视觉图,进行视觉图卷积,学习区域相关性,并使用视觉图约束损失/>
Figure BDA00041875346600001011
约束。
然后将语义图卷积得到的语义关联图
Figure BDA00041875346600001012
和视觉图卷积得到的视觉关联图/>
Figure BDA00041875346600001013
构建合成图,利用合成图图卷积学习语义与区域之间的相关性,最后由合成图图卷积后的嵌入图间边/>
Figure BDA00041875346600001014
经过分类器得到每个属性的预测概率,并使用合成图约束损失/>
Figure BDA00041875346600001015
约束。使用语义约束损失/>
Figure BDA00041875346600001016
语义图约束损失/>
Figure BDA00041875346600001017
视觉图约束损失/>
Figure BDA00041875346600001018
和合成图约束损失/>
Figure BDA00041875346600001019
联合监督网络,损失函数为suit_polyloss,可以有效地缓解不同数据集的属性不平衡问题。
图2所示实施例表明,行人图像经过ResNet101提取到语义特征图
Figure BDA00041875346600001020
经过全局平均池化GAP得到特征向量/>
Figure BDA00041875346600001021
经过分类器得到属性预测向量,并被语义约束损失/>
Figure BDA00041875346600001022
约束,/>
Figure BDA00041875346600001023
也就成为语义约束的特征向量。/>
Figure BDA00041875346600001024
经过多个全连接层得到属性特定的特征向量
Figure BDA00041875346600001025
每个属性特定的特征向量为语义图的一个节点,所有的属性特定的特征向量/>
Figure BDA00041875346600001026
构成语义图,语义图邻接矩阵根据公开数据集的先验知识被构建,语义图和语义图邻接矩阵输入语义图卷积GCN中,学习语义的相关性,并得到语义关联图/>
Figure BDA00041875346600001027
使用语义图约束损失/>
Figure BDA00041875346600001028
约束。
图3所示实施例表明,行人图像经过ResNet101提取到视觉特征图
Figure BDA00041875346600001029
通过软分配策略得到多个视觉聚类特征/>
Figure BDA00041875346600001030
每个视觉聚类特征对应每个属性组的区域特征,多个视觉聚类特征/>
Figure BDA00041875346600001031
构成视觉图,根据聚类之间的相似度和拓扑距离得到视觉图邻接矩阵,视觉图和视觉图邻接矩阵输入视觉图卷积GCN,学习区域相关性即属性组对应的区域之间的关系,并得到视觉关联图/>
Figure BDA00041875346600001032
并用视觉图约束损失/>
Figure BDA00041875346600001033
约束。
图4所示实施例表明,在合成图的构建过程中,以语义关联图
Figure BDA00041875346600001034
与视觉关联图/>
Figure BDA00041875346600001035
的节点为基础经过融合操作以及全连接层得到图间边/>
Figure BDA00041875346600001036
在合成图图卷积过程中,语义关联图/>
Figure BDA00041875346600001037
的更新分为图内更新和图间更新,其中图间更新由图间边引导。语义关联图/>
Figure BDA00041875346600001038
经过一个语义图卷积进行图内更新;
视觉关联图
Figure BDA00041875346600001039
的更新分为图内更新和图间更新,视觉关联图/>
Figure BDA00041875346600001040
经过一个视觉图卷积进行图内更新;
图间更新过程是:语义关联图
Figure BDA00041875346600001041
或视觉关联图/>
Figure BDA00041875346600001042
分别与语义关联图映射矩阵/>
Figure BDA00041875346600001043
或视觉关联图映射矩阵/>
Figure BDA0004187534660000111
相乘,再与图间边/>
Figure BDA0004187534660000112
进行融合操作,给定语义关联图权重矩阵WA,V和视觉关联图权重矩阵WV,A,将与图间边融合后的结果分别与语义关联图权重矩阵WA,V或视觉关联图权重矩阵WV,A各自进行矩阵相乘操作,完成视觉关联图和语义关联图的图间更新。
语义关联图和视觉关联图的图间更新结果再分别与语义关联图的图内更新结果、视觉关联图的图内更新结果进行融合操作,最后对融合后的结果分别经过一个全连接层后获得视觉嵌入图
Figure BDA0004187534660000113
和语义嵌入图/>
Figure BDA0004187534660000114
视觉嵌入图/>
Figure BDA0004187534660000115
图间边/>
Figure BDA0004187534660000116
和语义嵌入图/>
Figure BDA0004187534660000117
再经过融合操作、一个全连接层后获得更新后的嵌入图间边/>
Figure BDA0004187534660000118
实施例1
本实施例多视图的行人属性识别方法,是一种使用图卷积学习语义和区域两种视图相关性并结合优化损失加权的行人属性识别方法,具体步骤如下:
第一步,对行人图像进行预处理和特征提取:
将行人图片调整为256×128后,使用随机水平翻转、色调和饱和度、旋转、平移、裁剪、擦除和添加随机高斯模糊等操作来增强训练图像,通过ResNet-101以获得第i张图片的语义特征图
Figure BDA0004187534660000119
和视觉特征图/>
Figure BDA00041875346600001110
ResNet-101的前三层共享权重,第四层分成两个分支并单独训练不共享权重;其中视觉图分支中去除ResNet-101第四层中的下采样和该部分的通道增加操作;/>
第二步,语义图学习语义相关性:
根据上述第一步得到的语义特征图
Figure BDA00041875346600001111
通过语义约束损失约束得到每个属性特定的特征向量,使用属性特定的特征向量构建语义图,使用训练集中属性的条件概率构建邻接矩阵,以进行图卷积,然后每个节点得到相应的属性概率,使用损失函数约束语义图的训练;
第2.1步,使用语义约束损失约束得到的属性特定特征向量:
将从ResNet-101提取到的语义特征图
Figure BDA00041875346600001112
经过全局平均池化得到特征向量/>
Figure BDA00041875346600001113
其中c为/>
Figure BDA00041875346600001114
的通道数;/>
Figure BDA00041875346600001115
经过由输出维度为属性个数的全连接层、批归一化和激活函数构成的语义分类器得到语义分类预测结果/>
Figure BDA00041875346600001116
语义分类器在数学上表示为:
Figure BDA00041875346600001117
其中WA,1表示全连接层的参数,σ是sigmoid函数,BN表示批量归一化层。利用语义分类预测使用语义约束损失函数约束。
Figure BDA00041875346600001118
经过不同的输出维度为d的全连接层得到不同属性特定的特征向量/>
Figure BDA00041875346600001119
此时全连接层的数量与属性的个数一致,在数学上表示为:
Figure BDA00041875346600001120
Figure BDA00041875346600001121
是全连接层中第j个属性的参数,得到的/>
Figure BDA00041875346600001122
d为特征向量/>
Figure BDA00041875346600001123
的长度;
第2.2步,语义图卷积:
使用所有属性特定的特征向量
Figure BDA00041875346600001124
融合为/>
Figure BDA00041875346600001125
作为语义图的输入,对语义图进行语义图卷积,以挖掘行人属性之间的语义关系,这部分为图内更新,在面对低分辨率等困难导致一些细粒度属性难以识别时,借助其他属性的预测和属性之间的语义关系来预测这部分细粒度属性,用以下公式表示:
Figure BDA0004187534660000121
其中AA是可学习的邻接矩阵,
Figure BDA0004187534660000122
为语义图卷积的输出,即语义关联图,/>
Figure BDA0004187534660000123
为邻接矩阵AA取倒数和平方根后的对角线组成的矩阵,I为单位矩阵。邻接矩阵AA是根据行人属性的训练集的先验知识得到的。训练集中一种属性出现时另一种属性出现的条件概率P可以通过以下公式得到:
Pab=Mab/Nb (4),
其中Pab表示b属性出现时a属性出现的概率,Mab表示训练集中a属性和b属性同时出现的次数,Nb表示b属性出现的次数,将训练集中某个属性出现的频率作为该属性的概率。AA由Pab根据阈值归一化得到。
语义图
Figure BDA0004187534660000124
先与权重矩阵WA相乘,然后与归一化后相邻矩阵/>
Figure BDA0004187534660000125
相乘,实现图卷积。将WA设置为d×d的大小,d为特征向量的长度,语义关联图/>
Figure BDA0004187534660000126
的大小与/>
Figure BDA0004187534660000127
相同。
Figure BDA0004187534660000128
经过由全局平均池化GAP、批归一化BN和sigmoid激活函数构成的语义图分类器得到语义图预测结果/>
Figure BDA0004187534660000129
并用语义图约束损失约束,语义图分类器公式如下:
Figure BDA00041875346600001210
第三步,视觉图学习区域相关性:
根据从ResNet-101提取到的视觉特征图
Figure BDA00041875346600001211
构建视觉图,使用拓扑关系和相似度构建邻接矩阵,进行视觉图卷积,具体步骤是:
第3.1步,对视觉特征图
Figure BDA00041875346600001212
使用软分配策略构建视觉图:
为了学习图片中的区域关系,将从ResNet-101提取到的视觉特征图
Figure BDA00041875346600001213
经过软分配策略映射到各个聚类上,每个聚类表示一组属性,这组属性对应着相同的视觉聚类特征;在软分配策略中,/>
Figure BDA00041875346600001214
的每个局部特征都对每个聚类有着权重,所有局部特征对同一个聚类的贡献和为1,得到的视觉聚类特征是通过分配权重对变换的局部特征进行加权求和来计算的;这样网络自己学习聚类可以应对人类姿势和相机视角的变化,得到的视觉聚类特征为
Figure BDA00041875346600001215
多个视觉聚类特征/>
Figure BDA00041875346600001216
构成视觉图,其中m表示视觉图的节点数量,不同的数据集有着不同数量的视觉图节点,l表示每个节点特征向量的长度,计算公式如下:
Figure BDA00041875346600001217
其中,AVS为映射矩阵,表示在每个位置使用softmax进行规范化;Wvs为权重矩阵;at,s∈AVS的计算公式如下:
Figure BDA0004187534660000131
at,s∈AVS表示视觉特征图
Figure BDA0004187534660000132
第s个点/>
Figure BDA0004187534660000133
赋给视觉图/>
Figure BDA0004187534660000134
节点t的置信度,/>
Figure BDA0004187534660000135
为计算赋值权重的可训练权重矩阵;
第3.2步,根据聚类之间的拓扑距离和相似度构建邻接矩阵进行图卷积:
视觉图就会根据这些属性组对应区域之间的距离和相似程度来更新,从而学习上下文的关系,在遇到外观变化和部分身体被遮挡时,可以通过其他区域来识别难以识别的区域对应属性,这部分图卷积为图内更新,公式如下:
Figure BDA0004187534660000136
其中
Figure BDA0004187534660000137
为视觉图卷积得到的结果,即视觉关联图,WV1∈Rl×l和WV2∈Rl×l为可训练的权重矩阵。AV1∈Rm×m和AV2∈Rm×m为邻接矩阵,AV1由聚类之间相似度的归一化结果得到的。首先计算k节点和p节点两个局部区域的成对相似度:
Figure BDA0004187534660000138
其中
Figure BDA0004187534660000139
和/>
Figure BDA00041875346600001310
分别为视觉特征的变换,对/>
Figure BDA00041875346600001311
进行归一化得到AV1,公式如下:
Figure BDA00041875346600001312
其中m为视觉图节点的数量。
AV1由聚类之间拓扑距离的归一化结果得到的。公式如下:
Figure BDA00041875346600001313
其中d(·)表示计算拓扑距离操作,视觉关联图
Figure BDA00041875346600001314
利用视觉图分类器进行预测,对于/>的每个节点/>
Figure BDA00041875346600001316
都经过视觉图分类器得到视觉图节点预测结果/>
Figure BDA00041875346600001317
所有节点的输出构成了视觉图预测/>
Figure BDA00041875346600001318
所述视觉图分类器也包括全连接层、批量归一化层和sigmoid函数,视觉图分类器中的全连接层输出维度为该节点对应属性组所包含的属性个数,视觉图分类器的公式如下:
Figure BDA00041875346600001319
其中,
Figure BDA00041875346600001320
表示视觉图分类器的全连接层的参数;
使用视觉图约束损失对视觉图分类器进行约束,以使每个视觉聚类特征能学习到对应属性组的区域特征;
第四步,合成图图卷积:
为了能更好地学习属性之间的视觉语义关系,将语义关联图与视觉关联图合成为合成图,具体是:
第4.1步,联合语义关联图和视觉关联图构建合成图:
语义关联图的所有节点与视觉关联图的所有节点相连,形成图间边
Figure BDA0004187534660000141
图间边的特征由两端节点生成,图间边/>
Figure BDA0004187534660000142
的公式如下:
Figure BDA0004187534660000143
其中
Figure BDA0004187534660000144
为视觉关联图映射矩阵,/>
Figure BDA0004187534660000145
为全连接层,c(·)为融合操作,图间边/>
Figure BDA0004187534660000146
Figure BDA0004187534660000147
K为语义关联图节点的个数,即属性的个数,m为视觉关联图节点的个数,d为语义关联图节点向量的长度,图间边/>
Figure BDA0004187534660000148
的个数为语义图节点的个数与视觉图节点的个数乘积;合成图/>
Figure BDA0004187534660000149
由视觉关联图/>
Figure BDA00041875346600001410
语义关联图/>
Figure BDA00041875346600001411
和图间边/>
Figure BDA00041875346600001412
组成;
第4.2步,构建合成图图卷积策略:
在合成图
Figure BDA00041875346600001413
中,语义关联图和视觉关联图的分为图内更新和图间更新,其中图间更新由图间边引导。语义关联图的图内更新为语义图卷积,另一部分则是由图间边结合视觉关联图引导生成,视觉关联图经过映射矩阵映射到d维,然后与图间边融合,再与权重矩阵计算加权和,这部分是为了将视觉信息嵌入到语义关联图中,利用区域关系指导语义关系的学习,语义关联图的图间更新用如下的公式表示:
Figure BDA00041875346600001414
其中
Figure BDA00041875346600001415
为语义关联图图间更新得到的结果,/>
Figure BDA00041875346600001416
为图间边,c(·)为融合操作,/>
Figure BDA00041875346600001417
为视觉关联图映射矩阵,将视觉关联图的维度映射到与语义关联图相同的维度,WV,A为视觉关联图权重矩阵,从图间边和视觉关联图得到的信息要分配给每个语义关联图的节点,连接语义关联图节点的所有图间边和视觉关联图节点对该节点更新的贡献和为1;
语义关联图的更新公式如下:
Figure BDA00041875346600001418
其中
Figure BDA00041875346600001419
为更新后得到的语义嵌入图,/>
Figure BDA00041875346600001420
为输入维度为2d、输出维度为d的全连接层,c(·)为融合操作,WA为语义图卷积的权重矩阵,视觉关联图与语义关联图的更新类似,其中视觉关联图的图间更新公式如下:
Figure BDA00041875346600001421
其中
Figure BDA00041875346600001422
为视觉关联图图间更新得到的结果,/>
Figure BDA00041875346600001423
为图间边,c(·)为融合操作,/>
Figure BDA00041875346600001424
为语义关联图映射矩阵,WA,V是语义关联图权重矩阵;
视觉关联图的更新公式如下:
Figure BDA00041875346600001425
其中
Figure BDA00041875346600001426
为更新后得到的视觉嵌入图,/>
Figure BDA00041875346600001427
为输入维度为2l、输出维度为l的全连接层,c(·)为融合操作,WV1和WV2为视觉图卷积的权重矩阵;
在语义关联图和视觉关联图完成图间更新操作后,图间边进行更新,它由图间边
Figure BDA00041875346600001428
视觉嵌入图/>
Figure BDA0004187534660000151
以及语义嵌入图/>
Figure BDA0004187534660000152
经过输入维度为3l、输出维度为l的全连接层得到,公式如下:
Figure BDA0004187534660000153
其中
Figure BDA0004187534660000154
为输入维度为3l、输出维度为l的全连接层,c(·)为融合操作,/>
Figure BDA0004187534660000155
为映射矩阵,得到的嵌入图间边/>
Figure BDA0004187534660000156
和/>
Figure BDA0004187534660000157
大小相同。
第4.2步,嵌入图间边预测属性:
嵌入图间边经过嵌入图间边分类器得到嵌入图间边预测结果
Figure BDA0004187534660000158
所述嵌入图间边分类器包括全局最大池化、全局平均池化、批量归一化层以及激活函数,嵌入图间边分类器的公式如下:
Figure BDA0004187534660000159
其中GMP为全局最大池化,GAP为全局平均池化,BN为批归一化,σ为激活函数,使用
Figure BDA00041875346600001510
作为最终预测,并用合成图约束损失/>
Figure BDA00041875346600001511
约束。
第五步,加权损失函数:
所用损失函数为基于二分类聚损失函数(polyloss)的适应二分类聚损失函数。用于指导整个网络训练的损失有四个,一个是语义约束损失,两个是语义图约束损失和视觉图约束损失,一个是合成图约束损失。二分类聚损失函数损失由许多个多项式组成,将二分类交叉熵损失函数和二分类焦点损失函数统一起来,根据行人属性数据集的不平衡性使用了更好的损失加权方式,在二分类聚损失函数的基础上提出了适应二分类聚损失函数并将它应用于这四个损失(参见公式(20)),以语义图中属性特征的损失为例,可以写成:
Figure BDA00041875346600001512
Figure BDA00041875346600001513
其中
Figure BDA00041875346600001514
为二分类交叉熵损失函数,∈为超参数,n为样本数量,i、j分别表示第i张图片第j个属性,pt表示属性对于目标类别的预测值,可以由如下公式表示:
Figure BDA00041875346600001515
ρij是用于缓解行人属性识别中的不平衡数据问题的惩罚系数。在网络中使用了两种策略。我们用一个数据集中属性正样本率来衡量属性不平衡性,每个属性都有一个正样本率,其中j属性的正样本率的公式如下:
rj=Nj/N (23),
其中Nj表示数据集中j属性出现的次数,N表示数据集的所有样本数量。
认为一个数据集中所有属性正样本率的最大值与最小值的比值大于100为不平衡性严重,小于100则不平衡性不严重。该比值如下:
r=Max(r1,r2,...,rj)/Min(r1,r2,...,rj) (24),
在行人属性识别的三个公开数据集中,PETA数据集的该比值为48,RAP数据集和PA-100K数据集的该比值为230和1880。对于PETA数据集采用指数策略,它采用了相对比较平滑的属性权重:
Figure BDA0004187534660000161
其中rj是属性j的正样本比率。而对于RAP数据集和PA-100K数据集(属性的不平衡性严重,正样本少)采用了平方根策略,强调了更罕见正样本的属性:
Figure BDA0004187534660000162
语义图、视觉图以及合成图的损失也以类似的方式计算,分别为
Figure BDA0004187534660000163
以及/>
Figure BDA0004187534660000164
训练网络的总损失如下:
Figure BDA0004187534660000165
为了减少容易负样本的影响,在计算损失之前,令p=max(p-0.15,0)。这些损失被联合和同时优化,以充分学习行人属性识别的属性和上下文关系。为了能够在合成图中有效地学习到语义和视觉的关系,需要使汇入到合成图的语义图和视觉图能够具有良好的语义、视觉特征,因此,设置最大迭代次数,在训练的前15个迭代只训练视觉关联图和语义关联图获取部分,视觉关联图和语义关联图获取部分的预测结果为语义图预测和视觉图预测的平均结果
Figure BDA0004187534660000166
为:/>
Figure BDA0004187534660000167
用于评估获取部分的精度;前15个迭代之后训练整个网络,整个网络的预测结果为嵌入图间边预测结果/>
Figure BDA0004187534660000168
用嵌入图间边预测结果/>
Figure BDA0004187534660000169
评估整个网络的精度。
本实施实例分别在PETA、PA100K和RAP数据库上进行了实验。PETA数据集是由几个小的公开数据集组成的。该数据集由19000幅图像组成,分辨率从17×39到169×365像素不等。这19000幅图像包括8705个人,每个人都标注了61个二值属性和4个多类属性,并被随机划分为9500个用于训练、1900个用于验证和7600个用于测试。其中35个二分类属性用于行人属性识别实验。
RAP数据集来自真实的室内监控场景,选择26个摄像头进行图像采集,包含41585个样本,分辨率从36×92到344×554,具体有33268张用于训练的图像和33268张用于测试的图像。将72个细粒度属性(69个二值属性和3个多类属性)分配给该数据集的每一幅图像。明确注解了视点、遮挡方式和身体部位三个环境和语境因素。属性标注考虑了六个部分(时空信息、全身属性、附件、姿势和动作、遮挡和部位属性)。其中51个二分类属性用于行人属性识别实验。
PA-100K数据集是由598个真实的室外监控摄像头采集的图像构建的,它包括100000幅行人图像,分辨率从50×100到758×454,是迄今为止用于行人属性识别的最大数据集。整个数据集按8:1:1的比例随机分为训练集、验证集和测试集,该数据集中的每一幅图像都被26个属性标注,标签不是0就是1,分别表示相应属性的存在或不存在。
五个标准被用来评估PA-100K、PETA和RAP数据集上的网络的性能,包括基于标签的标准平均精度(mA)和四个基于实例的标准精度(Accu)、精度(Prec)、召回率和F1。
将提出的合成图方法与比较经典的几种方法进行对比,包括HP-Net,VeSPA,VAA,RA,LG-Net,JLPLS-PAA,CoCNN,ALM,MT-CAS,DA-HAR,SEMC,MCFL和SO-C-SAM。表1、表2和表3分别列出了在PETA、PA100K和RAP数据集上本发明方法与其他方法精度的对比,其中ours为本发明的方法。
表1 PETA数据集的比较结果
Figure BDA0004187534660000171
表2 PA100K数据集的比较结果
Figure BDA0004187534660000172
表3 RAP数据集的比较结果
Figure BDA0004187534660000173
从表1、表2以及表3可以看出,本发明方法在是三个数据库中的mA都高于其他几种方法,F1也与其他方法有着可比性。本发明方法在基于标签的度量比在基于实例的度量上表现更好地原因在于本申请采用损失函数加权方式进行约束,它可以针对不同的数据集更好地缓解属性分布的不平衡。
其中HP-Net,VeSPA,VAA,RA,LG-Net,JLPLS-PAA,CoCNN,ALM,MT-CAS,DA-HAR,SEMC,MCFL和SO-C-SAM都是本领域公知的。
对于三个公开数据集的属性分组如表4、表5以及表6所示。
表4PETA数据集的属性分组
Figure BDA0004187534660000181
表5RAP数据集的属性分组
Figure BDA0004187534660000182
表6PA100K数据集的属性分组
Figure BDA0004187534660000183
Figure BDA0004187534660000191
本发明多视图的行人属性识别方法,行人图像进行预处理和特征提取后,使用语义约束损失函数约束得到的属性特定的特征向量,构建语义图卷积得到语义关联图,学习语义相关性;对视觉特征图使用软分配策略得到多个聚类以构建视觉图,根据聚类之间的拓扑距离和相似度构建邻接矩阵进行图卷积得到视觉关联图,学习区域相关性;联合语义关联图与视觉关联图构建合成图,通过合成图图卷积构建语义与区域相关性,利用嵌入图间边预测属性。最后利用加权损失函数进行训练。本申请构建的合成图能够将区域关系和语义关系联合学习,使两种关系能够更好地指导对方的学习,采用分段训练的方法使网络先较好地学习到两种关系,再利用合成图互相指导对方的学习,根据行人属性数据集的不平衡性使用了更好的损失加权方式,在聚损失的基础上提出了适应聚损失,良好地解决了行人属性数据集不平衡性严重程度不同的问题。
本发明未述及之处适用于现有技术。

Claims (6)

1.一种多视图的行人属性识别方法,该识别方法包括以下内容:
对公开数据集进行属性分组,利用公开数据集行人图片通过ResNet-101网络的前三层处理后进入第四层分成两个分支,两个分支分别获得语义特征图
Figure FDA0004187534650000011
和视觉特征图/>
Figure FDA0004187534650000012
前三层共享权重,第四层单独训练权重不共享;/>
Figure FDA0004187534650000013
经过池化后得到特征向量/>
Figure FDA0004187534650000014
Figure FDA0004187534650000015
经过分类器进行语义分类预测,并使用语义约束损失/>
Figure FDA0004187534650000016
约束;
同时
Figure FDA0004187534650000017
经过多个全连接层得到属性特定的特征向量/>
Figure FDA0004187534650000018
每个属性特定的特征向量为语义图的一个节点,所有的属性特定的特征向量/>
Figure FDA0004187534650000019
构成语义图,语义图邻接矩阵根据公开数据集的先验知识被构建,语义图和语义图邻接矩阵输入语义图卷积GCN中,学习语义的相关性,并得到语义关联图/>
Figure FDA00041875346500000110
语义关联图/>
Figure FDA00041875346500000111
经过分类器进行语义图预测,并使用语义图约束损失/>
Figure FDA00041875346500000112
约束;
Figure FDA00041875346500000113
通过软分配策略得到多个视觉聚类特征/>
Figure FDA00041875346500000114
每个视觉聚类特征对应每个属性组的区域特征,多个视觉聚类特征/>
Figure FDA00041875346500000115
构成视觉图,根据聚类之间的相似度和拓扑距离得到视觉图邻接矩阵,视觉图和视觉图邻接矩阵输入视觉图卷积GCN中,学习属性组对应的区域之间的相关性,得到视觉关联图/>
Figure FDA00041875346500000116
视觉关联图/>
Figure FDA00041875346500000117
经过分类器进行视觉图预测,并用视觉图约束损失/>
Figure FDA00041875346500000118
约束;
联合语义关联图与视觉关联图构建合成图,合成图中通过语义关联图和视觉关联图之间的图间边相互嵌入,指导对方的学习,构建语义与区域相关性;
利用公开数据集进行训练后用于行人属性识别。
2.根据权利要求1所述的多视图的行人属性识别方法,其特征在于,所述图间边为语义关联图
Figure FDA00041875346500000119
与视觉关联图/>
Figure FDA00041875346500000120
经过融合操作、全连接层获得的。
3.根据权利要求1所述的多视图的行人属性识别方法,其特征在于,在合成图的构建过程中,利用语义关联图
Figure FDA00041875346500000121
与视觉关联图/>
Figure FDA00041875346500000122
经过融合操作、全连接层获得图间边/>
Figure FDA00041875346500000123
语义关联图/>
Figure FDA00041875346500000124
的更新分为图内更新和图间更新,其中图间更新由图间边引导;语义关联图/>
Figure FDA00041875346500000125
经过一个语义图卷积进行图内更新;
视觉关联图
Figure FDA00041875346500000126
的更新分为图内更新和图间更新,视觉关联图/>
Figure FDA00041875346500000127
经过一个视觉图卷积进行图内更新;
图间更新过程是:语义关联图
Figure FDA00041875346500000128
或视觉关联图/>
Figure FDA00041875346500000129
分别与语义关联图映射矩阵/>
Figure FDA00041875346500000130
或视觉关联图映射矩阵/>
Figure FDA00041875346500000131
相乘,再与图间边/>
Figure FDA00041875346500000132
进行融合操作,给定语义关联图权重矩阵WA,V和视觉关联图权重矩阵WV,A,将与图间边融合后的结果分别与语义关联图权重矩阵WA,V或视觉关联图权重矩阵WV,A各自进行矩阵相乘操作,完成视觉关联图和语义关联图的图间更新;
语义关联图和视觉关联图的图间更新结果
Figure FDA00041875346500000133
再分别与语义关联图的图内更新结果、视觉关联图的图内更新结果进行融合操作,最后对融合后的结果分别经过一个全连接层后获得视觉嵌入图/>
Figure FDA00041875346500000134
和语义嵌入图/>
Figure FDA00041875346500000135
视觉嵌入图/>
Figure FDA00041875346500000138
图间边/>
Figure FDA00041875346500000136
和语义嵌入图/>
Figure FDA00041875346500000137
再经过融合操作、一个全连接层后获得更新后的嵌入图间边/>
Figure FDA0004187534650000021
更新后的嵌入图间边
Figure FDA0004187534650000022
再经过嵌入图间边分类器进行嵌入图间边预测,并用合成图约束损失/>
Figure FDA0004187534650000023
约束。
4.根据权利要求1所述的多视图的行人属性识别方法,其特征在于,所有的约束损失均采用suit_polyloss函数,在suit_polyloss函数中引入用于缓解行人属性识别中的不平衡数据问题的惩罚系数ρij;数据集中每个属性有一个正样本率,若数据集中所有属性正样本率的最大值与最小值的比值大于100则采用平方根策略,小于100则采用指数策略;
所述指数策略时:
Figure FDA0004187534650000024
所述平方根策略时:
Figure FDA0004187534650000025
其中rj是属性j的正样本比率;yij为第i张图片第j个属性的标签值。
5.一种多视图的行人属性识别方法,其特征在于,所述方法的具体步骤是:
第一步,对行人图像进行预处理和特征提取:
将行人图片调整为256×128后,使用随机水平翻转、色调和饱和度、旋转、平移、裁剪、擦除和添加随机高斯模糊来增强训练图像,通过ResNet-101以获得第i张图片的语义特征图
Figure FDA00041875346500000216
和视觉特征图/>
Figure FDA0004187534650000026
ResNet-101的前三层共享权重,第四层分成两个分支并单独训练不共享权重;其中视觉图分支中去除ResNet-101第四层中的下采样和该部分的通道增加操作;
第二步,语义图学习语义相关性:
根据上述第一步得到的语义特征图
Figure FDA0004187534650000027
通过语义约束损失约束得到每个属性特定的特征向量,使用属性特定的特征向量构建语义图,使用训练集中属性的条件概率构建邻接矩阵,以进行图卷积,然后每个节点得到相应的属性概率,使用损失函数约束语义图的训练;
第2.1步,使用语义约束损失约束得到的属性特定特征向量:
将从ResNet-101提取到的语义特征图
Figure FDA0004187534650000028
经过全局平均池化得到特征向量/>
Figure FDA0004187534650000029
其中c为/>
Figure FDA00041875346500000210
的通道数;/>
Figure FDA00041875346500000211
经过由输出维度为属性个数的全连接层、批归一化和激活函数构成的语义分类器得到语义分类预测结果/>
Figure FDA00041875346500000212
语义分类器在数学上表示为:
Figure FDA00041875346500000213
其中WA,1表示全连接层的参数,σ是sigmoid函数,BN表示批量归一化层;
利用语义分类器对语义分类预测,并使用语义约束损失函数约束;
Figure FDA00041875346500000214
经过不同的输出维度为d的全连接层得到不同属性特定的特征向量/>
Figure FDA00041875346500000215
此时全连接层的数量与属性的个数一致,在数学上表示为:
Figure FDA0004187534650000031
Figure FDA0004187534650000032
是全连接层中第j个属性的参数,得到的/>
Figure FDA0004187534650000033
d为属性特定的特征向量/>
Figure FDA0004187534650000034
的长度;
第2.2步,语义图卷积:
使用所有的属性特定的特征向量
Figure FDA0004187534650000035
融合为/>
Figure FDA0004187534650000036
作为语义图的输入,对语义图进行语义图卷积,以挖掘行人属性之间的语义关系,用以下公式表示:
Figure FDA0004187534650000037
其中,AA是可学习的邻接矩阵,
Figure FDA0004187534650000038
为语义图卷积的输出,即语义关联图,/>
Figure FDA0004187534650000039
为邻接矩阵AA取倒数和平方根后的对角线组成的矩阵,I为单位矩阵;邻接矩阵AA是根据行人属性的训练集的先验知识得到;
Figure FDA00041875346500000310
经过由全局平均池化GAP、批归一化BN和sigmoid激活函数构成的语义图分类器得到语义图预测结果/>
Figure FDA00041875346500000311
并用语义图约束损失约束,语义图分类器公式如下:
Figure FDA00041875346500000312
第三步,视觉图学习区域相关性:
根据从ResNet-101提取到的视觉特征图
Figure FDA00041875346500000313
构建视觉图,使用拓扑关系和相似度构建邻接矩阵,进行视觉图卷积,具体步骤是:
第3.1步,对视觉特征图
Figure FDA00041875346500000314
使用软分配策略构建视觉图:
为了学习图片中的区域关系,将从ResNet-101提取到的视觉特征图
Figure FDA00041875346500000315
经过软分配策略映射到各个聚类上,每个聚类表示一组属性,这组属性对应着相同的视觉聚类特征;在软分配策略中,/>
Figure FDA00041875346500000316
的每个局部特征都对每个聚类有着权重,所有局部特征对同一个聚类的贡献和为1,得到的视觉聚类特征是通过分配权重对变换的局部特征进行加权求和来计算的;这样网络自己学习聚类可以应对人类姿势和相机视角的变化,得到的视觉聚类特征为/>
Figure FDA00041875346500000317
多个视觉聚类特征/>
Figure FDA00041875346500000318
构成视觉图,其中m表示视觉图的节点数量,不同的数据集有着不同数量的视觉图节点,l表示视觉图中每个节点特征向量的长度,计算公式如下:
Figure FDA00041875346500000319
其中,AVS为映射矩阵,表示在每个位置使用softmax进行规范化;Wvs为权重矩阵;at,s∈AVS的计算公式如下:
Figure FDA00041875346500000320
at,s∈AVS表示视觉特征图
Figure FDA0004187534650000041
第s个点/>
Figure FDA0004187534650000042
赋给视觉图/>
Figure FDA0004187534650000043
节点t的置信度,/>
Figure FDA0004187534650000044
为计算赋值权重的可训练权重矩阵;
第3.2步,根据聚类之间的拓扑距离和相似度构建邻接矩阵进行图卷积:
视觉图就会根据这些属性组对应区域之间的距离和相似程度来更新,从而学习上下文的关系,在遇到外观变化和部分身体被遮挡时,通过其他区域来识别难以识别的区域对应的属性,视觉图卷积为图内更新,公式如下:
Figure FDA0004187534650000045
其中
Figure FDA0004187534650000046
为视觉图卷积得到的结果,即视觉关联图,WV1∈Rl×l和WV2∈Rl×l为可训练的权重矩阵;AV1∈Rm×m和AV2∈Rm×m为邻接矩阵,AV1由聚类之间相似度的归一化结果得到,AV2由聚类之间拓扑距离的归一化结果得到;
视觉关联图
Figure FDA0004187534650000047
利用视觉图分类器进行预测,对于/>
Figure FDA0004187534650000048
的每个节点/>
Figure FDA0004187534650000049
都经过视觉图分类器得到视觉图节点预测结果/>
Figure FDA00041875346500000410
视觉关联图/>
Figure FDA00041875346500000426
的所有节点的输出构成了视觉图预测结果
Figure FDA00041875346500000411
所述视觉图分类器也包括全连接层、批量归一化层和sigmoid函数,视觉图分类器中的全连接层输出维度为节点对应属性组所包含的属性个数,视觉图分类器的公式如下:
Figure FDA00041875346500000412
其中,
Figure FDA00041875346500000413
表示视觉图分类器的全连接层的参数;
使用视觉图约束损失对视觉图分类器进行约束,以使每个视觉聚类特征能学习到对应属性组的区域特征;
第四步,合成图图卷积:
将语义关联图与视觉关联图构建为合成图,能更好地学习属性之间的视觉语义关系,具体是:
第4.1步,联合语义关联图和视觉关联图构建合成图:
语义关联图的所有节点与视觉关联图的所有节点相连,形成图间边
Figure FDA00041875346500000414
图间边的特征由两端节点生成,图间边/>
Figure FDA00041875346500000415
的公式如下:
Figure FDA00041875346500000416
其中
Figure FDA00041875346500000417
为视觉关联图映射矩阵,/>
Figure FDA00041875346500000427
为全连接层,c(·)为融合操作,图间边/>
Figure FDA00041875346500000418
Figure FDA00041875346500000419
K为语义关联图节点的个数,即属性的个数,m为视觉关联图节点的个数,d为语义关联图节点向量的长度,图间边/>
Figure FDA00041875346500000420
的个数为语义图节点的个数与视觉图节点的个数乘积;合成图/>
Figure FDA00041875346500000421
由视觉关联图/>
Figure FDA00041875346500000422
语义关联图/>
Figure FDA00041875346500000423
和图间边/>
Figure FDA00041875346500000424
组成;
第4.2步,构建合成图图卷积策略:
在合成图
Figure FDA00041875346500000425
中,语义关联图和视觉关联图的分为图内更新和图间更新,其中图间更新由图间边引导;语义关联图的图内更新为语义图卷积,另一部分则是由图间边结合视觉关联图引导生成,视觉关联图经过映射矩阵映射到d维,然后与图间边融合,再与权重矩阵计算加权和,这部分是为了将视觉信息嵌入到语义关联图中,利用区域关系指导语义关系的学习,语义关联图的图间更新用如下的公式表示:
Figure FDA0004187534650000051
其中
Figure FDA0004187534650000052
为语义关联图图间更新得到的结果,/>
Figure FDA0004187534650000053
为图间边,c(·)为融合操作,/>
Figure FDA0004187534650000054
为视觉关联图映射矩阵,将视觉关联图的维度映射到与语义关联图相同的维度,WV,A为视觉关联图权重矩阵,从图间边和视觉关联图得到的信息要分配给每个语义关联图的节点,连接语义关联图节点的所有图间边和视觉关联图节点对该节点更新的贡献和为1;
语义关联图的更新公式如下:
Figure FDA0004187534650000055
其中
Figure FDA0004187534650000056
为更新后得到的语义嵌入图,/>为输入维度为2d、输出维度为d的全连接层,c(·)为融合操作,WA为语义图卷积的权重矩阵,
视觉关联图的图间更新公式如下:
Figure FDA0004187534650000058
其中
Figure FDA0004187534650000059
为视觉关联图图间更新得到的结果,/>
Figure FDA00041875346500000510
为图间边,c(·)为融合操作,/>
Figure FDA00041875346500000511
为语义关联图映射矩阵,WA,V是语义关联图权重矩阵;
视觉关联图的更新公式如下:
Figure FDA00041875346500000512
其中
Figure FDA00041875346500000513
为更新后得到的视觉嵌入图,/>为输入维度为2l、输出维度为l的全连接层,c(·)为融合操作,WV1和WV2为视觉图卷积的权重矩阵;
在语义关联图和视觉关联图完成图间更新操作后,图间边进行更新,它由图间边视觉嵌入图/>
Figure FDA00041875346500000516
以及语义嵌入图/>
Figure FDA00041875346500000517
经过输入维度为3l、输出维度为l的全连接层得到,图间边更新公式如下:
Figure FDA00041875346500000518
其中
Figure FDA00041875346500000519
为输入维度为3l、输出维度为l的全连接层,c(·)为融合操作,/>
Figure FDA00041875346500000520
为视觉关联图映射矩阵,
图间边更新得到的嵌入图间边
Figure FDA00041875346500000521
和/>
Figure FDA00041875346500000524
大小相同;
第4.2步,嵌入图间边预测属性:
嵌入图间边经过嵌入图间边分类器得到嵌入图间边预测结果
Figure FDA00041875346500000522
所述嵌入图间边分类器包括全局最大池化、全局平均池化、批量归一化层以及激活函数,嵌入图间边分类器的公式如下:
Figure FDA00041875346500000523
其中GMP为全局最大池化,GAP为全局平均池化,BN为批归一化,σ为激活函数,使用
Figure FDA0004187534650000061
作为最终预测,并用合成图约束损失/>
Figure FDA00041875346500000611
约束;
第五步,加权损失函数:
用于指导整个网络训练的损失有四个,分别是语义约束损失
Figure FDA0004187534650000062
语义图约束损失/>
Figure FDA0004187534650000063
和视觉图约束损失/>
Figure FDA0004187534650000064
合成图约束损失/>
Figure FDA0004187534650000065
其中前15个迭代只计算前三个损失,前15个迭代之后计算所有损失;所有的约束损失均采用suit_polyloss函数;
训练网络的总损失如下:
Figure FDA0004187534650000066
在训练的前15个迭代只训练视觉关联图和语义关联图获取部分,视觉关联图和语义关联图获取部分的预测结果为语义图预测和视觉图预测的平均结果
Figure FDA0004187534650000067
为:/>
Figure FDA0004187534650000068
用于评估获取部分的精度;前15个迭代之后训练整个网络,整个网络的预测结果为嵌入图间边预测结果/>
Figure FDA0004187534650000069
用嵌入图间边预测结果/>
Figure FDA00041875346500000610
评估整个网络的精度。
6.一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序适用于被计算机加载时执行权利要求1-5任一所述的多视图的行人属性识别方法。
CN202310423403.6A 2023-04-20 2023-04-20 一种多视图的行人属性识别方法 Pending CN116434010A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310423403.6A CN116434010A (zh) 2023-04-20 2023-04-20 一种多视图的行人属性识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310423403.6A CN116434010A (zh) 2023-04-20 2023-04-20 一种多视图的行人属性识别方法

Publications (1)

Publication Number Publication Date
CN116434010A true CN116434010A (zh) 2023-07-14

Family

ID=87090562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310423403.6A Pending CN116434010A (zh) 2023-04-20 2023-04-20 一种多视图的行人属性识别方法

Country Status (1)

Country Link
CN (1) CN116434010A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690192A (zh) * 2024-02-02 2024-03-12 天度(厦门)科技股份有限公司 多视图实例-语义共识挖掘的异常行为识别方法和设备
CN117690192B (zh) * 2024-02-02 2024-04-26 天度(厦门)科技股份有限公司 多视图实例-语义共识挖掘的异常行为识别方法和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690192A (zh) * 2024-02-02 2024-03-12 天度(厦门)科技股份有限公司 多视图实例-语义共识挖掘的异常行为识别方法和设备
CN117690192B (zh) * 2024-02-02 2024-04-26 天度(厦门)科技股份有限公司 多视图实例-语义共识挖掘的异常行为识别方法和设备

Similar Documents

Publication Publication Date Title
Chen et al. Attention-based context aggregation network for monocular depth estimation
Luo et al. Fire smoke detection algorithm based on motion characteristic and convolutional neural networks
Wang et al. OAENet: Oriented attention ensemble for accurate facial expression recognition
Singh et al. A deeply coupled ConvNet for human activity recognition using dynamic and RGB images
Wang et al. Multi-scale dilated convolution of convolutional neural network for crowd counting
Wei et al. Boosting deep attribute learning via support vector regression for fast moving crowd counting
CN104424634B (zh) 对象跟踪方法和装置
Jiang et al. Hyperspectral image classification with spatial consistence using fully convolutional spatial propagation network
CN112464865A (zh) 一种基于像素和几何混合特征的人脸表情识别方法
Wu et al. Feedback weight convolutional neural network for gait recognition
CN108596240B (zh) 一种基于判别特征网络的图像语义分割方法
Li et al. Composing good shots by exploiting mutual relations
Grigorev et al. Depth estimation from single monocular images using deep hybrid network
CN112733602B (zh) 关系引导的行人属性识别方法
Cai et al. A robust interclass and intraclass loss function for deep learning based tongue segmentation
Tao et al. An adaptive frame selection network with enhanced dilated convolution for video smoke recognition
Sun et al. Perceptual multi-channel visual feature fusion for scene categorization
Li et al. Multi-view-based siamese convolutional neural network for 3D object retrieval
Tong et al. Adaptive weight based on overlapping blocks network for facial expression recognition
Qin et al. Depth estimation by parameter transfer with a lightweight model for single still images
Aldhaheri et al. MACC Net: Multi-task attention crowd counting network
WO2021073311A1 (zh) 图像识别方法、装置、计算机可读存储介质及芯片
CN113297936A (zh) 一种基于局部图卷积网络的排球群体行为识别方法
Peng et al. Recognizing micro-expression in video clip with adaptive key-frame mining
Qiu Convolutional neural network based age estimation from facial image and depth prediction from single image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination