CN114239754B - 基于属性特征学习解耦的行人属性识别方法及系统 - Google Patents

基于属性特征学习解耦的行人属性识别方法及系统 Download PDF

Info

Publication number
CN114239754B
CN114239754B CN202210171928.0A CN202210171928A CN114239754B CN 114239754 B CN114239754 B CN 114239754B CN 202210171928 A CN202210171928 A CN 202210171928A CN 114239754 B CN114239754 B CN 114239754B
Authority
CN
China
Prior art keywords
attribute
image
recognized
pedestrian
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210171928.0A
Other languages
English (en)
Other versions
CN114239754A (zh
Inventor
黄凯奇
陈晓棠
贾健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210171928.0A priority Critical patent/CN114239754B/zh
Publication of CN114239754A publication Critical patent/CN114239754A/zh
Application granted granted Critical
Publication of CN114239754B publication Critical patent/CN114239754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于模式识别、计算机视觉、视觉场景分析及多标签分类领域,具体涉及了一种基于属性特征学习解耦的行人属性识别方法及系统,旨在解决有技术采用相同的特征分类不同的属性,从而行人属性识别的有效性低、鲁棒性不强的问题。本发明包括:通过基于深度神经网络构建的特征提取模型,并提取待识别预处理图像的卷积图像特征;预设可学习参数并获取每个类别属性的属性索引特征;通过语义空间互注意力模块提取属性特征和索引注意力图;以前一个语义空间互注意力模块的输出作为当前模块的输入进行迭代;通过属性分类器进行迭代获得的最终的待识别图像属性特征的分类。本发明可应用于各场景的行人图片属性识别,并能显著提高行人图片属性识别的性能。

Description

基于属性特征学习解耦的行人属性识别方法及系统
技术领域
本发明属于模式识别、计算机视觉、视觉场景分析及多标签分类领域,具体涉及了一种基于属性特征学习解耦的行人属性识别方法及系统。
背景技术
近年来,计算机视觉、人工智能、机器感知等领域迅猛发展。随着安防摄像头的广泛部署,如何在监控场景中进行高效的行人属性识别得到广泛的关注。监控场景中的行人属性识别就是利用计算机算法对视频中的行人图片进行处理分析,自动地得到某一行人所包含的属性类别,比如年龄,性别,背包,衣着等等。从而为下游的行人图片检索和行人重识别技术提供支撑和辅助。
传统算法通过构建手工设计的图片特征来得到行人图片的特征表达,但是其性能不足以满足实际场景中的应用需求。而近年来随着深度学习的广泛使用,许多行人属性算法从更好的特征表达以及属性关系建模两个方面出发,不断提高监控场景中的行人属性识别方法,推动着行人属性识别领域的发展。
然而,尽管之前有大量的工作通过学习更有判别能力的视觉特征表达以及更好的建模属性之间的关系,使得行人属性识别的性能有了显著的提升,但是各个方法都使用一个特征对多个不同属性进行分类。这些方法无法应用于各个场景中的行人图片的属性识别,行人图片属性识别的性能尚达不到要求。
总的来说,本领域还急需一种不依赖于场景中行人属性的先验分布,为不同的属性提取不同的特征,用于对应的属性的预测和判别的方法,从而有效提高行人属性识别的有效性和鲁棒性。
发明内容
为了解决现有技术中的上述问题,即现有技术采用相同的特征分类不同的属性,从而行人属性识别的有效性低、鲁棒性不强的问题,本发明提供了一种基于属性特征学习解耦的行人属性识别方法,该方法包括:
步骤S10,通过图像缩放和补零填充操作将待识别图像调整为设定宽高,并进行随机水平翻转操作获得预处理待识别图像;
步骤S20,基于深度神经网络构建特征提取模型,并进行所述预处理待识别图像的卷积图像特征提取,获得待识别图像的卷积图像特征;
预设可学习参数,并基于所述可学习参数分别获取每个类别属性的属性索引特征;
步骤S30,基于所述待识别图像的卷积图像特征和所述属性索引特征,通过互注意力序列中的语义空间互注意力模块分别提取待识别图像的属性特征和索引注意力图;
步骤S40,以前一个语义空间互注意力模块的输出作为当前语义空间互注意力模块的输入进行n轮迭代,获取最终的待识别图像属性特征;其中,n为预设的互注意力序列中语义空间互注意力模块的数量;
步骤S50,基于所述最终的待识别图像属性特征,通过属性分类器进行分类,获得待识别图像的分类。
在一些优选的实施例中,所述特征提取模型、所述语义空间互注意力模块和所述 属性分类器,其训练中的总损失函数
Figure DEST_PATH_IMAGE001
为:
Figure DEST_PATH_IMAGE003
其中,
Figure 470298DEST_PATH_IMAGE004
代表分类损失函数,
Figure DEST_PATH_IMAGE005
代表组内一致性损失损失函数,
Figure 560614DEST_PATH_IMAGE006
为预设的 超参数。
在一些优选的实施例中,所述分类损失函数
Figure 758508DEST_PATH_IMAGE004
,其表示为:
Figure 744919DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE009
为当前训练批次中样本图像的数量,
Figure 441479DEST_PATH_IMAGE010
为当前场景中标注属性的 数量,
Figure DEST_PATH_IMAGE011
Figure 543341DEST_PATH_IMAGE012
分别为当前训练批次中第
Figure DEST_PATH_IMAGE013
个样本图像第
Figure 376168DEST_PATH_IMAGE014
个属性的真实值和预测概率,
Figure DEST_PATH_IMAGE015
为当前训练批次中第
Figure 799059DEST_PATH_IMAGE013
个样本图像第
Figure 202490DEST_PATH_IMAGE014
个属性的加权损失函数。
在一些优选的实施例中,所述加权损失函数
Figure 103450DEST_PATH_IMAGE016
,其表示为:
Figure 790783DEST_PATH_IMAGE018
其中,
Figure DEST_PATH_IMAGE019
代表当前训练批次中第
Figure 400887DEST_PATH_IMAGE013
个样本图像中存在第
Figure 540881DEST_PATH_IMAGE014
个属性,
Figure 979953DEST_PATH_IMAGE020
代表当前训练批次中第
Figure 521793DEST_PATH_IMAGE013
个样本图像中不存在第
Figure 755328DEST_PATH_IMAGE014
个属性,
Figure DEST_PATH_IMAGE021
代表整个训练样本集中第
Figure 398930DEST_PATH_IMAGE014
个 属性的正样本概率。
在一些优选的实施例中,所述组内一致性损失损失函数
Figure 641692DEST_PATH_IMAGE005
,其表示为:
Figure DEST_PATH_IMAGE023
其中,
Figure 569197DEST_PATH_IMAGE009
为当前训练批次中样本图像的数量,
Figure 724366DEST_PATH_IMAGE024
为根据行人属性在图像中不同 空间区域划分的属性组数量,
Figure DEST_PATH_IMAGE025
为划分后的第
Figure 838953DEST_PATH_IMAGE026
个属性组,
Figure DEST_PATH_IMAGE027
为第
Figure 150985DEST_PATH_IMAGE026
个属性组
Figure 418150DEST_PATH_IMAGE025
中符 合设定条件
Figure 993487DEST_PATH_IMAGE028
的索引注意力图的融合组注意力图
Figure DEST_PATH_IMAGE029
对应的组记忆,
Figure 595370DEST_PATH_IMAGE030
为当前训练批次 中第
Figure 179935DEST_PATH_IMAGE013
个样本图像第
Figure 301606DEST_PATH_IMAGE014
个属性的语义空间的索引注意力图,为2-范数。
在一些优选的实施例中,所述设定条件
Figure 47845DEST_PATH_IMAGE028
,其表示为:
Figure 871445DEST_PATH_IMAGE032
其中,
Figure 994122DEST_PATH_IMAGE011
Figure 485146DEST_PATH_IMAGE012
分别为当前训练批次中第
Figure 418598DEST_PATH_IMAGE013
个样本图像第
Figure 729493DEST_PATH_IMAGE014
个属性的真实值和预 测概率,
Figure DEST_PATH_IMAGE033
代表当前训练批次中第
Figure 921440DEST_PATH_IMAGE013
个样本图像中存在第
Figure 266971DEST_PATH_IMAGE014
个属性,
Figure 105745DEST_PATH_IMAGE034
为预设的固定 阈值。
在一些优选的实施例中,所述融合组注意力图
Figure 903937DEST_PATH_IMAGE029
,其表示为:
Figure 368416DEST_PATH_IMAGE036
其中,
Figure DEST_PATH_IMAGE037
Figure 834033DEST_PATH_IMAGE038
分别为划分后的第
Figure 109287DEST_PATH_IMAGE026
个属性组
Figure 129196DEST_PATH_IMAGE025
的势和设定条件
Figure 662946DEST_PATH_IMAGE028
的势,
Figure DEST_PATH_IMAGE039
为 指示函数。
在一些优选的实施例中,所述组记忆
Figure 983068DEST_PATH_IMAGE027
通过动量更新的方式在不同的训练样本 图像中更新,其方法为:
Figure 100002_DEST_PATH_IMAGE041
其中,
Figure 694804DEST_PATH_IMAGE042
,为预设的动量超参数。
在一些优选的实施例中,步骤S30中通过互注意力序列中的语义空间互注意力模块分别提取待识别图像的属性特征和索引注意力图,其方法为:
Figure 202008DEST_PATH_IMAGE044
Figure 273870DEST_PATH_IMAGE046
Figure 182920DEST_PATH_IMAGE048
其中,
Figure DEST_PATH_IMAGE049
代表互注意力序列中的第
Figure 331135DEST_PATH_IMAGE050
个语义空间互注意力模块,
Figure DEST_PATH_IMAGE051
为待识别图 像的卷积图像特征,
Figure 325636DEST_PATH_IMAGE052
为第
Figure 201188DEST_PATH_IMAGE050
个语义空间互注意力模块的输入属性索引特征,
Figure DEST_PATH_IMAGE053
Figure 981057DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE055
为不同的参数可学习的线性嵌入函数,
Figure 549441DEST_PATH_IMAGE056
为特征提取模型输出的待识 别图像的卷积图像特征
Figure 31238DEST_PATH_IMAGE051
的层数,
Figure DEST_PATH_IMAGE057
为归一化函数,
Figure 461214DEST_PATH_IMAGE058
代表矩阵转置。
本发明的另一方面,提出了一种基于属性特征学习解耦的行人属性识别系统,该系统包括以下模块:
预处理模块,配置为通过图像缩放和补零填充操作将待识别图像调整为设定宽高,并进行随机水平翻转操作获得预处理待识别图像;
卷积特征提取模块,配置为基于深度神经网络构建特征提取模型,并进行所述预处理待识别图像的卷积图像特征提取,获得待识别图像的卷积图像特征;
索引特征提取模块,配置为预设可学习参数,并基于所述可学习参数分别获取每个类别属性的属性索引特征;
语义空间互注意力模块,配置为基于所述待识别图像的卷积图像特征和所述属性索引特征,通过互注意力序列中的语义空间互注意力模块分别提取待识别图像的属性特征和索引注意力图;
互注意力迭代模块,配置为以前一个语义空间互注意力模块的输出作为当前语义空间互注意力模块的输入进行n轮迭代,获取最终的待识别图像属性特征;其中,n为预设的互注意力序列中语义空间互注意力模块的数量;
识别模块,配置为基于所述最终的待识别图像属性特征,通过属性分类器进行分类,获得待识别图像的分类。
本发明的有益效果:
(1)本发明基于属性特征学习解耦的行人属性识别方法,通过对属性特征进行解耦表达,解决了现有技术模型对人体姿态变化、背景环境因素不鲁棒的问题,显著提高了行人属性识别的预测性能,在目前规模最大的公开数据库PA100k上能够达到83.54%的最优性能。
(2)本发明基于属性特征学习解耦的行人属性识别方法,计算量和参数量相较于现有技术模型没有显著增加,即在基本保持现有技术的计算量和参数量的前提下,有效提升了模型的性能以及增强了模型对于背景和行人姿态的鲁棒性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于属性特征学习解耦的行人属性识别方法的流程示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的一种基于属性特征学习解耦的行人属性识别方法,该方法包括:
步骤S10,通过图像缩放和补零填充操作将待识别图像调整为设定宽高,并进行随机水平翻转操作获得预处理待识别图像;
步骤S20,基于深度神经网络构建特征提取模型,并进行所述预处理待识别图像的卷积图像特征提取,获得待识别图像的卷积图像特征;
预设可学习参数,并基于所述可学习参数分别获取每个类别属性的属性索引特征;
步骤S30,基于所述待识别图像的卷积图像特征和所述属性索引特征,通过互注意力序列中的语义空间互注意力模块分别提取待识别图像的属性特征和索引注意力图;
步骤S40,以前一个语义空间互注意力模块的输出作为当前语义空间互注意力模块的输入进行n轮迭代,获取最终的待识别图像属性特征;其中,n为预设的互注意力序列中语义空间互注意力模块的数量;
步骤S50,基于所述最终的待识别图像属性特征,通过属性分类器进行分类,获得待识别图像的分类。
为了更清晰地对本发明基于属性特征学习解耦的行人属性识别方法进行说明,下面结合图1对本发明实施例中各步骤展开详述。
本发明第一实施例的基于属性特征学习解耦的行人属性识别方法,包括步骤S10-步骤S50,各步骤详细描述如下:
步骤S10,通过图像缩放和补零填充操作将待识别图像调整为设定宽高,并进行随机水平翻转操作获得预处理待识别图像。
对于待识别(即待进行行人属性分类)的第
Figure 79277DEST_PATH_IMAGE013
张行人图像
Figure DEST_PATH_IMAGE059
,首先通过图像缩放和 补零填充操作将其调整为设定宽高,本发明一个实例中,设定宽度
Figure 818563DEST_PATH_IMAGE060
和高度分别为
Figure DEST_PATH_IMAGE061
,补零填充操作为对宽高分别进行长度为10的补零填充操作,然后进 行随机水平翻转操作获得第
Figure 53235DEST_PATH_IMAGE013
张预处理待识别图像
Figure 21322DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE063
代表数学集合 中的实数集合,
Figure 25050DEST_PATH_IMAGE064
为预处理待识别图像的层数,对RGB图像来说,
Figure DEST_PATH_IMAGE065
步骤S20,基于深度神经网络构建特征提取模型,并进行所述预处理待识别图像的卷积图像特征提取,获得待识别图像的卷积图像特征,如式(1)所示:
Figure DEST_PATH_IMAGE067
其中,
Figure 217128DEST_PATH_IMAGE068
,为第
Figure 673517DEST_PATH_IMAGE013
张预处理待识别图像
Figure DEST_PATH_IMAGE069
的卷积图像特征,
Figure 694563DEST_PATH_IMAGE070
为 特征提取模型输出的卷积图像特征
Figure DEST_PATH_IMAGE071
的层数;
Figure 393328DEST_PATH_IMAGE072
为基于深度神经网络构建的特征提 取模型;
Figure DEST_PATH_IMAGE073
为特征提取模型的可学习参数。
预设可学习参数,并基于所述可学习参数分别获取每个类别属性的属性索引特征,如式(2)所示:
Figure DEST_PATH_IMAGE075
其中,
Figure 474416DEST_PATH_IMAGE076
,为预设的可学习参数;
Figure 418102DEST_PATH_IMAGE010
为当前场景中标注属性的 数量;
Figure DEST_PATH_IMAGE077
代表线性嵌入函数;
Figure 993571DEST_PATH_IMAGE078
,为随机初始化的属性索引特征。
以下为了描述的简便,省略标记
Figure 440732DEST_PATH_IMAGE013
步骤S30,基于所述待识别图像的卷积图像特征和所述属性索引特征,通过互注意力序列中的语义空间互注意力模块分别提取待识别图像的属性特征和索引注意力图,如式(3)-式(5)所示:
Figure 427143DEST_PATH_IMAGE080
Figure 326966DEST_PATH_IMAGE082
Figure 174967DEST_PATH_IMAGE084
其中,
Figure 742215DEST_PATH_IMAGE049
代表互注意力序列中的第
Figure 899527DEST_PATH_IMAGE050
个语义空间互注意力模块,
Figure 286646DEST_PATH_IMAGE051
为待识别图 像的卷积图像特征,
Figure 187606DEST_PATH_IMAGE052
为第
Figure 625671DEST_PATH_IMAGE050
个语义空间互注意力模块的输入属性索引特征,
Figure 688305DEST_PATH_IMAGE053
Figure 828300DEST_PATH_IMAGE054
Figure 1792DEST_PATH_IMAGE055
为不同的参数可学习的线性嵌入函数,
Figure 278053DEST_PATH_IMAGE056
为特征提取模型输出的待识 别图像的卷积图像特征
Figure 777167DEST_PATH_IMAGE051
的层数,
Figure 155190DEST_PATH_IMAGE057
为归一化函数,
Figure 132373DEST_PATH_IMAGE058
代表矩阵转置。
互注意力序列中语义空间互注意力模块的数量是预设的,可以为1,2,3,…中的任 意数量,不同的模块数量反映了模型不同的能力以及复杂度,一般来说,数量越大,模型的 能力越强、计算复杂度越高。本发明一个实例中,互注意力序列中语义空间互注意力模块的 数量为3,
Figure DEST_PATH_IMAGE085
步骤S40,以前一个语义空间互注意力模块的输出作为当前语义空间互注意力模块的输入进行迭代,获取最终的待识别图像属性特征。
将第
Figure 59878DEST_PATH_IMAGE086
个语义空间互注意力模块的输出作为第
Figure 480626DEST_PATH_IMAGE050
个语义空间注意力模块的输 入,如式(6)所示:
Figure 595213DEST_PATH_IMAGE088
根据
Figure 376087DEST_PATH_IMAGE085
迭代三次后,获得最终的待识别图像属性特征
Figure DEST_PATH_IMAGE089
步骤S50,基于所述最终的待识别图像属性特征,通过属性分类器进行分类,获得待识别图像的分类,如式(7)所示:
Figure DEST_PATH_IMAGE091
其中,
Figure 174410DEST_PATH_IMAGE092
,为
Figure 15327DEST_PATH_IMAGE010
个二分类器的参数,
Figure DEST_PATH_IMAGE093
函数用于获取 矩阵的对角线元素,
Figure 882788DEST_PATH_IMAGE094
为分类器的输出值。
Figure DEST_PATH_IMAGE095
函数得到网络对于第
Figure 483665DEST_PATH_IMAGE014
个属性的预测,如式(8)和式(9)所示:
Figure DEST_PATH_IMAGE097
Figure DEST_PATH_IMAGE099
其中,
Figure 916921DEST_PATH_IMAGE100
Figure DEST_PATH_IMAGE101
代表该属性存在,
Figure 945051DEST_PATH_IMAGE102
代表该属性不存 在。
特征提取模型、所述语义空间互注意力模块和所述属性分类器,其训练中的总损 失函数
Figure 768650DEST_PATH_IMAGE001
如式(10)所示:
Figure 891327DEST_PATH_IMAGE104
其中,
Figure 116772DEST_PATH_IMAGE004
代表分类损失函数,
Figure 299492DEST_PATH_IMAGE005
代表组内一致性损失损失函数,
Figure 361120DEST_PATH_IMAGE006
为预设的 超参数。
分类损失函数
Figure 21908DEST_PATH_IMAGE004
如式(11)所示:
Figure 367439DEST_PATH_IMAGE106
其中,
Figure 455480DEST_PATH_IMAGE009
为当前训练批次中样本图像的数量,
Figure 253672DEST_PATH_IMAGE010
为当前场景中标注属性的 数量,
Figure 468884DEST_PATH_IMAGE011
Figure 668921DEST_PATH_IMAGE012
分别为当前训练批次中第
Figure 927864DEST_PATH_IMAGE013
个样本图像第
Figure 213352DEST_PATH_IMAGE014
个属性的真实值和预测概率,
Figure 215943DEST_PATH_IMAGE015
为当前训练批次中第
Figure 21219DEST_PATH_IMAGE013
个样本图像第
Figure 716643DEST_PATH_IMAGE014
个属性的加权损失函数。
加权损失函数
Figure 489427DEST_PATH_IMAGE016
如式(12)所示:
Figure 295709DEST_PATH_IMAGE108
其中,
Figure 204759DEST_PATH_IMAGE019
代表当前训练批次中第
Figure 805504DEST_PATH_IMAGE013
个样本图像中存在第
Figure 816317DEST_PATH_IMAGE014
个属性,
Figure 426290DEST_PATH_IMAGE020
代表当前训练批次中第
Figure 189846DEST_PATH_IMAGE013
个样本图像中不存在第
Figure 492652DEST_PATH_IMAGE014
个属性,
Figure 708870DEST_PATH_IMAGE021
代表整个训练样本集中第
Figure 873266DEST_PATH_IMAGE014
个 属性的正样本概率,即整个训练样本集中第
Figure 491329DEST_PATH_IMAGE014
个属性的正样本的数量/整个训练样本集中第
Figure 965036DEST_PATH_IMAGE014
个属性的所有样本的数量。
组内一致性损失
Figure 668549DEST_PATH_IMAGE005
通过从最后一个语义空间互注意力模块
Figure DEST_PATH_IMAGE109
选取符合标 准的第
Figure 636636DEST_PATH_IMAGE013
个样本中第
Figure 640365DEST_PATH_IMAGE014
个属性的索引注意力图
Figure 19393DEST_PATH_IMAGE030
,并将属于同一组属性的索引注意力图 进行融合,得到每组属性可靠的空间注意力图。
首先,根据行人属性在图像中存在的空间区域不同,将行人属性划分为多个属性 组。以PA100K数据库为例,将26个属性分为
Figure 475782DEST_PATH_IMAGE110
组,如表1所示:
表1
Figure DEST_PATH_IMAGE111
其中,Head
Figure 247561DEST_PATH_IMAGE112
为头部区域,包括属性Hat(戴帽子)和Glasses(戴眼镜),UpperBody
Figure DEST_PATH_IMAGE113
为上半身区域,包括属性ShortSleeve(短袖上衣)、LongSleeve(长袖上衣)、 UpperStride(条纹上衣)、UpperLogo(带Logo上衣)、UpperPlaid(格子款上衣)和 UpperSplice(拼接款上衣),LowerBody
Figure 105795DEST_PATH_IMAGE114
为下半身区域,包括属性LowerStripe(条纹裤 子)、LowerPatten(带图案的裤子)、LongCoat(长外套)、Trousers(长裤)、Shorts(短裤)和 Skirt&Dress(半身裙&连衣裙),Feet
Figure DEST_PATH_IMAGE115
为脚部区域,包括属性Boots(靴子),Bag
Figure 186884DEST_PATH_IMAGE116
为背包 区域,包括属性HandBag(手提包)、ShoulderBag(肩包)、Backpack(双肩背包)和 HoldObjectsInFront(朝前持有物体),Whole
Figure DEST_PATH_IMAGE117
为整体区域,包括属性AgeOver60(年龄超 过60岁)、Age18-60(年龄在18岁至60岁之间)、AgeLess18(年龄小于18岁)、Female(女性)、 Front(正向)、Side(侧向)和Back(背向)。
对于每组属性
Figure 666320DEST_PATH_IMAGE118
,对每个组内属性挑选符合设定条件
Figure 959898DEST_PATH_IMAGE028
的索 引注意力图,进行融合得到当前训练批次中的6个组注意力图,如式(13)所示:
Figure 672639DEST_PATH_IMAGE120
其中,
Figure 127891DEST_PATH_IMAGE037
Figure 309605DEST_PATH_IMAGE038
分别为划分后的第
Figure 141295DEST_PATH_IMAGE026
个属性组
Figure 974122DEST_PATH_IMAGE025
的势和设定条件
Figure 600275DEST_PATH_IMAGE028
的势,
Figure 518553DEST_PATH_IMAGE039
为 指示函数。
设定条件
Figure 904666DEST_PATH_IMAGE028
如式(14)所示:
Figure 326420DEST_PATH_IMAGE122
其中,
Figure 389054DEST_PATH_IMAGE011
Figure 529048DEST_PATH_IMAGE012
分别为当前训练批次中第
Figure 233699DEST_PATH_IMAGE013
个样本图像第
Figure 260692DEST_PATH_IMAGE014
个属性的真实值和预 测概率,
Figure 759806DEST_PATH_IMAGE033
代表当前训练批次中第
Figure 121517DEST_PATH_IMAGE013
个样本图像中存在第
Figure 364280DEST_PATH_IMAGE014
个属性,
Figure 495047DEST_PATH_IMAGE034
为预设的固定 阈值。
Figure 899484DEST_PATH_IMAGE029
作为组记忆
Figure 764803DEST_PATH_IMAGE027
存储在模型中,并通过动量更新的方式,在不同的训练样本 中更新组记忆
Figure 545677DEST_PATH_IMAGE027
,如式(15)所示:
Figure 796529DEST_PATH_IMAGE124
其中,
Figure 637447DEST_PATH_IMAGE042
,为预设的动量超参数。
从而,组内一致性损失损失函数
Figure 973750DEST_PATH_IMAGE005
如式(16)所示:
Figure 309047DEST_PATH_IMAGE126
其中,
Figure 414407DEST_PATH_IMAGE009
为当前训练批次中样本图像的数量,
Figure 426225DEST_PATH_IMAGE024
为根据行人属性在图像中不同 空间区域划分的属性组数量,
Figure 984245DEST_PATH_IMAGE025
为划分后的第
Figure 372501DEST_PATH_IMAGE026
个属性组,
Figure 83100DEST_PATH_IMAGE027
为第
Figure 265819DEST_PATH_IMAGE026
个属性组
Figure 576715DEST_PATH_IMAGE025
中符 合设定条件
Figure 503083DEST_PATH_IMAGE028
的索引注意力图的融合组注意力图
Figure 317455DEST_PATH_IMAGE029
对应的组记忆,
Figure 687387DEST_PATH_IMAGE030
为当前训练批次 中第
Figure 220000DEST_PATH_IMAGE013
个样本图像第
Figure 950058DEST_PATH_IMAGE014
个属性的语义空间的索引注意力图,
Figure DEST_PATH_IMAGE127
为2-范数。
Figure 415675DEST_PATH_IMAGE030
即为式 (3)-式(5)中
Figure 956509DEST_PATH_IMAGE128
中的一个元素。
通过本发明的基于属性特征学习解耦的行人属性识别方法,得到的某一属性的预测值能有效的提高该属性的性能。对所有属性的预测值求平均得到本发明方法在所有属性上的性能。
将本发明方法在常用的四个行人属性数据库中运行,并与现有技术进行比较,其性能对比如表2:
表2
Figure DEST_PATH_IMAGE129
其中,PETA、RAPv1、PA100k和RAPv2为四个行人属性数据库,Method列的Baseline代表仅采用基础的ResNet50模型的方法,DAFL代表本发明方法,其他为进行对比的现有技术的方法,mA(mean accuracy)代表平均精确度,Accu(accuracy)代表精确度,Prec(precision)代表准确度,Recall代表召回率,F1表示F值。从表中可以看出,随着数据库规模的增大,本发明的性能与现有方法相比取得的提升更为显著,例如在两个大规模的数据库PA100K,RAPv2上,mA指标分别比现有技术的指标82.31和79.23提升了1.23和1.81个点。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
本发明第二实施例的基于属性特征学习解耦的行人属性识别系统,该系统包括以下模块:
预处理模块,配置为通过图像缩放和补零填充操作将待识别图像调整为设定宽高,并进行随机水平翻转操作获得预处理待识别图像;
卷积特征提取模块,配置为基于深度神经网络构建特征提取模型,并进行所述预处理待识别图像的卷积图像特征提取,获得待识别图像的卷积图像特征;
索引特征提取模块,配置为预设可学习参数,并基于所述可学习参数分别获取每个类别属性的属性索引特征;
语义空间互注意力模块,配置为基于所述待识别图像的卷积图像特征和所述属性索引特征,通过互注意力序列中的语义空间互注意力模块分别提取待识别图像的属性特征和索引注意力图;所述互注意力序列中语义空间互注意力模块的数量为待识别图像的层数;
互注意力迭代模块,配置为以前一个语义空间互注意力模块的输出作为当前语义空间互注意力模块的输入进行迭代,获取最终的待识别图像属性特征;
识别模块,配置为基于所述最终的待识别图像属性特征,通过属性分类器进行分类,获得待识别图像的分类。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于属性特征学习解耦的行人属性识别系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种电子设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于属性特征学习解耦的行人属性识别方法。
本发明第四实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于属性特征学习解耦的行人属性识别方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于属性特征学习解耦的行人属性识别方法,其特征在于,该方法包括:
步骤S10,通过图像缩放和补零填充操作将待识别图像调整为设定宽高,并进行随机水平翻转操作获得预处理待识别图像;
步骤S20,基于深度神经网络构建特征提取模型,并进行所述预处理待识别图像的卷积图像特征提取,获得待识别图像的卷积图像特征;
预设可学习参数,并基于所述可学习参数分别获取每个类别属性的属性索引特征;
步骤S30,基于所述待识别图像的卷积图像特征和所述属性索引特征,通过互注意力序列中的语义空间互注意力模块分别提取待识别图像的属性特征和索引注意力图;
步骤S40,以前一个语义空间互注意力模块的输出作为当前语义空间互注意力模块的输入进行n轮迭代,获取最终的待识别图像属性特征;其中,n为预设的互注意力序列中语义空间互注意力模块的数量;
步骤S50,基于所述最终的待识别图像属性特征,通过属性分类器进行分类,获得待识别图像的分类。
2.根据权利要求1所述的基于属性特征学习解耦的行人属性识别方法,其特征在于,所述特征提取模型、所述语义空间互注意力模块和所述属性分类器,其训练中的总损失函数
Figure 384564DEST_PATH_IMAGE001
为:
Figure DEST_PATH_IMAGE002
其中,
Figure 504966DEST_PATH_IMAGE003
代表分类损失函数,
Figure DEST_PATH_IMAGE004
代表组内一致性损失函数,
Figure 471654DEST_PATH_IMAGE005
为预设的超参数。
3.根据权利要求2所述的基于属性特征学习解耦的行人属性识别方法,其特征在于,所述分类损失函数
Figure 601284DEST_PATH_IMAGE003
,其表示为:
Figure DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE007
为当前训练批次中样本图像的数量,
Figure DEST_PATH_IMAGE008
为当前场景中标注属性的数量,
Figure 41755DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
分别为当前训练批次中第
Figure 801901DEST_PATH_IMAGE011
个样本图像第
Figure DEST_PATH_IMAGE012
个属性的真实值和预测概率,
Figure 521464DEST_PATH_IMAGE013
为当前训练批次中第
Figure 189206DEST_PATH_IMAGE011
个样本图像第
Figure 592505DEST_PATH_IMAGE012
个属性的加权损失函数。
4.根据权利要求3所述的基于属性特征学习解耦的行人属性识别方法,其特征在于,所述加权损失函数
Figure DEST_PATH_IMAGE014
,其表示为:
Figure 274284DEST_PATH_IMAGE015
其中,
Figure DEST_PATH_IMAGE016
代表当前训练批次中第
Figure 231876DEST_PATH_IMAGE011
个样本图像中存在第
Figure 437730DEST_PATH_IMAGE012
个属性,
Figure DEST_PATH_IMAGE017
代表当前训练批次中第
Figure 413645DEST_PATH_IMAGE011
个样本图像中不存在第
Figure 577910DEST_PATH_IMAGE012
个属性,
Figure DEST_PATH_IMAGE018
代表整个训练样本集中第
Figure 22798DEST_PATH_IMAGE012
个属性的正样本概率。
5.根据权利要求2所述的基于属性特征学习解耦的行人属性识别方法,其特征在于,所述组内一致性损失函数
Figure 766763DEST_PATH_IMAGE004
,其表示为:
Figure 629808DEST_PATH_IMAGE019
其中,
Figure 699395DEST_PATH_IMAGE007
为当前训练批次中样本图像的数量,
Figure DEST_PATH_IMAGE020
为根据行人属性在图像中不同空间区域划分的属性组数量,
Figure 631579DEST_PATH_IMAGE021
为划分后的第
Figure DEST_PATH_IMAGE022
个属性组,
Figure 162923DEST_PATH_IMAGE023
为第
Figure 129742DEST_PATH_IMAGE022
个属性组
Figure 635810DEST_PATH_IMAGE021
中符合设定条件
Figure DEST_PATH_IMAGE024
的索引注意力图的融合组注意力图
Figure 524131DEST_PATH_IMAGE025
对应的组记忆,
Figure DEST_PATH_IMAGE026
为当前训练批次中第
Figure 360631DEST_PATH_IMAGE011
个样本图像第
Figure 181957DEST_PATH_IMAGE012
个属性的语义空间的索引注意力图,
Figure 593347DEST_PATH_IMAGE027
为2-范数。
6.根据权利要求5所述的基于属性特征学习解耦的行人属性识别方法,其特征在于,所述设定条件
Figure 749390DEST_PATH_IMAGE024
,其表示为:
Figure DEST_PATH_IMAGE028
其中,
Figure 373270DEST_PATH_IMAGE009
Figure 580260DEST_PATH_IMAGE010
分别为当前训练批次中第
Figure 162551DEST_PATH_IMAGE011
个样本图像第
Figure 822203DEST_PATH_IMAGE012
个属性的真实值和预测概率,
Figure 266085DEST_PATH_IMAGE029
代表当前训练批次中第
Figure 796423DEST_PATH_IMAGE011
个样本图像中存在第
Figure 549616DEST_PATH_IMAGE012
个属性,
Figure DEST_PATH_IMAGE030
为预设的固定阈值。
7.根据权利要求5所述的基于属性特征学习解耦的行人属性识别方法,其特征在于,所述融合组注意力图
Figure 414672DEST_PATH_IMAGE025
,其表示为:
Figure 911513DEST_PATH_IMAGE031
其中,
Figure DEST_PATH_IMAGE032
Figure 30778DEST_PATH_IMAGE033
分别为划分后的第
Figure 954872DEST_PATH_IMAGE022
个属性组
Figure 74269DEST_PATH_IMAGE021
的势和设定条件
Figure 374800DEST_PATH_IMAGE024
的势,
Figure DEST_PATH_IMAGE034
为指示函数。
8.根据权利要求7所述的基于属性特征学习解耦的行人属性识别方法,其特征在于,所述组记忆
Figure 879731DEST_PATH_IMAGE023
通过动量更新的方式在不同的训练样本图像中更新,其方法为:
Figure 709147DEST_PATH_IMAGE035
其中,
Figure DEST_PATH_IMAGE036
,为预设的动量超参数。
9.根据权利要求1所述的基于属性特征学习解耦的行人属性识别方法,其特征在于,步骤S30中通过互注意力序列中的语义空间互注意力模块分别提取待识别图像的属性特征和索引注意力图,其方法为:
Figure 548796DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE038
Figure 121859DEST_PATH_IMAGE039
其中,
Figure DEST_PATH_IMAGE040
代表互注意力序列中的第
Figure DEST_PATH_IMAGE041
个语义空间互注意力模块,
Figure DEST_PATH_IMAGE042
为待识别图像的卷积图像特征,
Figure 157993DEST_PATH_IMAGE043
为第
Figure 689469DEST_PATH_IMAGE041
个语义空间互注意力模块的输入属性索引特征,
Figure DEST_PATH_IMAGE044
Figure 501567DEST_PATH_IMAGE045
Figure DEST_PATH_IMAGE046
为不同的参数可学习的线性嵌入函数,
Figure 127589DEST_PATH_IMAGE047
为特征提取模型输出的待识别图像的卷积图像特征
Figure 607112DEST_PATH_IMAGE042
的层数,
Figure DEST_PATH_IMAGE048
为归一化函数,
Figure 778330DEST_PATH_IMAGE049
代表矩阵转置。
10.一种基于属性特征学习解耦的行人属性识别系统,其特征在于,该系统包括以下模块:
预处理模块,配置为通过图像缩放和补零填充操作将待识别图像调整为设定宽高,并进行随机水平翻转操作获得预处理待识别图像;
卷积特征提取模块,配置为基于深度神经网络构建特征提取模型,并进行所述预处理待识别图像的卷积图像特征提取,获得待识别图像的卷积图像特征;
索引特征提取模块,配置为预设可学习参数,并基于所述可学习参数分别获取每个类别属性的属性索引特征;
语义空间互注意力模块,配置为基于所述待识别图像的卷积图像特征和所述属性索引特征,通过互注意力序列中的语义空间互注意力模块分别提取待识别图像的属性特征和索引注意力图;
互注意力迭代模块,配置为以前一个语义空间互注意力模块的输出作为当前语义空间互注意力模块的输入进行n轮迭代,获取最终的待识别图像属性特征;其中,n为预设的互注意力序列中语义空间互注意力模块的数量;
识别模块,配置为基于所述最终的待识别图像属性特征,通过属性分类器进行分类,获得待识别图像的分类。
CN202210171928.0A 2022-02-24 2022-02-24 基于属性特征学习解耦的行人属性识别方法及系统 Active CN114239754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210171928.0A CN114239754B (zh) 2022-02-24 2022-02-24 基于属性特征学习解耦的行人属性识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210171928.0A CN114239754B (zh) 2022-02-24 2022-02-24 基于属性特征学习解耦的行人属性识别方法及系统

Publications (2)

Publication Number Publication Date
CN114239754A CN114239754A (zh) 2022-03-25
CN114239754B true CN114239754B (zh) 2022-05-03

Family

ID=80748068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210171928.0A Active CN114239754B (zh) 2022-02-24 2022-02-24 基于属性特征学习解耦的行人属性识别方法及系统

Country Status (1)

Country Link
CN (1) CN114239754B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058492B (zh) * 2023-10-13 2024-02-27 之江实验室 一种基于学习解耦的两阶段训练病害识别方法和系统
CN117562583B (zh) * 2024-01-17 2024-03-15 吉林大学 人工智能辅助的心脏功能检测系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330396A (zh) * 2017-06-28 2017-11-07 华中科技大学 一种基于多属性和多策略融合学习的行人再识别方法
CN109902548A (zh) * 2018-07-20 2019-06-18 华为技术有限公司 一种对象属性识别方法、装置、计算设备及系统
CN110516512A (zh) * 2018-05-21 2019-11-29 北京中科奥森数据科技有限公司 行人属性分析模型的训练方法、行人属性识别方法及装置
CN110532874A (zh) * 2019-07-23 2019-12-03 深圳大学 一种物体属性识别模型的生成方法、存储介质及电子设备
CN111310518A (zh) * 2018-12-11 2020-06-19 北京嘀嘀无限科技发展有限公司 图片特征提取方法、目标重识别方法、装置及电子设备
CN112560831A (zh) * 2021-03-01 2021-03-26 四川大学 一种基于多尺度空间校正的行人属性识别方法
WO2021218517A1 (zh) * 2020-04-29 2021-11-04 华为技术有限公司 获取神经网络模型的方法、图像处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111052126B (zh) * 2017-09-04 2024-06-04 华为技术有限公司 行人属性识别与定位方法以及卷积神经网络系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330396A (zh) * 2017-06-28 2017-11-07 华中科技大学 一种基于多属性和多策略融合学习的行人再识别方法
CN110516512A (zh) * 2018-05-21 2019-11-29 北京中科奥森数据科技有限公司 行人属性分析模型的训练方法、行人属性识别方法及装置
CN109902548A (zh) * 2018-07-20 2019-06-18 华为技术有限公司 一种对象属性识别方法、装置、计算设备及系统
CN111310518A (zh) * 2018-12-11 2020-06-19 北京嘀嘀无限科技发展有限公司 图片特征提取方法、目标重识别方法、装置及电子设备
CN110532874A (zh) * 2019-07-23 2019-12-03 深圳大学 一种物体属性识别模型的生成方法、存储介质及电子设备
WO2021218517A1 (zh) * 2020-04-29 2021-11-04 华为技术有限公司 获取神经网络模型的方法、图像处理方法及装置
CN112560831A (zh) * 2021-03-01 2021-03-26 四川大学 一种基于多尺度空间校正的行人属性识别方法

Also Published As

Publication number Publication date
CN114239754A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN108520226B (zh) 一种基于躯体分解和显著性检测的行人重识别方法
Zhao et al. Learning mid-level filters for person re-identification
US9396412B2 (en) Machine-learnt person re-identification
Bhattacharya et al. Recognition of complex events: Exploiting temporal dynamics between underlying concepts
Cerutti et al. A parametric active polygon for leaf segmentation and shape estimation
Yamaguchi et al. Paper doll parsing: Retrieving similar styles to parse clothing items
CN114239754B (zh) 基于属性特征学习解耦的行人属性识别方法及系统
CN104835175B (zh) 一种基于视觉注意机制的核环境中目标检测方法
Joo et al. Human attribute recognition by rich appearance dictionary
WO2016190814A1 (en) Method and system for facial recognition
CN101706780A (zh) 一种基于视觉注意力模型的图像语义检索方法
CN110929687B (zh) 一种基于关键点检测的多人行为识别系统及工作方法
CN111597870A (zh) 一种基于注意力机制与多任务学习的人体属性识别方法
CN104966075B (zh) 一种基于二维判别特征的人脸识别方法与系统
CN111080670A (zh) 图像提取方法、装置、设备及存储介质
CN111209873A (zh) 一种基于深度学习的高精度人脸关键点定位方法及系统
Inacio et al. EPYNET: Efficient pyramidal network for clothing segmentation
Sajid et al. The role of facial asymmetry in recognizing age-separated face images
CN116129473A (zh) 基于身份引导的联合学习换衣行人重识别方法及系统
CN115862120A (zh) 可分离变分自编码器解耦的面部动作单元识别方法及设备
CN115205933A (zh) 面部表情识别方法、装置、设备及可读存储介质
Hassan et al. Vision based entomology: a survey
CN106886754A (zh) 一种基于三角面片的三维场景下的物体识别方法及系统
CN109508660A (zh) 一种基于视频的au检测方法
Kim et al. Facial landmark extraction scheme based on semantic segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant