CN111738074A - 基于弱监督学习的行人属性识别方法、系统及装置 - Google Patents

基于弱监督学习的行人属性识别方法、系统及装置 Download PDF

Info

Publication number
CN111738074A
CN111738074A CN202010417405.0A CN202010417405A CN111738074A CN 111738074 A CN111738074 A CN 111738074A CN 202010417405 A CN202010417405 A CN 202010417405A CN 111738074 A CN111738074 A CN 111738074A
Authority
CN
China
Prior art keywords
attribute
pedestrian
target pedestrian
different levels
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010417405.0A
Other languages
English (en)
Other versions
CN111738074B (zh
Inventor
杨华
孙铭君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010417405.0A priority Critical patent/CN111738074B/zh
Publication of CN111738074A publication Critical patent/CN111738074A/zh
Application granted granted Critical
Publication of CN111738074B publication Critical patent/CN111738074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于弱监督学习的行人属性识别方法、系统及装置,包括:采用深度卷积神经网络提取目标行人不同层次的视觉特征;通过弱监督学习的方法在隐含属性空间学习隐含属性,同时获得隐含特征对应的空间约束,得到对应的隐含属性空间位置图;根据目标行人不同层次的视觉特征和对应的隐含属性空间位置图,对目标行人的局部特征提取,得到目标行人不同层次的局部特征;通过自注意力的方法对行人属性间关系进行建模,利用全局平均池化层和全连接层作为分类器,得到不同层次下对目标行人属性的预测值;对每个属性投票得到最终识别结果。本发明将属性空间约束和属性间约束联合起来预测目标行人属性,提升了行人属性识别的性能。

Description

基于弱监督学习的行人属性识别方法、系统及装置
技术领域
本发明涉及计算机视觉技术领域,具体地,涉及一种基于弱监督学习的行人属性识别方法、系统及装置。
背景技术
基于弱监督学习的行人属性识别研究目标是从监控数据中提取出行人的多尺度,多层次的特征抽象,对于监控场景理解和目标行人检索等任务都发挥着重要辅助作用,是构建智能监控系统的关键一环。
在真实监控场景下待识别属性具有多尺度,多层次的特点,多尺度即包括像素占比小的局部特征和占比较大的全身特征,多层次即包括抽象程度较低的外貌特征和抽象程度较高的动作特征等。同时由于光照,拍摄角度等的影响,在实际应用中行人属性识别技术仍有改进空间。
经检索,中国发明申请号为201910943815.6的发明专利申请,公开了一种行人属性识别方法和装置,该方法包括:根据卷积神经网络对样本图像进行特征提取,得到多个初始特征层,样本图像为预设行人属性样本集中的图像,预设行人属性样本集中包括的图像具有多个行人属性;对多个初始特征层进行自上而下的逐层特征融合,得到多个复合特征层;根据空间变换网络和多个复合特征层,确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块,从而可以提高行人属性识别的精度和效率。
但是上述专利存在以下不足:1.对所有特定行人属性均进行了空间变换参数的学习,运算量较大,同时在较高层级属性(如年龄,性别等行人属性)上难以学习到相对应的属性区域,因此提升效果不佳。2.没有对行人属性间内在的关系进行建模,例如可以从长发,帽子等属性推断得到更高层级的女性属性,通过对属性间内在关系进行建模约束可以进一步提升属性识别效果。
发明内容
本发明的目的在于克服现有技术的不足之处,提出了一种基于弱监督学习的行人属性识别方法、系统及装置,同时对行人属性识别问题施加空间约束和属性间关系约束,提升了属性识别的准确率。
根据本发明的第一方面,提供一种基于弱监督学习的行人属性识别方法,包括:
获取目标行人图像,采用深度卷积神经网络提取目标行人不同层次的视觉特征;
将目标行人不同层次的视觉特征通过弱监督学习的方法在隐含属性空间学习隐含属性,同时获得隐含特征对应的空间约束,得到对应的隐含属性空间位置图;
根据目标行人不同层次的视觉特征和对应的隐含属性空间位置图,对目标行人的局部特征提取,得到目标行人不同层次的局部特征;
根据目标行人不同层次的局部特征,通过自注意力的方法对行人属性间关系进行建模,利用全连接层作为分类器,得到不同层次下对目标行人属性的预测值;
根据不同层次下对目标行人属性的预测值,通过对每个属性投票得到最大值的方法得到最终目标行人属性识别结果。
可选地,所述采用深度卷积神经网络提取目标行人不同层次的视觉特征,包括:将目标行人图像通过Inception-V3网络,得到提取目标行人不同层次的视觉特征zi
可选地,所述将目标行人不同层次的视觉特征通过弱监督学习的方法在隐含属性空间学习隐含属性,同时获得隐含特征对应的空间约束,包括:
将目标行人不同层次的视觉特征通过卷积网络得到特征Z,经过空间正则化获得隐含属性特征图a,空间正则化按以下计算公式进行:
Figure BDA0002495557140000021
其中ac,h,w为隐含属性特征图在(c,h,w)处的值,zc,h,w为特征Z在(c,h,w)处的值。
将目标行人通过另一路卷积网络和Sigmoid激活函数得到对隐含属性存在的推断图s,与隐含属性特征图a联合起来得到隐含属性空间位置图L,按如下公式计算:
L=a·s
其中a是隐含属性特征图,s是隐含属性推断图,当隐含属性不存在时,隐含属性推断图中的值趋近于0。
可选地,所述根据目标行人不同层次的视觉特征和对应的隐含属性空间位置图,对目标行人的局部特征提取,包括:
将所述隐含属性空间位置图L和目标行人不同层次的视觉特征结合起来,得到目标行人经过空间约束后的局部特征(fn)init,按如下公式计算:
Figure BDA0002495557140000031
其中(fn)init是提取到的局部特征,共有N个局部特征,即目标行人不同层次的局部特征;Ln是第n层的隐含属性空间位置图,F是目标行人视觉特征。
可选地,所述将目标行人不同层次的局部特征,通过自注意力的方法对行人属性间关系进行建模,其中:
为了将不同的目标行人局部特征分开,按如下公式叠加位置编码PE:
Figure BDA0002495557140000032
Figure BDA0002495557140000033
其中PEi(p)代表对位置p处进行位置编码时第i个元素的值,d代表位置编码的长度,是一个超参数;叠加位置编码PE后得到局部特征fn
对局部特征fn进行线性变换后通过施加权重描述局部特征间的关系,得到更新后的约束局部特征rn,按如下公式计算:
Figure BDA0002495557140000034
其中φW代表可学习线性变换,wmn代表第m个和第n个局部特征相互影响的可学习权重参数,其中wmn按如下公式计算:
Figure BDA0002495557140000035
其中φKQ代表可学习线性变换,fm,fn代表第m和第n个局部特征,dk代表局部特征维度;对(wmn)init进行归一化后得到局部特征间权重wmn
得到特征间权重wmn后通过加权求和的方式即可得到经过属性间关系约束后的局部特rn:
Figure BDA0002495557140000036
可选地,利用全连接层作为分类器,得到不同层次下对目标行人属性的预测值,其中:
对于Inception=v3网络中不同inception-i运算后得到的卷积特征zi都参与了所有目标行人属性的预测过程,采用中继监督的方式进行训练,对于每个层次预测出的目标行人属性预测结果y,都采用带权重的交叉熵损失函数进行计算,如下公式进行计算:
Figure BDA0002495557140000041
其中
Figure BDA0002495557140000042
代表对第c个目标属性的预测值,yc代表第c个目标属性的真实值,pc代表第c个属性在训练集中正样本的比例,C代表待预测的行人属性类别数;Loss代表待优化的目标损失函数。
可选地,所述通过对每个属性投票得到最大值的方法得到最终目标行人属性识别结果,包括:
对于不同层次对第c个属性的预测值,采用投票得出最大值的方式得到最终预测结果,如下公式计算:
Figure BDA0002495557140000043
其中
Figure BDA0002495557140000044
代表第i卷积层次后对第c个属性的预测值,yc代表最终对第c个属性的最终预测值,
Figure BDA0002495557140000045
为不同层次的对第c个属性的预测值。
根据本发明第二方面,提供一种基于弱监督学习的行人属性识别系统,包括:
视觉特征提取模块,该模块提取输入的目标行人图像的目标行人不同层次的视觉特征;
隐空间属性定位模块,该模块将所述视觉特征提取模块得到的目标行人不同层次的视觉特征通过弱监督学习的方法在隐含属性空间学习隐含属性,同时获得隐含特征对应的空间约束,得到对应的隐含属性空间位置图;
局部属性注意力模块,该模块根据将所述视觉特征提取模块得到得目标行人不同层次的视觉特征和所述隐空间属性定位模块得到的隐含属性空间位置图,对目标行人的局部特征提取,得到目标行人不同层次的局部特征;
目标识别模块,该模块根据所述局部属性注意力模块的目标行人不同层次的局部特征,通过自注意力的方法对行人属性间关系进行建模,利用全局平均池化层和全连接层作为分类器,得到不同层次下对目标行人属性的预测值,再通过对每个属性投票得到最大值的方法得到最终目标行人属性识别结果。
根据本发明第三方面,提供一种基于弱监督学习的行人属性识别装置,包括:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述的基于弱监督学习的行人属性识别方法。
与现有技术相比,本发明实施例具有以下至少一种有益效果:
本发明上述的基于弱监督学习的行人属性识别方法、系统和装置,采用弱监督学习地方法在隐含属性空间学习,可以得到更优的空间约束;基于卷积神经网络将属性空间约束和属性间约束联合起来预测目标行人属性,提升了行人属性识别的性能。
本发明上述的基于弱监督学习的行人属性识别方法、系统和装置,利用自注意力的方法对局部特征间的关系进行建模,提升结果准确率。
本发明上述的基于弱监督学习的行人属性识别方法、系统和装置,在多个卷积层次提取的特征后分别对目标行人属性进行预测,最后投票得出最终预测结果,在多层次的行人属性问题上表现良好。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例的基于弱监督学习的行人属性识别方法原理示意图;
图2为本发明一实施例的基于弱监督学习的行人属性识别系统框图;
图3为本发明一实施例的在隐含空间学习属性位置图的原理示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
为了更好地说明本发明,本发明以下实施例基于卷积神经网络提取更具有分辨力的特征,采用了Inception-V3网络结构(参见:Szegedy C,Vanhoucke V,Ioffe S,etal.Rethinking the inception architecture for computer vision[C]//Proceedingsof the IEEE conference on computer vision and pattern recognition.2016:2818-2826.)络提取目标行人的多层次特征;并基于弱监督学习的方法在隐含空间学习空间位置关系;同时,通过自注意力的方法对特征间关系建模;最后,采用了不同层次卷积特征分别预测,然后投票融合的策略,提升了属性识别的准确率。
图1为本发明一实施例的基于弱监督学习的行人属性识别方法框架的原理示意图。参照图1所示,该实施例可以按照以下步骤进行:
S1,获取包含目标行人的图像I;根据目标行人图像I输入深度卷积神经网络即图1中的主体网络,通过多个卷积层(卷积层1、卷积层2、卷积层3),提取目标行人不同层次的视觉特征F1,F2,F3
S2,根据目标行人视觉特征F1,F2,F3,通过弱监督学习的方法在隐含属性空间学习隐含属性与行人结构间的空间约束关系,对目标行人的姿态结构进行初步的分析,得到隐含属性空间位置图L1,L2,L3
S3,根据目标行人视觉特征F1,F2,F3和隐含属性空间位置图L1,L2,L3,综合得到对目标行人的局部特征提取,得到目标行人的局部特征;
S4,根据不同卷积层次得到的目标行人局部特征,通过自注意力的方法对行人属性间关系进行建模,通过全局平均池化层和全连接层作为分类器,得到不同卷积层次下对目标行人属性的预测值y1,y2,y3
S5,根据不同卷积层次下得到的目标行人属性的预测值y1,y2,y3,通过对每个属性投票得到最大值的方法得到最终目标行人属性预测结果y。
本发明上述实施例通过基于Inception的卷积神经网络将空间约束和卷积神经网络提取出的特征结合起来获得较为精确的局部特征,利用属性空间约束和属性间约束联合起来预测目标行人属性,提升了行人属性识别的性能。
在另一实施例中,本发明还提供一种基于弱监督学习的行人属性识别系统,可以实现图1所示的基于弱监督学习的行人属性识别方法。该实施例中,系统包括:视觉特征提取模块、隐空间属性定位模块、局部属性注意力模块和目标识别模块,其中:视觉特征提取模块提取输入的目标行人图像的目标行人不同层次的视觉特征;隐空间属性定位模块将视觉特征提取模块得到的目标行人不同层次的视觉特征通过弱监督学习的方法在隐含属性空间学习隐含属性,同时获得隐含特征对应的空间约束,得到对应的隐含属性空间位置图;局部属性注意力模块根据将视觉特征提取模块得到得目标行人不同层次的视觉特征和隐空间属性定位模块得到的隐含属性空间位置图,对目标行人的局部特征提取,得到目标行人不同层次的局部特征;目标识别模块根据局部属性注意力模块的目标行人不同层次的局部特征,通过自注意力的方法对行人属性间关系进行建模,利用全局平均池化层和全连接层作为分类器,得到不同层次下对目标行人属性的预测值,再通过对每个属性投票得到最大值的方法得到最终目标行人属性识别结果。
本发明上述实施例中,隐空间属性定位模块、局部属性注意力模块构成约束模块,在不同层次上利用隐空间属性定位模块(LAL)对属性进行空间上的约束,利用局部属性注意力模块(LAA)进行属性间的关系约束,对输入的监控行人图像,利用卷积神经网络提取出不同层次的卷积特征图,对于每层的卷积特征图利用隐空间属性定位模块学习隐藏属性的空间特征,提取局部特征的位置图并提取出局部特征。在局部属性注意力模块中对局部属性之间的关系进行建模,通过自注意力的方法处理局部特征并预测目标特征。其中虚线部分为实际推断过程,最终结果由不同层次预测结果取较大概率进行投票预测。
图3为本发明一实施例的在隐含空间学习属性位置图的原理示意图。如图3所示,分别通过并联的卷积神经网络得到隐含属性特征图和隐含属性的存在推断图,通过点乘结合起来得到隐含属性推断,从而生成空间位置约束。
参照图1、3所示,在一优选实施例中,基于上述基于弱监督学习的行人属性识别方法、系统实现行人属性识别的过程可以包括:
S101、获取目标行人的图像I。
在本实施例中,目标行人图像为真实监控场景下经过裁剪,裁剪的仅包含目标行人的图像。
S102、将目标行人图像I通过Inception-V3网络,得到不同卷积层次下的目标行人视觉特征F1,F2,F3
S103、将目标行人视觉特征Fi输入隐空间属性定位模块(LAL),通过弱监督学习的方法在隐含属性空间学习隐含属性,对目标属性进行空间上的约束,得到不同卷积层次得到的目标行人局部特征,如图3所示。
本实施例中,将目标行人视觉特征Fi通过卷积网络得到特征Zi,卷积神经网络为堆叠的卷积核大小为1的网络,卷积核的个数等于隐含属性的个数N,属于手工设定的超参数。然后经过空间正则化获得隐含属性特征图ai,空间正则化按以下计算公式进行:
Figure BDA0002495557140000071
其中
Figure BDA0002495557140000072
为隐含属性特征图在像素坐标(c,h,w)处的值,
Figure BDA0002495557140000073
为特征Zi在像素坐标(c,h,w)处的值。
同时在另一分支上将目标行人视觉特征Fi通过另一路卷积网络,同样的卷积神经网络为堆叠的卷积核大小为1的网络,卷积核的个数等于隐含属性的个数N。然后通过Sigoid激活函数得到对隐含属性存在的推断图s,与隐含属性特征图a联合起来得到隐含属性空间位置图L,此分支可以在隐含属性不存在时消除错误的推断影响。空间位置图的计算按如下公式计算:
L=a·s
其中a是隐含属性特征图,s是隐含属性推断图。当隐含属性不存在时,隐含属性推断图中的值趋近于0。
将隐含属性空间位置图Li和目标行人视觉特征Fi结合起来得到目标行人经过空间约束后的局部特征
Figure BDA0002495557140000081
按如下公式计算:
Figure BDA0002495557140000082
其中(fn)init是提取到的局部特征,共有N个局部特征,为大小是N×d的向量。Ln是第n层的隐含属性空间位置图,F是目标行人视觉特征。
S104、将目标行人局部特征和隐含属性位置图Li输入局部注意力模块(LAA),对目标属性进行属性间关系的约束。
具体的,局部特征通过自注意力的方法对局部特征间关系进行建模。为了将不同的局部特征区分开,按如下公式叠加位置编码PE:
Figure BDA0002495557140000083
Figure BDA0002495557140000084
其中PEi(p)代表对位置p处进行位置编码时第i个元素的值,d代表位置编码的长度,是一个超参数。叠加位置编码PE后得到局部特征fn
对局部特征fn进行线性变换后通过施加权重描述局部特征间的关系,得到更新后的约束局部特征rn,按如下公式计算:
Figure BDA0002495557140000085
其中φW代表可学习线性变换,wmn代表第m个和第n个局部特征相互影响的可学习权重参数,其中wmn按如下公式计算:
Figure BDA0002495557140000086
其中φKQ代表可学习线性变换,fm,fn代表第m和第n个局部特征,dk代表局部特征维度。对(wmn)init进行归一化后得到局部特征间权重wmn
得到特征间权重wmn后通过加权求和的方式即可得到经过属性间关系约束后的局部特征rn:
Figure BDA0002495557140000087
S105、得到经过属性间关系约束后的局部特征(fn)new后,首先对于每个局部特征(fi)new经过全连接层进行降维,然后将局部特征拼接为一维特征,通过全连接层(输出维度记为待识别属性类别数)作为分类器,得到目标行人属性预测结果y。
对于每个层次预测出的目标行人属性预测结果y,都采用带权重的交叉熵损失函数进行计算,如下公式进行计算:
Figure BDA0002495557140000091
其中
Figure BDA0002495557140000092
代表对第c个目标属性的预测值,yc代表第c个目标属性的真实值,pc代表第c个属性在训练集中正样本的比例。通过权重Pc可以缓解属性数据集中正负样本不均衡的问题。
S106、对于不同层次的第c个属性的预测值,采用投票得出最大值的方式得到最终预测结果,如下公式计算:
Figure BDA0002495557140000093
其中
Figure BDA0002495557140000094
代表第i卷积层次后对第c个属性的预测值,yc代表最终对第c个属性的最终预测值。通过投票取得最大值的方式对最终属性进行预测,利用了卷积网络中不同卷积层可以提取不同层次特征的特点,对解决行人属性识别这类含有多层次标签的问题表现效果较好。
在另一实施例中,本发明还提供一种基于弱监督学习的行人属性识别装置,包括:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述基于弱监督学习的行人属性识别方法。
下面结合应用实例对本实施例进一步描述。
本应用实例采用的训练数据分别来自于RAP数据集和PETA数据集。其中RAP数据集包含了41585张目标行人图像,取33268张图像作为训练数据。PETA数据集包含了19000张目标行人图像,取9500张图像作为训练数据。
通过实验证明,本实施例方法能较好的对属性识别任务施加空间上的约束和属性间的关系约束,从而提升属性识别准确率。表1和表2为本实施例在不同数据集上的表现效果和不同模块的效果对比。
表1
Figure BDA0002495557140000095
Figure BDA0002495557140000101
表2
Figure BDA0002495557140000102
可以看出由本实施例得到的结果较大程度了提升了行人属性识别的性能。此外,本实施例采用单个网络端到端的训练方式,充分利用了图像级标签的标注,极大地降低了实际应用中的研究复杂度,提升了行人属性识别的性能。
需要说明的是,本发明提供的所述方法中的步骤,可以利用所述系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程,即,所述系统中的实施例可理解为实现所述方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (9)

1.一种基于弱监督学习的行人属性识别方法,其特征在于,包括:
获取目标行人图像,采用深度卷积神经网络提取目标行人不同层次的视觉特征;
将目标行人不同层次的视觉特征通过弱监督学习的方法在隐含属性空间学习隐含属性,同时获得隐含特征对应的空间约束,得到对应的隐含属性空间位置图;
根据目标行人不同层次的视觉特征和对应的隐含属性空间位置图,对目标行人的局部特征提取,得到目标行人不同层次的局部特征;
根据目标行人不同层次的局部特征,通过自注意力的方法对行人属性间关系进行建模,利用全连接层作为分类器,得到不同层次下对目标行人属性的预测值;
根据不同层次下对目标行人属性的预测值,通过对每个属性投票得到最大值的方法得到最终目标行人属性识别结果。
2.根据权利要求1所述的基于弱监督学习的行人属性识别方法,其特征在于,所述采用深度卷积神经网络提取目标行人不同层次的视觉特征,包括:
将目标行人图像通过Inception-V3网络,得到提取目标行人不同层次的视觉特征zi
3.根据权利要求1所述的基于弱监督学习的行人属性识别方法,其特征在于,所述将目标行人不同层次的视觉特征通过弱监督学习的方法在隐含属性空间学习隐含属性,同时获得隐含特征对应的空间约束,包括:
将目标行人不同层次的视觉特征通过卷积网络得到特征Z,经过空间正则化获得隐含属性特征图a,空间正则化按以下计算公式进行:
Figure FDA0002495557130000011
其中ac,h,w为隐含属性特征图在(c,h,w)处的值,zc,h,w为特征Z在(c,h,w)处的值。
将目标行人通过另一路卷积网络和Sigmoid激活函数得到对隐含属性存在的推断图s,与隐含属性特征图a联合起来得到隐含属性空间位置图L,按如下公式计算:
L=a·s
其中a是隐含属性特征图,s是隐含属性推断图,当隐含属性不存在时,隐含属性推断图中的值趋近于0。
4.根据权利要求1所述的基于弱监督学习的行人属性识别方法,其特征在于,所述根据目标行人不同层次的视觉特征和对应的隐含属性空间位置图,对目标行人的局部特征提取,包括:
将所述隐含属性空间位置图L和目标行人不同层次的视觉特征结合起来,得到目标行人经过空间约束后的局部特征(fn)init,按如下公式计算:
(fn)init=∑h,wLn·F
其中(fn)init是提取到目标行人经过空间约束后的局部特征,共有N个局部特征,即目标行人不同层次的局部特征;Ln是第n层的隐含属性空间位置图,F是目标行人视觉特征。
5.根据权利要求4所述的基于弱监督学习的行人属性识别方法,其特征在于,所述将目标行人不同层次的局部特征,通过自注意力的方法对行人属性间关系进行建模,其中:
为了将不同的目标行人局部特征分开,按如下公式叠加位置编码PE:
Figure FDA0002495557130000021
Figure FDA0002495557130000022
其中PEi(p)代表对位置p处进行位置编码时第i个元素的值,d代表位置编码的长度,是一个超参数;叠加位置编码PE后得到局部特征fn
对局部特征fn进行线性变换后通过施加权重描述局部特征间的关系,得到更新后的约束局部特征rn,按如下公式计算:
Figure FDA0002495557130000023
其中φW代表可学习线性变换,wmn代表第m个和第n个局部特征相互影响的可学习权重参数,其中wmn按如下公式计算:
Figure FDA0002495557130000024
其中φK,φQ代表可学习线性变换,fm,fn代表第m和第n个局部特征,dk代表局部特征维度;对(wmn)init进行归一化后得到局部特征间权重wmn
得到局部特征间权重wmn后通过加权求和的方式得到经过属性间关系约束后的约束局部特征rn:
Figure FDA0002495557130000025
6.根据权利要求5所述的基于弱监督学习的行人属性识别方法,其特征在于,所述利用全连接层作为分类器,得到不同层次下对目标行人属性的预测值,其中:
对于Inception-v3网络中不同inception-i运算后得到的卷积特征zi都参与了所有目标行人属性的预测过程,采用中继监督的方式进行训练,对于每个层次预测出的目标行人属性预测结果y,都采用带权重的交叉熵损失函数进行计算,如下公式进行计算:
Figure FDA0002495557130000031
其中
Figure FDA0002495557130000032
代表对第c个目标属性的预测值,yc代表第c个目标属性的真实值,pc代表第c个属性在训练集中正样本的比例,C代表待预测的行人属性类别数;Loss代表待优化的目标损失函数。
7.根据权利要求1所述的基于弱监督学习的行人属性识别方法,其特征在于,所述通过对每个属性投票得到最大值的方法得到最终目标行人属性识别结果,包括:
对于不同层次对第c个属性的预测值,采用投票得出最大值的方式得到最终预测结果,如下公式计算:
Figure FDA0002495557130000033
其中
Figure FDA0002495557130000034
代表第i卷积层次后对第c个属性的预测值,yc代表最终对第c个属性的最终预测值,
Figure FDA0002495557130000035
为不同层次的对第c个属性的预测值。
8.一种基于弱监督学习的行人属性识别系统,其特征在于,包括:
视觉特征提取模块,该模块提取输入的目标行人图像的目标行人不同层次的视觉特征;
隐空间属性定位模块,该模块将所述视觉特征提取模块得到的目标行人不同层次的视觉特征通过弱监督学习的方法在隐含属性空间学习隐含属性,同时获得隐含特征对应的空间约束,得到对应的隐含属性空间位置图;
局部属性注意力模块,该模块根据将所述视觉特征提取模块得到得目标行人不同层次的视觉特征和所述隐空间属性定位模块得到的隐含属性空间位置图,对目标行人的局部特征提取,得到目标行人不同层次的局部特征;
目标识别模块,该模块根据所述局部属性注意力模块的目标行人不同层次的局部特征,通过自注意力的方法对行人属性间关系进行建模,利用全局平均池化层和全连接层作为分类器,得到不同层次下对目标行人属性的预测值,再通过对每个属性投票得到最大值的方法得到最终目标行人属性识别结果。
9.一种基于弱监督学习的行人属性识别装置,包括:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-7任一所述的方法。
CN202010417405.0A 2020-05-18 2020-05-18 基于弱监督学习的行人属性识别方法、系统及装置 Active CN111738074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010417405.0A CN111738074B (zh) 2020-05-18 2020-05-18 基于弱监督学习的行人属性识别方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010417405.0A CN111738074B (zh) 2020-05-18 2020-05-18 基于弱监督学习的行人属性识别方法、系统及装置

Publications (2)

Publication Number Publication Date
CN111738074A true CN111738074A (zh) 2020-10-02
CN111738074B CN111738074B (zh) 2023-07-25

Family

ID=72647305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010417405.0A Active CN111738074B (zh) 2020-05-18 2020-05-18 基于弱监督学习的行人属性识别方法、系统及装置

Country Status (1)

Country Link
CN (1) CN111738074B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906680A (zh) * 2021-05-08 2021-06-04 深圳市安软科技股份有限公司 一种行人属性识别方法、装置及电子设备
CN114092525A (zh) * 2022-01-20 2022-02-25 深圳爱莫科技有限公司 一种基于空间分布投票的客流属性分析方法及系统
WO2023082196A1 (zh) * 2021-11-12 2023-05-19 京东方科技集团股份有限公司 行人属性识别系统及其训练方法、行人属性识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170200065A1 (en) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Image Captioning with Weak Supervision
WO2017207138A1 (en) * 2016-05-31 2017-12-07 Siemens Healthcare Gmbh Method of training a deep neural network
US20180060652A1 (en) * 2016-08-31 2018-03-01 Siemens Healthcare Gmbh Unsupervised Deep Representation Learning for Fine-grained Body Part Recognition
US20180268222A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Action recognition system for action recognition in unlabeled videos with domain adversarial learning and knowledge distillation
CN108629367A (zh) * 2018-03-22 2018-10-09 中山大学 一种基于深度网络增强服装属性识别精度的方法
CN108764292A (zh) * 2018-04-27 2018-11-06 北京大学 基于弱监督信息的深度学习图像目标映射及定位方法
CN110349148A (zh) * 2019-07-11 2019-10-18 电子科技大学 一种基于弱监督学习的图像目标检测方法
CN111104973A (zh) * 2019-12-06 2020-05-05 天津大学 一种基于知识注意力的细粒度图像分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170200065A1 (en) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Image Captioning with Weak Supervision
WO2017207138A1 (en) * 2016-05-31 2017-12-07 Siemens Healthcare Gmbh Method of training a deep neural network
US20180060652A1 (en) * 2016-08-31 2018-03-01 Siemens Healthcare Gmbh Unsupervised Deep Representation Learning for Fine-grained Body Part Recognition
US20180268222A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Action recognition system for action recognition in unlabeled videos with domain adversarial learning and knowledge distillation
CN108629367A (zh) * 2018-03-22 2018-10-09 中山大学 一种基于深度网络增强服装属性识别精度的方法
CN108764292A (zh) * 2018-04-27 2018-11-06 北京大学 基于弱监督信息的深度学习图像目标映射及定位方法
CN110349148A (zh) * 2019-07-11 2019-10-18 电子科技大学 一种基于弱监督学习的图像目标检测方法
CN111104973A (zh) * 2019-12-06 2020-05-05 天津大学 一种基于知识注意力的细粒度图像分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HUA-RUI YAN ET AL.: "Multi-Level Based Pedestrian Attribute Recognition", 《 2019 16TH INTERNATIONAL COMPUTER CONFERENCE ON WAVELET ACTIVE MEDIA TECHNOLOGY AND INFORMATION PROCESSING》 *
TRONGMUN JIRALERSPONG: "Pedestrian Classification Using Self-Training Algorithm", 《2019 IEEE INTELLIGENT TRANSPORTATION SYSTEMS CONFERENCE (ITSC)》 *
万萌等: "基于无监督特征选择和卷积神经网络的图像识别算法", 《赤峰学院学报(自然科学版)》, no. 10 *
王兴柱 等: "三元组在非监督行人再识别中的应用", 《仪表技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906680A (zh) * 2021-05-08 2021-06-04 深圳市安软科技股份有限公司 一种行人属性识别方法、装置及电子设备
WO2023082196A1 (zh) * 2021-11-12 2023-05-19 京东方科技集团股份有限公司 行人属性识别系统及其训练方法、行人属性识别方法
CN114092525A (zh) * 2022-01-20 2022-02-25 深圳爱莫科技有限公司 一种基于空间分布投票的客流属性分析方法及系统

Also Published As

Publication number Publication date
CN111738074B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
Liang et al. An unsupervised learning method with convolutional auto-encoder for vessel trajectory similarity computation
Chen et al. Attention-based context aggregation network for monocular depth estimation
Ondruska et al. End-to-end tracking and semantic segmentation using recurrent neural networks
Aljundi et al. Expert gate: Lifelong learning with a network of experts
Li et al. Deep neural network for structural prediction and lane detection in traffic scene
Wang et al. Deep learning algorithms with applications to video analytics for a smart city: A survey
US20200074227A1 (en) Neural network-based action detection
Francies et al. A robust multiclass 3D object recognition based on modern YOLO deep learning algorithms
CN111291809B (zh) 一种处理装置、方法及存储介质
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN111738074A (zh) 基于弱监督学习的行人属性识别方法、系统及装置
CN110222718B (zh) 图像处理的方法及装置
CN112200266B (zh) 基于图结构数据的网络训练方法、装置以及节点分类方法
Yao et al. Unsupervised transfer learning for spatiotemporal predictive networks
Chiu et al. A novel directional object detection method for piled objects using a hybrid region-based convolutional neural network
CN111428664A (zh) 一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN114821014A (zh) 基于多模态与对抗学习的多任务目标检测识别方法及装置
CN116704431A (zh) 水污染的在线监测系统及其方法
CN115375781A (zh) 一种数据处理方法及其装置
Shen et al. Spatial imagination with semantic cognition for mobile robots
Hoque et al. Deep learning for 6D pose estimation of objects—A case study for autonomous driving
Ouadiay et al. Simultaneous object detection and localization using convolutional neural networks
CN113762331A (zh) 关系型自蒸馏方法、装置和系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant