CN113221757B - 一种改善行人属性识别准确率的方法、终端及介质 - Google Patents

一种改善行人属性识别准确率的方法、终端及介质 Download PDF

Info

Publication number
CN113221757B
CN113221757B CN202110528788.3A CN202110528788A CN113221757B CN 113221757 B CN113221757 B CN 113221757B CN 202110528788 A CN202110528788 A CN 202110528788A CN 113221757 B CN113221757 B CN 113221757B
Authority
CN
China
Prior art keywords
image
pedestrian
mask
generator
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110528788.3A
Other languages
English (en)
Other versions
CN113221757A (zh
Inventor
杨华
孙铭君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202110528788.3A priority Critical patent/CN113221757B/zh
Publication of CN113221757A publication Critical patent/CN113221757A/zh
Application granted granted Critical
Publication of CN113221757B publication Critical patent/CN113221757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种改善行人属性识别准确率的方法、终端及介质,方法包括:利用卷积神经网络提取行人特征,进行区域提取;对于前景区域掩膜保留图像前景区域,通过生成器重建图像背景;对于背景区域掩膜保留图像背景区域,通过生成器重建图像前景;通过判别器判断重建图像的真伪,实现对抗学习;训练得到区域提取网络后可以作为前处理网络与属性识别网络进行连接,辅助行人属性识别过程。本发明通过基于生成对抗学习的方式训练了行人区域掩膜提取网络,可以辅助行人属性识别过程,提升了行人属性识别的性能。

Description

一种改善行人属性识别准确率的方法、终端及介质
技术领域
本发明涉及计算机视觉技术领域,具体地,涉及一种改善行人属性识别准确率的方法、终端及介质,可以辅助改善行人属性识别效果。
背景技术
在基于深度学习的行人属性识别方法中,可以通过在网络中提供不同的约束条件改善行人属性识别性能。这些在网络中提供的各种先验约束的方法可以看作通过提升对行人内部不同特征间关系的学习,从而提升对目标特征的处理效果。实际监控中的输入图像中不仅包括行人信息,也包含有一些监控背景信息。同时,正常的掩膜提取网络在训练时需要提供较为复杂的像素级别的标注。
发明内容
本发明的目的在于克服现有技术的不足之处,提出了一种通过弱监督提取行人掩膜来改善行人属性识别准确率的方法。
本发明第一方面,提供一种改善行人属性识别准确率的方法,包括:
获取包含目标行人的图像I;
采用行人区域掩膜提取网络F,提取所述图像I中目标行人区域掩膜即前景区域掩膜T和背景区域掩膜B,其中,所述目标行人区域掩膜T和背景区域掩膜B互补,即T+B=1;
对于前景区域掩膜T保留图像前景区域,通过第一生成器G1重建图像背景;对于背景区域掩膜B保留图像背景区域,通过第二生成器G2重建图像前景;所述第一生成器G1、所述第二生成器G2具有相同的网络结构;
采用判别器D判断重建图像的真伪。
本发明通过先提取掩膜改善识别效果,同时,降低了标注工作量,减少监控背景噪声对属性识别过程的干扰,提升属性识别的效果,
可选地,所述采用行人区域掩膜提取网络F,提取所述图像I中目标行人区域掩膜即前景区域掩膜T和背景区域掩膜B,包括:
将图像I输入行人区域掩膜提取网络F:首先通过卷积网络得到特征f∈Rw×h×c,其中w,h,c分别指代特征f的宽带,高度和通道数。然后所述特征f通过不同大小的池化模块,池化为大小为w/2×h/2×c,w/3×h/3×c,w/6×h/6×c的特征,经过参数为3×3的卷积对特征进行进一步提取得到特征fc,然后对特征fc进行上采样操作后和原有特征f进行拼接操作获得新的分割特征。将分割特征通过卷积网络可以获得通道数为1的目标行人区域掩膜即前景区域掩膜T,同时可以间接获得背景区域掩膜B=1-T。
可选地,所述对于前景区域掩膜T保留图像前景区域,通过第一生成器G1重建图像背景,包括:
采用所述第一生成器G1对背景进行补全生成,基于自注意力的方式,对每个位置像素和其它位置进行关系建模,与原有区域叠加后得到重建图像Igen1
可选地,所述对于背景区域掩膜B保留图像背景区域,通过第二生成器G2重建图像前景,包括:
采用所述第二生成器G2对行人区域进行补全生成,基于自注意力的方式,对每个位置像素和其它位置进行关系建模,与原有区域叠加后得到重建图像Igen2
可选地,所述第一生成器G1、所述第二生成器G2根据掩膜覆盖区域的部分图像信息,计算还原出合理的全局图像,其中:
所述第一生成器G1的输入信息为T⊙I,生成背景信息为V1,最终重建图像Igen1=T⊙I+B⊙V1;
所述第二生成器G2的输入信息为B⊙I,生成前景信息为V2,最终重建图像Igen2=B⊙I+T⊙V2。
可选地,所述采用判别器D判断重建图像的真伪,其中:
在训练过程中为了对生成图像进行约束,判别器D训练采用图像真伪作为损失函数,所述第一生成器G1、所述第二生成器G2训练除了图像真伪作为损失函数外,同时采用了信息重建约束和属性保留约束作为生成过程的损失函数。
可选地,使用所述判别器D判定生成图像的真伪,整体优化目标是:
Figure GDA0003707275060000021
其中:
Figure GDA0003707275060000031
为在生成对抗过程中整体的优化目标;
E为对函数的期望,可以认为是对数据分布的估计;
D(I)为判别器对真实图像真实性的判别结果;I为真实图像;
G(I,z)为生成器根据真实图像和随机向量生成的图像;z为输入的随机向量;
D(G(I,z))为判别器对生成图像真实性的判别结果;
所述采用了信息重建约束和属性保留约束作为生成过程的损失函数为:
Lrec=||R(Igen)-z||2
其中:
R(Igen)为根据生成图像Igen恢复出的信息向量;z为输入的随机向量。
可选地,上述方法还包括:对行人区域提取到的特征进行单独的约束,以区分提取得到的目标行人区域掩膜即前景区域掩膜T和背景区域掩膜B;其中:
提取到的行人区域应该能够通过分类器得到预先标定的行人属性y=y1,y2,y3…,约束可以保证提取到的区域大于行人区域,同样的为了保证不提取到整张行人图像,避免T=1,同时对像素进行了L1正则化约束,将网络的属性输出记作
Figure GDA0003707275060000032
此时损失函数为交叉熵损失函数:
Figure GDA0003707275060000033
公式中yc代表对第c类属性的标注,
Figure GDA0003707275060000034
代表对第c类属性的预测结果,||T||1代表对行人掩膜的L1正则化约束。
因此对于生成器G1和G2的整体损失函数为
LG=α1Lgen2Lrec3Latt
其中α123为可调节的超参数,Lgen为图像真伪损失约束,Lrec为信息重建损失约束,Latt为属性保留损失约束,具体计算均在上文提及。
基于生成对抗学习的方式对整体网络进行训练,整体网络包括掩膜提取网络F,生成器G1,G2和判别器D。可以通过交替优化网络中的生成器和判别器起到平衡网络的作用。具体的,生成器G1,G2与判别器D交替优化的过程:在图像生成阶段针对原图和图像掩膜,对背景区域和行人区域分别进行图像重建,目标是欺骗判别器;在图像判别阶段,判别器对真实图像和生成图像进行判别,目标是鉴别出生成图像;通过交替优化提升网络性能。
本发明第二方面,提供一种电子终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行所述的改善行人属性识别准确率的方法。
本发明第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行所述的改善行人属性识别准确率的方法。
与现有技术相比,本发明具有如下的有益效果:
本发明上述改善行人属性识别准确率的方法,利用属性标签可以完成行人区域掩膜提取过程,对标注的要求较低。进一步的,为了减少标注工作量,仅利用已提供的属性标签作为监督信息训练掩膜提取网络,在实现方法上主要利用了生成对抗网络的方法,通过对抗式的生成仅需要图像级别的标签实现了对目标掩膜的提取。同时对行人属性识别问题施加空间约束和属性间关系约束。
本发明上述改善行人属性识别准确率的方法,通过对行人区域掩膜的提取,从而减少监控背景噪声对属性识别过程的干扰,辅助提升行人属性识别的准确率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中行人区域掩膜提取网络F的具体网络结构;
图2为本发明一实施例中生成器中自注意力网络的具体结构;
图3为本发明一优选实施例的方法流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明实施例提供一种通过弱监督提取行人掩膜来改善行人属性识别准确率的方法,包括如下步骤:
S1,获取包含目标行人的图像I;
S2,采用行人区域掩膜提取网络F,提取所述图像I中目标行人区域掩膜即前景区域掩膜T和背景区域掩膜B,其中,所述目标行人区域掩膜T和背景区域掩膜B互补,即T+B=1;
S3,对于前景区域掩膜T保留图像前景区域,通过第一生成器G1重建图像背景;对于背景区域掩膜B保留图像背景区域,通过第二生成器G2重建图像前景;所述第一生成器G1、所述第二生成器G2具有相同的网络结构;
S4,采用判别器D判断重建图像的真伪。
本发明实施例利用属性标签可以完成行人区域掩膜提取过程,对标注的要求较低。仅利用已提供的属性标签作为监督信息训练掩膜提取网络,通过对抗式的生成仅需要图像级别的标签实现了对目标掩膜的提取,可以辅助提升行人属性识别效果。
图1为本发明实施例提供的行人区域掩膜提取网络F的具体网络结构,如图1所示,首先利用了不同的池化方式来获得不同的感受野,从而实现不同层次特征的聚合,同时利用了残差连接的结构,可以保留细节的信息,同时更有利于梯度的反向传播。
图2为本发明实施例提供的生成器G中自注意力网络的具体结构,利用矩阵乘法实现不同像素间信息的交互,从而生成注意力图,然后通过点乘的方式实现空间上的注意力机制。这种方式通过增加计算量实现了更好的全局信息融合,提高了生成器的生成性能。
图3为本发明一优选实施例的方法流程图。参照图3所示,本实施例提供的基于弱监督的行人属性识别方法,具体步骤包括:
S101、获取包含目标行人的图像I;
在本实施例中,目标行人图像为真实监控场景下经过裁剪,裁剪的仅包含目标行人的图像。
S102、根据目标行人图像I输入区域提取网络F,提取目标行人区域掩膜即前景区域掩膜T∈{0,1}W×H和背景区域掩膜B∈{0,1}W×H,其中W,H分别代表掩膜T的宽带和高度,可以认为行人区域掩膜即前景区域掩膜T和背景区域掩膜B是互补的,即T+B=1;
具体的将图像I输入行人区域掩膜提取网络F,首先通过卷积网络得到特征f∈Rw ×h×c,其中w,h,c分别指代特征f的宽带,高度和通道数。然后所述特征f通过不同大小的池化模块,池化为大小为w/2×h/2×c,w/3×h/3×c,w/6×h/6×c的特征,经过参数为3×3的卷积对特征进行进一步提取得到特征fc,然后对特征fc进行上采样操作后和原有特征f进行拼接操作获得新的分割特征。将分割特征通过卷积网络可以获得通道数为1的目标行人区域掩膜即前景区域掩膜T,同时可以间接获得背景区域掩膜B=1-T。
S103、得到前景区域掩膜T和背景区域掩膜B后通过生成器G1,G2对图像进行补全生成,生成器G1,G2具有相同的网络结构,主要参照自注意力的方式,对每个位置像素和其它位置进行了关系建模,与原有区域叠加后可以得到重建图像,其中生成器G1对背景进行补全得到生成图像Igen1,生成器G2对行人区域进行补全得到生成图像Igen2
生成器G1,G2能够根据掩膜覆盖区域的部分图像信息,计算还原出合理的全局图像,生成器G1的输入信息为T⊙I,生成背景信息为V1,最终重建图像Igen1=T⊙I+B⊙V1;生成器G2的输入信息为B⊙I,生成前景信息为V2,最终重建图像Igen2=B⊙I+T⊙V2。
S104、在训练过程中为了对生成图像进行约束,判别器D训练采用图像真伪作为损失函数,生成器G的训练出了图像真伪作为损失函数外,同时采用了信息重建约束和属性保留约束作为生成过程的损失函数。具体的损失函数包括:
对于生成图像Igen1,Igen2应当尽量趋近于真实图像,因此使用判别器D判定生成图像的真伪,整体优化目标是:
Figure GDA0003707275060000061
其中:
Figure GDA0003707275060000062
为在生成对抗过程中整体的优化目标;
E为对函数的期望,可以认为是对数据分布的估计;
D(I)为判别器对真实图像真实性的判别结果;I为真实图像;
G(I,z)为生成器根据真实图像和随机向量生成的图像;z为输入的随机向量;
D(G(I,z))为判别器对生成图像真实性的判别结果;
为了避免区域提取器产生严重的偏移倾向(提取目标区域T=0),对生成器提供隐含的特征向量z,希望在重建图像中通过信息回复模块R可以恢复出这种特征z,通过重建损失来促进网络保留更多的输入信息,强迫网络进行信息替换。此时增加损失函数约束:
Lrec=||R(Igen)-z||2
其中:
R(Lgen)为根据生成图像Igen恢复出的信息向量;z为输入的随机向量。为了区分提取得到的前景区域掩膜T和背景区域掩膜B,我们对行人区域提取到的特征施加了单独的约束。首先提取到的行人区域应该能够通过分类器得到预先标定的行人属性y=y1,y2,y3…,约束可以保证提取到的区域大于行人区域,同样的为了保证不提取到整张行人图像,避免T=1,同时对像素进行了L1正则化约束,将网络的属性输出记作
Figure GDA0003707275060000071
此时损失函数为交叉熵损失函数,
Figure GDA0003707275060000072
公式中yc代表对第c类属性的标注,
Figure GDA0003707275060000073
代表对第c类属性的预测结果,||T||1代表对行人掩膜的L1正则化约束。
因此对于生成器G1和G2的整体损失函数为
LG=α1Lgen+m2Lrec+m3Latt
其中α123为可调节的超参数,确定范围一般可以通过将对应约束缩放至同一数量级后进行网格搜索得到,不同场景下的图像需要进一步调整。Lgen为图像真伪损失约束,Lrec为信息重建损失约束,Latt为属性保留损失约束,具体计算均在上文提及。
整体优化目标确定后,具体的可以通过生成器与判别器交替优化实现。在本步骤中优化生成器G1,G2和掩膜提取网络F,保持网络的其它部分固定。在此阶段针对原图和图像掩膜,对背景区域和行人区域分别进行图像重建,目标是欺骗判别器。
S105、优化判别器D,保持网络的其它部分固定。在此阶段针对原图和图像掩膜,对背景区域和行人区域分别进行图像重建,目标是欺骗判别器。通过验证数据判断整体网络优化情况,如尚未收敛跳转至步骤S104,如已经收敛则进行步骤S106。
S106、整体网络训练收敛后得到区域提取网络后可以作为前处理网络与属性识别网络进行连接,辅助行人属性识别过程.具体的可以将行人区域掩膜T与输入图像I进行拼接后输入行人属性识别网络,从而辅助提升属性识别效果。
在另一实施例中,本发明还提供一种电子终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可用于执行上述任一项实施例的改善行人属性识别准确率的方法。
在另一实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行上述任一项实施例的改善行人属性识别准确率的方法。
本实施例采用的训练数据分别来自于RAP数据集和PETA数据集。其中RAP数据集包含了41585张目标行人图像,取33268张图像作为训练数据。PETA数据集包含了19000张目标行人图像,取9500张图像作为训练数据。
通过实验证明,本实施例方法能通过提取行人区域掩膜的方法辅助改善行人属性识别效果,从而提升属性识别准确率。表1和表2为本实施例在不同数据集上的表现效果和不同损失函数的效果对比。
表1
Figure GDA0003707275060000081
表2
Figure GDA0003707275060000082
可以看出由本实施例得到的结果较大程度了提升了行人属性识别的性能。此外,本实施例在训练过程中仅使用了图像级别的属性标注完成了训练,所需要的标注量较少。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (9)

1.一种改善行人属性识别准确率的方法,其特征在于,包括:
获取包含目标行人的图像I;
采用行人区域掩膜提取网络F,提取所述图像I中目标行人区域掩膜即前景区域掩膜T和背景区域掩膜B,其中,所述目标行人区域掩膜T和背景区域掩膜B互补,即T+B=1;
对于前景区域掩膜T保留图像前景区域,通过第一生成器G1重建图像背景;对于背景区域掩膜B保留图像背景区域,通过第二生成器G2重建图像前景;所述第一生成器G1、所述第二生成器G2具有相同的网络结构;
采用判别器D判断重建图像的真伪;
所述对于前景区域掩膜T保留图像前景区域,通过第一生成器G1重建图像背景,包括:
采用所述第一生成器G1对背景进行补全生成,基于自注意力的方式,对每个位置像素和其它位置进行关系建模,与原有区域叠加后得到重建图像Igen1
所述对于背景区域掩膜B保留图像背景区域,通过第二生成器G2重建图像前景,包括:
采用所述第二生成器G2对行人区域进行补全生成,基于自注意力的方式,对每个位置像素和其它位置进行关系建模,与原有区域叠加后得到重建图像Igen2
2.根据权利要求1所述的改善行人属性识别准确率的方法,其特征在于,所述采用行人区域掩膜提取网络F,提取所述图像I中目标行人区域掩膜即前景区域掩膜T和背景区域掩膜B,包括:
将图像I输入行人区域掩膜提取网络F:
首先通过行人区域掩膜提取网络F中的卷积网络得到特征f∈Rw×h×c,其中w,h,c分别指代特征f的宽带,高度和通道数;
然后所述特征f通过不同大小的池化模块,池化为大小为w/2×h/2×c,w/3×h/3×c,w/6×h/6×c的特征,经过参数为3×3的卷积对特征进行进一步提取得到特征fc,然后对特征fc进行上采样操作后和原有特征f进行拼接操作,获得新的分割特征;
将所述分割特征通过卷积网络获得通道数为1的目标行人区域掩膜即前景区域掩膜T,同时间接获得背景区域掩膜B=1-T。
3.根据权利要求1所述的改善行人属性识别准确率的方法,其特征在于,所述第一生成器G1、所述第二生成器G2根据掩膜覆盖区域的部分图像信息,计算还原出合理的全局图像,其中:
所述第一生成器G1的输入信息为T⊙I,生成背景信息为V1,最终重建图像Igen1=T⊙I+B⊙V1;
所述第二生成器G2的输入信息为B⊙I,生成前景信息为V2,最终重建图像Igen2=B⊙I+T⊙V2。
4.根据权利要求1所述的改善行人属性识别准确率的方法,其特征在于,所述采用判别器D判断重建图像的真伪,其中:
在训练过程中为了对生成图像进行约束,判别器D训练采用图像真伪作为损失函数,所述第一生成器G1、所述第二生成器G2训练除了图像真伪作为损失函数外,同时采用了信息重建约束和属性保留约束作为生成过程的损失函数。
5.根据权利要求4所述的改善行人属性识别准确率的方法,其特征在于,使用所述判别器D判定生成图像的真伪,整体优化目标是:
Figure FDA0003752866400000021
其中:
Figure FDA0003752866400000022
为在生成对抗过程中整体的优化目标;
E为对函数的期望,可以认为是对数据分布的估计;
D(I)为判别器对真实图像真实性的判别结果;I为真实图像;
G(I,z)为生成器根据真实图像和随机向量生成的图像;z为输入的随机向量;
D(G(I,z))为判别器对生成图像真实性的判别结果;
所述生成过程的损失函数采用了信息重建约束和属性保留约束,其中信息重建损失约束函数为:
Lrec=||R(Igen)-z||2
其中:Lrec为信息重建损失约束;R(Igen)为根据生成图像Igen恢复出的信息向量;z为输入的随机向量。
6.根据权利要求5所述的改善行人属性识别准确率的方法,其特征在于,还包括:对行人区域提取到的特征进行单独的约束,以区分提取得到的目标行人区域掩膜即前景区域掩膜T和背景区域掩膜B;其中:
提取到的行人区域应该能够通过分类器得到预先标定的行人属性y=y1,y2,y3…,约束可以保证提取到的区域大于行人区域,同样的,为了保证不提取到整张行人图像,避免T=1,同时对像素进行了L1正则化约束,将网络的属性输出记作
Figure FDA0003752866400000031
此时损失函数为交叉熵损失函数:
Figure FDA0003752866400000032
公式中yc代表对第c类属性的标注,
Figure FDA0003752866400000033
代表对第c类属性的预测结果,||T||1代表对行人掩膜的L1正则化约束;
因此对于生成器G1和G2的整体损失函数为
LG=α1Lgen2Lrec3Latt
其中α123为可调节的超参数,Lgen为图像真伪损失约束,Lrec为信息重建损失约束,Latt为属性保留损失约束。
7.根据权利要求1所述的改善行人属性识别准确率的方法,其特征在于,基于生成对抗学习的方式对整体网络进行训练,所述整体网络包括所述掩膜提取网络F、所述第一生成器G1、所述第二生成器G2和所述判别器D,通过交替优化网络中的所述第一生成器G1、所述第二生成器G2和所述判别器D起到平衡网络的作用。
8.一种电子终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-7任一所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时用于执行权利要求1-7任一所述的方法。
CN202110528788.3A 2021-05-14 2021-05-14 一种改善行人属性识别准确率的方法、终端及介质 Active CN113221757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110528788.3A CN113221757B (zh) 2021-05-14 2021-05-14 一种改善行人属性识别准确率的方法、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110528788.3A CN113221757B (zh) 2021-05-14 2021-05-14 一种改善行人属性识别准确率的方法、终端及介质

Publications (2)

Publication Number Publication Date
CN113221757A CN113221757A (zh) 2021-08-06
CN113221757B true CN113221757B (zh) 2022-09-02

Family

ID=77092043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110528788.3A Active CN113221757B (zh) 2021-05-14 2021-05-14 一种改善行人属性识别准确率的方法、终端及介质

Country Status (1)

Country Link
CN (1) CN113221757B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036658A (zh) * 2022-04-29 2023-11-10 华为技术有限公司 一种图像处理方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978165A (zh) * 2019-04-04 2019-07-05 重庆大学 一种融合自注意力机制的生成对抗网络方法
CN110288537A (zh) * 2019-05-20 2019-09-27 湖南大学 基于自注意力的深度生成式对抗网络的人脸图像补全方法
CN112184582A (zh) * 2020-09-28 2021-01-05 中科人工智能创新技术研究院(青岛)有限公司 一种基于注意力机制的图像补全方法及装置
CN112686816A (zh) * 2020-12-25 2021-04-20 天津中科智能识别产业技术研究院有限公司 一种基于内容注意力机制和掩码先验的图像补全方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256439A (zh) * 2017-12-26 2018-07-06 北京大学 一种基于循环生成式对抗网络的行人图像生成方法及系统
US10719742B2 (en) * 2018-02-15 2020-07-21 Adobe Inc. Image composites using a generative adversarial neural network
US10860836B1 (en) * 2018-11-15 2020-12-08 Amazon Technologies, Inc. Generation of synthetic image data for computer vision models
CN109951654B (zh) * 2019-03-06 2022-02-15 腾讯科技(深圳)有限公司 一种视频合成的方法、模型训练的方法以及相关装置
CN110188835B (zh) * 2019-06-05 2021-03-16 国家广播电视总局广播电视科学研究院 基于生成式对抗网络模型的数据增强行人再识别方法
CN112200055B (zh) * 2020-09-30 2024-04-30 深圳市信义科技有限公司 联合对抗生成网络的行人属性识别方法、系统及装置
CN112508991B (zh) * 2020-11-23 2022-05-10 电子科技大学 一种前后景分离的熊猫照片卡通化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978165A (zh) * 2019-04-04 2019-07-05 重庆大学 一种融合自注意力机制的生成对抗网络方法
CN110288537A (zh) * 2019-05-20 2019-09-27 湖南大学 基于自注意力的深度生成式对抗网络的人脸图像补全方法
CN112184582A (zh) * 2020-09-28 2021-01-05 中科人工智能创新技术研究院(青岛)有限公司 一种基于注意力机制的图像补全方法及装置
CN112686816A (zh) * 2020-12-25 2021-04-20 天津中科智能识别产业技术研究院有限公司 一种基于内容注意力机制和掩码先验的图像补全方法

Also Published As

Publication number Publication date
CN113221757A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
Li et al. Bidirectional learning for domain adaptation of semantic segmentation
Uhrig et al. Sparsity invariant cnns
Hayder et al. Boundary-aware instance segmentation
CN111723813B (zh) 基于类内判别器的弱监督图像语义分割方法、系统、装置
Noh et al. Learning deconvolution network for semantic segmentation
CN109948796B (zh) 自编码器学习方法、装置、计算机设备及存储介质
CN113657560B (zh) 基于节点分类的弱监督图像语义分割方法及系统
Du et al. Fused deep neural networks for efficient pedestrian detection
CN106599836A (zh) 多人脸跟踪方法及跟踪系统
CN102663400B (zh) 一种结合预处理的lbp特征提取方法
US9443137B2 (en) Apparatus and method for detecting body parts
Wiranata et al. Investigation of padding schemes for faster R-CNN on vehicle detection
US11798171B2 (en) Weakly supervised semantic segmentation device and method based on pseudo-masks
US20220237896A1 (en) Method for training a model to be used for processing images by generating feature maps
KR20220056707A (ko) 얼굴의 정렬 형태에 강인한 얼굴 인식 방법 및 그 장치
Kim et al. The devil is in the points: Weakly semi-supervised instance segmentation via point-guided mask representation
Douillard et al. Tackling catastrophic forgetting and background shift in continual semantic segmentation
CN113221757B (zh) 一种改善行人属性识别准确率的方法、终端及介质
CN112200186A (zh) 基于改进yolo_v3模型的车标识别方法
US20200184285A1 (en) System and method for label augmentation in video data
Guo et al. Adaptive multi-path aggregation for human densepose estimation in the wild
Xie et al. pmbqa: Projection-based blind point cloud quality assessment via multimodal learning
Zhang et al. Mutual dual-task generator with adaptive attention fusion for image inpainting
Khazaee et al. An accurate real-time license plate detection method based on deep learning approaches
JP2021076926A (ja) 解析装置、解析プログラム及び解析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant