CN112883880B - 基于人体结构多尺度分割的行人属性识别方法、存储介质和终端 - Google Patents

基于人体结构多尺度分割的行人属性识别方法、存储介质和终端 Download PDF

Info

Publication number
CN112883880B
CN112883880B CN202110211944.3A CN202110211944A CN112883880B CN 112883880 B CN112883880 B CN 112883880B CN 202110211944 A CN202110211944 A CN 202110211944A CN 112883880 B CN112883880 B CN 112883880B
Authority
CN
China
Prior art keywords
human body
pedestrian
feature
layer
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110211944.3A
Other languages
English (en)
Other versions
CN112883880A (zh
Inventor
匡平
付蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110211944.3A priority Critical patent/CN112883880B/zh
Publication of CN112883880A publication Critical patent/CN112883880A/zh
Application granted granted Critical
Publication of CN112883880B publication Critical patent/CN112883880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于人体结构多尺度分割的行人属性识别方法、存储介质和终端,方法包括以下步骤:得到输入的行人图像;获取行人图像的细节关键点和抽象人体区域;对行人图像的特征进行逐层提取;将提取的细节关键点与浅层特征进行结合,并将提取的抽象人体区域与深层特征进行结合,将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量;将多个预测向量进行融合,得到最终预测结果。本发明由于网络的深浅‑人体结构的粗细划分‑属性的高低级之间存在着对应的关系,因此在更浅的特征层上对更细的行人局部做特征学习,在更高的特征层上对划分更粗的行人局部进行特征学习,利用身体结构去指导行人属性识别,从而得到强大的行人属性表示。

Description

基于人体结构多尺度分割的行人属性识别方法、存储介质和 终端
技术领域
本发明涉及行人属性识别领域,尤其涉及基于人体结构多尺度分割的行人属性识别方法、存储介质和终端。
背景技术
行人属性识别(Pedestrian Attribute Recognition,PAR)从本质上而言,是属于目标检测范畴,即从图像或视频序列中提取描述场景中个体的人类可理解特征的语义特征。由于它们提供了关于人类的重要信息,这些系统已经被集成到许多现实世界的应用中,并与世界各地的许多技术相结合。
由于不同的行人属性往往对应人体不同的位置,导致对应的特征提取比困难。例如发型和颜色,帽子等属性被看作是特定的低级属性,往往对应于图像的不同小区域;而一些属性是抽象的概念,如性别、取向和年龄,它们不对应于某些区域,这些属性被认为是高级属性。为了解决上述问题,现有的方法一部分倾向与寻找人体局部与属性之间的关联,这便导致PAR的准确率往往和人体部件分割的准确性有着较大关联。还有一部分倾向于寻找不同的语义层次与不同属性之间的关联,但很难找到一个更准确具体的描述各个属性与语义之间关系的模型。由于低级属性对应更小的人体局部区域,更小区域也更适合使用低层次的网络来寻找,高级属性反之,先前的方法都没有考虑到这种有关“属性等级-人体区域”之间的共同联系。
发明内容
本发明的目的在于克服现有技术的不足,提供基于人体结构多尺度分割的行人属性识别方法、存储介质和终端。
本发明的目的是通过以下技术方案来实现的:
本发明的第一方面,提供基于人体结构多尺度分割的行人属性识别方法,包括以下步骤:
得到输入的行人图像;
获取行人图像的细节关键点和抽象人体区域;
对行人图像的特征进行逐层提取;
将提取的细节关键点与浅层特征进行结合,并将提取的抽象人体区域与深层特征进行结合,将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量;
将多个预测向量进行融合,得到最终预测结果。
进一步地,所述获取行人图像的细节关键点和抽象人体区域包括:
利用行人姿态估计模型分别获得所述行人图像的先验人体姿态关键点P1、多个人体部位区域P2、行人区域P3。
进一步地,所述行人姿态估计模型得到人体姿态关键点坐标K=[k1,k2,…,kM],M为关键点总数;所述先验人体姿态关键点P1=[K1,K2,…,KM],其中K1=[k1]、K2=[k2],以此类推;多个人体部位区域P2=[Khead,Kupper,Klower],其中Khead、Kupper、Klower分别包含表示人体头、上身、下身的关键点坐标;行人区域P3=[Kbody],其中Kbody包含框出整个人体的四个关键点。
进一步地,所述对行人图像的特征进行逐层提取包括:
利用层次特征提取模块,至少三层对行人图像的特征进行逐层提取,得到特征F1、特征F2、特征F3。
进一步地,所述层次特征提取模块为以Resnet50为基础的主干网,包括顺次连接的五个卷积层conv1、conv2、conv3、conv4和conv5,其中特征F1由卷积层conv2输出,特征F2由conv3输出,特征F3由conv4输出。
进一步地,所述将提取的细节关键点与浅层特征进行结合,并将提取的抽象人体区域与深层特征进行结合,将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量,包括:
将先验人体姿态关键点P1和特征F1进行对应,将多个人体部位区域P2和特征F2进行对应,将行人区域P3和特征F3进行对应,对应后分别输入区域引导模块后得到预测向量
Figure GDA0003028913990000021
同时将特征F3输入至输入区域引导模块后得到预测向量
Figure GDA0003028913990000022
进一步地,所述区域引导模块具体为:
将Fi和Pi(i=1,2,3)输入区域引导模块,Fi的尺寸为Wi×Hi×Di
对Pi中每一个Kj,利用空间变换器网络在Fi上进行区域提取,得到尺寸为W′i×H′i×Di的区域特征;
对于三层的每层区域,使用独立的神经网络进行特征学习,使用Di维度的全连接层FC来学习每个区域的特征;
将每个Pi对应的区域学习到的特征融合得到集成特征表示,得到基于M个区域的尺度为M×Di的集成表示;
基于上述集成特征表示,分别使用具有L输出量的FC作为分类器对属性进行分类,预测结果记为
Figure GDA0003028913990000023
L为需要分类的属性个数,
Figure GDA0003028913990000024
Figure GDA0003028913990000031
对于特征F3也使用具有L输出量的FC作为分类器对属性进行分类,预测结果记为
Figure GDA0003028913990000032
进一步地,所述将多个预测向量进行融合,得到最终预测结果,包括:
利用结果对比模块将预测向量
Figure GDA0003028913990000033
进行融合得到预测结果
Figure GDA0003028913990000034
其中通过选择每一属性的预测结果最大值而得到。
本发明的第二方面,提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的基于人体结构多尺度分割的行人属性识别方法的步骤。
本发明的第三方面,提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的基于人体结构多尺度分割的行人属性识别方法的步骤。
本发明的有益效果是:
(1)在本发明的一示例性实施例中,由于网络的深浅-人体结构的粗细划分-属性的高低级之间存在着对应的关系(例如更浅层的网络(对于“对行人图像的特征进行逐层提取”的网络)更容易学习细节的特征,比如更细的人体结构,更低级的属性;更深层的网络更能够学习的抽象的特征,比如整个人体、更高级的属性),因此在该示例性实施例中考虑到这种对应关系,在更浅的特征层上对更细的行人局部做特征学习,在更高的特征层上对划分更粗的行人局部进行特征学习,利用身体结构去指导行人属性识别,从而得到强大的行人属性表示。
(2)在本发明的又一示例性实施例中,考虑到模型已经利用了很多的人体信息来指导神经网络的学习,因此加上conv5得到的特征图过小对准确率的提高并不明显,反而会较多的增加训练的时长;而conv1的时候,网络提取到的特征信息还不够多。因此,经过综合考虑,选择conv2-conv4进行提取。
(3)在本发明的又一示例性实施例中,除了三部分结合的内容进行引导,还包括把特征F3的部分进行引导,得到预测向量
Figure GDA0003028913990000035
即在主干网络的最后直接输出一个预测结果,是对整幅图像进行预测,可以将背景信息也考虑到。
附图说明
图1为本发明一示例性实施例提供的方法流程图;
图2为本发明一示例性实施例提供的结构示意图;
图3为本发明一示例性实施例提供的P1~P3示意图;
图4为本发明一实例性实施例提供的区域引导模块结构示意图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,属于“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,属于“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
参见图1,图1示出了本发明的一示例性实施例提供的基于人体结构多尺度分割的行人属性识别方法的流程图,包括以下步骤:
得到输入的行人图像;
获取行人图像的细节关键点和抽象人体区域;
对行人图像的特征进行逐层提取;
将提取的细节关键点与浅层特征进行结合,并将提取的抽象人体区域与深层特征进行结合,将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量;
将多个预测向量进行融合,得到最终预测结果。
具体地,在该示例性实施例中,由于网络的深浅-人体结构的粗细划分-属性的高低级之间存在着对应的关系(例如更浅层的网络(对于“对行人图像的特征进行逐层提取”的网络)更容易学习细节的特征,比如更细的人体结构,更低级的属性;更深层的网络更能够学习的抽象的特征,比如整个人体、更高级的属性),因此在该示例性实施例中考虑到这种对应关系,在更浅的特征层上对更细的行人局部做特征学习,在更高的特征层上对划分更粗的行人局部进行特征学习,利用身体结构去指导行人属性识别,从而得到强大的行人属性表示。
另外需要说明的是,对于步骤“获取行人图像的细节关键点和抽象人体区域”和步骤“对行人图像的特征进行逐层提取”,两个步骤可同时进行。
更优地,在一示例性实施例中,所述获取行人图像的细节关键点和抽象人体区域包括:
如图2和图3所示,利用行人姿态估计模型分别获得所述行人图像的先验人体姿态关键点P1、多个人体部位区域P2、行人区域P3。
具体地,在该示例性实施例中,所述抽象人体区域分为两级,其中一级为多个人体部位区域P2,而另外一级为行人区域P3(行人区域P3为行人图像中具有行人的一部分)。
另外,图3中P4为整幅图像。
更优地,在一示例性实施例中,所述行人姿态估计模型得到人体姿态关键点坐标K=[k1,k2,…,kM],M为关键点总数(在该示例性实施例中,M为14);所述先验人体姿态关键点P1=[K1,K2,…,KM],其中K1=[k1]、K2=[k2],以此类推;多个人体部位区域P2=[Khead,Kupper,Klower],其中Khead、Kupper、Klower分别包含表示人体头、上身、下身的关键点坐标;行人区域P3=[Kbody],其中Kbody包含框出整个人体的四个关键点。
更优地,在一示例性实施例中,所述对行人图像的特征进行逐层提取包括:
如图2所示,利用层次特征提取模块,至少三层对行人图像的特征进行逐层提取,得到特征F1、特征F2、特征F3。
具体地,在该示例性实施例中,与行人姿态估计模型得到P1、P2和P3对应的,层次特征提取模块分别提取F1、F2和F3的三个特征。
更优地,在一示例性实施例中,所述层次特征提取模块为以Resnet50为基础的主干网,包括顺次连接的五个卷积层conv1、conv2、conv3、conv4和conv5,其中特征F1由卷积层conv2输出,特征F2由conv3输出,特征F3由conv4输出。
具体地,在该示例性实施例中,选择Resnet50为基础的主干网,它一共有5个尺度的卷积块,但是考虑到在实验的时候,输入的图像尺寸较小,是256*128*3,conv1时特征图尺寸为128*64*64,conv2为64*32*128,conv3为32*16*125,conv4为16*8*512到,conv5的时候尺寸为8*4*1024。
考虑到我们的模型已经利用了很多的人体信息来指导神经网络的学习,因此加上conv5得到的特征图过小对准确率的提高并不明显,反而会较多的增加训练的时长;而conv1的时候,网络提取到的特征信息还不够多。因此,经过综合考虑,我们选择了conv2-conv4进行提取。
更优地,在一示例性实施例中,所述将提取的细节关键点与浅层特征进行结合,并将提取的抽象人体区域与深层特征进行结合,将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量,包括:
将先验人体姿态关键点P1和特征F1进行对应,将多个人体部位区域P2和特征F2进行对应,将行人区域P3和特征F3进行对应,对应后分别输入区域引导模块后得到预测向量
Figure GDA0003028913990000061
同时将特征F3输入至输入区域引导模块后得到预测向量
Figure GDA0003028913990000062
具体地,在该示例性实施例中,除了三部分结合的内容进行引导,还包括把特征F3的部分作为图3中P4的全图部分进行引导,得到预测向量
Figure GDA0003028913990000069
即在主干网络的最后直接输出一个预测结果,是对整幅图像进行预测,可以将背景信息也考虑到。
更优地,在一示例性实施例中,所述区域引导模块具体为:
如图4所示,将Fi和Pi(i=1,2,3)输入区域引导模块,Fi的尺寸为Wi×Hi×Di;在其中一示例性实施例中,F1到F3的尺寸分别为32*64*128、16*32*256、8*16*512;
对Pi中每一个Kj,利用空间变换器网络(Spatial Transformer Networks,STN)在Fi上进行区域提取,得到尺寸为W′i×H′i×Di的区域特征;在其中一示例性实施例中,所有W′i和H′i均为5;
对于三层的每层区域,使用独立的神经网络进行特征学习,使用Di维度的全连接层FC来学习每个区域的特征;
将每个Pi对应的区域学习到的特征融合得到集成特征表示,得到基于M个区域的尺度为M×Di的集成表示;
基于上述集成特征表示,分别使用具有L输出量的FC作为分类器对属性进行分类,预测结果记为
Figure GDA0003028913990000063
L为需要分类的属性个数,
Figure GDA0003028913990000064
Figure GDA0003028913990000065
对于特征F3也使用具有L输出量的FC作为分类器对属性进行分类,预测结果记为
Figure GDA0003028913990000066
更优地,在一示例性实施例中,所述将多个预测向量进行融合,得到最终预测结果,包括:
利用结果对比模块将预测向量
Figure GDA0003028913990000067
进行融合得到预测结果
Figure GDA0003028913990000068
其中通过选择每一属性的预测结果最大值而得到。
具体地,令y=[y1,y2,y3,…,yL]表示行人属性的真实标签,L为需要分类的属性个数。yk=0(k=0,1,…,L)表示第k个属性为假,即不存在,yk=1表示第k个属性为真。
Figure GDA0003028913990000071
分别表示主网络和三个区域引导模块的预测结果;通过比较4个预测值,选择每一属性的最大值,形成最终结果
Figure GDA0003028913990000072
更优地,基于上述任意一示例性实施例,在本发明的又一示例性实施例中,提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的基于人体结构多尺度分割的行人属性识别方法的步骤。
更优地,基于上述任意一示例性实施例,在本发明的又一示例性实施例中,提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的基于人体结构多尺度分割的行人属性识别方法的步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (6)

1.基于人体结构多尺度分割的行人属性识别方法,其特征在于:包括以下步骤:
得到输入的行人图像;
获取行人图像的细节关键点和抽象人体区域,包括利用行人姿态估计模型分别获得所述行人图像的先验人体姿态关键点P1、多个人体部位区域P2、行人区域P3;
对行人图像的特征进行逐层提取,包括利用层次特征提取模块,至少三层对行人图像的特征进行逐层提取,得到特征F1、特征F2、特征F3;所述层次特征提取模块为以Resnet50为基础的主干网,包括顺次连接的五个卷积层conv1、conv2、conv3、conv4和conv5,其中特征F1由卷积层conv2输出,特征F2由conv3输出,特征F3由conv4输出;
将提取的细节关键点与浅层特征进行结合,并将提取的抽象人体区域与深层特征进行结合,将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量,包括:将先验人体姿态关键点P1和特征F1进行对应,将多个人体部位区域P2和特征F2进行对应,将行人区域P3和特征F3进行对应,对应后分别输入区域引导模块后得到预测向量
Figure FDA0003721429810000011
同时将特征F3输入至输入区域引导模块后得到预测向量
Figure FDA0003721429810000012
将多个预测向量进行融合,得到最终预测结果。
2.根据权利要求1所述的基于人体结构多尺度分割的行人属性识别方法,其特征在于:所述行人姿态估计模型得到人体姿态关键点坐标K=[k1,k2,…,kM],M为关键点总数;所述先验人体姿态关键点P1=[K1,K2,…,KM],其中K1=[k1]、K2=[k2],以此类推;多个人体部位区域P2=[Khead,Kupper,Klower],其中Khead、Kupper、Klower分别包含表示人体头、上身、下身的关键点坐标;行人区域P3=[Kbody],其中Kbody包含框出整个人体的四个关键点。
3.根据权利要求1所述的基于人体结构多尺度分割的行人属性识别方法,其特征在于:所述区域引导模块具体为:
将Fi和Pi(i=1,2,3)输入区域引导模块,Fi的尺寸为Wi×Hi×Di
对Pi中每一个Kj,利用空间变换器网络在Fi上进行区域提取,得到尺寸为W′i×H′i×Di的区域特征;
对于三层的每层区域,使用独立的神经网络进行特征学习,使用Di维度的全连接层FC来学习每个区域的特征;
将每个Pi对应的区域学习到的特征融合得到集成特征表示,得到基于M个区域的尺度为M×Di的集成表示;
基于上述集成特征表示,分别使用具有L输出量的FC作为分类器对属性进行分类,预测结果记为
Figure FDA0003721429810000021
L为需要分类的属性个数,
Figure FDA0003721429810000022
Figure FDA0003721429810000023
对于特征F3也使用具有L输出量的FC作为分类器对属性进行分类,预测结果记为
Figure FDA0003721429810000027
Figure FDA0003721429810000024
4.根据权利要求1所述的基于人体结构多尺度分割的行人属性识别方法,其特征在于:所述将多个预测向量进行融合,得到最终预测结果,包括:
利用结果对比模块将预测向量
Figure FDA0003721429810000025
进行融合得到预测结果
Figure FDA0003721429810000026
其中通过选择每一属性的预测结果最大值而得到。
5.一种存储介质,其上存储有计算机指令,其特征在于:所述计算机指令运行时执行权利要求1至4中任一项所述的基于人体结构多尺度分割的行人属性识别方法的步骤。
6.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至4中任一项所述的基于人体结构多尺度分割的行人属性识别方法的步骤。
CN202110211944.3A 2021-02-25 2021-02-25 基于人体结构多尺度分割的行人属性识别方法、存储介质和终端 Active CN112883880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110211944.3A CN112883880B (zh) 2021-02-25 2021-02-25 基于人体结构多尺度分割的行人属性识别方法、存储介质和终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110211944.3A CN112883880B (zh) 2021-02-25 2021-02-25 基于人体结构多尺度分割的行人属性识别方法、存储介质和终端

Publications (2)

Publication Number Publication Date
CN112883880A CN112883880A (zh) 2021-06-01
CN112883880B true CN112883880B (zh) 2022-08-19

Family

ID=76054909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110211944.3A Active CN112883880B (zh) 2021-02-25 2021-02-25 基于人体结构多尺度分割的行人属性识别方法、存储介质和终端

Country Status (1)

Country Link
CN (1) CN112883880B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657487A (zh) * 2021-08-16 2021-11-16 深圳多模智能科技有限公司 一种基于增量学习的人体属性分类方法及装置
CN113762221B (zh) * 2021-11-05 2022-03-25 通号通信信息集团有限公司 人体检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145845A (zh) * 2017-04-26 2017-09-08 中山大学 基于深度学习及多特征点融合的行人检测方法
CN108805216A (zh) * 2018-06-19 2018-11-13 合肥工业大学 基于深浅特征融合的人脸图像处理方法
CN111133438A (zh) * 2017-12-27 2020-05-08 英特尔公司 使用统计相关性模型的关键点引导的人类属性识别

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395385B2 (en) * 2017-06-27 2019-08-27 Qualcomm Incorporated Using object re-identification in video surveillance
CN111353349B (zh) * 2018-12-24 2023-10-17 杭州海康威视数字技术股份有限公司 人体关键点检测方法、装置、电子设备及存储介质
CN111488773B (zh) * 2019-01-29 2021-06-11 广州市百果园信息技术有限公司 一种动作识别方法、装置、设备及存储介质
CN110009010B (zh) * 2019-03-20 2023-03-24 西安电子科技大学 基于兴趣区域重检测的宽幅光学遥感目标检测方法
CN111191526B (zh) * 2019-12-16 2023-10-10 汇纳科技股份有限公司 行人属性识别网络训练方法、系统、介质及终端
CN111160295B (zh) * 2019-12-31 2023-05-12 广州视声智能科技有限公司 基于区域引导和时空注意力的视频行人重识别方法
CN111259850B (zh) * 2020-01-23 2022-12-16 同济大学 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN111401132B (zh) * 2020-02-14 2022-11-08 北京航空航天大学 监控场景下高层语义指导的行人属性识别方法
CN111723762B (zh) * 2020-06-28 2023-05-12 湖南国科微电子股份有限公司 人脸属性识别方法、装置、电子设备及存储介质
CN111783619B (zh) * 2020-06-29 2023-08-11 北京百度网讯科技有限公司 人体属性的识别方法、装置、设备及存储介质
CN111914668A (zh) * 2020-07-08 2020-11-10 浙江大华技术股份有限公司 一种基于图像增强技术的行人重识别方法、装置及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145845A (zh) * 2017-04-26 2017-09-08 中山大学 基于深度学习及多特征点融合的行人检测方法
CN111133438A (zh) * 2017-12-27 2020-05-08 英特尔公司 使用统计相关性模型的关键点引导的人类属性识别
CN108805216A (zh) * 2018-06-19 2018-11-13 合肥工业大学 基于深浅特征融合的人脸图像处理方法

Also Published As

Publication number Publication date
CN112883880A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN107045618B (zh) 一种人脸表情识别方法及装置
CN110837836A (zh) 基于最大化置信度的半监督语义分割方法
Anil et al. Literature survey on face and face expression recognition
US11341770B2 (en) Facial image identification system, identifier generation device, identification device, image identification system, and identification system
Reddy et al. Facial emotion recognition using NLPCA and SVM
CN111291604A (zh) 面部属性识别方法、装置、存储介质及处理器
CN112883880B (zh) 基于人体结构多尺度分割的行人属性识别方法、存储介质和终端
CN111160264B (zh) 一种基于生成对抗网络的漫画人物身份识别方法
US10007678B2 (en) Image processing apparatus, image processing method, and recording medium
Park et al. Attributed grammars for joint estimation of human attributes, part and pose
CN115862120B (zh) 可分离变分自编码器解耦的面部动作单元识别方法及设备
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
Prabhu et al. Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism.
CN112016592B (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
CN114782979A (zh) 一种行人重识别模型的训练方法、装置、存储介质及终端
Verma et al. Cross-centroid ripple pattern for facial expression recognition
CN117115824A (zh) 一种基于笔划区域分割策略的视觉文本检测方法
JP2004178569A (ja) データ分類装置、物体認識装置、データ分類方法及び物体認識方法
CN109685146A (zh) 一种基于双卷积和主题模型的场景识别方法
CN115171155A (zh) 一种基于形状相似度的人体姿态估计方法及系统
CN114511895B (zh) 一种基于注意力机制多尺度网络的自然场景情绪识别方法
Wijaya et al. Phonographic image recognition using fusion of scale invariant descriptor
Shirahama et al. Kindai University and Kobe University at TRECVID 2019 AVS Task.
Zhang et al. Facial expression recognition by analyzing features of conceptual regions
Chen et al. Big Visual Data Analysis: Scene Classification and Geometric Labeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant