CN113239820B - 基于属性定位与关联的行人属性识别方法及系统 - Google Patents
基于属性定位与关联的行人属性识别方法及系统 Download PDFInfo
- Publication number
- CN113239820B CN113239820B CN202110540829.0A CN202110540829A CN113239820B CN 113239820 B CN113239820 B CN 113239820B CN 202110540829 A CN202110540829 A CN 202110540829A CN 113239820 B CN113239820 B CN 113239820B
- Authority
- CN
- China
- Prior art keywords
- attribute
- pedestrian
- feature map
- layer
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims description 49
- 239000013598 vector Substances 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 26
- 230000004913 activation Effects 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 13
- 230000004807 localization Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 abstract description 4
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 10
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000005284 excitation Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 210000000746 body region Anatomy 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明属于模式识别领域,具体涉及了一种基于属性定位与关联的行人属性识别方法及系统,旨在解决现有技术无法有效结合属性的局部定位特征和全局关联特征,从而行人属性识别模型的性能尚达不到预期的问题。本发明包括:通过特征提取网络获取输入行人图像的特征图;通过多分枝的属性定位网络对属性解藕,每个属性分枝单独对属性特征在高度、宽度和通道三个维度方面,进行属性定位特征的增强;通过属性关联网络学习不同属性之间的全局关联性特征;最终通过分类器获取行人的属性类别。本发明更好地提取到关于行人属性的局部定位特征,并有效地结合属性的局部定位特征和全局关联特征,行人属性识别的准确性与精度以及效率高。
Description
技术领域
本发明属于模式识别领域,具体涉及了一种基于属性定位与关联的行人属性识别方法及系统。
背景技术
行人属性识别,如性别,衣服类型,长发短发等,是一个具有挑战性的任务,也是目前视频监控领域非常火热的任务之一。传统的行人属性识别方法以手工特征来处理图片的特征。随着深度学习的发展,行人属性识别已经取得了巨大的突破。
目前行人属性识别的方法,主要分为三大类:一是,基于局部的行人属性识别方法,主要是从行人的局部区域提取判别性的特征,可以利用姿态估计出行人的骨骼关键点,再通过关键点来提取人体局部区域,提取的局部区域和整体图像的特征用于属性识别,也可以通过检测人体的部位(头部,上半身和下半身区域)来辅助属性的识别。有研究人员提出了定位引导网络,通过弱监督的方式探索属性的区域,利用多尺度的特征,结合通道注意力机制,空间转换网络提供弱监督的属性定位方法。然而,这些方法要么依赖于先验的,固定的弱监督零件,要么依赖于复杂的定位机制。二是,基于全局的行人属性识别方法,包括:(1)利用一个整体的CNN模型来共同学习行人不同的属性;(2)通过改进的交叉熵损失函数,将属性识别看成一个多标签分类问题。然而,这些方法都是整体性看待属性识别,没有解藕不同的属性,只有整体不考虑局部。三是,基于序列的行人属性识别方法,主要是考虑行人属性之间的关联性。有研究将属性进行分组,如头部区域组,上半身区域组以及下半身区域组,通过循环神经网络提取每一个区域的特征。有些研究认为属性识别存在的问题是图像质量差,外观变化等原因,因此,通过探索属性和视觉上下文之间的相互依赖和相关性,作为辅助属性识别的额外信息源。然而,这些方法都是采用序列估计过程,存在的缺点也是明显的,那就是考虑的关联性缺失了属性的局部定位能力。
此外,上述行人属性识别的三类方法中,使用到的属性特征定位的方法均是一种硬注意力机制或者是弱监督的软注意力机制,当关注属性定位特征的时候无法关联全局特征,对属性特征进行定位时更无法解耦不同属性。同时,上述方法对于提取属性的全局关联特征粒度十分粗糙,只是简单将学到的局部特征进行融合或者使用注意力机制对特征进行增强,这些特征很难去表达属性的全局关联性特征。
由于更强的特征提取能力,目前基于卷积神经网络的方法在行人属性识别领域已经占据主导性的地位。现今存在的方法本质上是从特征提取的角度去解决行人属性问题,包含了提取行人的全局特征以及属性的局部特征。属性能够被定位到行人图片中的某一个区域,来提取局部的判别性特征,如行人的属性中的头发长短,自然而然该属性所在的区域是头部。一种简单而低效的方式,如应用人体分块的方法,结合姿态估计将人体切分成头部,上半身,下半身三个区域。利用人体解析的方法对人体的属性特征进行辅助定位。与此同时,探索行人属性的全局关联性特征自然对属性识别有非常大的帮助。如性别属性往往和头发长短属性紧密相关。
总的来说,如何有效结合属性的局部定位特征和全局关联特征来提升行人属性识别模型的性能以及提高识别结果的准确性、精度与效率,还是本领域有待解决的问题。
发明内容
为了解决现有技术中的上述问题,即现有技术无法有效结合属性的局部定位特征和全局关联特征,从而行人属性识别模型的性能尚达不到预期的问题,本发明提供了一种基于属性定位与关联的行人属性识别方法,该行人属性识别方法包括:
步骤S10,获取待属性识别的行人图像,并通过特征提取网络进行所述行人图像的特征提取,获得待属性识别的行人特征图;
步骤S20,通过设定的一组不同属性分类的多分枝的属性定位网络,分别获取所述待属性识别的行人特征图对应的一组不同属性的特征向量;
步骤S30,基于所述一组不同属性的特征向量,采用属性关联网络通过transformer学习行人属性之间的关联性,获得关联属性特征图;
步骤S40,基于所述关联属性特征图,通过分类器获取行人的属性类别。
在一些优选的实施例中,所述属性定位网络,其提取特征向量的方法包括:
步骤S21,通过并行的一个提取高度维度的位置注意力机制和一个提取宽度维度的位置注意力机制分别获取第一特征图和第二特征图;
步骤S22,基于所述行人特征图对所述第一特征图与进行高度维度编码增强,获得第三特征图;基于所述行人特征图对所述第二特征图进行宽度维度编码增强,获得第四特征图;
步骤S23,融合所述第三特征图和所述第四特征图后,通过r个并行的信道切分注意力机制获取r个特征向量;其中,r为信道维度切分数量;
步骤S24,将所述r个特征向量依次通过连接层、softmax分类层后,基于所述行人特征图进行高度和宽度维度编码,并通过全连接层后,获得所述属性定位网络对应的特征向量。
在一些优选的实施例中,所述提取高度维度的位置注意力机制,其结构为:
顺次连接的一个池化核为1×W的平均池化层、一个卷积核为1的卷积层、一个批归一化与线性激活层、一个卷积核为1的卷积层和一个sigmoid激活函数。
在一些优选的实施例中,所述提取宽度维度的位置注意力机制,其结构为:
顺次连接的一个池化核为H×1的平均池化层、一个卷积核为1的卷积层、一个批归一化与线性激活层、一个卷积核为1的卷积层和一个sigmoid激活函数。
在一些优选的实施例中,所述信道切分注意力机制,其结构为:
顺次连接的一个卷积核为1的卷积层、一个批归一化与线性激活层、一个卷积核为1的卷积层和一个sigmoid激活函数。
在一些优选的实施例中,所述属性关联网络包括交替的多头注意力机制和MLP块;
所述多头注意力机制和所述MLP块之前分别设置一个layer正则化层;
所述多头注意力机制和所述MLP多层感知机之后通过残差连接。
在一些优选的实施例中,所述MLP块为包含了两个非线性函数Relu的层。
本发明的另一方面,提出了一种基于属性定位与关联的行人属性识别系统,该行人属性识别系统包括以下模块:
输入模块,配置为获取待属性识别的行人图像并输入;
特征提取模块,配置为通过特征提取网络进行所述行人图像的特征提取,获得待属性识别的行人特征图;
多分枝属性定位模块,配置为通过设定的一组不同属性分类的多分枝的属性定位网络,分别获取所述待属性识别的行人特征图对应的一组不同属性的特征向量;
属性关联模块,配置为基于所述一组不同属性的特征向量,采用属性关联网络通过transformer学习行人属性之间的关联性,获得关联属性特征图;
分类模块,配置为基于所述关联属性特征图,通过分类器获取行人的属性类别。
本发明的有益效果:
(1)本发明基于属性定位与关联的行人属性识别方法,通过多分枝的结构对属性解藕,每个属性分枝单独对属性特征进行处理,从高度、宽度、通道三个维度来增强属性的定位特征,高度维度和宽度维度的注意力机制关注于属性在特征空间上的位置,通道维度上显示建模通道之间的信息,更好地提取到关于行人属性的局部定位特征,从而提升了后续行人属性识别的准确性与精度。
(2)本发明基于属性定位与关联的行人属性识别方法,将不同属性分枝定位到的特征向量作为transformer encoder的输入向量,通过属性关联网络有效地学习到了不同属性之间的全局关联性特征,更有效地结合属性的局部定位特征和全局关联特征,从而有效提升了后续行人属性识别的准确性与精度以及效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于属性定位与关联的行人属性识别方法的框架示意图;
图2是本发明基于属性定位与关联的行人属性识别方法的属性定位网络的框架示意图;
图3是本发明基于属性定位与关联的行人属性识别方法的属性关联网络的框架示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于属性定位与关联的行人属性识别方法,主要关注于如何提取属性的定位特征以及属性之间的关联性,提出了多分枝的属性定位网络和属性关联网络,通过多分枝的属性定位识别方式,每个模块处理单独的一个属性的分类,强监督方式提取属性定位特征,使得属性之间能够解耦开,同时,考虑到属性之间有着很强的关联性,采用基于编码架构的序列预测架构Transformers,更好地模拟了解藕后的属性特征的全局关联性特征,更有效地结合属性的局部定位特征和全局关联特征,提升了模型的行人属性识别性能。
本发明的一种基于属性定位与关联的行人属性识别方法,该行人属性识别方法包括:
步骤S10,获取待属性识别的行人图像,并通过特征提取网络进行所述行人图像的特征提取,获得待属性识别的行人特征图;
步骤S20,通过设定的一组不同属性分类的多分枝的属性定位网络,分别获取所述待属性识别的行人特征图对应的一组不同属性的特征向量;
步骤S30,基于所述一组不同属性的特征向量,采用属性关联网络通过transformer学习行人属性之间的关联性,获得关联属性特征图;
步骤S40,基于所述关联属性特征图,通过分类器获取行人的属性类别。
为了更清晰地对本发明基于属性定位与关联的行人属性识别方法进行说明,下面结合图1对本发明实施例中各步骤展开详述。
本发明第一实施例的基于属性定位与关联的行人属性识别方法,包括步骤S10-步骤S40,各步骤详细描述如下:
如图1所示,为本发明基于属性定位与关联的行人属性识别方法的框架示意图,由一个骨干网络-特征提取网络和一组应用于不同属性分类的多分枝的属性定位网络以及属性关联网络组成。首先将输入的行人图像送入骨干网络,不需要根据人体关键点画框或行人图像区域的切分,更不需要行人语义信息的辅助,即可在自下而上的路径末端得到预测向量。
步骤S10,获取待属性识别的行人图像,并通过特征提取网络进行所述行人图像的特征提取,获得待属性识别的行人特征图。
由特征提取网络提取的特征张量(即待属性识别的行人特征图),其表示如式(1):
X=x1,x2,...,xm∈RC×H×W (1)
其中,X代表提取的特征张量,x1,x2,...,xm分别代表特征张量X的每一个元素,R代表特征张量X的张量空间,C,H,W代表特征张量X的信道维度、高度维度和宽度维度。
步骤S20,通过设定的一组不同属性分类的多分枝的属性定位网络,分别获取所述待属性识别的行人特征图对应的一组不同属性的特征向量。
在通道注意力机制中,将全局平均池化应用到全局的编码空间信息,将特征图的空间信息挤压到信道描述符中,其出发点是要提取属性所在的空间位置信息,但是,这样无法保留位置信息,只是进行通道的特征增强。因此本发明将全局平均池化改为对一维的特征编码,分别采用两个分支对特征张量X沿着H维度和W维度进行编码。
每一个属性定位网络只对一种属性在单独的特征上进行属性定位的特征学习,每个属性都有单独的强监督信息。此外,通过多分枝的方法学习到属性区域更具有可解释性,因为属性的识别主要来源于单独的分枝,提取判别性特征的能力是可以直观的察觉出来。当属性识别按照多分枝的结构来解藕不同的属性后,每个分枝提取单独属性判别性特征的能力有了更高的要求。
属性定位网络,其提取特征向量的方法包括:
步骤S21,通过并行的一个提取高度维度的位置注意力机制和一个提取宽度维度的位置注意力机制分别获取第一特征图和第二特征图;
提取高度维度的位置注意力机制,其结构为:
顺次连接的一个池化核为1×W的平均池化层、一个卷积核为1的卷积层、一个批归一化与线性激活层、一个卷积核为1的卷积层和一个sigmoid激活函数。
对于特征张量X而言,经过H维度编码可以表述为式(2):
经过一维的全局平均池化后,需要对提取到的编码进行增强。提取高度维度的位置注意力机制,首先是一个卷积核为1的卷积层,批归一化和非线形激活函数Relu组成的,转换函数f1描述为式(3):
f1(x)=Relu(bn(conv(x))) (3)
其中,conv代表卷积操作,bn代表批归一化操作,Relu代表Relu非线性激活函数。
其次,再次使用一个卷积核为1的卷积层进行增强,并使用sigmoid非线形函数,转换函数f2描述为式(4):
f2(x)=Sigmoid(conv(x)) (4)
其中,Sigmoid代表sigmoid非线形函数。
提取宽度维度的位置注意力机制,其结构为:
顺次连接的一个池化核为H×1的平均池化层、一个卷积核为1的卷积层、一个批归一化与线性激活层、一个卷积核为1的卷积层和一个sigmoid激活函数。
对于特征张量X而言,经过W维度编码可以表述为式(5):
同样地,经过一维的全局平均池化后,需要对提取到的编码进行增强。提取宽度维度的位置注意力机制,首先是一个卷积核为1的卷积层,批归一化和非线形激活函数Relu组成的,转换函数f1与式(3)相同。
同样地,再次使用一个卷积核为1的卷积层进行增强,并使用sigmoid非线形函数,转换函数f2与式(4)相同。
步骤S22,基于所述行人特征图对所述第一特征图与进行高度维度编码增强,获得第三特征图,如式(6)所示:
基于所述行人特征图对所述第二特征图进行宽度维度编码增强,获得第四特征图,如式(7)所示:
步骤S23,融合所述第三特征图和所述第四特征图后,通过r个并行的信道切分注意力机制获取r个特征向量;其中,r为信道维度切分数量;
通过对H维度和W维度的空间方向聚合特征,能定位出一个方向的感知特征图。这两个分枝的注意力机制能够捕捉到行人属性在空间上的精确位置信息。
得到H维度和W维度的激励张量要进行融合,两个维度才能定位出属性所在特征图上显著性区域,融合值xhw表述为式(8):
其中,Sum代表融合操作。
属性定位网络后半部分是从信道维度上出发,属性定位网络前半部分没有显式建模通道之间的信息,通道之间的信息对于特征的提取和增强是非常重要的,将xhw的通道维度切分成r份xr∈RC/r×H×W。
步骤S24,将所述r个特征向量依次通过连接层、softmax分类层后,基于所述行人特征图进行高度和宽度维度编码,并通过全连接层后,获得所述属性定位网络对应的特征向量。
分别对r份xr进行通道信息增强,第r份的通道信息增强特征表述为式(9):
将通道进行切分成r个分枝,每个分枝进行通道维度的增强后,将增强后的特征在通道维度进行融合,表述为式(10):
其中,concat代表连接操作,softmax代表softmax分类函数。
xmask是对输入特征张量X沿着H维度和W维度进行编码,同时在C维度上显示建模产生的特征mask,因此,添加上一个激励的过程,表述为式(11):
其中,xi代表特征张量X的元素。
如图2所示,为本发明基于属性定位与关联的行人属性识别方法的属性定位网络的框架示意图,每一个属性定位网络主要分成两个部分,前半部分是一个提取高度维度和宽度维度的位置注意力机制,通过高与宽来增强属性所在区域的特征,后半部分是从信道维度来考虑,信道的切分注意力机制将会从信道维度上提取更强的判别性特征。
准确来说,依据上述描述,属性定位网络分成两个部分,前半部分是一个提取位置的注意力机制,通过对H维度和W维度进行特征编码,得到特征xh和xw,分别反应了感兴趣的H和W所在的位置,将两个特征进行融合得到一个增强后含有属性位置的特征xhw。后半部分是一个从C维度上进行增强的注意力机制,在通道维度上切分位置特征xhw为r份,每一份单独进行增强,然后将增强后的特征进行融合,最后利用注意力机制中常用的激励的方法。
本发明提出的属性定位网络从通道维度,H维度,W维度来增强属性的定位判别特征。H维度和W维度的注意力机制关注与属性在特征空间上的位置,C维度上显示建模通道之间的信息。如上所述,沿着H方向和W方向的注意力同时应用于输入的张量,两个注意力图中的每个元素都反映了感兴趣的对象是否存在于相应的维度中。这个编码过程使得本发明能够定位到属性所在的准确位置。在信道维度上通过切分不同通道,通道之间保持分离各自建模,从而帮助整个模型更好地识别。
步骤S30,基于所述一组不同属性的特征向量,采用属性关联网络通过transformer学习行人属性之间的关联性,获得关联属性特征图。
在属性定位网络中,采用多分枝的结构对属性之间关系进行解藕,而现实生活中,属性之间有着很强的关联性,如头发长短属性和性别相对有更多关联性,因此,本发明针对多分个分枝的属性特征向量,采用了一个transformer的结构的属性关联网络学习行人属性之间的关联性。原始的Transformer是将图像重塑为一个扁平化的二维补丁序列作为token embeddings输入。本发明与之不同,以多分枝属性定位网络学习到的特征向量作为token embeddings,将一个可训练的线形投影及将每一个矢量化的特征向量映射到模型维度D,这个过程称为特征嵌入。
本发明将一个可学习的分类嵌入(classification embedding)预置到嵌入的特征中,其在transformer编码器输出处的状态作为行人属性的分类。同时将一个可学习的位置嵌入式添加到特征嵌入和分类嵌入中以保留各自的位置信息。
属性关联网络包括交替的多头注意力机制和MLP块,在多头注意力机制和MLP块之前应用layer正则化,每一个多头注意力机制和MLP块之后应用残差连接。MLP是包含了两个非线性函数Relu的层。
上述过程可表述为式(12)-式(14):
步骤S40,基于所述关联属性特征图,通过分类器获取行人的属性类别,如式(15)所示:
如图3所示,为本发明基于属性定位与关联的行人属性识别方法的属性关联网络的框架示意图,属性关联网络包括交替的多头注意力机制和MLP块,多头注意力机制和MLP块之前分别设置一个layer正则化层,提后通过残差连接获取最终的输出。
本发明一个实施例中,采用Pytorch框架实现所提出的方法,使用2个NVIDIATITANXP GPU(12GB/个)进行训练,基于SGD算法,以动量为0.9和权重衰减0.00005作为优化器,并将其学习率设置为相对较小的值0.05,其他部分均设置为0.5。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
本发明第二实施例的基于属性定位与关联的行人属性识别系统,该行人属性识别系统包括以下模块:
输入模块,配置为获取待属性识别的行人图像并输入;
特征提取模块,配置为通过特征提取网络进行所述行人图像的特征提取,获得待属性识别的行人特征图;
多分枝属性定位模块,配置为通过设定的一组不同属性分类的多分枝的属性定位网络,分别获取所述待属性识别的行人特征图对应的一组不同属性的特征向量;
属性关联模块,配置为基于所述一组不同属性的特征向量,采用属性关联网络通过transformer学习行人属性之间的关联性,获得关联属性特征图;
分类模块,配置为基于所述关联属性特征图,通过分类器获取行人的属性类别。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于属性定位与关联的行人属性识别系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (5)
1.一种基于属性定位与关联的行人属性识别方法,其特征在于,该行人属性识别方法包括:
步骤S10,获取待属性识别的行人图像,并通过特征提取网络进行所述行人图像的特征提取,获得待属性识别的行人特征图;
步骤S20,通过设定的一组不同属性分类的多分枝的属性定位网络,分别获取所述待属性识别的行人特征图对应的一组不同属性的特征向量,包括:
步骤S21,通过并行的一个提取高度维度的位置注意力机制和一个提取宽度维度的位置注意力机制分别获取第一特征图和第二特征图;
所述提取高度维度的位置注意力机制,其结构为:
顺次连接的一个池化核为1×W的平均池化层、一个卷积核为1的卷积层、一个批归一化与线性激活层、一个卷积核为1的卷积层和一个sigmoid激活函数;
所述提取宽度维度的位置注意力机制,其结构为:
顺次连接的一个池化核为H×1的平均池化层、一个卷积核为1的卷积层、一个批归一化与线性激活层、一个卷积核为1的卷积层和一个sigmoid激活函数;
步骤S22,基于所述行人特征图对所述第一特征图与进行高度维度编码增强,获得第三特征图;基于所述行人特征图对所述第二特征图进行宽度维度编码增强,获得第四特征图;
步骤S23,融合所述第三特征图和所述第四特征图后,通过r个并行的信道切分注意力机制获取r个特征向量;其中,r为信道维度切分数量;
步骤S24,将所述r个特征向量依次通过连接层、softmax分类层后,基于所述行人特征图进行高度和宽度维度编码,并通过全连接层后,获得所述属性定位网络对应的特征向量;
步骤S30,基于所述一组不同属性的特征向量,采用属性关联网络通过transformer学习行人属性之间的关联性,获得关联属性特征图;
步骤S40,基于所述关联属性特征图,通过分类器获取行人的属性类别。
2.根据权利要求1所述的基于属性定位与关联的行人属性识别方法,其特征在于,所述信道切分注意力机制,其结构为:
顺次连接的一个卷积核为1的卷积层、一个批归一化与线性激活层、一个卷积核为1的卷积层和一个sigmoid激活函数。
3.根据权利要求1所述的基于属性定位与关联的行人属性识别方法,其特征在于,所述属性关联网络包括交替的多头注意力机制和MLP块;
所述多头注意力机制和所述MLP块之前分别设置一个layer正则化层;
所述多头注意力机制和所述MLP多层感知机之后通过残差连接。
4.根据权利要求3所述的基于属性定位与关联的行人属性识别方法,其特征在于,所述MLP块为包含了两个非线性函数GELU的层。
5.一种基于属性定位与关联的行人属性识别系统,其特征在于,该行人属性识别系统包括以下模块:
输入模块,配置为获取待属性识别的行人图像并输入;
特征提取模块,配置为通过特征提取网络进行所述行人图像的特征提取,获得待属性识别的行人特征图;
多分枝属性定位模块,配置为通过设定的一组不同属性分类的多分枝的属性定位网络,分别获取所述待属性识别的行人特征图对应的一组不同属性的特征向量,包括:
通过并行的一个提取高度维度的位置注意力机制和一个提取宽度维度的位置注意力机制分别获取第一特征图和第二特征图;
所述提取高度维度的位置注意力机制,其结构为:
顺次连接的一个池化核为1×W的平均池化层、一个卷积核为1的卷积层、一个批归一化与线性激活层、一个卷积核为1的卷积层和一个sigmoid激活函数;
所述提取宽度维度的位置注意力机制,其结构为:
顺次连接的一个池化核为H×1的平均池化层、一个卷积核为1的卷积层、一个批归一化与线性激活层、一个卷积核为1的卷积层和一个sigmoid激活函数;
基于所述行人特征图对所述第一特征图与进行高度维度编码增强,获得第三特征图;基于所述行人特征图对所述第二特征图进行宽度维度编码增强,获得第四特征图;
融合所述第三特征图和所述第四特征图后,通过r个并行的信道切分注意力机制获取r个特征向量;其中,r为信道维度切分数量;
将所述r个特征向量依次通过连接层、softmax分类层后,基于所述行人特征图进行高度和宽度维度编码,并通过全连接层后,获得所述属性定位网络对应的特征向量;
属性关联模块,配置为基于所述一组不同属性的特征向量,采用属性关联网络通过transformer学习行人属性之间的关联性,获得关联属性特征图;
分类模块,配置为基于所述关联属性特征图,通过分类器获取行人的属性类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110540829.0A CN113239820B (zh) | 2021-05-18 | 2021-05-18 | 基于属性定位与关联的行人属性识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110540829.0A CN113239820B (zh) | 2021-05-18 | 2021-05-18 | 基于属性定位与关联的行人属性识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113239820A CN113239820A (zh) | 2021-08-10 |
CN113239820B true CN113239820B (zh) | 2023-06-27 |
Family
ID=77135140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110540829.0A Active CN113239820B (zh) | 2021-05-18 | 2021-05-18 | 基于属性定位与关联的行人属性识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239820B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657487A (zh) * | 2021-08-16 | 2021-11-16 | 深圳多模智能科技有限公司 | 一种基于增量学习的人体属性分类方法及装置 |
CN113807311A (zh) * | 2021-09-29 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种多尺度目标识别方法 |
CN113657355A (zh) * | 2021-10-20 | 2021-11-16 | 之江实验室 | 一种融合分割信息的全局局部感知行人重识别方法 |
WO2023082196A1 (zh) * | 2021-11-12 | 2023-05-19 | 京东方科技集团股份有限公司 | 行人属性识别系统及其训练方法、行人属性识别方法 |
CN114360056B (zh) * | 2021-12-21 | 2024-06-07 | 东风柳州汽车有限公司 | 开门预警方法、装置、设备及存储介质 |
CN116071785B (zh) * | 2023-03-06 | 2023-06-23 | 合肥工业大学 | 一种基于多维空间交互的人体姿态估计方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507800A (zh) * | 2020-11-14 | 2021-03-16 | 北京工业大学 | 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法 |
CN112784764A (zh) * | 2021-01-27 | 2021-05-11 | 南京邮电大学 | 一种基于局部与全局注意力机制的表情识别方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019041360A1 (zh) * | 2017-09-04 | 2019-03-07 | 华为技术有限公司 | 行人属性识别与定位方法以及卷积神经网络系统 |
CN111898736B (zh) * | 2020-07-23 | 2022-07-05 | 武汉大学 | 基于属性感知的高效行人重识别方法 |
CN112434683A (zh) * | 2021-01-27 | 2021-03-02 | 中国科学院自动化研究所 | 基于注意力机制的行人属性识别方法、系统、装置 |
-
2021
- 2021-05-18 CN CN202110540829.0A patent/CN113239820B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507800A (zh) * | 2020-11-14 | 2021-03-16 | 北京工业大学 | 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法 |
CN112784764A (zh) * | 2021-01-27 | 2021-05-11 | 南京邮电大学 | 一种基于局部与全局注意力机制的表情识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113239820A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113239820B (zh) | 基于属性定位与关联的行人属性识别方法及系统 | |
CN110414432B (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN111597870B (zh) | 一种基于注意力机制与多任务学习的人体属性识别方法 | |
CN111783831B (zh) | 基于多源多标签共享子空间学习的复杂图像精确分类方法 | |
CN111291604A (zh) | 面部属性识别方法、装置、存储介质及处理器 | |
CN108960331A (zh) | 一种基于行人图像特征聚类的行人再识别方法 | |
Fu et al. | Learning semantic-aware spatial-temporal attention for interpretable action recognition | |
CN111582154A (zh) | 基于多任务骨架姿态划分部件的行人重识别方法 | |
Samadiani et al. | A multiple feature fusion framework for video emotion recognition in the wild | |
Abdelmutalab et al. | Pedestrian detection using MB-CSP model and boosted identity aware non-maximum suppression | |
CN111046213A (zh) | 一种基于图像识别的知识库构建方法 | |
CN117829243A (zh) | 模型训练方法、目标检测方法、装置、电子设备及介质 | |
CN117671800A (zh) | 面向遮挡的人体姿态估计方法、装置及电子设备 | |
CN112668493A (zh) | 基于gan和深度学习的换装行人再识别定位跟踪系统 | |
Chai et al. | A multi-head pseudo nodes based spatial–temporal graph convolutional network for emotion perception from GAIT | |
Zhao et al. | Research on human behavior recognition in video based on 3DCCA | |
CN113408356A (zh) | 基于深度学习的行人重识别方法、装置、设备及存储介质 | |
Javed et al. | learning anomalous human actions using frames of interest and decoderless deep embedded clustering | |
Martin Sagayam et al. | Application of pseudo 2-D hidden Markov model for hand gesture recognition | |
CN117407557B (zh) | 零样本实例分割方法、系统、可读存储介质及计算机 | |
Wang et al. | Intelligent recognition of students’ incorrect movements in physical education using virtual reality-based computer pattern recognition | |
CN118196888A (zh) | 一种基于跨模态知识对齐的细粒度动作识别方法 | |
CN118298148A (zh) | 基于YOLOv7算法的室内动态环境中物体的定位方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |