CN110598631B - 基于序列上下文关系学习的行人属性识别方法和识别系统 - Google Patents
基于序列上下文关系学习的行人属性识别方法和识别系统 Download PDFInfo
- Publication number
- CN110598631B CN110598631B CN201910862510.2A CN201910862510A CN110598631B CN 110598631 B CN110598631 B CN 110598631B CN 201910862510 A CN201910862510 A CN 201910862510A CN 110598631 B CN110598631 B CN 110598631B
- Authority
- CN
- China
- Prior art keywords
- attribute
- sequence
- image
- pedestrian
- seq
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于序列上下文关系学习的行人属性识别方法和识别系统,其中行人属性识别方法包括:建立并训练行人识别系统;将待识别图像在竖直方向编码为图像序列,属性序列初始化为随机值;利用训练好的行人识别系统计算图像上下文关系序列和属性上下文关系序列;计算图像上下文关系序列对属性上下文关系序列中每个元素的注意力;计算每个属性属于该属性每个类别的概率,选择概率值最大的类别作为该属性的类别。该方法充分利用了图像序列间的上下文关系、属性间的上下文关系以及图像与属性间的上下文关系,提高了行人属性识别的准确率。
Description
技术领域
本发明属于行人属性识别技术领域,具体涉及一种结合图像与属性类内和类间关系的行人识别方法与系统。
背景技术
行人属性识别的任务就是去预测图像中的行人的属性标签,包括年龄,性别,衣服的颜色等。这些属性中包含着能够描述行人外观丰富的语义信息,能够给行人识别任务带来有益的信息,具有较高的应用价值,从而其获得了广泛的关注。其主要难点在于行人角度和照片光照的变化以及远距离会影响到识别的准确度。
为了提交行人属性识别的准确度,目前的方法大多通过输入一整张图像进入分类网络,分别将每一种属性做分类预测,例如性别为一个男或者女的二分类预测。虽然上述方法取得了较好的结果,但是其仍然忽略了图像间以及属性间的问题。属性间不同的元素,包含着大量的上下文关系,例如穿裙子的人基本都是女性。同时图像间的不同元素,也包含着大量相互关系,例如图像中的不同元素包括着行人的不同身体区域,这些区域之间存在着内在的空间关系。这些上下文关系均将有助于提高识别的准确率。因此有些方法采用将图像手动分块或是将属性手动分组并来获取图像间或是属性间的元素间上下文关系,但是这些方法需要利用先验知识来将图像分成固定数量的块数或是将属性分成固定的组,这样固定的分组使得属性间上下文关系的学习具有局限性且有一些不合理,普适性较低,当有新的属性加入时还需要重新分组。
发明内容
发明目的:本发明旨在提供一种识别准确率较高的行人属性识别方法,该方法充分利用了图像序列间的上下文关系、属性间的上下文关系以及图像与属性间的上下文关系,提高了行人属性识别的准确率。
技术方案:本发明一方面提供了一种基于序列上下文关系学习的行人属性识别方法,包括训练阶段和识别阶段;所述训练阶段的步骤为:
(1)建立图像竖直方向编码网络,所述编码网络将图像在竖直方向编码为长度为M的图像序列P=[P1,P2,…,PM];M为图像序列的长度;
(2)建立属性映射表,所述属性映射表中定义了图像中行人的属性;根据属性映射表将行人属性编码为属性序列A=[A1,A2,…,AN];N为属性种类总数;
(3)建立类内注意力模型,所述类内注意力模型计算图像序列P各元素间的上下文关系P″m和属性序列A各元素间的上下文关系A″n,得到图像上下文关系序列P″=[P″1,P″2,…,P″M]和属性上下文关系序列A″=[A″1,A″2,…,A″N];其中P″m表示图像序列P对其第m个元素的注意力;A″n表示属性序列A对其第n个元素的注意力;m=1,2,…,M,n=1,2,…,N;
(4)建立类间注意力模型,所述类间注意力模型计算图像上下文关系序列P″与属性上下文关系序列A″中每个元素的注意力,构成关系序列PA″=[PA″1,PA″2,…,PA″N];PA″n表示图像上下文关系序列P″对属性上下文关系序列A″中第n个元素A″n的注意力;
(5)构建训练样本集,所述训练样本集中的图像为行人全身图像,并对图像中的行人标定每个属性标签gn和类别标签w;
将样本集中的图像输入图像竖直方向编码网络,将样本图像中的行人属性序列初始化为随机值;
通过最小化损失函数的值,得到训练好的图像竖直方向编码网络、类内注意力模型和类间注意力模型;所述损失函数包括属性损失和行人识别损失;
其中pID(c)为样本行人属于第c类的概率;C为行人类别总数;当c=w时,qID(c)=1,否则qID(c)=0;w为训练样本中行人的真实类别标签;
总的损失函数为:Lfinal=La+LID;
所述识别阶段的步骤为:
(6)将待识别图像中行人的属性序列初始化为随机值,且p≠q时p,q=1,2,…,N;待识别图像输入到图像竖直方向编码网络中,得到图像序列At和Pt经过类内注意力模型,得到属性上下文关系序列A″t和图像上下文关系序列P″t;A″t和P″t经过类间注意力模型得到图像与属性之间的关系序列PA″t;PA″t经过softmax层,得到待识别图像中行人每个属性属于该属性每个类别的概率,选择概率值最大的类别作为该属性的类别。
所述图像竖直方向编码网络的采用resnet50的残差网络结构。
所述类内注意力模型计算序列Seq=[Seq1,Seq2,…,SeqB]对其元素Seqb的注意力Seq″b,b=1,2,…,B;所述类内注意力模型包括并行的U个子类内注意力模型和一个全连接层F3,每个子类内注意力模型的结构相同,参数不同,在不同的映射子空间计算Seq对Seqb的注意力Seq′b;F3的参数为Wf;将不同映射子空间中Seq对Seqb的注意力Seqb合并到同一空间,经过全连接层F3得到Seq对Seqb的最终注意力Seq″b;
所述第u个子类内注意力模型,u=1,2,…,U,包括:
U个子类内注意力模型的输出拼接起来经过全连接层F3,得到Seq″b:
所述类间注意力模型计算序列Seq=[Seq1,Seq2,…,SeqB]对序列Req=[Req1,Req2,…,ReqL]中的元素Reql的注意力SReq″l,l=1,2,…,L;所述类间注意力模型包括并行的U个子类间注意力模型和一个全连接层F6,每个子类间注意力模型的结构相同,参数不同,在不同的映射子空间计算Seq对Reql的注意力SReq′l;F6的参数为Wfa;将不同映射子空间Seq对Reql的注意力SReq′l合并到同一空间,经过全连接层F6得到Seq对Reql的最终注意力SReq″l;
所述第u个子类间注意力模型,u=1,2,…,U,包括:
U个子类间注意力模型的输出拼接起来经过全连接层F6,得到SReq″l:
本发明中,相似度归一化采用softmax函数实现。
作为一种改进,对训练样本集图像中的行人标定属性标识串,所述属性标识串为图像中行人所具备的属性在属性映射表中序号所组成的数字串;
所述损失函数还包括CTC损失,所述CTC损失为:
LCTC=-ln(pctc(y|Ps))
其中Ps为样本图像经过图像竖直方向编码网络编码后的图像序列;y为样本图像中行人的属性标识串;pctc(y|Ps)为根据样本图像的图像序列将样本图像中行人属性标识串识别为其真实属性标识串y的概率;
总的损失函数为:Lfinal=La+LID+LCTC。
所述pctc(y|Ps)的计算步骤为:
(7.1)将样本图像经过图像竖直方向编码网络编码的图像序列Ps输入循环神经网络RNN1中得到样本图像中行人所具有的属性的概率和属性的组合;所述RNN1包含两层双向RNN层,每层双向RNN层的节点数与Ps中每个元素的维数相同;RNN1的输出单元个数为M,第m个输出单元的输出FRm为根据图像序列Ps第m个元素Psm将样本图像中的行人识别为具有属性πm的概率p(πm|Psm);πm∈[1,2,…,N]∪[ε],ε表示无法识别的属性;πm构成属性组合π=(π1,π2,…,πM);
本发明采用reshape网络计算图像中行人属于第c类的概率pID(c),具体步骤为:
构建reshape网络,所述reshape网络包括依次连接的第一卷积层RConv_1、第一最大池化层RMaxPool_1、第二卷积层RConv_2、第二最大池化层RMaxPool_2和全连接层RFC_1;
所述第一卷积层RConv_1卷积核为1×1,输出通道为1024,步长为[2,1],输出大小为14×1×1024;
所述第一最大池化层RMaxPool_1卷积核为1×1,输出通道为1024,步长为[2,1],输出大小为7×1×1024;
所述第二卷积层RConv_2卷积核为1×1,输出通道为1024,步长为[2,1],输出大小为4×1×1024;
所述第二最大池化层RMaxPool_2卷积核为3×1,输出通道为1024,步长为[2,1],输出大小为1×1×1024;
全连接层RFC_1卷积核为1×1,输出通道为行人类别总数C,步长为1,输出大小为1×C;
其中FID(i)为FID第i个元素的值。
另一方面,本发明提供了一种实现上述行人属性识别方法的识别系统,该识别系统包括:
图像竖直方向编码网络1,用于将图像在竖直方向编码为长度为M的图像序列P=[P1,P2,…,PM];M为图像序列的长度;
属性映射表存储模块2,用于存储属性映射表;所述属性映射表中定义了图像中行人的属性;根据属性映射表将行人属性编码为属性序列A=[A1,A2,…,AN];N为属性种类总数;
类内注意力模型3,用于计算图像序列P各元素间的上下文关系P″m和属性序列A各元素间的上下文关系A″n,得到图像上下文关系序列P″=[P″1,P″2,…,P″M]和属性上下文关系序列A″=[A″1,A″2,…,A″N];其中P″m表示图像序列P对其第m个元素的注意力;A″n表示属性序列A对其第n个元素的注意力;m=1,2,…,M,n=1,2,…,N;
类间注意力模型4,用于计算图像上下文关系序列P″与属性上下文关系序列A″中每个元素的注意力,构成关系序列PA″=[PA″1,PA″2,…,PA″N];PA″n表示图像上下文关系序列P″对属性上下文关系序列A″中第n个元素A″n的注意力;
模型训练模块5,包括训练样本输入模块5-1和损失计算模块5-2,所述损失计算模块包括属性损失计算模块5-2A和行人识别损失计算模块5-2B;
训练样本输入模块5-1用于将标定好的训练样本输入图像竖直方向编码网络;
行人识别损失计算模块5-2B用于计算行人识别损失,所述行人识别损失为:
其中pID(c)为样本行人属于第c类的概率;C为行人类别总数;当c=w时,qID(c)=1,否则qID(c)=0;w为训练样本中行人的真实类别标签;
总的损失函数为:Lfinal=La+LID;
属性识别结果输出模块6,用于根据待识别图像的图像与属性之间的关系序列PA″t得到待识别图像中行人每个属性的类别。
作为一种改进,损失计算模块5-2还包括CTC损失计算模块5-2C,CTC损失计算模块5-2C用于计算CTC损失,CTC损失为:LCTC=-ln(pctc(y|Ps));
其中Ps为样本图像经过图像竖直方向编码网络编码后的图像序列;y为样本图像中行人的属性标识串;pctc(y|Ps)为根据样本图像的图像序列将样本图像中行人属性标识串识别为其真实属性标识串y的概率;
总的损失函数为:Lfinal=La+LID+LCTC。
有益效果:本发明公开的基于序列上下文关系学习的行人属性识别方法和识别系统将图像和属性编码成序列,并利用类内注意力模型学习图像序列或属性序列的序列间上下文关系,从而获得更多的细节特征;同时,利用类间注意力模型,学习图像序列与属性序列两者之间的关系,从而实现在识别每个属性时可以关注到与该属性更相关的图像序列;由此来提高识别准确率。
附图说明
图1为本发明公开的行人属性识别方法的流程图;
图2为本发明公开的行人属性识别系统的组成图;
图3为子类内注意力模型的组成结构图;
图4为类内注意力模型的组成结构图;
图5为子类间注意力模型的组成结构图;
图6为类间注意力模型的组成结构图;
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1所示,本发明一方面提供了一种基于序列上下文关系学习的行人属性识别方法,包括训练阶段和识别阶段;所述训练阶段建立并训练行人属性识别系统,行人属性识别系统的组成框图如图2所示。训练阶段的步骤为:
步骤1、建立图像竖直方向编码网络1,编码网络将图像在竖直方向编码为长度为M的图像序列P=[P1,P2,…,PM];M为图像序列的长度;
本发明中,图像竖直方向编码网络的采用卷积神经网络CNN对图像在竖直方向编码,具体采用resnet50的残差网络结构,包括第一卷积层Conv_1、第一池化层MaxPool_1、4个卷积块conv2_x-conv 5_x、第二池化层MaxPool_2和全连接层FC_1;其参数见表1。
表1
其中Conv_2x,Conv_4x,Conv_5x的步长为:第一个卷积块的第一个卷积层步长为[1,2],其他层均为1;Conv_3x的步长为:第一个卷积块的第一个卷积层步长为[2,1],其他层均为1。
本实施例中图像竖直方向编码网络1输入图像的尺寸为224×112,经过编码得到的图像序列为28×1×1024的矩阵,即M=28,P=[P1,P2,…,P28],图像序列P中每个元素Pm均为1024维的向量;m=1,2,…,M。
步骤2、建立属性映射表,本实施例中,将属性映射表存储于属性映射表存储模块2中;属性映射表中定义了图像中行人的属性;根据属性映射表将行人属性编码为属性序列A=[A1,A2,…,AN];N为属性种类总数;
本实施例中定义了22种属性,即N=22,具体属性见表2。
表2
1 | 帽子 | 6 | 上衣灰 | 11 | 背包 | 16 | 下衣红 | 21 | 鞋子 |
2 | 上衣黑 | 7 | 上衣蓝 | 12 | 包 | 17 | 下衣灰 | 22 | 性别 |
3 | 上衣白 | 8 | 上衣绿 | 13 | 手拿包 | 18 | 下衣蓝 | ||
4 | 上衣红 | 9 | 上衣棕 | 14 | 下衣黑 | 19 | 下衣绿 | ||
5 | 上衣紫 | 10 | 上衣长短 | 15 | 下衣白 | 20 | 下衣棕 |
根据表2可知,可以得到属性序列A=[A1,A2,…,A22],其中第n个元素An表示第n的类别用1024维的向量表示;本实施例中每个属性的类别数均为2,如第1个属性的第一类别为行人戴帽子,第二个类别为不戴帽子,即是否戴帽子用1024维的向量来表示。
步骤3、建立类内注意力模型3,所述类内注意力模型计算图像序列P各元素间的上下文关系P″m和属性序列A各元素间的上下文关系A″n,得到图像上下文关系序列P″=[P″1,P″2,…,P″M]和属性上下文关系序列A″=[A″1,A″2,…,A″N];其中P″m表示图像序列P对其第m个元素的注意力;A″n表示属性序列A对其第n个元素的注意力;m=1,2,…,M,n=1,2,…,N;
本发明中,类内注意力模型包括并行的U个子类内注意力模型和一个全连接层F3,每个子类内注意力模型的结构相同,参数不同,在不同的映射子空间计算Seq对Seqb的注意力Seq′b;F3的参数为Wf;将不同映射子空间中Seq对Seqb的注意力Seqb合并到同一空间,经过全连接层F3得到Seq对Seqb的最终注意力Seq″b;第u个子类内注意力模型,u=1,2,…,U,包括:
U个子类内注意力模型的输出拼接起来经过全连接层F3,得到Seq″b:
即类内注意力模型计算一个序列Seq=[Seq1,Seq2,…,SeqB]对其内部元素Seqb的注意力Seq″b,b=1,2,…,B;Seq″b构成的序列Seq″=[Seq″1,Seq″2,…,Seq″B]反映了序列Seq对其自身的注意力。采用并行的多个子类内注意力模型能够获取不同的映射子空间的序列的相似度。
本实施例中,采用8个并行的子类内注意力模型,即U=8,如图3和图4所示,为类内注意力模型3的示意图,其中图3为子类内注意力模型3-1的结构图,图4为类内注意力模型的结构图。每个子类内注意力模型中两个全连接层的输入维度均为1024,输出维度均为128,db=128;第u个子类内注意力模型计算得到的Seq对Seqb的注意力为128维向量,将8个子类内注意力模型的输出拼接起来的结果为1024维向量。全连接层F3的输入输出维度与Seqb的维度相同,本实施例中,均为1024,即Seq″b为1024维向量。
分别计算P=[P1,P2,…,P28]对其每个元素的注意力,得到图像上下文关系序列P″=[P″1,P″2,…,P″28];分别计算A=[A1,A2,…,A22]其每个元素的注意力,得到属性上下文关系序列A″=[A″1,A″2,…,A″22],其中P″m和A″n均为1024维向量。
步骤4、建立类间注意力模型4,所述类间注意力模型计算图像上下文关系序列P″与属性上下文关系序列A″中每个元素的注意力,构成关系序列PA″=[PA″1,PA″2,…,PA″N];PA″n表示图像上下文关系序列P″对属性上下文关系序列A″中第n个元素A″n的注意力;
类间注意力模型计算序列Seq=[Seq1,Seq2,…,SeqB]对序列Req=[Req1,Req2,…,ReqL]中的元素Reql的注意力SReq″l,l=1,2,…,L;所述类间注意力模型包括并行的U个子类间注意力模型4-1和一个全连接层F6,每个子类间注意力模型的结构相同,参数不同,在不同的映射子空间计算Seq对Reql的注意力SReq′l;F6的参数为Wfa;将不同映射子空间Seq对Reql的注意力SReq′l合并到同一空间,经过全连接层F6得到Seq对Reql的最终注意力SReq″l;
所述第u个子类间注意力模型,u=1,2,…,U,包括:
其中sjl为Seq第j个元素Seqj与Reql在当前子空间的归一化相似度,本实施例中同样采用softmax函数来进行相似度归一化的计算:其中为Seqj与Reql在当前子空间的相似度,fl为的输出维度;
U个子类间注意力模型的输出拼接起来经过全连接层F6,得到SReq″l:
本实施例中,同样采用8个并行的子类间注意力模型,Seq为P″=[P″1,P″2,…,P″28],Reql为A″=[A″1,A″2,…,A″22]中的元素。如图4和图5所示,为类间注意力模块4的示意图,其中图4为子类间注意力模型的结构图,图5为类间注意力模型的结构图。其结构与类内注意力模块3的结构相同,但参数不同。同样地,全连接层F6的输入输出维度与Reql的维度相同,本实施例中,均为1024,即SReq″l为1024维向量。最终得到的关系序列为PA″=[PA″1,PA″2,…,PA″22]。
步骤5、构建训练样本集,所述训练样本集中的图像为行人全身图像,并对图像中的行人标定每个属性标签gn、类别标签w,并标定属性标识串,所述属性标识串为图像中行人所具备的属性在属性映射表中序号所组成的数字串;
将样本集中的图像随机选择64张作为一组输入图像竖直方向编码网络,并将样本图像中的行人属性序列中的元素初始化为1024维的随机值;
通过最小化损失函数的值,得到训练好的图像竖直方向编码网络、类内注意力模型和类间注意力模型;损失函数包括属性损失、行人识别损失和CTC损失;
行人属性识别系统的训练由模型训练模块5来实现,其包括训练样本输入模块5-1和损失计算模块5-2,损失计算模块包括属性损失计算模块5-2A、行人识别损失计算模块5-2B和CTC损失计算模块5-2C。训练样本输入模块5-1用于将标定好的训练样本输入图像竖直方向编码网络;所述属性损失计算模块5-2A用于计算属性损失,属性损失为:
本实施例中,将类间注意力模型4的输出PA″=[PA″1,PA″2,…,PA″N]后面接N个全连接层,PA″的第n个元素PA″n输入到第第n个全连接层Fan中,Fan的输入维度为PA″n的维度,本实施例中为1024;Fan的输出维度是第n个属性的类别数Kn,本实施例中Kn=2;记Fan的输出为在Fan后接softmax层,得到第n个属性为第k类的概率pa(k):
行人识别损失计算模块5-2B用于计算行人识别损失,所述行人识别损失为:
其中pID(c)为样本行人属于第c类的概率;C为行人类别总数;当c=w时,qID(c)=1,否则qID(c)=0;w为训练样本中行人的真实类别标签;
本发明采用reshape网络计算图像中行人属于第c类的概率pID(c),具体步骤为:
构建reshape网络,所述reshape网络包括依次连接的第一卷积层RConv_1、第一最大池化层RMaxPool_1、第二卷积层RConv_2、第二最大池化层RMaxPool_2和全连接层RFC_1;reshape网络的参数如表3。
表3
将样本图像经过图像竖直方向编码网络编码后的图像序列Ps输入reshape网络,得到样本图像的特征FID∈R1×1×C,将FID输入softmax层,得到图像中行人属于第c类的概率pID(c):其中FID(i)为FID第i个元素的值。
为了增加行人属性识别方法的鲁棒性,本实施例的损失函数还包括CTC损失函数,采用CTC损失计算模块5-2C来计算CTC损失LCTC:
LCTC=-ln(pctc(y|Ps))
其中Ps为样本图像经过图像竖直方向编码网络编码后的图像序列;y为样本图像中行人的属性标识串;以本实施例中表2所定义的属性映射表,如图像中行人为不戴帽子,穿黑上衣,背包,灰裤子,低帮鞋子的男性,则其属性标识串y为:[2,11,17,21,22];如果图像中行人为戴帽子,穿黑上衣,背包,灰裤子,高帮鞋子的女性,则其属性标识串y为:[1,2,11,17]。
pctc(y|Ps)为根据样本图像的图像序列将样本图像中行人属性标识串识别为其真实属性标识串y的概率;
本发明中pctc(y|Ps)的计算步骤为:
(7.1)将样本图像经过图像竖直方向编码网络编码的图像序列Ps输入循环神经网络RNN1中得到样本图像中行人所具有的属性的概率和属性的组合;所述RNN1包含两层双向RNN层,每层双向RNN层的节点数与Ps中每个元素的维数相同;RNN1的输出单元个数为M,第m个输出单元的输出FRm为根据图像序列Ps第m个元素Psm将样本图像中的行人识别为具有属性πm的概率p(πm|Psm);πm∈[1,2,…,N]∪[ε],ε表示无法识别的属性;πm构成属性组合π=(π1,π2,…,πM);
如果RNN1不同的输出单元识别出的属性有重复或为ε,根据文献:Graves A,Fernández S,Gomez F,et al.Connectionist temporal classification:labellingunsegmented sequence data with recurrent neural networks[C]//Proceedings of the 23rd international conference on Machine learning.ACM,2006:369-376.对π进行删减,删除重复的属性和ε;如果删减后的属性集合π′等于y,则将当前样本的属性集合π作为一个元素加入到样本属性集合所构成的集合中;
损失计算模块的输出为总的损失函数:Lfinal=La+LID+LCTC。
所述识别阶段的步骤为:
步骤6、将待识别图像中行人的属性序列初始化为随机值,且p≠q时p,q=1,2,…,N;待识别图像输入到图像竖直方向编码网络中,得到图像序列At和Pt经过类内注意力模型,得到属性上下文关系序列A″t和图像上下文关系序列P″t;A″t和P″t经过类间注意力模型得到图像与属性之间的关系序列PA″t;PA″t经过softmax层,得到待识别图像中行人每个属性属于该属性每个类别的概率,选择概率值最大的类别作为该属性的类别。由PA″t得到最终属性识别结果的过程由属性识别结果输出模块6来完成。
本实施例在Duke属性数据集上进行测试,并与几种现有行人属性识别方法进行了对比,测试结果如表4所示,其中mA是22类属性的平均正确率。
表4:实验结果
Methods | mA(%) |
APR | 86.6 |
Sun et al.[4] | 88.3 |
MLFN[5] | 87.5 |
Our w/o CTC | 88.2 |
Our | 89.3 |
表4中APR为采用文献:Lin Y,Zheng L,Zheng Z,et al.Improving person re-identification by attribute and identity learning[J].Pattern Recognition,2019中的方法的结果;
Sun et al.[4]为采用文献:Sun C,Jiang N,Zhang L,et al.Unified frameworkfor joint attribute classification and person re-identification[C]//International Conference on Artificial Neural Networks.Springer,Cham,2018:637-647.中的方法的结果;
MLFN为采用文献:Chang X,Hospedales T M,Xiang T.Multi-levelfactorisation net for person re-identification[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2018:2109-2118.中的方法的结果;
Our w/o CTC为采用本发明公开的行人属性识别方法,总的损失函数为:Lfinal=La+LID情况下的结果;
Our为采用本发明公开的行人属性识别方法,总的损失函数为:Lfinal=La+LID+LCTC情况下的结果;
从表4可以看出,本发明公开的方法识别平均准确率是优于现有的行人属性识别方法。并且,通过没有CTC损失函数的实验结果可以看出,本发明中加入CTC损失函数可以提高识别的平均正确率。
Claims (10)
1.基于序列上下文关系学习的行人属性识别方法,其特征在于,包括训练阶段和识别阶段;所述训练阶段的步骤为:
(1)建立图像竖直方向编码网络,所述编码网络将图像在竖直方向编码为长度为M的图像序列P=[P1,P2,…,PM];M为图像序列的长度;
(2)建立属性映射表,所述属性映射表中定义了图像中行人的属性;根据属性映射表将行人属性编码为属性序列A=[A1,A2,…,AN];N为属性种类总数;
(3)建立类内注意力模型,所述类内注意力模型计算图像序列P各元素间的上下文关系P″m和属性序列A各元素间的上下文关系A″n,得到图像上下文关系序列P″=[P1″,P″2,…,P″M]和属性上下文关系序列A″=[A″1,A″2,…,A″N];其中P″m表示图像序列P对其第m个元素的注意力;A″n表示属性序列A对其第n个元素的注意力;m=1,2,…,M,n=1,2,…,N;
(4)建立类间注意力模型,所述类间注意力模型计算图像上下文关系序列P″与属性上下文关系序列A″中每个元素的注意力,构成关系序列PA″=[PA″1,PA″2,…,PA″N];PA″n表示图像上下文关系序列P″对属性上下文关系序列A″中第n个元素A″n的注意力;
(5)构建训练样本集,所述训练样本集中的图像为行人全身图像,并对图像中的行人标定每个属性标签gn和类别标签w;
将样本集中的图像输入图像竖直方向编码网络,将样本图像中的行人属性序列初始化为随机值;
通过最小化损失函数的值,得到训练好的图像竖直方向编码网络、类内注意力模型和类间注意力模型;所述损失函数包括属性损失和行人识别损失;
所述属性损失为:
所述行人识别损失为:
其中pID(c)为样本行人属于第c类的概率;C为行人类别总数;当c=w时,qID(c)=1,否则qID(c)=0;w为训练样本中行人的真实类别标签;
总的损失函数为:Lfinal=La+LID;
所述识别阶段的步骤为:
2.根据权利要求1所述的基于序列上下文关系学习的行人属性识别方法,其特征在于,所述图像竖直方向编码网络采用resnet50的残差网络结构。
3.根据权利要求1所述的基于序列上下文关系学习的行人属性识别方法,其特征在于,所述类内注意力模型计算序列Seq=[Seq1,Seq2,…,SeqB]对其元素Seqb的注意力Seq″b,b=1,2,…,B;所述类内注意力模型包括并行的U个子类内注意力模型(3-1)和一个全连接层F3,每个子类内注意力模型的结构相同,参数不同,在不同的映射子空间计算Seq对Seqb的注意力Seq′b;F3的参数为Wf;将不同映射子空间中Seq对Seqb的注意力Seqb合并到同一空间,经过全连接层F3得到Seq对Seqb的最终注意力Seq″b;
所述U个子类内注意力模型中的第u个子类内注意力模型,u=1,2,…,U,包括:
U个子类内注意力模型的输出拼接起来经过全连接层F3,得到Seq″b:
4.根据权利要求1所述的基于序列上下文关系学习的行人属性识别方法,其特征在于,所述类间注意力模型计算序列Seq=[Seq1,Seq2,…,SeqB]对序列Req=[Req1,Req2,…,ReqL]中的元素Reql的注意力SReq″l,l=1,2,…,L;所述类间注意力模型包括并行的U个子类间注意力模型(4-1)和一个全连接层F6,每个子类间注意力模型的结构相同,参数不同,在不同的映射子空间计算Seq对Reql的注意力SReq′l;F6的参数为Wfa;将不同映射子空间Seq对Reql的注意力SReq′l合并到同一空间,经过全连接层F6得到Seq对Reql的最终注意力SReq″l;
所述U个子类间注意力模型中的第u个子类间注意力模型(4-1),u=1,2,…,U,包括:
U个子类间注意力模型的输出拼接起来经过全连接层F6,得到SReq″l:
5.根据权利要求1所述的基于序列上下文关系学习的行人属性识别方法,其特征在于,对训练样本集图像中的行人标定属性标识串,所述属性标识串为图像中行人所具备的属性在属性映射表中序号所组成的数字串;
所述损失函数还包括CTC损失,所述CTC损失为:
LCTC=-ln(pctc(y|Ps))
其中Ps为样本图像经过图像竖直方向编码网络编码后的图像序列;y为样本图像中行人的真实属性标识串;pctc(y|Ps)为根据样本图像的图像序列将样本图像中行人属性标识串识别为其真实属性标识串y的概率;
总的损失函数为:Lfinal=La+LID+LCTC。
6.根据权利要求3或4中任一项所述的基于序列上下文关系学习的行人属性识别方法,其特征在于,所述相似度归一化采用softmax函数实现。
7.根据权利要求5所述的基于序列上下文关系学习的行人属性识别方法,其特征在于,所述pctc(y|Ps)的计算步骤为:
(7.1)将样本图像经过图像竖直方向编码网络编码的图像序列Ps输入循环神经网络RNN1中得到样本图像中行人所具有的属性的概率和属性的组合;所述RNN1包含两层双向RNN层,每层双向RNN层的节点数与Ps中每个元素的维数相同;RNN1的输出单元个数为M,第m个输出单元的输出FRm为根据图像序列Ps第m个元素Psm将样本图像中的行人识别为具有属性πm的概率p(πm|Psm);πm∈[1,2,…,N]∪[ε],ε表示无法识别的属性;πm构成属性组合π=(π1,π2,…,πM);
8.根据权利要求1所述的基于序列上下文关系学习的行人属性识别方法,其特征在于,采用reshape网络计算图像中行人属于第c类的概率pID(c),具体步骤为:
构建reshape网络,所述reshape网络包括依次连接的第一卷积层RConv_1、第一最大池化层RMaxPool_1、第二卷积层RConv_2、第二最大池化层RMaxPool_2和全连接层RFC_1;
所述第一卷积层RConv_1卷积核为1×1,输出通道为1024,步长为[2,1],输出大小为14×1×1024;
所述第一最大池化层RMaxPool_1卷积核为1×1,输出通道为1024,步长为[2,1],输出大小为7×1×1024;
所述第二卷积层RConv_2卷积核为1×1,输出通道为1024,步长为[2,1],输出大小为4×1×1024;
所述第二最大池化层RMaxPool_2卷积核为3×1,输出通道为1024,步长为[2,1],输出大小为1×1×1024;
全连接层RFC_1卷积核为1×1,输出通道为行人类别总数C,步长为1,输出大小为1×C;
其中FID(i)为FID第i个元素的值。
9.基于序列上下文关系学习的行人属性识别系统,其特征在于,包括:
图像竖直方向编码网络(1),用于将图像在竖直方向编码为长度为M的图像序列P=[P1,P2,…,PM];M为图像序列的长度;
属性映射表存储模块(2),用于存储属性映射表;所述属性映射表中定义了图像中行人的属性;根据属性映射表将行人属性编码为属性序列A=[A1,A2,…,AN];N为属性种类总数;
类内注意力模型(3),用于计算图像序列P各元素间的上下文关系P″m和属性序列A各元素间的上下文关系A″n,得到图像上下文关系序列P″=[P1″,P″2,…,P″M]和属性上下文关系序列A″=[A″1,A″2,…,A″N];其中P″m表示图像序列P对其第m个元素的注意力;A″n表示属性序列A对其第n个元素的注意力;m=1,2,…,M,n=1,2,…,N;
类间注意力模型(4),用于计算图像上下文关系序列P″与属性上下文关系序列A″中每个元素的注意力,构成关系序列PA″=[PA″1,PA″2,…,PA″N];PA″n表示图像上下文关系序列P″对属性上下文关系序列A″中第n个元素A″n的注意力;
模型训练模块(5),包括训练样本输入模块(5-1)和损失计算模块(5-2),所述损失计算模块包括属性损失计算模块(5-2A)和行人识别损失计算模块(5-2B);
所述训练样本输入模块(5-1)用于将标定好的训练样本输入图像竖直方向编码网络;
所述属性损失计算模块(5-2A)用于计算属性损失,所述属性损失为:
所述行人识别损失计算模块(5-2B)用于计算行人识别损失,所述行人识别损失为:
其中pID(c)为样本行人属于第c类的概率;C为行人类别总数;当c=w时,qID(c)=1,否则qID(c)=0;w为训练样本中行人的真实类别标签;
总的损失函数为:Lfinal=La+LID;
属性识别结果输出模块(6),用于根据待识别图像的图像与属性之间的关系序列PA″t得到待识别图像中行人每个属性的类别;
PA″t采用如下步骤获得:
10.根据权利要求9所述的基于序列上下文关系学习的行人属性识别系统,其特征在于,所述损失计算模块(5-2)还包括CTC损失计算模块(5-2C),所述CTC损失计算模块(5-2C)用于计算CTC损失,所述CTC损失为:
LCTC=-ln(pctc(y|Ps))
其中Ps为样本图像经过图像竖直方向编码网络编码后的图像序列;y为样本图像中行人的属性标识串;pctc(y|Ps)为根据样本图像的图像序列将样本图像中行人属性标识串识别为其真实属性标识串y的概率;
总的损失函数为:Lfinal=La+LID+LCTC。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910862510.2A CN110598631B (zh) | 2019-09-12 | 2019-09-12 | 基于序列上下文关系学习的行人属性识别方法和识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910862510.2A CN110598631B (zh) | 2019-09-12 | 2019-09-12 | 基于序列上下文关系学习的行人属性识别方法和识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598631A CN110598631A (zh) | 2019-12-20 |
CN110598631B true CN110598631B (zh) | 2021-04-02 |
Family
ID=68859004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910862510.2A Active CN110598631B (zh) | 2019-09-12 | 2019-09-12 | 基于序列上下文关系学习的行人属性识别方法和识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598631B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112241761B (zh) * | 2020-10-15 | 2024-03-26 | 北京字跳网络技术有限公司 | 模型训练方法、装置和电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344700A (zh) * | 2018-08-22 | 2019-02-15 | 浙江工商大学 | 一种基于深度神经网络的行人姿态属性识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9047488B2 (en) * | 2013-03-15 | 2015-06-02 | International Business Machines Corporation | Anonymizing sensitive identifying information based on relational context across a group |
US20150310300A1 (en) * | 2014-04-28 | 2015-10-29 | Distiller, Llc | System and method for multiple object recognition and personalized recommendations |
CN108921051B (zh) * | 2018-06-15 | 2022-05-20 | 清华大学 | 基于循环神经网络注意力模型的行人属性识别网络及技术 |
CN109190472B (zh) * | 2018-07-28 | 2021-09-14 | 天津大学 | 基于图像与属性联合引导的行人属性识别方法 |
CN110046550B (zh) * | 2019-03-14 | 2021-07-13 | 中山大学 | 基于多层特征学习的行人属性识别系统及方法 |
-
2019
- 2019-09-12 CN CN201910862510.2A patent/CN110598631B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344700A (zh) * | 2018-08-22 | 2019-02-15 | 浙江工商大学 | 一种基于深度神经网络的行人姿态属性识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110598631A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111898547B (zh) | 人脸识别模型的训练方法、装置、设备及存储介质 | |
CN110674756B (zh) | 人体属性识别模型训练方法、人体属性识别方法及装置 | |
Shi et al. | A facial expression recognition method based on a multibranch cross-connection convolutional neural network | |
CN110188227B (zh) | 一种基于深度学习与低秩矩阵优化的哈希图像检索方法 | |
Xiang et al. | Fabric image retrieval system using hierarchical search based on deep convolutional neural network | |
CN112801015B (zh) | 一种基于注意力机制的多模态人脸识别方法 | |
CN111639544A (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
CN110852276B (zh) | 一种基于多任务深度学习的行人再识别方法 | |
CN109325443A (zh) | 一种基于多实例多标签深度迁移学习的人脸属性识别方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN109241317A (zh) | 基于深度学习网络中度量损失的行人哈希检索方法 | |
CN112464730B (zh) | 一种基于域无关前景特征学习的行人再识别方法 | |
CN112733602B (zh) | 关系引导的行人属性识别方法 | |
CN108984642A (zh) | 一种基于哈希编码的印花织物图像检索方法 | |
CN112784728A (zh) | 基于衣物脱敏网络的多粒度换衣行人重识别方法 | |
CN116704611A (zh) | 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法 | |
CN110598631B (zh) | 基于序列上下文关系学习的行人属性识别方法和识别系统 | |
CN109657586A (zh) | 一种基于排序卷积神经网络的人脸表情分析方法及系统 | |
Cheng et al. | Data‐driven pedestrian re‐identification based on hierarchical semantic representation | |
Fang et al. | Pedestrian attributes recognition in surveillance scenarios with hierarchical multi-task CNN models | |
CN112800979A (zh) | 一种基于表征流嵌入网络的动态表情识别方法及系统 | |
CN112149556A (zh) | 一种基于深度互学习和知识传递的人脸属性识别方法 | |
Méndez-Vázquez et al. | Local deep features for composite face sketch recognition | |
CN112508135B (zh) | 模型训练方法、行人属性预测方法、装置及设备 | |
CN114821632A (zh) | 一种遮挡行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |