CN110598631B

CN110598631B - 基于序列上下文关系学习的行人属性识别方法和识别系统

Info

Publication number: CN110598631B
Application number: CN201910862510.2A
Authority: CN
Inventors: 齐美彬; 吴晶晶; 蒋建国; 杨艳芳; 杨玉兵; 周国武; 许绍清; 汪伟
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2021-04-02
Anticipated expiration: 2039-09-12
Also published as: CN110598631A

Abstract

本发明公开了一种基于序列上下文关系学习的行人属性识别方法和识别系统，其中行人属性识别方法包括：建立并训练行人识别系统；将待识别图像在竖直方向编码为图像序列，属性序列初始化为随机值；利用训练好的行人识别系统计算图像上下文关系序列和属性上下文关系序列；计算图像上下文关系序列对属性上下文关系序列中每个元素的注意力；计算每个属性属于该属性每个类别的概率，选择概率值最大的类别作为该属性的类别。该方法充分利用了图像序列间的上下文关系、属性间的上下文关系以及图像与属性间的上下文关系，提高了行人属性识别的准确率。

Description

基于序列上下文关系学习的行人属性识别方法和识别系统

技术领域

本发明属于行人属性识别技术领域，具体涉及一种结合图像与属性类内和类间关系的行人识别方法与系统。

背景技术

行人属性识别的任务就是去预测图像中的行人的属性标签，包括年龄，性别，衣服的颜色等。这些属性中包含着能够描述行人外观丰富的语义信息，能够给行人识别任务带来有益的信息，具有较高的应用价值，从而其获得了广泛的关注。其主要难点在于行人角度和照片光照的变化以及远距离会影响到识别的准确度。

为了提交行人属性识别的准确度，目前的方法大多通过输入一整张图像进入分类网络，分别将每一种属性做分类预测，例如性别为一个男或者女的二分类预测。虽然上述方法取得了较好的结果，但是其仍然忽略了图像间以及属性间的问题。属性间不同的元素，包含着大量的上下文关系，例如穿裙子的人基本都是女性。同时图像间的不同元素，也包含着大量相互关系，例如图像中的不同元素包括着行人的不同身体区域，这些区域之间存在着内在的空间关系。这些上下文关系均将有助于提高识别的准确率。因此有些方法采用将图像手动分块或是将属性手动分组并来获取图像间或是属性间的元素间上下文关系，但是这些方法需要利用先验知识来将图像分成固定数量的块数或是将属性分成固定的组，这样固定的分组使得属性间上下文关系的学习具有局限性且有一些不合理，普适性较低，当有新的属性加入时还需要重新分组。

发明内容

发明目的：本发明旨在提供一种识别准确率较高的行人属性识别方法，该方法充分利用了图像序列间的上下文关系、属性间的上下文关系以及图像与属性间的上下文关系，提高了行人属性识别的准确率。

技术方案：本发明一方面提供了一种基于序列上下文关系学习的行人属性识别方法，包括训练阶段和识别阶段；所述训练阶段的步骤为：

(1)建立图像竖直方向编码网络，所述编码网络将图像在竖直方向编码为长度为M的图像序列P＝[P₁,P₂,…,P_M]；M为图像序列的长度；

(2)建立属性映射表，所述属性映射表中定义了图像中行人的属性；根据属性映射表将行人属性编码为属性序列A＝[A₁,A₂,…,A_N]；N为属性种类总数；

(3)建立类内注意力模型，所述类内注意力模型计算图像序列P各元素间的上下文关系P″_m和属性序列A各元素间的上下文关系A″_n，得到图像上下文关系序列P″＝[P″₁,P″₂,…,P″_M]和属性上下文关系序列A″＝[A″₁,A″₂,…,A″_N]；其中P″_m表示图像序列P对其第m个元素的注意力；A″_n表示属性序列A对其第n个元素的注意力；m＝1,2,…,M，n＝1,2,…,N；

(4)建立类间注意力模型，所述类间注意力模型计算图像上下文关系序列P″与属性上下文关系序列A″中每个元素的注意力，构成关系序列PA″＝[PA″₁,PA″₂,…,PA″_N]；PA″_n表示图像上下文关系序列P″对属性上下文关系序列A″中第n个元素A″_n的注意力；

(5)构建训练样本集，所述训练样本集中的图像为行人全身图像，并对图像中的行人标定每个属性标签g_n和类别标签w；

将样本集中的图像输入图像竖直方向编码网络，将样本图像中的行人属性序列初始化为随机值；

通过最小化损失函数的值，得到训练好的图像竖直方向编码网络、类内注意力模型和类间注意力模型；所述损失函数包括属性损失和行人识别损失；

所述属性损失为：

其中Laⁿ为第n个属性的损失，

Kⁿ为第n个属性的类别数，p_a(k)为第n个属性为第k类的概率；当k＝g_n时，q_a(k)＝1，否则q_a(k)＝0；g_n为训练样本中行人第n个属性的真实标签；

所述行人识别损失为：

其中p_ID(c)为样本行人属于第c类的概率；C为行人类别总数；当c＝w时，q_ID(c)＝1，否则q_ID(c)＝0；w为训练样本中行人的真实类别标签；

总的损失函数为：L_final＝L_a+L_ID；

所述识别阶段的步骤为：

(6)将待识别图像中行人的属性序列

初始化为随机值，且p≠q时

p,q＝1,2,…,N；待识别图像输入到图像竖直方向编码网络中，得到图像序列

A^t和P^t经过类内注意力模型，得到属性上下文关系序列A″_t和图像上下文关系序列P″_t；A″_t和P″_t经过类间注意力模型得到图像与属性之间的关系序列PA″_t；PA″_t经过softmax层，得到待识别图像中行人每个属性属于该属性每个类别的概率，选择概率值最大的类别作为该属性的类别。

所述图像竖直方向编码网络的采用resnet50的残差网络结构。

所述类内注意力模型计算序列Seq＝[Seq₁,Seq₂,…,Seq_B]对其元素Seq_b的注意力Seq″_b，b＝1,2,…,B；所述类内注意力模型包括并行的U个子类内注意力模型和一个全连接层F₃，每个子类内注意力模型的结构相同，参数不同，在不同的映射子空间计算Seq对Seq_b的注意力Seq′_b；F₃的参数为W_f；将不同映射子空间中Seq对Seq_b的注意力Seq_b合并到同一空间，经过全连接层F₃得到Seq对Seq_b的最终注意力Seq″_b；

所述第u个子类内注意力模型，u＝1,2,…,U，包括：

两个全连接层

和

其中

的参数为

输入为Seq中的每个元素Seq_j，j＝1,2,…,B；

的参数为

输入为Seq_b；

和

输出数据的维度为输入数据维度的

矩阵计算模块，根据

和

的输出计算当前子空间中Seq对Seq_b的注意力

其中r_jb为Seq第j个元素Seq_j与Seq_b在当前子空间的归一化相似度，

其中

为Seq_j与Seq_b在当前子空间的相似度，d_b为

的输出维度；

U个子类内注意力模型的输出拼接起来经过全连接层F₃，得到Seq″_b：

所述类间注意力模型计算序列Seq＝[Seq₁,Seq₂,…,Seq_B]对序列Req＝[Req₁,Req₂,…,Req_L]中的元素Req_l的注意力SReq″_l，l＝1,2,…,L；所述类间注意力模型包括并行的U个子类间注意力模型和一个全连接层F₆，每个子类间注意力模型的结构相同，参数不同，在不同的映射子空间计算Seq对Req_l的注意力SReq′_l；F₆的参数为W_fa；将不同映射子空间Seq对Req_l的注意力SReq′_l合并到同一空间，经过全连接层F₆得到Seq对Req_l的最终注意力SReq″_l；

所述第u个子类间注意力模型，u＝1,2,…,U，包括：

两个全连接层

和

其中

的参数为

输入为Seq中的每个元素Seq_j，j＝1,2,…,B；

的参数为

输入为Req_l；

和

输出数据的维度为输入数据维度的

矩阵计算模块，根据

和

的输出计算当前子空间中Seq对Req_l的注意力

其中s_jl为Seq第j个元素Seq_j与Req_l在当前子空间的归一化相似度，

其中

为Seq_j与Req_l在当前子空间的相似度，f_l为

的输出维度；

U个子类间注意力模型的输出拼接起来经过全连接层F₆，得到SReq″_l：

本发明中，相似度归一化采用softmax函数实现。

作为一种改进，对训练样本集图像中的行人标定属性标识串，所述属性标识串为图像中行人所具备的属性在属性映射表中序号所组成的数字串；

所述损失函数还包括CTC损失，所述CTC损失为：

L_CTC＝-ln(p_ctc(y|P_s))

其中P_s为样本图像经过图像竖直方向编码网络编码后的图像序列；y为样本图像中行人的属性标识串；p_ctc(y|P_s)为根据样本图像的图像序列将样本图像中行人属性标识串识别为其真实属性标识串y的概率；

总的损失函数为：L_final＝L_a+L_ID+L_CTC。

所述p_ctc(y|P_s)的计算步骤为：

(7.1)将样本图像经过图像竖直方向编码网络编码的图像序列P_s输入循环神经网络RNN1中得到样本图像中行人所具有的属性的概率和属性的组合；所述RNN1包含两层双向RNN层，每层双向RNN层的节点数与P_s中每个元素的维数相同；RNN1的输出单元个数为M，第m个输出单元的输出FR_m为根据图像序列P_s第m个元素P_sm将样本图像中的行人识别为具有属性π_m的概率p(π_m|P_sm)；π_m∈[1,2,…,N]∪[ε]，ε表示无法识别的属性；π_m构成属性组合π＝(π₁,π₂,…,π_M)；

(7.2)根据删减规则对π进行删减，如果删减后的属性集合π′等于y，则将当前样本的属性集合π作为一个元素加入到样本属性集合所构成的集合

中；

(7.3)对样本集中的每个样本图像执行步骤(7.1)-(7.2)，得到样本属性集合所构成的集合

则

p_c′_tc(Y|P_s)为将样本图像中的行人识别具有属性Y的概率：

本发明采用reshape网络计算图像中行人属于第c类的概率p_ID(c)，具体步骤为：

构建reshape网络，所述reshape网络包括依次连接的第一卷积层RConv_1、第一最大池化层RMaxPool_1、第二卷积层RConv_2、第二最大池化层RMaxPool_2和全连接层RFC_1；

所述第一卷积层RConv_1卷积核为1×1，输出通道为1024，步长为[2,1]，输出大小为14×1×1024；

所述第一最大池化层RMaxPool_1卷积核为1×1，输出通道为1024，步长为[2,1]，输出大小为7×1×1024；

所述第二卷积层RConv_2卷积核为1×1，输出通道为1024，步长为[2,1]，输出大小为4×1×1024；

所述第二最大池化层RMaxPool_2卷积核为3×1，输出通道为1024，步长为[2,1]，输出大小为1×1×1024；

全连接层RFC_1卷积核为1×1，输出通道为行人类别总数C，步长为1，输出大小为1×C；

将样本图像经过图像竖直方向编码网络编码后的图像序列P_s输入reshape网络，得到样本图像的特征F_ID∈R^1×1×C，将F_ID输入softmax层，得到图像中行人属于第c类的概率p_ID(c)：

其中F_ID(i)为F_ID第i个元素的值。

另一方面，本发明提供了一种实现上述行人属性识别方法的识别系统，该识别系统包括：

图像竖直方向编码网络1，用于将图像在竖直方向编码为长度为M的图像序列P＝[P₁,P₂,…,P_M]；M为图像序列的长度；

属性映射表存储模块2，用于存储属性映射表；所述属性映射表中定义了图像中行人的属性；根据属性映射表将行人属性编码为属性序列A＝[A₁,A₂,…,A_N]；N为属性种类总数；

类内注意力模型3，用于计算图像序列P各元素间的上下文关系P″_m和属性序列A各元素间的上下文关系A″_n，得到图像上下文关系序列P″＝[P″₁,P″₂,…,P″_M]和属性上下文关系序列A″＝[A″₁,A″₂,…,A″_N]；其中P″_m表示图像序列P对其第m个元素的注意力；A″_n表示属性序列A对其第n个元素的注意力；m＝1,2,…,M，n＝1,2,…,N；

类间注意力模型4，用于计算图像上下文关系序列P″与属性上下文关系序列A″中每个元素的注意力，构成关系序列PA″＝[PA″₁,PA″₂,…,PA″_N]；PA″_n表示图像上下文关系序列P″对属性上下文关系序列A″中第n个元素A″_n的注意力；

模型训练模块5，包括训练样本输入模块5-1和损失计算模块5-2，所述损失计算模块包括属性损失计算模块5-2A和行人识别损失计算模块5-2B；

训练样本输入模块5-1用于将标定好的训练样本输入图像竖直方向编码网络；

属性损失计算模块5-2A用于计算属性损失，属性损失为：

其中Laⁿ为第n个属性的损失，

行人识别损失计算模块5-2B用于计算行人识别损失，所述行人识别损失为：

总的损失函数为：L_final＝L_a+L_ID；

属性识别结果输出模块6，用于根据待识别图像的图像与属性之间的关系序列PA″_t得到待识别图像中行人每个属性的类别。

作为一种改进，损失计算模块5-2还包括CTC损失计算模块5-2C，CTC损失计算模块5-2C用于计算CTC损失，CTC损失为：L_CTC＝-ln(p_ctc(y|P_s))；

总的损失函数为：L_final＝L_a+L_ID+L_CTC。

有益效果：本发明公开的基于序列上下文关系学习的行人属性识别方法和识别系统将图像和属性编码成序列，并利用类内注意力模型学习图像序列或属性序列的序列间上下文关系，从而获得更多的细节特征；同时，利用类间注意力模型，学习图像序列与属性序列两者之间的关系，从而实现在识别每个属性时可以关注到与该属性更相关的图像序列；由此来提高识别准确率。

附图说明

图1为本发明公开的行人属性识别方法的流程图；

图2为本发明公开的行人属性识别系统的组成图；

图3为子类内注意力模型的组成结构图；

图4为类内注意力模型的组成结构图；

图5为子类间注意力模型的组成结构图；

图6为类间注意力模型的组成结构图；

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

如图1所示，本发明一方面提供了一种基于序列上下文关系学习的行人属性识别方法，包括训练阶段和识别阶段；所述训练阶段建立并训练行人属性识别系统，行人属性识别系统的组成框图如图2所示。训练阶段的步骤为：

步骤1、建立图像竖直方向编码网络1，编码网络将图像在竖直方向编码为长度为M的图像序列P＝[P₁,P₂,…,P_M]；M为图像序列的长度；

本发明中，图像竖直方向编码网络的采用卷积神经网络CNN对图像在竖直方向编码，具体采用resnet50的残差网络结构，包括第一卷积层Conv_1、第一池化层MaxPool_1、4个卷积块conv2_x-conv 5_x、第二池化层MaxPool_2和全连接层FC_1；其参数见表1。

表1

其中Conv_2x,Conv_4x,Conv_5x的步长为：第一个卷积块的第一个卷积层步长为[1,2]，其他层均为1；Conv_3x的步长为：第一个卷积块的第一个卷积层步长为[2,1],其他层均为1。

本实施例中图像竖直方向编码网络1输入图像的尺寸为224×112，经过编码得到的图像序列为28×1×1024的矩阵，即M＝28，P＝[P₁,P₂,…,P₂₈]，图像序列P中每个元素P_m均为1024维的向量；m＝1,2,…,M。

步骤2、建立属性映射表，本实施例中，将属性映射表存储于属性映射表存储模块2中；属性映射表中定义了图像中行人的属性；根据属性映射表将行人属性编码为属性序列A＝[A₁,A₂,…,A_N]；N为属性种类总数；

本实施例中定义了22种属性，即N＝22，具体属性见表2。

表2

1	帽子	6	上衣灰	11	背包	16	下衣红	21	鞋子
										2	上衣黑	7	上衣蓝	12	包	17	下衣灰	22	性别
3	上衣白	8	上衣绿	13	手拿包	18	下衣蓝
										4	上衣红	9	上衣棕	14	下衣黑	19	下衣绿
5	上衣紫	10	上衣长短	15	下衣白	20	下衣棕

根据表2可知，可以得到属性序列A＝[A₁,A₂,…,A₂₂]，其中第n个元素A_n表示第n的类别用1024维的向量表示；本实施例中每个属性的类别数均为2，如第1个属性的第一类别为行人戴帽子，第二个类别为不戴帽子，即是否戴帽子用1024维的向量来表示。

步骤3、建立类内注意力模型3，所述类内注意力模型计算图像序列P各元素间的上下文关系P″_m和属性序列A各元素间的上下文关系A″_n，得到图像上下文关系序列P″＝[P″₁,P″₂,…,P″_M]和属性上下文关系序列A″＝[A″₁,A″₂,…,A″_N]；其中P″_m表示图像序列P对其第m个元素的注意力；A″_n表示属性序列A对其第n个元素的注意力；m＝1,2,…,M，n＝1,2,…,N；

本发明中，类内注意力模型包括并行的U个子类内注意力模型和一个全连接层F₃，每个子类内注意力模型的结构相同，参数不同，在不同的映射子空间计算Seq对Seq_b的注意力Seq′_b；F₃的参数为W_f；将不同映射子空间中Seq对Seq_b的注意力Seq_b合并到同一空间，经过全连接层F₃得到Seq对Seq_b的最终注意力Seq″_b；第u个子类内注意力模型，u＝1,2,…,U，包括：

两个全连接层

和

其中

的参数为

输入为Seq中的每个元素Seq_j，j＝1,2,…,B；

的参数为

输入为Seq_b；

和

输出数据的维度为输入数据维度的

矩阵计算模块3-1A，根据

和

的输出计算当前子空间中Seq对Seq_b的注意力Seq′_b：

本实施例中相似度归一化采用softmax函数实现。

为Seq_j与Seq_b在当前子空间的相似度，能够反映Seq对Seq_b的注意力，d_b为

的输出维度；

即类内注意力模型计算一个序列Seq＝[Seq₁,Seq₂,…,Seq_B]对其内部元素Seq_b的注意力Seq″_b，b＝1,2,…,B；Seq″_b构成的序列Seq″＝[Seq″₁,Seq″₂,…,Seq″_B]反映了序列Seq对其自身的注意力。采用并行的多个子类内注意力模型能够获取不同的映射子空间的序列的相似度。

本实施例中，采用8个并行的子类内注意力模型，即U＝8，如图3和图4所示，为类内注意力模型3的示意图，其中图3为子类内注意力模型3-1的结构图，图4为类内注意力模型的结构图。每个子类内注意力模型中两个全连接层的输入维度均为1024，输出维度均为128，d_b＝128；第u个子类内注意力模型计算得到的Seq对Seq_b的注意力

为128维向量，将8个子类内注意力模型的输出拼接起来的结果

为1024维向量。全连接层F₃的输入输出维度与Seq_b的维度相同，本实施例中，均为1024，即Seq″_b为1024维向量。

分别计算P＝[P₁,P₂,…,P₂₈]对其每个元素的注意力，得到图像上下文关系序列P″＝[P″₁,P″₂,…,P″₂₈]；分别计算A＝[A₁,A₂,…,A₂₂]其每个元素的注意力，得到属性上下文关系序列A″＝[A″₁,A″₂,…,A″₂₂]，其中P″_m和A″_n均为1024维向量。

步骤4、建立类间注意力模型4，所述类间注意力模型计算图像上下文关系序列P″与属性上下文关系序列A″中每个元素的注意力，构成关系序列PA″＝[PA″₁,PA″₂,…,PA″_N]；PA″_n表示图像上下文关系序列P″对属性上下文关系序列A″中第n个元素A″_n的注意力；

类间注意力模型计算序列Seq＝[Seq₁,Seq₂,…,Seq_B]对序列Req＝[Req₁,Req₂,…,Req_L]中的元素Req_l的注意力SReq″_l，l＝1,2,…,L；所述类间注意力模型包括并行的U个子类间注意力模型4-1和一个全连接层F₆，每个子类间注意力模型的结构相同，参数不同，在不同的映射子空间计算Seq对Req_l的注意力SReq′_l；F₆的参数为W_fa；将不同映射子空间Seq对Req_l的注意力SReq′_l合并到同一空间，经过全连接层F₆得到Seq对Req_l的最终注意力SReq″_l；

所述第u个子类间注意力模型，u＝1,2,…,U，包括：

两个全连接层

和

其中

的参数为

输入为Seq中的每个元素Seq_j，j＝1,2,…,B；

的参数为

输入为Req_l；

和

输出数据的维度为输入数据维度的

矩阵计算模块4-1A，根据

和

的输出计算当前子空间中Seq对Req_l的注意力

其中s_jl为Seq第j个元素Seq_j与Req_l在当前子空间的归一化相似度，本实施例中同样采用softmax函数来进行相似度归一化的计算：

其中

为Seq_j与Req_l在当前子空间的相似度，f_l为

的输出维度；

本实施例中，同样采用8个并行的子类间注意力模型，Seq为P″＝[P″₁,P″₂,…,P″₂₈]，Req_l为A″＝[A″₁,A″₂,…,A″₂₂]中的元素。如图4和图5所示，为类间注意力模块4的示意图，其中图4为子类间注意力模型的结构图，图5为类间注意力模型的结构图。其结构与类内注意力模块3的结构相同，但参数不同。同样地，全连接层F₆的输入输出维度与Req_l的维度相同，本实施例中，均为1024，即SReq″_l为1024维向量。最终得到的关系序列为PA″＝[PA″₁,PA″₂,…,PA″₂₂]。

步骤5、构建训练样本集，所述训练样本集中的图像为行人全身图像，并对图像中的行人标定每个属性标签g_n、类别标签w，并标定属性标识串，所述属性标识串为图像中行人所具备的属性在属性映射表中序号所组成的数字串；

将样本集中的图像随机选择64张作为一组输入图像竖直方向编码网络，并将样本图像中的行人属性序列中的元素初始化为1024维的随机值；

通过最小化损失函数的值，得到训练好的图像竖直方向编码网络、类内注意力模型和类间注意力模型；损失函数包括属性损失、行人识别损失和CTC损失；

行人属性识别系统的训练由模型训练模块5来实现，其包括训练样本输入模块5-1和损失计算模块5-2，损失计算模块包括属性损失计算模块5-2A、行人识别损失计算模块5-2B和CTC损失计算模块5-2C。训练样本输入模块5-1用于将标定好的训练样本输入图像竖直方向编码网络；所述属性损失计算模块5-2A用于计算属性损失，属性损失为：

其中Laⁿ为第n个属性的损失，

本实施例中，将类间注意力模型4的输出PA″＝[PA″₁,PA″₂,…,PA″_N]后面接N个全连接层，PA″的第n个元素PA″_n输入到第第n个全连接层Faⁿ中，Faⁿ的输入维度为PA″_n的维度，本实施例中为1024；Faⁿ的输出维度是第n个属性的类别数Kⁿ，本实施例中Kⁿ＝2；记Faⁿ的输出为

在Faⁿ后接softmax层，得到第n个属性为第k类的概率p_a(k)：

构建reshape网络，所述reshape网络包括依次连接的第一卷积层RConv_1、第一最大池化层RMaxPool_1、第二卷积层RConv_2、第二最大池化层RMaxPool_2和全连接层RFC_1；reshape网络的参数如表3。

表3

其中F_ID(i)为F_ID第i个元素的值。

为了增加行人属性识别方法的鲁棒性，本实施例的损失函数还包括CTC损失函数，采用CTC损失计算模块5-2C来计算CTC损失L_CTC：

L_CTC＝-ln(p_ctc(y|P_s))

其中P_s为样本图像经过图像竖直方向编码网络编码后的图像序列；y为样本图像中行人的属性标识串；以本实施例中表2所定义的属性映射表，如图像中行人为不戴帽子，穿黑上衣，背包，灰裤子，低帮鞋子的男性，则其属性标识串y为：[2,11,17,21,22]；如果图像中行人为戴帽子，穿黑上衣，背包，灰裤子，高帮鞋子的女性，则其属性标识串y为：[1,2,11,17]。

p_ctc(y|P_s)为根据样本图像的图像序列将样本图像中行人属性标识串识别为其真实属性标识串y的概率；

本发明中p_ctc(y|P_s)的计算步骤为：

如果RNN1不同的输出单元识别出的属性有重复或为ε，根据文献：Graves A,Fernández S,Gomez F,et al.Connectionist temporal classification:labellingunsegmented sequence data with recurrent neural networks[C]//Proceedings of the 23rd international conference on Machine learning.ACM,2006:369-376.对π进行删减，删除重复的属性和ε；如果删减后的属性集合π′等于y，则将当前样本的属性集合π作为一个元素加入到样本属性集合所构成的集合

中；

则

p_c′_tc(Y|P_s)为将样本图像中的行人识别具有属性Y的概率：

损失计算模块的输出为总的损失函数：L_final＝L_a+L_ID+L_CTC。

所述识别阶段的步骤为：

步骤6、将待识别图像中行人的属性序列

初始化为随机值，且p≠q时

A^t和P^t经过类内注意力模型，得到属性上下文关系序列A″_t和图像上下文关系序列P″_t；A″_t和P″_t经过类间注意力模型得到图像与属性之间的关系序列PA″_t；PA″_t经过softmax层，得到待识别图像中行人每个属性属于该属性每个类别的概率，选择概率值最大的类别作为该属性的类别。由PA″_t得到最终属性识别结果的过程由属性识别结果输出模块6来完成。

本实施例在Duke属性数据集上进行测试，并与几种现有行人属性识别方法进行了对比，测试结果如表4所示，其中mA是22类属性的平均正确率。

表4:实验结果

Methods	mA(％)
		APR	86.6
Sun et al.[4]	88.3
		MLFN[5]	87.5
Our w/o CTC	88.2
		Our	89.3

表4中APR为采用文献：Lin Y,Zheng L,Zheng Z,et al.Improving person re-identification by attribute and identity learning[J].Pattern Recognition,2019中的方法的结果；

Sun et al.[4]为采用文献：Sun C,Jiang N,Zhang L,et al.Unified frameworkfor joint attribute classification and person re-identification[C]//International Conference on Artificial Neural Networks.Springer,Cham,2018:637-647.中的方法的结果；

MLFN为采用文献：Chang X,Hospedales T M,Xiang T.Multi-levelfactorisation net for person re-identification[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2018:2109-2118.中的方法的结果；

Our w/o CTC为采用本发明公开的行人属性识别方法，总的损失函数为：L_final＝L_a+L_ID情况下的结果；

Our为采用本发明公开的行人属性识别方法，总的损失函数为：L_final＝L_a+L_ID+L_CTC情况下的结果；

从表4可以看出，本发明公开的方法识别平均准确率是优于现有的行人属性识别方法。并且，通过没有CTC损失函数的实验结果可以看出，本发明中加入CTC损失函数可以提高识别的平均正确率。

Claims

1.基于序列上下文关系学习的行人属性识别方法，其特征在于，包括训练阶段和识别阶段；所述训练阶段的步骤为：

(3)建立类内注意力模型，所述类内注意力模型计算图像序列P各元素间的上下文关系P″_m和属性序列A各元素间的上下文关系A″_n，得到图像上下文关系序列P″＝[P₁″,P″₂,…,P″_M]和属性上下文关系序列A″＝[A″₁,A″₂,…,A″_N]；其中P″_m表示图像序列P对其第m个元素的注意力；A″_n表示属性序列A对其第n个元素的注意力；m＝1,2,…,M，n＝1,2,…,N；

所述属性损失为：

其中Laⁿ为第n个属性的损失，

所述行人识别损失为：

总的损失函数为：L_final＝L_a+L_ID；

所述识别阶段的步骤为：

(6)将待识别图像中行人的属性序列

初始化为随机值，且p≠q时

待识别图像输入到图像竖直方向编码网络中，得到图像序列

A^t和P^t经过类内注意力模型，得到属性上下文关系序列A″_t和图像上下文关系序列P″_t；A″_t和P_t″经过类间注意力模型得到图像与属性之间的关系序列PA″_t；PA″_t经过softmax层，得到待识别图像中行人每个属性属于该属性每个类别的概率，选择概率值最大的类别作为该属性的类别。

2.根据权利要求1所述的基于序列上下文关系学习的行人属性识别方法，其特征在于，所述图像竖直方向编码网络采用resnet50的残差网络结构。

3.根据权利要求1所述的基于序列上下文关系学习的行人属性识别方法，其特征在于，所述类内注意力模型计算序列Seq＝[Seq₁,Seq₂,…,Seq_B]对其元素Seq_b的注意力Seq″_b，b＝1,2,…,B；所述类内注意力模型包括并行的U个子类内注意力模型(3-1)和一个全连接层F₃，每个子类内注意力模型的结构相同，参数不同，在不同的映射子空间计算Seq对Seq_b的注意力Seq′_b；F₃的参数为W_f；将不同映射子空间中Seq对Seq_b的注意力Seq_b合并到同一空间，经过全连接层F₃得到Seq对Seq_b的最终注意力Seq″_b；

所述U个子类内注意力模型中的第u个子类内注意力模型，u＝1,2,…,U，包括：

两个全连接层F₁ ^u和

其中F₁ ^u的参数为

输入为Seq中的每个元素Seq_j，j＝1,2,…,B；

的参数为

输入为Seq_b；F₁ ^u和

输出数据的维度为输入数据维度的

矩阵计算模块(3-1A)，根据F₁ ^u和

的输出计算当前子空间中Seq对Seq_b的注意力Seq′_b：

其中

为Seq_j与Seq_b在当前子空间的相似度，d_b为

的输出维度；

4.根据权利要求1所述的基于序列上下文关系学习的行人属性识别方法，其特征在于，所述类间注意力模型计算序列Seq＝[Seq₁,Seq₂,…,Seq_B]对序列Req＝[Req₁,Req₂,…,Req_L]中的元素Req_l的注意力SReq″_l，l＝1,2,…,L；所述类间注意力模型包括并行的U个子类间注意力模型(4-1)和一个全连接层F₆，每个子类间注意力模型的结构相同，参数不同，在不同的映射子空间计算Seq对Req_l的注意力SReq′_l；F₆的参数为W_fa；将不同映射子空间Seq对Req_l的注意力SReq′_l合并到同一空间，经过全连接层F₆得到Seq对Req_l的最终注意力SReq″_l；

所述U个子类间注意力模型中的第u个子类间注意力模型(4-1)，u＝1,2,…,U，包括：

两个全连接层

和

其中

的参数为

输入为Seq中的每个元素Seq_j，j＝1,2,…,B；

的参数为

输入为Req_l；

和

输出数据的维度为输入数据维度的

矩阵计算模块(4-1A)，根据

和

的输出计算当前子空间中Seq对Req_l的注意力

其中

为Seq_j与Req_l在当前子空间的相似度，f_l为

的输出维度；

5.根据权利要求1所述的基于序列上下文关系学习的行人属性识别方法，其特征在于，对训练样本集图像中的行人标定属性标识串，所述属性标识串为图像中行人所具备的属性在属性映射表中序号所组成的数字串；

所述损失函数还包括CTC损失，所述CTC损失为：

L_CTC＝-ln(p_ctc(y|P_s))

其中P_s为样本图像经过图像竖直方向编码网络编码后的图像序列；y为样本图像中行人的真实属性标识串；p_ctc(y|P_s)为根据样本图像的图像序列将样本图像中行人属性标识串识别为其真实属性标识串y的概率；

总的损失函数为：L_final＝L_a+L_ID+L_CTC。

6.根据权利要求3或4中任一项所述的基于序列上下文关系学习的行人属性识别方法，其特征在于，所述相似度归一化采用softmax函数实现。

7.根据权利要求5所述的基于序列上下文关系学习的行人属性识别方法，其特征在于，所述p_ctc(y|P_s)的计算步骤为：

中；

则

p_c′_tc(Y|P_s)为将样本图像中的行人识别具有属性Y的概率：

8.根据权利要求1所述的基于序列上下文关系学习的行人属性识别方法，其特征在于，采用reshape网络计算图像中行人属于第c类的概率p_ID(c)，具体步骤为：

其中F_ID(i)为F_ID第i个元素的值。

9.基于序列上下文关系学习的行人属性识别系统，其特征在于，包括：

图像竖直方向编码网络(1)，用于将图像在竖直方向编码为长度为M的图像序列P＝[P₁,P₂,…,P_M]；M为图像序列的长度；

属性映射表存储模块(2)，用于存储属性映射表；所述属性映射表中定义了图像中行人的属性；根据属性映射表将行人属性编码为属性序列A＝[A₁,A₂,…,A_N]；N为属性种类总数；

类内注意力模型(3)，用于计算图像序列P各元素间的上下文关系P″_m和属性序列A各元素间的上下文关系A″_n，得到图像上下文关系序列P″＝[P₁″,P″₂,…,P″_M]和属性上下文关系序列A″＝[A″₁,A″₂,…,A″_N]；其中P″_m表示图像序列P对其第m个元素的注意力；A″_n表示属性序列A对其第n个元素的注意力；m＝1,2,…,M，n＝1,2,…,N；

类间注意力模型(4)，用于计算图像上下文关系序列P″与属性上下文关系序列A″中每个元素的注意力，构成关系序列PA″＝[PA″₁,PA″₂,…,PA″_N]；PA″_n表示图像上下文关系序列P″对属性上下文关系序列A″中第n个元素A″_n的注意力；

模型训练模块(5)，包括训练样本输入模块(5-1)和损失计算模块(5-2)，所述损失计算模块包括属性损失计算模块(5-2A)和行人识别损失计算模块(5-2B)；

所述训练样本输入模块(5-1)用于将标定好的训练样本输入图像竖直方向编码网络；

所述属性损失计算模块(5-2A)用于计算属性损失，所述属性损失为：

其中Laⁿ为第n个属性的损失，

所述行人识别损失计算模块(5-2B)用于计算行人识别损失，所述行人识别损失为：

总的损失函数为：L_final＝L_a+L_ID；

属性识别结果输出模块(6)，用于根据待识别图像的图像与属性之间的关系序列PA″_t得到待识别图像中行人每个属性的类别；

PA″_t采用如下步骤获得：

将待识别图像中行人的属性序列

初始化为随机值，且p≠q时

p,q＝1,2,…,N；待识别图像输入到图像竖直方向编码网络(1)中，得到图像序列

A^t和P^t经过类内注意力模型(3)，得到属性上下文关系序列A″_t和图像上下文关系序列P_t″；A″_t和P_t″经过类间注意力模型(4)得到图像与属性之间的关系序列PA″_t。

10.根据权利要求9所述的基于序列上下文关系学习的行人属性识别系统，其特征在于，所述损失计算模块(5-2)还包括CTC损失计算模块(5-2C)，所述CTC损失计算模块(5-2C)用于计算CTC损失，所述CTC损失为：

L_CTC＝-ln(p_ctc(y|P_s))

总的损失函数为：L_final＝L_a+L_ID+L_CTC。