CN106971154A

CN106971154A - 基于长短记忆型递归神经网络的行人属性预测方法

Info

Publication number: CN106971154A
Application number: CN201710158911.0A
Authority: CN
Inventors: 冀中; 郑伟雄
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-03-16
Filing date: 2017-03-16
Publication date: 2017-07-21

Abstract

本发明属于智能监控领域，为提出行人属性预测方法，准确地预测出行人的各精细化属性，具有更强的灵活性和多样性。为此，本发明采用的技术方案是，基于长短记忆型递归神经网络的行人属性预测方法，首先进行图像视觉信息的提取，输入行人图像，输出行人图像的视觉特征向量；然后进行序列化属性标签的表示和标签语义信息的提取；随后统计训练数据中出现的属性词，构造相应大小的属性标签词典；利用查找表构建语义嵌入层，完成文本语义向量的提取；最后构建多模态LSTM模型，设计符合要求的损失函数。本发明主要应用于智能监控场合。

Description

基于长短记忆型递归神经网络的行人属性预测方法

技术领域

本发明属于智能监控领域，具体讲,涉及基于长短记忆型递归神经网络的行人属性预测方法。

背景技术

近年来，随着城市中监控摄像头的大量普及，城市安全得到了进一步的保障。监控人员利用监控视频能够查找人员，还原事件，直观的了解事件的始末。但是随着监控视频数量的海量增长，人们往往需要大量的时间和精力才能在监控视频中搜索到符合特征要求的行人。如何准确的对行人属性进行自动化描述，从而使人们能够快速的得到行人的有用信息，变得十分重要。

采用计算机视觉技术对行人图像进行分析处理是解决这一问题的主流方法。其目的是使得监控视频的处理更加智能化，自动化。针对监控视频下的行人属性预测，许多学者和研究机构提出了相应的数据集与预测方法。其中PETA(行人属性数据库)数据集是现阶段较为大型的行人图像及属性数据集，其提供了19000张不同场景下的行人图像及其精细化属性标签(如性别，头发长度，衣服颜色)，为训练高效的行人属性预测模型提供可能。

对于行人属性预测，大致可分为两种方法。第一种利用传统特征构造各属性分类器的方法，该方法独立看待行人图像的各属性标签，针对每一个行人属性都构建出一个分类器，即把图像的多标签分类问题转换为多个属性的二分类问题。第二种是将行人图像的各个标签看作是一个整体进行联合训练，构建出能够统一生成多种标签的多分类器，该方法往往使用图像的深度特征，利用各属性之间联系来构造的损失函数训练分类器。这种方法往往能提高预测的准确率，是未来行人属性预测领域的主要方向。

CNN(卷积神经网络)是近年来计算机视觉领域应用十分广泛的一种图像特征提取方法，尤其是在图像分类领域，CNN特征的有效性已经得到了广泛的验证。

LSTM(长短记忆型递归神经网络)是一种时间递归神经网络，其核心是构造了一个记忆单元，储存了该时间节点之前的网络信息，能够结合上文信息来生成结果。LSTM广泛应用于自然语言处理领域，主要针对序列化输出的问题。将LSTM和CNN进行融合是图像描述领域的一种重要方法。

发明内容

为克服现有技术的不足，本发明旨在提出行人属性预测方法，准确地预测出行人的各精细化属性，具有更强的灵活性和多样性。为此，本发明采用的技术方案是，基于长短记忆型递归神经网络的行人属性预测方法，首先进行图像视觉信息的提取，输入行人图像，输出行人图像的视觉特征向量；然后进行序列化属性标签的表示和标签语义信息的提取；随后统计训练数据中出现的属性词，构造相应大小的属性标签词典；利用查找表构建语义嵌入层，完成文本语义向量的提取；最后构建多模态LSTM模型，设计符合要求的损失函数。

输入行人图像，提取行人图像的视觉特征向量，具体是，将行人图像数据送入预训练好的深度特征提取模型，得到H维的特征向量，之后构建一层神经网络将H维的特征向量变换为M维的特征向量，从而完成视觉信息的提取。

构建多模态时间递归神经网络LSTM模型结构：输入是由前面得到的视觉特征向量和属性标签词向量，输出是序列化表示的行人预测属性标签，在t1时刻，将图像特征和开始标志送入LSTM网络，用来预测序列化标签中的第一个属性，在t2时刻，送入LSTM网络的是第一个属性标签特征和t1时刻的神经元信息，用来预测序列化标签中的第二个属性，当序列化标签中的最后一个属性输入到LSTM网络中时，此时网络需要预测的标签为结束标志，这时候表示该行人图片的属性预测结束，多模态LSTM模型将图像特征与属性标签的语义特征进行融合，结合上文信息来对当前属性标签进行预测，通过不断训练能够得到最优的网络参数以及属性标签的词向量表示。

定义LSTM网络模型的损失函数如下：

其中I为输入的图像特征，A为输入的序列化属性标签，n为序列化标签的长度，p_t(A_t)为多分类器层输出的各属性预测概率，通过不断迭代参数从而最小化损失函数，最终收敛达到全局最优，即完成训练过程。

本发明的特点及有益效果是：

本发明利用了行人精细化属性之间的联系，针对监控视频下行人的属性预测问题，设计了行人属性生成模型，其优势主要体现在：

本发明将属性标签拼接成具有语义信息的序列，将传统的行人属性分类转换成行人属性生成，设计了基于LSTM的行人属性预测模型。

通过实验证明该模型能够准确的生成行人属性标签，与当前其他的模型相比，准确率有所提升。

本发明可应用于智能监控领域，对于行人检索，行人再识别都具有现实意义。

附图说明：

图1是基于LSTM的行人属性预测模型原理图。

具体实施方式

本发明属于智能监控领域，针对监控场景下行人的外观特点，基于长短记忆型递归神经网络(Long Short-Term Memory)来构造行人属性预测模型，该模型能够将行人图像的图像信息与行人标签的文本信息进行融合，利用行人属性之间的联系和原始图像的特征，准确地预测出行人的各精细化属性。该发明对于构建智能化监控系统，提高监控检索工作效率具有重要意义。

本发明提出了一种基于LSTM的行人属性预测方法。传统的行人属性预测方法把这项任务看作是图像分类任务，而本发明采用属性标签生成的思路，将行人属性的分类转换成行人属性的生成，从而具有更强的灵活性和多样性。在传统的方法中，类别标签只是作为结果进行输出，而本发明挖掘了类别标签的语义信息，并将语义信息与视觉信息进行融合，探寻语义信息与视觉信息的联系，从而能够更好的对行人图像进行属性预测，对智能监控等领域的发展有着重要的意义。

在本发明中，首次将LSTM模型用于行人属性预测，目的是将行人的视觉信息和标签语义信息进行融合，将属性分类问题转换为属性生成问题。其主要方法为：首先利用预训练模型提取行人图像的深度特征，之后构建行人图像的标签序列，将行人的属性标签按照不同的顺序排列组合，作为图像的序列化标签。每一种序列化标签都作为该图像的标签送入训练。接着构建属性标签词典，每一个属性标签用标签词典中的向量作为表示。之后分别将图像特征向量和属性标签向量映射到相同的维度。最后将标签特征和图像特征送入多模态LSTM网络进行训练，得到能够根据之前的网络信息生成下一类属性标签的网络。最终实现给定行人图像，生成多个属性标签。

本发明的主要创新之处是将行人图像的属性标签看作是具有语义信息的序列，通过融合图像的CNN特征，利用LSTM来学习行人各属性之间的联系，从而能够实现根据生成的标签信息来预测下一种标签信息。

下面结合附图和具体实施方式进一步详细说明本发明。

模型训练阶段：

输入：用于训练的行人图像及对应属性标签

输出：预测的行人属性标签

在本发明中，以使用PETA数据集为例进行说明。PETA(行人属性数据库)数据集是行人属性预测任务中最大的数据集之一，包含了19000张行人图像上的60多个属性，其在图像变化和复杂性方面具有多样化的特点。行人的二元属性标签覆盖了一组详尽的特征，包括行人的性别和年龄范围，上身和下身的衣服风格和附件。11种基本颜色的属性分别用于鞋类，头发，上身服装和下身服装。

模型的结构如图1所示，该模型可分为三个部分：图像特征表示部分，属性标签序列化表示和语义信息提取部分以及多模态LSTM部分。

第一步：进行图像视觉信息的提取，输入行人图像，输出行人图像的视觉特征向量。首先将行人图像数据送入预训练好的深度特征提取模型，例如VGGNet(VGG网络)，GoogleNet(谷歌网络)等，得到H维的特征向量，之后构建一层神经网络将H维的特征向量变换为M维的特征向量，从而完成视觉信息的提取。

第二步：进行序列化属性标签的表示和标签语义信息的提取。输入行人的各属性标签，输出行人属性标签的序列化表示形式并得到各个标签的词向量。一张行人图像对应着多个属性标签，如长头发，蓝色上衣，休闲的裤子等等，在PETA数据库中，这些标签被表示成二元标签的形式。就是说对于每类属性，对应着1和0两种形式，1表示存在该属性特征，0表示不存在该属性特征。在本发明中，将对应图像中属性标签表示为存在的属性进行整理，并且将这些属性标签进行序列化的的组合，形成类似于句子的标签形式，如“长头发蓝色上衣休闲的裤子”，也就是将之前各个独立的属性表示形式转化为综合的整体的属性表示形式，将多个独立的属性标签转化为一个大的序列化属性标签。

第三步：统计训练数据中出现的属性词，构造相应大小的属性标签词典。词典的大小为N+2，其中N代表属性类别的个数，+2表示多模态LSTM中增加的开始标志和结束标志。词典中每个属性标签(包括开始和结束标志)被表示为one-hot向量的形式，即每个属性所对应的标志位为1，其余全为0。

第四步：利用查找表构建语义嵌入层，查找表是(N+2)*M维的参数矩阵，其作用是将词典中的属性向量进行维度变换，并通过训练得到反映语义信息的词向量。嵌入层将词典中各标签向量映射为M维的词向量，从而完成标签语义信息的提取。

第五步：构建多模态LSTM模型结构。输入是由前面得到的视觉特征向量和属性标签词向量，输出是序列化表示的行人预测属性标签。如图1所示，在t1时刻，将图像特征和开始标志送入LSTM网络，用来预测序列化标签中的第一个属性。在t2时刻，送入LSTM网络的是第一个属性标签特征和t1时刻的神经元信息，用来预测序列化标签中的第二个属性。当序列化标签中的最后一个属性输入到LSTM网络中时，此时网络需要预测的标签为结束标志，这时候表示该行人图片的属性预测结束。多模态LSTM模型将图像特征与属性标签的语义特征进行融合，结合上文信息来对当前属性标签进行预测，利用了行人属性之间隐藏的联系性。该模型通过不断训练能够得到最优的网络参数以及属性标签的词向量表示。

第六步：定义模型的损失函数如下：

其中I为输入的图像特征，A为输入的序列化属性标签，n为序列化标签的长度。p_t(A_t)为softmax(一种多分类器)层输出的各属性预测概率。通过不断迭代参数从而最小化损失函数，最终收敛达到全局最优，即完成训练过程。

模型测试阶段：

输入：行人图像

输出：行人各属性标签

通过训练得到模型参数后，该模型能够根据行人图像自动生成长度不唯一的序列化属性标签。

第一步：将行人图片送入模型，提取图片的深度特征并将特征维度变换到M维。

第二步：将图像特征向量和开始标志的词向量作为输入送入多模态LSTM模型，生成得到序列化标签的第一个属性标签。在下一个时间节点，将前一时间节点的属性标签词向量送入网络，结合之前的神经元信息，生成当前时间节点的属性标签，当生成的属性标签为结束标志时，结束该图像属性标签的生成过程。

第三步：将每个时间节点生成的属性标签进行整理，最终得到数量不唯一的行人属性标签。

Claims

1.一种基于长短记忆型递归神经网络的行人属性预测方法，其特征是，首先进行图像视觉信息的提取，输入行人图像，输出行人图像的视觉特征向量；然后进行序列化属性标签的表示和标签语义信息的提取；随后统计训练数据中出现的属性词，构造相应大小的属性标签词典；利用查找表构建语义嵌入层，完成文本语义向量的提取；最后构建多模态长短记忆型递归神经网络LSTM模型，设计符合要求的损失函数。

2.如权利要求1所述的基于长短记忆型递归神经网络的行人属性预测方法，其特征是，输入行人图像，提取行人图像的视觉特征向量，具体是，将行人图像数据送入预训练好的深度特征提取模型，得到H维的特征向量，之后构建一层神经网络将H维的特征向量变换为M维的特征向量，从而完成视觉信息的提取。

3.如权利要求1所述的基于长短记忆型递归神经网络的行人属性预测方法，其特征是，构建属性标签词典的具体步骤是，词典的大小为N+2，其中N代表属性类别的个数，+2表示多模态LSTM中增加的开始标志和结束标志，词典中每个属性标签，包括开始和结束标志，被表示为独热one-hot向量的形式，即每个属性所对应的标志位为1，其余全为0。

4.如权利要求1所述的基于长短记忆型递归神经网络的行人属性预测方法，其特征是，构建多模态时间递归神经网络LSTM模型结构：输入是由前面得到的视觉特征向量和属性标签词向量，输出是序列化表示的行人预测属性标签，在t1时刻，将图像特征和开始标志送入LSTM网络，用来预测序列化标签中的第一个属性，在t2时刻，送入LSTM网络的是第一个属性标签特征和t1时刻的神经元信息，用来预测序列化标签中的第二个属性，当序列化标签中的最后一个属性输入到LSTM网络中时，此时网络需要预测的标签为结束标志，这时候表示该行人图片的属性预测结束，多模态LSTM模型将图像特征与属性标签的语义特征进行融合，结合上文信息来对当前属性标签进行预测，通过不断训练能够得到最优的网络参数以及属性标签的词向量表示。

5.如权利要求1所述的基于长短记忆型递归神经网络的行人属性预测方法，其特征是，第六步：定义LSTM网络模型的损失函数如下：

L (I, A) = - Σ_{t = 1}^{n} \log p_{t} (A_{t}) - - - (1)