CN106709449A

CN106709449A - 一种基于深度学习和强化学习的行人重识别方法及系统

Info

Publication number: CN106709449A
Application number: CN201611199109.8A
Authority: CN
Inventors: 王泽楷; 赵瑞; 徐静
Original assignee: Shenzhen Shenzhen Horizon Technology Co Ltd
Current assignee: Shenzhen Shenzhen Horizon Technology Co Ltd
Priority date: 2016-12-22
Filing date: 2016-12-22
Publication date: 2017-05-24
Anticipated expiration: 2036-12-22
Also published as: CN106709449B

Abstract

本发明公开了一种基于深度学习和强化学习的行人重识别方法及系统，其中方法包括如下步骤：接收视频获取行人图片，行人图片数据中包括身份标签和坐标信息，通过光流算法和行人坐标信息计算不同帧图片中同一行人的运动方向得到行人朝向数据，行人训练数据集包含了行人身份标签和朝向标签；利用多任务学习方法构建深度神经网络，训练行人朝向及身份识别模型；按照朝向设置决策基，根据不同决策基的组合设定决策类别，所有的决策类别构成决策空间，并根据预设的强化学习模型对决策空间中决策类别进行训练计算最优决策模型。对行人进行检索时，调用深度模型获得朝向信息，然后调用强化学习模型获得最优决策方案，进而比对行人库中的行人，得到更准确的检索结果，本发明有效利用行人朝向信息做出匹配决策，从而提高了行人重识别的准确率。

Description

一种基于深度学习和强化学习的行人重识别方法及系统

技术领域

本发明属于视频监控技术领域，具体而言，涉及一种基于深度学习和强化学习的行人重识别方法及系统。

背景技术

为了识别不同视角的非重叠监控场景下的行人身份，行人重识别技术得到广泛发展，尤其是在监控视频领域。由于不同监控场景下同一行人存在背景、光照、朝向等差异大的问题，因此如何解决背景、光照、朝向等因素的影响，从而快速检测行人并进行跟踪是当前亟待解决的技术问题。

现有的行人重识别技术主要存在如下问题：

目前的研究主要集中在如何有更好地表达特征以及如何更好地进行距离度量学习上。特征表达多集中在行人外表，比如整体或者子区域的衣着颜色，纹理特征等，运用这些特征虽然在识别上带来了提升，但对于衣着不对称和朝向变化带来的差异，现有的方法尚不够好，对于正面和背面差异较大的重识别，常常会造成匹配失败，带来了较多识别误差。

现有的基于朝向的行人重识别匹配策略多是专家系统式的决策。例如，匹配决策时,每个人都使用相同的朝向进行比对,在没有相同朝向的情况下选择相邻或者过渡的朝向。这样的决策方法依赖于人为设计，对充分考虑的朝向或外表情况可以有很好的效果，但行人外表，朝向的多样性决定了匹配准则的复杂性，也说明了这种方法的不足。

三、基于无朝向信息的匹配方法：这种方法中所有图片没有朝向信息，其中包括很多中匹配方法，比如(1)：首先计算probe和gallery中所有图片的匹配距离/相似度，对于probe和gallery的每一个人(包括与其多张图片匹配的距离)，选择类内距离最小的/相似度最大的值，再对所有类进行排序；(2)：计算所有probe和gallery中图像的可能组合得到所有匹配距离/相似度，将probe和gallery中同个人的所有距离/相似度求平均值，再进行排序。论文[1]在匹配过程中，从不同类别的图片中选取所有可能的匹配组合，通过计算权重直方图，最大化稳定的颜色区域等方法对距离进行加权归一化，再应用了方法3(1)，选取其中最小匹配距离。

四、主要关注在如何用更好的方法来提取行人的特征上，如CN201410070931.9公开了一种行人重识别特征提取方法，该方法先进行行人检测和行人轮廓的提取，后根据人体对称性把行人的轮廓分为头部、左躯干、右躯干、左腿和右腿五个感兴趣区域来提取特征。

发明内容

为解决现有上述技术问题，本发明利用多任务的方法构建深度神经网络实现一次操作提取行人行为特征及朝向信息，并对其进行整理，同时对决策进行强化训练快速选择最优的决策模型实现对待识别图片的处理，完成行人的重识别。

本发明提供了一种基于深度学习和强化的行人重识别方法，其特征在于，包括如下步骤：

接收视频获取行人图片，根据行人图片获取行人坐标信息，通过光流算法和行人坐标信息计算不同帧图片中同一行人的运动方向得到行人朝向信息，并在标注行人身份信息后得到行人训练数据集，行人训练数据集包含行人的朝向信息据和身份标签；

以行人训练数据集为基础，利用多任务学习方法构建并训练深度神经网络，获得行人朝向和身份识别的双任务模型；

按照朝向设置决策基，根据不同决策基的组合设定决策类别，按照朝向设置决策基，根据不同决策基的组合设定决策类别，将所有的决策类别建立为决策空间，并根据预设的强化学习模型对决策空间中决策类别进行训练计算最优决策模型；

接收待识别行人图片，调用双任务模型获得该行人的朝向信息后，调用最优决策模型获得最优决策，查询行人库输出对该行人识别的检索结果。

进一步，所述利用多任务学习方法构建深度神经网包括分别构建数据输入层、卷积层、批规范化层、非线性层、池化层、全连接层和softmax损耗层，其中，

数据输入层，用于接收行人图片，对行人图片进行预处理；

卷积层，用于提取对预处理后的行人图片的图像特征；

批规范化层，用于对图像特征进行规划化处理；

非线性层，用于图像特征或规范化处理的图像特征进行非线性变换；

池化层，用于将图像特征与行人进行映射操作；

全连接层，用于对图像特征进行线性变换；

softmax损耗层，用于计算预测类别和标签类别的误差。

进一步，所述按照朝向设置决策基，根据不同决策基的组合设定决策类别，将所有的决策类别建立为决策空间，并根据预设的强化学习模型对决策空间中决策类别进行训练计算最优决策模型包括

选择决策基组成新的决策；

根据行人朝向训练行人朝向数据集，获取行人朝向匹配权重，根据匹配权重确定新的决策的种类；

利用强化学习算法函数对新的决策的种类进行训练，获取最优决策模型。

进一步，所述利用强化学习算法函数对决策种类计算训练，获取最优决策模型包括

选择新的决策计算同一行人的行人图片预设的行人重识别库的相似度，判断相似度是否大于阈值T；

如果相似度大于阈值T，计算该行人图片的回报值R，统计该行人图片的累积回报值V(S)；

最大化折算累积回报函数最大化识别率对累积回报值V(S)进行计算获取最优决策模型π^*。

本发明还提供了一种基于深度学习的行人重识别系统，包括

合并数据标签模块，用于接收视频获取行人图片，根据行人图片获取行人坐标信息，通过光流算法和行人坐标信息计算不同帧图片中同一行人的运动方向得到行人朝向信息，并在标注行人身份信息后得到行人训练数据集，行人训练数据集包括行人的朝向信息和身份标签；

行人朝向计算模块，用于以行人训练数据集为基础，利用多任务学习方法构建并深度神经网络，获得行人朝向和身份识别的双任务模型；

决策计算模块，用于按照朝向设置决策基，根据不同决策基的组合设定决策类别，将所有的决策类别建立为决策空间，并根据预设的强化学习模型对决策空间中决策类别进行训练计算最优决策模型；

识别模块，用于接收待识别行人图片，调用双任务模型获得该行人的朝向信息后，调用决策学习模型获得最优决策，查询行人库输出对该行人识别的检索结果。

进一步，所述行人朝向计算模块

构建子模块，用于构建数据输入层、卷积层、批规范化层、非线性层、池化层、全连接层和softmax损耗层。

进一步，所述决策计算模块包括

决策设定子模块，用于选择决策基组成新的决策；

分类子模块，用于根据行人朝向训练行人朝向数据集，获取行人朝向匹配权重，根据匹配权重计确定新的决策的种类；

强化训练子模块，用于利用强化学习算法函数对新的决策的种类进行训练，获取最优决策模型。

进一步，强化训练子模块包括

相似度计算单元，用于选择新的决策计算同一行人的行人图片预设的行人重识别库的相似度，判断相似度是否大于阈值T；

回报值计算单元，用于如果相似度大于阈值T，计算该行人图片的回报值R，统计该行人图片的累积回报值V(S)；

最优决策计算单元，用于最大化折算累积回报函数最大化识别率对累积回报值V(S)进行计算获取最优决策模型π^*。

进一步，进一步，

V(S)＝R₁+γR₂+γ²R₃+…，其中，γ为衰减项。

进一步，

综上，本发明包括如下有益效果：

1、采用深度神经网络一次完成了行人行为特征的提取和朝向识别；

2、首次将强化学习应用于行人重识别中的朝向匹配策略学习上；

3、强化学习更高效地利用朝向信息做出匹配决策；

4、使用强化学习得到的决策模型能更充分地考虑不同的场景和数据，而且这种方法可以细化到每一类都具备决策差异，更好地做到具体问题具体决策。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1-2本发明所述的基于深度学习的行人重识别方法的流程示意图；

图3为本发明所述的基于深度学习的行人重识别方法中S103的示意图；

图4为本发明所述的基于深度学习的行人重识别系统的框图结构示意图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面将结合附图对本发明作进一步的详细介绍。

下面通过具体的实施例并结合附图对本发明做进一步的详细描述。

如图1-2所示，一种基于深度学习的行人重识别方法，包括如下步骤：

S101、接收视频获取行人图片，根据行人图片获取行人坐标信息，通过光流算法和行人坐标信息计算不同帧图片中同一行人的运动方向得到行人朝向信息，并在标注行人身份信息后得到行人训练数据集，行人训练数据集包含行人的朝向信息据和身份标签；

本发明的目的在于对行人进行重识别，对出现在摄像机视角1下的行人在摄像机视角2下进行重新识别的过程，该技术旨在识别不同视角的非重叠监控场景下行人的身份。因此本发明中接收的视频包括多个摄像头的视频输入流，每个摄像头的角度可能不同，因此导致同一行人在摄像头下的朝向不同，因此需要对接收的不同摄像头视频中的行人图片中的行人按照一定的策略进行匹配，判断该行人朝向并对行人加以区别。

S102、以行人训练数据集为基础，利用多任务学习方法构建并训练深度神经网络，获得行人朝向和身份识别的双任务模型；

多任务学习假设待学习的多个任务具有一定的相关性，可以结合在一起进行联合训练，提高特征的泛化性能和使用效率。多任务学习与单任务学习的深度模型的区别在于网络的输出部分,多任务学习的输入和单任务学习的输入数据相同,但同一批数据包含了多个任务的标签,输出为多个分类分支,每个分支处理单个多分类任务,这样可以大大节约数据以及计算开支,实现数据和模型的高效复用,在模型的输出部分为多个不同任务的分类器,如softmax，在训练的时候，根据不同任务的重要性，分配不同的学习比重，使得模型更倾向于拟合复杂的分类任务。

S103、按照朝向设置决策基，根据不同决策基的组合设定决策类别，按照朝向设置决策基，根据不同决策基的组合设定决策类别，将所有的决策类别建立为决策空间，并根据预设的强化学习模型对决策空间中决策类别进行训练计算最优决策模型；

具体的，四个朝向可以分为四种决策/动作(action)方法，这四种是最基本的决策，称为决策基，本发明通过不同决策基的组合设定决策的类别。比如选择其中两个或多个决策基加权组合成新的决策。

S104、接收待识别行人图片，调用双任务模型获得该行人的朝向信息后，调用最优决策模型获得最优决策，查询行人库输出对该行人识别的检索结果。

在识别过程中，需要进行识别的图片(用probe表示)可以是一张，也可以是多张。而识别过程中，待识别图片(probe)需要匹配行人库(用gallery表示)中的图片从而找到该库中的同一个人。gallery一般包含多个人/类别，每个类别可以有一张图片，也可以有多张图片。本发明通过行人朝向和身份识别的双任务模型的设置对待识别的图片(probe)进行处理获取对行人重识别及朝向信息，通过调用最优决策计算模型对probe进行处理计算该行人与gallery中行人的匹配度从而确定该行人的身份，并将检索结果进行输出，达到对行人重识别的目的。

如图2所示，本发明首先对行人图片进行处理获取行人朝向数据、行人识别数据，在将二者进行合并处理生成合并行人训练数据集，该数据集包括行人朝向及行人标识。同时本发明利用创建的深度神经网络对行人训练数据集进行图像特征提取、线性转换、映射等处理最终对行人朝向的误差计算提高对行人重识别预测结果的精确性，从而获取待视频图片中行人的朝向。同时本发明利用强化学习模型对决策空间中决策进行计算选择最优决策模型进而快速实现对待识别图片中行人匹配决策的选择，最终提高输出对行人的识别结果。

进一步，所述利用多任务学习方法构建深度神经网包括分别构建数据输入层、卷积层、批规范化层、非线性层、池化层、全连接层和softmax损耗层，

其中，

数据输入层用于接收行人图片，对行人图片进行预处理；

卷积层，用于提取对预处理后的行人图片的图像特征；

批规范化层，用于对图像特征进行规划化处理；

非线性层，用于图像特征或规范化处理的图像特征进行非线性变换；池化层，用于将图像特征与行人进行映射操作；

全连接层，用于对图像特征进行线性变换；

softmax损耗层，用于计算预测类别和标签类别的误差。非线性层提升了神经网络的非线性表征能力，从而神经网络可以更好地表达复杂函数关系，从而可以提取更好的特征，图像通过卷积和非线性等操作之后得到的是高维特征，通过全连接层方便了将所有特征信息扁平化线性化输出，全连接层对比卷积层，是卷积层的特殊形式，现有的全连接层已经不是必要的层，比如现在广泛使用的全卷积网络，可以简单地认为全连接层可以把高维的数据扁平化输出，比如做一个10分类的任务可以在最后做一个输出维度为10的全连接然后再连接上分类器。

进一步，如图3所示S103包括

S1031、选择决策基组成新的决策；

S1032、根据行人朝向训练行人朝向数据集，获取行人朝向匹配权重，根据匹配权重确定新的决策的种类；

S1033、利用强化学习算法函数对新的决策的种类进行训练，获取最优决策模型。

新的决策按照不同的方式可以分为两类：

(1)一套权重作为一种决策类别：

如公式(1)所示，S为匹配相似度，Wpq是两张匹配图片朝向分为p和q的匹配权重，Spq为这两张匹配图片的相似度，p、q均可代表右面，背面，左面或正面中任意一面。这种方法将probe(待识别图片，即在识别过程中，需要进行识别的图片，可以是一张，也可以是多张)和gallery(库中的图片进行重识别，即在识别过程中，待识别图片probe需要匹配库中的图片，找到库中的同一个人，这个库中的图像用gallery表示。gallery一般包含多个人/类别，每个类别可以有一张图片，也可以有多张图片)所有存在的组合都会乘以相应的权重而利用起来。

(2)同一套权重但组合成多种决策类别：由决策基组成的新决策中，权重在不同的数据集上可以是不同的，比如，在数据集1上学习得到的权重中，相同朝向的权重很大，不同朝向的权重很小，而在数据集2上学习得到的权重中，相同朝向匹配的权重和不同朝向匹配的权重相差不大，这种现象可以直观地理解为，数据集1不同朝向之间的差异巨大，导致不同朝向匹配的置信度差，而数据集2不同朝向之间的差异不太大。所以如果存在n种分布区别大的数据集，方法(1)则有n种新决策，而方法(2)在gallery中四种朝向都存在的情况下共有n*11种新决策，随着数据集分布种类的增加，决策种类也大幅增加。在不同分布的数据集上用SVM训练得到朝向匹配权重。这些决策充分考虑了数据集的具体情况，对不同数据集的不同行人的匹配决策有更强的灵活性。这种方法的决策空间可以衍生出C44+C34+C24＝11种新决策，与方法(1)的区别在于，方法(1)会使用probe与gallery的所有组合，而方法(2)会根据不同的情况选择相应的朝向组合进行加权。例如，在gallery中某个类包含了四个朝向，方法(1)会将probe与gallery中四个朝向的所有图片进行组合,然后按照公式(1)得到最终相似度；方法(2)则会根据probe的朝向情况抽取两个或者三个朝向组合加权和求取最终相似度，而不是所有存在的组合都利用，最终加快匹配速度。

进一步，S1033包括

进一步，

V(S)＝R₁+γR₂+γ²R₃+…，其中，γ为衰减项。

进一步，

本发明通过设计强化学习算法中的回报(reward)函数R，在一次匹配过程中(一张probe与gallery中的所有类别)，probe与gallery中的一类进行匹配，代理/动作者(agent)根据probe和gallery中的朝向情况在决策空间中选择一个决策行动(action)A，若得到的相似度大于阈值T，并且所比对的probe和gallery为同一个类，则得到回报值R，循环遍历所有probe进行匹配最终得到折算累积回报(discounted cumulative reward)V(s)，如公式(2)所示，其中γ为衰减项。在本发明中，由于匹配过程不存在时序性，为离散随机的匹配，故衰减项为1，即每个probe与gallery的匹配都是平行的，不需要衰减。

如图4所示，本发明还提供了一种基于深度学习的行人重识别系统，包括合并数据标签模块10、行人朝向计算模块20、决策计算模块30、识别模块40。

其中，

合并数据标签模块10，用于接收视频获取行人图片，根据行人图片获取行人坐标信息，通过光流算法和行人坐标信息计算不同帧图片中同一行人的运动方向得到行人朝向信息，并在标注行人身份信息后得到行人训练数据集，行人训练数据集包括行人的朝向信息和身份标签；

本发明通过合并数据标签模块实现了对接收的视频进行处理获取行人的朝向及行人身份标签，初步实现了对行人训练数据集的生成，为构建深度神经网络提供了素材，提高了深度神经网络对行人中行人朝向及重识别的识别精度，不需要额外的设备对视频进行处理即可实现，提高了行人重识别的效率，降低了行人重识别的成本。

光流算法在本发明中主要起跟踪作用，光流算法有四个主要的步骤：1、选择感兴趣的目标，在本发明中就是行人；2、计算目标图片中的特征点，比如SIFT角点；3、预测角点在下一帧的位置；4、根据不同帧相同的角点之间的变化规律对目标进行跟踪。例如，在本发明中，通过利用光流算法跟踪行人的轨迹可以得到行人的运动方向，从而可以判断出行人的朝向信息(人不会反方向行走)。可以使用其它的跟踪算法，但是光流算法简单易用，再配合上已经标注的行人坐标的移动信息，可以得到更加可靠的行人朝向数据。

行人朝向计算模块20，用于以行人训练数据集为基础，利用多任务学习方法构建并深度神经网络，获得行人朝向和身份识别的双任务模型；

决策计算模块30，用于按照朝向设置决策基，根据不同决策基的组合设定决策类别，将所有的决策类别建立为决策空间，并根据预设的强化学习模型对决策空间中决策类别进行训练计算最优决策模型；

识别模块40，用于接收待识别行人图片，调用双任务模型获得该行人的朝向信息后，调用决策学习模型获得最优决策，查询行人库输出对该行人识别的检索结果。

进一步，所述决策计算模块包括

决策设定子模块，用于选择决策基组成新的决策；

分类子模块，用于根据行人朝向训练行人朝向数据集，获取行人朝向匹配权重，根据匹配权重计确定决策种类；

强化训练子模块，用于利用强化学习算法函数对决策种类计算训练，获取最优决策模型。

强化训练子模块包括

进一步，所述合并数据标签模块包括

朝向子模块，用于根据行人图片获取行人坐标信息，通过光流算法和行人坐标信息计算不同行人图片中同一行人的运动方向得到行人朝向数据；

行人识别子模块，用于对行人朝向数据进行清洗，对朝向数据中的行人进行标记。

进一步，所述决策计算模块包括

决策空间建立子模块，用于根据决策基建立决策空间；

决策强化计算子模块，用于根据回报函数对决策空间计算，获取最优决策模型。

更进一步，所述决策空间建立子模块包括

决策设置单元，用于选择决策基组成新的决策；

分类子单元，用于根据行人朝向权重的设置将新的决策按照进行分类。

更进一步，所述决策强化计算子模块包括

以上只通过说明的方式描述了本发明的某些示范性实施例，毋庸置疑，对于本领域的普通技术人员，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式对所描述的实施例进行修正。因此，上述附图和描述在本质上是说明性的，不应理解为对本发明权利要求保护范围的限制。

Claims

1.一种基于深度学习和强化学习的行人重识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于深度学习和强化学习的行人重识别方法，其特征在于，所述利用多任务学习方法构建深度神经网包括分别构建数据输入层、卷积层、批规范化层、非线性层、池化层、全连接层和softmax损耗层，其中，

数据输入层，用于接收行人图片，对行人图片进行预处理；

卷积层，用于提取对预处理后的行人图片的图像特征；

批规范化层，用于对图像特征进行规划化处理；

池化层，用于将图像特征与行人进行映射操作；

全连接层，用于对图像特征进行线性变换；

softmax损耗层，用于计算预测类别和标签类别的误差。

3.根据权利要求1所述的基于深度学习和强化学习的行人重识别方法，其特征在于，所述按照朝向设置决策基，根据不同决策基的组合设定决策类别，将所有的决策类别建立为决策空间，并根据预设的强化学习模型对决策空间中决策类别进行训练计算最优决策模型包括

选择决策基组成新的决策；

4.根据权利要求4所述的基于深度学习和强化学习的行人重识别方法，其特征在于，所述利用强化学习算法函数对决策种类计算训练，获取最优决策模型包括

5.根据权利要求4所述的基于深度学习和强化学习的行人重识别方法，其特征在于，

V(S)＝R₁+γR₂+γ²R₃+…，其中，γ为衰减项；

π^{*} = {argmaxV}^{π} (s), (&ForAll; s) .

6.一种基于深度学习和强化学习的行人重识别系统，其特征在于，包括

7.根据权利要求6所述的基于深度学习和强化学习的行人重识别系统，其特征在于，所述行人朝向计算模块

8.根据权利要求6所述的基于深度学习和强化学习的行人重识别系统，其特征在于，所述决策计算模块包括

决策设定子模块，用于选择决策基组成新的决策；

分类子模块，用于根据行人朝向训练行人朝向数据集，获取行人朝向匹配权重，根据匹配权重计确定新的决策种类；

9.根据权利要求8所述的基于深度学习和强化学习的行人重识别系统，其特征在于，强化训练子模块包括

10.根据权利要求9所述的基于深度学习和强化学习的行人重识别系统，其特征在于，

V(S)＝R₁+γR₂+γ²R₃+…，其中，γ为衰减项；

π^{*} = {argmaxV}^{π} (s), (&ForAll; s) .