CN113326738B

CN113326738B - 基于深度网络和字典学习的行人目标检测与重识别方法

Info

Publication number: CN113326738B
Application number: CN202110491698.1A
Authority: CN
Inventors: 刘茜
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2023-07-07
Anticipated expiration: 2041-05-06
Also published as: CN113326738A

Abstract

本发明公开了一种基于深度网络和字典学习的行人目标检测与重识别方法，包括：1)使用不同场景的两个摄像机，构建行人数据集；2)为每个摄像机构建一个改进型SSD网络；3)对行人特征提取子网络输出的行人特征，构建共同的半监督迁移字典学习模块；4)利用行人数据集训练两个改进型SSD网络和半监督迁移字典学习模块，获得端到端的行人目标检测与重识别系统；5)将待识别的行人图像或视频输入行人目标检测与重识别系统，输出行人目标检测和重识别结果。本发明实现了行人目标检测与重识别的端到端系统模型，充分利用无标记训练样本参与深度网络和字典的学习，有效增强行人目标检测与重识别能力。

Description

基于深度网络和字典学习的行人目标检测与重识别方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于深度网络和字典学习的行人目标检测与重识别方法。

背景技术

近年来，越来越多的监控摄像机被部署到各类公共场所中，视频监控在打击违法犯罪、维护社会安全等方面正发挥着越来越重要的作用。在视频监控的应用中，针对特定行人目标的检测与重识别具有重要的需求。

行人目标检测技术用于在单个监控摄像机中进行精确定位和识别行人目标；行人重识别技术用于判断在不同监控摄像机下出现的行人是否是同一个人；将这两个技术结合在一起，可以在视频监控网络中快速定位到感兴趣的特定行人目标。

一般行人目标检测与重识别系统包括行人目标检测和行人重识别两个子系统。传统的做法是将这两个子系统分割成两个步骤，先由行人目标检测子系统处理目标检测，然后将检测结果交给行人重识别子系统，重识别子系统根据检测结果提取行人特征表示，再利用行人特征表示进行重识别。这种分两步走的策略割裂了目标检测和重识别过程，前面的目标检测一旦出错会严重影响后面的重识别的识别效果。

目前实际使用的部分监控摄像机只对感兴趣的目标拍摄不连续的图像或连续的视频。在人工智能领域，通常是将视频转换为连续的视频帧图像进行处理。因此，从通用性和实用性角度考虑，行人目标检测与重识别系统应该既能够处理行人图像又能够处理行人视频。

发明内容

发明目的：针对以上问题，本发明提出一种基于深度网络和字典学习的行人目标检测与重识别方法，既可以使用行人图像数据，又可以使用行人视频数据，将行人目标检测与行人特征提取和重识别并行进行，降低目标检测结果对重识别的影响，并充分利用无标记训练数据参与深度网络和字典的学习，提升整个系统模型的泛化能力，提高行人目标检测和重识别的精确度。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种基于深度网络和字典学习的行人目标检测与重识别方法，具体包括如下步骤：

S1：获取第一摄像机拍摄的行人图像数据与行人视频数据，并对所述行人图像数据和行人视频数据进行预处理，根据预处理后的所述行人图像数据与行人视频数据构建第一有标记训练集、第一无标记训练集和第一验证集；获取第二摄像机拍摄的行人图像数据与行人视频数据，进行上述相同的预处理，并构建第二有标记训练集、第二无标记训练集和第二验证集；

S2：为第一摄像机和第二摄像机分别构建各自对应的改进型SSD网络，所述改进型SSD网络包括基础网络、多尺度网络、行人特征提取子网络、行人部件识别子网络、定位子网络和定位预测框筛选模块；

S3：为第一摄像机和第二摄像机各自对应的改进型SSD网络的行人特征提取子网络输出的行人特征，构建共同的半监督迁移字典学习模块；

S4：利用第一有标记训练集、第一无标记训练集和第一验证集训练S2中为第一摄像机构建的改进型SSD网络以及S3中构建的半监督迁移字典学习模块，同时利用第二有标记训练集、第二无标记训练集和第二验证集训练S2中为第二摄像机构建的改进型SSD网络以及S3中构建的半监督迁移字典学习模块，得到端到端的行人目标检测与重识别系统；

S5：将待识别的行人图像或行人视频进行预处理后，输入至S4所述行人目标检测与重识别系统，得到行人目标检测与重识别结果。

进一步地，S1的方法具体包括：

S1.1：获取第一摄像机拍摄的行人图像数据与行人视频数据，并对所述行人图像数据和行人视频数据进行预处理，具体包括：

将获取的行人视频数据转换为行人视频帧图像序列，将全部行人图像和行人视频帧图像保持宽高比并将较长的边缩放到257个像素，居中放置在大小为257*257的黑底图像中；

在上述行人视频帧图像序列中，利用Lucas-Kanade算法计算相邻两个视频帧之间的光流轨迹图，并插入到两个视频帧之间；

S1.2：将由第一摄像机获取的行人图像数据和行人视频帧图像序列按照一定比例构建第一有标记训练集、第一无标记训练集和第一验证集；同样，将由第二摄像机获取的行人图像数据和行人视频帧图像序列按照同样的比例构建第二有标记训练集、第二无标记训练集和第二验证集；

S1.3：对第一有标记训练集、第一验证集、第二有标记训练集和第二验证集中每一幅行人图像和行人视频帧图像中行人整体、行人头部、行人上半身和行人下半身的边界框进行人工标注，获得行人目标检测边界框的位置和大小，并根据行人目标检测边界框标示的区域标注行人类别和行人部件类别；

其中，行人类别表明边界框标示的区域属于哪个行人；

行人部件类别包括四类，分别为行人整体、行人头部、行人上半身和行人下半身，表明边界框标示的区域属于行人整体、行人头部、行人上半身、行人下半身这四个类别中的哪一个。

进一步地，S1所述行人图像数据中每一幅行人图像均包括行人目标，并且对同一个行人目标至少获取得到三幅图像；同时至少50％的行人目标由第一摄像机和第二摄像机同时获取得到；剩余部分行人目标只由第一摄像机或第二摄像机获取得到；

S1所述行人视频数据中每一段行人视频均包括行人目标，并且对同一个行人目标至少获取三段不少于50帧的视频；同时至少50％的行人目标由第一摄像机和第二摄像机同时获取得到；剩余部分行人目标只由第一摄像机或第二摄像机获取得到。

进一步地，所述的第一摄像机和第二摄像机的区别包括拍摄地点、拍摄位置的一种或两种；

获取行人图像数据和行人视频数据是为了保证训练得到的网络模型具有较强的泛化能力；

对获取的行人图像数据和行人视频数据做预处理的目的是限制网络输入大小，加快行人目标检测和重识别的速度；

将获取的行人图像数据和行人视频数据划分得到训练集和验证集的目的是保证训练的网络模型具有较强的泛化能力；

所述的光流轨迹图将与视频帧图像一起输入网络，可以提供每两帧之间行人的行为信息，充分利用行人视频帧之间的先后关系信息来提高行人目标检测和重识别的效果。

进一步地，S2所述为第一摄像机和第二摄像机分别构建各自对应的改进型SSD网络，构建方法如下：

设置为第一摄像机构建的改进型SSD网络为第一网络，为第二摄像机构建的改进型SSD网络为第二网络；

S2.1：将SSD300网络中的基础网络VGG-16更换为改进的ResNet34V2，所述改进的ResNet34V2的结构依次为：输入层→第一卷积模块→第二卷积模块→第三卷积模块→第四卷积模块→第五卷积模块；

其中，输入层对输入图像的大小限制为257×257；

第一卷积模块由通道数为64的3个3×3卷积层依次连接组成，输出特征图大小不变；

第二卷积模块由通道数为64的1个第一残差模块和2个第二残差模块依次连接组成，输出特征图大小为129×129；

第三卷积模块由通道数为128的1个第一残差模块和3个第二残差模块依次连接组成，输出特征图大小为65×65；

第四卷积模块由通道数为256的1个第一残差模块和5个第二残差模块依次连接组成，输出特征图大小为33×33；

第五卷积模块由通道数为512的1个第一残差模块和2个第二残差模块依次连接组成，输出特征图大小为17×17；

所述第一残差模块结构表示如下：

x_k+1＝[x_k→BatchNormalization→Relu→Conv2D(3×3,Strides＝2)→BatchNormalization→Relu→Conv2D(3×3,Strides＝1)]+[x_k→Conv2D(1×1,Strides＝2)]

所述第二残差模块结构表示如下：

x_k+1＝[x_k→BatchNormalization→Relu→Conv2D(3×3,Strides＝2)→BatchNormalization→Relu→Conv2D(3×3,Strides＝1)]+x_k

式中，x_k表示残差模块的输入，x_k+1表示残差模块的输出，→表示函数映射，BatchNormalization表示批标准化，Relu表示线性整流函数，Conv2D(3×3,Strides＝2)表示步长为2的3×3二维卷积，Conv2D(3×3,Strides＝1)表示步长为1的3×3二维卷积，Conv2D(1×1,Strides＝2)表示步长为2的1×1二维卷积；

S2.2：将SSD300网络中多尺度网络的第一个尺度的输出由VGG-16的卷积层conv4_3→L2Normalization的输出更换为S2.1所述改进的ResNet34V2的第四卷积模块的输出，并在每一个输出后添加BatchNormalization→Relu；

其中，conv4_3是VGG-16中第四卷积模块中的第三个卷积层，L2Normalization表示L2范数标准化；

S2.3：将SSD300网络中的多尺度网络的最后四个卷积模块更换为依次连接的通道数为256的1个第一残差模块和通道数为128的3个第一残差模块，四个残差模块输出特征图大小依次为9×9、5×5、3×3、1×1，同时多尺度网络的后四个尺度的输出相应地分别更换为这四个残差模块的输出→BatchNormalization→Relu；

S2.4：将SSD300网络中原本的目标检测模块的每个卷积层后均添加一个BatchNormalization层，并设置其为定位子网络，用于生成定位预测框；

S2.5：将SSD300网络中原本的识别模块的每个卷积层后均添加一个BatchNormalization层，并设置其为行人部件识别子网络，用于识别定位预测框标示的区域的行人部件类别；

S2.6：利用标签平滑正则化方法优化行人部件类别的概率分布，所述标签平滑正则化方法如下：

将一幅行人图像或行人视频帧图像的行人部件类别的标签的one-hot向量

[0,…,0,1,0,…,0]^T

平滑为

其中，ε为平滑因子，K是类别标签总数；

S2.7：在SSD300网络的多尺度网络之后，增加一个与定位子网络和行人部件识别子网络并行的行人特征提取子网络，用于提取每个定位预测框标示区域的特征；

S2.8：将SSD300网络中原来的Ground truth边界框匹配和非极大值抑制合并为定位预测框筛选模块，用于有标记图像的Ground truth边界框匹配和无标记图像的非极大值抑制，具体包括：

对于有标记训练图像，改进型SSD网络在定位子网络产生的所有定位预测框中，筛选得到与Ground truth边界框匹配的定位预测框；

对于无标记训练图像，改进型SSD网络在定位子网络产生的所有定位预测框中，利用非极大值抑制的处理方式筛选得到定位预测框；

S2.9：在SSD300网络的误差函数中增加行人特征提取子网络的特征误差，其中，特征误差表达式如下：

其中，E表示行人特征提取子网络的特征误差；X表示行人特征提取子网络输出的经过筛选后保留下来的所有定位预测框标示区域的特征的集合；A表示X输入半监督迁移字典学习模块之后反馈得到的对应的特征。

所述对SSD300网络中的基础网络和多尺度网络进行改进，对特征提取网络进行优化，可以有效提升特征表达能力；

对SSD300网络中的目标检测模块和识别模块进行改进，添加BatchNormalization层的目的是提升特征表达能力；

利用标签平滑正则化方法优化行人部件类别的概率分布，目的是避免网络过拟合，提升网络模型的泛化能力；

所述SSD300网络中添加与定位子网络和行人部件识别子网络并行的行人特征提取子网络，将行人目标检测、行人特征提取和重识别并行进行，降低目标检测结果对重识别的影响；通过在行人特征提取子网络中应用循环神经网络结构，可以充分利用行人视频帧之间的先后关系信息来提高行人目标检测和重识别的效果；

所述定位预测框筛选模块，充分利用无标记训练样本参与网络的学习，增强网络的行人特征提取能力。

进一步地，S3所述为第一摄像机和第二摄像机各自对应的改进型SSD网络的行人特征提取子网络输出的行人特征，构建共同的半监督迁移字典学习模块；

所述半监督迁移字典学习模块包括半监督迁移字典学习子模块和预测结果融合子模块；

所述半监督迁移字典学习子模块包括行人整体特征的半监督迁移字典学习子模块、行人头部特征的半监督迁移字典学习子模块、行人上半身特征的半监督迁移字典学习子模块和行人下半身特征的半监督迁移字典学习子模块；

进一步地，S3中所述半监督迁移字典学习子模块训练阶段的目标函数如下：

其中，w＝1,2,3,4分别表示行人整体特征的半监督迁移字典学习子模块、行人头部特征的半监督迁移字典学习子模块、行人上半身特征的半监督迁移字典学习子模块和行人下半身特征的半监督迁移字典学习子模块，将行人整体特征的半监督迁移字典学习子模块简记为字典学习子模块1，行人头部特征的半监督迁移字典学习子模块简记为字典学习子模块2，行人上半身特征的半监督迁移字典学习子模块简记为字典学习子模块3，行人下半身特征的半监督迁移字典学习子模块简记为字典学习子模块4；v＝A,B分别表示摄像机编号，其中A为摄像机A，表示第一摄像机，B为摄像机B，表示第二摄像机；C^v＝C^S+C^vO表示摄像机v的行人类别总数；C^S表示摄像机A和摄像机B共有的行人类别个数；C^vO表示摄像机v独有的行人类别个数；X^vw表示来自摄像机v的字典学习子模块w的训练样本特征集；

表示X^vw中行人类别i的训练样本特征子集，i＝1,2,…,C^v，其中，当i＝1,2,…,C^S时，行人类别i是摄像机A和B共有的行人类别，当i＝C^S+1_,C^S+2,…,C^v时，行人类别i是摄像机v独有的行人类别；/>

表示X^vw中的无标记训练样本特征子集；D^vw表示对应X^vw的字典；A^vw表示使用字典D^vw重构X^vw的稀疏编码系数；/>

表示使用字典D^vw重构/>

的稀疏编码系数；/>

表示使用字典D^vw重构/>

的稀疏编码系数；λ₁和λ₂表示权重系数；/>

表示字典D^vw中对应行人类别k的子字典，k＝1,2,…,C^S；

表示字典D^vw中对应行人类别i的子字典；/>

表示使用子字典/>

重构/>

的稀疏编码系数；

S3所述半监督迁移字典学习子模块预测阶段的预测方法如下：

在字典学习子模块w中，假设待识别样本特征y^vw来自摄像机v，其中v＝A,B，w＝1,2,3,4，按照下面的公式计算y^vw的稀疏编码系数β^vw；

令

表示β^vw中对应子字典/>

的稀疏编码系数，其中j＝1,2,…,C^v，按照下面的公式计算y^vw与每个行人类别的相似度：

令

将待识别样本特征y^vw归入行人类别j*，

表示y^vw归入行人类别j*的置信度。

S3中所述预测结果融合子模块，包括：

S3.1：从第一网络和第二网络中定位预测框筛选模块各自筛选得到的定位预测框的行人部件类别中，选出行人部件类别为“行人整体”所有定位预测框；

S3.2：在每一个行人部件类别为“行人整体”定位预测框的标示区域内，选出所有非“行人整体”定位预测框；其中，每一个“行人整体”定位预测框和该定位预测框的标识区域内的全部非“行人整体”定位预测框组成一个行人组；

S3.3：对每一个行人组，均按照半监督迁移字典学习子模块预测阶段的预测方法对定位预测框的行人类别预测结果再进行小组划分，将预测为同一个行人类别的定位预测框划分到同一个小组内；

S3.4：对行人组中的每一个小组，计算该小组内所有定位预测框的平均置信度，并利用该平均置信度计算得到小组置信度；其中，计算公式如下：

小组置信度＝平均置信度×小组定位预测框个数占比

S3.5：在每一个行人组内均选出该行人组内置信度最大的小组，将置信度最大的小组的行人类别和平均置信度作为其所在行人组的行人类别和置信度，将置信度最大的小组中“行人整体”定位预测框的定位结果作为该行人组的定位结果，由此得到每一个行人组的定位结果、行人类别和置信度。

所述半监督迁移字典学习子模块训练阶段的目标函数在进行两个摄像机之间的迁移字典学习时，充分利用有标记训练样本监督地学习结构化的字典，充分利用无标记训练样本优化字典的稀疏表示性能，增强行人重识别能力；

在半监督迁移字典学习模块中增加的预测结果融合子模块，用于融合行人整体和行人部件的全局和局部识别结果，充分利用了多尺度的全局和局部信息，可以有效提高行人目标检测和重识别的精确度。

进一步地，S4的方法具体包括：

S4.1：随机初始化第一网络、第二网络的网络参数，以及半监督迁移字典学习模块的第一字典D^A和第二字典D^B；

其中，D^A＝[D^A1,D^A2,D^A3,D^A4]对应第一摄像机，D^B＝[D^B1,D^B2,D^B3,D^B4]对应第二摄像机，

w＝1,2,3,4，k＝1,2,…,C^S；

S4.2：将为第一摄像机构建的第一有标记训练集、第一无标记训练集和第一验证集输入第一网络，获得当前各自对应的第一有标记训练样本特征集、第一无标记训练样本特征集和第一验证样本特征集；将为第二摄像机构建的第二有标记训练集、第二无标记训练集和第二验证集输入第二网络，获得当前各自对应的第二有标记训练样本特征集、第二无标记训练样本特征集和第二验证样本特征集；

S4.3：利用第一有标记训练集和第一验证集，以及当前它们各自对应的第一有标记训练样本特征集和第一验证样本特征集训练第一网络；同时利用第二有标记训练集和第二验证集，以及当前它们各自对应的第二有标记训练样本特征集和第二验证样本特征集训练第二网络；

S4.4：将为第一摄像机构建的第一有标记训练集、第一无标记训练集和第一验证集输入第一网络，更新各自当前对应的第一有标记训练样本特征集、第一无标记训练样本特征集和第一验证样本特征集；将为第二摄像机构建的第二有标记训练集、第二无标记训练集和第二验证集输入第二网络，更新各自当前对应的第二有标记训练样本特征集、第二无标记训练样本特征集和第二验证样本特征集；

S4.5：利用第一有标记训练样本特征集、第一无标记训练样本特征集、第二有标记训练样本特征集和第二无标记训练样本特征集训练半监督迁移字典学习模块，更新第一字典D^A和第二字典D^B，并获得相应的第一有标记稀疏编码系数集、第一无标记稀疏编码系数集、第二有标记稀疏编码系数集和第二无标记稀疏编码系数集；直至第一网络和第二网络中的误差函数以及半监督迁移字典学习子模块的目标函数均收敛，则表示训练完成；否则，进入S4.6；

S4.6：利用第一字典D^A、第二字典D^B、第一有标记稀疏编码系数集、第一无标记稀疏编码系数集、第二有标记稀疏编码系数集和第二无标记稀疏编码系数集更新第一有标记训练样本特征集、第一无标记训练样本特征集、第二有标记训练样本特征集和第二无标记训练样本特征集；

S4.7：利用第一有标记训练集、第一有标记训练样本特征集、第一验证集和第一验证样本特征集训练第一网络；利用第一无标记训练集和第一无标记训练样本特征集训练第一网络中的基础网络、多尺度网络和行人特征提取子网络，定位子网络和行人部件识别子网络固定不变；利用第二有标记训练集、第二有标记训练样本特征集、第二验证集和第二验证样本特征集训练第二网络；利用第二无标记训练集和第二无标记训练样本特征集训练第二网络中的基础网络、多尺度网络和行人特征提取子网络，定位子网络和行人部件识别子网络固定不变；返回S4.4；

其中，视频帧图像序列以一帧一帧地形式输入至网络中，同时每一段行人视频除第一帧外，其余每一帧都与当前帧和上一帧之间的光流轨迹图一起输入。

进一步地，S4.5所述训练半监督迁移字典学习模块，所述方法具体包括：

训练半监督迁移字典学习模块需要对各个半监督迁移字典学习子模块训练阶段的目标函数利用迭代求解方法进行求解，字典学习子模块w的迭代求解方法具体包括：

S4.51：随机初始化字典D^Aw和D^Bw；

S4.52：固定D^Aw和D^Bw，根据公式(1)求解稀疏编码系数A^Aw和A^Bw，令

S4.53：固定A^Aw和A^Bw，根据公式(1)更新D^Aw和D^Bw；

S4.54：固定D^Aw和D^Bw，根据公式(1)更新A^Aw和A^Bw，令

S4.55：设置阈值ε，ε>0；判断|J₁-J₂|>ε是否成立；若不等式成立，则令J₁＝J₂，返回S4.53；否则，停止迭代过程，字典学习子模块w训练完成；

其中，w＝1,2,3,4。

所述S4的训练流程中通过输入光流轨迹图来充分利用行人视频帧之间的先后关系信息，以提高行人目标检测和重识别的效果。

利用无标记训练数据参与深度网络和字典的学习，以提升整个系统模型的泛化能力，提高行人目标检测和重识别的精确度。

进一步地，S5所述将待识别的行人图像或行人视频进行预处理后，输入至S4所述行人目标检测与重识别系统，得到目标检测与重识别结果，包括：

S5.1：将所述待识别的行人图像或行人视频进行预处理，包括：

将待识别的行人视频转换为行人视频帧图像序列，将全部行人图像和行人视频帧图像保持宽高比将较长的边缩放到257个像素，并居中放置在大小为257*257的黑底图像中；

S5.2：将待识别的行人图像或行人视频帧图像序列输入至行人目标检测与重识别系统中，得到行人图像或行人视频帧图像序列对应的预测结果，所述预测结果包括定位结果、行人类别和置信度；

其中，由第一摄像机获取的行人图像或行人视频帧图像序列输入至行人目标检测与重识别系统的第一网络中，由第二摄像机获取的行人图像或行人视频帧图像序列输入至行人目标检测与重识别系统的第二网络中；

同时视频帧图像序列以一帧一帧地形式输入至网络中，同时每一段行人视频除第一帧外，其余每一帧都与当前帧和上一帧之间的光流轨迹图一起输入；

S5.3：设置置信度阈值，对行人图像或行人视频帧图像序列对应的预测结果进行分析，得到行人目标检测和重识别结果，包括：

在所述预测结果中，判断行人组的置信度是否不小于置信度阈值，同时该行人组的行人类别属于单个摄像机独有，则该行人组所在的行人图像或行人视频帧图像属于该行人类别，且只在单个摄像机出现；若行人组的置信度不小于置信度阈值，同时该行人组的行人类别不属于单个摄像机独有，则该行人组所在的行人图像或行人视频帧图像属于该行人类别，且其来源于不同摄像机；若行人组的置信度小于置信度阈值，表示该行人图像属于新的行人类别。

有益效果：与现有技术相比较，本发明技术方案具有如下有益技术效果：

第一，本发明所述方法既可以使用行人图像数据，又可以使用行人视频数据，具有较高的通用性和实用性；

第二，本发明构建了一个改进型SSD网络，对特征提取网络进行优化，使用层次较深的全卷积残差网络作为基础网络，并在多尺度网络使用残差模块，有效提升了特征表达能力；同时，由于在该网络中引入了标签平滑正则化方法优化行人部件类别的概率分布，可以避免过拟合，提升网络模型的泛化能力；

第三，本发明将行人目标检测与行人特征提取和重识别并行进行，可以降低目标检测结果对重识别的影响；

第四，本发明在行人目标检测时既对行人整体进行检测，也对行人部件的局部进行检测，在行人特征提取和重识别时，既对行人整体进行特征提取和识别，也对行人部件的局部进行特征提取和识别，并融合行人整体和行人部件的全局和局部识别结果，充分利用了多尺度的全局特征和局部特征，有效提高了行人目标检测和重识别的精确度；

第五，本发明充分利用无标记训练数据参与深度网络和字典的学习，提升整个系统模型的泛化能力；

第六，本发明通过在行人特征提取子网络中应用循环神经网络结构，以及在网络输入行人视频时输入光流轨迹图，充分利用了行人视频帧之间的先后关系信息来提高行人目标检测和重识别的效果。

附图说明

图1是一个实施例下本发明的方法流程图；

图2是一个实施例下改进的ResNet34V2中的有降维残差模块的结构示意图；

图3是一个实施例下改进的ResNet34V2中的无降维残差模块的结构示意图；

图4是一个实施例下改进型SSD网络中的行人特征提取子网络的结构示意图；

图5是一个实施例下改进型SSD网络与半监督迁移字典学习模块的连接结构示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明所述的一种基于深度网络和字典学习的行人目标检测与重识别方法，如图1所示，具体包括如下步骤：

步骤1，使用不同场景的两个摄像机，构建行人数据集；

步骤2，为每个摄像机构建各自对应的改进型SSD网络，所述改进型SSD网络包括基础网络、多尺度网络、行人特征提取子网络、行人部件识别子网络、定位子网络和定位框筛选模块；其中行人特征提取子网络包含行人多尺度全局特征提取和行人多尺度局部特征提取；

步骤3，为两个摄像机的改进型SSD网络，构建同一个半监督迁移字典学习模块；

步骤4，利用行人数据集训练两个改进型SSD网络和半监督迁移字典学习模块，获得端到端的行人目标检测与重识别系统；

步骤5，将待识别的行人图像或视频输入行人目标检测与重识系统，得到行人目标检测和重识别结果。

进一步地，所述的步骤1中，具体做法如下：

步骤1-1，使用不同场景的两个摄像机A和B，每个摄像机采集至少10000张大小不低于48×128的图像，图像必须包含行人目标，每个行人至少采集3幅图像，一半以上的行人要被两个摄像机捕捉到，在其余的行人中，一部分行人只被摄像机A捕捉到，另一部分行人只被摄像机B捕捉到，每幅图像要标注来源于哪个摄像机；

步骤1-2，使用不同场景的两个摄像机A和B，每个摄像机为不少于300个行人每人采集至少3段连续的不少于50帧的视频，一半以上的行人要被两个摄像机捕捉到，在其余的行人中，一部分行人只被摄像机A捕捉到，另一部分行人只被摄像机B捕捉到，每段视频要标注来源于哪个摄像机，将采集到的视频转换为视频帧图像序列；

步骤1-3，每幅图像或视频帧图像保持宽高比并将较大的边缩放到257个像素，然后将缩放后的图像居中放置到大小为257×257的黑底图像中，将按此方式处理后的图像视为有效行人图像或行人视频帧图像；

步骤1-4，将所有采集到的行人图像和视频按照4：8：1的比例构建有标记训练集、无标记训练集和验证集，每个集合中都包含来自两个摄像机的行人图像和视频，且每个行人的图像和视频都出现在三个集合中，将有标记训练集划分为有标记训练集A和有标记训练集B，将无标记训练集划分为无标记训练集A和无标记训练集B，将验证集划分为验证集A和验证集B，其中，有标记训练集A、无标记训练集A和验证集A中的行人视频来自摄像机A，有标记训练集B、无标记训练集B和验证集B中的行人视频来自摄像机B；

步骤1-5，对有标记训练集和验证集中的每一幅行人图像或行人视频帧图像中行人整体、行人头部、行人上半身、行人下半身的边界框进行人工标注，获得行人目标检测边界框的位置和大小，并标注行人类别和行人部件类别，其中，行人类别表明边界框标示的区域属于哪个行人，行人部件类别表明边界框标示的区域属于行人整体、行人头部、行人上半身、行人下半身这四个类别中的哪一个；

步骤1-6，在每一段行人视频中，使用Lucas-Kanade算法计算相邻两个视频帧之间的光流轨迹图，随视频帧图像序列进行存储；

进一步地，在步骤2中，为摄像机A和摄像机B分别构建各自对应的改进型SSD网络，构建方法如下：

设置为摄像机A构建的改进型SSD网络为网络A，为摄像机B构建的改进型SSD网络为网络B；

步骤2-1，将SSD300网络中的基础网络VGG-16更换为改进的ResNet34V2，其结构依次为：输入层→第一卷积模块→第二卷积模块→第三卷积模块→第四卷积模块→第五卷积模块，其中，输入层对输入图像的大小限制为257×257；

第二卷积模块由通道数为64的如图2所示的1个残差模块和如图3所示的2个残差模块依次连接组成，输出特征图大小为129×129；

第三卷积模块由通道数为128的如图2所示的1个残差模块和如图3所示的3个残差模块依次连接组成，输出特征图大小为65×65；

第四卷积模块由通道数为256的如图2所示的1个残差模块和如图3所示的5个残差模块依次连接组成，输出特征图大小为33×33；

第五卷积模块由通道数为512的如图2所示的1个残差模块和如图3所示的2个残差模块依次连接组成，输出特征图大小为17×17；

步骤2-2，将SSD300网络中多尺度网络的第一个尺度的输出由VGG-16的卷积层conv4_3→L2Normalization的输出更换为上述改进的ResNet34V2的第四卷积模块的输出，并在输出后添加BatchNormalization→Relu→L2Normalization；

步骤2-3，将SSD300网络中的多尺度网络的最后四个卷积模块更换为如图2所示的依次连接的通道数为256的1个残差模块和通道数为128的3个残差模块，四个残差模块输出特征图大小依次为9×9、5×5、3×3、1×1，多尺度网络的后四个尺度的输出相应地分别更换为这四个残差模块的输出，并在每一个输出后添加BatchNormalization→Relu；

步骤2-4，将SSD300网络中的目标检测模块设置为定位子网络，用于生成定位预测框，其中，在每个卷积层后添加一个BatchNormalization层；

步骤2-5，将SSD300网络中的识别模块设置为行人部件识别子网络，用于识别定位预测框标示的区域属于行人部件类别中的哪一个，其中，在每个卷积层后添加一个BatchNormalization层；

步骤2-6，利用标签平滑正则化方法优化行人部件类别的概率分布，具体做法如下：

[0,…,0,1,0,…,0]^T

平滑为

其中，ε为平滑因子，K是类别标签总数；

步骤2-7，在SSD300网络的多尺度网络之后，增加一个如图4所示的与定位子网络和行人部件识别子网络并行的行人特征提取子网络，用于提取每个定位预测框标示区域的特征；

步骤2-8，将SSD300网络中原来的Ground truth边界框匹配和非极大值抑制合并为如图5左侧所示的定位预测框筛选模块，用于有标记图像的Ground truth边界框匹配和无标记图像的非极大值抑制；

步骤2-9，在SSD300网络的误差函数中增加行人特征提取子网络的特征误差。

进一步地，所述的步骤3中，构建半监督迁移字典学习模块的具体做法如下：

在改进型SSD网络之后，构建一个如图5右侧所示的半监督迁移字典学习模块；

在网络A和网络B中，对于有标记训练图像，将定位子网络产生的所有定位预测框筛选出与Ground truth边界框匹配的定位预测框；

对于无标记训练图像，将定位子网络产生的所有定位预测框按照非极大值抑制的处理方式筛选出定位预测框；

然后根据筛选出的定位预测框的行人部件类别将对应预测框的特征分别送入不同的半监督迁移字典学习子模块，进行相应的字典学习；半监督迁移字典学习完成后，还要通过更新对应预测框的特征来反馈行人特征提取子网络；

在进行预测时，对于无标记的待识别图像，将网络A或网络B的定位子网络产生的所有定位预测框按照非极大值抑制的处理方式筛选出定位预测框；然后根据筛选出的定位预测框的行人部件类别将对应定位预测框的特征分别送入不同的半监督迁移字典学习子模块，进行相应的行人重识别预测，获得各个定位预测框的行人类别预测结果和置信度；

半监督迁移字典学习模块最后的预测结果融合子模块，对四个半监督迁移字典学习子模块的预测结果进行融合之后再输出；

进一步地，所述的步骤4中，利用行人数据集训练两个改进型SSD网络和半监督迁移字典学习模块的具体做法如下：

步骤4-1，随机初始化网络A和B；随机初始化字典A和B，确保字典A和B中摄像机A和B共有行人类别对应的子字典完全相同；将训练集A和验证集A输入网络A，获得初始训练样本特征集A和初始验证样本特征集A；将训练集B和验证集B输入网络B，获得初始训练样本特征集B和初始验证样本特征集B；

步骤4-2，使用有标记训练集A、当前有标记训练样本特征集A、验证集A和当前验证样本特征集A来训练网络A；使用有标记训练集B、当前有标记训练样本特征集B、验证集B和当前验证样本特征集B来训练网络B，直到网络A和网络B训练完成；

步骤4-3，将训练集A和验证集A输入网络A，更新训练样本特征集A和验证样本特征集A；将训练集B和验证集B输入网络B，更新训练样本特征集B和验证样本特征集B；

步骤4-4，使用当前训练样本特征集A和B进行半监督迁移字典学习，更新字典A和B，获得相应的稀疏编码系数集A和B；

步骤4-5，如果网络A、网络B的误差函数值和半监督迁移字典学习的目标函数值都收敛，则停止迭代；否则，转向步骤4-6；

步骤4-6，固定字典A和字典B以及稀疏编码系数集A和稀疏编码系数集B，根据公式(1)更新训练样本特征集A和训练样本特征集B以及验证样本特征集A和验证样本特征集B；

步骤4-7，使用有标记训练集A、当前有标记训练样本特征集A、验证集A和当前验证样本特征集A来更新整个网络A；使用无标记训练集A和当前无标记训练样本特征集A来更新网络A中的基础网络、多尺度网络和行人特征提取子网络，定位子网络和行人部件识别子网络固定不变；使用有标记训练集B、当前有标记训练样本特征集B、验证集B和当前验证样本特征集B来更新整个网络B；使用无标记训练集B和当前无标记训练样本特征集B来更新网络B中的基础网络、多尺度网络和行人特征提取子网络，定位子网络和行人部件识别子网络固定不变；返回步骤4-3。

在上述网络训练的步骤中，每段视频输入网络时，是以视频帧图像序列的形式一帧一帧地输入的，输入视频帧图像时，除了每段视频的第一帧之外，其余每一帧都与当前帧和上一帧之间的光流轨迹图一起输入。

在步骤5中，将待识别的行人图像或视频输入该系统，输出目标检测和重识别结果，具体方法如下：

步骤5-1，如果待识别样本是视频，要将待识别的行人视频转换为视频帧图像序列，每幅行人图像或行人视频帧图像保持宽高比将较大的边缩放到257个像素，然后将缩放后的图像居中放置到大小为257×257的黑底图像中，将按此方式处理后的图像视为有效的待识别行人图像或行人视频帧图像；在待识别的行人视频中，使用Lucas-Kanade算法计算相邻视频帧之间的光流轨迹图；

步骤5-2，如果待识别的行人图像或视频来自摄像机A，将该图像或视频输入网络A，并获得输出的预测结果；如果待识别的行人图像或视频来自摄像机B，将该图像或视频输入网络B，并获得输出的预测结果；待识别的行人视频输入网络时，是以视频帧图像序列的形式一帧一帧的输入的，输入视频帧图像时，除了第一帧之外，其余每一帧都与当前帧和上一帧之间的光流轨迹图一起输入；

步骤5-3，在得到的每一帧的预测结果中，对每一个行人组的预测结果，如果置信度大于等于0.5且行人类别是摄像机独有行人类别，则该行人图像归属于对应行人类别，只在其来源的摄像机中出现；如果置信度大于等于0.5且行人类别是摄像机共有行人类别，则该行人图像归属于对应行人类别，既在其来源的摄像机中出现，也在另一个摄像机中出现；如果置信度小于0.5，则该行人图像属于已知行人类别的可能性较低，一般认为属于某个未知的新的行人类别。

所述的行人视频识别过程中，对行人视频的目标检测与重识别是通过对每一帧图像逐一进行目标检测与重识别来实现的；在处理每一帧图像时，通过充分利用当前帧和上一帧之间的先后关系信息来提高行人目标检测和重识别的效果；

所述的预测结果判定方式，是根据实际应用情况分析进行判定的，其中采用的置信度阈值0.5，也可以根据实际情况进行调整。

Claims

1.一种基于深度网络和字典学习的行人目标检测与重识别方法，其特征在于，具体包括如下步骤：

将SSD300网络中原本的目标检测模块的每个卷积层后均添加一个BatchNormalization层，并设置其为定位子网络，用于生成定位预测框；

将SSD300网络中原本的识别模块的每个卷积层后均添加一个BatchNormalization层，并设置其为行人部件识别子网络，用于识别定位预测框标示的区域的行人部件类别；

在SSD300网络的多尺度网络之后，增加一个与定位子网络和行人部件识别子网络并行的行人特征提取子网络，将行人目标检测、行人特征提取和重识别并行进行，用于提取每个定位预测框标示区域的特征；

2.根据权利要求1所述的一种基于深度网络和字典学习的行人目标检测与重识别方法，其特征在于，S1的方法具体包括：

在所述行人视频帧图像序列中，利用Lucas-Kanade算法计算相邻两个视频帧之间的光流轨迹图，并插入到两个视频帧之间；

其中，行人类别表明边界框标示的区域属于哪个行人；

3.根据权利要求1所述的一种基于深度网络和字典学习的行人目标检测与重识别方法，其特征在于，S1所述行人图像数据中每一幅行人图像均包括行人目标，并且对同一个行人目标至少获取得到三幅图像；同时至少50％的行人目标由第一摄像机和第二摄像机同时获取得到；剩余部分行人目标只由第一摄像机或第二摄像机获取得到；

4.根据权利要求1所述的一种基于深度网络和字典学习的行人目标检测与重识别方法，其特征在于，S2所述为第一摄像机和第二摄像机分别构建各自对应的改进型SSD网络，构建方法如下：

将SSD300网络中的基础网络VGG-16更换为改进的ResNet34V2，所述改进的ResNet34V2的结构依次为：输入层→第一卷积模块→第二卷积模块→第三卷积模块→第四卷积模块→第五卷积模块；

其中，输入层对输入图像的大小限制为257×257；

所述第一残差模块结构表示如下：

x_k+1＝[x_k→BatchNormalization→Relu→Conv2D(3×3,Strides＝2)→

BatchNormalization→Relu→Conv2D(3×3,Strides＝1)]+[x_k→Conv2D(1×1,Strides＝2)]

所述第二残差模块结构表示如下：

x_k+1＝[x_k→BatchNormalization→Relu→Conv2D(3×3,Strides＝2)→

BatchNormalization→Relu→Conv2D(3×3,Strides＝1)]+x_k

将SSD300网络中多尺度网络的第一个尺度的输出由VGG-16的卷积层conv4_3→L2Normalization的输出更换为S2.1所述改进的ResNet34V2的第四卷积模块的输出，并在输出后添加BatchNormalization→Relu→L2Normalization；

将SSD300网络中的多尺度网络的最后四个卷积模块更换为依次连接的通道数为256的1个第一残差模块和通道数为128的3个第一残差模块，四个残差模块输出特征图大小依次为9×9、5×5、3×3、1×1，同时多尺度网络的后四个尺度的输出相应地分别更换为这四个残差模块的输出，并在每一个输出后添加BatchNormalization→Relu；

利用标签平滑正则化方法优化行人部件类别的概率分布，所述标签平滑正则化方法如下：

[0,…,0,1,0,…,0]^T

平滑为

其中，ε为平滑因子，K是类别标签总数；

将SSD300网络中原来的Ground truth边界框匹配和非极大值抑制合并为定位预测框筛选模块，用于有标记图像的Ground truth边界框匹配和无标记图像的非极大值抑制，具体包括：

在SSD300网络的误差函数中增加行人特征提取子网络的特征误差，其中，特征误差表达式如下：

5.根据权利要求1所述的一种基于深度网络和字典学习的行人目标检测与重识别方法，其特征在于，S3中所述半监督迁移字典学习子模块训练阶段的目标函数如下：

其中，w＝1,2,3,4分别表示行人整体特征的半监督迁移字典学习子模块、行人头部特征的半监督迁移字典学习子模块、行人上半身特征的半监督迁移字典学习子模块和行人下半身特征的半监督迁移字典学习子模块，将行人整体特征的半监督迁移字典学习子模块简记为字典学习子模块1，行人头部特征的半监督迁移字典学习子模块简记为字典学习子模块2，行人上半身特征的半监督迁移字典学习子模块简记为字典学习子模块3，行人下半身特征的半监督迁移字典学习子模块简记为字典学习子模块4；v＝A,B分别表示摄像机编号，其中A表示第一摄像机，B表示第二摄像机；C^v＝C^S+C^vO表示摄像机v的行人类别总数；C^S表示第一摄像机A和第二摄像机B共有的行人类别个数；C^vO表示摄像机v独有的行人类别个数；X^vw表示来自摄像机v的字典学习子模块w的训练样本特征集；

表示X^vw中行人类别i的训练样本特征子集，i＝1,2,...,C^v，其中，当i＝1,2,...,C^S时，行人类别i是第一摄像机A和第二摄像机B共有的行人类别，当i＝C^S+1_,C^S+2,...,C^v时，行人类别i是摄像机v独有的行人类别；/>

表示使用字典D^vw重构/>

的稀疏编码系数；/>

表示使用字典D^vw重构/>

的稀疏编码系数；λ₁和λ₂表示权重系数；/>

表示字典D^vw中对应行人类别k的子字典，k＝1,2,…,C^S；

表示字典D^vw中对应行人类别i的子字典；/>

表示使用子字典/>

重构/>

的稀疏编码系数。

6.根据权利要求5所述的一种基于深度网络和字典学习的行人目标检测与重识别方法，其特征在于，S3所述半监督迁移字典学习子模块在预测阶段的预测方法如下：

令

表示β^vw中对应子字典/>

的稀疏编码系数，其中j＝1,2,…,C^v，按照下面的公式计算y^vw与每个行人类别的置信度：

令

将待识别样本特征y^vw归入置信度最大的行人类别j*，

表示y^vw归入行人类别j*的置信度。

7.根据权利要求1所述的一种基于深度网络和字典学习的行人目标检测与重识别方法，其特征在于，S3中所述预测结果融合子模块，包括：

小组置信度＝平均置信度×小组定位预测框个数占比

8.根据权利要求6所述的一种基于深度网络和字典学习的行人目标检测与重识别方法，其特征在于，S4的方法具体包括：

9.根据权利要求8所述的一种基于深度网络和字典学习的行人目标检测与重识别方法，其特征在于，S4.5所述利用第一有标记训练样本特征集、第一无标记训练样本特征集、第二有标记训练样本特征集和第二无标记训练样本特征集训练半监督迁移字典学习模块，所述方法具体包括：

S4.51：随机初始化字典D^Aw和D^Bw；

S4.53：固定A^Aw和A^Bw，根据公式(1)更新D^Aw和D^Bw；

S4.54：固定D^Aw和D^Bw，根据公式(1)更新A^Aw和A^Bw，令

其中，w＝1,2,3,4。

10.根据权利要求8所述的一种基于深度网络和字典学习的行人目标检测与重识别方法，其特征在于，S4.6所述利用第一字典D^A、第二字典D^B、第一有标记稀疏编码系数集、第一无标记稀疏编码系数集、第二有标记稀疏编码系数集和第二无标记稀疏编码系数集更新第一有标记训练样本特征集、第一无标记训练样本特征集、第二有标记训练样本特征集和第二无标记训练样本特征集，方法具体包括：

对于字典学习子模块w，w＝1,2,3,4，更新后的第一有标记训练样本特征集X^Aw＝D^AwA^Aw；更新后的第一无标记训练样本特征集

更新后的第二有标记训练样本特征集X^Bw＝D^BwA^Bw；更新后的第二无标记训练样本特征集/>

11.根据权利要求1所述的一种基于深度网络和字典学习的行人目标检测与重识别方法，其特征在于，S5所述将待识别的行人图像或行人视频进行预处理后，输入至S4所述行人目标检测与重识别系统，得到目标检测与重识别结果，包括：

将待识别的行人视频转换为行人视频帧图像序列，将全部行人图像和行人视频帧图像保持宽高比并将较长的边缩放到257个像素，居中放置在大小为257*257的黑底图像中；