CN112036271B

CN112036271B - 基于卡尔曼滤波的行人重识别方法、系统、介质及终端

Info

Publication number: CN112036271B
Application number: CN202010832103.XA
Authority: CN
Inventors: 成西锋; 马卫民; 袁德胜; 游浩泉; 林治强; 党毅飞; 崔龙; 李伟超; 王海涛
Original assignee: Winner Technology Co ltd
Current assignee: Winner Technology Co ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2023-10-10
Anticipated expiration: 2040-08-18
Also published as: CN112036271A

Abstract

本发明提供一种基于卡尔曼滤波的行人重识别方法、系统、介质及终端；所述方法包括以下步骤：分别获取对应一预设时刻且包含有多帧行人图像的第一行人图像数据集及对应预设时刻的下一时刻且包含有多帧行人图像的第二行人图像数据集；搭建行人重识别模型；行人重识别模型包括特征提取模块、卡尔曼滤波更新模块及特征输出模块；根据第一行人图像数据集和第二行人图像数据集训练行人重识别模型，获取训练好的行人重识别模型，以基于训练好的行人重识别模型进行行人重识别；本发明大大提高了行人特征的利用率和鲁棒性，减少因为丢失关键帧、图片模糊等一些误差对整个行人重识别造成的影响，进而提高了行人重识别的稳定性和准确性。

Description

基于卡尔曼滤波的行人重识别方法、系统、介质及终端

技术领域

本发明属于行人重识别技术领域，特别是涉及一种基于卡尔曼滤波的行人重识别方法、系统、介质及终端。

背景技术

行人重识别技术(Person re-identification，Re-ID)也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，给定一个监控行人图像，检索跨设备下的该行人图像，但是由于行人兼具刚性和柔性的特性，行人外观易受穿着、尺度、遮挡、姿态和视角等影响，因此如何提高分析语义的一致性至关重要。

典型的行人重识别系统可能具有图像(单张)或视频(多张)作为特征提取和描述符生成的输入，一个人的多个实例可以用于特征提取和随后的描述符生成以用于行人重识别，因此也会面临以下两个主要的问题：

(1)行人描述问题：行人重识别的第一步是学习行人的视觉特征，需要从不受约束的环境中捕获的数据中提取具有鲁棒性而有区别的视觉描述符，在实际环境中，行人可能会部分或完全被遮挡；又由于分辨率，帧速率，成像条件和成像角度等因素千差万别，无法始终加以控制，因此很难确保高质量的视觉数据。

(2)行人对应问题：一个人的外观特征由于背包、衣服、正面、背面等是不一样的；不同的人的外观甚至可以是相似的，这意味着把这个作为分类问题，类内差距可能很大，而类间的差距可能相对较小，在大量的潜在候选人中比较人物描述符是一项艰巨的任务，因为这些描述符是在不同的位置、时刻和不同的持续时间内捕获的。

综上，现有行人重识别系统中，往往需要面对实际场景中的行人图片，由于行人图像在光照、视角、尺度有很大不同，且同一行人也有不同的姿态、携带物等问题，这会直接影响整个行人重识别系统，同时短期的重识别也会深深影响后续长期重识别的问题，因而如何提高描述行人视觉特征的鲁棒性，较少匹配错误的可能性是解决问题的关键之一。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于卡尔曼滤波的行人重识别方法、系统、介质及终端，用于解决现有技术中从行人图像上提取的行人特征鲁棒性弱，及由于行人受姿态、携带物等影响，造成行人重识别稳定性差、行人重识别容易出错的问题。

为实现上述目的及其他相关目的，本发明提供一种基于卡尔曼滤波的行人重识别方法，包括以下步骤：分别获取对应一预设时刻且包含有多帧行人图像的第一行人图像数据集及对应所述预设时刻的下一时刻且包含有多帧行人图像的第二行人图像数据集；搭建行人重识别模型；所述行人重识别模型包括特征提取模块、卡尔曼滤波更新模块及特征输出模块；根据所述第一行人图像数据集和所述第二行人图像数据集训练所述行人重识别模型，获取训练好的行人重识别模型，以基于所述训练好的行人重识别模型进行行人重识别。

于本发明的一实施例中，根据所述第一行人图像数据集和所述第二行人图像数据集训练所述行人重识别模型，获取训练好的行人重识别模型包括以下步骤：将所述第一行人图像数据集中的每一帧行人图像分别输入至所述特征提取模块，获取第一输出结果；将所述第二行人图像数据集中的每一帧行人图像分别输入至所述特征提取模块，获取第二输出结果；将所述第一输出结果和所述第二输出结果输入至所述卡尔曼滤波更新模块中，获取第三输出结果；将所述第三输出结果输入至所述特征输出模块中，获取行人特征及行人分类结果；针对所述行人特征和所述行人分类结果，分别定义相应的损失函数，并根据所述损失函数计算相应的损失值，以根据所述损失值，最终获取所述训练好的行人重识别模型。

于本发明的一实施例中，将所述第一输出结果和所述第二输出结果输入至所述卡尔曼滤波更新模块中，获取第三输出结果的算法公式为：

feats_fusing＝feats_t+A；

A＝Net(feats_t+1-feats_t)；

其中，feats_t表示所述第一输出结果；feats_t+1表示所述第二输出结果；Net表示所述卡尔曼滤波更新模块对所述第二输出结果和所述第一输出结果的残差进行的处理；A表示将所述第二输出结果和所述第一输出结果的残差经过所述卡尔曼滤波更新模块后得到的所述第一输出结果的增益；feats_fusing表示所述第三输出结果。

于本发明的一实施例中，所述特征输出模块包括升维层、卷积层和全连接层；将所述第三输出结果输入至所述特征输出模块中，获取行人特征及行人分类结果包括以下步骤：将所述第三输出结果输入至所述升维层，获取升维特征；将所述升维特征输入至所述卷积层，输出所述行人特征；将所述升维特征输入至所述全连接层，输出所述行人分类结果。

于本发明的一实施例中，将所述第一行人图像数据集中的每一帧行人图像分别输入至所述特征提取模块，获取第一输出结果包括以下步骤：所述特征提取模块对每一帧所述行人图像分别进行特征提取，输出对应的第一特征图；所述特征提取模块对所述第一特征图分别利用池化核大小不同的池化层进行不同的降维，分别输出对应不同池化层，具有不同维度的第二特征图；所述特征提取模块对所述具有不同维度的第二特征图进行相应的维度处理，以分别输出对应不同维度第二特征图，具有相同维度的第三特征图；所述特征提取模块对所述第一特征图进行维度处理，输出与所述第三特征图维度相同的第四特征图；所述特征提取模块将所述具有相同维度的第三特征图与所述第四特征图进行特征融合，获取对应每一帧所述行人图像的第一融合结果；所述特征提取模块将所述多帧行人图像中的每一帧行人图像分为参考帧和非参考帧；所述多帧行人图像为连续的预设奇数帧的行人图像；其中，所述参考帧为所述多帧行人图像中的中间帧，所述多帧行人图像中除所述参考帧以外的均作为所述非参考帧；所述特征提取模块将上述对应所述参考帧的第一融合结果与对应非参考帧的第一融合结果进行特征融合，获取所述第一输出结果。

于本发明的一实施例中，将上述对应所述参考帧的第一融合结果与对应非参考帧的第一融合结果进行特征融合，获取所述第一输出结果的算法公式为：

其中，feat_r表示所述参考帧的第一融合结果；feat_i表示对应第i个所述非参考帧的第一融合结果；i的值从1取至k；k表示所有非参考帧的数量；feats表示所述第一输出结果；x_j表示x中的第j个元素，j的值从1取至n；n表示x中所有元素的总数量。

于本发明的一实施例中，基于所述训练好的行人重识别模型进行行人重识别包括以下步骤：利用所述训练好的行人重识别模型生成对应目标行人的目标行人特征；当出现待识别行人时，利用所述训练好的行人重识别模型生成对应所述待识别行人的待识别行人特征；计算所述目标行人特征与所述待识别行人特征之间的欧式距离，以根据所述欧式距离实现对所述待识别行人的行人重识别；当所述欧式距离小于预设阈值时，认为所述待识别行人与所述目标行人为同一行人。

本发明提供一种基于卡尔曼滤波的行人重识别系统，包括：获取模块、搭建模块及训练模块；所述获取模块用于分别获取对应一预设时刻且包含有多帧行人图像的第一行人图像数据集及对应所述预设时刻的下一时刻且包含有多帧行人图像的第二行人图像数据集；所述搭建模块用于搭建行人重识别模型；所述行人重识别模型包括特征提取模块、卡尔曼滤波更新模块及特征输出模块；所述训练模块用于根据所述第一行人图像数据集和所述第二行人图像数据集训练所述行人重识别模型，获取训练好的行人重识别模型，以基于所述训练好的行人重识别模型进行行人重识别。

本发明提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的基于卡尔曼滤波的行人重识别方法。

本发明提供一种终端，包括：处理器及存储器；所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行上述的基于卡尔曼滤波的行人重识别方法。

如上所述，本发明所述的基于卡尔曼滤波的行人重识别方法、系统、介质及终端，具有以下有益效果：

(1)与现有技术相比，本发明采用类似于传统卡尔曼滤波的原理和思想，结合深度学习网络，提出一种能随着输入来更新和处理的行人重识别方法；通过结合前后关键帧特征，将前后帧有效地加以利用，把下一帧中新的信息融入到当前的行人特征中，并利用神经网络更新行人特征，获得最优解下的当前特征描述，再以视频(多帧行人图像)作为特征提取和描述符生成输入至行人重识别模型中，能够大大提高行人特征的利用率和鲁棒性，减少因为丢失关键帧、图片模糊等一些误差对整个行人重识别造成的影响，进而提高了行人重识别的稳定性和准确性。

(2)本发明引入了多尺度的网络机制，通过使用多尺度的池化层进行特征提取，能够充分保留图像不同尺度下的特征，同时辅以低分辨率特征向高维度的转换，确保信息的充分利用，避免由于在多次卷积中信息的丢失，而造成特征失去对细节信息的表征能力，大大提高了特征的表征能力，使得整个行人重识别系统更加稳定。

(3)本发明能够有效减缓行人描述问题和对应问题，保证了行人重识别的准确性更加高，并且减少了行人重识别错误匹配情况的出现，且本发明提出的行人重识别方法能够应用于各种视频监控系统中，例如大型集会，商场，车站人流等等。

附图说明

图1显示为本发明的基于卡尔曼滤波的行人重识别方法于一实施例中的流程图。

图2显示为本发明的训练行人重识别模型于一实施例中的流程图。

图3显示为本发明的获取第一输出结果于一实施例中的流程图。

图4显示为本发明的基于卡尔曼滤波的行人重识别方法于一实施例中的工作原理图。

图5显示为本发明的获取行人特征及行人分类结果于一实施例中的流程图。

图6显示为本发明的基于训练好的行人重识别模型进行行人重识别于一实施例中的流程图。

图7显示为本发明的基于卡尔曼滤波的行人重识别系统于一实施例中的结构示意图。

图8显示为本发明的终端于一实施例中的结构示意图。

标号说明

71 获取模块

72 搭建模块

73 训练模块

81 处理器

82 存储器

S1～S3 步骤

S31～S35 步骤

S311～S317 步骤

S341～S343 步骤

S36～S38 步骤

具体实施方式

以下通过特定的具体实施例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的基于卡尔曼滤波的行人重识别方法、系统、介质及终端，与现有技术相比，本发明采用类似于传统卡尔曼滤波的原理和思想，结合深度学习网络，提出一种能随着输入来更新和处理的行人重识别方法；通过结合前后关键帧特征，将前后帧有效地加以利用，把下一帧中新的信息融入到当前的行人特征中，并利用神经网络更新行人特征，获得最优解下的当前特征描述，再以视频(多帧行人图像)作为特征提取和描述符生成输入至行人重识别模型中，能够大大提高行人特征的利用率和鲁棒性，减少因为丢失关键帧、图片模糊等一些误差对整个行人重识别造成的影响，进而提高了行人重识别的稳定性和准确性；本发明引入了多尺度的网络机制，通过使用多尺度的池化层进行特征提取，能够充分保留图像不同尺度下的特征，同时辅以低分辨率特征向高维度的转换，确保信息的充分利用，避免由于在多次卷积中信息的丢失，而造成特征失去对细节信息的表征能力，大大提高了特征的表征能力，使得整个行人重识别系统更加稳定；本发明能够有效减缓行人描述问题和对应问题，保证了行人重识别的准确性更加高，并且减少了行人重识别错误匹配情况的出现，且本发明提出的行人重识别方法能够应用于各种视频监控系统中，例如大型集会，商场，车站人流等等。

如图1所示，于一实施例中，本发明的基于卡尔曼滤波的行人重识别方法包括以下步骤：

步骤S1、分别获取对应一预设时刻且包含有多帧行人图像的第一行人图像数据集及对应所述预设时刻的下一时刻且包含有多帧行人图像的第二行人图像数据集。

具体地，通过行人图像采集设备采集行人图像，以获取在某一预设时刻(t时刻)时，包含有多帧行人图像的第一行人图像数据集，及在该预设时刻的下一时刻(t+1时刻)，包含有多帧行人图像的第二行人图像数据集。

优选地，该行人图像采集设备在进行行人图像采集时，是以视频序列的形式采集的。

需要说明的是，所述多帧行人图像为连续的预设奇数帧(例如3、5、7)的行人图像。

步骤S2、搭建行人重识别模型。

具体地，所述行人重识别模型包括特征提取模块、卡尔曼滤波更新模块及特征输出模块。

需要说明的是，卡尔曼滤波(Kalman filtering)是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法；由于观测数据中包括系统中的噪声和干扰的影响，所以最优估计也可看作是滤波过程。

作为目前应用较为广泛的滤波方法，卡尔曼滤波在通信，导航，制导与控制等多领域得到了较好的应用，这很大程度归功于他可以能够对采集的数据进行实时的更新和处理，这非常契合行人重识别中需要面对的问题，在任何含有不确定信息的动态系统中使用卡尔曼滤波，对系统下一步的走向做出有根据的预测，即使伴随着各种干扰，卡尔曼滤波总是能指出真实发生的情况。

步骤S3、根据所述第一行人图像数据集和所述第二行人图像数据集训练所述行人重识别模型，获取训练好的行人重识别模型，以基于所述训练好的行人重识别模型进行行人重识别。

需要说明的是，在对步骤S2搭建的行人重识别模型进行训练之前，还包括对该行人重识别模型随机进行初始化；具体地，载入ResNet-50网络，初始权值为VGG-16在ImageNet上的预训练权重；对于行人重识别模型里的其他部分的参数，采用均值为0，均方差为0.01的正态分布进行初始化，偏差采用0进行初始化。

进一步地，分别将第一行人图像数据集和第二行人图像数据集划分为训练集和测试集，对训练集进行数据增强；具体为对训练集的行人图像进行随机左右翻转和一定范围内的比例放缩，及进行高斯模糊、动态模糊、光照增强和对比度增强处理；通过进行了数据增强后的训练集训练该行人重识别模型。

如图2所示，于一实施例中，根据所述第一行人图像数据集和所述第二行人图像数据集训练所述行人重识别模型，获取训练好的行人重识别模型包括以下步骤：

步骤S31、将所述第一行人图像数据集中的每一帧行人图像分别输入至所述特征提取模块，获取第一输出结果。

需要说明的是，该特征提取模块主要包含两个部分：特征初提取模块(包含多尺度感受模块，特征初提取模块的结构如下表1所示)和特征融合模块；其中，该特征提取模块还会将低分辨率的特征转化为高维特征，再进行特征的融合，通过这两部分的共同作用，可以确保行人图像上的行人特征能有效提取及转换为高质量的高维特征。

表1特征初提取模块的结构

需要说明的是，以conv2d(3×3,ch_in＝3,ch_out＝32,stride＝2),ReLU为例，conv2d表示二维的卷积层，3×3表示卷积核大小，ch_in为输入的通道大小，ch_out为输出的通道大小，stride＝2表示步长为2，dila＝2表示空洞卷积填充0的半径。

进一步地，表1中的卷积层可以替换为可变性卷积；还可以将表1中的多层卷积层替换为其它的网络结构，如MobileNet、Res-Nest等；表1中的池化层可替换为均值池化。

如图3所示，于一实施例中，将所述第一行人图像数据集中的每一帧行人图像分别输入至所述特征提取模块，获取第一输出结果包括以下步骤：

步骤S311、所述特征提取模块对每一帧所述行人图像分别进行特征提取，输出对应的第一特征图。

步骤S312、所述特征提取模块对所述第一特征图分别利用池化核大小不同的池化层进行不同的降维，分别输出对应不同池化层，具有不同维度的第二特征图。

步骤S313、所述特征提取模块对所述具有不同维度的第二特征图进行相应的维度处理，以分别输出对应不同维度第二特征图，具有相同维度的第三特征图。

步骤S314、所述特征提取模块对所述第一特征图进行维度处理，输出与所述第三特征图维度相同的第四特征图。

步骤S315、所述特征提取模块将所述具有相同维度的第三特征图与所述第四特征图进行特征融合，获取对应每一帧所述行人图像的第一融合结果。

步骤S316、所述特征提取模块将所述多帧行人图像中的每一帧行人图像分为参考帧和非参考帧。

需要说明的是，所述参考帧为所述多帧行人图像中的中间帧，所述多帧行人图像中除所述参考帧以外的均作为所述非参考帧；具体地，以连续的预设奇数帧发多帧行人图像的中间帧作为参考帧，而中间帧前后两侧的均作为非参考帧。

进一步地，该步骤S316也可不由该特征提取模块来执行，而是在步骤S1获取第一行人图像数据集和第二行人图像数据集之后，即通过终端将第一行人图像数据集中的多帧行人图像分为参考帧和非参考帧，同时将第二行人图像数据集中的多帧行人图像也分为参考帧和非参考帧；当然，也无法在获取第一行人图像数据集和第二行人图像数据集之后，立刻就进行参考帧和非参考帧的划分，而只要保证在执行下述步骤S317之前，对第一行人图像数据集和第二行人图像数据集中的多帧行人图像分为参考帧和非参考帧即可。

步骤S317、所述特征提取模块将上述对应所述参考帧的第一融合结果与对应非参考帧的第一融合结果进行特征融合，获取所述第一输出结果。

需要说明的是，结合步骤S311～S317，该特征提取模块的整个工作原理如下：

如图4所示，当第一行人图像数据集(NxCxHxW，N表示行人图像的数量，C表示通道数，H表示高，W表示宽)中的其中一帧行人图像(1xCxHxW)进入到特征初提取模块后，经过特征初提取模块中的多层卷积层的升维，会暂时变成高维的特征(1xMxHxW，M表示通道数，H表示高，W表示宽)(对应步骤S311)；经过特征初提取之后，经步骤S312使用池化核大小不同的池化层，对上述高维的特征进行降维，这样的处理能有效降低运算量，提高训练、推理的速度，而使用核大小不同的池化层处理，相当于是用不同的尺度去获取感受域，从而实现有效提取特征；最后经步骤S313，通过卷积层再将经不同池化层后的特征处理成相同维度的特征，以便步骤S315中的特征融合，同时还有一个分支会不经过池化层的处理，直接经步骤S314对步骤S311获取的特征处理成与经步骤S313处理后维度相同的特征，然后跨接到后续步骤S315的特征融合中。

进一步地，如图4中显示的，对应步骤S312利用了四个具有不同池化核大小的池化层(四个池化层的池化核大小分别为8×8、16×16、32×32、64×64)进行多尺度的特征提取。

需要说明的是，步骤S312中利用池化层进行多尺度的特征提取时，池化层的数量不作为限制本发明的条件，即特征提取的尺度不受限制，可以是利用五个具有不同池化核大小的池化层进行相应尺度的特征提取，也可以是利用三个具有不同池化核大小的池化层进行相应尺度的特征提取等等。

具体地，该特征提取模块在整个工作过程中，包括两次特征融合过程(对应特征融合模块执行的操作，前述步骤S311～S314为特征初提取模块执行的操作)：

第一次，如步骤S315，对经步骤S313获取的维度相同(M维度)的特征与经步骤S314获取的与步骤S313中特征维度相同的特征，按照该相同维度(M维度)进行拼接，融合成一个未处理的总特征；

第二次：如步骤S317，将上述经步骤S315融合后的对应步骤S316中参考帧的第一融合结果与经步骤S315融合后的对应步骤S316中非参考帧的第二融合结果进行特征的融合，得到代表多帧图像的融合特征(第一输出结果，1xPxHxW)，P表示通道数，H表示高，W表示宽。

于一实施例中，将上述对应所述参考帧的第一融合结果与对应非参考帧的第一融合结果进行特征融合，获取所述第一输出结果的算法公式为：

其中，feat_r表示所述参考帧的第一融合结果；feat_i表示对应第i个所述非参考帧的第一融合结果；i的值从1取至k；k表示所有非参考帧的数量；feats表示所述第一输出结果；x_j表示x中的第j个元素，j的值从1取至n；n表示x中所有元素的总数量；计算的目的是为了对x做归一化的处理。

需要说明的是，在上述算法公式中，先求得参考帧与非参考帧的特征之间的欧式距离||feat_r-feat_i||₂，若直接使用此时的欧式距离的结果进入到下一个模块(卡尔曼滤波更新模块)，会容易导致梯度消失，所以通过使用log_softmax可以避免这种情况的出现。

步骤S32、将所述第二行人图像数据集中的每一帧行人图像分别输入至所述特征提取模块，获取第二输出结果。

需要说明的是，该步骤S32的工作原理与步骤S31的工作原理相同；具体可参考步骤S311～S317获取相应的第二输出结果，在此不再赘述。

进一步地，步骤S31中的特征提取模块和步骤S32中的特征提取模块，可以是同一个特征提取模块，也可以是两个相同的特征提取模块；当是同一个特征提取模块时，可以先执行步骤S31，再执行步骤S32，也可以先执行步骤S32，再执行步骤S31；当是两个相同的特征提取模块时，步骤S31和步骤S32可以分别通过两个特征提取模块先后执行，也可以通过两个特征提取模块同时执行。

步骤S33、将所述第一输出结果和所述第二输出结果输入至所述卡尔曼滤波更新模块中，获取第三输出结果。

于一实施例中，将所述第一输出结果和所述第二输出结果输入至所述卡尔曼滤波更新模块中，获取第三输出结果的算法公式为：

feats_fusing＝feats_t+A；

A＝Net(feats_t+1-feats_t)；

如图4所示，该卡尔曼滤波更新模块的输入包括两部分：第一部分为第一输出结果feats_t，即预测态，第二部分为第二输出结果feats_t+1，即测量态，两者的残差(minus操作，指将张量的逐个元素相减，这里是指将第二输出结果中的元素逐个减去第一输出结果中的元素)经过一个以三维卷积(3D卷积层)为主的神经网络之后，即可得到第一输出结果feats_t的增益A，相加(add操作，指将张量的逐个元素相加，这里是指将增益A中的元素与第一输出结果中的元素逐个相加)后得到该卡尔曼滤波更新模块的最终输出，即更新态feats_fusing(对应第三输出结果)。

进一步地，第一输出结果同时可作为对应预设时刻(t时刻)的上一时刻(t-1时刻)的测量态。

如表2所示，卡尔曼滤波更新模块(3D-CNN模块)主要包含一个神经网络，在一次训练迭代中，输入包括经步骤S31获取的对应预设时刻的特征(对应第一输出结果，具体见步骤S311～S317)，称之为预测态，另一个是经步骤S32获取的对应预设时刻的下一时刻的特征(对应第二输出结果，具体可参考步骤S311～S317)，称之为测量态，两者经过该神经网络之后，得到特征融合后的特征，称之为更新态，最终作为本模块的输出(对应第三输出结果)，输送到下一个模块(特征输出模块)。

表2卡尔曼滤波更新模块的结构

进一步地，表2中的conv_3d层数可以增加，也可以减少。

需要说明的是，该卡尔曼滤波更新模块的原理如下：

对于一个含有不确定因素的动态系统，传统的卡尔曼滤波是非常适用的，在系统中预测某一个量的下一个动态的时候，已知系统中存在着一定的噪声，那么该预测值(预测态)是不准确的，但是可以这时候引入一个测量的值(测量态)，这个测量的值或直接或间接与预测值存在一定的关系，通过计算出测量态对预测态的增益，那么包含了部分测量信息的状态量与实际真实的值就会更加接近，从而可以来提高预估的精度，加之可以再通过若干次的运算迭代，会得到一个理论上的最优解(更新态)，作为系统的输出，这就是传统卡尔曼滤波的目的，尽量从所有不确定信息中提取有价值的信息。

本发明中的卡尔曼滤波更新模块，是以上一个从卡尔曼滤波算法原理出发的模组，通过将经特征提取模块提取获得的第一输出结果作为动态更新的量，通过经特征提取模块提取获得的第二输出结果更新该第一输出结果，用神经网络去代替原先带求增益的繁琐复杂的求解，简化了传统卡尔曼滤波算法的流程和复杂度。

步骤S34、将所述第三输出结果输入至所述特征输出模块中，获取行人特征及行人分类结果。

如图4所示，于一实施例中，所述特征输出模块包括升维层、卷积层和全连接层；具体地，该特征输出模块的结构见下表3所示。

表3特征输出模块的结构

需要说明的是，表3中的Bottleneck为Res-Net中的模块。

如图5所示，将所述第三输出结果输入至所述特征输出模块中，获取行人特征及行人分类结果包括以下步骤：

步骤S341、将所述第三输出结果输入至所述升维层，获取升维特征。

需要说明的是，在经步骤S33后获取第三输出结果后，需要得到高维的特征来表示行人，此时只要将第三输出结果再经过神经网络升维即可。

步骤S342、将所述升维特征输入至所述卷积层，输出所述行人特征。

步骤S343、将所述升维特征输入至所述全连接层，输出所述行人分类结果。

具体地，结合步骤S341～步骤S343，该特征输出模块的工作原理如下：

经过步骤S341对第三输出结果的升维后，将得到的升维特征再经过步骤S342，利用一层卷积层，输出1xKx1x1(K表示通道数)高维的行人特征，而将经过步骤S341得到的升维特征再经步骤S343，利用一全连接层，输出训练集中样本的预测值，即行人分类结果。

需要说明的是，上述步骤S342和步骤S343没有确定的先后执行顺序，可以先执行步骤S342，再执行步骤S343，也可以先执行步骤S343，再执行步骤S342，或者是同时执行步骤S342和步骤S343。

步骤S35、针对所述行人特征和所述行人分类结果，分别定义相应的损失函数，并根据所述损失函数计算相应的损失值，以根据所述损失值，最终获取所述训练好的行人重识别模型。

优选地，针对行人特征，以triplet loss为损失函数(对应图4中的损失函数1)；针对行人分类结果，以cross-entropy loss为损失函数(对应图4中的损失函数2)；具体地，利用这两个损失函数，通过网络的反向传播，计算总误差，结束一次的迭代训练过程，重复前述步骤S31～S35，直至损失值不再下降，训练结束，得到训练好的行人重识别模型。

进一步地，利用测试集评估该训练好的行人重识别模型，挑选最优模型作为最终模型。

如图6所示，于一实施例中，基于所述训练好的行人重识别模型进行行人重识别包括以下步骤：

步骤S36、利用所述训练好的行人重识别模型生成对应目标行人的目标行人特征。

步骤S37、当出现待识别行人时，利用所述训练好的行人重识别模型生成对应所述待识别行人的待识别行人特征。

步骤S38、计算所述目标行人特征与所述待识别行人特征之间的欧式距离，以根据所述欧式距离实现对所述待识别行人的行人重识别。

需要说明的是，当所述欧式距离小于预设阈值时，认为所述待识别行人与所述目标行人为同一行人；反之，当所述欧式距离大于该预设阈值时，认为所述待识别行人与所述目标行人不是同一行人。

进一步地，该基于卡尔曼滤波的行人重识别方法可以应用于商场、景点客流分析及车站、广场等公共场合视频监控，可以统计和分析商场和景点客流的变化，也能够快速侦察可疑人员，建立快速反应安全防控机制。

需要说明的是，本发明所述的基于卡尔曼滤波的行人重识别方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

如图7所示，于一实施例中，本发明的基于卡尔曼滤波的行人重识别系统包括获取模块71、搭建模块72及训练模块73。

所述获取模块71用于分别获取对应一预设时刻且包含有多帧行人图像的第一行人图像数据集及对应所述预设时刻的下一时刻且包含有多帧行人图像的第二行人图像数据集。

所述搭建模块72用于搭建行人重识别模型；所述行人重识别模型包括特征提取模块、卡尔曼滤波更新模块及特征输出模块。

所述训练模块73用于根据所述第一行人图像数据集和所述第二行人图像数据集训练所述行人重识别模型，获取训练好的行人重识别模型，以基于所述训练好的行人重识别模型进行行人重识别。

需要说明的是，所述获取模块71、所述搭建模块72及所述训练模块73的结构及原理与上述基于卡尔曼滤波的行人重识别方法中的步骤一一对应，故在此不再赘述。

需要说明的是，应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述系统的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述系统的存储器中，由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个数字信号处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

本发明的存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述的基于卡尔曼滤波的行人重识别方法。所述存储介质包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

如图8所示，本发明的终端包括处理器81及存储器82。

所述存储器82用于存储计算机程序；优选地，所述存储器82包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器81与所述存储器82相连，用于执行所述存储器82存储的计算机程序，以使所述终端执行上述的基于卡尔曼滤波的行人重识别方法。

优选地，所述处理器81可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，本发明的基于卡尔曼滤波的行人重识别系统可以实现本发明的基于卡尔曼滤波的行人重识别方法，但本发明的基于卡尔曼滤波的行人重识别方法的实现装置包括但不限于本实施例列举的基于卡尔曼滤波的行人重识别系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

综上所述，本发明的基于卡尔曼滤波的行人重识别方法、系统、介质及终端，与现有技术相比，本发明采用类似于传统卡尔曼滤波的原理和思想，结合深度学习网络，提出一种能随着输入来更新和处理的行人重识别方法；通过结合前后关键帧特征，将前后帧有效地加以利用，把下一帧中新的信息融入到当前的行人特征中，并利用神经网络更新行人特征，获得最优解下的当前特征描述，再以视频(多帧行人图像)作为特征提取和描述符生成输入至行人重识别模型中，能够大大提高行人特征的利用率和鲁棒性，减少因为丢失关键帧、图片模糊等一些误差对整个行人重识别造成的影响，进而提高了行人重识别的稳定性和准确性；本发明引入了多尺度的网络机制，通过使用多尺度的池化层进行特征提取，能够充分保留图像不同尺度下的特征，同时辅以低分辨率特征向高维度的转换，确保信息的充分利用，避免由于在多次卷积中信息的丢失，而造成特征失去对细节信息的表征能力，大大提高了特征的表征能力，使得整个行人重识别系统更加稳定；本发明能够有效减缓行人描述问题和对应问题，保证了行人重识别的准确性更加高，并且减少了行人重识别错误匹配情况的出现，且本发明提出的行人重识别方法能够应用于各种视频监控系统中，例如大型集会，商场，车站人流等等；所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于卡尔曼滤波的行人重识别方法，其特征在于，包括以下步骤：

分别获取对应一预设时刻且包含有多帧行人图像的第一行人图像数据集及对应所述预设时刻的下一时刻且包含有多帧行人图像的第二行人图像数据集；

搭建行人重识别模型；所述行人重识别模型包括特征提取模块、卡尔曼滤波更新模块及特征输出模块；

根据所述第一行人图像数据集和所述第二行人图像数据集训练所述行人重识别模型，获取训练好的行人重识别模型，以基于所述训练好的行人重识别模型进行行人重识别；根据所述第一行人图像数据集和所述第二行人图像数据集训练所述行人重识别模型，获取训练好的行人重识别模型包括以下步骤：

将所述第一行人图像数据集中的每一帧行人图像分别输入至所述特征提取模块，获取第一输出结果；

将所述第二行人图像数据集中的每一帧行人图像分别输入至所述特征提取模块，获取第二输出结果；

将所述第一输出结果和所述第二输出结果输入至所述卡尔曼滤波更新模块中，获取第三输出结果；将所述第一输出结果和所述第二输出结果输入至所述卡尔曼滤波更新模块中，获取第三输出结果的算法公式为：

feats_fusing＝feats_t+A；

A＝Net(feats_t+1-feats_t)；

其中，feats_t表示所述第一输出结果；feats_t+1表示所述第二输出结果；Net表示所述卡尔曼滤波更新模块对所述第二输出结果和所述第一输出结果的残差进行的处理；A表示将所述第二输出结果和所述第一输出结果的残差经过所述卡尔曼滤波更新模块后得到的所述第一输出结果的增益；feats_fusing表示所述第三输出结果；

将所述第三输出结果输入至所述特征输出模块中，获取行人特征及行人分类结果；

针对所述行人特征和所述行人分类结果，分别定义相应的损失函数，并根据所述损失函数计算相应的损失值，以根据所述损失值，最终获取所述训练好的行人重识别模型。

2.根据权利要求1所述的基于卡尔曼滤波的行人重识别方法，其特征在于，所述特征输出模块包括升维层、卷积层和全连接层；将所述第三输出结果输入至所述特征输出模块中，获取行人特征及行人分类结果包括以下步骤：

将所述第三输出结果输入至所述升维层，获取升维特征；

将所述升维特征输入至所述卷积层，输出所述行人特征；

将所述升维特征输入至所述全连接层，输出所述行人分类结果。

3.根据权利要求1所述的基于卡尔曼滤波的行人重识别方法，其特征在于，将所述第一行人图像数据集中的每一帧行人图像分别输入至所述特征提取模块，获取第一输出结果包括以下步骤：

所述特征提取模块对每一帧所述行人图像分别进行特征提取，输出对应的第一特征图；

所述特征提取模块对所述第一特征图分别利用池化核大小不同的池化层进行不同的降维，分别输出对应不同池化层，具有不同维度的第二特征图；

所述特征提取模块对所述具有不同维度的第二特征图进行相应的维度处理，以分别输出对应不同维度第二特征图，具有相同维度的第三特征图；

所述特征提取模块对所述第一特征图进行维度处理，输出与所述第三特征图维度相同的第四特征图；

所述特征提取模块将所述具有相同维度的第三特征图与所述第四特征图进行特征融合，获取对应每一帧所述行人图像的第一融合结果；

所述特征提取模块将所述多帧行人图像中的每一帧行人图像分为参考帧和非参考帧；所述多帧行人图像为连续的预设奇数帧的行人图像；其中，所述参考帧为所述多帧行人图像中的中间帧，所述多帧行人图像中除所述参考帧以外的均作为所述非参考帧；

所述特征提取模块将上述对应所述参考帧的第一融合结果与对应非参考帧的第一融合结果进行特征融合，获取所述第一输出结果。

4.根据权利要求3所述的基于卡尔曼滤波的行人重识别方法，其特征在于，将上述对应所述参考帧的第一融合结果与对应非参考帧的第一融合结果进行特征融合，获取所述第一输出结果的算法公式为：

5.根据权利要求1所述的基于卡尔曼滤波的行人重识别方法，其特征在于，基于所述训练好的行人重识别模型进行行人重识别包括以下步骤：

利用所述训练好的行人重识别模型生成对应目标行人的目标行人特征；

当出现待识别行人时，利用所述训练好的行人重识别模型生成对应所述待识别行人的待识别行人特征；

计算所述目标行人特征与所述待识别行人特征之间的欧式距离，以根据所述欧式距离实现对所述待识别行人的行人重识别；

当所述欧式距离小于预设阈值时，认为所述待识别行人与所述目标行人为同一行人。

6.一种基于卡尔曼滤波的行人重识别系统，其特征在于，包括：获取模块、搭建模块及训练模块；

所述获取模块用于分别获取对应一预设时刻且包含有多帧行人图像的第一行人图像数据集及对应所述预设时刻的下一时刻且包含有多帧行人图像的第二行人图像数据集；

所述搭建模块用于搭建行人重识别模型；所述行人重识别模型包括特征提取模块、卡尔曼滤波更新模块及特征输出模块；

所述训练模块用于根据所述第一行人图像数据集和所述第二行人图像数据集训练所述行人重识别模型，获取训练好的行人重识别模型，以基于所述训练好的行人重识别模型进行行人重识别；根据所述第一行人图像数据集和所述第二行人图像数据集训练所述行人重识别模型，获取训练好的行人重识别模型包括以下步骤：

feats_fusing＝feats_t+A；

A＝Net(feats_t+1-feats_t)；

7.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至5中任一项所述的基于卡尔曼滤波的行人重识别方法。

8.一种终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至5中任一项所述的基于卡尔曼滤波的行人重识别方法。