CN111860291A

CN111860291A - 基于行人外观和步态信息的多模态行人身份识别方法和系统

Info

Publication number: CN111860291A
Application number: CN202010688433.6A
Authority: CN
Inventors: 于铭扬; 郑世宝; 王玉
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-10-30

Abstract

本发明提供了一种基于行人外观和步态信息的多模态行人身份识别方法和系统，利用深度卷积神经网络提取监控视频中的行人bounding box和行人轮廓；利用深度卷积神经网络从彩色行人图片序列中提取外观特征；利用深度卷积神经网络从行人轮廓图片序列中提取步态特征；基于注意力网络模型对子网络中提取的外观和步态特征进行特征融合；对融合特征计算特征间的欧式距离进行比对和评估。本发明通过充分考虑监控系统中行人身份识别存在的各种挑战，综合考虑行人的外观和步态信息，对两种信息进行端到端的提取和融合。使网络能在行人服装变化、光线变化、场景变化等干扰下更为鲁棒地识别行人的身份，具有普遍的适用性。

Description

基于行人外观和步态信息的多模态行人身份识别方法和系统

技术领域

本发明涉及计算机视觉技术领域，具体地，涉及一种基于行人外观和步态信息的多模态行人身份识别方法和系统，尤其是涉及在无重叠监控摄像头下的行人身份识别技术。

背景技术

随着人们对公共安全问题的日益重视，视频监控摄像头开始遍布到城市的每个角落，各种识别算法也在安全生产、智能安全、智能交通管理等领域得到了广泛的应用。传统的身份识别方法需要利用高清晰度人脸图像等附加信息。这些局限性使得传统的识别方法难以应用于地铁、街道等杂乱场合，或是光线较暗情况及远距离拍摄情况。与其他方法相比，利用行人的外观信息或者步态信息只需要得到日常监控摄像头中拍摄到的一张图片或者一段视频序列，就可以实现识别行人身份的目的。目前已有的研究大多局限于利用单一的外观信息或者单一的步态信息进行行人身份识别，而对多模态的行人身份识别研究较少。单纯利用行人外观图像进行身份识别的方法，难以在群体统一身穿制服或者目标行人更换衣服的情况下有效进行身份识别(参见WANG G,YUAN Y,CHEN X,et al.“LearningDiscriminative Features with Multiple Granularities for Person Re-Identification”2018ACM MM)。单纯利用行人轮廓序列中的步态信息进行身份识别的方法，又忽视了视频中的纹理、色彩等信息，在日常的应用场合中限制了其识别准确性(参见CHAO H,HE Y,ZHANG J,et al.“Gaitset:Regarding gait as a set for cross-viewgait recognition Proceedings of the AAAI Conference on ArtificialIntelligence”.Vol.33.2019:8126–8133)。在综合多种信息进行行人身份识别领域，存在先利用外观信息对行人身份进行匹配，再利用步态信息对筛选后的图片二次匹配的行人身份识别方法(参见LI S,ZHANG M,LIU W et al.“Appearance and Gait-BasedProgressive Person Re-Identification for Surveillance Systems”2018IEEE FourthInternational Conference on Multimedia Big Data)，但这种方法采用级联的方式连接外观和步态识别模块，当行人服装发生一定改变时会在第一阶段就将系统引入了错误的识别结果。还有工作提出融合人脸和步态的信息进行身份识别(参见GHALLEB A,AMARA N.“Remote person authentication in different scenarios based on gait and facein front view”2017 14th International Multi-Conference on Systems,Signals&Devices)，这种方法限制了只能识别正面拍摄的高清视频中的行人身份，算法的应用条件较为苛刻。

针对目前社会公共安全系统的需求，综合利用外观和步态信息的多模态身份识别系统研究对于提高身份识别的准确度，扩大系统的应用范围和适用条件有着重要作用，因此在本发明中将对多模态的身份识别问题进行深入研究。

专利文献CN110084156A公开了一种步态特征提取方法及基于步态特征的行人身份识别方法，步态特征提取方法包括以下步骤：步骤A：对步态图像序列中的每一帧步态图像，获取其中行人所在区域，作为感兴趣区域；步骤B：分割感兴趣区域中的行人目标；步骤C：获取每一帧步态图像中行人目标的关节点位置信息；步骤D：基于该步态图像序列的各帧步态图像中行人目标的关节点位置信息，进行步态周期检测；步骤E：根检测出的步态周期，合成该步态图像序列对应的步态能量图，作为步态特征。基于提取出的步态特征利用判别网络和对比网络对行人目标进行判断或识别。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于行人外观和步态信息的多模态行人身份识别方法和系统。

根据本发明提供的一种基于行人外观和步态信息的多模态行人身份识别方法，包括：

步骤S1:形成提取视频或图片中行人轮廓和行人位置的第一网络，令视频或图片中的单帧图片经过第一网络进行切割后，得到行人外观图片集合和行人轮廓图片集合；

步骤S2：形成端到端的特征提取网络，所述特征提取网络包括外观特征提取网络、步态特征提取网络；

步骤S3：令行人外观图片集合输入外观特征提取网络，得到外观初步特征；

步骤S4：令行人轮廓图片集合输入步态特征提取网络，得到步态初步特征；

步骤S5：将外观初步特征和步态初步特征进行融合，得到融合特征；

步骤S6：基于融合特征，比对检测目标和匹配对象之间的欧式距离，得到行人身份识别结果。

优选地，所述步骤S1包括：

步骤S11：基于深度卷积神经网络，进行行人检测和轮廓提取，形成第一网络；

步骤S12：利用COCO数据集训练得到网络模型参数，将网络模型参数应用到第一网络，令第一网络进行行人轮廓分割，得到行人外观图片集合和行人轮廓图片集合；

优选地，所述步骤S2包括：

步骤S21：基于深度卷积神经网络形成外观特征提取网络，外观特征提取网络是在ResNet-50模型基础上形成三个独立分支，第一独立分支采用步长为2的卷积层实现降采样，之后令输入的特征图经过全局最大池化层、1x1的卷积层、批标准化、ReLU激活函数，将2048维特征向量减小到256维特征向量；第二独立分支和第三独立分支不进行降采样，令输入的特征图水平切割成等分的两个或三个横条，将每一个切分后的横条也通过全局最大池化层、1x1的卷积层、批标准化、ReLU激活函数，得到一个256维特征向量；将六个256维的子特征级联得到1536维的外观特征。

步骤S22：基于深度卷积神经网络形成步态特征提取网络，随机抽取视频中0帧行人轮廓，使用卷积神经网络对行人轮廓序列提取步态特征，特征为512维；对于每一帧输入的轮廓图片都通过下述的卷积和池化操作得到对应的特征图；其中第一个卷积核为5×5，步长为1；第二个卷积核为3×3，步长为1，紧接着的池化层大小为2×2，步长为2；第三个和第四个卷积核均为3×3，步长为1，紧接着的池化层大小为2×2，步长为2；最后第五个和第六个卷积核均为为3×3，步长为1；在上述结构的第一次池化层后、第二次池化层后、最后一个卷机层后分别应用Set pooling操作将独立特征图集合成一个单一的特征图；将第二次set pooling输出的特征和第三次set pooling输出的特征图分别经过池化操作得到两个128维的特征；经过全联接层映射位两个256维的特征；将两个特征级联，得到512维的步态特征。

优选地，所述步骤S5包括：

步骤S51：令外观初步特征和步态初步特征进行拼接，得到高维度特征向量；

步骤S52：令高维度特征向量经过FC全联接层、ReLu层、FC全联接层和Sigmoid函数计算每个特征点的重要性权重；

步骤S53：令重要性权重与原始特征相乘后再相加，通过卷积层、BN层和ReLu层处理，形成最终的行人特征，作为融合特征。

优选地，所述步骤S6包括：

步骤S61：先将1536维的外观特征和512维的步态特征级联得到2048维的特征

步骤S62：将级联后的特征通过全联接层、Relu、全联接层、sigmoid层，输出得到2048维的重要性权重。

步骤S63:将重要性权重和原始级联特征相乘，之后再与原始级联特征相加，得到2048维的融合特征。

根据本发明提供的一种基于行人外观和步态信息的多模态行人身份识别系统，包括：

模块S1:形成提取视频或图片中行人轮廓和行人位置的第一网络，令视频或图片中的单帧图片经过第一网络进行切割后，得到行人外观图片集合和行人轮廓图片集合；

模块S2：形成端到端的特征提取网络，所述特征提取网络包括外观特征提取网络、步态特征提取网络；

模块S3：令行人外观图片集合输入外观特征提取网络，得到外观初步特征；

模块S4：令行人轮廓图片集合输入步态特征提取网络，得到步态初步特征；

模块S5：将外观初步特征和步态初步特征进行融合，得到融合特征；

模块S6：基于融合特征，比对检测目标和匹配对象之间的欧式距离，得到行人身份识别结果。

优选地，所述模块S1包括：

模块S11：基于深度卷积神经网络，进行行人检测和轮廓提取，形成第一网络；

模块S12：利用COCO数据集训练得到网络模型参数，将网络模型参数应用到第一网络，令第一网络进行行人轮廓分割，得到行人外观图片集合和行人轮廓图片集合；

优选地，所述模块S2包括：

模块S21：基于深度卷积神经网络形成外观特征提取网络，外观特征提取网络是在ResNet-50模型基础上形成三个独立分支，第一独立分支采用步长为2的卷积层实现降采样，之后令输入的特征图经过全局最大池化层、1x1的卷积层、批标准化、ReLU激活函数，将2048维特征向量减小到256维特征向量；第二独立分支和第三独立分支不进行降采样，令输入的特征图水平切割成等分的两个或三个横条，将每一个切分后的横条也通过全局最大池化层、1x1的卷积层、批标准化、ReLU激活函数，得到一个256维特征向量；将六个256维的子特征级联得到1536维的外观特征。

模块S22：基于深度卷积神经网络形成步态特征提取网络，随机抽取视频中K帧行人轮廓，使用卷积神经网络对行人轮廓序列提取步态特征，特征为512维；对于每一帧输入的轮廓图片都通过下述的卷积和池化操作得到对应的特征图；其中第一个卷积核为5×5，步长为1；第二个卷积核为3×3，步长为1，紧接着的池化层大小为2×2，步长为2；第三个和第四个卷积核均为3×3，步长为1，紧接着的池化层大小为2×2，步长为2；最后第五个和第六个卷积核均为为3×3，步长为1；在上述结构的第一次池化层后、第二次池化层后、最后一个卷机层后分别应用Set pooling操作将独立特征图集合成一个单一的特征图；将第二次set pooling输出的特征和第三次set pooling输出的特征图分别经过池化操作得到两个128维的特征；经过全联接层映射位两个256维的特征；将两个特征级联，得到512维的步态特征。

优选地，所述模块S5包括：

模块S51：令外观初步特征和步态初步特征进行拼接，得到高维度特征向量；

模块S52：令高维度特征向量经过FC全联接层、ReLu层、FC全联接层和Sigmoid函数计算每个特征点的重要性权重；

模块S53：令重要性权重与原始特征相乘后再相加，通过卷积层、BN层和ReLu层处理，形成最终的行人特征，作为融合特征。

优选地，所述模块S6包括：

模块S61：先将1536维的外观特征和512维的步态特征级联得到2048维的特征

模块S62：将级联后的特征通过全联接层、Relu、全联接层、sigmoid层，输出得到2048维的重要性权重。

模块S63:将重要性权重和原始级联特征相乘，之后再与原始级联特征相加，得到2048维的融合特征。

与现有技术相比，本发明具有如下的有益效果：

1、本发明采用深度学习对视频中行人的外观特征和步态特征进行分别学习，为一体化的行人身份识别系统引入了两种有效的信息，使身份识别过程更加可靠。

2、本发明采用基于深度学习和注意力机制的融合模型对外观特征和步态特征进行融合，最大程度的排除两特征中的噪声干扰部分，取长补短，提升最终行人特征的质量和身份识别准确度。

3、采用基于角度的多任务学习步态特征提取网络，得到具有鲁棒性的通用步态特征和特定角度的精细化特征，能够更好的解决跨角度步态识别问题。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中基于行人外观和步态信息的多模态行人身份识别方法示意图；

图2、图3为本发明一实施例中外观特征提取网络示意图；

图4为本发明一实施例中特征融合模块示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

利用行人的服装等整体外观信息进行行人识别工作在有限区域中(如在地铁站、办公楼等场合)、一定时间内(如以几个小时的时间为限度)具有拍摄要求简单、可靠性高等特点，可以为监控系统中的行人识别问题提供有力的信息。而行人的步态信息则深深的受不同行人行为习惯的影响，除非刻意隐瞒，在大多数情况下一个人的步态信息都蕴含着一个人自己独特的印记。因此，与服装等外观信息相比，行人的步态信息具有稳定度高，受服装变化影响小，受光照情况、摄像头的分辨率和拍摄距离影响小等特点。适合在光照条件不够好、拍摄像素低或目标行人服装发生改变等情况下，稳定可靠的判定行人的身份。

外观网络是主要依赖监控摄像头拍摄的行人整体图片，提取其中的服装等外观信息，以此达到在有限的空间、时间内进行行人跟踪和检索的目的。然而在实际的监控系统中，有些情况下仅仅依赖服装等外观信息是不够准确的。比如，在一些特殊的范围内的人员是统一着装的(银行的工作人员，学校的学生，保安队的人员等)。再比如，秋冬季节的办公楼内，当人们穿着外套和脱下外套对比时外观的颜色和纹理信息会发生巨大改变。本发明的目的是为了弥补单纯利用外观信息进行行人识别的不足，综合利用监控视频中的外观信息和步态信息，以此提高身份识别系统的准确度与应用范围。

实施例1

如图1所示，本发明提供的一种基于行人外观和步态信息的多模态行人身份识别方法，通过以下步骤实施，在步骤S1中，形成提取视频或图片中行人轮廓和行人位置的第一网络，令视频或图片中的单帧图片经过第一网络进行切割后，得到行人外观图片集合和行人轮廓图片集合；在步骤S2中，形成端到端的特征提取网络，所述特征提取网络包括外观特征提取网络、步态特征提取网络；在步骤S3中，令行人外观图片集合输入外观特征提取网络，得到外观初步特征；在步骤S4中，令行人轮廓图片集合输入步态特征提取网络，得到步态初步特征；在步骤S5中，将外观初步特征和步态初步特征进行融合，得到融合特征；在步骤S6中，基于融合特征，比对检测目标和匹配对象之间的欧式距离，得到行人身份识别结果。其中，步骤S1代表一个行人检测与轮廓提取的模块，不局限于通过神经网络方式提取。步骤S5中的融合采用的融合模型也不限定，可以采用基于神经网络的模型、其他融合模型甚至直接拼接形成外观特征步态特征。步骤S6代表得到特征后的身份判别模块，也不局限于通过欧式距离进行判别。

实施例2

一种基于行人外观和步态信息的多模态行人身份识别方法，包括以下步骤：

S1:基于深度卷积神经网络，形成提取视频或图片中行人轮廓和位置的网络P，将监控视频或视频中的单帧图片对网络P进行应用，每一帧原始监控图片s，均经过网络P得到切割后的行人轮廓图片集合M和行人外观图片集合A。

可以采用Mask RCNN或其相关改进算法(如PointRend)进行行人检测和轮廓提取工作。利用COCO数据集训练可以得到合适的网络模型参数，将其应用到监控拍摄的视频时能够得到较好的行人轮廓分割效果。除了基于神经网络的轮廓提取算法，也可以应用传统的物体分割算法进行行人轮廓提取，如基于背景建模的高斯混合模型方法等。

S2:基于深度卷积神经网络的端到端特征提取网络，整个网络包括外观特征提取网络E、步态特征提取网络G两个子部分。

特征提取网络首先从不同的输入(即外观图片与轮廓图片)中，独立地提取包含外观信息的特征和包含步态信息的特征。之后有目的地整合两部分信息，通过特征融合模块最大限度的利用其中的有效信息、重要信息，排除噪声信息的干扰。最终得到一个统一的行人特征，用于后续的身份识别。

S3:外观特征提取网络E以行人外观图片或图片集合A作为输入，应用后得到外观初步特征Y。

外观特征提取可以基于单张图片也可以基于多帧的图片序列进行操作。从单张图片中提取外观特征时，可以采用常用的神经网络结构，如resnet提取外观信息。也可以针对视频中人体的结构特点，采取多尺度的特征提取结构。具体的多尺度网络结构如图2、图3所示。网络的基础结构是ResNet-50模型。在res_conv4_1模块之前的部分不做改变，而之后部分则被分为三个独立的分支，独立分支与原始ResNet-50的结构相似。第一个分支用于提取全局特征。全局分支中先采用一个步长为2的卷积层实现降采样。后续得到的特征图分别经过全局最大池化层、1x1的卷积层、批标准化、ReLU激活函数，最终将2048维的特征向量zg减小到256维的fg。第二支和第三支网络分支的结构与全局分支类似。不同的是这两个分支没有在res_conv5_1部分进行降采样操作。而是先将得到的特征图水平切割成等分的两个或三个横条。然后再对每个横条分别通过全局分支中同样的后续操作，并得到一个256维的特征向量。在测试阶段，我们会将每个分支的特征向量拼接起来，最终每张行人图片会得到一个2048维的向量，既包含了人体的全局信息，也包含不同人体部分的局部信息。

从多帧的图片序列中提取外观特征时，先分别对其中的每一帧单张图片提取相应特征，再通过池化处理或利用注意力模型加权平均等方式得到最终的外观特征。

S4:步态特征提取网络G以行人轮廓图片集合M作为输入，应用后得到步态初步特征X。

S5:对初步提取得到的外观特征Y和步态特征X进行融合，应用后得到最终特征Z。

优选地，采用基于注意力机制的特征融合模型，着重提取两种特征中更有效的部分来输出最终特征。如图4所示，特征融合模块以拼接后的外观和步态特征作为输入。通过FC全联接层、ReLu层、FC全联接层和Sigmoid函数计算每个特征点的重要性权重。将权重与原始特征相乘后，再通过卷积层、BN和ReLu处理，得到最终的行人特征。

如果想对特征融合模块简单处理的话，也可以直接对外观特征和步态特征采用加权平均、拼接、拼接后通过全联接层或其他特征融合操作。

S6:对融合特征Z计算特征间的欧式距离，对行人的身份进行比对和评估。

通过比对检测目标和匹配对象之间的距离完成对目标群组的排序检索和检索，并用mAP和排序数对结果的准确率进行评估。

以下表一，是基于本发明上述实施例所提供的方法得到的性能的最终识别准确率的数值比较结果。从上至下依次陈列了用以对照的其他结果同本实施例实施结果的数值比较。可以看到本发明上述实施例在可应用范围和精度上都表现更好。在行人正常行走情况下，增添步态信息可以更准确地帮助确认行人身份。在行人穿/脱外套情况发生后，或者行人间服装高度统一和相似情况下，增添步态信息可以最大限度地保证识别的结果不被外观误导。在视频像素较差，行人轮廓提取效果不好时，融合后的特征仍能排除噪声干扰，维持较好的识别准确率。

表一

本发明利用步态进行行人识别和利用外观进行识别都是成熟的行人识别方法。两种方法通常独立工作，很少有交集；同时这两个领域的识别方法也都有明显的局限性。基于外观的行人识别(在没有捕捉到高清人脸图像的情况下)主要会利用服装的色彩信息、服装的纹理信息、身形信息等进行识别。在实际的监控系统中，有些情况下仅仅依赖服装等外观信息是不够准确的。比如，在一些特殊的范围内的人员是统一着装的(银行的工作人员，学校的学生，保安队的人员等)。再比如，秋冬季节的办公楼内，当人们穿着外套和脱下外套对比时外观的颜色和纹理信息会发生巨大改变。

仅仅利用步态轮廓进行识别则是在完全不考虑行人外观的颜色、纹理的情况下进行。而日常监控中的步态轮廓也没有强大到像指纹、高清人脸一样的高精度。行人之间有遮挡时对步态轮廓的影响就会很大。同一个人从不同方向、角度出现在摄像头中时，他的步态轮廓差别也非常大。

因此利用多模态的行人识别方式，将这些视频监控中的各种弱信息联合起来，增强最终的识别效果。(在我们已经完成的实验中，采用的是联合外观、步态的两分支网络结构；在我们的规划中，考虑的是联合人脸、外观、步态三种信息，网络分为三个分支再融合)。

在外观特征提取部分，该部分结构与公开的外观网络类似，一般网络在提取特征时，会有较高的响应集中在人体的躯干上，但是不会关注到更具体的不同身体部位。当我们缩小学习区域的面积并将其作为学习局部特征的分类任务进行训练时，可以观察到局部特征图上的响应开始聚集在一些更具体的身体部位上。这一响应程度也随着图片分割的精细程度不同而有相应变化。这一发现反映了图片包含内容的多少与特征网络学习能力之间具有强相关关系。一般来说，和利用整张图片进行行人的身份识别相比，利用半张或者三分之一张图片来进行身份识别显然是更困难的。而通过有监督学习的标签训练这个分类任务，可以强制提取的特征能够尽可能正确的完成身份识别工作。这一过程促使特征提取网络会从半张图片极度有限的信息中尽可能地挖掘更有效、更精细化的特征。

只要有适当的图片尺度，神经网络就能提取到最具区分性的特征信息。因此，我们利用类似MGN的网络结构，包含不同尺度的局部特征提取模块，结合了全局和多尺度的局部特征学习来得到更有效的行人特征。具体的多尺度网络结构如图2所示。网络的基础结构是ResNet-50模型。在res_conv4_1模块之前的部分不做改变，而之后部分则被分为三个独立的分支，独立分支与原始ResNet-50的结构相似。第一个分支用于提取全局特征。全局分支中先采用一个步长为2的卷积层实现降采样。后续得到的特征图分别经过全局最大池化层、1x1的卷积层、批标准化、ReLU激活函数，最终将2048维的特征向量zg减小到256维的fg。第二支和第三支网络分支的结构与全局分支类似。不同的是这两个分支没有在res_conv5_1部分进行降采样操作。而是先将得到的特征图水平切割成等分的两个或三个横条。然后再对每个横条分别通过全局分支中同样的后续操作，并得到一个256维的特征向量。在测试阶段，我们会将每个分支的特征向量拼接起来，最终每张行人图片会得到一个2048维的向量，既包含了人体的全局信息，也包含不同人体部分的局部信息。

在融合部分，为了更好地排除两个单一特征中的干扰部分，保留特征中的有效信息，我们采用了类似channel attention的方法对两种特征进行融合。首先对外观和步态两种特征拼接，得到一个更高维度的特征向量，之后经过FC层、ReLU激活层、FC层、Sigmoid操作得到重要性权重，将权重与原始特征相乘后再相加，得到融合后的行人特征。

多模态识别效果如表一所示，在外观信息和步态信息都准确有效的情况下，多模态识别比任一单一模式的识别效果都更好。当单一模式无法准确识别行人的情况下，多模态的方法能够较好的排除噪声干扰，维持最终的识别效果，拓展了单一模式下行人识别的适用范围。根据表一所示，在外观信息失效或者步态信息失效情况下，多模态方法仍能得到较好的识别结果。

实施例3

一种基于行人外观和步态信息的多模态行人身份识别系统，包括：

所述模块S1包括：

所述模块S2包括：

所述模块S5包括：

所述模块S6包括：

上述第一网络实现的是从视频中找到行人并分割出行人轮廓。特征提取网络是根据第一网络输出的行人图片和轮廓图片，提取蕴含在图片中的特征信息。外观特征提取网络提取外观中的特征信息，步态网络提取步态特征信息。外观网络和步态网络是完整的特征提取网络中的两个子部分。

利用深度卷积神经网络提取监控视频中的行人bounding box和行人轮廓；利用深度卷积神经网络从彩色行人图片序列中提取外观特征；利用深度卷积神经网络从行人轮廓图片序列中提取步态特征；基于注意力网络模型对子网络中提取的外观和步态特征进行特征融合；对融合特征计算特征间的欧式距离进行比对和评估。通过充分考虑监控系统中行人身份识别存在的各种挑战，综合考虑行人的外观和步态信息，对两种信息进行端到端的提取和融合。使网络能在行人服装变化、光线变化、场景变化等干扰下更为鲁棒地识别行人的身份，具有普遍的适用性。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于行人外观和步态信息的多模态行人身份识别方法，其特征在于，包括：

2.根据权利要求1所述的基于行人外观和步态信息的多模态行人身份识别方法，其特征在于，所述步骤S1包括：

步骤S12：利用COCO数据集训练得到网络模型参数，将网络模型参数应用到第一网络，令第一网络进行行人轮廓分割，得到行人外观图片集合和行人轮廓图片集合。

3.根据权利要求1所述的基于行人外观和步态信息的多模态行人身份识别方法，其特征在于，所述步骤S2包括：

步骤S22：基于深度卷积神经网络形成步态特征提取网络，随机抽取视频中K帧行人轮廓，使用卷积神经网络对行人轮廓序列提取步态特征，特征为512维；对于每一帧输入的轮廓图片都通过下述的卷积和池化操作得到对应的特征图；其中第一个卷积核为5×5，步长为1；第二个卷积核为3×3，步长为1，紧接着的池化层大小为2×2，步长为2；第三个和第四个卷积核均为3×3，步长为1，紧接着的池化层大小为2×2，步长为2；最后第五个和第六个卷积核均为为3×3，步长为1；在上述结构的第一次池化层后、第二次池化层后、最后一个卷机层后分别应用Set pooling操作将独立特征图集合成一个单一的特征图；将第二次setpooling输出的特征和第三次set pooling输出的特征图分别经过池化操作得到两个128维的特征；经过全联接层映射位两个256维的特征；将两个特征级联，得到512维的步态特征。

4.根据权利要求1所述的基于行人外观和步态信息的多模态行人身份识别方法，其特征在于，所述步骤S5包括：

5.根据权利要求1所述的基于行人外观和步态信息的多模态行人身份识别方法，其特征在于，所述步骤S6包括：

6.一种基于行人外观和步态信息的多模态行人身份识别系统，其特征在于，包括：

7.根据权利要求6所述的基于行人外观和步态信息的多模态行人身份识别系统，其特征在于，所述模块S1包括：

模块S12：利用COCO数据集训练得到网络模型参数，将网络模型参数应用到第一网络，令第一网络进行行人轮廓分割，得到行人外观图片集合和行人轮廓图片集合。

8.根据权利要求6所述的基于行人外观和步态信息的多模态行人身份识别系统，其特征在于，所述模块S2包括：

模块S22：基于深度卷积神经网络形成步态特征提取网络，随机抽取视频中K帧行人轮廓，使用卷积神经网络对行人轮廓序列提取步态特征，特征为512维；对于每一帧输入的轮廓图片都通过下述的卷积和池化操作得到对应的特征图；其中第一个卷积核为5×5，步长为1；第二个卷积核为3×3，步长为1，紧接着的池化层大小为2×2，步长为2；第三个和第四个卷积核均为3×3，步长为1，紧接着的池化层大小为2×2，步长为2；最后第五个和第六个卷积核均为为3×3，步长为1；在上述结构的第一次池化层后、第二次池化层后、最后一个卷机层后分别应用Set pooling操作将独立特征图集合成一个单一的特征图；将第二次setpooling输出的特征和第三次set pooling输出的特征图分别经过池化操作得到两个128维的特征；经过全联接层映射位两个256维的特征；将两个特征级联，得到512维的步态特征。

9.根据权利要求6所述的基于行人外观和步态信息的多模态行人身份识别系统，其特征在于，所述模块S5包括：

10.根据权利要求6所述的基于行人外观和步态信息的多模态行人身份识别系统，其特征在于，所述模块S6包括：