CN112906679B

CN112906679B - 基于人形语义分割的行人重识别方法、系统及相关设备

Info

Publication number: CN112906679B
Application number: CN202110498277.1A
Authority: CN
Inventors: 孙月; 闫潇宁
Original assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Current assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-07-23
Anticipated expiration: 2041-05-08
Also published as: CN112906679A

Abstract

本发明涉及人工智能技术应用领域，提出了一种基于人形语义分割的行人重识别方法、系统及相关设备，所述行人重识别方法中包括步骤：获取到待识别的视频数据，对所述视频数据进行抽帧，得到第一静态图片集合；通过行人检测器对所述第一静态图片集合进行处理，得到具有人形特征的第二静态图片集合；对所述第二静态图片集合进行背景处理，得到背景为统一纯色调的第三静态图片集合；利用所述第三静态图片集合得到用于行人重识别的全局特征。本发明能够在行人重识别阶段前剔除背景噪声对前景行人特征造成的影响，并且建立了新的行人重识别模型提高了行人重识别的准确度。

Description

基于人形语义分割的行人重识别方法、系统及相关设备

技术领域

本发明属于人工智能技术应用技术领域，尤其涉及一种基于人形语义分割的行人重识别方法、系统及相关设备。

背景技术

随着社会的进步与发展，各种摄像设备已经在我们的生活中得到了普及。为了加强城市、社区安防工作的建设，从边缘监控设备获得的监控图像数据中快速得到有价值的信息，对于公安、城管等工作人员来说尤为重要。近年来，以人工智能技术为核心的各种智能化产品正在慢慢走进大众的视野。让人工智能技术为社会、为人民服务已是大势所趋，作为人工智能领域的重要分支，计算机视觉已经日渐成熟。行人重识别（Person re-identification，简称Re-ID）是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，有利于工作人员对监控视频开展分析工作。

现有的行人重识别技术主要利用从待识别图片中直接提取行人的第一特征和第二特征作为神经网络模型的训练目标，这种方法对图片本身的分辨率和光线、障碍物要求比较高，利用这些图片作为数据的行人重识别的深度学习框架效率不高，准确度在不同的图像环境下差异较大。

发明内容

针对上述的不足，本发明实施例提供一种基于人形语义分割的行人重识别方法、系统及相关设备，旨在解决因为样本图像背景噪声对行人重识别造成影响的问题。

第一方面，本发明实施例提供一种基于人形语义分割的行人重识别方法，所述基于人形语义分割的行人重识别方法包括以下步骤：

获取到待识别的视频数据，对所述视频数据进行抽帧，得到第一静态图片集合；

通过行人检测器对所述第一静态图片集合进行处理，得到具有人形特征的第二静态图片集合；

对所述第二静态图片集合进行背景处理，得到背景为统一纯色调的第三静态图片集合；

将所述第三静态图片集合输入到预训练好的行人重识别模型，输出基于所述第三静态图片集合的全局特征，所述行人重识别模型包括多个全尺度特征提取模块和多个Mixstyle模块的级联组合。

进一步地，所述对所述第二静态图片集合进行背景处理的步骤包括：

将所述第二静态图片集合前景的人像突出显示；

将所述第二静态图片集合背景进行单色调处理。

进一步地，在将所述第三静态图片集合输入到预训练好的行人重识别模型的步骤前，还包括步骤：

对所述第三静态图片集合进行数据增强处理。

进一步地，输出基于所述第三静态图片集合的全局特征的步骤后，还包括步骤：

对所述全局特征进行归一化和降维处理。

进一步地，所述行人重识别模型在训练阶段使用Adam优化器进行优化。

进一步地，包括以下步骤：

所述行人重识别模型在训练阶段使用Cross-entropy loss（交叉熵损失）、Triplet loss（三元组损失）、Circle loss（圆形损失）中的至少一种作为损失函数。

第二方面，本发明实施例还提供一种基于人形语义分割的行人重识别系统，所述基于人形语义分割的行人重识别系统包括：

视频获取模块，用于获取到待识别的视频数据，对所述视频数据进行抽帧，得到第一静态图片集合；

行人检测模块，用于通过行人检测器对所述第一静态图片集合进行处理，得到具有人形特征的第二静态图片集合；

人形语义分割模块，用于对所述第二静态图片集合进行背景处理，得到背景为统一纯色调的第三静态图片集合；

行人重识别模块，用于将所述第三静态图片集合输入到预训练好的行人重识别模型，输出基于所述第三静态图片集合的全局特征，所述行人重识别模型包括多个全尺度特征提取模块和多个Mixstyle模块的级联组合。

第三方面，本发明实施例还提供一种电子设备，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例中任一项所述的基于人形语义分割的行人重识别方法中的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被执行时实现本发明实施例中任一项所述的基于人形语义分割的行人重识别方法中的步骤。

与现有技术相比，本发明实施例在图像采集和处理阶段使用了人形语义分割对图像进行了处理，减轻了图像背景噪声在行人重识别的训练阶段造成的影响；由于在行人重识别的神经网络中采用Mixstyle方法做为特征训练的优化方法，得到的全局特征拥有更好的泛化能力。

附图说明

图1是本发明实施例提供的一种基于人形语义分割的行人重识别方法的流程示意图；

图2是本发明实施例提供的一种基于人形语义分割的行人重识别模型示意图；

图3是本发明实施例提供的基于人形语义分割的行人重识别模型中的全尺度特征提取块示意图；

图4是本发明实施例提供的基于人形语义分割的行人重识别模型中的Lite3x3卷积层；

图5是本发明实施例提供的基于人形语义分割的行人重识别模型中的AG模块图；

图6是本发明实施例提供的一种对所述第三静态图片集合进行数据增强处理的方法流程示意图；

图7是本发明实施例提供的基于人形语义分割的行人重识别计算机程序的功能模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明实施例提供的一种基于人形语义分割的行人重识别方法的流程示意图，在本发明实施例中，基于人形语义分割的行人重识别方法包括步骤 101至步骤104，具体步骤如下：

101、获取到待识别的视频数据，对所述视频数据进行抽帧，得到第一静态图片集合。

在本发明实施例中，获取视频数据的方法可以是使用可控的监控摄像头进行实时的数据传输，也可以是过去监控的存储在已知存储设备上的视频数据。视频数据可以由视频获取端或存储位置通过网络或者传输线缆传送到本实施例中预处理视频数据的装置上。对于选取的视频数据，是具有行人重识别目标属性的数个视频集，例如，同一建筑物入口处的不同时间段的、具有多个行人样本的视频。此外，对于选取的视频数据的大小和数量，本发明不做限定。

得到视频数据后，对上述视频数据进行预处理，根据视频的帧数以及内容，预处理模块将视频逐帧拆分。具体的，每秒30帧的视频会拆分为30张图片，每秒60帧的视频会拆分为60张图片，并将这些图片保存为第一静态图片集合。

102、通过行人检测器对所述第一静态图片集合进行处理，得到具有人形特征的第二静态图片集合；

行人检测器的作用为，从所述第一静态图片集合中识别其中带有人形特征的图片，这些图片包括具有完整人形特征的图片，以及虽然被障碍物遮挡住的部分行人，但包含了头部、体型、穿着等主要辨识特征的图片，识别结束后，将具有以上识别结果的图片筛选出，并以头部、体型、穿着等属性作为数据标记，保存为第二静态图片集合。示例性地，行人检测器可以是任一种能够对图片进行人脸检测的神经网络模型，行人检测器以图片作为数据输入，输出带有数据标记的图片，本发明实施例不对模型类型作出限制。

需要说明的是，对于筛选出来的具有人形特征的图片数量，为了后期使用行人重识别模型识别结果的精度，使用的图片数量应尽可能的多，针对不同的数据源和视频内容，保存的图片数量也有所不同，本发明不做限定。示例性地，选取某一住宅公寓入口处的一监控摄像头A与位于负一层停车场的监控摄像头B，所选取的两个监控摄像头监控范围无重叠，进行行人重识别目标范围为某日18点至19点，则获取来自A、B两个摄像头的两段时间长度为1小时的视频文件，按照实际视频内容分析，过往行人数量以及所对应的识别目标出现频率不高，则从每段视频中筛选出至少120张具有人形特征图片作为预处理生成的图片集合。

103、对所述第二静态图片集合进行背景处理，得到背景为统一纯色调的第三静态图片集合。

在本发明实施例中，所述背景处理为对图片进行人像分割处理。上述人像分割处理功能集成在人形语义分割模块中，该模块由预先训练好的神经网络模型组成，上述第二静态图片集合中任意拥有人形特征的图片都属于人形语义分割的对象。

其中，预先训练好的神经网络模型为一种轻量级目标分离网络模型（MattingObjective Decomposition Network，简称MODNet），该模型以视频或图片作为输入，通过识别图像内容，将一张图片的前后景分离。在本实施例中，行人重识别的主要对象为行人，干扰因素主要为环境物体。首先，MODNet在训练时将一张图片分为三个部分，即前景、背景和待确认区域，前景、背景是已知部分，待确认区域是未知部分，其中前景、背景在图片像素点的体现上是绝对的，因此MODNet所使用的Trimap-Free（自由静态图像抠图算法）算法在识别图像时，主要工作是将待确认区域的前景图像识别出，并将剩下的部分以及背景部分做纯色的颜色填充，达到将图片中前景行人的主要特征突出的目的。示例性地，使用NivdiaGTX 1080 Ti作为MODNet模型训练使用的硬件计算平台时，每秒能够完成人形语义分割的图片数量为63张，性能表现能够满足快速进入到行人重识别步骤的要求。

经过人形语义分割处理过后的图片，将其保存为第三静态图片集合。

104、利用所述第三静态图片集合得到用于行人重识别的全局特征。

在本发明实施例中，一种基于人形语义分割的行人重识别模型基于全尺度网络（Omni-Scale Network，简称OSNet），请参见图2，图2是本发明实施例提供的一种基于人形语义分割的行人重识别模型示意图，该行人重识别模型基于原本的OSNet做出改进，由主干网络、特征聚合模块和头模块组成，其中，所述主干网络包括全尺度特征提取块和Mixstyle方法块，所述头模块的作用为对所述特征聚合模块的输出进行批归一化以及最后的全连接。

请参照图3，图3为本发明实施例提供的基于人形语义分割的行人重识别模型中的全尺度特征提取块示意图，其中，所述全尺度特征提取块由基本的1x1卷积层、lite3x3卷积层和统一聚合门（Aggregation Gate，简称AG）组成。

请参照图4，图4为本发明实施例提供的基于人形语义分割的行人重识别模型中的Lite3x3卷积层。所述Lite3x3卷积层由一个1x1卷积层、一个3x3深度卷积层、批归一化、ReLU（线性整流函数）激活函数组成。

请参照图5，图5为本发明实施例提供的基于人形语义分割的行人重识别模型中的AG模块图，所述AG的结构由全局均值池化、全连接、批归一化、一层ReLU激活的函数层、第二次全连接、以及输出sigmoid函数（S型生长曲线）激活的MLP（多层感知器）组成，由AG生成的通道权值结合卷积结果动态融合得到多尺度特征。在本发明实施例中，每一个全尺度特征提取块中有4个特征流，每个特征流的维度跨流线型增加，确保每个全尺度特征提取块中捕获到不同维度的特征；AG跨所有特征流共享参数，在可训练的AG下，生成的信道权值仅依赖于输入，实现了动态尺度融合。

与原本OSNet中的全尺度特征提取块相比，本发明实施例提供的所述全尺度特征提取块重新设计了各组件的层次，其中，在将训练图片输入后的第一个1x1卷积层后、每一个Lite3x3卷积层之前增加了一个Lite3x3卷积层，并在该Lite3x3卷积层后加入AG进行第一次动态融合得到一个初始的多尺度特征，该AG与原本OSNet网络中的AG处于一个子网络，通过Attention Connection（注意力机制）传递特征信息，以此为行人重识别模型的特征学习提供更大的灵活性。

本发明实施例提供的基于人形语义分割的行人重识别模型的主干网络中，每一个全尺度特征提取块之后设计有一个Mixstyle方法块。Mixstyle是一种数据增强方法，该方法结合了style transfer（属性迁移）和mixup（混合）两种方法的特点。style transfer将图片B的特征迁移到图片A中；mixup将图片A与图片B以某一个比例进行融合，同时混合图片的特征。Mixstyle首先混合图像A和图像B的特征信息，并以mixup的混合方式进行融合，不同的是，对于不同的图片特征表现方式，多个特征的混合方式分为顺序混合和随机混合两种，同时，特征的权重也会随机重新分配。作为对比，在PACS的训练实验上，mixup方法的平均增强度为78.5%，Mixstyle方法的平均增强度为83.7%，因此Mixstyle方法具有更好的数据增强效果。在本发明实施例中，Mixstyle结构设置在每一个全尺度特征提取块之后，本发明实施例提供的基于人形语义分割的行人重识别模型得到的全局特征经过Mixstyle模块处理后能够实现训练结果更好的泛化性。

请参见图6，图6是本发明实施例提供的一种对所述第三静态图片集合进行数据增强处理的方法流程示意图，在本发明实施例中，在执行步骤104前，还包括将步骤103中得到的所述第三静态图片集合进行数据增强的过程，对所述第三静态图片集合进行数据增强处理的方法包括步骤201至步骤202，具体步骤如下：

201，对所述第三静态图片集合中的图片进行重新固定尺寸，切片。在本发明实施例中，示例性地，为统一神经网络模型的训练集大小，控制训练完成的时间，所述图片处理后的大小控制在640x640分辨率以内。

202，对所述第三静态图片集合中的图片进行随机擦除，随机裁剪等数据增强操作。在本发明实施例中，所述随机擦除，随机裁剪等数据增强操作通过使用包含transform（变化）函数的计算机程序实现。

进一步的，在所述行人重识别模型输出基于所述第三静态图片集合的全局特征的步骤后，还由头模块对所述全局特征进行归一化和降维处理。

进一步的，所述行人重识别模型在训练阶段时使用Adam优化器，使用Cross-entropy loss（交叉熵损失）、Triplet loss（三元组损失）、Circle loss（圆形损失）中的至少一种作为损失函数。

进一步的，所述行人重识别模型在在前传推理阶段使用余弦距离作为度量方法，使用重排序作为后处理方法。

以上步骤完成后，将训练得到的全局特征内容保存到存储器中。具体使用时，将需要进行行人重识别的视频片段输入到系统中，将得到的特征结果与所述全局特征做对比，比较特征相似点与差异点，判断所监测到的行人是否出现在不同的摄像头视野中。

请参见图7，图7是本发明实施例提供的基于人形语义分割的行人重识别计算机程序的功能模块示意图，如图7所示，所述行人重识别计算机程序300包括：视频获取模块301、行人检测模块302、人形语义分割模块303、行人重识别模块304，其中：

视频获取模块301用于以直接采集或者访问数据源的方式获取视频数据。在本发明实施例中，视频获取模块由监控设备及传输网络组成，用于获取目标视频数据的监控设备以有线网络的方式将视频数据传输到所述计算机程序所运行的硬件地址上。可选的，视频获取模块也可以是通过网络连接的摄像头、云端数据存储设备等，所述网络包括以同轴电缆、光纤接入的有线网络，以及以蜂窝网络、无线局域网接入的无线网络。

行人检测模块302用于通过行人检测器对所述第一静态图片集合进行处理，筛选得到具有人形特征的第二静态图片集合。在本发明实施例中，行人检测模块用于执行所述步骤102的具体功能。所述行人检测模块302使用已完成处理的所述第一静态图片集合为输入，利用一种能够对图片进行人脸检测的神经网络模型对摄像头获取的数据进行人像特征识别。

示例性的，所述行人检测模块302以某一住宅公寓入口处的一监控摄像头A与位于负一层停车场的监控摄像头B所抓取到的目标图像组成的所述第一静态图片集合，从中识别并抓取以每分钟30张带有人像的图片。可选的，本发明实施例所提供的行人检测模块可根据已经筛选过的已标记特征的图像作为输出内容，以对应本发明实施例需要快速进行神经网络训练的需求；

人形语义分割模块303用于对所述第二静态图片集合进行背景处理，得到背景为统一纯色调的第三静态图片集合。在本发明实施例中，人形语义分割模块用于执行步骤103的具体功能。

所述人形语义分割模块303的程序实现基于MODNet模型，MODNet运行时将一张图片分为三个部分，即前景、背景和待确认区域，前景、背景是已知部分，待确认区域是未知部分，其中前景、背景在图片像素点的体现上是绝对的，因此MODNet所使用的Trimap-Free算法在识别图像时，主要工作是将待确认区域的前景图像识别出，并将剩下的部分以及背景部分做纯色的颜色填充，示例性地，使用Nivdia GTX 1080 Ti作为MODNet模型训练使用的硬件计算平台，以每秒63张的速度完成人形语义分割。

行人重识别模块304用于利用第三静态图片集合得到用于行人重识别的全局特征。在本发明实施例中，行人重识别模块主要用于执行步骤104的具体功能，其中，在运行所述行人重识别模型前，行人重识别模块还将执行对所述第三静态图片集合进行数据增强处理的步骤。

由所述人形语义分割模块得到所述第三静态图片集合后，所述行人重识别模块对重新固定尺寸，切片。在本发明实施例中，示例性地，为统一神经网络模型的训练集大小，控制训练完成的时间，所述图片处理后的大小控制在640x640分辨率以内，并利用torch深度学习框架中transform函数的程序进行随机擦除、随机裁剪等数据增强操作。所述行人重识别模块的实现基于全尺度网络模型为基础的行人重识别模型，在本实施例中，由主干网络和特征聚合模块组成，其中所述主干网络包括全尺度特征提取块和Mixstyle方法块。所述全尺度特征提取块由基本的1x1卷积层、lite3x3卷积层和统一聚合门组成，基于原本的OSNet网络模型的全尺寸特征提取块，在输入后的第一个1x1卷积层后、每一个Lite3x3卷积层之前增加了一个Lite3x3卷积层，并在卷积后通过AG得到一个初始的多尺度特征，该AG与原本OSNet网络中的AG处于一个子网络；本发明实施例提供的行人重识别模块中设计有Mixstyle方法块，Mixstyle方法作为模块设置在每一个全尺度特征提取块之后，并在整个主干网络中与全尺度特征提取块呈级联关系，使训练得到的全局特征能够实现好的泛化性。在发明本实施例中，行人重识别模块中的基于人形语义分割的行人重识别模型在训练阶段时使用Adam优化器，使用Cross-entropy loss、Triplet loss、Circle loss中的至少一种作为损失函数，在前传推理阶段使用余弦距离作为度量方法，使用重排序作为后处理方法。

本发明通过步骤103，在图像采集和处理阶段使用了人形语义分割对图像进行了处理，所以减轻了图像背景噪声在行人重识别的训练阶段造成的影响；通过步骤104，在行人重识别的神经网络中采用Mixstyle方法做为特征训练的优化方法，得到的全局特征拥有更好的泛化能力，可以使行人重识别更加高效稳定。

本发明实施例还提供一种计算机电子设备，该电子设备包括存储器，处理器，所述存储器中存储有计算机程序。本发明实施例提供的电子设备工作时，以静态图片作为数据输入，通过处理器执行的计算机程序可以完成本发明实施例的流程。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人形语义分割的行人重识别方法，其特征在于，所述基于人形语义分割的行人重识别方法包括以下步骤：

将所述第三静态图片集合输入到预训练好的行人重识别模型，输出基于所述第三静态图片集合的全局特征，所述行人重识别模型由主干网络、特征聚合模块和头模块组成；

所述主干网络包括全尺度特征提取块和Mixstyle方法块；

所述全尺度特征提取块由基本的1x1卷积层、lite3x3卷积层和统一聚合门组成，所述lite3x3卷积层由一个1x1卷积层、一个3x3深度卷积层、批归一化、ReLU激活函数组成；所述统一聚合门的结构由全局均值池化、全连接、批归一化、一层ReLU激活的函数层、第二次全连接、以及输出sigmoid函数激活的MLP组成；所述统一聚合门生成的通道权值结合卷积结果动态融合得到多尺度特征；

每一个所述全尺度特征提取块之后设计有一个所述Mixstyle方法块，所述Mixstyle方法块由style transfer和mixup两种方法组成，其中，全尺度特征包括所述多尺度特征；

所述头模块的作用为对所述特征聚合模块的输出进行批归一化以及最后的全连接。

2.如权利要求1所述的基于人形语义分割的行人重识别方法，其特征在于，所述对所述第二静态图片集合进行背景处理的步骤包括：

将所述第二静态图片集合前景的人像突出显示；

将所述第二静态图片集合背景进行单色调处理。

3.如权利要求1所述的基于人形语义分割的行人重识别方法，其特征在于，在将所述第三静态图片集合输入到预训练好的行人重识别模型的步骤前，还包括步骤：

对所述第三静态图片集合进行数据增强处理。

4.如权利要求1所述的基于人形语义分割的行人重识别方法，其特征在于，在输出基于所述第三静态图片集合的全局特征的步骤后，还包括步骤：

对所述全局特征进行归一化和降维处理。

5.如权利要求1所述的基于人形语义分割的行人重识别方法，其特征在于，所述行人重识别模型在训练阶段使用Adam优化器进行优化。

6.如权利要求1所述的基于人形语义分割的行人重识别方法，其特征在于，包括以下步骤：

所述行人重识别模型在训练阶段使用Cross-entropy loss、Triplet loss、Circleloss中的至少一种作为损失函数。

7.一种基于人形语义分割的行人重识别系统，其特征在于，所述基于人形语义分割的行人重识别系统包括：

行人重识别模块，用于将所述第三静态图片集合输入到预训练好的行人重识别模型，输出基于所述第三静态图片集合的全局特征，所述行人重识别模型由主干网络、特征聚合模块和头模块组成；

所述主干网络包括全尺度特征提取块和Mixstyle方法块；

8.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于人形语义分割的行人重识别方法中的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被执行时实现如权利要求1至6中任一项所述的基于人形语义分割的行人重识别方法中的步骤。