CN112906679B - 基于人形语义分割的行人重识别方法、系统及相关设备 - Google Patents
基于人形语义分割的行人重识别方法、系统及相关设备 Download PDFInfo
- Publication number
- CN112906679B CN112906679B CN202110498277.1A CN202110498277A CN112906679B CN 112906679 B CN112906679 B CN 112906679B CN 202110498277 A CN202110498277 A CN 202110498277A CN 112906679 B CN112906679 B CN 112906679B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- picture set
- static picture
- identification
- semantic segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000011218 segmentation Effects 0.000 title claims abstract description 52
- 230000003068 static effect Effects 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 22
- 230000002776 aggregation Effects 0.000 claims description 15
- 238000004220 aggregation Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 239000003795 chemical substances by application Substances 0.000 description 12
- 238000012544 monitoring process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000003062 neural network model Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及人工智能技术应用领域,提出了一种基于人形语义分割的行人重识别方法、系统及相关设备,所述行人重识别方法中包括步骤:获取到待识别的视频数据,对所述视频数据进行抽帧,得到第一静态图片集合;通过行人检测器对所述第一静态图片集合进行处理,得到具有人形特征的第二静态图片集合;对所述第二静态图片集合进行背景处理,得到背景为统一纯色调的第三静态图片集合;利用所述第三静态图片集合得到用于行人重识别的全局特征。本发明能够在行人重识别阶段前剔除背景噪声对前景行人特征造成的影响,并且建立了新的行人重识别模型提高了行人重识别的准确度。
Description
技术领域
本发明属于人工智能技术应用技术领域,尤其涉及一种基于人形语义分割的行人重识别方法、系统及相关设备。
背景技术
随着社会的进步与发展,各种摄像设备已经在我们的生活中得到了普及。为了加强城市、社区安防工作的建设,从边缘监控设备获得的监控图像数据中快速得到有价值的信息,对于公安、城管等工作人员来说尤为重要。近年来,以人工智能技术为核心的各种智能化产品正在慢慢走进大众的视野。让人工智能技术为社会、为人民服务已是大势所趋,作为人工智能领域的重要分支,计算机视觉已经日渐成熟。行人重识别(Person re-identification,简称Re-ID)是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,有利于工作人员对监控视频开展分析工作。
现有的行人重识别技术主要利用从待识别图片中直接提取行人的第一特征和第二特征作为神经网络模型的训练目标,这种方法对图片本身的分辨率和光线、障碍物要求比较高,利用这些图片作为数据的行人重识别的深度学习框架效率不高,准确度在不同的图像环境下差异较大。
发明内容
针对上述的不足,本发明实施例提供一种基于人形语义分割的行人重识别方法、系统及相关设备,旨在解决因为样本图像背景噪声对行人重识别造成影响的问题。
第一方面,本发明实施例提供一种基于人形语义分割的行人重识别方法,所述基于人形语义分割的行人重识别方法包括以下步骤:
获取到待识别的视频数据,对所述视频数据进行抽帧,得到第一静态图片集合;
通过行人检测器对所述第一静态图片集合进行处理,得到具有人形特征的第二静态图片集合;
对所述第二静态图片集合进行背景处理,得到背景为统一纯色调的第三静态图片集合;
将所述第三静态图片集合输入到预训练好的行人重识别模型,输出基于所述第三静态图片集合的全局特征,所述行人重识别模型包括多个全尺度特征提取模块和多个Mixstyle模块的级联组合。
进一步地,所述对所述第二静态图片集合进行背景处理的步骤包括:
将所述第二静态图片集合前景的人像突出显示;
将所述第二静态图片集合背景进行单色调处理。
进一步地,在将所述第三静态图片集合输入到预训练好的行人重识别模型的步骤前,还包括步骤:
对所述第三静态图片集合进行数据增强处理。
进一步地,输出基于所述第三静态图片集合的全局特征的步骤后,还包括步骤:
对所述全局特征进行归一化和降维处理。
进一步地,所述行人重识别模型在训练阶段使用Adam优化器进行优化。
进一步地,包括以下步骤:
所述行人重识别模型在训练阶段使用Cross-entropy loss(交叉熵损失)、Triplet loss(三元组损失)、Circle loss(圆形损失)中的至少一种作为损失函数。
第二方面,本发明实施例还提供一种基于人形语义分割的行人重识别系统,所述基于人形语义分割的行人重识别系统包括:
视频获取模块,用于获取到待识别的视频数据,对所述视频数据进行抽帧,得到第一静态图片集合;
行人检测模块,用于通过行人检测器对所述第一静态图片集合进行处理,得到具有人形特征的第二静态图片集合;
人形语义分割模块,用于对所述第二静态图片集合进行背景处理,得到背景为统一纯色调的第三静态图片集合;
行人重识别模块,用于将所述第三静态图片集合输入到预训练好的行人重识别模型,输出基于所述第三静态图片集合的全局特征,所述行人重识别模型包括多个全尺度特征提取模块和多个Mixstyle模块的级联组合。
第三方面,本发明实施例还提供一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例中任一项所述的基于人形语义分割的行人重识别方法中的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被执行时实现本发明实施例中任一项所述的基于人形语义分割的行人重识别方法中的步骤。
与现有技术相比,本发明实施例在图像采集和处理阶段使用了人形语义分割对图像进行了处理,减轻了图像背景噪声在行人重识别的训练阶段造成的影响;由于在行人重识别的神经网络中采用Mixstyle方法做为特征训练的优化方法,得到的全局特征拥有更好的泛化能力。
附图说明
图1是本发明实施例提供的一种基于人形语义分割的行人重识别方法的流程示意图;
图2是本发明实施例提供的一种基于人形语义分割的行人重识别模型示意图;
图3是本发明实施例提供的基于人形语义分割的行人重识别模型中的全尺度特征提取块示意图;
图4是本发明实施例提供的基于人形语义分割的行人重识别模型中的Lite3x3卷积层;
图5是本发明实施例提供的基于人形语义分割的行人重识别模型中的AG模块图;
图6是本发明实施例提供的一种对所述第三静态图片集合进行数据增强处理的方法流程示意图;
图7是本发明实施例提供的基于人形语义分割的行人重识别计算机程序的功能模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,图1是本发明实施例提供的一种基于人形语义分割的行人重识别方法的流程示意图,在本发明实施例中,基于人形语义分割的行人重识别方法包括步骤 101至步骤104,具体步骤如下:
101、获取到待识别的视频数据,对所述视频数据进行抽帧,得到第一静态图片集合。
在本发明实施例中,获取视频数据的方法可以是使用可控的监控摄像头进行实时的数据传输,也可以是过去监控的存储在已知存储设备上的视频数据。视频数据可以由视频获取端或存储位置通过网络或者传输线缆传送到本实施例中预处理视频数据的装置上。对于选取的视频数据,是具有行人重识别目标属性的数个视频集,例如,同一建筑物入口处的不同时间段的、具有多个行人样本的视频。此外,对于选取的视频数据的大小和数量,本发明不做限定。
得到视频数据后,对上述视频数据进行预处理,根据视频的帧数以及内容,预处理模块将视频逐帧拆分。具体的,每秒30帧的视频会拆分为30张图片,每秒60帧的视频会拆分为60张图片,并将这些图片保存为第一静态图片集合。
102、通过行人检测器对所述第一静态图片集合进行处理,得到具有人形特征的第二静态图片集合;
行人检测器的作用为,从所述第一静态图片集合中识别其中带有人形特征的图片,这些图片包括具有完整人形特征的图片,以及虽然被障碍物遮挡住的部分行人,但包含了头部、体型、穿着等主要辨识特征的图片,识别结束后,将具有以上识别结果的图片筛选出,并以头部、体型、穿着等属性作为数据标记,保存为第二静态图片集合。示例性地,行人检测器可以是任一种能够对图片进行人脸检测的神经网络模型,行人检测器以图片作为数据输入,输出带有数据标记的图片,本发明实施例不对模型类型作出限制。
需要说明的是,对于筛选出来的具有人形特征的图片数量,为了后期使用行人重识别模型识别结果的精度,使用的图片数量应尽可能的多,针对不同的数据源和视频内容,保存的图片数量也有所不同,本发明不做限定。示例性地,选取某一住宅公寓入口处的一监控摄像头A与位于负一层停车场的监控摄像头B,所选取的两个监控摄像头监控范围无重叠,进行行人重识别目标范围为某日18点至19点,则获取来自A、B两个摄像头的两段时间长度为1小时的视频文件,按照实际视频内容分析,过往行人数量以及所对应的识别目标出现频率不高,则从每段视频中筛选出至少120张具有人形特征图片作为预处理生成的图片集合。
103、对所述第二静态图片集合进行背景处理,得到背景为统一纯色调的第三静态图片集合。
在本发明实施例中,所述背景处理为对图片进行人像分割处理。上述人像分割处理功能集成在人形语义分割模块中,该模块由预先训练好的神经网络模型组成,上述第二静态图片集合中任意拥有人形特征的图片都属于人形语义分割的对象。
其中,预先训练好的神经网络模型为一种轻量级目标分离网络模型(MattingObjective Decomposition Network,简称MODNet),该模型以视频或图片作为输入,通过识别图像内容,将一张图片的前后景分离。在本实施例中,行人重识别的主要对象为行人,干扰因素主要为环境物体。首先,MODNet在训练时将一张图片分为三个部分,即前景、背景和待确认区域,前景、背景是已知部分,待确认区域是未知部分,其中前景、背景在图片像素点的体现上是绝对的,因此MODNet所使用的Trimap-Free(自由静态图像抠图算法)算法在识别图像时,主要工作是将待确认区域的前景图像识别出,并将剩下的部分以及背景部分做纯色的颜色填充,达到将图片中前景行人的主要特征突出的目的。示例性地,使用NivdiaGTX 1080 Ti作为MODNet模型训练使用的硬件计算平台时,每秒能够完成人形语义分割的图片数量为63张,性能表现能够满足快速进入到行人重识别步骤的要求。
经过人形语义分割处理过后的图片,将其保存为第三静态图片集合。
104、利用所述第三静态图片集合得到用于行人重识别的全局特征。
在本发明实施例中,一种基于人形语义分割的行人重识别模型基于全尺度网络(Omni-Scale Network,简称OSNet),请参见图2,图2是本发明实施例提供的一种基于人形语义分割的行人重识别模型示意图,该行人重识别模型基于原本的OSNet做出改进,由主干网络、特征聚合模块和头模块组成,其中,所述主干网络包括全尺度特征提取块和Mixstyle方法块,所述头模块的作用为对所述特征聚合模块的输出进行批归一化以及最后的全连接。
请参照图3,图3为本发明实施例提供的基于人形语义分割的行人重识别模型中的全尺度特征提取块示意图,其中,所述全尺度特征提取块由基本的1x1卷积层、lite3x3卷积层和统一聚合门(Aggregation Gate,简称AG)组成。
请参照图4,图4为本发明实施例提供的基于人形语义分割的行人重识别模型中的Lite3x3卷积层。所述Lite3x3卷积层由一个1x1卷积层、一个3x3深度卷积层、批归一化、ReLU(线性整流函数)激活函数组成。
请参照图5,图5为本发明实施例提供的基于人形语义分割的行人重识别模型中的AG模块图,所述AG的结构由全局均值池化、全连接、批归一化、一层ReLU激活的函数层、第二次全连接、以及输出sigmoid函数(S型生长曲线)激活的MLP(多层感知器)组成,由AG生成的通道权值结合卷积结果动态融合得到多尺度特征。在本发明实施例中,每一个全尺度特征提取块中有4个特征流,每个特征流的维度跨流线型增加,确保每个全尺度特征提取块中捕获到不同维度的特征;AG跨所有特征流共享参数,在可训练的AG下,生成的信道权值仅依赖于输入,实现了动态尺度融合。
与原本OSNet中的全尺度特征提取块相比,本发明实施例提供的所述全尺度特征提取块重新设计了各组件的层次,其中,在将训练图片输入后的第一个1x1卷积层后、每一个Lite3x3卷积层之前增加了一个Lite3x3卷积层,并在该Lite3x3卷积层后加入AG进行第一次动态融合得到一个初始的多尺度特征,该AG与原本OSNet网络中的AG处于一个子网络,通过Attention Connection(注意力机制)传递特征信息,以此为行人重识别模型的特征学习提供更大的灵活性。
本发明实施例提供的基于人形语义分割的行人重识别模型的主干网络中,每一个全尺度特征提取块之后设计有一个Mixstyle方法块。Mixstyle是一种数据增强方法,该方法结合了style transfer(属性迁移)和mixup(混合)两种方法的特点。style transfer将图片B的特征迁移到图片A中;mixup将图片A与图片B以某一个比例进行融合,同时混合图片的特征。Mixstyle首先混合图像A和图像B的特征信息,并以mixup的混合方式进行融合,不同的是,对于不同的图片特征表现方式,多个特征的混合方式分为顺序混合和随机混合两种,同时,特征的权重也会随机重新分配。作为对比,在PACS的训练实验上,mixup方法的平均增强度为78.5%,Mixstyle方法的平均增强度为83.7%,因此Mixstyle方法具有更好的数据增强效果。在本发明实施例中,Mixstyle结构设置在每一个全尺度特征提取块之后,本发明实施例提供的基于人形语义分割的行人重识别模型得到的全局特征经过Mixstyle模块处理后能够实现训练结果更好的泛化性。
请参见图6,图6是本发明实施例提供的一种对所述第三静态图片集合进行数据增强处理的方法流程示意图,在本发明实施例中,在执行步骤104前,还包括将步骤103中得到的所述第三静态图片集合进行数据增强的过程,对所述第三静态图片集合进行数据增强处理的方法包括步骤201至步骤202,具体步骤如下:
201,对所述第三静态图片集合中的图片进行重新固定尺寸,切片。在本发明实施例中,示例性地,为统一神经网络模型的训练集大小,控制训练完成的时间,所述图片处理后的大小控制在640x640分辨率以内。
202,对所述第三静态图片集合中的图片进行随机擦除,随机裁剪等数据增强操作。在本发明实施例中,所述随机擦除,随机裁剪等数据增强操作通过使用包含transform(变化)函数的计算机程序实现。
进一步的,在所述行人重识别模型输出基于所述第三静态图片集合的全局特征的步骤后,还由头模块对所述全局特征进行归一化和降维处理。
进一步的,所述行人重识别模型在训练阶段时使用Adam优化器,使用Cross-entropy loss(交叉熵损失)、Triplet loss(三元组损失)、Circle loss(圆形损失)中的至少一种作为损失函数。
进一步的,所述行人重识别模型在在前传推理阶段使用余弦距离作为度量方法,使用重排序作为后处理方法。
以上步骤完成后,将训练得到的全局特征内容保存到存储器中。具体使用时,将需要进行行人重识别的视频片段输入到系统中,将得到的特征结果与所述全局特征做对比,比较特征相似点与差异点,判断所监测到的行人是否出现在不同的摄像头视野中。
请参见图7,图7是本发明实施例提供的基于人形语义分割的行人重识别计算机程序的功能模块示意图,如图7所示,所述行人重识别计算机程序300包括:视频获取模块301、行人检测模块302、人形语义分割模块303、行人重识别模块304,其中:
视频获取模块301用于以直接采集或者访问数据源的方式获取视频数据。在本发明实施例中,视频获取模块由监控设备及传输网络组成,用于获取目标视频数据的监控设备以有线网络的方式将视频数据传输到所述计算机程序所运行的硬件地址上。可选的,视频获取模块也可以是通过网络连接的摄像头、云端数据存储设备等,所述网络包括以同轴电缆、光纤接入的有线网络,以及以蜂窝网络、无线局域网接入的无线网络。
行人检测模块302用于通过行人检测器对所述第一静态图片集合进行处理,筛选得到具有人形特征的第二静态图片集合。在本发明实施例中,行人检测模块用于执行所述步骤102的具体功能。所述行人检测模块302使用已完成处理的所述第一静态图片集合为输入,利用一种能够对图片进行人脸检测的神经网络模型对摄像头获取的数据进行人像特征识别。
示例性的,所述行人检测模块302以某一住宅公寓入口处的一监控摄像头A与位于负一层停车场的监控摄像头B所抓取到的目标图像组成的所述第一静态图片集合,从中识别并抓取以每分钟30张带有人像的图片。可选的,本发明实施例所提供的行人检测模块可根据已经筛选过的已标记特征的图像作为输出内容,以对应本发明实施例需要快速进行神经网络训练的需求;
人形语义分割模块303用于对所述第二静态图片集合进行背景处理,得到背景为统一纯色调的第三静态图片集合。在本发明实施例中,人形语义分割模块用于执行步骤103的具体功能。
所述人形语义分割模块303的程序实现基于MODNet模型,MODNet运行时将一张图片分为三个部分,即前景、背景和待确认区域,前景、背景是已知部分,待确认区域是未知部分,其中前景、背景在图片像素点的体现上是绝对的,因此MODNet所使用的Trimap-Free算法在识别图像时,主要工作是将待确认区域的前景图像识别出,并将剩下的部分以及背景部分做纯色的颜色填充,示例性地,使用Nivdia GTX 1080 Ti作为MODNet模型训练使用的硬件计算平台,以每秒63张的速度完成人形语义分割。
行人重识别模块304用于利用第三静态图片集合得到用于行人重识别的全局特征。在本发明实施例中,行人重识别模块主要用于执行步骤104的具体功能,其中,在运行所述行人重识别模型前,行人重识别模块还将执行对所述第三静态图片集合进行数据增强处理的步骤。
由所述人形语义分割模块得到所述第三静态图片集合后,所述行人重识别模块对重新固定尺寸,切片。在本发明实施例中,示例性地,为统一神经网络模型的训练集大小,控制训练完成的时间,所述图片处理后的大小控制在640x640分辨率以内,并利用torch深度学习框架中transform函数的程序进行随机擦除、随机裁剪等数据增强操作。所述行人重识别模块的实现基于全尺度网络模型为基础的行人重识别模型,在本实施例中,由主干网络和特征聚合模块组成,其中所述主干网络包括全尺度特征提取块和Mixstyle方法块。所述全尺度特征提取块由基本的1x1卷积层、lite3x3卷积层和统一聚合门组成,基于原本的OSNet网络模型的全尺寸特征提取块,在输入后的第一个1x1卷积层后、每一个Lite3x3卷积层之前增加了一个Lite3x3卷积层,并在卷积后通过AG得到一个初始的多尺度特征,该AG与原本OSNet网络中的AG处于一个子网络;本发明实施例提供的行人重识别模块中设计有Mixstyle方法块,Mixstyle方法作为模块设置在每一个全尺度特征提取块之后,并在整个主干网络中与全尺度特征提取块呈级联关系,使训练得到的全局特征能够实现好的泛化性。在发明本实施例中,行人重识别模块中的基于人形语义分割的行人重识别模型在训练阶段时使用Adam优化器,使用Cross-entropy loss、Triplet loss、Circle loss中的至少一种作为损失函数,在前传推理阶段使用余弦距离作为度量方法,使用重排序作为后处理方法。
本发明通过步骤103,在图像采集和处理阶段使用了人形语义分割对图像进行了处理,所以减轻了图像背景噪声在行人重识别的训练阶段造成的影响;通过步骤104,在行人重识别的神经网络中采用Mixstyle方法做为特征训练的优化方法,得到的全局特征拥有更好的泛化能力,可以使行人重识别更加高效稳定。
本发明实施例还提供一种计算机电子设备,该电子设备包括存储器,处理器,所述存储器中存储有计算机程序。本发明实施例提供的电子设备工作时,以静态图片作为数据输入,通过处理器执行的计算机程序可以完成本发明实施例的流程。
以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于人形语义分割的行人重识别方法,其特征在于,所述基于人形语义分割的行人重识别方法包括以下步骤:
获取到待识别的视频数据,对所述视频数据进行抽帧,得到第一静态图片集合;
通过行人检测器对所述第一静态图片集合进行处理,得到具有人形特征的第二静态图片集合;
对所述第二静态图片集合进行背景处理,得到背景为统一纯色调的第三静态图片集合;
将所述第三静态图片集合输入到预训练好的行人重识别模型,输出基于所述第三静态图片集合的全局特征,所述行人重识别模型由主干网络、特征聚合模块和头模块组成;
所述主干网络包括全尺度特征提取块和Mixstyle方法块;
所述全尺度特征提取块由基本的1x1卷积层、lite3x3卷积层和统一聚合门组成,所述lite3x3卷积层由一个1x1卷积层、一个3x3深度卷积层、批归一化、ReLU激活函数组成;所述统一聚合门的结构由全局均值池化、全连接、批归一化、一层ReLU激活的函数层、第二次全连接、以及输出sigmoid函数激活的MLP组成;所述统一聚合门生成的通道权值结合卷积结果动态融合得到多尺度特征;
每一个所述全尺度特征提取块之后设计有一个所述Mixstyle方法块,所述Mixstyle方法块由style transfer和mixup两种方法组成,其中,全尺度特征包括所述多尺度特征;
所述头模块的作用为对所述特征聚合模块的输出进行批归一化以及最后的全连接。
2.如权利要求1所述的基于人形语义分割的行人重识别方法,其特征在于,所述对所述第二静态图片集合进行背景处理的步骤包括:
将所述第二静态图片集合前景的人像突出显示;
将所述第二静态图片集合背景进行单色调处理。
3.如权利要求1所述的基于人形语义分割的行人重识别方法,其特征在于,在将所述第三静态图片集合输入到预训练好的行人重识别模型的步骤前,还包括步骤:
对所述第三静态图片集合进行数据增强处理。
4.如权利要求1所述的基于人形语义分割的行人重识别方法,其特征在于,在输出基于所述第三静态图片集合的全局特征的步骤后,还包括步骤:
对所述全局特征进行归一化和降维处理。
5.如权利要求1所述的基于人形语义分割的行人重识别方法,其特征在于,所述行人重识别模型在训练阶段使用Adam优化器进行优化。
6.如权利要求1所述的基于人形语义分割的行人重识别方法,其特征在于,包括以下步骤:
所述行人重识别模型在训练阶段使用Cross-entropy loss、Triplet loss、Circleloss中的至少一种作为损失函数。
7.一种基于人形语义分割的行人重识别系统,其特征在于,所述基于人形语义分割的行人重识别系统包括:
视频获取模块,用于获取到待识别的视频数据,对所述视频数据进行抽帧,得到第一静态图片集合;
行人检测模块,用于通过行人检测器对所述第一静态图片集合进行处理,得到具有人形特征的第二静态图片集合;
人形语义分割模块,用于对所述第二静态图片集合进行背景处理,得到背景为统一纯色调的第三静态图片集合;
行人重识别模块,用于将所述第三静态图片集合输入到预训练好的行人重识别模型,输出基于所述第三静态图片集合的全局特征,所述行人重识别模型由主干网络、特征聚合模块和头模块组成;
所述主干网络包括全尺度特征提取块和Mixstyle方法块;
所述全尺度特征提取块由基本的1x1卷积层、lite3x3卷积层和统一聚合门组成,所述lite3x3卷积层由一个1x1卷积层、一个3x3深度卷积层、批归一化、ReLU激活函数组成;所述统一聚合门的结构由全局均值池化、全连接、批归一化、一层ReLU激活的函数层、第二次全连接、以及输出sigmoid函数激活的MLP组成;所述统一聚合门生成的通道权值结合卷积结果动态融合得到多尺度特征;
每一个所述全尺度特征提取块之后设计有一个所述Mixstyle方法块,所述Mixstyle方法块由style transfer和mixup两种方法组成,其中,全尺度特征包括所述多尺度特征;
所述头模块的作用为对所述特征聚合模块的输出进行批归一化以及最后的全连接。
8.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于人形语义分割的行人重识别方法中的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被执行时实现如权利要求1至6中任一项所述的基于人形语义分割的行人重识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110498277.1A CN112906679B (zh) | 2021-05-08 | 2021-05-08 | 基于人形语义分割的行人重识别方法、系统及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110498277.1A CN112906679B (zh) | 2021-05-08 | 2021-05-08 | 基于人形语义分割的行人重识别方法、系统及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112906679A CN112906679A (zh) | 2021-06-04 |
CN112906679B true CN112906679B (zh) | 2021-07-23 |
Family
ID=76109068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110498277.1A Active CN112906679B (zh) | 2021-05-08 | 2021-05-08 | 基于人形语义分割的行人重识别方法、系统及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906679B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520226A (zh) * | 2018-04-03 | 2018-09-11 | 东北大学 | 一种基于躯体分解和显著性检测的行人重识别方法 |
CN110717885A (zh) * | 2019-09-02 | 2020-01-21 | 平安科技(深圳)有限公司 | 顾客数量的统计方法及装置、电子设备及可读存储介质 |
CN111435437A (zh) * | 2019-12-26 | 2020-07-21 | 珠海大横琴科技发展有限公司 | 一种pcb行人重识别模型训练方法及pcb行人重识别方法 |
CN112464730A (zh) * | 2020-11-03 | 2021-03-09 | 南京理工大学 | 一种基于域无关前景特征学习的行人再识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10108850B1 (en) * | 2017-04-24 | 2018-10-23 | Intel Corporation | Recognition, reidentification and security enhancements using autonomous machines |
-
2021
- 2021-05-08 CN CN202110498277.1A patent/CN112906679B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520226A (zh) * | 2018-04-03 | 2018-09-11 | 东北大学 | 一种基于躯体分解和显著性检测的行人重识别方法 |
CN110717885A (zh) * | 2019-09-02 | 2020-01-21 | 平安科技(深圳)有限公司 | 顾客数量的统计方法及装置、电子设备及可读存储介质 |
CN111435437A (zh) * | 2019-12-26 | 2020-07-21 | 珠海大横琴科技发展有限公司 | 一种pcb行人重识别模型训练方法及pcb行人重识别方法 |
CN112464730A (zh) * | 2020-11-03 | 2021-03-09 | 南京理工大学 | 一种基于域无关前景特征学习的行人再识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112906679A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111178183B (zh) | 人脸检测方法及相关装置 | |
CN111126258B (zh) | 图像识别方法及相关装置 | |
CN111460968B (zh) | 基于视频的无人机识别与跟踪方法及装置 | |
CN107273832B (zh) | 基于积分通道特征与卷积神经网络的车牌识别方法及系统 | |
CN110796009A (zh) | 基于多尺度卷积神经网络模型的海上船只检测方法及系统 | |
KR20210137213A (ko) | 이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체 | |
CN109558790B (zh) | 一种行人目标检测方法、装置及系统 | |
CN114627269A (zh) | 一种基于深度学习目标检测的虚拟现实安防监控平台 | |
CN113688839B (zh) | 视频处理方法及装置、电子设备、计算机可读存储介质 | |
CN116012255A (zh) | 一种基于循环一致性生成对抗网络的低光图像增强方法 | |
Yin | Object Detection Based on Deep Learning: A Brief Review | |
Zhang et al. | AGVS: A new change detection dataset for airport ground video surveillance | |
CN110688512A (zh) | 基于ptgan区域差距与深度神经网络的行人图像搜索算法 | |
CN113569911A (zh) | 车辆识别方法、装置、电子设备及存储介质 | |
CN112906679B (zh) | 基于人形语义分割的行人重识别方法、系统及相关设备 | |
CN115719428A (zh) | 基于分类模型的人脸图像聚类方法、装置、设备及介质 | |
CN107341456B (zh) | 一种基于单幅户外彩色图像的天气晴阴分类方法 | |
CN115830362A (zh) | 图像处理方法、装置、设备、介质及产品 | |
CN114419018A (zh) | 图像采样方法、系统、设备及介质 | |
Zhou et al. | ASFusion: Adaptive visual enhancement and structural patch decomposition for infrared and visible image fusion | |
CN114283087A (zh) | 一种图像去噪方法及相关设备 | |
CN113569912A (zh) | 车辆识别方法、装置、电子设备及存储介质 | |
Liu et al. | IDAN: Image difference attention network for change detection | |
Ahuja et al. | Object Detection and classification for Autonomous Drones | |
CN116777766A (zh) | 图像增强方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PP01 | Preservation of patent right |
Effective date of registration: 20240109 Granted publication date: 20210723 |
|
PP01 | Preservation of patent right |