CN115565048A - 用于遮挡行人重识别的结合卷积神经网络优化ViT的方法 - Google Patents
用于遮挡行人重识别的结合卷积神经网络优化ViT的方法 Download PDFInfo
- Publication number
- CN115565048A CN115565048A CN202211104302.4A CN202211104302A CN115565048A CN 115565048 A CN115565048 A CN 115565048A CN 202211104302 A CN202211104302 A CN 202211104302A CN 115565048 A CN115565048 A CN 115565048A
- Authority
- CN
- China
- Prior art keywords
- vit
- cnn
- pedestrian
- loss
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于用于遮挡行人重识别的结合卷积神经网络优化ViT的方法,结合了卷积神经网络优化了Vision Transformer的网络结构,将CNN与Transformer的优点结合起来。本发明设计了CNN与Transformer双分支的网络结构,使图片提取的特征既有Transform的优点,又能吸收CNN的优点,这样既通过Transformer获取了tokens之间全局关系,又通过CNN获取了tokens的局部信息,最后融合了局部信息与全局信息,获得了具有鲁棒性的特征。最后结合三元组损失和交叉熵损失,对模型进行迭代优化,将模型最终损失减少到最小值,提升特征的准确性以及模型的性能。这样有效解决了遮挡情况下的行人重识别问题,为遮挡行人重识别在实际应用中提供了一种更为高效的框架。
Description
本发明涉及计算机视觉技术领域,尤其是一种用于行人重识别的卷积神经网络优化Vision Transformer(ViT)的方法。
背景技术
行人重识别是一项十分具有挑战性的任务,属于在复杂视频环境下的图像处理和分析范畴。行人重识别的目的即是在多个非重叠摄像头中搜寻一位目标行人。由于监控摄像头数量不断增加以及人们对于公共安全的迫切需求,行人重识别在智能监控系统,自动驾驶,智能安防,刑事侦查等领域能发挥巨大的作用,具有重大的研究意义和现实意义。
近年来,卷积神经网络的普遍成功在计算机视觉领域已经使人不再惊奇。卷积神经网络广泛应用于许多特定问题的挑战,例如目标行人被其他行人以及物品遮挡或者行人未对齐,身体部位不完整,以及伴随背景干扰或者视角的变化等等问题。由于上述问题的影响,目前单纯简单地利用卷积神经网络主干进行特征提取不会提升太多的行人重识别性能。
Transformer是一种基于自注意力机制的深度神经网络,最早应用于自然语言处理这一领域。由于其表现能力十分强大,研究人员将其迁移到计算机视觉这一领域,其中最著名的当属ViT(Vision Transformer),ViT实现了与传统卷积神经网络相当的性能。虽然现在也有应用到行人重识别的ViT模型如Transreid,但是其不足之处是训练时需要大量的行人数据以及较强的显卡性能支持。
发明内容
针对上述现有技术的不足,本发明提供了一种用于遮挡行人重识别的结合卷积神经网络优化ViT的方法。其目的在于解决由于遮挡导致行人特征有噪声或者无法对齐的问题,即提取局部特征以及全局特征,结合卷积神经网络与ViT两者的优势提取更具鲁棒性以及辨别性的特征。
为了实现上述目的,本发明提供了一种用于遮挡行人重识别的结合卷积神经网络优化ViT的方法,包括以下步骤;
S1、构建网络框架,该网络由CNN及ViT两部分组成;
S2、在用CNN网络提取局部特征的同时也使用ViT网络提取全局特征信息;
S3、融合经过线性投影的局部特征以及拉伸转置操作之后的全局特征;
S4、使用优化后的transformer架构加强特征内部之间的联系,将S3得到的特征送入transformer的自注意力模块;
S5、最后根据输出的特征计算交叉熵损失以及三元组损失,并根据损失持续优化模型。
本发明提供了一种用于遮挡行人重识别的结合卷积神经网络优化ViT的方法。与现有技术相比,具备以下有益效果:
本发明对遮挡导致的行人特征具有噪声以及行人特征未对齐这一问题进行研究,利用卷积神经网络对现有的Vision Transformer模型进行优化,由于Vision Transformer具有自注意力模块,能够使模型更加关注具有全局的特征,忽略被遮挡的部分特征。因此结合卷积神经网络与Vision Transformer两者的优势,能够有效解决遮挡导致的行人特征具有噪声这一问题,提升遮挡行人重识别特征的鲁棒性以及识别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明专利中用于遮挡行人重识别的结合卷积神经网络优化ViT的方法的总的网络结构图。
图2是本发明专利中卷积神经网络优化模块的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
下面结合说明书附图以及具体的实施方式对本发明作详细说明。一种用于遮挡行人重识别的的Vision Transformer包含步骤S1~S5:
S1、构建网络框架,该网络由CNN及ViT两部分组成;
S2、在用CNN网络提取局部特征的同时也使用ViT网络提取全局特征信息;
S3、融合经过线性投影的局部特征以及拉伸转置操作之后的全局特征;
S4、使用优化后的transformer架构加强特征内部之间的联系,将S3得到的特征送入transformer的自注意力模块;
S5、最后根据输出的特征计算交叉熵损失以及三元组合损失,并根据损失持续优化模型。
下面对各个步骤进行详细描述。
在步骤S1中,构建网络架构,如图1所示,该网络由由CNN及ViT两部分组成。其步骤具体为:
S101、构建一个CNN与ViT并存的框架,由两个分支组成;
S102、将行人图像送入CNN分支,同时铺平送入ViT分支提取特征。
在步骤S2中,在用CNN网络提取局部特征的同时也使用ViT网络提取全局特征信息,其步骤具体为:
S201、ViT分支的特征提取部分采用传统的ViT结构,表达如下:
Y=[y1,y2,···,yi,···,yn],yi=Conv2d(Xi),1≤i≤n (1)
其中,Xi表示将图像分为n部分后的第i部分,yi代表第i部分的词嵌入,Conv2d代表一个卷积层,Y表示Xi通过卷积层之后的形成的yi的集合;
Y′=transpose(flatten(Y)) (2)
随后将Y先拉平再转置得到Y′,其中transpose表示矩阵转置操作,flatten表示矩阵铺平操作,Y′表示经过铺平转置操作之后的结果;
S202、同时将行人图像输入到CNN中提取局部特征;
X′=CNNtokensblock(X),X∈RB,C,H,W,X′∈RB,C′,H′,W′ (4)
其中X表示行人图像,R表示图像的维度,B指行人图像的批次,即每一次输入图像的数量,C表示图像的通道数,H表示图像的高度,W表示图像的宽度,CNNtokensblock表示卷积神经网络优化模块,X′表示经过CNNtokensblock处理后的图像,B、C′、H′及W′分别表示处理后的批次,通道数,图像高度及图像宽度;
其中,Tcnn表示经过卷积网络优化模块之后提取的局部特征,CT与上一分支相同,同样是一个分类用的token,conv1以及conv2分别是卷积神经网络层,FC表示全连接层。
在步骤S3中,需要融合经过线性投影的局部特征以及拉伸转置操作之后的全局特征。
S301、首先将步骤S2中两分支得到的特征融合,采用的是直接将两个特征相加的形式,
T=TCNN+Ttrans (6)
其中,T表示最终结合了CNN分支特征与ViT分支特征的融合特征。
在步骤S4中,使用优化后的transformer架构加强特征内部之间的联系。将S3得到的特征送入transformer的自注意力模块。
S401、将步骤S3得到的融合特征再加上位置嵌入PE。
S402、使用transformer的自注意力模块来增强特征内部之间的联系,捕捉全局信息,模块的输出结果是通过输入结果两两运算得出权重之后再对输入进行加权求和得到的;
在步骤S5中,根据输出的特征计算交叉熵损失以及三元组损失,并根据损失持续优化模型
S501、该网络结构模型的损失函数包括交叉熵损失以及三元组损失。将每一个行人视作一个类别,用于分类的交叉熵函数LCE定义如下:
其中,y′i表示预测为第i类的概率,yi表示真实值,C的含义是总的类别,交叉熵损失使得预测值与真实值无限接近,除此之外还使用了三元组损失用以减少类内距离和增加类间距离,其定义如下:
最终损失Loss为三元组损失与交叉熵损失之和:
Loss=LCE+Ltri (12)
S502、网络模型的训练过程是一个通过减少损失不断优化迭代的过程,即训练一轮后,将本轮获得的损失反馈到模型当中,继续进行下一轮的训练,经过多次这样的反复迭代以降低损失,从而获取更具鲁棒性的特征。
本发明专利结合了卷积神经网络优化了Vision Transformer的网络结构,该网络具有以下优势:将CNN与ViT的优点结合起来。由于CNN具有平移不变性,而Transformer更注重整体,于是本发明设计了CNN与ViT双分支的网络结构,使图片提取的特征既有Transform的优点,又能吸收CNN的优点,这样既通过Transformer获取了tokens之间全局关系,又通过CNN获取了tokens的局部信息,最后融合了局部信息与全局信息,获得了具有鲁棒性的特征。同时这样有效解决了遮挡情况下的行人重识别问题,构建了一种新的有效应用于遮挡行人重识别的方法,为遮挡行人重识别在实际应用中提供了一种更为高效的框架。
本发明还提出一种用于遮挡行人重识别的结合卷积神经网络优化ViT的方法,包括:
构建网络框架,该网络由CNN及ViT两部分组成;
将给定行人图像输入到CNN网络中提取局部特征,同时将行人图像铺平为序列后输入到ViT网络提取全局特征信息;
融合经过线性投影的局部特征以及拉伸转置操作之后的全局特征;
使用优化后的transformer架构加强特征内部之间的联系,将上一步得到的特征送入transformer的自注意力模块;
最后根据输出的特征计算交叉熵损失以及三元组合损失,并根据损失持续优化模型。
本发明还提出一种计算机设备,包括存储器和处理器,所述存储器有存储计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (6)
1.一种用于遮挡行人重识别的结合卷积神经网络优化ViT的方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、构建网络框架,该网络由CNN及ViT两部分组成;
S2、在用CNN网络提取局部特征的同时也使用ViT网络提取全局特征信息;
S3、融合经过线性投影的局部特征以及拉伸转置操作之后的全局特征;
S4、使用优化后的transformer架构加强特征内部之间的联系,将S3得到的特征送入transformer的自注意力模块;
S5、最后根据输出的特征计算交叉熵损失以及三元组合损失,并根据损失持续优化模型。
2.如权利要求1所述的用于遮挡行人重识别的结合卷积神经网络优化ViT的方法,其特征在于,S1的具体实现过程如下:
S101、构建一个CNN与ViT并存的框架,由两个分支组成;
S102、将行人图像送入CNN分支,同时铺平送入ViT分支提取特征。
3.如权利要求1所述的用于遮挡行人重识别的结合卷积神经网络优化ViT的方法,其特征在于,S2的具体实现过程如下:
S201、ViT分支的特征提取部分采用传统的ViT结构,表达如下:
Y=[y1,y2,…,yi,…,yn],yi=Conv2d(Xi),1≤i≤n (1)
其中,Xi表示将图像分为n部分后的第i部分,yi代表第i部分的词嵌入,Conv2d代表一个卷积层,Y表示Xi通过卷积层之后的形成的yi的集合;
Y′=transpose(flatten(Y)) (2)
随后将Y先拉平再转置得到Y′,其中transpose表示矩阵转置操作,flatten表示矩阵铺平操作,Y′表示经过铺平转置操作之后的结果;
Ttrans=Y′⊕CT (3)
其中,CT表示分类用的一个token,⊕表示矩阵相加操作,Ttrans表示最终通过此分支得到的特征,即Y′与CT的和;
S202、同时将行人图像输入到CNN中提取局部特征;
X′=CNNtokensblock(X),X∈RB,C,H,W,X′∈RB,C′,H′,W′ (4)
其中X表示行人图像,R表示图像的维度,B指行人图像的批次,即每一次输入图像的数量,C表示图像的通道数,H表示图像的高度,W表示图像的宽度,CNNtokensblock表示卷积神经网络优化模块,X′表示经过CNNtokensblock处理后的图像,B、C′、H′及W′分别表示处理后的批次,通道数,图像高度及图像宽度;
TCNN=FC(conv2(conv1(X′)))⊕CT (5)
其中,Tcnn表示经过卷积网络优化模块之后提取的局部特征,CT与上一分支相同,同样是一个分类用的token,conv1以及conv2分别是卷积神经网络层,FC表示全连接层。
4.如权利要求1所述的用于遮挡行人重识别的结合卷积神经网络优化ViT的方法,其特征在于,S3的具体实现过程如下:
S301、首先将步骤S2中两分支得到的特征融合,采用的是直接将两个特征相加的形式,
T=TCNN+Ttrans (6)
其中,T表示最终结合了CNN分支特征与ViT分支特征的融合特征。
5.如权利要求1所述的用于遮挡行人重识别的结合卷积神经网络优化ViT的方法,其特征在于,S4的具体实现过程如下:
S401、将步骤S3得到的融合特征再加上位置嵌入PE。
S402、使用transformer的自注意力模块来增强特征内部之间的联系,捕捉全局信息,模块的输出结果是通过输入结果两两运算得出权重之后再对输入进行加权求和得到的;
6.如权利要求1所述的用于遮挡行人重识别的结合卷积神经网络优化ViT的方法,其特征在于,S5的具体实现过程如下:
S501、该网络结构模型的损失函数包括交叉熵损失以及三元组损失。将每一个行人视作一个类别,用于分类的交叉熵函数LCE定义如下:
其中,y′i表示预测为第i类的概率,yi表示真实值,C的含义是总的类别,交叉熵损失使得预测值与真实值无限接近,除此之外还使用了三元组损失用以减少类内距离和增加类间距离,其定义如下:
最终损失Loss为三元组损失与交叉熵损失之和:
Loss=LCE+Ltri (12)
S502、网络模型的训练过程是一个通过减少损失不断优化迭代的过程,即训练一轮后,将本轮获得的损失反馈到模型当中,继续进行下一轮的训练,经过多次这样的反复迭代以降低损失,从而获取更具鲁棒性的特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211104302.4A CN115565048A (zh) | 2022-09-09 | 2022-09-09 | 用于遮挡行人重识别的结合卷积神经网络优化ViT的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211104302.4A CN115565048A (zh) | 2022-09-09 | 2022-09-09 | 用于遮挡行人重识别的结合卷积神经网络优化ViT的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115565048A true CN115565048A (zh) | 2023-01-03 |
Family
ID=84741529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211104302.4A Pending CN115565048A (zh) | 2022-09-09 | 2022-09-09 | 用于遮挡行人重识别的结合卷积神经网络优化ViT的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115565048A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117423132A (zh) * | 2023-10-26 | 2024-01-19 | 山东海润数聚科技有限公司 | 一种无监督行人重识别方法、设备及介质 |
-
2022
- 2022-09-09 CN CN202211104302.4A patent/CN115565048A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117423132A (zh) * | 2023-10-26 | 2024-01-19 | 山东海润数聚科技有限公司 | 一种无监督行人重识别方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111489358B (zh) | 一种基于深度学习的三维点云语义分割方法 | |
WO2024021394A1 (zh) | 全局特征与阶梯型局部特征融合的行人重识别方法及装置 | |
CN112766158B (zh) | 基于多任务级联式人脸遮挡表情识别方法 | |
US20220230282A1 (en) | Image processing method, image processing apparatus, electronic device and computer-readable storage medium | |
CN110569814B (zh) | 视频类别识别方法、装置、计算机设备及计算机存储介质 | |
CN108427921A (zh) | 一种基于卷积神经网络的人脸识别方法 | |
CN111898432A (zh) | 一种基于改进YOLOv3算法的行人检测系统及方法 | |
CN111860683B (zh) | 一种基于特征融合的目标检测方法 | |
Soni et al. | Hybrid meta-heuristic algorithm based deep neural network for face recognition | |
CN117746467B (zh) | 一种模态增强和补偿的跨模态行人重识别方法 | |
CN117197727B (zh) | 一种基于全局时空特征学习的行为检测方法与系统 | |
CN110569851A (zh) | 门控多层融合的实时语义分割方法 | |
US12056950B2 (en) | Transformer-based multi-scale pedestrian re-identification method | |
Wang et al. | TF-SOD: a novel transformer framework for salient object detection | |
Gangwar et al. | Deepirisnet2: Learning deep-iriscodes from scratch for segmentation-robust visible wavelength and near infrared iris recognition | |
CN114676776A (zh) | 一种基于Transformer的细粒度图像分类方法 | |
CN117218351A (zh) | 基于局部和全局上下文感知的三维点云语义分割方法 | |
CN116862949A (zh) | 基于对称交叉注意力和位置信息增强的Transformer目标跟踪方法及跟踪器 | |
CN115565048A (zh) | 用于遮挡行人重识别的结合卷积神经网络优化ViT的方法 | |
CN115965864A (zh) | 一种用于农作物病害识别的轻量级注意力机制网络 | |
CN114333062B (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
CN117557779A (zh) | 一种基于yolo的多尺度目标检测方法 | |
CN117649582B (zh) | 基于级联注意力的单流单阶段网络目标跟踪方法与系统 | |
CN115063833A (zh) | 一种基于图像分层视觉的机房人员检测方法 | |
CN110020688B (zh) | 基于深度学习的遮挡行人检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |