CN116580428A - 一种基于多尺度通道注意力机制的行人重识别方法 - Google Patents

一种基于多尺度通道注意力机制的行人重识别方法 Download PDF

Info

Publication number
CN116580428A
CN116580428A CN202310845111.1A CN202310845111A CN116580428A CN 116580428 A CN116580428 A CN 116580428A CN 202310845111 A CN202310845111 A CN 202310845111A CN 116580428 A CN116580428 A CN 116580428A
Authority
CN
China
Prior art keywords
pedestrian
representing
recognition
channel
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310845111.1A
Other languages
English (en)
Inventor
罗谦
党婉丽
邵杰
耿龙
潘野
曹利波
王朝
郑怀宇
牛杰
王江
张涛
刘劲超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Civil Aviation Electronic Technology Co ltd
Second Research Institute of CAAC
Original Assignee
Civil Aviation Electronic Technology Co ltd
Second Research Institute of CAAC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Civil Aviation Electronic Technology Co ltd, Second Research Institute of CAAC filed Critical Civil Aviation Electronic Technology Co ltd
Priority to CN202310845111.1A priority Critical patent/CN116580428A/zh
Publication of CN116580428A publication Critical patent/CN116580428A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于多尺度通道注意力机制的行人重识别方法,包括以下步骤:采集行人图像,并构建注意力层,利用注意力层获取行人图像的最终通道权重值;基于行人图像的最终通道权重值,利用注意力层构建行人重识别模型;采集行人重识别数据集,并利用行人重识别数据集对行人重识别模型进行训练;利用训练后的行人重识别模型进行行人重识别。本发明提出的基于多尺度注意力机制的行人重识别方法在一定程度上,解决了现实场景中行人被遮挡和行人外观相似等问题,同时提升了在行人重识别方面的准确率。

Description

一种基于多尺度通道注意力机制的行人重识别方法
技术领域
本发明涉及行人识别技术领域,具体而言,涉及一种基于多尺度通道注意力机制的行人重识别方法。
背景技术
行人重识别技术通过对与视频监控场景中的行人进行监测,对于特定行人进行寻找。但在现实场景中,行人重识别任务仍面临着行人被遮挡、外观相似和背景干扰等挑战。现已有部分方案解决这些挑战。
(1)基于手工提取特征的行人重识别方法,利用手工提取特征与目标行人特征进行相似度度量以确定是否为要寻找的行人。
(2)基于深度学习的行人重识别方法,通过建立分层模型结构从大量样本数据中自动提取由低层到高层特征。
(3)基于注意力机制的行人重识别方法,通过嵌入注意机制来关注行人区域的特征。
在上述三种主流解决方案中,主要存在以下不足:
(1)第一种方案依赖手工设计特征提取算子来挖掘行人的视觉特征,但单纯的手工特征提取方法不具有适用性。在数据量足够大的情况下,其效率低下,并且精度无法满足要求。
(2)第二种方案使得模型的复杂度较高和计算耗费较大,同时仍存在无法有效提取判别性特征导致模型泛化能力较弱和适用性不强的问题。
(3)第三种方案一般都是通过局部卷积来学习注意力,而忽略了从全局结构上进行信息挖掘,并且没有利用不同尺度上的特征信息。
上述三种方案在一定程度上均可以实现对行人的重新识别,但是在精度上还达不到现实场景中的要求。
发明内容
本发明的目的在于提供一种基于多尺度通道注意力机制的行人重识别方法。
本发明的实施例通过以下技术方案实现:
一种基于多尺度通道注意力机制的行人重识别方法包括以下步骤:
采集行人图像,并构建注意力层,利用注意力层获取行人图像的最终通道权重值;
基于行人图像的最终通道权重值,利用注意力层构建行人重识别模型;
采集行人重识别数据集,并利用行人重识别数据集对行人重识别模型进行训练;
利用训练后的行人重识别模型进行行人重识别。
本发明实施例的技术方案至少具有如下优点和有益效果:
(1)本发明的多尺度通道注意力层是一种轻量级的网络结构,具有高效性和普遍适用性,可以即插即用,使用较少的参数关注行人区域特征,在不增加模型复杂度的情况下提升了模型性能;
(2)本发明通过将多尺度通道注意力层嵌入到网络的不同尺度中,能够使网络有效关注到行人的判别性特征,增强了特征提取网络的鲁棒性;
(3)本发明提出的基于多尺度注意力机制的行人重识别方法在一定程度上,解决了现实场景中行人被遮挡和行人外观相似等问题,同时提升了在行人重识别方面的准确率。
进一步地,利用注意力层获取行人图像的最终通道权重值,包括以下步骤:
提取行人图像的中间特征,并提取中间特征对应的最大池化特征和平均池化特征;
分别对最大池化特征和平均池化特征进行一维卷积操作,生成最大池化权重和平均池化权重;
连接最大池化权重和平均池化权重,生成初步通道权重;
对初步通道权重进行卷积操作,并利用ReLU激活函数对进行卷积操作后的初步通道权重进行激活操作,生成最终通道权重值。
进一步地,最大池化特征的计算公式为:
式中,表示对行人图像进行最大池化操作,/>表示特征图的长,/>表示特征图的宽,/>表示中间特征,/>表示中间特征/>第/>行第/>列的特征值;
平均池化特征的计算公式为:
式中,表示对行人图像进行平均池化操作。
进一步地,最大池化权重的计算公式为:
式中,表示大小为/>的一维卷积操作,/>表示对行人图像特征进行最大池化操作,/>表示中间特征,/>表示最大池化特征;
平均池化权重的计算公式为:
式中,表示对行人图像特征进行平均池化操作,/>表示平均池化特征。
进一步地,初步通道权重的计算公式为:
式中,表示两个张量沿着第/>维连接操作,/>表示最大池化通道权重,/>表示平均池化通道权重。
进一步地,最终通道权重值的计算公式为:
式中,表示ReLU激活函数,/>表示对进行卷积操作后的初步通道权重,/>表示/>大小的卷积操作,/>表示初步通道权重。
进一步地,基于行人图像的最终通道权重值,利用注意力层构建行人重识别模型,包括以下步骤:
将中间特征与最终通道权重值相乘,生成注意力特征;
将注意力层嵌入到ResNet-50网络的各卷积层中,得到行人重识别模型,并将注意力特征与中间特征相加,作为行人重识别模型的输出特征。
进一步地,注意力特征的计算公式为:
式中,表示中间特征,/>表示最终通道权重值,/>表示克罗内克积运算;
输出特征的计算公式为:
进一步地,利用行人重识别数据集对行人重识别模型进行训练的具体方法为:利用联合损失函数对行人重识别模型进行训练。
进一步地,联合损失函数的表达式为:
式中,表示交叉熵损失函数,/>表示三元组损失函数,/>表示中心损失函数,表示中心损失函数的权重值。
附图说明
图1为本发明实施例提供的基于多尺度通道注意力机制的行人重识别方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
本发明提供了一种基于多尺度通道注意力机制的行人重识别方法,如图1所示,包括以下步骤:
采集行人图像,并构建注意力层,利用注意力层获取行人图像的最终通道权重值;
基于行人图像的最终通道权重值,利用注意力层构建行人重识别模型;
采集行人重识别数据集,并利用行人重识别数据集对行人重识别模型进行训练;
利用训练后的行人重识别模型进行行人重识别。
本发明涉及如何通过有效的多尺度通道注意力机制使行人重识别更加准确,从而提升行人重识别系统的寻人效率。具体涉及到在行人重识别任务中,通过在行人重识别模型的主干网络中嵌入多尺度通道注意力机制以解决行人被遮挡和行人外观相似等问题,最终实现一种更加高效准确的行人重识别方法。
在本发明实施例中,行人重识别任务的关注目标是专注于与人物特征相关的特征,所以需要对与人物相关的特征进行增强。提出一种多尺度通道注意力方法,由局部跨通道交互模块和通道权重整合模块组成。构建局部跨通道交互模块来执行局部跨通道操作以聚合局部通道信息,并且同使用平均池化特征和最大池化特征。
利用注意力层获取行人图像的最终通道权重值,包括以下步骤:
提取行人图像的中间特征,并提取中间特征对应的最大池化特征和平均池化特征;
分别对最大池化特征和平均池化特征进行一维卷积操作,生成最大池化权重和平均池化权重;
连接最大池化权重和平均池化权重,生成初步通道权重;
对初步通道权重进行卷积操作,并利用ReLU激活函数对进行卷积操作后的初步通道权重进行激活操作,生成最终通道权重值。
在本发明实施例中,最大池化特征的计算公式为:
式中,表示对行人图像进行最大池化操作,/>表示特征图的长,/>表示特征图的宽,/>表示中间特征,/>表示中间特征/>第/>行第/>列的特征值;/>
平均池化特征的计算公式为:
式中,表示对行人图像进行平均池化操作。
在本发明实施例中,最大池化权重的计算公式为:
式中,表示大小为/>的一维卷积操作,/>表示对行人图像特征进行最大池化操作,/>表示中间特征,/>表示最大池化特征;/>;通过一维卷机适当地捕获本地跨通道交互来保证效率和有效性。
平均池化权重的计算公式为:
式中,表示对行人图像进行平均池化操作,/>表示平均池化特征,
在本发明实施例中,为了有效利用和/>中的权重信息,构建通道权重整合模块,它从两个通道权重中提取出语义信息更全面和更具判别性的通道权重。通过连接最大池化通道权重/>和平均池化通道权重/>得到连接后的通道权重,初步通道权重/>的计算公式为:
式中,表示两个张量沿着第/>维连接操作,/>表示最大池化通道权重,/>表示平均池化通道权重,/>
在本发明实施例中,为了整合出更具判别性的通道权重,将连接后的通道权重经过/>大小的卷积层得到/>,再经过ReLU激活函数,以提取更加丰富的通道权重/>,最终通道权重值/>的计算公式为:
式中,表示ReLU激活函数,/>表示对进行卷积操作后的初步通道权重,/>表示/>大小的卷积操作,/>表示初步通道权重。
在本发明实施例中,根据多尺度通道注意力机制捕获了通道的注意力权重,将其嵌入到行人重识别的网络模型之中,使模型能够关注到更具判别性的行人特征。模型采用ResNet-50为模型的主干网络,将注意力机制嵌入到网络的不同层中,输入中间层特征到注意力机制,在注意力机制捕获通道权重/>之后,使其与输入特征相乘以获得注意力特征,在获取注意力特征/>后,使用残差连接,即使注意力特征/>与输入特征/>进行相加得到更具判别性的输出特征/>。残差连接是为了在任何预训练模型中插入一个新块,而不会破坏其初始性能。
基于行人图像的最终通道权重值,利用注意力层构建行人重识别模型,包括以下步骤:
将中间特征与最终通道权重值相乘,生成注意力特征;
将注意力层嵌入到ResNet-50网络的各卷积层中,得到行人重识别模型,并将注意力特征与中间特征相加,作为行人重识别模型的输出特征。
在本发明实施例中,注意力特征的计算公式为:
式中,表示中间特征,/>表示最终通道权重值,/>表示克罗内克积运算;
输出特征的计算公式为:
在本发明实施例中,利用行人重识别数据集对行人重识别模型进行训练的具体方法为:利用联合损失函数对行人重识别模型进行训练。
在本发明实施例中,获取公开的行人重识别数据集包括Market1501、DukeMTMC-ReID、CUHK03和MSMT7等,然后数据进行相应的预处理(如:旋转和裁剪等)。联合损失函数的表达式为:
式中,表示交叉熵损失函数,/>表示三元组损失函数,/>表示中心损失函数,表示中心损失函数的权重值。
在行人重识别数据集的测试集上进行测试,根据训练出来的网络模型,提取出行人的特征信息;根据所提取的特征,利用相似度进行描述,把特征相似度高的视作同一身份的行人。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多尺度通道注意力机制的行人重识别方法,其特征在于,包括以下步骤:
采集行人图像,并构建注意力层,利用注意力层获取行人图像的最终通道权重值;
基于行人图像的最终通道权重值,利用注意力层构建行人重识别模型;
采集行人重识别数据集,并利用行人重识别数据集对行人重识别模型进行训练;
利用训练后的行人重识别模型进行行人重识别。
2.根据权利要求1所述的基于多尺度通道注意力机制的行人重识别方法,其特征在于:所述利用注意力层获取行人图像的最终通道权重值,包括以下步骤:
提取行人图像的中间特征,并提取中间特征对应的最大池化特征和平均池化特征;
分别对最大池化特征和平均池化特征进行一维卷积操作,生成最大池化权重和平均池化权重;
连接最大池化权重和平均池化权重,生成初步通道权重;
对初步通道权重进行卷积操作,并利用ReLU激活函数对进行卷积操作后的初步通道权重进行激活操作,生成最终通道权重值。
3.根据权利要求2所述的基于多尺度通道注意力机制的行人重识别方法,其特征在于:所述最大池化特征的计算公式为:
式中,表示对行人图像进行最大池化操作,/>表示特征图的长,/>表示特征图的宽,/>表示中间特征,/>表示中间特征/>第/>行第/>列的特征值;
所述平均池化特征的计算公式为:
式中,表示对行人图像进行平均池化操作。
4.根据权利要求2所述的基于多尺度通道注意力机制的行人重识别方法,其特征在于:所述最大池化权重的计算公式为:
式中,表示大小为/>的一维卷积操作,/>表示对行人图像特征进行最大池化操作,/>表示中间特征,/>表示最大池化特征;
所述平均池化权重的计算公式为:
式中,表示对行人图像进行平均池化操作,/>表示平均池化特征。
5.根据权利要求2所述的基于多尺度通道注意力机制的行人重识别方法,其特征在于:所述初步通道权重的计算公式为:
式中,表示两个张量沿着第/>维连接操作,/>表示最大池化通道权重,表示平均池化通道权重。
6.根据权利要求2所述的基于多尺度通道注意力机制的行人重识别方法,其特征在于:所述最终通道权重值的计算公式为:
式中,表示ReLU激活函数,/>表示对进行卷积操作后的初步通道权重,表示/>大小的卷积操作,/>表示初步通道权重。
7.根据权利要求2所述的基于多尺度通道注意力机制的行人重识别方法,其特征在于:所述基于行人图像的最终通道权重值,利用注意力层构建行人重识别模型,包括以下步骤:
将中间特征与最终通道权重值相乘,生成注意力特征;
将注意力层嵌入到ResNet-50网络的各卷积层中,得到行人重识别模型,并将注意力特征与中间特征相加,作为行人重识别模型的输出特征。
8.根据权利要求7所述的基于多尺度通道注意力机制的行人重识别方法,其特征在于:所述注意力特征的计算公式为:
式中,表示中间特征,/>表示最终通道权重值,/>表示克罗内克积运算;
所述输出特征的计算公式为:
9.根据权利要求1所述的基于多尺度通道注意力机制的行人重识别方法,其特征在于:所述利用行人重识别数据集对行人重识别模型进行训练的具体方法为:利用联合损失函数对行人重识别模型进行训练。
10.根据权利要求9所述的基于多尺度通道注意力机制的行人重识别方法,其特征在于:所述联合损失函数的表达式为:
式中,表示交叉熵损失函数,/>表示三元组损失函数,/>表示中心损失函数,/>表示中心损失函数的权重值。
CN202310845111.1A 2023-07-11 2023-07-11 一种基于多尺度通道注意力机制的行人重识别方法 Pending CN116580428A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310845111.1A CN116580428A (zh) 2023-07-11 2023-07-11 一种基于多尺度通道注意力机制的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310845111.1A CN116580428A (zh) 2023-07-11 2023-07-11 一种基于多尺度通道注意力机制的行人重识别方法

Publications (1)

Publication Number Publication Date
CN116580428A true CN116580428A (zh) 2023-08-11

Family

ID=87545637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310845111.1A Pending CN116580428A (zh) 2023-07-11 2023-07-11 一种基于多尺度通道注意力机制的行人重识别方法

Country Status (1)

Country Link
CN (1) CN116580428A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392740A (zh) * 2021-06-03 2021-09-14 吉林大学 一种基于双重注意力机制的行人重识别系统
CN114255474A (zh) * 2020-09-25 2022-03-29 上海舜瞳科技有限公司 一种基于多尺度、多粒度行人重识别方法
CN115100678A (zh) * 2022-06-10 2022-09-23 河南大学 基于通道重组和注意力机制的跨模态行人重识别方法
CN115830531A (zh) * 2022-11-24 2023-03-21 沈阳化工大学 一种基于残差多通道注意力多特征融合的行人重识别方法
WO2023044962A1 (zh) * 2021-09-24 2023-03-30 武汉大学 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置
CN116092127A (zh) * 2023-02-27 2023-05-09 重庆大学 基于并联式特征融合网络人体动作识别的行人重识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114255474A (zh) * 2020-09-25 2022-03-29 上海舜瞳科技有限公司 一种基于多尺度、多粒度行人重识别方法
CN113392740A (zh) * 2021-06-03 2021-09-14 吉林大学 一种基于双重注意力机制的行人重识别系统
WO2023044962A1 (zh) * 2021-09-24 2023-03-30 武汉大学 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置
CN115100678A (zh) * 2022-06-10 2022-09-23 河南大学 基于通道重组和注意力机制的跨模态行人重识别方法
CN115830531A (zh) * 2022-11-24 2023-03-21 沈阳化工大学 一种基于残差多通道注意力多特征融合的行人重识别方法
CN116092127A (zh) * 2023-02-27 2023-05-09 重庆大学 基于并联式特征融合网络人体动作识别的行人重识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAO MA等: "A double stream person re-identification method based on attention mechanism and multi-scale feature fusion", 《IEEE ACCESS》, vol. 11, pages 14612 - 14620 *
岳泓光: "基于多通道自注意力网络的遥感图像场景分类", 《 四川大学学报(自然科学版) 》, vol. 60, no. 02, pages 97 - 105 *
王粉花: "基于多尺度和注意力融合学习的行人重识别", 《电子与信息学报 》, vol. 42, no. 12, pages 3045 - 3052 *

Similar Documents

Publication Publication Date Title
Luo et al. Traffic sign recognition using a multi-task convolutional neural network
Silva et al. An extended center-symmetric local binary pattern for background modeling and subtraction in videos
CN112541501B (zh) 一种基于视觉语言建模网络的场景文字识别方法
CN112907598B (zh) 一种基于注意力cnn文档证件类图像篡改检测方法
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN110598543B (zh) 基于属性挖掘和推理的模型训练方法及行人再识别方法
CN109410184B (zh) 基于稠密对抗网络半监督学习的直播色情图像检测方法
CN109145745B (zh) 一种遮挡情况下的人脸识别方法
CN103984738A (zh) 一种基于搜索匹配的角色标注方法
Chang et al. Changes to captions: An attentive network for remote sensing change captioning
CN112017192A (zh) 基于改进U-Net网络的腺体细胞图像分割方法及系统
CN109033321B (zh) 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
Wu et al. An end-to-end heterogeneous restraint network for RGB-D cross-modal person re-identification
CN114842524A (zh) 一种基于不规则显著性像素簇的人脸鉴伪方法
CN115563196A (zh) 一种基于多源数据增强对象信息价值的方法及系统
CN108182375B (zh) 一种基于手机支付的指纹识别系统
CN116152494A (zh) 基于两阶段3d点云语义分割的建筑物脚点识别分割方法
CN112085680B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN109886251A (zh) 一种基于姿势引导对抗学习的端到端的行人再识别方法
CN113449676A (zh) 一种基于双路互促进解纠缠学习的行人重识别方法
CN117853725A (zh) 一种木料区域分割方法、系统及存储介质
CN116580428A (zh) 一种基于多尺度通道注意力机制的行人重识别方法
CN114972857B (zh) 双分支源与目标定位复制移动检测网络系统及方法
CN111104892A (zh) 基于目标检测的人脸篡改鉴定方法、模型及其鉴定方法
CN113128461B (zh) 基于人体关键点挖掘全尺度特征的行人重识别性能提升方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230811