CN113158815A - 一种无监督行人重识别方法、系统及计算机可读介质 - Google Patents

一种无监督行人重识别方法、系统及计算机可读介质 Download PDF

Info

Publication number
CN113158815A
CN113158815A CN202110329192.0A CN202110329192A CN113158815A CN 113158815 A CN113158815 A CN 113158815A CN 202110329192 A CN202110329192 A CN 202110329192A CN 113158815 A CN113158815 A CN 113158815A
Authority
CN
China
Prior art keywords
pedestrian
global
scale
features
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110329192.0A
Other languages
English (en)
Other versions
CN113158815B (zh
Inventor
范佳媛
李薇
付彦伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202110329192.0A priority Critical patent/CN113158815B/zh
Publication of CN113158815A publication Critical patent/CN113158815A/zh
Application granted granted Critical
Publication of CN113158815B publication Critical patent/CN113158815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种无监督行人重识别方法、系统及计算机可读介质,其中无监督行人重识别方法包括:步骤1:基于多尺度卷积神经网络,使用全局特征提取模块和多尺度特征动态融合模块提取图像中的多尺度全局特征;步骤2:基于自注意深度神经网络,使用多注意机制的空间变换网络学习多尺度局部特征,并利用多尺度动态融合模块提取图像中的聚合局部特征;步骤3:构建无监督全局损失函数和局部损失函数;步骤4:训练深度神经网络模型;步骤5:使用训练好的深度神经网络模型,对于一个要识别的行人图像,将其输入到深度神经网络模型,得到预测的其他摄像头下的该行人图像。与现有技术相比,本发明具有识别精度高、算力需求低、计算速度快等优点。

Description

一种无监督行人重识别方法、系统及计算机可读介质
技术领域
本发明涉及计算机图像分析技术领域,尤其是涉及一种全尺度全局和局部特征动态融合的无监督行人重识别方法、系统及计算机可读介质。
背景技术
行人重识别是一个在不重叠的摄像头之间检测与识别各个行人的任务,在智能安防、无人超市等众多领域已得到广泛应用。随着大数据时代的到来,大量的未知样本给有监督行人重识别带来巨大的标注成本和算力需求,如何使用尽可能少的标签数据达到与有监督行人重识别相同的识别效果,已经成为现有技术的突破难点。因此,无监督和半监督学习已经成为行人重识别中一个备受关注的问题。
在行人重识别过程中,人脑会根据行人的整体特征(身材、肤色等)和局部特征(衣着、配饰、发型等)来识别行人,并且会联合图像中行人所处的空间信息以及不同感受野的语义信息进行识别。即使近年来无监督和半监督行人重识别高速发展,无监督行人重识别仍存在精度差和多尺度全局-局部特征利用少的缺点。
文献《Cross-dataset person reidentification via unsupervised posedisentanglement and adaptation》中提出了一种可以学习行人全局特征和局部特征的无监督行人重识别方法,并且能达到自主学习局部特征的效果。然而该方法没有考虑到不同感受野特征的表征能力,且其局部特征之间存在一定程度的重叠从而降低了各个局部特征的表征效果。
文献《Unsupervised person re-identification:Clustering and fine-tuning》中提出了一种无监督行人重识别方法,通过挖掘无标签图像之间的关系并作为约束条件,使相似的图像有更相近的表征,但算力需求严苛,计算速度慢。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种识别精度高、算力需求低、计算速度快的无监督行人重识别方法、系统及计算机可读介质。
本发明的目的可以通过以下技术方案来实现:
一种无监督行人重识别方法,所述的行人重识别方法包括:
步骤1:基于多尺度卷积神经网络,使用全局特征提取模块和多尺度特征动态融合模块提取图像中的多尺度全局特征;
步骤2:基于自注意深度神经网络,使用自注意机制的空间变换网络学习多尺度局部特征,并利用多尺度动态融合模块提取图像中的聚合局部特征;
步骤3:构建无监督全局损失函数和局部损失函数;
步骤4:训练深度神经网络模型;
步骤5:使用训练好的深度神经网络模型,对于一个要识别的行人图像,将其输入到深度神经网络模型,得到其预测的其他摄像头下的该行人图像。
优选地,所述的步骤1具体为:
去除OS-NET框架结构中最后一层多尺度特征融合模块,并将OS-NET框架内其他的多尺度特征融合模块更改为多尺度特征融合模块;使用修改后的框架结构提取图像中的多尺度全局特征。
更加优选地,所述的使用修改后框架结构提取图像中多尺度全局特征的过程具体为:
Figure BDA0002995764590000021
Figure BDA0002995764590000022
Figure BDA0002995764590000023
Figure BDA0002995764590000024
Figure BDA0002995764590000025
其中,xi为单个图像中第i个尺度的全局特征;Wi c大小为C×1×1;σ表示sigmoid函数;
Figure BDA0002995764590000026
Figure BDA0002995764590000027
表示通道上的全局平均池化和全局最大池化;F表示有一个隐藏层的多层感知机;Wi s大小为1×H×W;
Figure BDA0002995764590000028
Figure BDA0002995764590000029
表示空间上的全局平均池化和全局最大池化;f7×7表示一个核为7的卷积神经网络,以提取更具有表征能力的M个多尺度全局特征。
优选地,所述的步骤2具体为:
利用含有通道注意力和空间注意力的空间变换网络,对单个图像的任意尺度特征提取P个相对独立的局部特征;对于任意尺度的第p个特征,共M个多尺度局部特征,采用多尺度动态融合模块将其动态融合,最终生成P个聚合局部特征;
所述的聚合局部特征的提取过程具体为:
Figure BDA0002995764590000031
Figure BDA0002995764590000032
Figure BDA0002995764590000033
Figure BDA0002995764590000034
Figure BDA0002995764590000035
其中,xi为单个图像中第i个尺度的第p个局部特征;Wi c大小为C×1×1;σ表示sigmoid函数;
Figure BDA0002995764590000036
Figure BDA0002995764590000037
表示通道上的全局平均池化和全局最大池化;F表示有一个隐藏层的多层感知机;Wi s大小为1×H×W;
Figure BDA0002995764590000038
Figure BDA0002995764590000039
表示空间上的全局平均池化和全局最大池化;f7×7表示一个核为7的卷积神经网络。
优选地,所述的步骤3具体为:
采用无监督自适应的方法,使用全局特征和局部特征分别构造损失函数;
在有标签的源域数据集上,使用焦点损失作为全局特征的目标函数,使用三重损失作为局部特征的目标函数;
在无标签的目标域上,使用内存银行储存局部特征并构造局部特征的目标函数,生成正样本并采用重排序的方法挖掘负样本构造全局特征的目标函数。
更加优选地,所述的目标域的目标函数具体为:
Figure BDA00029957645900000310
Figure BDA00029957645900000311
Figure BDA00029957645900000312
Figure BDA00029957645900000313
其中,
Figure BDA00029957645900000314
代表
Figure BDA00029957645900000315
随着迭代次数的更新;
Figure BDA00029957645900000316
Figure BDA00029957645900000317
分别代表每批图像中第j个图像的第p个聚合局部特征,其中
Figure BDA00029957645900000318
不根据迭代次数更新;
Figure BDA00029957645900000319
为局部损失函数,
Figure BDA00029957645900000320
表示在该批次中的
Figure BDA0002995764590000041
中距离
Figure BDA0002995764590000042
最近的k个局部特征,通过对比Fi p
Figure BDA0002995764590000043
的l2范数距离可得,
Figure BDA0002995764590000044
表示该批次中所有图像第p个聚合局部特征;
Figure BDA0002995764590000045
为全局损失函数,ni为通过重排序方法得到的最难负样本,pi为通过旋转、裁切等样本生成方法生成的正样本。
优选地,所述的步骤4具体为:
利用反向传播算法优化深度神经网络模型中的参数,完成深度神经网络模型的训练。
一种行人重识别系统,所述的行人重识别系统包括依次相连的媒体数据获取模块、计算设备和展示设备;
媒体数据获取模块,用于采集行人图像;
计算设备,用于处理媒体数据获取模块采集的行人图像数据,获得行人重识别结果;
展示设备,用于显示计算设备输出的行人重识别结果。
优选地,所述的计算设备包括处理器和内存;
所述的内存内存储有可执行代码,所述的可执行代码包括:
全局特征提取模块,用于从行人重识别数据中提取全局信息,即从行人重识别数据集中提取行人整体相关的信息;
局部特征提取模块,用于从全局特征提取模块得到的全局特征中提取局部信息,即从行人重识别数据中提取行人细粒度信息;
多尺度特征动态融合模块,用于整合全局特征提取模块和局部特征提取模块中的多尺度全局特征与局部特征,并通过融合特征识别当前行人与给定行人是否相似。
一种计算机可读介质,所述的计算机可读介质内存储有如上述任一项所述的无监督行人重识别方法。
与现有技术相比,本发明具有以下有益效果:
一、有效消除多尺度特征的重复性和矛盾性,识别精度高:本发明中的无监督行人重识别方法中全局特征的模块可以学习包含细粒度信息和空间信息的多尺度全局特征,并且通过动态融合模块可以更有效地消除多尺度特征的重复性和矛盾性;提取局部特征的模块可以通过注意力机制生成独立且表征能力强的局部特征,动态聚合机制可以动态融合多尺度局部特征,提高识别精度;
模型在MSMT模型上预训练,采用公开数据集Market-1501和DukeMCMT-reID数据集中的训练数据训练,测试数据进行测试,测试结果为在Market-1501数据集中rank-1和mAP精度可达到80.5%以及51.2%,在DukeMTMC-reID数据集中rank-1和mAP精度可达到76.4%以及57.8%。
二、算力需求低,计算速度快:本发明中的无监督行人重识别方法采用动态融合机制可以动态融合多尺度局部特征,在减少算力的同时提升精度。
附图说明
图1为本发明中无监督行人重识别方法的流程示意图;
图2为本发明中无监督行人重识别方法的算法结构示意图;
图3为本发明中多尺度特征动态融合模块的结构示意图;
图4为本发明中注意块生成网络的结构示意图;
图5为本发明中行人重识别系统的结构示意图。
图中标号所示:
1、媒体数据获取模块,2、计算设备,3、展示设备,21、处理器,22、内存,221、全局特征提取模块,222、局部特征提取模块,223、多尺度特征动态融合模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
本发明设计了一种多尺度全局-局部特征动态融合的深度网络模型来学习图像中的多尺度全局和局部特征,并通过一种新颖的动态多尺度融合模块融合多尺度特征得到更完善的全局特征和局部特征。在训练这个模型时,本发明采用了注意力机制来自主学习局部特征,从而使学到的局部特征相对独立并有较强的表征能力。本发明的技术方案具体介绍如下:
一种无监督行人重识别方法,其流程如图1所示,包括:
步骤1:基于多尺度卷积神经网络,使用全局特征提取模块和多尺度特征动态融合模块提取图像中的多尺度全局特征,具体为:
基于OS-Net模型设计了一个可以产生多尺度全局特征的主干模型,具体而言,首先去掉OS-Net最后的全连层和平均池化层,去掉最后一个模块的多尺度特征融合模块使其生成多尺度的全局特征,除此之外,为了使其更具有表征能力,将主干模型中的其他多尺度融合模块更改为多尺度特征动态融合模块,用xi表示单个图像中第i个尺度的全局特征,多尺度融合模块的结构如图2、图3和图4所示,首先采用SE-MG模块获得图像特征不同通道的注意力权重:
Figure BDA0002995764590000061
其中,σ表示Sigmoid函数,
Figure BDA0002995764590000062
Figure BDA0002995764590000063
表示通道上的全局平均池化和全局最大池化,F表示有一个隐藏层的多层感知机。随后多尺度特征变为
Figure BDA0002995764590000064
然后采用SP-MG模块获得图像特征不同空间的注意力权重:
Figure BDA0002995764590000065
其中,
Figure BDA0002995764590000066
Figure BDA0002995764590000067
表示空间上的全局平均池化和全局最大池化,f7×7表示一个核为7的卷积神经网络;
最后为了消除多尺度特征之间的重复性和冲突性,对权重归一化:
Figure BDA0002995764590000068
最终融合后的输出特征为:
Figure BDA0002995764590000069
其中,xi为单个图像中第i个尺度的全局特征;Wi c大小为C×1×1;σ表示sigmoid函数;
Figure BDA00029957645900000610
Figure BDA00029957645900000611
表示通道上的全局平均池化和全局最大池化;F表示有一个隐藏层的多层感知机;Wi s大小为1×H×W;
Figure BDA00029957645900000612
Figure BDA00029957645900000613
表示空间上的全局平均池化和全局最大池化;f7×7表示一个核为7的卷积神经网络,以提取更具有表征能力的M个多尺度全局特征。
步骤2:基于自注意深度神经网络,使用多注意机制的空间变换网络学习多尺度局部特征,并利用多尺度动态融合模块提取图像中的聚合局部特征;
通过设计一个由通道注意权重、空间注意权重加权自注意提取多尺度局部特征,使局部特征表征能力更强的同时增加其相对独立性。具体而言,提出了一个基于空间变换网络的注意块生成网络,通过将空间变换网络中的核为7的卷积定位网络改变为一个通道和空间注意力机制和两个全连层来注意生成相对独立的局部特征。然后采用多尺度特征动态融合模块学习多尺度聚合局部特征,此时xi表示单个图像中第i个尺度的第p个局部特征,最终一共产生P个聚合局部特征;
步骤3:构建损失函数;
首先级联局部特征组成全局特征,然后采用无监督域适应方法学习多尺度全局特征与局部特征。在有标签的源域数据集上,使用焦点损失(Focal loss)作为全局特征的目标函数、三重损失(Triple loss)作为局部特征的目标函数。在无标签的目标域上,将每批图像中第i个图像的第p个聚合局部特征Fi p与该批次中其他图像的第p个聚合局部特征进行比较,使用记忆银行(Memory Bank)来储存上述局部特征
Figure BDA0002995764590000071
其中N代表一批图像中含有的图像总数,记忆银行随着迭代次数的更新方式如下所示:
Figure BDA0002995764590000072
通过对比Fi p
Figure BDA0002995764590000073
的l2范数距离可以得到距离Fi p最近的k个局部特征
Figure BDA0002995764590000074
构建局部特征的目标函数如下所示:
Figure BDA0002995764590000075
然后通过重排序(re-ranking)方法得到最难负样本ni和生成正样本pi的方法,构建全局特征的目标函数
Figure BDA0002995764590000076
整个网络的目标函数为:
Figure BDA0002995764590000077
这个目标函数可以有效地表示模型的预测能力和实际结果的差距。
步骤4:训练深度神经网络模型;
采用SGD优化器对网络进行训练,初始学习率lr=0.0001,每50轮衰减0.1。网络一共训练大约60轮直至收敛。
步骤5:使用训练好的深度神经网络模型,对于一个要识别的行人图像,将其输入到深度神经网络模型,得到其预测的其他摄像头下的该行人图像。
本实施例中的上述模型在MSMT模型上预训练,采用公开数据集Market-1501和DukeMCMT-reID数据集中的训练数据训练,测试数据进行测试,测试结果为在Market-1501数据集中rank-1和mAP精度可达到80.5%以及51.2%,在DukeMTMC-reID数据集中rank-1和mAP精度可达到76.4%以及57.8%。
本实施例还涉及一种行人重识别系统,其结构如图5所示,包括依次相连的媒体数据获取模块1、计算设备2和展示设备3。
媒体数据获取模块1,用于采集行人图像,可以从电视节目或者安防摄像头等设备中采集;
计算设备2,用于处理媒体数据获取模块采集的行人图像数据,获得行人重识别结果;
展示设备3,用于显示计算设备2输出的行人重识别结果,可以是电脑、电视或者移动设备。
其中,计算设备2包括处理器21和内存22,处理器21是一个用于计算设备2的硬件处理器,如中央处理器CPU,图形计算处理器(Graphical Process Unit);内存22是一个易失的存储设备,用于储存计算机代码用于处理器21的计算过程,同时,内存22也会存储各类中间数据、及参数。
内存22内存储有可执行代码、行人重识别数据集以及相关数据,其中可执行代码包括一至多个软件模块,用于执行处理器21的计算,具体为:
全局特征提取模块221,用于从行人重识别数据中提取全局信息,即从行人重识别数据集中提取行人整体相关的信息;
局部特征提取模块222,用于从全局特征提取模块221得到的全局特征中提取局部信息,即从行人重识别数据中提取行人细粒度信息;
多尺度特征动态融合模块223,用于整合全局特征提取模块221和局部特征提取模块222中的多尺度全局特征与局部特征,并通过融合特征识别当前行人与给定行人是否相似。
本实施例还涉及一种计算机可读介质,该计算机可读介质内存储有上述任一项无监督行人重识别方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种无监督行人重识别方法,其特征在于,所述的行人重识别方法包括:
步骤1:基于多尺度卷积神经网络,使用全局特征提取模块和多尺度特征动态融合模块提取图像中的多尺度全局特征;
步骤2:基于自注意深度神经网络,使用多注意机制的空间变换网络学习多尺度局部特征,并利用多尺度动态融合模块提取图像中的聚合局部特征;
步骤3:构建无监督全局损失函数和局部损失函数;
步骤4:训练深度神经网络模型;
步骤5:使用训练好的深度神经网络模型,对于一个要识别的行人图像,将其输入到深度神经网络模型,得到其预测的其他摄像头下的该行人图像。
2.根据权利要求1所述的一种无监督行人重识别方法,其特征在于,所述的步骤1具体为:
去除OS-NET框架结构中最后一层多尺度特征融合模块,并将OS-NET框架内其他的多尺度特征融合模块更改为多尺度特征融合模块,使用修改后的框架结构提取图像中的多尺度全局特征。
3.根据权利要求2所述的一种无监督行人重识别方法,其特征在于,所述的使用修改后框架结构提取图像中多尺度全局特征的过程具体为:
Figure FDA0002995764580000011
Figure FDA0002995764580000012
Figure FDA0002995764580000013
Figure FDA0002995764580000014
Figure FDA0002995764580000015
其中,xi为单个图像中第i个尺度的全局特征;Wi c大小为C×1×1;σ表示sigmoid函数;
Figure FDA0002995764580000016
Figure FDA0002995764580000017
表示通道上的全局平均池化和全局最大池化;F表示有一个隐藏层的多层感知机;Wi s大小为1×H×W;
Figure FDA0002995764580000018
Figure FDA0002995764580000019
表示空间上的全局平均池化和全局最大池化;f7×7表示一个核为7的卷积神经网络,根据上述步骤提取更具有表征能力的M个多尺度全局特征。
4.根据权利要求1所述的一种无监督行人重识别方法,其特征在于,所述的步骤2具体为:
利用含有通道注意力和空间注意力的空间变换网络,对单个图像的任意尺度特征提取P个相对独立的局部特征;对于任意尺度的第p个特征,共M个多尺度局部特征,采用多尺度动态融合模块将其动态融合,最终生成P个聚合局部特征;
所述的聚合局部特征的提取过程具体为:
Figure FDA0002995764580000021
Figure FDA0002995764580000022
Figure FDA0002995764580000023
Figure FDA0002995764580000024
Figure FDA0002995764580000025
其中,xi为单个图像中第i个尺度的第p个局部特征;Wi c大小为C×1×1;σ表示sigmoid函数;
Figure FDA0002995764580000026
Figure FDA0002995764580000027
表示通道上的全局平均池化和全局最大池化;F表示有一个隐藏层的多层感知机;Wi s大小为1×H×W;
Figure FDA0002995764580000028
Figure FDA0002995764580000029
表示空间上的全局平均池化和全局最大池化;f7×7表示一个核为7的卷积神经网络。
5.根据权利要求1所述的一种无监督行人重识别方法,其特征在于,所述的步骤3具体为:
采用无监督自适应的方法,使用全局特征和局部特征分别构造损失函数;
在有标签的源域数据集上,使用焦点损失作为全局特征的目标函数,使用三重损失作为局部特征的目标函数;
在无标签的目标域上,使用内存银行储存局部特征并构造局部特征的目标函数,生成正样本并采用重排序的方法挖掘负样本构造全局特征的目标函数。
6.根据权利要求5所述的一种无监督行人重识别方法,其特征在于,所述的目标域的目标函数具体为:
Figure FDA00029957645800000210
Figure FDA0002995764580000031
Figure FDA0002995764580000032
Figure FDA0002995764580000033
其中,
Figure FDA0002995764580000034
代表
Figure FDA0002995764580000035
随着迭代次数的更新;
Figure FDA0002995764580000036
Figure FDA0002995764580000037
分别代表每批图像中第j个图像的第p个聚合局部特征,其中
Figure FDA0002995764580000038
不根据迭代次数更新;
Figure FDA0002995764580000039
为局部损失函数,
Figure FDA00029957645800000310
表示在该批次中的
Figure FDA00029957645800000311
中距离
Figure FDA00029957645800000312
最近的k个局部特征,通过对比Fi p
Figure FDA00029957645800000313
的l2范数距离可得;
Figure FDA00029957645800000314
表示该批次中所有图像第p个聚合局部特征;
Figure FDA00029957645800000315
为全局损失函数,ni为通过重排序方法得到的最难负样本,pi为通过旋转、裁切等样本生成方法生成的正样本。
7.根据权利要求1所述的一种无监督行人重识别方法,其特征在于,所述的步骤4具体为:
利用反向传播算法优化深度神经网络模型中的参数,完成深度神经网络模型的训练。
8.一种行人重识别系统,其特征在于,所述的行人重识别系统包括依次相连的媒体数据获取模块(1)、计算设备(2)和展示设备(3);
媒体数据获取模块(1),用于采集行人图像;
计算设备(2),用于处理媒体数据获取模块采集的行人图像数据,获得行人重识别结果;
展示设备(3),用于显示计算设备(2)输出的行人重识别结果。
9.根据权利要求8所述的一种行人重识别系统,其特征在于,所述的计算设备(2)包括处理器(21)和内存(22);
所述的内存(22)内存储有可执行代码,所述的可执行代码包括:
全局特征提取模块(221),用于从行人重识别数据中提取全局信息,即从行人重识别数据集中提取行人整体相关的信息;
局部特征提取模块(222),用于从全局特征提取模块(221)得到的全局特征中提取局部信息,即从行人重识别数据中提取行人细粒度信息;
多尺度特征动态融合模块(223),用于整合全局特征提取模块(221)和局部特征提取模块(222)中的多尺度全局特征与局部特征,并通过融合特征识别当前行人与给定行人是否相似。
10.一种计算机可读介质,其特征在于,所述的计算机可读介质内存储有如权利要求1~7中任一项所述的无监督行人重识别方法。
CN202110329192.0A 2021-03-27 2021-03-27 一种无监督行人重识别方法、系统及计算机可读介质 Active CN113158815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110329192.0A CN113158815B (zh) 2021-03-27 2021-03-27 一种无监督行人重识别方法、系统及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110329192.0A CN113158815B (zh) 2021-03-27 2021-03-27 一种无监督行人重识别方法、系统及计算机可读介质

Publications (2)

Publication Number Publication Date
CN113158815A true CN113158815A (zh) 2021-07-23
CN113158815B CN113158815B (zh) 2023-05-12

Family

ID=76885152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110329192.0A Active CN113158815B (zh) 2021-03-27 2021-03-27 一种无监督行人重识别方法、系统及计算机可读介质

Country Status (1)

Country Link
CN (1) CN113158815B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743497A (zh) * 2021-09-02 2021-12-03 南京理工大学 基于注意力机制与多尺度特征的细粒度识别方法及系统
CN114022742A (zh) * 2021-10-22 2022-02-08 中国科学院长春光学精密机械与物理研究所 红外与可见光图像融合方法、装置及计算机存储介质
CN114027786A (zh) * 2021-08-11 2022-02-11 中国科学院计算技术研究所 基于自监督式记忆网络的睡眠呼吸障碍检测方法及系统
CN115205739A (zh) * 2022-07-06 2022-10-18 中山大学·深圳 一种基于半监督学习的低光照视频行为识别方法及系统
CN115797432A (zh) * 2023-01-05 2023-03-14 荣耀终端有限公司 估计图像绝对深度的方法和装置
WO2024093466A1 (zh) * 2023-07-14 2024-05-10 西北工业大学 一种基于模型结构自主进化的行人图像重识别方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334705A (zh) * 2019-06-25 2019-10-15 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法
CN110414462A (zh) * 2019-08-02 2019-11-05 中科人工智能创新技术研究院(青岛)有限公司 一种无监督的跨域行人重识别方法及系统
CN111259850A (zh) * 2020-01-23 2020-06-09 同济大学 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
US20200218888A1 (en) * 2017-07-18 2020-07-09 Vision Semantics Limited Target Re-Identification
CN111797326A (zh) * 2020-05-27 2020-10-20 中国科学院计算技术研究所 一种融合多尺度视觉信息的虚假新闻检测方法及系统
CN111860678A (zh) * 2020-07-29 2020-10-30 中国矿业大学 一种基于聚类的无监督跨域行人重识别方法
CN111931624A (zh) * 2020-08-03 2020-11-13 重庆邮电大学 基于注意力机制的轻量级多分支行人重识别方法及系统
CN111967310A (zh) * 2020-07-03 2020-11-20 上海交通大学 一种联合注意力机制的时空特征聚合方法及系统、终端
CN112307847A (zh) * 2019-08-01 2021-02-02 复旦大学 一种基于指导的多尺度注意力行人重识别深度学习系统
CN113139544A (zh) * 2021-05-06 2021-07-20 安徽理工大学 一种基于多尺度特征动态融合的显著性目标检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200218888A1 (en) * 2017-07-18 2020-07-09 Vision Semantics Limited Target Re-Identification
CN110334705A (zh) * 2019-06-25 2019-10-15 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法
CN112307847A (zh) * 2019-08-01 2021-02-02 复旦大学 一种基于指导的多尺度注意力行人重识别深度学习系统
CN110414462A (zh) * 2019-08-02 2019-11-05 中科人工智能创新技术研究院(青岛)有限公司 一种无监督的跨域行人重识别方法及系统
CN111259850A (zh) * 2020-01-23 2020-06-09 同济大学 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN111797326A (zh) * 2020-05-27 2020-10-20 中国科学院计算技术研究所 一种融合多尺度视觉信息的虚假新闻检测方法及系统
CN111967310A (zh) * 2020-07-03 2020-11-20 上海交通大学 一种联合注意力机制的时空特征聚合方法及系统、终端
CN111860678A (zh) * 2020-07-29 2020-10-30 中国矿业大学 一种基于聚类的无监督跨域行人重识别方法
CN111931624A (zh) * 2020-08-03 2020-11-13 重庆邮电大学 基于注意力机制的轻量级多分支行人重识别方法及系统
CN113139544A (zh) * 2021-05-06 2021-07-20 安徽理工大学 一种基于多尺度特征动态融合的显著性目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王粉花 等: "基于多尺度和注意力融合学习的行人重识别", 《电子与信息学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114027786A (zh) * 2021-08-11 2022-02-11 中国科学院计算技术研究所 基于自监督式记忆网络的睡眠呼吸障碍检测方法及系统
CN113743497A (zh) * 2021-09-02 2021-12-03 南京理工大学 基于注意力机制与多尺度特征的细粒度识别方法及系统
CN114022742A (zh) * 2021-10-22 2022-02-08 中国科学院长春光学精密机械与物理研究所 红外与可见光图像融合方法、装置及计算机存储介质
CN114022742B (zh) * 2021-10-22 2024-05-17 中国科学院长春光学精密机械与物理研究所 红外与可见光图像融合方法、装置及计算机存储介质
CN115205739A (zh) * 2022-07-06 2022-10-18 中山大学·深圳 一种基于半监督学习的低光照视频行为识别方法及系统
CN115205739B (zh) * 2022-07-06 2023-11-28 中山大学·深圳 一种基于半监督学习的低光照视频行为识别方法及系统
CN115797432A (zh) * 2023-01-05 2023-03-14 荣耀终端有限公司 估计图像绝对深度的方法和装置
WO2024093466A1 (zh) * 2023-07-14 2024-05-10 西北工业大学 一种基于模型结构自主进化的行人图像重识别方法

Also Published As

Publication number Publication date
CN113158815B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN113158815B (zh) 一种无监督行人重识别方法、系统及计算机可读介质
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN112507898A (zh) 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
CN113221641B (zh) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN111259786A (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
Sardar et al. Iris segmentation using interactive deep learning
CN113870160B (zh) 一种基于变换器神经网络的点云数据处理方法
CN115222998B (zh) 一种图像分类方法
CN114078243A (zh) 基于循环图卷积网络的驾驶员驾驶行为识别方法及系统
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
EP4318322A1 (en) Data processing method and related device
CN114943937A (zh) 行人重识别方法、装置、存储介质及电子设备
CN116543351A (zh) 一种基于时空串并联关系编码的自监督群体行为识别方法
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备
CN113762331A (zh) 关系型自蒸馏方法、装置和系统及存储介质
CN113780129A (zh) 基于无监督图序列预测编码的动作识别方法及存储介质
CN115392474B (zh) 一种基于迭代优化的局部感知图表示学习方法
CN112380369B (zh) 图像检索模型的训练方法、装置、设备和存储介质
Chen Evaluation technology of classroom students’ learning state based on deep learning
CN114627282A (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN114821424A (zh) 视频分析方法、视频分析装置、计算机设备、存储介质
CN113723287A (zh) 基于双向循环神经网络的微表情识别方法、装置及介质
CN113011320A (zh) 视频处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant