CN118262385B - 基于相机差异的调度序列及训练的行人重识别方法 - Google Patents

基于相机差异的调度序列及训练的行人重识别方法 Download PDF

Info

Publication number
CN118262385B
CN118262385B CN202410683147.9A CN202410683147A CN118262385B CN 118262385 B CN118262385 B CN 118262385B CN 202410683147 A CN202410683147 A CN 202410683147A CN 118262385 B CN118262385 B CN 118262385B
Authority
CN
China
Prior art keywords
camera
feature
features
representing
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410683147.9A
Other languages
English (en)
Other versions
CN118262385A (zh
Inventor
石明
胡文丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202410683147.9A priority Critical patent/CN118262385B/zh
Publication of CN118262385A publication Critical patent/CN118262385A/zh
Application granted granted Critical
Publication of CN118262385B publication Critical patent/CN118262385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及图像检索技术领域,尤其是提供了基于相机差异的调度序列及训练的行人重识别方法。该方法包括根据训练后的特征提取网络,获得每个相机对应的相机特征,并获得线性映射层的输出、每个相机的mAP值和融合相机特征后的mAP值;将未融入相机特征所得到的mAP值作为分子,将融合相机特征后的平均精度mAP值作为分母,得到相机特征调度序列;根据相机特征调度序列由大到小依次选择每个相机的特征权重,将其相机代表的特征进行融合形成最新的特征;如此循环,以至将每个相机的特征全部融合后,对卷积神经网络进行训练,确定预测结果,该方法在面对多相机的场景时,提高了重识别的准确率和稳定性,使其达到了较高的水准。

Description

基于相机差异的调度序列及训练的行人重识别方法
技术领域
本发明涉及图像检索技术领域,尤其涉及一种基于相机差异的调度序列及训练的行人重识别方法。
背景技术
随着人工智能、信息技术的飞速发展,图像检索技术中的行人重识别系统备受关注,通过给定一个人的照片,通过卷积神经网络的学习,最终在一群照片中找到属于同一个人的照片。行人重识别主要包括监督学习和无监督学习两大类方法,其中监督学习是在已经标注好的图片中训练,也就是明确每个图片是哪个人,而无监督学习则是不知道每张图片对应哪个人。
现有的技术中,无监督学习方法通常先经过聚类方法,给每张图片先分配伪标签,然后通过卷积神经网络学习后,根据得到的特征计算损失,然后不断更新标签,往复学习。而监督学习因为知道每个图像的标签,所以一般是直接经过卷积神经网络学习,然后计算损失。由于图像收集并不局限于一个相机,而每个相机拍摄的图像都有着其独特的差异,当所有图像照片一起训练时,由于忽略每个相机之间的差异,最终导致了准确率的降低,无法达到较高的水准。
发明内容
有鉴于此,本发明提供了一种基于相机差异的调度序列及训练的行人重识别方法,在跨相机行人重识别时,用以提高重识别的准确率和稳定性,使其达到较高的水准。
第一方面,本发明提供了一种基于相机差异的调度序列及训练的行人重识别方法,所述方法包括:
步骤1、获取用于行人重识别模型的训练数据集,按照相机的不同进行分组,以获取每个相机对应的训练数据集;
步骤2、将步骤1中每个相机对应的训练数据集分别输入到特征提取网络中,进行预训练,得到训练后的特征提取网络;
步骤3、通过步骤2中训练后的特征提取网络对每个相机的特征进行提取,获得每个相机对应的相机特征,将其表示为
步骤4、将步骤1中每个相机对应的训练数据集分别输入至卷积神经网络中,进行训练,获得线性映射层的输出和每个相机的平均精度mAP值,将每个相机的mAP值表示为
步骤5:将步骤3中每个相机对应的相机特征与步骤4中的线性映射层的输出进行融合,获得具有相机特色的特征,并将其分别输入至卷积神经网络进行训练,获得融合相机特征后的平均精度mAP值,并表示为
步骤6:将步骤4中未融入相机特征所得到的mAP值作为分子,将步骤5中融合相机特征后的平均精度mAP值作为分母,得到每个相机的特征权重,其表示为,即特征权重为,d表示相机的身份标识;根据每个相机的特征权重,确定相机特征调度序列;
步骤7:通过步骤6中相机特征调度序列,首先将所有相机的图像输入初步的卷积神经网络中得到初步特征,然后根据每个相机的特征权重获取最大的特征权重,将最大的特征权重对应的相机特征与初步特征进行融合,以形成新特征,将此新特征作为下一个网络的输入;如此循环,按照从大到小依次选择每个相机的特征权重,并将其与上一个经过卷积神经网络后得到的特征进行融合,以至将每个相机的特征全部融合后,获得最终特征;将最终特征再次输入到卷积神经网络,得到预测结果。
可选地,所述步骤1包括:
给定输入图像,其中,H、W、C分别表示高、宽、通道数;给定输入相机,其中,,用于表示相机种类的序号数,数据样本大小均为256×128,首先对采集到得数据样本图像进行预处理,生成预处理后的数据样本图像,预处理包括水平翻转、填充、随即裁剪,随后将预处理后的数据样本图像水平分成6个部分。
可选地,所述步骤2包括:
对特征提取网络进行预训练,通过交叉熵损失和三元组损失对特征提取网络进行优化;
其中,交叉熵损失包括:骨干网络提取的特征首先通过线性分类器生成分类概率数值,接着用归一化指数函数softmax进行归一化,计算对数似然损失,其计算公式为:,其中B表示小批量中的图像数量,E表示分类权重,U表示类别数,表示第i个行人的图像,表示第i个行人的特征,分别表示第i个行人和第j个行人所预测的所有标签;
三元组损失的计算公式为:
其中,,P表示行人的类别数,K表示同一行人图像的数量,表示一个正负样本对之间距离的超参数,分别表示样本、最难的正样本、最难的负样本;其中,最难的正样本指最容易分错的与样本同属于一个人的图像,而最难的负样本指最容易分错的与样本属于不同人的图像。
可选地,所述步骤3包括:
经过预训练后的特征提取网络具备特征提取与分类能力,训练数据集中的图像相机标签已知,按照相机标签进行分组,分别获取每个相机特点对应的特征,每个相机特征表示为,并将每个相机对应的相机特征储存在相机特征存储器中。
可选地,所述步骤4包括:
每个相机对应的训练数据集经过卷积神经网络后,得到分类结果,并根据分类结果计算平均精度mAP值,其中数据样本图像特征映射为向量的形式,并且增加初始化的类别特征,线性映射层的输出为,其中表示全部数据集的类别特征,均表示局部特征;mAP值用于反应检索的人在数据库中所有正确的图像排在序列表前面的程度;mAP值的计算公式如下:
其中,;R表示行人的身份标识id,M表示身份标识id为i的行人的图像数量;表示在数据库正确率从大到小排序的图像中身份标识id为i的行人,第j个正确的图像加上前面所有的图像的数量;计算得到所有相机的mAP值,将其表示为
可选地,所述步骤5包括:
将步骤3中每个相机对应的相机特征与步骤4中的线性映射层的输出进行融合,其表达公式为:,其中,表示相机id为i的类别特征,表示相机 id为i的相机特征,均表示局部特征;经过卷积神经网络得到融合各个相机特征后的mAP值,表示为
可选地,所述步骤6包括:
将得到的每个相机的特征权重根据大小进行排序,若的取值小于或等于1,则保留此相机特征,若的取值大于1,则舍去此相机特征;将保留下来的特征权重再次根据从大到小排序,并根据相机种类的序号数得到相机特征调度序列。
可选地,所述步骤7包括:
首先将所有相机的图像输入具有三层的卷积神经网络中,得到初步特征,其中卷积神经网络包含卷积层、批量归一化层以及激活层,卷积层中卷积核大小为3×3,激活层的激活函数为ReLU函数,此时线性映射层的输出为;按照从大到小顺序选择每个相机的特征权重,首先将最大的特征权重对应的相机特征与初步特征进行融合,以形成新特征,融合后的特征映射表示为,其中表示全部数据集的类别特征,表示相机特征,每次注入一个相机特征,均表示局部特征,将融合后得到的特征作为输入再次经过三层的卷积神经网络,并将经过卷积神经网络后得到的特征与第二大的特征权重对应的相机特征进行融合,再次得到新的融合特征;如此循环,以至将每个相机的特征全部融合后,获得最终特征;将最终特征再次输入到三层的卷积神经网络,经过池化层和全连接层后得到预测结果,其中池化层为全局平均池化,其预测结果用于对跨多个相机的行人重识别身份进行匹配。
本发明提供的技术方案中,该方法包括获取用于行人重识别模型的训练数据集,按照相机的不同进行分组,以获取每个相机对应的训练数据集;将每个相机对应的训练数据集分别输入到特征提取网络中,进行预训练,得到训练后的特征提取网络;通过训练后的特征提取网络对每个相机的特征进行提取,获得每个相机对应的相机特征;将每个相机对应的训练数据集分别输入至卷积神经网络中,进行训练,获得线性映射层的输出和每个相机的平均精度mAP值;将每个相机对应的相机特征与线性映射层的输出进行融合,获得具有相机特色的特征,并将其分别输入至卷积神经网络进行训练,获得融合相机特征后的平均精度mAP值;将未融入相机特征所得到的mAP值作为分子,将融合相机特征后的mAP值作为分母,得到每个相机的特征权重;根据每个相机的特征权重,确定相机特征调度序列;通过相机特征调度序列,首先将所有相机的图像输入初步的卷积神经网络中得到初步特征,然后根据每个相机的特征权重获取最大的特征权重,将最大的特征权重对应的相机特征与初步特征进行融合,以形成新特征,将此新特征作为下一个网络的输入;如此循环,按照从大到小依次选择每个相机的特征权重,并将其与上一个经过卷积神经网络后得到的特征进行融合,以至将每个相机的特征全部融合后,获得最终特征;将最终特征再次输入到卷积神经网络,得到预测结果,该方法在面对多相机的场景时,可以得到各个相机的特征,并且根据该方法确定各个相机特征对于原数据的重要程度,根据相机特征调度序列将相机特征逐渐加入到卷积神经网络层中,使得卷积神经网络学习各个相机的特征,并且根据特征权重从大到小依次学习,可以确保模型在学习过程中优先关注最重要的信息,模型将逐渐适应并充分利用各个相机特征,该方法提高了重识别的准确率和稳定性,使其达到了较高的水准。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的行人重识别方法的流程图;
图2为本发明实施例提供的相机特征调度序列的训练流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,甲和/或乙,可以表示:单独存在甲,同时存在甲和乙,单独存在乙这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1为本发明实施例提供的行人重识别方法的流程图,如图1所示,该方法包括:
步骤1、获取用于行人重识别模型的训练数据集,按照相机的不同进行分组,以获取每个相机对应的训练数据集。
本发明实施例中,步骤1包括:
本实施例采用的行人重识别数据集是Market-1501数据集,该数据集分别采集自6个摄像头,总共标注1501个行人,每个行人至少由2个摄像头捕获到,并且在一个摄像头中可能具有多张图像,训练集有751人,包含12936张图像,测试集有751人,包含19732张图像。给定输入图像,其中,H、W、C分别表示高、宽、通道数;给定输入相机,其中,,用于表示相机种类的序号数,数据样本大小均为256×128,首先对采集到得数据样本图像进行预处理,生成预处理后的数据样本图像,预处理包括水平翻转、填充、随即裁剪,随后将预处理后的数据样本图像水平分成6个部分。
步骤2、将步骤1中每个相机对应的训练数据集分别输入到特征提取网络中,进行预训练,得到训练后的特征提取网络。
本发明实施例中,步骤2包括:
对特征提取网络进行预训练,通过交叉熵损失和三元组损失对特征提取网络进行优化,使得特征提取网络具备一定特征提取能力。
其中,交叉熵损失包括:骨干网络提取的特征首先通过线性分类器生成分类概率数值,接着用归一化指数函数softmax进行归一化,计算对数似然损失,其计算公式为:,其中B表示小批量中的图像数量,E表示分类权重,U表示类别数,表示第i个行人的图像,表示第i个行人的特征,分别表示第i个行人和第j个行人所预测的所有标签;
三元组损失的计算公式为:
其中,,P表示行人的类别数,K表示同一行人图像的数量,表示一个正负样本对之间距离的超参数,分别表示样本、最难的正样本、最难的负样本;其中,最难的正样本指最容易分错的与样本同属于一个人的图像,而最难的负样本指最容易分错的与样本属于不同人的图像。
步骤3、通过步骤2中训练后的特征提取网络对每个相机的特征进行提取,获得每个相机对应的相机特征,将其表示为
本发明实施例中,步骤3包括:
经过预训练后的特征提取网络具备特征提取与分类能力,训练数据集中的图像相机标签已知,按照相机标签进行分组,分别获取每个相机特点对应的特征,每个相机特征表示为,并将每个相机对应的相机特征储存在相机特征存储器中。
步骤4、将步骤1中每个相机对应的训练数据集分别输入至卷积神经网络中,进行训练,获得线性映射层的输出和每个相机的平均精度mAP值,将每个相机的mAP值表示为
本发明实施例中,步骤4包括:
每个相机对应的训练数据集经过卷积神经网络后,得到分类结果,并根据分类结果计算平均精度mAP值,其中数据样本图像特征映射为向量的形式,并且增加初始化的类别特征,线性映射层的输出为,其中表示全部数据集的类别特征,均表示局部特征;mAP值用于反应检索的人在数据库中所有正确的图像排在序列表前面的程度;mAP值的计算公式如下:
其中,;R表示行人的身份标识id,M表示身份标识id为i的行人的图像数量;表示在数据库正确率从大到小排序的图像中身份标识id为i的行人,第j个正确的图像加上前面所有的图像的数量;计算得到所有相机的mAP值,将其表示为
步骤5:将步骤3中每个相机对应的相机特征与步骤4中的线性映射层的输出进行融合,获得具有相机特色的特征,并将其分别输入至卷积神经网络进行训练,获得融合相机特征后的平均精度mAP值,并表示为
本发明实施例中,步骤5包括:
将步骤3中每个相机对应的相机特征与步骤4中的线性映射层的输出进行融合,其表达公式为:,其中,表示相机id为i的类别特征,表示相机 id为i的相机特征,均表示局部特征;经过卷积神经网络得到融合各个相机特征后的mAP值,表示为
步骤6:将步骤4中未融入相机特征所得到的mAP值作为分子,将步骤5中融合相机特征后的平均精度mAP值作为分母,得到每个相机的特征权重,其表示为,即特征权重为,d表示相机的身份标识;根据每个相机的特征权重,确定相机特征调度序列。
本发明实施例中,步骤6包括:
将得到的每个相机的特征权重根据大小进行排序,若的取值小于或等于1,则保留此相机特征,若的取值大于1,则舍去此相机特征;将保留下来的特征权重再次根据从大到小排序,并根据相机种类的序号数得到相机特征调度序列。
本发明实施例中,若的取值小于或等于1,表示融合相机特征后可以提高准确率的特征;若的取值大于1,表示融合相机特征训练的结果比融合前差。
步骤7:通过步骤6中相机特征调度序列,首先将所有相机的图像输入初步的卷积神经网络中得到初步特征,然后根据每个相机的特征权重获取最大的特征权重,将最大的特征权重对应的相机特征与初步特征进行融合,以形成新特征,将此新特征作为下一个网络的输入;如此循环,按照从大到小依次选择每个相机的特征权重,并将其与上一个经过卷积神经网络后得到的特征进行融合,以至将每个相机的特征全部融合后,获得最终特征;将最终特征再次输入到卷积神经网络,得到预测结果。
本发明实施例中,如图2所示,步骤7包括:
首先将所有相机的图像输入具有三层的卷积神经网络中,得到初步特征,其中卷积神经网络包含卷积层、批量归一化层以及激活层,卷积层中卷积核大小为3×3,激活层的激活函数为ReLU函数,此时线性映射层的输出为;按照从大到小顺序选择每个相机的特征权重,首先将最大的特征权重对应的相机特征与初步特征进行融合,以形成新特征,融合后的特征映射表示为,其中表示全部数据集的类别特征,表示相机特征,每次注入一个相机特征,均表示局部特征,将融合后得到的特征作为输入再次经过三层的卷积神经网络,并将经过卷积神经网络后得到的特征与第二大的特征权重对应的相机特征进行融合,再次得到新的融合特征;如此循环,以至将每个相机的特征全部融合后,获得最终特征;将最终特征再次输入到三层的卷积神经网络,经过池化层和全连接层后得到预测结果,其中池化层为全局平均池化,其预测结果用于对跨多个相机的行人重识别身份进行匹配。
本发明实施例中,经过验证,经过相机差异调度序列逐步学习相机特征训练的神经网络相比较直接加入相机特征的神经网络在行人重识别任务中效果更加准确。
本发明提供的技术方案中,该方法包括获取用于行人重识别模型的训练数据集,按照相机的不同进行分组,以获取每个相机对应的训练数据集;将每个相机对应的训练数据集分别输入到特征提取网络中,进行预训练,得到训练后的特征提取网络;通过训练后的特征提取网络对每个相机的特征进行提取,获得线性映射层的输出和每个相机对应的相机特征;将每个相机对应的训练数据集分别输入至卷积神经网络中,进行训练,获得每个相机的平均精度mAP值;将每个相机对应的相机特征与线性映射层的输出进行融合,获得具有相机特色的特征,并将其分别输入至卷积神经网络进行训练,获得融合相机特征后的平均精度mAP值;将未融入相机特征所得到的mAP值作为分子,将融合相机特征后的mAP值作为分母,得到每个相机的特征权重;根据每个相机的特征权重,确定相机特征调度序列;通过相机特征调度序列,首先将所有相机的图像输入初步的卷积神经网络中得到初步特征,然后根据每个相机的特征权重获取最大的特征权重,将最大的特征权重对应的相机特征与初步特征进行融合,以形成新特征,将此新特征作为下一个网络的输入;如此循环,按照从大到小依次选择每个相机的特征权重,并将其与上一个经过卷积神经网络后得到的特征进行融合,以至将每个相机的特征全部融合后,获得最终特征;将最终特征再次输入到卷积神经网络,得到预测结果,该方法在面对多相机的场景时,可以得到各个相机的特征,并且根据该方法确定各个相机特征对于原数据的重要程度,根据相机特征调度序列将相机特征逐渐加入到卷积神经网络层中,使得卷积神经网络学习各个相机的特征,并且根据特征权重从大到小依次学习,可以确保模型在学习过程中优先关注最重要的信息,模型将逐渐适应并充分利用各个相机特征,该方法提高了重识别的准确率和稳定性,使其达到了较高的水准。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (5)

1.一种基于相机差异的调度序列及训练的行人重识别方法,其特征在于,所述方法包括:
步骤1、获取用于行人重识别模型的训练数据集,按照相机的不同进行分组,以获取每个相机对应的训练数据集;
步骤2、将步骤1中每个相机对应的训练数据集分别输入到特征提取网络中,进行预训练,得到训练后的特征提取网络;
步骤3、通过步骤2中训练后的特征提取网络对每个相机的特征进行提取,获得每个相机对应的相机特征,将其表示为
步骤4、将步骤1中每个相机对应的训练数据集分别输入至卷积神经网络中,进行训练,获得线性映射层的输出和每个相机的平均精度mAP值,将每个相机的mAP值表示为
步骤5:将步骤3中每个相机对应的相机特征与步骤4中的线性映射层的输出进行融合,获得具有相机特色的特征,并将其分别输入至卷积神经网络进行训练,获得融合相机特征后的平均精度mAP值,并表示为
步骤6:将步骤4中未融入相机特征所得到的mAP值作为分子,将步骤5中融合相机特征后的平均精度mAP值作为分母,得到每个相机的特征权重,其表示为,即特征权重为,d表示相机的身份标识;根据每个相机的特征权重,确定相机特征调度序列;
步骤7:通过步骤6中相机特征调度序列,首先将所有相机的图像输入初步的卷积神经网络中得到初步特征,然后根据每个相机的特征权重获取最大的特征权重,将最大的特征权重对应的相机特征与初步特征进行融合,以形成新特征,将此新特征作为下一个网络的输入;如此循环,按照从大到小依次选择每个相机的特征权重,并将其与上一个经过卷积神经网络后得到的特征进行融合,以至将每个相机的特征全部融合后,获得最终特征;将最终特征再次输入到卷积神经网络,得到预测结果;
所述步骤2包括:
对特征提取网络进行预训练,通过交叉熵损失和三元组损失对特征提取网络进行优化;
其中,交叉熵损失包括:骨干网络提取的特征首先通过线性分类器生成分类概率数值,接着用归一化指数函数softmax进行归一化,计算对数似然损失,其计算公式为:,其中B表示小批量中的图像数量,E表示分类权重,U表示类别数,表示第i个行人的图像,表示第i个行人的特征,分别表示第i个行人和第j个行人所预测的所有标签;
三元组损失的计算公式为:
其中,,P表示行人的类别数,K表示同一行人图像的数量,表示一个正负样本对之间距离的超参数,分别表示样本、最难的正样本、最难的负样本;其中,最难的正样本指最容易分错的与样本同属于一个人的图像,而最难的负样本指最容易分错的与样本属于不同人的图像;
所述步骤4包括:
每个相机对应的训练数据集经过卷积神经网络后,得到分类结果,并根据分类结果计算平均精度mAP值,其中数据样本图像特征映射为向量的形式,并且增加初始化的类别特征,线性映射层的输出为,其中表示全部数据集的类别特征,均表示局部特征;mAP值用于反应检索的人在数据库中所有正确的图像排在序列表前面的程度;mAP值的计算公式如下:
其中,;R表示行人的身份标识id,M表示身份标识id为i的行人的图像数量;表示在数据库正确率从大到小排序的图像中身份标识id为i的行人,第j个正确的图像加上前面所有的图像的数量;计算得到所有相机的mAP值,将其表示为
所述步骤6包括:
将得到的每个相机的特征权重根据大小进行排序,若的取值小于或等于1,则保留此相机特征,若的取值大于1,则舍去此相机特征;将保留下来的特征权重再次根据从大到小排序,并根据相机种类的序号数得到相机特征调度序列。
2.根据权利要求1所述的方法,其特征在于,所述步骤1包括:
给定输入图像,其中,H、W、C分别表示高、宽、通道数;给定输入相机,其中,,用于表示相机种类的序号数,数据样本大小均为256×128,首先对采集到得数据样本图像进行预处理,生成预处理后的数据样本图像,预处理包括水平翻转、填充、随即裁剪,随后将预处理后的数据样本图像水平分成6个部分。
3.根据权利要求1所述的方法,其特征在于,所述步骤3包括:
经过预训练后的特征提取网络具备特征提取与分类能力,训练数据集中的图像相机标签已知,按照相机标签进行分组,分别获取每个相机特点对应的特征,每个相机特征表示为,并将每个相机对应的相机特征储存在相机特征存储器中。
4.根据权利要求1所述的方法,其特征在于,所述步骤5包括:
将步骤3中每个相机对应的相机特征与步骤4中的线性映射层的输出进行融合,其表达公式为:,其中,表示相机id为i的类别特征,表示相机 id为i的相机特征,均表示局部特征;经过卷积神经网络得到融合各个相机特征后的mAP值,表示为
5.根据权利要求1所述的方法,其特征在于,所述步骤7包括:
首先将所有相机的图像输入具有三层的卷积神经网络中,得到初步特征,其中卷积神经网络包含卷积层、批量归一化层以及激活层,卷积层中卷积核大小为3×3,激活层的激活函数为ReLU函数,此时线性映射层的输出为;按照从大到小顺序选择每个相机的特征权重,首先将最大的特征权重对应的相机特征与初步特征进行融合,以形成新特征,融合后的特征映射表示为,其中表示全部数据集的类别特征,表示相机特征,每次注入一个相机特征,均表示局部特征,将融合后得到的特征作为输入再次经过三层的卷积神经网络,并将经过卷积神经网络后得到的特征与第二大的特征权重对应的相机特征进行融合,再次得到新的融合特征;如此循环,以至将每个相机的特征全部融合后,获得最终特征;将最终特征再次输入到三层的卷积神经网络,经过池化层和全连接层后得到预测结果,其中池化层为全局平均池化,其预测结果用于对跨多个相机的行人重识别身份进行匹配。
CN202410683147.9A 2024-05-30 2024-05-30 基于相机差异的调度序列及训练的行人重识别方法 Active CN118262385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410683147.9A CN118262385B (zh) 2024-05-30 2024-05-30 基于相机差异的调度序列及训练的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410683147.9A CN118262385B (zh) 2024-05-30 2024-05-30 基于相机差异的调度序列及训练的行人重识别方法

Publications (2)

Publication Number Publication Date
CN118262385A CN118262385A (zh) 2024-06-28
CN118262385B true CN118262385B (zh) 2024-07-26

Family

ID=91605846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410683147.9A Active CN118262385B (zh) 2024-05-30 2024-05-30 基于相机差异的调度序列及训练的行人重识别方法

Country Status (1)

Country Link
CN (1) CN118262385B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038466A (zh) * 2017-12-26 2018-05-15 河海大学 基于卷积神经网络的多通道人眼闭合识别方法
CN109711281A (zh) * 2018-12-10 2019-05-03 复旦大学 一种基于深度学习的行人重识别与特征识别融合方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010010430A2 (en) * 2008-07-25 2010-01-28 Lee Kok-Wah Methods and systems to create big memorizable secrets and their applications in information engineering
US10482482B2 (en) * 2013-05-13 2019-11-19 Microsoft Technology Licensing, Llc Predicting behavior using features derived from statistical information
CN107316031B (zh) * 2017-07-04 2020-07-10 北京大学深圳研究生院 用于行人重识别的图像特征提取方法
CN107273872B (zh) * 2017-07-13 2020-05-05 北京大学深圳研究生院 用于图像或视频中行人重识别的深度判别网络模型方法
KR102063678B1 (ko) * 2018-08-20 2020-01-09 주식회사 이와이엘 모바일기기의 스머지 및 훔쳐보기 공격 방지를 위한 시스템 및 사용자 패턴 인증 방법
CN111539484B (zh) * 2020-04-29 2024-05-21 北京市商汤科技开发有限公司 训练神经网络的方法及装置
CN112183468A (zh) * 2020-10-27 2021-01-05 南京信息工程大学 一种基于多注意力联合多级特征的行人再识别方法
CN113269070B (zh) * 2021-05-18 2023-04-07 重庆邮电大学 融合全局和局部特征的行人重识别方法、存储器及处理器
CN113537379B (zh) * 2021-07-27 2024-04-16 沈阳工业大学 一种基于CGANs的立体匹配方法
KR20240010249A (ko) * 2022-07-15 2024-01-23 한국과학기술원 카메라 및 영상 트랙릿을 활용한 비지도 대조 학습 기반 객체 인식 및 재식별 시스템 및 그 방법
CN115171165A (zh) * 2022-07-29 2022-10-11 南京邮电大学 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN115909201A (zh) * 2022-11-11 2023-04-04 复旦大学 一种基于多分支联合学习的遮挡行人重识别方法及系统
CN115880723A (zh) * 2022-12-16 2023-03-31 南京信息工程大学 一种基于样本加权的无监督多源域适应的行人重识别方法
CN116385981A (zh) * 2023-03-14 2023-07-04 安徽师范大学 一种相机拓扑图引导的车辆重识别方法及装置
CN117934831A (zh) * 2023-12-29 2024-04-26 电子科技大学 一种基于相机和激光融合的三维语义分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038466A (zh) * 2017-12-26 2018-05-15 河海大学 基于卷积神经网络的多通道人眼闭合识别方法
CN109711281A (zh) * 2018-12-10 2019-05-03 复旦大学 一种基于深度学习的行人重识别与特征识别融合方法

Also Published As

Publication number Publication date
CN118262385A (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
CN111539370B (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN110084151B (zh) 基于非局部网络深度学习的视频异常行为判别方法
CN107609525B (zh) 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN112232241B (zh) 一种行人重识别方法、装置、电子设备和可读存储介质
CN108108657A (zh) 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法
EP3690741B1 (en) Method for automatically evaluating labeling reliability of training images for use in deep learning network to analyze images, and reliability-evaluating device using the same
CN109902202B (zh) 一种视频分类方法及装置
CN113111814B (zh) 基于正则化约束的半监督行人重识别方法及装置
CN113269070B (zh) 融合全局和局部特征的行人重识别方法、存储器及处理器
CN110598535A (zh) 一种监控视频数据中使用的人脸识别分析方法
CN106682681A (zh) 一种基于相关反馈的识别算法自动改进方法
CN109446897B (zh) 基于图像上下文信息的场景识别方法及装置
CN112597324A (zh) 一种基于相关滤波的图像哈希索引构建方法、系统及设备
CN111539351A (zh) 一种多任务级联的人脸选帧比对方法
CN113705596A (zh) 图像识别方法、装置、计算机设备和存储介质
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN109635647B (zh) 一种基于约束条件下的多图片多人脸的聚类方法
CN117197451A (zh) 基于域自适应的遥感图像语义分割方法及装置
CN118262385B (zh) 基于相机差异的调度序列及训练的行人重识别方法
CN114972434B (zh) 一种级联检测和匹配的端到端多目标跟踪系统
CN116363507A (zh) 一种基于蛇优化算法的XGBoost和深度神经网络融合的遥感图像分类方法
CN116110074A (zh) 一种基于图神经网络的动态小股行人识别方法
CN110717544B (zh) 一种垂直鱼眼镜头下行人属性分析方法及系统
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant