CN112200093B - 一种基于不确定性估计的行人再识别方法 - Google Patents

一种基于不确定性估计的行人再识别方法 Download PDF

Info

Publication number
CN112200093B
CN112200093B CN202011091366.6A CN202011091366A CN112200093B CN 112200093 B CN112200093 B CN 112200093B CN 202011091366 A CN202011091366 A CN 202011091366A CN 112200093 B CN112200093 B CN 112200093B
Authority
CN
China
Prior art keywords
pedestrian
original image
uncertainty
identification
uncertainty estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011091366.6A
Other languages
English (en)
Other versions
CN112200093A (zh
Inventor
马占宇
谢吉洋
孙文宇
司中威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202011091366.6A priority Critical patent/CN112200093B/zh
Publication of CN112200093A publication Critical patent/CN112200093A/zh
Application granted granted Critical
Publication of CN112200093B publication Critical patent/CN112200093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于不确定性估计的行人再识别方法,属于行人再识别技术领域,包括步骤:获取待识别的原始图像序列,原始图像序列中的每一帧原始图像均包含同一行人;将原始图像序列输入至利用基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型中,计算输出集合;使用不确定性估计集合对输出集合进行排序,选择不确定性估计最高的Δ个输出的标号,获得标号集合和选定输出集合;将选定输出集合中的所有输出与数据库中的样本计算距离,并分别匹配出距离最小的图像作为行人再识别的检索结果。本发明能够同时抑制输入图像中的区域噪声和随机噪声,降低噪声对于行人再识别模型性能的影响,提高模型的稳定性,提升行人再识别的准确率。

Description

一种基于不确定性估计的行人再识别方法
技术领域
本发明涉及行人再识别技术领域,特别是涉及一种基于不确定性估计的行人再识别方法。
背景技术
在行人再识别技术领域中,现有基于人工智能和深度学习的识别方法大多直接将识别到的行人候选框图像输入到卷积神经网络(Convolutional Neural Network,CNN)中提取深度特征,再计算候选框图像的深度特征与数据库中图像的深度特征在特征空间中的距离(如欧氏距离(Euclidean Distance)、马氏距离(Mahalanobis Distance)、余弦相似度(Cosine Similarity)等),用于在数据库中检索与候选框图像相匹配的图像。同时,由于用于检索的输入图像是序列化的(即在视频序列中逐帧提取行人图像组合成序列,并作为检索匹配的输入图像序列),序列中不同图像的质量不尽相同,需要对序列中的图像进行质量评估,并根据评估结果对匹配结果进行筛选。
行人再识别(Person Re-identification)是传统图像检索任务的子任务,主要是针对通过多个摄像头拍摄的行人照片进行识别匹配的过程。行人再识别技术主要用于安防监控、疑犯追踪、走失人口调查、城市交通规划等关系到社会民生的重要行业应用中。但是,由于环境问题(如障碍物遮挡、恶劣天气情况等),以及摄像机成像问题(如成像模糊、摄像机抖动、摄像机系统噪声等)等因素的影响,通过摄像机获得的图像往往带有一定的噪声。这些噪声主要是由上述因素导致的。同时,数据采集问题(如训练集中的错误标签)也会为训练集带来一定的噪声。现有方法难以对含有上述噪声的图像进行正确检索,使得行人再识别模型性能降低,难以应用于实际场景中。
发明内容
环境问题、摄像机成像问题等因素会为摄像机拍摄图像带入噪声。这些噪声包括区域噪声(如遮挡等)和随机噪声(如模糊、摄像机系统噪声等)。同时,这些噪声是无法有效消除的。当噪声过大时,现有的行人再识别方法难以对含有上述噪声的图像进行正确检索,使得行人再识别模型性能降低,难以应用于实际场景中。基于此,有必要针对上述技术问题,提供一种基于不确定性估计的行人再识别方法。
为解决上述问题,本发明采取如下的技术方案:
一种基于不确定性估计的行人再识别模型训练方法,包括以下步骤:
步骤1:获取原始图像和初始化卷积神经网络参数;
步骤2:将所述原始图像按行分割成上下多个局部,得到分块图像;
步骤3:将所述分块图像的各个张量分别输入到卷积神经网络中,得到对应的局部特征;
步骤4:计算每一个所述局部特征对应的局部不确定性估计;
步骤5:根据各个所述局部特征和各个所述局部不确定性估计计算局部训练过程的第一损失函数;
步骤6:根据所述分块图像的各个张量和对应的所述局部不确定性估计计算精炼后图像;
步骤7:将所述精炼后图像输入到与步骤3中卷积神经网络共享参数的卷积神经网络中,得到整体特征;
步骤8:计算所述整体特征对应的整体不确定性估计;
步骤9:根据所述整体特征和所述整体不确定性估计计算模型输出;
步骤10:根据各个所述局部特征、各个所述局部不确定性估计、所述整体特征和所述整体不确定性估计计算整体训练过程的第二损失函数;
步骤11:对所述第一损失函数和所述第二损失函数求和,得到模型训练过程的总损失函数,并通过反向传播算法优化模型参数;
步骤12:重复上述步骤1至步骤11,直至所述总损失函数收敛,得到训练完成的行人再识别模型。
同时,本发明还提供一种基于不确定性估计的行人再识别方法,包括以下步骤:
步骤一:获取待识别的原始图像序列,所述原始图像序列中的每一帧原始图像均包含同一行人;
步骤二:将所述原始图像序列输入至利用所述的基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型中,所述行人再识别模型对输入的所述原始图像序列执行以下步骤:
步骤二一:对所述原始图像序列中的所有原始图像依次进行所述基于不确定性估计的行人再识别模型训练方法中的步骤二至步骤四及步骤六至步骤七,得到整体特征集合
Figure BDA0002722219170000031
其中
Figure BDA0002722219170000032
是输入的第b帧原始图像
Figure BDA0002722219170000033
对应的整体特征,b=1,…,B,B是所述原始图像序列的序列长度;
步骤二二:分别计算每个整体特征
Figure BDA0002722219170000034
的不确定性估计
Figure BDA0002722219170000035
得到不确定性估计集合
Figure BDA0002722219170000036
步骤二三:计算输出集合
Figure BDA0002722219170000037
其中
Figure BDA0002722219170000038
可通过下式计算:
Figure BDA0002722219170000039
步骤三:使用不确定性估计集合
Figure BDA00027222191700000310
对输出集合
Figure BDA00027222191700000311
进行排序,选择不确定性估计最高的Δ个输出的标号,获得标号集合
Figure BDA00027222191700000312
和选定输出集合
Figure BDA00027222191700000313
步骤四:将所述选定输出集合
Figure BDA00027222191700000314
中的所有输出与数据库中的样本计算距离,并分别匹配出距离最小的图像作为行人再识别的检索结果。
相应地,本发明还提供一种基于不确定性估计的行人再识别系统,包括:
获取模块,用于获取待识别的原始图像序列,所述原始图像序列中的每一帧原始图像均包含同一行人;
识别模块,包括利用所述的基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型,所述基于不确定性估计的行人再识别模型对输入的所述原始图像序列执行以下步骤:
步骤二一:对所述原始图像序列中的所有原始图像依次进行所述基于不确定性估计的行人再识别模型训练方法中的步骤二至步骤四及步骤六至步骤七,得到整体特征集合
Figure BDA0002722219170000041
Figure BDA0002722219170000042
是输入的第b帧原始图像
Figure BDA0002722219170000043
对应的整体特征,b=1,…,B,B是所述原始图像序列的序列长度;
步骤二二:分别计算每个整体特征
Figure BDA0002722219170000044
的不确定性估计
Figure BDA0002722219170000045
得到不确定性估计集合
Figure BDA0002722219170000046
步骤二三:计算输出集合
Figure BDA0002722219170000047
其中
Figure BDA0002722219170000048
可通过下式计算:
Figure BDA0002722219170000049
排序模块,用于使用不确定性估计集合
Figure BDA00027222191700000410
对输出集合
Figure BDA00027222191700000411
进行排序,选择不确定性估计最高的Δ个输出的标号,获得标号集合
Figure BDA00027222191700000412
和选定输出集合
Figure BDA00027222191700000413
输出模块,用于将所述选定输出集合
Figure BDA00027222191700000414
中的所有输出与数据库中的样本计算距离,并分别匹配出距离最小的图像作为行人再识别的检索结果。
与现有技术相比,本发明具有以下有益效果:
本发明所提出的基于不确定性估计的行人再识别模型训练方法及行人再识别方法、系统将不确定性估计方法分别用于行人再识别模型的局部训练过程和整体训练过程,同时以分块图像和整体图像为单位进行质量过滤,分块图像的质量过滤能够很好地反映区域噪声,整体图像的质量过滤能够很好地反映随机噪声,因此能够同时抑制输入图像中的区域噪声和随机噪声,降低噪声对于行人再识别模型性能的影响,使行人再识别模型能够更加适应真实复杂场景,提高模型的稳定性,提升行人再识别的准确率。
附图说明
图1为本发明的一种基于不确定性估计的行人再识别模型训练方法在一个实施例中的流程示意图;
图2为本发明的一种基于不确定性估计的行人再识别模型训练方法的原理框图;
图3为本发明的一种基于不确定性估计的行人再识别方法在一个实施例中的流程示意图;
图4为本发明的一种基于不确定性估计的行人再识别系统在一个实施例中的结构框图。
具体实施方式
下面将结合附图及较佳实施例对本发明的技术方案进行详细描述。
在其中一个实施例中,如图1和图2(图2中仅以P=4为例)所示,本发明提供一种基于不确定性估计的行人再识别模型训练方法,该方法包括以下步骤1至步骤12,其中步骤1至步骤5为局部训练过程,步骤6至步骤10为整体训练过程。基于不确定性估计的行人再识别模型训练方法的具体训练过程如下:
步骤1(S1):获取用于模型输入的原始图像X∈RC×W×H,其中,R表示实数,C、W和H分别表示原始图像X的通道数、宽和高,对于常用的RGB图像C=3,同时还获取初始化卷积神经网络参数Ω。
步骤2(S2):计算最佳局部分割方案,将原始图像X按行分割成上下多个局部,得到分块图像Z。定义局部分割函数为g(·),即Z=g(X)。进一步地,通过局部分割函数g(·)计算分块图像Z的过程如下:
步骤21:获取掩膜M∈RW×H,掩膜M中的元素Mi,j可通过下式计算:
Figure BDA0002722219170000051
其中,i=1,…,W,j=1,…,H,a是行人在原始图像X中占据的比例,0<a≤1;
步骤22:计算原始图像X每行的颜色信息X(r)∈RH,每行的颜色信息X(r)中的元素
Figure BDA0002722219170000061
可通过下式计算:
Figure BDA0002722219170000062
其中,k=1,…,C;
步骤23:计算每行的颜色信息X(r)相邻两项的差值,得到差值向量X(d)∈RH-1,差值向量X(d)中的元素
Figure BDA0002722219170000063
可通过下式计算:
Figure BDA0002722219170000064
其中,j′=1,…,(H-1),|·|是取绝对值操作;
步骤24:利用密度估计(Density Estimation)方法计算差值向量X(d)的P个峰值的下标
Figure BDA0002722219170000065
且1<n1<…<np<…<nP<H,np为整数,p=1,…,P;
步骤25:使用下标
Figure BDA0002722219170000066
对原始图像X按行进行分割,得到分块图像
Figure BDA0002722219170000067
Figure BDA0002722219170000068
其中,
Figure BDA0002722219170000069
是包含所有满足下标条件的原始图像X的元素的张量,且n0=1,np+1=H。
步骤3(S3):将分块图像Z的各个张量Zp∈Z分别输入到卷积神经网络CNN(·;Ω)中,得到对应的局部特征
Figure BDA00027222191700000610
Figure BDA00027222191700000611
C(f)、W(f)和H(f)分别是卷积神经网络输出整体特征的通道数、宽和高,
Figure BDA00027222191700000612
是第p个局部特征的高。
步骤4(S4):计算每一个局部特征对应的局部不确定性估计
Figure BDA0002722219170000071
σp为标量,可通过下式计算:
Figure BDA0002722219170000072
其中,GAP(·)是全局平均池化(Global Average Pooling,GAP)函数,其具体形式为下式:
Figure BDA0002722219170000073
Figure BDA0002722219170000074
是连续伯努利分布(Continuous Bernoulli,CB)的概率密度函数(Probability Density Function,PDF),x是输入,0<x<1,λ是分布参数,0<λ<1,
Figure BDA0002722219170000075
的具体形式为下式:
Figure BDA0002722219170000076
其中,Const(·)是归一化函数,其形式为:
Figure BDA0002722219170000077
tanh(·)是双曲正切函数,tanh-1(·)是双曲正切函数的反函数,表达式为:
Figure BDA0002722219170000078
Figure BDA0002722219170000079
其中,e是自然对数的底数,ln(·)是自然对数;
λp通过下式计算:
Figure BDA00027222191700000710
其中,
Figure BDA0002722219170000081
是第p个全连接(Fully-connected,FC)层,参数为
Figure BDA0002722219170000082
的具体形式为:
Figure BDA0002722219170000083
Figure BDA0002722219170000084
步骤5(S5):根据步骤3计算得到的各个局部特征和步骤4计算得到的各个局部不确定性估计计算局部训练过程的第一损失函数L1
第一损失函数L1由三部分组成,分别是三元组损失(Triplet Loss)函数
Figure BDA0002722219170000085
分类损失函数
Figure BDA0002722219170000086
和正则项R1(σ),其计算方式如下:
Figure BDA0002722219170000087
其中,α1、β1和γ1均是非负乘子;
Figure BDA0002722219170000088
其中,
Figure BDA0002722219170000089
是将所有GAP(fp)拼接之后的特征,
Figure BDA00027222191700000810
分别是在训练集中随机抽取的与输入图像相同类别的图像(正样本)和不同类别的图像(负样本)所提取的拼接后的特征,d(·,·)是距离度量,ξ是输入图像与正负样本距离的最小差值,ξ>0,max(·,·)是取两数较大值的函数;
Figure BDA00027222191700000811
其中,t是输入图像对应的目标类别编号,LCE(·,·)是交叉熵损失(Cross-entropy Loss,CE Loss)函数,其形式为:
LCE(q,t)=-lnqt
q和q(p),p=1,…,(P+1)分别是所有GAP(fp)拼接之后的特征f和局部特征fp输入到全局平均池化、全连接层、softmax函数后的输出向量,其表达式分别为:
Figure BDA0002722219170000091
Figure BDA0002722219170000092
其中,
Figure BDA0002722219170000093
Figure BDA0002722219170000094
均是全连接层,
Figure BDA0002722219170000095
Figure BDA0002722219170000096
Figure BDA0002722219170000097
分别是对应全连接层的参数,S是类别数,softmax(·)函数的输入为向量,其形式为:
Figure BDA0002722219170000098
R1(σ)是
Figure BDA0002722219170000099
的正则项,其表达式为:
Figure BDA00027222191700000910
步骤6(S6):根据分块图像Z的各个张量Zp∈Z和对应的局部不确定性估计
Figure BDA00027222191700000911
计算精炼后图像
Figure BDA00027222191700000912
精炼后图像
Figure BDA00027222191700000913
Figure BDA00027222191700000914
在图像j维度拼接而成,
Figure BDA00027222191700000915
具体通过下式计算:
Figure BDA00027222191700000916
步骤7(S7):将精炼后图像
Figure BDA00027222191700000917
整体输入到与步骤3中卷积神经网络CNN(·;Ω)共享参数Ω的卷积神经网络CNN(·;Ω)中,得到整体特征
Figure BDA00027222191700000918
Figure BDA00027222191700000919
Figure BDA00027222191700000920
Figure BDA00027222191700000921
分别是卷积神经网络输出整体特征的通道数、宽和高;
步骤8(S8):计算整体特征对应的整体不确定性估计
Figure BDA00027222191700000922
可通过下式计算:
Figure BDA00027222191700000923
其中,
Figure BDA00027222191700000924
是全连接层,参数为
Figure BDA00027222191700000925
步骤9(S9):根据步骤7计算的整体特征和步骤8计算的整体不确定性估计计算模型输出Y,模型输出Y可通过下式计算:
Figure BDA0002722219170000101
其中,
Figure BDA0002722219170000102
是将
Figure BDA0002722219170000103
维的
Figure BDA0002722219170000104
转化成对角矩阵,且
Figure BDA0002722219170000105
的元素为主对角线上元素,
Figure BDA0002722219170000106
是随机数矩阵,且其元素
Figure BDA0002722219170000107
均是服从标准正态分布的随机数;
步骤10(S10):根据各个局部特征、各个局部不确定性估计、整体特征和整体不确定性估计计算整体训练过程的第二损失函数L2
第二损失函数L2由三部分组成,分别是三元组损失函数
Figure BDA0002722219170000108
分类损失函数
Figure BDA0002722219170000109
和正则项
Figure BDA00027222191700001010
其计算方式如下:
Figure BDA00027222191700001011
其中,α2、β2和γ2均是非负乘子;
Figure BDA00027222191700001012
其中,
Figure BDA00027222191700001013
分别是在训练集中随机抽取的与输入图像相同类别的图像(正样本)和不同类别的图像(负样本)所提取的拼接后的特征,
Figure BDA00027222191700001014
Figure BDA00027222191700001015
其中,
Figure BDA00027222191700001016
其中,
Figure BDA00027222191700001017
Figure BDA00027222191700001018
其中,yk′是Y的第k′个元素,KL(·||·)是KL散度(Kullback-LeiblerDivergence),其表达式为:
Figure BDA00027222191700001019
步骤11(S11):计算模型训练过程的总损失函数L并通过反向传播(Backpropagation,BP)算法优化模型参数,其中总损失函数L通过下式计算:
L=L1+L2
通过反向传播算法优化模型参数。
步骤12(S12):重复上述步骤1至步骤11,直至总损失函数L收敛,获得训练完成的模型参数,进而得到训练完成的行人再识别模型。
本实施例所提出的基于不确定性估计的行人再识别模型训练方法将不确定性估计方法分别用于行人再识别模型的局部训练过程和整体训练过程,同时以分块图像和整体图像为单位进行质量过滤,分块图像的质量过滤能够很好地反映区域噪声,整体图像的质量过滤能够很好地反映随机噪声,因此能够同时抑制输入图像中的区域噪声和随机噪声,降低噪声对于行人再识别模型性能的影响,使行人再识别模型能够更加适应真实复杂场景,提高模型的稳定性,提升行人再识别的准确率。
在另一个实施例中,如图3所示,本发明提供一种基于不确定性估计的行人再识别方法,该方法利用前述实施例所述的基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型进行行人再识别,具体包括以下步骤:
步骤一(s1):获取用于模型输入的待识别的原始图像序列
Figure BDA0002722219170000111
其中,B是原始图像序列的序列长度,
Figure BDA0002722219170000112
是第b帧原始图像,b=1,…,B,在每一帧原始图像
Figure BDA0002722219170000113
中均包含同一行人;
步骤二(s2):将原始图像序列输入至利用前述实施例的基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型中,行人再识别模型对输入的原始图像序列执行以下步骤:
步骤二一(s21):对所有原始图像
Figure BDA0002722219170000121
进行前述实施例中基于不确定性估计的行人再识别模型训练方法中的步骤2至步骤4及步骤6至步骤7,计算得到整体特征集合
Figure BDA0002722219170000122
其中
Figure BDA0002722219170000123
是输入的第b帧原始图像
Figure BDA0002722219170000124
对应的整体特征;
步骤二二(s22):分别计算每个整体特征
Figure BDA0002722219170000125
的得分,即分别计算每个整体特征
Figure BDA0002722219170000126
的不确定性估计
Figure BDA0002722219170000127
得到不确定性估计集合
Figure BDA0002722219170000128
步骤二三(s23):计算输出集合
Figure BDA0002722219170000129
其中
Figure BDA00027222191700001210
可通过下式计算:
Figure BDA00027222191700001211
步骤三(s3):使用不确定性估计集合
Figure BDA00027222191700001212
对输出集合
Figure BDA00027222191700001213
进行排序,选择得分即不确定性估计最高的Δ个输出的标号,获得标号集合
Figure BDA00027222191700001214
和选定输出集合
Figure BDA00027222191700001215
步骤四(s4):将选定输出集合
Figure BDA00027222191700001216
中的所有输出与数据库中的样本计算距离,并分别匹配出距离最小的图像作为行人再识别的检索结果,最终得到行人再识别结果。
本实施例所提出的基于不确定性估计的行人再识别方法使用行人再识别模型进行行人再识别,行人再识别模型为利用基于不确定性估计的行人再识别模型训练方法训练得到的模型,在行人再识别模型训练过程中将不确定性估计方法分别用于局部训练过程和整体训练过程,同时以分块图像和整体图像为单位进行质量过滤,分块图像的质量过滤能够很好地反映区域噪声,整体图像的质量过滤能够很好地反映随机噪声,因此能够同时抑制输入图像中的区域噪声和随机噪声,降低噪声对于行人再识别模型性能的影响,使行人再识别模型能够更加适应真实复杂场景,具有更好的稳定性和更高的行人再识别准确率,因此本实施例所提出的基于不确定性估计的行人再识别方法具有行人再识别准确率和效率较高等优点。
此外,本发明还提供一种基于不确定性估计的行人再识别系统,该系统利用前述实施例所述的基于不确定性估计的行人再识别模型训练方法训练得到的基于不确定性估计的行人再识别模型进行行人再识别,具体包括:
获取模块100:获取用于模型输入的待识别的原始图像序列
Figure BDA0002722219170000131
其中,B是原始图像序列的序列长度,
Figure BDA0002722219170000132
是第b帧原始图像,b=1,…,B,在每一帧原始图像中均包含同一行人;
识别模块200,包括利用前述实施例的基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型,行人再识别模型对输入的原始图像序列执行以下步骤:
步骤二一:对所有原始图像
Figure BDA0002722219170000133
进行前述实施例中基于不确定性估计的行人再识别模型训练方法中的步骤2至步骤4及步骤6至步骤7,计算得到整体特征集合
Figure BDA0002722219170000134
其中
Figure BDA0002722219170000135
是输入的第b帧原始图像
Figure BDA0002722219170000136
对应的整体特征;
步骤二二:分别计算每个整体特征
Figure BDA0002722219170000137
的得分,即分别计算每个整体特征
Figure BDA0002722219170000138
的不确定性估计
Figure BDA0002722219170000139
得到不确定性估计集合
Figure BDA00027222191700001310
步骤二三:计算输出集合
Figure BDA00027222191700001311
其中
Figure BDA00027222191700001312
可通过下式计算:
Figure BDA00027222191700001313
排序模块300,用于使用不确定性估计集合
Figure BDA00027222191700001314
对输出集合
Figure BDA00027222191700001315
进行排序,选择得分即不确定性估计最高的Δ个输出的标号,获得标号集合
Figure BDA00027222191700001316
和选定输出集合
Figure BDA00027222191700001317
输出模块400,用于将选定输出集合
Figure BDA0002722219170000141
中的所有输出与数据库中的样本计算距离,并分别匹配出距离最小的图像作为行人再识别的检索结果,最终得到行人再识别结果。
本实施例所提出的基于不确定性估计的行人再识别系统使用行人再识别模型进行行人再识别,行人再识别模型为利用基于不确定性估计的行人再识别模型训练方法训练得到的模型,在行人再识别模型训练过程中将不确定性估计方法分别用于局部训练过程和整体训练过程,同时以分块图像和整体图像为单位进行质量过滤,分块图像的质量过滤能够很好地反映区域噪声,整体图像的质量过滤能够很好地反映随机噪声,因此能够同时抑制输入图像中的区域噪声和随机噪声,降低噪声对于行人再识别模型性能的影响,使行人再识别模型能够更加适应真实复杂场景,具有更好的稳定性和更高的行人再识别准确率,因此本实施例所提出的基于不确定性估计的行人再识别系统具有行人再识别准确率和效率较高等优点。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于不确定性估计的行人再识别模型训练方法,其特征在于,包括以下步骤:
步骤一:获取原始图像和初始化卷积神经网络参数;
步骤二:将所述原始图像按行分割成上下多个局部,得到分块图像;
步骤三:将所述分块图像的各个张量分别输入到卷积神经网络中,得到对应的局部特征;
步骤四:计算每一个所述局部特征对应的局部不确定性估计;
步骤五:根据各个所述局部特征和各个所述局部不确定性估计计算局部训练过程的第一损失函数;
步骤六:根据所述分块图像的各个张量和对应的所述局部不确定性估计计算精炼后图像;
步骤七:将所述精炼后图像输入到与步骤三中卷积神经网络共享参数的卷积神经网络中,得到整体特征;
步骤八:计算所述整体特征对应的整体不确定性估计;
步骤九:根据所述整体特征和所述整体不确定性估计计算模型输出;
步骤十:根据各个所述局部特征、各个所述局部不确定性估计、所述整体特征和所述整体不确定性估计计算整体训练过程的第二损失函数;
步骤十一:对所述第一损失函数和所述第二损失函数求和,得到模型训练过程的总损失函数,并通过反向传播算法优化模型参数;
步骤十二:重复上述步骤一至步骤十一,直至所述总损失函数收敛,得到训练完成的行人再识别模型。
2.根据权利要求1所述的基于不确定性估计的行人再识别模型训练方法,其特征在于,步骤二包括以下步骤:
步骤二一:获取掩膜M∈RW×H,掩膜M中的元素Mi,j通过下式计算:
Figure FDA0003722718610000011
其中,i=1,…,W,j=1,…,H,a是行人在所述原始图像中占据的比例,0<a≤1,R表示实数,W表示所述原始图像的宽,H表示所述原始图像的高;
步骤二二:计算所述原始图像每行的颜色信息X(r)∈RH,每行的颜色信息X(r)中的元素
Figure FDA0003722718610000021
通过下式计算:
Figure FDA0003722718610000022
其中,k=1,…,C,C表示所述原始图像的通道数;
步骤二三:计算每行的颜色信息X(r)相邻两项的差值,得到差值向量X(d)∈RH-1,差值向量X(d)中的元素
Figure FDA0003722718610000023
通过下式计算:
Figure FDA0003722718610000024
其中,j'=1,…,(H-1),|·|是取绝对值操作;
步骤二四:利用密度估计方法计算差值向量X(d)的P个峰值的下标
Figure FDA0003722718610000025
且1<n1<…<np<…<nP<H,np为整数,p=1,…,P;
步骤二五:使用下标
Figure FDA0003722718610000026
对所述原始图像按行进行分割,得到分块图像
Figure FDA00037227186100000215
Figure FDA0003722718610000028
其中,
Figure FDA0003722718610000029
是包含所有满足下标条件的所述原始图像的元素的张量,且n0=1,np+1=H。
3.根据权利要求2所述的基于不确定性估计的行人再识别模型训练方法,其特征在于,步骤四中通过下式计算每一个所述局部特征对应的局部不确定性估计
Figure FDA00037227186100000216
Figure FDA00037227186100000211
其中,
Figure FDA00037227186100000212
为第p个局部特征,CNN(·;Ω)为步骤三中的卷积神经网络,
Figure FDA00037227186100000213
是第p个局部特征的高,
Figure FDA00037227186100000214
C(f)、W(f)和H(f)分别是卷积神经网络输出整体特征的通道数、宽和高;
GAP(·)是全局平均池化函数,其具体形式为下式:
Figure FDA0003722718610000031
Figure FDA0003722718610000032
是连续伯努利分布的概率密度函数,x是输入,0<x<1,λ是分布参数,0<λ<1,其具体形式为下式:
Figure FDA0003722718610000033
其中,Const(·)是归一化函数;
λp通过下式计算:
Figure FDA0003722718610000034
其中,
Figure FDA0003722718610000035
Figure FDA0003722718610000036
是第p个全连接层,参数为
Figure FDA0003722718610000037
Figure FDA00037227186100000322
Figure FDA0003722718610000038
的具体形式为:
Figure FDA0003722718610000039
4.根据权利要求3所述的基于不确定性估计的行人再识别模型训练方法,其特征在于,步骤八中通过下式计算所述整体特征对应的整体不确定性估计
Figure FDA00037227186100000310
Figure FDA00037227186100000311
Figure FDA00037227186100000312
其中,
Figure FDA00037227186100000313
是全连接层,参数为
Figure FDA00037227186100000314
5.根据权利要求1或2所述的基于不确定性估计的行人再识别模型训练方法,其特征在于,所述第一损失函数为:
Figure FDA00037227186100000315
其中,
Figure FDA00037227186100000316
为三元组损失函数,
Figure FDA00037227186100000317
为分类损失函数,R1(σ)为正则项,α1、β1和γ1均是非负乘子。
6.根据权利要求1或2所述的基于不确定性估计的行人再识别模型训练方法,其特征在于,所述第二损失函数为:
Figure FDA00037227186100000318
其中,
Figure FDA00037227186100000319
为三元组损失函数,
Figure FDA00037227186100000320
为分类损失函数,
Figure FDA00037227186100000321
为正则项,α2、β2和γ2均是非负乘子。
7.一种基于不确定性估计的行人再识别方法,其特征在于,包括以下步骤:
步骤一:获取待识别的原始图像序列,所述原始图像序列中的每一帧原始图像均包含同一行人;
步骤二:将所述原始图像序列输入至利用权利要求1至6任意一项所述的基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型中,所述行人再识别模型对输入的所述原始图像序列执行以下步骤:
步骤二一:对所述原始图像序列中的所有原始图像依次进行所述基于不确定性估计的行人再识别模型训练方法中的步骤二至步骤四及步骤六至步骤七,得到整体特征集合
Figure FDA0003722718610000041
其中
Figure FDA0003722718610000042
是输入的第b帧原始图像
Figure FDA0003722718610000043
对应的整体特征,b=1,…,B,B是所述原始图像序列的序列长度;
步骤二二:分别计算每个整体特征
Figure FDA0003722718610000044
的不确定性估计
Figure FDA0003722718610000045
Figure FDA0003722718610000046
得到不确定性估计集合
Figure FDA0003722718610000047
步骤二三:计算输出集合
Figure FDA0003722718610000048
其中
Figure FDA0003722718610000049
通过下式计算:
Figure FDA00037227186100000410
步骤三:使用不确定性估计集合
Figure FDA00037227186100000411
对输出集合
Figure FDA00037227186100000412
进行排序,选择不确定性估计最高的Δ个输出的标号,获得标号集合
Figure FDA00037227186100000413
和选定输出集合
Figure FDA00037227186100000414
步骤四:将所述选定输出集合
Figure FDA00037227186100000415
中的所有输出与数据库中的样本计算距离,并分别匹配出距离最小的图像作为行人再识别的检索结果。
8.一种基于不确定性估计的行人再识别系统,其特征在于,包括:
获取模块,用于获取待识别的原始图像序列,所述原始图像序列中的每一帧原始图像均包含同一行人;
识别模块,包括利用权利要求1至6任意一项所述的基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型,所述行人再识别模型对输入的所述原始图像序列执行以下步骤:
步骤二一:对所述原始图像序列中的所有原始图像依次进行所述基于不确定性估计的行人再识别模型训练方法中的步骤二至步骤四及步骤六至步骤七,得到整体特征集合
Figure FDA0003722718610000051
Figure FDA0003722718610000052
是输入的第b帧原始图像
Figure FDA0003722718610000053
对应的整体特征,b=1,…,B,B是所述原始图像序列的序列长度;
步骤二二:分别计算每个整体特征
Figure FDA0003722718610000054
的不确定性估计
Figure FDA0003722718610000055
Figure FDA0003722718610000056
得到不确定性估计集合
Figure FDA0003722718610000057
步骤二三:计算输出集合
Figure FDA0003722718610000058
其中
Figure FDA0003722718610000059
通过下式计算:
Figure FDA00037227186100000510
排序模块,用于使用不确定性估计集合
Figure FDA00037227186100000511
对输出集合
Figure FDA00037227186100000512
进行排序,选择不确定性估计最高的Δ个输出的标号,获得标号集合
Figure FDA00037227186100000513
和选定输出集合
Figure FDA00037227186100000514
输出模块,用于将所述选定输出集合
Figure FDA00037227186100000515
中的所有输出与数据库中的样本计算距离,并分别匹配出距离最小的图像作为行人再识别的检索结果。
CN202011091366.6A 2020-10-13 2020-10-13 一种基于不确定性估计的行人再识别方法 Active CN112200093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011091366.6A CN112200093B (zh) 2020-10-13 2020-10-13 一种基于不确定性估计的行人再识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011091366.6A CN112200093B (zh) 2020-10-13 2020-10-13 一种基于不确定性估计的行人再识别方法

Publications (2)

Publication Number Publication Date
CN112200093A CN112200093A (zh) 2021-01-08
CN112200093B true CN112200093B (zh) 2022-08-30

Family

ID=74008843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011091366.6A Active CN112200093B (zh) 2020-10-13 2020-10-13 一种基于不确定性估计的行人再识别方法

Country Status (1)

Country Link
CN (1) CN112200093B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017501A (zh) * 2022-06-02 2022-09-06 北京邮电大学 一种基于不确定性估计的图像对抗攻击样本检测方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034044B (zh) * 2018-06-14 2022-04-05 天津师范大学 一种基于融合卷积神经网络的行人再识别方法
CN109635728B (zh) * 2018-12-12 2020-10-13 中山大学 一种基于非对称度量学习的异构行人再识别方法
CN109829414B (zh) * 2019-01-25 2020-11-24 华南理工大学 一种基于标签不确定性和人体组件模型的行人再识别方法
CN110008861A (zh) * 2019-03-21 2019-07-12 华南理工大学 一种基于全局和局部特征学习的行人再识别方法
CN111582154A (zh) * 2020-05-07 2020-08-25 浙江工商大学 基于多任务骨架姿态划分部件的行人重识别方法

Also Published As

Publication number Publication date
CN112200093A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN111723675B (zh) 基于多重相似性度量深度学习的遥感图像场景分类方法
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
CN110717526B (zh) 一种基于图卷积网络的无监督迁移学习方法
CN109359541A (zh) 一种基于深度迁移学习的素描人脸识别方法
CN111340123A (zh) 一种基于深度卷积神经网络的图像分数标签预测方法
CN114220124A (zh) 一种近红外-可见光跨模态双流行人重识别方法及系统
US20230162522A1 (en) Person re-identification method of integrating global features and ladder-shaped local features and device thereof
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN110097060B (zh) 一种面向树干图像的开集识别方法
CN112633382A (zh) 一种基于互近邻的少样本图像分类方法及系统
CN109034035A (zh) 基于显著性检测和特征融合的行人重识别方法
CN111027377B (zh) 一种双流神经网络时序动作定位方法
CN110211127B (zh) 基于双相关性网络的图像分割方法
CN111612024A (zh) 特征提取方法、装置、电子设备及计算机可读存储介质
CN113947814A (zh) 一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法
CN113221694A (zh) 一种动作识别方法
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN109886281A (zh) 一种基于四元数超限学习机彩色图像识别方法
CN115063832A (zh) 一种基于全局与局部特征的对抗学习跨模态行人重识别方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN115439884A (zh) 一种基于双分支自注意力网络的行人属性识别方法
CN112200093B (zh) 一种基于不确定性估计的行人再识别方法
CN105844299B (zh) 一种基于词袋模型的图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant