CN113191338A - 一种行人重识别方法、装置、设备及可读存储介质 - Google Patents
一种行人重识别方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN113191338A CN113191338A CN202110727876.6A CN202110727876A CN113191338A CN 113191338 A CN113191338 A CN 113191338A CN 202110727876 A CN202110727876 A CN 202110727876A CN 113191338 A CN113191338 A CN 113191338A
- Authority
- CN
- China
- Prior art keywords
- isomorphic
- network
- pedestrian
- loss value
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 176
- 230000006870 function Effects 0.000 claims abstract description 138
- 230000008569 process Effects 0.000 claims description 32
- 239000000126 substance Substances 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 13
- 230000000007 visual effect Effects 0.000 description 9
- 230000001965 increasing effect Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种行人重识别方法、装置、设备及可读存储介质;在本方案中,对初始行人重识别网络的同构训练网络,通过动态分类概率损失函数等目标函数训练,得到携带更为准确的最终权重参数的最终行人重识别网络,并通过最终行人重识别网络执行行人重识别任务,通过该方式,可以提升行人重识别网络处理行人重识别任务的准确率及性能,减少设备内存储空间的占用,更利于便携式设备的存储与部署,减少执行行人重识别任务的计算量,提升行人重识别任务的处理速率。
Description
技术领域
本发明涉及图像识别技术领域,更具体地说,涉及一种行人重识别方法、装置、设备及可读存储介质。
背景技术
行人重识别(Person re-identification,Re-ID)是一种重要的图像识别技术,广泛应用于公安系统、交通监管等领域。行人重识别对分布在不同位置的摄像头进行搜索来确定不同摄像头视野中的行人是否是同一个行人,该技术可以用于犯罪嫌疑人搜索、遗失儿童搜索等场景中。行人重识别主要通过深度学习技术实现,并且随着深度学习技术的不断发展,网络模型层出不穷,为了进一步提升行人重识别网络处理行人重识别任务的准确率及性能,研究人员往往向着加深或者加宽网络的方向去设计新的行人重识别网络。不可否认随着网络变深或者变宽,模型的学习能力也不断增强,但是,以该方式提高网络性能有以下缺点:
1、更深、更宽或更为复杂的行人重识别网络通常会带来参数量的激增,参数量的增加不利于便携式设备的存储与部署。例如:在网络摄像头中实现实时的行人检测识别程序的部署,需要网络具有较小的参数量(便于存储)和较高的识别准确率。
2、更深、更宽或更为复杂的行人重识别网络通常会带来计算量的增加,不利于对实时性要求较高的场景应用。例如:对犯罪嫌疑人的检索与跟踪,大的计算延迟会使整个系统错失最好的时机,给系统功能带来负面影响。
因此,如何在提升行人重识别网络处理行人重识别任务的准确率及性能的基础上,减少设备存储人重识别网络所占用的存储空间,更利于便携式设备的存储与部署,减少执行行人重识别任务的计算量,提升行人重识别任务的处理速率,是本领域技术人员需要解决的技术问题。
发明内容
本发明的目的在于提供一种行人重识别方法、装置、设备及可读存储介质,以在不增加参数量和计算量的前提下,提升深度学习网络处理行人重识别任务的准确率及性能,减少设备内存储空间的占用,更利于便携式设备的存储与部署,减少执行行人重识别任务的计算量,提升行人重识别任务的处理速率。
为实现上述目的,本发明提供一种行人重识别方法,包括:
确定与初始行人重识别网络对应的同构训练网络;其中,所述同构训练网络具有多个网络结构相同的同构分支;
利用目标损失函数对所述同构训练网络进行训练,确定所述同构训练网络中每个网络层的最终权重参数;其中,所述目标损失函数包括基于知识协同的动态分类概率损失函数,所述动态分类概率损失函数用于:利用每个训练样本在每两个同构分支的分类层输出特征,确定同构分支间的单向知识协同损失值;
通过所述初始行人重识别网络加载所述最终权重参数,得到最终行人重识别网络,以利用所述最终行人重识别网络执行行人重识别任务;
其中,所述利用目标损失函数对所述同构训练网络进行训练,确定所述同构训练网络中每个网络层的最终权重参数,包括:
在对所述同构训练网络的训练过程中,确定交叉熵损失函数的交叉熵损失值、确定三元组损失函数的三元组损失值、确定所述动态分类概率损失函数的单向知识协同损失值;
利用所述交叉熵损失值、所述三元组损失值、所述单向知识协同损失值的总损失值,确定所述同构训练网络中每个网络层的最终权重参数;
其中,确定所述动态分类概率损失函数的单向知识协同损失值的过程包括:
利用每个样本在每个同构分支的分类层输出特征及所述动态分类概率损失函数计算单向知识协同损失值;所述动态分类概率损失函数为:
其中,为单向知识协同损失值,为训练样本的总数,表示第个同构分支,表示第个同构分支,表示任意两个同构分支构成的可选空间,为分类层输出特征的维度,为第个样本,为在第个同构分支中的第个维度的分类层输出特征,为在第个同构分支中的第个维度的分类层输出特征,表示第个同构分支的网络参数,表示第个同构分支的网络参数。
其中,所述确定与初始行人重识别网络对应的同构训练网络,包括:
在所述初始行人重识别网络的中间层引出辅助训练分支,生成具有非对称网络结构的同构训练网络。
其中,所述确定与初始行人重识别网络对应的同构训练网络,包括:
在所述初始行人重识别网络的中间层引出辅助训练分支,生成具有对称网络结构的同构训练网络。
其中,所述确定三元组损失函数的三元组损失值的过程包括:
根据每个样本在每个同构分支的嵌入层输出特征,以及第一三元组损失函数,确定每个同构分支的第一损失值;
从每个同构分支中选取数值最小的第一损失值作为所述三元组损失值;
其中,所述第一三元组损失函数为:
其中,为第个同构分支的第一损失值,为训练样本的总数,为锚点样本,为锚点样本的嵌入层输出特征,为样本的分类标签,为与锚点样本属于同一分类标签的具有最大类内距离的样本,为样本的嵌入层输出特征,为与锚点样本属于不同分类标签的具有最小类间距离的样本,为样本的嵌入层输出特征,为第一参数,用于求取距离,与均表示求取最大距离,表示求取最小距离,表示锚点样本的分类标签,表示p样本的分类标签,表示q样本的分类标签。
其中,所述确定每个同构分支的第一损失值之后,还包括:
利用每个同构分支的第一损失值及第二三元组损失函数,确定每个同构分支的第二损失值;
所述第二三元组损失函数为:
相应的,所述从每个同构分支中选取数值最小的第一损失值作为所述三元组损失值,包括:
从每个同构分支中选取数值最小的第二损失值作为所述三元组损失值。
为实现上述目的,本发明进一步提供一种行人重识别装置,包括:
网络确定模块,用于确定与初始行人重识别网络对应的同构训练网络;其中,所述同构训练网络具有多个网络结构相同的同构分支;
参数确定模块,用于利用目标损失函数对所述同构训练网络进行训练,确定所述同构训练网络中每个网络层的最终权重参数;其中,所述目标损失函数包括基于知识协同的动态分类概率损失函数,所述动态分类概率损失函数用于:利用每个训练样本在每两个同构分支的分类层输出特征,确定同构分支间的单向知识协同损失值;
参数加载模块,用于通过所述初始行人重识别网络加载所述最终权重参数,得到最终行人重识别网络;
行人重识别模块,用于利用所述最终行人重识别网络执行行人重识别任务;
其中,所述参数确定模块包括:
损失值确定单元,用于在对所述同构训练网络的训练过程中,确定交叉熵损失函数的交叉熵损失值、确定三元组损失函数的三元组损失值、确定所述动态分类概率损失函数的单向知识协同损失值;
权重确定单元,用于利用所述交叉熵损失值、所述三元组损失值、所述单向知识协同损失值的总损失值,确定所述同构训练网络中每个网络层的最终权重参数;
其中,所述损失值确定单元包括:
计算子单元,用于利用每个样本在每个同构分支的分类层输出特征及所述动态分类概率损失函数计算单向知识协同损失值;
所述动态分类概率损失函数为:
其中,为单向知识协同损失值,为训练样本的总数,表示第个同构分支,表示第个同构分支,表示任意两个同构分支构成的可选空间,为分类层输出特征的维度,为第个样本,为在第个同构分支中的第个维度的分类层输出特征,为在第个同构分支中的第个维度的分类层输出特征,表示第个同构分支的网络参数,表示第个同构分支的网络参数。
其中,所述损失值确定单元包括:
第一确定子单元,用于根据每个样本在每个同构分支的嵌入层输出特征,以及第一三元组损失函数,确定每个同构分支的第一损失值;
选取子单元,用于从每个同构分支中选取数值最小的第一损失值作为所述三元组损失值;
其中,所述第一三元组损失函数为:
其中,为第个同构分支的第一损失值,为训练样本的总数,为锚点样本,为锚点样本的嵌入层输出特征,为样本的分类标签,为与锚点样本属于同一分类标签的具有最大类内距离的样本,为样本的嵌入层输出特征,为与锚点样本属于不同分类标签的具有最小类间距离的样本,为样本的嵌入层输出特征,为第一参数,用于求取距离,与均表示求取最大距离,表示求取最小距离,表示锚点样本的分类标签,表示p样本的分类标签,表示q样本的分类标签。
其中,所述损失值确定单元还包括:
第二确定子单元,用于利用每个同构分支的第一损失值及第二三元组损失函数,确定每个同构分支的第二损失值;
所述第二三元组损失函数为:
相应的,所述选取子单元具体用于:从每个同构分支中选取数值最小的第二损失值作为所述三元组损失值。
为实现上述目的,本发明进一步提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述行人重识别方法的步骤。
为实现上述目的,本发明进一步提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述行人重识别方法的步骤。
通过以上方案可知,本发明实施例提供的一种行人重识别方法、装置、设备及可读存储介质;本方案执行行人重识别任务之前,首先需要构建初始行人重识别网络的同构训练网络,由于该同构训练网络具有多个网络结构相同的同构分支,因此本方案在训练过程中,可挖掘同构分支之间的特征信息,使同构分支之间相互正则化,从而促使各个同构分支的准确率更高;并且,本方案通过基于知识协同的动态分类概率损失函数对该同构训练网络进行训练,可在训练过程中实现同构分支之间不同层次信息的交互,多个同构分支对同一数据提供各自不同的视角,通过不同视角之间的知识协同实现分支之间的相互正则化,从而提高网络的准确率。因此,本方案通过上述操作对同构训练网络进行训练得到更为准确的最终权重参数后,初始行人重识别网络便可加载该最终权重参数执行行人重识别任务,从而提升行人重识别网络处理行人重识别任务的准确率及性能,减少设备内存储空间的占用,更利于便携式设备的存储与部署,减少执行行人重识别任务的计算量,提升行人重识别任务的处理速率;并且,由于本方案只需要更改网络训练过程,而在网络应用过程,并没有对网络进行复杂化处理,因此本方案可在不增加任何参数量和计算量的前提下最大化的挖掘网络潜能,提升网络性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种行人重识别方法流程示意图;
图2a为本发明实施例公开的一网络结构示意图;
图2b为本发明实施例公开的另一网络结构示意图;
图2c为本发明实施例公开的另一网络结构示意图;
图3a为本发明实施例公开的一种初始行人重识别网络结构示意图;
图3b为本发明实施例公开的一种具有非对称网络结构的同构训练网络示意图;
图3c为本发明实施例公开的一种具有对称网络结构的同构训练网络示意图;
图4为本发明实施例公开的一种同构训练网络示意图;
图5为本发明实施例公开的一种最终行人重识别网络结构示意图;
图6a为本发明实施例公开的一种具体的同构训练网络结构示意图;
图6b为本发明实施例公开的一种具体的最终行人重识别网络结构示意图;
图6c为本发明实施例公开的一种行人重识别任务执行流程示意图;
图7为本发明实施例公开的一种行人重识别装置结构示意图;
图8为本发明实施例公开的一种电子设备结构示意图。
具体实施方式
而在本发明中,发现对同一数据的多种观点将提供额外的正则化信息,从而提高网络准确性,也即:对于同一图像的多个结果可以相互辅助,从而利用群体的智慧获得更准确的结果。该多个结果既包括最终结果,也包括中间结果。基于此,本发明公开了一种行人重识别方法、装置、设备及可读存储介质,在本方案中,通过引入知识协同方法,可在不引入额外的网络参数量和计算量的基础上,通过优化训练过程,挖掘网络的潜力,提升网络的准确率及性能,使其能够达到最优性能,从而在网络应用过程中表现出更好的结果。其中:知识在本发明中定义为网络中的特征图。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明实施例提供的一种行人重识别方法流程示意图;通过图1可以看出,该方法具体包括如下步骤:
S101、确定与初始行人重识别网络对应的同构训练网络;该同构训练网络具有多个网络结构相同的同构分支;
需要说明的是,本实施例中的初始行人重识别网络为未经过训练的原始深度学习网络;并且,在本实施例中,并不对该初始行人重识别网络的具体网络结构进行限定,只要该初始行人重识别网络经过训练后,可执行行人重识别操作即可。并且,本方案可以应用在图像分类、分割、检索等多个领域中,在本实施例中,仅以应用在行人重识别这一特定应用领域为例对本方案进行具体说明。
在本实施例中,获得初始行人重识别网络后,可通过对该初始行人重识别网络重构获得对应的同构训练网络。具体来说,卷积神经网络通常是一个由多层网络叠加而成的深度的结构。参见图2a、2b和2c,为本发明实施例提供的三种不同的网络结构示意图;其中,图2a代表了34层的ResNet网络(Residual Networks,深度残差网络)包含着ShoutcutConnection(抄近道连接)。图2b代表34层的Plain网络,图2c代表19层的VGG(VisualGeometry Group)网络,以上网络都是多层堆叠的结构,以上单分支的网络在本方案中称之为主干网络。为了对本方案的同构训练网络进行清楚描述,参见图3a,为本发明实施例提供了一种初始行人重识别网络结构示意图,通过图3a可以看出,在本实施例中,以初始行人重识别网络具有网络层A~网络层E这五层为例进行说明,网络层A~网络层E为主干网络。
并且,本方案创建与初始行人重识别网络对应的同构训练网络时,可在初始行人重识别网络的中间层引出辅助训练分支,生成具有非对称网络结构的同构训练网络,或者,生成具有对称网络结构的同构训练网络。参见图3b,本发明实施例提供了一种具有非对称网络结构的同构训练网络示意图,参见图3c,为本发明实施例提供了一种具有对称网络结构的同构训练网络示意图。通过图3b及图3c可以看出,本实施例从主干网络引出辅助训练分支的中间层为:网络层C和网络层D;并且,图3b中的网络层C引出的辅助训练分支为:网络层D’-网络层E’’,图3b中的网络层D引出的辅助训练分支为:网络层E’,其中,网络层D’与网络层D的结构相同,网络层E’和网络层E’’与网络层E的结构相同,因此本实施例生成的具有非对称网络结构的同构训练网络共具有三个网络结构相同的同构分支,分别为:
1、网络层A-网络层B-网络层C-网络层D-网络层E;
2、网络层A-网络层B-网络层C-网络层D-网络层E’;
3、网络层A-网络层B-网络层C-网络层D’-网络层E’’。
进一步,图3c中的网络层C引出的辅助训练分支为:网络层D’-网络层E’’以及网络层D’-网络层E’’’,网络层D引出的辅助训练分支为:网络层E’,其中,网络层D’与网络层D的结构相同,网络层E’、网络层E’’和网络层E’’’与网络层E的结构相同,因此本实施例生成的具有对称网络结构的同构训练网络共具有四个网络结构相同的同构分支,分别为:
1、网络层A-网络层B-网络层C-网络层D-网络层E;
2、网络层A-网络层B-网络层C-网络层D-网络层E’;
3、网络层A-网络层B-网络层C-网络层D’-网络层E’’;
4、网络层A-网络层B-网络层C-网络层D’-网络层E’’’。
可见,由于本实施例引出的辅助训练分支中的网络层的网络结构与主干网络中对应的网络层的网络结构相同,因此可以说明,最终生成的同构训练网络具有多个网络结构相同的同构分支。并且,本方案从主干网络的中间层引出辅助训练分支时,并不具体限定从网络的哪一中间层引出辅助训练分支,可根据实际情况进行设定;并且,本实施例在引出辅助训练分支后,可生成基于辅助派生的具有非对称网络结构的同构训练网络(如图3b所示),或者生成基于层级派生的具有对称网络结构的同构训练网络(如图3c所示),在实际应用时,具体生成哪种类型的同构训练网络,可根据资源情况自定义设置,如:若硬件设备的计算性能强,可生成具有对称网络结构的同构训练网络,若硬件设备的计算性能一般,则可生成具有非对称网络结构的同构训练网络等等。
可以理解的是,目前的深度学习网络中,基于异构的辅助分类网络结构非常多见,例如GoogleNet等。其中,异构的辅助分类网络是指从主干网络引出辅助分类分支,但该辅助分类分支网络结构与主干网络非常不同,因此,基于异构的辅助分支设计需要丰富的经验,简单的在网络层的某些位置引入异构分支不会增加网络性能,同时异构分支网络与主分支网络结构不同,也需要单独设计。而本申请公开的这种基于同构网络的辅助训练分支与基于异构网络的辅助训练分支相比,至少具有如下优点:
1)同构辅助训练分支的网络结构与主干网络相同,不需要单独设计网络结构,因此网络设计比较简单。
2)同构辅助训练分支具有天然的分支相似性,即,每个辅助训练分支结构相同,输入也是相同的,但初始化的权重值不同,每个分支对输入数据提供各自的观点。通过挖掘辅助分支之间的特征信息,可以使分支之间相互正则,从而促使各个分支向准确率更高的方向发展。
S102、利用目标损失函数对同构训练网络进行训练,确定同构训练网络中每个网络层的最终权重参数;该目标损失函数包括基于知识协同的动态分类概率损失函数,用于利用每个训练样本在每两个同构分支的分类层输出特征确定同构分支间的单向知识协同损失值;
S103、通过初始行人重识别网络加载最终权重参数,得到最终行人重识别网络,以利用最终行人重识别网络执行行人重识别任务。
在本实施例中,建立同构训练网络后,需要通过目标损失函数对该同构训练网络进行训练使其收敛,收敛后得到训练好的网络最终权重参数。在执行行人重识别等任务时,预先加载网络训练好的最终权重参数对输入数据进行最终的分类。需要说明的是,本实施例对同构训练网络训练时,可利用目前对网络的通用训练过程进行训练,从而得到最终权重参数,在训练过程中,所使用的损失函数可以包括交叉熵损失函数、三元组损失函数等等,并且,由于本实施例中的同构训练网络具有多个网络结构相同的同构分支,因此本方案基于同构训练网络这一特殊结构,提出了一种基于知识协同的动态分类概率损失函数,利用该动态分类概率损失函数对同构训练网络进行训练,可让同构分支之间可以通过相互模仿学习使其最终预测结果的概率分布相似;同时通过加强分支之间的信息交流,使主干网络能够通过同时支持多个分支网络的收敛,提高主干网络的泛化能力,从而进一步提高网络的性能。
在本实施例中,提供了一种对同构训练网络的训练流程,包括如下步骤:
一、根据初始行人重识别网络的网络结构,在主干网络中选择合适的引出位置,从而确定引出辅助训练分支的中间层,并构建基于同构网络的辅助训练分支,得到同构训练网络。
二、确定目标损失函数,通过目标损失函数对同构训练网络中的所有同构分支求取损失,该损失与目标损失函数相对应,若目标损失函数包括:交叉熵损失函数、三元组损失函数及知识协同损失函数,则得到的同构分支损失也包括:交叉熵损失值、三元组损失值、知识协同损失值。
三、根据如上损失函数对网络进行训练,使其收敛。
四、存储训练好的权重参数。
具体来说,目前对网络训练过程中,通常包括如下两个阶段:第一个阶段是数据由低层次向高层次传播的阶段,即前向传播阶段。另外一个阶段是,当前向传播得出的结果与预期不相符时,将误差从高层次向底层次进行传播训练的阶段,即反向传播阶段,具体训练过程为:
1、网络层权值进行初始化,一般采用随机初始化;
2、输入训练图像数据经过卷积层、下采样层、全连接层等各网络层的前向传播得到输出值;
3、求出网络的输出值与目标值(标签)之间的误差,误差求取方法为:求取网络的输出值,并基于上述目标损失函数得出总损失值;
4、将误差反向传回网络中,依次求得网络各层:全连接层,卷积层等各网络层的反向传播误差。
5、网络各层根据各层的反向传播误差对网络中的所有权重系数进行调整,即进行权重的更新。
6、重新随机选取新的训练图像数据,然后进入到第2步,获得网络前向传播得到输出值。
7、无限往复迭代,当求出网络的输出值与目标值(标签)之间的误差小于某个阈值,或者迭代次数超过某个阈值时,结束训练。
8、保存训练好的所有层的网络参数。
通过上述流程对网络训练结束后,即可得到同构训练网络中每个网络层的最终权重参数,该网络在执行行人重识别等图像处理任务时,需要去掉所有辅助训练分支后加载最终权重参数进行处理,也就是说:本实施例通过未添加辅助训练分支的初始行人重识别网络加载最终权重参数得到最终行人重识别网络,并利用该最终行人重识别网络执行行人重识别等图像处理任务;需要说明的是,由于初始行人重识别网络只包括主干网络,不包括辅助训练分支,而对同构训练网络进行训练得到的权重参数包括:主干网络的权重参数和辅助训练分支的权重参数,因此通过初始行人重识别网络加载最终权重参数时,只会加载主干网络的权重参数。
综上可以看出,本方案执行行人重识别操作之前,首先需要构建初始行人重识别网络的同构训练网络,由于该同构训练网络具有多个网络结构相同的同构分支,因此本方案在训练过程中,可挖掘同构分支之间的特征信息,使同构分支之间相互正则化,从而促使各个同构分支的准确率更高;并且,本方案通过基于知识协同的动态分类概率损失函数对该同构训练网络进行训练,可在训练过程中实现同构分支之间不同层次信息的交互,多个同构分支对同一数据提供各自不同的视角,通过不同视角之间的知识协同实现分支之间的相互正则化,从而提高网络的准确率。因此,本方案通过上述操作对同构训练网络进行训练得到更为准确的最终权重参数后,初始行人重识别网络便可加载该最终权重参数执行行人重识别操作,从而提升网络性能;并且,由于本方案只需要更改网络训练过程,而在网络应用过程,并没有对网络进行复杂化处理,因此本方案可在不增加任何参数量和计算量的前提下最大化的挖掘网络潜能,提升网络性能。进一步的,本申请可以让最终行人重识别网络在执行行人重识别任务时,避免因最终行人重识别网络的参数量巨大带来额外的存储空间,从而减少了存储空间的占用,因此可将该最终行人重识别网络部署在便携式设备中,通过便携式设备运行该最终行人重识别网络执行行人重识别任务;并且,该最终行人重识别网络在执行行人重识别任务时,并不会增加额外的计算量,因此,在本申请中,该最终行人重识别网络可以执行实时性校高的行人重识别任务,从而提升行人重识别任务的准确率及执行速度。
基于上述实施例,在本实施例中,利用目标损失函数对所述同构训练网络进行训练,确定所述同构训练网络中每个网络层的最终权重参数,包括:
在对同构训练网络的训练过程中,确定交叉熵损失函数的交叉熵损失值、确定三元组损失函数的三元组损失值、确定动态分类概率损失函数的单向知识协同损失值,并利用交叉熵损失值、三元组损失值、单向知识协同损失值的总损失值,确定同构训练网络中每个网络层的最终权重参数。
也就是说,本实施例主要基于交叉熵损失函数(cross-entropy)、三元组损失函数(Triplet Loss)和动态分类概率损失函数(Knowledge synergy for dynamic classifiedprobability,KSP)对网络进行训练,在此,对上述各个损失函数进行具体说明。参见图4,本发明实施例提供了一种同构训练网络示意图;通过图4可以看出,该同构训练网络为非对称网络结构,在原主干网络的基础上引出两个辅助训练分支,目前共有三个同构分支:Branch1、Branch2、Branch3。该同构训练网络在训练结束获得最终权重参数后,会将辅助训练分支去掉,保留原主干网络,参见图5,为本发明实施例提供的一种最终行人重识别网络结构示意图,通过图5所示的网络加载训练获得的权重参数后,即可执行行人重识别等图像处理任务。
在本实施例中,首先求取每个分支的交叉熵损失函数(cross-entropy loss),公式如下:
其中,网络输入表示为:,代表样本图像的总数,代表第张图像,代表该张图像对应的分类标签。代表网络模型输出特征,下标c代表获取网络经过softmax层以后的分类层特征。如图4所示,计算交叉熵损失函数获取网络分类层的输出特征,代表网络输出的分类层特征向量的维度,代表同构分支数目,代表第个同构分支的交叉熵损失函数,代表第个同构分支的网络参数,是超参数,代表各分支交叉熵损失的权重。以上公式即求取输入图像的每个同构分支的交叉熵损失并进行加权求和。
进一步,本实施例确定三元组损失函数的三元组损失值的过程包括:
根据每个样本在每个同构分支的嵌入层输出特征,以及第一三元组损失函数,确定每个同构分支的第一损失值;
从每个同构分支中选取数值最小的第一损失值作为三元组损失值;
其中,所述第一三元组损失函数为:
其中,为第个同构分支的第一损失值,为训练样本的总数,为锚点样本,为锚点样本的嵌入层输出特征,为样本的分类标签,为与锚点样本属于同一分类标签的具有最大类内距离的样本,为样本的嵌入层输出特征,为与锚点样本属于不同分类标签的具有最小类间距离的样本,为样本的嵌入层输出特征,为第一参数,用于求取距离,与均表示求取最大距离,表示求取最小距离,表示锚点样本的分类标签,表示p样本的分类标签,表示q样本的分类标签。
具体来说,三元组损失函数通过对输入数据中的困难样本进行挖掘,计算三元组数据中的最大类内距离和最小类间距离,并在损失函数中对以上距离进行约束,使最大类内距离尽可能的小,最小类间距离尽可能的大,从而使样本在其映射后(深度学习网络计算后得到的特征)的特征空间中不同类别样本之间的距离增大,同类别样本尽量聚集,提高了识别准确率。上述公式3即为本实施例提供的一种三元组损失函数,代表求取向量之间的距离,可以使用欧式距离、余弦距离等。公式3中的,代表anchor,即锚点样本。代表获取图像在网络Embedding层的特征。也即:在本实施例中,需要遍历每个batch中的所有样本,所遍历的样本称为锚点样本,求取锚点样本特征的最大类内距离和最小类间距离,带入如上公式3。代表与锚点样本同类的图像特征。代表与锚点样本不同类的图像特征。需要注意的是,本实施例中的均抽取网络中Embedding层的特征。
进一步,上述公式3所述的第一三元组损失函数虽然可以使不同类别样本之间的距离增大,同类别样本尽量聚集,提高了识别准确率,但是,该第一三元组损失函数仅仅考虑样本的类内差和类间差之间的差值,忽略了类内差的绝对距离大小(即:绝对值),如果能进一步限制类内差的绝对值大小,则可进一步使同类别样本尽量聚集,从而进一步提高识别准确率。因此在本实施例中,确定每个同构分支的第一损失值之后,还包括如下步骤:
利用每个同构分支的第一损失值及第二三元组损失函数,确定每个同构分支的第二损失值;其中,该第二三元组损失函数为:
其中,为第b个同构分支的第一损失值,为第b个同构分支的第二损失值,为第二参数;通过以上约束可以使朝着更小的趋势发展,朝着更大的趋势发展,即:限制类内差的绝对距离大小。相应的,计算出第二损失值后,即可根据公式2计算的交叉熵损失函数及公式4计算的三元组损失函数得到总损失函数如公式5,其中,公式中的为超参数,可以训练或预先设定。
基于上述内容,本实施例提供一种利用交叉熵损失函数及三元组损失函数计算损失值的具体流程示意图:
2)求取每个样本在每个batch中的最小类内距离和最大类间距离,其中:每个样本在一个batch中总有一个最小的类内和最大的类间样本。
6)通过公式5求取总损失值。
进一步,得益于同构分支的天然相似性,不同的同构分支可以作为彼此的软标签进行模仿学习,也就是说:同构分支之间可以通过相互模仿学习使其最终预测结果的概率分布相似,因此在本实施例中,可通过基于知识协同的动态分类概率损失函数来实现分支间的相互正则化。具体来说,本实施例确定动态分类概率损失函数的单向知识协同损失值的过程包括:
利用每个样本在每个同构分支的分类层输出特征及动态分类概率损失函数计算单向知识协同损失值;
其中,动态分类概率损失函数为:
其中,为单向知识协同损失值,为训练样本的总数,表示第个同构分支,表示第个同构分支,表示任意两个同构分支构成的可选空间,为分类层输出特征的维度,为第个样本,为在第个同构分支中的第个维度的分类层输出特征,为在第个同构分支中的第个维度的分类层输出特征,表示第个同构分支的网络参数,表示第个同构分支的网络参数。
具体来说,本方案为了进行知识协同,实现分支之间的信息交互,在本实施例中,在两两分支之间添加了基于知识协同的loss函数,实现同构分支之间不同层次信息的交互。多个同构分支对同一数据提供各自不同的视角,通过不同视角之间的知识协同实现分支之间的相互正则化,从而促使网络借助群体智慧向识别率更为准确的方向发展。为了方便说明,在此将公式6分解为如下两个公式:
通过公式7和8所示,知识协同损失函数具体执行步骤可以归纳如下:
1) 对每个batch的所有样本进行遍历,如上所述,假设每个batch的样本包含N个样本,则遍历N次。
3)对于所有分支输出结果,两两进行遍历,例如:本发明举例共有3个分支1、2、3,任意两个同构分支构成的可选空间共有6种组合:(1,2)(1,3)(2,1)(2,3)(3,1)(3,2),可以看出,本方案是一种单项的知识协同的方式,也即:同构分支向同构分支学习时,同构分支并不向同构分支学习,通过公式7即可求取每种组合的单向知识协同损失值。
进一步的,对于所有分支输出结果,虽然分支之间相互学习可以增加系统的鲁棒性和泛化能力,但是不可避免会引入分类噪声,如:两两分支之间的相互学习,A分支向B分支学习的时候,B标签一定会有错误的情况,这种情况下便不可避免的引入噪声信息。因此,在本实施例中,为了使系统能够更稳定收敛,构建了一种新型的虚拟标签学习技术。
计算出虚拟标签后,需要将所有同构分支的分类层输出特征与虚拟标签计算基于虚拟分支的知识协同损失函数。也就是说,本申请中的目标损失函数还包括:基于虚拟分支的知识协同损失函数,该基于虚拟分支的知识协同损失函数具体为:
综上可见,在本实施例中,通过在目标损失函数中添加基于虚拟分支的知识协同损失函数确定虚拟分支知识协同损失值,并将虚拟分支知识协同损失值添加至总损失值中,可以在分支之间相互学习时,避免引入分类噪声,从而提高行人重识别网络在执行行人重识别任务时的准确度。
综上所述,基于上文所述的利用交叉熵损失函数及三元组损失函数计算损失值的过程,结合动态分类概率损失函数的单向知识协同损失值,可以得出交叉熵损失值、三元组损失值、单向知识协同损失值的总损失值为:
进一步,若目标损失函数还包括基于虚拟分支的知识协同损失函数,则在本实施例中,该总损失还要包括虚拟分支知识协同损失值,也即:
综上可见,本发明实施例为了能够提高网络在训练、应用的精度,并且不增加网络在应用时的参数量和计算量,提供了一种知识协同辅助训练方法,通过对网络层进行重构、添加知识协同损失函数等方式进行协同训练,以在不增加参数量和计算量的前提下提升网络的性能。
在此以执行行人重识别任务为例,提供一完整实施例对本方案进行清楚说明:
一、网络训练过程:
1、首先确定初始行人重识别网络,并建立该初始行人重识别网络对应的同构训练网络,参见图6a,本发明实施例提供的一种具体的同构训练网络结构示意图。其中,图6a所示的是一个典型的MobileNet v2的网络结构, MobileNet的Bottleneck网络结构是由多层深度可分离卷积网络堆叠而成的残差结构,是一种固定结构,这里不赘述。Conv代表卷积层,每个同构分支的箭头1表示Global pool层,每个同构分支的箭头2代表Conv 1×1。图中结构与MobileNet V2结构完全一致。参见图6a,在本实施例中,在MobileNet v2的网络结构基础上,从第3个Bottleneck输出位置引出同构分支,从第5个Bottleneck输出位置引出同构分支。
2、本实施例在输出层位置建立交叉熵损失、三元组损失、动态分类概率损失,并进行训练,如图6a中的双头箭头代表两两分支知识协同关系。
3、通过训练使网络收敛,存储网络训练好的权重参数。
二、网络应用过程:
1、在同构训练网络中去掉辅助训练分支,只保留原主干分支,得到初始行人重识别网络,该初始行人重识别网络通过加载对应的权重参数,得到训练好的最终行人重识别网络,参见图6b,本发明实施例提供的一种具体的最终行人重识别网络结构示意图。
2、参见图6c,本发明实施例提供的一种行人重识别任务执行流程示意图,通过图6c可以看出,本实施例将最终行人重识别网络应用在行人重识别任务中时,将输入图像1、输入图像2、输入图像3输入到最终行人重识别网络中,获取其网络中embedding层特征,图像1、2、3构成行人重识别任务的查询数据集。将待查询图像输入到网络中,获取待查询图像的embedding层特征。
3、将待查询图像的embedding层特征与查询数据集中所有特征(输入图像1、输入图像2、输入图像3的embedding层特征)进行比对,比对方法为:求待查询图像的embedding层特征与查询数据集中所有特征的距离,即向量求距离,距离最小的查询数据样本与待查询图像是同一个人。
综上可见,在本方案中,提出了基于同构分支的辅助训练方法来建立对输入数据的多重视图,并且本方案提出一种基于辅助分支的三元组损失函数,对每个辅助分支的头部网络应用该损失函数进行训练;进一步,本方案为了进行知识协同,实现同构分支之间的信息交互,本发明在两两分支之间添加了基于知识协同的loss函数,实现分支之间不同层次信息的交互,通过多个分支对同一数据提供各自不同的视角,通过不同视角之间的知识协同实现分支之间的相互正则化,提高网络的准确率。
下面对本发明实施例提供的行人重识别装置、设备及介质进行介绍,下文描述的行人重识别装置、设备及介质与上文描述的行人重识别方法可以相互参照。
参见图7,本发明实施例提供的一种行人重识别装置结构示意图,包括:
网络确定模块11,用于确定与初始行人重识别网络对应的同构训练网络;其中,所述同构训练网络具有多个网络结构相同的同构分支;
参数确定模块12,用于利用目标损失函数对所述同构训练网络进行训练,确定所述同构训练网络中每个网络层的最终权重参数;其中,所述目标损失函数包括基于知识协同的动态分类概率损失函数,所述动态分类概率损失函数用于:利用每个训练样本在每两个同构分支的分类层输出特征,确定同构分支间的单向知识协同损失值;
参数加载模块13,用于通过所述初始行人重识别网络加载所述最终权重参数,得到最终行人重识别网络;
行人重识别模块14,用于利用最终行人重识别网络执行行人重识别任务。
其中,网络确定模块11具体用于:在所述初始行人重识别网络的中间层引出辅助训练分支,生成具有非对称网络结构的同构训练网络;或者,在所述初始行人重识别网络的中间层引出辅助训练分支,生成具有对称网络结构的同构训练网络。
其中,参数确定模块12包括:
损失值确定单元,用于在对所述同构训练网络的训练过程中,确定交叉熵损失函数的交叉熵损失值、确定三元组损失函数的三元组损失值、确定所述动态分类概率损失函数的单向知识协同损失值;
权重确定单元,用于利用所述交叉熵损失值、所述三元组损失值、所述单向知识协同损失值的总损失值,确定所述同构训练网络中每个网络层的最终权重参数。
其中,所述损失值确定单元包括:
第一确定子单元,用于根据每个样本在每个同构分支的嵌入层输出特征,以及第一三元组损失函数,确定每个同构分支的第一损失值;
选取子单元,用于从每个同构分支中选取数值最小的第一损失值作为所述三元组损失值;
其中,所述第一三元组损失函数为:
其中,为第个同构分支的第一损失值,为训练样本的总数,为锚点样本,为锚点样本的嵌入层输出特征,为样本的分类标签,为与锚点样本属于同一分类标签的具有最大类内距离的样本,为样本的嵌入层输出特征,为与锚点样本属于不同分类标签的具有最小类间距离的样本,为样本的嵌入层输出特征,为第一参数,用于求取距离,与均表示求取最大距离,表示求取最小距离,表示锚点样本的分类标签,表示p样本的分类标签,表示q样本的分类标签。
其中,所述损失值确定单元还包括:
第二确定子单元,用于利用每个同构分支的第一损失值及第二三元组损失函数,确定每个同构分支的第二损失值;
所述第二三元组损失函数为:
相应的,所述选取子单元具体用于:从每个同构分支中选取数值最小的第二损失值作为所述三元组损失值。
其中,所述损失值确定单元包括:
计算子单元,用于利用每个样本在每个同构分支的分类层输出特征及所述动态分类概率损失函数计算单向知识协同损失值;
所述动态分类概率损失函数为:
其中,为单向知识协同损失值,为训练样本的总数,表示第个同构分支,表示第个同构分支,表示任意两个同构分支构成的可选空间,为分类层输出特征的维度,为第个样本,为在第个同构分支中的第个维度的分类层输出特征,为在第个同构分支中的第个维度的分类层输出特征,表示第个同构分支的网络参数,表示第个同构分支的网络参数。
参见图8,本发明实施例提供的一种电子设备结构示意图,包括:
存储器21,用于存储计算机程序;
处理器22,用于执行所述计算机程序时实现上述任意方法实施例所述的行人重识别方法的步骤。
在本实施例中,设备可以是PC(Personal Computer,个人电脑),也可以是智能手机、平板电脑、掌上电脑、便携计算机等终端设备。
该设备可以包括存储器21、处理器22和总线23。
其中,存储器21至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器21在一些实施例中可以是设备的内部存储单元,例如该设备的硬盘。存储器21在另一些实施例中也可以是设备的外部存储设备,例如设备上配备的插接式硬盘,智能存储卡(SmartMedia Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,存储器21还可以既包括设备的内部存储单元也包括外部存储设备。存储器21不仅可以用于存储安装于设备的应用软件及各类数据,例如执行行人重识别方法的程序代码等,还可用于暂时地存储已经输出或者将要输出的数据。
处理器22在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器21中存储的程序代码或处理数据,例如执行行人重识别方法的程序代码等。
该总线23可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,设备还可以包括网络接口24,网络接口24可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该设备与其他电子设备之间建立通信连接。
可选地,该设备还可以包括用户接口25,用户接口25可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口25还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在设备中处理的信息以及用于显示可视化的用户界面。
图8示出了具有组件21-25的设备,本领域技术人员可以理解的是,图8示出的结构并不构成对设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例所述的行人重识别方法的步骤。
其中,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory ,ROM)、随机存取存储器(Random Access Memory ,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种行人重识别方法,其特征在于,包括:
确定与初始行人重识别网络对应的同构训练网络;其中,所述同构训练网络具有多个网络结构相同的同构分支;
利用目标损失函数对所述同构训练网络进行训练,确定所述同构训练网络中每个网络层的最终权重参数;其中,所述目标损失函数包括基于知识协同的动态分类概率损失函数,所述动态分类概率损失函数用于:利用每个训练样本在每两个同构分支的分类层输出特征,确定同构分支间的单向知识协同损失值;
通过所述初始行人重识别网络加载所述最终权重参数,得到最终行人重识别网络,以利用所述最终行人重识别网络执行行人重识别任务;
其中,所述利用目标损失函数对所述同构训练网络进行训练,确定所述同构训练网络中每个网络层的最终权重参数,包括:
在对所述同构训练网络的训练过程中,确定交叉熵损失函数的交叉熵损失值、确定三元组损失函数的三元组损失值、确定所述动态分类概率损失函数的单向知识协同损失值;
利用所述交叉熵损失值、所述三元组损失值、所述单向知识协同损失值的总损失值,确定所述同构训练网络中每个网络层的最终权重参数;
其中,确定所述动态分类概率损失函数的单向知识协同损失值的过程包括:
利用每个样本在每个同构分支的分类层输出特征及所述动态分类概率损失函数计算单向知识协同损失值;所述动态分类概率损失函数为:
2.根据权利要求1所述的行人重识别方法,其特征在于,所述确定与初始行人重识别网络对应的同构训练网络,包括:
在所述初始行人重识别网络的中间层引出辅助训练分支,生成具有非对称网络结构的同构训练网络。
3.根据权利要求1所述的行人重识别方法,其特征在于,所述确定与初始行人重识别网络对应的同构训练网络,包括:
在所述初始行人重识别网络的中间层引出辅助训练分支,生成具有对称网络结构的同构训练网络。
4.根据权利要求1所述的行人重识别方法,其特征在于,所述确定三元组损失函数的三元组损失值的过程包括:
根据每个样本在每个同构分支的嵌入层输出特征,以及第一三元组损失函数,确定每个同构分支的第一损失值;
从每个同构分支中选取数值最小的第一损失值作为所述三元组损失值;
其中,所述第一三元组损失函数为:
6.一种行人重识别装置,其特征在于,包括:
网络确定模块,用于确定与初始行人重识别网络对应的同构训练网络;其中,所述同构训练网络具有多个网络结构相同的同构分支;
参数确定模块,用于利用目标损失函数对所述同构训练网络进行训练,确定所述同构训练网络中每个网络层的最终权重参数;其中,所述目标损失函数包括基于知识协同的动态分类概率损失函数,所述动态分类概率损失函数用于:利用每个训练样本在每两个同构分支的分类层输出特征,确定同构分支间的单向知识协同损失值;
参数加载模块,用于通过所述初始行人重识别网络加载所述最终权重参数,得到最终行人重识别网络;
行人重识别模块,用于利用所述最终行人重识别网络执行行人重识别任务;
其中,所述参数确定模块包括:
损失值确定单元,用于在对所述同构训练网络的训练过程中,确定交叉熵损失函数的交叉熵损失值、确定三元组损失函数的三元组损失值、确定所述动态分类概率损失函数的单向知识协同损失值;
权重确定单元,用于利用所述交叉熵损失值、所述三元组损失值、所述单向知识协同损失值的总损失值,确定所述同构训练网络中每个网络层的最终权重参数;
其中,所述损失值确定单元包括:
计算子单元,用于利用每个样本在每个同构分支的分类层输出特征及所述动态分类概率损失函数计算单向知识协同损失值;
所述动态分类概率损失函数为:
7.根据权利要求6所述的行人重识别装置,其特征在于,所述损失值确定单元包括:
第一确定子单元,用于根据每个样本在每个同构分支的嵌入层输出特征,以及第一三元组损失函数,确定每个同构分支的第一损失值;
选取子单元,用于从每个同构分支中选取数值最小的第一损失值作为所述三元组损失值;
其中,所述第一三元组损失函数为:
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的行人重识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的行人重识别方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110727876.6A CN113191338B (zh) | 2021-06-29 | 2021-06-29 | 一种行人重识别方法、装置、设备及可读存储介质 |
PCT/CN2021/121901 WO2023272995A1 (zh) | 2021-06-29 | 2021-09-29 | 一种行人重识别方法、装置、设备及可读存储介质 |
US18/265,242 US11830275B1 (en) | 2021-06-29 | 2021-09-29 | Person re-identification method and apparatus, device, and readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110727876.6A CN113191338B (zh) | 2021-06-29 | 2021-06-29 | 一种行人重识别方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113191338A true CN113191338A (zh) | 2021-07-30 |
CN113191338B CN113191338B (zh) | 2021-09-17 |
Family
ID=76976703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110727876.6A Active CN113191338B (zh) | 2021-06-29 | 2021-06-29 | 一种行人重识别方法、装置、设备及可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11830275B1 (zh) |
CN (1) | CN113191338B (zh) |
WO (1) | WO2023272995A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114299442A (zh) * | 2021-11-15 | 2022-04-08 | 苏州浪潮智能科技有限公司 | 一种行人重识别方法、系统、电子设备及存储介质 |
WO2023272995A1 (zh) * | 2021-06-29 | 2023-01-05 | 苏州浪潮智能科技有限公司 | 一种行人重识别方法、装置、设备及可读存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191461B (zh) * | 2021-06-29 | 2021-09-17 | 苏州浪潮智能科技有限公司 | 一种图片识别方法、装置、设备及可读存储介质 |
CN116612500B (zh) * | 2023-07-20 | 2023-09-29 | 深圳须弥云图空间科技有限公司 | 行人重识别模型训练方法及装置 |
CN116665019B (zh) * | 2023-07-31 | 2023-09-29 | 山东交通学院 | 一种用于车辆重识别的多轴交互多维度注意力网络 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764308A (zh) * | 2018-05-16 | 2018-11-06 | 中国人民解放军陆军工程大学 | 一种基于卷积循环网络的行人重识别方法 |
KR20190068000A (ko) * | 2017-12-08 | 2019-06-18 | 이의령 | 다중 영상 환경에서의 동일인 재식별 시스템 |
CN110796057A (zh) * | 2019-10-22 | 2020-02-14 | 上海交通大学 | 行人重识别方法、装置及计算机设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2564668B (en) * | 2017-07-18 | 2022-04-13 | Vision Semantics Ltd | Target re-identification |
US11537817B2 (en) * | 2018-10-18 | 2022-12-27 | Deepnorth Inc. | Semi-supervised person re-identification using multi-view clustering |
CN109784182A (zh) | 2018-12-17 | 2019-05-21 | 北京飞搜科技有限公司 | 行人重识别方法和装置 |
US11138469B2 (en) * | 2019-01-15 | 2021-10-05 | Naver Corporation | Training and using a convolutional neural network for person re-identification |
CN110008842A (zh) * | 2019-03-09 | 2019-07-12 | 同济大学 | 一种基于深度多损失融合模型的行人重识别方法 |
CN110414368B (zh) | 2019-07-04 | 2021-12-17 | 华中科技大学 | 一种基于知识蒸馏的无监督行人重识别方法 |
CN110826424B (zh) * | 2019-10-21 | 2021-07-27 | 华中科技大学 | 一种基于行人重识别驱动定位调整的行人搜索方法 |
CN111325111A (zh) * | 2020-01-23 | 2020-06-23 | 同济大学 | 一种融合逆注意力和多尺度深度监督的行人重识别方法 |
CN111597887B (zh) * | 2020-04-08 | 2023-02-03 | 北京大学 | 一种行人再识别方法及系统 |
CN111488833A (zh) * | 2020-04-08 | 2020-08-04 | 苏州浪潮智能科技有限公司 | 一种行人重识别方法、装置及电子设备和存储介质 |
CN111368815B (zh) * | 2020-05-28 | 2020-09-04 | 之江实验室 | 一种基于多部件自注意力机制的行人重识别方法 |
CN112633417A (zh) * | 2021-01-18 | 2021-04-09 | 天津大学 | 一种用于行人重识别的将神经网络模块化的行人深度特征融合方法 |
CN113191338B (zh) * | 2021-06-29 | 2021-09-17 | 苏州浪潮智能科技有限公司 | 一种行人重识别方法、装置、设备及可读存储介质 |
-
2021
- 2021-06-29 CN CN202110727876.6A patent/CN113191338B/zh active Active
- 2021-09-29 WO PCT/CN2021/121901 patent/WO2023272995A1/zh unknown
- 2021-09-29 US US18/265,242 patent/US11830275B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190068000A (ko) * | 2017-12-08 | 2019-06-18 | 이의령 | 다중 영상 환경에서의 동일인 재식별 시스템 |
CN108764308A (zh) * | 2018-05-16 | 2018-11-06 | 中国人民解放军陆军工程大学 | 一种基于卷积循环网络的行人重识别方法 |
CN110796057A (zh) * | 2019-10-22 | 2020-02-14 | 上海交通大学 | 行人重识别方法、装置及计算机设备 |
Non-Patent Citations (2)
Title |
---|
XIUJUN SHU 等: "Diverse part attentive network for video-based person re-identification", 《HTTPS://WWW.SCIENCEDIRECT.COM/SCIENCE/ARTICLE/PII/S016786552100204X》 * |
张宝华 等: "软多标签和深度特征融合的无监督行人重识别", 《光电工程》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023272995A1 (zh) * | 2021-06-29 | 2023-01-05 | 苏州浪潮智能科技有限公司 | 一种行人重识别方法、装置、设备及可读存储介质 |
US11830275B1 (en) | 2021-06-29 | 2023-11-28 | Inspur Suzhou Intelligent Technology Co., Ltd. | Person re-identification method and apparatus, device, and readable storage medium |
CN114299442A (zh) * | 2021-11-15 | 2022-04-08 | 苏州浪潮智能科技有限公司 | 一种行人重识别方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023272995A1 (zh) | 2023-01-05 |
CN113191338B (zh) | 2021-09-17 |
US11830275B1 (en) | 2023-11-28 |
US20230394866A1 (en) | 2023-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113191338B (zh) | 一种行人重识别方法、装置、设备及可读存储介质 | |
Ye et al. | Deep learning for person re-identification: A survey and outlook | |
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
Abbas et al. | A comprehensive review of recent advances on deep vision systems | |
WO2021057056A1 (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
Costea et al. | Creating roadmaps in aerial images with generative adversarial networks and smoothing-based optimization | |
CN108875487B (zh) | 行人重识别网络的训练及基于其的行人重识别 | |
CN110543841A (zh) | 行人重识别方法、系统、电子设备及介质 | |
Xia et al. | An evaluation of deep learning in loop closure detection for visual SLAM | |
WO2021050772A1 (en) | Action recognition with high-order interaction through spatial-temporal object tracking | |
He et al. | Sketch recognition with deep visual-sequential fusion model | |
CN113255604B (zh) | 基于深度学习网络的行人重识别方法、装置、设备及介质 | |
WO2019108252A1 (en) | Optimizations for dynamic object instance detection, segmentation, and structure mapping | |
CN109934272B (zh) | 一种基于全卷积网络的图像匹配方法 | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN114283316A (zh) | 一种图像识别方法、装置、电子设备和存储介质 | |
CN111461175B (zh) | 自注意与协同注意机制的标签推荐模型构建方法及装置 | |
WO2023272993A1 (zh) | 一种图片识别方法、装置、设备及可读存储介质 | |
WO2021050769A1 (en) | Spatio-temporal interactions for video understanding | |
CN114462290A (zh) | 一种生成预训练人工智能模型的方法及装置 | |
Lu et al. | Generalized haar filter-based object detection for car sharing services | |
CN110210480A (zh) | 文字识别方法、装置、电子设备和计算机可读存储介质 | |
CN114333062B (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
Palle et al. | Automated image and video object detection based on hybrid heuristic-based U-net segmentation and faster region-convolutional neural network-enabled learning | |
Wan et al. | Dcf-bow: Build match graph using bag of deep convolutional features for structure from motion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |