CN111444765B - 图像重识别方法及相关模型的训练方法及相关装置、设备 - Google Patents
图像重识别方法及相关模型的训练方法及相关装置、设备 Download PDFInfo
- Publication number
- CN111444765B CN111444765B CN202010111675.9A CN202010111675A CN111444765B CN 111444765 B CN111444765 B CN 111444765B CN 202010111675 A CN202010111675 A CN 202010111675A CN 111444765 B CN111444765 B CN 111444765B
- Authority
- CN
- China
- Prior art keywords
- image
- domain
- target domain
- loss
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000006243 chemical reaction Methods 0.000 claims description 177
- 230000009466 transformation Effects 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 23
- 238000005457 optimization Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 230000008485 antagonism Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本申请公开了一种图像重识别方法及相关模型的训练方法及相关装置、设备,其中,图像重识别方法包括:获取待识别目标域图像;利用目标域图像编码器,在目标域上对待识别目标域图像提取行人图像特征;根据行人图像特征得到待识别目标域图像的识别结果。上述方案,能够在目标域进行识别。
Description
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种图像重识别方法及相关模型的训练方法及相关装置、设备。
背景技术
在目标检测如行人检测的应用过程中,受摄像器件所处的环境、光线、背景等因素影响,不同摄像器件拍摄得到的图像存在领域间差异。因此,不同领域的图像需要采用对应领域的样本图像进行模型训练,进而采用训练得到的模型实现对该领域图像的目标检测。对于一些目标域场景(例如,光线晦暗的阴天场景、夜晚场景等、或者任意场景但无法对大量样本图像进行人工标注情况下),由于其图像信息不充足或标注不够,通常难以实现该目标域图像的目标检测。有鉴于此,如何在目标域进行识别成为亟待解决的问题。
发明内容
本申请提供一种图像重识别方法及相关模型的训练方法及相关装置、设备。
本申请第一方面提供了一种图像重识别方法,包括:获取待识别目标域图像;利用目标域图像编码器,在目标域上对待识别目标域图像提取行人图像特征;根据行人图像特征得到待识别目标域图像的识别结果。
因此,通过利用目标域图像编码器在目标域上对待识别目标域图像提取其行人图像特征,并根据行人图像特征得到待识别目标域图像的识别结果,故能够基于目标域上的目标域图像编码器进行重识别,从而能够在目标域进行识别。
其中,获取待识别目标域图像之前,方法还包括:根据源域的源域图像与目标域的目标域图像联合训练得到目标域图像编码器。
因此,根据源域的源域图像与目标域的目标域图像联合训练得到目标域图像编码器,故能够在不同域图像上进行联合训练和优化,有利于提高目标域图像编码器的性能。
其中,根据源域的源域图像与目标域的目标域图像联合训练得到目标域图像编码器,包括:将源域图像通过结构化领域转换网络转换至目标域,得到域转换图像;利用目标域图像编码器对域转换图像与目标域图像共同编码,得到统一标签损失;根据统一标签损失对目标域图像编码器进行联合优化。
因此,将源域图像通过结构化领域转换网络转换至目标域,得到域转换图像,从而利用目标域图像编码器对域转换图像与目标域图像共同编码,得到统一标签损失,并根据统一标签损失对目标域图像编码器进行联合优化,能够基于域转换后的源域图像和目标域图像进行联合训练和优化,有利于提高目标域图像编码器的性能。
其中,统一标签损失包括三重损失和多分类损失;利用目标域图像编码器对域转换图像与目标域图像共同编码,得到统一标签损失包括:利用目标域图像编码器分别对域转换图像、目标域图像进行特征提取,得到域转换图像特征、目标域图像特征;根据域转换图像特征得到域转换图像的第一识别结果,并根据目标域图像特征得到目标域图像的第二识别结果;根据域转换图像特征和目标域图像特征,得到三重损失,并根据第一识别结果和域转换图像的真标签,以及第二识别结果和目标域图像的伪标签,得到多分类损失;将三重损失和多分类损失进行加权处理,得到统一标签损失。
因此,利用目标域图像编码器分别对域转换图像、目标域图像进行特征提取,得到域转换图像特征、目标域图像特征,从而根据域转换图像特征得到域转换图像的第一识别结果,并根据目标域图像特征得到目标域图像的第二识别结果,进而根据域转换图像特征和目标域图像特征得到三重损失,并根据第一识别结果和域转换图像的真标签,以及第二识别结果和目标域图像的伪标签,得到多分类损失,从而将三重损失和多分类损失进行加权处理,得到统一标签损失,能够提高损失的准确性,从而有利于提高目标域图像编码器的性能。
其中,根据第一识别结果和域转换图像的真标签,以及第二识别结果和目标域图像的伪标签,得到多分类损失之前,方法还包括:对目标域图像特征进行聚类,并根据聚类结果将目标域图像特征划分至多个预定义类别中;基于划分结果为每个目标域图像添加伪标签,以表示目标域图像属于对应划分至的预定义类别。
因此,能够将目标域图像特征进行聚类,并根据聚类结果,将其划分至多个预定义类别中,从而为每个目标域图像添加伪标签,以表示目标域图像属于对应划分至的预定义类别,从而能够有利于利用目标域上的目标域图像进行损失计算,从而能够有利于提高损失的准确性,进而有利于提高目标域图像编码器的性能。
其中,根据域转换图像特征和目标域图像特征,得到三重损失包括:获取域转换图像和目标域图像的正样本图像、负样本图像;利用域转换图像和目标域图像分别与其正样本图像、负样本图像的图像特征之间的差异,得到三重损失。
因此,能够利用域转换图像和目标域图像分别与其正样本图像、负样本图像的图像特征之间的差异,得到三重损失,故能够有利于提高损失的准确性,进而有利于提高目标域图像编码器的性能。
其中,还包括:根据关系一致性损失训练结构化领域转换网络。
因此,通过关系一致性损失训练结构化领域转换网络,能够有利于维持图像在通过结构化领域转换网络进行域转换前后,维持其关系一致性,有利于目标域图像编码器充分学习样本的原本关系,提高目标域图像编码器的性能。
其中,在根据关系一致性损失训练结构化领域转换网络之前,还包括:利用参考源域图像的源域特征关系和域转换特征关系,得到关系一致性损失。
因此,利用参考源域图像的源域特征关系和域转换特征关系,得到关系一致性损失,能够准确地计算得到图像在经过域转换前后的特征关系,从而能够提高关系一致性损失的准确性,进而有利于目标域图像编码器充分学习样本的原本关系,提高目标域图像编码器的性能。
其中,利用参考源域图像的源域特征关系和域转换特征关系,得到关系一致性损失,包括:采用交叉熵损失函数对源域特征关系和域转换特征关系进行处理,得到关系一致性损失。
因此,采用交叉熵损失函数对源域特征关系和域转换特征关系进行处理,得到关系一致性损失,能够方便地计算出关系一致性损失,有利于降低计算关系一致性损失的复杂度,降低训练难度和负荷。
其中,利用参考源域图像的源域特征关系和域转换特征关系,得到关系一致性损失之前,方法还包括:以至少一张源域图像作为参考源域图像;基于源域图像分别与其至少一张正样本图像、负样本图像之间的特征相似度,得到参考源域图像的源域特征关系;基于与参考源域图像以及正样本图像、负样本图像对应的域转换图像之间的特征相似度,得到参考源域图像的域转换特征关系。
因此,通过以至少一张源域图像作为参考源域图像,并基于源域图像分别与其至少一张正样本图像、负样本图像之间的特征相似度,得到参考源域图像的源域特征关系,以及基于与参考源域图像以及正样本图像、负样本图像对应的域转换图像之间的特征相似度,得到参考源域图像的域转换特征关系,能够提高关系一致性损失值的准确性,从而能够有利于提高域转换前后的关系一致性。
其中,根据关系一致性损失训练结构化领域转换网络,包括:获取领域转换模型的对抗损失值、重建损失值和目标域特征约束损失值中的至少一个;对关系一致性损失以及获取的损失进行加权处理,得到领域转换模型的模型损失;根据领域转换模型的模型损失对领域转换模型进行优化,得到结构化领域转换网络。
因此,通过获取领域转换模型的对抗损失值、重建损失值和目标域特征约束损失值中的至少一个,并对关系一致性损失以及获取的损失进行加权处理,得到领域转换模型的模型损失,从而根据领域转换模型的模型损失对领域转换模型进行优化,得到结构化领域转换网络,能够提高领域转换模型的模型损失的准确性,从而能够提高得到的结构化领域转换网络的性能。
本申请第二方面提供了一种目标域图像编码器的训练方法,包括:获取样本目标域图像;利用目标域图像编码器,在目标域上对样本目标域图像提取样本行人图像特征;根据样本行人图像特征得到样本目标域图像的识别结果;根据识别结果,调整目标域图像编码器的参数。
因此,通过获取样本目标域图像,并利用利用目标域图像编码器,在目标域上对样本目标域图像提取样本行人图像特征,从而根据样本行人图像特征得到样本目标域图像的识别结果,进而根据识别结果,调整目标域图像编码器的参数,故能够有利于后续基于目标域上的目标域图像编码器进行重识别,从而能够在目标域进行识别。
其中,样本目标域图像包括目标域上的第一样本图像和由源域转换至目标域的第二样本图像。
因此,利用目标域上的第一样本图像和由源域转换至目标域的第二样本图像对目标域图像编码器进行训练,能够在不同域图像上进行联合训练和优化,有利于提高目标域图像编码器的性能。
本申请第三方面提供了一种图像重识别装置,包括图像获取模块、特征提取模块、识别获取模块,图像获取模块用于获取待识别目标域图像;特征提取模块用于利用目标域图像编码器,在目标域上对待识别目标域图像提取行人图像特征;识别获取模块用于根据行人图像特征得到待识别目标域图像的识别结果。
本申请第四方面提供了一种目标域图像编码器的训练装置,包括图像获取模块、特征提取模块、识别获取模块和模型调整模块,图像获取模块用于获取样本目标域图像;特征提取模块用于利用目标域图像编码器,在目标域上对样本目标域图像提取样本行人图像特征;识别获取模块用于根据样本行人图像特征得到样本目标域图像的识别结果;模型调整模块用于根据识别结果,调整目标域图像编码器的参数。
本申请第五方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的图像重识别方法,或实现上述第二方面中的目标域图像编码器的训练方法。
本申请第六方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的图像重识别方法,或实现上述第二方面中的目标域图像编码器的训练方法。
上述方案,通过利用目标域图像编码器在目标域上对待识别目标域图像提取其行人图像特征,并根据行人图像特征得到待识别目标域图像的识别结果,故能够基于目标域上的目标域图像编码器进行重识别,从而能够在目标域进行识别。
附图说明
图1是本申请图像重识别方法一实施例的流程示意图;
图2是本申请目标域图像编码器的训练方法一实施例的状态示意图;
图3是对源域识别模型进行预训练一实施例的流程示意图;
图4是对目标域识别模型进行预训练一实施例的流程示意图;
图5是对领域转换模型进行预训练一实施例的流程示意图;
图6是图5中步骤S53一实施例的流程示意图;
图7是对目标域图像编码器进行训练一实施例的流程示意图;
图8是图7中步骤S62一实施例的流程示意图;
图9是本申请目标域图像编码器的训练方法一实施例的流程示意图;
图10是本申请图像重识别装置一实施例的框架示意图;
图11是本申请目标域图像编码器的训练装置一实施例的框架示意图;
图12是本申请电子设备一实施例的框架示意图;
图13是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请图像重识别方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取待识别目标域图像。
待识别目标域图像可以是在目标域拍摄得到的图像,例如,在光线相对晦暗的场景(如,阴天或夜晚等)下拍摄到的图像,具体可以根据应用场景进行设置,在此不再一一举例。
步骤S12:利用目标域图像编码器,在目标域上对待识别目标域图像提取行人图像特征。
目标域图像编码器可以为一预设神经网络,在一个实施场景中,其骨干网络可以采用ResNet50,在其他实施场景中,骨干网络也可以采用其他网络,例如,ResNet101等,在此不做限定。为了便于描述,本申请实施例中,采用FT表示目标域图像编码器。
在一个实施场景中,为了提高目标域图像编码器FT的性能,可以根据源域的源域图像与目标域的目标域图像联合训练得到目标域图像编码器FT,具体在此暂不赘述。
步骤S13:根据行人图像特征得到待识别目标域图像的识别结果。
在一个实施场景中,为了便于对行人图像特征进行分类,以得到目标域图像的识别结果,例如,目标域图像为“行人A”、“行人B”、“行人C”等等,还可以采用一目标域分类器对行人图像特征进行分类,为了便于表述,本申请实施例中,采用CT表示目标域分类器,在一个实施场景中,还可以在根据源域的源域图像与目标域的目标域图像联合训练得到目标域图像编码器FT的同时,训练目标域分类器CT,在此暂不赘述。此外,为了便于与本申请其他实施例中的识别结果进行区别,本实施例中的识别结果可以称为第一识别结果。
上述方案,通过利用目标域图像编码器在目标域上对待识别目标域图像提取其行人图像特征,并根据行人图像特征得到待识别目标域图像的识别结果,故能够基于目标域上的目标域图像编码器进行重识别,从而能够在目标域进行识别。
为了便于理解,请参阅图2,图2是本申请目标域图像编码器的训练方法一实施例的状态示意图,如图2所示,源域中设有一源域识别模型,包括一源域图像编码器FS和一源域分类器CS,分别用于源域图像的特征提取和分类,目标域中设有一目标域图像编码器FT和目标域分类器CT,分别用于特征域图像的特征提取和分类,为了便于描述,目标域图像编码器FT和目标域分类器CT的整体可以称为目标域识别模型,源域图像编码器FS可以与目标域图像编码器FT采用相同的网络,以便于在源域图像编码器FS在利用标注有真标签的源域图像进行训练之后,直接采用源域图像编码器FS的参数对目标域图像编码器FT进行初始化。此外,还可以设有一领域转换模型,用于将源域图像转换至目标域,具体地,领域转换模型可以采用生成对抗网络(Generative Adversarial Networks,GAN),生成对抗网络包括但不限于:cycleGAN(循环生成对抗网络)、BiGAN、ACGAN,在此不做限定。在一个实施场景中,领域转换模型可以包括至少一组生成器和鉴别器,以cycleGAN为例,包括一个源域至目标域的生成器GS→T和一个目标域至源域的生成器GT→S,以及一个源域鉴别器DS和一个目标域鉴别器DT
在一个实施例中,为了提高对目标域图像编码器的训练速度,以及训练得到的目标域图像编码器的性能,在对目标域图像编码器进行正式训练之前,还可以对上述源域识别模型、目标域识别模型和领域转换模型进行预训练。具体地,请参阅图3,图3是对源域识别模型进行预训练一实施例的流程示意图,具体而言,可以包括如下步骤:
步骤S31:获得若干源域图像。
其中,源域图像标注有真标签,真标签可以是人工标注的。例如,若干源域图像可以分别标注为“行人A”、“行人B”、“行人C”等等,在此不做限定。为了便于描述,可以将源域图像表示为XS。
步骤S32:利用源域识别模型对若干源域图像进行识别,对应得到若干个第二识别结果。
具体地,可以采用源域识别模型的源域图像编码器FS对源域图像XS进行特征提取,得到源域图像XS的图像特征fS,并采用源域识别模型的源域分类器CS对图像特征fS进行分类处理,得到源域图像XS的第二识别结果CS(fS)。
步骤S33:基于第二识别结果以及源域图像标注的真标签,调整源域识别模型的参数。
具体地,可以基于第二识别结果CS(fS)以及源域图像的真实标签yS,确定源域识别模型的损失值并利用源域识别模型的损失值/>调整源域识别模型的参数。具体地,源域识别模型的损失值/>可以表示为:
其中,表示多分类损失,/>表示三重损失,λtri表示三重损失的权重。
具体地,多分类损失可以表示为:
上述公式(2)中,lce表示交叉熵损失函数,x~XS表示若干源域图像XS→T中的图像,y表示图像x的标签,fS表示图像x经源域域识别模型的源域图像编码器FS进行特征提取得到的图像特征,CS(fS)表示源域识别模型的源域分类器利用图像特征fS进行分类处理得到的第二识别结果。
具体地,三重损失可以表示为:
上述公式(3)中,表示在x~XS范围中与fS的特征差异最小的图像xp经源域识别模型的源域图像编码器FS进行特征提取得到的图像特征,/>表示在x~XS范围中与fS的特征差异最大的图像xn经源域识别模型的源域图像编码器FS进行特征提取得到的图像特征,m表示一预设间隔(例如,0.3),(·)+表示max(0,·)。
在一个实施场景中,可以设置源域识别模型预训练的预设迭代次数,并将源域图像划分为多个批次,从而利用每个批次对源域识别模型进行预训练,并调整源域识别模型的参数,直至每个批次均被采用为止,再将当前训练次数加一,若当前训练次数小于或等于预设迭代次数,则继续利用每个批次对源域识别模型进行预训练,若当前训练次数大于预设迭代次数,则结束对源域识别模型的预训练。在一个具体的实施场景中,当将源域图像划分为多个批次时,每次调整目标域识别模型所确定的损失值中三重损失中的/>和分别是目标域图像xS所在的批次中与目标域图像xS的图像特征fS特征差异最小的目标域图像/>的图像特征,以及所在批次中与目标域图像xS的图像特征fS特征差异最大的目标域图像/>的图像特征。
区别于前述实施例,利用源域识别模型对获取到的若干源域图像进行识别,对应得到若干第二识别结果,并基于第二识别结果以及源域图像标注的真标签,调整源域识别模型的参数,能够对源域识别模型进行预训练,从而能够加快后续的训练速度。
请参阅图4,图4是对目标域识别模型进行预训练一实施例的流程示意图。具体地,可以包括如下步骤:
步骤S41:获取若干目标域图像,其中,目标域图像未标注有真标签。
在一个实施场景中,为了便于后续训练,可以将预训练好的源域识别模型的参数作为目标域识别模型的初始参数。
在一个实施场景中,可以基于目标域识别模型对若干目标域图像进行特征提取得到的目标域图像特征,为每个目标域图像添加伪标签。具体地,可以利用参数初始化后的目标域识别模型分别对若干目标域图像进行特征提取,得到若干目标域图像特征,并对目标域图像特征进行聚类,从而根据聚类结果将若干目标域图像特征分别划分至多个预定义类别中,基于划分结果为每个目标域图像添加伪标签,以表示目标域图像属于对应划分至的预定义类别。具体地,可以利用初始化后的目标域识别模型分别对若干目标域图像进行特征提取,得到若干目标域图像特征,并对若干目标域图像特征进行聚类,根据聚类结果将若干目标域图像特征划分至多个预定义类别中,例如,可以预先定义200个类别,且每个类别均有不同的类别名称,此外,预先定义的类别的数量还可以是其他数值,例如,300、400等,在此不做限定,进而基于划分结果为每个目标域图像添加伪标签,以表示目标域图像属于对应划分至的预定义类别。
步骤S42:利用若干目标域图像对目标域识别模型进行预训练,以调整目标域识别模型的参数。
具体地,可以采用目标域识别模型的目标域图像编码器FT对目标域图像XT进行特征提取,得到对应的图像特征fT,并利用目标域识别模型的目标域分类器CT对图像特征fT进行分类处理,得到目标域图像XT的识别结果CT(fT),从而基于目标域图像XT的识别结果CT(fT)和其伪标签yT,确定目标域识别模型的损失值进而基于损失值调整目标域识别模型的参数。具体地,目标域识别模型的损失值/>可以表示为:
其中,表示多分类损失,/>表示三重损失,λtri表示三重损失的权重,多分类损失/>和三重损失/>的具体表示方式可以参考前述实施例中的相关步骤,在此不再赘述。
在一个实施场景中,可以设置目标域识别模型预训练的预设迭代次数,并将若干目标域图像划分为多个批次,从而利用每个批次对目标域识别模型进行预训练,并调整目标域识别模型的参数,直至每个批次均被采用为止,再将当前训练次数加一,若当前训练次数小于或等于预设迭代次数,则继续利用每个批次对目标域识别模型进行预训练,若当前训练次数大于预设迭代次数,则结束对目标域识别模型的预训练。在一个具体的实施场景中,当将若干目标域图像划分为多个批次时,每次调整目标域识别模型所确定的损失值中三重损失中的/>和/>分别是目标域图像xT所在的批次中与目标域图像xT的图像特征fT特征差异最小的目标域图像/>的图像特征,以及所在批次中与目标域图像xT的图像特征fT特征差异最大的目标域图像/>的图像特征。
区别于前述实施例,获取若干目标域图像,并利用若干目标域图像对目标域识别模型进行预训练,以调整目标域识别模型的参数,能够对目标域识别模型进行预训练,从而能够加快后续的训练速度。
请参阅图5,图5是对领域转换模型进行预训练一实施例的流程示意图。具体可以包括如下步骤:
步骤S51:获得若干源域图像,其中,源域图像标注有真标签。
本实施例中所获得的源域图像和前述实施例中的源域图像可以为相同或不同的源域图像,具体可以参阅前述实施例中的相关步骤,在此不再赘述。
步骤S52:利用领域转换模型将若干源域图像转换至目标域,得到若干第一域转换图像。
为了便于描述,每个源域图像表示为xS(xS∈XS),将源域图像xS转换至目标域后,得到第一域转换图像xS→T(xS→T∈XS→T)。
步骤S53:基于至少两张源域图像之间的特征关系与对应的至少两张第一域转换图像之间的特征关系,得到领域转换模型的模型损失值。
具体请结合参阅图6,图6是图5中步骤S53一实施例的流程示意图。具体包括如下步骤:
步骤S531:基于至少两张源域图像之间的特征关系与对应的至少两张第一域转换图像之间的特征关系,得到关系一致性损失值。
至少两张源域图像包括属于同一类别的至少两张源域图像以及属于不同类别的至少两张源域图像。
具体地,可以将若干源域图像中的至少一张源域图像作为参考源域图像xS,基于参考源域图像xS分别与其至少一张正样本图像负样本图像/>之间的特征相似度,得到参考源域图像xS的源域特征关系R(xS;FS),且正样本图像/>为与参考源图像xS属于同一类别的源域图像,负样本图像/>为与参考源图像xS属于不同类别的源域图像。在一个具体的实施场景中,可以利用源域识别模型分别对参考源域图像xS、正样本图像/>负样本图像进行特征提取,对应得到第一参考特征信息fS、第一正特征信息/>第一负特征信息并获取第一参考特征信息fS与第一正特征信息/>之间的第一特征相似度、第一参考特征信息fS与第一负特征信息/>之间的第二特征相似度,从而基于第一特征相似度和第二特征相似度,得到参考源域图像的源域特征关系,且源域特征关系的值与第一特征相似度为负相关,且与第二特征相似度为正相关,具体地,源域特征关系R(xS;FS)可以表示为:
上述公式(5)中,<·,·>表示特征信息之间的点积,用于计算特征相似度,表示第一参考特征信息fS与第一正特征信息/>之间的第一特征相似度,/>表示第一参考特征信息fS与第一负特征信息/>之间的第二特征相似度。
还可以基于参考源域图像xS以及正样本图像负样本图像/>对应的域转换图像xS→T、/>之间的特征相似度,得到参考源域图像的域转换特征关系R(xS;GS→T,FT)。在一个具体的实施场景中,可以利用目标域识别模型分别对参考源域图像xS以及正样本图像/>负样本图像/>对应的域转换图像xS→T、/>进行特征提取,对应得到第二参考特征信息fS→T、第二正特征信息/>第二负特征信息/>并获取第二参考特征信息fS→T与第二正特征信息/>之间的第三特征相似度、第二参考特征信息fS→T与第二负特征信息/>之间的第四特征相似度,从而基于第三特征相似度与第四特征相似度,得到参考源域图像的域转换特征关系R(xS;GS→T,FT),其中,域转换特征关系的值与第三特征相似度为负相关,且与第四特征相似度为正相关。具体地,域转换特征关系R(xS;GS→T,FT)可以表示为:
上述公式(6)中,<·,·>表示特征信息之间的点积,用于计算特征相似度,表示第二参考特征信息fS→T与第二正特征信息/>之间的第三特征相似度,表示第二参考特征信息fS→T与第二负特征信息/>之间的第四特征相似度。
在得到参考源域图像xS的源域特征关系R(xS;FS)和域转换特征关系R(xS;GS→T,FT)之后,可以利用参考源域图像的源域特征关系R(xS;FS)和域转换特征关系R(xS;GS→T,FT),得到关系一致性损失值Lrc(GS→T)。在一个具体的实施场景中,可以采用交叉熵损失函数对源域特征关系R(xS;FS)和域转换特征关系R(xS;GS→T,FT)进行处理,得到关系一致性损失值Lrc(GS→T)。具体地,关系一致性损失值Lrc(GS→T)可以表示为:
步骤S532:利用关系一致性损失值,得到领域转换模型的模型损失值。
在一个实施场景中,还可以获取领域转换模型的对抗损失值、重建损失值和目标域特征约束损失值中的至少一个,并对关系一致性损失值以及获取的损失值进行加权处理,得到领域转换模型的模型损失值。
具体地,以cycleGAN为例,生成器GS→T和鉴别器DS之间的对抗损失值以及生成器GT→S和鉴别器DT之间的对抗损失值/>可以分别表示为:
仍以cycleGAN为例,生成器GS→T和生成器GT→S的重建损失值Lcyc(GS→T,GT→S)可以表示为:
仍以cycleGAN为例,生成器GS→T和生成器GT→S的目标域特征约束损失值Lid(GS→T,GT →S)可以表示为:
在一个具体的实施场景中,对上述对抗损失值、重建损失值和目标域特征约束损失值以及关系一致性损失值进行加权处理,得到领域转换模型的模型损失值Lsdt(GS→T,GT →S,DS,DT)可以表示为:
上述公式(12)中,λrc、λadv、λcyc、λid分别表示关系一致性损失值、对抗损失值、重建损失值和目标域特征约束损失值的权重。在一个具体的实施场景中,λrc、λadv、λcyc、λid可以分别取1、1、10、0.5,在此不做限定。
步骤S54:基于领域转换模型的模型损失值,调整域转换模型中的生成器和鉴别器的参数。
利用模型损失值,调整领域转换模型中的生成器和鉴别器的参数。
区别于前述实施例,获取标注有真标签的源域图像,并利用领域转换模型将源域图像转换至目标域,得到第一域转换图像,并基于至少两张源域图像之间的特征关系与对应的至少两张第一域图像之间的特征关系,得到领域转换模型的模型损失值,并基于模型损失值,调整领域转换模型中的生成器和鉴别器的参数,从而能够完成对领域转换模型的预训练,进而能够有利于加快后续联合训练的速度。
请参阅图7,图7是对目标域图像编码器进行训练一实施例的流程示意图,具体而言,可以包括如下步骤:
步骤S71:将源域图像通过结构化领域转换网络转换至目标域,得到域转换图像。
在一个实施场景中,结构化领域转换网络可以通过前述实施例中对领域转换模型的进行预训练得到,从而使得经结构化领域转换网络转换得到的域转换图像间的关系与源图像间的关系尽可能一致,进而能够使得后续在利用域转换图像对目标域图像编码器进行训练时,目标域图像编码器能够学习到源域图像间的原始关系,提高目标域图像编码器的性能以及训练速度。预训练的具体步骤可以参阅前述实施例中的相关步骤,在此不再赘述。
在另一个实施场景中,在对目标域图像编码器进行训练的过程中,还可以根据关系一致性损失训练结构化领域转换网络,从而进一步提高结构化领域转换网络的性能,进一步提高域转换前后图像间关系一致性,故在结构化领域转换网络与目标域图像编码器联合训练的过程中,目标域图像编码器能够在训练过程中学习得到源域图像间的原始关系,进一步提高目标域图像编码器的性能。
在一个具体的实施场景中,为了能够准确地计算得到图像在经过域转换前后的特征关系,从而提高关系一致性损失的准确性,在对目标域图像编码器进行训练的过程中,对结构化领域转换网络进行联合训练所采用的关系一致性损失可以利用参考源域图像的源域特征关系和域转换特征关系得到,具体可以以至少一张源域图像作为参考源域图像,并基于源域图像分别与其至少一张正样本图像、负样本图像之间的特征相似度,得到源域特征关系,基于与参考源域图像以及正样本图像、负样本图像对应的域转换图像之间的特征相似度,得到域转换特征关系,具体过程可以参考前述对领域转换模型进行预训练的实施例中的相关步骤,在此不再赘述。此外,为了能够方便地计算出关系一致性损失,降低计算关系一致性损失的复杂度,具体可以采用交叉熵损失函数对源域特征关系和域转换特征关系进行处理,从而得到关系一致性损失,具体可以参考前述对领域转换模型进行预训练的实施例中的相关步骤,在此不再赘述。
在另一个具体实施场景中,为了在对目标域图像编码器进行训练的过程中,能够更准确地对结构化领域转换网络进行联合训练,除关系一致性损失之外,还可以获取领域转换模型的对抗损失值、重建损失值和目标域特征约束损失值中的至少一个,并对关系一致性损失以及所获取的损失进行加权处理,得到领域转换模型的模型损失,从而根据领域转换模型的模型损失对领域转换模型进行优化,具体可以参阅前述对领域转换模型进行预训练的实施例中的相关步骤,在此不再赘述。
在又一个具体实施场景中,领域转换模型可以包括至少一组生成器和鉴别器,则在训练过程中,可以分别对生成器和鉴别器进行训练。例如:在一个可能的实施场景中,可以先固定鉴别器的参数,根据关系一致性损失训练结构化领域转换网络的生成器参数,具体地,可以通过最小化上述公式(12)对生成器参数进行更新,然后执行本实施例中优化目标域图像编码器的步骤,再固定生成器的参数,根据关系一致性损失训练结构化领域转换网络的鉴别器参数,具体地,可以通过最大化上述公式(12)对鉴别器参数进行更新;或者,在另一个可能的实施场景中,还可以先固定生成器的参数,根据关系一致性损失训练结构化领域转换网络的鉴别器参数,具体地,可以通过最大化上述公式(12)对鉴别器参数进行更新,然后固定鉴别器的参数,根据关系一致性损失训练结构化领域转换网络的生成器参数,具体地,可以通过最小化上述公式(12)对生成器参数进行更新,再执行本实施例中优化目标域图像编码器的步骤;或者,在又一个可能的实施场景中,还可以先固定鉴别器的参数,根据关系一致性损失训练结构化领域转换网络的生成器参数,具体地,可以通过最小化上述公式(12)对生成器参数进行更新,然后固定生成器的参数,根据关系一致性损失训练结构化领域转换网络的鉴别器参数,具体地,可以通过最大化上述公式(12)对鉴别器参数进行更新,再执行本实施例中优化目标域图像编码器的步骤,在此不做限定。
步骤S72:利用目标域图像编码器对域转换图像与目标域图像共同编码,得到统一标签损失。
在一个实施场景中,统一标签损失包括三重损失和多分类损失。具体地,请结合参阅图8,图8是图7中步骤S72一实施例的流程示意图。
具体可以包括如下步骤:
步骤S721:利用目标域图像编码器分别对域转换图像、目标域图像进行特征提取,得到域转换图像特征、目标域图像特征。
利用目标域图像编码器分别对域转换图像、目标域图像进行特征提取,从而能够得到域转换图像特征、目标域图像特征。
在一个实施场景中,为了便于后续基于目标域图像的伪标签计算多分类损失,还可以在计算多分类损失之前,先对目标域图像添加伪标签,具体地,可以对目标域图像特征进行聚类,并根据聚类结果将目标域图像特征划分至多个预定义类别中,基于划分结果为每个目标域图像添加伪标签,以表示目标域图像属于对应划分至的预定义类别。例如,可以预先定义200个类别,且每个类别均有不同的类别名称,此外,预先定义的类别的数量还可以是其他数值,例如,300、400等,在此不做限定,进而基于划分结果为每个目标域图像添加伪标签,以表示目标域图像属于对应划分至的预定义类别。为了便于描述,多个预定义类别可以表示为域转换图像的真标签的类别可以表示为YS。
步骤S722:根据域转换图像特征得到域转换图像的第三识别结果,并根据目标域图像特征得到目标域图像的第四识别结果。
在一个实施场景中,具体可以采用目标域分类器对域转换图像进行分类处理,得到第三识别结果,并对目标域图像特征进行分类处理,得到第四识别结果。
为了便于描述,每个图像的第三识别结果和第四识别结果可以均表示为y,故对于域转换图像XS→T和目标域图像XT中的任一图像x(x∈XS→T∪XT),其第三识别结果或第四识别结果y属于若干伪标签和若干真标签中的任一个,可以表示为
步骤S723:根据域转换图像特征和目标域图像特征,得到三重损失,并根据第一识别结果和域转换图像的真标签,以及第二识别结果和目标域图像的伪标签,得到多分类损失。
具体地,可以获取域转换图像和目标域图像的正样本图像、负样本图像,利用域转换图像和目标域图像分别与其正样本图像、负样本图像的图像特征之间的差异,得到三重损失。在一个具体的实施场景中,三重损失可以表示为:
上述公式(13)中,表示在x~XS→T∪XT范围中与fT的特征差异最小的图像xp经目标域识别模型的目标域图像编码器FT进行特征提取得到的图像特征,/>表示在x~XS→T∪XT范围中与fT的特征差异最大的图像xn经目标域识别模型的目标域图像编码器FT进行特征提取得到的图像特征,m表示一预设间隔(例如,0.3),(·)+表示max(0,·)。
具体地,还可以利用交叉熵损失函数对第一识别结果和域转换图像的真标签,以及第二识别结果和目标域图像的伪标签进行处理,得到多分类损失。在一个具体的实施场景中,多分类损失可以表示为:
上述公式(14)中,lce表示交叉熵损失函数,x~XS→T∪XT表示若干域转换XS→T和若干目标域图像XT的集合中的图像,y表示图像x的标签,fT表示图像x经目标域识别模型的目标域图像编码器FT进行特征提取得到的图像特征,表示目标域识别模型的目标域分类器利用图像特征fT进行分类处理得到的识别结果(包括第三识别结果、第四识别结果)。
步骤S724:将三重损失和多分类损失进行加权处理,得到统一标签损失。
具体地,统一标签损失可以表示为:
上述公式(15)中,表示若干域转换图像XS→T和若干目标域图像XT的集合(即XS→T∪XT),以及若干伪标签和若干真标签的集合(即/>),/>表示多分类损失,表示三重损失,λtri表示三重损失的权重(如,1、0.9、0.8等等)。
步骤S73:根据统一标签损失对目标域图像编码器进行联合优化。
具体地,可以根据统一标签损失对目标域识别模型中的目标域图像编码器和目标域分类器进行联合优化。在一个实施场景中,可以采用随机梯度下降(StochasticGradient Descent,SGD)、批量梯度下降(Batch Gradient Descent,BGD)、小批量梯度下降(Mini-Batch Gradient Descent,MBGD)中的任一种对目标域识别模型中的目标域图像编码器和目标域分类器进行联合优化,在此不做限定。
在一个实施场景中,在调整目标域识别模型的参数之后,还可以采用一验证集对目标域识别模型进行验证,得到目标域识别模型的性能指标(例如,精度、准确度等),若性能指标达到预设指标,且不再提升,则可以结束对目标域识别模型的训练。
区别于前述实施例,将源域图像通过结构化领域转换网络转换至目标域,得到域转换图像,从而利用目标域图像编码器对域转换图像与目标域图像共同编码,得到统一标签损失,并根据统一标签损失对目标域图像编码器进行联合优化,能够基于域转换后的源域图像和目标域图像进行联合训练和优化,有利于提高目标域图像编码器的性能。
请参阅图9,图9是本申请目标域图像编码器的训练方法一实施例的流程示意图,具体而言,可以包括如下步骤:
步骤S91:获取样本目标域图像。
在一个实施场景中,样本目标域图像包括目标域上的第一样本图像和由源域转换至目标域的第二样本图像。具体可以参阅前述实施例中的相关步骤,在此不再赘述。
在一个实施场景中,在获取样本目标域图像之前,还可以对源域识别模型、目标域识别模型、领域转换模型分别进行预训练,具体可以参阅前述实施例中的相关步骤,在此不再赘述。
步骤S92:利用目标域图像编码器,在目标域上对样本目标域图像提取样本行人图像特征。
具体地,可以采用目标域图像编码器对样本目标域图像进行特征提取,从而得到样本目标域图像的样本行人图像特征。
步骤S93:根据样本行人图像特征得到样本目标域图像的识别结果。
在一个实施场景中,可以采用目标域分类器对样本行人特征进行分类处理,得到样本目标域图像的识别结果。
步骤S94:根据识别结果,调整目标域图像编码器的参数。
具体地,可以根据识别结果,获得损失值,从而根据损失值调整目标域图像编码器的参数。在一个实施场景中,当样本目标域图像包括目标域上的第一样本图像和由源域转换至目标域的第二样本图像时,可以利用目标域图像编码器对第一样本图像和第二样本图像进行共同编码,得到统一标签损失,再根据统一标签损失对目标域图像编码器进行联合优化。具体可以参阅前述实施例中的相关步骤,在此不再赘述。
上述方案,通过获取样本目标域图像,并利用利用目标域图像编码器,在目标域上对样本目标域图像提取样本行人图像特征,从而根据样本行人图像特征得到样本目标域图像的识别结果,进而根据识别结果,调整目标域图像编码器的参数,故能够有利于后续基于目标域上的目标域图像编码器进行重识别,从而能够在目标域进行识别。
请参阅图10,图10是本申请图像重识别装置100一实施例的框架示意图。图像重识别装置100包括图像获取模块101、特征提取模块102、识别获取模块103,图像获取模块101用于获取待识别目标域图像;特征提取模块102用于利用目标域图像编码器,在目标域上对待识别目标域图像提取行人图像特征;识别获取模块103用于根据行人图像特征得到待识别目标域图像的识别结果。
上述方案,通过利用目标域图像编码器在目标域上对待识别目标域图像提取其行人图像特征,并根据行人图像特征得到待识别目标域图像的识别结果,故能够基于目标域上的目标域图像编码器进行重识别,从而能够在目标域进行识别。
在一些实施例中,图像重识别装置100还包括模型训练模块,用于根据源域的源域图像与目标域的目标域图像联合训练得到目标域图像编码器。
区别于前述实施例,根据源域的源域图像与目标域的目标域图像联合训练得到目标域图像编码器,故能够在不同域图像上进行联合训练和优化,有利于提高目标域图像编码器的性能。
在一些实施例中,模型训练模块包括域转换子模块,用于将源域图像通过结构化领域转换网络转换至目标域,得到域转换图像,模型训练模块包括统一标签损失确定子模块,用于利用目标域图像编码器对域转换图像与目标域图像共同编码,得到统一标签损失,模型训练模块包括联合优化子模块,用于根据统一标签损失对目标域图像编码器进行联合优化。
区别于前述实施例,将源域图像通过结构化领域转换网络转换至目标域,得到域转换图像,从而利用目标域图像编码器对域转换图像与目标域图像共同编码,得到统一标签损失,并根据统一标签损失对目标域图像编码器进行联合优化,能够基于域转换后的源域图像和目标域图像进行联合训练和优化,有利于提高目标域图像编码器的性能。
在一些实施例中,统一标签损失包括三重损失和多分类损失,统一标签损失确定子模块包括特征提取单元,用于利用目标域图像编码器分别对域转换图像、目标域图像进行特征提取,得到域转换图像特征、目标域图像特征,统一标签损失确定子模块包括结果识别单元,用于根据域转换图像特征得到域转换图像的第一识别结果,并根据目标域图像特征得到目标域图像的第二识别结果,统一标签损失确定子模块包括损失确定单元,用于根据域转换图像特征和目标域图像特征,得到三重损失,并根据第一识别结果和域转换图像的真标签,以及第二识别结果和目标域图像的伪标签,得到多分类损失,统一标签损失确定子模块包括加权处理单元,用于将三重损失和多分类损失进行加权处理,得到统一标签损失。
区别于前述实施例,利用目标域图像编码器分别对域转换图像、目标域图像进行特征提取,得到域转换图像特征、目标域图像特征,从而根据域转换图像特征得到域转换图像的第一识别结果,并根据目标域图像特征得到目标域图像的第二识别结果,进而根据域转换图像特征和目标域图像特征得到三重损失,并根据第一识别结果和域转换图像的真标签,以及第二识别结果和目标域图像的伪标签,得到多分类损失,从而将三重损失和多分类损失进行加权处理,得到统一标签损失,能够提高损失的准确性,从而有利于提高目标域图像编码器的性能。
在一些实施例中,统一标签损失确定子模块还包括特征聚类单元,用于对目标域图像特征进行聚类,并根据聚类结果将目标域图像特征划分至多个预定义类别中,统一标签损失确定子模块还包括伪标签添加单元,用于基于划分结果为每个目标域图像添加伪标签,以表示目标域图像属于对应划分至的预定义类别。
区别于前述实施例,能够将目标域图像特征进行聚类,并根据聚类结果,将其划分至多个预定义类别中,从而为每个目标域图像添加伪标签,以表示目标域图像属于对应划分至的预定义类别,从而能够有利于利用目标域上的目标域图像进行损失计算,从而能够有利于提高损失的准确性,进而有利于提高目标域图像编码器的性能。
在一些实施例中,损失确定单元包括样本获取子单元,用于获取域转换图像和目标域图像的正样本图像、负样本图像,损失确定单元包括三重损失确定子单元,用于利用域转换图像和目标域图像分别与其正样本图像、负样本图像的图像特征之间的差异,得到三重损失。
区别于前述实施例,能够利用域转换图像和目标域图像分别与其正样本图像、负样本图像的图像特征之间的差异,得到三重损失,故能够有利于提高损失的准确性,进而有利于提高目标域图像编码器的性能。
在一些实施例中,模型训练模块还包括领域转换网络训练子模块,用于根据关系一致性损失训练结构化领域转换网络。
区别于前述实施例,通过关系一致性损失训练结构化领域转换网络,能够有利于维持图像在通过结构化领域转换网络进行域转换前后,维持其关系一致性,有利于目标域图像编码器充分学习样本的原本关系,提高目标域图像编码器的性能。
在一些实施例中,模型训练模块还包括关系一致性损失确定子模块,用于利用参考源域图像的源域特征关系和域转换特征关系,得到关系一致性损失。
区别于前述实施例,利用参考源域图像的源域特征关系和域转换特征关系,得到关系一致性损失,能够准确地计算得到图像在经过域转换前后的特征关系,从而能够提高关系一致性损失的准确性,进而有利于目标域图像编码器充分学习样本的原本关系,提高目标域图像编码器的性能。
在一些实施例中,关系一致性损失确定子模块具体用于采用交叉熵损失函数对源域特征关系和域转换特征关系进行处理,得到关系一致性损失。
区别于前述实施例,采用交叉熵损失函数对源域特征关系和域转换特征关系进行处理,得到关系一致性损失,能够方便地计算出关系一致性损失,有利于降低计算关系一致性损失的复杂度,降低训练难度和负荷。
在一些实施例中,模型训练模块还包括参考源域图像子模块,用于以至少一张源域图像作为参考源域图像,模型训练模块还包括源域特征关系获取子模块,用于基于源域图像分别与其至少一张正样本图像、负样本图像之间的特征相似度,得到参考源域图像的源域特征关系,模型训练模块还包括域转换特征关系获取子模块用于基于与参考源域图像以及正样本图像、负样本图像对应的域转换图像之间的特征相似度,得到参考源域图像的域转换特征关系。
区别于前述实施例,通过以至少一张源域图像作为参考源域图像,并基于源域图像分别与其至少一张正样本图像、负样本图像之间的特征相似度,得到参考源域图像的源域特征关系,以及基于与参考源域图像以及正样本图像、负样本图像对应的域转换图像之间的特征相似度,得到参考源域图像的域转换特征关系,能够提高关系一致性损失值的准确性,从而能够有利于提高域转换前后的关系一致性。
在一些实施例中,领域转换网络训练子模块包括损失获取单元,用于获取领域转换模型的对抗损失值、重建损失值和目标域特征约束损失值中的至少一个,领域转换网络训练子模块包括模型损失获取单元,用于对关系一致性损失以及获取的损失进行加权处理,得到领域转换模型的模型损失,领域转换网络训练子模块包括模型优化单元,用于根据领域转换模型的模型损失对领域转换模型进行优化,得到结构化领域转换网络。
区别于前述实施例,通过获取领域转换模型的对抗损失值、重建损失值和目标域特征约束损失值中的至少一个,并对关系一致性损失以及获取的损失进行加权处理,得到领域转换模型的模型损失,从而根据领域转换模型的模型损失对领域转换模型进行优化,得到结构化领域转换网络,能够提高领域转换模型的模型损失的准确性,从而能够提高得到的结构化领域转换网络的性能。
请参阅图11,图11是本申请目标域图像编码器的训练装置110一实施例的框架示意图。目标域图像编码器的训练装置110包括图像获取模块111、特征提取模块112、识别获取模块113和模型调整模块114,图像获取模块111用于获取样本目标域图像;特征提取模块112用于利用目标域图像编码器,在目标域上对样本目标域图像提取样本行人图像特征;识别获取模块113用于根据样本行人图像特征得到样本目标域图像的识别结果;模型调整模块114用于根据识别结果,调整目标域图像编码器的参数。
上述方案,通过获取样本目标域图像,并利用利用目标域图像编码器,在目标域上对样本目标域图像提取样本行人图像特征,从而根据样本行人图像特征得到样本目标域图像的识别结果,进而根据识别结果,调整目标域图像编码器的参数,故能够有利于后续基于目标域上的目标域图像编码器进行重识别,从而能够在目标域进行识别。
在一些实施例中,样本目标域图像包括目标域上的第一样本图像和由源域转换至目标域的第二样本图像。
区别于前述实施例,利用目标域上的第一样本图像和由源域转换至目标域的第二样本图像对目标域图像编码器进行训练,能够在不同域图像上进行联合训练和优化,有利于提高目标域图像编码器的性能。
请参阅图12,图12是本申请电子设备120一实施例的框架示意图。电子设备120包括相互耦接的存储器121和处理器122,处理器122用于执行存储器121中存储的程序指令,以实现上述任一图像重识别方法实施例中的步骤,或实现上述任一目标域图像编码器的训练方法实施例中的步骤。在一个具体的实施场景中,电子设备120可以包括但不限于:微型计算机、服务器,此外,电子设备120还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器122用于控制其自身以及存储器121以实现上述任一图像重识别方法实施例中的步骤,或实现上述任一目标域图像编码器的训练方法实施例中的步骤。处理器122还可以称为CPU(Central Processing Unit,中央处理单元)。处理器122可能是一种集成电路芯片,具有信号的处理能力。处理器122还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器122可以由集成电路芯片共同实现。
上述方案,能够基于目标域上的目标域图像编码器进行重识别,从而能够在目标域进行识别。
请参阅图13,图13为本申请计算机可读存储介质130一实施例的框架示意图。计算机可读存储介质130存储有能够被处理器运行的程序指令131,程序指令131用于实现上述任一图像重识别方法实施例中的步骤,或实现上述任一目标域图像编码器的训练方法实施例中的步骤。
上述方案,能够基于目标域上的目标域图像编码器进行重识别,从而能够在目标域进行识别。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (14)
1.一种图像重识别方法,其特征在于,包括:
根据源域的源域图像与目标域的目标域图像联合训练得到目标域图像编码器;
获取待识别目标域图像;
利用所述目标域图像编码器,在目标域上对所述待识别目标域图像提取行人图像特征;
根据所述行人图像特征得到所述待识别目标域图像的识别结果;
其中,所述根据源域的源域图像与目标域的目标域图像联合训练得到所述目标域图像编码器,包括:
将所述源域图像通过结构化领域转换网络转换至目标域,得到域转换图像;
利用所述目标域图像编码器对所述域转换图像与所述目标域图像共同编码,得到统一标签损失,所述统一标签损失包括三重损失和多分类损失;
根据所述统一标签损失对所述目标域图像编码器进行联合优化。
2.根据权利要求1所述的方法,其特征在于,所述利用所述目标域图像编码器对所述域转换图像与所述目标域图像共同编码,得到统一标签损失包括:
利用所述目标域图像编码器分别对所述域转换图像、所述目标域图像进行特征提取,得到域转换图像特征、目标域图像特征;
根据所述域转换图像特征得到所述域转换图像的第一识别结果,并根据所述目标域图像特征得到所述目标域图像的第二识别结果;
根据所述域转换图像特征和所述目标域图像特征,得到所述三重损失,并根据所述第一识别结果和所述域转换图像的真标签,以及所述第二识别结果和所述目标域图像的伪标签,得到所述多分类损失;
将所述三重损失和所述多分类损失进行加权处理,得到所述统一标签损失。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一识别结果和所述域转换图像的真标签,以及所述第二识别结果和所述目标域图像的伪标签,得到所述多分类损失之前,所述方法还包括:
对所述目标域图像特征进行聚类,并根据聚类结果将所述目标域图像特征划分至多个预定义类别中;
基于划分结果为每个目标域图像添加伪标签,以表示所述目标域图像属于对应划分至的所述预定义类别。
4.根据权利要求2所述的方法,其特征在于,所述根据所述域转换图像特征和所述目标域图像特征,得到所述三重损失包括:
获取所述域转换图像和所述目标域图像的正样本图像、负样本图像;
利用所述域转换图像和所述目标域图像分别与其正样本图像、负样本图像的所述图像特征之间的差异,得到所述三重损失。
5.根据权利要求1所述的方法,其特征在于,还包括:根据关系一致性损失训练所述结构化领域转换网络。
6.根据权利要求5所述的方法,其特征在于,在所述根据关系一致性损失训练所述结构化领域转换网络之前,还包括:
利用参考源域图像的源域特征关系和域转换特征关系,得到关系一致性损失。
7.根据权利要求6所述的方法,其特征在于,所述利用参考源域图像的源域特征关系和域转换特征关系,得到关系一致性损失,包括:
采用交叉熵损失函数对所述源域特征关系和所述域转换特征关系进行处理,得到所述关系一致性损失。
8.根据权利要求6所述的方法,其特征在于,所述利用参考源域图像的源域特征关系和域转换特征关系,得到关系一致性损失之前,所述方法还包括:
以至少一张所述源域图像作为所述参考源域图像;
基于所述源域图像分别与其至少一张正样本图像、负样本图像之间的特征相似度,得到所述参考源域图像的源域特征关系;
基于与所述参考源域图像以及所述正样本图像、负样本图像对应的域转换图像之间的特征相似度,得到所述参考源域图像的域转换特征关系。
9.根据权利要求5至8任一项所述的方法,其特征在于,根据关系一致性损失训练所述结构化领域转换网络,包括:
获取领域转换模型的对抗损失值、重建损失值和目标域特征约束损失值中的至少一个;
对所述关系一致性损失以及所述获取的损失进行加权处理,得到领域转换模型的模型损失;
根据所述领域转换模型的模型损失对所述领域转换模型进行优化,得到所述结构化领域转换网络。
10.一种目标域图像编码器的训练方法,其特征在于,包括:
获取样本目标域图像,其中,所述样本目标域图像包括所述目标域上的第一样本图像和由源域转换至所述目标域的第二样本图像;
利用所述目标域图像编码器,在目标域上对所述样本目标域图像提取样本行人图像特征;
根据所述样本行人图像特征得到所述样本目标域图像的识别结果;
根据所述识别结果得到统一标签损失,利用所述统一标签损失调整所述目标域图像编码器的参数,所述统一标签损失包括三重损失和多分类损失。
11.一种图像重识别装置,其特征在于,包括:
模型训练模块,用于根据源域的源域图像与目标域的目标域图像联合训练得到目标域图像编码器;
图像获取模块,用于获取待识别目标域图像;
特征提取模块,用于利用所述目标域图像编码器,在目标域上对所述待识别目标域图像提取行人图像特征;
识别获取模块,用于根据所述行人图像特征得到所述待识别目标域图像的识别结果;
其中,模型训练模块包括域转换子模块、统一标签损失确定子模块、联合优化子模块,所述域转换子模块用于将所述源域图像通过结构化领域转换网络转换至目标域,得到域转换图像,所述统一标签损失确定子模块用于利用所述目标域图像编码器对所述域转换图像与所述目标域图像共同编码,得到统一标签损失,所述统一标签损失包括三重损失和多分类损失,所述联合优化子模块用于根据所述统一标签损失对所述目标域图像编码器进行联合优化。
12.一种目标域图像编码器的训练装置,其特征在于,包括:
图像获取模块,用于获取样本目标域图像,其中,所述样本目标域图像包括所述目标域上的第一样本图像和由源域转换至所述目标域的第二样本图像;
特征提取模块,用于利用所述目标域图像编码器,在目标域上对所述样本目标域图像提取样本行人图像特征;
识别获取模块,用于根据所述样本行人图像特征得到所述样本目标域图像的识别结果;
模型调整模块,用于根据所述识别结果得到统一标签损失,利用所述统一标签损失调整所述目标域图像编码器的参数,所述统一标签损失包括三重损失和多分类损失。
13.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至9任一项所述的图像重识别方法,或实现权利要求10所述的目标域图像编码器的训练方法。
14.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至9任一项所述的图像重识别方法,或实现权利要求10所述的目标域图像编码器的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010111675.9A CN111444765B (zh) | 2020-02-24 | 2020-02-24 | 图像重识别方法及相关模型的训练方法及相关装置、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010111675.9A CN111444765B (zh) | 2020-02-24 | 2020-02-24 | 图像重识别方法及相关模型的训练方法及相关装置、设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444765A CN111444765A (zh) | 2020-07-24 |
CN111444765B true CN111444765B (zh) | 2023-11-24 |
Family
ID=71653912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010111675.9A Active CN111444765B (zh) | 2020-02-24 | 2020-02-24 | 图像重识别方法及相关模型的训练方法及相关装置、设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444765B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001398B (zh) * | 2020-08-26 | 2024-04-12 | 科大讯飞股份有限公司 | 域适应方法、装置、设备、图像处理方法及存储介质 |
CN112270208B (zh) * | 2020-09-28 | 2023-07-07 | 天津大学 | 一种基于特征子空间分离的交叉数据域微表情分类方法 |
CN112232241B (zh) * | 2020-10-22 | 2022-03-25 | 华中科技大学 | 一种行人重识别方法、装置、电子设备和可读存储介质 |
CN116401597B (zh) * | 2023-06-09 | 2023-08-22 | 中国科学技术大学先进技术研究院 | 地震解释模型构建方法、电子设备及可读存储介质 |
CN117576519B (zh) * | 2024-01-15 | 2024-04-09 | 浙江航天润博测控技术有限公司 | 图像识别模型训练优化方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800677A (zh) * | 2018-12-29 | 2019-05-24 | 西安交通大学 | 一种跨平台掌纹识别方法 |
CN110321813A (zh) * | 2019-06-18 | 2019-10-11 | 南京信息工程大学 | 基于行人分割的跨域行人重识别方法 |
CN110414462A (zh) * | 2019-08-02 | 2019-11-05 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种无监督的跨域行人重识别方法及系统 |
CN110414368A (zh) * | 2019-07-04 | 2019-11-05 | 华中科技大学 | 一种基于知识蒸馏的无监督行人重识别方法 |
WO2019231105A1 (ko) * | 2018-05-31 | 2019-12-05 | 한국과학기술원 | 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치 |
CN110619286A (zh) * | 2019-08-29 | 2019-12-27 | 深圳市城市交通规划设计研究中心有限公司 | 一种车辆开关门动作识别方法、系统及存储介质 |
-
2020
- 2020-02-24 CN CN202010111675.9A patent/CN111444765B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019231105A1 (ko) * | 2018-05-31 | 2019-12-05 | 한국과학기술원 | 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치 |
CN109800677A (zh) * | 2018-12-29 | 2019-05-24 | 西安交通大学 | 一种跨平台掌纹识别方法 |
CN110321813A (zh) * | 2019-06-18 | 2019-10-11 | 南京信息工程大学 | 基于行人分割的跨域行人重识别方法 |
CN110414368A (zh) * | 2019-07-04 | 2019-11-05 | 华中科技大学 | 一种基于知识蒸馏的无监督行人重识别方法 |
CN110414462A (zh) * | 2019-08-02 | 2019-11-05 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种无监督的跨域行人重识别方法及系统 |
CN110619286A (zh) * | 2019-08-29 | 2019-12-27 | 深圳市城市交通规划设计研究中心有限公司 | 一种车辆开关门动作识别方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111444765A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444765B (zh) | 图像重识别方法及相关模型的训练方法及相关装置、设备 | |
Hou et al. | Vrstc: Occlusion-free video person re-identification | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
US10095950B2 (en) | Systems and methods for image processing | |
CN109711422B (zh) | 图像数据处理、模型的建立方法、装置、计算机设备和存储介质 | |
CN110362677B (zh) | 文本数据类别的识别方法及装置、存储介质、计算机设备 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN110717554B (zh) | 图像识别方法、电子设备及存储介质 | |
US20120027263A1 (en) | Hand gesture detection | |
CN110188829B (zh) | 神经网络的训练方法、目标识别的方法及相关产品 | |
CN110827265B (zh) | 基于深度学习的图片异常检测方法 | |
Haque et al. | Two-handed bangla sign language recognition using principal component analysis (PCA) and KNN algorithm | |
CN112215255A (zh) | 一种目标检测模型的训练方法、目标检测方法及终端设备 | |
CN113221641A (zh) | 基于生成对抗网络和注意力机制的视频行人重识别方法 | |
Dev et al. | Multi-level semantic labeling of sky/cloud images | |
CN115937655B (zh) | 多阶特征交互的目标检测模型及其构建方法、装置及应用 | |
CN111291887A (zh) | 神经网络的训练方法、图像识别方法、装置及电子设备 | |
JP2011248879A (ja) | テスト画像内のオブジェクトを分類するための方法 | |
CN110717401A (zh) | 年龄估计方法及装置、设备、存储介质 | |
CN115862055A (zh) | 基于对比学习和对抗训练的行人重识别方法及装置 | |
CN112614110B (zh) | 评估图像质量的方法、装置及终端设备 | |
CN113033587A (zh) | 图像识别结果评估方法、装置、电子设备及存储介质 | |
CN105205487B (zh) | 一种图片处理方法及装置 | |
CN116168274A (zh) | 对象检测方法以及对象检测模型训练方法 | |
CN115861595A (zh) | 一种基于深度学习的多尺度域自适应异源图像匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |