CN113111700A

CN113111700A - 图像生成模型的训练方法、电子设备及存储介质

Info

Publication number: CN113111700A
Application number: CN202110209295.3A
Authority: CN
Inventors: 冯壮; 刘晓沐; 王松; 张东; 冉昭; 王子彤; 田野
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-07-13

Abstract

本申请公开了一种图像生成模型的训练方法、电子设备及存储介质。该方法包括：获取训练图像对，训练图像对包括同时对同一目标拍摄得到的第一可见图像和第一红外图像；利用图像生成模型生成与第一可见图像对应的第二红外图像以及与第一红外图像对应的第二可见图像；基于第一可见图像与所述第二可见图像之间的差异以及第一红外图像与第二红外图像之间的差异，获取图像生成模型的像素一致性损失。通过上述方式，能够提高生成的图像的真实性。

Description

图像生成模型的训练方法、电子设备及存储介质

技术领域

本申请涉及图像处理领域，特别是涉及一种图像生成模型的训练方法、电子设备及存储介质。

背景技术

随着科技的智能化，人脸识别成为身份识别的一种主要方式。所谓人脸识别，即利用摄像头拍摄人脸图像，对拍摄到的人脸图像进行识别。人脸图像的模态(所处图像域)取决于获取该人脸图像的摄像头的类型。例如，红外摄像头获取到的人脸图像为红外图像，可见光摄像头获取到的人脸图像为可见图像。为了提高人脸识别的准确性，通常对红外图像和可见图像的人脸图像进行融合，基于经融合的图像进行人脸识别。

但是，在低光照条件下，获取到的可见图像存在很多缺陷，例如对比度低、暗处细节丢失以及噪声较大等等。获取到的红外图像包含的细节信息丰富且噪声较小，但是红外图像无色彩，且物体的材料和延伸会影响红外光的反射，故红外图像不能像可见图像一样反映真实的场景。从而融合得到的图像存在颜色和细节不自然的问题。

为解决该问题，现有技术的做法是，利用采集到的红外图像来生成可见图像。但是，现有的利用红外图像生成的可见图像效果不好。

发明内容

本申请提供一种图像生成模型的训练方法、电子设备及存储介质，能够解决现有的利用红外图像生成的可见图像效果不好的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种图像生成模型的训练方法。该方法包括：获取训练图像对，训练图像对包括同时对同一目标拍摄得到的第一可见图像和第一红外图像；利用图像生成模型生成与第一可见图像对应的第二红外图像以及与第一红外图像对应的第二可见图像；基于第一可见图像与所述第二可见图像之间的差异以及第一红外图像与第二红外图像之间的差异，获取图像生成模型的像素一致性损失。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，该电子设备包括处理器、与处理器连接的存储器，其中，存储器存储有程序指令；处理器用于执行存储器存储的程序指令以实现上述方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种存储介质，存储有程序指令，该程序指令被执行时能够实现上述方法。

通过上述方式，本申请中将第一可见图像和第一红外图像作为图像生成模型的输入，图像生成模型可以生成第一可见图像对应的第二图像、第一红外图像对应的第二可见图像，根据第一可见图像和第二可见图像之间的差异和第一红外图像、以及第二红外图像之间的差异来调整图像生成模型的参数。其中，第一可见图像和第一红外图像是对同一目标拍摄得到的，因此第一可见图像和第一红外图像在一定意义上为成对图像，能够降低训练的难度。并且，在第一可见图像和第一红外图像为成对图像的基础上，可以利用像素一致性损失来衡量图像生成模型的生成效果，实现图像生成模型的有监督学习，提高图像生成模型生成的图像的真实性。

附图说明

图1是本申请图像生成模型的训练方法实施例一的流程示意图；

图2是本申请第二可见图像和第二可见图像生成示意图；

图3是本申请图像生成模型的训练方法实施例二的流程示意图；

图4是本申请图像生成模型一结构示意图；

图5是本申请图像生成模型的训练方法实施例三的流程示意图；

图6是本申请图像生成模型的训练方法实施例四的流程示意图；

图7是本申请图像生成模型的训练方法实施例五的流程示意图；

图8是图7中S41的一具体流程示意图；

图9是本申请图像生成模型另一结构示意图；

图10图7中S41的另一具体流程示意图；

图11是本申请图像生成模型又一结构示意图；

图12是本申请电子设备一实施例的结构示意图；

图13是本申请存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，在不冲突的情况下，本文所描述的实施例可以与其它实施例相结合。

图1是本申请图像生成模型的训练方法实施例一的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施例可以包括：

S11：获取训练图像对。

训练图像对包括对同一目标拍摄得到的第一可见图像和第一红外图像。

训练图像对可以属于第一训练图像集，第一训练图像集的相关描述请参见后面的实施例。第一可见图像可以为由可见光摄像头拍摄得到的目标人脸在可见域的图像，第一红外图像可以为由红外摄像头拍摄得到的目标人脸在红外域的图像。

其中，第一可见图像和第一红外图像，可以是利用同一摄像设备的不同的摄像头对同一目标拍摄得到的，也可以是利用不同摄像设备的摄像头对同一目标拍摄得到的。

第一可见图像和第一红外图像是对同一目标拍摄得到的，因此第一可见图像和第一红外图像在一定意义上为成对图像。

在一具体实施方式中，第一可见图像和第一红外图像可以是同时对同一目标拍摄得到的。可以理解的是，由于第一可见图像和第一红外图像是同时对同一目标拍摄得到的，这就意味着第一可见图像和第二可见图像中的目标人脸面部表情、面部姿态以及所处环境(光照条件等等)均相同。因此，在此情况下，第一可见图像和第一红外图像可以被认为是严格意义上的成对图像。

S12：利用图像生成模型生成与第一可见图像对应的第二红外图像以及与第一红外图像对应的第二可见图像。

图像生成模型可以为生成对抗网络，例如CycleGAN。当然在其他实施方式中也可以为其他能够实现本申请图像生成的网络。本申请后文以CycleGAN网络为例进行说明。

图像生成模型生成与第一可见图像对应的第二红外图像，可以理解为图像生成模型对第一可见图像进行域转换/域迁移，也即将第一可见图像从可见域转换到红外域。同样地，利用图像生成模型生成第一红外图像对应的第二可见图像可以理解为将第一红外图像从红外域转换到可见域。

S13：基于第一可见图像与第二可见图像之间的差异以及第一红外图像与第二红外图像之间的差异，获取图像生成模型的像素一致性损失。

可以理解的是，由于本申请中第一可见图像和第一红外图像为一定意义上的成对图像，因此可以引入像素一致性损失，进行像素级的有监督学习。其中，像素一致性损失可以为利用第一红外图像与第二红外图像之间的像素差异、以及第一红外图像与第二红外图像之间的像素差异获取到的损失。获取图像生成模型的像素一致性损失所依据的公式可以如下：

其中，L_pc(G,F)为像素一致性损失，i_n为第一红外图像，i_v为第一可见图像，G(i_n)为第二可见图像，F(i_v)为第二红外图像，||G(i_n)-i_v||₁为G(i_n)和i_v之间的L1范数，||F(i_v)-i_n||₁为F(i_v)和i_n之间的L1范数，E为熵。P(i_n)为i_n的像素值，P(i_v)为i_v的像素值。

S14：基于像素一致性损失调整图像生成模型的参数。

下面结合图2，以一个例子的形式对本实施例进行说明。

如图2所示，利用图像生成模型可以生成与第一可见图像(Real VIS)对应的第二红外图像(Fake IR)以及与第一红外图像(Iir)对应的第二可见图像(Fake VIS)，基于RealVIS与Fake VIS之间的差异以及Iir与Fake VIS之间的差异，调整图像生成模型的参数。

通过本实施例的实施，本申请中将第一可见图像和第一红外图像作为图像生成模型的输入，图像生成模型可以生成第一可见图像对应的第二图像、第一红外图像对应的第二可见图像，根据第一可见图像和第二可见图像之间的差异、以及第一红外图像和第二红外图像之间的差异来调整图像生成模型的参数。其中，第一可见图像和第一红外图像是对同一目标拍摄得到的，因此第一可见图像和第一红外图像为一定意义上的成对图像，能够降低训练的难度。并且，在第一可见图像和第一红外图像为成对图像的基础上，可以利用像素一致性损失来衡量图像生成模型的生成效果，实现图像生成模型的有监督学习，提高图像生成模型生成的图像的真实性。

图3是本申请图像生成模型的训练方法实施例二的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图3所示的流程顺序为限。本实施例是对S12的进一步扩展，如图3所示，本实施例可以包括：

S121：利用图像生成模型对第一可见图像进行编码，得到第一可见图像的特征，利用图像生成模型对第一红外图像进行编码，得到第一红外图像的特征。

结合参阅图4，图4为图像生成模型一结构示意图。如图4所示，图像生成模型可以包括编码器、转换模块和解码器。编码器可以对图像进行编码得到图像的特征，转换模块可以图像的特征进行域转换，解码器可以将经域转换的图像的特征进行解码得到图像。

可以利用编码器分别对第一可见图像、第一红外图像进行编码，对应得到第一可见图像的特征、第一红外图像的特征。

在一具体实施方式中，图像生成模型中的编码器可以为人脸特征提取器。在此情况下，本步骤可以包括：

利用人脸特征提取器对第一可见图像进行编码，得到第一可见图像中的人脸特征，作为第一可见图像的特征；利用人脸特征提取器对所述第一红外图像进行编码，得到第一红外图像中的人脸特征，作为第一红外图像的特征。

其中，人脸特征提取器(FFE)可以为FaceNet，MobileFaceNet和LightCNN等等。可以理解的是，相较于图像生成模型原始的编码器，人脸特征提取器提取到的图像的特征为图像中人脸部分的特征(人脸特征)，而不是整张图像的特征。从而能够使得后续对人脸特征进行转换、解码得到的图像更加真实(细节更丰富、分辨率更高)。

S122：利用图像生成模型将第一可见图像的特征从可见域转换到红外域，利用图像生成模型将第一红外图像的特征从红外域转换到可见域。

可以利用转换模块的F映射函数将第一可见图像的特征从可见域转换到红外域，可以利用转换模块的G映射函数将第一红外图像的特征从红外域转换到可见域。

S123：利用图像生成模型对经转换的第一可见图像的特征进行解码，得到第二红外图像，利用图像生成模型对经转换的第一红外图像的特征进行解码，得到第二可见图像。

可以利用解码器分别对经转换的第一可见图像的特征、经转换的第一红外图像的特征进行解码，对应得到第二红外图像、第二可见图像。

在上述将图像生成模型的解码器替换为人脸特征提取器的基础上，可以在使用人脸特征提取器之前，对人脸特征提取器进行训练。具体可以如下：

图5是本申请图像生成模型的训练方法实施例三的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图5所示的流程顺序为限。如图5所示，本实施例可以包括：

S21：获取第一训练图像集。

其中，第一训练图像集中包括多个不同的训练图像对。

结合前面实施例中提及的内容可知，训练图像对包括一对对同一目标拍摄得到的第一可见图像和第一红外图像。其中第一可见图像可以由可见摄像头拍摄得到，第一红外图像可以由红外摄像头拍摄得到。

可以由摄像头拍摄不同场景/不同类别(光照条件、面部姿态、面部表情)下的图像对以组成第一训练图像集，提高第一训练图像集中图像的多样性，进而提高图像生成模型的泛化能力。

由摄像头拍摄到的图像中可能存在噪声。例如同一图像中包括多张人脸、同一图像中包括目标的人脸之外的区域等等。因此在获取到摄像头拍摄到的图像对之后，可以进行清洗。例如，对包含多张人脸和/或包含目标的人脸之外的区域的图像进行裁剪，以使每张图像中仅包括一张人脸，且只包含目标的人脸区域。又如，将质量低的图像去除。再将经清洗的图像对作为训练图像对。

举例说明，最终获取到的第一训练图像集中包括250类图像。其中每一类包括20对VIS-IR，即20张第一可见图像和20张第一红外图像。并且，其中每一类包括多张面部姿态、面部表情的图像。例如向上倾斜、向下倾斜、向左旋转、向右旋转以及无表情、微笑、大笑等等。

S22：利用第一训练图像集对人脸特征提取器的参数进行微调。

由于第一训练图像集中的训练图像对有限，使得人脸特征提取器在第一训练图像集上的训练存在困难。因此，本申请在通过上述S22之前，还可以对人脸特征提取器进行预训练。具体可以如下：

图6是本申请图像生成模型的训练方法实施例四的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图6所示的流程顺序为限。如图6所示，本实施例可以包括：

S31：获取第二训练图像集。

其中，第二训练图像集中包括多张可见训练图像。

第二训练图像集可以为公开的可见人脸数据集，例如LFW等。因此，第二训练图像集中包括场景丰富类别多样的可见域的训练图像。

S32：利用第二训练图像集对人脸特征提取器进行预训练。

可以理解的是，由于第二训练图像集中包括场景丰富类别多样的可见训练图像，因此利用利用第二训练图像集对人脸特征提取器进行预训练，能够提高人脸特征提取器的泛化能力，进一步能够减少后续基于人脸特征提取器提取的人脸特征生成的图像出现画面异常的概率。

图7是本申请图像生成模型的训练方法实施例五的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图7所示的流程顺序为限。本实施例中，S41为在S14之前可以包括的步骤，S42为对S14的进一步扩展。如图7所示，本实施例可以包括：

S41：基于第二红外图像和第二可见图像，得到图像生成模型的至少一个损失。

图像生成模型的至少一个损失可以为像素一致性损失之外的其他损失。在一具体实施方式中，图像生成模型的至少一个损失可以包括对抗损失、循环损失中的至少一个。

所谓对抗损失，是指根据图像生成模型的判别器对原始的和生成的红外图像、可见图像的判别结果得到的损失。结合参阅图8，对抗损失的获取方式可以包括如下子步骤：

S411：利用图像生成模型对第一可见图像和第二可见图像进行判别，得到第一判别结果，利用图像生成模型对第一红外图像和第二红外图像进行判别，得到第二判别结果。

结合参阅图9，图像生成模型除了可以包括编码器、转换模块和解码器之外，还可以包括判别器。判别器可以对解码器得到的图像进行判别，以区分哪些是原始的/真实的图像，哪些是生成的图像。判别器可以分为第一判别器和第二判别器，以对不同域的图像进行判别。

本步骤中，可以利用第一判别器对第一可见图像和第二可见图像进行判别，得到第一判别结果。可以利用第二判别器对第一红外图像和第二红外图像进行判别，得到第二判别结果。

S412：基于第一判别结果和第二判别结果，得到图像生成模型的对抗损失。

对抗损失可以为第一对抗损失、第二对抗损失之和。第一对抗损失可以为根据第一判别器对可见图像的判别结果得到的损失，第二对抗损失可以为根据第二判别器对红外图像判别结果得到的损失。

计算对抗损失所依据的公式可以如下：

其中，L_GAN(G,D_v,i_n,i_v)为第一对抗损失，D_v为第一判别器，D_v(i_v)为对第一可见图像的第一判别结果，D_v(G(i_n))为对第二可见图像的第一判别结果。

其中，L_GAN(F,D_n,i_n,i_v)为第二对抗损失，D_n为第二判别器，D_n(i_n)为对第一红外图像的第二判别结果，D_n(F(i_v))为对第二红外图像的第二判别结果。

结合参阅图10，对于循环损失，其获取方式可以包括以下子步骤：

S413：利用图像生成模型生成与第二红外图像对应的第三可见图像，利用图像生成模型生成与第二可见图像对应的第三红外图像。

本步骤的生成过程可以与前面的第二可见图像、第二红外图像的生成过程类似，在此不再重复。

S414：基于第三可见图像与第一可见图像之间的差异以及第三红外图像与第一红外图像之间的差异，得到图像生成模型的循环损失。

计算循环损失所依据的公式可以如下：

其中，L_cyc(G,F)为循环损失，F(G(i_n))为第三红外图像，G(F(i_v))为第三可见图像。

S42：基于像素一致性损失和至少一个损失，调整图像生成模型的参数。

在至少一个损失同时包括对抗损失和循环损失的情况下，可以通过如下公式对像素一致性损失、对抗损失和循环损失进行加权处理，得到图像生成模型最终的损失：

L＝L_GAN(G,D_v,I_n,I_v)+L_GAN(F,D_n,I_n,I_v)+λL_cyc(G,F)+γL_pc(G,F)。

其中，L为最终的损失，λ和γ为权重参数。

下面结合图11，以一个例子的形式对上述实施例中的方法进行详细说明。

如图11所示，CycleGAN中包括FFE(人脸特征提取器)、迁移模块(转换模块)和解码器。其中，迁移模块包括F和G两个映射函数。将Real VIS和Real IR输入CycleGAN；先利用F生成与Real VIS对应的Fake IR，利用G生成与Real IR对应的Fake VIS；再利用G生成与Fake IR对应的Cycle VIS，利用F生成与Fake VIS对应的Cycle IR。

基于Fake VIS与Real VIS之间的差异以及Fake IR与Real IR之间的差异获取像素一致性损失。利用D_v对Fake VIS和Real VIS进行判别，得到第一判别结果，利用D_n对FakeIR和Real IR进行判别，得到第二判别结果；基于第一判别结果和第二判别结果，得到对抗损失。基于Cycle VIS与Real VIS之间的差异以及Cycle IR与Real IR之间的差异，得到循环损失。

基于像素一致性损失、对抗损失和循环损失调整CycleGAN的参数。

图12是本申请电子设备一实施例的结构示意图。如图12所示，该电子设备包括处理器51、与处理器51耦接的存储器52。

其中，存储器52存储有用于实现上述任一实施例的方法的程序指令；处理器51用于执行存储器52存储的程序指令以实现上述方法实施例的步骤。其中，处理器51还可以称为CPU(Central Processing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

图13是本申请存储介质一实施例的结构示意图。如图13所示，本申请实施例的计算机可读存储介质60存储有程序指令61，该程序指令61被执行时实现本申请上述实施例提供的方法。其中，该程序指令61可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质60中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质60包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种图像生成模型的训练方法，其特征在于，包括：

获取训练图像对，所述训练图像对包括对同一目标拍摄得到的第一可见图像和第一红外图像；

利用所述图像生成模型生成与所述第一可见图像对应的第二红外图像以及与所述第一红外图像对应的第二可见图像；

基于所述第一可见图像与所述第二可见图像之间的差异以及所述第一红外图像与所述第二红外图像之间的差异，获取所述图像生成模型的像素一致性损失；

基于所述像素一致性损失调整所述图像生成模型的参数。

2.根据权利要求1所述的方法，其特征在于，所述利用所述图像生成模型生成与所述第一可见图像对应的第二红外图像以及与所述第一红外图像对应的第二可见图像，包括：

利用所述图像生成模型对所述第一可见图像进行编码，得到所述第一可见图像的特征，利用所述图像生成模型对所述第一红外图像进行编码，得到所述第一红外图像的特征；

利用所述图像生成模型将所述第一可见图像的特征从可见域转换到红外域，利用所述图像生成模型将所述第一红外图像的特征从所述红外域转换到所述可见域；

利用所述图像生成模型对经转换的第一可见图像的特征进行解码，得到所述第二红外图像，利用所述图像生成模型对经转换的第一红外图像的特征进行解码，得到所述第二可见图像。

3.根据权利要求2所述的方法，其特征在于，所述图像生成模型包括人脸特征提取器，所述利用所述图像生成模型对所述第一可见图像进行编码，得到所述第一可见图像的特征，利用所述图像生成模型对所述第一红外图像进行编码，得到所述第一红外图像的特征，包括：

利用所述人脸特征提取器对所述第一可见图像进行编码，得到所述第一可见图像中的人脸特征，作为所述第一可见图像的特征，利用所述人脸特征提取器对所述第一红外图像进行编码，得到所述第一红外图像中的人脸特征，作为所述第一红外图像的特征。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括以下对所述人脸特征提取器的训练步骤：

获取第一训练图像集，其中，所述第一训练图像集中包括多个不同的所述训练图像对；

利用所述第一训练图像集对所述人脸特征提取器的参数进行微调。

5.根据权利要求4所述的方法，其特征在于，在所述利用所述第一训练图像集对所述人脸特征提取器的参数进行微调之前，所述方法还包括以下对所述人脸特征提取器的训练步骤：

获取第二训练图像集，其中，所述第二训练图像集中包括多张可见训练图像；

利用所述第二训练图像集对所述人脸特征提取器进行预训练。

6.根据权利要求1所述的方法，其特征在于，在所述基于所述像素一致性损失调整所述图像生成模型的参数之前，所述方法还包括：

基于所述第二红外图像和所述第二可见图像，得到所述图像生成模型的至少一个损失；

所述基于所述像素一致性损失调整所述图像生成模型的参数，包括：

基于所述像素一致性损失和所述至少一个损失，调整所述图像生成模型的参数。

7.根据权利要求6所述的方法，其特征在于，所述图像生成模型为生成对抗网络，所述基于所述第二红外图像和所述第二可见图像，得到所述图像生成模型的至少一个损失，包括：

利用所述图像生成模型对所述第一可见图像和所述第二可见图像进行判别，得到第一判别结果，利用所述图像生成模型对所述第一红外图像和所述第二红外图像进行判别，得到第二判别结果；

基于所述第一判别结果和所述第二判别结果，得到所述图像生成模型的对抗损失。

8.根据权利要求6所述的方法，其特征在于，所述基于所述第二红外图像和第二可见图像，得到所述图像生成模型的至少一个损失，包括：

利用所述图像生成模型生成与所述第二红外图像对应的第三可见图像，利用所述图像生成模型生成与所述第二可见图像对应的第三红外图像；

基于所述第三可见图像与所述第一可见图像之间的差异以及所述第三红外图像与所述第一红外图像之间的差异，得到所述图像生成模型的循环损失。

9.根据权利要求1所述的方法，其特征在于，所述训练图像对是利用同一摄像设备的不同摄像头对所述同一目标拍摄得到的。

10.一种电子设备，其特征在于，包括处理器、与所述处理器连接的存储器，其中，

所述存储器存储有程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以实现权利要求1-9中任一项所述的方法。

11.一种存储介质，其特征在于，所述存储介质存储程序指令，所述程序指令被执行时实现如权利要求1-9中任一项所述的方法。