CN111291885A

CN111291885A - 近红外图像的生成方法、生成网络的训练方法和装置

Info

Publication number: CN111291885A
Application number: CN202010065711.2A
Authority: CN
Inventors: 田飞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-16
Anticipated expiration: 2040-01-20
Also published as: US11854118B2; EP3852068A1; CN111291885B; JP2021114296A; KR102605528B1; JP7135125B2; US20210224993A1; KR20210094482A

Abstract

本申请公开了一种近红外图像的生成方法、生成网络的训练方法和装置，涉及计算机视觉技术领域。具体实现方案为：获取训练样本集和待训练的对抗网络，其中的生成网络用于根据输入的可见光图像生成对应的近红外图像，所述判别网络用于判断输入的图像是真实的还是生成的；根据生成的近红外图像和近红外图像样本在图像空间中的距离，以及所述生成的近红外图像和近红外图像样本在特征空间中的距离，构建第一目标函数；优化所述第一目标函数值，采用所述训练样本集对所述对抗网络进行对抗训练。本申请实施例通过采用图像空间中的距离和特征空间中的距离联合构建目标函数，有利于提高生成近红外图像的精度。

Description

近红外图像的生成方法、生成网络的训练方法和装置

技术领域

本申请涉及计算机技术，尤其涉及计算机视觉技术领域。

背景技术

图像识别技术是计算机视觉领域的一个热门话题，近年来已取得了很多成功的案例，例如人脸识别、目标检测等。以人脸识别为例，环境中可见光条件是多变且复杂的，因此人脸识别的性能很容易受到可见光源变化的影响，近红外成像技术的应用在一定程度上解决了光源变化的问题。因此，目前大多使用近红外图像训练识别模型，以提高识别精度。

然而，实际应用中大量图像采自于可见光条件，例如监控视频，身份证照片等。为了解决训练样本不足的技术问题，现有技术将容易获取的可见光图像转换成近红外图像。

发明人在图像转换过程中发现，现有的图像转换方法得到的近红外图像普遍存在模糊不清、精度不够的技术问题，不能成为合格的训练样本。

发明内容

本申请实施例提供了一种近红外图像的生成方法、生成网络的训练方法和装置、设备和存储介质，以提高生成近红外图像的精度。

第一方面，本申请实施例提供了一种生成网络的训练方法，包括：

获取训练样本集，所述训练样本集包括近红外图像样本和可见光图像样本；

获取待训练的对抗网络，所述对抗网络包括生成网络和判别网络，所述生成网络用于根据输入的可见光图像生成对应的近红外图像，所述判别网络用于判断输入的图像是真实的还是生成的；

根据所述生成的近红外图像和近红外图像样本在图像空间中的距离，以及所述生成的近红外图像和近红外图像样本在特征空间中的距离，构建第一目标函数；

优化所述第一目标函数值，采用所述训练样本集对所述对抗网络进行对抗训练。

本申请实施例通过采用生成的近红外图像和近红外图像样本，在图像空间中的距离和在特征空间中的距离，构建第一目标函数，从而在优化第一目标函数时，从图像空间和特征空间两个维度，将生成的近红外图像拟合近红外图像样本，得到高精度的生成网络。

可选的，根据所述生成的近红外图像和近红外图像样本在图像空间中的距离，以及所述生成的近红外图像和近红外图像样本在特征空间中的距离，构建第一目标函数，包括：

通过根据所述生成的近红外图像与近红外图像样本的对应像素的像素值，得到所述生成的近红外图像与近红外图像样本在所述图像空间中的距离；

根据所述生成的近红外图像与近红外图像样本的深度特征，得到所述生成的近红外图像与近红外图像样本在所述特征空间中的距离；

根据所述生成的近红外图像和近红外图像样本在图像空间中的距离，以及所述生成的近红外图像和近红外图像样本在特征空间中的距离，构建第一目标函数。

上述申请中的一种可选实施方式，通过根据所述生成的近红外图像与近红外图像样本的对应像素的像素值，得到二者在图像空间中的距离，实现像素级别的监督；通过根据所述生成的近红外图像与近红外图像样本的深度特征，得到二者在特征空间中的距离，实现深层特征的监督。

可选的，所述判别网络用于对输入的近红外图像进行多种尺度变换，并判断各种尺度变换后的图像是真实的还是生成的；

所述方法还包括：根据判别网络中的多种变换尺度，对所述近红外图像样本进行尺度变换；

根据各尺度的近红外图像样本的数据分布与生成的对应尺度的近红外图像的数据分布之间的推土机距离，得到第二目标函数；

优化所述第二目标函数值，采用所述训练样本集对所述判别网络进行训练。

上述申请中的一种可选实施方式，判别网络为多尺度的判别网络，即从多个尺度判断图像是真实的还是生成的；通过各尺度的图像之间的推土机距离构建第二目标函数，从而通过优化第二目标函数值从多尺度拟合生成的近红外图像的数据分布与近红外图像样本的数据分布，提高判别网络的精度，从而在对抗训练时提高生成网络的精度。

可选的，所述方法还包括：根据生成的近红外图像与所述可见光图像样本的图像特征相似度，构建第三目标函数；

优化第三目标函数值，采用所述可见光图像样本对所述生成网络进行训练。

上述申请中的一种可选实施方式，通过图像特征之间的相似度构建第三目标函数，从图像特征维度将生成的近红外图像拟合可见光图像样本，使二者包含的图像语义接近，提高生成网络的精度，从而在对抗训练时提高生成网络的精度。

可选的，在所述优化所述第一目标函数值，采用所述训练样本集对所述对抗网络进行对抗训练之前，还包括：

对近红外图像样本和可见光图像样本分别进行三维重建，并生成同角度下的二维投影图像；

将所述近红外图像样本基于其对应的二维投影图像进行像素对齐；

将所述可见光图像样本基于其对应的二维投影图像进行像素对齐。

上述申请中的一种可选实施方式，通过对样本进行三维重建以及二维像素对齐，实现近红外图像样本和可见光图像的像素对齐，降低了拍摄角度和相机参数的影响，有利于提高生成网络的精度。

对所述近红外图像样本和可见光图像样本进行颜色编码，分离出所述近红外图像样本和可见光图像样本中的结构信息。

上述申请中的一种可选实施方式，由于近红外图像样本和可见光图像样本的不同之处在于色度，相同之处在于结构；通过分离图像样本中的结构信息，使得图像样本的内容更加接近，有利于提高生成网络的精度。

第二方面，本申请实施例还提供了一种近红外图像的生成方法，包括：

获取包括目标对象的可见光图像；

将所述可见光图像输入至生成网络中，得到近红外图像；

所述生成网络采用第一方面实施例所提供的方法进行训练得到。

本申请实施例通过高精度的生成网络生成包含目标对象的可见光图像，提高了生成的可见光图像的精度。

可选的，所述方法还包括：从所述可见光图像中截取包括所述目标对象的设定兴趣点的局部图像；

将所述局部图像输入至所述生成网络中，得到局部近红外图像；

将所述近红外图像和所述局部近红外图像进行图像融合，得到最终的近红外图像。

上述申请中的一种可选实施方式，通过对包含目标对象的设定兴趣点进行局部图像生成，并将局部近红外图像与整体的近红外图像融合，对整体的近红外图像进行局部细节强化，提高近红外图像局部的清晰度。

可选的，所述将所述近红外图像和局部近红外图像进行图像融合，得到最终的近红外图像，包括：

将所述近红外图像和所述局部近红外图像的对应像素的像素值进行加权求和。

上述申请中的一种可选实施方式，通过对对应像素的像素值进行加权求和，从像素级别进行局部细节强化，进一步提高近红外图像局部的清晰度。

可选的，所述目标对象包括人脸，所述设定兴趣点包括嘴部和/或眼部。

上述申请中的一种可选实施方式，在生成包括人脸的近红外图像的应用场景中，嘴部和眼部是人脸识别的关键点，同时也是具有独立特征的部分，通过对嘴部和眼部进行局部细节强化，使得生成的人脸图像更好地训练人脸识别模型。

第三方面，本申请实施例还提供了一种生成网络的训练装置，包括：

第一获取模块，用于获取训练样本集，所述训练样本集包括近红外图像样本和可见光图像样本；

第二获取模块，用于获取待训练的对抗网络，所述对抗网络包括生成网络和判别网络，所述生成网络用于根据输入的可见光图像生成对应的近红外图像，所述判别网络用于判断输入的图像是真实的还是生成的；

构建模块，用于根据所述生成的近红外图像和近红外图像样本在图像空间中的距离，以及所述生成的近红外图像和近红外图像样本在特征空间中的距离，构建第一目标函数；

训练模块，用于优化所述第一目标函数值，采用所述训练样本集对所述对抗网络进行对抗训练。

第四方面，本申请实施例还提供了一种近红外图像的生成装置，包括：

第一获取模块，用于获取包括目标对象的可见光图像；

生成模块，用于将所述可见光图像输入至生成网络中，得到近红外图像；

所述生成网络采用如第一方面实施例所提供的方法进行训练得到。

第五方面，本申请实施例还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面实施例所提供的一种生成网络的训练方法，或者执行如第二方面实施例所提供的一种近红外图像的生成方法。

第六方面，本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面实施例所提供的一种生成网络的训练方法，或者执行如第二方面实施例所提供的一种近红外图像的生成方法。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例一中的一种生成网络的训练方法的流程图；

图2是本申请实施例二中的一种生成网络的训练方法的流程图；

图3是本申请实施例三中的一种生成网络的训练方法的流程图；

图4是本申请实施例四中的一种近红外图像的生成方法的流程图；

图5是本申请实施例五中的一种生成网络的训练装置的结构图；

图6是本申请实施例六中的一种近红外图像的生成装置的结构图；

图7是用来实现本申请实施例的生成网络的训练方法或者近红外图像的生成方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实施例一

图1是本申请实施例一中的一种生成网络的训练方法的流程图，本申请实施例适用于对用于根据可见光图像生成近红外图像的生成网络进行训练的情况，该方法通过近红外图像的生成装置执行，该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中。

如图1所示的一种生成网络的训练方法，包括：

S101、获取训练样本集，训练样本集包括近红外图像样本和可见光图像样本。

本实施例中，训练样本集包括多组近红外图像样本和可见光图像样本，每组近红外图像样本和可见光图像样本包括的图像内容相同。例如，采用近红外摄像机和普通的可见光摄像机对同一人在同一姿势下进行拍摄，得到一组近红外图像样本和可见光图像样本；对同一人在不同姿势下进行拍摄，得到另一组近红外图像样本和可见光图像样本。

S102、获取待训练的对抗网络，对抗网络包括生成网络和判别网络，生成网络用于根据输入的可见光图像生成对应的近红外图像，判别网络用于判断输入的图像是真实的还是生成的。

本实施例对生成网络的结构不作限定，例如，生成网络的结构为Pix2Pix网络中的U-net，或者CYCLE GAN中的编解码，或者其他可能的结构。具体的结构需要根据场景数据来试验那种结构最好。在一可选实施方式中，选择Pix2PixHD网络中的residual block作为生成网络。

同样地，本实施例对判别网络的结构也不作限定，例如判别网络的结构为Pix2Pix网络中的PatchGAN，或者若干卷积层+输出层，或者其他可能的结构。具体的结构需要根据场景数据来试验那种结构最好。

S103、根据生成的近红外图像和近红外图像样本在图像空间中的距离，以及生成的近红外图像和近红外图像样本在特征空间中的距离，构建第一目标函数。

可选的，通过根据生成的近红外图像与近红外图像样本的对应像素的像素值，得到生成的近红外图像与近红外图像样本在图像空间中的距离，又称为L1 loss。具体地，将对应像素的绝对差值的总和作为生成的近红外图像与图像样本在图像空间中的距离。

可选的，根据生成的近红外图像与近红外图像样本的深度特征，得到生成的近红外图像与近红外图像样本在特征空间中的距离。具体地，使用损失网络，例如视觉几何群(Visual Geometry Group，VGG)网络，提取图像特征；再计算深度特征之间的距离，如式(1)所示。

其中，

表示损失网络，C_j表示损失网络的第j层，C_jH_jW_j表示第j层的特征图的大小，y是近红外图像样本，

是生成的近红外图像。

得到图像空间中的距离和特征空间中的距离之后，将图像空间中的距离和特征空间中的距离进行加权求和，得到第一目标函数。

S104、优化第一目标函数值，采用训练样本集对对抗网络进行对抗训练。

在训练对抗网络时，将可见光图像样本输入至生成网络，生成网络生成对应的近红外图像；随即将生成的近红外图像和同组的近红外图像样本输入至判别网络中，判别网络输出0-1之间的参数值，0表示判别结果为假，1表示判别结果为真。

在一可选实施方式中，先经过少量迭代训练判别网络，在判别网络的判别精度达到设定值后，对生成网络和判别网络进行交替训练。本实施例中，通过优化第一目标函数值训练对抗网络中的生成网络，例如通过最小化第一目标函数值，不断迭代生成网络中的图像参数，得到训练好的生成网络。对于判别网络可采用现有的损失函数进行训练，本实施例不作限定。

进一步地，通过根据生成的近红外图像与近红外图像样本的对应像素的像素值，得到二者在图像空间中的距离，实现像素级别的监督；通过根据生成的近红外图像与近红外图像样本的深度特征，得到二者在特征空间中的距离，实现深层特征的监督。

实施例二

图2是本申请实施例二中的一种生成网络的训练方法的流程图，本申请实施例在上述各实施例的技术方案的基础上进行了优化改进。

进一步的，判别网络用于对输入的近红外图像进行多种尺度变换，并判断各种尺度变换后的图像是真实的还是生成的。进一步地，在上述方法的基础上追加操作“根据判别网络中的多种变换尺度，对近红外图像样本进行尺度变换；根据各尺度的近红外图像样本的数据分布与生成的对应尺度的近红外图像的数据分布之间的推土机距离，得到第二目标函数；优化第二目标函数值，采用训练样本集对判别网络进行训练”，从而提高判别网络的精度，进而提高生成网络的精度。

如图2所示的一种生成网络的训练方法，包括：

S201、获取训练样本集，训练样本集包括近红外图像样本和可见光图像样本。

S202、获取待训练的对抗网络，对抗网络包括生成网络和判别网络，生成网络用于根据输入的可见光图像生成对应的近红外图像，判别网络用于判断输入的图像是真实的还是生成的。

S203、根据生成的近红外图像和近红外图像样本在图像空间中的距离，以及生成的近红外图像和近红外图像样本在特征空间中的距离，构建第一目标函数。

S204、根据判别网络中的多种变换尺度，对近红外图像样本进行尺度变换。

S205、根据各尺度的近红外图像样本的数据分布与生成的对应尺度的近红外图像的数据分布之间的推土机距离，得到第二目标函数。

S206、优化第二目标函数值，采用训练样本集对判别网络进行训练；优化第一目标函数值，采用训练样本集对生成网络进行训练。

可选的，变换尺度包括原图、原图的1/2和原图的1/4。基于此，保留对近红外图像样本的原图，对近红外图像样本进行1/2下采样，对近红外图像样本进行1/4下采样。

本实施例中的判别网络为多尺度判别网络。可选的，判别网络包括多个独立的子网络。其中，多个子网络用于对生成的近红外图像进行对应尺度的变换，并根据同尺度的近红外图像样本判断输入的近红外图像是真实的还是生成的。可选的，为了提高训练效率，令多个子网络共享参数。

式(2)示出了第二目标函数的表达式：

式(3)整个对抗网络的目标函数的表达式：

其中，D₁,D₂,D₃是三种尺度的判别网络，G是生成网络。GAN表示各尺度的生成的近红外图像的数据分布与近红外图像样本的数据分布的推土机距离(Wasserstein距离)。max指使判别网络最大化地判别出输入的是生成的近红外图像还是真实的近红外图像；min指生成网络要最小化判别精度。

在一具体实施方式中，首先最小化第二目标函数值单独训练判别网络。当判别精度达到设定值后。然后，固定判别网络的参数，最小化第一目标函数值并最小化Wasserstein距离之和的最大值，以训练生成网络的参数，再固定生成网络的参数，最小化第二目标函数值训练判别网络的参数，如此交替训练对抗网络。

本实施例中，判别网络为多尺度的判别网络，即从多个尺度判断图像是真实的还是生成的；通过各尺度的图像之间的推土机距离构建第二目标函数，从而通过优化第二目标函数值从多尺度拟合生成的近红外图像的数据分布与近红外图像样本的数据分布，提高判别网络的精度，从而在对抗训练时提高生成网络的精度。

实施例三

图3是本申请实施例三中的一种生成网络的训练方法的流程图，本申请实施例在上述各实施例的技术方案的基础上进行了优化改进。

进一步的，在上述方法的基础上，增加操作“根据生成的近红外图像与可见光图像样本的图像特征相似度，构建第三目标函数；优化第三目标函数值，采用可见光图像样本对生成网络进行训练”，进一步提高生成网络的精度。

如图3所示的一种生成网络的训练方法，包括：

S301、获取训练样本集，训练样本集包括近红外图像样本和可见光图像样本。

S302、获取待训练的对抗网络，对抗网络包括生成网络和判别网络，生成网络用于根据输入的可见光图像生成对应的近红外图像，判别网络用于判断输入的图像是真实的还是生成的。

S303、根据生成的近红外图像和近红外图像样本在图像空间中的距离，以及生成的近红外图像和近红外图像样本在特征空间中的距离，构建第一目标函数。

S304、根据生成的近红外图像与可见光图像样本的图像特征相似度，构建第三目标函数。

S305、优化第三目标函数值，采用可见光图像样本对生成网络进行训练；优化第一目标函数值，采用训练样本集对生成网络进行训练。

通过生成网络将输入的可见光图像样本生成近红外图像，图像转换后，图像内容不应该改变，那么图像特征也应该是相近的。基于此，可以计算生成的近红外图像和输入的可见光图像样本的图像特征相似度，比如特征余弦的差值，构建第三目标函数。在训练生成包括人脸的近红外图像的生成网络的应用场景中，从生成的近红外图像和输入的可见光图像样本中提取人脸特征，再计算人脸特征的相似度。

在一具体实施方式中，可以将第一目标函数和第三目标函数进行加权求和构成联合函数，权值可以自主设定或者通过训练得到。首先单独训练判别网络，例如优化第二目标函数值单独训练判别网络。当判别精度达到设定值后。固定判别网络的参数，优化联合函数值训练生成网络的参数，再固定生成网络的参数，训练判别网络的参数，例如优化第二目标函数值训练判别网络的参数，如此交替训练对抗网络。

本实施例通过图像特征之间的相似度构建第三目标函数，从图像特征维度将生成的近红外图像拟合可见光图像样本，使二者包含的图像语义接近，提高生成网络的精度，从而在对抗训练时提高生成网络的精度。

在上述各实施例中，在优化第一目标函数值，采用训练样本集对对抗网络进行对抗训练之前，还包括：对近红外图像样本和可见光图像样本分别进行三维重建，并生成同角度下的二维投影图像；将近红外图像样本基于其对应的二维投影图像进行像素对齐；将可见光图像样本基于其对应的二维投影图像进行像素对齐。

在采用近红外摄像机和普通的可见光摄像机对同一人在同一姿势下进行拍摄时，人的姿势会有轻微的变化，而拍摄时间不能保证绝对的同步，这样会导致近红外图像和可见光图像的像素不对齐，而且近红外摄像机和普通的可见光摄像机的拍摄参数不同也会使得像素不对齐，不利于训练得到高精度的生成网络。基于此，对近红外图像样本和可见光图像样本分别进行三维重建。其中，本实施例不对三维重建的方法作限定。可选的，在训练生成包括人脸的近红外图像的生成网络的应用场景中，采用论文GANFIT:GenerativeAdversarial Network Fitting for High Fidelity 3D Face Reconstruction中提供的方法进行三维人脸重建，将人脸的姿态角度调整一致，并生成人脸纹理贴图。该论文提供的方法GANFIT使用了端到端的可微分渲染，通过神经网络一次性输出完毕，没有神经网络以外的计算，有利于提高像素对齐的效率，进而提高生成网络的训练效率。

近红外图像样本和可见光图像样本的人脸纹理贴图生成以后，贴到同一人脸模型上，同时获得两个人脸模型。两个人脸模型都正对镜头，或者都和摄像头呈现同一个夹角，就可以获得完全对齐的二维投影图像。将近红外图像样本中的像素进行调整，以基于其对应的二维投影图像进行像素对齐；同理，将可见光图像样本中的像素进行调整，以基于其对应的二维投影图像进行像素对齐。

接着，采用像素对齐后的训练集对对抗网络进行训练。

本实施例通过对样本进行三维重建以及二维像素对齐，实现近红外图像样本和可见光图像的像素对齐，降低了拍摄角度和相机参数的影响，有利于提高生成网络的精度。

在上述各实施例中，在优化第一目标函数值，采用训练样本集对对抗网络进行对抗训练之前，还包括：对近红外图像样本和可见光图像样本进行颜色编码，分离出近红外图像样本和可见光图像样本中的结构信息。

可选的，对近红外图像样本和可见光图像样本进行YUV颜色编码。具体将近红外图像样本和可见光图像样本均投影到YUV空间，其中“Y”表示明亮度(Luminance或Luma)，也就是灰阶值，“U”和“V”表示的则是色度(Chrominance或Chroma)。投影到YUV空间后，生成对应的YCbCr图像。

下面式(3)-式(5)示出了将可见光图像样本转换为YCbCr图像的公式，式(6)-式(7)示出了将近红外图像样本转换为YCbCr图像的公式。

Y＝0.257*R+0.564*G+0.098*B+16；(3)

Cb＝-0.148*R-0.291*G+0.439*B+128；(4)

Cr＝0.439*R-0.368*G-0.071*B+128；(5)

Y＝0.257*N+0.564*I+0.098*R+16；(6)

Cb＝-0.148*N-0.291*I+0.439*R+128；(7)

Cr＝0.439*N-0.368*I-0.071*R+128；(8)

从上式可以看出，在将可见光图像和近红外图像转换为YCbCr图像后，通过Y通道保存了大部分结构信息，最有转换价值。在训练生成包括人脸的近红外图像的生成网络的应用到场景中，Cb通道分配最少的参数，而人脸很少有蓝色信息，从而YCbCr图像较好地分离出结构信息。接着，采用颜色编码后的训练集对对抗网络进行训练。

本实施例中，由于近红外图像样本和可见光图像样本的不同之处在于色度，相同之处在于结构；通过分离图像样本中的结构信息，使得图像样本的内容更加接近，有利于提高生成网络的精度。

实施例四

图4是本申请实施例四中的一种近红外图像的生成方法的流程图，本申请实施例适用于对根据可见光图像生成近红外图像的情况，该方法通过近红外图像的生成装置执行，该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中。

如图4所示的一种近红外图像的生成方法，包括：

S401、获取包括目标对象的可见光图像。

S402、将可见光图像输入至生成网络中，得到近红外图像，其中，生成网络采用上述任一实施例所提供的方法进行训练得到。

本实施例中，得到的高精度的近红外图像将用于训练人脸识别网络。

本申请实施例中的生成网络精度较高，通过高精度的生成网络生成包含目标对象的可见光图像，提高了生成的可见光图像的精度。

在一可选实施方式中，上述方法还包括：从可见光图像中截取包括目标对象的设定兴趣点的局部图像；将局部图像输入至生成网络中，得到局部近红外图像；将近红外图像和局部近红外图像进行图像融合，得到最终的近红外图像。

其中，设定兴趣点为感兴趣的图像区域，以目标对象是人脸为例，设定兴趣点为人脸关键点，例如嘴部和/或眼部等，当然还可以包括其他人脸关键点。具体地，对可见光图像进行人脸关键点识别，识别出嘴部和/或眼部所在的区域，并从可见光图像中截取包括嘴部和/或眼部的局部图像。将局部图像输入至生成网络中，得到局部近红外图像。

可选的，将近红外图像和局部近红外图像的对应像素的像素值进行加权求和。为了突出设定兴趣点的特征，可以为局部近红外图像的像素值赋予更高的权重。

本实施方式，通过对包含目标对象的设定兴趣点进行局部图像生成，并将局部近红外图像与整体的近红外图像融合，对整体的近红外图像进行局部细节强化，提高近红外图像局部的清晰度。通过对对应像素的像素值进行加权求和，从像素级别进行局部细节强化，进一步提高近红外图像局部的清晰度。

在生成包括人脸的近红外图像的应用场景中，嘴部和眼部是人脸识别的关键点，同时也是具有独立特征的部分，通过对嘴部和眼部进行局部细节强化，使得生成的人脸图像更好地训练人脸识别模型。

实施例五

图5是本申请实施例五中的一种生成网络的训练装置的结构图，本申请实施例适用于对用于根据可见光图像生成近红外图像的生成网络进行训练的情况，该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中。

如图5所示的一种生成网络的训练装置500，包括：第一获取模块501，第二获取模块502，构建模块503和训练模块504；其中，

第一获取模块501，用于获取训练样本集，训练样本集包括近红外图像样本和可见光图像样本；

第二获取模块502，用于获取待训练的对抗网络，对抗网络包括生成网络和判别网络，生成网络用于根据输入的可见光图像生成对应的近红外图像，判别网络用于判断输入的图像是真实的还是生成的；

构建模块503，用于根据生成的近红外图像和近红外图像样本在图像空间中的距离，以及生成的近红外图像和近红外图像样本在特征空间中的距离，构建第一目标函数；

训练模块504，用于优化第一目标函数值，采用训练样本集对对抗网络进行对抗训练。

进一步地，构建模块503具体用于：通过根据生成的近红外图像与近红外图像样本的对应像素的像素值，得到生成的近红外图像与近红外图像样本在图像空间中的距离；根据生成的近红外图像与近红外图像样本的深度特征，得到生成的近红外图像与近红外图像样本在特征空间中的距离；根据生成的近红外图像和近红外图像样本在图像空间中的距离，以及生成的近红外图像和近红外图像样本在特征空间中的距离，构建第一目标函数。

进一步地，判别网络用于对输入的近红外图像进行多种尺度变换，并判断各种尺度变换后的图像是真实的还是生成的；基于此，该装置还包括判别训练模块，用于根据判别网络中的多种变换尺度，对近红外图像样本进行尺度变换；根据各尺度的近红外图像样本的数据分布与生成的对应尺度的近红外图像的数据分布之间的推土机距离，得到第二目标函数；优化第二目标函数值，采用训练样本集对判别网络进行训练。

进一步地，该装置还包括生成训练模块，用于根据生成的近红外图像与可见光图像样本的图像特征相似度，构建第三目标函数；优化第三目标函数值，采用可见光图像样本对生成网络进行训练。

进一步地，该装置还包括对齐模块，用于在优化第一目标函数值，采用训练样本集对对抗网络进行对抗训练之前，对近红外图像样本和可见光图像样本分别进行三维重建，并生成同角度下的二维投影图像；将近红外图像样本基于其对应的二维投影图像进行像素对齐；将可见光图像样本基于其对应的二维投影图像进行像素对齐。

进一步地，该装置还包括分离模块，用于在优化第一目标函数值，采用训练样本集对对抗网络进行对抗训练之前，对近红外图像样本和可见光图像样本进行颜色编码，分离出近红外图像样本和可见光图像样本中的结构信息。

上述生成网络的训练装置可执行本申请任意实施例所提供的生成网络的训练方法，具备执行生成网络的训练方法相应的功能模块和有益效果。

实施例六

图6是本申请实施例六中的一种近红外图像的生成装置的结构图，本申请实施例适用于根据可见光图像生成近红外图像的情况，该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中。

如图6所示的一种近红外图像的生成装置600，包括：第一获取模块601和生成模块602；其中，

第一获取模块601，用于获取包括目标对象的可见光图像；

生成模块602，用于将可见光图像输入至生成网络中，得到近红外图像；生成网络采用如第一方面实施例所提供的方法进行训练得到。

可选的，该装置还包括融合模块，用于从可见光图像中截取包括目标对象的设定兴趣点的局部图像；将局部图像输入至生成网络中，得到局部近红外图像；将近红外图像和局部近红外图像进行图像融合，得到最终的近红外图像。

可选的，融合模块在将近红外图像和局部近红外图像进行图像融合，得到最终的近红外图像时，具体用于：将近红外图像和局部近红外图像的对应像素的像素值进行加权求和。

可选的，目标对象包括人脸，设定兴趣点包括嘴部和/或眼部。

上述近红外图像的生成装置可执行本申请任意实施例所提供的近红外图像的生成方法，具备执行近红外图像的生成方法相应的功能模块和有益效果。

实施例七

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图7所示，是实现本申请实施例的生成网络的训练方法或者近红外图像的生成的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的生成网络的训练方法或者近红外图像的生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的生成网络的训练方法或者近红外图像的生成方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的生成网络的训练方法对应的程序指令/模块(例如，附图5所示的包括第一获取模块501，第二获取模块502，构建模块503和训练模块504)，又例如本申请实施例中的近红外图像的生成方法对应的程序指令/模块(例如，附图6所示的包括第一获取模块601和生成模块602)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的生成网络的训练方法，或者近红外图像的生成方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储实现生成网络的训练方法，或者近红外图像的生成方法的电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

该电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与执行生成网络的训练方法或者近红外图像的生成方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过采用生成的近红外图像和近红外图像样本，在图像空间中的距离和在特征空间中的距离，构建第一目标函数，从而在优化第一目标函数时，从图像空间和特征空间两个维度，将生成的近红外图像拟合近红外图像样本，得到高精度的生成网络。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种生成网络的训练方法，其特征在于，

2.根据权利要求1所述的方法，其特征在于，所述根据所述生成的近红外图像和近红外图像样本在图像空间中的距离，以及所述生成的近红外图像和近红外图像样本在特征空间中的距离，构建第一目标函数，包括：

根据所述生成的近红外图像与近红外图像样本的对应像素的像素值，得到所述生成的近红外图像与近红外图像样本在所述图像空间中的距离；

3.根据权利要求1或2所述的方法，其特征在于，所述判别网络用于对输入的近红外图像进行多种尺度变换，并判断各种尺度变换后的图像是真实的还是生成的；

所述方法还包括：

根据判别网络中的多种变换尺度，对所述近红外图像样本进行尺度变换；

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

根据生成的近红外图像与所述可见光图像样本的图像特征相似度，构建第三目标函数；

5.根据权利要求1或2所述的方法，其特征在于，在所述优化所述第一目标函数值，采用所述训练样本集对所述对抗网络进行对抗训练之前，还包括：

6.根据权利要求1或2所述的方法，其特征在于，在所述优化所述第一目标函数值，采用所述训练样本集对所述对抗网络进行对抗训练之前，还包括：

7.一种近红外图像的生成方法，其特征在于，包括：

获取包括目标对象的可见光图像；

将所述可见光图像输入至生成网络中，得到近红外图像；

所述生成网络采用权利要求1-6任一项所述的方法进行训练得到。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

从所述可见光图像中截取包括所述目标对象的设定兴趣点的局部图像；

9.根据权利要求7所述的方法，其特征在于，所述将所述近红外图像和所述局部近红外图像进行图像融合，得到最终的近红外图像，包括：

10.根据权利要求7-9任一项所述的方法，其特征在于，所述目标对象包括人脸，所述设定兴趣点包括嘴部和/或眼部。

11.一种生成网络的训练装置，其特征在于，包括：

12.一种近红外图像的生成装置，其特征在于，包括：

第一获取模块，用于获取包括目标对象的可见光图像；

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的一种生成网络的训练方法，或者权利要求7-10任一项所述的近红外图像的生成方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的一种生成网络的训练方法，或者权利要求7-10任一项所述的近红外图像的生成方法。