CN109727264A

CN109727264A - 图像生成方法、神经网络的训练方法、装置和电子设备

Info

Publication number: CN109727264A
Application number: CN201910026276.XA
Authority: CN
Inventors: 杨磊; 魏秀参; 崔权
Original assignee: Xuzhou Kuang Shi Data Technology Co Ltd; Nanjing Kuanyun Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Xuzhou Kuang Shi Data Technology Co Ltd; Nanjing Kuanyun Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2019-01-10
Filing date: 2019-01-10
Publication date: 2019-05-07

Abstract

本发明提供了一种图像生成方法、神经网络的训练方法、装置和电子设备，该图像生成方法包括：获取包含待检测对象的待处理图像和目标背景图像，并在待处理图像中提取前景图像；将前景图像和目标背景图像进行合成，得到目标合成图像；采用生成对抗网络对目标合成图像进行域的转换，得到目标转换图像，最终得到的目标转换图像与真实场景中对待检测对象进行拍摄得到的图像更加相似。本发明的图像生成方法生成的目标转换图像的真实性好，更加逼真，缓解了现有的图像生成方法生成的图像真实性差的技术问题。

Description

图像生成方法、神经网络的训练方法、装置和电子设备

技术领域

本发明涉及图像处理的技术领域，尤其是涉及一种图像生成方法、神经网络的训练方法、装置和电子设备。

背景技术

目标检测(object detection)是计算机视觉中的一项基础且重要研究的课题，在人脸识别、智能零售、智慧城市等场景中，目标检测都是应用落地的关键。之前的目标检测方法中大多需要人工采集和人工标注大量的训练图像，采集和标注的过程会花费大量的人力物力而且消耗非常多的时间，增长了项目落地的工期。

如何有效地降低获取训练图像及标注的成本，成为一个有实际意义的新兴研究方向。研究发现，通过基于贴图的图像生成的方法，可以快速获得目标检测算法所需要的训练图像及对应的标注。但由此也引入了新的问题：贴图生成的图像和真实检测环境下的图像存在着较大的不同，这种不同会造成检测算法的性能下降。

综上，现有的图像生成方法生成的图像真实性差的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种图像生成方法、神经网络的训练方法、装置和电子设备，以缓解现有的图像生成方法生成的图像真实性差的技术问题。

第一方面，本发明实施例提供了一种图像生成方法，包括：获取包含待检测对象的待处理图像和目标背景图像，并在所述待处理图像中提取前景图像；将所述前景图像和所述目标背景图像进行合成，得到目标合成图像；采用生成对抗网络对所述目标合成图像进行域的转换，得到目标转换图像，其中，所述目标转换图像和对比图像的相似度高于预设阈值；所述对比图像为假设所述待检测对象放置在所述目标背景图像所示的区域时，对所述待检测对象进行拍摄得到的图像。

进一步地，在所述待处理图像中提取前景图像包括：在所述待处理图像中确定所述待检测对象的包围框，得到携带包围框的待处理图像；根据所述携带包围框的待处理图像确定所述待检测对象的前景掩码图像，其中，所述前景掩码图像中第一目标像素点所构成的区域为所述待检测对象在所述待处理图像中所在的区域，所述第一目标像素点为像素值为第一预设数值的像素点；根据所述待检测对象的前景掩码图像在所述携带包围框的待处理图像中分割出所述前景图像。

进一步地，根据所述携带包围框的待处理图像确定所述待检测对象的前景掩码图像包括：按照目标尺寸对所述携带包围框的待处理图像进行裁剪，得到目标待处理图像；采用显著性检测方法对所述目标待处理图像进行显著性检测，得到所述目标待处理图像的显著热力图，其中，所述显著热力图中的显著区域为所述待检测对象在所述待处理图像中所在的区域；基于所述显著热力图确定所述待检测对象的前景掩码图像。

进一步地，基于所述显著热力图确定所述待检测对象的前景掩码图像包括：对所述显著热力图中的第二目标像素点进行置零处理，得到置零后的显著热力图，其中，所述第二目标像素点为所述显著热力图中位于第一包围框以外区域内的像素点，所述第一包围框为所述待检测对象的包围框映射到所述显著热力图中之后的包围框；采用条件随机场模型对所述置零后的显著热力图进行优化处理，得到目标显著热力图；对所述目标显著热力图进行二值化处理，得到所述待检测对象的前景掩码图像。

进一步地，按照目标尺寸对所述携带包围框的待处理图像进行裁剪，得到目标待处理图像包括：按照预设扩张原则对所述携带包围框的待处理图像中的包围框进行扩张处理，得到扩张处理后的待处理图像；按照扩张处理后的包围框对所述扩张处理后的待处理图像进行裁剪，得到所述目标待处理图像。

进一步地，对所述目标显著热力图进行二值化处理包括：在所述目标显著热力图中确定第二包围框，其中，所述第二包围框为所述待检测对象的包围框映射到所述目标显著热力图中之后的包围框；按照所述第二包围框对所述目标显著热力图进行裁剪，得到裁剪之后的目标显著热力图；对所述裁剪之后的目标显著热力图中的像素点进行聚类分析，并根据聚类分析结果确定像素阈值；基于所述像素阈值对所述裁剪之后的目标显著热力图进行二值化处理，得到所述待检测对象的前景掩码图像。

进一步地，基于所述像素阈值对所述裁剪之后的目标显著热力图进行二值化处理包括：将所述裁剪之后的目标显著热力图中的第一像素点的像素值设置为所述第一预设数值，其中，所述第一像素点为所述裁剪之后的目标显著热力图中像素值大于所述像素阈值的像素点；将所述裁剪之后的目标显著热力图中的第二像素点的像素值设置为第二预设数值，其中，所述第二像素点为所述裁剪之后的目标显著热力图中像素值不大于所述像素阈值的像素点。

进一步地，根据所述待检测对象的前景掩码图像在所述携带包围框的待处理图像中分割出所述前景图像包括：按照所述待检测对象的包围框对所述携带包围框的待处理图像进行裁剪，得到裁剪之后的待处理图像；根据所述前景掩码图像在所述裁剪之后的待处理图像中分割出所述前景图像。

进一步地，采用生成对抗网络对所述目标合成图像进行域的转换，得到目标转换图像包括：采用环状生成对抗网络对所述目标合成图像进行域的转换，得到所述目标转换图像。

进一步地，所述环状生成对抗网络包括第一生成器、第一判别器、第二生成器和第二判别器；所述第一生成器用于对所述目标合成图像进行域的转换，得到所述目标转换图像；所述第二生成器用于对所述目标转换图像进行域的转换，得到所述目标合成图像；所述第一判别器用于判断输入的图像为拍摄的目标转换图像还是生成的目标转换图像；所述第二判别器用于判断输入的图像为拍摄的目标合成图像还是生成的目标合成图像。

第二方面，本发明实施例还提供了一种神经网络的训练方法，包括：获取包含待检测对象的待处理图像和目标背景图像，并在所述待处理图像中提取前景图像；将所述前景图像和所述目标背景图像进行合成，得到目标合成图像；采用生成对抗网络对所述目标合成图像进行域的转换，得到目标转换图像，其中，所述目标转换图像和对比图像的相似度高于预设阈值；所述对比图像为假设所述待检测对象放置在所述目标背景图像所示的区域时，对所述待检测对象进行拍摄得到的图像；基于所述目标合成图像和所述目标转换图像构建训练样本；通过所述训练样本对原始检测网络进行训练，得到目标检测网络。

第三方面，本发明实施例还提供了一种图像生成装置，包括：第一获取并提取单元，用于获取包含待检测对象的待处理图像和目标背景图像，并在所述待处理图像中提取前景图像；第一图像合成单元，用于将所述前景图像和所述目标背景图像进行合成，得到目标合成图像；第一转换单元，用于采用生成对抗网络对所述目标合成图像进行域的转换，得到目标转换图像，其中，所述目标转换图像和对比图像的相似度高于预设阈值；所述对比图像为假设所述待检测对象放置在所述目标背景图像所示的区域时，对所述待检测对象进行拍摄得到的图像。

第四方面，本发明实施例还提供了一种神经网络的训练装置，包括：第二获取并提取单元，用于获取包含待检测对象的待处理图像和目标背景图像，并在所述待处理图像中提取前景图像；第二图像合成单元，用于将所述前景图像和所述目标背景图像进行合成，得到目标合成图像；第二转换单元，用于采用生成对抗网络对所述目标合成图像进行域的转换，得到目标转换图像，其中，所述目标转换图像和对比图像的相似度高于预设阈值；所述对比图像为假设所述待检测对象放置在所述目标背景图像所示的区域时，对所述待检测对象进行拍摄得到的图像；构建单元，用于基于所述目标合成图像和所述目标转换图像构建训练样本；训练单元，用于通过所述训练样本对原始检测网络进行训练，得到目标检测网络。

第五方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤，或者，实现上述第二方面所述的方法的步骤。

第六方面，本发明实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述第一方面任一项所述的方法的步骤，或者，执行上述第二方面所述的方法的步骤。

在本发明实施例中，首先，获取包含待检测对象的待处理图像和目标背景图像，并在待处理图像中提取前景图像；然后，将前景图像和目标背景图像进行合成，得到目标合成图像；最后，采用生成对抗网络对目标合成图像进行域的转换，得到目标转换图像，最终得到的目标转换图像与真实场景(即待检测对象在目标背景图像所示的区域中的场景)中对待检测对象进行拍摄得到的图像更加相似。通过上述描述可知，在本发明实施例中，生成的目标转换图像的真实性好，更加逼真，缓解了现有的图像生成方法生成的图像真实性差的技术问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子设备的示意图；

图2为本发明实施例提供的一种图像生成方法的流程图；

图3a、图3b、图3c、图3d为本发明实施例提供的摄像头在对待检测对象进行拍摄的不同拍摄角度的示意图；

图4为本发明实施例提供的将前景图像和目标背景图像进行合成的过程示意图；

图5为本发明实施例提供的在待处理图像中提取前景图像的方法流程图；

图6为本发明实施例提供的携带包围框的待处理图像的示意图；

图7为本发明实施例提供的根据携带包围框的待处理图像确定待检测对象的前景掩码图像的方法流程图；

图8为本发明实施例提供的扩张处理后的待处理图像的示意图；

图9为本发明实施例提供的裁剪之后得到的目标待处理图像的示意图；

图10为本发明实施例提供的目标待处理图像的显著热力图的示意图；

图11为本发明实施例提供的基于显著热力图确定待检测对象的前景掩码图像的方法流程图；

图12为本发明实施例提供的置零后的显著热力图的示意图；

图13为本发明实施例提供的待检测对象的前景掩码图像的示意图；

图14为本发明实施例提供的裁剪之后的待处理图像的示意图；

图15为本发明实施例提供的在待处理图像中提取前景图像的过程示意图；

图16a为本发明实施例提供的目标合成图像的示意图；

图16b为本发明实施例提供的目标转换图像的示意图；

图17为本发明实施例提供的一种神经网络的训练方法的流程图；

图18为本发明实施例提供的一种图像生成装置的示意图；

图19为本发明实施例提供的一种神经网络的训练装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

首先，参照图1来描述用于实现本发明实施例的电子设备100，该电子设备可以用于运行本发明各实施例的图像生成方法。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及摄像机110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP，Digital Signal Processing)、现场可编程门阵列(FPGA，Field－Programmable Gate Array)、可编程逻辑阵列(PLA，Programmable Logic Array)和ASIC(Application Specific Integrated Circuit)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU，Central ProcessingUnit)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储器104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述摄像机110用于进行待处理图像和目标背景图像的采集，其中，摄像机所采集的待处理图像和目标背景图像经过所述图像生成方法进行处理之后得到目标转换图像，例如，摄像机可以拍摄用户期望的图像(例如照片、视频等)，然后，将该图像经过所述图像生成方法进行处理之后得到目标转换图像，摄像机还可以将所所拍摄的图像存储在所述存储器104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的图像生成方法的电子设备可以被实现为诸如智能手机、平板电脑等智能移动终端。

实施例2：

根据本发明实施例，提供了一种图像生成方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本发明实施例的一种图像生成方法的流程图，如图2所示，该方法包括如下步骤：

步骤S202，获取包含待检测对象的待处理图像和目标背景图像，并在待处理图像中提取前景图像；

在本发明实施例中，待检测对象可以为具体的物体(比如，灌装的可口可乐、盒状的牛奶等等)，也可以为人，本发明实施例对待检测对象不进行具体限制。

具体的，待处理图像中包含待检测对象，该待处理图像可以是对待检测对象进行不同角度拍摄所得到的图像，还可以为图像库中已有的包含待检测对象的图像。另外，待处理图像中可以包含一个待检测对象，可以包含多个待检测对象，当待处理图像中包含多个待检测对象时，该多个待检测对象可以相同，也可以不同。

下面对获取待处理图像的一种方式进行具体说明：

如图3a、图3b、图3c、图3d所示，以待检测对象为灌装可口可乐为例进行说明。获取待处理图像时，可将灌装可口可乐置于旋转托盘上，然后固定摄像头的拍摄角度(如摄像头的拍摄角度可分别固定在图3a、图3b、图3c、图3d中所示的四个角度，本发明实施例对其不进行限制)，进而控制旋转托盘进行旋转，每旋转一次，摄像头对灌装可口可乐拍摄一次，如此便可得到多个拍摄角度的待检测对象的图像，该多个拍摄角度的待检测对象的图像即为本发明中的待处理图像。需要说明的是，对于一些分为正反面的待检测对象，还可以按照上述的方式分别拍摄待检测对象正面的图像和待检测对象反面的图像，并将拍摄得到的待检测对象正面的图像和待检测对象反面的图像作为待处理图像。

对待检测对象进行不同角度拍摄是为了能够得到多个视角的待检测对象的图像，这样在后续进行图像合成时，合成的图像中，待检测对象的视角也更加丰富，本发明对上述获取待处理图像的方式不进行具体限制。

此外，目标背景图像可以为摄像头对目标区域进行拍摄得到的图像，比如，摄像头对货柜内货架的区域进行拍摄得到的图像，还可以为图像库中已有的关于目标区域的图像。该目标背景图像中可以包含待检测对象，比如，摄像头对货架的区域进行拍摄时，货架的区域内摆放有少量的待检测对象，那么，得到的目标背景图像中就包含待检测对象，也可以不包含待检测对象，比如，摄像头对货架的区域进行拍摄时，货架的区域内没有摆放任何待检测对象，那么，得到的目标背景图像中就不包含待检测对象，本发明实施例对其不进行具体限制。

在得到待处理图像后，在待处理图像中提取前景图像，该前景图像实际为待检测对象的图像，下文中再对提取的过程进行具体描述，在此不再赘述。

步骤S204，将前景图像和目标背景图像进行合成，得到目标合成图像；

在得到前景图像和目标背景图像后，将前景图像和目标背景图像进行合成，得到目标合成图像。具体实现时，可将前景图像粘贴在目标背景图像上，从而得到目标合成图像。粘贴时，可以得到前景图像中的各个像素点在目标背景图像中的像素点位置，从而便能确定目标合成图像中待检测对象的位置坐标。

如图4所示，其示出了将前景图像和目标背景图像进行合成的过程示意图。

步骤S206，采用生成对抗网络对目标合成图像进行域的转换，得到目标转换图像，其中，目标转换图像和对比图像的相似度高于预设阈值；对比图像为假设待检测对象放置在目标背景图像所示的区域时，对待检测对象进行拍摄得到的图像。

在得到目标合成图像后，采用生成对抗网络对目标合成图像进行域的转换，得到目标转换图像，并且，也能确定目标转换图像中待检测对象的位置坐标(其和转换之前的位置坐标相同)。具体内容将在下文中进行描述，在此不再赘述。

上述内容对本发明的图像生成方法进行了简要描述，下面对其中所涉及的具体内容进行详细介绍。

在本发明的一个可选实施例中，参考图5，步骤S202，在待处理图像中提取前景图像包括如下步骤：

步骤S501，在待处理图像中确定待检测对象的包围框，得到携带包围框的待处理图像；

在得到待处理图像后，对待处理图像进行标注，得到携带包围框的待处理图像。下面以待处理图像为图3c中的图像为例进行说明。如图6所示，即为携带包围框的待处理图像。

步骤S502，根据携带包围框的待处理图像确定待检测对象的前景掩码图像，其中，前景掩码图像中第一目标像素点所构成的区域为待检测对象在待处理图像中所在的区域，第一目标像素点为像素值为第一预设数值的像素点；

参考图7，具体包括如下步骤：

步骤S701，按照目标尺寸对携带包围框的待处理图像进行裁剪，得到目标待处理图像；

具体的，(1)按照预设扩张原则对携带包围框的待处理图像中的包围框进行扩张处理，得到扩张处理后的待处理图像；(2)按照扩张处理后的包围框对扩张处理后的待处理图像进行裁剪，得到目标待处理图像。

下面以图6中所示的携带包围框的待处理图像为例进行说明，将图6中的包围框进行扩张，扩张时，将包围框的每个边从其两端分别扩张0.5倍的其所在的边的长度(即预设扩张原则，本发明实施例对预设扩张原则不进行具体限制)，这样扩张处理后的包围框的长和宽分别增大了一倍，如图8所示。之所以要进行包围框的扩张处理是为了后续按照扩张处理后的包围框对扩张处理后的待处理图像进行裁剪，裁剪之后，得到的目标待处理图像中，前景图像(是指待检测对象的图像)和背景图像(除待检测对象之外的图像)的占比满足预设比例(优选为1：3，本发明实施例对其不进行具体限制)，只有在前景图像和背景图像的占比满足预设比例的条件下，后续的显著性检测方法才能更好的识别出目标待处理图像中的前景图像(即显著性检测之后的显著热力图中的显著区域)和背景图像。如图9所示，即为裁剪之后得到的目标待处理图像。

步骤S702，采用显著性检测方法对目标待处理图像进行显著性检测，得到目标待处理图像的显著热力图，其中，显著热力图中的显著区域为待检测对象在待处理图像中所在的区域；

在得到目标待处理图像后，采用显著性检测方法对目标待处理图像进行显著性检测，得到目标待处理图像的显著热力图，如图10所示。具体的，显著性检测方法有很多种，本发明中采用的显著性检测方法为基于精密度算子的显著性检测方法(Detecting SalientObjects via Color and Texture Compactness Hypotheses)，还可以为LC算法(VisualAttention Detection in Video Sequences Using Spatiotemporal Cues)，HC算法(Global Contrast based salient region detection)，AC算法(Salient RegionDetection and Segmentation)，FT算法(Frequency-tuned Salient Region Detection)中的任一种，本发明实施例对上述显著性检测方法不进行具体限制。

步骤S703，基于显著热力图确定待检测对象的前景掩码图像。

参考图11，具体包括如下步骤：

步骤S1101，对显著热力图中的第二目标像素点进行置零处理，得到置零后的显著热力图，其中，第二目标像素点为显著热力图中位于第一包围框以外区域内的像素点，第一包围框为待检测对象的包围框映射到显著热力图中之后的包围框；

具体的，待检测对象的包围框为扩张之前的包围框，也即对待检测对象进行标注后得到的包围框。如图12所示，即为置零后的显著热力图。

之所以进行置零处理是为了强调显著热力图中边缘的背景图像。

步骤S1102，采用条件随机场模型对置零后的显著热力图进行优化处理，得到目标显著热力图；

在得到置零后的显著热力图后，采用条件随机场模型对置零后的显著热力图进行优化处理，得到目标显著热力图。在建立条件随机场模型时，置零后的显著热力图中的每个像素点为图模型的节点，而目标待处理图像中每个像素点与其它任意像素点之间的关系为图模型的边，将其输入至条件随机场模型，就能得到置零后的显著热力图中每个像素点的最优表示，即得到目标显著热力图。

步骤S1103，对目标显著热力图进行二值化处理，得到待检测对象的前景掩码图像。

二值化处理的过程具体包括如下步骤：

(1)在目标显著热力图中确定第二包围框，其中，第二包围框为待检测对象的包围框映射到目标显著热力图中之后的包围框；

具体的，待检测对象的包围框为扩张之前的包围框，也即对待检测对象进行标注后得到的包围框。

(2)按照第二包围框对目标显著热力图进行裁剪，得到裁剪之后的目标显著热力图；

(3)对裁剪之后的目标显著热力图中的像素点进行聚类分析，并根据聚类分析结果确定像素阈值；

具体的，可以采用K-means聚类算法对裁剪之后的目标显著热力图中的像素点进行聚类分析，聚类分析时，另K＝2，这样，就能够将目标显著热力图中的像素点分为两类，这两类像素点之间存在分类的边缘，根据边缘的像素点的像素值确定像素阈值。本发明实施例对上述聚类算法不进行具体限制。

(4)基于像素阈值对裁剪之后的目标显著热力图进行二值化处理，得到待检测对象的前景掩码图像。

在得到像素阈值后，基于像素阈值对裁剪之后的目标显著热力图进行二值化处理，二值化处理时，1)将裁剪之后的目标显著热力图中的第一像素点的像素值设置为第一预设数值，其中，第一像素点为裁剪之后的目标显著热力图中像素值大于像素阈值的像素点；2)将裁剪之后的目标显著热力图中的第二像素点的像素值设置为第二预设数值，其中，第二像素点为裁剪之后的目标显著热力图中像素值不大于像素阈值的像素点，最终得到待检测对象的前景掩码图像，如图13所示。

步骤S503，根据待检测对象的前景掩码图像在携带包围框的待处理图像中分割出前景图像。

具体的，a)按照待检测对象的包围框对携带包围框的待处理图像进行裁剪，得到裁剪之后的待处理图像(如图14所示)；b)根据前景掩码图像在裁剪之后的待处理图像中分割出前景图像。

如图15所示，即为在待处理图像中提取前景图像的过程示意图。

上述内容对在待处理图像中提取前景图像的过程进行了详细介绍，下面对域转换的过程进行具体描述。

在本发明的一个可选实施例中，步骤S106，采用生成对抗网络对目标合成图像进行域的转换，得到目标转换图像包括：采用环状生成对抗网络对目标合成图像进行域的转换，得到目标转换图像。

具体的，环状生成对抗网络包括第一生成器、第一判别器、第二生成器和第二判别器；

第一生成器用于对目标合成图像进行域的转换，得到目标转换图像；

第二生成器用于对目标转换图像进行域的转换，得到目标合成图像；

第一判别器用于判断输入的图像为拍摄的目标转换图像还是生成的目标转换图像；

第二判别器用于判断输入的图像为拍摄的目标合成图像还是生成的目标合成图像。

具体的，采用环状对抗生成网络对目标合成图像进行域的转换，实现了图像从一个成像域到另一个成像域的转换，通过端到端的学习方式，直接让几个子网络进行对抗，使得网络可以自动生成某成像域的图像，而无需人为制定生成算法。此外，与普通的生成对抗网络(例如仅包括一个生成器和一个判别器)相比，环状对抗生成网络不仅可以学习到将目标合成图像转换为目标转换图像，还可以学习到将目标转换图像转换为目标合成图像。基于此，在实施域的转换时，可以基于其学习到的双方相互转换的内容而更好地实施需要的单向转换，优化了图像转换效果。当然，另一明显的优势是，环状对抗生成网络可以实现两个成像域的图像的相互转换，而不仅仅可以实施从一个成像域的图像到另一个成像域的图像的单向转换。

本发明中的图像生成方法生成的目标转换图像的真实性好，更加逼真，并且能得到目标转换图像和目标合成图像中待检测对象的位置坐标，可直接将得到的目标转换图像及其位置坐标、目标合成图像及其位置坐标作为训练样本进行原始检测网络的训练，无需再进行人工标注，降低了标注的人力成本及标注所需的时间成本。如图16a所示，其示出了目标合成图像的示意图，如图16b所示，其示出了目标转换图像的示意图。通过图16a和图16b的对比可知，得到的图16b的图像更加真实(相较于图16a，图16b中待检测对象的颜色发生了变化，并且也增加了阴影效果)。进而，将该真实性好的目标转换图像和真实性差的目标合成图像同时作为训练样本对原始检测网络进行训练时，训练得到的目标检测网络的性能好。

实施例3：

根据本发明实施例，提供了一种神经网络的训练方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图17是根据本发明实施例的一种神经网络的训练方法的流程图，如图17所示，该方法包括如下步骤：

步骤S1702，获取包含待检测对象的待处理图像和目标背景图像，并在待处理图像中提取前景图像；

步骤S1704，将前景图像和目标背景图像进行合成，得到目标合成图像；

步骤S1706，采用生成对抗网络对目标合成图像进行域的转换，得到目标转换图像，其中，目标转换图像和对比图像的相似度高于预设阈值；对比图像为假设待检测对象放置在目标背景图像所示的区域时，对待检测对象进行拍摄得到的图像；

步骤S1708，基于目标合成图像和目标转换图像构建训练样本；

步骤S1710，通过训练样本对原始检测网络进行训练，得到目标检测网络。

在本发明实施例中，神经网络的训练方法中的步骤S1702至步骤S1706的具体内容可参考上述实施例2中的具体描述，在此不再赘述。

在得到目标合成图像和目标转换图像时，能确定目标合成图像和目标转换图像中待检测对象的位置坐标，所以可将目标合成图像和目标转换图像作为训练样本对原始检测网络进行训练，得到目标检测网络。

因为在对原始检测网络进行训练时，采用的训练样本不仅包含真实性好的目标转换图像，还包含真实性差的目标合成图像，即原始检测网络所见的图像域更多，这样目标检测网络的泛化性更强，性能也就越好。

本发明采用不同的训练样本对原始检测网络进行了训练，并对最终训练得到的目标检测网络的性能进行了评价，采用的评价指标有mAP50(在IOU(intersection of union)为0.5的情况下的mean Average Precision)和mmAP(mean mean Average Precision，表示在IOU(intersection of union)分别为0.5，0.55，0.6，0.95的情况下的mean AveragePrecision的平均值)，采用不同的训练样本对原始检测网络进行了训练后，计算得到目标检测网络的评价指标的参数如下表所示：

训练样本	mAP50	mmAP
			目标合成图像	80.53％	53.17％
目标转换图像	81.01％	53.7％
			目标合成图像和目标转换图像	92.28％	69.01％

通过上表可知，通过目标合成图像和目标转换图像作为训练样本训练得到的目标检测网络比通过目标合成图像或目标转换图像作为训练样本训练得到的目标检测网络的性能更好，检测的精度更高。

实施例4：

本发明实施例还提供了一种图像生成装置，该图像生成装置主要用于执行本发明实施例上述内容所提供的图像生成方法，以下对本发明实施例提供的图像生成装置做具体介绍。

图18是根据本发明实施例的一种图像生成装置的示意图，如图18所示，该图像生成装置主要包括第一获取并提取单元10，第一图像合成单元20和第一转换单元30，其中：

第一获取并提取单元，用于获取包含待检测对象的待处理图像和目标背景图像，并在待处理图像中提取前景图像；

第一图像合成单元，用于将前景图像和目标背景图像进行合成，得到目标合成图像；

第一转换单元，用于采用生成对抗网络对目标合成图像进行域的转换，得到目标转换图像，其中，目标转换图像和对比图像的相似度高于预设阈值；对比图像为假设待检测对象放置在目标背景图像所示的区域时，对待检测对象进行拍摄得到的图像。

在本发明实施例中，首先，获取包含待检测对象的待处理图像和目标背景图像，并在待处理图像中提取前景图像；然后，将前景图像和目标背景图像进行合成，得到目标合成图像；最后，采用生成对抗网络对目标合成图像进行域的转换，得到目标转换图像，最终得到的目标转换图像与真实场景(即待检测对象在目标背景图像所示的区域中的场景)中对待检测对象进行拍摄得到的图像更加相似。通过上述描述可知，在本发明实施例中，生成的目标转换图像的真实性好，更加逼真，缓解现有的图像生成方法生成的图像真实性差的技术问题。

可选地，第一获取并提取单元还用于：在待处理图像中确定待检测对象的包围框，得到携带包围框的待处理图像；根据携带包围框的待处理图像确定待检测对象的前景掩码图像，其中，前景掩码图像中第一目标像素点所构成的区域为待检测对象在待处理图像中所在的区域，第一目标像素点为像素值为第一预设数值的像素点；根据待检测对象的前景掩码图像在携带包围框的待处理图像中分割出前景图像。

可选地，第一获取并提取单元还用于：按照目标尺寸对携带包围框的待处理图像进行裁剪，得到目标待处理图像；采用显著性检测方法对目标待处理图像进行显著性检测，得到目标待处理图像的显著热力图，其中，显著热力图中的显著区域为待检测对象在待处理图像中所在的区域；基于显著热力图确定待检测对象的前景掩码图像。

可选地，第一获取并提取单元还用于：对显著热力图中的第二目标像素点进行置零处理，得到置零后的显著热力图，其中，第二目标像素点为显著热力图中位于第一包围框以外区域内的像素点，第一包围框为待检测对象的包围框映射到显著热力图中之后的包围框；采用条件随机场模型对置零后的显著热力图进行优化处理，得到目标显著热力图；对目标显著热力图进行二值化处理，得到待检测对象的前景掩码图像。

可选地，第一获取并提取单元还用于：按照预设扩张原则对携带包围框的待处理图像中的包围框进行扩张处理，得到扩张处理后的待处理图像；按照扩张处理后的包围框对扩张处理后的待处理图像进行裁剪，得到目标待处理图像。

可选地，第一获取并提取单元还用于：在目标显著热力图中确定第二包围框，其中，第二包围框为待检测对象的包围框映射到目标显著热力图中之后的包围框；按照第二包围框对目标显著热力图进行裁剪，得到裁剪之后的目标显著热力图；对裁剪之后的目标显著热力图中的像素点进行聚类分析，并根据聚类分析结果确定像素阈值；基于像素阈值对裁剪之后的目标显著热力图进行二值化处理，得到待检测对象的前景掩码图像。

可选地，第一获取并提取单元还用于：将裁剪之后的目标显著热力图中的第一像素点的像素值设置为第一预设数值，其中，第一像素点为裁剪之后的目标显著热力图中像素值大于像素阈值的像素点；将裁剪之后的目标显著热力图中的第二像素点的像素值设置为第二预设数值，其中，第二像素点为裁剪之后的目标显著热力图中像素值不大于像素阈值的像素点。

可选地，第一获取并提取单元还用于：按照待检测对象的包围框对携带包围框的待处理图像进行裁剪，得到裁剪之后的待处理图像；根据前景掩码图像在裁剪之后的待处理图像中分割出前景图像。

可选地，第一转换单元还用于：采用环状生成对抗网络对目标合成图像进行域的转换，得到目标转换图像。

可选地，环状生成对抗网络包括第一生成器、第一判别器、第二生成器和第二判别器；第一生成器用于对目标合成图像进行域的转换，得到目标转换图像；第二生成器用于对目标转换图像进行域的转换，得到目标合成图像；第一判别器用于判断输入的图像为拍摄的目标转换图像还是生成的目标转换图像；第二判别器用于判断输入的图像为拍摄的目标合成图像还是生成的目标合成图像。

本发明实施例所提供的图像生成装置，其实现原理及产生的技术效果和前述实施例2中的方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例5：

本发明实施例还提供了一种神经网络的训练装置，该神经网络的训练装置主要用于执行本发明实施例上述内容所提供的神经网络的训练方法，以下对本发明实施例提供的神经网络的训练装置做具体介绍。

图19是根据本发明实施例的一种神经网络的训练装置的示意图，如图19所示，该神经网络的训练装置主要包括第二获取并提取单元40，第二图像合成单元50，第二转换单元60，构建单元70和训练单元80，其中：

第二获取并提取单元，用于获取包含待检测对象的待处理图像和目标背景图像，并在待处理图像中提取前景图像；

第二图像合成单元，用于将前景图像和目标背景图像进行合成，得到目标合成图像；

第二转换单元，用于采用生成对抗网络对目标合成图像进行域的转换，得到目标转换图像，其中，目标转换图像和对比图像的相似度高于预设阈值；对比图像为假设待检测对象放置在目标背景图像所示的区域时，对待检测对象进行拍摄得到的图像；

构建单元，用于基于目标合成图像和目标转换图像构建训练样本；

训练单元，用于通过训练样本对原始检测网络进行训练，得到目标检测网络。

本发明实施例所提供的神经网络的训练装置，其实现原理及产生的技术效果和前述实施例3中的方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

在另一个实施例中，还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述权实施例2或实施例3中任意实施例所述的方法的步骤。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像生成方法，其特征在于，包括：

获取包含待检测对象的待处理图像和目标背景图像，并在所述待处理图像中提取前景图像；

将所述前景图像和所述目标背景图像进行合成，得到目标合成图像；

采用生成对抗网络对所述目标合成图像进行域的转换，得到目标转换图像，其中，所述目标转换图像和对比图像的相似度高于预设阈值；所述对比图像为假设所述待检测对象放置在所述目标背景图像所示的区域时，对所述待检测对象进行拍摄得到的图像。

2.根据权利要求1所述的方法，其特征在于，在所述待处理图像中提取前景图像包括：

在所述待处理图像中确定所述待检测对象的包围框，得到携带包围框的待处理图像；

根据所述携带包围框的待处理图像确定所述待检测对象的前景掩码图像，其中，所述前景掩码图像中第一目标像素点所构成的区域为所述待检测对象在所述待处理图像中所在的区域，所述第一目标像素点为像素值为第一预设数值的像素点；

根据所述待检测对象的前景掩码图像在所述携带包围框的待处理图像中分割出所述前景图像。

3.根据权利要求2所述的方法，其特征在于，根据所述携带包围框的待处理图像确定所述待检测对象的前景掩码图像包括：

按照目标尺寸对所述携带包围框的待处理图像进行裁剪，得到目标待处理图像；

采用显著性检测方法对所述目标待处理图像进行显著性检测，得到所述目标待处理图像的显著热力图，其中，所述显著热力图中的显著区域为所述待检测对象在所述待处理图像中所在的区域；

基于所述显著热力图确定所述待检测对象的前景掩码图像。

4.根据权利要求3所述的方法，其特征在于，基于所述显著热力图确定所述待检测对象的前景掩码图像包括：

对所述显著热力图中的第二目标像素点进行置零处理，得到置零后的显著热力图，其中，所述第二目标像素点为所述显著热力图中位于第一包围框以外区域内的像素点，所述第一包围框为所述待检测对象的包围框映射到所述显著热力图中之后的包围框；

采用条件随机场模型对所述置零后的显著热力图进行优化处理，得到目标显著热力图；

对所述目标显著热力图进行二值化处理，得到所述待检测对象的前景掩码图像。

5.根据权利要求3所述的方法，其特征在于，按照目标尺寸对所述携带包围框的待处理图像进行裁剪，得到目标待处理图像包括：

按照预设扩张原则对所述携带包围框的待处理图像中的包围框进行扩张处理，得到扩张处理后的待处理图像；

按照扩张处理后的包围框对所述扩张处理后的待处理图像进行裁剪，得到所述目标待处理图像。

6.根据权利要求4所述的方法，其特征在于，对所述目标显著热力图进行二值化处理包括：

在所述目标显著热力图中确定第二包围框，其中，所述第二包围框为所述待检测对象的包围框映射到所述目标显著热力图中之后的包围框；

按照所述第二包围框对所述目标显著热力图进行裁剪，得到裁剪之后的目标显著热力图；

对所述裁剪之后的目标显著热力图中的像素点进行聚类分析，并根据聚类分析结果确定像素阈值；

基于所述像素阈值对所述裁剪之后的目标显著热力图进行二值化处理，得到所述待检测对象的前景掩码图像。

7.根据权利要求6所述的方法，其特征在于，基于所述像素阈值对所述裁剪之后的目标显著热力图进行二值化处理包括：

将所述裁剪之后的目标显著热力图中的第一像素点的像素值设置为所述第一预设数值，其中，所述第一像素点为所述裁剪之后的目标显著热力图中像素值大于所述像素阈值的像素点；

将所述裁剪之后的目标显著热力图中的第二像素点的像素值设置为第二预设数值，其中，所述第二像素点为所述裁剪之后的目标显著热力图中像素值不大于所述像素阈值的像素点。

8.根据权利要求2所述的方法，其特征在于，根据所述待检测对象的前景掩码图像在所述携带包围框的待处理图像中分割出所述前景图像包括：

按照所述待检测对象的包围框对所述携带包围框的待处理图像进行裁剪，得到裁剪之后的待处理图像；

根据所述前景掩码图像在所述裁剪之后的待处理图像中分割出所述前景图像。

9.根据权利要求1所述的方法，其特征在于，采用生成对抗网络对所述目标合成图像进行域的转换，得到目标转换图像包括：

采用环状生成对抗网络对所述目标合成图像进行域的转换，得到所述目标转换图像。

10.根据权利要求9所述的方法，其特征在于，所述环状生成对抗网络包括第一生成器、第一判别器、第二生成器和第二判别器；

所述第一生成器用于对所述目标合成图像进行域的转换，得到所述目标转换图像；

所述第二生成器用于对所述目标转换图像进行域的转换，得到所述目标合成图像；

所述第一判别器用于判断输入的图像为拍摄的目标转换图像还是生成的目标转换图像；

所述第二判别器用于判断输入的图像为拍摄的目标合成图像还是生成的目标合成图像。

11.一种神经网络的训练方法，其特征在于，包括：

采用生成对抗网络对所述目标合成图像进行域的转换，得到目标转换图像，其中，所述目标转换图像和对比图像的相似度高于预设阈值；所述对比图像为假设所述待检测对象放置在所述目标背景图像所示的区域时，对所述待检测对象进行拍摄得到的图像；

基于所述目标合成图像和所述目标转换图像构建训练样本；

通过所述训练样本对原始检测网络进行训练，得到目标检测网络。

12.一种图像生成装置，其特征在于，包括：

第一获取并提取单元，用于获取包含待检测对象的待处理图像和目标背景图像，并在所述待处理图像中提取前景图像；

第一图像合成单元，用于将所述前景图像和所述目标背景图像进行合成，得到目标合成图像；

第一转换单元，用于采用生成对抗网络对所述目标合成图像进行域的转换，得到目标转换图像，其中，所述目标转换图像和对比图像的相似度高于预设阈值；所述对比图像为假设所述待检测对象放置在所述目标背景图像所示的区域时，对所述待检测对象进行拍摄得到的图像。

13.一种神经网络的训练装置，其特征在于，包括：

第二获取并提取单元，用于获取包含待检测对象的待处理图像和目标背景图像，并在所述待处理图像中提取前景图像；

第二图像合成单元，用于将所述前景图像和所述目标背景图像进行合成，得到目标合成图像；

第二转换单元，用于采用生成对抗网络对所述目标合成图像进行域的转换，得到目标转换图像，其中，所述目标转换图像和对比图像的相似度高于预设阈值；所述对比图像为假设所述待检测对象放置在所述目标背景图像所示的区域时，对所述待检测对象进行拍摄得到的图像；

构建单元，用于基于所述目标合成图像和所述目标转换图像构建训练样本；

训练单元，用于通过所述训练样本对原始检测网络进行训练，得到目标检测网络。

14.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至10中任一项所述的方法的步骤，或者，实现上述权利要求11所述的方法的步骤。

15.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行上述权利要求1至10中任一项所述的方法的步骤，或者，执行上述权利要求11所述的方法的步骤。