CN108876847B

CN108876847B - 图像定位方法、装置、系统和存储介质

Info

Publication number: CN108876847B
Application number: CN201711243514.XA
Authority: CN
Inventors: 程大治; 张祥雨
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2021-04-27
Anticipated expiration: 2037-11-30
Also published as: CN108876847A

Abstract

本发明提供了一种图像定位方法、装置、系统和存储介质，所述图像定位方法包括：获取待处理图像；以及利用训练好的生成对抗网络对所述待处理图像进行图像定位。根据本发明实施例的图像定位方法、装置、系统和存储介质利用训练好的生成对抗网络进行图像定位，能够有效解决图像定位受图像多峰性质影响的问题，从而提高图像定位的精度。

Description

图像定位方法、装置、系统和存储介质

技术领域

本发明涉及图像识别技术领域，更具体地涉及一种图像定位方法、装置、系统和存储介质。

背景技术

图像定位一直是计算机视觉领域重要且备受关注的技术，其目标是给定一张图，通过算法给出图中某一个物体相对整张图片的位置信息。当下进行图像定位的主流技术包括最小化欧氏距离以及使用更快速区域卷积神经网络(Faster-RCNN)框架。

然而，前述的技术受图片本身多峰问题的影响，导致当图片中含有大小相近、重叠区域较小或没有的两个或多个物体时，算法输出的结果无法与其中任何一张图较好匹配。原因在于当给定一张这样的图时，图像包围盒的真实分布存在多个尖峰，而如果最小化欧氏距离，则相当于使用极大似然估计用一个高斯分布拟合真实分布，导致拟合出的高斯分布的单峰在真实分布的多个峰之间。与之类似，基于FasterRCNN的方法也存在受多峰影响的问题，该问题是图像定位技术当下的主要瓶颈之一。

因此，需要提供新的图像定位方法来解决上述问题。

发明内容

本发明提出了一种关于图像定位的方案，其利用训练好的生成对抗网络进行图像定位，能够有效解决图像定位受图像多峰性质影响的问题。下面简要描述本发明提出的关于图像定位的方案，更多细节将在后续结合附图在具体实施方式中加以描述。

根据本发明一方面，提供了一种图像定位方法，所述图像定位方法包括：获取待处理图像；以及利用训练好的生成对抗网络对所述待处理图像进行图像定位。

在本发明的一个实施例中，所述利用训练好的生成对抗网络对所述待处理图像进行图像定位包括：基于输入的所述待处理图像和噪声，利用所述训练好的生成对抗网络的生成器得到生成包围盒，以作为所述图像定位的结果。

在本发明的一个实施例中，所述图像定位方法还包括：计算所述生成包围盒与真实包围盒的交并比，所述真实包围盒为与所述待处理图像相对应的真实包围盒；以及如果所述交并比大于或等于预设阈值，则记作定位准确，反之则记作定位失败。

在本发明的一个实施例中，所述图像定位方法还包括：计算所述图像定位的准确率。

在本发明的一个实施例中，所述生成对抗网络包括生成器、映射管道和判别器，其中：所述生成器接收输入的图像和噪声，输出生成包围盒；所述映射管道将输入的包围盒映射为包围盒热点图；以及所述判别器判断输入的包围盒热点图是真实包围盒热点图还是生成包围盒热点图。

在本发明的一个实施例中，所述生成器包括卷积层、池化层、加载预训练权重的残差单元、加载随机权重的残差单元、全局池化层以及多输出全连接层。

在本发明的一个实施例中，所述判别器包括卷积层、池化层、加载预训练权重的残差单元、加载随机权重的残差单元、全局池化层以及单输出全连接层。

在本发明的一个实施例中，所述生成对抗网络的训练包括：将样本图像和噪声输入所述生成器，经由所述生成器输出生成包围盒；将与所述样本图像相对应的真实包围盒和所述生成器输出的生成包围盒输入所述映射管道，经由所述映射管道输出真实包围盒热点图和生成包围盒热点图；将所述样本图像与所述映射管道输出的真实包围盒热点图组合成对输入所述判别器，经由所述判别器输出针对所述真实包围盒热点图的判别结果；将所述样本图像与所述映射管道输出的生成包围盒热点图组合成对输入所述判别器，经由所述判别器输出针对所述生成包围盒热点图的判别结果；基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果，计算所述判别器的损失值；基于所述判别器输出的针对所述生成包围盒热点图的判别结果，计算所述生成器的损失值；以及基于所述生成器的损失值和所述判别器的损失值，优化所述生成器和所述判别器。

在本发明的一个实施例中，所述基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果，计算所述判别器的损失值包括：基于所述判别器输出的针对所述真实包围盒热点图的判别结果与预定义的全1向量，计算第一交叉熵；基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全0向量，计算第二交叉熵；以及计算所述第一交叉熵和所述第二交叉熵的平均值，以作为所述判别器的损失值。

在本发明的一个实施例中，所述基于所述判别器输出的针对所述生成包围盒热点图的判别结果，计算所述生成器的损失值包括：基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全1向量，计算第三交叉熵，以作为所述生成器的损失值。

在本发明的一个实施例中，所述生成器的损失值以及所述判别器的损失值的最小化是基于梯度下降的Adam最优化算法。

在本发明的一个实施例中，所述生成对抗网络的训练还包括：在所述生成对抗网络的训练的迭代过程中适时调整学习率，直到所述生成器的损失值以及所述判别器的损失值收敛。

在本发明的一个实施例中，所述映射管道通过可导函数将多维包围盒映射为特定尺寸的单通道包围盒热点图。

根据本发明另一方面，提供了一种用于实现上述任一项所述的图像定位方法的图像定位装置，所述图像定位装置包括：获取模块，用于获取待处理图像；以及定位模块，用于利用训练好的生成对抗网络对所述获取模块获取的待处理图像进行图像定位。

在本发明的一个实施例中，所述定位模块利用训练好的生成对抗网络对所述待处理图像进行图像定位包括：基于输入的所述待处理图像和噪声，利用所述训练好的生成对抗网络的生成器得到生成包围盒，以作为所述图像定位的结果。

在本发明的一个实施例中，所述图像定位装置还包括计算模块，用于计算所述生成包围盒与真实包围盒的交并比，所述真实包围盒为与所述待处理图像相对应的真实包围盒；以及如果所述交并比大于或等于预设阈值，则记作定位准确，反之则记作定位失败。

在本发明的一个实施例中，所述计算模块还用于：计算所述图像定位的准确率。

在本发明的一个实施例中，所述定位模块利用的所述生成对抗网络包括生成器、映射管道和判别器，其中：所述生成器接收输入的图像和噪声，输出生成包围盒；所述映射管道将输入的包围盒映射为包围盒热点图；以及所述判别器判断输入的包围盒热点图是真实包围盒热点图还是生成包围盒热点图。

在本发明的一个实施例中，所述定位模块利用的所述生成对抗网络的所述生成器包括卷积层、池化层、加载预训练权重的残差单元、加载随机权重的残差单元、全局池化层以及多输出全连接层。

在本发明的一个实施例中，所述定位模块利用的所述生成对抗网络的所述判别器包括卷积层、池化层、加载预训练权重的残差单元、加载随机权重的残差单元、全局池化层以及单输出全连接层。

在本发明的一个实施例中，所述定位模块利用的所述生成对抗网络的训练包括：将样本图像和噪声输入所述生成器，经由所述生成器输出生成包围盒；将与所述样本图像相对应的真实包围盒和所述生成器输出的生成包围盒输入所述映射管道，经由所述映射管道输出真实包围盒热点图和生成包围盒热点图；将所述样本图像与所述映射管道输出的真实包围盒热点图组合成对输入所述判别器，经由所述判别器输出针对所述真实包围盒热点图的判别结果；将所述样本图像与所述映射管道输出的生成包围盒热点图组合成对输入所述判别器，经由所述判别器输出针对所述生成包围盒热点图的判别结果；基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果，计算所述判别器的损失值；基于所述判别器输出的针对所述生成包围盒热点图的判别结果，计算所述生成器的损失值；以及基于所述生成器的损失值和所述判别器的损失值，优化所述生成器和所述判别器

在本发明的一个实施例中，所述定位模块利用的所述生成对抗网络的训练中的所述基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果，计算所述判别器的损失值包括：基于所述判别器输出的针对所述真实包围盒热点图的判别结果与预定义的全1向量，计算第一交叉熵；基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全0向量，计算第二交叉熵；以及计算所述第一交叉熵和所述第二交叉熵的平均值，以作为所述判别器的损失值。

在本发明的一个实施例中，所述定位模块利用的所述生成对抗网络的训练中的所述基于所述判别器输出的针对所述生成包围盒热点图的判别结果，计算所述生成器的损失值包括：基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全1向量，计算第三交叉熵，以作为所述生成器的损失值。

在本发明的一个实施例中，所述定位模块利用的所述生成对抗网络的训练中的所述生成器的损失值以及所述判别器的损失值的最小化是基于梯度下降的Adam最优化算法。

在本发明的一个实施例中，所述定位模块利用的所述生成对抗网络的训练还包括：在所述生成对抗网络的训练的迭代过程中适时调整学习率，直到所述生成器的损失值以及所述判别器的损失值收敛。

在本发明的一个实施例中，所述定位模块利用的所述生成对抗网络的所述映射管道通过可导函数将多维包围盒映射为特定尺寸的单通道包围盒热点图。

根据本发明又一方面，提供了一种图像定位系统，所述图像定位系统包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行上述任一项所述的图像定位方法。

根据本发明再一方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行上述任一项所述的图像定位方法。

根据本发明实施例的图像定位方法、装置、系统和存储介质利用训练好的生成对抗网络进行图像定位，能够有效解决图像定位受图像多峰性质影响的问题，从而提高图像定位的精度。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的图像定位方法、装置、系统和存储介质的示例电子设备的示意性框图；

图2示出根据本发明实施例的图像定位方法的示意性流程图；

图3A示出根据本发明实施例的生成对抗网络的训练阶段的示意图；

图3B示出根据本发明实施例的生成对抗网络的生成器的示意图；

图3C示出根据本发明实施例的生成对抗网络的判别器的示意图；

图3D示出根据本发明实施例的生成对抗网络的映射管道的操作的示意图；

图4示出根据本发明实施例的生成对抗网络的测试阶段的示意图；

图5示出根据本发明实施例的图像定位装置的示意性框图；以及

图6示出根据本发明实施例的图像定位系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的图像定位方法、装置、系统和存储介质的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以采集用户期望的图像(例如照片、视频等)，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是摄像头。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用具有图像采集能力的部件采集待处理图像，并将采集的待处理图像发送给电子设备100。

示例性地，用于实现根据本发明实施例的图像定位方法和装置的示例电子设备可以被实现诸如智能手机、平板电脑等等移动终端。

下面，将参考图2描述根据本发明实施例的图像定位方法200。如图2所示，图像定位方法200可以包括如下步骤：

在步骤S210，获取待处理图像。

在一个示例中，待处理图像可以为需要对其进行图像定位的图像。在一个示例中，待处理图像可以为实时采集的图像。在另一个示例中，待处理图像可以为来自任何源的图像。在本文中，将获取的待定位图像称为待处理图像仅为了与后文中将描述的训练神经网络时采用的样本图像以及测试训练好的神经网络时采用的测试图像相区别而如此命名，并无任何限制性作用。

在步骤S220，利用训练好的生成对抗网络对所述待处理图像进行图像定位。

在本发明的实施例中，利用生成对抗网络(Generative AdversarialNet)来实施对图像的图像定位。下面结合附图参照具体实施例详细描述本发明实施例所采用的生成对抗网络及其训练、测试及应用流程。

在本发明的实施例中，采用的生成对抗网络可以包括生成器和判别器。此外，本发明的实施例采用的生成对抗网络还可以包括映射管道。具体地，所述生成器接收输入的图像和噪声，输出生成包围盒；所述映射管道将输入的包围盒映射为包围盒热点图；所述判别器判断输入的包围盒热点图是真实包围盒热点图还是生成包围盒热点图。

示例性地，所述生成对抗网络的训练可以包括：将样本图像和噪声输入所述生成器，经由所述生成器输出生成包围盒；将与所述样本图像相对应的真实包围盒和所述生成器输出的生成包围盒输入所述映射管道，经由所述映射管道输出真实包围盒热点图和生成包围盒热点图；将所述样本图像与所述映射管道输出的真实包围盒热点图组合成对输入所述判别器，经由所述判别器输出针对所述真实包围盒热点图的判别结果；将所述样本图像与所述映射管道输出的生成包围盒热点图组合成对输入所述判别器，经由所述判别器输出针对所述生成包围盒热点图的判别结果；基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果，计算所述判别器的损失值；基于所述判别器输出的针对所述生成包围盒热点图的判别结果，计算所述生成器的损失值；以及基于所述生成器的损失值和所述判别器的损失值，优化所述生成器和所述判别器。

下面参照图3A描述根据本发明实施例的生成对抗网络的训练阶段的示意图。

如图3A所示，实线路径为生成数据流路径，虚线路径为真实数据流路径。输入数据可以包括噪声(例如为均匀噪声)、样本图像、与样本图像对应的真实包围盒。整个网络可以包含生成器、映射管道、判别器三个模块。其中，示例性地，生成器和判别器为含参模型，映射管道不含参，无法优化。生成器接收图像和均匀噪声作为输入，输出生成包围盒；映射管道接收包围盒作为输入，输出包围盒热点图；判别器接收图像与包围盒热点图的组合作为输入，判别是否为真实数据并输出判别结果。

下面具体描述如图3A所示的生成对抗网络的训练过程，该训练过程可以包括如下步骤：

首先，准备生成器和判别器。在一个示例中，生成器可以包括依次连接的卷积层、池化层、至少一个加载预训练权重的残差单元、至少一个加载随机权重的残差单元、全局池化层以及多输出全连接层。在该至少一个加载随机权重的残差单元之前，生成器还包括一个输入通道，噪声(如图3B所示“N”)通过该输入通道输入该生成器中的第一个加载随机权重的残差单元中。在生成器设置至少一个加载预训练权重的残差单元有利于加快生成器的训练速度。每个残差单元是若干残差瓶颈块的组合，每个残差瓶颈块(如图3B中所示的一个矩形框)包括3个卷积层。生成器所包括的上述残差单元之间会有下采样，该下采样可作为残差单元之间的分界线。该下采样是通过把每个残差单元中第一个残差瓶颈块的第一个卷积层的跨度设为2实现的，见3B中每个残差单元中第一个残差瓶颈块的矩形第一行末尾的“/2”。

示例性地，生成器可以包括三个加载预训练权重的残差单元，分别为第一残差单元、第二残差单元和第三残差单元。其中，第一残差单元包括3个残差瓶颈块，如图3B所示的池化层下方连接的3个残差瓶颈块；第二残差单元包括4个残差瓶颈块，如图3B所示的第一残差单元下方连接的4个残差瓶颈块；第三残差单元包括6个残差瓶颈块，如图3B所示的第二残差单元下方连接的6个残差瓶颈块。

示例性地，生成器可以包括一个加载随机权重的残差单元，该残差单元可以包括3个残差瓶颈块，如3B所示的第三残差单元下方连接的3个残差瓶颈块。

示例性地，生成器可以包括四输出全连接层，表示输出四维包围盒。可以基于期望输出的包围盒的维度来确定该全连接层的输出维度。

在一个示例中，可以通过修改深度残差网络得到上述生成器。例如，修改深度残差网络，所述修改包括：将输入的噪声与所述深度残差网络的预定层(如第一个加载随机权重的残差单元中的第一个卷积层)的特征图(Feature Map)连接；将所述深度残差网络的最后一层全连接层的输出的维度修改为等于所述生成包围盒的维度。

例如，生成器的结构可以类似50层深度残差网络(ResNet50)，如图3B所示的，可以加载预训练好的ResNet50中的权重(图3B中“N”之前的过程)，并将噪声输入(图3B中示出为“N”)按通道扩展后与第40层的特征图连接，将最后一层全连接层改为4维，分别对应包围盒的4个维度(包围盒可以用四维包围盒表示，四维包围盒表示包围盒的上下左右，本发明中以四维为例，也可以用其他数量维度的包围盒表示包围盒)。

在一个示例中，判别器可以包括依次连接的卷积层、池化层、至少一个加载预训练权重的残差单元、至少一个加载随机权重的残差单元、全局池化层以及单输出全连接层。在该至少一个加载随机权重的残差单元之前，判别器还包括一个输入通道，包围盒热点图(如图3C所示“H”)通过该输入通道输入该判别器中的第一个加载随机权重的残差单元中。在判别器中设置至少一个加载预训练权重的残差单元有利于加快判别器的训练速度。每个残差单元是若干残差瓶颈块的组合，每个残差瓶颈块包括3个卷积层。判别器所包括的上述残差单元之间同样有下采样，该下采样可作为残差单元之间的分界线。该下采样是通过把每个残差单元中第一个残差瓶颈块的第一个卷积层的跨度设为2实现的，见3C中每个残差单元中第一个残差瓶颈块的矩形第一行末尾的“/2”。

示例性地，判别器可以包括三个加载预训练权重的残差单元，分别为第一残差单元、第二残差单元和第三残差单元。其中，第一残差单元包括3个残差瓶颈块，如图3C所示的池化层下方连接的3个残差瓶颈块；第二残差单元包括4个残差瓶颈块，如图3C所示的第一残差单元下方连接的4个残差瓶颈块；第三残差单元包括6个残差瓶颈块，如图3C所示的第二残差单元下方连接的6个残差瓶颈块。

示例性地，判别器可以包括一个加载随机权重的残差单元，该残差单元可以包括3个残差瓶颈块，如3C所示的第三残差单元下方连接的3个残差瓶颈块。

在一个示例中，可以通过修改深度残差网络得到上述判别器。例如，修改深度残差网络，所述修改包括：将输入的包围盒热点图与所述深度残差网络的预定层(如第一个加载随机权重的残差单元中的第一个卷积层)的特征图连接；以及将所述深度残差网络的最后一层全连接层的输出的维度修改为一维。

例如，判别器的结构可以类似50层深度残差网络(ResNet50)，如图3C所示的，可以加载预训练好的ResNet50中前40层权重(图3C中“H”之前的过程)，并将热点图输入(图3C中示出为“H”)与第40层的图像特征图连接，将最后一层全连通层输出改为1维，对应判别结果。

接着，准备训练数据。可以从训练集中抽样图像(可称为样本图像)以及与其相对应(或称为相关联)的真实包围盒形成组合。此外，可从预定义均匀分布中抽样噪声。

在准备好生成器、判别器以及训练数据后，可以将样本图像和噪声输入生成器，得到生成器输出的生成包围盒。接着，可将真实包围盒与生成包围盒输入映射管道，得到分别与真实包围盒和生成包围盒对应的包围盒热点图。可以结合图3D理解根据本发明实施例的生成对抗网络的映射管道的结构和操作。如图3D所示，可将包围盒坐标[上,下,左,右](例如为[0.2,-0.2,0.7,0.8])通过可导函数映射为特定尺寸的单通道包围盒热点图。示例性地，可导函数例如为三角波，如图3D所示的其一维形态、二维形态以及其函数方程等。对于真实包围盒，映射管道将其映射为真实包围盒热点图；类似地，对于生成包围盒，映射管道将其映射为生成包围盒热点图。

基于所得到的包围盒热点图，可以将样本图像和与其对应的真实包围盒热点图组合成对输入到判别器中，得到真实数据的判别结果。同样，可以将样本图像和与其对应的生成包围盒热点图组合成对输入到判别器，得到生成数据的判别结果。

基于判别器输出的判别结果，可以计算判别器的损失值。在一个示例中，可以基于真实数据判别结果与预定义的全1向量计算交叉熵(例如称为第一交叉熵)，基于生成数据判别结果与预定义的全0向量计算交叉熵(例如称为第二交叉熵)，然后计算这两个交叉熵的平均值，以作为判别器的损失值。

此外，基于判别器输出的判别结果，可以计算生成器的损失值。在一个示例中，可以基于生成数据判别结果与预定义的全1向量计算交叉熵(例如称为第三交叉熵)，以作为生成器的损失值。

基于计算得到的判别器的损失值以及生成器的损失值，可以例如使用基于梯度下降的Adam(Adaptive moment estimation，自适应矩估计)最优化算法，通过反向传播算法更新判别器参数以最小化判别器损失值，再通过反向传播算法更新生成器参数以最小化生成器的损失值，从而优化判别器和生成器。

最后，可以通过迭代上述训练过程的步骤，并适时调整学习率，直到生成器损失值和判别器损失值收敛。

以上示例性地描述根据本发明实施例的生成对抗网络的训练。值得注意的是，在上述的实施例中，描述了以可导的从多维包围盒到热点图的包围盒编码方式(即映射管道的作用)，该方式适用于基于梯度下降的优化方法，且可以降低判别器的判断难度。在本发明的其他实施例中，也可以不采用映射管道，而由判别器直接判断是真实包围盒还是生成包围盒。

下面结合图4描述对训练好的生成对抗网络的测试。如图4所示，对训练好的生成对抗网络的测试可以包括如下步骤：

首先，准备测试数据。在一个示例中，可以从测试集中抽样图像(可以称为测试图像)和与其相对应的真实包围盒形成组合。此外，可以从与训练集相同的预定义均匀分布中抽样多维(例如10维)噪声。

在准备好测试数据后，可以将测试图像与噪声输入生成器，生成器可针对输入的测试图像和噪声输出生成包围盒。

进一步地，可以计算生成包围盒与真实包围盒的交并比(IoU)。如果交并比大于或等于某阈值(例如0.5或0.8)，则可以记作定位准确(或生成准确)，否则记作定位失败(或生成失败)。

此外，可以迭代上述测试步骤多次，取样足够多次(如2000)，并计算图像定位的准确率以评估模型表现。

下面描述对训练好的生成对抗网络的应用。在应用阶段，利用训练好的生成对抗网络的生成器对待处理图像进行图像定位。具体地，利用训练好的生成对抗网络对待处理图像进行图像定位可以包括：基于输入的待处理图像和噪声，利用所述训练好的生成对抗网络的生成器得到生成包围盒，以作为所述图像定位的结果。

进一步地，可以计算所述生成包围盒与真实包围盒的交并比，所述真实包围盒为与所述待处理图像相对应的真实包围盒；如果所述交并比大于或等于预设阈值(例如0.5或0.8)，则记作定位准确，反之则记作定位失败。

进一步地，针对不同待处理图像的定位结果，可以计算图像定位的准确率。

以上示例性地描述了根据本发明实施例的生成对抗网络及其训练、测试和应用。在本发明的实施例中，利用条件生成对抗网络进行图像定位，能够有效解决图像定位受图像多峰性质影响的问题。此外，在本发明的实施例中，可以采用可导的从多维包围盒到热点图的包围盒编码方式，该方式适用于基于梯度下降的优化方法，且降低了判别器的判断难度，对图像定位模型表现有较大提升。

基于上面的描述，根据本发明实施例的图像定位方法利用训练好的生成对抗网络行图像定位，能够有效解决图像定位受图像多峰性质影响的问题，从而提高图像定位的精度。

以上示例性地描述了根据本发明实施例的图像定位方法。示例性地，根据本发明实施例的图像定位方法可以在具有存储器和处理器的设备、装置或者系统中实现。

此外，根据本发明实施例的图像定位方法可以方便地部署到智能手机、平板电脑、个人计算机等移动设备上。替代地，根据本发明实施例的图像定位方法还可以部署在服务器端(或云端)。替代地，根据本发明实施例的图像定位方法还可以分布地部署在服务器端(或云端)和个人终端处。

下面结合图5描述本发明另一方面提供的图像定位装置。图5示出了根据本发明实施例的图像定位装置500的示意性框图。

如图5所示，根据本发明实施例的图像定位装置500包括获取模块510和定位模块520。所述各个模块可分别执行上文中结合图2描述的图像定位方法的各个步骤/功能。以下仅对图像定位装置500的各模块的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块510用于获取待处理图像。定位模块520用于利用训练好的生成对抗网络对所述获取模块获取的待处理图像进行图像定位。获取模块510和定位模块520均可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

在一个示例中，获取模块510获取的待处理图像可以为需要对其进行图像定位的图像。在一个示例中，获取模块510获取的待处理图像可以为实时采集的图像。在另一个示例中，获取模块510获取的待处理图像可以为来自任何源的图像。

在本发明的实施例中，定位模块520利用生成对抗网络实施对图像的图像定位。在本发明的实施例中，定位模块520利用的生成对抗网络可以包括生成器和判别器。此外，定位模块520采用的生成对抗网络还可以包括映射管道。具体地，所述生成器接收输入的图像和噪声，输出生成包围盒；所述映射管道将输入的包围盒映射为包围盒热点图；所述判别器判断输入的包围盒热点图是真实包围盒热点图还是生成包围盒热点图。

示例性地，定位模块520利用的所述生成对抗网络的训练可以包括：将样本图像和噪声输入所述生成器，经由所述生成器输出生成包围盒；将与所述样本图像相对应的真实包围盒和所述生成器输出的生成包围盒输入所述映射管道，经由所述映射管道输出真实包围盒热点图和生成包围盒热点图；将所述样本图像与所述映射管道输出的真实包围盒热点图组合成对输入所述判别器，经由所述判别器输出针对所述真实包围盒热点图的判别结果；将所述样本图像与所述映射管道输出的生成包围盒热点图组合成对输入所述判别器，经由所述判别器输出针对所述生成包围盒热点图的判别结果；基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果，计算所述判别器的损失值；基于所述判别器输出的针对所述生成包围盒热点图的判别结果，计算所述生成器的损失值；以及基于所述生成器的损失值和所述判别器的损失值，优化所述生成器和所述判别器。

示例性地，定位模块520利用的生成对抗网络的生成器可以包括经卷积层、池化层、加载预训练权重的残差单元、加载随机权重的残差单元、全局池化层以及多输出全连接层。

示例性地，定位模块520利用的生成对抗网络的判别器可以包括卷积层、池化层、加载预训练权重的残差单元、加载随机权重的残差单元、全局池化层以及单输出全连接层。

示例性地，定位模块520利用的所述生成对抗网络的映射管道可以通过可导函数将多维包围盒映射为特定尺寸的单通道包围盒热点图。

示例性地，定位模块520利用的所述生成对抗网络在上述训练过程中的所述基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果，计算所述判别器的损失值可以包括：基于所述判别器输出的针对所述真实包围盒热点图的判别结果与预定义的全1向量，计算第一交叉熵；基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全0向量，计算第二交叉熵；以及计算所述第一交叉熵和所述第二交叉熵的平均值，以作为所述判别器的损失值。

示例性地，定位模块520利用的所述生成对抗网络在上述训练过程中的所述基于所述判别器输出的针对所述生成包围盒热点图的判别结果，计算所述生成器的损失值可以包括：基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全1向量，计算第三交叉熵，以作为所述生成器的损失值。

示例性地，定位模块520利用的所述生成对抗网络在上述训练过程中的所述生成器的损失值以及所述判别器的损失值的最小化是基于梯度下降的Adam最优化算法。

示例性地，定位模块520利用的所述生成对抗网络的训练还可以包括：在所述生成对抗网络的训练的迭代过程中适时调整学习率，直到所述生成器的损失值以及所述判别器的损失值收敛。

在本发明的实施例中，定位模块520利用训练好的生成对抗网络对所述待处理图像进行图像定位可以包括：基于输入的所述待处理图像和噪声，利用所述训练好的生成对抗网络的生成器得到生成包围盒，以作为所述图像定位的结果。

在本发明的实施例中，图像定位装置500还可以包括计算模块(未在图5中示出)，该计算模块可以计算所述生成包围盒与真实包围盒的交并比，所述真实包围盒为与所述待处理图像相对应的真实包围盒；如果所述交并比大于或等于预设阈值，则可以记作定位准确，反之则可以记作定位失败。

此外，计算模块还可以基于定位模块520针对不同待处理图像的输出结果计算定位模块520进行图像定位的准确率。

本领域技术人员可以参照图3A到图4结合上文关于图3A到图4的描述理解定位模块520利用的对抗生成网络的结构以其训练、测试和应用，为了简洁，此处不再赘述。

基于上面的描述，根据本发明实施例的图像定位装置利用训练好的生成对抗网络进行图像定位，能够有效解决图像定位受图像多峰性质影响的问题，从而提高图像定位的精度。

图6示出了根据本发明实施例的图像定位系统600的示意性框图。图像定位系统600包括存储装置610以及处理器620。

其中，存储装置610存储用于实现根据本发明实施例的图像定位方法中的相应步骤的程序代码。处理器620用于运行存储装置610中存储的程序代码，以执行根据本发明实施例的图像定位方法的相应步骤，并且用于实现根据本发明实施例的图像定位装置中的相应模块。此外，图像定位系统600还可以包括图像采集装置(未在图6中示出)，其可以用于采集待处理图像。当然，图像采集装置不是必需的，可直接接收来自其他源的待处理图像的输入。

在一个实施例中，在所述程序代码被处理器620运行时使得图像定位系统600执行以下步骤：获取待处理图像；以及利用训练好的生成对抗网络对所述待处理图像进行图像定位。

在一个实施例中，所述利用训练好的生成对抗网络对所述待处理图像进行图像定位包括：基于输入的所述待处理图像和噪声，利用所述训练好的生成对抗网络的生成器得到生成包围盒，以作为所述图像定位的结果。

在一个实施例中，在所述程序代码被处理器620运行时还使得图像定位系统600执行以下步骤：计算所述生成包围盒与真实包围盒的交并比，所述真实包围盒为与所述待处理图像相对应的真实包围盒；以及如果所述交并比大于或等于预设阈值，则记作定位准确，反之则记作定位失败。

在一个实施例中，在所述程序代码被处理器620运行时还使得图像定位系统600执行以下步骤：计算所述图像定位的准确率。

在一个实施例中，所述生成对抗网络包括生成器、映射管道和判别器，其中：所述生成器接收输入的图像和噪声，输出生成包围盒；所述映射管道将输入的包围盒映射为包围盒热点图；以及所述判别器判断输入的包围盒热点图是真实包围盒热点图还是生成包围盒热点图。

在一个实施例中，所述生成器包括卷积层、池化层、加载预训练权重的残差单元、加载随机权重的残差单元、全局池化层以及多输出全连接层。

在一个实施例中，所述判别器包括卷积层、池化层、加载预训练权重的残差单元、加载随机权重的残差单元、全局池化层以及单输出全连接层。

在一个实施例中，所述生成对抗网络的训练包括：将样本图像和噪声输入所述生成器，经由所述生成器输出生成包围盒；将与所述样本图像相对应的真实包围盒和所述生成器输出的生成包围盒输入所述映射管道，经由所述映射管道输出真实包围盒热点图和生成包围盒热点图；将所述样本图像与所述映射管道输出的真实包围盒热点图组合成对输入所述判别器，经由所述判别器输出针对所述真实包围盒热点图的判别结果；将所述样本图像与所述映射管道输出的生成包围盒热点图组合成对输入所述判别器，经由所述判别器输出针对所述生成包围盒热点图的判别结果；基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果，计算所述判别器的损失值；基于所述判别器输出的针对所述生成包围盒热点图的判别结果，计算所述生成器的损失值；以及基于所述生成器的损失值和所述判别器的损失值，优化所述生成器和所述判别器。

在一个实施例中，所述基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果，计算所述判别器的损失值包括：基于所述判别器输出的针对所述真实包围盒热点图的判别结果与预定义的全1向量，计算第一交叉熵；基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全0向量，计算第二交叉熵；以及计算所述第一交叉熵和所述第二交叉熵的平均值，以作为所述判别器的损失值。

在一个实施例中，所述基于所述判别器输出的针对所述生成包围盒热点图的判别结果，计算所述生成器的损失值包括：基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全1向量，计算第三交叉熵，以作为所述生成器的损失值。

在一个实施例中，所述生成器的损失值以及所述判别器的损失值的最小化是基于梯度下降的Adam最优化算法。

在一个实施例中，所述生成对抗网络的训练还包括：在所述生成对抗网络的训练的迭代过程中适时调整学习率，直到所述生成器的损失值以及所述判别器的损失值收敛。

在一个实施例中，所述映射管道通过可导函数将多维包围盒映射为特定尺寸的单通道包围盒热点图。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的图像定位方法的相应步骤，并且用于实现根据本发明实施例的图像定位装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合，例如一个计算机可读存储介质包含获取待处理图像的计算机可读的程序代码，另一个计算机可读存储介质包含利用训练好的生成对抗网络对所述待处理图像进行图像定位的计算机可读的程序代码。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的图像定位装置的各个功能模块，并且/或者可以执行根据本发明实施例的图像定位方法。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤：获取待处理图像；以及利用训练好的生成对抗网络对所述待处理图像进行图像定位。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时还使计算机或处理器执行以下步骤：计算所述生成包围盒与真实包围盒的交并比，所述真实包围盒为与所述待处理图像相对应的真实包围盒；以及如果所述交并比大于或等于预设阈值，则记作定位准确，反之则记作定位失败。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时还使计算机或处理器执行以下步骤：计算所述图像定位的准确率。

在一个实施例中，所述判别器包括卷积层、池化层、加载预训练权重的残差单元、加载随机权重的残差单元、全局池化层以及多输出全连接层。

根据本发明实施例的图像定位装置中的各模块可以通过根据本发明实施例的图像定位的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的图像定位方法、装置、系统以及存储介质利用训练好的生成对抗网络进行图像定位，能够有效解决图像定位受图像多峰性质影响的问题，从而提高图像定位的精度。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像定位方法，其特征在于，所述图像定位方法包括：

获取待处理图像；以及

利用训练好的生成对抗网络对所述待处理图像进行图像定位；

其中，所述利用训练好的生成对抗网络对所述待处理图像进行图像定位包括：

基于输入的所述待处理图像和噪声，利用所述训练好的生成对抗网络的生成器得到生成包围盒，以作为所述图像定位的结果。

2.根据权利要求1所述的图像定位方法，其特征在于，所述图像定位方法还包括：

计算所述生成包围盒与真实包围盒的交并比，所述真实包围盒为与所述待处理图像相对应的真实包围盒；以及

如果所述交并比大于或等于预设阈值，则记作定位准确，反之则记作定位失败。

3.根据权利要求2所述的图像定位方法，其特征在于，所述图像定位方法还包括：计算所述图像定位的准确率。

4.根据权利要求1-3中的任一项所述的图像定位方法，其特征在于，所述生成对抗网络包括生成器、映射管道和判别器，其中：

所述生成器接收输入的图像和噪声，输出生成包围盒；

所述映射管道将输入的包围盒映射为包围盒热点图；以及

所述判别器判断输入的包围盒热点图是真实包围盒热点图还是生成包围盒热点图。

5.根据权利要求4所述的图像定位方法，其特征在于，所述生成器包括卷积层、池化层、加载预训练权重的残差单元、加载随机权重的残差单元、全局池化层以及多输出全连接层。

6.根据权利要求4所述的图像定位方法，其特征在于，所述判别器包括卷积层、池化层、加载预训练权重的残差单元、加载随机权重的残差单元、全局池化层以及单输出全连接层。

7.根据权利要求4所述的图像定位方法，其特征在于，所述生成对抗网络的训练包括：

将样本图像和噪声输入所述生成器，经由所述生成器输出生成包围盒；

将与所述样本图像相对应的真实包围盒和所述生成器输出的生成包围盒输入所述映射管道，经由所述映射管道输出真实包围盒热点图和生成包围盒热点图；

将所述样本图像与所述映射管道输出的真实包围盒热点图组合成对输入所述判别器，经由所述判别器输出针对所述真实包围盒热点图的判别结果；

将所述样本图像与所述映射管道输出的生成包围盒热点图组合成对输入所述判别器，经由所述判别器输出针对所述生成包围盒热点图的判别结果；

基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果，计算所述判别器的损失值；

基于所述判别器输出的针对所述生成包围盒热点图的判别结果，计算所述生成器的损失值；以及

基于所述生成器的损失值和所述判别器的损失值，优化所述生成器和所述判别器。

8.根据权利要求7所述的图像定位方法，其特征在于，所述基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果，计算所述判别器的损失值包括：

基于所述判别器输出的针对所述真实包围盒热点图的判别结果与预定义的全1向量，计算第一交叉熵；

基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全0向量，计算第二交叉熵；以及

计算所述第一交叉熵和所述第二交叉熵的平均值，以作为所述判别器的损失值。

9.根据权利要求7所述的图像定位方法，其特征在于，所述基于所述判别器输出的针对所述生成包围盒热点图的判别结果，计算所述生成器的损失值包括：

基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全1向量，计算第三交叉熵，以作为所述生成器的损失值。

10.一种用于实现权利要求1-9中的任一项所述的图像定位方法的图像定位装置，其特征在于，所述图像定位装置包括：

获取模块，用于获取待处理的图像；以及

定位模块，用于利用训练好的生成对抗网络对所述获取模块获取的待处理的图像进行图像定位；

其中，所述定位模块利用训练好的生成对抗网络对所述待处理图像进行图像定位包括：

11.一种图像定位系统，其特征在于，所述图像定位系统包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1-9中的任一项所述的图像定位方法。

12.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行如权利要求1-9中的任一项所述的图像定位方法。