CN108876759B - 图像探测方法、装置、系统和存储介质 - Google Patents
图像探测方法、装置、系统和存储介质 Download PDFInfo
- Publication number
- CN108876759B CN108876759B CN201711239598.XA CN201711239598A CN108876759B CN 108876759 B CN108876759 B CN 108876759B CN 201711239598 A CN201711239598 A CN 201711239598A CN 108876759 B CN108876759 B CN 108876759B
- Authority
- CN
- China
- Prior art keywords
- bounding box
- image
- fractional
- generated
- image detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种图像探测方法、装置、系统和存储介质,所述图像探测方法包括:获取待处理图像;以及利用训练好的生成对抗网络对所述待处理图像进行区域提议,以用于基于所述区域提议的结果进行图像探测。根据本发明实施例的图像探测方法、装置、系统和存储介质利用训练好的生成对抗网络替代更快速区域卷积神经网络中的区域提议网络进行区域提议与分数图拟合,能够有效解决区域提议模块受图像多峰性质影响的问题,从而提高图像探测的精度。
Description
技术领域
本发明涉及图像识别技术领域,更具体地涉及一种图像探测方法、装置、系统和存储介质。
背景技术
图像探测一直是计算机视觉领域重要且备受关注的技术,其目标是给定一张图,通过算法给出图中所有物体的位置和类别信息。当下进行图像定位的主流框架是更快速区域卷积神经网络(Faster-RCNN)框架及各种基于Faster-RCNN的改进版。在这些框架中,算法可以被分为两步:区域提议和图像分类。在Faster-RCNN中,先通过区域提议网络(RPN)对每一张图给出约2000个区域提议和相应的置信度,基于置信度进行筛选后输入给Faster-RCNN得到图像分类结果。
然而,在前述的当前图像探测中所使用的区域提议方法无法很好处理图片本身性质导致的多峰问题,即当图片中含有重叠的多个物体时,模型输出的结果无法与其中任何一张图较好匹配。产生这种问题的原因在于当给定一张具有多峰性质的图时,图像包围盒的真实分布存在多个尖峰,而因为损失函数为缓和曼哈顿距离(Smooth L1),其自身性质导致其会受多峰问题影响,导致收敛后最优值在真实分布的多个峰之间,无法与其中任何一个峰较好匹配。
因此,需要提供新的图像探测方法来解决上述问题。
发明内容
本发明提出了一种关于图像探测的方案,其利用训练好的生成对抗网络替代更快速区域卷积神经网络中的区域提议网络进行区域提议与分数图拟合,能够有效解决区域提议模块受图像多峰性质影响的问题。下面简要描述本发明提出的关于图像探测的方案,更多细节将在后续结合附图在具体实施方式中加以描述。
根据本发明一方面,提供了一种图像探测方法,所述图像探测方法包括:获取待处理图像;以及利用训练好的生成对抗网络对所述待处理图像进行区域提议,以用于基于所述区域提议的结果进行图像探测。
在本发明的一个实施例中,所述生成对抗网络包括生成器、映射管道和判别器,其中:所述生成器接收图像和噪声,输出生成包围盒和生成分数热点图;所述映射管道将输入的包围盒映射为包围盒热点图;以及所述判别器判断输入的包围盒热点图是真实包围盒热点图还是生成包围盒热点图。
在本发明的一个实施例中,所述生成对抗网络的训练包括:将样本图像和噪声输入所述生成器;基于与所述样本图像相关联的真实分数热点图以及所述生成器输出的生成分数热点图计算所述生成器的分数损失值;将与所述样本图像相关联的真实包围盒和所述生成器输出的生成包围盒分别输入所述映射管道;将所述样本图像与所述映射管道输出的真实包围盒热点图和生成包围盒热点图分别组合成对输入所述判别器;基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果计算所述判别器的损失值;基于所述判别器输出的针对所述生成包围盒热点图的判别结果计算所述生成器的包围盒损失值;以及最小化所述生成器的分数损失值和所述生成器的包围盒损失值以及所述判别器的损失值。
在本发明的一个实施例中,所述计算所述生成器的分数损失值包括:计算所述真实分数热点图与所述生成分数热点图之间的距离,以作为所述生成器的分数损失值。
在本发明的一个实施例中,所述计算所述真实分数热点图与所述生成分数热点图之间的距离包括:计算所述真实分数热点图与所述生成分数热点图之间的欧式距离。
在本发明的一个实施例中,输入所述映射管道的为单个真实包围盒和单个生成包围盒,所述单个生成包围盒是基于利用所述真实分数热点图过滤全部生成包围盒而得到的。
在本发明的一个实施例中,所述计算所述判别器的损失值包括:基于所述判别器输出的针对所述真实包围盒热点图的判别结果与预定义的全1向量计算第一交叉熵;基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全0向量计算第二交叉熵;以及计算所述第一交叉熵和所述第二交叉熵的平均值,以作为所述判别器的损失值。
在本发明的一个实施例中,所述计算所述生成器的包围盒损失值包括:基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全1向量计算第三交叉熵,以作为所述生成器的包围盒损失值。
在本发明的一个实施例中,所述生成器的分数损失值、所述生成器的包围盒损失值以及所述判别器的损失值的最小化是基于梯度下降的Adam最优化算法。
在本发明的一个实施例中,所述生成对抗网络的训练还包括:在所述生成对抗网络的训练的迭代过程中调整学习率,直到所述生成器的分数损失值、所述生成器的包围盒损失值以及所述判别器的损失值收敛。
在本发明的一个实施例中,所述映射管道通过可导函数将多维包围盒映射为特定尺寸的单通道包围盒热点图。
在本发明的一个实施例中,所述利用训练好的生成对抗网络对所述待处理图像进行区域提议包括:基于所述训练好的生成对抗网络的生成器针对输入的所述待处理图像和噪声生成全部生成包围盒和生成分数热点图;基于所述生成分数热点图对所述全部生成包围盒进行过滤;以及根据置信度对经所述过滤后得到的区域提议进行排序选择,得到置信度最高的若干个区域提议以作为所述区域提议的结果。
在本发明的一个实施例中,所述基于所述生成分数热点图对所述全部生成包围盒进行过滤包括:基于预定阈值将所述生成分数热点图进行离散化;以及基于经离散化的生成分数热点图对所述全部生成包围盒进行过滤。
在本发明的一个实施例中,所述利用训练好的生成对抗网络对所述待处理图像进行区域提议还包括:在基于所述生成分数热点图对所述全部生成包围盒进行过滤之后,对经过所述过滤得到的生成包围盒进行非极大值抑制操作;并且所述排序选择是根据置信度对经所述非极大值抑制操作过滤后得到的区域提议进行排序选择。
在本发明的一个实施例中,所述图像探测包括:基于所述区域提议的结果对特征图进行兴趣区域池化,并通过更快速区域卷积神经网络中的分类器得出分类结果,所述分类结果包括所述待处理图像中所包含的物体的位置和类别信息。
在本发明的一个实施例中,所述噪声为从预定义均匀分布中抽样的多维噪声。
根据本发明另一方面,提供了一种用于实现上述任一项所述的图像探测方法的图像探测装置,所述图像探测装置包括:获取模块,用于获取待处理图像;以及探测模块,用于利用训练好的生成对抗网络对所述获取模块获取的待处理图像进行区域提议,以用于基于所述区域提议的结果进行图像探测。
在本发明的一个实施例中,所述探测模块利用的所述生成对抗网络包括生成器、映射管道和判别器,其中:所述生成器接收图像和噪声,输出生成包围盒和生成分数热点图;所述映射管道将输入的包围盒映射为包围盒热点图;以及所述判别器判断输入的包围盒热点图是真实包围盒热点图还是生成包围盒热点图。
在本发明的一个实施例中,所述探测模块利用的所述生成对抗网络的训练包括:将样本图像和噪声输入所述生成器;基于与所述样本图像相关联的真实分数热点图以及所述生成器输出的生成分数热点图计算所述生成器的分数损失值;将与所述样本图像相关联的真实包围盒和所述生成器输出的生成包围盒分别输入所述映射管道;将所述样本图像与所述映射管道输出的真实包围盒热点图和生成包围盒热点图分别组合成对输入所述判别器;基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果计算所述判别器的损失值;基于所述判别器输出的针对所述生成包围盒热点图的判别结果计算所述生成器的包围盒损失值;以及最小化所述生成器的分数损失值和所述生成器的包围盒损失值以及所述判别器的损失值。
在本发明的一个实施例中,所述探测模块利用的所述生成对抗网络的训练中所述的计算所述生成器的分数损失值包括:计算所述真实分数热点图与所述生成分数热点图之间的距离,以作为所述生成器的分数损失值。
在本发明的一个实施例中,所述探测模块利用的所述生成对抗网络的训练中所述的计算所述真实分数热点图与所述生成分数热点图之间的距离包括:计算所述真实分数热点图与所述生成分数热点图之间的欧式距离。
在本发明的一个实施例中,所述探测模块利用的所述生成对抗网络的训练中所述的输入所述映射管道的为单个真实包围盒和单个生成包围盒,所述单个生成包围盒是基于利用所述真实分数热点图过滤全部生成包围盒而得到的。
在本发明的一个实施例中,所述探测模块利用的所述生成对抗网络的训练中所述的计算所述判别器的损失值包括:基于所述判别器输出的针对所述真实包围盒热点图的判别结果与预定义的全1向量计算第一交叉熵;基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全0向量计算第二交叉熵;以及计算所述第一交叉熵和所述第二交叉熵的平均值,以作为所述判别器的损失值。
在本发明的一个实施例中,所述探测模块利用的所述生成对抗网络的训练中所述的计算所述生成器的包围盒损失值包括:基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全1向量计算第三交叉熵,以作为所述生成器的包围盒损失值。
在本发明的一个实施例中,所述探测模块利用的所述生成对抗网络的训练中所述的所述生成器的分数损失值、所述生成器的包围盒损失值以及所述判别器的损失值的最小化是基于梯度下降的Adam最优化算法。
在本发明的一个实施例中,所述探测模块利用的所述生成对抗网络的训练还包括:在所述生成对抗网络的训练的迭代过程中调整学习率,直到所述生成器的分数损失值、所述生成器的包围盒损失值以及所述判别器的损失值收敛。
在本发明的一个实施例中,所述探测模块利用的所述生成对抗网络的所述映射管道通过可导函数将多维包围盒映射为特定尺寸的单通道包围盒热点图。
在本发明的一个实施例中,所述探测模块利用训练好的生成对抗网络对所述待处理图像进行区域提议包括:基于所述训练好的生成对抗网络的生成器针对输入的所述待处理图像和噪声生成全部生成包围盒和生成分数热点图;基于所述生成分数热点图对所述全部生成包围盒进行过滤;以及根据置信度对经所述过滤后得到的区域提议进行排序选择,得到置信度最高的若干个区域提议以作为所述区域提议的结果。
在本发明的一个实施例中,所述探测模块利用训练好的生成对抗网络对所述待处理图像进行区域提议中所述的基于所述生成分数热点图对所述全部生成包围盒进行过滤包括:基于预定阈值将所述生成分数热点图进行离散化;以及基于经离散化的生成分数热点图对所述全部生成包围盒进行过滤。
在本发明的一个实施例中,所述探测模块利用训练好的生成对抗网络对所述待处理图像进行区域提议还包括:在基于所述生成分数热点图对所述全部生成包围盒进行过滤之后,对经过所述过滤得到的生成包围盒进行非极大值抑制操作;并且所述排序选择是根据置信度对经所述非极大值抑制操作过滤后得到的区域提议进行排序选择。
在本发明的一个实施例中,所述图像探测包括:基于所述区域提议的结果对特征图进行兴趣区域池化,并通过更快速区域卷积神经网络中的分类器得出分类结果,所述分类结果包括所述待处理图像中所包含的物体的位置和类别信息。
在本发明的一个实施例中,所述噪声为从预定义均匀分布中抽样的多维噪声。
根据本发明又一方面,提供了一种图像探测系统,所述图像探测系统包括存储装置和处理器,所述存储装置上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时执行上述任一项所述的图像探测方法。
根据本发明再一方面,提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序在运行时执行上述任一项所述的图像探测方法。
根据本发明实施例的图像探测方法、装置、系统和存储介质利用训练好的生成对抗网络替代更快速区域卷积神经网络中的区域提议网络进行区域提议与分数图拟合,能够有效解决区域提议模块受图像多峰性质影响的问题,从而提高图像探测的精度。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1示出用于实现根据本发明实施例的图像探测方法、装置、系统和存储介质的示例电子设备的示意性框图;
图2示出根据本发明实施例的图像探测方法的示意性流程图;
图3A示出根据本发明实施例的生成对抗网络的训练阶段的示意图;
图3B示出根据本发明实施例的生成对抗网络的映射管道的操作的示意图;
图4A示出根据本发明实施例的生成对抗网络的测试阶段的示意图;
图4B示出根据本发明实施例的生成对抗网络的应用阶段的示意图;
图5示出根据本发明实施例的图像探测装置的示意性框图;以及
图6示出根据本发明实施例的图像探测系统的示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
首先,参照图1来描述用于实现本发明实施例的图像探测方法、装置、系统和存储介质的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像采集装置110可以采集用户期望的图像(例如照片、视频等),并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是摄像头。应当理解,图像采集装置110仅是示例,电子设备100可以不包括图像采集装置110。在这种情况下,可以利用具有图像采集能力的部件采集待处理图像,并将采集的待处理图像发送给电子设备100。
示例性地,用于实现根据本发明实施例的图像探测方法和装置的示例电子设备可以被实现诸如智能手机、平板电脑等等移动终端。
下面,将参考图2描述根据本发明实施例的图像探测方法200。如图2所示,图像探测方法200可以包括如下步骤:
在步骤S210,获取待处理图像。
在一个示例中,待处理图像可以为需要对其进行图像探测的图像。在一个示例中,待处理图像可以为实时采集的图像。在另一个示例中,待处理图像可以为来自任何源的图像。在本文中,将获取的待探测图像称为待处理图像仅为了与后文中将描述的训练神经网络时采用的样本图像以及测试训练好的神经网络时采用的测试图像相区别而如此命名,并无任何限制性作用。
在步骤S220,利用训练好的生成对抗网络对所述待处理图像进行区域提议,以用于基于所述区域提议的结果进行图像探测。
在本发明的实施例中,利用生成对抗网络(Generative AdversarialNet)来实施对图像的区域提议,而非如当前Faster-RCNN框架中的采用RPN网络实施对图像的区域提议。下面结合附图参照具体实施例详细描述本发明实施例所采用的生成对抗网络及其训练、测试及应用流程。
在本发明的实施例中,采用的生成对抗网络可以包括生成器和判别器。此外,本发明的实施例采用的生成对抗网络还可以包括映射管道。具体地,所述生成器接收图像和噪声,输出生成包围盒和生成分数热点图;所述映射管道将输入的包围盒映射为包围盒热点图;所述判别器判断输入的包围盒热点图是真实包围盒热点图还是生成包围盒热点图。
示例性地,所述生成对抗网络的训练可以包括:将样本图像和噪声输入所述生成器;基于与所述样本图像相关联的真实分数热点图以及所述生成器输出的生成分数热点图计算所述生成器的分数损失值;将与所述样本图像相关联的真实包围盒和所述生成器输出的生成包围盒分别输入所述映射管道;将所述样本图像与所述映射管道输出的真实包围盒热点图和生成包围盒热点图分别组合成对输入所述判别器;基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果计算所述判别器的损失值;基于所述判别器输出的针对所述生成包围盒热点图的判别结果计算所述生成器的包围盒损失值;以及最小化所述生成器的分数损失值和所述生成器的包围盒损失值以及所述判别器的损失值。
下面参照图3A描述根据本发明实施例的生成对抗网络的训练阶段的示意图。
如图3A所示,实线路径为生成数据流路径,虚线路径为真实数据流路径。输入数据可以包括噪声(例如为均匀噪声)、样本图像、与样本图像对应的单个真实包围盒和真实分数热点图。示例性地,在训练阶段的真实分数热点图只与单个真实包围盒对应,即使样本图像中有多个物体包围盒,真实分数热点图也只含一个块状信号。块状信号指的是该块内有多个1元素,真实分数热点图与原图相对应,兴趣区域(ROI区域)为1元素,ROI区域位置与原图相对应。损失项是最优化目标,包括分数损失项和包围盒损失项,两项相对权重可调。整个网络可以包含生成器、映射管道、判别器三个模块。其中,示例性地,生成器和判别器为含参模型,映射管道不含参,无法优化。生成器接收图像和均匀噪声作为输入,输出生成包围盒;映射管道接收单包围盒作为输入,输出包围盒热点图;判别器接收图像与包围盒热点图的组合作为输入,判别是否为真实数据并输出判别结果。
下面具体描述如图3所示的生成对抗网络的训练过程,该训练过程可以包括如下步骤:
首先,准备生成器和判别器。在一个示例中,生成器可以包括Faster-RCNN中的特征提取器和额外的两层卷积。在一个示例中,可以将噪声输入按通道扩展后与特征提取器的输出特征图(Feature Map)连接,添加两层卷积。在一个示例中,最后一层卷积层的通道数为5,每个位置的5维向量中前4个元素对应一个包围盒的4个维度(包围盒可以用四维包围盒表示,四维包围盒表示包围盒的上下左右,本发明中以4维为例,也可以用其他数量维度的包围盒表示包围盒),第5个值代表分数。在一个示例中,判别器的结构可以类似50层深度残差网络(ResNet50),加载预训练好的ResNet50中的前40层权重,并将包围盒热点图输入,与第40层的图像特征图连接,将最后一层全连通层输出改为1维,对应判别结果。
接着,准备训练数据。可以从训练集中抽样图像(可称为样本图像)以及与其相对应(或称为相关联)的真实包围盒形成组合。在一个示例中,可将真实包围盒映射成一个01真实分数热点图。示例性地,真实分数热点图的大小与生成分数热点图的大小相同,可以用于后续将描述的距离计算。此外,可从预定义均匀分布中抽样多维(例如10维)噪声。
在准备好生成器、判别器以及训练数据后,可以将样本图像和噪声输入生成器,得到生成器输出的全部生成包围盒和生成分数热点图。此处,生成包围盒的数量可以是预先设定的。在一个示例中,可设定生成49个生成包围盒。基于生成器生成的生成分数热点图以及相应的真实分数热点图,可以计算生成器的分数损失值。在一个示例中,可以计算生成分数热点图和真实分数热点图的距离(例如欧式距离),以作为生成器的分数损失值。
然后,可以基于真实分数热点图来过滤全部生成包围盒以得到单个生成包围盒。在一个示例中,可以从真实分数热点图的所有1元素中随机抽取一个保留(块状信号中有多个1,任意选择其中一个),其他置0。然后,采用经过该处理的真实分数热点图来过滤全部生成包围盒以得到单个生成包围盒。
接着,可将单个真实包围盒与单个生成包围盒分别输入映射管道,得到分别与真实包围盒和生成包围盒对应的包围盒热点图。可以结合图3B理解根据本发明实施例的生成对抗网络的映射管道的结构和操作。如图3B所示,可将包围盒坐标[上,下,左,右](例如为[0.2,-0.2,0.7,0.8])通过可导函数映射为特定尺寸的单通道包围盒热点图。示例性地,可导函数例如为三角波,如图3B所示的其一维形态、二维形态以及其函数方程等。对于单个真实包围盒,映射管道将其映射为真实包围盒热点图;类似地,对于单个生成包围盒,映射管道将其映射为生成包围盒热点图。
基于所得到的包围盒热点图,可以将样本图像和与其对应的真实包围盒热点图组合成对输入到判别器中,得到真实数据的判别结果。同样,可以将样本图像和与其对应的生成包围盒热点图组合成对输入到判别器,得到生成数据的判别结果。
基于判别器输出的判别结果,可以计算判别器的损失值。在一个示例中,可以基于真实数据判别结果与预定义的全1向量计算交叉熵(例如称为第一交叉熵),基于生成数据判别结果与预定义的全0向量计算交叉熵(例如称为第二交叉熵),然后计算这两个交叉熵的平均值,以作为判别器的损失值。
此外,基于判别器输出的判别结果,可以计算生成器的包围盒损失值。在一个示例中,可以基于生成数据判别结果与预定义的全1向量计算交叉熵(例如称为第三交叉熵),以作为生成器的包围盒损失值。
基于计算得到的判别器的损失值以及生成器的分数损失值和包围盒损失值,可以例如使用基于梯度下降的Adam(Adaptive momentestimation,自适应矩估计)最优化算法,通过反向传播算法更新判别器参数以最小化判别器损失值,再通过反向传播算法更新生成器最后两层卷积层参数以最小化生成器的包围盒损失值和分数损失值。
最后,可以通过迭代上述训练过程的步骤,并适时调整学习率,直到生成器损失值和判别器损失值收敛。
以上示例性地描述根据本发明实施例的生成对抗网络的训练。值得注意的是,在上述的实施例中,描述了以可导的从多维包围盒到热点图的包围盒编码方式(即映射管道的作用),该方式适用于基于梯度下降的优化方法,且可以降低判别器的判断难度。在本发明的其他实施例中,也可以不采用映射管道,而由判别器直接判断是真实包围盒还是生成包围盒。
下面结合图4A描述对训练好的生成对抗网络的测试。与训练阶段不同的是,测试阶段不再通过真实分数热点图对生成包围盒进行过滤得到单个生成包围盒,而是通过生成分数热点图对生成包围盒进行过滤,可能会得到多个有效的生成包围盒。如图4A所示,对训练好的生成对抗网络的测试可以包括如下步骤:
首先,使用训练好的生成器的最后两层卷积替代Faster-RCNN中的RPN。接着,准备测试数据。在一个示例中,可以从测试集中抽样图像和与其相对应的真实包围盒形成组合。此外,可以从与训练集相同的预定义均匀分布中抽样多维(例如10维)噪声。
在准备好测试数据后,可以将测试图像与噪声输入生成器,生成器可针对输入的测试图像和噪声生成全部的生成包围盒和生成分数热点图。然后,可以基于生成分数热点图来过滤全部生成包围盒以得到一个或多个生成包围盒。在一个示例中,可以将生成分数热点图按照预定阈值(例如0.8)进行离散化,大于等于阈值的点置1,小于阈值的点置0,得到一张01分数热点图。此外,如果生成分数热点图中没有大于阈值的点,可以取图中数值最大的点置1,其他置0,保证分数热点图非全0。基于经离散化的生成分数热点图,可以对全部生成包围盒进行过滤以得到一个或多个生成包围盒。
进一步地,可以对经上述过滤后得到的生成包围盒进行极大值抑制(Non-maximumSuppresion,NMS)操作,这样可以过滤掉高度重叠的区域提议。然后,可以根据置信度对NMS过滤后的区域提议进行排序选择,得出置信度最高的N个区域提议(如N=128),从而得到区域提议的结果。最后,可以基于上述得到的区域提议的结果对特征图进行ROI池化,经过Faster-RCNN中的分类器得出分类结果(正如图4A所示的),所述分类结果可以包括所述测试图像中所包含的物体的位置和类别信息。
此外,可以根据区域提议和分类结果计算平均精度MAP,可以迭代上述测试步骤多次,取样足够多次(如2000),并计算平均精度评估模型表现。
下面结合图4B描述对训练好的生成对抗网络的应用。在应用阶段,利用训练好的生成对抗网络的生成器对待处理图像进行区域提议以用于基于所述区域提议的结果进行图像探测。如图4B所示的,利用训练好的生成对抗网络对待处理图像进行区域提议可以包括:基于训练好的生成对抗网络的生成器针对输入的待处理图像和噪声(该噪声例如为从预定义均匀分布中抽样的多维噪声)生成全部生成包围盒和生成分数热点图;基于所述生成分数热点图对所述全部生成包围盒进行过滤得到有效生成包围盒。进一步地,可以根据置信度对经所述过滤后得到的区域提议进行排序选择,得到置信度最高的若干个区域提议以作为所述区域提议的结果。
示例性地,所述基于所述生成分数热点图对所述全部生成包围盒进行过滤可以包括:基于预定阈值将所述生成分数热点图进行离散化;以及基于经离散化的生成分数热点图对所述全部生成包围盒进行过滤。在一个示例中,可以将生成分数热点图按照预定阈值(例如0.8)进行离散化,大于等于阈值的点置1,小于阈值的点置0,得到一张01分数热点图。此外,如果生成分数热点图中没有大于阈值的点,可以取图中数值最大的点置1,其他置0,保证分数热点图非全0。基于经离散化的生成分数热点图,可以对全部生成包围盒进行过滤以得到一个或多个生成包围盒。
示例性地,所述利用训练好的生成对抗网络对所述待处理图像进行区域提议还可以包括:在基于所述生成分数热点图对所述全部生成包围盒进行过滤之后,对经过所述过滤得到的生成包围盒进行非极大值抑制操作;并且所述排序选择是根据置信度对经所述非极大值抑制操作过滤后得到的区域提议进行排序选择。例如,可以对经过滤后得到的生成包围盒进行NMS操作,这样可以过滤掉高度重叠的区域提议。然后,可以根据置信度对NMS过滤后的区域提议进行排序选择,得出置信度最高的N个区域提议(如N=128),从而得到区域提议的结果。
基于所述区域提议的结果,可以进行图像探测。具体地,所述图像探测可以包括:基于所述区域提议的结果对特征图进行兴趣区域池化,并通过更快速区域卷积神经网络中的分类器得出分类结果,所述分类结果包括所述待处理图像中所包含的物体的位置和类别信息。
以上示例性地描述了根据本发明实施例的生成对抗网络及其训练、测试和应用。在本发明的实施例中,利用条件生成对抗网络来替代更快速区域卷积神经网络中的区域提议网络进行区域提议与分数图拟合,能够有效解决区域提议模块受图像多峰性质影响的问题。此外,在本发明的实施例中,可以采用可导的从多维包围盒到热点图的包围盒编码方式,该方式适用于基于梯度下降的优化方法,且降低了判别器的判断难度,对区域提议模型表现有较大提升。
基于上面的描述,根据本发明实施例的图像探测方法利用训练好的生成对抗网络替代更快速区域卷积神经网络中的区域提议网络进行区域提议与分数图拟合,能够有效解决区域提议模块受图像多峰性质影响的问题,从而提高图像探测的精度。
以上示例性地描述了根据本发明实施例的图像探测方法。示例性地,根据本发明实施例的图像探测方法可以在具有存储器和处理器的设备、装置或者系统中实现。
此外,根据本发明实施例的图像探测方法可以方便地部署到智能手机、平板电脑、个人计算机等移动设备上。替代地,根据本发明实施例的图像探测方法还可以部署在服务器端(或云端)。替代地,根据本发明实施例的图像探测方法还可以分布地部署在服务器端(或云端)和个人终端处。
下面结合图5描述本发明另一方面提供的图像探测装置。图5示出了根据本发明实施例的图像探测装置500的示意性框图。
如图5所示,根据本发明实施例的图像探测装置500包括获取模块510和探测模块520。所述各个模块可分别执行上文中结合图2描述的图像探测方法的各个步骤/功能。以下仅对图像探测装置500的各模块的主要功能进行描述,而省略以上已经描述过的细节内容。
获取模块510用于获取待处理图像。探测模块520用于利用训练好的生成对抗网络对所述获取模块获取的待处理图像进行区域提议,以用于基于所述区域提议的结果进行图像探测。获取模块510和探测模块520均可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。
在一个示例中,获取模块510获取的待处理图像可以为需要对其进行图像探测的图像。在一个示例中,获取模块510获取的待处理图像可以为实时采集的图像。在另一个示例中,获取模块510获取的待处理图像可以为来自任何源的图像。
在本发明的实施例中,探测模块520利用生成对抗网络实施对图像的区域提议,而非如当前Faster-RCNN框架中的采用RPN网络实施对图像的区域提议。
在本发明的实施例中,探测模块520利用的生成对抗网络可以包括生成器和判别器。此外,探测模块520采用的生成对抗网络还可以包括映射管道。具体地,所述生成器接收图像和噪声,输出生成包围盒和生成分数热点图;所述映射管道将输入的包围盒映射为包围盒热点图;所述判别器判断输入的包围盒热点图是真实包围盒热点图还是生成包围盒热点图。
示例性地,探测模块520利用的所述生成对抗网络的训练可以包括:将样本图像和噪声输入所述生成器;基于与所述样本图像相关联的真实分数热点图以及所述生成器输出的生成分数热点图计算所述生成器的分数损失值;将与所述样本图像相关联的真实包围盒和所述生成器输出的生成包围盒分别输入所述映射管道;将所述样本图像与所述映射管道输出的真实包围盒热点图和生成包围盒热点图分别组合成对输入所述判别器;基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果计算所述判别器的损失值;基于所述判别器输出的针对所述生成包围盒热点图的判别结果计算所述生成器的包围盒损失值;以及最小化所述生成器的分数损失值和所述生成器的包围盒损失值以及所述判别器的损失值。
示例性地,探测模块520利用的所述生成对抗网络的生成器可以包括更快速区域卷积神经网络中的特征提取器和额外两层卷积。
示例性地,探测模块520利用的所述生成对抗网络的映射管道可以通过可导函数将多维包围盒映射为特定尺寸的单通道包围盒热点图。此外,探测模块520利用的所述生成对抗网络在上述训练过程中输入所述映射管道的可以为单个真实包围盒和单个生成包围盒,所述单个生成包围盒是基于利用所述真实分数热点图过滤全部生成包围盒而得到的。
示例性地,探测模块520利用的所述生成对抗网络在上述训练过程中的所述计算所述生成器的分数损失值可以包括:计算所述真实分数热点图与所述生成分数热点图之间的距离,以作为所述生成器的分数损失值。进一步地,所述计算所述真实分数热点图与所述生成分数热点图之间的距离可以包括:计算所述真实分数热点图与所述生成分数热点图之间的欧式距离。
示例性地,探测模块520利用的所述生成对抗网络在上述训练过程中的所述计算所述判别器的损失值可以包括:基于所述判别器输出的针对所述真实包围盒热点图的判别结果与预定义的全1向量计算第一交叉熵;基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全0向量计算第二交叉熵;以及计算所述第一交叉熵和所述第二交叉熵的平均值,以作为所述判别器的损失值。
示例性地,探测模块520利用的所述生成对抗网络在上述训练过程中的所述计算所述生成器的包围盒损失值可以包括:基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全1向量计算第三交叉熵,以作为所述生成器的包围盒损失值。
示例性地,探测模块520利用的所述生成对抗网络在上述训练过程中的所述生成器的分数损失值、所述生成器的包围盒损失值以及所述判别器的损失值的最小化是基于梯度下降的Adam最优化算法。
示例性地,探测模块520利用的所述生成对抗网络的训练还可以包括:在所述生成对抗网络的训练的迭代过程中调整学习率,直到所述生成器的分数损失值、所述生成器的包围盒损失值以及所述判别器的损失值收敛。
示例性地,探测模块520利用训练好的生成对抗网络对待处理图像进行区域提议可以包括:基于所述训练好的生成对抗网络的生成器针对输入的所述待处理图像和噪声生成全部生成包围盒和生成分数热点图;基于所述生成分数热点图对所述全部生成包围盒进行过滤;以及根据置信度对经所述过滤后得到的区域提议进行排序选择,得到置信度最高的若干个区域提议以作为所述区域提议的结果。
示例性地,探测模块520利用训练好的生成对抗网络对待处理图像进行区域提议中的所述基于所述生成分数热点图对所述全部生成包围盒进行过滤可以包括:基于预定阈值将所述生成分数热点图进行离散化;以及基于经离散化的生成分数热点图对所述全部生成包围盒进行过滤。
示例性地,探测模块520利用训练好的生成对抗网络对待处理图像进行区域提议还可以包括:在基于所述生成分数热点图对所述全部生成包围盒进行过滤之后,对经过所述过滤得到的生成包围盒进行非极大值抑制操作;并且所述排序选择是根据置信度对经所述非极大值抑制操作过滤后得到的区域提议进行排序选择。
示例性地,探测模块520可实施的图像探测可以包括:基于所述区域提议的结果对特征图进行兴趣区域池化,并通过更快速区域卷积神经网络中的分类器得出分类结果,所述分类结果包括所述待处理图像中所包含的物体的位置和类别信息。
本领域技术人员可以参照图3A到图4B结合上文关于图3A到图4B的描述理解探测模块520利用的对抗生成网络的结构以其训练、测试和应用,为了简洁,此处不再赘述。
基于上面的描述,根据本发明实施例的图像探测装置利用训练好的生成对抗网络替代更快速区域卷积神经网络中的区域提议网络进行区域提议与分数图拟合,能够有效解决区域提议模块受图像多峰性质影响的问题,从而提高图像探测的精度。
图6示出了根据本发明实施例的图像探测系统600的示意性框图。图像探测系统600包括存储装置610以及处理器620。
其中,存储装置610存储用于实现根据本发明实施例的图像探测方法中的相应步骤的程序代码。处理器620用于运行存储装置610中存储的程序代码,以执行根据本发明实施例的图像探测方法的相应步骤,并且用于实现根据本发明实施例的图像探测装置中的相应模块。此外,图像探测系统600还可以包括图像采集装置(未在图6中示出),其可以用于采集待处理图像。当然,图像采集装置不是必需的,可直接接收来自其他源的待处理图像的输入。
在一个实施例中,在所述程序代码被处理器620运行时使得图像探测系统600执行以下步骤:获取待处理图像;以及利用训练好的生成对抗网络对所述待处理图像进行区域提议,以用于基于所述区域提议的结果进行图像探测。
在一个实施例中,所述生成对抗网络包括生成器、映射管道和判别器,其中:所述生成器接收图像和噪声,输出生成包围盒和生成分数热点图;所述映射管道将输入的包围盒映射为包围盒热点图;以及所述判别器判断输入的包围盒热点图是真实包围盒热点图还是生成包围盒热点图。
在一个实施例中,所述生成对抗网络的训练包括:将样本图像和噪声输入所述生成器;基于与所述样本图像相关联的真实分数热点图以及所述生成器输出的生成分数热点图计算所述生成器的分数损失值;将与所述样本图像相关联的真实包围盒和所述生成器输出的生成包围盒分别输入所述映射管道;将所述样本图像与所述映射管道输出的真实包围盒热点图和生成包围盒热点图分别组合成对输入所述判别器;基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果计算所述判别器的损失值;基于所述判别器输出的针对所述生成包围盒热点图的判别结果计算所述生成器的包围盒损失值;以及最小化所述生成器的分数损失值和所述生成器的包围盒损失值以及所述判别器的损失值。
在一个实施例中,所述计算所述生成器的分数损失值包括:计算所述真实分数热点图与所述生成分数热点图之间的距离,以作为所述生成器的分数损失值。
在一个实施例中,所述计算所述真实分数热点图与所述生成分数热点图之间的距离包括:计算所述真实分数热点图与所述生成分数热点图之间的欧式距离。
在一个实施例中,输入所述映射管道的为单个真实包围盒和单个生成包围盒,所述单个生成包围盒是基于利用所述真实分数热点图过滤全部生成包围盒而得到的。
在一个实施例中,所述计算所述判别器的损失值包括:基于所述判别器输出的针对所述真实包围盒热点图的判别结果与预定义的全1向量计算第一交叉熵;基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全0向量计算第二交叉熵;以及计算所述第一交叉熵和所述第二交叉熵的平均值,以作为所述判别器的损失值。
在一个实施例中,所述计算所述生成器的包围盒损失值包括:基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全1向量计算第三交叉熵,以作为所述生成器的包围盒损失值。
在一个实施例中,所述生成器的分数损失值、所述生成器的包围盒损失值以及所述判别器的损失值的最小化是基于梯度下降的Adam最优化算法。
在一个实施例中,所述生成对抗网络的训练还包括:在所述生成对抗网络的训练的迭代过程中调整学习率,直到所述生成器的分数损失值、所述生成器的包围盒损失值以及所述判别器的损失值收敛。
在一个实施例中,所述映射管道通过可导函数将多维包围盒映射为特定尺寸的单通道包围盒热点图。
在一个实施例中,所述利用训练好的生成对抗网络对所述待处理图像进行区域提议包括:基于所述训练好的生成对抗网络的生成器针对输入的所述待处理图像和噪声生成全部生成包围盒和生成分数热点图;基于所述生成分数热点图对所述全部生成包围盒进行过滤;以及根据置信度对经所述过滤后得到的区域提议进行排序选择,得到置信度最高的若干个区域提议以作为所述区域提议的结果。
在一个实施例中,所述基于所述生成分数热点图对所述全部生成包围盒进行过滤包括:基于预定阈值将所述生成分数热点图进行离散化;以及基于经离散化的生成分数热点图对所述全部生成包围盒进行过滤。
在一个实施例中,所述利用训练好的生成对抗网络对所述待处理图像进行区域提议还包括:在基于所述生成分数热点图对所述全部生成包围盒进行过滤之后,对经过所述过滤得到的生成包围盒进行非极大值抑制操作;并且所述排序选择是根据置信度对经所述非极大值抑制操作过滤后得到的区域提议进行排序选择。
在一个实施例中,所述图像探测包括:基于所述区域提议的结果对特征图进行兴趣区域池化,并通过更快速区域卷积神经网络中的分类器得出分类结果,所述分类结果包括所述待处理图像中所包含的物体的位置和类别信息。
在一个实施例中,所述噪声为从预定义均匀分布中抽样的多维噪声。
此外,根据本发明实施例,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的图像探测方法的相应步骤,并且用于实现根据本发明实施例的图像探测装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合,例如一个计算机可读存储介质包含获取待处理图像的计算机可读的程序代码,另一个计算机可读存储介质包含利用训练好的生成对抗网络对所述待处理图像进行区域提议以用于基于所述区域提议的结果进行图像探测的计算机可读的程序代码。
在一个实施例中,所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的图像探测装置的各个功能模块,并且/或者可以执行根据本发明实施例的图像探测方法。
在一个实施例中,所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤:获取待处理图像;以及利用训练好的生成对抗网络对所述待处理图像进行区域提议,以用于基于所述区域提议的结果进行图像探测。
在一个实施例中,所述生成对抗网络包括生成器、映射管道和判别器,其中:所述生成器接收图像和噪声,输出生成包围盒和生成分数热点图;所述映射管道将输入的包围盒映射为包围盒热点图;以及所述判别器判断输入的包围盒热点图是真实包围盒热点图还是生成包围盒热点图。
在一个实施例中,所述生成对抗网络的训练包括:将样本图像和噪声输入所述生成器;基于与所述样本图像相关联的真实分数热点图以及所述生成器输出的生成分数热点图计算所述生成器的分数损失值;将与所述样本图像相关联的真实包围盒和所述生成器输出的生成包围盒分别输入所述映射管道;将所述样本图像与所述映射管道输出的真实包围盒热点图和生成包围盒热点图分别组合成对输入所述判别器;基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果计算所述判别器的损失值;基于所述判别器输出的针对所述生成包围盒热点图的判别结果计算所述生成器的包围盒损失值;以及最小化所述生成器的分数损失值和所述生成器的包围盒损失值以及所述判别器的损失值。
在一个实施例中,所述计算所述生成器的分数损失值包括:计算所述真实分数热点图与所述生成分数热点图之间的距离,以作为所述生成器的分数损失值。
在一个实施例中,所述计算所述真实分数热点图与所述生成分数热点图之间的距离包括:计算所述真实分数热点图与所述生成分数热点图之间的欧式距离。
在一个实施例中,输入所述映射管道的为单个真实包围盒和单个生成包围盒,所述单个生成包围盒是基于利用所述真实分数热点图过滤全部生成包围盒而得到的。
在一个实施例中,所述计算所述判别器的损失值包括:基于所述判别器输出的针对所述真实包围盒热点图的判别结果与预定义的全1向量计算第一交叉熵;基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全0向量计算第二交叉熵;以及计算所述第一交叉熵和所述第二交叉熵的平均值,以作为所述判别器的损失值。
在一个实施例中,所述计算所述生成器的包围盒损失值包括:基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全1向量计算第三交叉熵,以作为所述生成器的包围盒损失值。
在一个实施例中,所述生成器的分数损失值、所述生成器的包围盒损失值以及所述判别器的损失值的最小化是基于梯度下降的Adam最优化算法。
在一个实施例中,所述生成对抗网络的训练还包括:在所述生成对抗网络的训练的迭代过程中调整学习率,直到所述生成器的分数损失值、所述生成器的包围盒损失值以及所述判别器的损失值收敛。
在一个实施例中,所述映射管道通过可导函数将多维包围盒映射为特定尺寸的单通道包围盒热点图。
在一个实施例中,所述利用训练好的生成对抗网络对所述待处理图像进行区域提议包括:基于所述训练好的生成对抗网络的生成器针对输入的所述待处理图像和噪声生成全部生成包围盒和生成分数热点图;基于所述生成分数热点图对所述全部生成包围盒进行过滤;以及根据置信度对经所述过滤后得到的区域提议进行排序选择,得到置信度最高的若干个区域提议以作为所述区域提议的结果。
在一个实施例中,所述基于所述生成分数热点图对所述全部生成包围盒进行过滤包括:基于预定阈值将所述生成分数热点图进行离散化;以及基于经离散化的生成分数热点图对所述全部生成包围盒进行过滤。
在一个实施例中,所述利用训练好的生成对抗网络对所述待处理图像进行区域提议还包括:在基于所述生成分数热点图对所述全部生成包围盒进行过滤之后,对经过所述过滤得到的生成包围盒进行非极大值抑制操作;并且所述排序选择是根据置信度对经所述非极大值抑制操作过滤后得到的区域提议进行排序选择。
在一个实施例中,所述图像探测包括:基于所述区域提议的结果对特征图进行兴趣区域池化,并通过更快速区域卷积神经网络中的分类器得出分类结果,所述分类结果包括所述待处理图像中所包含的物体的位置和类别信息。
在一个实施例中,所述噪声为从预定义均匀分布中抽样的多维噪声。
根据本发明实施例的图像探测装置中的各模块可以通过根据本发明实施例的图像探测的电子设备的处理器运行在存储器中存储的计算机程序指令来实现,或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。
根据本发明实施例的图像探测方法、装置、系统以及存储介质利用训练好的生成对抗网络替代更快速区域卷积神经网络中的区域提议网络进行区域提议与分数图拟合,能够有效解决区域提议模块受图像多峰性质影响的问题,从而提高图像探测的精度。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。
Claims (18)
1.一种图像探测方法,其特征在于,所述图像探测方法包括:
获取待处理图像;以及
利用训练好的生成对抗网络对所述待处理图像进行区域提议,以用于基于所述区域提议的结果进行图像探测;
所述生成对抗网络包括生成器、映射管道和判别器,其中:
所述生成器接收图像和噪声,输出生成包围盒和生成分数热点图;
所述映射管道将输入的包围盒映射为包围盒热点图;以及
所述判别器判断输入的包围盒热点图是真实包围盒热点图还是生成包围盒热点图。
2.根据权利要求1所述的图像探测方法,其特征在于,所述生成对抗网络的训练包括:
将样本图像和噪声输入所述生成器;
基于与所述样本图像相关联的真实分数热点图以及所述生成器输出的生成分数热点图计算所述生成器的分数损失值;
将与所述样本图像相关联的真实包围盒和所述生成器输出的生成包围盒分别输入所述映射管道;
将所述样本图像与所述映射管道输出的真实包围盒热点图和生成包围盒热点图分别组合成对输入所述判别器;
基于所述判别器输出的针对所述真实包围盒热点图的判别结果和针对所述生成包围盒热点图的判别结果计算所述判别器的损失值;
基于所述判别器输出的针对所述生成包围盒热点图的判别结果计算所述生成器的包围盒损失值;以及
最小化所述生成器的分数损失值和所述生成器的包围盒损失值以及所述判别器的损失值。
3.根据权利要求2所述的图像探测方法,其特征在于,所述计算所述生成器的分数损失值包括:
计算所述真实分数热点图与所述生成分数热点图之间的距离,以作为所述生成器的分数损失值。
4.根据权利要求3所述的图像探测方法,其特征在于,所述计算所述真实分数热点图与所述生成分数热点图之间的距离包括:
计算所述真实分数热点图与所述生成分数热点图之间的欧式距离。
5.根据权利要求2所述的图像探测方法,其特征在于,输入所述映射管道的为单个真实包围盒和单个生成包围盒,所述单个生成包围盒是基于利用所述真实分数热点图过滤全部生成包围盒而得到的。
6.根据权利要求2所述的图像探测方法,其特征在于,所述计算所述判别器的损失值包括:
基于所述判别器输出的针对所述真实包围盒热点图的判别结果与预定义的全1向量计算第一交叉熵;
基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全0向量计算第二交叉熵;以及
计算所述第一交叉熵和所述第二交叉熵的平均值,以作为所述判别器的损失值。
7.根据权利要求2所述的图像探测方法,其特征在于,所述计算所述生成器的包围盒损失值包括:
基于所述判别器输出的针对所述生成包围盒热点图的判别结果与预定义的全1向量计算第三交叉熵,以作为所述生成器的包围盒损失值。
8.根据权利要求2所述的图像探测方法,其特征在于,所述生成器的分数损失值、所述生成器的包围盒损失值以及所述判别器的损失值的最小化是基于梯度下降的Adam最优化算法。
9.根据权利要求2-8中的任一项所述的图像探测方法,其特征在于,所述生成对抗网络的训练还包括:
在所述生成对抗网络的训练的迭代过程中调整学习率,直到所述生成器的分数损失值、所述生成器的包围盒损失值以及所述判别器的损失值收敛。
10.根据权利要求1或2所述的图像探测方法,其特征在于,所述映射管道通过可导函数将多维包围盒映射为特定尺寸的单通道包围盒热点图。
11.根据权利要求1所述的图像探测方法,其特征在于,所述利用训练好的生成对抗网络对所述待处理图像进行区域提议包括:
基于所述训练好的生成对抗网络的生成器针对输入的所述待处理图像和噪声生成全部生成包围盒和生成分数热点图;
基于所述生成分数热点图对所述全部生成包围盒进行过滤;以及
根据置信度对经所述过滤后得到的区域提议进行排序选择,得到置信度最高的若干个区域提议以作为所述区域提议的结果。
12.根据权利要求11所述的图像探测方法,其特征在于,所述基于所述生成分数热点图对所述全部生成包围盒进行过滤包括:
基于预定阈值将所述生成分数热点图进行离散化;以及
基于经离散化的生成分数热点图对所述全部生成包围盒进行过滤。
13.根据权利要求11或12所述的图像探测方法,其特征在于,所述利用训练好的生成对抗网络对所述待处理图像进行区域提议还包括:
在基于所述生成分数热点图对所述全部生成包围盒进行过滤之后,对经过所述过滤得到的生成包围盒进行非极大值抑制操作;并且
所述排序选择是根据置信度对经所述非极大值抑制操作过滤后得到的区域提议进行排序选择。
14.根据权利要求13所述的图像探测方法,其特征在于,所述图像探测包括:
基于所述区域提议的结果对特征图进行兴趣区域池化,并通过更快速区域卷积神经网络中的分类器得出分类结果,所述分类结果包括所述待处理图像中所包含的物体的位置和类别信息。
15.根据权利要求2或11所述的图像探测方法,其特征在于,所述噪声为从预定义均匀分布中抽样的多维噪声。
16.一种用于实现权利要求1-15中的任一项所述的图像探测方法的图像探测装置,其特征在于,所述图像探测装置包括:
获取模块,用于获取待处理图像;以及
探测模块,用于利用训练好的生成对抗网络对所述获取模块获取的待处理图像进行区域提议,以用于基于所述区域提议的结果进行图像探测。
17.一种图像探测系统,其特征在于,所述图像探测系统包括存储装置和处理器,所述存储装置上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时执行如权利要求1-15中的任一项所述的图像探测方法。
18.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序在运行时执行如权利要求1-15中的任一项所述的图像探测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711239598.XA CN108876759B (zh) | 2017-11-30 | 2017-11-30 | 图像探测方法、装置、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711239598.XA CN108876759B (zh) | 2017-11-30 | 2017-11-30 | 图像探测方法、装置、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108876759A CN108876759A (zh) | 2018-11-23 |
CN108876759B true CN108876759B (zh) | 2021-01-26 |
Family
ID=64325534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711239598.XA Active CN108876759B (zh) | 2017-11-30 | 2017-11-30 | 图像探测方法、装置、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108876759B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934165A (zh) * | 2019-03-12 | 2019-06-25 | 南方科技大学 | 一种关节点检测方法、装置、存储介质及电子设备 |
CN110070124A (zh) * | 2019-04-15 | 2019-07-30 | 广州小鹏汽车科技有限公司 | 一种基于生成式对抗网络的图像扩增方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9740956B2 (en) * | 2015-06-29 | 2017-08-22 | Beihang University | Method for object segmentation in videos tagged with semantic labels |
CN107145908A (zh) * | 2017-05-08 | 2017-09-08 | 江南大学 | 一种基于r‑fcn的小目标检测方法 |
CN107194418A (zh) * | 2017-05-10 | 2017-09-22 | 中国科学院合肥物质科学研究院 | 一种基于对抗特征学习的水稻蚜虫检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965719B2 (en) * | 2015-11-04 | 2018-05-08 | Nec Corporation | Subcategory-aware convolutional neural networks for object detection |
-
2017
- 2017-11-30 CN CN201711239598.XA patent/CN108876759B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9740956B2 (en) * | 2015-06-29 | 2017-08-22 | Beihang University | Method for object segmentation in videos tagged with semantic labels |
CN107145908A (zh) * | 2017-05-08 | 2017-09-08 | 江南大学 | 一种基于r‑fcn的小目标检测方法 |
CN107194418A (zh) * | 2017-05-10 | 2017-09-22 | 中国科学院合肥物质科学研究院 | 一种基于对抗特征学习的水稻蚜虫检测方法 |
Non-Patent Citations (3)
Title |
---|
Learning Deep Features for Discriminative Localization;Bolei et al;《2016 IEEE Conference on Computer Vision and Pattern Recognition》;20161231;全文 * |
Object Discovery By Generative Adversarial & Ranking Networks;Ali et al;《arXiv:1711.08174v1》;20171122;第1-7节和图2 * |
Perceptual Generative Adversarial Networks for Small Object Detection;Jianan et al;《arXiv:1706.05274v2》;20170620;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108876759A (zh) | 2018-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875732B (zh) | 模型训练与实例分割方法、装置和系统及存储介质 | |
CN108875523B (zh) | 人体关节点检测方法、装置、系统和存储介质 | |
CN109255352B (zh) | 目标检测方法、装置及系统 | |
CN106650662B (zh) | 目标对象遮挡检测方法及装置 | |
CN108710847B (zh) | 场景识别方法、装置及电子设备 | |
CN108256404B (zh) | 行人检测方法和装置 | |
CN109815770B (zh) | 二维码检测方法、装置及系统 | |
CN108876847B (zh) | 图像定位方法、装置、系统和存储介质 | |
CN109815843B (zh) | 图像处理方法及相关产品 | |
CN108875481B (zh) | 用于行人检测的方法、装置、系统及存储介质 | |
CN106846362B (zh) | 一种目标检测跟踪方法和装置 | |
CN106845352B (zh) | 行人检测方法和装置 | |
CN108875492B (zh) | 人脸检测及关键点定位方法、装置、系统和存储介质 | |
CN106203425B (zh) | 字符识别方法及装置 | |
EP3204888A1 (en) | Spatial pyramid pooling networks for image processing | |
JPWO2019026104A1 (ja) | 情報処理装置、情報処理プログラム及び情報処理方法 | |
CN105243395A (zh) | 一种人体图像比对方法和装置 | |
CN111652054A (zh) | 关节点检测方法、姿态识别方法及装置 | |
CN113781164B (zh) | 虚拟试衣模型训练方法、虚拟试衣方法和相关装置 | |
CN108876759B (zh) | 图像探测方法、装置、系统和存储介质 | |
JP2019117556A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2019016268A (ja) | 画像処理装置、画像処理方法、及び画像処理プログラム | |
CN110490058B (zh) | 行人检测模型的训练方法、装置、系统和计算机可读介质 | |
CN108876853B (zh) | 图像定位方法、装置、系统和存储介质 | |
KR101743169B1 (ko) | 얼굴 정보를 이용한 실종 가족 찾기 시스템 및 방법 그리고 이를 구현하는 프로그램을 기록한 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Image detection methods, devices, systems, and storage media Effective date of registration: 20230404 Granted publication date: 20210126 Pledgee: Shanghai Yunxin Venture Capital Co.,Ltd. Pledgor: BEIJING KUANGSHI TECHNOLOGY Co.,Ltd. Registration number: Y2023990000193 |