CN110598785A

CN110598785A - 一种训练样本图像的生成方法及装置

Info

Publication number: CN110598785A
Application number: CN201910857892.XA
Authority: CN
Inventors: 罗栋豪; 王亚彪; 崔志鹏; 汪铖杰; 李季檩; 黄飞跃; 吴永坚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2019-12-20
Anticipated expiration: 2039-09-11
Also published as: CN110598785B

Abstract

本申请提供一种训练样本图像的生成方法及装置，涉及人工智能技术领域。该方法包括：获取包括至少一个目标对象的原始图像；分别针对每个目标对象调整原始图像的尺寸以获得各个目标对象的调整图像；其中，每个目标对象的调整图像中该目标对象的尺寸被调整到目标检测器关联的锚框可检测到的目标尺寸范围内；基于各个目标对象对应的调整图像，获得训练样本图像，训练样本图像中包括至少一个目标对象，且训练样本图像中的目标对象尺寸与调整图像中对应的目标对象尺寸一致，该方法通过将原始图像中的目标对象的尺寸调整到目标检测器关联的锚框可检测到的目标尺寸范围内，使得生成的样本与目标检测器相适配，提供一种适用于目标检测器的样本生成方法。

Description

一种训练样本图像的生成方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种训练样本图像的生成方法及装置。

背景技术

目标检测属于计算机视觉(Computer Vision)中的一部分，目标检测一般是利用目标检测器中的锚框标识检测出的图像中的目标对象。目标检测器的训练需要大量的样本，目前亟需一种适用于目标检测器的训练样本图像生成方式。

发明内容

本申请实施例提供一种训练样本图像的生成方法及装置，用于生成适用于目标检测器的训练样本图像。

第一方面，提供一种训练样本图像的生成方法，包括：

获取包括至少一个目标对象的原始图像；

分别针对每个目标对象调整所述原始图像的尺寸以获得各个目标对象的调整图像；其中，每个目标对象的调整图像中该目标对象的尺寸被调整到目标检测器关联的锚框可检测到的目标尺寸范围内；

基于各个目标对象对应的调整图像，获得训练样本图像；其中，训练样本图像中包括至少一个目标对象，且训练样本图像中的目标对象尺寸与调整图像中对应的目标对象尺寸一致。

第二方面，提供一种训练样本图像的生成装置，包括：

获取模块，用于获取包括至少一个目标对象的原始图像；

调整模块，用于分别针对每个目标对象调整所述原始图像的尺寸以获得各个目标对象的调整图像；其中，每个目标对象的调整图像中该目标对象的尺寸被调整到目标检测器关联的锚框可检测到的目标尺寸范围内，以及基于各个目标对象对应的调整图像，获得训练样本图像；其中，训练样本图像中包括至少一个目标对象，且训练样本图像中的目标对象尺寸与调整图像中对应的目标对象尺寸一致。

在一种可能的实施方式中，调整模块具体用于：

针对当前目标对象，获取目标检测器关联的所有锚框中每个锚框的可检测到的目标尺寸范围；

从所述目标检测器关联的所有锚框中，确定所述当前目标对象对应的锚框；

调整所述原始图像，直到将所述当前目标对象的尺寸调整到确定出的与该目标对应的锚框的可检测到的目标尺寸范围内，获得当前目标对象的调整图像。

在一种可能的实施方式中，调整模块具体用于：

获取所有锚框中每个锚框对应所需的训练样本图像数量占比；其中，所述目标检测器关联的所有锚框中锚框的尺寸越小，该锚框对应的训练样本图像数量占比越大；

从所述目标检测器关联的所有锚框中，根据获取的训练样本数量占比，确定所述当前目标对象对应的锚框。

在一种可能的实施方式中，获得模块具体用于：

确定所述各个目标对象的调整图像中每个调整图像关联的适应调整尺寸；

按照确定出的所述各个目标对象的调整图像中每个调整图像关联的适应调整尺寸，对该调整图像进行裁剪或填充处理，获得各个调整图像对应的适应图像；

对所述各个适应图像进行拼接处理，获得训练样本图像。

在一种可能的实施方式中，获得模块具体用于：

确定所述各个适应图像中每个适应图像对应的目标对象的分类；

对目标对象的分类不相同的适应图像进行拼接处理，获得训练样本图像。

在一种可能的实施方式中，获得模块具体用于：

对所述各个适应图像中部分适应图像进行旋转处理；

对旋转处理后的部分适应图像，以及各个适应图像中除了所述部分适应图像之外的适应图像进行拼接处理，获得训练样本图像。

在一种可能的实施方式中，获得模块具体用于：

对所述至少一个调整图像中每个调整图像进行裁剪或填充处理，获得训练样本图像。

在一种可能的实施方式中，生成装置还包括生成模块和写入模块其中：

所述生成模块，用于生成训练样本图像的索引；

所述写入模块，用于将生成的索引写入区块链中。

第三方面，提供一种计算机设备，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令，执行如第一方面及可能的实施方式中任一项所述的方法。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面及可能的实施方式中任一项所述的方法。

由于本申请实施例采用上述技术方案，至少具有如下技术效果：

本申请实施例中，由于分别针对原始图像中各个目标对象，调整原始图像的尺寸，将目标对象的尺寸调整到目标检测器关联的锚框可检测到的目标尺寸范围内，使得生成的训练样本图像适用于目标检测器，提供一种适用于目标检测器的训练样本图像的生成方法。且，由于可以针对原始图像中不同的目标对象进行分别调整，因此可以生成更多的训练样本图像，且丰富了各种类别的目标对象的训练样本图像，大量的样本有利于后期训练出更加准确及泛化性更好的目标检测器，也避免了过少的训练样本图像，导致目标检测器过拟合的情况。

附图说明

图1为本申请实施例提供的一种锚框的示意图；

图2为本申请实施例提供的一种训练样本图像的生成方法的应用场景示意图；

图3为本申请实施例提供的一种训练样本图像的生成方法的流程示意图；

图4为本申请实施例提供的一种原始图像的示意图；

图5为本申请实施例提供的一种生成调整图像的示意图；

图6为本申请实施例提供的一种裁剪调整图像生成训练样本图像的示意图；

图7为本申请实施例提供的一种填充调整图像生成训练样本图像的示意图；

图8为本申请实施例提供的一种裁剪及填充调整图像生成训练样本图像的示意图；

图9为本申请实施例提供的一种获得训练样本的方法的流程示意图；

图10为本申请实施例提供的一种对适应图像进行拼接生成训练样本图像的示意图；

图11为本申请实施例提供的一种对适应图像进行拼接生成训练样本图像的示意图；

图12为本申请实施例提供的一种对适应图像旋转再拼接生成训练样本图像的示意图；

图13为本申请实施例提供的一种训练样本的生成装置的结构示意图；

图14为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

人工智能(Artificial Intelligence，AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

目标检测(target detection)，是CV中的重要部分，通常是利用目标检测器检测出图像中的目标对象的位置，也可以检测出目标对象的类别等。目标检测器可以通过神经网络模型实现。目标检测的方法可以分为一阶段方法和两阶段方法。一阶段经典方法比如一次目标检测(You Only Look Once，YOLO)和单次检测器(Single Shot Detector，SSD)。YOLO是指图像经过一次目标检测器之后，就能检测出图像中的所有目标对象。SSD是指拍摄一次图像之后，就能检测出该图像中的各种目标对象。

目标检测器，本申请中的目标检测器泛指用于检测目标的目标检测器，目标检测器可以应用于多种场景，例如用于识别人脸、识别手势等，具体例如监控安防场景识别人脸、社交场景下识别人脸、支付场景下识别人脸、以及显示控制场景下识别手势等，本申请不限制目标检测器的具体使用场景。

训练样本图像，是指用于训练神经网络模型所需的样本图像，本申请中是指训练目标检测器所需的样本图像。

特征层(feature map)，目标检测器中每层网络处理之后形成的特征层。

感受野，feature map上每个位置的元素所接受的信息对应到原图上的范围。

样本真实值(ground truth)，在原图中标注出来的目标对象的真实位置，以及真实类别。

交并比(inter over union，IoU)，是指两个框内的像素点的交集面积除以两个框内的像素点的并集面积。

锚框(anchor)，预先在目标检测器中定义好大小的参考框。目标检测器可以预设置一个或多个锚框，每个锚框的尺寸通常是固定的。在目标检测器检测到对应目标时，会利用锚框标识出对应的目标对象的位置。当目标检测器包括多个锚框时，每个锚框的尺寸是不相同的。锚框的形状可以是任意的，一般锚框是矩形的。例如，请参照图1，图1表示锚框的一种结构示意图，anchor是在图片上设定的一系列固定位置、固定尺寸的矩形参考框，目标检测的模型在训练过程中学习anchor和ground truth的偏移，而在预测过程中通过anchor和偏移来确定目标的位置。anchor是设置在feature map上每一个单元(cell)上的，通过feature map对应到原图片中的位置。为了使得检测器对于大目标和小目标均有检出能力，一阶段方法一般会在不同大小的feature map上设置大小不同的anchor。一般而言，较大的feature map对应的每个cell的感受野较小，适合设置尺寸较小的anchor，由于featuremap本身较大，因此尺寸小的anchor数量较多。较小的feature map上每个cell的感受野较大，适合设置尺寸较大的anchor，由于feature map本身较小，因此尺寸大的anchor数量较少。

锚框可检测到的目标尺寸范围，是指目标检测器利用该锚框可以标注出的目标对象的尺寸范围。锚框可以对应标注比锚框的自身尺寸大一些、比自身尺寸小一些或者与自身尺寸相同的目标对象。例如锚框的尺寸为32*32像素点，该锚框可检测到的目标尺寸范围为12*12～48*48。

下面对本申请实施例的设计思想进行介绍。

目前，生成训练样本图像的方式一般是对原始图像进行裁剪、旋转等，生成新的训练样本图像。但是本申请发明人发现训练目标检测器时，正样本通常是需要包含至少一个待检测的目标对象，但是本申请发明人发现现有的这种方式往往是随意地对图像进行处理，在处理过程中可能会导致原始图像中的目标全部或部分被裁剪掉等，导致最后生成的训练样本图像实际上可能并不包含完整的目标对象，甚至可能不包括目标对象。本申请发明人进一步发现目标检测器所需的训练样本图像要求图像中包括至少一个目标对象，且如果该目标对象不属于目标检测器的锚框可检测到的目标尺寸范围，目标检测器可能无法识别该目标，使得这样的训练样本图像实际上不可用。

鉴于此，本申请发明人设计一种训练样本图像的生成方案，本申请发明人考虑可以根据目标检测器对应的锚框的锚框可检测到的目标尺寸范围来调整原始图像中的目标对象的尺寸，获得调整图像，再根据调整图像，生成训练样本图像，从而使得该目标对象的尺寸能够被调整到目标检测器的锚框可检测到的目标尺寸范围内。本申请实施例中因为目标对象的尺寸是在目标检测器的锚框可检测到的目标尺寸范围，使得训练样本图像在后期用于目标检测器的时候，能够被目标检测器识别到，也就是说，生成的训练样本图像适配于目标检测器，提供一种能够适用于目标检测器的训练样本图像的生成方法。

目标检测器可以包括多个锚框，不同的锚框的尺寸不同。训练样本图像中可能包括一个或多个目标对象，本申请发明人进一步考虑，当训练样本图像中包括多个目标对象时，在训练目标检测器时，实际上需要多种不同尺寸的目标对象以满足不同的尺寸的锚框的训练过程。如果将训练样本中每个目标对象都调整成一个锚框可检测到的目标尺寸范围，这样的调整方式简单，但是显然是不利于目标检测器的训练过程。因此，本申请发明人考虑可以将不同的目标对象对应着不同的锚框的尺寸进行调整，这样一来，可以使得不同的锚框都能对应相应的训练样本图像中的目标对象，且由于针对不同目标可以参考不同的锚框的尺寸进行调整，因此可以获得更加丰富的训练样本图像，可以提高后期训练得到的目标检测器的检测准确性及泛化性。

本申请发明人进一步考虑，在实际训练目标检测器的过程中，实际上较为缺乏的是包括小目标对象的训练样本图像，因此，本申请发明人考虑可以根据各种样本需求比例，来确定各个目标对象对应的锚框，参考确定出的锚框的尺寸调整原始图像中的目标对象的尺寸，例如可以为小尺寸的锚框生成更多的训练样本图像，以便于满足目标检测器中小尺寸的锚框的检测需要，提高目标检测器识别小目标对象的能力。

在训练目标检测器时，目标检测器的输入尺寸通常都是标准尺寸，标准尺寸可以理解为是固定的一个尺寸，因此，本申请发明人考虑可以在根据锚框的尺寸调整目标对象的尺寸之后，在保持该目标对象的尺寸不变的情况下，可以对包括该目标对象的调整图像进行裁剪或填充，获得各个调整图像对应的标准尺寸的训练样本图像。

本申请发明人进一步考虑，如果仅对各个调整图像进行填充或者裁剪处理，比如某个目标对象的尺寸较小，那么可能会存在将某个目标对象的图像可能需要填充较大面积，可能会导致生成的训练样本图像包含较多的填充区域，这样一来，可能会导致利用训练样本图像训练目标检测器的效果较差。因此，本申请发明人考虑可以对获得的调整图像进行拼接处理，以增加训练样本图像中的有效面积，提高训练样本图像的可用性，且同时能够生成更多的训练样本图像。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例中的一种训练样本图像的生成方法的应用场景进行说明。该方法由训练样本图像的生成装置执行，为例简化描述，下文中可以将训练样本图像的生成装置简称为生成装置，也就是说，训练样本图像的生成装置和生成装置是等同概念。该生成装置可以通过具有处理能力的设备实现，具有处理能力的设备例如终端设备或服务器等。

请参照图2，该应用场景包括多个生成装置200，多个生成装置200构成图像共享系统210，多个生成装置200之间可以通过通信网络进行训练样本图像共享。多个生成装置200中的任意一个生成装置200相当于区块链中的一个节点。多个生成装置200中任意一个生成装置在生成训练样本图像之后，可以将训练样本图像写入区块链中，图像共享系统210中其它生成装置200可以根据共识算法同步该训练样本图像，从而实现多个生成装置200中每个生成装置200的训练样本图像的共享。

对于每个生成装置200，均具有与其对应的节点标识，而且每个生成装置200均可以存储有图像共享系统中其他节点的节点标识，以便后续根据其他节点的节点标识，将生成的区块广播至图像共享系统中的其它生成装置200。每个生成装置200中可维护一个如下表所示的节点标识列表，将生成装置200名称和生成装置200的节点标识对应存储至该节点标识列表中。其中，节点标识可为IP(Internet Protocol，网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息，表1中仅以IP地址为例进行说明。

表1

节点名称	节点标识
		节点1	117.114.151.174
节点2	113.116.189.145
		…	…
节点N	119.123.789.258

在介绍完多个生成装置200之间的共享训练样本图像的机制之后，下面对生成装置200生成训练样本图像的过程进行简要说明。其中，多个生成装置200中每个生成装置200均可以通过下述过程，生成训练样本图像。下面以一个生成装置200生成训练样本图像的过程为例进行说明。

具体的，生成装置200获取包括至少一个目标对象的原始图像，分别针对每个目标对象调整原始图像的尺寸，直到对应的目标对象的尺寸被调整到目标检测器关联的锚框可以检测到的目标尺寸范围内，从而获得各个目标对象对应的调整图像。如果原始图像包括一个目标对象，那么对该原始图像进行调整之后，获得一个调整图像。如果原始图像包括多个目标对象，那么对该原始图像进行调整之后，获得多个调整图像。在保持各个调整图像中对应的目标对象的尺寸不变的情况下，生成装置200根据各个调整图像，生成训练样本图像。

在生成训练样本图像之后，生成装置200可以将该训练样本图像写入区块链中，实现训练样本图像的共享。

应当说明的是，图1为一种训练样本图像的生成方法的应用场景的示意图，实际上不限制训练样本图像的方法的应用场景。

在另一种应用场景中，生成装置200可以通过上述过程获得训练样本图像，后续不进行训练样本图像的共享过程。

基于图1论述的应用场景，下面对生成装置200生成训练样本图像的过程进行详细介绍。请参照图3，为该训练样本图像的生成方法的流程示意图。该方法具体包括：

S310，获取包括至少一个目标对象的原始图像。

具体的，生成装置200可以从网络资源中获取原始图像，网络资源例如现有的一些样本数据的数据库等，也可以是从用户直接获得原始图像。原始图像的具体图像格式和大小，本文不做具体限制。原始图像中至少包括一个目标对象，为了便于后续处理，该原始图像可以包括已标注的目标对象，还可以包括已标注的目标对象的类别。生成装置200也可以是从前文论述的图像共享系统210中获得该原始图像，也可理解为升生成装置200可以将其它生成装置200生成的训练样本图像作为原始图像。

例如，请参照图4，表示一种原始图像的示意图，该原始图像包括两个目标对象，具体为图4中第一目标对象401(如图4中的所示的人)、第二目标对象402(如图4中所示的狗)和第三目标对象(如图4中所示的月亮)，图4中还标注有三个目标对象对应的类别就是“人”、“狗”和“月亮”。

S320，分别针对每个目标对象调整原始图像的尺寸以获得各个目标对象的调整图像。

具体的，生成装置200可以针对原始图像中每个目标对象尺寸进行调整，直到对应的目标对象的尺寸满足目标检测器的锚框的可检测的目标尺寸范围内，获得调整图像。原始图像可能包括一个或多个目标对象，如果原始图像包括一个目标对象，那么对该原始图像中的目标对象进行调整之后，获得一个调整图像，如果原始图像包括多个目标对象，那么对该原始图像中的多个目标对象分别进行调整之后，可以获得多个调整图像。

S330，基于各个目标对象对应的调整图像，获得训练样本图像。

具体的，在保持调整图像中对应目标对象的尺寸不变的情况下，对各个调整图像进行处理，获得训练样本图像。其中，训练样本图像中的目标对象的尺寸和调整图像中对应的目标对象的尺寸一致。

本申请实施例中，由于会将原始图像中目标对象的尺寸调整到目标检测器关联的锚框可检测到的目标尺寸范围内，使得最后生成的训练样本图像中对应的目标对象的尺寸符合锚框的可检测到的目标尺寸范围，从而使得生成的训练样本图像可以满足目标检测器的训练需求，提高训练样本图像的可用性。

在图3论述的实施例的基础上，下面对图3中的实施例中各个步骤的具体实施例进行详细说明。

S320，分别针对每个目标对象调整原始图像的尺寸以获得各个目标对象的调整图像，由于目标检测器可能包括一个尺寸的锚框，也可能包括多个尺寸的锚框，在这两种情况下，生成装置200获得调整图像的方式可能有所区别，下面进行具体说明。

第一种：

当目标检测器包括一个尺寸的锚框时，生成装置200针对至少一个目标对象中每个目标对象，调整原始图像的尺寸，获得各个目标对象的调整图像，每个调整图像对应的目标对象的尺寸均是在目标检测器关联的锚框可检测到的目标尺寸范围内。

具体的，生成装置200可以调整原始图像的尺寸，分别将原始图像中对应的各个目标尺寸调整成该锚框可检测的目标尺寸范围内，获得调整图像。如果原始图像中包括多个目标对象，就可以对原始图像中所有目标进行分别调整之后，就可以获得多个调整图像。

第二种：

当目标检测器包括多个尺寸的锚框时，生成装置200需要确定将各个目标调整成哪一个目标对应的锚框，在确定各个目标对象对应的锚框之后，再将原始图像对应的目标对对象调整成对应的锚框的可检测的目标尺寸范围之内，从而该目标对象对应的调整图像。下面对确定各个目标对象对应的锚框的方式进行示例说明。

方式一：

获取目标检测器关联的所有锚框中每个锚框的可检测到的目标尺寸范围，针对当前目标对象，随机选择与该当前目标对象对应的锚框。

具体的，生成装置200可以通过用户的输入获取目标检测器关联的所有锚框中每个锚框的可检测到的目标尺寸范围，在获得各个锚框的可检测到的目标尺寸范围之后，随机选择与该当前目标匹配的锚框。本申请实施例中随机确定目标对象对应的锚框，简化生成装置200确定目标对象对应的锚框的过程。

其中，本申请中的当前目标对象可以理解为当前待匹配锚框的目标对象，是一个相对概念，可以理解为每一个目标对象在待确定锚框的目标对象的时候，都可以称为当前目标对象，也可以进一步理解，针对每个目标对象，都会执行针对当前目标对象进行处理的过程，

方式二：

针对当前目标对象，获取目标检测器关联的所有锚框中每个锚框的可检测到的目标尺寸范围，以及所有锚框中每个锚框对应所需的训练样本数量占比；从目标检测器关联的所有锚框中，根据获取的训练样本数量占比，确定当前目标对象对应的锚框。

具体的，生成装置200获取目标检测器关联的所有锚框的可检测到的目标尺寸范围，并获取所有锚框中每个锚框对应所需的训练样本图像数量占比，根据该训练样本图像数量占比，生成装置200进行基于训练样本图像数量占比，进行概率选择，确定出当前目标对象对应的锚框。可以理解为训练样本图像数量占比实际上是生成装置200确定当前目标对象对应的锚框的概率参考，也就是说，当大量的当前目标对象对应的锚框的分布概率是各个锚框对应所需的训练样本图像数量占比分布相符合。各个锚框对应所需的训练样本数量占比可以是由用户提前设定的。

在一种可能的实施例中，由于目前包括小目标对象的训练样本图像较少，因此本申请实施例中锚框的尺寸越小，对应的训练样本数量占比越大。由于小尺寸的锚框对的训练样本数量占比更大，因此可以为小尺寸的锚框生成更多的训练样本，满足小尺寸的训练样本图像的需求。

例如，生成装置200获取目标检测器关联的所有锚框的尺寸，各个锚框对应的可检测到的目标尺寸范围，以及各个锚框所需的训练样本图像数量占比具体如下表2所示。

表2

锚框的尺寸	锚框可检测到的目标尺寸范围	训练样本图像数量占比
			32*32	1212～4848	0.25
64*64	4848～9696	0.15
			128*128	9696～288288	0.1

继续以图4为例，生成装置200确定图4中的第一目标对象401对应的锚框的尺寸为32*32，因此可以确定将第一目标对象401的尺寸调整到12*12～48*48。生成装置200确定第二目标对象402对应的锚框的尺寸为64*64，因此可以确定将第一目标对象401的尺寸调整到48*48～96*96。

生成装置200采在确定当前目标对象对应的锚框之后，调整原始图像，直到将当前目标对象的尺寸调整到该锚框的可检测到的目标尺寸范围，从而获得调整图像。由于每个锚框的可检测到的目标尺寸范围涉及多个尺寸，因此在具体对某个当前目标对象的尺寸进行调整时，生成装置200可以任意将当前目标对象的尺寸具体调整为锚框的可检测到的目标尺寸范围内的任意一个尺寸。在对每个目标对象均执行这样的过程之后，可以获得一个或多个调整图像。其中，调整原始图像的尺寸的方式有很多种，下面进行示例说明。

A1：

对原始图像进行等比例缩放，直到当前目标对象的尺寸调整到该锚框可检测到的目标尺寸范围内为止。

具体的，原始图像的尺寸为w_o*h_o(w_o表示长，h_o表示高)，原始图像中的目标对象的尺寸为w_t*h_t，由于前文中确定出的该锚框的可检测到的目标尺寸范围，因此可以随机确定期望调整后的目标对象的中较长边的尺寸为new_size，根据原始图像中的目标对象的尺寸以及期望调整后的目标对象的中较长边的尺寸，确定出原始图像的缩放系数，具体确定出该原始图像的缩放系数为：

对图像进行缩放之后，得到调整图像，调整图像的尺寸具体表示如下：

w_r＝ratio*w_o (2)

h_r＝ratio*h_o (3)

其中，w_r表示调整图像的长，h_r表示调整图像的高。长和高为相对的概念，长和高用于表示图像在两个方向上的尺寸，例如当图像垂直与地面的方向放置时，长可以理解为与地面相平行的一个边的尺寸，高可以理解为与地面相垂直的一个边的尺寸。

例如，请参照图5，原始图像以图5中的a为例，生成装置200确定第一目标对象401对应的锚框的尺寸为32*32，第二目标对象402对应的锚框的尺寸为64*64，因此生成装置200针对第一目标对象401，对图5中a所示的原始图像进行调整，得到如图5中b所示的调整图像。生成装置200针对第二目标对象402，对图5中b所示的原始图像进行调整，得到如图5中c所示的调整图像。

本申请实施例中，对原始图像进行整体放大或缩小，能够不改变原始图像中当前目标对象、其它目标对象以及背景之间的比例关系，以便于后期对原始图像进行处理，由于保留了原始图像中各个部分的比例，便于后期提高目标检测器的检测准确性。

A2：

对原始图像中的当前目标对象进行局部放大或缩小。

具体的，生成装置200可以对当前目标对象进行局部放大或者缩小，这样方便控制目标对象的尺寸。具体对目标对象进行局部放大或者缩小的比例系数可以参照前文中公式(1)的计算方式。

本申请实施例中，由于是对当前目标对象进行局部调整，因此便于控制当前目标对象的尺寸，且在调整当前目标对象的尺寸的同时，还可以改变原始图像中当前目标图像、其它目标对象以及背景之间的比例关系，相当于直接生成了新的训练样本图像。

在一种可能的实施例中，可以针对原始图像中每个目标对象，对原始图像进行预设次数调整，获得针对该目标对象的多个调整图像。

具体的，由于每次确定出的该目标对象对应的锚框的尺寸可能不相同，因此，可以针对该目标对象，执行多次S320的过程，获得该目标对象对应的多个调整图像。

在获得各个目标对象的调整图像之后，执行S330，基于各个目标对象对应的调整图像，获得训练样本图像，训练样本图像中的目标对象的尺寸和调整图像中对应的目标对象的尺寸一致。下面对S330的方式进行示例说明。

获得训练样本图像的第一种方法：

对至少一个调整图像中每个调整图像进行裁剪或填充处理，获得训练样本图像。

具体的，如前文论述的内容，原始图像包括的目标对象可能是一个或多个，因此对应获得的调整图像也可能是一个或多个。生成装置200可以获得目标检测器对应的要求的输入尺寸，也就是相当于目标检测器对应的训练样本图像的标准尺寸。生成装置200根据该标准尺寸，对每个调整图像进行裁剪或填充处理，获得训练样本图像。生成装置200具体对调整图像进行哪种处理，取决于该调整图像相对于标准尺寸的尺寸，下面对不同情况进行具体说明。

B1：调整图像在各个方向上的尺寸均大于标准尺寸对应的各个方向上的尺寸，生成装置200对调整图像进行裁剪处理。

具体的，以调整图像的形状为矩形为例，调整图像的长大于标准尺寸中的长，调整图像的高大于标准尺寸中的高，生成装置200可以对调整图像进行裁剪处理，获得标准尺寸的训练样本图像。在对调整图像进行裁剪处理时，可以对调整图像中除了对应目标对象之外的区域进行裁剪，以保证该对应目标对象的完整性。

例如，请参照图6，为对调整图像进行裁剪的一种过程示意图。调整图像如图6中的a所示。生成装置200确定该调整图像的长和高均大于标准尺寸，图6中b中6000表示标准尺寸对应的边框，因此生成装置200可以根据边框600对调整图像进行裁剪，生成装置200对调整图像进行裁剪之后，生成图6中c所示的训练样本图像。

B2：调整图像在各个方向上的尺寸均小于标准尺寸对应的各个方向上的尺寸，生成装置200对调整图像进行裁剪处理。

具体的，以调整图像的形状为矩形为例，调整图像的长和高均小于标准尺寸，对调整图像进行填充操作，获得标准尺寸的训练样本图像。例如调整图像的长可能小于标准尺寸的长，调整图像的高可能小于标准尺寸的高，生成装置200可以对调整图像进行填充操作。本文所指的填充可以理解为增加图像的面积，以增大图像的尺寸。填充具体可以是对图像进行补黑操作、补白操作等。填充的面积可以根据标准尺寸和调整图像的尺寸确定。

在一种可能的实施例中，对调整图像进行填充时，可以以调整图像为中心，对调整图像的周围进行均匀填充，以保证调整图像中各个目标对象的相对位置保持不变。均匀填充可以理解为对调整图像各个方向上填充的宽度一致。

例如，请参照图7，为对调整图像进行尺寸填充的示意图，调整图像以图7中a为例。生成装置200确定该调整图像的长和高均小于标准尺寸，因此生成装置200对调整图像进行填充，填充之后获得如图7中b所示的训练样本图像。

B3：调整图像在第一方向上的尺寸均小于标准尺寸对应的第一方向上的尺寸，调整图像在第二方向上的尺寸均大于标准尺寸对应的第二方向上的尺寸，生成装置200对调整图像进行裁剪以及填充处理。

具体的，以调整图像的形状为矩形为例，调整图像的长和高其中之一小于标准尺寸，另外一个大于标准尺寸，对较长的一边的调整图像进行裁剪，再对另外一边较短的调整图像进行填充。生成装置200确定调整图像的长小于标准尺寸的长，生成装置200确定调整图像的高大于标准尺寸的高，或者生成装置200确定调整图像的长大于标准尺寸的长，生成装置200确定调整图像的高小于保准尺寸的高，生成装置200对较长的一边进行裁剪，在对较短的一边进行填充，获得训练样本图像。当然，生成装置200也可以先对调整图像进行填充，再对填充后的图像进行裁剪。

例如，请参照图8，图8表示对调整图像进行尺寸填充的示意图，调整图像以图8中a为例。生成装置200确定该调整图像的长大于标准尺寸，调整图像的高小于标准尺寸的高，因此生成装置200先裁剪调整图像中长所对应的那部分，再填充短于标准尺寸的高的那部分，获得如图8中b所示的训练样本图像。

获得训练样本图像的第二种方法：

请参照图9，该方法包括S910，确定各个目标对象的调整图像中每个调整图像关联的适应调整尺寸。

具体的，生成装置200中预存有各个锚框关联的适应调整尺寸，在前文中确定出各个目标对象对应的锚框之后，就能确定各个调整图像对应的适应调整尺寸。

例如一种锚框对应的适应调整尺寸的关系如下表3所示。

表3

锚框的尺寸	锚框可检测到的目标尺寸范围	适应调整尺寸
			128*128	9696～288288	512
64*64	4848～9696	256
			512*512	256256～768768	1024

例如，生成装置200确定调整图像中对应的目标对象对应的锚框的尺寸为128*128，因此生成装置200可以确定该调整图像对应的适应调整尺寸为512。

S920，按照确定出的各个目标对象的调整图像中每个调整图像关联的适应调整尺寸，对该调整图像进行裁剪或填充处理，获得各个调整图像对应的适应图像。

具体的，在S910中确定出各个目标对象的调整图像对应的适应调整尺寸，在确定出调整图像对应的适应调整尺寸之后，对该调整图像进行裁剪或填充处理，获得与适应调整尺寸相匹配的适应图像。具体对调整图层进行裁剪或填充处理的方式可以参照前文B1-B3中论述的方式，此处不再赘述。

S930，对各个适应图像进行拼接处理，获得训练样本图像。

具体的，生成装置200可以对多个适应图像中的部分适应图像进行拼接处理，也可以对适应图像中的全部适应图像进行拼接处理。生成装置200可以获得各个适应图像之后，根据各个适应图像的适应调整尺寸，以及标准尺寸，确定从各个适应图像选择预设数量的适应图像，并对选择出的适应图像进行拼接处理，拼接后获得训练样本图像。

作为一种实施例，在对适应图像进行拼接之前，可以选择同一适应图像进行拼接，也可以选择不同的适应图像进行组合拼接。选择同一适应图像进行拼接，便于生成装置200控制拼接后图像的尺寸。选择不同的适应图像进行拼接，有利于生成包括多种分类的目标对象的训练样本图像。

本申请实施例中，由于将各个调整图像对应调整至固定尺寸的适应图像，以便于后期确定拼接所需的适应图像的数量，方便生成装置200对适应图像进行拼接的过程。

例如，请参照图10，生成装置200在生成适应图像(如图10中a和b所示)之后，图10中a的尺寸为256*160，图10中b的尺寸为128*160，标准尺寸为256*320，因此生成装置200拼接图10中a和两个图10中的b拼接，拼接之后获得如图10中c所示的训练样本图像，该训练样本图像的尺寸为256*320。

在一种可能的实施例中，调整图像中对应的目标对象对应的锚框的尺寸越大，调整图像对应的适应调整尺寸越大。本申请实施例中目标对象对应的锚框的尺寸与调整图像对应的适应调整尺寸正相关，可以相对减少对调整图像进行大面积的填充操作的情况，可以提高图像的有效面积。

在一种可能的实施例中，适应调整尺寸大于目标对象的尺寸。

具体的，适应调整尺寸大于调整图像对应的目标对象的锚框尺寸，使得适应调整尺寸调整后的适应图像能够容纳目标对象，因此在对调整图像进行尺寸调整时，可以避免对目标对象的尺寸进行变动，以保证适应图像中的目标对象的尺寸处于锚框的可检测的目标对象尺寸范围内。这样一来，也能够保证适应图像能够保留一部分除了目标对象之外的图像，以便于后期目标检测器能够更准确地识别训练样本图像中的目标对象。

在一种可能的实施例中，生成装置200根据标准尺寸，以及各个是适应图像的尺寸，确定进行拼接的图像的数量。

具体的，生成装置200在生成各个适应图像之后，自然可以获得各个适应图像的尺寸，再根据标准尺寸，确定出需要参与拼接的适应图像的数量，从而拼接出标准尺寸的训练样本图像。

例如，生成装置200获取得到的标准尺寸为1024*1024，所有的适应图像的适应调整尺寸均为256*256，因此生成装置200确定需要拼接16个适应图像，才能生成标准尺寸的训练样本图像。

在一种可能的实施例中，生成装置200可以针对原始图像中的每个目标对象执行多次S10-S320和S910和S920的过程，因此，生成装置200可以获得针对同一目标对象的多个适应图像，由于每次针对同一目标对象确定的锚框的尺寸可能不同，因此生成的针对同一目标的多个适应图像可能也是不完全相同的，本申请实施例中，生成装置200可以针对同一目标的多个适应图像进行拼接，或者生成装置200在获得针对不同目标中各个目标的适应图像进行拼接。

在一种可能的实施例中，生成装置200确定各个适应图像中每个适应图像对应的目标对象的分类，对目标对象的分类不相同的适应图像进行拼接处理，获得训练样本图像。

具体的，某些原始图像可能包括多种分类的目标对象，生成装置200可以选择对应的目标对象属于不同分类的适应图像，将这些目标对象不属于同一种分类的适应图像进行拼接处理，获得训练样本图像。由于各个适应图像是由各个调整图像进行裁剪或填充处理得到的，因此各个适应图像对应的目标对象可以理解为调整图像对应的目标对象。

例如，请参照图11，生成装置200生成如图11中a所示的适应图像a、b和c，图11中a和b的尺寸均为128*64，图11中c的尺寸为256*128，标准尺寸为256*192，因此生成装置200确定可以对图11中适应图像a、b和c进行拼接，得到训练样本图像。

本申请实施例中，由于生成装置200选择将不同的分类的目标对象对应的适应图像进行拼接，因此可以使得生成的训练样本图像可以包括不同分类的目标对象，以满足目标检测器针对不同分类的检测需求。且，由于生成的训练样本图像包括不同的分类，因此当目标检测器针对某类目标进行检测时，其它类别的目标对象相当于背景，从而保证了训练样本图像中的背景比例，提供目标检测器后期的检测准确性。且，避免了同类目标大量集中，导致目标检测器检测难度较大的问题。

在一种可能的实施例中，生成装置200对各个适应图像中部分适应图像进行旋转处理，生成装置200对旋转处理后的部分适应图像，以及各个适应图像中除了旋转处理后的适应图像进行拼接处理，获得训练样本图像。

具体的，生成装置200在获得多个适应图像之后，可以对部分适应图像进行旋转处理，然后再做拼接，由于对部分适应性图像进行旋转处理，因此可以生成更多的训练样本图像，以满足目标检测器的需求。

例如，请参照图12，生成装置200生成如图11中a所示的适应图像a、b和c，其中a和b的尺寸均为128*64，c的尺寸为256*128，标准尺寸为256*192，生成装置200可以对图12中适应图像b旋转，再将适应图像a、图12中适应图像c、以及旋转后的适应图像b进行拼接，得到图12中d所示的训练样本图像。

在一种可能的实施例中，生成装置200在对适应图像进行选择处理时，可以对部分适应图像进行180度的旋转处理，由于180度旋转不会改变适应图像的相对尺寸，因此可以便于生成装置200确定参与拼接的适应图像的数量。

在一种可能的实施例中，生成装置200在获得训练样本生成图像之后，生成训练样本图像的索引，并将生成的索引写入区块链中，以使得其他生成装置200可以同步训练样本图像。

具体的，生成装置200可以在获得训练样本图像之后，将训练样本图像直接写入区块链，也可以在获得训练样本图像之后，生成训练样本图像的索引，将训练样本图像的索引写入区块链，以减少区块链中的存储的数据量，且有利于提高其它生成装置200搜索对应的训练样本图像等。

生成训练样本图像的索引的方式有很多种，例如可以在生成训练样本图像的过程中，确定训练样本图像中所包含的目标对象所对应的分类，以该训练样本图像中包含的目标对象的分类标识作为该训练样本图像的索引。例如其它生成装置200需要获取某类的训练样本图像时，可以基于该分类标识，获取对应的训练样本图像。

基于同一发明构思，本申请实施例提供一种训练样本图像的生成装置，请参照图13，该生成装置200包括：

获取模块1301，用于获取包括至少一个目标对象的原始图像；

调整模块1302，用于分别针对每个目标对象调整原始图像的尺寸以获得各个目标对象的调整图像；其中，每个目标对象的调整图像中该目标对象的尺寸被调整到目标检测器关联的锚框可检测到的目标尺寸范围内；

获得模块1303，用于基于各个目标对象对应的调整图像，获得训练样本图像；其中，训练样本图像中包括一个目标对象，且训练样本图像中的目标对象尺寸与调整图像中对应的目标对象尺寸一致。

在一种可能的实施例中，调整模块1302具体用于：

从目标检测器关联的所有锚框中，确定当前目标对象对应的锚框；

调整原始图像，直到将当前目标对象的尺寸调整到确定出的与该目标对应的锚框的可检测到的目标尺寸范围内，获得当前目标对象的调整图像。

在一种可能的实施例中，调整模块1302具体用于：

获取所有锚框中每个锚框对应所需的训练样本图像数量占比；其中，目标检测器关联的所有锚框中锚框的尺寸越小，该锚框对应的训练样本图像数量占比越大；

从目标检测器关联的所有锚框中，根据获取的训练样本数量占比，确定当前目标对象对应的锚框。

在一种可能的实施例中，获得模块1303具体用于：

确定各个目标对象的调整图像中每个调整图像关联的适应调整尺寸；

按照确定出的各个目标对象的调整图像中每个调整图像关联的适应调整尺寸，对该调整图像进行裁剪或填充处理，获得各个调整图像对应的适应图像；

对各个适应图像进行拼接处理，获得训练样本图像。

在一种可能的实施例中，获得模块1303具体用于：

确定各个适应图像中每个适应图像对应的目标对象的分类；

在一种可能的实施例中，获得模块1303具体用于：

对各个适应图像中部分适应图像进行旋转处理；

对旋转处理后的部分适应图像，以及各个适应图像中除了部分适应图像之外的适应图像进行拼接处理，获得训练样本图像。

在一种可能的实施例中，获得模块1303具体用于：

在一种可能的实施例中，生成装置200还包括生成模块1304和写入模块1305，其中：

生成模块1304，用于生成训练样本图像的索引；

写入模块1305，用于将生成的索引写入区块链中。

作为一种实施例，生成装置200中的生成模块1304和写入模块1305为可选的模块。

基于同一发明构思，本申请实施例提供一种计算机设备，请参照图14，计算机设备1400以通用计算设备的形式表现。计算机设备1400的组件可以包括但不限于：至少一个处理器1410、至少一个存储器1420、连接不同系统组件(包括处理器1410和存储器1420)的总线1430。

总线1430表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器1420可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1421和/或高速缓存存储器1422，还可以进一步包括只读存储器(ROM)1423。

存储器1420还可以包括具有一组(至少一个)程序模块1425的程序/实用工具1426，这样的程序模块1425包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。处理器1410用于执行存储器1420存储的程序指令等实现前文论述的训练样本生成方法。也可以理解为该计算机设备1400可以实现前文论述的生成装置200的功能。

计算机设备1400也可以与一个或多个外部设备1440(例如键盘、指向设备等)通信，还可与一个或者多个使得生成装置200能与其他设备交互的设备通信，和/或与使得该生成装置200能与一个或多个其它设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口1450进行。并且，计算机设备1400还可以通过网络适配器1460与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1460通过总线1430与用于计算机设备1400的其它模块通信。应当理解，尽管图中未示出，可以结合计算机设备1400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

基于同一发明构思，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行前文论述的训练样本图像的生成方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种训练样本图像的生成方法，其特征在于，包括：

获取包括至少一个目标对象的原始图像；

2.如权利要求1所述的方法，其特征在于，分别针对每个目标对象调整所述原始图像的尺寸以获得各个目标对象的调整图像，包括：

3.如权利要求2所述的方法，其特征在于，从所述目标检测器关联的所有锚框中，确定所述当前目标对象对应的锚框，包括：

4.如权利要求1-3任一所述的方法，其特征在于，基于各个目标对象对应的调整图像，获得训练样本图像，包括：

对获得的各个适应图像进行拼接处理，获得训练样本图像。

5.如权利要求4所述的方法，其特征在于，按照所述目标检测器的输入尺寸，对所述各个适应图像进行拼接处理，获得训练样本图像，包括：

6.如权利要求4所述的方法，其特征在于，对调整目标的分类不相同的适应图像进行拼接处理，获得训练样本图像，包括：

对所述各个适应图像中部分适应图像进行旋转处理；

7.如权利要求1-3任一所述的方法，其特征在于，基于各个目标对象对应的调整图像，获得训练样本图像，包括：

8.如权利要求1-3任一所述的方法，其特征在于，在基于各个目标对象对应的调整图像，获得训练样本图像之后，包括：

生成训练样本图像的索引，并将生成的索引写入区块链中。

9.一种训练样本图像的生成装置，其特征在于，包括：

获取模块，用于获取包括至少一个目标对象的原始图像；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1-8中任一项所述的方法。