CN112633355A

CN112633355A - 图像数据处理方法及装置、目标检测模型训练方法及装置

Info

Publication number: CN112633355A
Application number: CN202011507842.8A
Authority: CN
Inventors: 陈亮宇
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-09

Abstract

本公开提供了一种图像数据处理方法、目标检测模型训练方法、目标检测方法、图像数据处理装置、目标检测模型训练装置、目标检测装置、电子设备和计算机可读存储介质，其中图像数据处理方法包括：获取第一图像集；基于第一图像集，训练数据处理模型；获取第二图像集；基于第二图像集，通过完成训练的数据处理模型，得到第三图像集。本公开实施例能够通过少量的具有边界框的数据，将大量的仅有点监督数据的图像进行边界框的标注，从而高效的获得大量的且质量优秀的具有边界框的图像。

Description

图像数据处理方法及装置、目标检测模型训练方法及装置

技术领域

本公开一般地涉及图像处理领域，具体涉及一种图像数据处理方法、目标检测模型训练方法、目标检测方法、图像数据处理装置、目标检测模型训练装置、目标检测装置、电子设备和计算机可读存储介质。

背景技术

目前，在对图像中的目标进行检测的任务中，可以通过目标检测模型检测到图像中的某一种或多种类别的目标，并根据目标的轮廓形成边界框(bounding box)，其中，目标检测模型可以是卷积神经网络模型等。然而，为了能够实现上述任务，需要对目标检测模型进行训练，训练的过程则需要大量的已经标注好边界框的图像。

对于训练一个目标检测模型来说，训练集中的图像数量以及边界框的标注质量都对训练效率、训练结果有这显著影响。目前，带有标注的图像通常需要大量人工对边界框进行标注，而一个高质量边界框的标注是非常耗时的，例如，在ILSVRC(ImageNet LargeScale Visual Recognition Challenge)的数据集上每个边界框的标注需要约34秒，即使是普通质量的边界框也需要10秒。因此，需要获取到足够数量和质量的图像成本高、效率低。

发明内容

为了解决现有技术中存在的上述问题，本公开的第一方面提供一种图像数据处理方法，其中，所述图像数据处理方法包括：获取第一图像集，所述第一图像集包括多个第一图像及其对应的第一标注信息，其中，所述第一图像包括至少一个第一目标、所述第一标注信息包括所述第一目标对应的第一边界框和类别；基于所述第一图像集，训练数据处理模型；获取第二图像集，所述第二图像集包括多个第二图像及其对应的第二标注信息，其中，所述第二图像包括至少一个第二目标、所述第二标注信息包括所述第二目标对应的第二标注点和类别；基于所述第二图像集，通过完成训练的所述数据处理模型，得到第三图像集，所述第三图像集包括所述多个第二图像及其对应的第三标注信息，其中，所述第三标注信息包括所述第二目标对应的第二边界框和类别。

在一实施例中，所述基于所述第一图像集，训练数据处理模型，包括：在所述第一图像的每个第一边界框内生成对应所述第一目标的第一标注点；基于所述第一图像、以及所述第一图像中所述第一目标对应的第一标注点及类别，通过待训练的数据处理模型得到对应于所述第一目标的第一预测框；基于对应于同一第一目标的所述第一预测框与所述第一边界框得到损失值；基于所述损失值调整待训练的数据处理模型的参数，得到完成训练的所述数据处理模型。

在一实施例中，所述基于所述第一图像集，训练数据处理模型，还包括：对所述第一标注点的坐标进行归一化。

在一实施例中，所述损失值包括以下一种或多种，L1损失、IOU损失及GIOU损失。

在一实施例中，所述基于所述第二图像集，通过完成训练的所述数据处理模型，得到第三图像集，包括：基于所述第二目标对应的第二标注点和类别，通过完成训练的所述数据处理模型，得到所述第二目标对应的第二边界框。

本公开的第二方面提供一种目标检测模型训练方法，其中，所述目标检测模型用于图像目标检测，所述目标检测模型训练方法包括：获取训练集，所述训练集至少包括采用如第一方面所述的图像数据处理方法得到的所述第三图像集；基于所述训练集，训练待训练的目标检测模型，得到训练完成的所述目标检测模型。

在一实施例中，所述训练集还包括所述第一图像集。

在一实施例中，所述基于所述训练集，训练待训练的目标检测模型，得到训练完成的所述目标检测模型，包括：基于所述第一图像或第二图像，通过待训练的目标检测模型，得到所述第一目标或第二目标的预测框；基于对应于同一第一图像的预测框和第一边界框，或对应于同一第二图像的预测框和第二边界框，得到边界框损失值；基于所述边界框损失值调整待训练的目标检测模型的参数，得到完成训练的目标检测模型。

本公开的第三方面提供一种目标检测方法，其中，所述目标检测方法包括：获取图像，所述图像包括至少一个待检测目标；通过目标检测模型，确定所述待检测目标的边界框，其中，所述目标检测模型通过如第二方面所述的目标检测模型训练方法训练得到。

本公开的第四方面提供一种图像数据处理装置，其中，所述数据处理装置包括：第一获取模块，用于获取第一图像集，所述第一图像集包括多个第一图像及其对应的第一标注信息，其中，所述第一图像包括至少一个第一目标、所述第一标注信息包括所述第一目标对应的第一边界框和类别；第一训练模块，用于基于所述第一图像集，训练数据处理模型；所述第一获取模块，还用于获取第二图像集，所述第二图像集包括多个第二图像及其对应的第二标注信息，其中，所述第二图像包括至少一个第二目标、所述第二标注信息包括所述第二目标对应的第二标注点和类别；处理模块，用于基于所述第二图像集，通过完成训练的所述数据处理模型，得到第三图像集，所述第三图像集包括所述多个第二图像及其对应的第三标注信息，其中，所述第三标注信息包括所述第二目标对应的第二边界框和类别。

本公开的第五方面提供一种目标检测模型训练装置，其中，所述目标检测模型用于图像目标检测，所述目标检测模型训练装置包括：第二获取模块，用于获取训练集，所述训练集至少包括采用如第一方面所述的图像数据处理方法得到的所述第三图像集；第二训练模块，用于基于所述训练集，训练待训练的目标检测模型，得到训练完成的所述目标检测模型。

本公开的第六方面提供一种目标检测装置，其中，所述目标检测装置包括：第三获取模块，用于获取图像，所述图像包括至少一个待检测目标；标注模块，用于通过目标检测模型，确定所述待检测目标的边界框，其中，所述目标检测模型通过如第三方面所述的目标检测模型训练方法训练得到。

本公开的第七方面提供一种电子设备，包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行如第一方面所述的图像数据处理方法、或如第二方面所述的目标检测模型训练方法、或如第三方面所述的目标检测方法。

本公开的第八方面提供一种计算机可读存储介质，其中存储有指令，指令被处理器执行时，执行如第一方面所述的图像数据处理方法、或如第二方面所述的目标检测模型训练方法、或如第三方面所述的目标检测方法。

本公开提供的图像数据处理方法、目标检测模型训练方法、目标检测方法、图像数据处理装置、目标检测模型训练装置、目标检测装置、电子设备和计算机可读存储介质，本公开实施例能够通过少量的具有边界框的数据，将大量的仅有点监督数据的图像进行边界框的标注，从而高效的获得大量的且质量优秀的具有边界框的图像。

附图说明

通过参考附图阅读下文的详细描述，本公开实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示出了根据本公开一实施例图像数据处理方法的流程示意图。

图2示出了本公开第一图像集中的第一图像示意图。

图3示出了本公开第二图像集中的第二图像示意图。

图4示出了本公开第三图像集中的第二图像示意图。

图5示出了根据本公开另一实施例图像数据处理方法的流程示意图。

图6示出了本公开第一图像集中的生成第一标注点后的第一图像示意图。

图7示出了根据本公开一实施例目标检测模型训练方法的流程示意图。

图8示出了根据本公开另一实施例目标检测模型训练方法的流程示意图。

图9示出了根据本公开一实施例目标检测方法的流程示意图。

图10示出了根据本公开一实施例的图像数据处理装置示意图。

图11示出了根据本公开一实施例的目标检测模型训练装置示意图。

图12示出了根据本公开一实施例的目标检测装置示意图。

图13是本公开实施例提供的一种电子设备示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。

需要注意，虽然本文中使用“第一”、“第二”等表述来描述本公开的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。

在对图像中的目标进行检测的场景，在一些相关技术中，基于点监督的边界框生成的方式，主要方法是让标注人员通过点击图像中的目标的中心点(一次或两次)，再利用中心点点击信息，对边界框进行预测。这些方法存在的问题至少包括：第一，需要标注人员“想象”一个已经标注好的边界框，再对中心进行点击。当面对一个凹形物体时，如月牙，其需要点击的中心点在物体之外，是不符合直觉的。需要对标注人员进行一定程度的训练。第二，基于类激活映射的方法，对于同一类别的目标区分效果不好。第三，仅仅使用点监督数据，定位的精确度上限不高。

在另一些相关技术中，利用原图片和水平翻转图片中对应的物体进行两次标注，那么，两个边界框的特征应该满足一定特点：类别预测一致，边界框偏移量在垂直位置一致，水平位置相反。但该种方式只能是有带有边界框标签的图像数据，在图像数据不多的情况下，训练后的模型质量低。

在又一些实施例中，用带边界框标签的图像数据训练教师(teacher)模型，再由教师模型对无边界框标签的图像数据生成伪标签，对学生(student)模型进行训练。训练时学生模型经过数据增强，其标签由教师模型无数据增强的模型产生。但该种方式无标签数据的信息未能充分利用，且，直接由教师模型生成的具有伪标签的图像，其噪声较大，需要手工的设定阈值，难以平衡查全率与准确率。

为了解决上述问题，本公开实施例提供了一种图像数据处理方法10，如图1所示，可以包括步骤S11-步骤S14，下文分别对上述步骤进行详细说明：

步骤S11，获取第一图像集，第一图像集包括多个第一图像及其对应的第一标注信息，其中，所述第一图像包括至少一个第一目标，所述第一标注信息包括所述第一目标对应的第一边界框和类别。

在本公开实施例中，获取的第一图像集可以是包括多个第一图像的训练集，每个第一图像中都包含有用于检测的第一目标。第一图像的来源可以不同，拍摄场景也可以不同，其中的目标数量也可以是一个或多个。并且，每个第一图像中，可以包括有多个类别的目标。

图2示出了一种第一图像的示例。如图2所示，在第一图像集中的一个第一图像40中，可以包括有多个第一目标41。图2中的第一目标41包括两个类别：人物和车辆。同时，第一图像40都具有对应的第一标注信息，第一标注信息包括有对应的第一图像40中每个第一目标41的边界框42，以及第一目标41分别对应的类别。

步骤S12，基于第一图像集，训练数据处理模型。

本公开实施例中，可以基于第一图像集，即具有边界框对目标标注的图像集，对数据处理模型进行训练，能够使得完成训练的数据处理模型能够基于图像中的点监督数据，检测目标并生成准确的边界框。所谓点监督数据为图像中的每个目标都具有相应的标注点。

步骤S13，获取第二图像集，第二图像集包括多个第二图像及其对应的第二标注信息，其中，第二图像包括至少一个第二目标，第二标注信息包括第二目标对应的第二标注点和类别。

在本公开实施例中，获取的第二图像集可以是包括多个第二图像的训练集，每个第二图像中都包含有用于检测的第二目标。第二图像的来源可以不同，拍摄场景也可以不同，其中的目标数量也可以是一个或多个。并且，每个第二图像中，可以包括有多个类别的目标。与第一图像不同的是，第一图像中包含有与目标对应的边界框，第二图像集中的第二图像只包含有目标对应的标注点。

并且，步骤S13与步骤S11、步骤S12的顺序不做限定，步骤S13与步骤S11可以同时进行，即一并获取第一图像集和第二图像集。

图3示出了一种第二图像的示例。如图3所示，在第二图像集中的一个第二图像50中，可以包括有多个第二目标51。图3中的第二目标51包括两个类别：人物和车辆。同时，第二图像50都具有对应的第二标注信息，第二标注信息包括有对应的第二图像50中每个第二目标51的标注点53，以及第二目标51分别对应的类别。

步骤S14，基于第二图像集，通过完成训练的数据处理模型，得到第三图像集，第三图像集包括多个第二图像及其对应的第三标注信息，其中，第三标注信息包括第二目标对应的第二边界框和类别。

本公开实施例中，通过训练好的数据处理模型，对有标注点的第二图像进行检测，基于第二图像中第二目标的标注点以及类别，能够生成第二目标对应的第二边界框。从而能够高效的获取到大量的具有边界框的图像。

图4示出了一种第三图像集中的第二图像的示例。如图4所示，在第二图像50的基础上，得到了第三图像集，其中，一个第二图像50中，可以包括有多个第二目标51，并且，第二图像50除去原本具有的对应每个第二目标51的标注点53，还通过数据处理模型生成了每个第二目标51的边界框52。

通过本公开实施例的图像数据处理方法，基于少量带有边界框的图像，训练数据处理模型，进而能够将大量含有标注点的图像转化为具有边界框的图像。有效利用了多种图像数据，并且能够高效的获取具有边界框标注的高质量图像集。也能够为训练一个优秀的用于检测图像中目标的目标检测模型打下基础。

在本公开一实施例中，如图5所示，步骤S12可以包括步骤S121-步骤S124。具体如下：步骤S121，在第一图像的每个第一边界框内生成对应第一目标的第一标注点；步骤S122，基于第一图像、以及第一图像中第一目标对应的第一标注点及类别，通过待训练的数据处理模型得到对应于第一目标的第一预测框；步骤S123，基于对应于同一第一目标的第一预测框与第一边界框得到损失值；步骤S124，基于损失值调整待训练的数据处理模型的参数，得到完成训练的数据处理模型。

本实施例中，在训练数据处理模型的过程中，先对第一图像集进行处理，在第一目标对应的第一边界框内随机生成一个标注点。从而能够模拟点监督数据。其中，可以在不同轮次的训练中，都进行随时生成标注点，对于同一目标在不同训练轮次中生成的标注点位置不同，从而提高训练效率和训练效果。将第一图像以及对应的标注点信息和类别，例如标注点的坐标、类别的代码等，输入待处理的数据处理模型中。数据处理模型能够基于输入的信息，输出第一图像中每个第一目标对应的第一预测框。再根据第一图像的第一标注信息中，第一目标对应的准确的第一边界框两者进行对比，计算损失值。再根据损失值，调整待训练的数据处理模型的参数，使得损失值收敛，经过多轮训练后，损失值小于一个阈值，确定数据处理模型完成训练。

图6示出了一种随机生成有标注点的第一图像的示例。如图6所示，在第一图像40中，可以包括有多个第一目标41。同时，第一图像40具有原本对应第一图像40中每个第一目标41的边界框42，以及第一目标41分别对应的类别，还随机生成了每个第一目标41对应的标注点43。

通过上述方式训练的数据处理模型，能够基于带有标注点的图像，进行准确的预测，生成图像中目标的边界框。能够充分利用带有边界框的数据进行训练，同时又能充分利用带有标注点的图像数据生成带有边界框的图像数据。而且，相比于直接针对图像生成边界框的方式，也充分利用了不同图像内带有的标注信息，例如第二图像集中的标注点信息也能够进行理由，数据处理模型能够利用标注点信息，进行更准确的预测，从而能够更高效的获取到高质量的边界框。

在本公开一实施例中，步骤S12还可以包括：对第一标注点的坐标进行归一化。本公开实施例对第一图像生成的第一标注点的坐标进行归一化，从而能够使得数据处理模型能够适用于多种尺寸、分辨率的图像。在图像中的点，一般通过像素坐标进行定位，通过图像长、宽两个方向上的像素坐标，确定点的位置。但是，由于图像的尺寸不同，或者分辨率不同，通过各自的像素点坐标进行定位，会导致训练效果降低。本实施例通过对坐标进行归一化，例如可以将图像的长、宽等分，确定第一标注点的位置位于等分的位置，从而统一各图像的坐标表示。

在一示例中，所有坐标位置均归一化至[0,1]区间。对于第一标注点的坐标位置编码，采用的实现方式可以是对于图像的x轴方向，用(n+1)×128的映射(embedding)作为

这些位置的编码。y轴同理。对于位置(x,y)，使用线性插值出x，y位置对应的映射(embedding)后，将其连接(concate)作为位置(x,y)的编码。

本公开实施例中，对于类别同样可以进行编码后输入数据处理模型或目标检测模型，例如，可以采用用91×256的映射(embedding)作为每个类别的编码。并结合对于坐标的编码，将点监督的位置(x,y)和类别编码，进行元素(elementwise)相加作为其查询的编码特征，即输入数据处理模型或目标检测模型的编码特征。

在本公开实施例中，损失值可以包括以下一种或多种，L1损失(最小绝对值偏差损失)、IOU(Intersection over Union，交并比)损失及GIOU(Generalized Intersectionover Union，广义交并比)损失。可以仅采用一个损失函数计算损失，也可以同时采用多种损失函数计算损失。通过上述损失函数，能够在对于第一预测框与所述第一边界框之间的比较时，准确的反应差距，提高训练效率，加快收敛速度，保证训练质量。

在一实施例中，可以同时采用L1损失和GIOU损失，并且通过两者计算得到的损失值可以进行加权求和作为最终的损失值。权重的比例可以是2：5。使用这种方式，能够体现第一预测框和第一边界框的实际差距，提高监督作用，提升训练效率。

在本公开实施例中，步骤S14可以包括：基于第二目标对应的第二标注点和类别，通过完成训练的数据处理模型，得到第二目标对应的第二边界框。本实施例中，完成训练的数据处理模型有能力基于图像、以及图像对应目标的标注点和类别，检测图像中相应的目标，并且生成目标的边界框。从而，能够通过完成训练的数据处理模型对大量的仅具有标注点标注的图像，即第二图像集中的第二图像，进行检测，生成第二图像中目标对应的第二边界框。具体来说，将第二图像输入完成训练的数据处理模型中，同时也输入第二图像对应的第二标注点和类别。输入第二标注点和类别的方式，可以与前述对标注点归一化和编码的方式相同、以及与对类别编码并与标注点进行元素相加的方式相同的方式进行输入。进一步的，完成训练的数据处理模型基于输入，能够生成第二图像中相应目标的第二边界框，从而得到具有第二边界框的第二图像，得到第三图像集。通过这种方式，能够高效的获取到大量具有准确边界框的图像。

基于同一个发明构思，本公开还提供一种目标检测模型训练方法20，如图7所示，目标检测模型训练方法20可以包括：步骤S21，获取训练集，其中，训练集至少包括采用前述任一实施例的图像数据处理方法10得到的第三图像集；以及步骤S22，基于训练集，训练待训练的目标检测模型，得到训练完成的目标检测模型。本公开实施例，通过图像数据处理方法10能够将大量的仅具有点标注的第二图像，由数据处理模型生成边界框，从而得到大量具有准确边界框的第二图像集合而成的第三图像集。由于数据量大，边界框标注准确，从而采用第三图像集对目标检测模型进行训练，能够有效提高训练效率，提升训练质量。

在本公开一实施例中，训练集还包括所述第一图像集。由于第一图像集中的第一图像本身带有目标对应的边界框，将第一图像集与第三图像集合并作为训练集，能够进一步的增加数据量，从而进一步的提升训练效率。

在本公开一实施例中，如图8所示，步骤S22可以包括：步骤S221，基于第一图像或第二图像，通过待训练的目标检测模型，得到第一目标或第二目标的预测框；步骤S222，基于对应于同一第一图像的预测框和第一边界框，或对应于同一第二图像的预测框和第二边界框，得到边界框损失值；步骤S223，基于边界框损失值调整待训练的目标检测模型的参数，得到完成训练的目标检测模型。本实施例中，将训练集中的第一图像或第二图像，输入到待训练的目标检测模型中。通过目标检测模型对图像中的目标进行检测，输出目标的边界框作为预测框。并将对应的第一边界框或第二边界框作为监督，计算损失值。损失函数也可以采用前述的L1损失、IOU损失或GIOU损失的一种或多种。通过损失值，调整目标检测模型的参数，最终使损失值足够收敛，即损失值小于一阈值，完成训练。

通过上述方式训练目标检测模型，无需大量的原始具有边界框的图像，可以能够在少量具有边界框的图像(第一图像集)，和大量点监督数据(第一图像集)的情况下，较为明显的提升目标检测模型的性能。可从以下测试得以证明：

选用DETR(Detection Transformer)目标检测模型作为基于查询的目标检测网络。然后使用生成的预测框在FCOS(Fully Convolutional One-Stage Object Detection，一阶全卷积目标检测)模型上蒸馏的结果来看通过本公开实施例给模型带来的涨点。仅用20％边界框数据的FCOS模型mAP(Mean Average Precision，均值平均精度)为25.0。如下表1所示，当使用multi-scale(多尺度)作为数据增强训练查询目标网络时，能将FCOS的mAP提升至32.8。当无multi-scale作为数据增强时，也能将FCOS的mAP从25.0提升至30.9。其中3x，6x，9x分别表示对DETR进行训练时，总训练epochs(迭代)分别为36，72，108；分别在24，48，72个epoch学习率降低为原1/10。其余训练设置和DETR一致。

方式(Method)	通过FCOS蒸馏(distillation)的mAP
		无数据增强(no aug).3x	30.2
无数据增强(no aug).6x	30.7
		无数据增强(no aug).9x	30.9
数据增强(aug).3x	32.1
		数据增强(aug).6x	32.8

表1，在FCOS上蒸馏结果对比

可见，在少量具有边界框的图像(第一图像集)，和大量点监督数据(第一图像集)的情况下，通过本公开实施例提供的图像数据处理方法10得到的图像，对目标检测网络进行训练，能够明显的提升目标检测模型的性能。

基于同一个发明构思，本公开实施例还提供一种目标检测方法30，如图9所示，目标检测方法30可以包括：步骤S31，获取图像，图像包括至少一个待检测目标；步骤S32，通过目标检测模型，确定待检测目标的边界框，其中，目标检测模型通过前述任一实施例的目标检测模型训练方法20训练得到。本实施例基于目标检测模型训练方法20训练得到的目标检测模型，对图像进行目标检测，能够准确的检测图像中的目标并生成边界框。

基于同一发明构思，本公开还提供一种图像数据处理装置100，如图10所示，图像数据处理装置100可以包括：第一获取模块110，用于获取第一图像集，第一图像集包括多个第一图像及其对应的第一标注信息，其中，第一图像包括至少一个第一目标、第一标注信息包括第一目标对应的第一边界框和类别；第一训练模块120，用于基于第一图像集，训练数据处理模型；第一获取模块110，还用于获取第二图像集，第二图像集包括多个第二图像及其对应的第二标注信息，其中，第二图像包括至少一个第二目标、第二标注信息包括第二目标对应的第二标注点和类别；处理模块130，用于基于第二图像集，通过完成训练的数据处理模型，得到第三图像集，第三图像集包括多个第二图像及其对应的第三标注信息，其中，第三标注信息包括第二目标对应的第二边界框和类别。

在一实施例中，第一训练模块120用于：在第一图像的每个第一边界框内生成对应第一目标的第一标注点；基于第一图像、以及第一图像中第一目标对应的第一标注点及类别，通过待训练的数据处理模型得到对应于第一目标的第一预测框；基于对应于同一第一目标的第一预测框与第一边界框得到损失值；基于损失值调整待训练的数据处理模型的参数，得到完成训练的数据处理模型。

在一实施例中，第一训练模块120还用于：对第一标注点的坐标进行归一化。

在一实施例中，损失值包括以下一种或多种，L1损失、IOU损失及GIOU损失。

在一实施例中，处理模块130还用于：基于第二目标对应的第二标注点和类别，通过完成训练的数据处理模型，得到第二目标对应的第二边界框。

关于上述实施例中的图像数据处理装置100，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于同一发明构思，本公开还提供一种目标检测模型训练装置200，目标检测模型用于图像目标检测，如图11所示，目标检测模型训练装置200可以包括：第二获取模块210，用于获取训练集，训练集至少包括采用如前述任一实施例的图像数据处理方法10得到的第三图像集；第二训练模块220，用于基于训练集，训练待训练的目标检测模型，得到训练完成的目标检测模型。

在一实施例中，训练集还包括第一图像集。

在一实施例中，第二训练模块220还用于：基于第一图像或第二图像，通过待训练的目标检测模型，得到第一目标或第二目标的预测框；基于对应于同一第一图像的预测框和第一边界框，或对应于同一第二图像的预测框和第二边界框，得到边界框损失值；基于边界框损失值调整待训练的目标检测模型的参数，得到完成训练的目标检测模型。

关于上述实施例中的目标检测模型训练装置200，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于同一发明构思，本公开还提供一种目标检测装置300，如图12所示，目标检测装置300包括：第三获取模块310，用于获取图像，图像包括至少一个待检测目标；标注模块320，用于通过目标检测模型，确定待检测目标的边界框，其中，目标检测模型通过前述任一实施例的目标检测模型训练方法20训练得到。

关于上述实施例中的目标检测装置300，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

如图13所示，本公开的一个实施方式提供了一种电子设备400。其中，该电子设备400包括存储器401、处理器402、输入/输出(Input/Output，I/O)接口403。其中，存储器401，用于存储指令。处理器402，用于调用存储器401存储的指令执行本公开实施例的语义分割模型训练方法或图像语义分割方法。其中，处理器402分别与存储器401、I/O接口403连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器401可用于存储程序和数据，包括本公开实施例中涉及的语义分割模型训练方法或图像语义分割方法的程序，处理器402通过运行存储在存储器401的程序从而执行电子设备400的各种功能应用以及数据处理。

本公开实施例中处理器402可以采用数字信号处理器(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，所述处理器402可以是中央处理单元(Central Processing Unit，CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本公开实施例中的存储器401可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)等。

本公开实施例中，I/O接口403可用于接收输入的指令(例如数字或字符信息，以及产生与电子设备400的用户设置以及功能控制有关的键信号输入等)，也可向外部输出各种信息(例如，图像或声音等)。本公开实施例中I/O接口403可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本公开实施例涉及的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本公开实施的前述说明。前述说明并非是穷举性的也并非要将本公开限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本公开。

Claims

1.一种图像数据处理方法，其中，所述图像数据处理方法包括：

获取第一图像集，所述第一图像集包括多个第一图像及其对应的第一标注信息，其中，所述第一图像包括至少一个第一目标，所述第一标注信息包括所述第一目标对应的第一边界框和类别；

基于所述第一图像集，训练数据处理模型；

获取第二图像集，所述第二图像集包括多个第二图像及其对应的第二标注信息，其中，所述第二图像包括至少一个第二目标，所述第二标注信息包括所述第二目标对应的第二标注点和类别；

基于所述第二图像集，通过完成训练的所述数据处理模型，得到第三图像集，所述第三图像集包括所述多个第二图像及其对应的第三标注信息，其中，所述第三标注信息包括所述第二目标对应的第二边界框和类别。

2.根据权利要求1所述的图像数据处理方法，其中，所述基于所述第一图像集，训练数据处理模型，包括：

在所述第一图像的每个第一边界框内生成对应所述第一目标的第一标注点；

基于所述第一图像、以及所述第一图像中所述第一目标对应的第一标注点及类别，通过待训练的数据处理模型得到对应于所述第一目标的第一预测框；

基于对应于同一第一目标的所述第一预测框与所述第一边界框得到损失值；

基于所述损失值调整待训练的数据处理模型的参数，得到完成训练的所述数据处理模型。

3.根据权利要求2所述的图像数据处理方法，其中，所述基于所述第一图像集，训练数据处理模型，还包括：

对所述第一标注点的坐标进行归一化。

4.根据权利要求2或3所述的图像数据处理方法，其中，所述损失值包括以下一种或多种，L1损失、IOU损失及GIOU损失。

5.根据权利要求2或3所述的图像数据处理方法，其中，所述基于所述第二图像集，通过完成训练的所述数据处理模型，得到第三图像集，包括：

基于所述第二目标对应的第二标注点和类别，通过完成训练的所述数据处理模型，得到所述第二目标对应的第二边界框。

6.一种目标检测模型训练方法，其中，所述目标检测模型用于图像目标检测，所述目标检测模型训练方法包括：

获取训练集，所述训练集至少包括采用如权利要求1-5所述的图像数据处理方法得到的所述第三图像集；

基于所述训练集，训练待训练的目标检测模型，得到训练完成的所述目标检测模型。

7.根据权利要求6所述的目标检测模型训练方法，其中，所述训练集还包括所述第一图像集。

8.根据权利要求7所述的目标检测模型训练方法，其中，所述基于所述训练集，训练待训练的目标检测模型，得到训练完成的所述目标检测模型，包括：

基于所述第一图像或第二图像，通过待训练的目标检测模型，得到所述第一目标或第二目标的预测框；

基于对应于同一第一图像的预测框和第一边界框，或对应于同一第二图像的预测框和第二边界框，得到边界框损失值；

基于所述边界框损失值调整待训练的目标检测模型的参数，得到完成训练的目标检测模型。

9.一种目标检测方法，其中，所述目标检测方法包括：

获取图像，所述图像包括至少一个待检测目标；

通过目标检测模型，确定所述待检测目标的边界框，其中，所述目标检测模型通过如权利要求6-8任一项所述的目标检测模型训练方法训练得到。

10.一种图像数据处理装置，其中，所述数据处理装置包括：

第一获取模块，用于获取第一图像集，所述第一图像集包括多个第一图像及其对应的第一标注信息，其中，所述第一图像包括至少一个第一目标、所述第一标注信息包括所述第一目标对应的第一边界框和类别；

第一训练模块，用于基于所述第一图像集，训练数据处理模型；

所述第一获取模块，还用于获取第二图像集，所述第二图像集包括多个第二图像及其对应的第二标注信息，其中，所述第二图像包括至少一个第二目标、所述第二标注信息包括所述第二目标对应的第二标注点和类别；

处理模块，用于基于所述第二图像集，通过完成训练的所述数据处理模型，得到第三图像集，所述第三图像集包括所述多个第二图像及其对应的第三标注信息，其中，所述第三标注信息包括所述第二目标对应的第二边界框和类别。

11.一种目标检测模型训练装置，其中，所述目标检测模型用于图像目标检测，所述目标检测模型训练装置包括：

第二获取模块，用于获取训练集，所述训练集至少包括采用如权利要求1-5所述的图像数据处理方法得到的所述第三图像集；

第二训练模块，用于基于所述训练集，训练待训练的目标检测模型，得到训练完成的所述目标检测模型。

12.一种目标检测装置，其中，所述目标检测装置包括：

第三获取模块，用于获取图像，所述图像包括至少一个待检测目标；

标注模块，用于通过目标检测模型，确定所述待检测目标的边界框，其中，所述目标检测模型通过如权利要求6-8任一项所述的目标检测模型训练方法训练得到。

13.一种电子设备，其中，所述电子设备包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行如权利要求1-5任一项所述的图像数据处理方法、或如权利要求6-8任一项所述的目标检测模型训练方法、或如权利要求9所述的目标检测方法。

14.一种计算机可读存储介质，其中存储有指令，所述指令被处理器执行时，执行如权利要求1-5任一项所述的图像数据处理方法、或如权利要求6-8任一项所述的目标检测模型训练方法、或如权利要求9所述的目标检测方法。