CN114782769A

CN114782769A - 训练样本的生成方法、装置、系统及目标对象的检测方法

Info

Publication number: CN114782769A
Application number: CN202210240889.5A
Authority: CN
Inventors: 周强; 王志斌; 李�昊
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-07-22

Abstract

本申请公开了一种训练样本的生成方法、装置、系统及目标对象的检测方法。其中，训练样本的生成方法包括：获取点标注图像及框标注图像，每张点标注图像包含待标注对象及与每个待标注对象所对应的目标像素点，每张框标注图像包含已标注对象及与每个已标注对象所对应的目标标注框，点标注图像的数量大于框标注图像的数量；基于目标像素点确定待标注对象对应的目标预测框；基于目标预测框对待标注对象进行标注，得到标注后的点标注图像；基于标注后的点标注图像和框标注图像生成目标训练样本，目标训练样本用于训练目标检测模型，以对待检测图像中的对象进行目标检测。本申请解决了现有技术中在对训练样本进行标注时所存在标注成本高的技术问题。

Description

训练样本的生成方法、装置、系统及目标对象的检测方法

技术领域

本申请涉及数据处理领域，具体而言，涉及一种训练样本的生成方法、装置、系统及目标对象的检测方法。

背景技术

近年来，随着深度学习的目标检测技术发展迅速，检测模型的性能得到了大幅提升。然而，在现有技术中，检测模型的训练严重依赖大量人工标注的训练数据。而如何降低检测模型训练所需要的标注成本是一个重要的问题。

在现有技术中，采用在无标注数据上生成伪标注框的形式来进行标注，而在该方式中，伪标注框的质量不易控制，而且，伪标注框的漏检、虚检问题会影响检测模型的训练效果。

另外，在现有技术中，还采用对以图像中的对象的像素点作为标注点的方式来对图像进行标注，而在该方式中，由于没有精确的对象外接框标注，尤其是在图像中存在较多对象时，检测模型的训练效果很差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种训练样本的生成方法、装置、系统及目标对象的检测方法，以至少解决现有技术中在对训练样本进行标注时所存在标注成本高的技术问题。

根据本申请实施例的一个方面，提供了一种训练样本的生成方法，包括：获取至少一张点标注图像以及至少一张框标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量；基于目标像素点确定每个待标注对象对应的目标预测框；基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测。

根据本申请实施例的另一方面，还提供了一种训练样本的生成方法，包括：显示至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点；响应标注框预测指令，基于目标像素点确定每个待标注对象对应的目标预测框，并显示在至少一张点标注图像上显示目标预测框；响应标注指令，基于目标预测框对每张点标注图像中的待标注对象进行标注，并显示标注后的点标注图像；响应样本生成指令，基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，并显示目标训练样本的相关信息，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

根据本申请实施例的另一方面，还提供了一种训练样本的生成方法，包括：云服务器获取终端设备发送的至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点；云服务器基于目标像素点确定每个待标注对象对应的目标预测框，并基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；云服务器基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；云服务器发送标注后的点标注图像至终端设备，以使终端设备基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，并基于目标训练样本训练目标检测模型，其中，目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

根据本申请实施例的另一方面，还提供了一种目标对象的检测方法，包括：获取待检测图像，其中，待检测图像中至少包含待检测对象；将待检测图像输入至目标检测模型中，获取目标检测模型的输出结果，其中，目标检测模型是基于标注后的点标注图像以及至少一张框标注图像训练得到的，标注后的点标注图像是基于目标像素点所确定的目标预测框对与目标像素点所对应的待标注对象进行标注得到的，待标注对象为每张点标注图像中所包含的对象，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量；基于输出结果对待检测对象进行识别，得到识别结果。

根据本申请实施例的另一方面，还提供了一种训练样本的生成装置，包括：获取模块，用于获取至少一张点标注图像以及至少一张框标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量；确定模块，用于基于目标像素点确定每个待标注对象对应的目标预测框；标注模块，用于基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；生成模块，用于基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测。

根据本申请实施例的另一方面，还提供了一种训练样本的生成装置，包括：第一显示模块，用于显示至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点；第二显示模块，用于响应标注框预测指令，基于目标像素点确定每个待标注对象对应的目标预测框，并显示在至少一张点标注图像上显示目标预测框；第三显示模块，用于响应标注指令，基于目标预测框对每张点标注图像中的待标注对象进行标注，并显示标注后的点标注图像；第四显示模块，用于响应样本生成指令，基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，并显示目标训练样本的相关信息，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

根据本申请实施例的另一方面，还提供了一种训练样本的生成装置，包括：第一获取模块，用于云服务器获取终端设备发送的至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点；第一确定模块，用于云服务器基于目标像素点确定每个待标注对象对应的目标预测框，并基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；第一标注模块，用于云服务器基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；发送模块，用于云服务器发送标注后的点标注图像至终端设备，以使终端设备基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，并基于目标训练样本训练目标检测模型，其中，目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

根据本申请实施例的另一方面，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的训练样本的生成方法以及上述的目标对象的检测方法。

根据本申请实施例的另一方面，还提供了一种电子设备，该电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的训练样本的生成方法以及上述的目标对象的检测方法。

根据本申请实施例的另一方面，还提供了一种训练样本的生成系统，该系统包括：处理器；以及存储器，与处理器连接，用于存储处理器的可执行指令；其中，处理器被配置为执行指令，以实现如上述的训练样本的生成方法以及上述的目标对象的检测方法。

在本申请实施例中，采用半监督学习与弱监督学习相结合的方式，在获取到至少一张点标注图像以及至少一张框标注图像之后，通过基于点标注图像所包含的待标注对象的目标像素点确定点标注图像所包含的每个待标注对象的目标预测框，并基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像，然后，基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

在上述过程中，基于半监督学习的方式对图像进行标注，得到的是框标注图像；基于弱监督学习的方式对图像进行标注，得到的是点标注图像。由于点标注图像的数量大于框标注图像的数量，即在本申请中，目标训练样本中少量的图像是标注成本较高的框标注图像，而大量图像为标注成本较低的点标注图像，即在本申请中，仅需少量的框标注图像，即可生成训练样本，从而降低了训练样本的标注成本。另外，在本申请中，基于点标注图像中的待标注对象所对应的目标像素点来确定待标注对象所对应的预测框，从而能够为每个标注点选择合适的预测框作为伪标注框，避免了现有技术中半监督学习所存在的伪标注框漏检和虚检的问题，提高了训练样本的质量，进而提高了目标检测模型的检测精度。

由此可见，本申请所提供的方案达到了对训练样本进行准确标注的目的，从而实现了降低训练样本的标注成本的技术效果，进而解决了现有技术中在对训练样本进行标注时所存在标注成本高的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现训练样本的生成方法的电子设备的硬件结构框图；

图2是根据本申请实施例的一种训练样本的生成方法的流程图；

图3是根据本申请实施例的一种可选的点标注图像的示意图；

图4是根据本申请实施例的一种可选的框标注图像的示意图；

图5是根据本申请实施例的一种可选的点标注图像的示意图；

图6是根据本申请实施例的一种可选的点标注图像的示意图；

图7是根据本申请实施例的一种可选的训练样本的生成示意图；

图8是根据本申请实施例的一种可选的神经网络的结构示意图；

图9是根据本申请实施例的一种训练样本的生成方法的流程图；

图10是根据本申请实施例的一种训练样本的生成方法的流程图；

图11是根据本申请实施例的一种目标对象的检测方法的流程图；

图12是根据本申请实施例的一种训练样本的生成装置示意图；

图13是根据本申请实施例的一种电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本申请实施例，还提供了一种训练样本的生成方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现训练样本的生成方法的电子设备(或移动设备)的硬件结构框图。如图1所示，电子设备10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(BUS)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到电子设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的训练样本的生成方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的训练样本的生成方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至电子设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据上述的网络具体实例可包括电子设备10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与电子设备10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的训练样本的生成方法。其中，图2是根据本申请实施例一的训练样本的生成方法的流程图，由图2可知，该方法包括如下步骤：

步骤S202，获取至少一张点标注图像以及至少一张框标注图像。

在步骤S202中，点标注图像为基于弱监督学习的方式对图像进行标注后所得到图像，框标注图像为基于半监督学习的方式对图像进行标注后所得到的图像。其中，半监督学习方案通过在无标注数据上生成伪标注框，而弱监督学习方案是随机从图像中的每个对象所对应的多个像素点中确定目标像素点作为标注。即每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点，如在图3所示的点标注图像中，像素点A为运动员所对应的目标像素点，像素点B为足球所对应的像素点。而每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，例如，在图4所示的框标注图像中，框C为卡通人物所对应的目标标注框。

需要说明的是，在点标注图像中，目标像素点为对点标注图像中的待标注对象所对应的多个像素点进行随机选择所得到的像素点。另外，目标像素点还可以为终端设备经过某种算法从点标注图像中的待标注对象所对应的多个像素点进行选择所得到的像素点。

在一种可选的实施例中，终端设备可以从深度学习图像数据集中获取点标注图像和框标注图像。可选的，终端设备可从深度学习图像数据集中获取多张图像，并对获取到的多张图像进行分类，得到多个子数据集，即从多张图像中识别出点标注图像和框标注图像，分别得到点标注图像所对应的数据集以及框标注图像所对应的数据集。其中，终端设备所获取到的多张图像中点标注图像的数量大于框标注图像的数量。

需要说明的是，在步骤S202中，至少一张点标注图像的数量大于至少一张框标注图像的数量。容易注意到的是，在实际应用中，框标注的标注成本较高，而点标注的标注成本较低。在本申请中，训练样本包含少量的框标注图像以及大量的点标注图像，从而避免了现有技术中使用框标注图像来训练检测模型所存在的模型训练成本高的问题。

步骤S204，基于目标像素点确定每个待标注对象对应的目标预测框。

在步骤S204中，每个目标像素点至少与一个预测框相对应，例如，在图5所示的点标注图像中，运动员所对应的目标像素点为A，该目标像素点A对应三个预测框，即预测框31、预测框32、预测框33；足球对应的目标像素点为B，其对应的预测框为34。

可选的，在确定了目标像素点之后，在目标像素点所对应的预测框的数量为多个时，终端设备可获取每个预测框所对应的置信度，并多个预测框中选择置信度最高的预测框作为目标预测框，其中，预测框的置信度表征了该预测框作为目标预测框的准确程度。

步骤S206，基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像。

在步骤S206中，在确定了每个待标注对象所对应的目标预测框之后，在每张点标注图像中显示每个待标注对象所对应的目标预测框，例如，在图6所示的点标注图像中，运行员的目标像素点A所对应的预测框为目标预测框31，而足球的目标像素点B所对应的预测框为目标预测框34。

可选的，终端设备对目标预测框中的待标注对象进行识别，确定待标注对象所对应的对象类型，并在待标注对象所对应的目标预测框处标注该对象类型，其中，对象类型可以包括但不限于人物、动物、植物、生活用品、办公用品等。

在另一种可选的实施例中，在确定每个待标注对象所对应的目标预测框之后，终端设备对待标注对象进行识别，并以不同形式的预测框来表示不同的对象类型，例如，以红色预测框表示待标注对象为人物，以蓝色预测框表示待标注对象为动物，以红色虚线框表示待标注对象为儿童等。

步骤S208，基于标注后的点标注图像和至少一张框标注图像生成目标训练样本。

在步骤S208中，在得到标注后的点标注图像后，终端设备将标注后的点标注图像与框标注图像进行混合处理，得到目标训练样本，以对目标检测模型进行训练，进而用户可使用目标检测模型对待检测图像中的对象进行目标检测。其中，待检测图像可以为但不限于包含自然风景的自然图像、遥感图像等，即终端设备可使用目标检测模型来对自然图像中的行人进行检测，对遥感图像中的车辆、船舶、建筑物等进行检测。

需要说明的是，在实际应用中，对于不同的目标检测场景，其对应的目标训练样本可能是不同的，例如，在人物检测场景中，点标注图像和框标注图像中至少包括人物，其对应的目标训练样本中至少包括对人物进行标注后的图像；而在车辆检测场景中，点标注图像和框标注图像中至少包括车辆，其对应的目标训练样本中至少包括对车辆进行标注后的图像。即在本申请中，对于不同的检测对象，其所使用的目标检测模型是不同的，而训练该目标检测模型所使用的数据集也是不一样的。容易注意到的是，使用与应用场景所对应的目标检测模型进行目标检测可以提高目标检测的精度。

基于上述步骤S202至步骤S208所限定的方案，可以获知，在本申请实施例中，采用半监督学习与弱监督学习相结合的方式，在获取到至少一张点标注图像以及至少一张框标注图像之后，通过基于点标注图像所包含的待标注对象的目标像素点确定点标注图像所包含的每个待标注对象的目标预测框，并基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像，然后，基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

容易注意到的是，在上述过程中，基于半监督学习的方式对图像进行标注，得到的是框标注图像；基于弱监督学习的方式对图像进行标注，得到的是点标注图像。由于点标注图像的数量大于框标注图像的数量，即在本申请中，目标训练样本中少量的图像是标注成本较高的框标注图像，而大量图像为标注成本较低的点标注图像，即在本申请中，仅需少量的框标注图像，即可生成训练样本，从而降低了训练样本的标注成本。另外，在本申请中，基于点标注图像中的待标注对象所对应的目标像素点来确定待标注对象所对应的预测框，从而能够为每个标注点选择合适的预测框作为伪标注框，避免了现有技术中半监督学习所存在的伪标注框漏检和虚检的问题，提高了训练样本的质量，进而提高了目标检测模型的检测精度。

在一种可选的实施例中，在获取到点标注图像之后，由于一个目标像素点可能对应多个预测框，因此，终端设备需要从目标像素点所对应的多个预测框中确定目标预测框。具体的，终端设备可基于预设模型确定目标像素点所对应的多个预测框，并计算每个预测框所对应的置信度，然后根据置信度从多个预测框中确定目标预测框。

可选的，在图7所示的训练样本的生成示意图中，预设模型可基于目标像素点来确定每个目标像素点所对应的多个预测框，即终端设备将点标注图像输入至预设模型之后，预设模型即可输出具有多个预测框的点标注图像。例如，点标注图像为图3所示的图像，预设模型对图3所示的图像进行处理后，得到图5所示的具有多个预测框的图像。

进一步的，如图7所示，在确定了目标像素点所对应的多个预测框之后，终端设备进行点匹配操作，即终端设备确定每个目标像素点所对应的目标预测框，如在图6中，显示了每个待标注对象所对应的目标预测框。其中，终端设备可计算每个预测框所对应的置信度，并从多个预测框中选择置信度最大的预测框作为目标预测框。

更进一步的，如图7所示，在确定了每个待标注对象所对应的目标预测框之后，终端设备基于目标预测框对点标注图像进行标注，并将标注后的点标注图像与框标注图像进行混合处理，从而得到目标训练样本。

在一种可选的实施例中，终端设备可基于待标注对象所对应的对象类型来确定该待标注对象所对应的多个预测框。具体的，终端设备基于预设模型确定目标像素点所对应的待标注对象的目标对象类型，并基于预设模型确定目标对象类型所对应的多个预测框，其中，多个预测框所对应的对象类型为目标对象类型。即终端设备将与待标注对象为相同对象类型的其他对象的预测框作为该标注对象所对应的预测框，例如，对于图3中的运动员，终端设备可将所有人物所对应的标注框作为预测框。

另外，终端设备除考虑对象类型外，还可对待标注对象进行分析，进而确定待标注对象所对应的多个预测框。例如，对于人物，终端设备还可考虑待标注对象的性别、姿势以及待标注对象所处的场景等来确定待标注对象的多个预测框。

在确定了每个目标像素点所对应的多个预测框之后，终端设备计算每个预测框所对应的置信度，其中，该每个预测框所对应的置信度可由每个预测框所对应的成本所表征。

具体的，终端设备计算每个预测框与每个目标像素点之间的空间成本以及分类成本，并计算空间成本以及分类成本之和，得到每个预测框与每个目标像素点之间的预测成本，然后，基于预测成本组成成本矩阵，其中，成本矩阵中的每个元素表征了在每个目标像素点下，每个预测框之间的置信度，空间成本表征确定目标像素点所对应的待标注对象的预测框的成本，分类成本表征对目标像素点所对应的待标注对象进行分类的成本。

可选的，成本矩阵可由下式表示：

L_match(i，j)＝L_spatial+L_{classification}

在上式中，L_match(i，j)表示成本矩阵，L_spatial表示空间成本，L_{classification}表示分类成本。其中，

N_p表示目标像素点的数量，N_b表示预测框的数量，i表示目标像素点的索引，j表示预测框的索引。

其中，

在上式中，

表示像素点

的标签，

表示预测框b_j的标签，

表示神经网络中的分类器和神经网络中的P支路的输出，C表示不包含背景的类别数量，σ(·)表示分类器在第二维度上所进行的softmax操作，σ^P(·)表示P支路在第二维度上所进行的softmax操作，其中，P支路用于在像素点级别上检测预测框的质量，并通过逐点MIL(Multiple Instance Learning，多示例学习)损失进行监督。

可选的，图8示出了一种可选的神经网络的结构示意图，由图8可知，本实施例中的神经网络模型与现有技术中的RPN(Region Proposal Network，区域生成网络)相比，在头部增加了I支路和P支路，其中，I支路用于抑制与图像级标注不一致的分类预测的概率，并通过图像级MIL损失进行监督。此外，由图8可知，本实施例中的神经网络模型的头部还包括回归单元和分类单元(即分类器)。

需要说明的是，在成本矩阵确定之后，目标像素点的匹配问题即可转换为数学上的二分匹配的问题。

进一步的，在得到每个预测框所对应的置信度之后，终端设备即可根据置信度从多个预测框中确定目标预测框。具体的，终端设备从多个预测框中确定置信度最大的初始预测框，并在初始预测框的置信度大于或等于预设置信度时，确定初始预测框为目标预测框。

即在本实施例中，终端设备选择置信度最大的预测框作为目标预测框。另外，如果置信度最大的预测框所对应的置信度比较小，则该置信度最大的预测框也将被过滤掉，多个预测框中不存在与目标像素点相对应的目标预测框。

需要说明的是，在实际应用中，由于待标注对象的尺寸过小等原因，可能存在目标像素点不存在目标预测框的现象，从而导致待标注对象的漏检问题。在本实施例中，如图7所示，终端设备通过在目标像素点粘贴同类目的其他对象的图像的形式来避免上述问题。

具体的，在初始预测框的置信度小于预设置信度时，终端设备确定目标像素点所对应的待标注对象的目标对象类型，并从预设图像库中获取目标图像，然后，在点标注图像中的目标图像位置上设置目标图像，最后，确定目标图像所对应的预测框为目标预测框。其中，目标图像包含目标对象，目标对象的对象类型为目标对象类型，目标图像位置为待标注对象在点标注图像中的位置。

例如，在图5中，由于足球的尺寸较小，终端设备在确定足球所对应的目标预测框的过程中，过滤掉了足球所对应的预测框。为了避免待标注对象的漏检，终端设备从预设图像库中获取与待标注对象属于相同类目的目标对象的图像，例如，终端设备首先从点标注图像所包含的多个待标注对象中确定未确定目标预测框的对象，并确定该对象所对应的目标对象类型，然后从预测图像库中获取包含对象类型为目标对象类型的对象的目标图像，并将该目标图像粘贴在待标注对象在点标注图像中的位置处，并将该目标图像所对应的预测框作为该待标注对象的目标预测框，从而得到图6所示的图像。

可选的，在从预设图像库中获取目标图像的过程中，终端设备检测到预设图像库中存在多个与目标对象类型相对应的图像时，进一步检测每个图像的图像尺寸，从多个图像中选择图像尺寸大于待标注对象的尺寸的图像作为目标图像。进一步的，在图像尺寸大于待标注对象的尺寸的图像为多个时，终端设备可结合待标注图像的整体图像尺寸来从多个图像中确定目标图像。

需要说明的是，通过对未匹配到预测框的待标注对象进行点引导复制粘贴操作，可以实现对训练样本的数据增强，减少了不匹配的目标像素点对模型训练的影响。

进一步的，确定了每个待标注对象所对应的目标预测框之后，终端设备基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像，然后再基于标注后的点标注图像和至少一张框标注图像生成目标训练样本。在得到目标训练样本之后，终端设备还可对确定像素点所对应的预测框的预设模型进行优化处理。

具体的，终端设备首先获取第一数据集以及第二数据集，并基于所有预测框信息计算第一数据集的交叉熵损失值，得到第一损失值。然后，计算每个子数据集所对应的置信度分数，并对置信度分数进行熵计算，得到第二数据集所对应的第二损失值。最后，终端设备计算第一损失值、第二损失值以及第三损失值之和，得到目标损失值，并基于目标损失值对预设模型的模型参数进行优化，得到优化后的预设模型。其中，第一数据集包含至少一张点标注图像所对应的所有预测框信息，第二数据集包括至少一张点标注图像所对应的所有点标注信息，第二数据集由多个子数据集组成，每个子数据集包括一个正标注点以及多个负标注点，正标注点为待标注对象所对应的目标像素点，负标注点为待标注对象所对应的非目标像素点；置信度分数与点标注图像的标注成本正相关；第三损失函数为预设模型所对应的初始损失值。

可选的，如图7所示，学生模型与预设模型的架构相同，学生模型在具有强大增强功能的框标记图像和点标记图像上进行优化。其中，目标损失值可由下式表示：

L＝L₃+λ₁L₁+λ₂L₂

在上式中，L为目标损失值；L₃为第三损失值；L₁为第一损失值；L₂为第二损失值；λ₁和λ₂为用于平衡这三个损失值的参数。

L₁满足下式：

其中，C表示类别数量；

表示图像界别的标签；φ_c表示预测的图像分类的分数；

在上式中，s表示分类器的输出；s^I表示I支路的分支，其中，

σ^I(·)表示在第一维度进行所进行的softmax操作；σ(s)表示分类器所对应的矩阵；

表示I支路所对应的矩阵；

其中，X^s＝σ(s)⊙σ^I(s^I)。

L₂满足下式：

其中，N_p为像素点的数量；

在上式中，

表示每个子数据集所对一棍的置信度分数；Ψ_i表示子数据集；

σ(·)和σP(·)表示softmax操作。

另外，在图7所示，第一数据集为预测框信息，其中，“+”表示该预测框为目标预测框，“-”表示该预测框与任意一个像素点均不匹配；第二数据集为点标注信息，其中，“+”表示正标注点，即存在与该像素点对应的目标预测框，“-”表示负标注点，即不与该像素点对应的目标预测框，由图7可知，第二数据集由多个子数据集A1和A2组成，每个子数据集均有一个正标注点。

基于上述内容可知，在本申请中，通过进行目标像素点与目标预测框之间的匹配，从而保证了为点标注图像中每个标注点选择合适的预测框作为伪标注框，进而避免了半监督学习中伪标注框的漏检和虚检的问题。此外，在本申请中，增加了图像级和点标注级的多实例学习损失函数，从而保证了点标注信息的充分利用。最后，本申请还使用标注点引导的复制粘贴的技术来实现训练样本的数据增强，从而保证了目标检测模型的训练精度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的训练样本的生成方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

本申请还提供了如图9所示的训练样本的生成方法。其中，图9是根据本申请实施例的训练样本的生成方法的流程图，由图9可知，该方法包括如下步骤：

步骤S902，显示至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点；

步骤S904，响应标注框预测指令，基于目标像素点确定每个待标注对象对应的目标预测框，并显示在至少一张点标注图像上显示目标预测框；

步骤S906，响应标注指令，基于目标预测框对每张点标注图像中的待标注对象进行标注，并显示标注后的点标注图像；

步骤S908，响应样本生成指令，基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，并显示目标训练样本的相关信息，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

基于上述步骤S902至步骤S908所限定的方案，可以获知，在本申请实施例中，采用半监督学习与弱监督学习相结合的方式，在获取到至少一张点标注图像以及至少一张框标注图像之后，通过基于点标注图像所包含的待标注对象的目标像素点确定点标注图像所包含的每个待标注对象的目标预测框，并基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像，然后，基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

实施例3

在上述运行环境下，本申请提供了如图10所示的训练样本的生成方法。其中，图10是根据本申请实施例的训练样本的生成方法的流程图，如图10所示，该方法包括如下步骤：

步骤S1002，云服务器获取终端设备发送的至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点。

步骤S1004，云服务器基于目标像素点确定每个待标注对象对应的目标预测框，并基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像。

步骤S1006，云服务器基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像。

步骤S1008，云服务器发送标注后的点标注图像至终端设备，以使终端设备基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，并基于目标训练样本训练目标检测模型，其中，目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

基于上述步骤S1002至步骤S1008所限定的方案，可以获知，在本申请实施例中，采用半监督学习与弱监督学习相结合的方式，在获取到至少一张点标注图像以及至少一张框标注图像之后，通过基于点标注图像所包含的待标注对象的目标像素点确定点标注图像所包含的每个待标注对象的目标预测框，并基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像，然后，基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

需要说明的是，在云服务器中，基于点标注图像中的目标像素点确定每个待标注对象的预测框，进而基于预测框对点标注图像进行标注，最后使用框标注图像和已标注的点标注图像组成训练目标检测模型的目标训练样本的具体方法与实施例1中的方法相同，在此不再赘述。

实施例4

本申请还提供了如图11所示的目标对象的检测方法。其中，图11是根据本申请实施例的目标对象的检测方法的流程图，如图11所示，该方法包括如下步骤：

步骤S1102，获取待检测图像，其中，待检测图像中至少包含待检测对象；

步骤S1104，将待检测图像输入至目标检测模型中，获取目标检测模型的输出结果，其中，目标检测模型是基于标注后的点标注图像以及至少一张框标注图像训练得到的，标注后的点标注图像是基于目标像素点所确定的目标预测框对与目标像素点所对应的待标注对象进行标注得到的，待标注对象为每张点标注图像中所包含的对象，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量；

步骤S1106，基于输出结果对待检测对象进行识别，得到识别结果。

基于上述步骤S1102至步骤S1106所限定的方案，可以获知，在本申请实施例中，采用半监督学习与弱监督学习相结合的方式，在获取到包含待检测对象的待检测图像之后，将待检测图像输入至目标检测模型中，并获取目标检测模型的输出结果，然后，基于输出结果对待检测对象进行识别，得到识别结果。其中，目标检测模型是基于标注后的点标注图像以及至少一张框标注图像训练得到的，标注后的点标注图像是基于目标像素点所确定的目标预测框对与目标像素点所对应的待标注对象进行标注得到的，待标注对象为每张点标注图像中所包含的对象，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量，至少一张点标注图像的数量大于至少一张框标注图像的数量。

实施例5

根据本申请实施例，还提供了一种用于实施上述训练样本的生成方法的装置，如图12所示，该装置120包括：获取模块1201、确定模块1203、标注模块1205以及生成模块1207。

其中，获取模块1201，用于获取至少一张点标注图像以及至少一张框标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量；确定模块1203，用于基于目标像素点确定每个待标注对象对应的目标预测框；标注模块1205，用于基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；生成模块1207，用于基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测。

此处需要说明的是，上述获取模块1201、确定模块1203、标注模块1205以及生成模块1207对应于实施例1中的步骤S202至步骤S208，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的电子设备10中。

实施例6

根据本申请实施例，还提供了一种用于实施上述实施例二所提供的方法的装置实施例，该装置包括：第一显示模块、第二显示模块、第三显示模块以及第四显示模块。

其中，第一显示模块，用于显示至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点；第二显示模块，用于响应标注框预测指令，基于目标像素点确定每个待标注对象对应的目标预测框，并显示在至少一张点标注图像上显示目标预测框；第三显示模块，用于响应标注指令，基于目标预测框对每张点标注图像中的待标注对象进行标注，并显示标注后的点标注图像；第四显示模块，用于响应样本生成指令，基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，并显示目标训练样本的相关信息，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

此处需要说明的是，上述第一显示模块、第二显示模块、第三显示模块以及第四显示模块对应于实施例2中的步骤S902至步骤S908，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例2所公开的内容。

实施例7

根据本申请实施例，还提供了一种用于实施上述实施例3所提供的方法的装置实施例，该装置包括：第一获取模块、第一确定模块、第一标注模块以及发送模块。

其中，第一获取模块，用于云服务器获取终端设备发送的至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点；第一确定模块，用于云服务器基于目标像素点确定每个待标注对象对应的目标预测框，并基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；第一标注模块，用于云服务器基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；发送模块，用于云服务器发送标注后的点标注图像至终端设备，以使终端设备基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，并基于目标训练样本训练目标检测模型，其中，目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

此处需要说明的是，上述第一获取模块、第一确定模块、第一标注模块以及发送模块对应于实施例3中的步骤S1002至步骤S1008，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例3所公开的内容。

实施例8

根据本申请实施例，还提供了一种训练样本的生成系统，该系统包括：处理器及存储器。

其中，存储器，与处理器连接，用于存储处理器的可执行指令；其中，处理器被配置为执行指令，以实现如上述实施例中的训练样本的生成方法以及目标对象的检测方法。

实施例9

本申请的实施例可以提供一种电子设备，该电子设备可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述电子设备也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述电子设备可以执行训练样本的生成方法中以下步骤的程序代码：获取至少一张点标注图像以及至少一张框标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量；基于目标像素点确定每个待标注对象对应的目标预测框；基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测。

可选地，图13是根据本申请实施例的一种电子设备的结构框图。如图13所示，该电子设备10可以包括：一个或多个(图中仅示出一个)处理器1302、存储器1304以及外设接口1306。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的训练样本的生成方法和目标对象的检测方法对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的训练样本的生成方法和目标对象的检测方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至电子设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取至少一张点标注图像以及至少一张框标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量；基于目标像素点确定每个待标注对象对应的目标预测框；基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测。

可选的，上述处理器还可以执行如下步骤的程序代码：基于预设模型确定目标像素点所对应的多个预测框；计算每个预测框所对应的置信度；根据置信度从多个预测框中确定目标预测框。

可选的，上述处理器还可以执行如下步骤的程序代码：基于预设模型确定目标像素点所对应的待标注对象的目标对象类型；并基于预设模型确定目标对象类型所对应的多个预测框，其中，多个预测框所对应的对象类型为目标对象类型。

可选的，上述处理器还可以执行如下步骤的程序代码：从多个预测框中确定置信度最大的初始预测框；在初始预测框的置信度大于或等于预设置信度时，确定初始预测框为目标预测框。

可选的，上述处理器还可以执行如下步骤的程序代码：在初始预测框的置信度小于预设置信度时，确定目标像素点所对应的待标注对象的目标对象类型；从预设图像库中获取目标图像，其中，目标图像包含目标对象，目标对象的对象类型为目标对象类型；在点标注图像中的目标图像位置上设置目标图像，其中，目标图像位置为待标注对象在点标注图像中的位置；确定目标图像所对应的预测框为目标预测框。

可选的，上述处理器还可以执行如下步骤的程序代码：计算每个预测框与每个目标像素点之间的空间成本以及分类成本，其中，空间成本表征确定目标像素点所对应的待标注对象的预测框的成本，分类成本表征对目标像素点所对应的待标注对象进行分类的成本；计算空间成本以及分类成本之和，得到每个预测框与每个目标像素点之间的预测成本；基于预测成本组成成本矩阵，其中，成本矩阵中的每个元素表征了在每个目标像素点下，每个预测框之间的置信度。

可选的，上述处理器还可以执行如下步骤的程序代码：在基于标注后的点标注图像和至少一张框标注图像生成目标训练样本之后，获取第一数据集以及第二数据集，其中，第一数据集包含至少一张点标注图像所对应的所有预测框信息，第二数据集包括至少一张点标注图像所对应的所有点标注信息，第二数据集由多个子数据集组成，每个子数据集包括一个正标注点以及多个负标注点，正标注点为待标注对象所对应的目标像素点，负标注点为待标注对象所对应的非目标像素点；基于所有预测框信息计算第一数据集的交叉熵损失值，得到第一损失值；计算每个子数据集所对应的置信度分数，其中，置信度分数与点标注图像的标注成本正相关；对置信度分数进行熵计算，得到第二数据集所对应的第二损失值；计算第一损失值、第二损失值以及第三损失值之和，得到目标损失值，其中，第三损失函数为预设模型所对应的初始损失值；基于目标损失值对预设模型的模型参数进行优化，得到优化后的预设模型。

可选的，上述处理器还可以执行如下步骤的程序代码：显示至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点；响应标注框预测指令，基于目标像素点确定每个待标注对象对应的目标预测框，并显示在至少一张点标注图像上显示目标预测框；响应标注指令，基于目标预测框对每张点标注图像中的待标注对象进行标注，并显示标注后的点标注图像；响应样本生成指令，基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，并显示目标训练样本的相关信息，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

可选的，上述处理器还可以执行如下步骤的程序代码：云服务器获取终端设备发送的至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点；云服务器基于目标像素点确定每个待标注对象对应的目标预测框，并基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；云服务器基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；云服务器发送标注后的点标注图像至终端设备，以使终端设备基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，并基于目标训练样本训练目标检测模型，其中，目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

可选的，上述处理器还可以执行如下步骤的程序代码：获取待检测图像，其中，待检测图像中至少包含待检测对象；将待检测图像输入至目标检测模型中，获取目标检测模型的输出结果，其中，目标检测模型是基于标注后的点标注图像以及至少一张框标注图像训练得到的，标注后的点标注图像是基于目标像素点所确定的目标预测框对与目标像素点所对应的待标注对象进行标注得到的，待标注对象为每张点标注图像中所包含的对象，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量，至少一张点标注图像的数量大于至少一张框标注图像的数量；基于输出结果对待检测对象进行识别，得到识别结果。

本领域普通技术人员可以理解，图12所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如，电子设备10还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图12所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例10

本申请的实施例还提供了一种计算机可读存储介质。可选地，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例所提供的计算机可读存储介质方法所执行的程序代码。

可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取至少一张点标注图像以及至少一张框标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量；基于目标像素点确定每个待标注对象对应的目标预测框；基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于预设模型确定目标像素点所对应的多个预测框；计算每个预测框所对应的置信度；根据置信度从多个预测框中确定目标预测框。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于预设模型确定目标像素点所对应的待标注对象的目标对象类型；并基于预设模型确定目标对象类型所对应的多个预测框，其中，多个预测框所对应的对象类型为目标对象类型。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：从多个预测框中确定置信度最大的初始预测框；在初始预测框的置信度大于或等于预设置信度时，确定初始预测框为目标预测框。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：在初始预测框的置信度小于预设置信度时，确定目标像素点所对应的待标注对象的目标对象类型；从预设图像库中获取目标图像，其中，目标图像包含目标对象，目标对象的对象类型为目标对象类型；在点标注图像中的目标图像位置上设置目标图像，其中，目标图像位置为待标注对象在点标注图像中的位置；确定目标图像所对应的预测框为目标预测框。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：计算每个预测框与每个目标像素点之间的空间成本以及分类成本，其中，空间成本表征确定目标像素点所对应的待标注对象的预测框的成本，分类成本表征对目标像素点所对应的待标注对象进行分类的成本；计算空间成本以及分类成本之和，得到每个预测框与每个目标像素点之间的预测成本；基于预测成本组成成本矩阵，其中，成本矩阵中的每个元素表征了在每个目标像素点下，每个预测框之间的置信度。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：在基于标注后的点标注图像和至少一张框标注图像生成目标训练样本之后，获取第一数据集以及第二数据集，其中，第一数据集包含至少一张点标注图像所对应的所有预测框信息，第二数据集包括至少一张点标注图像所对应的所有点标注信息，第二数据集由多个子数据集组成，每个子数据集包括一个正标注点以及多个负标注点，正标注点为待标注对象所对应的目标像素点，负标注点为待标注对象所对应的非目标像素点；基于所有预测框信息计算第一数据集的交叉熵损失值，得到第一损失值；计算每个子数据集所对应的置信度分数，其中，置信度分数与点标注图像的标注成本正相关；对置信度分数进行熵计算，得到第二数据集所对应的第二损失值；计算第一损失值、第二损失值以及第三损失值之和，得到目标损失值，其中，第三损失函数为预设模型所对应的初始损失值；基于目标损失值对预设模型的模型参数进行优化，得到优化后的预设模型。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：显示至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点；响应标注框预测指令，基于目标像素点确定每个待标注对象对应的目标预测框，并显示在至少一张点标注图像上显示目标预测框；响应标注指令，基于目标预测框对每张点标注图像中的待标注对象进行标注，并显示标注后的点标注图像；响应样本生成指令，基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，并显示目标训练样本的相关信息，其中，目标训练样本用于训练目标检测模型，目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：云服务器获取终端设备发送的至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点；云服务器基于目标像素点确定每个待标注对象对应的目标预测框，并基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；云服务器基于目标预测框对每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；云服务器发送标注后的点标注图像至终端设备，以使终端设备基于标注后的点标注图像和至少一张框标注图像生成目标训练样本，并基于目标训练样本训练目标检测模型，其中，目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取待检测图像，其中，待检测图像中至少包含待检测对象；将待检测图像输入至目标检测模型中，获取目标检测模型的输出结果，其中，目标检测模型是基于标注后的点标注图像以及至少一张框标注图像训练得到的，标注后的点标注图像是基于目标像素点所确定的目标预测框对与目标像素点所对应的待标注对象进行标注得到的，待标注对象为每张点标注图像中所包含的对象，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于至少一张框标注图像的数量，至少一张点标注图像的数量大于至少一张框标注图像的数量；基于输出结果对待检测对象进行识别，得到识别结果。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种训练样本的生成方法，其特征在于，包括：

获取至少一张点标注图像以及至少一张框标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，所述至少一张点标注图像的数量大于所述至少一张框标注图像的数量；

基于所述目标像素点确定所述每个待标注对象对应的目标预测框；

基于所述目标预测框对所述每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；

基于所述标注后的点标注图像和所述至少一张框标注图像生成目标训练样本，其中，所述目标训练样本用于训练目标检测模型，所述目标检测模型用于对待检测图像中的对象进行目标检测。

2.根据权利要求1所述的方法，其特征在于，基于所述目标像素点确定所述每个待标注对象对应的目标预测框，包括：

基于预设模型确定所述目标像素点所对应的多个预测框；

计算每个预测框所对应的置信度；

根据所述置信度从所述多个预测框中确定所述目标预测框。

3.根据权利要求2所述的方法，其特征在于，基于预设模型确定所述目标像素点所对应的多个预测框，包括：

基于所述预设模型确定所述目标像素点所对应的待标注对象的目标对象类型；

基于所述预设模型确定所述目标对象类型所对应的多个预测框，其中，所述多个预测框所对应的对象类型为所述目标对象类型。

4.根据权利要求2所述的方法，其特征在于，根据所述置信度从所述多个预测框中确定所述目标预测框，包括：

从所述多个预测框中确定所述置信度最大的初始预测框；

在所述初始预测框的置信度大于或等于预设置信度时，确定所述初始预测框为所述目标预测框。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在所述初始预测框的置信度小于所述预设置信度时，确定所述目标像素点所对应的待标注对象的目标对象类型；

从预设图像库中获取目标图像，其中，所述目标图像包含目标对象，所述目标对象的对象类型为所述目标对象类型；

在所述点标注图像中的目标图像位置上设置所述目标图像，其中，所述目标图像位置为所述待标注对象在所述点标注图像中的位置；

确定所述目标图像所对应的预测框为所述目标预测框。

6.根据权利要求2所述的方法，其特征在于，计算每个预测框所对应的置信度，包括：

计算所述每个预测框与每个所述目标像素点之间的空间成本以及分类成本，其中，所述空间成本表征确定所述目标像素点所对应的待标注对象的预测框的成本，所述分类成本表征对所述目标像素点所对应的待标注对象进行分类的成本；

计算所述空间成本以及所述分类成本之和，得到每个所述预测框与每个所述目标像素点之间的预测成本；

基于所述预测成本组成成本矩阵，其中，所述成本矩阵中的每个元素表征了在每个所述目标像素点下，所述每个预测框之间的置信度。

7.根据权利要求2所述的方法，其特征在于，在基于所述标注后的点标注图像和所述至少一张框标注图像生成目标训练样本之后，所述方法还包括：

获取第一数据集以及第二数据集，其中，所述第一数据集包含所述至少一张点标注图像所对应的所有预测框信息，所述第二数据集包括所述至少一张点标注图像所对应的所有点标注信息，所述第二数据集由多个子数据集组成，每个子数据集包括一个正标注点以及多个负标注点，所述正标注点为所述待标注对象所对应的目标像素点，所述负标注点为所述待标注对象所对应的非目标像素点；

基于所述所有预测框信息计算所述第一数据集的交叉熵损失值，得到第一损失值；

计算每个子数据集所对应的置信度分数，其中，所述置信度分数与所述点标注图像的标注成本正相关；

对所述置信度分数进行熵计算，得到所述第二数据集所对应的第二损失值；

计算所述第一损失值、所述第二损失值以及第三损失值之和，得到目标损失值，其中，所述第三损失函数为所述预设模型所对应的初始损失值；

基于所述目标损失值对所述预设模型的模型参数进行优化，得到优化后的预设模型。

8.一种训练样本的生成方法，其特征在于，包括：

显示至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点；

响应标注框预测指令，基于所述目标像素点确定所述每个待标注对象对应的目标预测框，并显示在所述至少一张点标注图像上显示所述目标预测框；

响应标注指令，基于所述目标预测框对所述每张点标注图像中的待标注对象进行标注，并显示标注后的点标注图像；

响应样本生成指令，基于所述标注后的点标注图像和至少一张框标注图像生成目标训练样本，并显示所述目标训练样本的相关信息，其中，所述目标训练样本用于训练目标检测模型，所述目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，所述至少一张点标注图像的数量大于所述至少一张框标注图像的数量。

9.一种训练样本的生成方法，其特征在于，包括：

云服务器获取终端设备发送的至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点；

所述云服务器基于所述目标像素点确定所述每个待标注对象对应的目标预测框，并基于所述目标预测框对所述每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；

所述云服务器基于所述目标预测框对所述每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；

所述云服务器发送所述标注后的点标注图像至所述终端设备，以使所述终端设备基于所述标注后的点标注图像和至少一张框标注图像生成目标训练样本，并基于所述目标训练样本训练目标检测模型，其中，所述目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，所述至少一张点标注图像的数量大于所述至少一张框标注图像的数量。

10.一种目标对象的检测方法，其特征在于，包括：

获取待检测图像，其中，所述待检测图像中至少包含待检测对象；

将所述待检测图像输入至目标检测模型中，获取所述目标检测模型的输出结果，其中，所述目标检测模型是基于标注后的点标注图像以及至少一张框标注图像训练得到的，所述标注后的点标注图像是基于目标像素点所确定的目标预测框对与所述目标像素点所对应的待标注对象进行标注得到的，所述待标注对象为每张点标注图像中所包含的对象，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，至少一张点标注图像的数量大于所述至少一张框标注图像的数量；

基于所述输出结果对所述待检测对象进行识别，得到识别结果。

11.一种训练样本的生成装置，其特征在于，包括：

获取模块，用于获取至少一张点标注图像以及至少一张框标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，所述至少一张点标注图像的数量大于所述至少一张框标注图像的数量；

确定模块，用于基于所述目标像素点确定所述每个待标注对象对应的目标预测框；

标注模块，用于基于所述目标预测框对所述每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；

生成模块，用于基于所述标注后的点标注图像和所述至少一张框标注图像生成目标训练样本，其中，所述目标训练样本用于训练目标检测模型，所述目标检测模型用于对待检测图像中的对象进行目标检测。

12.一种训练样本的生成装置，其特征在于，包括：

第一显示模块，用于显示至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点；

第二显示模块，用于响应标注框预测指令，基于所述目标像素点确定所述每个待标注对象对应的目标预测框，并显示在所述至少一张点标注图像上显示所述目标预测框；

第三显示模块，用于响应标注指令，基于所述目标预测框对所述每张点标注图像中的待标注对象进行标注，并显示标注后的点标注图像；

第四显示模块，用于响应样本生成指令，基于所述标注后的点标注图像和至少一张框标注图像生成目标训练样本，并显示所述目标训练样本的相关信息，其中，所述目标训练样本用于训练目标检测模型，所述目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，所述至少一张点标注图像的数量大于所述至少一张框标注图像的数量。

13.一种训练样本的生成装置，其特征在于，包括：

第一获取模块，用于云服务器获取终端设备发送的至少一张点标注图像，其中，每张点标注图像包含至少一个待标注对象，以及与每个待标注对象所对应的目标像素点；

第一确定模块，用于所述云服务器基于所述目标像素点确定所述每个待标注对象对应的目标预测框，并基于所述目标预测框对所述每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；

第一标注模块，用于所述云服务器基于所述目标预测框对所述每张点标注图像中的待标注对象进行标注，得到标注后的点标注图像；

发送模块，用于所述云服务器发送所述标注后的点标注图像至所述终端设备，以使所述终端设备基于所述标注后的点标注图像和至少一张框标注图像生成目标训练样本，并基于所述目标训练样本训练目标检测模型，其中，所述目标检测模型用于对待检测图像中的对象进行目标检测，每张框标注图像包含至少一个已标注对象，以及与每个已标注对象所对应的目标标注框，所述至少一张点标注图像的数量大于所述至少一张框标注图像的数量。

14.一种计算机可读存储介质，其特征在于，计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至9中任意一项所述的训练样本的生成方法以及权利要求10中的目标对象的检测方法。

15.一种电子设备，其特征在于，电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现用于运行程序，其中，所述程序被设置为运行时执行所述权利要求1至9中任意一项所述的训练样本的生成方法以及权利要求10中的目标对象的检测方法。

16.一种训练样本的生成系统，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于存储所述处理器的可执行指令；其中，所述处理器被配置为执行所述指令，以实现如权利要求1至9中任意一项所述的训练样本的生成方法以及权利要求10中的目标对象的检测方法。