CN110288019A

CN110288019A - 图像标注方法、装置和存储介质

Info

Publication number: CN110288019A
Application number: CN201910546282.8A
Authority: CN
Inventors: 李曙鹏; 赵鹏昊; 张海滨; 徐彬彬; 高晨昊; 赵颖; 谢永康; 施恩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-09-27

Abstract

本申请提供一种图像标注方法、装置和存储介质，该方法包括：接收用户输入的待检测图像，待检测图像中包括位于目标场景中的目标对象；采用物体检测模型，标注待检测图像中的目标对象，物体检测模型是根据待训练图像集训练得到的，待训练图像集中包括：由包含与目标场景的场景类型相同的场景的图像，以及包含目标对象的图像合成的多个待训练图像。本申请中图像标注采用的物体检测模型所使用的待训练图像集中的图像是由包含有目标对象和与目标场景的场景类型相同的场景的图像合成的，不需要对图像进行预先标注，提高了得到物体检测模型的效率，进而提高了图像标注的效率。

Description

图像标注方法、装置和存储介质

技术领域

本申请涉及深度学习技术领域，尤其涉及一种图像标注方法、装置和存储介质。

背景技术

随着深度学习技术的发展，越来越多的场景中采用基于深度学习技术获取的物体检测模型来解决实际问题。例如，针对商品的货架巡检、无人结算等场景，针对农作物的无人机巡检场景，以及针对工业标准零件的流水线检测场景等。其中，物体检测模型，可以对图像中的目标对象进行识别标注。如在无人结算场景中，物体检测模型可以对获取的图像中的商品进行识别标注，进而对图像中的商品进行结算，达到无人结算的目的。

现有技术中，需要采集并标注大量的图像作为训练数据，训练得到物体检测模型。现有技术中的训练数据的获取效率低，进而导致图像的标注效率低。

发明内容

本申请提供一种图像标注方法、装置和存储介质，提高了图像标注的效率。

本申请的第一方面提供一种图像标注方法，包括：

获取待检测图像，所述待检测图像中包括位于目标场景中的目标对象；

采用物体检测模型，标注所述待检测图像中的目标对象，所述物体检测模型是根据待训练图像集训练得到的，所述待训练图像集中包括：由包含与所述目标场景的场景类型相同的场景的图像，以及包含所述目标对象的图像合成的多个待训练图像。

可选的，所述获取待检测图像之前，还包括：

接收用户输入的模型请求信息，所述模型请求信息包括：所述目标对象的标识和所述目标场景的场景类型；

根据所述目标对象的标识和所述场景类型，在图像模板数据库中获取所述目标对象的对象图像集和所述场景类型对应的场景图像集，所述目标对象的对象图像集中的图像为：包含所述目标对象的图像，所述场景类型对应的场景图像集中的图像为：包含与所述目标场景的场景类型相同的场景的图像；

根据所述目标对象的对象图像集和所述场景类型对应的场景图像集，获取所述待训练图像集；

将所述待训练图像集作为训练数据，训练得到所述物体检测模型。

可选的，所述图像模板数据库包括：对象模板数据库和场景模板数据库，所述对象模板数据库中包括多个对象的对象图像集和每个所述对象的标识，所述场景模板数据库中包括多个场景类型对应的场景图像集；

所述在图像模板数据库中获取所述目标对象的对象图像集和所述场景类型对应的场景图像集，包括：

根据所述目标对象的标识和每个所述对象的标识，在所述对象模板数据库中获取所述目标对象的第一对象图像集；

根据所述第一对象图像集中图像的图像特征，在所述对象模板数据库中获取第二对象图像集，所述第二对象图像集中图像的图像特征与所述第一对象图像集中图像的图像特征的相似度大于相似度阈值；

将所述第一对象图像集和所述第二对象图像集的集合作为所述目标对象的对象图像集；

根据所述场景类型，在所述场景模板数据库中获取所述场景类型对应的场景图像集。

可选的，所述将所述待训练图像集作为训练数据，训练得到所述物体检测模型，包括：

在所述待训练图像集中，将由所述第一对象图像集获取的待训练图像作为正样本训练数据、将由所述第二对象图像集获取的待训练图像作为负样本训练数据，训练得到所述物体检测模型。

可选的，所述目标对象的对象图像集中的图像是以所述目标对象为前景区域的图像；所述根据所述目标对象的对象图像集和所述场景类型对应的场景图像集，获取待训练图像集，包括：

获取所述目标对象的对象图像集中每个图像的掩码图，所述掩码图用于表征图像的前景区域；

获取所述场景类型对应的场景图像集中每个场景图像的待合成位置，所述待合成位置为所述掩码图的合成位置；

在所述每个场景图像的待合成位置，将所述每个图像的掩码图合成至所述每个场景图像中，获取多个待训练图像；

根据所述多个待训练图像，获取所述待训练图像集。

可选的，所述模型请求信息还包括：所述目标对象在所述目标场景中的至少一个已标注图像；所述根据所述多个待训练图像，获取所述待训练图像集，包括：

根据所述已标注图像的图像风格，将每个所述待训练图像的图像风格进行转换，使得转换后的待训练图像的图像风格与所述已标注图像的图像风格相同；

根据所述转换后的待训练图像，获取所述待训练图像集。

可选的，所述目标对象的对象图像集包括：所述目标对象的多个角度的图像，每个角度的图像中设置有角度标签，所述角度标签用于指示所述图像中目标对象的拍摄角度；所述获取所述目标对象的对象图像集中每个图像的掩码图之前，还包括：

根据所述目标对象的对象图像集中每个图像的角度标签，在所述目标对象的对象图像集中删除不符合所述场景类型对应的角度的图像。

可选的，所述获取所述目标对象的对象图像集中每个图像的掩码图之后，还包括：

对所述每个图像的掩码图进行图像增强处理。

可选的，所述图像增强处理包括：旋转增强、遮挡增强、缩放增强、干扰增强，视角增强中的至少一项。

可选的，所述训练得到所述物体检测模型之后，还包括：

根据所述物体检测模型，对所述待训练图像集中的待训练图像中的目标对象进行标注，获取所述待训练图像的标注结果；

根据所述至少一个已标注图像的标注结果和所述待训练图像的标注结果，获取标注错误的待训练图像；

将所述标注错误的待训练图像作为训练数据，对所述物体检测模型进行优化训练，得到优化后的物体检测模型。

本申请的第二方面提供一种图像标注装置，包括：

处理模块，用于获取待检测图像，所述待检测图像中包括位于目标场景中的目标对象；采用物体检测模型，标注所述待检测图像中的目标对象，所述物体检测模型是根据待训练图像集训练得到的，所述待训练图像集中包括：由包含与所述目标场景的场景类型相同的场景的图像，以及包含所述目标对象的图像合成的多个待训练图像。

可选的，所述装置还包括：收发模块；

所述收发模块，用于接收用户输入的模型请求信息，所述模型请求信息包括：所述目标对象的标识和所述目标场景的场景类型。

所述处理模块，还用于根据所述目标对象的标识和所述场景类型，在图像模板数据库中获取所述目标对象的对象图像集和所述场景类型对应的场景图像集，所述目标对象的对象图像集中的图像为：包含所述目标对象的图像，所述场景类型对应的场景图像集中的图像为：包含与所述目标场景的场景类型相同的场景的图像；根据所述目标对象的对象图像集和所述场景类型对应的场景图像集，获取所述待训练图像集；将所述待训练图像集作为训练数据，训练得到所述物体检测模型。

可选的，所述图像模板数据库包括：对象模板数据库和场景模板数据库，所述对象模板数据库中包括多个对象的对象图像集和每个所述对象的标识，所述场景模板数据库中包括多个场景类型对应的场景图像集。

对应的，所述处理模块，具体用于根据所述目标对象的标识和每个所述对象的标识，在所述对象模板数据库中获取所述目标对象的第一对象图像集；根据所述第一对象图像集中图像的图像特征，在所述对象模板数据库中获取第二对象图像集，所述第二对象图像集中图像的图像特征与所述第一对象图像集中图像的图像特征的相似度大于相似度阈值；将所述第一对象图像集和所述第二对象图像集的集合作为所述目标对象的对象图像集；根据所述场景类型，在所述场景模板数据库中获取所述场景类型对应的场景图像集。

可选的，所述处理模块，具体用于在所述待训练图像集中，将由所述第一对象图像集获取的待训练图像作为正样本训练数据、将由所述第二对象图像集获取的待训练图像作为负样本训练数据，训练得到所述物体检测模型。

可选的，所述目标对象的对象图像集中的图像是以所述目标对象为前景区域的图像。

对应的，所述处理模块，具体用于获取所述目标对象的对象图像集中每个图像的掩码图，所述掩码图用于表征图像的前景区域；获取所述场景类型对应的场景图像集中每个场景图像的待合成位置，所述待合成位置为所述掩码图的合成位置；在所述每个场景图像的待合成位置，将所述每个图像的掩码图合成至所述每个场景图像中，获取多个待训练图像；根据所述多个待训练图像，获取所述待训练图像集。

可选的，所述模型请求信息还包括：所述目标对象在所述目标场景中的至少一个已标注图像。

对应的，所述处理模块，还用于根据所述已标注图像的图像风格，将每个所述待训练图像的图像风格进行转换，使得转换后的待训练图像的图像风格与所述已标注图像的图像风格相同；根据所述转换后的待训练图像，获取所述待训练图像集。

可选的，所述目标对象的对象图像集包括：所述目标对象的多个角度的图像，每个角度的图像中设置有角度标签，所述角度标签用于指示所述图像中目标对象的拍摄角度。

所述处理模块，还用于根据所述目标对象的对象图像集中每个图像的角度标签，在所述目标对象的对象图像集中删除不符合所述场景类型对应的角度的图像。

可选的，所述处理模块，还用于对所述每个图像的掩码图进行图像增强处理。

可选的，所述处理模块，还用于根据所述物体检测模型，对所述待训练图像集中的待训练图像中的目标对象进行标注，获取所述待训练图像的标注结果；根据所述至少一个已标注图像的标注结果和所述待训练图像的标注结果，获取标注错误的待训练图像；将所述标注错误的待训练图像作为训练数据，对所述物体检测模型进行优化训练，得到优化后的物体检测模型。

本申请的第三方面提供一种图像标注装置，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述图像标注装置执行上述图像标注方法。

本申请的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现上述图像标注方法。

附图说明

图1为本申请提供的图像标注方法适用的场景示意图；

图2为本申请提供的图像标注方法的流程示意图；

图3为本申请提供的待检测图像的示意图一；

图4为本申请提供的待检测图像的示意图二；

图5为本申请提供的待检测图像的示意图三；

图6为本申请提供的训练得到物体检测模型的流程示意图；

图7为本身请提供的以文字框的方式输入模型请求信息的示意图；

图8为本申请提供的图像标注装置的结构示意图一；

图9为本申请提供的图像标注装置的结构示意图二。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请的实施例，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决现有技术中图像标注效率低的问题，本申请提供了一种图像标注方法，通过提高训练物体检测模型的效率，以达到提高图像标注的效率的目的。其中，通过提高获取训练物体检测模型的待训练图像集的效率，提高训练物体检测模型的效率。

图1为本申请提供的图像标注方法适用的场景示意图。如图1所示，本申请提供的图像标注方法适用的场景中可以包括：图像标注装置和拍摄装置。其中，拍摄装置可以获取待检测图像，应理解，待检测对象即为待标注图像。本申请中采用物体检测模型对待检测图像的检测，即为对待检测图像中的目标对象的标注。拍摄装置在获取待检测图像后，可以将待检测图像发送给图像标注装置，或者图像标注装置可以从用于存储拍摄装置拍摄的待检测图像的存储装置中获取待检测图像。

图像标注装置可以对待检测图像中的目标对象进行标注。可选的，本申请中的图像标注装置可以但不限于为服务器、终端等电子设备。下述实施例中以图像标注装置为服务器为例进行说明。

图1中的场景为一种示例，本申请提供的图像标注方法可以由图像标注装置执行，即图像标注装置可以执行上述拍摄待检测图像，以及对待检测图像进行标注的步骤。

图2为本申请提供的图像标注方法的流程示意图。图2所示方法流程的执行主体可以为图像标注装置，该图像标注装置可由任意的软件和/或硬件实现。如图2所示，本实施例提供的图像标注方法可以包括：

S201，获取待检测图像，待检测图像中包括位于目标场景中的目标对象。

本实施例中的待检测图像可以为拍摄装置拍摄后发送至图像标注装置的；或者可以是图像标注装置中集成有拍摄功能，其拍摄获取的；或者待检测图像可以为用户输入至图像标注装置中的。其中，待检测图像中包括位于目标场景中的目标对象。目标对象可以为待检测的对象(待标注的对象)，目标场景可以为目标对象所在的场景。

图3为本申请提供的待检测图像的示意图一，图4为本申请提供的待检测图像的示意图二，图5为本申请提供的待检测图像的示意图三。如图3所示，待检测图像中的目标场景为大型商场1的货架场景，目标对象可以为货架上的商品。如图4所示，待检测图像中的目标场景为小型超市2的货架场景，目标对象可以为货架上的商品。如图5所示，待检测图像中的目标场景为无人结算台3场景，目标对象可以为无人结算台3上的商品。可选的，待检测图像中的目标场景还可以为流水线平台，目标对象可以为流水线平台上的工业标准零件等。应理解，根据本申请中应用场景的不同，待检测图像中的目标场景和目标对象也不同。但应注意的是，在对待检测图像检测之前，可以确定目标场景和目标对象。

S202，采用物体检测模型，标注待检测图像中的目标对象，物体检测模型是根据待训练图像集训练得到的，待训练图像集中包括：由包含与目标场景的场景类型相同的场景的图像，以及包含目标对象的图像合成的多个待训练图像。

物体检测模型，用于对待检测图像中的目标对象进行检测、标注。可选的，对待检测图像中的目标对象进行标注可以是在待检测图像中对目标对象采用检测框进行标注。如图5所示，图5中的目标对象可以为对象A，图5中采用检测框对对象A进行标注。

本实施例中的物体检测模型是根据待训练图像集训练得到的。为了说明本实施例中的待训练图像集与现有技术中的不同，下述对现有技术中训练物体检测模型的待训练图像集进行说明。其中，现有技术中的待训练图像集中的待训练图像是在实际场景中采集的包含有目标对象的图像，且还需要对待训练图像进行标注，即现有技术中的待训练图像集中的待训练图像是实际场景中采集并标注的图像。为了使得训练得到的物体检测模型具有高的精确度和泛化性，一般需要采集并标注大量的待训练图像，使得获取待训练图像集的效率低。

与现有技术中训练得到物体检测模型的待训练图像集不同的是，本实施例中的待训练图像集中的待训练图像是合成的，具体是通过包含与目标场景的场景类型相同的场景的图像，以及包含目标对象的图像合成的多个待训练图像合成的。

其中，目标场景的场景类型例如可以为大型商场货架场景、小型超市货架场景或无人结算台场景等。目标场景可以为大型超市1的货架场景，与目标场景的场景类型相同的场景可以为大型超市1'的货架场景、大型超市1”的货架场景等。

包含目标对象的图像可以是仅包含有目标对象的图像，也可以是包含有目标对象和目标场景的图像，或者也可以是包含有目标对象和其他非目标场景的图像。本实施例中对包含目标对象的图像的类型不做限制，只要其中包含有目标对象即可。

其中，包含与目标场景的场景类型相同的场景的图像，以及包含目标对象的图像可以是预先获取并存储在图像标注装置中的，或者是预先获取并存储在数据库中的。

本实施例中，由于待训练图像集中的待训练图像是由包含有目标对象的图像和包含有目标场景相似的场景的图像合成的，在图像合成时，可以确定合成图像中目标对象的像素坐标等信息，即相当于已对目标对象进行标注。避免了采用复杂的标注方法对待训练图像中的目标对象进行标注造成的获取待训练图像集效率低的问题。对应的，本实施例中提高了待训练图像集的效率，进而能够提高训练物体检测模型的效率，进而提高了图像标注的效率。

本实施例提供的图像标注方法包括：接收用户输入的待检测图像，待检测图像中包括位于目标场景中的目标对象；采用物体检测模型，标注待检测图像中的目标对象，物体检测模型是根据待训练图像集训练得到的，待训练图像集中包括：由包含与目标场景的场景类型相同的场景的图像，以及包含目标对象的图像合成的多个待训练图像。本实施例中图像标注采用的物体检测模型所使用的待训练图像集中的图像是由包含有目标对象和与目标场景的场景类型相同的场景的图像合成的，因为在合成待训练图像时即可获取包含有目标对象图像在合成的图像中的像素块信息(即标注信息)，因此避免了现有技术中需要对图像进行预先标注的问题，提高了得到物体检测模型的效率，进而提高了图像标注的效率。

在上述实施例的基础上，下述实施例中结合图6对如何获取待训练图像集，以及如何根据待训练图像集训练得到物体检测模型进行详细说明。图6为本申请提供的训练得到物体检测模型的流程示意图。如图6所示，本实施例提供的训练得到物体检测模型可以包括：

S601，接收用户输入的模型请求信息，模型请求信息包括：目标对象的标识和目标场景的场景类型。

本实施例中的物体检测模型的训练装置可以为上述实施例中的图像标注装置，或者为不同于图像标注装置的其他装置，在训练装置训练得到物体检测模型后，可以将该物体检测模型发送给图像标注装置使用。本实施例中以图像标注装置为训练物体检测模型的装置为例进行说明。

应理解，在物体检测模型的训练过程中，由于待训练图像集的不同，获取的物体检测模型也不同。示例性的，待训练图像集中为在大型超市的货架场景中的目标对象的图像。对应的，其训练得到的物体检测模型应用于对大型超市的货架场景中的目标对象的检测、标注，若将该物体检测模型应用于对无人结算台场景中的目标对象的检测、标注，则标注的精度低，效果差。因此，现有技术中对于不同的应用场景，需要在不同的场景下采集标注图像，获取不同场景下的物体检测模型，效率低。

而本实施例中的图像标注装置可以根据用户的请求，训练得到不同场景下应用的物体检测模型。其中，在用户需要获取对目标场景中的目标对象进行检测的物体检测模型时，可以通过语音输入、文字框输入的方式输入模型请求信息。对应的，图像标注装置接收用户输入的模型请求信息。

其中，模型请求信息包括：目标对象的标识和目标场景的场景类型。可选的，目标对象的标识可以为如下任一项：目标对象的名称、品牌、规格、种类。目标场景的场景类型可以为：大型商场的货架场景、小型超市的货架场景、无人结算台场景或流水线平台场景等。

图7为本身请提供的以文字框的方式输入模型请求信息的示意图。如图7所示，示例性的，目标对象为一饮品，饮品的标识可以为：500ml的品牌X的饮品A。场景类型为：大型商场的货架场景。图7中以图像标注装置为智能手机为例进行说明。

S602，根据目标对象的标识和场景类型，在图像模板数据库中获取目标对象的对象图像集和场景类型对应的场景图像集。

本实施例中预先设置有图像模板数据库。图像模板数据库中包括多个对象的对象图像集和多个场景类型对应的场景图像集。其中，每个对象的对象图像集可以包括：对象的不同角度的图像，对象的不同角度的图像可以是位于相同或不同场景下的图像。每个场景类型对应的场景图像集中可以包括：每个场景类型包括的场景集的图像。例如，大型商场的货架场景类型包括的场景集的图像可以为：大型商场1的货架场景的图像、大型商场2的货架场景的图像、大型商场3的货架场景的图像。

其中，图像模板数据库中每个对象的对象图像集标记有对象的标识，场景类型对应的场景图像集标记有场景类型。本实施例中可以根据目标对象的标识和和场景类型，在图像模板数据库中获取目标对象的对象图像集和场景类型对应的场景图像集。具体的，是根据目标对象的标识和图像模板数据库中每个对象图像集的对象的标识，获取目标对象的对象图像集。根据场景类型和每个场景图像集标记的场景类型，获取用户输入的场景类型对应的场景图像集。其中，目标对象的对象图像集中的图像为：包含目标对象的图像，场景类型对应的场景图像集中的图像为：包含与目标场景的场景类型相同的场景的图像。

示例性的，目标对象的标识为：500ml的品牌X的饮品A。场景类型为：大型商场的货架场景。对应的，在图像模板数据库中获取的目标对象的对象图像集可以为500ml的品牌X的饮品A在不同角度的图像。在图像模板数据库中获取的场景图像集可以为大型商场1的货架场景图像和大型商场2的货架场景图像。

可选的，本实施例中的图像模板数据库包括：对象模板数据库和场景模板数据库，对象模板数据库中包括多个对象的对象图像集和每个对象的标识，场景模板数据库中包括多个场景类型对应的场景图像集。

本实施例中可以根据目标对象的标识和每个对象的标识，在对象模板数据库中获取目标对象的第一对象图像集。该第一对象图像集是通过标识进行精准匹配获取的。对于物体检测模型来说，检测效果通常会受相似对象所干扰，因此在对象模板数据库的图像数据量足够大的情况下，可以通过相似检索获得干扰对象的图像集，可以将干扰对象的图像集作为负样本训练数据，以提高物体检测模型的泛化效果。其中，在获取第一对象图像集后，由于第一对象图像集中的均包括目标对象，可以根据第一对象图像集中图像的图像特征，在对象模板数据库中获取第二对象图像集。具体的，通过第一对象图像集中图像的图像特征与对象模板数据库中其他对象图像集中的图像的图像特征进行相似度计算，以获取相似度大于相似度阈值的第二对象图像集。应理解，第二对象图像集中图像的图像特征与第一对象图像集中图像的图像特征的相似度大于相似度阈值。本实施例中将第一对象图像集和第二对象图像集的集合作为目标对象的对象图像集。

对应的，本实施例中可以根据场景类型，在场景模板数据库中获取场景类型对应的场景图像集。

可选的，本实施例中的对象模板数据库中的图像可以为人工众包采集、智能化设备采集或者通过已有的标准3D模型进行多角度渲染等方式获取。场景模板数据库中的图像可以通过人工众包采集或者网络爬取等方式获取。

S603，根据目标对象的对象图像集和场景类型对应的场景图像集，获取待训练图像集。

目标对象的对象图像集中包括的图像为包含有目标对象的图像，场景类型对应的场景图像集为：包含与目标场景的场景类型相同的场景的图像，本实施例中可以采用将目标对象的对象图像集中的图像和场景类型对应的场景图像集中的图像进行合成的方式，生成待训练图像，进而获取待训练图像集。可选的，本实施例中可以将对象图像集中的每个图像与场景图像集中的每个图像进行合成，生成多个待训练图像，该多个待训练图像的集合即为待训练图像集。

下述对获取待训练图像集的方式进行详细说明。

不同的场景中目标对象的排列方式不同和检测方式不同，例如，大小型超市的货架场景的商品通常根据货架排列整齐，通常检测图像时检测商品的正视图或侧视图，如图3和图4所示。而无人结算台场景中的商品通常摆放较为凌乱，且出现较多重叠的情况，通常检测图像时检测商品的俯视图，如图5所示。本实施例中的目标对象的对象图像集包括：目标对象的多个角度的图像，每个角度的图像中设置有角度标签，角度标签用于指示图像中目标对象的拍摄角度。

本实施例中，可以根据目标对象的对象图像集中每个图像的角度标签，在目标对象的对象图像集中删除不符合场景类型对应的角度的图像。例如，场景类型为：大型商场的货架场景。对应的，在目标对象的对象图像集中删除目标对象的俯视图，即删除不符合该大型商场的货架场景对应的俯视角度的图像。

本实施例中的目标对象的对象图像集中的图像是以目标对象为前景区域的图像，其中，背景区域可以包含或者不包含场景，即目标对象的对象图像集中的图像可以为仅包含有目标对象的图像，或者是背景区域为场景、前景区域为目标对象的图像。

本实施例中获取目标对象的对象图像集中每个图像的掩码图，掩码图用于表征图像的前景区域。由于目标对象的对象图像集中每个图像可能会包含有背景区域，该步骤提取每个图像的掩码图的目的是为了删除每个图像中的背景区域，以获取目标对象主体。可选的，本实施例中可以通过显著性检测方式确定目标对象的对象图像集中每个图像的前景区域和背景区域，进一步的，可以将显著性检测后的图像输入至语义分割模型中，以获取目标对象的对象图像集中每个图像的掩码图。

可选的，本实施例中还可以将显著性检测后的图像作为训练数据训练得到语义分割模型，以提高语义分割模型的准确度，以提高获取的掩码图的效果。

在获取目标对象的对象图像集中的每个图像的掩码图后，为了增加待训练图像集中符合场景类型对应的角度的图像，以及使得获取的目标对象的对象图像集中的图像更为贴合目标场景，本实施例中可以对每个图像的掩码图进行图像增强处理。其中，图像增强处理包括：旋转增强、遮挡增强、缩放增强、干扰增强，视角增强中的至少一项。例如，在场景类型为无人结算台场景时，其中的商品通常摆放较为凌乱，且出现较多重叠的情况，因此在获取待训练图像集时可以选择遮挡增强、干扰增强等增强处理方式对每个图像的掩码图进行图像增强处理。应理解，本实施例中可以保存有增强处理前的每个图像的掩码图，以及增强处理后的每个图像的掩码图，以增加待训练图像集中的图像。

本实施例中，可以获取场景类型对应的场景图像集中每个场景图像的待合成位置，待合成位置为掩码图的合成位置。其中，图像标注装置中可以存储有每个场景图像的待合成位置，例如，场景图像为大型超市的货架场景，则可以获取场景图像的货架上可放置商品的像素坐标，该像素坐标为场景图像的待合成位置。可选的，本实施例中可以预先采用语义分割模型对场景图像集中每个场景图像进行语义分割，以获取场景图像的待合成位置。

在每个场景图像的待合成位置，将每个图像的掩码图合成至每个场景图像中，获取多个待训练图像。示例性的，对于一个场景图像，可以将每个图像的掩码图合成在该场景图像的待合成位置处，以获取待训练图像。采用相同的方式，可以获取多个待训练图像。根据多个待训练图像，获取待训练图像集，其中，多个待训练图像的集合为待训练图像集。

值得注意的是，本实施例中，在对场景图像和掩码图进行合成时，由于预先确定了待合成位置，且掩码图在待合成位置处进行合成时，可以确定最终合成的图像中的掩码图(即目标对象)的像素坐标，相当于从合成图像的过程中获取目标对象的标注信息，避免了对目标对象进行标注的问题。

可选的，本实施例中的模型请求信息还包括：目标对象在目标场景中的至少一个已标注图像。合成的图像与实际场景中拍摄的目标对象的已标注图像存在一定的偏差，本实施例中可以通过生成对抗网络将合成的图像与已标注图像进行精细化调整，实现风格转换，以避免合成的图像的违和感。

本实施例中，可以根据已标注图像的图像风格，将每个待训练图像的图像风格进行转换，使得转换后的待训练图像的图像风格与已标注图像的图像风格相同。其中，在获取合成的图像后，可以选择合成的图像中的部分或全部图像，以及至少一个已标注图像作为训练数据，采用循环对抗生成网络(Cycle Generative Adversarial Networks，CycleGAN)或循环一致性对抗域适应方式CYCADA生成风格转换器，通过该风格转换器可以将每个待训练图像的图像风格进行转换，使得转换后的待训练图像的图像风格与已标注图像的图像风格相同。其中，图像风格可以为图像的曝光量、清晰度等其他图像特征。

本实施例中，可以将上述转换风格后的待训练图像的集合作为待训练图像集，

S604，将待训练图像集作为训练数据，训练得到物体检测模型。

本实施例中，可以在待训练图像集中，将由第一对象图像集获取的待训练图像作为正样本训练数据、将由第二对象图像集获取的待训练图像作为负样本训练数据，训练得到物体检测模型。可选的，本实施例中物体检测模型的训练方法可以参照“采用已标注图像训练得到物体检测模型”的训练方法，在此不做赘述。

可选的，在应用物体检测模型时，可以根据不同的任务设置不同的超参数，如库存量(Stock Keeping Unit，SKU)类别数、锚框大小和长宽比、最大检测数目等，底层基于容器编排服务(如kubernetes)和共享存储(如cephfs)，能够将不同用户的定制化任务自动地分配到集群中进行分布式训练优化。

其中，本实施例中，还可以在待训练图像集中采用了动态采样技术，即在给物体检测模型喂取图像数据时，还可以对至少一个已标注图像和待训练图像集中的待训练图像进行动态采样，保证两者的比例在一定范围(如1：5)内，防止数据不平衡。

为了进一步提高物体检测模型的检测准确度，还可以对物体检测模型进行优化。

本实施例中可以根据物体检测模型，对待训练图像集中的待训练图像中的目标对象进行标注，获取待训练图像的标注结果。根据至少一个已标注图像的标注结果和待训练图像的标注结果，获取标注错误的待训练图像。可选的，本实施例中对待训练图像的标注结果可以为在待训练图像中对目标对象标注检测框，其中检测框中的像素块均属于目标对象。通过比较至少一个已标注图像的标注结果中的检测框和待训练图像的标注结果中的检测框，可以确定哪些待训练图像的标注结果是错误的。

可选的，本实施例中可以预先设置标注结果错误的规则，如两个检测框的重叠面积小于预设面积，或者两个检测框的重叠率小于预设重叠率，则确定待训练图像的标注结果错误。

本实施例中可以将标注错误的待训练图像作为训练数据，对物体检测模型进行优化训练，得到优化后的物体检测模型。

本实施例中，可以根据用户对目标对象和场景类型的输入，获取目标对象的对象图像集和场景类型对应的场景图像集，进而将目标对象的对象图像集中的图像和场景类型对应的场景图像集中的图像进行合成，以待训练图像集，由于在合成图像的过程中，可以获取目标对象的标注信息，进而避免了再对图像进行标注的过程，提高了待训练图像集的获取效率。进一步的，本实施例中还在每个场景图像的待合成位置，将每个图像的掩码图合成至每个场景图像中，获取待训练图像集，且采用一系列的图像处理方式，使得待训练图像集中的待训练图像更加贴合于目标场景，减小了合成的待训练图像的违和感。

图8为本申请提供的图像标注装置的结构示意图一。如图8所示，该图像标注装置800包括：处理模块801和收发模块802。

处理模块801，用于获取待检测图像，待检测图像中包括位于目标场景中的目标对象；采用物体检测模型，标注待检测图像中的目标对象，物体检测模型是根据待训练图像集训练得到的，待训练图像集中包括：由包含与目标场景的场景类型相同的场景的图像，以及包含目标对象的图像合成的多个待训练图像。

收发模块802，用于接收用户输入的模型请求信息，模型请求信息包括：目标对象的标识和目标场景的场景类型。

处理模块801，还用于根据目标对象的标识和场景类型，在图像模板数据库中获取目标对象的对象图像集和场景类型对应的场景图像集，目标对象的对象图像集中的图像为：包含目标对象的图像，场景类型对应的场景图像集中的图像为：包含与所述目标场景的场景类型相同的场景的图像；根据目标对象的对象图像集和场景类型对应的场景图像集，获取待训练图像集；将待训练图像集作为训练数据，训练得到物体检测模型。

可选的，图像模板数据库包括：对象模板数据库和场景模板数据库，对象模板数据库中包括多个对象的对象图像集和每个对象的标识，场景模板数据库中包括多个场景类型对应的场景图像集。

对应的，处理模块801，具体用于根据目标对象的标识和每个对象的标识，在对象模板数据库中获取目标对象的第一对象图像集；根据第一对象图像集中图像的图像特征，在对象模板数据库中获取第二对象图像集，第二对象图像集中图像的图像特征与第一对象图像集中图像的图像特征的相似度大于相似度阈值；将第一对象图像集和第二对象图像集的集合作为目标对象的对象图像集；根据场景类型，在场景模板数据库中获取场景类型对应的场景图像集。

可选的，处理模块801，具体用于在待训练图像集中，将由第一对象图像集获取的待训练图像作为正样本训练数据、将由第二对象图像集获取的待训练图像作为负样本训练数据，训练得到物体检测模型。

可选的，目标对象的对象图像集中的图像是以目标对象为前景区域的图像。

对应的，处理模块801，具体用于获取目标对象的对象图像集中每个图像的掩码图，掩码图用于表征图像的前景区域；获取场景类型对应的场景图像集中每个场景图像的待合成位置，待合成位置为掩码图的合成位置；在每个场景图像的待合成位置，将每个图像的掩码图合成至每个场景图像中，获取多个待训练图像；根据多个待训练图像，获取待训练图像集。

可选的，模型请求信息还包括：目标对象在目标场景中的至少一个已标注图像。

对应的，处理模块801，还用于根据已标注图像的图像风格，将每个待训练图像的图像风格进行转换，使得转换后的待训练图像的图像风格与已标注图像的图像风格相同；根据转换后的待训练图像，获取待训练图像集。

可选的，目标对象的对象图像集包括：目标对象的多个角度的图像，每个角度的图像中设置有角度标签，角度标签用于指示图像中目标对象的拍摄角度。

处理模块801，还用于根据目标对象的对象图像集中每个图像的角度标签，在目标对象的对象图像集中删除不符合场景类型对应的角度的图像。

可选的，处理模块801，还用于对每个图像的掩码图进行图像增强处理。

可选的，图像增强处理包括：旋转增强、遮挡增强、缩放增强、干扰增强，视角增强中的至少一项。

可选的，处理模块801，还用于根据物体检测模型，对待训练图像集中的待训练图像中的目标对象进行标注，获取待训练图像的标注结果；根据至少一个已标注图像的标注结果和待训练图像的标注结果，获取标注错误的待训练图像；将标注错误的待训练图像作为训练数据，对物体检测模型进行优化训练，得到优化后的物体检测模型。

本实施例提供的图像标注装置与上述图像标注方法实现的原理和技术效果类似，在此不作赘述。

图9为本申请提供的图像标注装置的结构示意图二。如图9所示，该图像标注装置900包括：存储器901和至少一个处理器902。

存储器901，用于存储程序指令。

处理器902，用于在程序指令被执行时实现本实施例中的图像标注方法，具体实现原理可参见上述实施例，本实施例此处不再赘述。

该图像标注装置900还可以包括及输入/输出接口903。

输入/输出接口903可以包括独立的输出接口和输入接口，也可以为集成输入和输出的集成接口。其中，输出接口用于输出数据，输入接口用于获取输入的数据。

本申请还提供一种可读存储介质，可读存储介质中存储有执行指令，当图像标注装置的至少一个处理器执行该执行指令时，当计算机执行指令被处理器执行时，实现上述实施例中的图像标注方法。

本申请还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。图像标注装置的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得图像标注装置实施上述的各种实施方式提供的图像标注方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在上述图像标注装置的实施例中，应理解，处理模块可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种图像标注方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待检测图像之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述图像模板数据库包括：对象模板数据库和场景模板数据库，所述对象模板数据库中包括多个对象的对象图像集和每个所述对象的标识，所述场景模板数据库中包括多个场景类型对应的场景图像集；

4.根据权利要求3所述的方法，其特征在于，所述将所述待训练图像集作为训练数据，训练得到所述物体检测模型，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述目标对象的对象图像集中的图像是以所述目标对象为前景区域的图像；所述根据所述目标对象的对象图像集和所述场景类型对应的场景图像集，获取待训练图像集，包括：

根据所述多个待训练图像，获取所述待训练图像集。

6.根据权利要求5所述的方法，其特征在于，所述模型请求信息还包括：所述目标对象在所述目标场景中的至少一个已标注图像；所述根据所述多个待训练图像，获取所述待训练图像集，包括：

根据所述转换后的待训练图像，获取所述待训练图像集。

7.根据权利要求5所述的方法，其特征在于，所述目标对象的对象图像集包括：所述目标对象的多个角度的图像，每个角度的图像中设置有角度标签，所述角度标签用于指示所述图像中目标对象的拍摄角度；所述获取所述目标对象的对象图像集中每个图像的掩码图之前，还包括：

8.根据权利要求5所述的方法，其特征在于，所述获取所述目标对象的对象图像集中每个图像的掩码图之后，还包括：

对所述每个图像的掩码图进行图像增强处理。

9.根据权利要求8所述的方法，其特征在于，所述图像增强处理包括：旋转增强、遮挡增强、缩放增强、干扰增强，视角增强中的至少一项。

10.根据权利要求6所述的方法，其特征在于，所述训练得到所述物体检测模型之后，还包括：

11.一种图像标注装置，其特征在于，包括：

12.一种图像标注装置，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述图像标注装置执行权利要求1-10任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现权利要求1-10任一项所述的方法。