CN115375987A

CN115375987A - 一种数据标注方法、装置、电子设备及存储介质

Info

Publication number: CN115375987A
Application number: CN202210940102.6A
Authority: CN
Inventors: 李超; 薛松; 辛颖; 王云浩; 张滨; 冯原; 韩树民
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-11-22
Anticipated expiration: 2042-08-05
Also published as: CN115375987B

Abstract

本公开提供了一种数据标注方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉等技术领域，可应用于物体检测等场景。具体实现方案为：根据第一标注信息确定第一标注框；根据所述第一标注框对第一图像进行抠图处理，得到构成所述第一图像中第一对象的第一零部件实例；通过对所述第一标注框与用于对第二图像中目标对象进行语义分割的第二标注框之间执行叠加操作，将所述第一零部件实例与所述目标对象的目标零部件进行图像融合，得到第一图像融合结果；根据所述第一图像融合结果获取第一数据标注结果。采用本公开，可以实现自动的数据标注，降低了数据标注的成本，提高了数据标注效率。

Description

一种数据标注方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉等技术领域，可应用于物体检测等场景。

背景技术

随着人工智能技术的发展，作为人工智能技术产业链中的重要一环“数据标注”日趋重要，数据标注是否准确，可以影响模型训练的迭代周期及模型训练的精度。

目前，主要是通过对原始数据的人工标注处理来实现数据标注，使数据标注结果能够成为被机器学习使用的内容，从而提高模型训练的精度。然而，人工标注处理，其数据标注的成本高、标注效率低，对此，相关技术中未存在有效的解决方案。

发明内容

本公开提供了一种数据标注方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种数据标注方法，包括：

根据第一标注信息确定第一标注框；

根据所述第一标注框对第一图像进行抠图处理，得到构成所述第一图像中第一对象的第一零部件实例；

通过对所述第一标注框与用于对第二图像中目标对象进行语义分割的第二标注框之间执行叠加操作，将所述第一零部件实例与所述目标对象的目标零部件进行图像融合，得到第一图像融合结果；

根据所述第一图像融合结果获取第一数据标注结果。

根据本公开的另一方面，提供了一种模型训练方法，包括：

将数据标注结果作为训练数据，输入所述训练数据到初始的检测模型中；其中，所述数据标注结果根据上述实施例的数据标注方法得到；

根据所述数据标注结果，以有监督学习的方式对所述初始的检测模型进行训练，得到用于反映预测值与真实值之间差异的第一损失函数；

根据所述第一损失函数的反向传播更新模型参数，得到训练后的目标检测模型。

根据本公开的另一方面，提供了一种模型训练方法，包括：

对所述第一损失函数进行补偿，得到第二损失函数；

根据所述第二损失函数的反向传播更新模型参数，得到训练后的目标检测模型。

根据本公开的另一方面，提供了一种数据标注装置，包括：

标注框确定模块，用于根据第一标注信息确定第一标注框；

抠图模块，用于根据所述第一标注框对第一图像进行抠图处理，得到构成所述第一图像中第一对象的第一零部件实例；

融合标注模块，用于通过对所述第一标注框与用于对第二图像中目标对象进行语义分割的第二标注框之间执行叠加操作，将所述第一零部件实例与所述目标对象的目标零部件进行图像融合，得到第一图像融合结果；

标注获取模块，用于根据所述第一图像融合结果获取第一数据标注结果。

根据本公开的另一方面，提供了一种模型训练装置，包括：

第一输入模块，用于将数据标注结果作为训练数据，输入所述训练数据到初始的检测模型中；其中，所述数据标注结果根据上述实施例的数据标注方法得到；

第一训练模块，用于根据所述数据标注结果，以有监督学习的方式对所述初始的检测模型进行训练，得到用于反映预测值与真实值之间差异的第一损失函数；根据所述第一损失函数的反向传播更新模型参数，得到训练后的目标检测模型。

根据本公开的另一方面，提供了一种模型训练装置，包括：

第二输入模块，用于将数据标注结果作为训练数据，输入所述训练数据到初始的检测模型中；其中，所述数据标注结果根据上述实施例的数据标注方法得到；

第二训练模块，用于根据所述数据标注结果，以有监督学习的方式对所述初始的检测模型进行训练，得到用于反映预测值与真实值之间差异的第一损失函数；对所述第一损失函数进行补偿，得到第二损失函数；根据所述第二损失函数的反向传播更新模型参数，得到训练后的目标检测模型。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任意一实施例所提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本公开任意一项实施例所提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现本公开任意一项实施例所提供的方法。

采用本公开，根据第一标注信息确定第一标注框，从而根据第一标注框对第一图像进行抠图处理，以得到构成第一图像中第一对象的第一零部件实例。通过对第一标注框与用于对第二图像中目标对象进行语义分割的第二标注框之间执行叠加操作，将第一零部件实例与目标对象的目标零部件进行图像融合，可以得到第一图像融合结果，以根据第一图像融合结果获取第一数据标注结果，由于通过抠图及图形融合，可以实现自动的数据标注，因此，降低了数据标注的成本，提高了数据标注效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一分布式集群处理场景的示意图；

图2是根据本公开实施例的数据标注方法的流程示意图；

图3是根据本公开实施例的一模型训练方法的流程示意图；

图4是根据本公开实施例的另一模型训练方法的流程示意图；

图5-图7是根据本公开实施例的应用示例中基于第一标注框实现抠图处理的示意图；

图8是根据本公开实施例的应用示例中一基于数据标注结果实现模型训练的示意图；

图9是根据本公开实施例的应用示例中另一基于数据标注结果实现模型训练的示意图；

图10是根据本公开实施例的数据标注装置的组成结构示意图；

图11是根据本公开实施例的一模型训练装置的组成结构示意图；

图12是根据本公开实施例的另一模型训练装置的组成结构示意图；

图13是用来实现本公开实施例的数据标注方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分，并不是限定顺序的意思，或者限定只有两个的意思，例如，第一特征和第二特征，是指代有两类/两个特征，第一特征可以为一个或多个，第二特征也可以为一个或多个。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

根据本公开的实施例，图1是根据本公开实施例的一分布式集群处理场景的示意图，该分布式集群系统为集群系统的一个示例，示例性的描述了可以利用该分布式集群系统进行数据标注，本公开不限于单机或多机上的数据标注，采用分布式的处理可以进一步提高数据标注的精度。如图1所示，在该分布式集群系统100中包括多个节点(如服务器集群101、服务器102、服务器集群103、服务器104、服务器105，服务器105还可以连接电子设备，如手机1051及台式机1052)，多个节点间，以及多个节点与连接的电子设备间可以共同执行一个或多个数据标注任务。可选地，该分布式集群系统中的多个节点可以采用数据并行的关系进行数据标注可选地，在每一轮数据标注完成后，多个节点之间都可以进行数据交换(如数据同步)。

根据本公开的实施例，提供了一种数据标注方法，图2是根据本公开实施例的数据标注方法的流程示意图，该方法可以应用于数据标注装置，例如，该装置可以部署于单机、多机或集群系统中的终端或服务器或其它处理设备执行的情况下，可以实现数据标注等等处理。其中，终端可以为用户设备(UE，User Equipment)、移动设备、个人数字处理(PDA，Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图2所示，该方法应用于图1所示的集群系统中的任一节点或电子设备(手机或台式机等)中，包括：

S201、根据第一标注信息确定第一标注框。

S202、根据第一标注框对第一图像进行抠图处理，得到构成第一图像中第一对象的第一零部件实例。

S203、通过对第一标注框与用于对第二图像中目标对象进行语义分割的第二标注框之间执行叠加操作，将第一零部件实例与目标对象的目标零部件进行图像融合，得到第一图像融合结果。

S204、根据第一图像融合结果获取第一数据标注结果。

S201-S204的一示例中，第一标注框的形态为矩形的情况下，第一标注信息可以根据矩形四个角的点坐标得到。在第一图像(即待抠图处理的图像)中可以包括多个对象，以第一对象为待抠图对象为例，比如，第一对象为自行车，自行车包括车把、车把上的铃铛、车架、车座、车链条、车轮、脚蹬等零部件，可以将一个第一标注框依次放置于各个零部件上，以根据该第一标注框多次对第一图像进行抠图处理，得到构成第一图像中第一对象的零部件，抠图得到的零部件称之为零部件实例；还可以将多个第一标注框分别放置于各个零部件上，以根据该第一标注框对第一图像进行抠图处理，一次性的得到构成第一图像中第一对象的零部件实例(记为第一零部件实例)。将从第一图像中抠图得到的该第一零部件实例与第二图像(即待图像融合的图像)进行图像融合，在第二图像上通过第二标注框可以得到构成目标对象的零部件，则在第一标注框与第二标注框之间进行叠加操作，从而将由第一标注框构图得到的该第一零部件实例与由第二标注框指示的零部件进行图像融合，得到第一图像融合结果，将得到的该第一图像融合结果作为最终的第一数据标注结果。

需要指出的是，一个图像融合的精简特例中，还可以将由第一标注框构图得到的零部件“车把”实例直接复制粘贴到第二图像中的预定位置(第二图像中对应零部件“车把”的位置，或者第二图像中相关联零部件“与车把相关联的车铃铛”的位置)。

采用本公开，可以根据第一标注信息确定第一标注框，从而根据第一标注框对第一图像进行抠图处理，以得到构成第一图像中第一对象的第一零部件实例。通过对第一标注框与用于对第二图像中目标对象进行语义分割的第二标注框之间执行叠加操作，将第一零部件实例与目标对象的目标零部件进行图像融合，可以得到第一图像融合结果，以根据第一图像融合结果获取第一数据标注结果，由于通过抠图及图形融合，可以实现自动的数据标注，因此，降低了数据标注的成本，提高了数据标注效率。

一实施方式中，目标零部件包括：与零部件实例对应的零部件、与对应的零部件相关联的零部件中的至少一种零部件。

一些示例中，从第一图像得到的零部件实例为车把，第二图像中与零部件实例对应的零部件也可以为车把，其中，第一图像中的自行车与第二图像中的自行车可以为同类型/同品牌的自行车(如，皆为同一厂家的山地车)，或者，第一图像中的自行车与第二图像中的自行车可以为不同类型/不同品牌的自行车(如，第一图像中的自行车为山地车，第二图像中的自行车为公路车)。

一些示例中，从第一图像得到的零部件实例为车把，第二图像中与对应的零部件相关联的零部件可以为与车把相关联的零部件(如设置于车把上的车铃铛、如设置于车把上且用于夜间照明的手电筒等)。

采用本实施方式，数据标注的目的，用于模型训练的有监督学习，即在训练样本数据中，通过数据标注这类已知类别的样本数据，来训练模型对未知类别样本数据的分类、语义分割及目标检测能力。考虑到人工的数据标注会浪费人力物力成本，因此，通过上述抠图处理及多个标注框的叠加操作，可以针对同一类对象(即与零部件实例对应的零部件，如零部件实例为车把，叠加的也是车把)得到更多数量的数据标注结果，还可以针对不同类但是相关联的对象(即与对应的零部件相关联的零部件，如零部件实例为车把，叠加的可以是与车把相关联的车把上的铃铛)得到更多分类且更多数量的数据标注结果。

其中，可以通过第一标注框进行第一图像(即待抠图处理的图像)自动的抠图处理，将从第一图像中抠图得到的零部件实例与第二图像(即待图像融合的图像)进行图像融合，在第二图像上通过第二标注框可以得到构成目标对象的零部件(第一图像与第二图像中用于图像融合的零部件，可以是同类的对象、或不同类但是相关联的对象)，则在第一标注框与第二标注框之间进行叠加操作，将由第一标注框构图得到的零部件实例与由第二标注框指示的该目标零部件进行图像融合，得到图像融合结果，将得到的该图像融合结果作为最终的数据标注结果。相比人工的数据标注方式，不仅可以实现自动的数据标注，从而降低了人力物力成本；而且，带来更多类别、更多数量级、更随机的数据标注结果，增加了同类的数据标注结果，也增加不同类别但是相关联的数据标注结果，是对模型当前所使用训练样本数据中已有数据标注的数据更新(也称为数据增强)，基于更新后的数据标注结果进行后续的模型训练，可以提高模型的泛化性及模型的精度。

一实施方式中，根据第一标注框对第一图像进行抠图处理，得到构成第一图像中第一对象的第一零部件实例，包括：根据预设条件调整第一标注框，得到第三标注框，根据第三标注框进行抠图处理，得到第一零部件实例。其中，该预设条件包括：改变第一标注框的大小、改变第一标注框的位置、改变第一标注框的旋转角度中的至少一种条件。

一些示例中，可以通过上述抠图处理及叠加操作，增加同类的数据标注结果，也增加了不同类别但是相关联的数据标注结果，是对模型当前所使用训练样本数据中已有数据标注的数据更新(也称为数据增强)。

其中，针对抠图处理，可以采用多样化的自动抠图，对第一标注框执行包括改变框大小(第一标注框按照比例变大或变小，框大小是调整的，即第一标注框可以采用不同的框大小进行抠图处理)、改变框位置(第一标注框发生位移，使其由第一位置移动到第二位置，位置是调整的，即第一标注框可以采用不同的位置进行抠图处理)、改变框角度(第一标注框发生旋转，使其从第一角度旋转到第二角度，旋转角度是调整的，即第一标注框可以采用不同的旋转角度进行旋转后再进行抠图处理)等标注框的框调整。在框调整后再进行该抠图处理，从而实现了多样化的自动抠图处理。

一些示例中，首先，可以根据第一标注框对第一图像进行第一抠图处理，以得到构成第一图像中第一对象的第一零部件实例，之后，还可以对第一零部件实例进行更新，具体的，可以根据第三标注框对第一图像进行第二抠图处理，得到抠图处理结果，根据抠图处理结果对第一零部件实例进行数据更新，得到第二零部件实例。最终，可以将第二零部件实例与目标零部件进行图像融合，以得到第二图像融合结果，从而根据该第二图像融合结果，更新第一数据标注结果，得到种类、数量更多的第二数据标注结果。

需要指出的是，上述第三标注框为根据预设条件调整该第一标注框后得到的标注框，其中，该预设条件包括：改变第一标注框的大小、改变所述第一标注框的位置、改变所述第一标注框的旋转角度中的至少一种条件。

通过第三标注框进行第一图像(即待抠图处理的图像)自动的抠图处理，相比通过第一标注框实现的自动抠图处理而言，是对构成第一图像中第一对象的第一零部件实例进行更新(或称为数据增强)，从而得到更新后的第一零部件实例(即上述第二零部件实例)，进一步的可以得到更多类别、更多数量级以及更随机的数据标注结果。具体的，通过第三标注框进行第一图像(即待抠图处理的图像)自动的抠图处理，将第二零部件实例与第二图像(即待图像融合的图像)进行图像融合，在第二图像上通过第二标注框可以得到构成目标对象的零部件(第一图像与第二图像中用于图像融合的零部件，可以是同类的对象、或不同类但是相关联的对象)，则在第三标注框与第二标注框之间进行叠加操作，将由第三标注框构图得到的第二零部件实例与由第二标注框指示的该目标零部件进行图像融合，得到第二图像融合结果，将得到的该第二图像融合结果作为最终的数据标注结果。

采用本实施方式，相比人工的数据标注方式，不仅可以实现自动的数据标注，从而降低了人力物力成本；而且，带来更多类别、更多数量级、更随机的数据标注结果，是对模型当前所使用训练样本数据中已有数据标注的数据更新(也称为数据增强)，基于更新后的数据标注结果进行后续的模型训练，可以提高模型的泛化性及模型的精度。

一实施方式中，还包括：对第一标注框与第二标注框进行叠加操作，得到第四标注框，其中，第四标注框中包括不同类别零部件，根据第四标注框中的各类零部件在第二图像中的面积占比，确定用于在模型训练中进行损失函数补偿的分类权重。

一些示例中，不同类别的零部件各自的面积占比，可以是各占50％，也可以是其他分类权重值，比如，一类零部件的面积占比为30％，另一类零部件的面积占比为70％；比如，一类零部件的面积占比为40％，另一类零部件的面积占比为60％等等。

采用本实施方式，根据第四标注框中的各类零部件在第二图像中的面积占比，可以确定用于在模型训练中进行损失函数补偿的分类权重，不同的分类权重可以进行多样化的损失补偿，则将该分类权重值在模型训练时用于损失函数的补偿，将基于该分类权重补偿后的损失函数作为最终的损失函数，从而提高模型训练的精度。

根据本公开的实施例，提供了一种数据标注方法，图3是根据本公开实施例的模型训练方法的流程示意图，该方法可以应用于模型训练装置，例如，该装置可以部署于单机、多机或集群系统中的终端或服务器或其它处理设备执行的情况下，可以实现模型训练等等处理。其中，终端可以为用户设备(UE，User Equipment)、移动设备、个人数字处理(PDA，Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图3所示，该方法应用于图1所示的集群系统中的任一节点或电子设备(手机或台式机等)中，包括：

S301、将数据标注结果作为训练数据，输入训练数据到初始的检测模型中；其中，数据标注结果根据上述实施例中的任一项数据标注方法得到。

S302、根据数据标注结果，以有监督学习的方式对初始的检测模型进行训练，得到用于反映预测值与真实值之间差异的第一损失函数。

S303、根据第一损失函数的反向传播更新模型参数，得到训练后的目标检测模型。

采用本公开实施例，由于该数据标注结果反映了更多类别、更多数量级、更随机的数据标注情况，因此，可以根据该数据标注结果得到更多的已知类别，通过该有监督学习的方式，基于该已知类别对训练样本数据中的未知类别进行预测以得到预测值，不断优化该预测值与真实值(已知类别)之间的差异，得到用于模型训练的第一损失函数，根据第一损失函数的反向传播进行模型训练所得到的目标检测模型，相比以往的检测模型，模型的泛化性能及模型的训练精度都得到了提升。

根据本公开的实施例，提供了一种数据标注方法，图4是根据本公开实施例的模型训练方法的流程示意图，该方法可以应用于模型训练装置，例如，该装置可以部署于单机、多机或集群系统中的终端或服务器或其它处理设备执行的情况下，可以实现模型训练等等处理。其中，终端可以为用户设备(UE，User Equipment)、移动设备、个人数字处理(PDA，Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图4所示，该方法应用于图1所示的集群系统中的任一节点或电子设备(手机或台式机等)中，包括：

S401、将数据标注结果作为训练数据，输入训练数据到初始的检测模型中；其中，数据标注结果根据上述实施例中的任一项数据标注方法得到。

S402、根据数据标注结果，以有监督学习的方式对初始的检测模型进行训练，得到用于反映预测值与真实值之间差异的第一损失函数。

S403、对第一损失函数进行补偿，得到第二损失函数。

S404、根据第二损失函数的反向传播更新模型参数，得到训练后的目标检测模型。

采用本公开实施例，由于该数据标注结果反映了更多类别、更多数量级、更随机的数据标注情况，因此，可以根据该数据标注结果得到更多的已知类别，通过该有监督学习的方式，基于该已知类别对训练样本数据中的未知类别进行预测以得到预测值，不断优化该预测值与真实值(已知类别)之间的差异，得到用于模型训练的第一损失函数，考虑到不同识别精度会影响模型训练精度，因此，加入损失的补偿，即对第一损失函数进行补偿以得到第二损失函数，根据第二损失函数的反向传播进行模型训练所得到的目标检测模型，优化了模型训练，进一步的提高了模型训练的精度。

一实施方式中，对第一损失函数进行补偿，得到第二损失函数，包括：训练数据包括用于在模型训练中进行损失函数补偿的分类权重的情况下，根据分类权重对第一损失函数进行补偿，得到该第二损失函数。采用本实施方式，考虑到不同分类的识别精度需求，采用分类权重进行损失函数的补偿，即根据该分类权重对第一损失函数进行补偿以得到第二损失函数，根据第二损失函数的反向传播进行模型训练所得到的目标检测模型，相比以往的检测模型，模型的泛化性能及模型的训练精度都得到了提升。

在工业质检巡检中，零部件的检测能够帮助零部件厂商快速提升零部件性能和判断零部件是否存在缺失、损坏的情况。由于零部件区域密集程度很高，各个零部件尺寸又很小，可以使用深度学习中的目标检测或语义分割的方法进行零部件检测。但是，通过监督方法训练目标检测或语义分割模型，需要大量的像素级数据标注，数据标注成本非常高，不仅耗时耗力，而且效率也非常低。进一步的，将这些人工标注的数据标注结果用于模型训练，不仅模型泛化能力差，而且模型精度也较低。

本应用示例中，可以通过自动抠图处理、多个标注框的叠加，自动的实现数据标注，解决了人工标注成本高、效率低的问题。将这些自动标注的数据标注结果用于模型训练，不仅模型泛化能力强，而且模型精度高，对小目标检测也具有鲁棒性，尤其在零部件检测领域，有效的推动了深度学习在密集零部件检测方面的发展和应用。主要包括如下的数据集制备、通过自动数据标注实现的数据增强、目标检测模型(如零部件检测模型)的训练及目标区域的检测(如零部件区域的检测)，具体描述如下：

一、数据集制备

本应用示例不限于车、人、交通设施、路障、商铺等目标检测，以自行车作为目标对象为例，自行车的零部件包括：左把手、右把手、左刹车、右刹车、车铃、前车灯、后车灯、车头、前车轮、前挡泥板、车座、前脚蹬、后脚蹬、车链、车链壳、脚架、后车轮、后车灯、后车轮、后挡泥板等部位，不同零部件对应到不同的分类。

如图5所示的图像中目标对象为自行车，包括多个第一标注框，通过多个第一标注框进行自动的抠图处理。其中，第一标注框501用于对车座进行标注，第一标注框502用于对右车把进行标注，第一标注框503用于对车链进行标注，第一标注框504用于对前脚蹬进行标注，第一标注框505用于对前车轮进行标注，执行标注并进行自动的抠图处理。

如图6所示的图像中目标对象仍然为自行车，也包括多个第一标注框(分别记为第一标注框601、第一标注框602、第一标注框603、第一标注框604、第一标注框605、第一标注框606、第一标注框607、第一标注框608)，通过多个第一标注框进行自动的抠图处理。与上述图5的数据标注不同，图6中的多个第一标注框之间有部分覆盖的情况，图5中的多个第一标注框之间不存在部分覆盖的情况，各个标注框各自独立，执行标注并进行自动的抠图处理。

如图7所示的图像中目标对象也采用自行车，可以采用四个阶段(初始的数据标注701、第一标注框角度调整下的数据标注702、第一标注框比例调整下的数据标注703、第一标注框位置调整下的数据标注704)中的至少一种方式进行标注并进行自动的抠图处理。其中，在第一标注框的调整过程中，示例性的将车把对应的第一标注框分别记为：第一标注框1-第一标注框1a-第一标注框1b-第一标注框1c；车链壳对应的第一标注框分别标记为：第一标注框2-第一标注框2a-第一标注框2b-第一标注框2c；车链壳中心轴承对应的第一标注框分别标记为：第一标注框3-第一标注框3a-第一标注框3b-第一标注框3c；后车灯对应的第一标注框分别标记为：第一标注框4-第一标注框4a-第一标注框4b-第一标注框4c。具体的，在第一标注框角度调整下的数据标注702阶段，将车把对应的第一标注框进行了角度旋转，由第一标注框1调整为第一标注框1a，在第一标注框比例调整下的数据标注703阶段，将后车灯对应的第一标注框进行了比例调整，比如按照比例放大的调整，由第一标注框4调整为第一标注框4b，在第一标注框位置调整下的数据标注704阶段，将车链壳对应的第一标注框进行了位置调整，由第一标注框2调整为第一标注框2c。

以上的标注及自动抠图处理仅为示例，如图5所示，可以通过数据标注直接得到对应的零部件实例，如图6所示，可以通过数据标注得到相关联的多个零部件实例，如图7所示，可以通过调整第一标注框之后的数据标注直接得到对应的零部件实例或相关联的多个零部件实例，且通过比例调整，角度调整及位置调整，得到针对零部件及其相邻零部件的多样化的零部件实例。

二、通过自动数据标注实现的数据增强

可以通过如上图5-图7所示的任一种第一标注框进行第一图像(即待抠图处理的图像)自动的抠图处理，将从第一图像中抠图得到的零部件实例与第二图像(即待图像融合的图像)进行图像融合，在第二图像上通过第二标注框可以得到构成目标对象的零部件。其中，第一图像与第二图像中用于图像融合的零部件，可以是同类的对象、或不同类但是相关联的对象，则在第一标注框与第二标注框之间进行叠加操作，将由第一标注框构图得到的零部件实例与由第二标注框指示的该目标零部件进行图像融合，得到图像融合结果。

如图8所示，在模型训练阶段，可以通过对采集的图像进行自动的抠图处理，以自动的数据标注方式实现数据增强，从而，将最终得到的上述图像融合结果作为最终的数据标注结果，根据该数据标注结果，以有监督学习的方式进行模型训练，得到训练好的目标检测模型(该目标检测模型包括但不限于零部件的检测)，部署好该目标检测模型后，在模型使用阶段，输入待检测图像后，通过该训练好的目标检测模型进行零部件区域的检测，从而得到待检测图像中各个零部件的类别、及各个零部件分别对应的检测框(或称检测框)。

相比人工的数据标注方式，不仅可以实现自动的数据标注，从而降低了人力物力成本；而且，带来更多类别、更多数量级、更随机的数据标注结果，增加了同类的数据标注结果，也增加不同类别但是相关联的数据标注结果，是对模型当前所使用训练样本数据中已有数据标注的数据更新(也称为数据增强)，基于更新后的数据标注结果进行后续的模型训练，可以提高模型的泛化性及模型的精度。

需要指出的是，在一个数据标注的数据增强方式的特例中，可以采用复制粘贴的数据增强方式，通过将第一图像中不同的零部件实例随机的复制粘贴到第二图像中，其中，第二图像为有别于第一图像的新背景图像，以获取更丰富的、种类更多的数据标注结果，丰富了训练数据的数量及类别。该复制粘贴的方式可以用于零部件的目标检测，其粘贴的对象是从一张图中抠出零件部分对应的实例，然后随机粘贴到另一张图像，所复制粘贴的对象，可以是精确到像素级的，清晰度很高。

上述数据增强方式，可以灵活的应用于离线数据增强或者在线数据增强。其中，离线数据增强，是指直接增加数据的数量，适用于数据量较少的情况；在线数据增强，是指在图像输入网络之前对图像进行复制粘贴处理，不增加图像的数量，适用于数据量较大的情况，因为在数据本身比较多的情况下采用离线数据增强会增加机器的资源消耗。

三、目标检测模型的训练及目标区域的检测

目标检测模型的结构如图9所示，采用主干网络及更快的区域卷积神经网络(Faster Region With CNN，Faster R-CNN)模型，对零部件区域进行检测模型的训练和预测。首先，对待输入数据进行上述数据增强方式的数据标注处理，以得到更完善的训练数据，可以根据具体的数据情况选择离线数据增强或者在线数据增强，将数据增强后的图像输入主干网络进行图像特征的提取，主干网络可以采用swin transform结构，采用FasterR-CNN模型对主干网络提取的图像特征进行分类预测及零部件边界框的预测，根据预测值与真实值得到损失函数，如第一损失函数，通过第一损失函数的反向传播，得到训练好的目标检测模型。进一步的，通过分类权重对第一损失函数进行补偿后得到第二损失函数，通过第二损失函数的反向传播，对目标检测模型进行优化。

将用本应用示例，相比以往的人工数据标注，降低了标注成本，提高了标注效率，相比其他对显著性区域进行局部数据标注的方法，该局部数据标注的方式，只能使待增强区域内的图像信息变得更加清晰，无法提升模型的泛化能力及模型精度，而本应用示例不仅实现了局部数据标注，而且从全局来看，通过叠加操作改变了零部件实例所在的背景区域，并且极大的增加了数据的数量及类别，可以达到像素级，从而，不仅降低了像素级标注的成本，而且，使用本应用示例的数据增强方式完成的数据标注，在应用于模型训练时，极大的提高了模型的泛化能力及模型精度，在模型使用阶段采用本目标检测模型，可以提高零部件检测的精度。

根据本公开的实施例，提供了一种数据标注装置，图10是根据本公开实施例的数据标注装置的组成结构示意图，如图10所示，数据标注装置包括：标注框确定模块1001，用于根据第一标注信息确定第一标注框；抠图模块1002，用于根据所述第一标注框对第一图像进行抠图处理，得到构成所述第一图像中第一对象的第一零部件实例；融合标注模块1003，用于通过对所述第一标注框与用于对第二图像中目标对象进行语义分割的第二标注框之间执行叠加操作，将所述第一零部件实例与所述目标对象中的目标零部件进行图像融合，得到第一图像融合结果；标注获取模块1004，用于根据所述第一图像融合结果获取第一数据标注结果。

一实施方式中，抠图模块1002，用于：

根据预设条件调整所述第一标注框，得到第三标注框；

根据所述第三标注框进行所述抠图处理，得到所述第一零部件实例；

其中，所述预设条件包括：改变所述第一标注框的大小、改变所述第一标注框的位置、改变所述第一标注框的旋转角度中的至少一种条件。

一实施方式中，还包括权重确定模块，用于：

对所述第一标注框与所述第二标注框进行所述叠加操作，得到第四标注框；

其中，所述第四标注框中包括不同类别零部件，根据所述第四标注框中的各类零部件在所述第二图像中的面积占比，确定用于在模型训练中进行损失函数补偿的分类权重。

一实施方式中，所述目标零部件包括：与所述零部件实例对应的零部件、与所述对应的零部件相关联的零部件中的至少一种零部件。

根据本公开的实施例，提供了一种模型训练装置，图11是根据本公开实施例的模型训练装置的组成结构示意图，如图11所示，模型训练装置包括：第一输入模块1101，用于将数据标注结果作为训练数据，输入所述训练数据到初始的检测模型中；其中，所述数据标注结果根据上述实施例中的任一项数据标注方法得到；第一训练模块1102，用于根据所述数据标注结果，以有监督学习的方式对所述初始的检测模型进行训练，得到用于反映预测值与真实值之间差异的第一损失函数；根据所述第一损失函数的反向传播更新模型参数，得到训练后的目标检测模型。

根据本公开的实施例，提供了一种模型训练装置，图12是根据本公开实施例的模型训练装置的组成结构示意图，如图12所示，模型训练装置包括：包括：第二输入模块1201，用于将数据标注结果作为训练数据，输入所述训练数据到初始的检测模型中；其中，所述数据标注结果根据上述实施例中的任一项数据标注方法得到；第二训练模块1202，用于根据所述数据标注结果，以有监督学习的方式对所述初始的检测模型进行训练，得到用于反映预测值与真实值之间差异的第一损失函数；对所述第一损失函数进行补偿，得到第二损失函数；根据所述第二损失函数的反向传播更新模型参数，得到训练后的目标检测模型。

一实施方式中，所述第二训练模块，用于：

所述训练数据包括用于在模型训练中进行损失函数补偿的分类权重的情况下，根据所述分类权重对所述第一损失函数进行补偿，得到所述第二损失函数。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，电子设备1300包括计算单元1301，其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储电子设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

电子设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许电子设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如数据标注方法/模型训练方法。例如，在一些实施例中，数据标注方法/模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到电子设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时，可以执行上文描述的数据标注方法/模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据标注方法/模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据标注方法，包括：

根据第一标注信息确定第一标注框；

根据所述第一图像融合结果获取第一数据标注结果。

2.根据权利要求1所述的方法，所述根据所述第一标注框对第一图像进行抠图处理，得到构成所述第一图像中第一对象的第一零部件实例，包括：

根据预设条件调整所述第一标注框，得到第三标注框；

3.根据权利要求1所述的方法，还包括：

4.根据权利要求1所述的方法，其中，所述目标零部件包括：与所述零部件实例对应的零部件、与所述对应的零部件相关联的零部件中的至少一种零部件。

5.一种模型训练方法，包括：

将数据标注结果作为训练数据，输入所述训练数据到初始的检测模型中；其中，所述数据标注结果根据权利要求1至权利要求4中的任一项数据标注方法得到；

6.一种模型训练方法，包括：

对所述第一损失函数进行补偿，得到第二损失函数；

7.根据权利要求6所述的方法，其中，所述对所述第一损失函数进行补偿，得到第二损失函数，包括：

8.一种数据标注装置，包括：

标注框确定模块，用于根据第一标注信息确定第一标注框；

9.根据权利要求8所述的装置，其中，所述抠图模块，用于：

根据预设条件调整所述第一标注框，得到第三标注框；

10.根据权利要求8所述的装置，还包括权重确定模块，用于：

11.根据权利要求8所述的装置，其中，所述目标零部件包括：与所述零部件实例对应的零部件、与所述对应的零部件相关联的零部件中的至少一种零部件。

12.一种模型训练装置，包括：

第一输入模块，用于将数据标注结果作为训练数据，输入所述训练数据到初始的检测模型中；其中，所述数据标注结果根据权利要求1至权利要求4中的任一项数据标注方法得到；

13.一种模型训练装置，包括：

第二输入模块，用于将数据标注结果作为训练数据，输入所述训练数据到初始的检测模型中；其中，所述数据标注结果根据权利要求1至权利要求4中的任一项数据标注方法得到；

14.根据权利要求13所述的模型训练装置，其中，所述第二训练模块，用于：

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。