CN114519850A

CN114519850A - 一种二维图像自动目标检测的标注系统及方法

Info

Publication number: CN114519850A
Application number: CN202210413678.7A
Authority: CN
Inventors: 陈宇昊; 赵捷
Original assignee: Ningbo Boden Intelligent Technology Co ltd
Current assignee: Ningbo Boden Intelligent Technology Co ltd
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-05-20

Abstract

本发明公开了一种二维图像自动目标检测的标注系统及方法，涉及自动驾驶标注技术领域，一种二维图像自动目标检测的标注系统包括数据上传模块、数据采样模块、结果获取模块、前端展示模块、自动标注模块和指令控制模块；一种二维图像自动目标检测的标注方法包括：S100、数据上传，S200、数据集采样标注，S300、目标检测模型训练，S400、数据集推理，S500、人工质检及微调，S600、数据导出。本发明降低了对人工标注的依赖，减少了人力成本，避免了人为因素导致的标注质量差和效率低下。

Description

一种二维图像自动目标检测的标注系统及方法

技术领域

本发明涉及自动驾驶标注技术领域，尤其涉及一种二维图像自动目标检测的标注系统及方法。

背景技术

作为汽车技术未来发展的风口，自动驾驶汽车已成为各个汽车主机厂及系统供应商、自动驾驶初创公司和各大院校研发机构重点关注的领域。自动驾驶汽车的到来正改变着全球各国的交通业，各种各样的自动驾驶技术正在迅速落地并推广。在当今互联网、大数据等技术突飞猛进的浪潮下，全球各国也将自动驾驶划入重点规划层面。随着5G技术和人工智能技术的不断突破，自动驾驶也将更加智能化，颠覆着人们的驾驶方式甚至生活方式。而智能化、网联化的自动驾驶技术无疑会掀起汽车产业的剧烈变革，实现汽车产业的结构升级，同时给汽车经济的扩张打开更大的想象空间。自动驾驶产业发展前景广阔，但是机遇与挑战并存。

而自动驾驶技术发展的基础是对数据的利用，数据正驱动着像ImageNet这样的大数据集的不断扩增，很大程度上引发了计算机视觉领域深度学习的热潮。在人工智能领域，数据标注是人工智能行业的基础，数据标注简单来说就是对图像、文本、语音、视频等数据执行拉框、描点、转写等操作，以满足相关机器学习的需要。数据标注是决定数据质量的关键一环，而丰富的标签是成功的深度学习建模的先决条件。未知的图片往往因为需要人工标注而耗费大量的成本。然而，由于标注过程耗时而且昂贵，获得标签就成为了一个瓶颈。这就鼓励了在训练二维图像目标检测模型时利用未标注的数据的学习方法，如自监督学习和半监督学习。半监督学习正是一种潜在的降低此类成本的方法。通过人工智能和人工标注更有效的“互动”，半监督学习可以加速数据标注的流程。

在当前实际的数据标注过程中，对于深度神经网络的训练需要大量标注完的数据。而目前市面上针对二维图像的目标检测标注大部分是人工进行的。标注员工在操作时候会出现大量的错检、漏检、以及由于专注度下降导致标注精度下降的情况。现有的标注系统存在的问题包括：

1、在没有算法作为预标的情况下全为手动标注，标注的质量依赖于标注员的熟练度和当前的专注度，而不同标注员对需求文档的理解不同导致标注质量参差不齐，并且传统标注需要将数据集中的每张图片都进行手动标注，会产生较高的人工成本，人工成本会随着数据量的增加而增加；

2、目前市面上标注软件的预标功能基本上需要全监督训练，在数据量较大的时候，全监督训练会耗费非常多的时间，影响标注效率，并且因为全监督训练的特点决定了对数据集的推理缺乏泛化性，适用的场景会很有限。

因此，本领域的技术人员致力于开发一种二维图像自动目标检测的标注系统及方法。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何降低对人工标注的依赖，减少人力成本，避免人为因素导致的标注质量差和效率低下。

发明人首先对现有技术存在的问题进行了分析，纯人工标注效率低、错误率高；全监督训练的方法非常耗时，影响标注效率，并且适用场景有限。发明人为了实现二维图像自动目标检测的标注的自动化和高效化，提升整体标注系统的效率，对于待标注数据集，通过设计的可视化标注工具，标注一小部分数据，将其和剩余未标记的数据利用半监督学习方法训练深度神经网络，使用当前待标注数据集进行训练，相比于使用公开数据集作预训练，减少模型泛化性差的影响。

本发明的一个实施例中，提供了一种二维图像自动目标检测的标注系统，包括：

数据上传模块，上传自动驾驶场景二维图像数据集、标注文件和配置数据到标注系统；

数据采样模块，采样自动驾驶场景二维图像数据集得到样本集；

结果获取模块，获取自动驾驶场景二维图像数据集的推理结果；

前端展示模块，与用户进行交互，获取指令和展示数据；

自动标注模块，对二维图像目标检测模型进行训练和推理，得到自动标注结果；

指令控制模块，通信连接数据上传模块、数据采样模块、结果获取模块、前端展示模块和自动标注模块，收发模块间指令，实现模块间的通信；

待标注的自动驾驶场景二维图像数据集通过数据上传模块上传到指令控制模块，然后发送到数据采样模块采样得到样本集，通过前端展示模块对样本集进行人工目标检测标注，自动标注模块对已标注的样本集和未标注的样本集进行二维图像目标检测模型训练，完成训练后自动对未标注的样本集进行推理，结果获取模块获取二维图像数据集的推理结果，经过指令控制模块传输到前端展示模块对标注结果进行人工质检和微调。

可选地，在上述实施例中的二维图像自动目标检测的标注系统中，自动驾驶场景二维图像数据集由多张自动驾驶道路场景下的车载摄像头所拍摄的图像文件构成，未经过采样。

进一步地，在上述实施例中的二维图像自动目标检测的标注系统中，图像文件支持的格式包括无损压缩算法的位图格式（. png）或者静态压缩格式（. jpg）。

可选地，在上述任一实施例中的二维图像自动目标检测的标注系统中，采样的比例设置范围为0-100%。

进一步地，在上述实施例中的二维图像自动目标检测的标注系统中，采样的比例设置优选20%。

可选地，在上述任一实施例中的二维图像自动目标检测的标注系统中，采样的方法为均匀采样或者随机采样。

可选地，在上述任一实施例中的二维图像自动目标检测的标注系统中，训练包括：在少部分采样的数据上进行标注作为标签数据，结合剩余未标注的无标签数据，输入到深度学习神经网络进行训练；训练中采用特定的损失函数作为目标，直到损失值不再下降时结束训练，保存对应的神经网络参数，得到最终的二维图像目标检测模型。

基于上述任一实施例，本发明的另一个实施例中，提供了一种二维图像自动目标检测的标注方法，包括如下步骤：

S100、数据上传，通过数据上传模块上传自动驾驶场景二维图像数据集、标注文件和配置数据；

S200、数据集采样标注，在数据采样模块对自动驾驶场景二维图像数据集进行采样得到样本集，并进行人工标注；

S300、目标检测模型训练，通过自动标注模块训练二维图像目标检测模型，训练采用深度神经网络，以特定的损失函数作为目标，直到损失值不再下降时结束训练，保存对应的深度神经网络参数，最终的二维图像目标检测模型；

S400、数据集推理，自动标注模块对完整的自动驾驶场景二维图像数据集进行推理，得到自动标注结果；

S500、人工质检及微调，在前端展示模块对自动标注结果进行质检以及微调；

S600、数据导出，在前端展示模块选择导出格式，对最终的标注结果数据进行导出。

可选地，在上述实施例中的二维图像自动目标检测的标注方法中，步骤S200中的标注文件支持的格式为一种轻量级的数据交换格式(.json)。

可选地，在上述实施例中的二维图像自动目标检测的标注方法中，步骤S200中的自动驾驶场景二维图像数据集具体包括含有标注文件的已标注数据集D _s和剩余的未标注图像文件，即未标注数据集D _u。

可选地，在上述任一实施例中的二维图像自动目标检测的标注方法中，深度神经网络的结构为卵生网络，分别为老师网络和学生网络，老师网络和学生网络的结构相同但初始化参数不同。

进一步地，在上述实施例中的二维图像自动目标检测的标注方法中，学生网络的初始化参数是随机产生的，训练开始时老师网络的初始化参数和学生网络的初始化参数保持一致；训练过程中学生网络使用随机梯度下降，老师网络则根据学生网络进行指数移动平均的加权平均迭代。

可选地，在上述任一实施例中的二维图像自动目标检测的标注方法中，步骤S300，特定的损失函数为整体损失函数

，包括有监督损失函数

和无监督损失函数

。

进一步地，在上述实施例中的二维图像自动目标检测的标注方法中，有监督损失函数

的计算公式、无监督损失函数

、整体损失函数

的计算公式如下：

（1），

（2），

（3），

其中

代表第i张标记图片，

代表第i张伪标签图片，

代表类别损失，

代表框的回归损失，

代表标记图片的数量，

代表伪标签图片的数量，

为权重因子。

进一步地，在上述实施例中的二维图像自动目标检测的标注方法中，类别包括前景类别fg和背景类别bg，前景的重要性相同，前景类别的损失为算数平均；背景的重要性不同，而且图像中背景占绝大部分，根据重要性对背景进行排序，背景类别的损失为加权平均。

进一步地，在上述实施例中的二维图像自动目标检测的标注方法中，无监督损失函数中的类别损失函数

计算公式如下：

（4），

（5），

其中权重

为背景框的可靠性得分，

为前景的候选框，

为背景的候选框，

为教师网络生成的预测结果的集合，

为目标框分类损失，

为第j个背景候选框的可靠性分数，

和

分别是前景和背景的候选框的数量。

进一步地，在上述实施例中的二维图像自动目标检测的标注方法中，无监督损失函数中的回归损失函数

，计算公式如下：

（6），

其中，

目标框的回归损失，

为教师网络生成的预测结果的集合。

可选地，在上述任一实施例中的二维图像自动目标检测的标注方法中，步骤S300采用半监督学习方法训练二维图像目标检测模型，包括以下步骤：

S310、将采样后的自动驾驶场景二维图像数据集和标注文件进行匹配，根据自动驾驶场景二维图像数据集中的图像文件是否有对应的标注文件，将自动驾驶场景二维图像数据集划分为有标签数据集和无标签数据集；

S320、有标签数据集经过常规数据增强后输入到学生网络进行推理，输出的预测结果与真值比较计算损失；

S330、无标签数据集分别经过弱数据增强和强数据增强后输入到老师网络和学生网络进行推理；

S340、老师网络推理得到的预测结果称为伪标签，将伪标签做进一步阈值筛选，通过非极大值抑制(NMS)后，置信度高于阈值的伪标签视为有效的伪标签，有效的伪标签作为学生网络模型的真值；

S350、学生网络推理得到的预测结果与有效的伪标签相比较计算损失。

进一步地，在上述实施例中的二维图像自动目标检测的标注方法中，步骤S330中的弱数据增强是指输入的图像文件经过调整大小后，只进行图像翻转数据增强操作。

进一步地，在上述实施例中的二维图像自动目标检测的标注方法中，S330中的强数据增强方法是指输入的图像文件经过调整大小后，还进行一系列的数据增强操作。

进一步地，在上述实施例中的二维图像自动目标检测的标注方法中，数据增强操作包含图像旋转、对比度变化、亮度变化、透明度变化、饱和度变化、颗粒度变化、图像随机挖孔、图像随机裁剪。

可选地，在上述任一实施例中的二维图像自动目标检测的标注方法中，步骤S400中数据集推理是指用保存的二维图像目标检测模型来对二维图像数据集中的每一帧做推理。

本发明提出的二维图像自动目标检测的标注系统及方法，只需要在自动驾驶场景二维图像数据集上进行少量标注，使用的是当前待标注数据集进行训练，大幅减少了标注员工的工作量，降低了对人工标注的依赖，减少人力成本，提高了标注效率，避免了人为因素导致的标注质量差和效率低下，提升了标注结果的一致性，减少了模型泛化性差的影响。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是图示根据示例性实施例的二维图像自动目标检测的标注系统结构图；

图2是图示根据示例性实施例的二维图像自动目标检测的标注系统方法流程图；

图3是图示根据示例性实施例的半监督目标检测方法模型训练流程图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方示意性地适当夸大了部件的厚度。

发明人设计了一种二维图像自动目标检测的标注系统，如图1所示，包括:

数据上传模块，上传自动驾驶场景二维图像数据集、标注文件和配置数据到标注系统，自动驾驶场景二维图像数据集由多张自动驾驶道路场景下的车载摄像头所拍摄的图像文件构成，未经过采样，图像文件支持的格式包括无损压缩算法的位图格式（. png）或者静态压缩格式（. jpg）；

数据采样模块，采样自动驾驶场景二维图像数据集得到样本集，采样的比例设置范围为0-100%，优选20%，采样的方法为均匀采样或者随机采样；

前端展示模块，与用户进行交互，获取指令和展示数据；

自动标注模块，对二维图像目标检测模型进行训练和推理，得到自动标注结果；训练包括：在少部分采样的数据上进行标注作为标签数据，结合剩余未标注的无标签数据，输入到深度学习神经网络进行训练；训练中采用特定的损失函数作为目标，直到损失值不再下降时结束训练，保存对应的神经网络参数，得到最终的二维图像目标检测模型；

基于上述实施例，发明人提供了一种二维图像自动目标检测的标注方法，如图2所示，包括如下步骤：

S100、数据上传，通过数据上传模块上传自动驾驶场景二维图像数据集、标注文件和配置数据。

S200、数据集采样标注，在数据采样模块对自动驾驶场景二维图像数据集进行采样得到样本集，并进行人工标注，标注文件支持的格式为一种轻量级的数据交换格式(.json)，自动驾驶场景二维图像数据集具体包括含有标注文件的已标注数据集D _s和剩余的未标注图像文件，即未标注数据集D _u。

S300、目标检测模型训练，通过自动标注模块训练二维图像目标检测模型，训练采用深度神经网络，以特定的损失函数作为目标，直到损失值不再下降时结束训练，保存对应的深度神经网络参数，最终的二维图像目标检测模型；其中，深度神经网络的结构为卵生网络，分别称老师网络和学生网络，老师网络和学生网络的结构相同但初始化参数不同，学生网络的初始化参数是随机产生的，训练开始时老师网络的初始化参数和学生网络的初始化参数保持一致；训练过程中学生网络使用随机梯度下降，老师网络则根据学生网络进行指数移动平均的加权平均迭代；特定的损失函数为整体损失函数

，包括有监督损失函数

和无监督损失函数

；

有监督损失函数

的计算公式、无监督损失函数

、整体损失函数

的计算公式如下：

（1），

（2），

（3），

其中

代表第i张标记图片，

代表第i张伪标签图片，

代表类别损失，

代表框的回归损失，

代表标记图片的数量，

代表伪标签图片的数量，

为权重因子。类别包括前景类别fg和背景类别bg，前景的重要性相同，前景类别的损失为算数平均；背景的重要性不同，而且图像中背景占绝大部分，根据重要性对背景进行排序，背景类别的损失为加权平均。

无监督损失函数中的类别损失函数

计算公式如下：

（4），

（5），

其中权重

为背景框的可靠性得分，

为前景的候选框，

为背景的候选框，

为教师网络生成的预测结果的集合，

为目标框分类损失，

为第j个背景候选框的可靠性分数，

和

分别是前景和背景的候选框的数量。

无监督损失函数中的回归损失函数

，计算公式如下：

（6），

其中，

目标框的回归损失，

为教师网络生成的预测结果的集合。

如图3所示，本步骤采用半监督学习方法训练二维图像目标检测模型，具体包括以下步骤：

S330、无标签数据集分别经过弱数据增强和强数据增强后输入到老师网络和学生网络进行推理，弱数据增强是指输入的图像文件经过调整大小后，只进行图像翻转数据增强操作；强数据增强方法是指输入的图像文件经过调整大小后，还进行一系列的数据增强操作，包含图像旋转、对比度变化、亮度变化、透明度变化、饱和度变化、颗粒度变化、图像随机挖孔、图像随机裁剪；

S340、老师网络推理得到的预测结果称为伪标签，将伪标签做进一步阈值筛选：通过非极大值抑制(NMS)后，置信度高于阈值的伪标签视为有效的伪标签，有效的伪标签作为学生网络模型的真值；

S400、数据集推理，自动标注模块对完整的自动驾驶场景二维图像数据集进行推理，用保存的二维图像目标检测模型来对二维图像数据集中的每一帧做推理，得到自动标注结果；

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种二维图像自动目标检测的标注系统，其特征在于，包括：

数据采样模块，采样所述自动驾驶场景二维图像数据集得到样本集；

结果获取模块，获取所述自动驾驶场景二维图像数据集的推理结果；

前端展示模块，与用户进行交互，获取指令和展示数据；

指令控制模块，通信连接所述数据上传模块、所述数据采样模块、所述结果获取模块、所述前端展示模块和所述自动标注模块，收发模块间指令，实现模块间的通信；

待标注的自动驾驶场景二维图像数据集通过所述数据上传模块上传到所述指令控制模块，然后发送到所述数据采样模块采样得到样本集，通过所述前端展示模块对所述样本集进行人工目标检测标注，所述自动标注模块对已标注的样本集和未标注的样本集进行二维图像目标检测模型训练，完成训练后自动对所述未标注的样本集进行推理，所述结果获取模块获取所述二维图像数据集的推理结果，经过所述指令控制模块传输到所述前端展示模块对标注结果进行人工质检和微调。

2.如权利要求1所述的二维图像自动目标检测的标注系统，其特征在于，所述自动驾驶场景二维图像数据集由多张自动驾驶道路场景下的车载摄像头所拍摄的图像文件构成，未经过采样。

3.如权利要求1所述的二维图像自动目标检测的标注系统，其特征在于，所述采样的比例设置范围为0-100%。

4.如权利要求1所述的二维图像自动目标检测的标注系统，其特征在于，所述采样的方法为均匀采样或者随机采样。

5.如权利要求1所述的二维图像自动目标检测的标注系统，其特征在于，所述对二维图像目标检测模型的训练包括：在少部分采样的数据上进行标注作为标签数据，结合剩余未标注的无标签数据，输入到深度学习神经网络进行训练；训练中采用特定的损失函数作为目标，直到损失值不再下降时结束训练，保存对应的神经网络参数，得到最终的二维图像目标检测模型。

6.一种二维图像自动目标检测的标注方法，使用如权利要求1-5任一项所述的二维图像自动目标检测的标注系统，其特征在于，包括如下步骤：

S100、数据上传，通过所述数据上传模块上传自动驾驶场景二维图像数据集、标注文件和配置数据；

S200、数据集采样标注，在所述数据采样模块对所述自动驾驶场景二维图像数据集进行采样得到样本集，并进行人工标注；

S300、目标检测模型训练，通过所述自动标注模块训练二维图像目标检测模型，训练采用深度神经网络，以特定的损失函数作为目标，直到损失值不再下降时结束训练，保存对应的深度神经网络参数，得到最终的二维图像目标检测模型；

S400、数据集推理，所述自动标注模块对完整的所述自动驾驶场景二维图像数据集进行推理，得到自动标注结果；

S500、人工质检及微调，在所述前端展示模块对所述自动标注结果进行质检以及微调；

S600、数据导出，在所述前端展示模块选择导出格式，对最终的标注结果数据进行导出。

7.如权利要求6所述的二维图像自动目标检测的标注方法，其特征在于，所述深度神经网络的结构为卵生网络，分别为老师网络和学生网络，所述老师网络和所述学生网络的结构相同但初始化参数不同。

8.如权利要求7所述的二维图像自动目标检测的标注方法，其特征在于，所述步骤S300采用半监督学习方法训练二维图像目标检测模型，包括以下步骤：

S310、将采样后的自动驾驶场景二维图像数据集和标注文件进行匹配，根据自动驾驶场景二维图像数据集中的图像文件是否有对应的标注文件，将所述自动驾驶场景二维图像数据集划分为有标签数据集和无标签数据集；

S320、所述有标签数据集经过常规数据增强后输入到所述学生网络进行推理，输出的预测结果与真值比较计算损失；

S330、所述无标签数据集分别经过弱数据增强和强数据增强后输入到所述老师网络和所述学生网络进行推理；

S340、所述老师网络推理得到的预测结果称为伪标签，将所述伪标签做进一步阈值筛选，通过非极大值抑制后，置信度高于阈值的伪标签视为有效的伪标签，所述有效的伪标签作为所述学生网络模型的真值；

S350、所述学生网络推理得到的预测结果与所述有效的伪标签相比较计算损失。

9.如权利要求8所述的二维图像自动目标检测的标注方法，其特征在于，所述弱数据增强是指输入的图像文件经过调整大小后，只进行图像翻转数据增强操作。

10.如权利要求8所述的二维图像自动目标检测的标注方法，其特征在于，所述强数据增强方法是指输入的图像文件经过调整大小后，还进行一系列的数据增强操作。