CN114419397A

CN114419397A - 基于数据清洗和数据生成的数据集构建方法及装置

Info

Publication number: CN114419397A
Application number: CN202210065170.2A
Authority: CN
Inventors: 林柏洪; 池瀚星
Original assignee: Sun Yat Sen University; Sun Yat Sen University Shenzhen Campus
Current assignee: Sun Yat Sen University; Sun Yat Sen University Shenzhen Campus
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-04-29

Abstract

本发明公开了基于数据清洗和数据生成的数据集构建方法及装置，方法包括：获取初始数据集中所有图像的标注文件，构建第一训练集和第一测试集；训练得到第一深度检测模型；根据所述第一深度检测模型对所述第一测试集的检测结果，将所述第一测试集中包含错误标注的图像筛选出来，得到包含错误标注的图像的E集，将所述E集作为第二测试集；构建第二训练集；训练得到第二深度检测模型；获取第二深度检测模型的检测结果，作为E集的新标注；对检测结果进行人工检查以及进一步修正，得到新的标注文件，完成数据集清洗；对新的标注文件对应的图像进行几何拉伸变换，得到新的图像文件。本发明提高了准确性和效率，可广泛应用于数据处理技术领域。

Description

基于数据清洗和数据生成的数据集构建方法及装置

技术领域

本发明涉及数据处理技术领域，尤其是基于数据清洗和数据生成的数据集构建方法及装置。

背景技术

钢中非金属夹杂物是指钢铁中的氧化物、硫化物、硅酸盐和氮化物等各种非金属物质颗粒，它们的存在会影响钢铁材料的性能。例如，非金属夹杂物成分过多且分布不均，破坏了钢基体的连续性，会明显降低钢的塑性、韧性、耐腐蚀性及焊接性。因此，钢铁材料出厂前，需要借助金相显微镜，观察钢材抛光面微观结构，检测钢中非金属夹杂物的类型、数量和分布，对该批次钢材进行评级，统计得出一个相对宏观的钢材纯净度，为较全面评价钢材质量提供依据。

目前，对非金属夹杂物的含量观察测定多为传统图像处理方法与人工观察检测结合，但该过程存在几个不足：

①检测精度差。实际图片中，夹杂物的形貌复杂，仅通过人眼观察比对识别，即检测结果精度受检验员的工作经验、水平、工作状态的影响较大。据钢铁行业厂商介绍，当前检测准确率不到70％。

②检测效率低。人眼观察往往需对照国标文件的标准图谱来做出判断，对于新手而言，当图像中夹杂物数目类型众多，检测时间甚至达20分钟以上；而对于经验丰富的检测员，虽检测时间有所缩短，但检测过程耗神耗状态，工作效率也很难提升。

③检测自动化和数字化程度低。现采用图像处理软件可辅助人工观察，往往需要人工观察图像处理效果，手动调节方法的超参数。工厂针对该工作，还需安排专业检测人员，耗费人力资源，自动化和数字化程度相对较低。

④检测工作对人体健康存有影响。金相显微镜也属于光学显微镜，面对工厂每天大量的检测试样，长期使用光学显微镜也会损害检测人员的眼睛。

迄今为止，学术研究上针对目标检测的深度学习发展迅速，各种杰出检测算法层出不穷。然而，这些深度学习方法需要大量带准确标注的训练数据，而实际企业工程中，考虑成本与收益，通常很难构建出大规模高准确度的标注数据集，具体体现为：

①错误标注数据多；数据是由人工标注的，在标注过程中，由于人的精神状态消耗或夹杂物本身难以区分，标注人员难免会出现主观判断出错，出现错标或者漏标。此类错误标注的存在会影响深度学习模型的训练，进而影响最终模型的检测性能。

②数据样本量少；考虑到图像质检部门的图像采集成本，以及工厂安排专业标注人员等人力资源开销，显然通过这种人工方式来直接构建出大规模准确标注的数据集耗费成本过高。

发明内容

有鉴于此，本发明实施例提供一种准确性高且效率高的，基于数据清洗和数据生成的数据集构建方法及装置。

本发明的一方面提供了一种基于数据清洗和数据生成的数据集构建方法，包括：

获取初始数据集中所有图像的标注文件，构建第一训练集和第一测试集；

根据所述第一训练集训练得到第一深度检测模型；

根据所述第一深度检测模型对所述第一测试集的检测结果，通过预设的筛选算法将所述第一测试集中包含错误标注的图像筛选出来，得到包含错误标注的图像的E集，将所述E集作为第二测试集；

根据所述初始数据集中除了所述第二测试集之外的图像，构建第二训练集；

根据所述第二训练集训练得到第二深度检测模型；

获取所述第二深度检测模型对所述第二测试集的检测结果，作为所述E集的新标注；

对所述检测结果进行人工检查以及进一步修正，得到新的标注文件，完成数据集清洗；

对新的标注文件对应的图像进行几何拉伸变换，得到新的图像文件。

可选地，所述获取初始数据集中所有图像的标注文件，构建第一训练集和第一测试集，包括：

获取初始数据集中所有图像的标注文件；

对所述标注文件进行规范化处理，将所述标注文件中内容的组织格式转换为标准格式；

将标准格式的数据集按照1：1的比例划分得到6组第一训练集和6组第一测试集，其中，所述数据集中每张图像划分进训练集与测试集的次数为3次。

可选地，所述根据所述第一训练集训练得到第一深度检测模型，包括：

将所述6组第一训练集输入二阶检测模型Faster-RCNN，训练得到6个模型；

所述6个模型分别对相应的第一测试集进行检测，得到6组检测结果。

可选地，所述根据所述第二训练集训练得到第二深度检测模型，包括：

将所述第二训练集输入二阶检测模型Mask-RCNN，训练得到所述第二深度检测模型。

可选地，所述方法还包括：

当初始数据集中图像的标注不匹配于对应的图像名时，将图像名修改成与所述标注一致；

当标注中同类别的命名不满足规范统一要求时，将对应的标注进行统一命名。

可选地，所述根据所述第一深度检测模型对所述第一测试集的检测结果，通过预设的筛选算法将所述第一测试集中包含错误标注的图像筛选出来，得到包含错误标注的图像的E集，将所述E集作为第二测试集，包括：

配置初始化置信度阈值和IoU阈值；

根据所述第一测试集中各个图像的标注、所述置信度阈值和所述IoU阈值，计算各个图像上检测框的TP数量和FP数量；

根据所述TP数量和所述FP数量，计算每张图像的检测结果的准确率；

根据预设的筛选阈值，将所述准确率低于所述筛选阈值的图像对应的标注判定为错误标注；

从所述第一测试集中将所述错误标注对应的图像筛选出来，将筛选出来的错误标注的图像构建成第二测试集。

可选地，所述方法还包括：

将所述第二深度检测模型对所述第二测试集的检测结果转换为labelme格式；

确定所述labelme格式的数据中的多边形标注，作为图像的新标注；

根据所述多边形标注结合人工核查实现对所述新标注的修正。

所述对新的标注文件对应的图像进行几何拉伸变换，得到新的图像文件，包括：

输入新的标注文件以及对应的图像，确定所述图像中待进行几何拉伸变换的区域半径；

计算所述标注文件中所有目标的坐标中心点；

根据所述坐标中心点，随机生成对应的拉伸变换区域的圆心；

在所述拉伸变换区域中，将所述标注文件中所有目标的原像素点坐标进行拉伸变换，得到新坐标；

根据所述新坐标，输出经过几何拉伸变换的新图像文件以及对应的新标注文件。

本发明实施例的另一方面还提供了一种基于数据清洗和数据生成的数据集构建装置，包括：

第一模块，用于获取初始数据集中所有图像的标注文件，构建第一训练集和第一测试集；

第二模块，用于根据所述第一训练集训练得到第一深度检测模型；

第三模块，用于根据所述第一深度检测模型对所述第一测试集的检测结果，通过预设的筛选算法将所述第一测试集中包含错误标注的图像筛选出来，得到包含错误标注的图像的E 集，将所述E集作为第二测试集；

第四模块，用于根据所述初始数据集中除了所述第二测试集之外的图像，构建第二训练集；

第五模块，用于根据所述第二训练集训练得到第二深度检测模型；

第六模块，用于获取所述第二深度检测模型对所述第二测试集的检测结果，作为所述E 集的新标注；

第七模块，用于对所述检测结果进行人工检查以及进一步修正，得到新的标注文件，完成数据集清洗；

第八模块，用于对新的标注文件对应的图像进行几何拉伸变换，得到新的图像文件。

本发明实施例的另一方面还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例获取初始数据集中所有图像的标注文件，构建第一训练集和第一测试集；根据所述第一训练集训练得到第一深度检测模型；根据所述第一深度检测模型对所述第一测试集的检测结果，通过预设的筛选算法将所述第一测试集中包含错误标注的图像筛选出来，得到包含错误标注的图像的E集，将所述E集作为第二测试集；根据所述初始数据集中除了所述第二测试集之外的图像，构建第二训练集；根据所述第二训练集训练得到第二深度检测模型；获取所述第二深度检测模型对所述第二测试集的检测结果，作为所述E集的新标注；对所述检测结果进行人工检查以及进一步修正，得到新的标注文件，完成数据集清洗；对新的标注文件对应的图像进行几何拉伸变换，得到新的图像文件。本发明提高了准确性和效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的数据清洗的整体步骤流程图；

图2为本发明实施例提供的格式转换与数据集划分流程图；

图3为本发明实施例提供的钢中非金属夹杂物的示意图和标注可视化的示意图；

图4为本发明实施例提供的将标注错误的图像筛选出来并生成新标注的流程框图；

图5为本发明实施例提供的将检测结果转换为labelme格式存储为标注文件的流程图；

图6为本发明实施例提供的钢中非金属夹杂物的示例图；

图7为本发明实施例提供的为图像生成的新标注的示意图；

图8为本发明实施例提供的图像与标注几何变换过程的流程图；

图9为本发明实施例提供的原始图像以及几何变换后图像的标注。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对现有构建数据集方法的缺陷，本发明的目的是提出一种基于数据清洗和数据生成的数据集构建方法，该方法由两大部分构成，先通过半自动数据清洗方法，将已标注的数据集进行清洗纠正标注，得到高准确度的数据，然后在此基础上经过图像变换生成更多样性的图像，扩充数据集，在节省人力财力的情况下完成较高质量的数据集的构建。

具体地，本发明的一方面提供了一种基于数据清洗和数据生成的数据集构建方法，包括：

根据所述第一训练集训练得到第一深度检测模型；

根据所述第二训练集训练得到第二深度检测模型；

需要说明的是，由于第二深度检测模型是E集以外的标注图像构建的训练集训练而来的，准确度较高，所以这个检测结果(即是对E集中每张图像生成目标检测框)相比较与原先的标注(错误标注)更准确能覆盖目标或分类正确，因此将检测结果(可转换为新标注文件) 替代掉原先的错误标注。

获取初始数据集中所有图像的标注文件；

可选地，所述方法还包括：

配置初始化置信度阈值和IoU阈值；

可选地，所述方法还包括：

需要说明的是，本发明由检测结果就可以确定所述labelme格式中的多边形标注，此时已可生成新标注，后续是人工更进一步的核查。

可选地，所述对新的标注文件对应的图像进行几何拉伸变换，得到新的图像文件，包括：

计算所述标注文件中所有目标的坐标中心点；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

下面结合说明书附图，对本发明的具体实现原理进行详细说明：

如图1所示，本发明的数据清洗的大致步骤如下：

①对原始标注中的内容进行初步的检查，将标注内容规范化，再将标注中内容的组织格式转换为COCO标准格式(COCO为微软出资标注的大型公开权威数据集，其标注内容组织格式层次分明清晰，易编写程序读取标注以供后续训练模型)；

②将转换后的数据集按照1：1的比例，总共重复6次，尽可能随机划分成6组训练集和测试集，并保证每张图像被划分到测试集的次数为3次(目的是保证后续图像筛选不由偶然因素而遗漏)；

③选择二阶检测模型Faster-RCNN(一个目标检测深度学习检测模型)，利用①的6组训练集分别训练得到6个模型，并分别对各自相应组的测试集进行检测，得到6组检测结果，该6组检测结果则包含了原数据集所有图像的检测结果；

④判断上述所有检测结果，将检测结果不好的图像筛选出来(标注错误是导致检测结果不好的原因之一)，从而得到原数据集中可能有错误标注的图像；

⑤将上述筛选出来的图像作为测试集，剩下的图像作为训练集，训练二阶检测模型 Mask-RCNN(另一个深度学习检测模型)，并将测试集的检测结果导出，作为该测试集中图像新的标注文件；

⑥针对上述筛选出的作为测试集的图像及其对应的新生成的标注，对照国标标准文件，人工核查其标注的准确性，修正标注，完成数据集的清洗。

为了快速且有效地完成上述步骤，本实施例可以通过运行程序来进行工作，可以分为三个阶段编写程序进行：第一个阶段，将数据集按1：1划分成6组训练集与测试集，使每张图像被划分到测试集的次数为3次，并完成初步的数据清洗与标注中字段组织的格式转换，以及分别训练与测试6个Faster-RCNN模型；第二个阶段，判断6组测试结果，相当于判断原数据集中每张图像的检测结果，按照一定条件设置筛选阈值，将标注错误的图像筛选出来，将筛选出来的图像作为测试集，数据集中余下的其他图像作为训练集，训练Mask-RCNN模型，并将测试集的检测结果导出；第三个阶段，将上述导出的检测结果转换为labelme格式作为筛选图像的新标注，以便结合labelme软件进行最后的人工核查与精修标注。

下面详细描述图像标注格式转换，数据集划分以及训练测试模型的实现过程：

以钢中非金属夹杂物数据集为例，数据集是由图像及其对应标注文件构成的，标注主要包含该图像的宽、高、图像文件名，图像中目标的边框坐标，所属类别等，标注文件以json 文件存储(JavaScript Object Notation，是一种具有简洁和清晰层次结构的数据存储和表示方法)，钢中非金属夹杂物图像及其标注可视化如下图3所示，其中，图3中的左图为钢中非金属夹杂物的示意图，图3中的右图为钢中非金属夹杂物的标注可视化的示意图。

如图2所示，图像的标注是人为手工通过labelme软件录入的，由于长时间的打标工作，存在标注员精神状态不佳而导致信息录入出错的情况；另外，一个数据集的构建，其标注工作通常时由多个人协作，并且经过多批次图像采集与标注积累起来的，因此也存在不同批次，不同人的拼写习惯不一样，导致标注不同一不规范，不可避免出现信息、字母大小写拼写等录入错误。因此，本实施例首先需进行初步的标注检查并将其统一化，规范化。

本例钢中非金属夹杂物数据集是由企业质检员采用labelme标注软件标注提供，图像经由labelme软件打标，则其生成的标注中的字段信息组织方式称为labelme格式，但为后续方便编写标注读取程序以及训练模型，本实施例需将软件生成的labelme格式的标注转换为 COCO格式的标注。

原始标注的检查与格式转换之后，即可进行数据集的划分。本实施例划分的目标是：按训练集与测试集1：1随机重复划分6次，且每张图像被划分在测试集中的次数为3，以保证数据集中每张图像都可以得到3不同模型的3次检测结果，避免后续筛选的偶然性。

划分方式如下：首先即可完全随机重复划分3次，得到3组训练集与测试集，因为此时重复出现在测试集或训练集中的图像最多不超过3次；接着进行第4～6组的划分，此时需统计在目前已有的划分结果中，哪些图像在测试集中出现3次，则将这些图像先划入训练集，反之亦然，然后余下的其他图像则仍是随机划分，但需根据情况计算余下图像的划分比例，以保证最终划分结果训练集与测试集的比例是1：1。

划分得到6组训练集与测试集之后，搭建Faster-RCNN模型(本实施例采用基于Pytorch 实现的深度学习目标检测工具箱mmdetection框架来搭建模型，该模型是权衡速度与精度而选择的)，利用6组训练集分别训练Faster-RCNN，并得到相应6组测试集的检测结果，相当于得到原数据集中的所有图像的检测结果，并存储为json文件格式导出，作为后续筛选程序阶段的输入。

下面详细描述数据集中标注错误的图像的自动筛选及其相应新标注生成的过程：

参考附图4，首先简要介绍一下目标检测领域中的模型检测结果评价方法：

在目标检测领域中，一般都计算测试集检测结果的mAP(mean AveragePrecision)指标来衡量模型的性能，即是AP(Average Precision)的平均值，实际上一张图像会含有多个类别，而AP就是某一类别的平均准确率(比如检测出猫类的准确率、狗类的准确率等)。 AP是由PR曲线(Precision-Recall曲线)积分而来的，其中Precision和recall是衡量模型性能两个不同维度的度量：

Precision为准确率，代表在模型输出的所有检测结果中(在图像上输出边框框住目标)，正确检测框所占的百分比。比如在人脸识别应用中，要求模型有更高的Precision指标，即宁可漏检也不可误检。

Recall为查全率，代表在图像上所有目标中，模型正确检测出来的目标所占的比例。比如在医学肿瘤检测应用中，要求模型有更高的Recall指标，即宁可误检不可漏检。

其计算公式分别为：

上式中，TP(True Positive)指模型检对的个数，FP(False Positive)指模型误检的个数，FN(False Negative)指模型漏检的个数。

更具体地，一个模型输出的检测框是否属于TP或者FP，需要借助交并比IoU(Intersection over Union)来判断，它的计算是“检测的边框”和“标注的边框”的交集和并集的比值，比如检测框A与标注框B的交并比计算为：

本实施例设置一个阈值，比如设置交并比大于0.5时，则认为该检测框是属于TP，否则属于FP，如此一来，就可以计算得到一张图像上TP、FP和FN数量，进而计算准确率Precision 与查全率Recall；此外，模型输出的每个检测框都会附带一个置信度，代表该检测框的可靠程度，本实施例将检测框置信度按降序排序，然后通过设置不同的置信度阈值，本实施例可以保留下不同数量的检测框，因此可以得到多组不同的Precision与Recall点对，从而绘制出某一类别的Precision-Recall曲线，再求其积分得到某一类的AP指，最后计算所有类别的AP值并取均值得到mAP，作为目标检测算法模型的评价指标。

其中，TP就是True P；FP就是False P。TP和FP都是站在预测的角度来描述的。P代表的是Positive，正类；N表示的是Negative，负类。Positive代表原始类别，而Negative 代表其他所有的类别。

考虑到本发明的筛选方法主要关注检测结果中不好的检测框，而不好的检测框体现为对目标的误检和漏检。其中，误检为FP，即检测器认为是目标，但实际上(根据标注)检测器判错了；漏检为FN，即检测器认为是背景，但实际上(根据标注)检测器判错了。

从标注本身的角度看，错误的标注也可能造成误检，常见的错误标注有：分类错误、定位错误，以及漏标，这三种情况均会导致检测器的正确检测结果反而可能会被判为FP。因此，数据清洗工作中要找出以上三类错误标注，则需要关注检测结果中的FP检测框在该图像上所占的比例。

Precision指标正是与模型误检直接相关的；假设模型对某图像的检测结果正确，但通过计算出该图像检测结果的Precision很低，则可反推是该图的原始标注有错误或者漏标，因此，采用Precision指标作为本发明的筛选条件更简洁有效，程序具体设置与步骤如下：

在每张图像的检测结果中，为了过滤掉部分低质量且保留足够多的检测框，本实施例初始化置信度阈值S为0.3，再以IoU阈值为0.5，结合该图的原始标注，计算出该图像上检测框的TP、FP数量，即可计算每张图像检测结果的准确率Precision；设置筛选阈值检测准确率为0.5，即认为准确率小于0.5的图像有可能存在错误标注而将其筛选出。

将筛选出的图像作为测试集，余下的图像标注相对准确作为训练集，选择训练Mask-RCNN 模型(同上由mmdetection框架搭建而成，选择该模型是因为需要更高精度的检测结果)以生成质量相对较高的Mask标注(即为掩膜标注，覆盖目标的整体以及边缘轮廓，而 Faster-RCNN只能生成矩形标注框住目标)以保证新生成的标注质量。

下面详细描述新标注格式转换与人工核查新标注的整体过程：

参考图5，由于模型输出的检测结果为COCO格式的Mask标注，目前没有现成的软件读取COCO格式的标注，即无法实时可视化并人工修改，不方便本工作进行，因此需要将该COCO 格式的Mask标注转换为labelme格式中的多边形标注(用多边形来标注目标)，并借助labelme 软件人工实时完成核查或者精修新标注。

下面结合具体的应用场景，对本发明的具体实施过程进行详细描述：

本发明提出的半自动数据清洗方法，具体为采用监督学习方法辅助修正图像标注，包括以下步骤：

步骤(1)：输入初始数据集中所有图像对应的标注文件，检查拼写并统一规范化标注；

步骤(2)：将规范化后的labelme格式的标注转换为COCO格式的标注；

步骤(3)：按1：1将标注随机重复划分3次，得到前3组训练集与测试集；进行第4～6组划分时，需统计当前已划分的训练集中重复出现3次的图像有哪些，并将它们先划入测试集中，反之亦然，再在剩下的图像标注中，随机取如下比例的标注划入测试集：

其中，All为总标注数量，train为目前已划分的训练集中重复3次的标注的数量，test为目前已划分的测试集中重复3次的标注的数量，根据上述方法即可得到6组随机的1：1的训练集与测试集，并且使得所有标注中，每个标注出现在测试集的次数均为3次；

步骤(4)：使用mmdetection框架搭建深度检测模型Faster-RCNN，利用6组训练集，分别训练Faster-RCNN模型，并测试相应的测试集，得到6组检测结果，以json文件导出；

步骤(5)：输入6组测试集的检测结果json文件以及相应的图像原始标注json文件，手动设置IoU阈值，置信度阈值S以及筛选阈值检测准确率P，计算6组检测结果中每张图像的检测准确率Precision，将准确率Precision小于设定阈值P的图像筛选出；

步骤(6)：将筛选出的图像共同构成测试集，余下的图像作为训练集；采用mmdetection 框架搭建深度检测模型Mask-RCNN，利用新划分好的训练集训练Mask-RCNN模型，并测试相应测试集，得到mask掩膜的检测结果以json文件导出；

步骤(7)：输入上述检测结果mask标注的json文件，将COCO格式的mask掩膜标注转换为labelme格式的多边形标注，作为本测试集中图像新的标注文件json输出。

下面以钢中非金属夹杂物数据图像为例，对本发明的方法的技术效果进行说明。

如图6所示，图6中的(a)图代表A类夹杂物；图6中的(b)图代表B类夹杂物；图6中的(c)图代表C类夹杂物；图6中的(d)图代表D类夹杂物；图6中的(e)图代表DS类夹杂物。

由于夹杂物图像的标注是人手工完成的，即不可避免出现工人精神状态不佳，个人主观判断出错，手误操作等造成标注出错或者漏标。由于成本原因，一般企业所能提供的数据集都属于小型数据集，若直接采用这些含有错误的标注作为数据集去训练深度学习模型，则会对最终的结果造成负面影响。采用本发明方法使用深度检测模型Faster-RCNN检测数据集中所有图像，并判断检测结果与图像原标注的差异程度，从而将有可能含有错误标注的图像筛选出来，再通过另一个深度检测模型Mask-RCNN为这些图像生成新的标注，最后通过人工核查或者精修该新标注。选择同一个深度检测模型Faster-RCNN，对比数据集清洗前后的训练效果，以测试集检测结果的mAP作为评价指标(mean AveragePrecision，在目标检测领域，该指标作为衡量检测算法性能高低标准之一，mAP越高，算法性能越高；在本例中，由于采用的是同一个检测模型Faster-RCNN，但使用清洗前后的数据来进行训练，故该指标可用来衡量清洗前后两个数据集的质量高低)。mAP指标的计算方式详见半自动数据清洗原理中的第二阶段：数据集中标注错误的图像的自动筛选。具体地，mAP@50代表在IoU阈值为0.5的情况下计算得出的mAP，mAP@75代表在IoU阈值为0.75的情况下计算得出的mAP，mAP@50： 95代表在IoU阈值为50，55，60，65，70，75，80，85，90，95这十种情况下的mAP的平均值。IoU阈值越高，代表模型预测结果的检测框需要与标注框重合度更高才判为检对了，即IoU越高情况下的mAP指标体现模型越高精度的定位性能，而将多个不同IoU阈值下的mAP 取平均值则是更稳健更严格的评价指标。

本例的钢中非金属夹杂物数据集共由3042张图像构成，经由上述发明方法筛选出错误标注图像863张(主要包括图像文件与标注文件不匹配，目标分类标错，漏标三种错误)，说明人工标注的方式极大概率会出现错误，即标注完成几千张图像后，有约28.36％的标注是错误的，大大增加了深度模型训练的噪声，导致效果为次优的。

采用上述数据集评价方法，此处给出用本方法清洗后的数据集与原始数据集(两者的训练集与测试集中的图像均保持一致，仅标注不同)的质量对比，对比结果如表1所示；

表1

数据集	mAP@50:95	mAP@50	mAP@75
				原始	46.4	73.2	52.5
本发明方法(清洗)	51.9	80.1	59.7

本方法筛选出错误标注的图像并为其生成新标注的例图如图7所示，其中，红色框为原始错误标注，青色框为深度检测模型为该图像生成的新标注。

另外，本发明结合钢中非金属夹杂物形状特点，采用几何变换实现图像的拉伸扭曲(哈哈镜拉伸特效)生成更多样性的数据，扩充数据集，使深度模型能学习到更加全面的钢中非金属夹杂物特征，并防止训练模型时出现过拟合，算法同时包括图像与标注的几何变换，如图8所示，具体原理如下：

图像与标注的几何变换原理(都是针对坐标计算，图像与标注的变换原理相同)：

①输入图像f(x,y)；

②设置图像变换作用区域，如以圆心点坐标(Center_x,Center_y)，半径为R的圆域为拉伸放大区域；

③在变换区域内，像素点坐标(x,y)经过拉伸变换后得到新坐标(new_x,new_y)与拉伸中心点(圆心)的相对坐标为：

tx＝new_x-Center_x

ty＝new_y-Center_y

其中，相对坐标tx，ty可由以下二元二次方程组求出：

故由以上4式可计算出新坐标(new_x,new_y)；

④遍历变换区域内所有像素点坐标(x,y)，计算得到拉伸后的坐标(new_x,new_y)，并将像素值f(x,y)赋给p(new_x,new_y)，输出扭曲后图像p(new_x,new_y)。

本发明的数据生成方法，具体为结合钢中非金属夹杂物形状特点，采用图像几何变换(哈哈镜特效)生成更多样性的图像以扩充数据集，包括以下步骤：

步骤(1)：输入标注json文件及其相应图像文件，设定图像中进行需几何拉伸变换的区域半径R；

步骤(2)：根据读取到标注文件中所有目标，求它们坐标的中心点，并在该中心点通过随机数生成，随机取该中心点附近一点作为拉伸变换区域的圆心(Center_x,Center_y)；

步骤(3)：根据几何拉伸变换原理，在变换区域内，原像素点坐标(x,y)与经过拉伸变换后得到新坐标(new_x,new_y)存在如下关系：

tx＝new_x-Center_x

ty＝new_y-Center_y

其中，tx，ty为像素点坐标(x,y)经过拉伸变换后得到新坐标(new_x,new_y)与拉伸中心点(圆心)的相对坐标，可由以下二元二次方程组求出：

由以上4式可计算出变换后的新坐标(new_x,new_y)；遍历变换区域内所有像素点坐标 (x,y)，计算得到拉伸的坐标(new_x,new_y)，并将像素值f(x,y)赋给p(new_x,new_y)，输出扭曲后图像p(new_x,new_y)；

步骤(4)：对相应标注中的目标坐标进行相同的几何拉伸变换；

步骤(5)：输出经过几何拉伸变换的新图像文件，及其相应的新标注文件。

本发明实施例的数据生成方法的实施效果如表2所示：

表2.本数据生成方法的实施效果

数据集	mAP@50:95	mAP@50	mAP@75
				原始	46.4	73.2	52.5
本发明方法(清洗)	51.9	80.1	59.7
				本发明方法(清洗+生成)	53.5	80.8	61.5

本实施例采用上述半自动数据集清洗相同的数据集划分，即划分的训练集与测试集中的图像均保持相同，然后仅对训练集共1521张图像采用本发明进行数据生成，扩充得到新的训练集共3042张图像，利用新的训练集训练Faster-RCNN模型，并测试相同的测试集，得到的结果如表2所示。

结合图9本发明的变换效果展示，可直观得出，本发明的方法结合钢中非金属夹杂物的形状特性，通过图像几何变换算法就能有效地实现数据多样的扩充，为大规模数据集的构建成为可能，其中，图9的左图表示原始图像与标注；图9 的右图表示几何变换后的图像及新标注。

综上所述，本发明具有以下突出的有益效果：

本发明的特征在于高质量数据集是指构建的数据集是大规模的具有全面性的，而且是没有错误信息的具有准确性的，以保证能正确训练深度学习模型，防止训练出现过拟合，导致模型对测试集的检测效果差。

本发明提出的基于半自动数据清洗与数据生成的钢中非金属夹杂物数据集构建方法，与现有的人工标注与人工清洗构建相比，其优点是：

①本发明中的半自动数据清洗方法，采用监督学习方法，自动筛选出标注错误的图像，并通过深度学习模型为其批量生成新的标注，最后再进行人工对新标注的核查，可减少人工的重复性检查与修正标注工作。

②本发明中的数据生成方法，结合了钢中非金属夹杂物的形状特点，使数据集在很小的情况下可通过几何扭曲生成更多样性夹杂物图像，扩充数据集，代替了人工采集补充的高成本方案。

③本发明半自动数据清洗与数据生成方法，都为高质量数据集的构建降低了成本，并且实验证实本发明的两种方法均提高数据集质量了，对于钢铁行业检测有较高的实用性。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM， Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器 (CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于数据清洗和数据生成的数据集构建方法，其特征在于，包括：

根据所述第一训练集训练得到第一深度检测模型；

根据所述第二训练集训练得到第二深度检测模型；

2.根据权利要求1所述的基于数据清洗和数据生成的数据集构建方法，其特征在于，所述获取初始数据集中所有图像的标注文件，构建第一训练集和第一测试集，包括：

获取初始数据集中所有图像的标注文件；

3.根据权利要求2所述的基于数据清洗和数据生成的数据集构建方法，其特征在于，所述根据所述第一训练集训练得到第一深度检测模型，包括：

所述6个模型分别对相应的第一测试集进行检测，得到6组检测结果；

所述根据所述第二训练集训练得到第二深度检测模型，包括：

4.根据权利要求1所述的基于数据清洗和数据生成的数据集构建方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的基于数据清洗和数据生成的数据集构建方法，其特征在于，所述根据所述第一深度检测模型对所述第一测试集的检测结果，通过预设的筛选算法将所述第一测试集中包含错误标注的图像筛选出来，得到包含错误标注的图像的E集，将所述E集作为第二测试集，包括：

配置初始化置信度阈值和IoU阈值；

6.根据权利要求1所述的基于数据清洗和数据生成的数据集构建方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的基于数据清洗和数据生成的数据集构建方法，其特征在于，所述对新的标注文件对应的图像进行几何拉伸变换，得到新的图像文件，包括：

计算所述标注文件中所有目标的坐标中心点；

8.基于数据清洗和数据生成的数据集构建装置，其特征在于，包括：

第三模块，用于根据所述第一深度检测模型对所述第一测试集的检测结果，通过预设的筛选算法将所述第一测试集中包含错误标注的图像筛选出来，得到包含错误标注的图像的E集，将所述E集作为第二测试集；

第六模块，用于获取所述第二深度检测模型对所述第二测试集的检测结果，作为所述E集的新标注；

9.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。