CN116071605A

CN116071605A - 基于深度学习的标注方法、装置及存储介质

Info

Publication number: CN116071605A
Application number: CN202310209654.4A
Authority: CN
Inventors: 张俊峰; 杨培文
Original assignee: Supersonic Artificial Intelligence Technology Co ltd
Current assignee: Supersonic Artificial Intelligence Technology Co ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-05-05
Anticipated expiration: 2043-03-07
Also published as: CN116071605B

Abstract

本发明公开了基于深度学习的标注方法，包括：获取多张图片并进行标注，根据多张图片及其标注对创建的深度学习模型进行训练，使用训练完成的深度学习模型对新的图片进行推断，得到推理结果；对每个深度学习模型的推理结果进行依次遍历，以获取每个推理结果中的图片信息；根据每个推理结果获取图片中的目标物图片、目标物图片所在矩形框、目标物图片的掩膜，然后对图片的目标物进行自动标注。本发明能够解决现有模型文件人工标注导致效率低下、成本高等问题。本发明还公开了基于深度学习的标注装置及存储介质。

Description

基于深度学习的标注方法、装置及存储介质

技术领域

本发明涉及模型构建，尤其涉及一种基于深度学习的标注方法、装置及存储介质。

背景技术

在当前的深度学习领域内，为了得到识别精度高的模型，需要大量的标注数据。而目前的标注数据是由人工对图片进行一张一张手动标注，因为标注人员的专注程度、熟练程度和准确程度存在个体差异，不仅导致标注效率低下，而且可能存在人为的纰漏和谬误导致标注错误。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供基于深度学习的标注方法，其能够解决现有技术中模型训练过程中通过人工标注导致标注成本高、效率低下等问题。

本发明的目的之二在于提供基于深度学习的标注装置，其能够解决现有技术中模型训练过程中通过人工标注导致标注成本高、效率低下等问题。

本发明的目的之三在于提供一种存储介质，其能够解决现有技术中模型训练过程中通过人工标注导致标注成本高、效率低下等问题。

本发明的目的之一采用如下技术方案实现：

基于深度学习的标注方法，所述标注方法包括：

模型构建步骤：获取多张图片并对每张图片进行预标注，根据多张图片及其标注对创建的深度学习模型进行训练；

模型推理步骤：使用训练完成的深度学习模型对待识别图片进行推断以得出若干个推理结果；

图片获取步骤：对每个推理结果进行依次遍历，以获取每个推理结果中的遍历结果；

标注步骤：根据每个推理结果的遍历结果得出待识别图片中的目标物图片、目标物图片所在矩形框、目标物图片的掩膜，以及根据目标物图片、目标物图片所在矩形框和目标物图片的掩膜对待识别图片中的目标物进行自动标注。

进一步地，所述标注步骤具体包括：

图片获取步骤：根据每个推理结果的遍历结果获取待识别图片中的目标物图片的掩膜，以及目标物图片的掩膜所在矩形框，同时获取目标物图片的掩膜所在矩形框的坐标范围和尺寸；

转换步骤：将目标物图片的掩膜转换为数组，并按照目标物图片所在矩形框的尺寸对目标物图片进行调整后进行阈值分割；

边界提取步骤：对目标物图片进行边界提取以得出目标物的边界；

边界拟合步骤：将目标物的边界拟合成多边形；

判断步骤：获取多边形的层级结构，并判断多边形的层级结构是否为单个闭合的曲线，若是，则执行移动步骤；若否，则执行多边形连接步骤；

移动步骤：按照目标物图片所在矩形框的坐标范围对多边形进行移动；

多边形连接步骤：从该多边形中随机取一个随机点，以所述随机点为起点遍历连线至该多边形的终点；从该多边形的父多边形上遍历出距离所述随机点最近的点并以其为父多边形的起点遍历连线至父多边形的终点；然后将该多边形的起点与父多边形的起点相连、将该多边形的终点与父多边形的终点相连，以得出新的多边形，然后判断新的多边形的层级结构是否为单个闭合的曲线，若是，则执行移动步骤；若否，则执行多边形连接步骤。

进一步地，所述边界提取步骤中采用opencv.findContours对目标物图片进行边界提取。

进一步地，所述边界拟合步骤中采用道格拉斯-普克算法将目标物的边界拟合成多边形。

进一步地，所述转换步骤中按照目标物图片所在矩形框的尺寸对目标物图片进行调整采用skimage.transform.resize实现。

进一步地，还包括反馈训练步骤：将标注完成的待识别图片重新代入到所述深度学习模型的训练过程中，对所述深度学习模型进行训练。

进一步地，所述反馈训练步骤之后还包括判断步骤：判断训练后的深度学习模型是否符合预设要求，若是，则得到最终的深度学习模型；若否，则继续对深度学习模型进行训练或重新对深度学习模型的推理结果进行标注。

本发明的目的之二采用如下技术方案实现：

基于深度学习的标注装置，包括存储器和处理器，所述存储器上存储有在处理器上运行的标注程序，所述标注程序为计算机程序，所述处理器执行所述标注程序时实现如本发明的目的之一采用的基于深度学习的标注方法的步骤。

本发明的目的之三采用如下技术方案实现：

一种存储介质，所述存储介质为计算机可读存储介质，其上存储有标注程序，所述标注程序为计算机程序，所述标注程序被处理器执行时实现如本发明的目的之一采用的基于深度学习的标注方法的步骤。

相比现有技术，本发明的有益效果在于：

本发明通过采用自动标注的方式，以解决人工标注存在效率低、成本高等问题，可大大降低标注的工作量。

附图说明

图1为本发明提供的基于深度学习的标注方法流程图；

图2为图1中步骤S4的流程图；

图3为本发明提供的在多边形a随机取一个随机点A1，并以该随机点A1为起点对多边形a进行遍历至多边形a的终点B1时所形成的连线示意图；

图4为图3中的多边形a的父多边形b上遍历出距离上述随机点A1最近的点A2，并以该点A2作为起点，对父多边形b进行遍历至父多边形b的终点B2时所形成的连线示意图；

图5为图4中将多边形a的起点A1、父多边形b的起点B1连接，多边形a的终点B1与父多边形b的终点B2相连得到的新的多边形c的示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一

本发明提供一种优选的实施例，基于深度学习的标注方法，如图1所示，包括以下步骤：

步骤S1、获取多张图片并对每张图片进行预标注，然后根据多张图片及标注对创建的深度学习模型进行训练。

本发明首先获取多张图片，然后对其进行预标注。其中，预标注是指由人工手动标注完成的，然后根据标注后的多张图片来实现模型的训练，再根据训练后的模型对新的图片进行自动标注，以进一步完善深度学习模型。

步骤S2、使用训练完成的深度学习模型对待识别图片进行推断以得出若干个推理结果。

训练好的深度学习模型，通过对新的图片进行推断，以得出推理结果，然后根据该推理结果对新的图片进行自动标注，无需人工标注，再将其反馈到模型训练中，可节省模型训练的标注时长，降低工作量。

步骤S3、对每个推理结果进行依次遍历以获取每个推理结果中的遍历结果。

通过模型对图片进行推断时，可能会得到一个推理结果，也可能得到多个推理结果。

步骤S4、根据每个推理结果的遍历结果得出待识别图片中的目标物图片、目标物图片所在矩形框、目标物图片的掩膜，以及根据目标物图片、目标物图片所在矩形框和目标物图片的掩膜对待识别图片中的目标物进行自动标注。

每张图片均对应一个标注文件。本发明中的标注实际上是针对图片中的目标物进行标注，以使得模型的识别更为准确。在图片标注时，需要获取标注文件中的图片信息。其中，图片信息包括图片的宽度和高度，分别为：img_width和img_height。

本发明首先通过人工预标注一些图片对构建的深度学习模型进行训练，然后再通过新的图片代入中训练后的模型后，然后以模型的推理结果对新的图片进行自动标注，也即，只需要通过人工对一些少量的图片进行预标注，无需对大量的图片进行标注，导致模型的图片标注的错误率高、成本高、工作量大的等的问题。同时将自动标注后的图片重新代入到数据集中对模型进行训练，对模型进行修正，降低模型的训练时长，提高模型的精准度。

优选地，如图2所示，步骤S4还包括：

步骤S40、根据每个推理结果的遍历结果获取待识别图片中的目标物图片、目标物图片所在矩形框、目标物图片的掩膜，同时获取目标物图片所在矩形框的坐标范围和尺寸。

其中，目标物图片的掩膜（mask），其是用于部分或完全隐藏对象或元素的部分的图形操作，将mask应用于图形对象的效果就好像将图形对象通过遮罩涂在背景上，从而完全或部分地遮盖了图形对象的各个部分，而遮罩内的图片不变化。正常情况下，对图片进行扫描后会将生成的目标物图片存储mask文件夹内，因此，对于目标物图片，本领域技术人员也将其称为mask，其名称与原图片名称一样，以方便后续训练。

目标物图片所在矩形框，实际上是指bbox，是指目标物图片所占图片中的矩形框。通过对目标物图片和目标物图片所在矩形框进行标注，以到达对目标物的标注，从而增加模型训练的识别精度。

其中，目标物图片所在矩形框的坐标范围包括横坐标x和竖坐标y，其尺寸包括宽度w和高度h。

步骤S41、将目标物图片的掩膜转换为数组，并按照目标物图片所在矩形框的尺寸对目标物图片进行调整后进行阈值分割。具体地，比如将目标物图片的mask转换为numpy.ndarray格式的数组。其中，numpy.ndarray格式的数组是指存放同类型元素的多维数组。

优选地，通过对目标物图片进行阈值分割采用二值化处理，可使得后续提取的边界更为准确。

使用skimage.transform.resize，对目标物的矩阵的大小进行重定，也即resize操作。也即，按照目标物所在的矩形框的尺寸将目标物的矩阵进行转换。通过对目标物图片的大小进行重定，可使得标注更为平滑。

步骤S42、对目标物图片进行边界提取以得出目标物的边界。

其中，在对目标物的矩阵进行边界提取时，采用使用opencv.findContours实现。

步骤S43、将目标物的边界拟合成多边形。具体地，采用道格拉斯-普克算法将目标物的边界拟合成多边形。

步骤S44、获取多边形的层级结构，并判断多边形的层级结构是否为单个闭合的曲线，若是，则执行步骤S45；若否，则执行步骤S46。

步骤S45、按照目标物图片所在矩形框的坐标范围对多边形进行移动。

也即，将多边形移动到目标物图片所在矩阵的位置上。也即，当多边形为一个闭合的曲线时，则直接将目标物的多边形动到目标物图片所在矩形框的位置上即可，已完成对目标物的标注。当多边形不是闭合的曲线时，需要将其连线以构成闭合曲线。

步骤S46、从该多边形中随机取一个随机点，以所述随机点为起点遍历得出该多边形的终点。如图3所示，从多边形a上随机取一个随机点A1，则以随机点A1为起点，对多边形a进行遍历并连线至多边形的终点B1。

步骤S47、从该多边形的父多边形上遍历出距离所述随机点最近的点并以其为父多边形的起点遍历得出父多边形的终点。

如图4所示，从多边形a的父多边形b上遍历出距离上述随机点A1最近的点，记为A2，然后以该点A2作为起点，对父多边形b进行遍历并连线至父多边形b的终点B2。

步骤S48、将该多边形的起点与父多边形的起点相连、将该多边形的终点与父多边形的终点相连，以得出新的多边形。

将多边形的起点与父多边形的起点相连、多边形的终点与父多边形的终点相连，从而得到新的多边形c，如图5所示。

由于前述可知，多边形的层级结构不是单个的闭合曲线，则说明该多边形可能存在多个断点，因此将其与父多边形进行连接以形成新的多边形。

步骤S49、判断新的多边形的层级结构是否为单个闭合的曲线，若是，则执行步骤S45；若否，则执行步骤S46。

本发明通过对深度学习模型的推理结果进行标注，可减少标注量，对降低过杀率十分有效；同时采用自动标注的方式可解决人工标注的效率低下、成本高、错误率高等问题。

优选地，本发明还将自动标注后的新的图片重新代入到深度学习模型的训练中，重新对深度学习模型进行训练，以进一步对深度学习模型进行训练，提高其准确度。

同时，对训练后的深度学习模型进行判断，以判断其是否符合预设要求，若是，则得到最终的深度学习模型；若否，则集训对深度学习模型进行训练或重新对深度学习模型的推理结果进行重新标注。直到训练后的深度学习模型符合预设要求。也即，本发明通过将标注后的文件反馈到深度学习模型训练中，以便重新训练，以提高模型的识别精确度。

实施例二

基于深度学习的标注装置，包括存储器和处理器，所述存储器上存储有在处理器上运行的标注程序，所述标注程序为计算机程序，所述处理器执行所述标注程序时实现以下步骤：

进一步地，所述标注步骤具体包括：

边界拟合步骤：将目标物的边界拟合成多边形；

实施例三

一种存储介质，所述存储介质为计算机可读存储介质，其上存储有标注程序，所述标注程序为计算机程序，所述标注程序被处理器执行时实现以下步骤：

进一步地，所述标注步骤具体包括：

边界拟合步骤：将目标物的边界拟合成多边形；

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.基于深度学习的标注方法，其特征在于，所述标注方法包括：

2.根据权利要求1所述的基于深度学习的标注方法，其特征在于，所述标注步骤具体包括：

边界拟合步骤：将目标物的边界拟合成多边形；

3.根据权利要求2所述的基于深度学习的标注方法，其特征在于，所述边界提取步骤中采用opencv.findContours对目标物图片进行边界提取。

4.根据权利要求2所述的基于深度学习的标注方法，其特征在于，所述边界拟合步骤中采用道格拉斯-普克算法将目标物的边界拟合成多边形。

5.根据权利要求2所述的基于深度学习的标注方法，其特征在于，所述转换步骤中按照目标物图片所在矩形框的尺寸对目标物图片进行调整采用skimage.transform.resize实现。

6.根据权利要求1所述的基于深度学习的标注方法，其特征在于，还包括反馈训练步骤：将标注完成的待识别图片重新代入到所述深度学习模型的训练过程中，对所述深度学习模型进行训练。

7.根据权利要求6所述的基于深度学习的标注方法，其特征在于，所述反馈训练步骤之后还包括判断步骤：判断训练后的深度学习模型是否符合预设要求，若是，则得到最终的深度学习模型；若否，则继续对深度学习模型进行训练或重新对深度学习模型的推理结果进行标注。

8.基于深度学习的标注装置，包括存储器和处理器，所述存储器上存储有在处理器上运行的标注程序，所述标注程序为计算机程序，其特征在于，所述处理器执行所述标注程序时实现如权利要求1-7中任意一项所述的基于深度学习的标注方法的步骤。

9.一种存储介质，所述存储介质为计算机可读存储介质，其上存储有标注程序，其特征在于，所述标注程序为计算机程序，所述标注程序被处理器执行时实现如权利要求1-7中任一项所述的基于深度学习的标注方法的步骤。