CN117292387A

CN117292387A - 一种影像数据自动标注方法及系统

Info

Publication number: CN117292387A
Application number: CN202311041586.1A
Authority: CN
Inventors: 陈子光; 孟祥锐; 喻洪乾; 韩雨; 周星宇; 李慧芳
Original assignee: Shenzhen Ylink Computing System Co ltd
Current assignee: Shenzhen Ylink Computing System Co ltd
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-12-26

Abstract

本发明公开了一种影像数据自动标注方法及系统，方法包括：录入影像数据；判断所述影像数据是否存在位置坐标，若存在位置坐标，则将影像数据呈现给业务人员，若不存在位置坐标，则通过OCR对影像数据中的文字信息和标签进行识别并进行自动标注，得到位置坐标，保存标注好位置坐标的影像数据并呈现给业务人员；业务人员获取所述影像数据，对影像数据的位置坐标进行高亮显示并调整，保存位置坐标；将所述位置坐标输入训练好的卷积神经网络模型，得到最终标注结果。本发明采用OCR技术和影像数据的自动标注方法，减少了人工的干预和误差，提高了工作效率。

Description

一种影像数据自动标注方法及系统

技术领域

本发明属于数据标注技术领域，具体涉及一种影像数据自动标注方法及系统。

背景技术

目前业务数据处理系统主要的数据来源为影像信息，大部分影像信息除了包含正式的业务数据外还包含其他不需要的干扰信息，传统的影像数据标注方法并不能有效地解决这些问题。如：

(1)录入业务人员根据影像人工识别正确的业务数据，这种方法会导致录入人员的人工判断增加，业务处理能力低下；

(2)事先采用一个样本图片，对样本图片的业务数据位置进行手工标注，业务人员在录入业务数据时，影像对应的数据内容可以高亮显示，这样业务人员只需关注高亮数据不再需要人工判断，但前期需要花费大量的人力在图片的位置的标注上，费时费力；

(3)随着各行业应用场景不断增多以及数据采集和存储技术的不断进步，海量的数据不断涌现，包括图像、视频、语音、文本等各种类型的数据。这些数据通常都需要经过标注才能被计算机程序所理解和使用。然而，由于数据量巨大、种类繁多、数据格式、质量、标注方法都不一，传统数据标注方法面临着很大的挑战。

因此，本领域需要一种高效的影像数据自动标注的方法及系统，能够减少人工干预，提高效率，同时降低标注成本，改善业务处理能力，以满足大规模影像信息数据处理的需求。

发明内容

针对现有技术存在的不足，本发明提供了一种影像数据自动标注方法及系统，解决现有技术对影像数据标注效率低的问题。

本发明采用的技术方案如下：

一方面，提供一种影像数据自动标注方法，所述方法包括：

录入影像数据；

判断所述影像数据是否存在位置坐标，若存在位置坐标，则将影像数据呈现给业务人员，若不存在位置坐标，则通过OCR对影像数据中的文字信息和标签进行识别并进行自动标注，得到位置坐标，保存标注好位置坐标的影像数据并呈现给业务人员；

业务人员获取所述影像数据，对影像数据的位置坐标进行高亮显示并调整，保存位置坐标；

将所述位置坐标输入训练好的卷积神经网络模型，得到最终标注结果。

进一步地，所述若不存在位置坐标，则通过OCR对影像数据中的文字信息和标签进行识别并进行自动标注，包括：

OCR对影像数据中的文字信息和标签进行识别；

自动标注定位标签和位置坐标；

根据预设字段匹配标签；

保存标签对应的位置坐标为固定坐标。

进一步地，所述业务人员获取所述影像数据，对影像数据的位置坐标进行高亮显示并调整，是根据所述录入影像数据和OCR识别的标签的结果进行匹配，将匹配到的标签对应的录入影像数据的位置坐标进行高亮显示。

进一步地，所述将匹配到的标签对应的录入影像数据的位置坐标进行高亮显示，若高亮位置同实际位置相差较大时，录入人员通过人工修改的方式将高亮条拖到正确的位置，每次拖拽后留下的坐标为历史坐标，拖拽后产生的坐标为新坐标。

进一步地，所述通过OCR对影像数据中的文字信息和标签进行识别并进行自动标注包括图像特征提取和标注分类。

进一步地，所述图像特征提取是使用计算机视觉领域的特征检测算法，将图像数据转化为计算机可读的数字信号，所述标注分类是运用机器学习技术对所述提取的图像特征进行分类、识别，从而将图像数据划分为类别和标签。

进一步地，所述保存位置坐标，每次录入完成都会保存当前字段的位置，若无固定坐标，则保存所述当前字段的位置为固定坐标，否则，计算所述当前字段的位置同固定坐标间的直线距离。

进一步地，将所述训练好的卷积神经网络模型，是通过反向传播算法和优化算法来更新网络权重。

进一步地，所述更新网络权重包括前向传播、损失函数计算、反向传播、权重更新、迭代训练。

另一方面，提供一种影像数据自动标注系统，包括：录入数据模块、自动标注模块、位置调整模块、输入模型模块；

所述录入数据模块，用于录入影像数据；

所述自动标注模块，用于判断所述影像数据是否存在位置坐标，若存在位置坐标，则将影像数据呈现给业务人员，若不存在位置坐标，则通过OCR对影像数据中的文字信息和标签进行识别并进行自动标注，得到位置坐标，保存标注好位置坐标的影像数据并呈现给业务人员；

进一步地，所述自动标注模块包括：OCR识别单元、自动标注单元、匹配标签单元、保存固定坐标单元；

进一步地，所述OCR识别单元，用于OCR对影像数据中的文字信息和标签进行识别；

进一步地，所述自动标注单元，用于自动标注定位标签和位置坐标；

进一步地，所述匹配标签单元，用于自动匹配已经预设好的字段和标签，将标注到的字段自动赋予相应的标签，实现影像数据的自动标注；

进一步地，所述保存固定坐标单元，用于将已经标注好的数据字段及其相应的标签，按照固定的格式和位置坐标保存下来。

所述位置调整模块，用于业务人员获取所述影像数据，对影像数据的位置坐标进行高亮显示并调整，保存位置坐标；

进一步地，所述位置调整模块包括：高亮显示单元、高亮位置判断单元、高亮位置调整单元、录入数据单元；

进一步地，所述高亮显示单元，用于将匹配到的标签对应的录入影像数据的位置坐标进行高亮显示；

进一步地，所述高亮位置判断单元，用于判断高亮显示的位置坐标是否正确；

进一步地，所述高亮位置调整单元，用于调整高亮位置不正确的位置坐标；

进一步地，所述录入数据单元，用于将正确高亮位置的影像数据录入到系统中。

所述输入模型模块，用于将所述位置坐标输入训练好的卷积神经网络模型，得到最终标注结果；

进一步地，所述输入模型模块包括：坐标位置距离判断单元、新坐标个数判断单元、输入模型单元、获得标注结果单元；

进一步地，所述坐标位置距离判断单元，用于判断新坐标位置与固定坐标位置的距离；

进一步地，所述新坐标个数判断单元，用于判断同类影像新坐标个数是否超过当天总数的80％；

进一步地，所述输入模型单元，用于将超过当天总数80％的同类影像新坐标输入训练好的卷积神经网络模型；

进一步地，所述获得标注结果单元，用于将同类影像新坐标输入训练好的卷积神经网络模型后得到最终的标注结果。

由上述技术方案可知，本发明相对于现有技术具有如下优点和有益效果：

(1)本发明采用影像数据的自动标注方法，无需进行人工的手动配置，减少了人工的干预和误差，提高了工作效率；

(2)本发明采用OCR技术和深度学习算法，能够根据影像数据出现的频次进行自动识别和自动调整，提高了影像数据的准确性；

(3)本发明的技术方案适用于影像数据集的自动标注，可以广泛应用于各种数据采集和处理领域。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1为本发明实施例提供的一种影像数据自动标注方法的流程图；

图2为本发明实施例提供的一种影像数据自动标注位置坐标的流程图；

图3为本发明实施例提供的一种影像数据位置坐标高亮显示及调整的流程图；

图4为本发明实施例提供的一种基于AlexNet模型自动标注的流程图；

图5为本发明实施例提供的一种影像数据自动标注系统的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提供了一种影像数据自动标注方法，该方法包括如下步骤：

S101：录入影像数据；

在本实施例中，具体地，录入的影像数据为外部环境的原始数据，系统根据具体任务，收集、筛选和清洗相关的样本数据，消除背景的干扰和噪声，将预处理后的数据存储到数据库中，为后续的自动标注和识别做准备。

S102：判断所述影像数据是否存在位置坐标，若存在位置坐标，则将影像数据呈现给业务人员，若不存在位置坐标，则通过OCR对影像数据中的文字信息和标签进行识别并进行自动标注，得到位置坐标，保存标注好位置坐标的影像数据并呈现给业务人员；

S103：业务人员获取所述影像数据，对影像数据的位置坐标进行高亮显示并调整，保存位置坐标；

具体地，所述保存位置坐标，每次录入完成都会保存当前字段的位置，若无固定坐标，则保存所述当前字段的位置为固定坐标，否则计算所述当前字段的位置同固定坐标间的直线距离。

具体地，固定坐标为图片加载默认使用的影像坐标。

具体地，根据所述保存的位置坐标与固定位置坐标的直线距离进行判断处理，其中判断的标准是以标注位置4个点中的左上角的点为参考点进行位置判断。

S104：将所述位置坐标输入训练好的卷积神经网络模型，得到最终标注结果。

实施例2

如图2所示，本实施例提供了一种影像数据自动标注位置坐标的方法，具体方法如下：

S201：接收影像数据；

S202：是否存在位置坐标；

若接收的影像数据存在位置坐标，则进入步骤S207；

若接收的影像数据不存在位置坐标，则进入步骤S203。

S203：OCR识别标签和文字信息；

具体地，若接收的影像数据不存在位置坐标，则可以通过OCR技术对影像数据中的文字信息和标签进行识别。OCR会对影像数据中的文字信息和标签进行扫描和分析，识别出其中的文字内容。OCR技术使用图像处理和机器学习算法，通过将图像中的字符区域分割，并对每个字符进行特征提取和分类来实现字符识别。这样就能够从影像数据中提取出文字信息和标签，并将它们用于后续的自动标注过程。

S204：自动标注定位标签和位置坐标；

具体地，自动标注技术的过程包括两个核心的组成部分：图像特征提取和标注分类。在图像特征提取方面，自动标注技术使用计算机视觉领域独有的特征检测算法，如边界检测、角点检测、色彩特征分析等方法，将图像数据转化为计算机可读的数字信号；在标注分类方面，自动标注技术运用机器学习等技术对提取出的特征进行分类、识别，从而将图像数据划分为特定类别和标签。

S205：根据预设字段匹配标签；

具体地，系统会先读取标签，并根据预设字段进行匹配。如果匹配成功系统会将标签对应的位置坐标保存为固定坐标，并在后续的操作中直接以该固定坐标作为标记的位置坐标。如果匹配不成功，则系统会根据规则进行自动标注定位，基于自动标注技术，自动识别影像中的标签和位置坐标。

S206：保存标签对应的位置坐标为固定坐标；

具体地，当标签对应的位置坐标被成功保存为固定坐标后，系统会在接下来的业务处理中直接引用这些固定坐标信息。

S207：业务人员获取待录入影像数据。

实施例3

如图3所示，本实施例提供了一种影像数据位置坐标高亮显示及调整的方法，具体过程如下：

S301：对影像数据的位置坐标进行高亮显示；

具体地，业务人员获取待录入的影像数据后，根据所述录入影像数据和OCR识别的标签的结果进行匹配，将匹配到的标签对应的录入影像数据的位置坐标进行高亮显示。

S302：判断影像数据高亮位置是否正确；

若影像数据高亮位置正确，则直接进入步骤S304；

若影像数据高亮位置不正确，则进入步骤S303。

S303：调整位置；

具体地，业务人员通过观察影像数据和高亮位置，发现高亮位置与实际位置存在较大差异，录入人员可以手动拖动高亮条，将其移动到正确的位置，每次拖动操作后，位置调整模块会记录下历史坐标和新坐标。其中，历史坐标指的是拖动前的位置坐标，记录下这些历史坐标可以作为参考，用于后续分析或撤销操作。而新坐标则指的是拖动后生成的位置坐标，它表示了高亮条移动后的实际位置。拖动操作产生的历史坐标和新坐标可以用于记录和管理数据的变化，以供后续分析和追溯。

S304：录入数据并提交；

具体地，当影像数据的高亮位置经过正确的调整，或者在步骤S302中判断高亮位置已经正确时，业务人员可以开始录入数据。针对匹配到的标签，业务人员可以在系统界面中对应的位置进行手动输入或选择合适的选项，完成对应的数据录入。录入数据的方式和内容与具体的业务需求相关，可以是填写文本、选择选项、上传文件等。在录入过程中，系统可能会进行一些数据校验和验证，确保录入的数据符合规定的格式和要求。当数据录入完成后，业务人员可以核对和确认所录入的数据是否准确无误。如果确认无误，业务人员可以点击提交按钮或执行提交操作，将录入的数据保存到系统中。如果数据有误或还需要进一步修改，业务人员可以进行相应的修正操作，然后再次进行数据确认和提交。提交后，系统可以进行进一步的数据处理，如保存数据至数据库、生成报告、触发其他业务流程等，具体的处理方式根据系统设计和业务需求而定。

S307：保存位置坐标；

具体地，保存的位置坐标包括固定坐标、新坐标和历史坐标，固定坐标为图片加载默认使用的位置坐标或者为S206保存的固定坐标。

实施例4

本实施例提供了一种基于AlexNet模型自动标注的方法，其中AlexNet模型训练的过程如下：

数据准备：从已有的影像数据集中筛选出同一类型的影像数据，这些数据将作为训练集。

数据预处理：对训练集进行预处理，以确保数据的统一性和标准性，包括图像尺寸的调整、灰度或颜色归一化、数据增强等操作来增加数据的多样性，提高训练的效果。

构建AlexNet模型：AlexNet是一种经典的卷积神经网络模型，用于图像分类任务，根据具体的训练需求和数据特点，构建适当的AlexNet模型，AlexNet模型的结构包括多个卷积层、池化层、全连接层和输出层。

设置训练参数：确定模型的超参数，包括学习率、批量大小、训练迭代次数等。

训练模型：使用预处理后的训练集数据来训练AlexNet模型，在每一轮迭代中，通过将数据输入到模型中，进行前向传播和反向传播来计算损失函数，并通过反向传播算法和优化算法更新模型的权重和偏置，训练的过程是迭代的，直到达到设定的训练次数或达到收敛条件为止。

验证和调优：训练过程中，使用验证集来评估模型的性能和泛化能力，根据验证结果，可以调整模型的参数和结构，以提高模型的准确率和效果。

测试模型：在训练完成后，使用独立的测试集对模型进行测试，评估其在未知数据上的表现，通过比较模型预测的位置坐标与已知真实值之间的误差来评估模型的准确性。

模型优化和发布：根据模型的测试结果，对模型进行优化和调整，以进一步提高准确率，一旦模型达到满意的准确率，将其发布供实际应用使用。

如图4所示，基于AlexNet模型自动标注的方法，具体步骤如下：

S401：判断新位置坐标同固定位置坐标直线距离是否大于设定阈值；

在本实施例中，设定阈值为30像素点。具体地，若新位置坐标同固定位置坐标直线距离大于30像素点，则相对位置变化较大，确定该新坐标为有效坐标，进入步骤S402；

若新位置坐标同固定位置坐标直线距离小于或等于30像素点，相对位置变化较小，则可以忽略该新坐标，进入步骤S406。

S402：保留新坐标；

S403：判断同类的影像新坐标个数是否大于当天总数的设定阈值；

具体地，系统根据保留的新坐标，筛选出同类的影像数据集，统计同类影像数据集中的新坐标个数并获取当天总的影像数据集数量，在本实施例中，设定阈值为80％，进一步地，计算同类影像新坐标个数是否大于当天总数的80％，若同类的影像新坐标个数大于当天总数的80％，则进入S405进行处理，若同类的影像新坐标个数小于或等于当天总数的80％，则进入S404。

S404：人工判断是否需要使用模型；

具体地，若同类的影像新坐标个数小于或等于当天总数的80％，则进行人工判断当前的位置坐标是否已经到达了足够高的准确率，如果已经到达了足够高的准确率，那么直接保存最终的位置坐标，如果人工判断认为当前的位置坐标不准确，那么进入S405再次进行自动标注。

S405：抽取同类型的所有影像数据输入AlexNet模型；

具体地，抽取同类型的所有影像数据输入上述已经训练好的AlexNet模型中，通过模型的输出得到每个类别的预测概率，选择预测概率最高的类别，作为对影像数据的自动标注结果。

S406：保存最终的位置坐标。

进一步地，保存最终的位置坐标，并更新对应的数据记录，根据所有的位置信息，生成对应的数据报表，方便业务分析和查询。

实施例5

本实施例提供一种影像数据自动标注系统，如图5所示，所述影像数据自动标注系统包括：录入数据模块、自动标注模块、位置调整模块、输入模型模块。

录入数据模块，用于录入系统需要处理的影像数据集，所述影像数据集可以是来自图像传感器、医疗影像、遥感影像等多种来源。

自动标注模块，用于判断所述影像数据是否存在位置坐标，若存在位置坐标，则将影像数据呈现给业务人员，若不存在位置坐标，则通过OCR对影像数据中的文字信息和标签进行识别并进行自动标注，得到位置坐标，保存标注好位置坐标的影像数据并呈现给业务人员，所述自动标注是通过计算机视觉和图像处理等相关技术来实现的，对传入的影像数据进行自动标注，自动识别出影像数据中目标物体的位置坐标，并将其保存在一个临时表中；

具体地，自动标注模块包括：OCR识别单元、自动标注单元、匹配标签单元、保存固定坐标单元；

OCR识别单元，用于OCR对影像数据中的文字信息和标签进行识别；

自动标注单元，用于自动标注定位标签和位置坐标，主要通过OCR技术和智能学习算法实现，能够自动扫描影像数据，定位出需要标注的字段所在的具体位置坐标；

匹配标签单元，用于自动匹配已经预设好的字段和标签，将标注到的字段自动赋予相应的标签，实现影像数据的自动标注，该单元通过智能匹配算法和已知的标签库来完成自动匹配，提高了标注的准确性和速度，降低了标注的人工成本；

保存固定坐标单元，用于将已经标注好的数据字段及其相应的标签，按照固定的格式和位置坐标保存下来，该单元主要通过自动抽取算法从影像数据中扫描已经自动标注好的字段及其位置坐标，并按照标准的数据格式存储下来。

位置调整模块，用于业务人员获取所述影像数据，对影像数据的位置坐标进行高亮显示并调整，保存位置坐标，所述位置调整是通过图像显示，高亮显示自动标注模块输出的位置坐标，并允许业务人员通过鼠标等操作手段对高亮位置进行手动调整；

具体地，位置调整模块包括：高亮显示单元、高亮位置判断单元、高亮位置调整单元、录入数据单元；

高亮显示单元，用于将匹配到的标签对应的录入影像数据的位置坐标进行高亮显示，该单元是根据录入数据和OCR识别的标签进行匹配，将匹配到的标签对应的录入数据的位置坐标进行高亮显示；

高亮位置判断单元，用于判断高亮显示的位置坐标是否正确，若影像数据高亮位置正确则直接进入录入数据单元，若影像数据高亮位置不正确则进入高亮位置调整单元；

高亮位置调整单元，用于调整高亮位置不正确的位置坐标，当高亮位置判断单元提示位置信息有误时，业务人员可以通过该单元对标注的位置进行微调，以确保数据的准确性，同时，该单元还能够记录下所有调整的操作，方便后续对数据进行追溯和审计；

录入数据单元，用于将正确高亮位置的影像数据录入到系统中，该单元将所有调整和未调整的数据以及调整的操作全部录入到系统中。

输入模型模块，用于将所述位置坐标输入训练好的卷积神经网络模型，得到最终标注结果，最终的位置坐标可以根据业务需求，输出到数据库、图形界面或其他数据存储介质中；

具体地，输入模型模块包括：坐标位置距离判断单元、新坐标个数判断单元、输入模型单元、获得标注结果单元；

坐标位置距离判断单元，用于判断新坐标位置与固定坐标位置的距离；

新坐标个数判断单元，用于判断同类影像新坐标个数是否超过当天总数的80％；

输入模型单元，用于将超过当天总数80％的同类影像新坐标输入卷积神经网络模型；

获得标注结果单元，用于将同类影像新坐标输入卷积神经网络模型后得到最终的标注结果。该单元将新坐标作为输入，通过卷积神经网络模型进行前向传播，即将输入在网络中进行处理并生成输出，网络中的卷积层、池化层和全连接层等组件将对新坐标进行特征提取和分析，从而得到与输入影像数据对应的标注结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种影像数据自动标注方法，其特征在于，所述方法包括：

录入影像数据；

2.根据权利要求1所述的一种影像数据自动标注方法，其特征在于，所述若不存在位置坐标，则通过OCR对影像数据中的文字信息和标签进行识别并进行自动标注，包括：

OCR对影像数据中的文字信息和标签进行识别；

自动标注定位标签和位置坐标；

根据预设字段匹配标签；

保存标签对应的位置坐标为固定坐标。

3.根据权利要求1所述的一种影像数据自动标注方法，其特征在于，所述业务人员获取所述影像数据，对影像数据的位置坐标进行高亮显示并调整，是根据所述录入影像数据和OCR识别的标签的结果进行匹配，将匹配到的标签对应的录入影像数据的位置坐标进行高亮显示。

4.根据权利要求3所述的一种影像数据自动标注方法，其特征在于，所述将匹配到的标签对应的录入影像数据的位置坐标进行高亮显示，若高亮位置同实际位置相差较大时，录入人员通过人工修改的方式将高亮条拖到正确的位置，每次拖拽后留下的坐标为历史坐标，拖拽后产生的坐标为新坐标。

5.根据权利要求1所述的一种影像数据自动标注方法，其特征在于，所述通过OCR对影像数据中的文字信息和标签进行识别并进行自动标注包括图像特征提取和标注分类。

6.根据权利要求5所述的一种影像数据自动标注方法，其特征在于，所述图像特征提取是使用计算机视觉领域的特征检测算法，将图像数据转化为计算机可读的数字信号，所述标注分类是运用机器学习技术对所述提取的图像特征进行分类、识别，从而将图像数据划分为类别和标签。

7.根据权利要求1所述的一种影像数据自动标注方法，其特征在于，所述保存位置坐标，每次录入完成都会保存当前字段的位置，若无固定坐标，则保存所述当前字段的位置为固定坐标，否则，计算所述当前字段的位置同固定坐标间的直线距离。

8.根据权利要求1所述的一种影像数据自动标注方法，其特征在于，将所述训练好的卷积神经网络模型，通过反向传播算法和优化算法来更新网络权重。

9.根据权利要求8所述的一种影像数据自动标注方法，其特征在于，所述更新网络权重包括前向传播、损失函数计算、反向传播、权重更新、迭代训练。

10.一种影像数据自动标注系统，其特征在于，包括：录入数据模块、自动标注模块、位置调整模块、输入模型模块；

所述录入数据模块，用于录入影像数据；

所述输入模型模块，用于将所述位置坐标输入训练好的卷积神经网络模型，得到最终标注结果。