CN116543392B

CN116543392B - 一种用于深度学习字符识别的标注方法

Info

Publication number: CN116543392B
Application number: CN202310423117.XA
Authority: CN
Inventors: 杨牧; 赵亮; 李建福; 陈建文; 张董
Original assignee: Techmach Corp
Current assignee: Techmach Corp
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2024-03-12
Anticipated expiration: 2043-04-19
Also published as: CN116543392A

Abstract

本发明涉及数据标识技术领域，特别是涉及一种用于深度学习字符标识的标注方法，包括：获取待标注图片，对所述待标注图片设置预标注参数，所述预标注参数包括标注区域、字符区域和输出格式；创建OCR训练模型，根据所述OCR训练模型对所述待标注图片进行预标注，得到预标注结果，将所述预标注结果反馈到预标注结果编辑框内和预标注数据库中；对所述预标注结果进行确认，若所述预标注结果正确，则设置区域属性信息并完成单张标注，若所述预标注结果不正确，对所述预标注结果进行微调，再次进行确认；其中，所述预标注结果为所述待标注图片的区域信息和识别结果，解决了现有的标注工具基本都是人工逐字标注，标注过程枯燥繁琐且容易出错的技术问题。

Description

一种用于深度学习字符识别的标注方法

技术领域

本发明涉及数据标注技术领域，更具体地，涉及一种用于深度学习字符识别的标注方法。

背景技术

机器学习与深度学习在过去十年内取得了长足的进步，这一方面得益于算力的提高、基础研究的进步，同时也得益于数据，尤其是标注数据的增长。从广义上来说，机器学习与深度学习可以被划分为监督学习、无监督学习、自监督学习等领域。无监督学习与自监督学习只需要将事先处理过的大规模数据送入模型进行训练、学习，无需进行人为标注。然而，大部分深度学习算法与场景，要求算法以监督学习的方式进行训练，这就需要进行人工数据标注工作。

数据标注是人工智能产业链条上的基础一环，也一直是深度学习开发者关注的重点。但目前的标注工具基本上都是人工逐字标注，标注过程枯燥繁琐且容易出错，无论是从成本还是时间上面，提高标注效率，降低标注成本都尤为重要。

因此，如何提高标注时间效率，降低人工标注比例是目前有待解决的技术问题。

发明内容

本发明提供一种用于深度学习字符识别的标注方法，用以解决现有技术中的标注工具基本上都是人工逐字标注，标注过程枯燥繁琐且容易出错的技术问题。该方法包括：

获取待标注图片，对所述待标注图片设置预标注参数，所述预标注参数包括标注区域、字符区域和输出格式；

创建OCR训练模型，根据所述OCR训练模型对所述待标注图片进行预标注，得到预标注结果，将所述预标注结果反馈到预标注结果编辑框内和预标注数据库中；

对所述预标注结果进行确认，若所述预标注结果正确，则设置区域属性信息并完成单张标注，若所述预标注结果不正确，对所述预标注结果进行微调，再次进行确认；

其中，所述预标注包括区域检测和识别，所述预标注结果为所述待标注图片的区域信息和识别结果。

在本申请的一些实施例中，所述根据所述OCR训练模型对所述待标注图片进行预标注，包括：

所述OCR训练模型对所述标注区域进行检测和识别，所述OCR训练模型检测到所述字符区域，获得所述字符区域的识别结果，将所述识别结果反馈到所述预标注结果编辑框内，完成所述字符区域的识别。

在本申请的一些实施例中，在根据所述OCR训练模型对所述待标注图片进行预标注之前，所述方法还包括：

判断所述待标注图片是否满足预设清晰度，若所述待标注图片满足预设清晰度，则进行所述步骤二；

若所述待标注图片不满足预设清晰度，根据所述待标注图片的图像质量调整所述待标注图片的亮度、对比度和标注框的透明度，从而调整所述待标注图片的清晰度，直至所述待标注图片满足所述预设清晰度。

在本申请的一些实施例中，所述若所述预标注结果正确，则设置区域属性信息并完成单张标注，包括：

在所述待标注图片上选择需要设置区域属性的所述标注区域，新建所述标注区域的属性类别；

其中，所述属性类别可进行叠加，可根据所述标注区域的属性与外部进行通信交互。

在本申请的一些实施例中，所述方法还可对带角度的矩形进行标注，包括：

预绘制一条线段，所述线段与所述标注区域成预设角度；

沿所述线段的垂直方向延伸预设距离，将所述标注区域框全；

进行所述OCR训练模型的预标注。

在本申请的一些实施例中，在完成单张标注后，所述方法还包括：

在所述预标注数据库中生成了已标注图片对应的所述标注区域和区域列表，所述预标注数据库可对所述已标注图片的单个区域、多个区域以及全部区域的整体位置进行调整。

在本申请的一些实施例中，所述在完成单张标注后，所述方法还包括：

所述预标注数据库可对所述已标注图片进行局部区域信息或全部区域信息进行复制、粘贴和移动，对与所述已标注图片的区域信息内容类似但位置存在偏差的所述待标注图片进行标注。

在本申请的一些实施例中，在创建OCR训练模型之前，所述方法还包括：

创建OCR预训练模型，对所述OCR预训练模型进行迭代训练，得到所述OCR训练模型，当所述预标注数据库存储到预设已标注图片数量后，可对所述OCR训练模型进行重新训练。

在本申请的一些实施例中，创建OCR预训练模型，对所述OCR预训练模型进行迭代训练，包括：

获取所述已标注图片；

创建OCR预训练模型，所述OCR预训练模型对所述已标注图片进行识别；

按照上述方法对所述OCR预训练模型进行迭代训练，得到所述OCR训练模型；

其中，所述已标注图片分为训练样本集和验证样本集，所述训练样本集用于训练所述OCR预训练模型，所述验证样本集用于泛化验证。

在本申请的一些实施例中，对所述OCR预训练模型进行训练的过程中，采用深度学习的算法来实现，所述算法包括BERT算法、LSTM算法、以及OCR识别模型。

本申请实施例与现有技术相比，带来了以下有益效果：

本发明提供了一种用于深度学习字符识别的标注方法，包括：获取待标注图片，对所述待标注图片设置预标注参数，所述预标注参数包括标注区域、字符区域和输出格式；创建OCR训练模型，根据所述OCR训练模型对所述待标注图片进行预标注，得到预标注结果，将所述预标注结果反馈到预标注结果编辑框内和预标注数据库中；对所述预标注结果进行确认，若所述预标注结果正确，则设置区域属性信息并完成单张标注，若所述预标注结果不正确，对所述预标注结果进行微调，再次进行确认；其中，所述预标注包括区域检测和识别，所述预标注结果为所述待标注图片的区域信息和识别结果。该方法在OCR训练模型中进行预标注，所述OCR训练模型由OCR预训练模型经过不断训练得到的，可以提高对未知识别的准确性，再得到预标注结果后，对所述预标注结果进行确认，若确认正确，设置区域属性完成单张标注，若不正确，对所述预标注结果进行微调，直到确认正确，本申请通过OCR训练模型，很快得到预标注结果，无需人工逐个单次的去标注，解决了现有技术中的标注工具基本上都是人工逐字标注，标注过程枯燥繁琐且容易出错的技术问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中一种用于深度学习字符识别的标注方法的示意图；

图2是本申请实施例中一种用于深度学习字符识别的标注方法的流程示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在本申请的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内侧的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

如图1所示，本发明实施例的一种用于深度学习字符识别的标注方法，包括：

步骤一S101：获取待标注图片，对所述待标注图片设置预标注参数，所述预标注参数包括标注区域、字符区域和输出格式；

步骤二S102：创建OCR训练模型，根据所述OCR训练模型对所述待标注图片进行预标注，得到预标注结果，将所述预标注结果反馈到预标注结果编辑框内和预标注数据库中；

步骤三S103：对所述预标注结果进行确认，若所述预标注结果正确，则设置区域属性信息并完成单张标注，若所述预标注结果不正确，对所述预标注结果进行微调，再次进行确认；

在本实施例中，提前设置好待标注图片的输入路径和已标注图片的输出路径，在输入路径中获取待标注图片，将单张标注完成的图片输送到输出路径。

在本实施例中，OCR训练模型由OCR预训练模型不断迭代训练而来，OCR预训练模型进行不断的训练可以优化对于未知字符的识别准确率，从而提高OCR训练模型对未知字符的识别准确率。

在本申请的一些实施例中，在根据所述OCR训练模型对所述待标注图片进行预标注之前，所述方法包括：

在本实施例中，首先在待标注图片上选择需要设置新的属性的标注区域，新建区域的属性类别，属性类别包括标注区域归属的字符快、标识区域的实际含义等，可根据标注区域多个属性的叠加，实现对区域的个性化处理，根据区域属性信息对外个性化输出，标注区域属性还可设置为不识别区域，这样可以减少不识别区域对于标注区域检测和识别能力的干扰。

预绘制一条线段，所述线段与所述标注区域成预设角度；

进行所述OCR训练模型的预标注。

在本实施例中，此方法可对带角度的矩形进行标注，带角度的矩形为在自然场景下的图像，会出现一些标注区域带有角度，在此标注区域的预设角度绘制一条线段，沿着此线段的两端顶点向下做垂直线，将需要标注文字区域框全，之后通过OCR训练模型进行字符识别，可以很好的处理由于标注文字区域角度的变化导致背景占比过大，导致后续的OCR训练模型识别有拟合风险的问题。

在本申请的一些实施例中，在完成单张标注后，所述方法包括：

在本实施例中，针对已标注图片，生成该张图片对应的标注区域和区域列表，在已标注图片的标注区域中选择多个区域列表，将多个区域列表选择到一起，选中的多个区域通过方向键进行区域的整体左右上下移动功能，也可实现区域的整体缩放。

在本实施例中，通过组合键对已标注图片的区域信息进行复制，区域信息包括区域的位置信息、标识信息等，将复制的区域信息粘贴到待标注图片上，此待标注图片和已标注图片的信息内容类似但是位置存在一些偏差，通过整体区域的复制粘贴，将区域信息移动到待标注图片上，实现了高效率的标注。

在本申请的一些实施例中，在创建OCR训练模型之前，所述方法包括：

在本实施例中，当存储到预设已标注图片数量后，即预设已标注图片到达一定的数量后，对OCR训练模型进行重新训练，重新训练后的OCR训练模型精度也会依据已标注图片数量增多而提高，上述过程为预标注、模型训练、预标注，此过程可以循环进行，提升对待标注图片的标注精度。

在本申请的一些实施例中，所述创建OCR预训练模型，对所述OCR预训练模型进行迭代训练，包括：

获取所述已标注图片；

其中，所述已标注图片分为训练样本集和验证样本集，所述训练样本集用于训练OCR预训练模型，所述验证样本集用于泛化验证。

在本实施例中，验证样本集和训练样本集的比例为2:8的关系，验证样本集占已标注图片的两成，验证样本集用来进行泛化验证，不参与对OCR预训练模型的训练，泛化验证具体为对OCR预训练模型预测的未知字符进行验证，训练样本集占已标注图片的八成，训练样本集用于对OCR预训练模型进行训练，从而优化对于未知字符的识别准确率。

以上所述仅为本发明的一个实施例子，但不能以此限制本发明的范围，凡依据本发明所做的结构上的变化，只要不失本发明的要义所在，都应视为落入本发明保护范围之内受到制约。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种用于深度学习字符识别的标注方法，其特征在于，包括：

步骤一：获取待标注图片，对所述待标注图片设置预标注参数，所述预标注参数包括标注区域、字符区域和输出格式；

步骤二：创建OCR训练模型，根据所述OCR训练模型对所述待标注图片进行预标注，得到预标注结果，将所述预标注结果反馈到预标注结果编辑框内和预标注数据库中；

步骤三：对所述预标注结果进行确认，若所述预标注结果正确，则设置区域属性信息并完成单张标注，若所述预标注结果不正确，对所述预标注结果进行微调，再次进行确认；

其中，所述预标注包括区域检测和识别，所述预标注结果为所述待标注图片的区域信息和识别结果；

根据所述OCR训练模型对所述待标注图片进行预标注，包括：

所述OCR训练模型对所述标注区域进行检测和识别，所述OCR训练模型检测到所述字符区域，获得所述字符区域的识别结果，将所述识别结果反馈到所述预标注结果编辑框内，完成所述字符区域的识别;

若所述预标注结果正确，则设置区域属性信息并完成单张标注，包括：

其中，所述属性类别可进行叠加，可根据所述标注区域的属性与外部进行通信交互;

在完成单张标注后，包括：

在所述预标注数据库中生成了已标注图片对应的所述标注区域和区域列表，所述预标注数据库可对所述已标注图片的单个区域、多个区域以及全部区域的整体位置进行调整；

所述在完成单张标注后，还包括：

2.如权利要求1所述的一种用于深度学习字符识别的标注方法，其特征在于，所述在根据所述OCR训练模型对所述待标注图片进行预标注之前，包括：

3.如权利要求1所述的用于深度学习字符识别的标注方法，其特征在于，还可对带角度的矩形进行标注，包括：

预绘制一条线段，所述线段与所述标注区域成预设角度；

进行所述OCR训练模型的预标注。

4.如权利要求1所述的用于深度学习字符识别的标注方法，在创建OCR训练模型之前，其特征在于，包括：

5.如权利要求4所述的用于深度学习字符识别的标注方法，其特征在于，所述创建OCR预训练模型，对所述OCR预训练模型进行迭代训练，包括：

获取所述已标注图片；

6.如权利要求5所述的用于深度学习字符识别的标注方法，其特征在于，还包括：

对所述OCR预训练模型进行训练的过程中，采用深度学习的算法来实现，所述算法包括BERT算法、LSTM算法、以及OCR识别模型。