CN112926637A

CN112926637A - 一种文本检测训练集的生成方法

Info

Publication number: CN112926637A
Application number: CN202110172884.9A
Authority: CN
Inventors: 刘鹏鑫; 邓冠群
Original assignee: Tianjin University of Technology and Education China Vocational Training Instructor Training Center
Current assignee: Tianjin University of Technology and Education China Vocational Training Instructor Training Center
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-06-08
Anticipated expiration: 2041-02-08
Also published as: CN112926637B

Abstract

本发明公开了一种文本检测训练集的生成方法，首先按照目标的面积占比或者目标的宽度占比统计训练集的目标信息，按照目标的面积占比或者目标的宽度占比将目标分为多个级别，然后将目标从原图按照标注好的框截取下来，按照级别分别保存，通过图像处理抹掉图片上的文字，保留背景信息，作为新的训练集的背景，再将截下来的各级别的目标，按照一定比率写入背景之中，生成新的训练样本。该方法使得目标分布可控，小目标占比提升，可以改善小目标的漏检情况；并且训练集数量可控，以相对少的训练集达到相同的训练效果。

Description

一种文本检测训练集的生成方法

技术领域

本发明属于文本检测技术领域，具体涉及一种文本检测训练集的生成方法。

背景技术

近年来文本检测算法发展迅速，主要用于检测出图片中文本的位置。当前的检测技术，一般采用基于深度学习的检测方法，准确率较高，但会发生漏检(目标没有被检出)、误检(非目标被检出认为是目标)。

发生漏检、误检的一个主要问题是训练样本的均衡性不足。在文本检测中，各种文本行、块均会标记为同一种类别’text’，训练过程中，模型将遇到的大、小样本的分类均向text回归。某些冷门文本，比如非常短，或者是字母、星号(’*’)等小目标，由于样本中覆盖的比较少，容易因训练不充分而导致漏检。

如图1所示，选框中是要检测的目标，这些长短不同，大小不一的框，label只有一种——“text”。从分布来看，“多又好超市”这种文本，目标很大，在以深度学习为主的目标检测算法中，属于比较容易检出的目标，某些时候由于样本占比不高，测试中会发生漏检。而图中的“1”属于目标很小而且占比很少，测试中漏检的概率很高。

现有的深度学习检测算法，标准的流程是，首先对训练集标注，然后将标注后的训练集送入模型训练，默认训练集中的随机样本分布符合真实情况。但是测试集中会出现问题，比如目标占比较少的小目标样本和一些特殊样本，由于被训练的机会不足，使得漏检的可能提高。

当前对这种样本不均衡的解决方法是应用数据增广，例如随机剪切部分内容作为训练集，或者粗暴的对整个样本做复制以调高训练集的多样性或者改变训练集的样本分布，这些方法对准确性的提高有一定的帮助，但依然存在以下问题：

1.样本分布处于一种随机的状态，虽然与真实的情况可能一致，但是依然无法解决部分小目标和特殊样本训练不充分的问题。

2.训练集数量不可控，可能为了解决某个问题，数据增广达到原有训练集的几倍，造成训练集臃肿，训练效率下降。

鉴于此，有必要设计一种新的训练集生成方法，以更好的适应不同条件下的文本检测项目，最大限度的减少漏检、误检。

发明内容

本发明的目的在于克服现有技术的不足，提供一种文本检测训练集的生成方法，该方法使得目标分布可控，小目标占比提升，可以改善小目标的漏检情况；并且训练集数量可控，以相对少的训练集达到相同的训练效果。

本发明是通过以下技术方案实现的：

一种文本检测训练集的生成方法，包括以下步骤：

步骤1：按照目标的面积占比或者目标的宽度占比统计训练集的目标信息；

步骤2：目标分级，按照目标的面积占比或者目标的宽度占比将目标分为多个级别；

步骤3：截图保存，将目标从原图按照标注好的框截取下来，按照级别分别保存；

步骤4：背景生成，通过图像处理抹掉图片上的文字，保留背景信息，作为新的训练集的背景；

步骤5：将截下来的各级别的目标，按照一定比率写入背景之中，生成新的训练样本。

在上述技术方案中，首先将训练集以宽为基准resize到同一尺寸，再按照目标的面积占比或者目标的宽度占比统计训练集的目标信息。

在上述技术方案中，优选为，按照目标的面积占比或者目标的宽度占比将目标分为四个级别。

在上述技术方案中，目标的面积占比是指目标的面积/样本的面积。

在上述技术方案中，目标的宽度占比是指目标的宽度/样本的宽度。

本发明的优点和有益效果为：

1.样本中的目标分布可控，数据增广的数量可控，可以有针对性的生成某种特种的训练样本。

2.实现简单，通过样本信息统计和当前模型的检测结果确定新训练集的目标分布。

3.训练集数量可控，不必像从前一样做粗暴随机的数据增广，可以有效的增加某类目标，以改变该目标在训练集中的分布。

附图说明

图1是背景技术中给出的一种文本检测样本(超市消费小票)的示意图。

本发明实施例一的移载机构的立体结构示意图。

对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据以上附图获得其他的相关附图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合具体实施例进一步说明本发明的技术方案。

实施例一

一种文本检测训练集的生成方法，包括以下步骤：

步骤1：首先将训练集以宽为基准resize到同一尺寸(方便后面的生成操作)，按照目标的面积占比(即目标的面积/样本的面积)统计训练集的目标信息。

步骤2：目标分级，按照目标的面积占比将目标分为大目标、中目标、小目标、超小目标四个级别。

步骤3：截图保存，将目标从原图按照标注好的框截取下来，按照四个级别分别保存。

步骤4：背景生成，通过传统的图像处理算法，抹掉图片上的文字，保留背景信息，作为新的训练集的背景，这样做的目的是使得新生成的样本与原有训练集基本一致。

步骤5：将切下来的四个级别的目标，按照一定比率写入背景之中，生成新的训练样本。

如此生成的训练集，其目标分布可控，小目标占比提升，可以改善小目标的漏检情况。训练集数量可控，以相对少的训练集达到相同的训练效果。

实施例二

一种文本检测训练集的生成方法，包括以下步骤：

步骤1：首先将训练集以宽为基准resize到同一尺寸(方便后面的生成操作)，按照目标的宽度占比(即目标的宽度/样本的宽度)统计训练集的目标信息。

步骤2：目标分级，按照目标的宽度占比将目标分为大目标、中目标、小目标、超小目标四个级别。

以上对本发明做了示例性的描述，应该说明的是，在不脱离本发明的核心的情况下，任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。

Claims

1.一种文本检测训练集的生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的文本检测训练集的生成方法，其特征在于：首先将训练集以宽为基准resize到同一尺寸，再按照目标的面积占比或者目标的宽度占比统计训练集的目标信息。

3.根据权利要求1所述的文本检测训练集的生成方法，其特征在于：按照目标的面积占比或者目标的宽度占比将目标分为四个级别。

4.根据权利要求1所述的文本检测训练集的生成方法，其特征在于：目标的面积占比是指目标的面积/样本的面积。

5.根据权利要求1所述的文本检测训练集的生成方法，其特征在于：目标的宽度占比是指目标的宽度/样本的宽度。