CN111401319B

CN111401319B - PSENet网络渐进式扩展后处理出现文本粘连的解决方法

Info

Publication number: CN111401319B
Application number: CN202010294908.3A
Authority: CN
Inventors: 丛建亭; 侯进; 黄贤俊
Original assignee: Beijing Shenzhi Hengji Technology Co ltd
Current assignee: Beijing Shenzhi Hengji Technology Co ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2024-04-12
Anticipated expiration: 2040-04-15
Also published as: CN111401319A

Abstract

本发明提供了一种PSENet网络渐进式扩展后处理出现文本粘连的解决方法，包括如下步骤：a1.定义一个零图像A作为被融合的小尺寸文本目标图像；a2.从文本目标面积相对最小的kernel图像开始搜索，找出尺寸宽度和高度中的最小值不大于4的文本目标；a3.按照步骤a2的流程进行循环迭代，从最小的kernel图像迭代到文本目标面积相对最大的kernel图像，从而得到图像A的最终值；a4.将图像A与所有的kernel图像分别做下图像或操作，把所有的kernel图像进行修改。本发明实现了降低耗时要求，从而保证了工业应用的计算耗时要求，为人们节省更多时间，同时解决了文本粘连现象，达到了下一步识别模块的识别效果要求,并且本发明构思独特，想法新颖，具有可操作性。

Description

PSENet网络渐进式扩展后处理出现文本粘连的解决方法

技术领域

本发明涉及深度学习技术领域，具体来说，涉及PSENet网络渐进式扩展后处理出现文本粘连的解决方法。

背景技术

与其他物体检测技术手段大致相同，文字检测的深度学习技术多数也是anchor-base模式，该模式衍生到OCR领域就有很多缺陷，比如：倾斜(或扭曲)文字检测不准、过长文字串检测不全、过短文字串容易遗漏、距离较近的无法分开等缺点。

形状鲁棒性文本检测面临的问题主要有两个方面：1)现有的基于四边形边界盒的文本检测方法很难找到任意形状的文本，很难完全封闭在矩形中；2)大多数基于像素的分割检测器可能不会将彼此非常接近的文本实例分开。

PSENet是一种新的实例分割网络，它有两方面的优势。首先，PSENet作为一种基于分割的方法，能够对任意形状的文本进行定位。其次，该模型提出了一种渐进的尺度扩展算法，该算法可以成功地识别相邻文本实例。

该方法对任意形状具有鲁棒性，最新的结果是ICDAR2015和ICDAR2017，MLT基准进一步证实了PSENet的巨大有效性。但该方法的渐进式尺寸扩展后处理过程运算速度比较慢，为了提升模型的预测速度，通常采用方案是将模型预测后的输出图的尺寸做降采样，例如scale等于2或scale等于4，才可以达到工业耗时应用要求，但在降采样过程中，最邻近插值方法有一定概率会将宽度或高度不大于1或2的文本目标丢失掉，从而导致渐进式尺寸扩展后处理过程出现其它文本目标粘连了丢失目标文本的现象，急需一种既可以让模型预测速度提升，也不带来降采样出现的文本粘连现象的方法出现。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

本发明的目的在于提供了一种PSENet网络渐进式扩展后处理出现文本粘连的解决方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

PSENet网络渐进式扩展后处理出现文本粘连的解决方法，包括如下步骤：

a1.定义一个零图像A作为被融合的小尺寸文本目标图像；

a2.从文本目标面积相对最小的kernel图像开始搜索，找出尺寸宽度和高度中的最小值不大于4的文本目标；

a3.按照步骤a2的流程进行循环迭代，从最小的kernel图像迭代到文本目标面积相对最大的kernel图像，从而得到图像A的最终值；

a4：将图像A与所有的kernel图像分别做下图像或操作，把所有的kernel图像进行修改。

进一步地，所述步骤a1中的图像尺寸与PSENet网路的各个kernel图像尺寸相同。

进一步地，步骤a3中图像A位置处的像素和等于0时，将步骤a3中最小的kernel图像中的这类文本目标的像素赋值到图像A中。

进一步地，所述PSENet网络是基于分割的检测器，对每个文本实例进行多个预测的网络。

进一步地，所述PSENet网络可识别相邻文本实例且对任意形状具有鲁棒性。

本发明工作原理：通过融合渐进式扩展过程中不同面积的kernel图的小尺寸文本目标，来达到最小面积的kernel初始文本目标种子数与降采样之前相同，这样在渐进式过程中则不会使得小尺寸文本目标的像素被周围其他文本目标合并掉，从而达到了解决文本粘连现象的目的。

与现有技术相比，本发明具有以下有益效果：1.相比于现有技术，本发明实现了降低耗时要求，从而保证了工业应用的计算耗时要求，为人们节省更多时间；2.相比于现有技术，本发明解决了文本粘连现象，达到了下一步识别模块的识别效果要求；3.相比于现有技术，本发明构思独特，想法新颖，具有可操作性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明PSENet网络渐进式扩展后处理出现文本粘连的解决方法的过程示意图；

图2是本发明PSENet网络渐进式扩展后处理出现文本粘连的解决方法实施例的测试图片；

图3是本发明PSENet网络渐进式扩展后处理出现文本粘连的解决方法实施例的测试图片概率掩码kernel图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一个，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例，都属于本发明的保护范围。

下面，结合附图以及具体实施方式，对发明做出进一步的描述：

如图1所示，PSENet网络渐进式扩展后处理出现文本粘连的解决方法，包括如下步骤：

a1.定义一个零图像A作为被融合的小尺寸文本目标图像；

步骤a4用于产生一个融合图像A，该步骤是把新制作的图像A，也就是上述步骤a4的值通过图像或运算叠加到所有kernel层的图像上，从而将“后处理”的kernel图像改变，增加了小尺寸文本目标信息，这样也就达到不丢失小尺寸目标，也消除了小尺寸目标粘连到其它目标上的情况,这样就可以采用降采样来加速，但也不丢失小尺寸目标信息，消除了粘连现象。

根据上述内容，所述步骤a1中的图像尺寸与PSENet网路的各个kernel图像尺寸相同。

根据上述内容，步骤a3中图像A位置处的像素和等于0时，将步骤a3中最小的kernel图像中的这类文本目标的像素赋值到图像A中。

图像A把所有kernel层图像的小尺寸目标都搜索出来，因为是从面积小到面积大过程迭代，保留了最多数目的小尺寸目标，在迭代过程中如果后面的小尺寸目标与图像A中已经赋值了的小尺寸目标存在交集，则丢弃该文本目标，因此最后图像A是数目最多，面积相对最小，这样文本小尺寸目标信息就不丢失。

PSENet深度学习网络预测输入图像后，基于输出概率图需要做个“渐进式尺寸扩展后处理”过程，如图2，该后处理过程与概率图中的文本目标像素数目正相关，文本目标像素数越多计算量越大，因此通常采用降采样scale等于2或4来降低参与计算的像素数目，从而达到工业应用的耗时要求。

由于降采样一定概率会带来文本粘连现象，从而导致网络预测精度下降，虽然满足了工业应用的耗时要求，但带来的粘连现象则导致OCR识别效果下降，尤其对密集文本检测，该问题影响更加突出。

从图3中可以看出测试图片的字符例如“/”产生的前景目标的尺寸比较小，有时候宽度或高度不超过4个像素，然后在该掩码图上做降采样，则有概率导致目标丢失，导致渐进式扩展过程中初始的目标数偏少，在扩展过程中这些丢失的目标像素被周围的其它目标合并到一起，从而产生了文本粘连现象。

通过融合渐进式扩展过程中不同面积的kernel图的小尺寸文本目标，来达到最小面积的kernel初始文本目标种子数与降采样之前相同，这样在渐进式过程中则不会使得小尺寸文本目标的像素被周围其他文本目标合并掉，从而达到了解决文本粘连现象的目的。

根据上述内容，所述PSENet网络是基于分割的检测器，对每个文本实例进行多个预测的网络。

根据上述内容，所述PSENet网络可识别相邻文本实例且对任意形状具有鲁棒性。

PSENet是一种新的实例分割网络，它有两方面的优势，首先，PSENet作为一种基于分割的方法，能够对任意形状的文本进行定位；其次，PSENet网络可识别相邻文本实例且对任意形状具有鲁棒性。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限定本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.PSENet网络渐进式扩展后处理出现文本粘连的解决方法，其特征在于，包括如下步骤：

a1.定义一个零图像A作为被融合的小尺寸文本目标图像；

a3.按照步骤(a2)的流程进行循环迭代，从最小的kernel图像迭代到文本目标面积相对最大的kernel图像，从而得到图像A的最终值；

a4：将图像A与所有的kernel图像分别做下图像或操作，用于产生一个融合图像A，把新制作的图像A通过图像或运算叠加到所有kernel层的图像上，将“后处理”的kernel图像改变，增加小尺寸文本目标信息，把所有的kernel图像进行修改；

所述步骤(a1)中的图像尺寸与PSENet网路的各个kernel图像尺寸相同；

所述步骤(a3)中图像A位置处的像素和等于0时，将步骤(a3)中最小的kernel图像中的这类文本目标的像素赋值到图像A中；

所述PSENet网络是基于分割的检测器，对每个文本实例进行多个预测的网络；

所述PSENet网络可识别相邻文本实例且对任意形状具有鲁棒性。