CN111666939A

CN111666939A - 基于边距约束的任意形状的场景文本检测方法

Info

Publication number: CN111666939A
Application number: CN202010439354.1A
Authority: CN
Inventors: 马天龙; 李鑫
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-09-15
Anticipated expiration: 2040-05-22
Also published as: CN111666939B

Abstract

本发明公开了一种基于边距约束的任意形状的场景文本检测方法，该方法通过深度网络提取场景图片中的特征，利用特征信息进行处理生成文本实例图来完成文本检测。同时充分利用文本实例间存在的边距约束，利用生成边距作为整个网络的一个辅助手段来修正文本实例图，产生更精确的检测结果。本发明对给定的的自然场景图片进行文本检测，实现高精度的输出对应的文本区域的坐标位置。

Description

基于边距约束的任意形状的场景文本检测方法

技术领域

本发明属于人工智能领域中文本检测的方法，涉及计算机视觉和机器学习技术领域，尤其涉及一种基于边距约束的任意形状的场景文本检测方法。

背景技术

在互联网世界中，图片是传递信息的重要媒介。特别是电子商务，社交，搜索等领域，每天都有数以亿兆级别的图像在传播。自然场景图片中的文本是一个充满挑战的热门任务，与文档文字识别不同，自然场景中的文字识别存在图像背景复杂、分辨率低、字体多样、形状各异等问题，传统光学字符识别在此类情况下无法应用。为了更好的进行自然场景文本识别，就需要对场景文本实现更加准确的检测。

通常OCR中，文本检测都是由目标检测继承而来，目标检测大多都是基于先验框的(anchor base)，anchor-base模式在目标检测衍生到OCR领域就有很多缺陷，比如：倾斜(或扭曲)文本检测不准、过长文本检测不全、过短文本容易遗漏、距离较近的无法分开等缺点。渐进式扩展网络横空出世，以另一种思路解决了这些问题。整个渐进式扩大网络过程中，对于生成的不同将每个文本实例分配给多个预测的分割区域，这些分割区域表示为“核”，并且对于一个文本实例，有多个对应的文本实例的核。每个内核与原始的整个文本实例共享相似的形状，并且核都位于相同的中心点但在比例上不同。渐进式扩大网络对各个文本实例之间存在的约束信息没有得到很好地利用。

发明内容

本发明的目的是针对现有技术的不足，提出的一种更为有效的基于边距约束的任意形状的场景文本检测方法，该方法通过深度神经网络模型自动获取图片中的文本区域信息并结合通过文本实例区域信息生成文本边距图，得到更加准确的分隔开的文本区域。根据分隔开的文本区域通过扩张文本实例区域算法形成最终文本实例、调用OpenCV轮廓检测算法处理得到位置坐标，完成文本检测。使得给出一张待检测的自然场景图片，能自动的检测出自然场景图片中任意形状的文本。

实现本发明目的的具体技术方案是：

一种基于边距约束的任意形状的场景文本检测方法，该方法包括以下具体步骤：

步骤1：输入场景文本图像，通过深度卷积神经网络得到待检测文本图像的深度特征信息；

步骤2：对步骤1得到的深度特征信息通过全卷积网络进行处理得到数个大小不同分割结果，即数个大小不同的文本实例图；

步骤3：对步骤2所述的数个大小不同的文本实例图进行残差处理，得到文本实例之间的边距图，同时利用边距图来修正文本实例图；

步骤4：对步骤3修正后的文本实例图进行扩张文本实例区域算法处理后，调用OpenCV轮廓检测输出对应的文本区域的位置坐标，得到文本检测结果。

步骤4所述扩张文本实例区域算法是：基于广度优先搜索，从具有最小尺度的文本实例图开始；通过逐步在最小文本区域基础上加入后续的数个文本实例图中包含的像素来扩张；直至扩张到最大的文本实例。

本发明具有易行性，随着应用需求的提高，许多学术研究机构组织提出丰富的公开自然场景数据集，能够保证本发明提出的深度神经网络得到充分训练，得到高精度的结果。本发明提出基于边距生成信息来实现有效的对任意形状的场景文本进行更高精度的检测，在公开数据集的评测指标中取得优秀结果。本发明具有简单性，文本检测的结果主要通过深度神经网络得到，其余的处理步骤主要使用简单数字图像处理方法和OpenCV等图像处理工具来完成操作。

附图说明

图1为本发明流程图；

图2为本发明文本实例间边距生成的效果图；

图3为本发明扩张文本实例区域算法图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

实施例

首先是深度卷积神经网络得到待检测文本图像的深度特征信息，受到注意力机制的启发，使用注意力机制，将全局上下文信息作为先验知识引入到通道选择。融合了多尺度信息，通过全局池化提供的全局信息作为指引选择底层的特征，对低级特征做通道处理，然后使用全局池化后的信息做加权，得到加权后的底层特征，再上采样，然后再与高层语义特征信息相加获得深度特征信息。

其次生成文本实例，先对深度特征信息处理，使用全卷积神经网络生成多个不同大小的文本实例，同时通过设定阈值和二值化，即将大于等于阈值的像素点值设为1，小于阈值的像素点值设为0，形成多个大小不同的文本实例。在本实施例设置中使用7个文本实例来完成文本检测。

再通过生成的文本实例中进行相减处理生成边距图(如图2中M_i所示)。同时网络训练过程中利用生成文本边距图实现对文本实例之间的约束的监督学习,得到最终修正的文本实例(如图2中S_i所示)，使网络能够学到一个更加精确的文本实例。生成文本边距的方法采用其他文本实例与最小文本实例的边距生成约束，相关计算公式如下：

M_i＝S_i-S_n(i in{2,...，7},n＝1)

其中M_i分别对应生成的多个文本边距图，S_i表示多个文本实例。本实施例的方法在ICDAR2015和CTW1500等自然场景的公开数据集上进行测试验证，其中Baseline为基准方法，在此基础上分别引入生成文本边距进行验证。方法效果统计如下表所示：

最后通过扩张文本实例区域算法生成最终的文本实例图，如图3所示，得到了S₁中的四个文本实例后同时可知S₂中的文本实例是比S₁中的文本实例大的，即S₂中的文本实例是包含S₁中的文本实例的。现将属于S₂中的文本实例的但不属于S₁中的文本实例的像素点(即扩张文本实例算法演化过程中左图中的点状区域部分，左图中横线区域和虚线网状部分分别表示中S₁的两个文本实例)进行分配。在S₂的点状区域内所找到的每个pixel以广度优先搜索的方式，逐个向上下左右扩展，实现对S₁中预测的文本实例的区域逐渐变宽。后面的多个文本实例重复此过程，直到发现最大的文本实例，从而生成最终的文本实例结果。之后，调用OpenCV中的轮廓检测算法生成最终的文本实例区域的位置坐标。

本发明是一种基于边距约束的任意形状的场景文本检测方法。关于以前的通过多个文本实例实现文本检测技术方法未使用多个文本实例间的存在的边距约束信息，本发明提出基于边距约束的场景文本检测方法。效果在公共数据集(ICDAR2015、CTW1500)上得到了验证。

Claims

1.一种基于边距约束的任意形状的场景文本检测方法，其特征在于，该方法包括以下具体步骤：

2.根据权利要求1所述的场景文本检测方法，其特征在于，步骤4所述扩张文本实例区域算法是：基于广度优先搜索，从具有最小尺度的文本实例图开始；通过逐步在最小文本区域基础上加入后续的数个文本实例图中包含的像素来扩张；直至扩张到最大的文本实例。