CN111259878A

CN111259878A - 一种检测文本的方法和设备

Info

Publication number: CN111259878A
Application number: CN201811451707.9A
Authority: CN
Inventors: 贺菁菁
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2020-06-09

Abstract

本发明公开了一种检测文本的方法和设备，涉及文本检测技术领域，用以解决在不同复杂程度的自然场景图像中文本候选区定位不准确，检测文本精度较低的问题，本发明方法包括：通过文本区域检测模型得到待检测图片的候选文本框区域，并通过文本区域概率图模型得到候选文本框区域的概率图；通过检测由候选文本框区域的概率图转化得到的二值化图像中的文字区域生成文字区域包围框；根据文字区域包围框在待检测图片的坐标信息确定文字区域包围框在待检测图片中的位置；检测待检测图片中的位置的文本信息，由于本发明中文本区域检测模型可以准确定位文本区域，并且根据文本区域概率图模型对候选文本框区域进行纠正，提高了检测文本的精度。

Description

一种检测文本的方法和设备

技术领域

本发明涉及文本检测技术领域，特别涉及一种检测文本的方法和设备。

背景技术

自然场景图像，是指由各种拍摄设备(例如，照相机、具有拍摄功能的手机等)，在没有特定限制的条件下，直接对生活中真实存在的场景拍摄的图像。自然场景图像中的文本可提供丰富的语义信息，例如，自然场景图像中标识街道、车牌、菜单等的文本信息，能够辅助人们方便的理解场景信息，因此，在自然场景图像中准确检测出文本是很有必要的。但是，由于自然场景图像中文本的字体、颜色、格式等差异以及高度杂乱的背景等因素，在自然场景图像中检测文本是一项具有挑战性的工作。

目前，在自然场景图像中检测文本的方法可以分为两大类，分别为：基于滑动窗口的检测方法和基于连通域的检测方法。具体的：

基于滑动窗口的检测方法的工作原理是：使用不同尺度的滑动窗口扫描原始自然场景图像，得到一系列可能包括有文本的自然场景图像子区域，提取这些子区域的纹理特征，并使用提取的纹理特征训练分类器，验证子区域是否包括有文本，该方法通过多尺度滑动窗口以一定的步长在自然场景图像中不断滑动来提取子区域，提取的过程及其耗时，并且使用低级别的纹理特征验证子区域是否包括有文本，使其检测效果不佳。

基于连通域的检测方法的工作原理是：通过字符像素点的色彩、字符的笔画宽度等特征，从自然场景图像中提取连通区域，分析连通区域的特征，通过字符合并规则，得到文本字符串，验证字符串，移除非文字，得到最终检测结果，该方法仅适合处理背景较为简单的自然场景图像。

上述两种方法均通过低级别的特征，例如字符的笔画宽度、图像纹理特征等，来区分自然场景图像中文本和背景，文本候选区定位不准确，检测精度较低。

综上所述，现有技术中在不同复杂程度的自然场景图像中文本候选区定位不准确，检测文本精度较低。

发明内容

本发明提供一种检测文本的方法和设备，用以解决现有技术中存在的在不同复杂程度的自然场景图像中文本候选区定位不准确，检测文本精度较低的问题。

第一方面，本发明实施例提供的一种检测文本的方法包括：

通过文本区域检测模型得到待检测图片的候选文本框区域，并通过所述文本区域概率图模型得到所述候选文本框区域的概率图；

通过检测由所述候选文本框区域的概率图转化得到的二值化图像中的文字区域生成文字区域包围框；

根据所述文字区域包围框在所述待检测图片的坐标信息确定所述文字区域包围框在所述待检测图片中的位置；

检测所述待检测图片中的位置的文本信息。

上述方法，通过文本区域检测模型利用卷积特征或网格划分等方法可以快速精确地定位出待检测图片中的文本区域，生成至少一个候选文本框区域，不再依赖字符的笔画宽度、图像纹理等低级别的特征，来区分自然场景图像中的文本和背景，提高了文本区域检测的精度，有效地克服了目前方法中文本候选区定位不准确的问题，但是生成的候选文本框区域对于倾斜畸变等文字部分的贴合度较差，使得候选文本框中还会存在一部分非文字的背景区域，因此通过文本区域概率图模型得到的概率图对候选文本框区域的包围框进行调整，矫正倾斜文字区域的文本框，生成更加贴合文字的文字区域包围框，根据文字区域包围框的坐标信息检测的待检测图片中的文本信息更加准确。

在一种可能的实现方式中，所述通过所述文本区域概率图模型得到所述候选文本框区域的概率图之后，通过检测由所述候选文本框区域的概率图转化得到的二值化图像中的文字区域生成文字区域包围框之前，还包括：

从所有候选文本框区域中剔除满足文字筛选条件的候选文本框区域；

所述通过检测由所述候选文本框区域的概率图转化得到的二值化图像中的文字区域生成文字区域包围框，包括：

通过检测由保留的候选文本框区域的概率图转化得到的二值化图像中的文字区域生成文字区域包围框。

上述方法，通过文本区域检测模型可以快速将文本区域与非文本区域区分开，但是得到的候选文本框区域中也会存在一些文字占比很小或是没有文字的文本框，此时可以通过设置文字筛选条件对候选文本框进行筛选，剔除满足文字筛选条件的候选文本框区域，由于候选文本框区域中的文本框没有完全贴合文字区域，也会有一些没有文字且没有图像的背景区域，因此将保留下来的候选文本框区域的概率图转换为二值化图像，明显的区分出文字区域和非文字区域，进而通过二值图像中的文字区域得到更加贴合的文字区域包围框，可以实现对倾斜文字区域文本框的矫正。

在一种可能的实现方式中，所述文字筛选条件包括下列中的部分或全部：

候选文本框区域的概率图转化得到的二值化图像中文字区域与总区域比值小于第一阈值；

候选文本框区域的文本框置信度小于第二阈值。

上述方法，通过二值化图像中的文字区域所占的比例和/或候选文本框区域的文本框置信度与预设阈值之间进行比较可以筛选出候选文本框区域有文字且占比较大的文本框区域，可以显著提高文本区域检测的准确率。

在一种可能的实现方式中，所述根据所述文字区域包围框在所述待检测图片的坐标信息确定所述文字区域包围框在所述待检测图片中的位置之后，还包括：

确定所述文字区域包围框在所述待检测图片中的位置对应的文字框区域；

对所述文字框区域进行非极大值抑制得到去除重叠区域后的文字框区域；

所述检测所述待检测图片中的位置的文本信息，包括：

检测所述去除重叠区域后的文字框区域在所述待检测图片中的位置的文本信息。

上述方法，在通过文本区域检测模型检测文本区域时由于文字颜色、大小等原因，得到的候选文本框区域中会存在某一候选文本框区域中文本区域与另一候选文本框中文本区域部分重叠或完全重叠的情况，在确定好候选文本框中的文字部分的文本区域包围框后可以通过非极大值抑制的方法去除重叠区域候选文本框区域，只检测去除重叠后的文本信息，得到的文本信息更加精确。

在一种可能的实现方式中，通过下列方式得到由所述候选文本框区域的概率图转化得到的二值化图像：

将所述候选文本框区域的概率图进行二值化后得到二值图像；

将所述二值图像进行形态学滤波后得到所述二值化图像。

上述方法，通过形态学滤波的方式可以去除由概率图转化得到的二值图像中任然存在的干扰点和干扰区域，得到更加准确的文字区域，提高检测的准确率。

在一种可能的实现方式中，通过下列方式得到所述文本区域概率图模型：

通过训练图像随机裁剪后的子图像对二分类模型进行训练得到训练模型；

将所述训练模型中的全连接层转化为卷积层后生成所述文本区域概率图模型。

上述方法，利用裁剪出来的子图像进行二分类模型的训练，可以大量扩充样本数量和场景，得到更精确的自然场景文本区域概率图模型，同时模型对于不同文字尺寸有较好的鲁棒性，可以提高不同尺寸下文字检测准确率。

在一种可能的实现方式中，所述文本区域检测模型包括下列的部分或全部：

Faster R-CNN模型、SSD模型、YOLO模型；

所述文本区域概率图模型为全卷积网络FCN模型。

第二方面，本发明实施例提供的一种检测文本的设备包括：处理器以及收发机：

所述处理器：用于利用收发机通过文本区域检测模型得到待检测图片的候选文本框区域，并通过所述文本区域概率图模型得到所述候选文本框区域的概率图；通过检测由所述候选文本框区域的概率图转化得到的二值化图像中的文字区域生成文字区域包围框；根据所述文字区域包围框在所述待检测图片的坐标信息确定所述文字区域包围框在所述待检测图片中的位置；检测所述待检测图片中的位置的文本信息。

在一种可能的实现方式中，所述处理器还用于：

通过所述文本区域概率图模型得到所述候选文本框区域的概率图之后，从所有候选文本框区域中剔除满足文字筛选条件的候选文本框区域；

所述处理器具体用于：

候选文本框区域的文本框置信度小于第二阈值。

在一种可能的实现方式中，所述处理器还用于：

根据所述文字区域包围框在所述待检测图片的坐标信息确定所述文字区域包围框在所述待检测图片中的位置之后，确定所述文字区域包围框在所述待检测图片中的位置对应的文字框区域；

所述处理器具体用于：

在一种可能的实现方式中，所述处理器还用于，通过下列方式得到由所述候选文本框区域的概率图转化得到的二值化图像：

将所述二值图像进行形态学滤波后得到所述二值化图像。

在一种可能的实现方式中，所述处理器还用于，通过下列方式得到所述文本区域概率图模型：

Faster R-CNN模型、SSD模型、YOLO模型；

所述文本区域概率图模型为全卷积网络FCN模型。

第三方面，本发明实施例提供的一种检测文本的设备包括：至少一个处理单元以及至少一个存储单元，其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行下列过程：

通过文本区域检测模型得到待检测图片的候选文本框区域，并通过所述文本区域概率图模型得到所述候选文本框区域的概率图；通过检测由所述候选文本框区域的概率图转化得到的二值化图像中的文字区域生成文字区域包围框；根据所述文字区域包围框在所述待检测图片的坐标信息确定所述文字区域包围框在所述待检测图片中的位置；检测所述待检测图片中的位置的文本信息。

在一种可能的实现方式中，所述处理单元还用于：

所述处理单元具体用于：

候选文本框区域的文本框置信度小于第二阈值。

在一种可能的实现方式中，所述处理单元还用于：

所述处理单元具体用于：

在一种可能的实现方式中，所述处理单元还用于，通过下列方式得到由所述候选文本框区域的概率图转化得到的二值化图像：

将所述二值图像进行形态学滤波后得到所述二值化图像。

在一种可能的实现方式中，所述处理单元还用于，通过下列方式得到所述文本区域概率图模型：

Faster R-CNN模型、SSD模型、YOLO模型；

所述文本区域概率图模型为全卷积网络FCN模型。

第四方面，本申请还提供一种计算机存储介质，其上存储有计算机程序，该程序被处理单元执行时实现第一方面所述方法的步骤。

另外，第二方面至第四方面中任一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果，此处不再赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种检测文本的方法示意图；

图2A为本发明实施例提供的一种待检测图片的示意图；

图2B为本发明实施例提供的一种通过文本检测模型检测得到的候选文本区域的示意图；

图3A为本发明实施例提供的一种通过文本区域概率图模型生成的文本概率图的示意图；

图3B为本发明实施例提供的一种通过文本区域概率图模型生成的文本概率图的示意图；

图3C为本发明实施例提供的一种通过文本区域概率图模型生成的文本概率图的示意图；

图3D为本发明实施例提供的一种通过文本区域概率图模型生成的文本概率图的示意图；

图3E为本发明实施例提供的一种通过文本区域概率图模型生成的文本概率图的示意图；

图3F为本发明实施例提供的一种通过文本区域概率图模型生成的文本概率图的示意图；

图4A为本发明实施例提供的一种概率图转换后的二值化图像示意图；

图4B为本发明实施例提供的一种概率图转换后的二值化图像示意图；

图4C为本发明实施例提供的一种概率图转换后的二值化图像示意图；

图4D为本发明实施例提供的一种概率图转换后的二值化图像示意图；

图4E为本发明实施例提供的一种概率图转换后的二值化图像示意图；

图4F为本发明实施例提供的一种概率图转换后的二值化图像示意图；

图5为本发明实施例提供的一种候选文本框区域矩形框调整后的示意图；

图6为本发明实施例提供的一种检测文本的结果示意图；

图7为本发明实施例提供的一种检测文本的完整方法示意图；

图8为本发明实施例提供的一种检测文本的设备示意图；

图9为本发明实施例提供的另一种检测文本的设备示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面对文中出现的一些词语进行解释：

1、本发明实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

2、本发明实施例中术语“VGG16”指16层的VGGNet，其突出贡献在于证明使用很小的卷积(3*3)，增加网络深度可以有效提升模型的效果，而且VGGNet对其他数据集具有很好的泛化能力，常用于提取图像特征。

本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

传统的文本检测方法包括基于连通域的方法以及基于滑动窗口的方法，自2014年起，基于深度学习的方法逐渐成为主流方法。在基于深度学习的文本检测方法中，一种是基于区域建议(Region Proposal)的方法：使用图像处理技术提取出大量的疑似文本区域矩形框(proposal)，然后通过深度卷积神经网络对疑似矩形框进行回归和分类。一种是基于图像分割的方法：利用全卷积神经网络(FCN，fully convolutional network)提取原始图像特征，并利用反卷积、上池化(unpooling)等上采样操作，将特征矩阵恢复到接近原始图像尺寸，然后对每一个位置上的像素做类别预测。

自然场景图像中的文本信息由于其背景复杂、文本方向不确定、字体变化、光照不均匀等文字展现形式丰富一直是视觉处理的难点，而且同一行文本线上不同文字可能差异大、距离远，作为整体检测出来难度更大。

基于深度学习方法的Faster R-CNN框架是针对物体检测任务设计，文字检测任务中文字大小变换范围较大，并不适合文本检测任务；另外，Faster R-CNN中的Anchor为正矩形，而文字存在倾斜畸变等，得到的文本检测结果准确率不高。

全卷积网络(FCN)区别于Faster R-CNN的是，不需要进行候选区域回归出物体边框，而是根据高分辨率的特征图直接预测物体边框。FCN不需要预先定义好边框比例，在预测不规则文字区域有较好的鲁棒性。但是FCN网络对于行间距较近的文字不易区分，容易产生行黏连问题。

因此本发明实施例一种检测文本的方法，通过文本区域检测模型检测倾斜等复杂的文本区域生成候选区域文本框，将文本信息区分开来，再根据文本区域概率图模型预测文字边框对候选文本框区域进行纠正，提高了检测文本的精度。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

针对上述场景，下面结合说明书附图对本发明实施例做进一步详细描述。

如图1所示，本发明实施例的一种检测文本的方法，具体包括以下步骤：

步骤100：通过文本区域检测模型得到待检测图片的候选文本框区域，并通过所述文本区域概率图模型得到所述候选文本框区域的概率图；

步骤101：通过检测由所述候选文本框区域的概率图转化得到的二值化图像中的文字区域生成文字区域包围框；

步骤102：根据所述文字区域包围框在所述待检测图片的坐标信息确定所述文字区域包围框在所述待检测图片中的位置；

步骤103：检测所述待检测图片中的位置的文本信息。

通过上述方案，根据文本区域检测模型可以快速精确地定位出待检测图片中的文本区域生成至少一个候选文本框区域，其中的文本区域检测模型利用卷积特征或网格划分等方法，可以检测复杂的文本区域，提高文本区域检测的精度，有效地克服了目前方法中文本候选区定位不准确的问题，但是生成的候选文本框区域对于倾斜畸变等文字部分的贴合度较差，使得候选文本框中还会存在一部分非文字的背景区域，因此需要通过文本区域概率图模型得到候选文本框区域的概率图，通过概率图对候选文本框区域的包围框进行调整，矫正倾斜文字区域的文本框，生成更加贴合文字的文字区域包围框，根据文字区域包围框的坐标信息检测的待检测图片中的文本信息更加准确。

其中，所述文本区域概率图模型为全卷积网络FCN(Fully ConvolutionalNetworks)模型，所述文本区域检测模型包括但不限于下列的部分或全部：

Faster R-CNN(Fast Region-based Convolutional Neural Networks，基于快速区域的卷积神经网络)模型、SSD(Single Shot MultiBox Detector，单镜头多盒检测器)模型、YOLO(You Only Look Once)模型；

可选的，在通过文本区域检测模型得到待检测图片的候选文本框区域，并通过所述文本区域概率图模型得到所述候选文本框区域的概率图之前，首先基于已标注文本区域信息的自然场景图像数据进行文本区域检测模型及文本区域概率图模型的训练。

在本发明实施例中，以Faster R-CNN模型为例，用已标注文本区域信息的自然场景图像数据进行Faster R-CNN模型的训练，得到基于Faster R-CNN的文本区域检测模型，其中，RPN(Region Proposal Network，区域建议网络)和特征提取卷积网络使用深度网络VGG16。

可选的，通过训练图像随机裁剪后的子图像对二分类模型进行训练得到训练模型；将所述训练模型中的全连接层转化为卷积层后生成所述文本区域概率图模型。

例如，将某一已标注文本区域信息的自然场景图像作为训练图像A，随机在训练图像A上裁剪出不同大小尺寸的子图像B，计算子图像B与原始的自然场景图像中文字区域的IoU(Intersection over Union，交并比)，取最大的IoU值V＝max(IoU)作为样本正负划分依据：

用子图像B作为正负样本，训练文本/非文本的二分类卷积神经网络后，将二分类卷积神经网络的全连接层转换为卷积层，生成用于文本检测的全卷积神经网络，设置V＝0.7，即文字区域最少要占70％以上，可以显著提高文本区域检测的准确率。

在本发明实施例中，在得到用于文本检测的文本区域检测模型和文本区域概率图模型之后，将待检测图片输入文本区域检测模型中检测待检测图片中的文本区域，生成至少一个候选文本框区域。

对于任意一张待检测图片，将所述待检测图片输入到所述文本区域检测模型中，对待检测图片中的文本区域进行检测，用正矩形文本框标记出文本区域，并计算文本区域得分score(即文本框置信度)，经过非极大值抑制去除冗余矩形框等，得到候选文本框区域。

可选的，在进行非极大值抑制时，设置的文本框置信度阈值较低、非极大值抑制阈值较高，这样能够得到较多的候选文本框区域。

例如，设置文本框置信度阈值为0.7，区域得分(即文本框置信度)大于该阈值的文本框保留，非极大值抑制的阈值设置为0.4，IoU小于0.4的文本框保留，对图2A所示的待检测图片经过Faster R-CNN模型的检测及非极大值抑制后，最后得到的检测结果如图2B所示，其中矩形框标出的是经过非极大值抑制后得到的候选文本框区域，共有6个。

在本发明实施例中，将所有的候选文本框区域分别输入到文本区域概率图模型中，得到所述候选文本框区域的概率图。

如图3A至图3F所示，为图2B中的6个候选文本框区域对应的概率图，其中，概率图跟原始输入图像大小一样，概率图中每个像素位置的值，表征待检测图像中对应位置处的像素或图像块是否是文字的概率，取值为0-1，越靠近1表示越可能是文本。由概率图可以直接看出候选文本框区域中不仅包含文字部分，还会有一些非文本即背景区域，并且概率图不能够清晰表示出文本区域与背景的边界。

可选的，得到所述候选文本框区域的概率图之后，将所述候选文本框区域的概率图转化得到候选文本框区域的二值化图像。

具体的，将所述候选文本框区域的概率图进行二值化后得到二值图像，之后将所述二值图像进行形态学滤波后得到所述二值化图像。

例如，将概率图利用阈值TH进行二值化操作。具体的，若坐标(x，y)处的像素值(x，y)大于TH，则该处值设置为1.0(像素为白色)，否则设置为0(像素为黑色)。对二值化操作得到的二值图像进行膨胀、腐蚀操作，以去除干扰点、微小区域对结果的影响。

在本发明实施例中，由于概率图上的像素值在0-1之间，表示该区域是文本的概率大小，像素值越大，该像素位置处图像块是文字的概率也越大，因此在设置阈值TH时，设置的TH越大文字区域越精确，TH越少得到的文字区域范围越大，但是很有可能将不是文字的部分归为文字区域，出现错误。

例如，为了得到更准确的文字区域，取TH＝0.7，对图3A至图3F得到的概率图进行二值化得到二值图像，并通过膨胀、腐蚀等对二值图像进行形态学滤波，去除不是文字的干扰点、干扰区域等，最后得到的二值化图像如图4A至图4F所示，其中白色部分为文字区域，黑色部分为非文字区域。

在本发明实施例中，根据文本检测模型生成的候选文本框区域可能会存在一些文字占比较小或是没有文字的候选文本框区域，可选的，在生成二值化图像之后，对所述候选文本框区域进行筛选，从所有候选文本框区域中剔除满足文字筛选条件的候选文本框区域。

其中，所述文字筛选条件包括但不限于下列的部分或全部：

候选文本框区域的概率图转化得到的二值化图像中文字区域与总区域比值小于第一阈值；候选文本框区域的文本框置信度小于第二阈值。

例如，设置第一阈值为0.1、第二阈值为0.95，若某一候选文本框区域概率图转换得到的二值化图像中像素为1的区域(即文字区域)占总区域的比值为小于0.1，且该区域由Faster R-CNN模型判断的得分score(即文本框置信度)<0.95，则判断该候选文本框区域无文字，满足文字筛选条件，剔除该候选文本框区域，例如图3D所示的候选文本框区域中是梅花，没有文字，对应图4D中的二值化图像，文字占比为0<0.1、文本框置信度为0.44<0.95。

或者，设置第一阈值为0.3，若某一候选文本框区域概率图转换得到的二值化图像中文字区域与总区域的比值为0.25，小于0.3，即文字区域占比很小，满足文字筛选条件，剔除该候选文本框区域。

在本发明实施例中，所述候选文本框区域是正矩形框，但是受文字大小、倾斜畸变等的影响，在候选文本框区域中还会存在一些非文字区域，为了提高文本区域检测的精度，需要对候选文本框区域进行调整。

可选的，在剔除满足筛选条件的候选文本框区域之后，通过检测由保留的候选文本框区域的概率图转化得到的二值化图像中的文字区域生成文字区域包围框，根据文字区域包围框对候选文本框区域进行调整。

例如，通过检测图4A中的二值化图像中白色区域，生成最贴合文字区域的最小包围框，将得到的最小包围框的坐标信息回归到待检测图片中，对开始通过文本区域检测模型得到的候选文本框区域进行修正，修正后的倾斜矩形候选区域如图5所示。

在本发明实施例中，由于对候选文本框区域进行了调整，使得文本区域发生了变化，可能存在一些重叠的候选区域，可选的，通过非极大值抑制算法去除重叠的倾斜矩形候选区域，得到最终文本区域。

具体的，在根据所述文字区域包围框在所述待检测图片的坐标信息确定所述文字区域包围框在所述待检测图片中的位置之后，确定所述文字区域包围框在所述待检测图片中的位置对应的文字框区域；对所述文字框区域进行非极大值抑制得到去除重叠区域后的文字框区域；检测所述去除重叠区域后的文字框区域在所述待检测图片中的位置的文本信息。

如图6所示，中共检测到3个文本区域，分别为“宝剑锋从磨砺出”、“梅花香自苦寒来”、“南塔街道龙骨井社区”，与图2B相比，去除了重叠的文本区域：“宝剑锋”及“梅花香”，去除了右上角的非文本区域-梅花，并且对倾斜的文本区域“南塔街道龙骨井社区”的矩形框进行了调整，调整后的文本框更加贴合文字部分，提高了文本检测的精度。

如图7所示，本发明实施例提供的一种在自然场景图像中检测文本的完整方法包括：

步骤700、通过已经标记文本区域信息的自然场景图像数据进行Faster R-CNN模型及FCN模型的训练，得到基于Faster R-CNN的文本区域检测模型，及基于FCN的文本区域概率图模型。

步骤701、将任意一张待测试图片输入所述基于Faster R-CNN的文本区域检测模型，判断文本区域的区域得分score，并通过非极大值抑制得到候选文本框区域；

步骤702、将所有的所述候选文本框区域分别输入到所述基于FCN的文本区域概率图模型中，得到所述候选文本框区域的文本概率图；

步骤703、将所述概率图进行二值化操作生成二值图像，并对所述二值图像进行膨胀、腐蚀操作，生成二值化图像；

步骤704、判断所述二值化图像中文字区域与总区域比值是否小于0.3，如果是则执行步骤705，否则执行步骤706；

步骤705、剔除所述二值化图像对应的候选文本框区域；

步骤706、检测由保留的候选文本框区域的概率图转化得到的二值化图像中的文字区域进行最小包围框生成，得到最贴合文字区域的矩形框；

步骤707、将最小包围框的坐标信息回归到待检测图片中，对所述候选文本框区域进行修正得到倾斜矩形候选区域；

步骤708、将所有的倾斜矩形候选区域再次进行非极大值抑制操作，去除重叠的候选区域，得到最终文本区域。

步骤709、将最终文本区域坐标回归原图，检测得到最终文本检测结果。

基于相同的发明构思，本发明实施例中还提供了一种检测文本的设备，由于该设备即是本发明实施例中的方法中的设备，并且该设备解决问题的原理与该方法相似，因此该设备的实施可以参见方法的实施，重复之处不再赘述。

如图8所示，本发明实施例还提供一种检测文本的设备，该设备包括：处理器800及收发机801：

所述处理器800：用于利用收发机801通过文本区域检测模型得到待检测图片的候选文本框区域，并通过所述文本区域概率图模型得到所述候选文本框区域的概率图；通过检测由所述候选文本框区域的概率图转化得到的二值化图像中的文字区域生成文字区域包围框；根据所述文字区域包围框在所述待检测图片的坐标信息确定所述文字区域包围框在所述待检测图片中的位置；检测所述待检测图片中的位置的文本信息。

可选的，所述处理器800还用于：

所述处理器800具体用于：

可选的，所述文字筛选条件包括下列中的部分或全部：

候选文本框区域的文本框置信度小于第二阈值。

可选的，所述处理器800还用于：

所述处理器800具体用于：

可选的，所述处理器800还用于，通过下列方式得到由所述候选文本框区域的概率图转化得到的二值化图像：

将所述二值图像进行形态学滤波后得到所述二值化图像。

可选的，所述处理器800还用于，通过下列方式得到所述文本区域概率图模型：

可选的，所述文本区域检测模型包括下列的部分或全部：

Faster R-CNN模型、SSD模型、YOLO模型；

所述文本区域概率图模型为全卷积网络FCN模型。

如图9所示，本发明实施例还提供一种检测文本的设备，该设备包括：至少一个处理单元900、以及至少一个存储单元901，其中，所述存储单元901存储有程序代码，当所述程序代码被所述处理单元900执行时，使得所述处理单元900执行下列过程：

可选的，所述处理单元900具体用于：

所述处理单元900具体用于：

可选的，所述文字筛选条件包括下列中的部分或全部：

候选文本框区域的文本框置信度小于第二阈值。

可选的，所述处理单元900还用于：

所述处理单元900具体用于：

可选的，所述处理单元900还用于，通过下列方式得到由所述候选文本框区域的概率图转化得到的二值化图像：

将所述二值图像进行形态学滤波后得到所述二值化图像。

可选的，所述处理单元900还用于，通过下列方式得到所述文本区域概率图模型：

可选的，所述文本区域检测模型包括下列的部分或全部：

Faster R-CNN模型、SSD模型、YOLO模型；

所述文本区域概率图模型为全卷积网络FCN模型。

本发明实施例还提供一种计算机可读非易失性存储介质，包括程序代码，当所述程序代码在计算终端上运行时，所述程序代码用于使所述计算终端执行上述本发明实施例检测文本的方法的步骤。

以上参照示出根据本申请实施例的方法、装置(系统)和/或计算机程序产品的框图和/或流程图描述本申请。应理解，可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程数据处理装置，以产生机器，使得经由计算机处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。

相应地，还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本申请。更进一步地，本申请可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式，其具有在介质中实现的计算机可使用或计算机可读程序代码，以由指令执行系统来使用或结合指令执行系统而使用。在本申请上下文中，计算机可使用或计算机可读介质可以是任意介质，其可以包含、存储、通信、传输、或传送程序，以由指令执行系统、装置或设备使用，或结合指令执行系统、装置或设备使用。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种检测文本的方法，其特征在于，该方法包括：

检测所述待检测图片中的位置的文本信息。

2.如权利要求1所述的方法，其特征在于，所述通过所述文本区域概率图模型得到所述候选文本框区域的概率图之后，通过检测由所述候选文本框区域的概率图转化得到的二值化图像中的文字区域生成文字区域包围框之前，还包括：

3.如权利要求2所述的方法，其特征在于，所述文字筛选条件包括下列中的部分或全部：

候选文本框区域的文本框置信度小于第二阈值。

4.如权利要求1所述的方法，其特征在于，所述根据所述文字区域包围框在所述待检测图片的坐标信息确定所述文字区域包围框在所述待检测图片中的位置之后，还包括：

所述检测所述待检测图片中的位置的文本信息，包括：

5.如权利要求1所述的方法，其特征在于，通过下列方式得到由所述候选文本框区域的概率图转化得到的二值化图像：

将所述二值图像进行形态学滤波后得到所述二值化图像。

6.如权利要求1所述的方法，其特征在于，通过下列方式得到所述文本区域概率图模型：

7.如权利要求1所述的方法，其特征在于，所述文本区域检测模型包括下列的部分或全部：

Faster R-CNN模型、SSD模型、YOLO模型；

所述文本区域概率图模型为全卷积网络FCN模型。

8.一种检测文本的设备，其特征在于，该设备包括：处理器以及收发机：

9.如权利要求8所述的设备，其特征在于，所述处理器还用于：

所述处理器具体用于：

10.如权利要求9所述的设备，其特征在于，所述文字筛选条件包括下列中的部分或全部：

候选文本框区域的文本框置信度小于第二阈值。

11.如权利要求8所述的设备，其特征在于，所述处理器还用于：

所述处理器具体用于：

12.如权利要求8所述的设备，其特征在于，所述处理器还用于，通过下列方式得到由所述候选文本框区域的概率图转化得到的二值化图像：

将所述二值图像进行形态学滤波后得到所述二值化图像。

13.如权利要求8所述的设备，其特征在于，所述处理器还用于，通过下列方式得到所述文本区域概率图模型：

14.如权利要求8所述的设备，其特征在于，所述文本区域检测模型包括下列的部分或全部：

Faster R-CNN模型、SSD模型、YOLO模型；

所述文本区域概率图模型为全卷积网络FCN模型。

15.一种检测文本的设备，其特征在于，该设备包括：至少一个处理单元以及至少一个存储单元，其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行权利要求1～7任一所述方法的步骤。

16.一种计算机可存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～7任一所述方法的步骤。