CN110472539B

CN110472539B - 一种文本检测方法、装置及计算机存储介质

Info

Publication number: CN110472539B
Application number: CN201910706780.4A
Authority: CN
Inventors: 刘晋; 张鑫; 任皓亮
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2022-09-30
Anticipated expiration: 2039-08-01
Also published as: CN110472539A

Abstract

本发明提供了一种文本检测方法，应用于文本检测技术领域，包括：获取待检测图片；采用预设神经网络模型对所述待检测图片进行遍历，生成共享特征图，并生成锚盒；将锚盒作为文本提议，采用双向长短记忆网络BLSTM训练文本提议之间的上下文信息，并生成特征向量；根据分类模型和回归模型，对所述特征向量进行判断是否为文本，并你和文本提议具体位置，生成纵坐标方向的平移量和缩放量；根据所述平移量和所述缩放量，合并锚盒，并生成文本检测图像。以及提供了一种文本检测装置及计算机存储介质。应用本发明实施例，能够很好的保留待处理红外图像和待处理可见光图像中的信息减少图像的损失，提高文本检测后的效果。

Description

一种文本检测方法、装置及计算机存储介质

技术领域

本发明涉及文本检测技术领域，尤其涉及一种文本检测方法、装置及计算机存储介质。

背景技术

文字作为人类社会信息交流的载体，对整个社会发展有着十分重要的影响。随着时代的不断发展，人们需要处理的文字信息越来越多，传统的人工识别与分析难以满足日益增长的需要。

机器的文字识别和文字的检测是密不可分的，文字检测是识别的前提条件，文本检测不是一项简单的任务，自然场景下有各种各样的因素会影响到文字检测的效果，比如文本存在多种分布、文本存在多个方向、多种语言混合等。

在提高文本检测的准确性的同时，通过更快的基于区域卷积神经网络Faster-RCNN，连接文本提议网络CTPN等方法被提出来解决传统方法的不足。而连接文本提议网络CTPN中引入了循环网络，因此模型参数量较多，运行速度较慢。

发明内容

本发明的目的在于克服现有技术之缺陷，提供了一种文本检测方法、装置及计算机存储介质，旨在解决现有技术中模型过大，模型参数量过多，文本检测速度慢的不足，提供用于图像文字检测的快速有效方法。

本发明是这样实现的：

本发明提供一种文本检测方法，包括：

获取待检测图片；

采用预设神经网络模型对所述待检测图片进行遍历，生成共享特征图，并生成锚盒；

将锚盒作为文本提议，采用双向长短记忆网络BLSTM训练文本提议之间的上下文信息，并生成特征向量；

根据分类模型和回归模型，对所述特征向量进行判断是否为文本，并你和文本提议具体位置，生成纵坐标方向的平移量和缩放量；

根据所述平移量和所述缩放量，合并锚盒，并生成文本检测图像。

进一步地，所述预设神经网络模型的生成步骤，包括：

对采集的图片进行进行标注，生成所示的用于训练融合了PVANet的图像特征抽取网络的数据集标注；

采用数据集标注，对神经网络模型进行训练，获取每一个图像特征抽取结果；

根据图像特征抽取结果确定神经网络模型是否合格；

将合格后的神经网络模型确定为预设神经网络模型。

进一步地，所述预设神经网络模型的结构包括：

依次相连的第一卷积层、第二卷积层、第三卷积层；且所述第一卷积层、所述第二卷积层和所述第三卷积层分别带有C-Relu激活函数；

还包括第四卷积层和第五卷积层，所述第四卷积层和所述第五卷积层Inception结构；

将所述第三卷积层、所述第四卷积层和所述第五卷积层生成的特征图进行融合生成共享特征图。

进一步地，所述将所述第三卷积层、所述第四卷积层和所述第五卷积层生成的特征图进行融合生成共享特征图的步骤，包括：

采用所述第四卷积层对所述第三卷积层输出的特征图进行2×2最大池化处理，并输出至所述第五卷积层；

对所述第五卷积层的输出的特征图进行上采样；

在判断所述第五卷积层的输出特征图分辨率和所述第四卷积层输出的特征图分辨率一致后进行通道维度的连接，生成目标数量个特征图；

通过卷积核的尺寸为1*1、卷积核个数为512的卷积层，进行图像特征抽取获得共享特征图；以卷积核中心为锚点，以卷积操作中的步长为锚点间隔，遍历共享特征图生成锚盒。

进一步地，所述根据分类模型和回归模型，对所述特征向量进行判断是否为文本，并你和文本提议具体位置，生成纵坐标方向的平移量和缩放量的步骤，包括：

将所述特征向量送入垂直锚点回归机制的锚点回归拟合锚盒的最优高度：

采用边界回归计算相对的锚点的边界框的预测垂直坐标，获得预测的坐标和真实坐标根据预测的坐标和真实坐标，获得平移量和缩放量。

进一步地，所述根据所述平移量和所述缩放量，合并锚盒，并生成文本检测图像的步骤，包括：

获取相邻的锚盒，并组成一组；

进行锚盒的合并，成文本检测图像。

进一步地，所述获取相邻的锚盒，并组成一组的步骤，包括：

获取相邻的锚盒；

判断相邻的两个锚盒Bi和锚盒Bj是否满足条件：锚盒Bi到锚盒Bj的距离为水平方向的设定值；锚盒Bi和锚盒Bj之间的距离小于预设数量个像素；锚盒Bi和锚盒Bj的面积重叠率大于预设值。

此外，本发明还公开了一种文本检测装置，所述装置包括处理器、以及通过通信总线与所述处理器连接的存储器；其中，

所述存储器，用于存储文本检测程序；

所述处理器，用于执行所述文本检测程序，以实现任一项所述的文本检测步骤。

以及，公开了一种计算机存储介质，所述计算机存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以使所述一个或者多个处理器执行任一项所述的文本检测步骤。

(1)应用本发明的文本检测方法、装置及计算机存储介质，具通过本发明实施例提供的文本检测方法，对图像文字的检测不同于传统的形态学处理方法，可以在有效地排除复杂的非文字区域干扰的同时，对包含各种文字大小、文字颜色、文字字体、文字语种的文字区域进行检测，本发明中带有Inception模块的卷积相比于传统的CTPN降低了模型的参数，双向长短记忆网络BLSTM得加入也提高了最后文本检测的正确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的文本检测方法的一种流程示意图；

图2是多尺度特征融合的图像特征抽取网络示意图；

图3是融入上下文信息的区域候选网络示意图；

图4是各卷积层卷积后的特征图；

图5是锚盒生成过程示意图；

图6是合并前的锚盒示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参见图1，本发明实施例提供一种文本检测方法，包括步骤如下：

S101，获取待检测图片。

本发明的一种具体实现方式中，所提供的待检测图片包含的格式如表1所示。

具体实施例中，在本发明的一个实例实施中，输入待检测原图的分辨率为1600*1200*3(高为1600像素，宽为1200像素，3通道)。

例如，通过将ICRAR2015数据集按表1所示的格式进行收集并批注，便于进行检测，还可以将检测后的数据补充作为后续的测试数据集。

表1中的具体含义表示，例如，将xmin作为文本框左下角横坐标，ymin作为文本框左下角纵坐标，等等。

表1

S102，采用预设神经网络模型对所述待检测图片进行遍历，生成共享特征图，并生成锚盒。

本发明的具体实现方式中，该网络结构共有5层，前3层为带有C-Relu激活函数的卷积层，后2个层为带有Inception模块的卷积层，此处加入Inception模块能有效的减少神经网络模型的参数量，最后引入多尺度特征融合，将第三卷积层层，第四卷积层，第五卷积层生成的特征图进行融合生成共享特征图，由于第三卷积层、四卷积层、五卷积层得到的特征图分辨率尺寸不同，因此需要对较小的特征图进行上采样，较大的特征图进行下采样，将特征图的尺寸化成统一大小后再进行连接。网络就可以在最终的特征图中加入多尺度信息，既强化了网络的空间特征收集能力，也保留了对细节特征的抽取能力。

在本发明的一个实例实施中，输入待检测原图的分辨率为1600*1200*3(高为1600像素，宽为1200像素，3通道)，第三卷积层的卷积核个数为128，输出特征图的分辨率200*150*128，第四卷积层的卷积核个数为256，输出的特征图分辨率为100*75*256，第五卷积层的卷积个数为384，输出特征图分辨率为50*37*384。在特征融合前，对第三卷积层输出的特征图进行2×2最大池化(max pooling)，对第五卷积层输出的特征图进行2倍上采样(使用线性插值)，使得特征图分辨率和第四卷积层输出的特征图分辨率一样后再进行通道维度的连接，生成100*75*(128+256+384)的特征图，最后通过一个卷积核尺寸为1*1，卷积核个数为512的卷积层，得到100*75*512的特征图，即为图像特征抽取网络最终得到的特征图，称为共享特征图。

具体的，将ICRAR2015数据集按表1所示的格式进行标注，生成所示的用于训练融合了PVANet的图像特征抽取网络的数据集标注，按图2所示的网络结构建立用于图像特征抽取的神经网络模型并制作成的训练数据集进行训练。

S103，将锚盒作为文本提议，采用双向长短记忆网络BLSTM训练文本提议之间的上下文信息，并生成特征向量。

可以理解的是，接收到的图片送入已经训练好的多尺度特征融合的图像特征抽取网络中生成共享特征图，首先使用3×3的卷积核对共享特征图进行卷积，这里之所以又进行了一次卷积是为了扩大特征图的感受野，特征图的尺寸不会发生改变。本发明实施例使用了垂直锚点回归机制，如图3所示，由于此时特征图的长宽为原输入图像的1/16，因此特征图上一个像素点还原到原图中代表一个16×16的区域。将锚盒宽度固定为原图中的16像素(即特征图上的一个像素点)，将锚盒的高度分别取原图中11,16,23,33,48,68,97,139,198,283像素，即一个锚点对应10个锚盒(anchorboxes)。以卷积核中心为锚点，以卷积操作中的步长(stride)为锚点间隔，遍历共享特征图生成锚盒(anchor boxes),锚盒生成过程如图4和图5所示，如图4为各卷积层卷积后的特征图，图5锚盒生成过程示意图。

将每个锚点生成的k个锚盒(具体实例中k＝10)送入RPN网络来判定锚盒框取的内容为图像中的前景还是背景，RPN会给出每个锚盒示文本内容的置信度(score)同时筛掉一部分无用的锚盒。一个锚点可能还对应的多个锚盒而只需要其中一个锚盒作为候选框，于是使用Soft-非极大抑制(Soft-NMS)剔除多余的锚盒。

遍历共享特征图得到锚盒作为文本提议送入双向长短记忆网络BLSTM中，用于训练文本提议之间的上下文信息，用于更好地判断当前文本提议内的图像是否为文字，提高文本检测准确率。网络首先会使用3×3的卷积核对特征图进行卷积，卷积核的个数仍然为256，因此一个卷积窗口内3×3×512的特征图区域会被卷积成一个1×1×512即512维的数据。

由于特征图的宽度为

因此卷积窗口滑动完一行会得到

的数据，将每一行数据送入双向长短记忆网络BLSTM网络中，双向长短记忆网络BLSTM的输入和输出维度都为512，神经单元个数为256个，其step数为共享特征图的宽度，即BLSTM网络的一个输入为

的数据，这样的数据共有

个，因此一幅图对应双向长短记忆网络BLSTM的输入和输出尺寸为

将双向长短记忆网络BLSTM送入一个512×512的全连接层fc。

S104，根据分类模型和回归模型，对所述特征向量进行判断是否为文本，并你和文本提议具体位置，生成纵坐标方向的平移量和缩放量。

全连接层输出的特征向量送入垂直锚点回归机制的锚点回归来拟合锚盒的最优高度：对于二维平面的矩形框一般使用四维向量(x,y,w,h)，其中x,y代表矩形框的中心点坐标，w,h代表矩形框的宽度和高度。设计k个垂直锚点来预测每个文本提议的y坐标。k个锚点具有相同的水平位置，固定宽度为16个像素，但其垂直位置在k个不同的高度变化，具体实例中k＝10。纵坐标y是由文本提议边界框的高度和它中点的纵坐标来测量的，因此边界回归计算相对的锚点的边界框的预测垂直坐标v，如下所示：

其中v＝{v_c,v_h}和

分别是预测的坐标和真实坐标，其中，v_c是平移量，v_c ^*是缩放量，两个都是竖直方向上的；

和h^a分别表示锚点中心y轴坐标值和高度；c_y和h是输入图像中预测的y轴坐标值和高度，

和h^*是真实值的y轴坐标值和高度。

S105，根据所述平移量和所述缩放量，合并锚盒，并生成文本检测图像。

如图6所示，为锚盒合并前的示意图，结果是文本不是合并的状态，是分离的，所以需要进行锚盒的合并，从而合并成对应的文本，根据文本就可以获得图像的内容。

具体实现方式中，生成的水平位置相邻的锚盒合并，得到最终图像文本区域。具体方法为：每两个相近的锚盒组成一个pair，合并不同的pair直到无法再合并为止。而判断两个锚盒Bi和Bj可以组成一个pair的条件为Bi—>Bj,同时Bj—>Bi；其中->表示Bi与Bj间满足：(1)Bi到Bj的距离为水平最小(2)Bi和Bj之间的距离小于50个像素(3)Bi和Bj的面积重叠率大于0.7。

所述存储器，用于存储文本检测程序；

以及公开了一种计算机存储介质，所述计算机存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以使所述一个或者多个处理器执行任一项所述的文本检测步骤。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本检测方法，其特征在于，所述方法包括：

获取待检测图片；

根据分类模型和回归模型，对所述特征向量进行判断是否为文本，并拟合文本提议具体位置，生成纵坐标方向的平移量和缩放量；

2.如权利要求1所述的文本检测方法，其特征在于，所述预设神经网络模型的生成步骤，包括：

根据图像特征抽取结果确定神经网络模型是否合格；

将合格后的神经网络模型确定为预设神经网络模型。

3.如权利要求1或2所述的文本检测方法，其特征在于，所述预设神经网络模型的结构包括：

4.如权利要求3所述的文本检测方法，其特征在于，所述将所述第三卷积层、所述第四卷积层和所述第五卷积层生成的特征图进行融合生成共享特征图的步骤，包括：

对所述第五卷积层的输出的特征图进行上采样；

5.如权利要求4所述的文本检测方法，其特征在于，所述根据分类模型和回归模型，对所述特征向量进行判断是否为文本，并你和文本提议具体位置，生成纵坐标方向的平移量和缩放量的步骤，包括：

6.如权利要求1所述的文本检测方法，其特征在于，所述根据所述平移量和所述缩放量，合并锚盒，并生成文本检测图像的步骤，包括：

获取相邻的锚盒，并组成一组；

进行锚盒的合并，成文本检测图像。

7.如权利要求6所述的文本检测方法，其特征在于，所述获取相邻的锚盒，并组成一组的步骤，包括：

获取相邻的锚盒；

8.一种文本检测装置，其特征在于，所述装置包括处理器、以及通过通信总线与所述处理器连接的存储器；其中，

所述存储器，用于存储文本检测程序；

所述处理器，用于执行所述文本检测程序，以实现如权利要求1至7中任一项所述的文本检测方法的步骤。

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以使所述一个或者多个处理器执行如权利要求1至7中任一项所述的文本检测方法的步骤。