CN109344822B

CN109344822B - 一种基于长短期记忆网络的场景文本检测方法

Info

Publication number: CN109344822B
Application number: CN201811018931.9A
Authority: CN
Inventors: 李宏亮; 孙旭; 廖加竞; 何慕威; 刘玮
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2022-06-03
Anticipated expiration: 2038-09-03
Also published as: CN109344822A

Abstract

本发明公开了一种基于长短期记忆网络的场景文本检测方法。本发明通过使用LSTM对特征建模，得到该位置与其上下左右位置特征的空间上下文联系，再对该特征进行文本检测。本发明所提出的基于长短期记忆网络的场景文本检测方法，相比于传统只使用局部特征的方法能大大减少错误检测，同时还能够检测到很多局部特征不明显的文本信息，减少了文本的遗漏。发明的主要创新点在于使用LSTM对特征进行横向和纵向的建模，得到该位置与其上下左右位置特征的空间上下文联系。相比于传统的场景文本检测算法，该方法能够更有效的检测到局部特征不明显的文本信息，并减少检测错误率，提升检测精度。

Description

一种基于长短期记忆网络的场景文本检测方法

技术领域

本发明提出一种基于长短期记忆网络(Long Short-Term Memory，LSTM)的场景文本检测方法。该方法是场景文本检测的一种新型技术。

背景技术

自然场景中包含着大量的文字信息，近年来让计算机准确的从自然场景图像中提取文字信息已经成为热点研究方向。场景文字检测是很多视觉应用的关键性技术，比如其被广泛的应用到无人驾驶、场景理解、车牌识别等领域。但由于场景文本具有字体、尺度的多变性，背景、排布的复杂性，传统算法很难获得很高的性能，基于深度学习的方法越来越成为该领域的主流方法，性能也得到卓越的提高，但该项任务的难点仍是客观存在的。本发明主要致力于基于LSTM提高场景文本检测方法。

LSTM原本被用于语音识别技术当中，由于其优秀的时间序列建模能力，相对传统的语音识别技术获得了优异性能。但是，不仅时间序列可以使用LSTM建模，单帧的图像在空间上的关系也可以将其序列化看作空间关系，从而加强空间上下文信息的联系。目前的场景文本检测算法主要可以分为两类：第一类主要是基于连通域特征的文本检测算法，该算法从原始图像的最大稳定极值区域中提取出文本候选区域,然后使用训练好的分类器剔除不符合条件的候选区域。接下来通过一系列连接准则将候选区聚合起来。然而,这些连接准则只能适用于水平或接近水平的文本,无法检测倾斜角度稍大的文本行；第二类主要是基于卷积神经网络(Convolutional Neural Network，CNN)的文本检测算法，该算法将图像通过CNN获得卷积特征谱，之后在特征谱上的每个位置产生候选框，并且对候选框的位置偏移进行回归得到文本区域。

现有的这些方法都没有考虑到场景文本的分布特点，即场景文本总是以文本段的形式或者是以文本行的形式出现，

而文本段或文本行都是由许多单个字符组成的序列，同一文本行上不同字符和同一文本段的不同文本行间可以互相利用上下文信息，所以可以使用LSTM来对图片特征按照从左到右、从上到下进行建模，提高检测精度。

发明内容

本发明的发明目的在于：针对传统场景文本检测算法只利用局部特征进行检测的缺陷。本发明通过使用LSTM对特征建模，得到该位置与其上下左右位置特征的空间上下文联系，再对该特征进行文本检测，更从而提高场景文本检测的精度。

本发明的基于长短期记忆网络的场景文本检测方法，包括下列步骤：

步骤1：将待检测图片输入预设的深层特征提取网络，取最后一层卷积特征结果作为待检测图片的局部特征谱，所述局部特征谱的大小由待检测图片的大小决定；

步骤2：对局部特征谱按照横向和纵向两个方向进行序列化处理：

按步长1，采用方块滑窗对局部特征谱从左向右进行滑窗，将每次滑窗作为一个行特征，再将每行的行特征作为一个序列，得到第一序列特征；

按步长1，采用方块滑窗对局部特征谱从上向下进行滑窗，将每次滑窗作为一个列特征，再将每列的列特征作为一个序列，得到第二序列特征；

步骤3：将第一序列特征输入第一横向LSTM，以及将第一序列特征的反向序列特征输入第二横向LSTM；将第二序列特征输入第一纵向LSTM，以及将第二序列特征的反向序列特征输入第二纵向LSTM；

步骤4：再将四个LSTM的输出通过通道合并映射到全连接层进行文本检测处理，通过全连接层输出各滑窗对应的文字框属于文本和非文本的置信度得分，以及文字框的顶点位置信息；

步骤5：对全连接层输出的文字框通过非极大值抑制去除重复框后输出。

进一步的，步骤5中，非极大值抑制具体为：

步骤S501：对全连接层输出的文字框按照置信度从高到低排序，得到第一集合T1；

步骤S502：将第一集合T1中的第一个元素放入第二集合T2，其中集合T2的初始值为空集；

步骤S503：判断第一集合T1的元素个数是否为1，若否，则删除第一集合T1中的第一个元素后，执行步骤S504；若是，则跳转到步骤S508；

步骤S504：依次遍历第一集合T1中的所有文字框；

步骤S505：判断是否遍历完毕，若是，则跳转到步骤S502；否则执行步骤S506；

步骤S506：判断遍历的当前文字框与第二集合T2中的所有文字框的重叠面积的总和占待检测图片的全图面积的比例是否大于预设阈值(优选取值范围为：0.01～0.03)，若是，则执行步骤S507；否则跳转到步骤S504；

步骤S507：从集合T1中删除遍历的当前文字框(即与第二集合T2中的所有文字框的重叠面积的总和占待检测图片的全图面积的比例大于预设阈值的文字框会被删除)，并跳转到步骤S504；

步骤S508：输出集合T1与T2的并集。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明所提出的基于长短期记忆网络的场景文本检测方法，相比于传统只使用局部特征的方法能大大减少错误检测，同时还能够检测到很多局部特征不明显的文本信息，减少了文本的遗漏。发明的主要创新点在于使用LSTM对特征进行横向和纵向的建模，得到该位置与其上下左右位置特征的空间上下文联系。相比于传统的场景文本检测算法，该方法能够更有效的检测到局部特征不明显的文本信息，并减少检测错误率，提升检测精度。

附图说明

图1是本发明具体实施方式的处理流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明提出了一种基于长短期记忆网络的场景文本检测方法。该方法主要对提取的文字特征按照横向和纵向使用LSTM获取上下文信息，再对该特征进行目标框回归，这样可以有效提高文本检测的精度。

参见图1，本发明的文本检测方法主要包括四个部分：到深层的局部卷积特征谱，局部特征谱按横向和纵向分别序列化，将序列特征送入LSTM进行上下文建模，在建模后的特征上进行文本检测。其具体实现过程如下：

步骤1：将待检测图片输入预设的深层特征提取网络，取最后一层卷积特征结果作为待检测图片的局部特征谱，局部特征谱的大小由输入图像的大小决定，其维度表示为CxHxW，其中C表示特征谱通道数，H表示特征谱的高度，W表示特征谱的宽度。

本具体实施方式中，采用16层vggNet，取最后一层(conv5)卷积特征结果作为局部特征谱，特征谱总步长固定为16个像素，感受野大小固定为228个像素。

步骤2：将得到局部特征谱按照横向和纵向两个方向序列化。

具体可使用一个小的大小为3×3像素的空间窗口来滑动最后的卷积层局部特征谱，横向序列化时该滑动窗口从左向右密集移动，步长为1个像素，得到每行的1,2,...,W序列特征。每行的W维特征作为一个序列，共H个这样的序列，这些序列特征将作为横向LSTM的1到H时刻的输入。

同理，纵向序列化时使用另一个同样3x3像素滑动窗口从上向下按照步长为1个像素密集移动，得到每列的1,2,...,H序列特征。每列的H维特征作为一个序列，共W个这样的序列，这些序列特征将作为纵向LSTM的1到W时刻的输入。

步骤3：得到横向和纵向序列化的特征后，将这两个序列特征分别送到两个双向的LSTM中进行建模。即对于得到横向化序列，按照1～H的顺序输入第一横向LSTM；按照H～1的反向顺序输入第二横向LSTM；同样，对于纵向化序列，按照1～W的顺序输入第一纵向LSTM；按照W～1的反向顺序输入第二纵向LSTM。

LSTM使用其隐藏层对这些信息进行循环编码，它将每个窗口的卷积特征作为序列输入，并在隐藏层中循环更新其内部状态H_t，H_t是从当前输入X_t和以上一状态H_t-1联合编码的循环内部状态，具体编码方式可采用任一管用技术，本具体实施方式不做具体限定。递归是通过使用非线性函数

来计算的，它定义了循环模型的确切形式。因此，LSTM隐藏层中的内部状态可以访问所有先前窗口通过循环连接扫描的序列上下文信息。而且因为LSTM引入三个附加乘法门：输入门，忘记门和输出门，解决了梯度消失问题，所以本发明选择LSTM进行上下文信息建模。

本发明通过使用两个双向LSTM，从而实现在四个方向上(从上到下、从下到上、从左到右、从右到左)递归对上下文进行编码，这样其横向感受野为228×W，纵向感受野为228×H，总体感受野能够覆盖整个图像。

本具体实施方式中，对每个LSTM使用一个128维的隐藏层，从而整体产生了128x4维的隐藏状态。该512维经过上下文建模后的特征通过通道合并映射到后面的全连接层(fully connected layers，FC)，用于文本框的检测与回归。这种将LSTM集成在主网络中而非采用单独的分支的处理方式，可以在无需额外成本的情况下进行端到端的训练。

步骤4：在合并后的经过上下文建模的FC层特征上进行文本检测。

本发明共设置了两个输出层(即设置两个输出层的激活函数)共同连接到最后的FC层，其中一个输出该区域(每个滑窗对应的区域)属于文本和非文本的置信度得分，另一个输出文本区域(文字框)的四个顶点的位置信息。本具体实施方式中，FC特征经过激活函数得到两个输出特征，一个为当前文字框属于文本和非文本的置信度得分，一个输出文字框的4个顶点的8个坐标值(每个顶点的坐标为(x,y))相对每一行的初始点的偏移量，对于k个这样的坐标将在两个输出层分别得到2k和8k个输出结果。

步骤5：最后将这些文字框经过非极大值抑制算法(Non-maximum suppression，NMS)去除重复框后输出。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于长短期记忆网络的场景文本检测方法，其特征在于，包括下列步骤：

步骤1：将待检测图片输入预设的深层特征提取网络，取最后一层卷积特征结果作为待检测图片的局部特征谱，所述局部特征谱的大小由待检测图片的大小决定，其维度表示为CxHxW，其中C表示特征谱通道数，H表示特征谱的高度，W表示特征谱的宽度；其中，深层特征提取网络采用16层vggNet，且特征谱总步长固定为16个像素；

按步长1，采用方块滑窗对局部特征谱从左向右进行滑窗，将每次滑窗作为一个行特征，再将每行的W个行特征作为一个序列，得到H个第一序列特征，并作为第一横向LSTM的1到H时刻的输入；

按步长1，采用方块滑窗对局部特征谱从上向下进行滑窗，将每次滑窗作为一个列特征，再将每列的H个列特征作为一个序列，得到W个第二序列特征，并作为第一横向LSTM的1到W时刻的输入；

其中，方块滑窗的大小为3*3像素；

步骤3：按照1～H的顺序将第一序列特征输入第一横向LSTM，以及按照H～1的反向顺序将第一序列特征的反向序列特征输入第二横向LSTM；按照1～W的顺序将第二序列特征输入第一纵向LSTM，以及按照W～1的反向顺序将第二序列特征的反向序列特征输入第二纵向LSTM；

步骤4：将四个LSTM的输出通过通道合并映射到全连接层进行文本检测处理，通过全连接层输出各滑窗对应的文字框属于文本和非文本的置信度得分，以及文字框的顶点位置信息；

步骤5：对全连接层输出的文字框通过非极大值抑制去除重复框后输出；

非极大值抑制具体为：

步骤S504：依次遍历第一集合T1中的所有文字框；

步骤S506：判断遍历的当前文字框与第二集合T2中的所有文字框的重叠面积的总和占待检测图片的全图面积的比例是否大于预设阈值，若是，则执行步骤S507；否则跳转到步骤S504，其中，阈值的取值范围为：0.01～0.03；

步骤S507：从集合T1中删除遍历的当前文字框，并跳转到步骤S504；

步骤S508：输出集合T1与T2的并集。