CN109886264A

CN109886264A - 一种文字检测方法、设备及计算机可读存储介质

Info

Publication number: CN109886264A
Application number: CN201910014924.XA
Authority: CN
Inventors: 罗红亮; 金楷; 杨泽霖
Original assignee: Shenzhen He Zhongcheng Technology Co Ltd
Current assignee: Shenzhen He Zhongcheng Technology Co Ltd
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2019-06-14

Abstract

本发明公开了一种文字检测方法、设备及计算机可读存储介质，其中，该方法包括：录入初始图像，并通过深度卷积网络提取特征，得到所述初始图像最后一个卷积层的特征图；然后，通过空间变换网络矫正所述初始图像内处于倾斜状态的文字；再然后，将矫正后的特征输入至双向长短期记忆网络，并对所述文字的前后关系进行建模，获取具有上下文信息的特征向量；最后，将所述特征向量导入全连接层，得到所述文字的文本置信度以及文本检测框的偏移量。实现了一种效率更高的文字检测方案，特别针对于倾斜文字，具有更强的鲁棒性，相较于常规的目标检测网络具有更高的检测效率和准确性。

Description

一种文字检测方法、设备及计算机可读存储介质

技术领域

本发明涉及电子技术领域，尤其涉及一种文字检测方法、设备及计算机可读存储介质。

背景技术

现有技术中，文字检测可应用于商标识别、试卷题目识别等方面，有着广阔的市场前景，其中，文字检测是文字识别的基础，特别的，文字检测通常需要将场景中所有的文字检测出来。

而在现有技术中，通常的目标检测算法检测一个独立目标，而文字检测是对字符序列进行检测，同一文本线的字符可能差异大，距离远，将文本序列作为一个独立整体检测的难度要比单个目标更大，因此，若直接使用目标检测算法(例如R-CNN)，则难以实现对文本线准确地定位，因此需要一种更为合适的方案以实现对文本准确地检测。

发明内容

为了解决现有技术中的上述技术缺陷，本发明提出了一种文字检测方法，该方法包括：

录入初始图像，并通过深度卷积网络提取特征，得到所述初始图像最后一个卷积层的特征图；

通过空间变换网络矫正所述初始图像内处于倾斜状态的文字；

将矫正后的特征输入至双向长短期记忆网络，并对所述文字的前后关系进行建模，获取具有上下文信息的特征向量；

将所述特征向量导入全连接层，得到所述文字的文本置信度以及文本检测框的偏移量。

可选的，所述录入初始图像，并通过深度卷积网络提取特征，得到所述初始图像最后一个卷积层的特征图，包括：

录入初始图像，以及，在所述深度卷积网络中插入所述空间变换网络。可选的，所述通过空间变换网络矫正所述初始图像内处于倾斜状态的文字，包括：

通过所述空间变换网络判断所述初始图像内的文字内容的字体状态；

若所述文字处于倾斜状态，则通过所述空间变换网络矫正所述倾斜状态的文字。

可选的，所述将矫正后的特征输入至双向长短期记忆网络，并对所述文字的前后关系进行建模，获取具有上下文信息的特征向量，包括：

将矫正后的特征输入至所述双向长短期记忆网络，其中，所述双向长短期记忆网络的时间步数与特征图的宽度一致；

将所述矫正后的特征代入所述双向长短期记忆网络，获取所述具有上下文信息的特征向量。

可选的，所述将所述特征向量导入全连接层，得到所述文字的文本置信度以及文本检测框的偏移量，包括：

将所述特征向量导入所述全连接层，其中，所述全连接层包括分类层和回归层；

获取所述文字的文本置信度以及所述文本检测框的偏移量，其中，通过所述分类层确定所述文本置信度，通过所述回归层确定所述文本检测框的偏移量。

本发明还提出了一种文字检测设备，该设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现：

可选的，所述计算机程序被所述处理器执行时实现：

录入初始图像，以及，在所述深度卷积网络中插入所述空间变换网络。可选的，所述计算机程序被所述处理器执行时实现：

可选的，所述计算机程序被所述处理器执行时实现：

将所述矫正后的特征代入所述双向长短期记忆网络，获取所述具有上下文信息的特征向量；

本发明还提出了一种计算机可读存储介质，该计算机可读存储介质上存储有文字检测程序，文字检测程序被处理器执行时实现如上述任一项所述的文字检测方法的步骤。

实施本发明的文字检测方法、设备及计算机可读存储介质，通过录入初始图像，并通过深度卷积网络提取特征，得到所述初始图像最后一个卷积层的特征图；然后，通过空间变换网络矫正所述初始图像内处于倾斜状态的文字；再然后，将矫正后的特征输入至双向长短期记忆网络，并对所述文字的前后关系进行建模，获取具有上下文信息的特征向量；最后，将所述特征向量导入全连接层，得到所述文字的文本置信度以及文本检测框的偏移量。实现了一种效率更高的文字检测方案，特别针对于倾斜文字，具有更强的鲁棒性，相较于常规的目标检测网络具有更高的检测效率和准确性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明文字检测方法第一实施例的流程图；

图2是本发明文字检测方法第二实施例的流程图；

图3是本发明文字检测方法第三实施例的流程图；

图4是本发明文字检测方法第四实施例的流程图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

实施例一

图1是本发明文字检测方法第一实施例的流程图。一种文字检测方法，该方法包括：

S1、录入初始图像，并通过深度卷积网络提取特征，得到所述初始图像最后一个卷积层的特征图；

S2、通过空间变换网络矫正所述初始图像内处于倾斜状态的文字；

S3、将矫正后的特征输入至双向长短期记忆网络，并对所述文字的前后关系进行建模，获取具有上下文信息的特征向量；

S4、将所述特征向量导入全连接层，得到所述文字的文本置信度以及文本检测框的偏移量。

在本实施例中，首先，录入初始图像，并通过深度卷积网络提取特征，得到所述初始图像最后一个卷积层的特征图；然后，通过空间变换网络矫正所述初始图像内处于倾斜状态的文字；再然后，将矫正后的特征输入至双向长短期记忆网络，并对所述文字的前后关系进行建模，获取具有上下文信息的特征向量；最后，将所述特征向量导入全连接层，得到所述文字的文本置信度以及文本检测框的偏移量。

具体的，在本实施例中，首先，改进特征提取网络，也即，通过使用改进版的VGG-Net(深度卷积网络)提取特征，获取最后一个卷积层的特征图。其中，待检测的文字可能存在倾斜的情况，若存在，则在该网络中间插入Spatial Transformer Network(空间变换网络)，在本实施例中，该空间变换网络用于自适应地矫正倾斜的文字，插入该空间变换网络后，使得该网络可以更好地提取特征。

可选的，在本实施例的上下文关系处理环节，将特征提取网络提取到的特征输入至双向长短期记忆网络；

可选的，在本实施例中，双向长短期记忆网络用于对文本行中文本的前后关系建模，获取具有上下文信息的特征向量。

可选的，在本实施例中，在双向长短期记忆网络中加入全连接层，获得最终的结果，也即，该初始图像对应的文本置信度和文本检测框的偏移量。

可选的，在本实施例中，考虑到文字检测网络不同于目标检测网络，在目标检测网络的基础上，又考虑到文本语义具有上下文信息，因此，在本实施例的特征提取网络后加入了双向长短期记忆网络。也即，考虑到文本行的倾斜会影响到文本的检测，因此，在文本特征提取部分加入空间变换网络。用该空间变换检测网络来检测文字对倾斜文字具有更强的鲁棒性，效果要明显优于常规的目标检测网络。

本实施例的有益效果在于，通过录入初始图像，并通过深度卷积网络提取特征，得到所述初始图像最后一个卷积层的特征图；然后，通过空间变换网络矫正所述初始图像内处于倾斜状态的文字；再然后，将矫正后的特征输入至双向长短期记忆网络，并对所述文字的前后关系进行建模，获取具有上下文信息的特征向量；最后，将所述特征向量导入全连接层，得到所述文字的文本置信度以及文本检测框的偏移量。实现了一种效率更高的文字检测方案，特别针对于倾斜文字，具有更强的鲁棒性，相较于常规的目标检测网络具有更高的检测效率和准确性。

实施例二

图2是本发明文字检测方法第二实施例的流程图，基于上述实施例，本实施例包括特征提取部分、双向长短期记忆网络以及全连接层组成，其中，特征提取部分结合了深度卷积网络与空间变换网络，用于实现对初始图像中所存在的倾斜文字的鲁棒识别。

实施例三

图3是本发明文字检测方法第三实施例的流程图，基于上述实施例，本实施例的空间变换网络由全连接层和采样器组成，其中，全连接层来获得图像转换的参数，若是仿射变换，则输出一个六维的向量，同时，根据获得的向量参数通过采样器采样，获得变换后的图像，最后，将获得转换后的图像输入至深度卷积网络获得上述实施例所需的特征图。

实施例四

图4是本发明文字检测方法第四实施例的流程图，基于上述实施例，在本实施例中，将获得的特征向量输入至双向长短期记忆网络，也即，Bi-LSTM中，其中双向长短期记忆网络的时间步数与特征图的宽度一致。

可选的，在本实施例中，卷积层的特征经过双向长短期记忆网络后，获得具有上下文信息的特征；

可选的，在本实施例中，卷积层的输入特征图的尺寸设置为W*H*C(其中，W指的是特征图的宽，H指的是特征图的高，C指的是特征图的通道数)，在上述特征图上的每一行取W*3*3*C的窗口的特征输入到Bi-LSTM中，则会得到W*256的输出。

最后，将Bi-LSTM输出的特征图输入到全连接层，获得512维的特征向量；

可选的，在本实施例中，最终将特征向量输入至分类层和回归层，其中，分类层和回归层均为全连接层；

可选的，在本实施例中，分类层输入为512维特征向量，输出2*K维特征向量，其中，K表示表示特征图所对应的区域个数，(也即，目标检测中的anchor)，用来表示特征图所对应的区域是否含有文字，也即文本置信度；

可选的，在本实施例中，回归层输入512维特征向量，输出4*K维特征向量，其中，回归层用来表示特征图的所在区域(anchor)与实际文本所在区域边界框的差异，即获取偏移量，用来修正anchor的位置，以得到准确的文本框。

实施例五

基于上述实施例，本发明还提出了一种文字检测设备，该设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现：

可选的，所述计算机程序被所述处理器执行时实现：

实施例六

基于上述实施例，本发明还提出了一种计算机可读存储介质，该计算机可读存储介质上存储有文字检测程序，文字检测程序被处理器执行时实现如上述任一项所述的文字检测方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种文字检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的文字检测方法，其特征在于，所述录入初始图像，并通过深度卷积网络提取特征，得到所述初始图像最后一个卷积层的特征图，包括：

录入初始图像，以及，在所述深度卷积网络中插入所述空间变换网络。

3.根据权利要求2所述的文字检测方法，其特征在于，所述通过空间变换网络矫正所述初始图像内处于倾斜状态的文字，包括：

4.根据权利要求3所述的文字检测方法，其特征在于，所述将矫正后的特征输入至双向长短期记忆网络，并对所述文字的前后关系进行建模，获取具有上下文信息的特征向量，包括：

5.根据权利要求4所述的文字检测方法，其特征在于，所述将所述特征向量导入全连接层，得到所述文字的文本置信度以及文本检测框的偏移量，包括：

6.一种文字检测设备，其特征在于，所述设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现：

7.根据权利要求6所述的文字检测设备，其特征在于，所述计算机程序被所述处理器执行时实现：

8.根据权利要求7所述的文字检测方法，其特征在于，所述计算机程序被所述处理器执行时实现：

9.根据权利要求8所述的文字检测方法，其特征在于，所述计算机程序被所述处理器执行时实现：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有文字检测程序，所述文字检测程序被处理器执行时实现如权利要求1至5中任一项所述的文字检测方法的步骤。