CN112348015A

CN112348015A - 一种基于级联神经网络的文字检测方法、装置及存储介质

Info

Publication number: CN112348015A
Application number: CN202011238231.8A
Authority: CN
Inventors: 吴婷婷; 汪泰伸; 陈德意; 吴志鹏; 刘彩玲; 高志鹏; 赵建强
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-09
Anticipated expiration: 2040-11-09
Also published as: CN112348015B

Abstract

本发明公开了一种基于级联神经网络的文字检测方法、装置及存储介质，该方法通过收集样本，并对样本进行处理生成数据集；搭建第一全卷积网络，通过数据集对第一全卷积网络进行训练至网络收敛，并通过训练后的第一全卷积网络对数据集进行推理，获得回归结果；搭建第二全卷积网络，通过回归结果对第二全卷积网络进行训练至网络收敛；将待验证图片输入第一全卷积网络，若第一全卷积网络判断在滑窗范围内存在文字，则裁剪下滑窗范围内的区域做双线性插值尺度变换并输入第二全卷积网络，通过第二全卷积网络判断区域是否为文字区域。该方法具有更好的泛化性能，并能够在保证检测准确率与召回率的同时，降低模型大小，从而提升文字检测算法性能。

Description

一种基于级联神经网络的文字检测方法、装置及存储介质

技术领域

本发明涉及文字检测领域，具体涉及一种基于级联神经网络的文字检测方法、装置及存储介质。

背景技术

文字作为一种可视化的信息载体广泛的存在于生活当中，随着电子设备的普及，越来越多的文字信息开始以图片的方式进行储存。对于计算机而言，若只是将该图像以图像信息形式进行处理，会丢失掉大量的关键信息，因此如何快速捕获数以亿兆的图片中的文字信息不论在商业领域还是在学术界中都有重要的研究价值。

文字检测是复杂场景下光学字符识别(OCR，Optical Character Recognition)中重要的一环，通过文字检测技术可以从图像中提取出文字像素以及文字的位置信息从而定位到需要进行文字识别的具体区域。准确的文字定位不仅帮助文字识别模型提升识别精度，同时也能帮助文字识别模型排除掉图像中冗余的非文字信息从而提升识别性能。

在复杂场景下由于受到光照，文字角度、多语言等多种因素的影响，想要准确的定位到每一个文字存在一定难度，因此这也成为了学术界研究的热点之一。目前现有的文字检测技术基本上可以分为基于传统图像处理的算法和基于深度学习的算法两类。

基于传统的图像处理算法中以SWT(Stroke Width Transform)和MSER(Robustwide-baseline stereo from maximally stable extremal regions)算法为主流。SWT通过应用笔画宽度变换来进行文本检测，MSER基于改进的分水岭算法对图像进行二值化处理从而进行文本检测。

基于深度学习的神经网络算法大致可分为两类：一是将文字识别看作普通的目标检测任务，使用如Faster-RCNN这类目标检测算法直接对文字进行检测。但与普通目标检测相比，文字检测具有检测目标占比小、检测目标常以序列化的形态即文本出现以及检测目标形态多变等特性，这些问题使得普通目标检测算法效果较差。为了解决这些问题，研究者提出了基于文本特性检测的思路。例如考虑到上下文连续字符的CTPN(Detecting Text inNatural Image with Connectionist Text Proposal Network)[5]，以及考虑到弯曲字符和文字紧靠情况的PSEnet(Shape Robust Text Detection with Progressive ScaleExpansion Network)等。相比于使用普通的目标检测算法，这类算法在特定场景下一般具有更高的准确率。

基于传统图像处理的文本检测算法大多应用场景简单，例如背景单纯的扫描件、PDF图像等。在复杂场景下，受到各种噪声的干扰，泛化性能往往很差。在基于深度学习的神经网络算法中，加入了文字特性先验的算法，确实提升了文字检测的精度，但大部分现有算法都是针对英文数字特性进行设计，缺乏针对中文文字特性的考虑，对于中文而言，不论是字体比例、字符的复杂程度以及文本的组成形式都和英文有较大的出入，这也导致不少在英文数字检测中表现良好的算法，在中文检测的任务中效果却不如意。此外，为了满足复杂场景的识别任务，现有的文本检测算法大多使用规模较大的模型，但这样的模型在实际的工业应用中受到硬件设备、速度要求等限制往往难以落地于具体应用。

有鉴于此，建立一种基于级联神经网络的文字检测方法和装置是非常具有意义的。

发明内容

针对上述提到现有的文本检测算法复杂场景下容易受到噪声干扰、泛化能力差、精度低等问题。本申请的实施例的目的在于提出了一种基于级联神经网络的文字检测方法、装置及存储介质来解决以上背景技术部分提到的技术问题。

第一方面，本申请的实施例提供一种基于级联神经网络的文字检测方法，包括以下步骤：

S1：收集样本，并根据随机获取的裁剪区域与每个文字区域的交并比关系生成类别标签对样本进行处理生成数据集；

S2：搭建第一全卷积网络，通过数据集对第一全卷积网络进行训练至网络收敛，并通过训练后的第一全卷积网络对数据集进行推理，获得回归结果；

S3：搭建第二全卷积网络，通过回归结果对第二全卷积网络进行训练至网络收敛；以及

S4：将待验证图片输入第一全卷积网络，若第一全卷积网络判断在滑窗范围内存在文字，则裁剪下滑窗范围内的区域做双线性插值尺度变换并输入第二全卷积网络，通过第二全卷积网络判断区域是否为文字区域。

在一些实施例中，数据集包括训练集和验证集，交并比IoU的计算公式如下：

其中，A_i表示文字区域，B_j表示裁剪区域。根据IoU关系设定三个阈值对应三种类别标签，进而对样本中的图像进行分类，有利于后续的推理。

在一些实施例中，生成训练集和验证集具体包括：

S11：从样本的图像中随机裁剪一个方形区域B₁，遍历计算方形区域B₁与图像上所有文字区域A_i的IoU，若满足IoU＜a，则保存方形区域B₁，否则丢弃；

S12：遍历图像中的文字区域A_i，裁剪一个与文字区域A_i必然存在交集的方形区域B₂，若文字区域A_i与方形区域B₂满足IoU＜a，则保存方形区域B₂，否则丢弃；

S13：将步骤S11和S12中获取的方形区域做双线性插值尺度变换至p*p大小，并设定类别标签为0；

S14：遍历图像中的文字区域A_i，以文字区域A_i的重心左右偏移k₁*w，上下偏移量k₂*h获取中心区域C，其中，k₁和k₂分别为重心左右偏移和上下偏移的倍数，w和h分别为文字区域A_i的宽与高，裁剪一个重心落在中心区域C中的矩形区域B₃，矩形区域B₃的宽w₁和高h₁满足：

0.8*min(h,w)<w₁＝h₁<1.2*max(h,w)；

若矩形区域B₃与文字区域A_i满足IoU≥c，设定其类别标签为1，满足b≤IoU<c，设定其类别标签为-1，将矩形区域B₃做双线性插值尺度变换至p*p大小，计算矩形区域B₃与文字区域A_i的坐标偏移量作为回归标签；以及

S15：分别多次重复步骤S11-S14，得到按照1:2:3的比例混合类别标签分别为1，-1，0的数据集，将数据集按10:1的比例分为训练集和验证集。

通过随机裁剪和计算图像的交并比对样本中的图像进行分类，并计算推理出回归标签，用于后续对第一全卷积网络的训练。

在一些实施例中，第一全卷积网络和第二全卷积网络包括第一损失函数L^det和第二损失函数L^box，总损失函数为：

L＝αL^det+βL^box；

其中，α、β为权重参数，取值范围在0-1之间。

在一些实施例中，第二全卷积网络的参数量为第一全卷积网络的至少两倍，第一全卷积网络和第二全卷积网络的权重参数分别进行调整设定。

在一些实施例中，第一损失函数采用交叉熵损失：

其中，y表示回归标签，

表示全卷积网络学习推理出来的预测标签；

第二损失函数采用MSE均方误差损失：

其中，m为样本总数，i是指第i个样本。

通过搭建一个轻量级的全卷积网络，尽可能地从图像中找到所有包含文字的区域，并获取该区域位置，第一全卷积网络是高召回率低精度的神经网络，第二全卷积网络是在第一全卷积网络的推理基础上获取更加精准的推理结果。

在一些实施例中，回归结果为回归区域的区域坐标，计算回归区域的高h、宽w、重心o，以max(w,h)为边长，o为重心，裁剪一个方形区域B₄，遍历计算所有文字区域A_i与方形区域B₄的IoU，若满足IoU_max＜a，设定其类别标签为0；若满足IoU_max≥c，设定其类别标签为1；若满足b≤IoU_max＜c，设定其类别标签为-1；将方形区域B₄做双线性插值尺度变换至q*q大小，若类别标签标记为1或-1，则计算文字区域A_i与方形区域B₄的坐标偏移量作为回归结果。此部分用于第二全卷积网络的训练，使其进一步推理出更加精确的结果。

本申请的实施例还提出了一种基于级联神经网络的文字检测装置，包括：

数据集获取模块，被配置为收集样本，并根据随机获取的裁剪区域与每个文字区域的交并比关系生成类别标签对样本进行处理生成数据集；

第一全卷积网络训练模块，被配置为搭建第一全卷积网络，通过数据集对第一全卷积网络进行训练至网络收敛，并通过训练后的第一全卷积网络对数据集进行推理，获得回归结果；

第二全卷积网络训练模块，被配置为搭建第二全卷积网络，通过所述回归结果对所述第二全卷积网络进行训练至网络收敛；以及

文字区域确定模块，被配置为将待验证图片输入所述第一全卷积网络，若所述第一全卷积网络判断在滑窗范围内存在文字，则裁剪下所述滑窗范围内的区域做双线性插值尺度变换并输入所述第二全卷积网络，通过所述第二全卷积网络判断所述区域是否为文字区域。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本发明提出了一种基于级联神经网络的文字检测方法、装置及存储介质，该方法考虑到了中文字符的方块字特性先验，搭建两个轻量级级联全卷积网络进行中文单字检测，该方法相比于传统算法而言具有更好的泛化性能，能够对自然场景下的文字进行检测，同时相比于其他基于深度学习的神经网络算法，该方法能够在保证检测准确率与召回率的同时，降低所使用的整体模型大小，从而提升文字检测算法性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的一个实施例可以应用于其中的示例性装置架构图；

图2为本发明的实施例的基于级联神经网络的文字检测方法的流程示意图；

图3为本发明的实施例的基于级联神经网络的文字检测方法的步骤S1的流程示意图；

图4为本发明的实施例的基于级联神经网络的文字检测方法的第一全卷积网络的结构示意图；

图5为本发明的实施例的基于级联神经网络的文字检测方法的第二全卷积网络的结构示意图；

图6为本发明的实施例的基于级联神经网络的文字检测方法的验证网络性能的流程示意图；

图7为本发明的实施例的基于级联神经网络的文字检测装置的示意图；

图8是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1示出了可以应用本申请实施例的基于级联神经网络的文字检测方法或基于级联神经网络的文字检测装置的示例性装置架构100。

如图1所示，装置架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种应用，例如数据处理类应用、文件处理类应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理，生成处理结果。

需要说明的是，本申请实施例所提供的基于级联神经网络的文字检测方法可以由服务器105执行，也可以由终端设备101、102、103执行，相应地，基于级联神经网络的文字检测装置可以设置于服务器105中，也可以设置于终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下，上述装置架构可以不包括网络，而只需服务器或终端设备。

本实施例中提到的人脸识别系统不受具体的人脸检测算法所限，以下实施例中的人脸检测算法只要以基于深度学习的人脸检测算法即可。

图2示出了本申请的实施例公开提供一种基于级联神经网络的文字检测方法，包括以下步骤：

在具体的实施例中，在步骤S1中，收集样本就是收集自然场景下拍摄的包含文字的图像，包括但不限于街景广告牌、互联网海报等。然后标注图像上的文字位置坐标，标注格式按照左上角坐标(x₁,y₁)，右下角坐标(x₂,y₂)标注。再对样本进行处理生成数据集，数据集包括训练集和验证集，根据随机获取的裁剪区域与每个文字区域的交并比关系生成类别标签，交并比IoU的计算公式如下：

其中，A_i表示文字区域，B_j表示裁剪区域。类别标签分别为0(negative)、-1(part)、1(positive)，其中0代表完全负样本，1代表完全正样本，-1代表部分正样本。根据IoU关系设定三个阈值对应三种类别标签，进而对样本中的图像进行分类，有利于后续的推理。

在具体的实施例中，如图3所示，生成训练集和验证集具体包括：

0.8*min(h,w)<w₁＝h₁<1.2*max(h,w)；

在以上步骤中，三个IoU阈值a、b、c分别设定为0.3、0.4、0.65，该阈值可根据样本情况调整。p可根据样本情况调整，此处p设定为12，k₁和k₂均设定为0.1。通过随机裁剪和计算图像的交并比对样本中的图像进行分类，并计算推理出回归标签，用于后续对第一全卷积网络的训练。

在具体的实施例中，在步骤S2中搭建第一全卷积网络，第一全卷积网络的整体结构如图4所示。第一全卷积网络是一个轻量级全卷积网络，该网络的目的是尽可能的从图像中找到所有包含文字的区域，并获取该区域位置，是一个高召回率低精度的神经网络。其中是否为文字区域的判定采用交叉熵损失：

其中，y表示回归标签，

表示第一全卷积网络学习推理出来的预测标签；

文字框回归采取MSE均方误差损失：

其中，m为样本总数，i是指第i个样本。

在具体的实施例中，第一全卷积网络的总损失函数为：

L＝αL^det+βL^box；

其中，α、β为权重参数，取值范围在0-1之间。

对第一全卷积网络进行训练后，得到训练后的第一全卷积网络。

在具体的实施例中，在步骤S3中搭建第二全卷积网络，第二全卷积网络的整体结构如图5所示，第二全卷积网络的参数量为第一全卷积网络的至少两倍，在优选的实施例中，第二全卷积网络的参数量为第一全卷积网络的三倍。该网络接受较第一全卷积网络更大的输入图像大小q*q，此处设定为24，该值可根据样本情况调整。第二全卷积网络和第一全卷积网络使用相同的损失函数，可适当调整权重参数α、β。

其中是否为文字区域的判定采用交叉熵损失：

其中，y表示回归标签，

表示第二全卷积网络学习推理出来的预测标签；

文字框回归采取MSE均方误差损失：

其中，m为样本总数，i是指第i个样本。

在具体的实施例中，第二全卷积网络的总损失函数为：

L＝αL^det+βL^box；

其中，α、β为权重参数，取值范围在0-1之间。

通过搭建轻量级的全卷积网络，尽可能地从图像中找到所有包含文字的区域，并获取该区域位置，第一全卷积网络是高召回率低精度的神经网络，第二全卷积网络是在第一全卷积网络的推理基础上获取更加精准的推理结果。在其他可选的实施例中，第一全卷积网络和第二全卷积网络只需要是全卷积网络就可以，不局限于具体网络结构。

在具体的实施例中，通过步骤S2训练后的第一全卷积网络对步骤S1获取的数据集进行推理，获得回归结果。回归结果为回归区域的区域坐标，计算回归区域的高h、宽w、重心o，以max(w,h)为边长，o为重心，裁剪一个方形区域B₄，遍历计算所有文字区域A_i与方形区域B₄的IoU，若满足IoU_max＜a，设定其类别标签为0；若满足IoU_max≥c，设定其类别标签为1；若满足b≤IoU_max＜c，设定其类别标签为-1；将方形区域B₄做双线性插值尺度变换至q*q大小，若类别标签标记为1或-1，则计算文字区域A_i与方形区域B₄的坐标偏移量作为回归结果。再将回归结果用于第二全卷积网络的训练，使其进一步推理出更加精确的结果。

最后，验证网络性能，整体流程如图6所示，将待验证图片输入第一全卷积网络，若第一全卷积网络判断在滑窗范围内存在文字，则裁剪下该区域做双线性插值尺度变换并送入第二全卷积网络，由第二地二全卷积网络进行进一步判断该区域是否为文字区域。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种基于级联神经网络的文字检测装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

数据集获取模块1，被配置为收集样本，并根据随机获取的裁剪区域与每个文字区域的交并比关系生成类别标签对样本进行处理生成数据集；

第一全卷积网络训练模块2，被配置为搭建第一全卷积网络，通过数据集对第一全卷积网络进行训练至网络收敛，并通过训练后的第一全卷积网络对数据集进行推理，获得回归结果；

第二全卷积网络训练模块3，被配置为搭建第二全卷积网络，通过所述回归结果对所述第二全卷积网络进行训练至网络收敛；以及

文字区域确定模块4，被配置为将待验证图片输入所述第一全卷积网络，若所述第一全卷积网络判断在滑窗范围内存在文字，则裁剪下所述滑窗范围内的区域做双线性插值尺度变换并输入所述第二全卷积网络，通过所述第二全卷积网络判断所述区域是否为文字区域。

本发明提出了一种基于级联神经网络的文字检测方法、装置及存储介质，该方法考虑到了中文字符的方块字特性先验，搭建两个轻量级级联全卷积网络进行中文单字检测，该方法相比于传统算法而言具有更好的泛化性能，能够对自然场景下的文字进行检测，同时相比于其他基于深度学习的神经网络算法，该方法能够在保证检测准确率与召回率的同时，降低所使用的整体模型大小，从而提升文字检测算法性能。本发明提供了一种新的文本检测思路，利用中文字符的特性，搭建轻量级联全卷积神经网络，使得计算机可以快速准确的定位到图像上的文字区域。该算法在一定程度上提升了文本框的回归精度，使文本识别模型可以获取到更加精准的像素信息从而提升文本识别模型精度，同时也提高文本检测的推理性能，避免大型网络带来的在工业级应用上落地困难的问题。

下面参考图8，其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置800的结构示意图。图8示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机装置800包括中央处理单元(CPU)801和图形处理器(GPU)802，其可以根据存储在只读存储器(ROM)803中的程序或者从存储部分809加载到随机访问存储器(RAM)806中的程序而执行各种适当的动作和处理。在RAM 804中，还存储有装置800操作所需的各种程序和数据。CPU 801、GPU802、ROM 803以及RAM804通过总线805彼此相连。输入/输出(I/O)接口806也连接至总线805。

以下部件连接至I/O接口806：包括键盘、鼠标等的输入部分807；包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分808；包括硬盘等的存储部分809；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分810。通信部分810经由诸如因特网的网络执行通信处理。驱动器811也可以根据需要连接至I/O接口806。可拆卸介质812，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器811上，以便于从其上读出的计算机程序根据需要被安装入存储部分809。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分810从网络上被下载和安装，和/或从可拆卸介质812被安装。在该计算机程序被中央处理单元(CPU)801和图形处理器(GPU)802执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：收集样本，并根据随机获取的裁剪区域与每个文字区域的交并比关系生成类别标签对样本进行处理生成数据集；搭建第一全卷积网络，通过数据集对第一全卷积网络进行训练至网络收敛，并通过训练后的第一全卷积网络对数据集进行推理，获得回归结果；搭建第二全卷积网络，通过回归结果对第二全卷积网络进行训练至网络收敛；以及将待验证图片输入第一全卷积网络，若第一全卷积网络判断在滑窗范围内存在文字，则裁剪下滑窗范围内的区域做双线性插值尺度变换并输入第二全卷积网络，通过第二全卷积网络判断区域是否为文字区域。

应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于级联神经网络的文字检测方法，其特征在于，包括以下步骤：

S1：收集样本，并根据随机获取的裁剪区域与每个文字区域的交并比关系生成类别标签对所述样本进行处理生成数据集；

S2：搭建第一全卷积网络，通过所述数据集对所述第一全卷积网络进行训练至网络收敛，并通过训练后的所述第一全卷积网络对所述数据集所述进行推理，获得回归结果；

S3：搭建第二全卷积网络，通过所述回归结果对所述第二全卷积网络进行训练至网络收敛；以及

S4：将待验证图片输入所述第一全卷积网络，若所述第一全卷积网络判断在滑窗范围内存在文字，则裁剪下所述滑窗范围内的区域做双线性插值尺度变换并输入所述第二全卷积网络，通过所述第二全卷积网络判断所述区域是否为文字区域。

2.根据权利要求1所述的基于级联神经网络的文字检测方法，其特征在于，所述数据集包括训练集和验证集，所述交并比IoU的计算公式如下：

其中，A_i表示文字区域，B_j表示裁剪区域。

3.根据权利要求2所述的基于级联神经网络的文字检测方法，其特征在于，生成所述训练集和所述验证集具体包括：

S11：从所述样本的图像中随机裁剪一个方形区域B₁，遍历计算所述方形区域B₁与所述图像上所有文字区域A_i的IoU，若满足IoU＜a，则保存所述方形区域B₁，否则丢弃；

S12：遍历所述图像中的文字区域A_i，裁剪一个与所述文字区域A_i必然存在交集的所述方形区域B₂，若所述文字区域A_i与所述方形区域B₂满足IoU＜a，则保存所述方形区域B₂，否则丢弃；

S13：将所述步骤S11和S12中获取的所述方形区域做双线性插值尺度变换至p*p大小，并设定类别标签为0；

S14：遍历所述图像中的文字区域A_i，以所述文字区域A_i的重心左右偏移k₁*w，上下偏移量k₂*h获取中心区域C，其中，k₁和k₂分别为重心左右偏移和上下偏移的倍数，w和h分别为所述文字区域A_i的宽与高，裁剪一个重心落在所述中心区域C中的矩形区域B₃，所述矩形区域B₃的宽w₁和高h₁满足：

0.8*min(h,w)<w₁＝h₁<1.2*max(h,w)；

若所述矩形区域B₃与所述文字区域A_i满足IoU≥c，设定其类别标签为1，所述满足b≤IoU<c，设定其类别标签为-1，将所述矩形区域B₃做双线性插值尺度变换至p*p大小，计算所述矩形区域B₃与所述文字区域A_i的坐标偏移量作为回归标签；以及

S15：分别多次重复步骤S11-S14，得到按照1:2:3的比例混合类别标签分别为1，-1，0的所述数据集，将所述数据集按10:1的比例分为所述训练集和所述验证集。

4.根据权利要求3所述的基于级联神经网络的文字检测方法，其特征在于，所述第一全卷积网络和所述第二全卷积网络包括第一损失函数L^det和第二损失函数L^box，总损失函数为：

L＝αL^det+βL^box；

其中，α、β为权重参数，取值范围在0-1之间。

5.根据权利要求4所述的基于级联神经网络的文字检测方法，其特征在于，所述第二全卷积网络的参数量为所述第一全卷积网络的至少两倍，所述第一全卷积网络和所述第二全卷积网络的所述权重参数分别进行调整设定。

6.根据权利要求4所述的基于级联神经网络的文字检测方法，其特征在于，所述第一损失函数采用交叉熵损失：

其中，y表示所述回归标签，

表示全卷积网络学习推理出来的预测标签；

所述第二损失函数采用MSE均方误差损失：

其中，m为样本总数，i是指第i个样本。

7.根据权利要求3所述的基于级联神经网络的文字检测方法，其特征在于，所述回归结果为回归区域的区域坐标，计算所述回归区域的高h、宽w、重心o，以max(w,h)为边长，o为重心，裁剪一个方形区域B₄，遍历计算所有文字区域A_i与所述方形区域B₄的IoU，若满足IoU_max＜a，设定其类别标签为0；若满足IoU_max≥c，设定其类别标签为1；若满足b≤IoU_max＜c，设定其类别标签为-1；将所述方形区域B₄做双线性插值尺度变换至q*q大小，若所述类别标签标记为1或-1，则计算所述文字区域A_i与所述方形区域B₄的坐标偏移量作为所述回归结果。

8.一种基于级联神经网络的文字检测装置，其特征在于，包括：

数据集获取模块，被配置为收集样本，并根据随机获取的裁剪区域与每个文字区域的交并比关系生成类别标签对所述样本进行处理生成数据集；

第一全卷积网络训练模块，被配置为搭建第一全卷积网络，通过所述数据集对所述第一全卷积网络进行训练至网络收敛，并通过训练后的所述第一全卷积网络对所述数据集所述进行推理，获得回归结果；

9.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。