CN111950545B

CN111950545B - 一种基于MSDNet和空间划分的场景文本检测方法

Info

Publication number: CN111950545B
Application number: CN202010715197.2A
Authority: CN
Inventors: 杨育彬; 刘一帆
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2024-02-09
Anticipated expiration: 2040-07-23
Also published as: CN111950545A

Abstract

本发明提供了一种基于MSDNet和空间划分的场景文本检测方法，包括选取MSDNet网络模型，确定初始预训练模型；搭建空间划分网络；搭建回归网络；构造分类loss；空间划分集成；使用concat‑nms算法第一步后处理；使用box‑fix算法第二步后处理；使用tensorflow深度学习框架对已有的数据进行训练；使用已训练好的模型进行场景文本检测。本发明提供的方法可以自由地根据硬件条件和速度要求来选择不同的模型输出端口，通过提出的concat‑nms和box‑fix算法，来生成任意长的和更精确的文本框，在场景文本检测方面取得了令人满意的实验结果。因此，相较于现有技术，本方法灵活性好、分类精度较高、模型训练简单且实用性高。

Description

一种基于MSDNet和空间划分的场景文本检测方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于MSDNet和空间划分的场景文本检测方法。

背景技术

在计算机视觉领域，文本检测，即从图片中准确检测出文字区域是一个重要问题，它为理解图片提供了前提条件。

自深度学习以来，CTPN，EAST等算法通过使用神经网络模型，使文本检测取得了突破性进展。现阶段，文本检测算法主要分为一阶段算法和二阶段算法。其中，一阶段算法主要以CTPN(Detecting Text in Natural Image with Connectionist Text ProposalNetwork)和EAST(An Efficient and Accurate Scene Text Detector)算法为代表。二阶段算法主要是基于Mask-Rcnn进行语义分割。由于二阶段算法需要设置很多anchor并进行roi池化，检测速度比较慢。

现有的场景文本检测方法存在很多不足之处。具体的，第一，现有的场景文本检测方法并没有提供一个根据硬件条件和用户需求自动修改模型复杂度的模型框架；第二，现有的场景文本检测模型中，由于正负样本不均衡给模型的训练带来了困难；第三，现有的场景文本检测方法中所采用的基于回归的一阶段算法难以检测任意长的文本。

发明内容

本发明提供了一种基于MSDNet和空间划分的场景文本检测方法，以解决现有的文本检测方法的检测模型复杂度无法调整、检测模型训练困难且难以实现任意长文本检测，而导致现有的文本检测方法灵活性差、模型训练困难且实用性低这一问题。

本发明所述的一种基于MSDNet网络和空间划分的场景文本检测方法，包括如下步骤：

步骤1，构建特征金字塔，确定初始预训练的多尺度密集网络MSDNet的网络模型，用于提供backbone网络；其中，MSDNet的中文全称为多尺度密集网络，英文全称为Multiscale Dense Network。

步骤2：在所述backbone网络的基础上，构建空间划分网络，即构建多个线性分类器，用于对图像中的文本区域进行检测并输出文本区域划分结果；

步骤3：在所述backbone网络的基础上，构建边框回归网络，用于输出边框回归结果；

步骤4：确定所述空间划分网络的学习任务，即所述空间划分网络中每个线性分类器应学习的点和使用的分类loss；

步骤5：结合所述空间划分网络的学习任务和文本区域划分结果，对所述文本区域划分结果进行空间划分集成，获得空间划分集成结果；

步骤6：通过concat-nms算法，根据所述边框回归结果和空间划分集成结果进行第一步后处理，获得第一步后处理结果；

步骤7：通过box-fix算法，根据所述第一步后处理结果进行第二步后处理，获得第二步后处理结果；

步骤8：使用tensorflow深度学习框架构建结合MSDNet和空间划分的检测模型，并对已有的数据进行训练，获得已训练好的检测模型；

步骤9：使用所述已训练好的检测模型进行场景文本检测。

进一步地，在一种实现方式中，所述MSDNet网络模型具备多个输出端口，用于自由地根据硬件条件选择所述输出端口；每个所述输出端口具备不同的模型复杂度，用于平衡对文本检测的检测效率和检测精确度。

进一步地，在一种实现方式中，所述步骤2包括：

构建所述空间划分网络后，生成每个所述线性分类器对应的掩码；每个所述掩码即为线性分类器所要分类的图像区域，所述空间划分网络即空间划分树；

所述空间划分树的第i层对应于所述MSDNet网络模型的第i个输出端口，采用所述MSDNet网络模型的第i个输出端口所对应的线性分类器在第i-1层的划分结果上进一步分类；

所述MSDNet网络模型具备5个输出端口，通过所述5个输出端口所对应的线性分类器对5个输出端口进行空间划分，即通过不停地划分数据集，实现在子空间中的分类，获得高精度的分类结果，即所述文本区域划分结果；

文本区域检测为二分类任务，通过第一个所述输出端口进行文本区域检测，此时，第一个所述输出端口所对应的线性分类器将文本区域划分为二，获得两个区域；再用第二个所述输出端口所对应的线性分类器分别对划分获得的两个区域再分类；依次递推，通过所述5个输出端口所对应的线性分类器，最终将所述文本区域划分为32个区域，作为文本区域划分结果；其中，每个所述二分类任务的输出层采用softmax二分类。

进一步地，在一种实现方式中，所述步骤3中，边框回归结果即通过神经网络学习并计算出图像中文本框内的当前像素点的五个参数，所述五个参数包括当前像素点所在文本标准边框的倾斜度，以及所述当前像素点距离文本标准边框的距离，所述文本标准边框包括用于构成文本标准边框的上、下、左和右四条线段。

进一步地，在一种实现方式中，所述步骤4中的分类loss为带裁剪的平衡交叉熵loss，所述带裁剪的平衡交叉熵loss的公式如下：

其中，y_i是真实标签，y_i′是预测标签，y_i的取值为0或1，y_i′的取值范围为[0,1]，n是文本样本点的数量，n的取值范围为[0，250000]，m是背景样本点的数量，m的取值范围为[0，250000]。

进一步地，在一种实现方式中，所述步骤5包括：

根据以下公式，获得所述MSDNet网络模型中深度为3的空间划分树的分类结果：

output＝p₁p₂p₄+p₁(1-p₂)p₅+(1-p₁)p₃p₆+(1-p₁)(1-p₃)p₇

其中，output表示MSDNet网络模型中深度为3的空间划分树的分类结果；

所述空间划分树将图像划分为两个区域，当深度i＝1时，p₁＝1的区域为文本区域，p₁＝0的区域为背景区域；当深度i＝2时，p₁＝1区域中p₂＝1的区域为文本区域，p₁＝0区域中p₃＝1的区域为文本区域；当深度i＝3时，p₂＝1区域中p₄＝1的区域为文本区域，p₂＝0区域中p₅的区域为文本区域，p₃＝1区域中p₆＝1的区域为文本区域，p₃＝0区域中p₇＝1的区域为文本区域，p_i的值为每个线性分类器根据生成的掩码和采用的loss学习得到的分类结果，其中p_i的取值为0或1；

根据所述MSDNet网络模型中深度为3的空间划分树的分类结果，推算出所述空间划分树深度为5的空间划分树的最终分类结果，记为score map，取值范围为[0,1]；并设定阈值0.7，用于对score map进行二值化；如果score map中像素点的值大于或等于0.7，则设定score map中所述像素点的值为1；如果score map中像素点的值小于0.7，则设定scoremap中所述像素点的值为0；所述MSDNet网络模型最终将图像划分为32个区域，每个所述区域都是对应的分类器所确认的文本区域或背景区域。

进一步地，在一种实现方式中，所述步骤6包括：

根据所述边框回归结果和空间划分集成结果，计算得到每个score map上的像素点所对应的文本框；如果所述像素点被预测为背景，即所述像素点score map的值小于0.7，则判断所述像素点没有文本框；如果所述像素点被预测为文本点，即所述像素点score map的值大于或等于0.7，则预测得到所述像素点所在文本区域的文本框，得到重叠的文本框的集合，即第一次后处理结果；

从所述重叠的文本框的集合中不断选取其中一个文本框作为目标文本框，将所述目标文本框与第一次后处理结果中的所有文本框进行重叠面积计算；

如果所述第一次后处理的结果中存在任一文本框与目标文本框的重叠面积大于0.3，则将所述文本框与目标文本框按照文本线方向进行合并，将合并后的文本框加入所述第一次后处理结果，从所述重叠的文本框的集合中删除目标文本框；

如果所述第一次后处理的结果中所有文本框与目标文本框的重叠面积均小于或等于0.3，则将所述目标文本框加入第一次后处理结果中；

最终通过concat-nms算法不停地拼接具有重合度的文本框，最终获得任意长度的文本框，作为所述第一步后处理结果。

进一步地，在一种实现方式中，所述步骤7包括：

通过所述box-fix算法计算出每个任意长度的文本框的横向的中心轴，并将所述中心轴与score map进行对比；

如果所述中心轴的左右两端的score map值为0，则将文本框的左右两端向内进行裁剪，直到所述中心轴的左右两端的score map值为1；

从左向右遍历所述中心轴，如果所述中心轴存在任一段的score map值为0，则确定所述段为两个文本框的中间界，以通过所述段的中点且垂直于段的直线为划分线，将所述划分线两侧的文本框分别划分为两个文本框；将所述文本框的细粒度划分为多个文本框，直至所述中心轴不存在任一段的score map值为0，划分完的多个文本框即所述第二步后处理结果。

进一步地，在一种实现方式中，所述步骤8包括：使用random crop技术对图像进行放大缩小的数据增强；设定batch大小为7；使用adam优化；所述random crop技术即随机裁剪图像中的部分数据作为输入，所述裁剪的尺寸为512*512。

进一步地，在一种实现方式中，所述步骤9包括：部署所述已训练好的检测模型，输出图像数据进行前向传播，最后通过后处理算法输出预测的文本框，实现实际推断预测。

由以上技术方案可知，本发明实施例提供基于MSDNet网络和空间划分的场景文本检测方法，包括：步骤1，选取MSDNet网络模型，确定初始预训练模型；步骤2：搭建空间划分网络；步骤3：搭建回归网络；步骤4：构造分类loss；步骤5：空间划分集成；步骤6：使用concat-nms算法第一步后处理；步骤7：使用box-fix算法第二步后处理；步骤8：使用tensorflow深度学习框架对已有的数据进行训练；步骤9：使用已训练好的模型进行场景文本检测。

现有技术中，文本检测方法需要设置很多anchor并进行roi池化，检测速度比较慢，导致正负样本不均衡，计算资源和计算效果不平衡和分类精度较低。而采用前述方法，通过结合MSDNet和空间划分，可以通过选择不同的输出端口来实现不同的模型复杂度，并且可以在少量参数下实现高准确度的文本检测，解决了正负样本不均衡的问题，并且提供了一种少参数，高精度的一阶段文本检测算法。这个算法可以自由得根据硬件条件和速度要求来选择不同的模型输出端口。最后提出concat-nms和box-fix算法，来生成任意长的和更精确的文本框。在场景文本检测方面取得了令人满意的实验结果。因此，相较于现有技术，本方法灵活性好、分类精度较高、模型训练简单且实用性高。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例部分提供的一种基于MSDNet和空间划分的场景文本检测方法的MSDNet网络拓扑示意图；

图2是本发明实施例部分提供的一种基于MSDNet和空间划分的场景文本检测方法中深度为3的空间划分树示意图；

图3是本发明实施例部分提供的一种基于MSDNet和空间划分的场景文本检测方法中MSD-TEXT模型示意图；

图4是本发明实施例部分提供的一种基于MSDNet和空间划分的场景文本检测方法的工作流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例公开一种基于MSDNet和空间划分的场景文本检测方法，本方法应用于需要根据用户需求和硬件条件自动调整模型复杂度，从而检测任意长文本的文本检测场景。该方法适用于不同的要求的硬件平台，可以在少量参属下实现较高精度的效果。本发明提出了新的场景文本检测的方法，整个模型如图3所示。1)使用MSDNet作为场景文本检测的主干网络。2)通过空间划分集成，实现在少量参数下的高精度效果。3)使用concat-nms算法和box-fix算法来对模型输出结果进行后处理。该方法解决了正负样本不均衡带来的训练困难，并且通过空间划分进行细粒度分类，进一步提升模型性能。

如图4所示，本发明实施例所述的一种基于MSDNet网络和空间划分的场景文本检测方法，包括如下步骤：

步骤1，构建特征金字塔，确定初始预训练的多尺度密集网络MSDNet的网络模型，用于提供backbone网络；本实施例中，MSDNet的中文全称为多尺度密集网络，英文全称为Multiscale Dense Network。MSDNet基于densenet，在已有的深度网络上通过concate进行扩展，来达到增加模型复杂度的目的。该模型最初是用来解决随时分类的问题，但是在本专利中，使用该网络为文本分类提供一种细粒度分类的算法。

MSDNet原本是应用在图片分类领域中的一个比较新奇的模型。在图片分类领域中，相较于复杂的图像，一些简单的图像显然不需要很高复杂度的模型便能得到很好的结果。在对简单图片进行分类时，MSDNet会提前退出，从而减少模型推断时间。该功能实现的关键在于该网络具备多个输出端口，每个输出端口对应一个不同复杂度的模型。该网络通过concat连接不断地扩展模型复杂度。本实施例中，输出端口越靠后，则模型检测效率越低，精度越高。如想提高检测效率，可使用第三个输出端口提前预测。

不同复杂度的模型的输出特征图记为l1，l2，l3，l4，l5，所述对应的不同复杂度的模型记为model1，model2，model2，model4，model5。因为文本尺寸变化较大，为了能检测不同尺寸的文本，对每个model都构建一层特征金字塔网络(Feature Pyramid Networks forObject Detection，FPN)层。FPN上采样到原图的1/4大小，FPN从下往上的通道数配置为128，64，32。

在使用更高模型复杂度的输出端口进行分类时，为了充分利用之前低模型复杂度的输出端口分类的结果，提出了基于空间划分的分类技术。事实上，MSDNet可以理解为多个模型的集成，但是每个模型的复杂度不一致。在使用简单模型进行预测时，此时已经可以得到粗略的结果，这时候模型的输出会给出一个显式的数据分类空间。完全可以在已有的数据分类结果上再次进一步细粒度分类，从而给后面的复杂模型赋以一个显式的先验知识。

基于上面的想法，本发明实施例通过空间划分不断划分数据空间，模型最终只需要在更小的数据空间中进行细粒度分类。本实施例中，通过第一层构建1个线性分类器；第二层构建2个线性分类器；第三层构建4个线性分类器；第四层构建8个线性分类器；第五层构建16个线性分类器；共31个线性分类器。通过空间划分不断划分数据空间，模型最终只需要在更小的数据空间中进行细粒度分类。

其核心原理大概如下：首先使用model1进行文本分类，此时会给出第一阶段的分类结果。显然model1会将数据空间划分为两类，一类是model1认为的文本区域region1，另一类是model1认为的背景区域region2。因为model1的复杂度不高，所以此时分类结果是非常粗糙的，会出现大量预测错误的结果。但是可以用model2来进一步细粒度分类，即应用model2继续分别对model1产生的region1和region2进行再分类。此时空间被划分为4个区域。因为在本模型中一共有五个输出端口，所以以此类推，在本模型中构建了5层的空间划分树。本实施例中，通过空间划分步骤不断划分数据集，取得更好的分类性能，5层的空间划分在模型复杂度和模型性能上均取得最佳效果。具体的，在本实施例中，所述性能使用F-score指标进行评估。

步骤3：在所述backbone网络的基础上，构建边框回归网络，用于输出边框回归结果；本实施例中，通过所述步骤3，确定回归网络需要学习的回归参数。

步骤4：确定所述空间划分网络的学习任务，即所述空间划分网络中每个线性分类器应学习的点和使用的分类loss；本实施例中，因为在自然场景文本检测中的数据往往正负样本不均衡，采用了带裁剪的平衡交叉熵loss，即clipped-balanced cross-entropyloss来进行训练。具体的，通过设置正负样本的权重，用于使得模型训练时相较于背景样本点更关注于文本样本点。

步骤5：结合所述空间划分网络的学习任务和文本区域划分结果，对所述文本区域划分结果进行空间划分集成，获得空间划分集成结果；本实施例中，因为在训练时，不会直接得到一个最终的文本分类结果，所以为了得到最终的分类结果，需要根据MSDNet的每个输出端口的结果进行空间划分集成。为了方便解释集成公式，本实施例中以深度为3的空间划分树进行公式计算。

步骤6：通过concat-nms算法，根据所述边框回归结果和空间划分集成结果进行第一步后处理，获得第一步后处理结果；本实施例中，所述第一步后处理结果为重叠的文本框的集合。

步骤7：通过box-fix算法，根据所述第一步后处理结果进行第二步后处理，获得第二步后处理结果；本实施例中，通过步骤6执行完concat-nms算法后，得到一些文本框，这些文本框在两个方面精度比较低，首先，横向边界上可能过长；其次，一个文本框可能包含几个文本。通过步骤7，即可提升这两方面的精度。

步骤9：使用所述已训练好的检测模型进行场景文本检测。

本发明实施例所述的一种基于MSDNet网络和空间划分的场景文本检测方法中，所述MSDNet网络模型具备多个输出端口，用于自由地根据硬件条件选择所述输出端口；每个所述输出端口具备不同的模型复杂度，用于平衡对文本检测的检测效率和检测精确度。

本发明实施例所述的一种基于MSDNet网络和空间划分的场景文本检测方法中，所述步骤2包括：

构建所述空间划分网络后，生成每个所述线性分类器对应的掩码(Mask)；每个所述掩码即为线性分类器所要分类的图像区域，所述空间划分网络即空间划分树；

本发明实施例所述的一种基于MSDNet网络和空间划分的场景文本检测方法中，所述步骤3中，边框回归结果即通过神经网络学习并计算出图像中文本框内的当前像素点的五个参数，所述五个参数包括当前像素点所在文本标准边框的倾斜度，以及所述当前像素点距离文本标准边框的距离，所述文本标准边框包括用于构成文本标准边框的上、下、左和右四条线段。本实施例中，所述文本标准边框由数据集的标注构造获得。

本发明实施例所述的一种基于MSDNet网络和空间划分的场景文本检测方法中，所述步骤4中的分类loss为带裁剪的平衡交叉熵loss，所述带裁剪的平衡交叉熵loss的公式如下：

其中，y_i是真实标签，y′_i是预测标签，y_i的取值为0或1，y′_i的取值范围为[0,1]，n是文本样本点的数量，n的取值范围为[0，250000]，m是背景样本点的数量，m的取值范围为[0，250000]。具体的，本实施例中，因为n和m的数值可能相差过大，导致训练不稳定，所以对n和m进行裁剪，使它们的比值在10以内。

在本发明实施例所述的步骤4中，本发明与现有的balanced cross-entropy loss不同之处在于：因为n和m的数值可能相差过大，导致训练不稳定，所以对n和m进行裁剪，使其它们的比例在10以内。因为在实际训练中，正负样本可能过度不均衡。在这种情况下使用已有的平衡交叉熵loss会给模型训练带来困难，所以本发明实施例通过裁剪正负样本点的权重来避免过度不均衡带来的训练振荡现象。

本发明实施例所述的一种基于MSDNet网络和空间划分的场景文本检测方法中，所述步骤5包括：

output＝p₁p₂p₄+p₁(1-p₂)p₅+(1-p₁)p₃p₆+(1-p₁)(1-p₃)p₇

所述空间划分树将图像划分为两个区域，当深度i＝1时，p₁＝1的区域为文本区域，p₁＝0的区域为背景区域；当深度i＝2时，p₁＝1区域中p₂＝1的区域为文本区域，p₁＝0区域中p₃＝1的区域为文本区域；当深度i＝3时，p₂＝1区域中p₄＝1的区域为文本区域，p₂＝0区域中p₅的区域为文本区域，p₃＝1区域中p6＝1的区域为文本区域，p₃＝0区域中p₇＝1的区域为文本区域，p_i的值为每个线性分类器根据生成的掩码和采用的loss学习得到的分类结果，其中p_i的取值为0或1；

为了方便解释集成公式，根据所述MSDNet网络模型中深度为3的空间划分树的分类结果，推算出所述空间划分树深度为5的空间划分树的最终分类结果，记为score map，取值范围为[0,1]；并设定阈值0.7，用于对score map进行二值化；如果score map中像素点的值大于或等于0.7，则设定score map中所述像素点的值为1；如果score map中像素点的值小于0.7，则设定score map中所述像素点的值为0；所述MSDNet网络模型最终将图像划分为32个区域，每个所述区域都是对应的分类器所确认的文本区域或背景区域。本实施例中，所述空间划分树深度为5的公式可以按照上面的分析获得，并且采用深度为5的结果作为输出score map。

本发明实施例所述的一种基于MSDNet网络和空间划分的场景文本检测方法中，所述步骤6包括：

根据所述边框回归结果和空间划分集成结果，计算得到每个score map上的像素点所对应的文本框；如果所述像素点被预测为背景，即所述像素点score map的值小于0.7，则判断所述像素点没有文本框；如果所述像素点被预测为文本点，即所述像素点score map的值大于或等于0.7，则预测得到所述像素点所在文本区域的文本框，得到重叠的文本框的集合，即第一次后处理结果，本实施例中，所述第一次后处理结果用result进行表示；

从所述重叠的文本框的集合中不断选取其中一个文本框作为目标文本框，将所述目标文本框与第一次后处理结果中的所有文本框进行重叠面积计算；具体的，本实施例中，所述重叠面积的计算方法按照两个倾斜长方形的重叠面积计算得到，所述目标文本框用box进行表示。

本发明实施例所述的一种基于MSDNet网络和空间划分的场景文本检测方法中，所述步骤7包括：

如果所述中心轴的左右两端的score map值为0，则将文本框的左右两端向内进行裁剪，直到所述中心轴的左右两端的score map值为1；通过本步骤中将文本框的左右两端向内进行裁剪，即实现对所述文本框的精修。

本实施例中，通过步骤6获取的这些文本框在以下两个方面精度比较低。1，横向边界上可能过长；2，一个文本框可能包含几个文本。通过步骤7中提出一种基于文本框和score map的box-fix算法，即可解决步骤6的结果所带来的问题。

本发明实施例所述的一种基于MSDNet网络和空间划分的场景文本检测方法中，所述步骤8包括：使用random crop技术对图像进行放大缩小的数据增强；设定batch大小为7；使用adam的随机梯度优化技术进行优化；所述random crop技术即随机裁剪图像中的部分数据作为输入，所述裁剪的尺寸为512*512。

本发明实施例所述的一种基于MSDNet网络和空间划分的场景文本检测方法中，所述步骤9包括：部署所述已训练好的检测模型，输出图像数据进行前向传播，最后通过后处理算法输出预测的文本框，实现实际推断预测。

实施例：

本发明采用上述方案，在ICDAR2015数据集和COCO-text上取得了令人满意的效果。ICDAR2015数据集是由ICDAR 2015年举办的INCIDENTIAL TEXT大赛所采用的数据集。该数据集共1000张训练图片，500张测试图片。该数据集拍摄的是街头和商场的相关图片，背景非常复杂，文本检测难度很高。而且该数据集的文本是倾斜文本，文本区域用四边形进行包裹，数据label为四边形的四个顶点坐标。COCO-text数据集是在MSCOCO dataset数据集上发展而来的。该数据集包含了63686张图片，所用的label为水平长方形的四个顶点坐标。

具体实现如下：

步骤1：构建特征金字塔，确定初始预训练的多尺度密集网络MSDNet的网络模型，用于提供backbone网络。MSDNet的网络拓扑结构图如图1所示：其中l1，l2，l3，l4和l5是不同模型复杂度的backbone输出特征图，记为model1，model2，model2，model4，model5。因为文本尺寸变化较大，为了能检测不同尺寸的文本，对每个model都构建一层FPN层。

步骤2：在所述backbone网络的基础上，构建空间划分网络，即构建多个线性分类器，用于对图像中的文本区域进行检测并输出文本区域划分结果，MSDNet一共具备五个输出端口，这五个输出端口的模型复杂度依次递增。

步骤3：在所述backbone网络的基础上，构建边框回归网络，用于输出边框回归结果。根据倾斜文本框的坐标，计算出当前点所要学习的label，作为训练数据，让模型进行学习。

步骤4：确定所述空间划分网络的学习任务，即所述空间划分网络中每个线性分类器应学习的点和使用的分类loss。因为在自然场景文本检测中的数据往往正负样本不均衡，采用了clipped-balanced cross-entropy loss来进行训练。该loss的公式如下：

其中

在公式中，y_i是真实标签，y′_i是预测标签，y_i的取值为0或1，y′_i的取值范围为[0,1]，n是文本样本点的数量，m是背景样本点的数量。因为n和m的数值可能相差过大，导致训练不稳定，所以对n和m进行裁剪，使它们的比值在10以内。

步骤5：结合所述空间划分网络的学习任务和文本区域划分结果，对所述文本区域划分结果进行空间划分集成，获得空间划分集成结果。为了得到最终的分类结果，需要根据MSDNet的每个输出端口的结果进行空间划分集成。为了方便解释集成公式，下面以深度为3的空间划分树进行公式计算。深度为3的空间划分树如图2所示。可以从图中看出，深度为3的模型最终将图像划分为8个区域。空间划分树的第i层对应于MSDNet的第i个输出端口。空间划分数首先将图像划分为两个区域。p1＝1的区域为文本，p1＝0的区域为背景。然后第二层继续分类，p1＝1区域中p2＝1的区域为文本，p1＝0区域中p3＝1的区域为文本。模型的最终输出公式是：

output＝p₁p₂p₄+p1(1-p₂)p₅+(1-p₁)p₃p₆+(1-p₁)(1-p₃)p₇

空间划分树深度为5的公式可以照上面的公式分析获得。

步骤6：通过concat-nms算法，根据所述边框回归结果和空间划分集成结果进行第一步后处理，获得第一步后处理结果。即根据步骤3得到的文本区域和边框回归数据，生成score map中每个点所对应的文本框。然后执行concat-nms算法，对这些文本框进行拼接，生成初始结果。

步骤7：通过box-fix算法，根据所述第一步后处理结果进行第二步后处理，获得第二步后处理结果。即执行fix-box算法，根据初始得到的文本框和score map，对这些文本框进行精修，最终得到精确的文本框。

步骤8：使用tensorflow深度学习框架构建结合MSDNet和空间划分的检测模型，并对已有的数据进行训练，获得已训练好的检测模型。在该步骤中，采用了random crop和随机尺度变化的数据增强技术。整个训练过程采用adam的随机梯度优化技术进行优化，采用的batch大小为7，一共训练6万次。在该步骤中，在ICDAR2015数据集和COCO-text数据集上分别训练。

步骤9：使用所述已训练好的检测模型进行场景文本检测。在数据集ICDAR2015上的结果如表1所示；在数据集COCO-text上的结果如表2所示；

表1 ICDAR2015 Dataset实验结果

方法	F-score(评价指标)
		Ours	0.8288
EAST	0.8072
		RRPN	0.774
SegLink	0.75
		Yao etal	0.6477

表2 COCO-text Dataset实验结果

方法	F-score(评价指标)
		Ours	0.6095
EAST	0.3945
		Yao	0.331

由表1可知，在现有的场景文本检测算法中，本发明实施例所述的方法在一阶段算法中有很好的性能，F-score取得了0.82的效果，相较于其他算法有2％的性能提升。

由表2可知，本发明实施例所述的方法相较于其他算法有很大的优势性，在F-score上取得了0.6095的结果。

由以上技术方案可知，本发明实施例提供一种基于MSDNet网络和空间划分的场景文本检测方法，包括：选取MSDNet网络模型，确定初始预训练模型；搭建空间划分网络；搭建回归网络；构造分类loss；空间划分集成；使用concat-nms算法第一步后处理；使用box-fix算法第二步后处理；使用tensorflow深度学习框架对已有的数据进行训练；使用已训练好的模型进行场景文本检测。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的一种基于MSDNet和空间划分的场景文本检测方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种基于MSDNet网络和空间划分的场景文本检测方法，其特征在于，包括如下步骤：

步骤1，构建特征金字塔，确定初始预训练的多尺度密集网络MSDNet的网络模型，用于提供backbone网络；

步骤9：使用所述已训练好的检测模型进行场景文本检测；

所述MSDNet网络模型具备多个输出端口，用于自由地根据硬件条件选择所述输出端口；每个所述输出端口具备不同的模型复杂度，用于平衡对文本检测的检测效率和检测精确度；

所述步骤2包括：

文本区域检测为二分类任务，通过第一个所述输出端口进行文本区域检测，此时，第一个所述输出端口所对应的线性分类器将文本区域划分为二，获得两个区域；再用第二个所述输出端口所对应的线性分类器分别对划分获得的两个区域再分类；依次递推，通过所述5个输出端口所对应的线性分类器，最终将所述文本区域划分为32个区域，作为文本区域划分结果；其中，每个所述二分类任务的输出层采用softmax二分类；

所述步骤3中，边框回归结果即通过神经网络学习并计算出图像中文本框内的当前像素点的五个参数，所述五个参数包括当前像素点所在文本标准边框的倾斜度，以及所述当前像素点距离文本标准边框的距离，所述文本标准边框包括用于构成文本标准边框的上、下、左和右四条线段；

所述步骤4中的分类loss为带裁剪的平衡交叉熵loss，所述带裁剪的平衡交叉熵loss的公式如下：

其中，y_i是真实标签，y′_i是预测标签，y_i的取值为0或1，y′_i的取值范围为[0,1]，n是文本样本点的数量，n的取值范围为[0，250000]，m是背景样本点的数量，m的取值范围为[0，250000]；

所述步骤5包括：

output＝p₁p₂p₄+p₁(1-p₂)p₅+(1-p₁)p₃p₆+(1-p₁)(1-p₃)p₇

其中，ouput表示MSDNet网络模型中深度为3的空间划分树的分类结果；

根据所述MSDNet网络模型中深度为3的空间划分树的分类结果，推算出所述空间划分树深度为5的空间划分树的最终分类结果，记为score map，取值范围为[0,1]；并设定阈值0.7，用于对score map进行二值化；如果score map中像素点的值大于或等于0.7，则设定score map中所述像素点的值为1；如果score map中像素点的值小于0.7，则设定score map中所述像素点的值为0；所述MSDNet网络模型最终将图像划分为32个区域，每个所述区域都是对应的分类器所确认的文本区域或背景区域；

所述步骤6包括：

最终通过concat-nms算法不停地拼接具有重合度的文本框，最终获得任意长度的文本框，作为所述第一步后处理结果；

所述步骤7包括：

从左向右遍历所述中心轴，如果所述中心轴存在任一段的score map值为0，则确定所述段为两个文本框的中间界，以通过所述段的中点且垂直于段的直线为划分线，将所述划分线两侧的文本框分别划分为两个文本框；将所述文本框的细粒度划分为多个文本框，直至所述中心轴不存在任一段的score map值为0，划分完的多个文本框即所述第二步后处理结果；

所述步骤8包括：使用random crop技术对图像进行放大缩小的数据增强；设定batch大小为7；使用adam优化；所述random crop技术即随机裁剪图像中的部分数据作为输入，所述裁剪的尺寸为512*512。

2.根据权利要求1所述的一种基于MSDNet网络和空间划分的场景文本检测方法，其特征在于，所述步骤9包括：部署所述已训练好的检测模型，输出图像数据进行前向传播，最后通过后处理算法输出预测的文本框，实现实际推断预测。