CN110781967A

CN110781967A - 一种基于可微分二值化的实时文本检测方法

Info

Publication number: CN110781967A
Application number: CN201911038562.4A
Authority: CN
Inventors: 白翔; 廖明辉; 万昭祎; 姚聪
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-02-11
Anticipated expiration: 2039-10-29
Also published as: CN110781967B

Abstract

本发明公开了一种基于可微分二值化的实时文本检测方法。通过对图像进行分割，得到文本区域的概率图，对概率图采用可微分二值化得到二值图，在二值图上寻找联通区域即可得到文本区域的包围盒。本方法通过给概率图和二值图均施加监督，将二值化的过程纳入训练之中，提升检测效果。本发明相对于现有文本检测方法，在准确度、运行效率和通用性方面都取得了卓越效果，有很强的实际应用价值。

Description

一种基于可微分二值化的实时文本检测方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于可微分二值化的实时文本检测方法。

背景技术

近年来，由于图像/视频理解、视觉搜索、自动驾驶和盲辅助等广泛的实际应用，在场景图像中阅读文本已经成为一个活跃的研究领域。

作为场景文本阅读的关键组成部分，旨在定位每个文本实例的边界框或区域的场景文本检测仍然是一项具有挑战性的任务，因为场景文本通常具有各种尺度和形状，包括水平、多向和弯曲文本。基于分割的场景文本检测方法最近引起了很多关注，因为受益于其在像素级的预测结果，它可以描述各种形状的文本。然而，大多数基于分割的方法需要复杂的后处理以将像素级预测结果分组为检测到的文本实例，从而导致推理过程中花费相当大的时间成本。

如图1所示，大多数现有的检测方法使用类似的后处理流水线：首先，它们设置一个固定的阈值，用于将分割网络产生的概率图转换成二进制图像，然后，一些启发式技术(如像素聚类)用于将像素分组为文本实例。或者，我们的流水线旨在将二值化操作插入到分段网络中以进行联合优化。通过这种方式，可以自适应地预测图像的每个位置处的阈值，这可以完全区分像素与前景和背景。然而标准二值化函数是不可微分的，因此无法直接在深度学习网络中参与反向传播训练。

发明内容

本发明的目的在于提供一种基于分割的实时文本检测方法，并在速度和精度上达到很好的平衡。

为实现上述目的，本发明提出了一种基于可微分二值化的实时文本检测方法，包括下述步骤：

(1)训练基于可微分二值化的文本检测网络模型，包括如下子步骤：

(1.1)准备具有文本位置标注的训练数据集，位置的表示方式可以是水平的矩形或者任意的多边形；

(1.2)定义场景文本检测网络模型，使用步骤(1.1)中适应于批量训练的带标注训练数据集，设计损失函数，选择参数优化器，利用反向传导方法训练该网络，得到场景文本检测网络模型；具体包括如下子步骤：

(1.2.1)如图2所示构建基于可微分二值化的场景文本检测网络模型，所述网络模型由基本特征提取模块、概率图预测模块、阈值图预测模块和二值化模块组成。其中，所述基本特征提取模块以ResNet-18或者ResNet-50深度卷积神经网络为基础网络，采用特征金字塔的形式，将不同尺寸的特征图进行融合，用于从输入图片中提取基本特征；将提取的基本特征分别输入概率图预测模块和阈值图预测模块；概率图预测模块和阈值图预测模块的组成结构是一致的，均由一个3*3的卷积层和两个stride为2的反卷积层组成；然后将概率图和阈值图输入二值化模块，得到二值图；最后对二值图找连通区域，得到文本包围盒。

(1.2.2)生成分割图和阈值图的训练标签，所述分割图的训练标签被用于概率图预测模块生成概率图，所述阈值图的训练标签被用于阈值图预测模块生成阈值图。对于一幅文字图片，每个标注的文字区域由多边形

描述，其中n为多边形的端点数量。为了生成分割图和阈值图的训练标签，首先通过多边形内缩算法变换为内缩或外扩的多边形框。内缩或外扩的距离由框的面积和周长计算得到，表达式为：

其中L是多边形的周长，A表示多边形的面积，r是内缩系数。从内缩之后的多边形框可以得到分割图的标签：在多边形内的像素视为正样本而其他像素位置视为负样本。同样地，从原始多边形框到内缩和外扩多边形框之间的区域可以生成阈值图的渐进标签。

(1.2.3)以标准训练数据集I_tr作为场景文本检测网络模型的输入，利用基本特征提取模块提取基本特征，将基本特征输入概率图预测模块得到概率图，将基本特征输入阈值图预测模块得到阈值图，分别将概率图和阈值图输入二值化模块，通过可微分二值化操作输出二值图。首先，将图片输入给一个特征金字塔结构的网络；然后，将这些不同尺度的特征图上采样到同一个尺度(W/4*H/4)，其中W和H为输入图片的宽和高，并将它们串联起来形成融合特征图F；接下来，融合特征图F被用来预测概率图P和阈值图T，概率图预测模块和阈值图预测模块的组成结构是一致的，均由一个3*3的卷积层和两个stride为2的反卷积层组成，分别施以分割图和阈值图的训练标签；最后，通过P和T计算出二值图B，计算公式为

其中

是近似二值图；B是二值图；t是一个固定的阈值，通常设置为0.5，k是放大因子。

(1.2.4)分别计算概率图预测模块、阈值图预测模块和二值图的损失函数；对上述3个损失函数加权求和，得到总的损失函数，反向传播计算梯度，使用随机梯度下降优化器更新模型参数，得到训练好的场景文本检测网络模型。

模型的损失函数L计算如下：

L＝L_s+α×L_b+β×L_t

其中L_s是概率图的损失函数；L_b和L_t分别是二值图和阈值图的损失函数。α和β分别设置为1.0和10.0。

对于L_s和L_b，我们采用了二分类的交叉熵损失函数：

其中S_l是一个采样的集合，x_i和y_i分别表示概率图和二值图的预测值和标签值。为了保持正负样本的数量的平衡，我们将采样的正负样本比例设置为1:3。

对于L_t我们采用了L1损失函数：

其中R_d是在文本包围盒内的像素的序号；x^*和y^*分别是是阈值图的预测值和标签值。

(2)利用上述训练好的模型进行场景文本检测，包括如下子步骤：

(2.1)将待检测的场景文本图片提取基本特征，输入概率图预测模块，得到概率图；

(2.2)将概率图根据一个固定阈值(比如0.5)进行二值化，得到二值图。

(2.3)对二值图寻找连通区域，并将对应连通区域内的平均概率值作为置信度进行过滤，得到文本的包围盒。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：

(1)准确率高：该发明通过将二值化过程引入训练过程之中，能有效地提高检测模型的准确率；

(2)检测速度快：该发明用到的模型仅由简单的分割网络和简单的后处理组成，在GPU上运行可以达到实时的速度；

(3)易于嵌入现有模型：本发明中的可微分二值化方法可以方便地嵌入到现有的其他基于分割的模型方法中；

(4)通用性强：本发明对文字方向、弯曲性不敏感，因而可以用于水平文本行、倾斜文本以及弯曲文本等的文本检测任务。

附图说明

图1是现有检测方法中后的处理流程及相应网络模型的示意图；

图2是本发明实施例中基于可微分二值化的文本检测方法流程图，其中实线箭头表示训练，虚线箭头表示识别；

图3是本发明的训练标签生成示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

Vatti clipping算法：一种常用的多边形裁剪算法。

二值化：根据一定规则将所有值转化为0或者1。

本发明提出了二值化的近似函数，称为可微分二值化(DB)，当与分段网络一起训练时，它是完全可微分的，因此能够使用深度学习中的反向传播进行训练。

如图2所示，本发明基于可微分二值化的文本检测方法包括下述步骤：

(1.2.1)如图2所示构建基于可微分二值化的场景文本检测网络模型，所述场景文本检测网络模型由基本特征提取模块、概率图预测模块、阈值图预测模块和二值化模块组成。其中，所述基本特征提取模块以ResNet-18或者ResNet-50深度卷积神经网络为基础网络，采用特征金字塔的形式，将不同尺寸的特征图进行融合，用于从输入图片中提取基本特征；将提取的基本特征分别输入概率图预测模块和阈值图预测模块；概率图预测模块和阈值图预测模块的组成结构是一致的，均由一个3*3的卷积层和两个stride为2的反卷积层组成；然后将概率图和阈值图输入二值化模块，得到二值图；最后对二值图找连通区域，得到文本包围盒。

(1.2.2)生成训练标签。如图3所示，对于一幅文字图片，每个标注的文字区域由多边形

其中L是多边形的周长，A表示多边形的面积。从内缩之后的多边形框可以得到分割图的标签：在多边形内的像素视为正样本而其他像素位置视为负样本。同样地，从原始多边形框到内缩和外扩多边形框之间的区域可以生成阈值图的渐进标签。

(1.2.3)以标准训练数据集I_tr作为场景文本检测网络模型的输入，利用基本特征提取模块提取基本特征。将概率图和阈值图输入二值化模块，通过可微分二值化操作输出二值图。首先，将图片输入给一个特征金字塔结构的网络；然后，将这些不同尺度的特征图上采样到同一个尺度(W/4*H/4)，其中W和H为输入图片的宽和高，并将它们串联起来形成融合特征图F；接下来，融合特征图F被用来预测概率图P和阈值图T，概率图预测模块和阈值图预测模块的组成结构是一致的，均由一个3*3的卷积层和两个stride为2的反卷积层组成；最后，通过P和T计算出二值图B，计算公式为

其中

(1.2.4)分别计算概率图预测模块、阈值图预测模块和二值图的损失函数；对上述3个损失函数加权求和，得到总的损失函数，反向传播计算梯度，使用随机梯度下降优化器更新模型参数。模型的损失函数L计算如下：

L＝L_s+α×L_b+β×L_t

对于L_s和L_b，我们采用了二分类的交叉熵损失函数：

对于L_t我们采用了L1损失函数：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于可微分二值化的实时文本检测方法，其特征在于，所述方法包括下述步骤：

(1)训练基于可微分二值化的实时文本检测方法的网络模型，包括如下子步骤：

(1.1)准备具有文本位置标注的训练数据集，位置的表示方式是水平的矩形或者任意的多边形；

(1.2)定义场景文本检测网络模型，使用步骤(1.1)中适应于批量训练的带标注训练数据集，设计损失函数，选择参数优化器，利用反向传导方法训练该网络，得到场景文本检测网络模型；包括：

(1.2.1)构建基于可微分二值化的场景文本检测网络模型，所述网络模型由基本特征提取模块、概率图预测模块、阈值图预测模块和二值化模块组成；

(1.2.2)生成分割图和阈值图的训练标签，所述分割图的训练标签被用于概率图预测模块生成概率图，所述阈值图的训练标签被用于阈值图预测模块生成阈值图；

(1.2.3)以标准训练数据集I_tr作为场景文本检测网络模型的输入，利用基本特征提取模块提取基本特征，将基本特征输入概率图预测模块得到概率图，将基本特征输入阈值图预测模块得到阈值图，分别将概率图和阈值图输入二值化模块，通过可微分二值化操作输出二值图；

(1.2.4)分别计算概率图预测模块、阈值图预测模块和二值图的损失函数，对上述3个损失函数加权求和，得到总的损失函数，反向传播计算梯度，使用随机梯度下降优化器更新模型参数，得到训练好的场景文本检测网络模型；

(2)利用上述训练好的场景文本检测网络模型进行场景文本检测，包括如下子步骤：

(2.2)将概率图根据一个预设阈值进行二值化，得到二值图；

2.根据权利要求1所述的基于可微分二值化的实时文本检测方法，其特征在于，所述步骤(1.2.1)中的场景文本检测网络模型具体为：

所述场景文本检测网络模型由基本特征提取模块、概率图预测模块、阈值图预测模块和二值化模块组成；其中，所述基本特征提取模块以ResNet-18或者ResNet-50深度卷积神经网络为基础网络，采用特征金字塔的形式，将不同尺寸的特征图进行融合，用于从输入图片中提取基本特征；将提取的基本特征分别输入概率图预测模块和阈值图预测模块，分别得到概率图和阈值图；概率图预测模块和阈值图预测模块的组成结构是一致的，均由一个3*3的卷积层和两个stride为2的反卷积层组成，对概率图预测模块应用分割图的训练标签，对阈值图预测模块应用阈值图的训练标签；然后将概率图和阈值图输入二值化模块，得到二值图；最后对二值图找连通区域，得到文本包围盒。

3.根据权利要求1或2所述的基于可微分二值化的文本检测方法，其特征在于，所述步骤(1.2.2)具体为：

对于一幅文字图片，每个标注的文字区域由多边形

描述，其中n为多边形的端点数量，为了生成分割图和阈值图的训练标签，首先通过多边形内缩算法变换为内缩或外扩的多边形框，内缩或外扩的距离由框的面积和周长计算得到，表达式为：

其中L是多边形的周长，A表示多边形的面积，从内缩之后的多边形框可以得到分割图的标签：在多边形内的像素视为正样本而其他像素位置视为负样本，同样地，从原始多边形框到内缩和外扩多边形框之间的区域可以生成阈值图的渐进标签。

4.根据权利要求1或2所述的基于可微分二值化的文本检测方法，其特征在于，所述步骤(1.2.3)具体为：

首先，将图片输入基本特征提取模块，将这些不同尺度的特征图上采样到同一个尺度，并将它们串联起来形成融合特征图F；接下来，融合特征图F被用来预测概率图P和阈值图T，融合特征图F分别被输入概率图预测模块和阈值图预测模块，分别得到概率图P和阈值图T；最后，将概率图P和阈值图T分别输入二值化模块，通过P和T计算出二值图B，计算公式为