CN114283431A

CN114283431A - 一种基于可微分二值化的文本检测方法

Info

Publication number: CN114283431A
Application number: CN202210207398.0A
Authority: CN
Inventors: 王三明; 王聪明; 王壮峰; 云尧
Original assignee: Nanjing Anyuan Technology Co ltd
Current assignee: Anyuan Technology Co.,Ltd.
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-04-05
Anticipated expiration: 2042-03-04
Also published as: CN114283431B

Abstract

本发明适用于文字识别技术领域，提供了一种基于可微分二值化的文本检测方法。该文字检测方法，包含：获取待识别的包含文字的图像；通过特征提取网络对待识别图像进行特征提取，经过计算得到概率图和阈值图；将概率图和阈值图经过可微分二值化模块处理，得到近似二值图；由近似二值图得到文本区域，对文本区域进行判断，对不规则的文本区域进行矫正，最终返回文本位置。本发明识别过程减少人工干预，全过程自动化，进一步提升了对不规则文字图像的文字检测效率和精度。

Description

一种基于可微分二值化的文本检测方法

技术领域

本发明属于文字识别技术领域，更具体地说，涉及一种基于可微分二值化的文本检测方法。

背景技术

文字是人类信息交流、感知世界的最重要的一个载体。生活中的文字图像无所不在，图像文字识别拥有着广泛的应用前景，如纸质书籍电子化、证件信息提取、票据自动化录入等。将图像中的文字转换为计算机中可编辑的字符，在图像分析领域有着不可替代的作用。

OCR（光学字符识别）文字识别方法精度受图像质量影响，如待识别图像没有模糊、文字偏转等因素影响，识别精度较高，否则识别精度下降。当前多数的OCR文字识别方法多是针对横排文字方向、质量较好的图像进行识别，精度较高。文字偏转、排版复杂、不规则文字等复杂图像的文字识别效果，无法满足使用者的期望。

发明内容

文字识别领域中，文字识别是通过文字检测模块检测出文字的区域，再针对检测区域的文字进行识别。在具体实际应用中，往往输入的待识别图像存在排版复杂、字体多样等情况，极大地影响了文字检测方法的检测效果，如漏检、错检，使得检测结果降低。同时文字图像种类繁多，排版多样，多种因素导致文字检测方法的检测结果不尽人意。在进行文字识别的过程中，当前主流的文字识别方法大多是针对水平排列的单行文字图像进行序列化识别文字，文字识别方法模型接收的图片都是文字检测模型输出的，文本检测输出结果中也会出现不规则的文本框，例如红章、艺术字体、弯取文本等。将不规则扭曲的文本框矫正为规则的、水平的、文字横向排列的文本框，提升文字识别的效果，使得整体文字识别系统的准确率大大提升，具有极高的实际应用价值。故在常见场景下，人们需要一种对含有不规则文字的文字图像进行准确提取信息的方法，进而获得完整、准确的文字信息。

为了解决上述问题，本发明的目的在于提供一种基于可微分二值化的文本检测方法，能够提升文本检测的准确率，进而提升文字识别的整体效果。包括以下步骤：

步骤a、获取待识别的文字图像，对直接获取的原始样本进行边缘调整、比例缩放、均值化处理操作，得到识别样本，为第一类样本。

步骤b、对第一类样本输入至门特征金字塔网络GFPN中提取特征，得到样本特征图F，通过样本特征图F预测概率图P以及阈值图T，其中：

所述门特征金字塔网络GFPN包括多个Gblock门模块，Gblock门模块由一组核大小为1×1、3×3和5×5的卷积层组成，并将不同的卷积层的特征相加。

在每个横向连接的1×1, 3×3, 5×5卷积块之前插入一个动态门，其中：

动态门在特征图I_i上使用非线性函数生成门信号：

其中,

表示门信号的关闭,其形式为one-hot向量，

，

表示门概率计算函数，

表示第j个位置第i个特征图的采样概率，a_i表示第i个Gblock门模块的采样概率，m是Gblock门模块个数，

是随机采样的噪声，t表示常数；第i个Gblock门模块的采样概率的计算方式如下：

其中，

表示Gblock门模块的采样概率的计算权重，A表示激活函数，

表示池化层的采样概率的计算权重，Pool表示全局池化函数，

表示第i个动态门上的特征图，

表示池化层的采样概率的计算常数，

表示Gblock门模块中采样概率的计算常数，激活函数：

，

，

表示池化层的采样概率，

表示激活函数参数；

步骤c、将概率图P和阈值图T经过可微分二值化模块处理，得到近似二值图

，作为第二类样本。

步骤d、由近似二值图

得到文本区域，对文本区域进行判断，如果文本区域判断为不规则，则对不规则的文本区域进行矫正，得到第三类样本。

步骤e、返回文本区域的位置坐标。

进一步的，Gblock门模块中，将不同卷积层的特征相加，其中：

。

其中，Conv_1X1表示核大小为1×1的卷积，Conv_3X3表示核大小为3×3的卷积，Conv_5X5表示核大小为5×5的卷积，

表示第i个Gblock门模块上的特征图，

表示第i个Gblock门模块上的特征图计算函数，

表示第i个Gblock门模块上的特征图输出。

进一步的，在所述门特征金字塔网络GFPN中，给定输入大小为1024×1024的图片I，经过卷积和池化操作得到大小为512×512的第一特征图I₁，第一特征图I₁经过卷积和池化操作得到大小为256×256的第二特征图I₂,后者由前者经过相同的卷积层和池化层的卷积和池化操作得到，以此类推，得到大小为128×128的第三特征图I₃、大小为64×64的第四特征图I₄、大小为32×32的第五特征图I₅。

门特征金字塔网络GFPN的网络输入特征图为{I₂,I₃,I₄,I₅}，网络输出特征图为{Q₂,Q₃,Q₄,Q₅}，其中：

其中，q代表特征金字塔的层数，

表示第q层特征金字塔输出的单层输出特征图，R代表调整大小的操作，f_q是 1×1卷积。

进一步的，由门特征金字塔网络GFPN的网络输出特征图{Q₂,Q₃,Q₄,Q₅}，分别经过Conv_3×3和对应倍数的大小调整，得到中间特征图{

,

,

,

}，计算过程表示为：

其中，2^i-2表示调整大小的倍数，Conv_3×3表示3×3卷积，将得到的中间特征图{

,

,

,

}通过连接层concat连接融合操作得到门特征金字塔网络GFPN最后输出的输出特征图F。

进一步的，由输出特征图F计算出概率图P和阈值图T，计算过程相同，其过程如下：

将大小为256×256的输出特征图F先经过卷积层，将通道压缩为输入的1/4，然后经过BN和relu操作，得到的特征图大小为256×256。

将得到的特征图进行反卷积操作，卷积核为2×2，得到的特征图大小为512×512，此时为原图的1/2大小。

再进行反卷积操作，不同的是输出的特征图通道为1，得到的特征图大小为1024×1024，此时为原图大小。

最后经过sigmoid函数，输出结果。

进一步的，通过可微分二值化公式，即可得到最终的近似二值图

：

其中，

表示近似二值图，

是网络学习的阈值图T中每个像素点的阈值，

表示概率图P中每个像素点是文本的概率，k是一个因子。

进一步的，所述概率图P和近似二值图

使用的是相同的标签。

进一步的，所述步骤d中，对第二类样本进行轮廓检测，得到轮廓点集合，对所有轮廓点进行迭代终点拟合，得到文字轮廓的外接多边形。

进一步的，将得到的文字轮廓外接多边形进行判断，若不是矩形，则对不规则的多边形进行矫正。

本发明的用于文字过程中的文件检测方法，具有如下优势：

1、使用了人工智能识别技术，有效的识别明暗变化、模糊的文字图像，使得整体文字识别的效果大幅提高，适应多种应用场景，例如证件识别、票据识别、复杂文档识别、场景文字识别等。

2、GFPN模块中不同的卷积核带来了不同大小的感受野，因而能够有效的检测出不同大小的文字区域，避免文字检测过程中漏检、误检等问题。

3、不同大小的检测目标并不是全部需要大的感受野，因而使用动态门的Gblock模块来选择待检测目标所需要的合适大小的卷积核，提升效果的同时减少计算量。

4、使用可微分二值化的文字方向检测模型，有效的识别了复杂排版文字图像，避免了漏识别、错识别问题，并且很好地支持了曲形文字，保证了复杂排版文字图像上提取信息的完整，能够适应生活中绝大多数的复杂文字识别场景，有效的提升了文字识别精度。

5、引入曲形文本框矫正功能，将不规则文本框矫正得到矩形文本框，极大地提升了文字识别准确率，更好的支持了复杂排版中曲形文字的识别。同时，利用深度神经网络得到基准点，矫正过程不需手工设计特征，避免了复杂的计算过程，极大地减少了任务量，鲁棒性好。

6、在深度神经网络模型构建方面，灵活配置骨干网络，节省计算开销，提升文字识别的效率。不同骨干网络适配不同计算硬件，文字识别系统的部署方式多样化。

附图说明

图1为本发明的文本检测方法的运行环境图。

图2为本发明的实施方式流程图。

图3为本发明的检测方法中第一类样本到第二类样本的过程图。

图4为门特征金字塔网络GFPN结构图。

图5为不规则的多边形文本框矫正图。

图6为本发明的矫正过程中的相关结构表。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供的文本检测方法在获取待识别文字图像的过程中，可以运行在此应用环境中，其中，客户端与服务端进行通信，客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务端可以用独立的服务器或者是多个服务器组成的服务器集群或者是云服务器来实现。

如图2和图3，图2是本发明基于人工智能的文本检测方法的实施方式流程图，图3显示了更多细节。

1、获取待识别的文字图像，得到原始样本。对原始样本进行边缘调整、比例缩放、均值化处理等操作，得到第一类样本。

2、将第一类样本送入文字位置检测模型进行预测，得到文字位置对应的文本框，此为第二类样本。

其中，文字位置检测模型使用了基于分割的文字检测方法。在文字检测的相关方法中，相比于基于回归的文字检测方法，基于分割的文字检测方法往往更为准确。已有高效的文本检测器（基于回归）多数是针对四边形文本样例设计的, 在检测曲线文本时存在不足。实际生活中的文字图像上，文字的形状、字体、大小多种多样，基于分割的文本检测方法能够预测像素级的结果来描述各种形状的文本，是一种较为通用的文字检测方法。

在本实施例的该步骤中，具体地，采用可微分二值化思想，整体网络结构如图3所示。

在图3中，第一类样本输入至门特征金字塔网络GFPN（Gate Feature PyramidNetworks）提取特征，得到特征图F，通过特征图F预测概率图（probability map）称为P以及阈值图（threshold map）称为T，最后通过概率图P以及阈值图T计算出近似二值图

。推断过程文本框可以通过近似二值图

或者概率图来获取。

其中，门特征金字塔网络GFPN（Gate Feature Pyramid Networks）网络结构如图4所示。

其中，给定输入图片I（1024×1024），经过conv+pool卷积和池化操作得到第一特征图I₁（512×512），第一特征图I₁经过conv+pool得到第二特征图I₂（256×256）,后者由前者经过相同的卷积层和池化层得到，以此类推，分别可以得到第三特征图I₃（128×128），第四特征图I₄（64×64），第五特征图I₅（32×32）。

门特征金字塔网络GFPN是一种有效的特征融合方法，用于提高网络性能。门特征金字塔网络GFPN输入的特征为{I₂,I₃,I₄,I₅}，输出的特征为{Q₂,Q₃,Q₄,Q₅}，建模如下：

其中，q代表特征金字塔的层数，R代表调整大小的操作，f_q是 1×1卷积。

图4所示，门特征金字塔网络包括多个Gblock门模块，Gblock门模块（Gate block）中通过门（Gate）来有选择地扩展感受野来丰富特征金字塔的空间信息。Gblock门模块由一组核大小为1×1、3×3和5×5的卷积组成，并将不同卷积的特征相加如下：

其中，Conv_1X1表示核大小为1×1的卷积，Conv_3X3表示核大小为3×3的卷积，Conv_5X5表示核大小为5×5的卷积。

Gblock门模块包括1×1、3×3和5×5的卷积，通过组合不同的卷积可以有效地生成更好的特征，充分扩展感受野来丰富空间信息，显著提高了检测精度。Gblock门模块通过引入动态门来解决计算负担问题，在每个横向连接的1×1, 3×3, 5×5卷积块之前插入一个计算成本可以忽略的动态门，有选择地去判断是否需要使用不同卷积层去提取当前的输入特征图I_i。GFPN的特征将会根据输入来动态计算，因此可以提供更有效的动态推理，从而在精度和计算成本之间实现更好的平衡，在优化计算资源分配的同时显著提高了性能，动态门根据输入自适应地确定是否执行整个卷积块，动态门可以大大降低计算成本，同时保持高检测精度。

动态门在特征图I_i上使用非线性函数生成门信号：

其中,

表示门信号的关闭,其形式为one-hot向量，

，

表示门概率计算函数，

其中，

表示Gblock门模块的采样概率的计算权重，A表示激活函数，

表示池化层的采样概率的计算权重，Pool表示全局池化函数，

表示第i个动态门上的特征图，

表示池化层的采样概率的计算常数，

表示Gblock门模块中采样概率的计算常数，激活函数：

，

，

表示池化层的采样概率，

表示激活函数参数；

由GFPN模块输出特征{Q₂,Q₃,Q₄,Q₅}，分别经过Conv_3×3和对应倍数的大小调整，得到特征{

,

,

,

}，计算过程表示为：

其中2^i-2表示调整大小的倍数，Conv_3×3表示3×3卷积。将得到的特征{

,

,

,

}通过concat操作得到GFPN模块最后输出的特征图F。

特征图F（256*256）先经过卷积层，将通道压缩为输入的1/4，然后经过BN和relu，得到的特征图shape为(256, 256)。

将得到的特征图进行反卷积操作，卷积核为(2,2)，得到的特征图shape为(512,512)，此时为原图的1/2大小。

再进行反卷积操作，不同的是输出的特征图通道为1，得到的特征图shape为(1024,1024)，此时为原图大小。

最后经过sigmoid函数，输出概率图P。

特征图F（256*256）得到阈值图T的过程与上述F->P过程相同，只是训练的过程中，参数不同。

由于概率图P和阈值图T已知，通过可微分二值化公式：

即可得到最终的近似二值图

。上式输出的

表示近似二值图，T是网络学习的阈值图，k是一个因子，本文设为50。概率图P和二值图

使用的是相同的标签。将每个标注框缩小一定的偏移量，偏移量的大小的定义如下式所示：

其中，A是收缩区域的面积，L是收缩区域的周长，r是收缩因子。

得到的标签图称为

，原始标注文本框为G。首先使用

计算过程中的偏移量 D进行多边形的扩充。得到

和G之间的区域。计算之间区域到原始框的距离，并得到最近边（长方形就是 4 条边）的距离。最外面的大框线上区域和最里面的小框线上区域计算为 D，原始框位置的距离为 0。进行第一次的归一化，即除以D，这样距离控制到 [0,1] 之间，并且最中间的区域越接近0，越里面和越外面的区域越接近1。然后使用 1-X 操作，让越中心的距离为1，越边缘的距离为0。（图片显示就是中间亮两头暗）。最终再进行缩放，比如归一化到 [0.3，0.7] 的值。

使用可微分二值化深度神经网络模型对第二类样本进行推理预测，可得到第二类样本经过模型后输出的二值化结果图像。从二值图中获取连通域(收缩后的文字区域)。使用偏移量D来膨胀文字收缩区域。

其中A是收缩区域的面积，L是收缩区域的周长， r是收缩因子，r经验上设置到1.5。可以通过修改r值来获取不同膨胀程度的文字区域，调整文本框大小可以更好的获得检测结果，提升整体文字识别效果。

3、根据第2步中得到的第二类样本，对第二类样本（二值图）进行文本框检测，检测得到第二类样本上所有文本框，将第二类样本中规则的矩形文本框送入下一步，将扭曲的不规则的文本框进行矫正，矫正后的样本为第三类样本。

第二类样本（二值图）进行轮廓检测，得到轮廓点集合，对所有轮廓点进行迭代终点拟合方法，得到文字轮廓的外接多边形，迭代终点拟合方法具体处理步骤如下：

（1）在曲线首尾两点 A，B 之间连接一条直线 AB，该直线为曲线的弦。

（2）得到曲线上离该直线段距离最大的点 C，计算其与 AB 的距离 d。

（3）比较该距离与预先给定的阈值 threshold 的大小，如果小于 threshold，则该直线段作为曲线的近似，该段曲线处理完毕。

（4）如果距离大于阈值，则用 C 将曲线分为两段 AC 和 BC ，并分别对两段曲线进行（1）-（3）的步骤处理。

（5）当所有曲线都处理完毕时，依次连接各个分割点形成的折线，即可以作为曲线的近似。

将得到的文字轮廓外接多边形进行判断，若不是矩形，需要对不规则的多边形进行矫正，矫正过程采用TPS方法，如图5所示，具体过程如下：

（Ⅰ）将已得多边形文字区域通过连通域方法得到最小外接矩形，根据矩形边框将不规则文本块裁剪出。

（Ⅱ）通过深度神经网络模型，对裁剪到的文字图片进行预测，得到文字位置上下两个方向的K（此处K=20）个基准点。网络输入为100×32，其相关结构如图6。

（Ⅲ）根据获取到的基准点位置，在目标图像上下边缘均匀生成K个基准点，利用前后基准点映射关系，通过TPS变换，得到不规则文本框矫正后的矩形文本框。

以上所述，仅为本发明较佳的具体实施方式。但本发明的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其改进构思加以等同替换或改变，都应涵盖在本发明的保护范围内。

Claims

1.一种基于可微分二值化的文本检测方法，其特征在于，包括以下步骤：

步骤a、获取待识别的文字图像，对直接获取的原始样本进行边缘调整、比例缩放、均值化处理操作，得到识别样本，为第一类样本；

所述门特征金字塔网络GFPN包括多个Gblock门模块，Gblock门模块由一组核大小为1×1、3×3和5×5的卷积层组成，并将不同的卷积层的特征相加；

动态门使用非线性函数生成门信号：

其中,

表示门信号的关闭,其形式为one-hot向量，

，

表示门概率计算函数，

其中，

表示Gblock门模块的采样概率的计算权重，A表示激活函数，

表示池化层的采样概率的计算权重，Pool表示全局池化函数，

表示第i个动态门上的特征图，

表示池化层的采样概率的计算常数，

表示Gblock门模块中采样概率的计算常数，激活函数：

，

，

表示池化层的采样概率，

表示激活函数参数；

，作为第二类样本；

步骤d、由近似二值图

得到文本区域，对文本区域进行判断，如果文本区域判断为不规则，则对不规则的文本区域进行矫正，得到第三类样本；

步骤e、返回文本区域的位置坐标。

2.根据权利要求1所述的一种基于可微分二值化的文本检测方法，其特征在于：Gblock门模块中，将不同卷积层的特征相加，其中：

；

表示第i个Gblock门模块上的特征图，

表示第i个Gblock门模块上的特征图计算函数，

表示第i个Gblock门模块上的特征图输出。

3.根据权利要求2所述的一种基于可微分二值化的文本检测方法，其特征在于：在所述门特征金字塔网络GFPN中，给定输入大小为1024×1024的图片I，经过卷积和池化操作得到大小为512×512的第一特征图I₁，第一特征图I₁经过卷积和池化操作得到大小为256×256的第二特征图I₂,后者由前者经过相同的卷积层和池化层的卷积和池化操作得到，以此类推，得到大小为128×128的第三特征图I₃、大小为64×64的第四特征图I₄、大小为32×32的第五特征图I₅；