CN110895695A

CN110895695A - 用于文本图片字符切分的深度学习网络、切分方法

Info

Publication number: CN110895695A
Application number: CN201910701921.3A
Authority: CN
Inventors: 刘晋; 张瑾英明
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2020-03-20
Anticipated expiration: 2039-07-31
Also published as: CN110895695B

Abstract

本发明提供一种用于文本图片字符切分的深度学习网络，应用于图像识别技术领域，包括：特征金字塔网络，为基于通道空间双重注意力融合机制的网络结构，用于提取多尺度特征图；区域建议网络，用于在多尺度的特征图上逐像素生成锚点，每个尺度的特征图上都生成相应锚点框，通过所述锚点框进行卷积区分锚点框是前景还是背景的二分类分数；以及前景锚点框与其真值的偏移量；特征区分网络，用于通过将不同尺度的ROI对应至其相应的特征图上并输出相同尺寸的ROI特征图；构建简单卷积层和全连接层再次回归ROI与真值的偏移量来对ROI进行二次修正。应用本发明实施例，能够将图像文字识别和预测相结合，提高识别的准确率。

Description

用于文本图片字符切分的深度学习网络、切分方法

技术领域

本发明涉及图像处理技术领域，特别是涉及一种用于文本图片字符切分的深度学习网络和切分方法。

背景技术

文本识别通常采用的是光学字符识别(Optical Character Recognition, OCR)，一种是端到端地以序列方式从图片中识别文本。

对于字符切分技术，多数还是使用基于规则以及传统机器学习算法，例如投影法，文字轮廓提取法等，但是当字符粘连重叠或间距过小以及左右结构的字时，常常会出现欠切分或过切分的情况，也无法获得任何更深层次的特征。

因此，现有的字符切分这导致上述问题一直都无法得到很好的解决。若使用其他机器学习方法来处理该问题，则存在切分速度慢，切分不精准的问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种用于文本图片字符切分的深度学习网络及装置，旨在使用多种不同用途的注意力模块作用于二阶段的实例分割网络，不仅能够识别正常的字符，还能够从有噪声的文本行图片中精确切分出正常间距的字符，较小间距的字符，粘连字符，部分重叠字符等特殊情况。

为实现上述目的及其他相关目的，本发明提供一种用于文本图片字符切分的深度学习网络，所述深度学习网络包括：

特征金字塔网络，为基于通道空间双重注意力融合机制的网络结构，用于提取多尺度特征图；

区域建议网络，用于在多尺度的特征图上逐像素生成锚点，每个尺度的特征图上都生成相应锚点框，通过所述锚点框进行卷积区分锚点框是前景还是背景的二分类分数；以及前景锚点框与其真值的偏移量；

特征区分网络，用于通过将不同尺度的ROI对应至其相应的特征图上并输出相同尺寸的ROI特征图；构建简单卷积层和全连接层再次回归ROI与真值的偏移量来对ROI进行二次修正。

一种实现方式中，所述特征区分网络为于编码解码结构的特征区分网络，用于精细化生成的轮廓，包括一个平滑网络以及一个边界网络构成，所述平滑网络采用自底向上结构及若干残差精修块和通道注意力块构成。

一种实现方式中，所述采用长短时神经网络，根据所述图像信息进行预测，获取多个预测结果的步骤，包括：

所述特征金字塔网络包括：用于将输入通过卷积操作进行维度统一；

将高分辨率特征图HF进行全局平均池化，利用softmax激活函数求出通道级别的注意力图CA；

根据所述通道级别的注意力图CA，指导低分辨率特征图LF进行特征选择；

将低分辨率的特征图LF利用sigmoid激活函数求出像素点级别的注意力图SA；

根据所述像素点级别的注意力图SA，指导高分辨率的特征图找到字符轮廓；

将高分辨率特征图和低分辨率特征图联接，并进行降维处理；

利用残差捷径路线将最终结果与高分辨率特征图输入进行加和进行融合，获得融合结果。

一种实现方式中，所述融合结果的具体表达为：

Figure RE-RE-RE-RE-GDA0002287250350000021

其中，R是融合的结果，HF是高分辨率特征图，LF是低分辨率特征图，SA是像素级别的注意力图，CA是通道级别的注意力图。

一种实现方式中，所述区域建议网络，具体用于在多尺度的特征图上分别按照滑窗法逐像素生成锚点，每个尺度的特征图上都生成相应三种长宽比的锚点框，将所述锚点框在区域建议网络中通过卷积得到二分类分数以及前景锚点框与其真值的偏移量，其中，所述二分类分数用于区分锚点框是前景还是背景的二分类分数。

一种实现方式中，所述边界网络的输出具体表达：

Out＝BO₃+SO₀ (2)

其中，

BO₀＝RRB(I₀) (3)

BO_i＝PRB(I_i)+PRB(BO_i-1)

SO_i＝CAB(RRB(I_i),RRB(SO_i+1))i＝2,1,0

SO₃＝CAB(RRB(I₃),GA(I₃))

其中，BO_i表示边界网络每个阶段的输出，RRB()表示残差精修操作，SO_i表示平滑网络每个阶段的输出，CAB()表示注意力融合操作，I_i表示下采样过程中各阶段的输入，Out表示网络的最终输出。

一种实现方式中，所述区域建议网络的损失函数的二值交叉熵损失表达如下：

Figure RE-RE-RE-RE-GDA0002287250350000031

其中，yⁱ表示样本标签，

Figure RE-RE-RE-RE-GDA0002287250350000032

表示预测值为正样本的概率，当yⁱ＝1时则代表正样本标签，而yⁱ＝0时则代表负样本标签；

所述区域建议网络的Smooth L1损失函数定义如下：

Figure RE-RE-RE-RE-GDA0002287250350000033

Figure RE-RE-RE-RE-GDA0002287250350000034

其中，

Figure RE-RE-RE-RE-GDA0002287250350000035

即预测值和真实值坐标的偏移量，x,y,w,h是每个ROI 以中心坐标以及宽和高标定值；

所述区域建议网络部分的整体损失函数表达为：

Figure RE-RE-RE-RE-GDA0002287250350000041

其中，解释pi ri、Ncls、Pi、pi*，λ，Nreq、Lreg、ri、ri*。

一种实现方式中，所述深度学习网络的损失函数表达为：

L_final＝L({p_i},{r_i})+(L_cls+L_box+L_mask) (8)

其中，L_box表示头部结构中边界框回归操作的损失，L_mask表示头部结构中回归掩膜操作的损失，L_cls表示头部结构中对每个ROI的分类损失，p_i和r_i分别表示在区域建议网络中预测到的分类分数和回归出的偏移量。

此外，本发明还公开了一种基于深度学习网络的文本图片字符切分的方法，其特征在于，所述方法包括：

对输入图片进行均值归一化、尺度重建等预处理操作。

通过特征提取网络提取输入图片中的多尺度特征。

在多尺度特征图上生成锚点框并利用区域建议网络回归出每个锚点框的前景背景概率以及前景锚点框的偏移量；

筛选出前景分数最大的第一数量个锚点框；

利用偏移量进行修正，经过非极大值抑制，从所述第一数量个锚点框中筛选出第二数量个锚点框，并提取出前景概率最大的第三数量个ROI并输出；

将不同的尺度的ROI对准到相应尺度的特征图上；

根据头部结构回归出每个ROI的类别以及ROI的偏移量进行二次修正；

根据修正后的ROI及其类别回归出每个实体的掩膜图，勾勒出实体的轮廓

回归出每个字符包围框的坐标；

根据坐标从原图中将字符切分并保存。

一种实现方式中，所述方法还包括：

当包围框存在部分重叠时，删去重叠部分区域。

本发明还公开了一种基于深度学习网络的文本图片字符切分装置，所述装置包括处理器、以及通过通信总线与所述处理器连接的存储器；其中，

所述存储器，用于存储基于深度学习网络的文本图片字符切分程序；

所述处理器，用于执行所述基于深度学习网络的文本图片字符切分程序，以实现任一项所述的基于深度学习网络的文本图片字符切分步骤。

以及，还公开了一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以使所述一个或者多个处理器执行任一项所述的基于深度学习网络的文本图片字符切分步骤。

如上所述，本发明实施例提供的一种用于文本图片字符切分的深度学习网络、切分方法、装置及计算存储介质，与传统方法相比，解决了小间距或粘连字符的精确切分问题，在有一定噪声的情况下，依旧可以达到较好的切分效果。具备强大的拟合能力使其不需要大量数据即可对多尺度的字符进行更加精确的边缘切分以及轮廓回归。且本发明实施例所提出的基于混合注意力机制的文本图片字符切分方法强化了网络多尺度字符精细检测的能力，有助于精准地回归边界框、分类ROI以及回归Mask掩膜图，更加适应文本行中的字符切割任务。

附图说明

图1是本发明实施例的一种用于文本图片字符切分的深度学习网络的一种结构示意图。

图2是本发明实施例的一种用于文本图片字符切分的深度学习网络的一种应用示意图。

图3是本发明实施例的一种用于文本图片字符切分的深度学习网络的一种应用示意图。

图4是本发明实施例的一种用于文本图片字符切分的深度学习网络的一种应用示意图。

图5是本发明实施例的一种用于文本图片字符切分的深度学习网络的一种应用示意图。

图6是本发明实施例的一种用于文本图片字符切分的深度学习网络的一种应用示意图。

图7是本发明实施例的一种用于文本图片字符切分的深度学习网络的一种应用示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1-7。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明实施例中，所构建的深度学习的各个网络模块，网络的整体结构图如图1所示。具体说明如下：

在模型训练的过程中，首先从6584个字符中随机抽取字符并以不同背景、不等间距、混合字符、随机字体以及随机高斯模糊的方式生成数据集，并使用VIA软件人为进行数据标注。本发明中共生成训练样本1000张，验证样本200张，测试样本200张。数据样图及标注图片如图2、图3所示。此外，还可以在进行均值归一化后将图片尺寸重建至512×512。

首先，针对基于通道—空间双重注意力融合机制的特征金字塔网络：该网络模块的结构图，如图4所示，输入图像经过C1、C2、C3、C4、C5分别表示采样的各个阶段，具体可以为残差网络下采样过程的各个阶段，P2、P3、 P4、P5为特征金字塔上采样过程中的各个阶段，P6由P5下采样得到的，F 表示通道控件双重注意力融合模块。然后将P2-P6的的采样结果分别输入3*3 的卷积，经过卷积操作后输出多尺度特征图。

由于残差网络采用了捷径(shortcut)结构导致深层网络变得更易训练，因此该网络模块以深度为101层的Res101作为特征提取器。深层残差网络提取出的特征图虽然包含了高级语义信息，但是由于多次的下采样也导致大量的位置和轮廓信息丢失，而单一尺度的特征图对于多尺度物体的检测非常不利，因此本发明使用了特征金字塔结构对分辨率较低且包含高级语义信息的特征图进行数次上采样还原其分辨率以生成多尺度的特征图，同时在上采样的每个阶段都融合下采样阶段的特征图将先前损失的细节特征进行补充。在此过程中高级语义信息和低级细节信息在融合时通过通道—空间双重注意力融合机制相互指导特征选择过程，使低级信息包含更多语义信息，高级信息包含更多细节信息，最小化下采样过程中带来的信息损失。通道—空间双重注意力融合机制将两个输入通过1×1的卷积操作进行维度统一，之后先将高分辨率特征图作全局平均池化后利用softmax激活函数求出通道级别的注意力图，以此来指导低分辨率特征图进行特征选择；再将低分辨率的特征图直接利用 sigmoid激活函数求出像素点级别的注意力图，以此来指导高分辨率的特征图找到字符轮廓。将指导过后的高分辨率特征图和低分辨率特征图联接 (Concatenate)起来再统一进行降维处理，最后利用残差捷径路线将最终结果与高分辨率特征图输入进行加和(Add)便完成了融合过程，形式化的表达如下：

Figure RE-RE-RE-RE-GDA0002287250350000071

其中R表示融合的结果，HF表示高分辨率特征图，LF表示低分辨率特征图，SA表示像素级别的注意力图，CA表示通道级别的注意力图，具体结构图如图5所示。

残差网络中五个阶段的卷积步长选用{4,8,16,32,64},输出的五个特征图的维度统一为256维。为了避免上采样过程中所带来的混叠效应，输出的五个特征图在送入区域建议网络之前还经过了一次卷积核为3×3的卷积处理。

空间引导的区域建议网络：区域建议网络是在多尺度的特征图上分别按照滑窗法逐像素生成锚点，每个尺度的特征图上都生成相应尺度、三种长宽比的锚点框，这些锚点框在区域建议网络中通过简单卷积得到一个区分锚点框是前景还是背景的二分类分数以及前景锚点框与其真值的偏移量，在训练过程中仅使用部分正负均衡的样本进行反向传播。为了让区域建议网络在回归偏移量时更加精准，本发明引入了一个空间引导分支，该分支由残差空间注意力模块组成，通过将输入特征图进行维度调整和卷积操作再利用sigmoid 激活函数得出空间引导的注意力图，利用该图训练中学习到的空间权重分布来指导网络原先的回归操作。

可以使得区域建议网络对偏移量的回归更精准，可具体表达为：

Figure RE-RE-RE-RE-GDA0002287250350000081

其中，R表示输出结果，I表示输入的特征图，Ψ()表示空间引导的过程，该模块的具体结构图如图6所示。

用回归出的偏移量修正原先的前景锚点框，使用top-k算法和非极大值抑制方法(NMS)从这些前景锚点框中筛选出感兴趣区域(ROI)用于头部结构的回归处理。

在训练过程中，先要单独训练区域建议网络分类锚点框以及回归偏移量的能力。首先在特征提取网络中提取出的五种不同尺度特征图上扫描锚点并以长宽比为R、尺度为S生成锚点框，其中 R∈{0.5,1,2},S∈{32,64,128,256,512}。之后将锚点框与相应真值计算IOU并将IOU＞0.7的样本作为正样本，IOU＜0.3的样本作为负样本，从中随机采样256个样本作为区域建议网络的训练样本，其中正负样本的比例为1:1。其中IOU的计算方法定义如下：

Figure RE-RE-RE-RE-GDA0002287250350000082

其中，FA是前景锚点框，GT是对应真值。

在区域建议网络中共有两个任务，其一是区分锚点框是前景框还是背景框，其二是回归前景锚点框与其真值的偏移量，网络中的损失函数由一个二值交叉熵损失和一个SmoothL1损失构成。二值交叉熵损失函数定义如下：

Figure RE-RE-RE-RE-GDA0002287250350000091

其中，yⁱ表示样本标签，

Figure RE-RE-RE-RE-GDA0002287250350000092

表示预测值为正样本的概率。当yⁱ＝1时则代表正样本标签，而yⁱ＝0时则代表负样本标签，所有样本损失的加和即为分类任务的损失；

Smooth L1损失函数定义如下：

Figure RE-RE-RE-RE-GDA0002287250350000093

Figure RE-RE-RE-RE-GDA0002287250350000094

公式(2)中

Figure RE-RE-RE-RE-GDA0002287250350000095

即预测值和真实值坐标的偏移量，对每个锚点框计算出其Smooth L1损失后求和即可得到区域建议网络中回归偏移量的损失；

区域建议网络部分的整体损失函数定义为上述两个损失的平均值的加和：

Figure RE-RE-RE-RE-GDA0002287250350000096

利用区域建议网络将锚点框分类成前景和背景，并结合空间引导分支的权重计算出所有前景锚点框与其真值的偏移量。前景锚点框有非常多的冗余，如果全部使用则会导致计算效率低下且占用大量资源。因此先筛选出前景概率最大的4000个前景框，利用回归出的偏移量对其进行修正，再利用非极大值抑制方法过滤重叠的冗余锚点框，之后从剩下的前景框中再次筛选出前景概率最大的300个前景框。其中偏移量修正过程如下：

Figure RE-RE-RE-RE-GDA0002287250350000097

Figure RE-RE-RE-RE-GDA0002287250350000098

Figure RE-RE-RE-RE-GDA0002287250350000101

Figure RE-RE-RE-RE-GDA0002287250350000102

Figure RE-RE-RE-RE-GDA0002287250350000103

Figure RE-RE-RE-RE-GDA0002287250350000104

Figure RE-RE-RE-RE-GDA0002287250350000105

Figure RE-RE-RE-RE-GDA0002287250350000106

每个ROI以中心坐标以及宽和高标定，即(x,y,w,h)。为了让生成的前景锚点框和真值更加匹配，需要对锚点框进行两步处理，第一步做中心平移，第二步做尺度变换。公式(6)是回归偏移量的过程，其中P是输入的ROI，G 是GT，{d_x(P),d_x(P),d_w(P),d_h(P)}是回归出的偏移量。公式(7)是对前景锚点框进行修正的过程，

Figure RE-RE-RE-RE-GDA0002287250350000107

是经过修正后的锚点框。

从300个前景框中将IOU＞0.5的样本作为正样本，IOU＜0.5的样本作为负样本，正负样本以1:3的比例共采样出128个样本用于训练头部结构。

将筛选出的128个样本对准到其相应的特征图上，并通过池化输出固定大小为7×7的特征图。

结合特征区分网络的头部结构：从区域建议网络中生成的ROI经过采样后选择分类分数最高的k个ROI送入头部结构进行边界框和掩膜图的回归。此模块由双分支构成，先通过ROI对准方法(ROIAlign)将不同尺度的ROI对应至其相应的特征图上并输出相同尺寸的ROI特征图，再构建简单卷积层和全连接层再次回归ROI与真值的偏移量来对ROI进行二次修正，此时的每个 ROI即是最终检测出的每个实体，之后构建全卷积神经网络并利用修正后的ROI切割出每个ROI中的实体轮廓。在回归实体轮廓操作中，引入基于编码解码结构的特征区分网络用于精细化生成的轮廓，该结构将从语义和细节两方面辅助掩膜图的回归，使轮廓更加贴合，同时还可以解决类内一致性和类间互异性的问题。该结构由一个平滑网络以及一个边界网络构成，平滑网络采用自底向上结构及若干残差精修块和通道注意力块构成；边界网络采用自顶向下结构及若干残差精修块组成。公式表达如下：

BO_i＝RRB(I_i)+RRB(BO_i-1)i＝1,2,3 (10)

BO₀＝RRB(I₀)

SO_i＝CAB(RRB(I_i),RRB(SO_i+1))i＝2,1,0

SO₃＝CAB(RRB(I₃),GA(I₃))

Out＝BO₃+SO₀

在头部结构中共有三个任务，第一是回归每个ROI中的实体是否是字符，第二是回归出每个ROI与其真值的偏移量，并以此再次修正ROI，第三是使用修正且筛选后的ROI并以类别为单位生成掩膜图。使用的损失函数分别是二值交叉熵损失，Smooth L1损失以及平均二值交叉熵损失。三者的公式定义见公式(1)和公式(3)，平均二值交叉熵损失用于计算掩膜图回归的损失，这一部分在具体实现时是按类别回归二值掩膜图，因此对于每个类都会应用一个二值交叉熵损失，最终求和取均值即为掩膜图回归的损失；

整个网络的损失函数如下：

L_final＝L({p_i},{r_i})+(L_cls+L_box+L_mask) (11)

该部分的梯度不会回传到整个网络，在区域建议网络之后梯度就被截断。

由于数据集中中英文数据存在一定的样本不均衡性，因此英文数据的验证效果始终很差。故在训练过程中使用了在线难例挖掘方法维护了一个难例池，每次将验证效果较差的样本缓存在难例池中，当池中数据量累计满一个批尺寸时，就送入模型进行训练。这样可以让难例进行多次训练，让模型能够拟合得更好。

训练过程中，网络共迭代了500轮，每轮迭代了10000步，训练了20 个小时完成收敛。

切分阶段包括以下8个步骤：

对输入图片进行均值归一化、尺度重建等预处理操作。

加载训练完成的字符实例切分模型。

通过特征提取网络提取输入图片中的多尺度特征。

在多尺度特征图上生成锚点框并利用区域建议网络回归出每个锚点框的前景背景概率以及前景锚点框的偏移量，筛选出前景分数前4000的锚点框，利用偏移量进行修正，经过非极大值抑制将ROI筛选到1000个，最终提取出前景概率前200的ROI并输出。

将不同的尺度的ROI对准到相应尺度的特征图上。

头部结构回归出每个ROI的类别以及ROI的偏移量进行二次修正。

根据修正后的ROI及其类别回归出每个实体的掩膜图，勾勒出实体的轮廓。

回归出每个字符包围框的坐标后，根据坐标从原图中将字符切下并保存。

切分过程中得到切分结果如图7所示。

当遇到粘连字符时，包围框存在部分重叠的情况，但重叠面积不会太大，因此在处理这种情况时，直接删去重叠部分。公式表示如下：

BBx₁＝BBx₁-BBx₁∩BBx₂ (12)

BBx₂＝BBx₂-BBx₁∩BBx₂ (13)

其中，BBx₁∩BBx₂是BBx₁和BBx₂的重叠部分。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种用于文本图片字符切分的深度学习网络，其特征在于，所述深度学习网络包括：

2.根据权利要求1所述的一种用于文本图片字符切分的深度学习网络，其特征在于，所述特征区分网络为于编码解码结构的特征区分网络，用于精细化生成的轮廓，包括一个平滑网络以及一个边界网络构成，所述平滑网络采用自底向上结构及若干残差精修块和通道注意力块构成。

3.根据权利要求1所述的用于文本图片字符切分的深度学习网络，其特征在于，所述特征金字塔网络包括：用于将输入通过卷积操作进行维度统一；

4.根据权利要求3所述的用于文本图片字符切分的深度学习网络，其特征在于，所述融合结果的具体表达为：

5.根据权利要求2所述的用于文本图片字符切分的深度学习网络，其特征在于，所述区域建议网络，具体用于在多尺度的特征图上分别按照滑窗法逐像素生成锚点，每个尺度的特征图上都生成相应三种长宽比的锚点框，将所述锚点框在区域建议网络中通过卷积得到二分类分数以及前景锚点框与其真值的偏移量，其中，所述二分类分数用于区分锚点框是前景还是背景的二分类分数。

6.根据权利要求2所述的用于文本图片字符切分的深度学习网络，其特征在于，所述边界网络的输出具体表达：

Out＝BO₃+SO₀

其中，

BO₀＝RRB(I₀)

BO_i＝PRB(I_i)+PRB(BO_i-1)

SO_i＝CAB(RRB(I_i)，RRB(SO_i+1))i＝2，1，0

S0₃＝CAB(RRB(I₃)，GA(I₃))

7.根据权利要求5所述的用于文本图片字符切分的深度学习网络，其特征在于，所述区域建议网络的损失函数的二值交叉熵损失表达如下：