CN113420760A

CN113420760A - 一种基于分割和形变lstm的手写体蒙古文检测和识别方法

Info

Publication number: CN113420760A
Application number: CN202110689571.0A
Authority: CN
Inventors: 萨和雅; 麻泽蕊; 仁庆道尔吉; 代钦
Original assignee: Inner Mongolia Normal University
Current assignee: Inner Mongolia Normal University
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-09-21

Abstract

一种基于分割和形变LSTM的手写体蒙古文检测和识别方法，利用基于分割的任意形状文本检测器SAST实现对复杂环境中手写体蒙古文的检测；用RoI Rotate模块将文本的检测和识别功能结合；将提取得到的文本候选框作为输入图像，使用形变LSTM结合CTC模块实现对输入图像的文本识别。本发明利用SAST以更有效地提取任意形状文本的多边形表示，同时可以捕捉像素的长范围相关性，一次获得更加可靠的分割结果，通过RoI Rotate模块的应用将手写体蒙古文的检测和识别两个阶段的内容进行连接，有助于进一步提高训练效率。将循环神经网络与形变LSTM进行结合，在实现手写体蒙古文识别中有助于进一步提高识别准确率。

Description

一种基于分割和形变LSTM的手写体蒙古文检测和识别方法

技术领域

本发明属于人工智能技术领域，涉及文字检测与识别，特别涉及一种基于分割和形变LSTM的手写体蒙古文检测和识别方法。

背景技术

随着互联网与人工智能的快速发展，教育信息化已经开始影响并改变传统教育方式，在线解答等人机交互的场景越来越普遍，手写检测与识别问题成为了计算机视觉领域的一个研究方向。对于人类来说辨别并且识别手写文字是一件很简单的事，但这对于计算机而言非常复杂。近年来，深度卷积神经网络的发展给计算机视觉领域带来了革命性的变化，卷积神经网络和循环神经网络的结合在基于图像分割以及序列识别问题中取得了巨大的成功，推动了手写检测与识别领域的进展。作为模式识别的一个重要研究领域，手写检测和识别得到了学术界的广泛研究和关注。热门语言(如汉文、英文、日文)的手写检测和识别研究已经从简单的孤立词识别发展到文本行识别、无约束手写识别、文档识别和场景文字检测和识别等领域。

而蒙古文等小众语言的手写检测和识别起步较晚、相关研究较少，且蒙古文具有词汇量巨大、书写自由、字符变形严重、字符书写较长等特点，这些都给蒙古文手写体的检测和识别都带来了巨大挑战。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于分割和形变LSTM的手写体蒙古文检测和识别方法，采用基于分割的形状文本检测器SAST(Single-ShotArbitrarily-Shaped Text)构造文本区域的多边形表示，SAST利用全卷积网络的上下文多任务学习框架来学习文本区域的各种几何特征。运用RoI Rotate模块，将文本的检测和识别功能结合起来。将提取到的文本候选框作为输入图像，使用形变LSTM(MOGRIFIER LSTM)结合CTC模块实现对输入图像的文本识别。

为了实现上述目的，本发明采用的技术方案是：

一种基于分割和形变LSTM的手写体蒙古文检测和识别方法，包括如下步骤：

第一步：获取手写体蒙古文图像作为输入图像，手写体蒙古文检测模型为基于分割的任意形状文本检测器SAST，检测复杂环境中手写体蒙古文，得到划分文本候选框的图像；

第二步：将进行过文本检测的手写体蒙古文图像，即划分文本候选框的图像作为RoI Rotate模块的输入图像，对定向的特征区域进行变换以获得轴对齐的特征图；

第三步：获取独立的特征图作为输入图像，使用形变LSTM结合CTC模块构成手写体蒙古文识别模型，实现文字识别。

与现有技术相比，本发明的有益效果是：

(1)本发明将SAST文本检测模型应用于手写体蒙古文的检测工作。

(2)本发明利用RoI Rotate模块，将蒙古文手写体的检测和识别两个大的技术点进行了结合，在实际应用中这有助于提高文字检测识别的效率。

(3)本发明将形变LSTM运用于蒙古文手写体识别研究，并与CTC模块进行了结合，可以有效提高蒙古文手写体识别的准确率。

附图说明

图1是本发明基于分割和形变LSTM的手写体蒙古文检测和识别方法的结构图。

图2是CAB结构示意图。

图3是形变LSTM结构示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明为一种基于分割和形变LSTM的手写体蒙古文检测和识别方法，包括如下步骤：

第一步：手写体蒙古文检测。

在进行手写体蒙古文检测时，需要获取手写体蒙古文图像作为输入图像，利用基于分割的任意形状文本检测器SAST为手写体蒙古文检测模型，实现对复杂环境中手写体蒙古文的检测，得到划分文本候选框的输入图像。任意形状文本检测器SAST利用基于全卷积网络的上下文多任务学习框架来学习文本区域的各种几何特征，从而构造文本区域的多边形表示。SAST可将高层次的目标知识和低层次的像素信息融合在一个镜头中，从而以高精度和高效的方式检测任意形状的场景文本。

本发明手写体蒙古文检测的具体步骤如下：

步骤1：从输入图像中提取特征。

使用RESNET-50作为SAST的主干网络，并通过全连接网络将文本区域的多种属性在一个多任务学习中被同时提取出来，属性包括：文本中心线TCL，文本边界偏移TBO，文本中心偏移TCO和文本顶点偏移TVO。即将包含TCL、TBO、TCO、TVO映射信息的特征图作为一个多任务问题进行学习，其中卷积网络输出通道分别设置为{1，2，8，4}，用于预测和提取TCL、TCO、TVO和TBO特征图，将所得特征图依次命名为TCL特征图、TBO特征图、TCO特征图、TVO特征图。

其中，TCL特征图作为区分文本/非文本的单通道分割特征图，描述输入图像某像素点属于文本中心线像素点的概率；TCO特征图描述文本中心点偏置，即输入图像某像素点距其所属的文本实例矩形框中心的水平和垂直方向距离；TVO特征图描述文本四顶点偏置，即输入图像中某像素点距其所属的文本实例矩形框四顶点水平及垂直方向的距离；TBO特征图描述文本边界偏置，即对输入图像中，某像素点距其所属的文本实例上下边界框的水平及垂直方向距离进行描述。同时，将上下文注意力模块(Content-Attention-Block，CAB)引入到体系结构中，以聚合上下文信息从而实现特征增强，这有助于增加特征表示，而且不需要额外的计算开销。为了减轻直接使用自我注意带来的巨大计算开销，CAB只考虑特征地图中每个位置与同一水平或垂直列中其他位置的相似性。单个CAB模块水平和垂直聚合像素级上下文信息，通过串行连接两个CAB可以捕获所有像素的长程相关性。CAB模块的结构如图2所示。

同时，上下文注意模块(CAB,Context Attention Block)利用自我注意力机制来抓取上下文信息以增强特征表示。为了减轻直接使用自我注意所带来的巨大计算开销，CAB只考虑了特征图中每个位置与同一水平或垂直列中其他位置的相似性。特征图是RESNET-50输出的，包含输入图像特征的图像，其尺寸是N*H*W*C，N代表张数，H代表输入图像高度，W代表输入图像宽度，C代表输出维数。为了收集水平上下文信息，并行设置了3个卷积层来获得上下文文本特征，将获取得到的上下文特征信息保存为{f_θ,f_φ,f_g}，并将输入图像尺寸重置成为{N*H}*W*C的形状，然后将f_φ乘以f_θ的转置来获得{N*H}*W*W尺寸的注意力特征图，并使用一个Sigmoid函数进行激活。一个水平上下文增强信息特征，最终会被控制为N*H*W*C大小，并与上下文特征f_g相乘，从而实现聚合上下文信息的功能。垂直方向的上下文信息获取与水平方向有所不同，初始时，将卷积神经网络收集到的垂直方向上下文特征{f_θ,f_φ,f_g}转置成{N*H*C*W}，同时，使用一条短路径来保持局部特征。CAB模块最终能够从水平和竖直两个方向来抓取长连接像素的上下文信息。除此之外，通过串行连接两个上下文注意模块，每个像素最终可以捕获所有像素的长程依赖关系。这有助于避免在检测更具挑战性的文本实例(如长文本)时由于感受野有限而造成的问题。

步骤2：输入图像文本实例分割。

运用点到四边的方法来进行文本实例分割，通过结合来自TVO和TCO特征图的高级别目标知识来给像素分配标签。具体地，使用四点赋值机制，利用具有高级对象信息的TCL、TCO和TVO映射生成文本实例分割：

首先，基于生成的TCL特征图和TVO特征图检测候选文本四边形，形成的候选文本四边形将用于组合形成文本检测框。具体而言，将获取的TCL进行阈值过滤，将置信率低于阈值的像素点剔除。根据TVO特征图，使处理过的TCL特征图的每个像素点得到对应的文本矩形框四顶点坐标，并进行非最大值抑制NMS，得到所需的文本实例矩形框及其中心点，将作为高层级目标知识。

然后，根据TCO特征图，计算TCL中属于文本的像素点所属文本实例的几何中心点，该中心点将作为低层级像素信息。当此时计算所得的几何中心点与之前所得矩形框中心点重合或相近时，该像素点将被归类给之前所得矩形框对应的文本实例。同时，所有高于阈值的像素点划分为不同的文本实例。

较之于传统的文本检测方法，这样可以将像素点重新聚集归类，一定程度上改善了文本区域断裂的问题。

步骤3：生成文本候选框，实现反向传播。

在将TCL映射到文本实例后，基于TBO特征图映射重新构建任意形状的文本更精确的多边形表示。具体地，经过步骤2，得到被TVO、TCO修正后的、准确的TCL文本中心线。对文本中心线进行自适应采样，即采样点的间距相同，到的采样点数目与文本线的长度有关。根据文本边界偏置图TBO所提供的信息，计算文本中心线的采样点上的上下边界定位点。将所有的边界定位点按照从左上角开始的顺时针方向依次进行连接，得到最终的文本边界框。

需要说明的是，多于四个顶点的多边形由多个连接的四边形候选框划定，对于非TCL特征图像素，将其对应的几何属性设置为0。在手写体蒙古文检测模型训练过程中，模型的损失函数L_total可表达为：

L_total＝λ₁L_tcl+λ₂L_tco+λ₃L_tvo+λ₄L_tbo

其中L_tcl，L_tco，L_tvo，L_tbo表示TCL、TCO、TVO、TBO映射的损失值。λ₁，λ₂，λ₃，λ₄的则是4个损失值的权重。在反向传播中，确定了一组权值{1.0,0.5,0.5,1.0}从而降低四个损失梯度范数在反向传播中的差异性。

在弯曲文本数据集上的实验证明，该方法对于任意形状的文本实例都是有效和灵活的。

第二步：将进行过文本检测的手写体蒙古文图像，即划分文本候选框的图像作为RoI Rotate模块的输入图像，对定向的特征区域进行变换以获得轴对齐的特征图。本发明利用RoI Rotate模块连接手写体蒙古文检测模型和手写体蒙古文识别模型，RoI Rotate模块使用双线性插值来计算输出的值，此操作避免了RoI和提取的特征之间的未对准，并且使输出特征的长度可变，这更适合于文本识别。同时，RoI Rotate模块固定输出高度并保持宽高比不变。具体执行步骤如下：

步骤1：通过文本候选的预测坐标或GT坐标计算仿射变换参数，主要计算公式如下：

t_x＝l*cosθ-t*sinθ-x

t_y＝t*cosθ+l*sinθ-y

w_t＝s*(l+r)

h_t,w_t表示仿射变换后的特征图的高度(设置为固定值8)和宽度。(x，y)表示输入图像特征图中点的坐标，t_x和t_y代表仿射变换后点的坐标。s代表仿射变换后的特征图的高度与文本候选框距图像边界的比例。(t，b，l，r)分别表示文本候选框与输入图像的顶部、底部、左侧、右侧的距离，θ表示方向，(t，b，l，r)和θ由第一步的检测部分给出；

仿射变换矩阵M如下所示：

步骤2：将仿射变换分别应用于每个文本区域的输入图像特征图中，获得文本区域的规范水平特征图，具体执行公式如下所示：

其中，c代表输入图像的第c个通道，C为通道总数，

代表仿射变换前图中第i个点的坐标，

代表仿射变换后图中第i个点的坐标，进一步计算得到输出值，公式如下：

其中

为c通道位置(i,j)处的输出值，

为c通道位置(n,m)处的输入值。h_s表示输入的高度，w_s表示输入的宽度，Φ_x，Φ_y为定义双线性插值通用采样核函数k()的参数。

为仿射变换前s通道位置(i,j)的x，y值，即坐标值。

第三步：获取独立的特征图作为输入图像，使用卷积神经网络结合形变LSTM构成手写体蒙古文识别模型实现对输入图像的文字识别。形变LSTM的结构如图3所示，手写体蒙古文识别模型使用卷积神经网络实现手写体蒙古文图像特征提取，并通过形变LSTM结合CTC模块完成特征序列化、识别以及反向传播。具体地：

步骤1：使用卷积神经网络实现手写体蒙古文图像特征提取，其中卷积层由去掉全连接层的标准CNN模型来构造。在输入网络之前，所有图像都需要缩放到相同的高度(归一化)。然后从卷积层分量产生的特征映射中提取一系列特征向量，完成对输入图像的特征提取。

步骤2：使用形变LSTM完成输入图像特征的序列化预测。形变LSTM是对LSTM的改进，不改变LSTM本身的结构，通过引入额外的门控运算，使得当前输入x和之前的状态h_prev在输入到LSTM之前进行多轮交互计算，让输入和之前的输出首先进行交互，从而增强上下文建模能力，最终使得输入和上下文之间具有更加丰富的交互表示。具体交互公式如下：

式中，x^↑定义为xⁱ中上标最大的值，

定义为

中上标最大的值，c_prev代表上一时间片更新后的状态。xⁱ及

代表在额外的门控运算中进行第i轮交互后的输入x和之前的输出h_prev，它们的计算公式如下：

上式中，x^-1＝x,

轮数r是一个超参数，如果r＝0，那么这就是普通的LSTM。Qⁱ、Rⁱ是随机初始化的矩阵。为了减少附加模型参数的数量，Qⁱ和Rⁱ通常表现为低秩矩阵的乘积，即若Qⁱ为m行n列的数值矩阵，那么Qⁱ可以由两个秩远小于m,n的矩阵

表示，公式如下：

步骤3：使用CTC模块完成序列转录为实际输出时，所得标签l的概率如下所示：

上式中p(π∣y)代表输入序列为y输出为π的概率，

代表一个从序列到序列的函数，首先首先去掉重复的标签，然后去掉“空白”，最终实现将π映射到l上。p(π∣y)的具体计算公式如下：

代表第t个时间片时输出标签π_t的概率。T代表了输入序列的长度，也代表输入序列共分为T个时间片进行识别。最终的输出结果为概率最大的标签l。

使用CTC模块完成序列转录为实际输出，蒙古文手写体识别模型反向传播的目标为最小化ground truth条件概率的负对数似然，定义如下：

I_i代表第i张训练图像，l_i代表该训练图像的蒙古文标签，y_i代表手写体蒙古文识别模型产生的预测序列。

在手写体蒙古文检测模型搭建中，使用2000张图像的蒙古文手写体检测数据库，并按照9：1的比例分别构建训练集与测试集。在手写体蒙古文识别模型搭建中，使用20万字的蒙古文手写体识别数据库，按照7：3的比例分别构建训练集与测试集。使用RoI Rotate模块将两部分模型进行整合，最终实现端到端蒙古文手写体检测和识别。

实验目标为对手写体蒙古文(中文翻译为：鸡)进行检测，并对检测到的手写体蒙古文进行识别，最终输出该手写体蒙古文的文本形式，具体实验效果可参照图1。对实验结果进行分析，实验检测及识别准确率较高。在此基础上，较之于两部分模型分别进行训练、使用，端到端模型训练效率较高。总体而言，模型效果较好。

Claims

1.一种基于分割和形变LSTM的手写体蒙古文检测和识别方法，其特征在于，包括如下步骤：

第二步：将进行过文本检测的手写体蒙古文图像，即划分文本候选框的图像作为RoIRotate模块的输入图像，对定向的特征区域进行变换以获得轴对齐的特征图；

2.根据权利要求1所述基于分割和形变LSTM的手写体蒙古文检测和识别方法，其特征在于，所述任意形状文本检测器SAST利用基于全卷积网络的上下文多任务学习框架来学习文本区域的各种几何特征，从而构造文本区域的多边形表示，所述基于分割的任意形状文本检测器SAST将高层次的目标知识和低层次的像素信息融合在一个镜头中，从而以高精度和高效的方式检测任意形状的场景文本。

3.根据权利要求1所述基于分割和形变LSTM的手写体蒙古文检测和识别方法，其特征在于，所述第一步具体步骤如下：

步骤1：从输入图像中提取特征

使用RESNET-50作为SAST的主干网络，并通过全连接网络将文本区域的多种属性在一个多任务学习中同时提取出来，属性包括：文本中心线TCL、文本边界偏移TBO、文本中心偏移TCO和文本顶点偏移TVO；即，将包含TCL、TBO、TCO、TVO映射信息的特征图作为一个多任务问题进行学习，并将所得特征图依次命名为TCL特征图、TBO特征图、TCO特征图和TVO特征图，卷积网络输出通道分别设置为{1，2，8，4}，用于预测和提取TCL特征图、TBO特征图、TCO特征图和TVO特征图；同时，引入上下文注意力模块(Content-Attention-Block，CAB)以聚合上下文信息从而实现特征增强；其中，所述TCL特征图作为区分文本/非文本的单通道分割特征图，描述输入图像某像素点属于文本中心线像素点的概率；TCO特征图描述文本中心点偏置，即输入图像某像素点距其所属的文本实例矩形框中心的水平和垂直方向距离；TVO特征图描述文本四顶点偏置，即输入图像中某像素点距其所属的文本实例矩形框四顶点水平及垂直方向的距离；TBO特征图描述文本边界偏置，即对输入图像中，某像素点距其所属的文本实例上下边界框的水平及垂直方向距离进行描述；

步骤2：输入图像文本实例分割

使用四点赋值机制，利用具有高级对象信息的TCL、TCO和TVO映射生成文本实例分割：

首先，基于生成的TCL特征图和TVO特征图检测候选文本四边形，形成的候选文本四边形将用于组合形成文本检测框；步骤为：将获取的TCL进行阈值过滤，将置信率低于阈值的像素点剔除，根据TVO特征图，使处理过的TCL特征图的每个像素点得到对应的文本矩形框四顶点坐标，并进行非最大值抑制NMS，得到所需的文本实例矩形框及其中心点，作为高层级目标知识；

然后，根据TCO特征图，计算TCL中属于文本的像素点所属文本实例的几何中心点，该中心点将作为低层级像素信息；当计算所得的几何中心点与之前所得矩形框中心点重合或相近时，该像素点将被归类给之前所得矩形框对应的文本实例，同时，所有高于阈值的像素点划分为不同的文本实例；

步骤3：生成文本候选框，实现反向传播

经过步骤2，得到被TVO、TCO修正后的、准确的TCL文本中心线，对文本中心线进行自适应采样，即采样点的间距相同，到的采样点数目与文本线的长度有关，根据文本边界偏置图TBO所提供的信息，计算文本中心线的采样点上的上下边界定位点，将所有的边界定位点按照从左上角开始的顺时针方向依次进行连接，得到最终的文本边界框，其中，多于四个顶点的多边形由多个连接的四边形候选框划定，对于非TCL特征图像素，将其对应的几何属性设置为0。

4.根据权利要求3所述基于分割和形变LSTM的手写体蒙古文检测和识别方法，其特征在于，在手写体蒙古文检测模型训练过程中，模型的损失函数L_total表达为：

L_total＝λ₁L_tcl+λ₂L_tco+λ₃L_tvo+λ₄L_tbo

其中L_tcl，L_tco，L_tvo，L_tbo表示TCL、TCO、TVO、TBO映射的损失值，λ₁，λ₂，λ₃，λ₄分别表示L_tcl，L_tco，L_tvo，L_tbo的权重，在反向传播中，确定了一组权重{1.0,0.5,0.5,1.0}，从而降低四个损失梯度范数在反向传播中的差异性。

5.根据权利要求3所述基于分割和形变LSTM的手写体蒙古文检测和识别方法，其特征在于，所述上下文注意模块利用自我注意力机制来抓取上下文信息以增强特征表示，其只考虑特征图中每个位置与同一水平或垂直列中其他位置的相似性，以减轻直接使用自我注意所带来的巨大计算开销；所述RESNET-50输出的特征图包含输入图像特征的图像，其尺寸是N*H*W*C，N代表张数，H代表输入图像高度，W代表输入图像宽度，C代表输出维数；并行设置3个卷积层收集水平上下文信息，将获取得到的上下文特征信息保存为{f_θ,f_φ,f_g}，将输入图像尺寸重置成为{N*H}*W*C的形状，通过f_φ与f_θ的转置相乘获得表示{N*H}*W*W尺寸的注意力特征图，并使用一个Sigmoid函数进行激活；一个水平上下文增强信息特征最终会被控制为N*H*W*C大小，并与上下文特征f_g相乘，从而实现聚合上下文信息的功能；初始时，将卷积神经网络收集到的垂直方向上下文特征{f_θ，f_φ,f_g}转置成{N*H*C*W}以获取垂直方向的上下文信息，同时使用一条短路径来保持局部特征，最终从水平和竖直两个方向抓取长连接像素的上下文信息，通过串行连接两个上下文注意模块，每个像素最终可以捕获所有像素的长程依赖关系。

6.根据权利要求3所述基于分割和形变LSTM的手写体蒙古文检测和识别方法，其特征在于，所述第二步中，RoI Rotate模块连接手写体蒙古文检测模型和手写体蒙古文识别模型，使用双线性插值来计算输出的值，以避免RoI和提取的特征之间的未对准，并使输出特征的长度可变，且固定输出高度并保持宽高比不变，具体执行步骤如下：

步骤1：通过文本候选的预测坐标或GT坐标计算仿射变换参数，公式如下：

t_x＝l*cosθ-t*sinθ-x

t_y＝t*cosθ+l*sinθ-y

w_t＝s*(l+r)

h_t,w_t表示仿射变换后的特征图的高度和宽度，(x，y)表示输入图像特征图中点的坐标，t_x和t_y代表仿射变换后点的坐标，s代表仿射变换后的特征图的高度与文本候选框距图像边界的比例，(t，b，l，r)分别表示文本候选框与输入图像的顶部、底部、左侧、右侧的距离，θ表示方向，(t，b，l，r)和θ由第一步的检测部分给出；

仿射变换矩阵M如下所示：

步骤2：将仿射变换分别应用于每个文本区域的输入图像特征图中，获得文本区域的规范水平特征图，公式如下：

其中，c代表输入图像的第c个通道，C为通道总数，

代表仿射变换前图中第i个点的坐标，

其中

为c通道位置(i,j)处的输出值，

为c通道位置(n,m)处的输入值，h_s表示输入的高度，w_s表示输入的宽度，Φ_x，Φ_y为定义双线性插值通用采样核函数k()的参数。

为仿射变换前s通道位置(i,j)的x，y值，即坐标值。

7.根据权利要求3所述基于分割和形变LSTM的手写体蒙古文检测和识别方法，其特征在于，所述手写体蒙古文识别模型使用卷积神经网络实现对输入的手写体蒙古文图像特征提取，并通过形变LSTM结合CTC模块完成特征序列化、识别以及反向传播。

8.根据权利要求7所述基于分割和形变LSTM的手写体蒙古文检测和识别方法，其特征在于，所述卷积神经网络的卷积层由去掉全连接层的标准CNN模型构造，在输入网络之前，所有图像均缩放到相同的高度，然后从卷积层分量产生的特征映射中提取一系列特征向量，完成对输入图像的特征提取。

9.根据权利要求7所述基于分割和形变LSTM的手写体蒙古文检测和识别方法，其特征在于，所述形变LSTM是对LSTM的改进，不改变LSTM本身的结构，通过引入额外的门控运算，使得当前输入x和上一时间片的输出h_prev在输入到LSTM之前进行多轮交互计算，让输入和之前的输出首先进行交互，从而增强上下文建模能力，最终使得输入和上下文之间具有更加丰富的交互表示，交互公式如下：