CN113420760A - 一种基于分割和形变lstm的手写体蒙古文检测和识别方法 - Google Patents

一种基于分割和形变lstm的手写体蒙古文检测和识别方法 Download PDF

Info

Publication number
CN113420760A
CN113420760A CN202110689571.0A CN202110689571A CN113420760A CN 113420760 A CN113420760 A CN 113420760A CN 202110689571 A CN202110689571 A CN 202110689571A CN 113420760 A CN113420760 A CN 113420760A
Authority
CN
China
Prior art keywords
text
mongolian
handwritten
lstm
input image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110689571.0A
Other languages
English (en)
Inventor
萨和雅
麻泽蕊
仁庆道尔吉
代钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia Normal University
Original Assignee
Inner Mongolia Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia Normal University filed Critical Inner Mongolia Normal University
Priority to CN202110689571.0A priority Critical patent/CN113420760A/zh
Publication of CN113420760A publication Critical patent/CN113420760A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

一种基于分割和形变LSTM的手写体蒙古文检测和识别方法,利用基于分割的任意形状文本检测器SAST实现对复杂环境中手写体蒙古文的检测;用RoI Rotate模块将文本的检测和识别功能结合;将提取得到的文本候选框作为输入图像,使用形变LSTM结合CTC模块实现对输入图像的文本识别。本发明利用SAST以更有效地提取任意形状文本的多边形表示,同时可以捕捉像素的长范围相关性,一次获得更加可靠的分割结果,通过RoI Rotate模块的应用将手写体蒙古文的检测和识别两个阶段的内容进行连接,有助于进一步提高训练效率。将循环神经网络与形变LSTM进行结合,在实现手写体蒙古文识别中有助于进一步提高识别准确率。

Description

一种基于分割和形变LSTM的手写体蒙古文检测和识别方法
技术领域
本发明属于人工智能技术领域,涉及文字检测与识别,特别涉及一种基于分割和形变LSTM的手写体蒙古文检测和识别方法。
背景技术
随着互联网与人工智能的快速发展,教育信息化已经开始影响并改变传统教育方式,在线解答等人机交互的场景越来越普遍,手写检测与识别问题成为了计算机视觉领域的一个研究方向。对于人类来说辨别并且识别手写文字是一件很简单的事,但这对于计算机而言非常复杂。近年来,深度卷积神经网络的发展给计算机视觉领域带来了革命性的变化,卷积神经网络和循环神经网络的结合在基于图像分割以及序列识别问题中取得了巨大的成功,推动了手写检测与识别领域的进展。作为模式识别的一个重要研究领域,手写检测和识别得到了学术界的广泛研究和关注。热门语言(如汉文、英文、日文)的手写检测和识别研究已经从简单的孤立词识别发展到文本行识别、无约束手写识别、文档识别和场景文字检测和识别等领域。
而蒙古文等小众语言的手写检测和识别起步较晚、相关研究较少,且蒙古文具有词汇量巨大、书写自由、字符变形严重、字符书写较长等特点,这些都给蒙古文手写体的检测和识别都带来了巨大挑战。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于分割和形变LSTM的手写体蒙古文检测和识别方法,采用基于分割的形状文本检测器SAST(Single-ShotArbitrarily-Shaped Text)构造文本区域的多边形表示,SAST利用全卷积网络的上下文多任务学习框架来学习文本区域的各种几何特征。运用RoI Rotate模块,将文本的检测和识别功能结合起来。将提取到的文本候选框作为输入图像,使用形变LSTM(MOGRIFIER LSTM)结合CTC模块实现对输入图像的文本识别。
为了实现上述目的,本发明采用的技术方案是:
一种基于分割和形变LSTM的手写体蒙古文检测和识别方法,包括如下步骤:
第一步:获取手写体蒙古文图像作为输入图像,手写体蒙古文检测模型为基于分割的任意形状文本检测器SAST,检测复杂环境中手写体蒙古文,得到划分文本候选框的图像;
第二步:将进行过文本检测的手写体蒙古文图像,即划分文本候选框的图像作为RoI Rotate模块的输入图像,对定向的特征区域进行变换以获得轴对齐的特征图;
第三步:获取独立的特征图作为输入图像,使用形变LSTM结合CTC模块构成手写体蒙古文识别模型,实现文字识别。
与现有技术相比,本发明的有益效果是:
(1)本发明将SAST文本检测模型应用于手写体蒙古文的检测工作。
(2)本发明利用RoI Rotate模块,将蒙古文手写体的检测和识别两个大的技术点进行了结合,在实际应用中这有助于提高文字检测识别的效率。
(3)本发明将形变LSTM运用于蒙古文手写体识别研究,并与CTC模块进行了结合,可以有效提高蒙古文手写体识别的准确率。
附图说明
图1是本发明基于分割和形变LSTM的手写体蒙古文检测和识别方法的结构图。
图2是CAB结构示意图。
图3是形变LSTM结构示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明为一种基于分割和形变LSTM的手写体蒙古文检测和识别方法,包括如下步骤:
第一步:手写体蒙古文检测。
在进行手写体蒙古文检测时,需要获取手写体蒙古文图像作为输入图像,利用基于分割的任意形状文本检测器SAST为手写体蒙古文检测模型,实现对复杂环境中手写体蒙古文的检测,得到划分文本候选框的输入图像。任意形状文本检测器SAST利用基于全卷积网络的上下文多任务学习框架来学习文本区域的各种几何特征,从而构造文本区域的多边形表示。SAST可将高层次的目标知识和低层次的像素信息融合在一个镜头中,从而以高精度和高效的方式检测任意形状的场景文本。
本发明手写体蒙古文检测的具体步骤如下:
步骤1:从输入图像中提取特征。
使用RESNET-50作为SAST的主干网络,并通过全连接网络将文本区域的多种属性在一个多任务学习中被同时提取出来,属性包括:文本中心线TCL,文本边界偏移TBO,文本中心偏移TCO和文本顶点偏移TVO。即将包含TCL、TBO、TCO、TVO映射信息的特征图作为一个多任务问题进行学习,其中卷积网络输出通道分别设置为{1,2,8,4},用于预测和提取TCL、TCO、TVO和TBO特征图,将所得特征图依次命名为TCL特征图、TBO特征图、TCO特征图、TVO特征图。
其中,TCL特征图作为区分文本/非文本的单通道分割特征图,描述输入图像某像素点属于文本中心线像素点的概率;TCO特征图描述文本中心点偏置,即输入图像某像素点距其所属的文本实例矩形框中心的水平和垂直方向距离;TVO特征图描述文本四顶点偏置,即输入图像中某像素点距其所属的文本实例矩形框四顶点水平及垂直方向的距离;TBO特征图描述文本边界偏置,即对输入图像中,某像素点距其所属的文本实例上下边界框的水平及垂直方向距离进行描述。同时,将上下文注意力模块(Content-Attention-Block,CAB)引入到体系结构中,以聚合上下文信息从而实现特征增强,这有助于增加特征表示,而且不需要额外的计算开销。为了减轻直接使用自我注意带来的巨大计算开销,CAB只考虑特征地图中每个位置与同一水平或垂直列中其他位置的相似性。单个CAB模块水平和垂直聚合像素级上下文信息,通过串行连接两个CAB可以捕获所有像素的长程相关性。CAB模块的结构如图2所示。
同时,上下文注意模块(CAB,Context Attention Block)利用自我注意力机制来抓取上下文信息以增强特征表示。为了减轻直接使用自我注意所带来的巨大计算开销,CAB只考虑了特征图中每个位置与同一水平或垂直列中其他位置的相似性。特征图是RESNET-50输出的,包含输入图像特征的图像,其尺寸是N*H*W*C,N代表张数,H代表输入图像高度,W代表输入图像宽度,C代表输出维数。为了收集水平上下文信息,并行设置了3个卷积层来获得上下文文本特征,将获取得到的上下文特征信息保存为{fθ,fφ,fg},并将输入图像尺寸重置成为{N*H}*W*C的形状,然后将fφ乘以fθ的转置来获得{N*H}*W*W尺寸的注意力特征图,并使用一个Sigmoid函数进行激活。一个水平上下文增强信息特征,最终会被控制为N*H*W*C大小,并与上下文特征fg相乘,从而实现聚合上下文信息的功能。垂直方向的上下文信息获取与水平方向有所不同,初始时,将卷积神经网络收集到的垂直方向上下文特征{fθ,fφ,fg}转置成{N*H*C*W},同时,使用一条短路径来保持局部特征。CAB模块最终能够从水平和竖直两个方向来抓取长连接像素的上下文信息。除此之外,通过串行连接两个上下文注意模块,每个像素最终可以捕获所有像素的长程依赖关系。这有助于避免在检测更具挑战性的文本实例(如长文本)时由于感受野有限而造成的问题。
步骤2:输入图像文本实例分割。
运用点到四边的方法来进行文本实例分割,通过结合来自TVO和TCO特征图的高级别目标知识来给像素分配标签。具体地,使用四点赋值机制,利用具有高级对象信息的TCL、TCO和TVO映射生成文本实例分割:
首先,基于生成的TCL特征图和TVO特征图检测候选文本四边形,形成的候选文本四边形将用于组合形成文本检测框。具体而言,将获取的TCL进行阈值过滤,将置信率低于阈值的像素点剔除。根据TVO特征图,使处理过的TCL特征图的每个像素点得到对应的文本矩形框四顶点坐标,并进行非最大值抑制NMS,得到所需的文本实例矩形框及其中心点,将作为高层级目标知识。
然后,根据TCO特征图,计算TCL中属于文本的像素点所属文本实例的几何中心点,该中心点将作为低层级像素信息。当此时计算所得的几何中心点与之前所得矩形框中心点重合或相近时,该像素点将被归类给之前所得矩形框对应的文本实例。同时,所有高于阈值的像素点划分为不同的文本实例。
较之于传统的文本检测方法,这样可以将像素点重新聚集归类,一定程度上改善了文本区域断裂的问题。
步骤3:生成文本候选框,实现反向传播。
在将TCL映射到文本实例后,基于TBO特征图映射重新构建任意形状的文本更精确的多边形表示。具体地,经过步骤2,得到被TVO、TCO修正后的、准确的TCL文本中心线。对文本中心线进行自适应采样,即采样点的间距相同,到的采样点数目与文本线的长度有关。根据文本边界偏置图TBO所提供的信息,计算文本中心线的采样点上的上下边界定位点。将所有的边界定位点按照从左上角开始的顺时针方向依次进行连接,得到最终的文本边界框。
需要说明的是,多于四个顶点的多边形由多个连接的四边形候选框划定,对于非TCL特征图像素,将其对应的几何属性设置为0。在手写体蒙古文检测模型训练过程中,模型的损失函数Ltotal可表达为:
Ltotal=λ1Ltcl2Ltco3Ltvo4Ltbo
其中Ltcl,Ltco,Ltvo,Ltbo表示TCL、TCO、TVO、TBO映射的损失值。λ1,λ2,λ3,λ4的则是4个损失值的权重。在反向传播中,确定了一组权值{1.0,0.5,0.5,1.0}从而降低四个损失梯度范数在反向传播中的差异性。
在弯曲文本数据集上的实验证明,该方法对于任意形状的文本实例都是有效和灵活的。
第二步:将进行过文本检测的手写体蒙古文图像,即划分文本候选框的图像作为RoI Rotate模块的输入图像,对定向的特征区域进行变换以获得轴对齐的特征图。本发明利用RoI Rotate模块连接手写体蒙古文检测模型和手写体蒙古文识别模型,RoI Rotate模块使用双线性插值来计算输出的值,此操作避免了RoI和提取的特征之间的未对准,并且使输出特征的长度可变,这更适合于文本识别。同时,RoI Rotate模块固定输出高度并保持宽高比不变。具体执行步骤如下:
步骤1:通过文本候选的预测坐标或GT坐标计算仿射变换参数,主要计算公式如下:
tx=l*cosθ-t*sinθ-x
ty=t*cosθ+l*sinθ-y
Figure BDA0003125688340000061
wt=s*(l+r)
ht,wt表示仿射变换后的特征图的高度(设置为固定值8)和宽度。(x,y)表示输入图像特征图中点的坐标,tx和ty代表仿射变换后点的坐标。s代表仿射变换后的特征图的高度与文本候选框距图像边界的比例。(t,b,l,r)分别表示文本候选框与输入图像的顶部、底部、左侧、右侧的距离,θ表示方向,(t,b,l,r)和θ由第一步的检测部分给出;
仿射变换矩阵M如下所示:
Figure BDA0003125688340000071
步骤2:将仿射变换分别应用于每个文本区域的输入图像特征图中,获得文本区域的规范水平特征图,具体执行公式如下所示:
Figure BDA0003125688340000072
Figure BDA0003125688340000073
其中,c代表输入图像的第c个通道,C为通道总数,
Figure BDA0003125688340000074
代表仿射变换前图中第i个点的坐标,
Figure BDA0003125688340000075
代表仿射变换后图中第i个点的坐标,进一步计算得到输出值,公式如下:
Figure BDA0003125688340000076
其中
Figure BDA0003125688340000077
为c通道位置(i,j)处的输出值,
Figure BDA0003125688340000078
为c通道位置(n,m)处的输入值。hs表示输入的高度,ws表示输入的宽度,Φx,Φy为定义双线性插值通用采样核函数k()的参数。
Figure BDA0003125688340000079
为仿射变换前s通道位置(i,j)的x,y值,即坐标值。
第三步:获取独立的特征图作为输入图像,使用卷积神经网络结合形变LSTM构成手写体蒙古文识别模型实现对输入图像的文字识别。形变LSTM的结构如图3所示,手写体蒙古文识别模型使用卷积神经网络实现手写体蒙古文图像特征提取,并通过形变LSTM结合CTC模块完成特征序列化、识别以及反向传播。具体地:
步骤1:使用卷积神经网络实现手写体蒙古文图像特征提取,其中卷积层由去掉全连接层的标准CNN模型来构造。在输入网络之前,所有图像都需要缩放到相同的高度(归一化)。然后从卷积层分量产生的特征映射中提取一系列特征向量,完成对输入图像的特征提取。
步骤2:使用形变LSTM完成输入图像特征的序列化预测。形变LSTM是对LSTM的改进,不改变LSTM本身的结构,通过引入额外的门控运算,使得当前输入x和之前的状态hprev在输入到LSTM之前进行多轮交互计算,让输入和之前的输出首先进行交互,从而增强上下文建模能力,最终使得输入和上下文之间具有更加丰富的交互表示。具体交互公式如下:
Figure BDA0003125688340000081
式中,x定义为xi中上标最大的值,
Figure BDA0003125688340000082
定义为
Figure BDA0003125688340000083
中上标最大的值,cprev代表上一时间片更新后的状态。xi
Figure BDA0003125688340000084
代表在额外的门控运算中进行第i轮交互后的输入x和之前的输出hprev,它们的计算公式如下:
Figure BDA0003125688340000085
Figure BDA0003125688340000086
上式中,x-1=x,
Figure BDA0003125688340000087
轮数r是一个超参数,如果r=0,那么这就是普通的LSTM。Qi、Ri是随机初始化的矩阵。为了减少附加模型参数的数量,Qi和Ri通常表现为低秩矩阵的乘积,即若Qi为m行n列的数值矩阵,那么Qi可以由两个秩远小于m,n的矩阵
Figure BDA0003125688340000088
表示,公式如下:
Figure BDA0003125688340000089
Figure BDA00031256883400000810
步骤3:使用CTC模块完成序列转录为实际输出时,所得标签l的概率如下所示:
Figure BDA00031256883400000811
上式中p(π∣y)代表输入序列为y输出为π的概率,
Figure BDA00031256883400000812
代表一个从序列到序列的函数,首先首先去掉重复的标签,然后去掉“空白”,最终实现将π映射到l上。p(π∣y)的具体计算公式如下:
Figure BDA0003125688340000091
Figure BDA0003125688340000092
代表第t个时间片时输出标签πt的概率。T代表了输入序列的长度,也代表输入序列共分为T个时间片进行识别。最终的输出结果为概率最大的标签l。
使用CTC模块完成序列转录为实际输出,蒙古文手写体识别模型反向传播的目标为最小化ground truth条件概率的负对数似然,定义如下:
Figure BDA0003125688340000093
Ii代表第i张训练图像,li代表该训练图像的蒙古文标签,yi代表手写体蒙古文识别模型产生的预测序列。
在手写体蒙古文检测模型搭建中,使用2000张图像的蒙古文手写体检测数据库,并按照9:1的比例分别构建训练集与测试集。在手写体蒙古文识别模型搭建中,使用20万字的蒙古文手写体识别数据库,按照7:3的比例分别构建训练集与测试集。使用RoI Rotate模块将两部分模型进行整合,最终实现端到端蒙古文手写体检测和识别。
实验目标为对手写体蒙古文(中文翻译为:鸡)进行检测,并对检测到的手写体蒙古文进行识别,最终输出该手写体蒙古文的文本形式,具体实验效果可参照图1。对实验结果进行分析,实验检测及识别准确率较高。在此基础上,较之于两部分模型分别进行训练、使用,端到端模型训练效率较高。总体而言,模型效果较好。

Claims (10)

1.一种基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,包括如下步骤:
第一步:获取手写体蒙古文图像作为输入图像,手写体蒙古文检测模型为基于分割的任意形状文本检测器SAST,检测复杂环境中手写体蒙古文,得到划分文本候选框的图像;
第二步:将进行过文本检测的手写体蒙古文图像,即划分文本候选框的图像作为RoIRotate模块的输入图像,对定向的特征区域进行变换以获得轴对齐的特征图;
第三步:获取独立的特征图作为输入图像,使用形变LSTM结合CTC模块构成手写体蒙古文识别模型,实现文字识别。
2.根据权利要求1所述基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,所述任意形状文本检测器SAST利用基于全卷积网络的上下文多任务学习框架来学习文本区域的各种几何特征,从而构造文本区域的多边形表示,所述基于分割的任意形状文本检测器SAST将高层次的目标知识和低层次的像素信息融合在一个镜头中,从而以高精度和高效的方式检测任意形状的场景文本。
3.根据权利要求1所述基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,所述第一步具体步骤如下:
步骤1:从输入图像中提取特征
使用RESNET-50作为SAST的主干网络,并通过全连接网络将文本区域的多种属性在一个多任务学习中同时提取出来,属性包括:文本中心线TCL、文本边界偏移TBO、文本中心偏移TCO和文本顶点偏移TVO;即,将包含TCL、TBO、TCO、TVO映射信息的特征图作为一个多任务问题进行学习,并将所得特征图依次命名为TCL特征图、TBO特征图、TCO特征图和TVO特征图,卷积网络输出通道分别设置为{1,2,8,4},用于预测和提取TCL特征图、TBO特征图、TCO特征图和TVO特征图;同时,引入上下文注意力模块(Content-Attention-Block,CAB)以聚合上下文信息从而实现特征增强;其中,所述TCL特征图作为区分文本/非文本的单通道分割特征图,描述输入图像某像素点属于文本中心线像素点的概率;TCO特征图描述文本中心点偏置,即输入图像某像素点距其所属的文本实例矩形框中心的水平和垂直方向距离;TVO特征图描述文本四顶点偏置,即输入图像中某像素点距其所属的文本实例矩形框四顶点水平及垂直方向的距离;TBO特征图描述文本边界偏置,即对输入图像中,某像素点距其所属的文本实例上下边界框的水平及垂直方向距离进行描述;
步骤2:输入图像文本实例分割
使用四点赋值机制,利用具有高级对象信息的TCL、TCO和TVO映射生成文本实例分割:
首先,基于生成的TCL特征图和TVO特征图检测候选文本四边形,形成的候选文本四边形将用于组合形成文本检测框;步骤为:将获取的TCL进行阈值过滤,将置信率低于阈值的像素点剔除,根据TVO特征图,使处理过的TCL特征图的每个像素点得到对应的文本矩形框四顶点坐标,并进行非最大值抑制NMS,得到所需的文本实例矩形框及其中心点,作为高层级目标知识;
然后,根据TCO特征图,计算TCL中属于文本的像素点所属文本实例的几何中心点,该中心点将作为低层级像素信息;当计算所得的几何中心点与之前所得矩形框中心点重合或相近时,该像素点将被归类给之前所得矩形框对应的文本实例,同时,所有高于阈值的像素点划分为不同的文本实例;
步骤3:生成文本候选框,实现反向传播
经过步骤2,得到被TVO、TCO修正后的、准确的TCL文本中心线,对文本中心线进行自适应采样,即采样点的间距相同,到的采样点数目与文本线的长度有关,根据文本边界偏置图TBO所提供的信息,计算文本中心线的采样点上的上下边界定位点,将所有的边界定位点按照从左上角开始的顺时针方向依次进行连接,得到最终的文本边界框,其中,多于四个顶点的多边形由多个连接的四边形候选框划定,对于非TCL特征图像素,将其对应的几何属性设置为0。
4.根据权利要求3所述基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,在手写体蒙古文检测模型训练过程中,模型的损失函数Ltotal表达为:
Ltotal=λ1Ltcl2Ltco3Ltvo4Ltbo
其中Ltcl,Ltco,Ltvo,Ltbo表示TCL、TCO、TVO、TBO映射的损失值,λ1,λ2,λ3,λ4分别表示Ltcl,Ltco,Ltvo,Ltbo的权重,在反向传播中,确定了一组权重{1.0,0.5,0.5,1.0},从而降低四个损失梯度范数在反向传播中的差异性。
5.根据权利要求3所述基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,所述上下文注意模块利用自我注意力机制来抓取上下文信息以增强特征表示,其只考虑特征图中每个位置与同一水平或垂直列中其他位置的相似性,以减轻直接使用自我注意所带来的巨大计算开销;所述RESNET-50输出的特征图包含输入图像特征的图像,其尺寸是N*H*W*C,N代表张数,H代表输入图像高度,W代表输入图像宽度,C代表输出维数;并行设置3个卷积层收集水平上下文信息,将获取得到的上下文特征信息保存为{fθ,fφ,fg},将输入图像尺寸重置成为{N*H}*W*C的形状,通过fφ与fθ的转置相乘获得表示{N*H}*W*W尺寸的注意力特征图,并使用一个Sigmoid函数进行激活;一个水平上下文增强信息特征最终会被控制为N*H*W*C大小,并与上下文特征fg相乘,从而实现聚合上下文信息的功能;初始时,将卷积神经网络收集到的垂直方向上下文特征{fθ,fφ,fg}转置成{N*H*C*W}以获取垂直方向的上下文信息,同时使用一条短路径来保持局部特征,最终从水平和竖直两个方向抓取长连接像素的上下文信息,通过串行连接两个上下文注意模块,每个像素最终可以捕获所有像素的长程依赖关系。
6.根据权利要求3所述基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,所述第二步中,RoI Rotate模块连接手写体蒙古文检测模型和手写体蒙古文识别模型,使用双线性插值来计算输出的值,以避免RoI和提取的特征之间的未对准,并使输出特征的长度可变,且固定输出高度并保持宽高比不变,具体执行步骤如下:
步骤1:通过文本候选的预测坐标或GT坐标计算仿射变换参数,公式如下:
tx=l*cosθ-t*sinθ-x
ty=t*cosθ+l*sinθ-y
Figure FDA0003125688330000041
wt=s*(l+r)
ht,wt表示仿射变换后的特征图的高度和宽度,(x,y)表示输入图像特征图中点的坐标,tx和ty代表仿射变换后点的坐标,s代表仿射变换后的特征图的高度与文本候选框距图像边界的比例,(t,b,l,r)分别表示文本候选框与输入图像的顶部、底部、左侧、右侧的距离,θ表示方向,(t,b,l,r)和θ由第一步的检测部分给出;
仿射变换矩阵M如下所示:
Figure FDA0003125688330000042
步骤2:将仿射变换分别应用于每个文本区域的输入图像特征图中,获得文本区域的规范水平特征图,公式如下:
Figure FDA0003125688330000051
Figure FDA0003125688330000052
其中,c代表输入图像的第c个通道,C为通道总数,
Figure FDA0003125688330000053
代表仿射变换前图中第i个点的坐标,
Figure FDA0003125688330000054
代表仿射变换后图中第i个点的坐标,进一步计算得到输出值,公式如下:
Figure FDA0003125688330000055
其中
Figure FDA0003125688330000056
为c通道位置(i,j)处的输出值,
Figure FDA0003125688330000057
为c通道位置(n,m)处的输入值,hs表示输入的高度,ws表示输入的宽度,Φx,Φy为定义双线性插值通用采样核函数k()的参数。
Figure FDA0003125688330000058
为仿射变换前s通道位置(i,j)的x,y值,即坐标值。
7.根据权利要求3所述基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,所述手写体蒙古文识别模型使用卷积神经网络实现对输入的手写体蒙古文图像特征提取,并通过形变LSTM结合CTC模块完成特征序列化、识别以及反向传播。
8.根据权利要求7所述基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,所述卷积神经网络的卷积层由去掉全连接层的标准CNN模型构造,在输入网络之前,所有图像均缩放到相同的高度,然后从卷积层分量产生的特征映射中提取一系列特征向量,完成对输入图像的特征提取。
9.根据权利要求7所述基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,所述形变LSTM是对LSTM的改进,不改变LSTM本身的结构,通过引入额外的门控运算,使得当前输入x和上一时间片的输出hprev在输入到LSTM之前进行多轮交互计算,让输入和之前的输出首先进行交互,从而增强上下文建模能力,最终使得输入和上下文之间具有更加丰富的交互表示,交互公式如下:
Figure FDA0003125688330000061
式中,x定义为xi中上标最大的值,
Figure FDA0003125688330000062
定义为
Figure FDA0003125688330000063
中上标最大的值,cprev代表上一时间片更新后的状态,xi
Figure FDA0003125688330000064
代表在额外的门控运算中进行第i轮交互的前输入x和之前的输出hprev,计算公式如下:
Figure FDA0003125688330000065
Figure FDA0003125688330000066
式中,x-1=x,
Figure FDA0003125688330000067
轮数r是一个超参数,如果r=0,则为普通的LSTM,Qi、Ri是随机初始化的矩阵,为了减少附加模型参数的数量,Qi和Ri表现为低秩矩阵的乘积,即若Qi为m行n列的数值矩阵,Qi由两个秩远小于m,n的矩阵
Figure FDA0003125688330000068
表示,公式如下:
Figure FDA0003125688330000069
Figure FDA00031256883300000610
k<min(m,n)。
10.根据权利要求7所述基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,所述CTC模块完成序列转录为实际输出时,所得标签l的概率如下所示:
Figure FDA00031256883300000611
式中p(π∣y)代表输入序列为y输出为π的概率,
Figure FDA00031256883300000614
代表一个从序列到序列的函数,首先去掉重复的标签,然后去掉“空白”,最终实现将π映射到l上,p(π∣t)的计算公式如下:
Figure FDA00031256883300000612
Figure FDA00031256883300000613
代表第t个时间片时输出标签πt的概率,T代表输入序列的长度,即将输入序列共分为T个时间片进行识别;最终的输出结果为概率最大的标签;
使用CTC模块完成序列转录为实际输出,蒙古文手写体识别模型反向传播的目标为最小化ground truth条件概率的负对数似然,定义如下:
Figure FDA0003125688330000071
Ii代表第i张训练图像,li代表该训练图像的蒙古文标签,yi代表手写体蒙古文识别模型产生的预测序列。
CN202110689571.0A 2021-06-22 2021-06-22 一种基于分割和形变lstm的手写体蒙古文检测和识别方法 Pending CN113420760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110689571.0A CN113420760A (zh) 2021-06-22 2021-06-22 一种基于分割和形变lstm的手写体蒙古文检测和识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110689571.0A CN113420760A (zh) 2021-06-22 2021-06-22 一种基于分割和形变lstm的手写体蒙古文检测和识别方法

Publications (1)

Publication Number Publication Date
CN113420760A true CN113420760A (zh) 2021-09-21

Family

ID=77789854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110689571.0A Pending CN113420760A (zh) 2021-06-22 2021-06-22 一种基于分割和形变lstm的手写体蒙古文检测和识别方法

Country Status (1)

Country Link
CN (1) CN113420760A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708580A (zh) * 2022-04-08 2022-07-05 北京百度网讯科技有限公司 文本识别、模型训练方法、装置、设备、存储介质及程序

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110655323A (zh) * 2019-11-18 2020-01-07 景德镇学院 一种新型陶瓷釉上装饰材料及其制备方法
CN111832390A (zh) * 2020-05-26 2020-10-27 西南大学 一种手写古文字检测方法
CN111950353A (zh) * 2020-06-30 2020-11-17 深圳市雄帝科技股份有限公司 印章文本识别方法、装置及电子设备
CN112329760A (zh) * 2020-11-17 2021-02-05 内蒙古工业大学 基于空间变换网络端到端印刷体蒙古文识别翻译的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110655323A (zh) * 2019-11-18 2020-01-07 景德镇学院 一种新型陶瓷釉上装饰材料及其制备方法
CN111832390A (zh) * 2020-05-26 2020-10-27 西南大学 一种手写古文字检测方法
CN111950353A (zh) * 2020-06-30 2020-11-17 深圳市雄帝科技股份有限公司 印章文本识别方法、装置及电子设备
CN112329760A (zh) * 2020-11-17 2021-02-05 内蒙古工业大学 基于空间变换网络端到端印刷体蒙古文识别翻译的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PHIL BLUNSOM等: ""MOGRIFIER LSTM"", 《PUBLISHED AS A CONFERENCE PAPER AT ICLR 2020》 *
京局京段蓝白猪: "【论文笔记】端到端文本检测与识别——FOTS", 《HTTPS://BLOG.CSDN.NET/U013063099/ARTICLE/DETAILS/89236368》 *
智能血压计: ""【论文解读】【论文翻译】SAST文字检测算法"", 《HTTPS://BLOG.CSDN.NET/LZ867422770/ARTICLE/DETAILS/108169760》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708580A (zh) * 2022-04-08 2022-07-05 北京百度网讯科技有限公司 文本识别、模型训练方法、装置、设备、存储介质及程序
CN114708580B (zh) * 2022-04-08 2024-04-16 北京百度网讯科技有限公司 文本识别、模型训练方法、装置、设备、存储介质及程序

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
Yuliang et al. Detecting curve text in the wild: New dataset and new solution
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN110322495A (zh) 一种基于弱监督深度学习的场景文本分割方法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN111612008A (zh) 基于卷积网络的图像分割方法
CN112541491B (zh) 基于图像字符区域感知的端到端文本检测及识别方法
CN113705371B (zh) 一种水上视觉场景分割方法及装置
CN109299303B (zh) 基于可变形卷积与深度网络的手绘草图检索方法
CN111626297A (zh) 文字书写质量评价方法、装置、电子设备和记录介质
CN110599502B (zh) 一种基于深度学习的皮肤病变分割方法
CN112418216A (zh) 一种复杂自然场景图像中的文字检测方法
Zhou et al. A lightweight hand gesture recognition in complex backgrounds
CN110223310A (zh) 一种基于深度学习的线结构光中心线和箱体边缘检测方法
CN111401380A (zh) 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法
Yang et al. HCNN-PSI: A hybrid CNN with partial semantic information for space target recognition
CN110135435B (zh) 一种基于广度学习系统的显著性检测方法及装置
CN114581918A (zh) 一种文本识别模型训练方法及装置
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN113420760A (zh) 一种基于分割和形变lstm的手写体蒙古文检测和识别方法
Cao Face recognition robot system based on intelligent machine vision image recognition
CN110348311B (zh) 一种基于深度学习的道路交叉口识别系统及方法
Ling et al. A facial expression recognition system for smart learning based on YOLO and vision transformer
Rao et al. Roads detection of aerial image with FCN-CRF model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210921