CN111242113B - 一种任意方向自然场景文本识别方法 - Google Patents

一种任意方向自然场景文本识别方法 Download PDF

Info

Publication number
CN111242113B
CN111242113B CN202010017936.0A CN202010017936A CN111242113B CN 111242113 B CN111242113 B CN 111242113B CN 202010017936 A CN202010017936 A CN 202010017936A CN 111242113 B CN111242113 B CN 111242113B
Authority
CN
China
Prior art keywords
network
formula
text
output
gate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010017936.0A
Other languages
English (en)
Other versions
CN111242113A (zh
Inventor
景小荣
朱莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010017936.0A priority Critical patent/CN111242113B/zh
Publication of CN111242113A publication Critical patent/CN111242113A/zh
Application granted granted Critical
Publication of CN111242113B publication Critical patent/CN111242113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种任意方向自然场景文本识别方法,属于数字图像处理领域,包括以下步骤:S1:首先使用高分辨分割网络HRNet作为基础框架提取文本的空间信息;S2:然后使用卷积长短时记忆ConvLSTM模型提取文本的时空序列信息;S3:通过设计字符注意机制使得模型的注意力在字符上,并使用可微分二值化函数进一步加大网络对前景的注意力,而削弱对背景区域的关注;S4:网络对每个像素点进行37分类,将分类结果按照从左到右的顺序转换成文本。本发明能识别任意方向的场景文本,同时对低分辨率和强噪声文本均有较强的鲁棒性。

Description

一种任意方向自然场景文本识别方法
技术领域
本发明属于数字图像处理领域,涉及一种任意方向自然场景文本识别方法。
背景技术
随着智能设备的普及,人们可以轻易的获取图像。文本作为图像中的高层语义信息,能够帮助人们更好的理解图像。将图像中的文本信息转换为计算机可读可编辑的字符,对于提高多媒体检索能力、工业自动化水平、场景理解能力等具有重要意义。与自然场景文本识别相对应的是光学字符识别,光学字符识别一般是白底黑字易于区分,被认为是已经解决的问题。而自然场景文本由于文字类型多样,场景复杂多变,场景噪声等被视作计算机视觉领域一项极具挑战性的任务。
早期的场景文本识别分别对单个字符进行检测和分类,最后再将分类结果转换为序列信息。这类方法需要字符级别的标注信息,人工标注的成本过高。同时字符分类和检测的错误会累计并直接影响最终的识别精度。
受语音识别的启发,出现了基于CTC(Connectionist temporal classification)的文本识别方法。该方法将文本看作一维信息并将文本识别看作序列预测问题。基于CTC的方法首先通过卷积神经网络提取文本的空间特征,然后使用LSTM(Long short-termmemory)提取文本的序列特征,最后使用CTC替代传统的交叉熵损失训练网络。此外,还可以在CTC的基础上增加注意力机制,首先使用卷积神经网络和LSTM作为编码器,提取文本的空间序列特征,然后使用带有注意力机制的解码器进行解码。近年来出现了大量基于CTC或者带注意力机制的CTC框架的文章。
基于CTC的自然场景文本识别方法存在两个主要问题:a)在基于CTC的识别方法中都用到了LSTM,LSTM的状态转换层用的是全连接,因此LSTM要求将二维的输入图像信息转换为一维的序列信息,这将导致图像空间信息的丢失;b)基于CTC的识别方法只能针对规则文本,针对不规则文本需要增加一个矫正网络。这使得网路不能端到端的训练,同时会增加额外的计算。
为了解决基于序列的方法存在的问题,出现了基于二维视角的文本识别方法,该方法在保持图像二维信息的同时进行预测。M.Liao等人使用分割网络,对输入图像进行像素级的分类。Z.Wan等人为了保存图像的二维信息使用2D-CTC进行预测。这类方法虽然保存了图像的二维信息,却也忽略了图像的序列信息。
发明内容
有鉴于此,本发明的目的在于提供一种新的任意方向的自然场景文本识别方法,通过三个方面提高识别性能:a)使用高分辨率分割网络HRNet对图像进行像素级的分类;b)将文本识别看作一个时空序列预测问题,在特征提取阶段使用ConvLSTM提取文本的时空序列信息;c)在网络中加入字符注意力机制,告诉网络应该把注意力放在图像的什么位置。
为达到上述目的,本发明提供如下技术方案:
一种任意方向自然场景文本识别方法,包括以下步骤:
S1:首先使用高分辨分割网络(High Resolution Network,HRNet)作为基础框架提取文本的空间信息;
S2:然后使用卷积长短时记忆(Convolutional Long Short-Term Memory,ConvLSTM)模型提取文本的时空序列信息;
S3:通过设计字符注意机制使得模型的注意力在字符上,并使用可微分二值化函数进一步加大网络对前景的注意力,而削弱对背景区域的关注;
S4:网络对每个像素点进行37分类,将分类结果按照从左到右的顺序转换成文本。
进一步,步骤S2中所述的ConvLSTM,是将长短时记忆LSTM中的状态转换层换为卷积层,所述LSTM的原理如下:LSTM有三个门,分别为遗忘门ft、记忆门it和输出门ot,LSTM中的门是一种让信息选择性通过的方法,由sigmoid激活函数跟元素点乘操作组成,sigmoid函数输出[0,1]之间的数,代表信息保留的比率,其中数值1代表信息全部保留,而0表示无信息保留。
进一步,所述LSTM中遗忘门、记忆门和输出门的原理如下:
所述遗忘门的作用是选择性的舍弃上一个单元状态ct-1的信息,即使用sigmoid激活函数作用于上一个隐藏层状态ht-1,输入状态xt,其计算公式如式(1)所示:
ft=σ(wf·[ht-1,xt]+bf) (1)
所述记忆门的作用是选择性的保留临时状态
Figure BDA0002359619080000021
的信息,其计算公式如式(2),与式(1)一样,仍使用sigmoid激活函数作用于ht-1,xt,其中
Figure BDA0002359619080000022
如式(3)所示,其使用激活函数tanh将输入ht-1,xt转换成[-1,1]之间的值;
it=σ(wi·[ht-1,xt]+bi) (2)
Figure BDA0002359619080000031
将遗忘门跟记忆门作用的结果相加,得到下一个细胞状态ct,计算公式如式(4)所示:
Figure BDA0002359619080000032
所述输出门的作用是决定网络最终的输出状态;输出门ot的计算公式如式(5),和式(1)、式(2)一样,使用sigmoid激活函数作用于ht-1,xt;对由式(4)得到的ct使用tanh进行归一化处理后再与输出门结果ot做元素点乘操作以得到网络最终的输出状态ht,如式(6)所示:
ot=σ(wo·[ht-1,xt]+bo) (5)
ht=ot*tanh(ct) (6)
上述各式中系数wf,wc,wi,wo及bf,bi,bc,bo均为需要网络学习的权重参数,'·'代表矩阵乘法,等价于全连接操作;'*'代表元素点乘,等价于卷积操作。
进一步,所述将LSTM中的状态转换层换为卷积层,计算公式如式(7)~(12),所述ConvLSTM与LSTM的区别在于所有的全连接'·'操作换成卷积操作'*';使用ConvLSTM有效的提取到了文本的时空序列信息,从而提升了最终的识别精度。
ft=σ(wf*[ht-1,xt]+bf) (7)
it=σ(wi*[ht-1,xt]+bi) (8)
Figure BDA0002359619080000033
Figure BDA0002359619080000034
ot=σ(wo*[ht-1,xt]+bo) (11)
ht=ot*tanh(ct) (12)。
进一步,步骤S3中所述字符注意机制,具体包括:
将字符掩模模块加在每个ConvLSTM的后面,所述字符掩模模块按照式(13)设计:
Figure BDA0002359619080000035
其中Fi、Fo分别代表输入和输出特征;
Figure BDA0002359619080000036
代表对字符掩模模块的输出特征p进行近似二值化,其中k代表二值化的程度;根据经验,k设置为50;
Figure BDA0002359619080000037
分别代表元素相加和元素相乘;
字符掩模模块包括二层卷积和一个二分类的softmax函数,字符掩模模块的输出特征p中所有元素都取0-1之间的概率值;通过对输出特征p中的所有元素使用可微分近似二值化函数,以加大网络对前景的注意力,同时削弱对背景区域的关注。
进一步,步骤S3中还包括构建损失函数:网络的损失由两部分组成,如式(14)所示;其中Lo表示网络最终输出的损失,Lm表示字符掩模模块的损失,S代表网络的层级索引,λbalance为两个损失的平衡参数,根据经验设置为0.25;
Figure BDA0002359619080000041
Lo的计算公式如式(15),假设网络最终输出的图像尺寸为H×W×C,H,W分别代表输出图像的的高和宽,C代表网络预测的类别数,c∈{0,1,...,C-1},yc代表真实的类别标签,pc代表网络对该像素点的类别预测概率,Wij是每个像素点的权重平衡因子,假设N=H×W,Npos表示前景的像素点个数,则Wij的计算公式如式(16):
Figure BDA0002359619080000042
Figure BDA0002359619080000043
Figure BDA0002359619080000044
的计算公式如式(17),其中Hs,Ws分别表示对应层的输出图像的高和宽:
Figure BDA0002359619080000045
进一步,步骤S4中具体包括:网络输出为H×W×C的概率图,将概率图转换获得文本信息;为此,首先手动设置一个阈值,将概率图转换为二值图,这里的阈值根据经验设置为125;然后根据二值图得到外轮廓的最小外接矩形,计算矩形所在区域的概率图的各通道的概率值之和,取概率值最大的通道数的索引为最终的预测类别;最后按照从左到右的顺序排列字符,得到最终的文本信息。
本发明的有益效果在于:本发明能识别任意方向的场景文本,同时对低分辨率和强噪声文本均有较强的鲁棒性,如表1所示是本发明在多个标准数据集上的性能表现,充分证明了本文提出的方法的有效性。
表1本发明在多个数据集上的表现
Figure BDA0002359619080000046
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明网络结构示意图;
图2为本发明LSTM门结构示意图;
图3为本发明LSTM内部结构示意图;
图4为本发明LSTM状态转换层示意图;
图5为本发明ConvLSTM状态转换层示意图;
图6为本发明文本识别成功示例图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明提供一种任意方向自然场景文本识别方法,包括以下步骤:
步骤一:准备数据
本发明仅仅使用合成数据集SynthText训练网络,未使用真实数据对网络进行微调。在通用的六个测试集上进行网络性能评估,包括规则文本数据集IIIT5K,低分辨率和强噪声的文本数据集SVT,透视文本SVTP,弯曲文本CUTE等。值得注意的是,这六个测试集部分包含字典,本发明测试均不使用字典。
·SynthText是由Gupta等人提出的用于场景文本检测的数据集。原始数据集包含有80万的场景文本图像,每幅图上包含有多个文本。该数据集中的文本字体多样,背景复杂,且文本方向具有任意性。该数据集中的每个字符都有文本框标注。最终,从该数据集中裁剪出约7百万的数据用于文本识别。
·IC03过滤后包含860张裁剪图像,和Wang等人一样,非字母数字字符或少于三个的单词字符被丢弃。
·IC13大部分数据继承自IC03,包含233张原图,裁剪后包含1015张图像
·IIIT5K是由Mishra等人提出的。该数据集包含3000张从网络上获取的文本图像,大部分的图像是规则的。
·SVT是由Wang等人提出的。该数据集从谷歌街景中获取,共包含647张文本图像,由于该数据的低分辨率跟强噪声导致该数据集的识别十分具有挑战性。
·SVTP是专为透视文本识别而设计的。包含238张跟SVT取自相同地址的街道拍摄图像,裁剪后包含645张图。
·CUTE是由Risnumawan等人提出的,该数据集虽然只有288张图像,但该数据集大部分图像都是严重的弯曲文本,因此该数据集相较于其他数据集更具有挑战性。
步骤二:首先使用高分辨分割网络(High Resolution Network,HRNet)作为基础框架提取文本的空间信息。
步骤三:然后使用卷积长短时记忆(Convolutional Long Short-Term Memory,ConvLSTM)模型提取文本的时空序列信息;
如图2-4所示,LSTM的原理如下:LSTM有三个门,分别为遗忘门ft、记忆门it和输出门ot,LSTM中的门是一种让信息选择性通过的方法,由sigmoid激活函数跟元素点乘操作组成,sigmoid函数输出[0,1]之间的数,代表信息保留的比率,其中数值1代表信息全部保留,而0表示无信息保留。
所述遗忘门的作用是选择性的舍弃上一个单元状态ct-1的信息,即使用sigmoid激活函数作用于上一个隐藏层状态ht-1,输入状态xt,其计算公式如式(1)所示:
ft=σ(wf·[ht-1,xt]+bf) (1)
所述记忆门的作用是选择性的保留临时状态
Figure BDA0002359619080000076
的信息,其计算公式如式(2),与式(1)一样,仍使用sigmoid激活函数作用于ht-1,xt,其中
Figure BDA0002359619080000075
如式(3)所示,其使用激活函数tanh将输入ht-1,xt转换成[-1,1]之间的值;
it=σ(wi·[ht-1,xt]+bi) (2)
Figure BDA0002359619080000074
将遗忘门跟记忆门作用的结果相加,得到下一个细胞状态ct,计算公式如式(4)所示:
Figure BDA0002359619080000071
所述输出门的作用是决定网络最终的输出状态;输出门ot的计算公式如式(5),和式(1)、式(2)一样,使用sigmoid激活函数作用于ht-1,xt;对由式(4)得到的ct使用tanh进行归一化处理后再与输出门结果ot做元素点乘操作以得到网络最终的输出状态ht,如式(6)所示:
ot=σ(wo·[ht-1,xt]+bo) (5)
ht=ot*tanh(ct) (6)
上述各式中系数wf,wc,wi,wo及bf,bi,bc,bo均为需要网络学习的权重参数,'·'代表矩阵乘法,等价于全连接操作;'*'代表元素点乘,等价于卷积操作。
如图5所示,所述将LSTM中的状态转换层换为卷积层,计算公式如式(7)~(12),所述ConvLSTM与LSTM的区别在于所有的全连接'·'操作换成卷积操作'*';使用ConvLSTM有效的提取到了文本的时空序列信息,从而提升了最终的识别精度。
ft=σ(wf*[ht-1,xt]+bf) (7)
it=σ(wi*[ht-1,xt]+bi) (8)
Figure BDA0002359619080000072
Figure BDA0002359619080000073
ot=σ(wo*[ht-1,xt]+bo) (11)
ht=ot*tanh(ct) (12)。
所述字符注意机制,具体包括:
将字符掩模模块加在每个ConvLSTM的后面,所述字符掩模模块按照式(13)设计:
Figure BDA0002359619080000081
其中Fi、Fo分别代表输入和输出特征;
Figure BDA0002359619080000082
代表对字符掩模模块的输出特征p进行近似二值化,其中k代表二值化的程度;根据经验,k设置为50;
Figure BDA0002359619080000083
分别代表元素相加和元素相乘;
字符掩模模块包括二层卷积和一个二分类的softmax函数,字符掩模模块的输出特征p中所有元素都取0-1之间的概率值;通过对输出特征p中的所有元素使用可微分近似二值化函数,以加大网络对前景的注意力,同时削弱对背景区域的关注。
步骤四:通过设计字符注意机制使得模型的注意力在字符上,并使用可微分二值化函数进一步加大网络对前景的注意力,而削弱对背景区域的关注;
本发明还需要对网络进行训练,具体包括以下步骤:
1)制作数据标签:取每个字符的四边形标注框的外接矩形框,并向内收缩至原始框的1/4大小。这样可以避免相邻字重叠的问题。字符掩模模块的标签需要将字符所在区域的像素值置为1,其余区域的像素值置为0。网络最终输出的标签需要将字符所在区域的像素值置为字符编码后的数值。字符编码对应关系为:数字0-9编码后的值为1-10,字母a-z编码后的值为11-36,其余的一律编码为0。
2)构建如图1所示的网络结构;
3)在SynthText合成数据集上对网络进行训练:固定输入图像尺寸,高设置为64,宽设置为256。在训练阶段使用数据增强,包括模糊、随机亮度、对比度、色度、饱和度、随机旋转。特别的,设置随机旋转角度在[-15,15]范围内。使用Adam进行网络优化,网络的学习率初始化为10-4,学习率每三万步下降为原来的0.1,降至10-6时不再变化。网络分类的类别数为37,包括10个阿拉伯数字,26的英文字母,一个背景。
4)构建损失函数:网络的损失由两部分组成,如式(14)所示。其中Lo表示网络最终输出的损失,Lm表示字符掩模模块的损失。S代表网络的层级索引。λbalance为两个损失的平衡参数,根据经验设置为0.25。
Figure BDA0002359619080000084
Lo的计算公式如式(15),假设网络最终输出的图像尺寸为H×W×C,H,W分别代表输出图像的的高和宽,C代表网络预测的类别数,c∈{0,1,...,C-1},yc代表真实的类别标签,pc代表网络对该像素点的类别预测概率,Wij是每个像素点的权重平衡因子,假设N=H×W,Npos表示前景的像素点个数,则Wij的计算公式如式(16):
Figure BDA0002359619080000091
Figure BDA0002359619080000092
Figure BDA0002359619080000093
的计算公式如式子(17),其中Hs,Ws分别表示对应层的输出图像的高和宽。
Figure BDA0002359619080000094
步骤五:对学习好的网络在测试集上进行测试:该步骤中,将归一化的测试图像输入网络模型中,网络输出为37分类的框,再将网络输出通过文本信息模块转换为文本。
网络输出为H×W×C的概率图,将概率图转换获得文本信息;为此,首先手动设置一个阈值,将概率图转换为二值图,这里的阈值根据经验设置为125;然后根据二值图得到外轮廓的最小外接矩形,计算矩形所在区域的概率图的各通道的概率值之和,取概率值最大的通道数的索引为最终的预测类别;最后按照从左到右的顺序排列字符,得到最终的文本信息。
如图6所示,是本发明对文本识别成功的示例图,本发明能识别任意方向的场景文本,同时对低分辨率和强噪声文本均有较强的鲁棒性。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种任意方向自然场景文本识别方法,其特征在于:包括以下步骤:
S1:首先使用高分辨分割网络HRNet作为基础框架提取文本的空间信息;
S2:然后使用卷积长短时记忆ConvLSTM模型提取文本的时空序列信息;步骤S2中所述的ConvLSTM,是将长短时记忆LSTM中的状态转换层换为卷积层,所述LSTM的原理如下:LSTM有三个门,分别为遗忘门ft、记忆门it和输出门ot,LSTM中的门是一种让信息选择性通过的方法,由sigmoid激活函数跟元素点乘操作组成,sigmoid函数输出[0,1]之间的数,代表信息保留的比率,其中数值1代表信息全部保留,而0表示无信息保留;
所述LSTM中遗忘门、记忆门和输出门的原理如下:
所述遗忘门的作用是选择性的舍弃上一个单元状态ct-1的信息,即使用sigmoid激活函数作用于上一个隐藏层状态ht-1,输入状态xt,其计算公式如式(1)所示:
ft=σ(wf·[ht-1,xt]+bf) (1)
所述记忆门的作用是选择性的保留临时状态
Figure FDA0003673146900000011
的信息,其计算公式如式(2),与式(1)一样,仍使用sigmoid激活函数作用于ht-1,xt,其中
Figure FDA0003673146900000012
如式(3)所示,其使用激活函数tanh将输入ht-1,xt转换成[-1,1]之间的值;
it=σ(wi·[ht-1,xt]+bi) (2)
Figure FDA0003673146900000013
将遗忘门跟记忆门作用的结果相加,得到下一个细胞状态ct,计算公式如式(4)所示:
Figure FDA0003673146900000014
所述输出门的作用是决定网络最终的输出状态;输出门ot的计算公式如式(5),和式(1)、式(2)一样,使用sigmoid激活函数作用于ht-1,xt;对由式(4)得到的ct使用tanh进行归一化处理后再与输出门结果ot做元素点乘操作以得到网络最终的输出状态ht,如式(6)所示:
ot=σ(wo·[ht-1,xt]+bo) (5)
ht=ot*tanh(ct) (6)
上述各式中系数wf,wc,wi,wo及bf,bi,bc,bo均为需要网络学习的权重参数,'·'代表矩阵乘法,等价于全连接操作;'*'代表元素点乘,等价于卷积操作;
所述将LSTM中的状态转换层换为卷积层,计算公式如式(7)~(12),所述ConvLSTM与LSTM的区别在于所有的全连接'·'操作换成卷积操作'*';
ft=σ(wf*[ht-1,xt]+bf) (7)
it=σ(wi*[ht-1,xt]+bi) (8)
Figure FDA0003673146900000021
Figure FDA0003673146900000022
ot=σ(wo*[ht-1,xt]+bo) (11)
ht=ot*tanh(ct) (12)
S3:通过设计字符注意机制使得模型的注意力在字符上,并使用可微分二值化函数进一步加大网络对前景的注意力,而削弱对背景区域的关注;步骤S3中所述字符注意机制,具体包括:
将字符掩模模块加在每个ConvLSTM的后面,所述字符掩模模块按照式(13)设计:
Figure FDA0003673146900000023
其中Fi、Fo分别代表输入和输出特征;
Figure FDA0003673146900000024
代表对字符掩模模块的输出特征p进行近似二值化,其中k代表二值化的程度;
Figure FDA0003673146900000025
分别代表元素相加和元素相乘;
字符掩模模块包括二层卷积和一个二分类的softmax函数,字符掩模模块的输出特征p中所有元素都取0-1之间的概率值;对输出特征p中的所有元素使用可微分近似二值化函数;
S4:网络对每个像素点进行37分类,将分类结果按照从左到右的顺序转换成文本;所述37分类为:网络分类的类别数为37,包括10个阿拉伯数字,26的英文字母,一个背景。
2.根据权利要求1所述的任意方向自然场景文本识别方法,其特征在于:步骤S3中还包括构建损失函数:网络的损失由两部分组成,如式(14)所示;其中Lo表示网络最终输出的损失,Lm表示字符掩模模块的损失,S代表网络的层级索引,λbalance为两个损失的平衡参数;
Figure FDA0003673146900000026
Lo的计算公式如式(15),假设网络最终输出的图像尺寸为H×W×C,H,W分别代表输出图像的的高和宽,C代表网络预测的类别数,c∈{0,1,...,C-1},yc代表真实的类别标签,pc代表网络对该像素点的类别预测概率,Wij是每个像素点的权重平衡因子,假设N=H×W,Npos表示前景的像素点个数,则Wij的计算公式如式(16):
Figure FDA0003673146900000031
Figure FDA0003673146900000032
Figure FDA0003673146900000033
的计算公式如式(17),其中Hs,Ws分别表示对应层的输出图像的高和宽:
Figure FDA0003673146900000034
3.根据权利要求2所述的任意方向自然场景文本识别方法,其特征在于:步骤S4中具体包括:网络输出为H×W×C的概率图,将概率图转换获得文本信息;为此,首先手动设置一个阈值,将概率图转换为二值图;然后根据二值图得到外轮廓的最小外接矩形,计算矩形所在区域的概率图的各通道的概率值之和,取概率值最大的通道数的索引为最终的预测类别;最后按照从左到右的顺序排列字符,得到最终的文本信息。
CN202010017936.0A 2020-01-08 2020-01-08 一种任意方向自然场景文本识别方法 Active CN111242113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010017936.0A CN111242113B (zh) 2020-01-08 2020-01-08 一种任意方向自然场景文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010017936.0A CN111242113B (zh) 2020-01-08 2020-01-08 一种任意方向自然场景文本识别方法

Publications (2)

Publication Number Publication Date
CN111242113A CN111242113A (zh) 2020-06-05
CN111242113B true CN111242113B (zh) 2022-07-08

Family

ID=70866151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010017936.0A Active CN111242113B (zh) 2020-01-08 2020-01-08 一种任意方向自然场景文本识别方法

Country Status (1)

Country Link
CN (1) CN111242113B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985525B (zh) * 2020-06-30 2023-09-22 上海海事大学 基于多模态信息融合处理的文本识别方法
CN112149613B (zh) * 2020-10-12 2024-01-05 萱闱(北京)生物科技有限公司 一种基于改进lstm模型的动作预估评定方法
CN112329779B (zh) * 2020-11-02 2024-06-28 平安科技(深圳)有限公司 一种基于mask提高证件识别准确率的方法和相关装置
CN112329761A (zh) * 2021-01-05 2021-02-05 北京易真学思教育科技有限公司 文本检测方法、装置、设备及存储介质
CN113837282B (zh) * 2021-09-24 2024-02-02 上海脉衍人工智能科技有限公司 一种自然场景文本识别的方法及计算设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368831A (zh) * 2017-07-19 2017-11-21 中国人民解放军国防科学技术大学 一种自然场景图像中的英文文字和数字识别方法
WO2018207390A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Corporation Speech recognition system and method for speech recognition
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110378334A (zh) * 2019-06-14 2019-10-25 华南理工大学 一种基于二维特征注意力机制的自然场景文本识别方法
CN110659641A (zh) * 2018-06-28 2020-01-07 杭州海康威视数字技术股份有限公司 一种文字识别的方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018207390A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Corporation Speech recognition system and method for speech recognition
CN107368831A (zh) * 2017-07-19 2017-11-21 中国人民解放军国防科学技术大学 一种自然场景图像中的英文文字和数字识别方法
CN110659641A (zh) * 2018-06-28 2020-01-07 杭州海康威视数字技术股份有限公司 一种文字识别的方法、装置及电子设备
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110378334A (zh) * 2019-06-14 2019-10-25 华南理工大学 一种基于二维特征注意力机制的自然场景文本识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Liao, M. , et al.."Real-time Scene Text Detection with Differentiable Binarization".《URL:https://arxiv.org/abs/1911.08947》.2019, *
Liao, M. , et al.."Scene Text Recognition from Two-Dimensional Perspective".《Proceedings of the AAAI Conference on Artificial Intelligence 33(2019)》.2019, *
Wang Q , Jia W , He X , et al.."FACLSTM: ConvLSTM with Focused Attention for Scene Text Recognition".《URL:https://arxiv.org/abs/1904.09405》.2019, *
Wang, J. , et al.."Deep High-Resolution Representation Learning for Visual Recognition".《URL:https://arxiv.org/abs/1908.07919》.2019, *
朱莉,陈宏,景小荣."任意方向自然场景文本识别".《重庆邮电大学学报(自然科学版) 》.2022, *

Also Published As

Publication number Publication date
CN111242113A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111242113B (zh) 一种任意方向自然场景文本识别方法
Yang et al. Learning to extract semantic structure from documents using multimodal fully convolutional neural networks
Gao et al. Reading scene text with fully convolutional sequence modeling
Yang et al. Fully convolutional sequence recognition network for water meter number reading
Chandio et al. Cursive text recognition in natural scene images using deep convolutional recurrent neural network
Mondal et al. Handwritten English word recognition using a deep learning based object detection architecture
Park et al. Automatic detection and recognition of Korean text in outdoor signboard images
Bhunia et al. Text recognition in scene image and video frame using color channel selection
Zhang et al. Adaptive text recognition through visual matching
Lei et al. Scene text recognition using residual convolutional recurrent neural network
CN112633431B (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
Zayene et al. Multi‐dimensional long short‐term memory networks for artificial Arabic text recognition in news video
Kass et al. AttentionHTR: Handwritten text recognition based on attention encoder-decoder networks
Chandio et al. Cursive character recognition in natural scene images using a multilevel convolutional neural network fusion
Xu et al. A page object detection method based on mask R-CNN
Wang et al. From object detection to text detection and recognition: A brief evolution history of optical character recognition
Alghyaline Arabic Optical Character Recognition: A Review.
Fadhilah et al. Non-halal ingredients detection of food packaging image using convolutional neural networks
CN116229482A (zh) 网络舆情分析中视觉多模态文字检测识别及纠错方法
Liu et al. SAFE: scale aware feature encoder for scene text recognition
Hemanth et al. CNN-RNN BASED HANDWRITTEN TEXT RECOGNITION.
Al Ghamdi A novel approach to printed Arabic optical character recognition
Ali Nur et al. Handwritten Geez Digit Recognition Using Deep Learning
CN112036290A (zh) 一种基于类标编码表示的复杂场景文字识别方法及系统
Zhao et al. A multi-scale CRNN model for Chinese papery medical document recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant