CN110399879A - 一种基于注意力机制的文本行单字分割方法 - Google Patents

一种基于注意力机制的文本行单字分割方法 Download PDF

Info

Publication number
CN110399879A
CN110399879A CN201910517862.4A CN201910517862A CN110399879A CN 110399879 A CN110399879 A CN 110399879A CN 201910517862 A CN201910517862 A CN 201910517862A CN 110399879 A CN110399879 A CN 110399879A
Authority
CN
China
Prior art keywords
text
characteristic sequence
line
attention mechanism
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910517862.4A
Other languages
English (en)
Other versions
CN110399879B (zh
Inventor
李兆海
金连文
杨海林
周伟英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910517862.4A priority Critical patent/CN110399879B/zh
Publication of CN110399879A publication Critical patent/CN110399879A/zh
Application granted granted Critical
Publication of CN110399879B publication Critical patent/CN110399879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种基于注意力机制的文本行单字分割方法,包括收集文本行训练图像;对图像的尺寸做归一化;对训练图像做数据增广;创建基于注意力机制的文本行识别网络;通过大量训练数据训练得到识别模型;将待分割文本行图像输入到识别模型中,通过注意力机制的权重概率分布计算单字分割结果;本发明注意力机制中的权重概率分布,在识别文本行内容的同时,能够将文本行中的单字分割出来,并且只需要标注文本内容,而不需要标注单字的位置,节省了大量人力,实现了弱监督的文本行单字分割。

Description

一种基于注意力机制的文本行单字分割方法
技术领域
本发明涉及计算机视觉领域,特别是涉及一种基于注意力机制的文本行单字分割方法。
背景技术
文字,在人类历史的进程中扮演了重要的角色,是人类社会信息交流最重要的工具之一。无论是书籍报纸,表单证件等正式文档,还是车牌路标,商家招牌等户外标识,都离不开文字。随着多媒体和信息技术的发展,数以亿计的图像充斥在互联网的每一个角落,人们希望能够通过计算机来高效地理解和处理图像,而文字信息对于图像理解至关重要。因此,文本图像识别一直是数字图像处理领域的热门研究方向。
文本行识别的目标是将已经切分好的文本行图像中的文本内容识别出来,目前效果最好的文本行识别算法都是基于序列识别模型的,即不需要切分单字,而是直接将文本行图像输入到序列模型中,得出最后的识别结果。虽然序列识别模型的识别效果较好,但是识别出的各个文字与文本行图像无法对应起来,当识别出错时,无法判断原图中哪部分的信息导致了识别错误。因此,如何在序列识别模型中分割单字是一个待解决的问题。
发明内容
本发明的目的是提供一种基于注意力机制的文本行单字分割方法,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于注意力机制的文本行单字分割方法,包括以下步骤:
S1、收集文本行训练图像;
S2、对图像的尺寸做归一化;
S3、对训练图像做数据增广;
S4、创建基于注意力机制的文本行识别网络;
S5、通过大量训练数据训练得到识别模型;
S6、将待分割文本行图像输入到识别模型中,通过注意力机制的权重概率分布计算单字分割结果。
优选的,所述步骤S2的尺寸归一化具体为:将所有文本行图像的尺寸归一化到hs×ws
优选的,所述步骤S3的数据增广方式包括以下几种:
S3.1、高斯模糊:对输入图像做随机高斯模糊;
S3.2、改变亮度和对比度:随机改变输入图像的亮度和对比度;
S3.3、图像旋转:对输入图像做随机旋转处理;
S3.4、动态模糊:对输入图像做随机动态模糊;
优选的,所述步骤S4的识别网络创建包括以下步骤:
S4.1、全卷积神经网络编码器
全卷积神经网络编码器包含了6个依次连接的卷积层结构,前面的5个卷积层结构都包含了一个卷积层,一个ReLU激活函数以及一个聚合层,每个聚合层都使网络中的特征图尺寸减小一半,归一化后的图像尺寸为hs×ws,则每一个卷积层输出的特征图尺寸分别为
最后一个卷积层结构包括一个卷积层,一个ReLU激活函数以及一个BN层;为了方便后续使用LSTM提取语义特征,设计该卷积层的参数,使得输出的特征图高度为1,宽度为We
S4.2、构建循环神经网络提取特征序列中的语义信息
将步骤S4.1中提取的一维特征序列输入到两层双向循环神经网络BLSTM中,此外,两层BLSTM都配备了Dropout层;
S4.3、基于注意力机制的解码器
解码器包括注意力机制模块、循环神经网络LSTM和全连接层,在LSTM的每一个时间点,注意力机制模块根据LSTM的状态特征和输入的特征序列生成一个权重概率分布,来决定特征序列中每一个位置的权重;随后,根据权重概率分布和特征序列得到当前时刻的加权特征,再利用一个全连接层将加权特征解码输出,得到当前时刻的识别结果,循环每个时间点,即可得到最终的识别结果。
优选的,所述步骤S4.3的注意力机制的解码计算过程包含以下步骤:
S4.3.1、首先,假设特征序列为h,其长度为L,LSTM的状态特征为s,注意力机制生成的概率分布为α和特征序列h计算得到的加权特征为g,解码器的输出为y;
S4.3.2、根据上一时刻的状态和输入的特征序列,得到当前时刻特征序列的每一个位置对应的权重:
et,j=ωTtanh(Wst-1+Vhj+b)
其中,et,j表示t时刻特征序列的j位置hj对应的权重,ωT,W和V是待学习权值,b是待学习偏置值,st-1表示t-1时刻的状态特征;
S4.3.3、对步骤S4.3.2中的权重et,j做归一化处理,得到当前时刻特征序列每个位置的概率:
其中,αt,j表示t时刻特征序列的j位置hj对应的权重概率,exp表示自然常数e为底的指数函数;
S4.3.4、根据概率分布和特征序列得到加权特征:
其中,gt表示t时刻特征序列h对应的加权特征;
S4.3.5、利用加权特征和前一时刻的状态得到当前时刻的识别结果:
yt=FC(st-1,gt)
yt表示t时刻的识别结果,FC表示全连接层;
S4.3.6、更新LSTM的状态特征:
st=LSTM(st-1,gt,yt)
其中,st表示t时刻的LSTM的状态特征。
优选的,所述步骤S5的识别模型训练方式采用自适应梯度下降方法,参数公式如下:
xt=xt-1-g′t
其中,gt是第t次迭代时的梯度,xt是第t次迭代时需要更新的权重,st、Δxt和g′t为中间状态变量,ρ和ε为超参数;
优选的,所述步骤S6包含以下步骤:
S6.1、根据权利要求4所创建的卷积神经网络结构,计算出特征序列中每一个点的坐标({xfi}i=0,1...,L,1)对应回原图的坐标({xsi}i=0,1...,L,{yfi}i=0,1...,L);具体的计算方式是通过卷积神经网络中相邻两层之间的坐标映射关系逐层计算,假设(xl+1,yl+1)是第l+1层网络中的坐标,第l层网络中的坐标(xl,yl)计算公式如下:
其中,kl是第l层网络的核大小,pl是第l层网络贴边尺寸;
S6.2、将待分割的文本行图像输入到已训练完成的识别模型中,得到注意力机制的权重概率分布为α,假设权重概率分布为α为{αit}i=0,1...,L,t=1,2,...,T,其中L是特征序列的长度,T是时间点的个数;在每个时间点,将权重概率分布为a与S6.1得到的原图对应坐标({xsi}i=0,1...,L,{ysi}i=0,1...,L)进行点乘,就得到该时间点注意力模块所关注的位置坐标(xαt,yαt),计算公式如下:
通过上述的注意力机制坐标映射计算每一个时间点,都能在原图上找到一个关注点,即所述关注点为文本行中所有单字的中心位置。
S6.3通过特征序列上像素点对应回原图的感受野大小来确定单字检测框的尺寸,假设第i层的感受野尺寸为ri,则相邻层之间感受野尺寸的对应关系如下式计算:
ri(ri+1-1)×Si+Ki
其中,K表示卷积或者聚合层核的大小,S表示步长;计算出特征序列上的一个点对应回原图S的感受野大小rsh×rsw,那么单字检测框的高hd和宽wd由以下公式计算:
hd=rsh×βh
wd=rsw×βw
其中,βh是高度缩放因子,βw是宽度缩放因子;通过以上计算,每一个单字的位置可由一个中心点为(xαt,yαt),高度为hd,宽度为wd的矩形框确定。
本发明公开了以下技术效果:
1、本发明使用基于注意力机制的序列识别模型来识别文本行图像,该模型的鲁棒性好,识别率高;
2、本发明利用注意力机制中的权重概率分布,在识别文本行内容的同时,能够将文本行中的单字分割出来;
3、本发明提出的单字分割模型的训练数据只需要标注文本内容,而不需要标注单字的位置,节省了大量人力,实现了弱监督的文本行单字分割。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图;
图2为本发明序列识别模型示意图;
图3为本发明单字分割方法示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参见图1,以中文古籍文本行图像的识别与分割问题为例,本发明公开了一种基于注意力机制的文本行单字分割方法,包括以下步骤:
S1、收集文本行训练图像
收集的中文古籍文本行图像来自于高丽藏大藏经,文本行图像是从高丽藏大藏经的扫描件中按列切分得到的。训练集共有约30万张文本行图像,标签是文本行内容,文本行中所包含的文字类别数为6025;
S2、对图像尺寸归一化;
将所有文本行图像的尺寸归一化到hs×ws,hs设置为100,Ws设置为1000;
S3、对训练图像做数据增广,数据增广的方式主要包括以下几种:
S3.1、高斯模糊:对输入图像做随机高斯模糊,模糊核的半径为3-5个像素;
S3.2、改变亮度和对比度:随机改变输入图像的亮度和对比度,公式如下:
g(i,j)=α×f(i,j)+β
其中,g(i,j)表示处理后的图像上坐标为(i,j)的像素点的像素值,f(i,j)表示处理前的原图像上坐标为(i,j)的像素点的像素值,α表示对比度系数,β表示亮度系数,α的范围为0.5-1.5,β的范围为0-49,;
S3.3、图像旋转:对输入图像做随机旋转处理,图像旋转角度范围为-5°-5°;
S3.4、动态模糊:对输入图像做动态模糊,模糊核半径的范围为7-9个像素。
S4、创建基于注意力机制的文本行识别网络,具体包含以下步骤:
S4.1、全卷积神经网络编码器
全卷积神经网络编码器的作用是从文本行图像中提取特征序列,用于后续的解码。全卷积神经网络编码器包含了6个依次连接的卷积层结构,前面的5个卷积层结构分别包含一个卷积层,一个ReLU激活函数以及一个聚合层。卷积层的作用是提取特征,聚合层的作用是减少网络参数和计算量,防止过拟合。每个聚合层都使网络中的特征图尺寸减小一半,归一化后的图像尺寸为hs×ws,则每一个卷积层输出的特征图尺寸分别为
最后一个卷积层结构包括一个卷积层,一个ReLU激活函数以及一个BN层,BN层能够加快训练速度,提高网络的泛化性能。为了方便后续使用LSTM提取语义特征,设计该卷积层的参数,使得输出的特征图高度为1,宽度为We
全卷积神经网络编码器的结构如下表所示:
在上表中,maps表示输出特征图的维度,K表示卷积层/聚合层的核尺寸,S表示步长,P表示补零(Padding)的大小。
S4.2、构建循环神经网络提取特征序列中的语义信息
将步骤S4.1提取的一维特征序列输入到两层双向循环神经网络BLSTM中,用于提取特征序列中的上下文语义信息,增强特征的表达能力,此外,两层BLSTM都配备了Dropout层,用于缓解过拟合,两层BLSTM的输出维度均为256;
S4.3、基于注意力机制的解码器
解码器包括注意力机制模块,循环神经网络LSTM和全连接层,在LSTM的每一个时间点,注意力机制模块根据LSTM的状态特征和输入的特征序列生成一个权重概率分布,来决定特征序列中每一个位置的权重。随后,根据权重概率分布α和特征序列h可以得到当前时刻的加权特征,再利用一个全连接层将加权特征解码输出,得到当前时刻的识别结果,循环每个时间点,即可得到最终的识别结果;
参见图2,上述步骤S4.3的解码过程可以分为以下几个步骤:
S4.3.1、首先,假设特征序列为h,其长度为L,LSTM的状态特征(上下文信息)为s,注意力机制生成的权重概率分布为α,权重概率分布为α和特征序列h计算得到的加权特征为g,解码器的输出为y;
S4.3.2、根据上一时刻的状态和输入的特征序列,得到当前时刻特征序列的每一个位置对应的权重:
et,j=ωTtanh(Wst-1+Vhj+b)
上式中,et,j表示t时刻特征序列的j位置hj对应的权重,ωT,W和V是待学习权值,b表示待学习偏置值,st-1表示t-1时刻的状态特征;
S4.3.3、用Softmax函数对步骤S4.3.2中的权重et,j做归一化处理,算出的权重做归一化,得到当前时刻特征序列每个位置的概率,即权重概率分布α:
其中,αt,j表示t时刻特征序列的j位置hj对应的权重概率,exp表示自然常数e为底的指数函数;
S4.3.4、根据权重概率分布α和特征序列得到加权特征:
其中,gt表示t时刻特征序列h对应的加权特征;
S4.3.5、利用加权特征和前一时刻的状态得到当前时刻的识别结果:
yt=FC(st-1,gt)
其中,yt表示t时刻的识别结果,FC表示全连接层;
S4.3.6、更新LSTM的状态特征:
st=LSTM(st-1,gt,yt)
其中,st表示t时刻的LSTM的状态特征。
S5、通过大量训练数据训练得到识别模型;
神经网络模型采用自适应梯度下降方法,参数更新公式如下:
xt=xt-1-g′t
其中,gt是第t次迭代时的梯度,xt是第t次迭代时需要更新的权重,st,Δxt和g′t为中间状态变量,ρ和ε为超参数,ρ设置为0.9,ε设置为0.000001;
S6、将待分割文本行图像输入到识别模型中,通过注意力机制的权重概率分布计算单字分割结果。步骤S6包含以下步骤:
S6.1、根据权利要求4所构建的卷积神经网络结构,计算出特征序列中每一个点的坐标({xfi}i=0,1...,L,1)对应回原图的坐标({xsi}i=0,1...,L,{yfi}i=0,1...,L)。具体的计算方式是通过卷积神经网络中相邻两层之间的坐标映射关系逐层计算,假设(xl+1,yl+1)是第l+1层网络中的坐标,第l层网络中的坐标(xl,yl)计算公式如下:
其中,kl是第l层网络的核大小,pl是第l层网络贴边尺寸。
S6.2、将待分割的文本行图像输入到已训练完成的识别模型中,得到注意力机制的权重概率分布α,假设权重概率分布α为{αit}i=0,1...,L,t=1,2,...,T,其中L是特征序列的长度,T是时间点的个数。在每个时间点,将权重概率分布α与步骤S6.1得到的原图对应坐标({xsi}i=0,1...,L,{ysi}i=0,1...,L)进行点乘,就可以得到该时间点注意力模块所关注的位置(xαt,yαt),计算公式如下:
通过上述的注意力机制坐标映射计算,每一个时间点,都能在原图上找到一个“关注点”,事实上该“关注点”就是文本行中所有单字的中心位置。
S6.3、通过特征序列上像素点对应回原图的感受野大小来确定单字检测框的尺寸,假设第i层的感受野尺寸为ri,则相邻层之间感受野尺寸的对应关系如下式计算:
ri=(ri+1)×Si+Ki
其中,K表面卷积或者聚合层核的大小,S表示步长。通过以上计算,得出特征序列上的一个点对应回原图S的感受野大小rsh×rsw,那么单字检测框的高hd和宽wd由以下公式计算:
hd=rsh×βh
wd=rsw×βw
其中,βh是高度缩放因子,βw是宽度缩放因子。
通过以上计算,每一个单字的位置可由一个中心点为(xαt,yαt),高度为hd,宽度为wd的矩形框确定。
在本实施例中,βh取0.5,βw取0.75,上述确定单字位置的过程参见图3。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (7)

1.一种基于注意力机制的文本行单字分割方法,其特征在于:包括以下步骤:
S1、收集文本行训练图像;
S2、对图像的尺寸做归一化;
S3、对训练图像做数据增广;
S4、创建基于注意力机制的文本行识别网络;
S5、通过大量训练数据训练得到识别模型;
S6、将待分割文本行图像输入到识别模型中,通过注意力机制的权重概率分布计算单字分割结果。
2.根据权利要求1所述的基于注意力机制的文本行单字分割方法,其特征在于,所述步骤S2的尺寸归一化具体为:将所有文本行图像的尺寸归一化到hs×ws
3.根据权利要求1所述的文本行单字分割方法,其特征在于,所述步骤S3的数据增广方式包括以下几种:
S3.1、高斯模糊:对输入图像做随机高斯模糊;
S3.2、改变亮度和对比度:随机改变输入图像的亮度和对比度;
S3.3、图像旋转:对输入图像做随机旋转处理;
S3.4、动态模糊:对输入图像做随机动态模糊。
4.根据权利要求1所述的文本行单字分割方法,其特征在于,所述步骤S4的识别网络的创建包括以下步骤:
S4.1、创建全卷积神经网络编码器
全卷积神经网络编码器包含了6个依次连接的卷积层结构,前面的5个卷积层结构都包含了一个卷积层,一个ReLU激活函数以及一个聚合层,每个聚合层都使网络中的特征图尺寸减小一半,归一化后的图像尺寸为hs×ws,则每一个卷积层输出的特征图尺寸分别为
最后一个卷积层结构包括一个卷积层,一个ReLU激活函数以及一个BN层;为了方便后续使用LSTM提取语义特征,设计该卷积层的参数,使得输出的特征图高度为1,宽度为We
S4.2、构建循环神经网络提取特征序列中的语义信息
将步骤S4.1中提取的一维特征序列输入到两层双向循环神经网络BLSTM中,此外,两层BLSTM都配备了Dropout层;
S4.3、基于注意力机制的解码器
解码器包括注意力机制模块、循环神经网络LSTM和全连接层,在LSTM的每一个时间点,注意力机制模块根据LSTM的状态特征和输入的特征序列生成一个权重概率分布,来决定特征序列中每一个位置的权重;随后,根据权重概率分布和特征序列得到当前时刻的加权特征,再利用一个全连接层将加权特征解码输出,得到当前时刻的识别结果,循环每个时间点,即可得到最终的识别结果。
5.根据权利要求4所述的文本行单字分割方法,其特征在于,所述步骤S4.3的注意力机制的解码计算过程包含以下步骤:
S4.3.1、首先,假设特征序列为h,其长度为L,LSTM的状态特征为s,注意力机制生成的概率分布为a和特征序列h计算得到的加权特征为g,解码器的输出为y;
S4.3.2、根据上一时刻的状态和输入的特征序列,得到当前时刻特征序列的每一个位置对应的权重:
et,j=ωTtanh(Wst-1+Vhj+b)
其中,et,j表示t时刻特征序列的j位置hj对应的权重,ωT,W和V是待学习权值,b是待学习偏置值,st-1表示t-1时刻的状态特征;
S4.3.3、对步骤S4.3.2中的权重et,j做归一化处理,得到当前时刻特征序列每个位置的概率:
其中,αt,j表示t时刻特征序列的j位置hj对应的权重概率,exp表示自然常数e为底的指数函数;
S4.3.4、根据概率分布和特征序列得到加权特征:
其中,gt表示t时刻特征序列h对应的加权特征;
S4.3.5、利用加权特征和前一时刻的状态得到当前时刻的识别结果:
yt=FC(st-1,gt)
yt表示t时刻的识别结果,FC表示全连接层;
S4.3.6、更新LSTM的状态特征:
st=LSTM(st-1,gt,yt)
其中,st表示t时刻的LSTM的状态特征。
6.根据权利要求1所述的文本行单字分割方法,其特征在于,所述步骤S5的识别模型训练方式采用自适应梯度下降方法,参数公式如下:
xt=xt-1-g′t
其中,gt是第t次迭代时的梯度,xt是第t次迭代时需要更新的权重,st、Δxt和g′t为中间状态变量,ρ和ε为超参数。
7.根据权利要求1所述的文本行单字分割方法,其特征在于,所述步骤S6包含以下步骤:
S6.1、根据权利要求4所创建的卷积神经网络结构,计算出特征序列中每一个点的坐标({xfi}i=0,1...,L,1)对应回原图的坐标({xsi}i=0,1...,L,{yfi}i=0,1...,L);具体的计算方式是通过卷积神经网络中相邻两层之间的坐标映射关系逐层计算,假设(xl+1,yl+1)是第l+1层网络中的坐标,第l层网络中的坐标(xl,yl)计算公式如下:
其中,kl是第l层网络的核大小,pl是第l层网络贴边尺寸;
S6.2、将待分割的文本行图像输入到已训练完成的识别模型中,得到注意力机制的权重概率分布为α,假设权重概率分布为α为{αit}i=0,1...,L,t=1,2,...,T,其中L是特征序列的长度,T是时间点的个数;在每个时间点,将权重概率分布α与S6.1得到的原图对应坐标({xsi}i=0,1...,L,{ysi}i=0,1...,L)进行点乘,就得到该时间点注意力模块所关注的位置坐标(xat,yαt),计算公式如下:
通过上述的注意力机制坐标映射计算每一个时间点,都能在原图上找到一个关注点,即所述关注点为文本行中所有单字的中心位置。
S6.3通过特征序列上像素点对应回原图的感受野大小来确定单字检测框的尺寸,假设第i层的感受野尺寸为ri,则相邻层之间感受野尺寸的对应关系如下式计算:
ri=(ri+1-1)×Si+Ki
其中,K表示卷积或者聚合层核的大小,S表示步长;计算出特征序列上的一个点对应回原图S的感受野大小rsh×rsw,那么单字检测框的高hd和宽wd由以下公式计算:
hd=rsh×βh
wd=rsw×βw
其中,βh是高度缩放因子,βw是宽度缩放因子;通过以上计算,每一个单字的位置可由一个中心点为(xαt,yαt),高度为hd,宽度为wd的矩形框确定。
CN201910517862.4A 2019-06-14 2019-06-14 一种基于注意力机制的文本行单字分割方法 Active CN110399879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910517862.4A CN110399879B (zh) 2019-06-14 2019-06-14 一种基于注意力机制的文本行单字分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910517862.4A CN110399879B (zh) 2019-06-14 2019-06-14 一种基于注意力机制的文本行单字分割方法

Publications (2)

Publication Number Publication Date
CN110399879A true CN110399879A (zh) 2019-11-01
CN110399879B CN110399879B (zh) 2022-05-13

Family

ID=68323190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910517862.4A Active CN110399879B (zh) 2019-06-14 2019-06-14 一种基于注意力机制的文本行单字分割方法

Country Status (1)

Country Link
CN (1) CN110399879B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898411A (zh) * 2020-06-16 2020-11-06 华南理工大学 文本图像标注系统、方法、计算机设备和存储介质
CN112989911A (zh) * 2020-12-10 2021-06-18 奥比中光科技集团股份有限公司 一种行人再识别方法及系统
CN113673336A (zh) * 2021-07-16 2021-11-19 华南理工大学 基于对齐ctc的字符切割方法、系统及介质
CN113688822A (zh) * 2021-09-07 2021-11-23 河南工业大学 一种时序注意力机制场景图像识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘衍平: "基于深度学习的端到端场景文本识别方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
孙增辉: "基于递归卷积网络的手写及场景文本识别的研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898411A (zh) * 2020-06-16 2020-11-06 华南理工大学 文本图像标注系统、方法、计算机设备和存储介质
CN112989911A (zh) * 2020-12-10 2021-06-18 奥比中光科技集团股份有限公司 一种行人再识别方法及系统
CN113673336A (zh) * 2021-07-16 2021-11-19 华南理工大学 基于对齐ctc的字符切割方法、系统及介质
CN113673336B (zh) * 2021-07-16 2023-09-26 华南理工大学 基于对齐ctc的字符切割方法、系统及介质
CN113688822A (zh) * 2021-09-07 2021-11-23 河南工业大学 一种时序注意力机制场景图像识别方法

Also Published As

Publication number Publication date
CN110399879B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
Zhang et al. Deep gated attention networks for large-scale street-level scene segmentation
CN110399879A (zh) 一种基于注意力机制的文本行单字分割方法
Altwaijry et al. Arabic handwriting recognition system using convolutional neural network
CN106960206A (zh) 字符识别方法和字符识别系统
CN103093196B (zh) 一种基于手势的汉字交互输入与识别方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN107945153A (zh) 一种基于深度学习的路面裂缝检测方法
CN111291629A (zh) 图像中文本的识别方法、装置、计算机设备及计算机存储介质
Wang et al. FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection
CN108664967A (zh) 一种多媒体页面视觉显著性预测方法及系统
CN110287952A (zh) 一种维语图片字符的识别方法及系统
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
Wu et al. STR transformer: a cross-domain transformer for scene text recognition
Dan et al. S-Swin Transformer: simplified Swin Transformer model for offline handwritten Chinese character recognition
Ma et al. A recognition method of hand gesture with CNN-SVM model
Liu et al. Method for detecting Chinese texts in natural scenes based on improved faster R-CNN
Tan et al. Salient object detection with edge recalibration
Obaidullah et al. Transform based approach for Indic script identification from handwritten document images
Wu et al. Automatic mass detection from mammograms with region-based convolutional neural network
Wang et al. Robust end-to-end offline Chinese handwriting text page spotter with text kernel
Cheng et al. Audio-visual salient object detection
Rane et al. Language Translation on Intelligent Navigation System using Image Processing
Zhuo et al. A Novel Data Augmentation Method for Chinese Character Spatial Structure Recognition by Normalized Deformable Convolutional Networks
Sharma et al. A Comprehensive Analysis on Technological Approaches in Sign Language Recognition
Seuret et al. ICDAR 2023 Competition on Detection and Recognition of Greek Letters on Papyri

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant