CN111639646B - 一种基于深度学习的试卷手写英文字符识别方法及系统 - Google Patents
一种基于深度学习的试卷手写英文字符识别方法及系统 Download PDFInfo
- Publication number
- CN111639646B CN111639646B CN202010418152.9A CN202010418152A CN111639646B CN 111639646 B CN111639646 B CN 111639646B CN 202010418152 A CN202010418152 A CN 202010418152A CN 111639646 B CN111639646 B CN 111639646B
- Authority
- CN
- China
- Prior art keywords
- image
- test paper
- segmentation
- projection
- cutting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
- G06V30/2445—Alphabet recognition, e.g. Latin, Kanji or Katakana
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Character Input (AREA)
Abstract
本公开提供了一种基于深度学习的试卷手写英文字符识别方法及方法,属于图像识别技术领域,获取待识别试卷图像;对获取的图像进行切割,得到试卷图像中的单词图像,利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词;本公开采用基于动态行分割的英文文本行切割方法和基于注意力机制的单词序列识别方法,对弯曲文本实现了良好的分割效果,并有效提高了单词识别的准确率。
Description
技术领域
本公开涉及图像识别技术领域,特别涉及一种基于深度学习的试卷手写英文字符识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
试卷手写英文字符的识别包括两大步骤,一个是将试卷中的英文单词切割出来,第二步就是要将切割出来的单词图片进行识别,转录成单词文本。
单词分割通常分为两个步骤进行:先是对文本行的分割,然后是对文本行中单词的分割。
(1)文本行的分割,其基本思路是先找到分割的起始点,然后配合连通区法、动态规划等方法寻找分割线,根据寻找分割起始点方法的不同可以分为两种:基于投影法的分割方法和基于霍夫变化的分割方法。
(2)文本行中单词的分割,对于文本行中单词分割的方法较多,通常是由投影法、连通区法、基于距离的分割法以及基于识别的分割法等方法中一种或几种方法相结合,共同完成单词的分割。
本公开发明人发现,对于单词识别来说,根据单词识别过程中提取特征的不同,单词识别技术可以分为三种方法:基于结构特征的识别方法、基于统计特征的识别方法以及基于深度学习的识别方法。
(1)基于结构特征的识别方法多见于对单词中字符的识别,它的基本思想是将字符图像分割成更小的基元特征,如字体轮廓、字符骨架、分叉点、分叉数、字符凹点、字符凸点等特征,根据这些字符特有的基元对其进行分类识别。这种方法提取的都是可视化特征,可解释性强,但是提取特征的过程较为繁杂。
(2)基于统计特征的识别方法的基本思想是通过提取字符或单词图像的矩特征、对其进行K-L变换或傅里叶变换所产生的特征向量等全局特征以及对图像局部进行变换的灰度、投影、梯度等局部特征进行分类识别,但是这类特征可解释性较弱。
(3)基于深度学习的识别方法是将单词识别作为检索问题,通过检索的方式对单词进行识别的方法又称为Word Spotting,这种方式一般思路将单词图像与单词文本映射到同一个低维空间,识别时使用图片特征在单词文本特征库中检索,选择匹配度最高的单词文本作为输出,虽然这种方式识别的准确率高,但是无法识别不在单词库中的单词。
发明内容
为了解决现有技术的不足,本公开提供了一种基于深度学习的试卷手写英文字符识别方法及系统,采用基于动态行分割的英文文本行切割方法和基于注意力机制的单词序列识别方法,对弯曲文本实现了更好的分割,并有效提高了单词识别的准确率。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种基于深度学习的试卷手写英文字符识别方法。
一种基于深度学习的试卷手写英文字符识别方法,包括以下步骤:
获取待识别试卷图像;
对获取的图像进行切割,得到试卷图像中的单词图像;
利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;
其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词。
作为可能的一些实现方式,对试卷图像进行二值化操作,具体为:将原始试卷图像转化为灰度图像,根据原始试卷扫描图像的特点,使用分量法,选择图像的色彩三个通道中的一个通道,采用OTSU算法将其转换为二值化图像。
作为可能的一些实现方式,切割试卷图像中的文本行,具体为:计算文本的水平投影,在水平方向对二值化之后的图像的像素灰度值进行加和操作,得到水平投影的数组;
计算分割线的起始位置,判断分割起始点的投影值是否为零,当分割起始点的投影值为零时,使用投影法对文本行进行分割,否则使用动态行分割法对文本行进行分割。
作为进一步的限定,计算分割线的起始位置,具体为:
设置第一预设阈值,对投影数组进行遍历,找到投影数组中投影值小于第一预设阈值的所有部分,计算每一部分的最小值,记录最小值出现的点的纵坐标,作为候补分割起始点的集合;
计算相邻两个候补分割起始点之间的距离,得到所有相邻分割起始点之间的平均距离,根据平均距离得到第二预设阈值和第三预设阈值;
当相邻两个候补分割起始点之间的距离大于第二预设阈值时,则这两个后补分割起始点之间有另外一个分割起始点;
当相邻两个候补分割起始点之间的距离小于第三预设阈值时,则这两个后补分割起始点之中有一个多余的错误分割起始点。
作为进一步的限定,切割文本行图像中的英文单词,具体为:计算文本行的垂直投影,然后对投影数据进行均值滤波,所述均值滤波为使用一个预设长度的滑动窗口在投影数组上滑动,计算窗口内投影值的平均值,并将其作为当前位置的投影值;
得到经过均值滤波处理之后的投影直方图后,找到所有投影值为零的点,若有连续的大于或者等于预设个数的坐标的投影值为零,则选择其中的一个横坐标作为单词分割的起始点,在垂直方向采用一刀切的方式完成单词分割。
作为进一步的限定,所述动态分割法,具体为:
其中,当横坐标为x时,分割路线的纵坐标即为y(x),imgAbove和imgBelow分别为以坐标(x+n,y(x)-D)和(x+n,y(x)+D)为中心的(n+1)×(n+1)大小的矩形中前景像素灰度值的和,n的取值为平均笔画宽度,D为所有相邻分割起始点之间的平均距离,横坐标取x+n用于对分割路径进行预判。
作为可能的一些实现方式,所述神经网络模块为基于注意力机制的深度神经网络模型,包括CNN特征提取器、LSTM特征编码器和LSTM特征解码器;
所述LSTM特征编码器为双层双向的LSTM网络,LSTM特征解码使用Soft Attention机制。
作为进一步的限定,所述CNN特征提取器采用改进的AlexNet神经网络,去掉AlexNet神经的三个全连接层,采用批标准化层代替AlexNet神经网络的局部响应归一化层。
作为进一步的限定,带有Soft Attention机制的解码器在解码时,某一时刻的输入包括前一时刻的输出、前一时刻的隐藏状态以及对编码器生成的特征编码的每一部分进行加权求和得到的上下文序列信息。
本公开第二方面提供了一种基于深度学习的试卷手写英文字符识别系统。
一种基于深度学习的试卷手写英文字符识别系统,包括:
数据获取模块,被配置为:获取待识别试卷图像;
数据处理模块,被配置为:对获取的图像进行切割,得到试卷图像中的单词图像;
识别模块,被配置为:利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;
其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词。
本公开第三方面提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的基于深度学习的试卷手写英文字符识别方法中的步骤。
本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的基于深度学习的试卷手写英文字符识别方法中的步骤。
与现有技术相比,本公开的有益效果是:
1、本公开所述的方法、系统、介质及电子设备,采用基于动态行分割的英文文本行切割方法和基于注意力机制的单词序列识别方法,对弯曲文本实现了良好的分割效果,并有效提高了单词识别的准确率。
2、本公开所述的方法、系统、介质及电子设备,相邻分割起始点之间的平均距离设定第二和第三预设阈值,实现了对相邻两个候补分割起始点之间是否有另外一个分割起始点以及相邻两个候补分割起始点之中是否有多余的错误分割起始点的区分,提高了分割的准确度。
3、本公开所述的方法、系统、介质及电子设备,采用动态行分割法进行文本分割,充分利用了图像的整体特征和局部特征,整体特征是指图像的水平投影,根据水平投影计算分割起始点;局部特征是指候选分割线相邻的两条文本行的局部形态,可以根据局部特征实时调整分割路线,进一步的提高了分割的准确性。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例1提供的基于深度学习的试卷手写英文字符识别方法的流程示意图。
图2为本公开实施例1提供的LSTM特征编码器的结构示意图。
图3为本公开实施例1提供的Soft Attention机制的示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例1:
如图1所示,本公开实施例1提供了一种基于深度学习的试卷手写英文字符识别方法,包括以下步骤:
步骤(1):获取待识别的试卷图像,切割出试卷图像中的单词。
步骤(2):使用深度神经网络对单词图像进行识别。
所述步骤(1)的具体过程为:
步骤(1.1):对试卷图像进行二值化操作。
首先将原始试卷图像转化为灰度图像,根据原始试卷扫描图像的特点,使用分量法,对图像的色彩三个通道选其一即可;然后使用OTSU算法将其转换为二值化图像。
步骤(1.2):切割试卷图像中的文本行。
详细过程如下:
步骤(1.2.1):计算文本的水平投影。文本行的水平投影是指图像的前景区域的像素在水平方向上的灰度值之和,图像的水平投影可以使用数组存储,数组的长度为图像的高度。在水平方向对二值化之后的图像的像素灰度值进行简单地加和操作,即可得到水平投影的数组。
步骤(1.2.2):计算分割线的起始位置。
计算候补分割起始点的位置。设置阈值P,对投影数组进行遍历,找到投影数组中投影值小于P的所有部分,记为Q={Q1,Q2...Qn},并计算每一部分的最小值,记录最小值出现的点的纵坐标,记为s={s1,s2...sn},将其作为候补分割起始点的集合,其中si表示第i个分割起始点的纵坐标。
然而,仅仅通过投影确定的候补分割点并不准确,可能会漏掉某些点,也可能会将非起始点当作起始点,为此本实施例设计并实现了一种基于距离的方法对分割起始点进行修正。
计算相邻两个候补分割起始点之间的距离,用di表示第i个分割起始点和第i+1个分割起始点之间的距离,并由此得到所有相邻分割起始点之间的平均距离D:
若di>1.8×D,就可以判断第i个分割起始点和第i+1个分割起始点之间有另外一个分割起始点j,该分割点的纵坐标sj即为(si+si+1)/2,将sj加入候补分割起始点s;
若di<0.5×D,就可以认为si和si+1中有一个为多余的错误分割起始点,此时可以通过比较在si和si+1位置的投影值的大小,若si处的投影值大于si+1处的投影值,就可以认为si为多余的错误起始点,将其从集合s中删除,反之亦然。
步骤(1.2.3):判断分割起始点的投影值是否为0,分情况进行行分割。当分割起始点的投影值为0时,使用投影法对文本行进行分割。根据分割起始点的位置,在水平方向对文本行采取“一刀切”的方法进行分割;当分割起始点的投影值不为0时,说明相邻文本行之间存交错的情况,此时使用动态行分割法对文本行进行分割。
动态行分割法充分利用了图像的整体特征和局部特征,整体特征是指图像的水平投影,根据水平投影计算分割起始点;局部特征是指候选分割线相邻的两条文本行的局部形态,可以根据局部特征实时调整分割路线,分割线的走向由imgAbove和imgBelow个区域像素的灰度值之和决定。
动态行分割法的公式如(1)所示:
其中,y(x)为分割路线,当横坐标为x时,分割路线的纵坐标即为y(x),下一步,即当横坐标为x+1时,分割路线的纵坐标为y(x+1)。
如公式(2)、(3)所示,imgAbove和imgBelow分别为以坐标(x+n,y(x)-D)和(x+n,y(x)+D)为中心的(n+1)×(n+1)大小的矩形中前景像素灰度值的和,横坐标取x+n是为了对分割路径进行预判;B(x,y)为二值化图像B坐标(x,y)处的像素灰度值。n的取值为平均笔画宽度。经过测试,当D=5时,分割效果最好。
步骤(1.3):切割文本行图像中的英文单词。
计算文本行的垂直投影,然后对投影数据进行均值滤波,均值滤波的具体操作方法是:
使用一个长度为5的滑动窗口在投影数组上滑动,计算窗口内投影值的平均值,并将其作为当前位置的投影值;得到经过均值滤波处理之后的投影直方图后,找到所有投影值为0的点;
若有连续的大于或等于N个坐标的投影值为0,则可选择其中的一个横坐标作为单词分割的起始点,在垂直方向采用“一刀切”的方式就可以完成单词分割。最后使用“一刀切”的方式对单词进行分割。经过测试当N=8时,整体的分割效果最佳。
所述步骤(2)的具体过程为:
步骤(2.1):搭建基于注意力机制的深度神经网络模型。模型主要包括CNN特征提取器、LSTM特征编码器和LSTM特征解码器三部分。
本实施例所采用的CNN特征提取器由AlexNet改进而来,去掉了AlexNet的3个全连接层,并使用了批标准化层代替了AlexNet的局部响应归一化层。
本实施例所采用的LSTM特征编码器为双层双向的LSTM网络,其网络结构如图1所示。
本实施例所采用的LSTM特征解码器使用了反向传播算法训练的Soft Attention机制。如图2所示,带有注意力机制的解码器在解码时,第t个时刻的输入除了t-1时刻的输出和t-1时刻的隐藏状态之外,还有对特征编码{m0,m1...mn}每一部分进行加权求和得到的上下文序列信息ct。
本实施例中的上下文信息的作用包括:
a、实现对齐,如图2所示ct表示的就是上下文信息,LSTM编码器的输出有n+1个(从0到n),假如LSTM解码器的输入有x个,二者并不一定相等,这样就无法完成编码器的输出和解码器输入的对齐,而通过上下文信息ct,就可以将编码器所有的输出进行融合(每次融合的侧重点不同,表现在权重αi,j上),生成x个上下文的信息,实现编码器的输出和解码器输入的对齐;
b、使用上下文信息就相当于做了一个“隐式”的语义纠正,举个简单的例子,考生在书写单词“eating”时不规范,“eating”写的像是“eatiog”,如果不根据上下文信息,单个识别的话第5个字母识别成“o”的概率就会很大,而如果考虑了上下文信息,识别第5个字母时也会考虑其他的字母,尤其是第4和第6个,这就更容易识别成“eating”。
权重αi,j表现了编码器第j时刻隐藏层的输出对解码器第i时刻隐藏层的重要程度,例如图2中,αt,0就是指构成第t个上下文ct(解码器第t个时刻的输入)时编码器的第0个输出的权重。
Soft Attention机制的公式如下:
st=g(st-1,yt-1,ct) (4)
步骤(2.2):训练步骤(2.1)构建的基于注意力机制的神经网络模型,将标注好的单词图像数据集按照8∶1∶1分成训练集、验证集和测试集。数据集中的每张单词图片都将高度调整为32个像素,并保持其长宽比不变,为了能够对不同长度的单词图片进行批量处理,需要对单词图片在图片末尾补0,填充至512个像素。对于图片的标签,为了方便对字符的转录,将所有字符都用数字代替,并在每个单词的开头和结尾添加开始标志<GO>和结束标志<EOS>,各个字符的代表数字见表1。
表1字符代表数字
字符 | 代表数字 |
<PADDING>(补0和空格) | 0 |
<GO> | 1 |
<EOS> | 2 |
0~9 | 3~12 |
a~z | 13~38 |
A~Z | 39~64 |
. | 65 |
- | 66 |
‘ | 67 |
使用训练集对模型进行训练,训练时使用了Adam优化器对Sequence Loss进行优化,初始学习率为0.01,数据的Batch Size为256。每训练一轮,都将训练参数保存,直到模型收敛。
步骤(2.3):模型验证与测试。使用验证集选择最优的参数设置,最后使用测试集得到模型识别结果。
实施例2:
本公开实施例2提供了一种基于深度学习的试卷手写英文字符识别系统,包括:
数据获取模块,被配置为:获取待识别试卷图像;
数据处理模块,被配置为:对获取的图像进行切割,得到试卷图像中的单词图像;
识别模块,被配置为:利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;
其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词。
所述系统的工作方法与实施例1中的基于深度学习的试卷手写英文字符识别方法相同,这里不再赘述。
实施例3:
本公开实施例3提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例1所述的基于深度学习的试卷手写英文字符识别方法中的步骤,所述步骤为:
获取待识别试卷图像;
对获取的图像进行切割,得到试卷图像中的单词图像;
利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;
其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词。
详细步骤与实施例中的基于深度学习的试卷手写英文字符识别方法的详细步骤相同,这里不再赘述。
实施例4:
本公开实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的基于深度学习的试卷手写英文字符识别方法中的步骤,所述步骤为:
获取待识别试卷图像;
对获取的图像进行切割,得到试卷图像中的单词图像;
利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;
其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种基于深度学习的试卷手写英文字符识别方法,其特征在于,包括以下步骤:
获取待识别试卷图像;
对获取的图像进行切割,得到试卷图像中的单词图像;
利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;
其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词;
切割试卷图像中的文本行,具体为:计算文本的水平投影,在水平方向对二值化之后的图像的像素灰度值进行加和操作,得到水平投影的数组;计算分割线的起始位置,判断分割起始点的投影值是否为零,当分割起始点的投影值为零时,使用投影法对文本行进行分割,否则使用动态行分割法对文本行进行分割;
计算分割线的起始位置,具体为:
设置第一预设阈值,对投影数组进行遍历,找到投影数组中投影值小于第一预设阈值的所有部分,计算每一部分的最小值,记录最小值出现的点的纵坐标,作为候补分割起始点的集合;
计算相邻两个候补分割起始点之间的距离,得到所有相邻分割起始点之间的平均距离,根据平均距离得到第二预设阈值和第三预设阈值;
当相邻两个候补分割起始点之间的距离大于第二预设阈值时,则这两个后补分割起始点之间有另外一个分割起始点;
当相邻两个候补分割起始点之间的距离小于第三预设阈值时,则这两个后补分割起始点之中有一个多余的错误分割起始点。
2.如权利要求1所述的基于深度学习的试卷手写英文字符识别方法,其特征在于,对试卷图像进行二值化操作,具体为:将原始试卷图像转化为灰度图像,根据原始试卷扫描图像的特点,使用分量法,选择图像的色彩三个通道中的一个通道,采用OTSU算法将其转换为二值化图像。
3.如权利要求1所述的基于深度学习的试卷手写英文字符识别方法,其特征在于,切割文本行图像中的英文单词,具体为:计算文本行的垂直投影,然后对投影数据进行均值滤波,所述均值滤波为使用一个预设长度的滑动窗口在投影数组上滑动,计算窗口内投影值的平均值,并将其作为当前位置的投影值;
得到经过均值滤波处理之后的投影直方图后,找到所有投影值为零的点,若有连续的大于或者等于预设个数的坐标的投影值为零,则选择其中的一个横坐标作为单词分割的起始点,在垂直方向采用一刀切的方式完成单词分割。
5.如权利要求1所述的基于深度学习的试卷手写英文字符识别方法,其特征在于,所述神经网络模型为基于注意力机制的深度神经网络模型,包括CNN特征提取器、LSTM特征编码器和LSTM特征解码器;
所述LSTM特征编码器为双层双向的LSTM网络,所述LSTM特征解码器使用SoftAttention机制。
6.如权利要求5所述的基于深度学习的试卷手写英文字符识别方法,其特征在于,所述CNN特征提取器采用改进的AlexNet神经网络,去掉AlexNet神经的三个全连接层,采用批标准化层代替AlexNet神经网络的局部响应归一化层。
7.如权利要求5所述的基于深度学习的试卷手写英文字符识别方法,其特征在于,带有Soft Attention机制的解码器在解码时,某一时刻的输入包括前一时刻的输出、前一时刻的隐藏状态以及对编码器生成的特征编码的每一部分进行加权求和得到的上下文序列信息。
8.一种基于深度学习的试卷手写英文字符识别系统,其特征在于,包括:
数据获取模块,被配置为:获取待识别试卷图像;
数据处理模块,被配置为:对获取的图像进行切割,得到试卷图像中的单词图像;
识别模块,被配置为:利用训练好的基于注意力机制的神经网络模型对单词图像进行识别,得到单词识别结果;
其中,对获取的图像进行切割,具体为对试卷图像进行二值化操作,切割试卷图像中的文本行,切割文本行图像中的英文单词;
切割试卷图像中的文本行包括:计算分割线的起始位置,判断分割起始点的投影值是否为零,当分割起始点的投影值为零时,使用投影法对文本行进行分割,否则使用动态行分割法对文本行进行分割;
计算分割线的起始位置,具体为:
设置第一预设阈值,对投影数组进行遍历,找到投影数组中投影值小于第一预设阈值的所有部分,计算每一部分的最小值,记录最小值出现的点的纵坐标,作为候补分割起始点的集合;
计算相邻两个候补分割起始点之间的距离,得到所有相邻分割起始点之间的平均距离,根据平均距离得到第二预设阈值和第三预设阈值;
当相邻两个候补分割起始点之间的距离大于第二预设阈值时,则这两个后补分割起始点之间有另外一个分割起始点;
当相邻两个候补分割起始点之间的距离小于第三预设阈值时,则这两个后补分割起始点之中有一个多余的错误分割起始点。
9.一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的基于深度学习的试卷手写英文字符识别方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于深度学习的试卷手写英文字符识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010418152.9A CN111639646B (zh) | 2020-05-18 | 2020-05-18 | 一种基于深度学习的试卷手写英文字符识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010418152.9A CN111639646B (zh) | 2020-05-18 | 2020-05-18 | 一种基于深度学习的试卷手写英文字符识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111639646A CN111639646A (zh) | 2020-09-08 |
CN111639646B true CN111639646B (zh) | 2021-04-13 |
Family
ID=72332789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010418152.9A Active CN111639646B (zh) | 2020-05-18 | 2020-05-18 | 一种基于深度学习的试卷手写英文字符识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639646B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199946B (zh) * | 2020-09-15 | 2024-05-07 | 北京大米科技有限公司 | 数据处理方法、装置、电子设备和可读存储介质 |
CN112101317B (zh) * | 2020-11-17 | 2021-02-19 | 深圳壹账通智能科技有限公司 | 页面方向识别方法、装置、设备及计算机可读存储介质 |
CN112633079A (zh) * | 2020-12-02 | 2021-04-09 | 山东山大鸥玛软件股份有限公司 | 一种手写英文单词识别方法及系统 |
CN112541504A (zh) * | 2020-12-11 | 2021-03-23 | 上海品览数据科技有限公司 | 一种针对文本中单个字符目标的检测方法 |
CN113657374A (zh) * | 2021-06-29 | 2021-11-16 | 中南林业科技大学 | 国际邮件面单的英文地址识别分析方法 |
CN113313092B (zh) * | 2021-07-29 | 2021-10-29 | 太平金融科技服务(上海)有限公司深圳分公司 | 手写签名识别方法、理赔自动化处理方法、装置和设备 |
CN113657364B (zh) * | 2021-08-13 | 2023-07-25 | 北京百度网讯科技有限公司 | 用于识别文字标志的方法、装置、设备以及存储介质 |
CN113642583B (zh) * | 2021-08-13 | 2022-06-28 | 北京百度网讯科技有限公司 | 用于文本检测的深度学习模型训练方法及文本检测方法 |
CN113420734A (zh) * | 2021-08-23 | 2021-09-21 | 东华理工大学南昌校区 | 一种英文字符的录入方法和录入系统 |
CN113780294B (zh) * | 2021-09-10 | 2023-11-14 | 泰康保险集团股份有限公司 | 文本字符分割的方法和装置 |
CN113780265B (zh) * | 2021-09-16 | 2023-12-15 | 平安科技(深圳)有限公司 | 英文单词的空格识别方法、装置、存储介质及计算机设备 |
AU2021290429A1 (en) * | 2021-12-20 | 2022-02-10 | Sensetime International Pte. Ltd. | Sequence recognition method and apparatus, electronic device, and storage medium |
CN114207673A (zh) * | 2021-12-20 | 2022-03-18 | 商汤国际私人有限公司 | 序列识别方法及装置、电子设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663382A (zh) * | 2012-04-25 | 2012-09-12 | 重庆邮电大学 | 基于子网格特征自适应加权的视频图像文字识别方法 |
CN103154974A (zh) * | 2011-03-07 | 2013-06-12 | 株式会社Ntt都科摩 | 字符识别装置、字符识别方法、字符识别系统以及字符识别程序 |
CN103942797A (zh) * | 2014-04-24 | 2014-07-23 | 中国科学院信息工程研究所 | 基于直方图和超像素的场景图像文字检测方法及系统 |
CN104102912A (zh) * | 2013-04-02 | 2014-10-15 | 秦海勇 | 一种基于视频图像识别的分项计量能耗数据采集装置及方法 |
CN105528601A (zh) * | 2016-02-25 | 2016-04-27 | 华中科技大学 | 基于接触式传感器的身份证图像采集、识别系统及采集识别方法 |
CN105608453A (zh) * | 2014-11-17 | 2016-05-25 | 株式会社日立信息通信工程 | 字符识别系统及字符识别方法 |
CN106570518A (zh) * | 2016-10-14 | 2017-04-19 | 上海新同惠自动化系统有限公司 | 一种中日文手写文本的识别方法 |
CN109933801A (zh) * | 2019-03-25 | 2019-06-25 | 北京理工大学 | 基于预测位置注意力的双向lstm命名实体识别方法 |
CN109977861A (zh) * | 2019-03-25 | 2019-07-05 | 中国科学技术大学 | 离线手写体数学公式识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077163B (zh) * | 2012-12-24 | 2015-07-08 | 华为技术有限公司 | 数据预处理方法、装置及系统 |
CN105989760A (zh) * | 2015-02-10 | 2016-10-05 | 丽水学院 | 丁达尔效应阅读视野分割器 |
-
2020
- 2020-05-18 CN CN202010418152.9A patent/CN111639646B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103154974A (zh) * | 2011-03-07 | 2013-06-12 | 株式会社Ntt都科摩 | 字符识别装置、字符识别方法、字符识别系统以及字符识别程序 |
CN102663382A (zh) * | 2012-04-25 | 2012-09-12 | 重庆邮电大学 | 基于子网格特征自适应加权的视频图像文字识别方法 |
CN104102912A (zh) * | 2013-04-02 | 2014-10-15 | 秦海勇 | 一种基于视频图像识别的分项计量能耗数据采集装置及方法 |
CN103942797A (zh) * | 2014-04-24 | 2014-07-23 | 中国科学院信息工程研究所 | 基于直方图和超像素的场景图像文字检测方法及系统 |
CN105608453A (zh) * | 2014-11-17 | 2016-05-25 | 株式会社日立信息通信工程 | 字符识别系统及字符识别方法 |
CN105528601A (zh) * | 2016-02-25 | 2016-04-27 | 华中科技大学 | 基于接触式传感器的身份证图像采集、识别系统及采集识别方法 |
CN106570518A (zh) * | 2016-10-14 | 2017-04-19 | 上海新同惠自动化系统有限公司 | 一种中日文手写文本的识别方法 |
CN109933801A (zh) * | 2019-03-25 | 2019-06-25 | 北京理工大学 | 基于预测位置注意力的双向lstm命名实体识别方法 |
CN109977861A (zh) * | 2019-03-25 | 2019-07-05 | 中国科学技术大学 | 离线手写体数学公式识别方法 |
Non-Patent Citations (4)
Title |
---|
A Multi-scale Text Line Segmentation Method in Freestyle Handwritten Documents;Yangdong Gao等;《2011 International Conference on Document Analysis and Recognition》;20110911;摘要、第II节 * |
印刷体文档图像的中文字符识别;何耘娴;《中国优秀硕士学位论文全文数据库信息科技辑》;20110915(第09期);I138-778页 * |
多策略切分粒度的藏汉双向神经机器翻译研究;沙九等;《厦门大学学报》;20200331;第59卷(第2期);213-219页 * |
维吾尔文联机手写识别的预处理与特征提取;阿力木江·亚森;《中国优秀硕士学位论文全文数据库信息科技辑》;20110215(第02期);I138-166页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111639646A (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639646B (zh) | 一种基于深度学习的试卷手写英文字符识别方法及系统 | |
CN107133622B (zh) | 一种单词的分割方法和装置 | |
Kuo et al. | Keyword spotting in poorly printed documents using pseudo 2-D hidden Markov models | |
JP3822277B2 (ja) | 文字テンプレートセット学習マシン動作方法 | |
CN109118473B (zh) | 基于神经网络的角点检测方法、存储介质与图像处理系统 | |
CN111695527A (zh) | 一种蒙古文在线手写体识别方法 | |
CN106372624B (zh) | 人脸识别方法及系统 | |
CN110503103B (zh) | 一种基于全卷积神经网络的文本行中的字符切分方法 | |
WO2018090011A1 (en) | System and method of character recognition using fully convolutional neural networks | |
CN112215236B (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN110942057A (zh) | 一种集装箱箱号识别方法、装置和计算机设备 | |
CN116486419A (zh) | 一种基于孪生卷积神经网络的书法字识别方法 | |
CN115862045A (zh) | 基于图文识别技术的病例自动识别方法、系统、设备及存储介质 | |
CN115116074A (zh) | 一种手写体文字识别、及模型训练方法和装置 | |
Wicht et al. | Camera-based sudoku recognition with deep belief network | |
CN116612478A (zh) | 一种脱机手写汉字的评分方法、装置及存储介质 | |
Parwej | An empirical evaluation of off-line Arabic handwriting and printed characters recognition system | |
CN110942073A (zh) | 一种集装箱拖车编号识别方法、装置和计算机设备 | |
CN111488870A (zh) | 文字识别方法和文字识别装置 | |
US11361529B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN114494678A (zh) | 文字识别方法和电子设备 | |
CN111062264A (zh) | 一种基于双通路混合卷积网络的文档对象分类方法 | |
Nisa et al. | Annotation of struck-out text in handwritten documents | |
JP3209197B2 (ja) | 文字認識装置及び文字認識プログラムを記録した記録媒体 | |
Amin | Recognition of printed Arabic text using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |