CN113435441A - 基于Bi-LSTM机制的四则运算算式图像智能批改方法 - Google Patents
基于Bi-LSTM机制的四则运算算式图像智能批改方法 Download PDFInfo
- Publication number
- CN113435441A CN113435441A CN202110832030.9A CN202110832030A CN113435441A CN 113435441 A CN113435441 A CN 113435441A CN 202110832030 A CN202110832030 A CN 202110832030A CN 113435441 A CN113435441 A CN 113435441A
- Authority
- CN
- China
- Prior art keywords
- image
- character
- arithmetic
- processed
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 25
- 238000002715 modification method Methods 0.000 title claims abstract description 17
- 238000012937 correction Methods 0.000 claims abstract description 18
- 230000014509 gene expression Effects 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 33
- 238000010586 diagram Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000003709 image segmentation Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000002441 reversible effect Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000007689 inspection Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000006399 behavior Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010030 laminating Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 239000000853 adhesive Substances 0.000 description 1
- 230000001070 adhesive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明针对现有技术的局限性,提出了一种基于Bi‑LSTM机制的四则运算算式图像智能批改方法,本发明能够以类VGG‑16的全卷积网络技术对大量、密集的四则运算算式进行分割,并采用结合了CNN+BI‑LSTM+CTC的深度学习网络模型对分割图像进行识别,最终根据识别结果进行运算比对;不仅可以实现自然场景下对四则运算的字符串分割、识别以及答案检验,还有效地解决了字符粘连的问题,更加贴合实际使用情况,对四则运算算式分割、识别以及检验的准确度更高,智能批改效果更好。
Description
技术领域
本发明涉及光学文本图像的识别技术领域,具体涉及深度学习技术在光学字符识别方面的应用,更具体地,涉及一种基于Bi-LSTM机制的四则运算算式图像智能批改方法。
背景技术
由于近年来深度学习的应用,光学字符识别取得了飞速发展,被广泛应用于智能办公、教学辅助和工业检测等领域。而在教育行业,针对教学的课程辅导工具市场却依旧存在较大缺口,无论是在校园还是在家庭中,学生的作业批改依旧成为家长和老师一大工作的负担。实现作业的智能化批改仍存在一些挑战:首先,由于拍摄和采光的条件无法统一,照片中的目标字符存在倾斜和模糊等情况;接着,在字符串识别过程中,要准确的实现识别和分类四则运算算式(长字符串),提取更具表达含义的特征是必不可少的;最后,识别分类完成后,由于试题中存在多种运算符号,如何正确的划分算式类型,并对答案进行检索验证和输出反馈批改结果也是非常重要的。
公开日为2020.11.24,公开号为CN111986117A的中国申请专利提供了一种算术作业批改方案,其旨在通过本地化处理的方式解决依赖网络发送给服务器进行处理识别容易导致隐私泄露的问题。但在实际运用中,拍摄到的图像中不仅会包含成行成列的四则运算算式,而且经常出现手写字符(答案)相互粘连、算式间的间隔过窄甚至是手写字符(答案)跟算式的等号粘连一起或者紧挨着另一算式的字符粘结问题,上述专利以及其它现有技术难以有效处理上述技术问题,存在一定的局限性。
发明内容
针对现有技术的局限,本发明提出一种基于Bi-LSTM机制的四则运算算式图像智能批改方法,本发明采用的技术方案是:
一种基于Bi-LSTM机制的四则运算算式图像智能批改方法,包括以下步骤:
S1,获取包含四则运算算式字符的待处理图像,对所述待处理图像进行转化得到所述待处理图像的高斯热力图;
S2,运用由类VGG-16的全卷积网络训练得到的字符分割模型,根据所述高斯热力图,对所述待处理图像进行分割得到所述待处理图像中的算式图像;
S3,运用由结合了CNN、Bi-LSTM以及CTC损失函数的神经网络训练得到的字符识别模型,对所述算式图像进行字符识别;
S4,从所述步骤S3的字符识别结果中区分出算式与手写答案,对所述算式进行运算求解,以运算求解的结果对所述手写答案进行比对批改。
相较于现有技术,本发明能够以类VGG-16的全卷积网络技术对大量、密集的四则运算算式进行分割,并采用结合了CNN+BI-LSTM+CTC的深度学习网络模型对分割图像进行识别,最终根据识别结果进行运算比对;不仅可以实现自然场景下对四则运算的字符串分割、识别以及答案检验,还有效地解决了字符粘连的问题,更加贴合实际使用情况,对四则运算算式分割、识别以及检验的准确度更高,智能批改效果更好。
作为一种优选方案,所述字符分割模型在训练环节的训练数据集通过以下方式得到:
获取包含四则运算算式字符的、真实自然场景下的样本图片,以半监督的方式对所述样本图片中的各字符进行标注;通过计算标注字符的字符分数以及粘结分数从所述样本图片中裁剪单字符级图像;预测所述单字符级图像的字符区域得分,根据所述字符区域得分,运用分水岭算法分割所述单字符级图像中的字符串区域;将字符串区域的坐标转换回所述样本图片的坐标,生成对应字符和字符串的边框,以设有字符和字符串的边框的样本图片以及对应的标注内容作为所述字符分割模型在训练环节的训练数据集。
进一步的,所述步骤S2中,通过以下方式得到所述算式图像:
运用所述字符分割模型计算所述高斯热力图中字符串的单字符置信度以及字符间连接置信度;创建与所述待处理图像大小相同、初始化为0的二进制图M;根据所述单字符置信度以及字符间连接置信度在二进制图M上对连通区域进行标记,寻找具有最小面积的旋转举矩形,生成非直线字符串的边框,在所述待处理图像的对应位置进行分割得到所述待处理图像中的算式图像。
更进一步的,所述步骤S2中,包括对以下公式的运算:
其中,Sconf(w)表示单字符w的置信度,L表示字符间连接置信度,即字符串中相邻两个字符间连接的置信度;l(w)表示预测的边框,lc(w)表示预测的边框长度;R(w)表示单字符w的边框区域,p表示边框中的像素,Sc(p)表示边框中的像素置信图;表示伪标注的区域分数,Sr(p)为预测的区域分数;表示伪标注的亲和度分数,Sa(p)表示预测的亲和度分数;
对于预设的区域阈值Tr以及字符间连接置信度阈值Ta,通过将二进制图M上Sr(p)>Tr或Sa(p)>Ta的M(p)设为1,在二进制图M上对连通区域进行标记。
进一步的,所述步骤S3中,包括以下过程:
S31,对所述算式图像进行标准化以及二值化处理输入到所述字符识别模型的CNN层,提取所述算式图像的卷积特征图;根据所述卷积特征图获得特征序列S(N)=(s1,s2,...,xT-1,xT);
S32,将所述输入到所述字符识别模型的Bi-LSTM层进一步提取上下文信息,得到序列特征YT=(y1,y2,...,yT-1,yT);
S33,通过所述字符识别模型的CTC损失函数以及分类器对所述序列特征YT=(y1,y2,...,yT-1,yT)进行拟合以及分类,得到对所述算式图像的字符识别结果。
更进一步的,在所述步骤S32中,利用所述Bi-LSTM层提取所述特征序列S(N)=(s1,s2,...,xT-1,xT)中上下等时间步长信息的特征,对所述特征序列从正向和反向一起进行计算,其中正向部分从时刻1往时刻T计算,反向部分从时刻T往时刻1计算,正向以及反向分别具有一个激活函数,按以下公式综合两个激活函数的结果输出:
yt=g(w1ht+w2ht');
根据所述特征序列S(N)=(s1,s2,...,xT-1,xT)中的语义以及捕获到上下文信息,得到序列特征YT=(y1,y2,...,yT-1,yT)。
进一步的,在所述步骤S4中,包括以下过程:
检索所述字符识别结果中的等号,识别等号后的手写答案以及等号前的算式;检索所述算式中的运算符号,选择对应的计算逻辑对所述算式进行运算求解;将运算求解的结果与所述手写答案进行匹配对比,若所述手写答案正确则输出答案计算正确的反馈结果,否则输出答案计算错误或识别异常的反馈结果。
本发明还提供以下内容:
一种基于Bi-LSTM机制的四则运算算式图像智能批改系统,包括待处理图像获取转化模块、算式图像分割模块、字符识别识别模块以及求解比对批改模块;所述待处理图像获取转化模块连接所述算式图像分割模块,所述算式图像分割模块连接所述字符识别识别模块,所述字符识别识别模块连接所述求解比对批改模块;其中:
所述待处理图像获取转化模块用于获取包含四则运算算式字符的待处理图像,对所述待处理图像进行转化得到所述待处理图像的高斯热力图;
所述算式图像分割模块用于运用由类VGG-16的全卷积网络训练得到的字符分割模型,根据所述高斯热力图,对所述待处理图像进行分割得到所述待处理图像中的算式图像;
所述字符识别识别模块用于运用由结合了CNN、Bi-LSTM以及CTC损失函数的神经网络训练得到的字符识别模型,对所述算式图像进行字符识别;
所述求解比对批改模块用于从所述字符识别识别模块的字符识别结果中区分出算式与手写答案,对所述算式进行运算求解,以运算求解的结果对所述手写答案进行比对批改。
一种介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述的基于Bi-LSTM机制的四则运算算式图像智能批改方法的步骤。
一种电子设备,包括介质、处理器以及储存在所述介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述基于Bi-LSTM机制的四则运算算式图像智能批改方法的步骤。
附图说明
图1为本发明实施例1提供的基于Bi-LSTM机制的四则运算算式图像智能批改方法的流程示意图;
图2为本发明实施例1提供的所述步骤S3的流程示意图;
图3为本发明实施例对正确、错误以及异常结果的批改结果示例;
图4为包含四则运算算式字符的待处理图像的一般示例;
图5为由图4转化得到的高斯热力图示例;
图6为对图4分割得到的算式图像在后台存储文件夹中的部分截图;
图7为对实施例1对图4的批改结果示例;
图8为存在手写字符粘结问题图像的识别结果示例图;
图9为本发明实施例2提供的基于Bi-LSTM机制的四则运算算式图像智能批改系统的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。以下结合附图和实施例对本发明做进一步的阐述。
为了解决现有技术的局限性,本实施例提供了一种技术方案,下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
一种基于Bi-LSTM机制的四则运算算式图像智能批改方法,请参考图1,包括以下步骤:
S1,获取包含四则运算算式字符的待处理图像,对所述待处理图像进行转化得到所述待处理图像的高斯热力图;
S2,运用由类VGG-16的全卷积网络训练得到的字符分割模型,根据所述高斯热力图,对所述待处理图像进行分割得到所述待处理图像中的算式图像;
S3,运用由结合了CNN、Bi-LSTM以及CTC损失函数的神经网络训练得到的字符识别模型,对所述算式图像进行字符识别;
S4,从所述步骤S3的字符识别结果中区分出算式与手写答案,对所述算式进行运算求解,以运算求解的结果对所述手写答案进行比对批改。
相较于现有技术,本发明能够以类VGG-16的全卷积网络技术对大量、密集的四则运算算式进行分割,并采用结合了CNN+BI-LSTM+CTC的深度学习网络模型对分割图像进行识别,最终根据识别结果进行运算比对;不仅可以实现自然场景下对四则运算的字符串分割、识别以及答案检验,还有效地解决了字符粘连的问题,更加贴合实际使用情况,对四则运算算式分割、识别以及检验的准确度更高,智能批改效果更好。
具体的,所述待处理图像,为自然场景下拍摄得到的图像;本实施例提到的自然场景,指与实际应用环境相类似的、随手拍摄的情况,非图像扫描会得到的结果。本实施例中所指的四则运算算式,包括数学中由加、减、乘、除及其组合构成的算式。
本实施例通过使用高斯热力图对字符串进行编码,在于充分利用视觉特征和语义特征:通过计算两个字符间的相互关系力获得表示相邻字符之间空间的中心概率,并对高斯区域和每个字符进行透视变换,将高斯图扭曲到框区域;接着通过绘制文本框对角线生成两个三角形-上下字符三角形,通过将上下三角形的中心设置为相邻字符框的四个顶点来计算字符间连接的置信度,生成新的涵盖两个字符的边框。
VGG是一种网络的类别的称呼。VGGNet探索了卷积神经网络的深度与其性能之间的关系,通过反复堆叠3*3的小型卷积核和2*2的最大池化层,VGGNet成功地构筑了16~19层深的卷积神经网络。
而本实施例使用的类VGG-16的全卷积网络共有14层,其通过6层的连续卷积层特征提取后,获取图像更抽象的特征;接着通过4个连续的上卷积层将上述卷积层得到的特征进行连接(与U-net结构类似,深层特征与低层次特征进行连接);最后经过四个卷积处理过后,输出单个字符的区域分数,并以两个字符的区域分数计算连续字符间的区域分数。
由于开源自然场景文本数据集中缺少算式和数字字符串的照片,因此,作为一种优选实施例,所述字符分割模型在训练环节的训练数据集通过以下方式得到:
获取包含四则运算算式字符的、真实自然场景下的样本图片,以半监督的方式对所述样本图片中的各字符进行标注;通过计算标注字符的字符分数以及粘结分数从所述样本图片中裁剪单字符级图像;预测所述单字符级图像的字符区域得分,根据所述字符区域得分,运用分水岭算法分割所述单字符级图像中的字符串区域;将字符串区域的坐标转换回所述样本图片的坐标,生成对应字符和字符串的边框,以设有字符和字符串的边框的样本图片以及对应的标注内容作为所述字符分割模型在训练环节的训练数据集。
具体的,所述字符分割模型在训练环节的训练数据集在训练时同样需要转化为高斯热力图。
上述生成的每个边框的置信度,与检测到的字符数除以标注字符数的值,成正比。
而目前,对光学字符识别主要有两种方法,一种是对四则运算算式长字符串进行单字符分割,再识别;另一种是直接对四则运算算式长字符串进行端到端的识别。由于已有的公开数据集和已有方法对涵盖手写和印刷的长字符串研究较少,同时可能模型对字符串中的粘连无法进行有效识别。本实施例使用的所述字符识别模型,能够更好地提取经类VGG-16的全卷积网络字符分割模块分割后四则运算算式长字符串的特征,最终解决图像中字符串的粘连问题。
所述字符识别模型中,CNN即卷积神经网络,BI-LSTM为双向长短期记忆网络;而CTC损失函数全称为Connectionist Temporal Classification(CTC)Loss Function,其可以理解为基于神经网络的时序类分类。
进一步的,所述步骤S2中,通过以下方式得到所述算式图像:
运用所述字符分割模型计算所述高斯热力图中字符串的单字符置信度以及字符间连接置信度;创建与所述待处理图像大小相同、初始化为0的二进制图M;根据所述单字符置信度以及字符间连接置信度在二进制图M上对连通区域进行标记,寻找具有最小面积的旋转举矩形,生成非直线字符串的边框,在所述待处理图像的对应位置进行分割得到所述待处理图像中的算式图像。
具体的,在寻找具有最小面积的旋转举矩形后,可以通过利用opencv中的connectedComponents和minAreaRect方法生成非直线字符串的边框。
进一步的,所述步骤S2中,包括对以下公式的运算:
其中,Sconf(w)表示单字符w的置信度,L表示字符间连接置信度,即字符串中相邻两个字符间连接的置信度;l(w)表示预测的边框,lc(w)表示预测的边框长度;R(w)表示单字符w的边框区域,p表示边框中的像素,Sc(p)表示边框中的像素置信图;表示伪标注的区域分数,Sr(p)为预测的区域分数;表示伪标注的亲和度分数,Sa(p)表示预测的亲和度分数;
对于预设的区域阈值Tr以及字符间连接置信度阈值Ta,通过将二进制图M上Sr(p)>Tr或Sa(p)>Ta的M(p)设为1,在二进制图M上对连通区域进行标记。
具体的,在上述公式中,第一个公式为字符串中单个字符标注样本的字符区域得分;第二个公式表示字符框中的像素置信度图;第三个公式表示字符串中相邻两个字符间连接的置信度。在训练过程中,若置信度分数L小于0.5,为了防止其对训练带来不利影响,对该字符框进行忽略。
进一步的,请参考图2,所述步骤S3中,包括以下过程:
S31,对所述算式图像进行标准化以及二值化处理输入到所述字符识别模型的CNN层,提取所述算式图像的卷积特征图;根据所述卷积特征图获得特征序列S(N)=(s1,s2,...,xT-1,xT);
S32,将所述输入到所述字符识别模型的Bi-LSTM层进一步提取上下文信息,得到序列特征YT=(y1,y2,...,yT-1,yT);
S33,通过所述字符识别模型的CTC损失函数以及分类器对所述序列特征YT=(y1,y2,...,yT-1,yT)进行拟合以及分类,得到对所述算式图像的字符识别结果。
具体的,经过二值化处理,所述算式图像将转化为灰度图;在一种可选的实施例中,在所述步骤S31对所述算式图像进行标准化,可将图像设置为固定大小(3,32,100),得到的卷积特征图大小将为(1,1024,26);将所述卷积特征图的一个维度设为1即可获得特征序列S(N)=(s1,s2,...,xT-1,xT);其中,st对应该序列每一帧的输入,时刻t=1…T。
更进一步的,在所述步骤S32中,利用所述Bi-LSTM层提取所述特征序列S(N)=(s1,s2,...,xT-1,xT)中上下等时间步长信息的特征,对所述特征序列从正向和反向一起进行计算,其中正向部分从时刻1往时刻T计算,反向部分从时刻T往时刻1计算,正向以及反向分别具有一个激活函数,按以下公式综合两个激活函数的结果输出:
yt=g(w1ht+w2ht');
根据所述特征序列S(N)=(s1,s2,...,xT-1,xT)中的语义以及捕获到上下文信息,得到序列特征YT=(y1,y2,...,yT-1,yT)。
特别的,在所述字符识别模型在训练阶段中,CTC损失函数还有助于减少人工进行对齐和更好的实现端到端的训练:
具体的,在识别的标签序列当中,给定输入YT后,会根据每一个时间步长输出对应的特征维度。每一个特征序列中均取对应的元素,那么就会组成一条输出路径k,输出路径的空间可以表示为K;在t时间步长里面,可以将输出路径k对YT的概率p(k|y)表达为:
其中,表示为在时间步长为t时选取的字符的kt概率,可以简单理解为每一个特征维度对应的元素概率累计相乘所得;数据的最终结果可以表示为L,其映射为输出后验概率p(z|y)可以表达为由每一条元素概率累计乘积的输出路径概率进行累加的概率:
而预测结果则为p(z|y)的最大概率所对应的输出,即:
拟合模型的目标是预测结果的最大似然负对数σ最小化:
σ=∑(z,y)∈D-log(p(z|y));
其中D为训练集,p(z|y)是上面提出的后置概率,y表示输入z后映射到的所有路径之和。以CTC作为损失函数对模型进行完全端到端训练,不需要预先对数据做对齐,只需要一个输入序列和一个输出序列即可以训练。这样就不需要对数据对齐和一一标注,输入输出之间的顺序也不再那么重要;而且还能很好地适配粘连字符串识别中序列的预测和标签匹配的问题。
进一步的,在所述步骤S4中,包括以下过程:
检索所述字符识别结果中的等号,识别等号后的手写答案以及等号前的算式;检索所述算式中的运算符号,选择对应的计算逻辑对所述算式进行运算求解;将运算求解的结果与所述手写答案进行匹配对比,若所述手写答案正确则输出答案计算正确的反馈结果,否则输出答案计算错误或识别异常的反馈结果。
在一种可选实施例中,请参阅图3,当所述手写答案正确正确时,可以对算式进行绿色下划线标注,如图3中的第四行“35+80=115”;当所述手写答案正确错误时,可以对所述算式以及手写答案用红色边框的矩形进行框出,如图3中的第一行以及第二行;当识别异常时,对所述算式以及手写答案用紫色边框的矩形进行框出,如图3中的第三行;最终实现四则运算的算式试题智能批改和判断。
具体的一般示例,可参阅图4、5、6、7;其中:图4为原始的包含四则运算算式字符的待处理图像;图5为图4的高斯热力图;图6为图4分割得到的算式图像在后台存储文件夹中的截图(部分),图7为图4的批注结果(在转成黑白图像前,算式下的下划线为绿色下划线)。
而对于存在手写字符粘结问题的特殊示例,其识别结果可参阅图8;其中:上方为待处理图像中的手写字符,下方经过CTC损失函数前各字符的识别结果(如手写字符“8”,经过得到得多帧特征序列会被识别成若干个数字8,因此其下方对应识别结果为“88”,之后通过CTC可以很好地去除重复结果和占位符,直接输出识别数字8)。
实施例2
一种基于Bi-LSTM机制的四则运算算式图像智能批改系统,请参阅图9,包括待处理图像获取转化模块1、算式图像分割模块2、字符识别识别模块3以及求解比对批改模块4;所述待处理图像获取转化模块1连接所述算式图像分割模块2,所述算式图像分割模块2连接所述字符识别识别模块3,所述字符识别识别模块3连接所述求解比对批改模块4;其中:
所述待处理图像获取转化模块1用于获取包含四则运算算式字符的待处理图像,对所述待处理图像进行转化得到所述待处理图像的高斯热力图;
所述算式图像分割模块2用于运用由类VGG-16的全卷积网络训练得到的字符分割模型,根据所述高斯热力图,对所述待处理图像进行分割得到所述待处理图像中的算式图像;
所述字符识别识别模块3用于运用由结合了CNN、Bi-LSTM以及CTC损失函数的神经网络训练得到的字符识别模型,对所述算式图像进行字符识别;
所述求解比对批改模块4用于从所述字符识别识别模块3的字符识别结果中区分出算式与手写答案,对所述算式进行运算求解,以运算求解的结果对所述手写答案进行比对批改。
实施例3
一种介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现实施例1中的基于Bi-LSTM机制的四则运算算式图像智能批改方法的步骤。
实施例4
一种电子设备,包括介质、处理器以及储存在所述介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现实施例1中的基于Bi-LSTM机制的四则运算算式图像智能批改方法的步骤。
作为一种可选的实施例,所述电子设备可以具体为计算机、手机、平板电脑、交互式智能平板、PDA(PersonalDigitalAssistant,个人数字助理)、电子书阅读器、多媒体播放器等。
作为一种可选的实施例,所述电子设备可以通过自带的摄像头拍摄或者有线/无线传输装置接收数据等方式获取包含四则运算算式字符的待处理图像。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于Bi-LSTM机制的四则运算算式图像智能批改方法,其特征在于,包括以下步骤:
S1,获取包含四则运算算式字符的待处理图像,对所述待处理图像进行转化得到所述待处理图像的高斯热力图;
S2,运用由类VGG-16的全卷积网络训练得到的字符分割模型,根据所述高斯热力图,对所述待处理图像进行分割得到所述待处理图像中的算式图像;
S3,运用由结合了CNN、Bi-LSTM以及CTC损失函数的神经网络训练得到的字符识别模型,对所述算式图像进行字符识别;
S4,从所述步骤S3的字符识别结果中区分出算式与手写答案,对所述算式进行运算求解,以运算求解的结果对所述手写答案进行比对批改。
2.根据权利要求1所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法,其特征在于,所述字符分割模型在训练环节的训练数据集通过以下方式得到:
获取包含四则运算算式字符的、真实自然场景下的样本图片,以半监督的方式对所述样本图片中的各字符进行标注;通过计算标注字符的字符分数以及粘结分数从所述样本图片中裁剪单字符级图像;预测所述单字符级图像的字符区域得分,根据所述字符区域得分,运用分水岭算法分割所述单字符级图像中的字符串区域;将字符串区域的坐标转换回所述样本图片的坐标,生成对应字符和字符串的边框,以设有字符和字符串的边框的样本图片以及对应的标注内容作为所述字符分割模型在训练环节的训练数据集。
3.根据权利要求1所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法,其特征在于,所述步骤S2中,通过以下方式得到所述算式图像:
运用所述字符分割模型计算所述高斯热力图中字符串的单字符置信度以及字符间连接置信度;创建与所述待处理图像大小相同、初始化为0的二进制图M;根据所述单字符置信度以及字符间连接置信度在二进制图M上对连通区域进行标记,寻找具有最小面积的旋转举矩形,生成非直线字符串的边框,在所述待处理图像的对应位置进行分割得到所述待处理图像中的算式图像。
4.根据权利要求3所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法,其特征在于,所述步骤S2中,包括对以下公式的运算:
其中,Sconf(w)表示单字符w的置信度,L表示字符间连接置信度,即字符串中相邻两个字符间连接的置信度;l(w)表示预测的边框,lc(w)表示预测的边框长度;R(w)表示单字符w的边框区域,p表示边框中的像素,Sc(p)表示边框中的像素置信图;表示伪标注的区域分数,Sr(p)为预测的区域分数;表示伪标注的亲和度分数,Sa(p)表示预测的亲和度分数;
对于预设的区域阈值Tr以及字符间连接置信度阈值Ta,通过将二进制图M上Sr(p)>Tr或Sa(p)>Ta的M(p)设为1,在二进制图M上对连通区域进行标记。
5.根据权利要求1所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法,其特征在于,所述步骤S3中,包括以下过程:
S31,对所述算式图像进行标准化以及二值化处理输入到所述字符识别模型的CNN层,提取所述算式图像的卷积特征图;根据所述卷积特征图获得特征序列S(N)=(s1,s2,...,xT-1,xT);
S32,将所述输入到所述字符识别模型的Bi-LSTM层进一步提取上下文信息,得到序列特征YT=(y1,y2,...,yT-1,yT);
S33,通过所述字符识别模型的CTC损失函数以及分类器对所述序列特征YT=(y1,y2,...,yT-1,yT)进行拟合以及分类,得到对所述算式图像的字符识别结果。
6.根据权利要求5所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法,其特征在于,在所述步骤S32中,利用所述Bi-LSTM层提取所述特征序列S(N)=(s1,s2,...,xT-1,xT)中上下等时间步长信息的特征,对所述特征序列从正向和反向一起进行计算,其中正向部分从时刻1往时刻T计算,反向部分从时刻T往时刻1计算,正向以及反向分别具有一个激活函数,按以下公式综合两个激活函数的结果输出:
yt=g(w1ht+w2ht');
根据所述特征序列S(N)=(s1,s2,...,xT-1,xT)中的语义以及捕获到上下文信息,得到序列特征YT=(y1,y2,...,yT-1,yT)。
7.根据权利要求1所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法,其特征在于,在所述步骤S4中,包括以下过程:
检索所述字符识别结果中的等号,识别等号后的手写答案以及等号前的算式;检索所述算式中的运算符号,选择对应的计算逻辑对所述算式进行运算求解;将运算求解的结果与所述手写答案进行匹配对比,若所述手写答案正确则输出答案计算正确的反馈结果,否则输出答案计算错误或识别异常的反馈结果。
8.一种基于Bi-LSTM机制的四则运算算式图像智能批改系统,其特征在于,包括待处理图像获取转化模块(1)、算式图像分割模块(2)、字符识别识别模块(3)以及求解比对批改模块(4);所述待处理图像获取转化模块(1)连接所述算式图像分割模块(2),所述算式图像分割模块(2)连接所述字符识别识别模块(3),所述字符识别识别模块(3)连接所述求解比对批改模块(4);其中:
所述待处理图像获取转化模块(1)用于获取包含四则运算算式字符的待处理图像,对所述待处理图像进行转化得到所述待处理图像的高斯热力图;
所述算式图像分割模块(2)用于运用由类VGG-16的全卷积网络训练得到的字符分割模型,根据所述高斯热力图,对所述待处理图像进行分割得到所述待处理图像中的算式图像;
所述字符识别识别模块(3)用于运用由结合了CNN、Bi-LSTM以及CTC损失函数的神经网络训练得到的字符识别模型,对所述算式图像进行字符识别;
所述求解比对批改模块(4)用于从所述字符识别识别模块(3)的字符识别结果中区分出算式与手写答案,对所述算式进行运算求解,以运算求解的结果对所述手写答案进行比对批改。
9.一种介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法的步骤。
10.一种电子设备,其特征在于:包括介质、处理器以及储存在所述介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110832030.9A CN113435441A (zh) | 2021-07-22 | 2021-07-22 | 基于Bi-LSTM机制的四则运算算式图像智能批改方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110832030.9A CN113435441A (zh) | 2021-07-22 | 2021-07-22 | 基于Bi-LSTM机制的四则运算算式图像智能批改方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113435441A true CN113435441A (zh) | 2021-09-24 |
Family
ID=77761417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110832030.9A Pending CN113435441A (zh) | 2021-07-22 | 2021-07-22 | 基于Bi-LSTM机制的四则运算算式图像智能批改方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113435441A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824597A (zh) * | 2023-07-03 | 2023-09-29 | 金陵科技学院 | 动态图像分割及并行学习手写身份证数字及身份识别方法 |
CN116824597B (zh) * | 2023-07-03 | 2024-05-24 | 金陵科技学院 | 动态图像分割及并行学习手写身份证数字及身份识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109003601A (zh) * | 2018-08-31 | 2018-12-14 | 北京工商大学 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
CN110110585A (zh) * | 2019-03-15 | 2019-08-09 | 西安电子科技大学 | 基于深度学习的智能阅卷实现方法及系统、计算机程序 |
CN110969052A (zh) * | 2018-09-29 | 2020-04-07 | 杭州萤石软件有限公司 | 一种作业批改方法和设备 |
CN111986117A (zh) * | 2020-08-31 | 2020-11-24 | 南京大学 | 一种算术作业批改系统及方法 |
CN112418216A (zh) * | 2020-11-18 | 2021-02-26 | 湖南师范大学 | 一种复杂自然场景图像中的文字检测方法 |
CN112528963A (zh) * | 2021-01-09 | 2021-03-19 | 江苏拓邮信息智能技术研究院有限公司 | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统 |
-
2021
- 2021-07-22 CN CN202110832030.9A patent/CN113435441A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109003601A (zh) * | 2018-08-31 | 2018-12-14 | 北京工商大学 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
CN110969052A (zh) * | 2018-09-29 | 2020-04-07 | 杭州萤石软件有限公司 | 一种作业批改方法和设备 |
CN110110585A (zh) * | 2019-03-15 | 2019-08-09 | 西安电子科技大学 | 基于深度学习的智能阅卷实现方法及系统、计算机程序 |
CN111986117A (zh) * | 2020-08-31 | 2020-11-24 | 南京大学 | 一种算术作业批改系统及方法 |
CN112418216A (zh) * | 2020-11-18 | 2021-02-26 | 湖南师范大学 | 一种复杂自然场景图像中的文字检测方法 |
CN112528963A (zh) * | 2021-01-09 | 2021-03-19 | 江苏拓邮信息智能技术研究院有限公司 | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统 |
Non-Patent Citations (2)
Title |
---|
何鎏一等: "基于深度学习的光照不均匀文本图像的识别系统", 《计算机应用与软件》 * |
李德毅等: "《中国科协新一代信息技术系列丛书 人工智能导论》", 31 December 2018 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824597A (zh) * | 2023-07-03 | 2023-09-29 | 金陵科技学院 | 动态图像分割及并行学习手写身份证数字及身份识别方法 |
CN116824597B (zh) * | 2023-07-03 | 2024-05-24 | 金陵科技学院 | 动态图像分割及并行学习手写身份证数字及身份识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10762376B2 (en) | Method and apparatus for detecting text | |
US11790641B2 (en) | Answer evaluation method, answer evaluation system, electronic device, and medium | |
CN109993160B (zh) | 一种图像矫正及文本与位置识别方法及系统 | |
CN111488826B (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
WO2019238063A1 (zh) | 文本检测分析方法、装置及设备 | |
CN111767883B (zh) | 一种题目批改方法及装置 | |
CN103824090A (zh) | 一种自适应的人脸低层特征选择方法及人脸属性识别方法 | |
CN112686243A (zh) | 智能识别图片文字的方法、装置、计算机设备及存储介质 | |
CN113436222A (zh) | 图像处理方法、图像处理装置、电子设备及存储介质 | |
CN113255501B (zh) | 生成表格识别模型的方法、设备、介质及程序产品 | |
Banerjee et al. | Automatic detection of handwritten texts from video frames of lectures | |
CN114330234A (zh) | 版面结构分析方法、装置、电子设备和存储介质 | |
CN111666882A (zh) | 一种手写体试题答案提取方法 | |
US20230110558A1 (en) | Systems and methods for detecting objects | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
Bains et al. | Dynamic features based stroke recognition system for signboard images of Gurmukhi text | |
CN113807218B (zh) | 版面分析方法、装置、计算机设备和存储介质 | |
CN113435441A (zh) | 基于Bi-LSTM机制的四则运算算式图像智能批改方法 | |
Zin et al. | A mobile application for offline handwritten character recognition | |
Shen et al. | Finding text in natural scenes by figure-ground segmentation | |
Milyaev et al. | Improving the processing of machine vision images of robotic systems in the Arctic | |
Gouveia et al. | Handwriting recognition system for mobile accessibility to the visually impaired people | |
CN111274863A (zh) | 一种基于文本山峰概率密度的文本预测方法 | |
Mishra | Understanding Text in Scene Images | |
US20230342594A1 (en) | Artificial intelligence based system and method for recognition of dimensional information within engineering drawings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210924 |
|
RJ01 | Rejection of invention patent application after publication |