CN113435441A

CN113435441A - 基于Bi-LSTM机制的四则运算算式图像智能批改方法

Info

Publication number: CN113435441A
Application number: CN202110832030.9A
Authority: CN
Inventors: 邱俊豪; 黄国恒; 黄俊平
Original assignee: Guangzhou Huateng Education Technology Co ltd
Current assignee: Guangzhou Huateng Education Technology Co ltd
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-09-24

Abstract

本发明针对现有技术的局限性，提出了一种基于Bi‑LSTM机制的四则运算算式图像智能批改方法，本发明能够以类VGG‑16的全卷积网络技术对大量、密集的四则运算算式进行分割，并采用结合了CNN+BI‑LSTM+CTC的深度学习网络模型对分割图像进行识别，最终根据识别结果进行运算比对；不仅可以实现自然场景下对四则运算的字符串分割、识别以及答案检验，还有效地解决了字符粘连的问题，更加贴合实际使用情况，对四则运算算式分割、识别以及检验的准确度更高，智能批改效果更好。

Description

基于Bi-LSTM机制的四则运算算式图像智能批改方法

技术领域

本发明涉及光学文本图像的识别技术领域，具体涉及深度学习技术在光学字符识别方面的应用，更具体地，涉及一种基于Bi-LSTM机制的四则运算算式图像智能批改方法。

背景技术

由于近年来深度学习的应用，光学字符识别取得了飞速发展，被广泛应用于智能办公、教学辅助和工业检测等领域。而在教育行业，针对教学的课程辅导工具市场却依旧存在较大缺口，无论是在校园还是在家庭中，学生的作业批改依旧成为家长和老师一大工作的负担。实现作业的智能化批改仍存在一些挑战：首先，由于拍摄和采光的条件无法统一，照片中的目标字符存在倾斜和模糊等情况；接着，在字符串识别过程中，要准确的实现识别和分类四则运算算式(长字符串)，提取更具表达含义的特征是必不可少的；最后，识别分类完成后，由于试题中存在多种运算符号，如何正确的划分算式类型，并对答案进行检索验证和输出反馈批改结果也是非常重要的。

公开日为2020.11.24，公开号为CN111986117A的中国申请专利提供了一种算术作业批改方案，其旨在通过本地化处理的方式解决依赖网络发送给服务器进行处理识别容易导致隐私泄露的问题。但在实际运用中，拍摄到的图像中不仅会包含成行成列的四则运算算式，而且经常出现手写字符(答案)相互粘连、算式间的间隔过窄甚至是手写字符(答案)跟算式的等号粘连一起或者紧挨着另一算式的字符粘结问题，上述专利以及其它现有技术难以有效处理上述技术问题，存在一定的局限性。

发明内容

针对现有技术的局限，本发明提出一种基于Bi-LSTM机制的四则运算算式图像智能批改方法，本发明采用的技术方案是：

一种基于Bi-LSTM机制的四则运算算式图像智能批改方法，包括以下步骤：

S1，获取包含四则运算算式字符的待处理图像，对所述待处理图像进行转化得到所述待处理图像的高斯热力图；

S2，运用由类VGG-16的全卷积网络训练得到的字符分割模型，根据所述高斯热力图，对所述待处理图像进行分割得到所述待处理图像中的算式图像；

S3，运用由结合了CNN、Bi-LSTM以及CTC损失函数的神经网络训练得到的字符识别模型，对所述算式图像进行字符识别；

S4，从所述步骤S3的字符识别结果中区分出算式与手写答案，对所述算式进行运算求解，以运算求解的结果对所述手写答案进行比对批改。

相较于现有技术，本发明能够以类VGG-16的全卷积网络技术对大量、密集的四则运算算式进行分割，并采用结合了CNN+BI-LSTM+CTC的深度学习网络模型对分割图像进行识别，最终根据识别结果进行运算比对；不仅可以实现自然场景下对四则运算的字符串分割、识别以及答案检验，还有效地解决了字符粘连的问题，更加贴合实际使用情况，对四则运算算式分割、识别以及检验的准确度更高，智能批改效果更好。

作为一种优选方案，所述字符分割模型在训练环节的训练数据集通过以下方式得到：

获取包含四则运算算式字符的、真实自然场景下的样本图片，以半监督的方式对所述样本图片中的各字符进行标注；通过计算标注字符的字符分数以及粘结分数从所述样本图片中裁剪单字符级图像；预测所述单字符级图像的字符区域得分，根据所述字符区域得分，运用分水岭算法分割所述单字符级图像中的字符串区域；将字符串区域的坐标转换回所述样本图片的坐标，生成对应字符和字符串的边框，以设有字符和字符串的边框的样本图片以及对应的标注内容作为所述字符分割模型在训练环节的训练数据集。

进一步的，所述步骤S2中，通过以下方式得到所述算式图像：

运用所述字符分割模型计算所述高斯热力图中字符串的单字符置信度以及字符间连接置信度；创建与所述待处理图像大小相同、初始化为0的二进制图M；根据所述单字符置信度以及字符间连接置信度在二进制图M上对连通区域进行标记，寻找具有最小面积的旋转举矩形，生成非直线字符串的边框，在所述待处理图像的对应位置进行分割得到所述待处理图像中的算式图像。

更进一步的，所述步骤S2中，包括对以下公式的运算：

其中，S_conf(w)表示单字符w的置信度，L表示字符间连接置信度，即字符串中相邻两个字符间连接的置信度；l(w)表示预测的边框，l^c(w)表示预测的边框长度；R(w)表示单字符w的边框区域，p表示边框中的像素，S_c(p)表示边框中的像素置信图；

表示伪标注的区域分数，S_r(p)为预测的区域分数；

表示伪标注的亲和度分数，S_a(p)表示预测的亲和度分数；

对于预设的区域阈值T_r以及字符间连接置信度阈值T_a，通过将二进制图M上S_r(p)>T_r或S_a(p)>T_a的M(p)设为1，在二进制图M上对连通区域进行标记。

进一步的，所述步骤S3中，包括以下过程：

S31，对所述算式图像进行标准化以及二值化处理输入到所述字符识别模型的CNN层，提取所述算式图像的卷积特征图；根据所述卷积特征图获得特征序列S(N)＝(s¹,s²,...,x^T-1,x^T)；

S32，将所述输入到所述字符识别模型的Bi-LSTM层进一步提取上下文信息，得到序列特征Y^T＝(y¹,y²,...,y^T-1,y^T)；

S33，通过所述字符识别模型的CTC损失函数以及分类器对所述序列特征Y^T＝(y¹,y²,...,y^T-1,y^T)进行拟合以及分类，得到对所述算式图像的字符识别结果。

更进一步的，在所述步骤S32中，利用所述Bi-LSTM层提取所述特征序列S(N)＝(s¹,s²,...,x^T-1,x^T)中上下等时间步长信息的特征，对所述特征序列从正向和反向一起进行计算，其中正向部分从时刻1往时刻T计算，反向部分从时刻T往时刻1计算，正向以及反向分别具有一个激活函数，按以下公式综合两个激活函数的结果输出：

y^t＝g(w₁h_t+w₂h_t')；

根据所述特征序列S(N)＝(s¹,s²,...,x^T-1,x^T)中的语义以及捕获到上下文信息，得到序列特征Y^T＝(y¹,y²,...,y^T-1,y^T)。

进一步的，在所述步骤S4中，包括以下过程：

检索所述字符识别结果中的等号，识别等号后的手写答案以及等号前的算式；检索所述算式中的运算符号，选择对应的计算逻辑对所述算式进行运算求解；将运算求解的结果与所述手写答案进行匹配对比，若所述手写答案正确则输出答案计算正确的反馈结果，否则输出答案计算错误或识别异常的反馈结果。

本发明还提供以下内容：

一种基于Bi-LSTM机制的四则运算算式图像智能批改系统，包括待处理图像获取转化模块、算式图像分割模块、字符识别识别模块以及求解比对批改模块；所述待处理图像获取转化模块连接所述算式图像分割模块，所述算式图像分割模块连接所述字符识别识别模块，所述字符识别识别模块连接所述求解比对批改模块；其中：

所述待处理图像获取转化模块用于获取包含四则运算算式字符的待处理图像，对所述待处理图像进行转化得到所述待处理图像的高斯热力图；

所述算式图像分割模块用于运用由类VGG-16的全卷积网络训练得到的字符分割模型，根据所述高斯热力图，对所述待处理图像进行分割得到所述待处理图像中的算式图像；

所述字符识别识别模块用于运用由结合了CNN、Bi-LSTM以及CTC损失函数的神经网络训练得到的字符识别模型，对所述算式图像进行字符识别；

所述求解比对批改模块用于从所述字符识别识别模块的字符识别结果中区分出算式与手写答案，对所述算式进行运算求解，以运算求解的结果对所述手写答案进行比对批改。

一种介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现前述的基于Bi-LSTM机制的四则运算算式图像智能批改方法的步骤。

一种电子设备，包括介质、处理器以及储存在所述介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现前述基于Bi-LSTM机制的四则运算算式图像智能批改方法的步骤。

附图说明

图1为本发明实施例1提供的基于Bi-LSTM机制的四则运算算式图像智能批改方法的流程示意图；

图2为本发明实施例1提供的所述步骤S3的流程示意图；

图3为本发明实施例对正确、错误以及异常结果的批改结果示例；

图4为包含四则运算算式字符的待处理图像的一般示例；

图5为由图4转化得到的高斯热力图示例；

图6为对图4分割得到的算式图像在后台存储文件夹中的部分截图；

图7为对实施例1对图4的批改结果示例；

图8为存在手写字符粘结问题图像的识别结果示例图；

图9为本发明实施例2提供的基于Bi-LSTM机制的四则运算算式图像智能批改系统的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。以下结合附图和实施例对本发明做进一步的阐述。

为了解决现有技术的局限性，本实施例提供了一种技术方案，下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

一种基于Bi-LSTM机制的四则运算算式图像智能批改方法，请参考图1，包括以下步骤：

具体的，所述待处理图像，为自然场景下拍摄得到的图像；本实施例提到的自然场景，指与实际应用环境相类似的、随手拍摄的情况，非图像扫描会得到的结果。本实施例中所指的四则运算算式，包括数学中由加、减、乘、除及其组合构成的算式。

本实施例通过使用高斯热力图对字符串进行编码，在于充分利用视觉特征和语义特征：通过计算两个字符间的相互关系力获得表示相邻字符之间空间的中心概率，并对高斯区域和每个字符进行透视变换，将高斯图扭曲到框区域；接着通过绘制文本框对角线生成两个三角形-上下字符三角形，通过将上下三角形的中心设置为相邻字符框的四个顶点来计算字符间连接的置信度，生成新的涵盖两个字符的边框。

VGG是一种网络的类别的称呼。VGGNet探索了卷积神经网络的深度与其性能之间的关系，通过反复堆叠3*3的小型卷积核和2*2的最大池化层，VGGNet成功地构筑了16～19层深的卷积神经网络。

而本实施例使用的类VGG-16的全卷积网络共有14层，其通过6层的连续卷积层特征提取后，获取图像更抽象的特征；接着通过4个连续的上卷积层将上述卷积层得到的特征进行连接(与U-net结构类似，深层特征与低层次特征进行连接)；最后经过四个卷积处理过后，输出单个字符的区域分数，并以两个字符的区域分数计算连续字符间的区域分数。

由于开源自然场景文本数据集中缺少算式和数字字符串的照片，因此，作为一种优选实施例，所述字符分割模型在训练环节的训练数据集通过以下方式得到：

具体的，所述字符分割模型在训练环节的训练数据集在训练时同样需要转化为高斯热力图。

上述生成的每个边框的置信度，与检测到的字符数除以标注字符数的值，成正比。

而目前，对光学字符识别主要有两种方法，一种是对四则运算算式长字符串进行单字符分割，再识别；另一种是直接对四则运算算式长字符串进行端到端的识别。由于已有的公开数据集和已有方法对涵盖手写和印刷的长字符串研究较少，同时可能模型对字符串中的粘连无法进行有效识别。本实施例使用的所述字符识别模型，能够更好地提取经类VGG-16的全卷积网络字符分割模块分割后四则运算算式长字符串的特征，最终解决图像中字符串的粘连问题。

所述字符识别模型中，CNN即卷积神经网络，BI-LSTM为双向长短期记忆网络；而CTC损失函数全称为Connectionist Temporal Classification(CTC)Loss Function，其可以理解为基于神经网络的时序类分类。

具体的，在寻找具有最小面积的旋转举矩形后，可以通过利用opencv中的connectedComponents和minAreaRect方法生成非直线字符串的边框。

进一步的，所述步骤S2中，包括对以下公式的运算：

表示伪标注的区域分数，S_r(p)为预测的区域分数；

表示伪标注的亲和度分数，S_a(p)表示预测的亲和度分数；

具体的，在上述公式中，第一个公式为字符串中单个字符标注样本的字符区域得分；第二个公式表示字符框中的像素置信度图；第三个公式表示字符串中相邻两个字符间连接的置信度。在训练过程中，若置信度分数L小于0.5，为了防止其对训练带来不利影响，对该字符框进行忽略。

进一步的，请参考图2，所述步骤S3中，包括以下过程：

具体的，经过二值化处理，所述算式图像将转化为灰度图；在一种可选的实施例中，在所述步骤S31对所述算式图像进行标准化，可将图像设置为固定大小(3，32，100)，得到的卷积特征图大小将为(1，1024，26)；将所述卷积特征图的一个维度设为1即可获得特征序列S(N)＝(s¹,s²,...,x^T-1,x^T)；其中，s^t对应该序列每一帧的输入，时刻t＝1…T。

y^t＝g(w₁h_t+w₂h_t')；

特别的，在所述字符识别模型在训练阶段中，CTC损失函数还有助于减少人工进行对齐和更好的实现端到端的训练：

具体的，在识别的标签序列当中，给定输入Y^T后，会根据每一个时间步长输出对应的特征维度。每一个特征序列中均取对应的元素，那么就会组成一条输出路径k，输出路径的空间可以表示为K；在t时间步长里面，可以将输出路径k对Y^T的概率p(k|y)表达为：

其中，

表示为在时间步长为t时选取的字符的k_t概率，可以简单理解为每一个特征维度对应的元素概率累计相乘所得；数据的最终结果可以表示为L，其映射为

输出后验概率p(z|y)可以表达为由每一条元素概率累计乘积的输出路径概率进行累加的概率：

而预测结果则为p(z|y)的最大概率所对应的输出，即：

拟合模型的目标是预测结果的最大似然负对数σ最小化：

σ＝∑_(z,y)∈D-log(p(z|y))；

其中D为训练集，p(z|y)是上面提出的后置概率，y表示输入z后映射到的所有路径之和。以CTC作为损失函数对模型进行完全端到端训练，不需要预先对数据做对齐，只需要一个输入序列和一个输出序列即可以训练。这样就不需要对数据对齐和一一标注，输入输出之间的顺序也不再那么重要；而且还能很好地适配粘连字符串识别中序列的预测和标签匹配的问题。

进一步的，在所述步骤S4中，包括以下过程：

在一种可选实施例中，请参阅图3，当所述手写答案正确正确时，可以对算式进行绿色下划线标注，如图3中的第四行“35+80＝115”；当所述手写答案正确错误时，可以对所述算式以及手写答案用红色边框的矩形进行框出，如图3中的第一行以及第二行；当识别异常时，对所述算式以及手写答案用紫色边框的矩形进行框出，如图3中的第三行；最终实现四则运算的算式试题智能批改和判断。

具体的一般示例，可参阅图4、5、6、7；其中：图4为原始的包含四则运算算式字符的待处理图像；图5为图4的高斯热力图；图6为图4分割得到的算式图像在后台存储文件夹中的截图(部分)，图7为图4的批注结果(在转成黑白图像前，算式下的下划线为绿色下划线)。

而对于存在手写字符粘结问题的特殊示例，其识别结果可参阅图8；其中：上方为待处理图像中的手写字符，下方经过CTC损失函数前各字符的识别结果(如手写字符“8”，经过得到得多帧特征序列会被识别成若干个数字8，因此其下方对应识别结果为“88”，之后通过CTC可以很好地去除重复结果和占位符，直接输出识别数字8)。

实施例2

一种基于Bi-LSTM机制的四则运算算式图像智能批改系统，请参阅图9，包括待处理图像获取转化模块1、算式图像分割模块2、字符识别识别模块3以及求解比对批改模块4；所述待处理图像获取转化模块1连接所述算式图像分割模块2，所述算式图像分割模块2连接所述字符识别识别模块3，所述字符识别识别模块3连接所述求解比对批改模块4；其中：

所述待处理图像获取转化模块1用于获取包含四则运算算式字符的待处理图像，对所述待处理图像进行转化得到所述待处理图像的高斯热力图；

所述算式图像分割模块2用于运用由类VGG-16的全卷积网络训练得到的字符分割模型，根据所述高斯热力图，对所述待处理图像进行分割得到所述待处理图像中的算式图像；

所述字符识别识别模块3用于运用由结合了CNN、Bi-LSTM以及CTC损失函数的神经网络训练得到的字符识别模型，对所述算式图像进行字符识别；

所述求解比对批改模块4用于从所述字符识别识别模块3的字符识别结果中区分出算式与手写答案，对所述算式进行运算求解，以运算求解的结果对所述手写答案进行比对批改。

实施例3

一种介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现实施例1中的基于Bi-LSTM机制的四则运算算式图像智能批改方法的步骤。

实施例4

一种电子设备，包括介质、处理器以及储存在所述介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现实施例1中的基于Bi-LSTM机制的四则运算算式图像智能批改方法的步骤。

作为一种可选的实施例，所述电子设备可以具体为计算机、手机、平板电脑、交互式智能平板、PDA(PersonalDigitalAssistant，个人数字助理)、电子书阅读器、多媒体播放器等。

作为一种可选的实施例，所述电子设备可以通过自带的摄像头拍摄或者有线/无线传输装置接收数据等方式获取包含四则运算算式字符的待处理图像。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于Bi-LSTM机制的四则运算算式图像智能批改方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法，其特征在于，所述字符分割模型在训练环节的训练数据集通过以下方式得到：

3.根据权利要求1所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法，其特征在于，所述步骤S2中，通过以下方式得到所述算式图像：

4.根据权利要求3所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法，其特征在于，所述步骤S2中，包括对以下公式的运算：

表示伪标注的区域分数，S_r(p)为预测的区域分数；

表示伪标注的亲和度分数，S_a(p)表示预测的亲和度分数；

5.根据权利要求1所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法，其特征在于，所述步骤S3中，包括以下过程：

6.根据权利要求5所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法，其特征在于，在所述步骤S32中，利用所述Bi-LSTM层提取所述特征序列S(N)＝(s¹,s²,...,x^T-1,x^T)中上下等时间步长信息的特征，对所述特征序列从正向和反向一起进行计算，其中正向部分从时刻1往时刻T计算，反向部分从时刻T往时刻1计算，正向以及反向分别具有一个激活函数，按以下公式综合两个激活函数的结果输出：

y^t＝g(w₁h_t+w₂h_t')；

7.根据权利要求1所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法，其特征在于，在所述步骤S4中，包括以下过程：

8.一种基于Bi-LSTM机制的四则运算算式图像智能批改系统，其特征在于，包括待处理图像获取转化模块(1)、算式图像分割模块(2)、字符识别识别模块(3)以及求解比对批改模块(4)；所述待处理图像获取转化模块(1)连接所述算式图像分割模块(2)，所述算式图像分割模块(2)连接所述字符识别识别模块(3)，所述字符识别识别模块(3)连接所述求解比对批改模块(4)；其中：

所述待处理图像获取转化模块(1)用于获取包含四则运算算式字符的待处理图像，对所述待处理图像进行转化得到所述待处理图像的高斯热力图；

所述算式图像分割模块(2)用于运用由类VGG-16的全卷积网络训练得到的字符分割模型，根据所述高斯热力图，对所述待处理图像进行分割得到所述待处理图像中的算式图像；

所述字符识别识别模块(3)用于运用由结合了CNN、Bi-LSTM以及CTC损失函数的神经网络训练得到的字符识别模型，对所述算式图像进行字符识别；

所述求解比对批改模块(4)用于从所述字符识别识别模块(3)的字符识别结果中区分出算式与手写答案，对所述算式进行运算求解，以运算求解的结果对所述手写答案进行比对批改。

9.一种介质，其上储存有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法的步骤。

10.一种电子设备，其特征在于：包括介质、处理器以及储存在所述介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于Bi-LSTM机制的四则运算算式图像智能批改方法的步骤。