CN116311269A - 一种公式图片识别判题系统 - Google Patents
一种公式图片识别判题系统 Download PDFInfo
- Publication number
- CN116311269A CN116311269A CN202310259770.7A CN202310259770A CN116311269A CN 116311269 A CN116311269 A CN 116311269A CN 202310259770 A CN202310259770 A CN 202310259770A CN 116311269 A CN116311269 A CN 116311269A
- Authority
- CN
- China
- Prior art keywords
- picture
- unit
- formula
- module
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000004816 latex Substances 0.000 claims abstract description 52
- 229920000126 latex Polymers 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000006243 chemical reaction Methods 0.000 claims abstract description 19
- 238000005259 measurement Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000000034 method Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 13
- 238000006467 substitution reaction Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 241000208818 Helianthus Species 0.000 claims description 4
- 235000003222 Helianthus annuus Nutrition 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 description 10
- 238000011176 pooling Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种公式图片识别判题系统,包括中央处理模块,用于读取指令,对指令译码并执行指令;图像录入模块用于采集和录入图像;科目分类模块用于将题目分类成不同的科目;公式识别模块用于对图片进行识别得到Latex语言;计量单位识别模块用于识别Latex语言中的计量单位中文字符,数据转化模块用于将得到的Latex语言转换Python能够直接识别的sympy语法格式;答案对比模块用于与正确答案相对比,得到学生的各个题目的作答情况。本方案,通过设置计量单位识别模块,可以对中文书写的计量单位进行识别,提高识别的成功率,确保识别的准确性。
Description
技术领域
本发明涉及试卷批改技术领域,具体而言,涉及一种公式图片识别判题系统。
背景技术
在教师教学的过程中,为了能够提高教师试题录入效率,减少阅卷压力。使用了OCR技术帮助教师进行试题录入和阅卷,自动识别图片中题目信息和学生的答案信息。而在数学、物理、化学等科目的试卷中存在大量的学生作答的手写体公式,如何对试卷中学生答案的手写体公式进行识别,则成了智能阅卷的难点之一。在具体使用时,可以利用深度学习中的LSTM网络建立模型,将数学公式图片使用循环神经网络转为序列识别问题,通过序列识别进而识别出图片中公式的Latex语言格式,这种方法在多种类型的公式共存的情况下如:数学公式、物理公式、化学公式,由于不同公式的特征不同,识别率不高,不具有普适性。
中国专利公开了一种基于深度学习的公式图片识别判题系统,公开号:CN112926571A,其只能对公式进行识别,难以对单位进行识别,导致学生在公式中使用单位时,容易识别不准。
发明内容
本发明的主要目的在于提供一种公式图片识别判题系统,以改善相关技术中, 只能对公式进行识别,难以对单位进行识别,导致学生在公式中使用单位时,容易识别不准的问题。
为了实现上述目的,本发明提供了一种公式图片识别判题系统,中央处理模块,用于读取指令,对指令译码并执行指令;
图像录入模块,所述图像录入模块和中央处理模块电性连接,用于采集和录入图像;
科目分类模块,所述科目分类模块和中央处理模块电性连接,用于将题目分类成不同的科目;
公式识别模块,所述公式识别模块和所述中央处理模块电性连接,用于对图片进行识别得到Latex语言;
计量单位识别模块,所述计量单位识别模块和所述中央处理模块电性连接,用于识别Latex语言中的计量单位中文字符;
数据转化模块,所述数据转化模块和所述中央处理模块电性连接,用于将得到的Latex语言转换Python能够直接识别的sympy语法格式;
答案对比模块,所述答案对比模块和所述中央处理模块电性连接,用于与正确答案相对比,得到学生的各个题目的作答情况。
在本发明的一种实施例中,所述图像录入模块包括灰度识别单元、灰度处理单元、图片矫正单元和阈值分割单元;
所述灰度识别单元用于对图片进行灰度化处理,得到灰度图片;
所述灰度处理单元用于得到灰度直方图均衡化提升图片亮度;
所述图片矫正单元通过霍夫变换对图片倾斜的情况进行矫正;
所述阈值分割单元阈值分割得到图片中手写体公式的主体位置并切割出来,填入到预设的固定大小的空白图片中。
在本发明的一种实施例中,所述图像录入模块的使用方法包括以下步骤:
S1.二值化,使用大津阈值法得到,背景为白色,字体为黑色的二值化图像;
S2.倾斜矫正,利用霍夫变换的原理检测图片的倾斜角度,并进行矫正;
S3.阈值分割,截取图片中手写字体的主体部分,删除空白部分;
S4.改变图片大小,判断图片中手写体部分的尺寸大小,如果过小或过大均需要对图片进行放大或缩小操作,之后将缩放后的图片,填入到预设尺寸的空白图片中,方便后续模型识别。
在本发明的一种实施例中,科目分类模块包括数据库单元;
所述数据库单元设置分类模型,可以对预处理过的图片进行图片分类,得到图片所对应的类别,进而可以判断后续应使用哪种公式识别模型。
在本发明的一种实施例中,所述科目分类模块包括科目设置单元,用户可通过科目设置单元设置待识别的科目,从而直接对科目进行识别;
所述科目分类模块包括级别设置单元,将科目分为若干个级别,对于低年级的公式进行识别时,可屏蔽高年级的知识,可进一步简化识别的难度。
在本发明的一种实施例中,所述公式识别模块包括Latex语言转换单元、特征向量提取单元、向量筛选单元、对照单元、结果提取单元;
Latex语言转换单元采集到不同科目的手写体图片,分别进行图片预处理,图片中公式所对应的Latex语言进行预处理得到Latex语言的字符集,得到公式图片数据集,和图片所对应的Latex语言的标签数据集;
特征向量提取单元利用Seq2Seq模型,其编码器端使用的是卷积神经网络提取预处理后的图片特征;其解码器是循环神经网络进行的解码得到图片特征所对应的向量;
向量筛选单元;使用注意力机制将图片特征向量进一步概率权重计算,突出其中重要的特征向量;
所述对照单元对得到的特征向量经过束搜索将得到的特征向量与Latex语言的字符集对应,得到图片中Latex语言;使用该神经网络对不同科目的数据集进行训练,得到不同科目的识别模型;
所述结果提取单元根据图片分类模型判断的结果,使用不同科目的公式识别模型进行预处理后的手写体公式的图片识别,得到识别的Latex语言。
在本发明的一种实施例中,所述计量单位中文字符包括但不限于:
天干字符:甲、乙、丙、丁、戊、己、庚、辛、壬、葵;
国标单位:毫米、厘米、米、千米、克、千克、平方毫米、平方厘米、平方米、平方千米、度、摄氏度;
非国标单位:斤、两、亩、公分、尺、寸。
在本发明的一种实施例中,所述数据转化模块将Latex语言中的关键词和特殊符号与python中对应关键词和特殊符号一一对应并替换,得到python能够正确识别的sympy格式的公式语法。
在本发明的一种实施例中,所述答案对比模块包括相同数据替换库;
所述相同数据替换库中设置相同意义的字符作为一组;形式不同但含义相同的字符可相互替换。
在本发明的一种实施例中,所述答案对比模块包括运算律替换单元,对于字符不同但含义相同的公式进行替换。
与现有技术相比,本发明的有益效果是:
1、设置科目分类模块,用于将题目分类成不同的科目,在识别时,直接调用相应科目的数据模型进行对比识别,大幅提高不同科目之间的公式识别的准确率;
2、相同数据替换库,相同数据替换库中设置相同意义的字符作为一组;形式不同但含义相同的字符可相互替换;设置运算律替换单元所述答案对比模块包括运算律替换单元,对于字符不同但含义相同的公式进行替换;
3、通过设置计量单位识别模块,可以对中文书写的计量单位进行识别,提高识别的成功率,确保识别的准确性。
附图说明
图1为根据本发明实施例提供的公式图片识别判题系统的结构框图;
图2为根据本发明实施例提供的公式图片识别判题系统的图像录入模块的结构框图;
图3为根据本发明实施例提供的公式图片识别判题系统的图像录入模块的使用流程框图;
图4为根据本发明实施例提供的公式图片识别判题系统的实施例1的科目分类模块的结构示意图;
图5为根据本发明实施例提供的公式图片识别判题系统的实施例2的科目分类模块的结构框图;
图6为根据本发明实施例提供的公式图片识别判题系统的公式识别模块的结构框图;
图7为根据本发明实施例提供的公式图片识别判题系统的答案对比模块的结构框图。
实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本发明中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本发明中的具体含义。
另外,术语“多个”的含义应为两个以及两个以上。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
实施例
请参阅图1、图2、图3、图4、图6和图7,本发明提供了一种公式图片识别判题系统,包括中央处理模块,用于读取指令,对指令译码并执行指令;科目分类模块、公式识别模块、计量单位识别模块、数据转化模块和答案对比模块。
所述图像录入模块和中央处理模块电性连接,用于采集和录入图像,所述图像录入模块包括灰度识别单元、灰度处理单元、图片矫正单元和阈值分割单元;所述灰度识别单元用于对图片进行灰度化处理,得到灰度图片;所述灰度处理单元用于得到灰度直方图均衡化提升图片亮度;所述图片矫正单元通过霍夫变换对图片倾斜的情况进行矫正;所述阈值分割单元阈值分割得到图片中手写体公式的主体位置并切割出来,填入到预设的固定大小的空白图片中。
图像录入模块的使用方法包括以下步骤:
S1.二值化,使用大津阈值法得到,背景为白色,字体为黑色的二值化图像;
S2.倾斜矫正,利用霍夫变换的原理检测图片的倾斜角度,并进行矫正;
S3.阈值分割,截取图片中手写字体的主体部分,删除空白部分;
S4.改变图片大小,判断图片中手写体部分的尺寸大小,如果过小或过大均需要对图片进行放大或缩小操作,之后将缩放后的图片,填入到预设尺寸的空白图片中,方便后续模型识别。
所述科目分类模块和中央处理模块电性连接,用于将题目分类成不同的科目,所述科目分类模块包括数据库单元;所述数据库单元设置分类模型,可以对预处理过的图片进行图片分类,得到图片所对应的类别,进而可以判断后续应使用哪种公式识别模型;
所述公式识别模块和所述中央处理模块电性连接,用于对图片进行识别得到Latex语言,所述公式识别模块包括Latex语言转换单元、特征向量提取单元、向量筛选单元、对照单元、结果提取单元;
Latex语言转换单元采集到不同科目的手写体图片,分别进行图片预处理,图片中公式所对应的Latex语言进行预处理得到Latex语言的字符集,得到公式图片数据集,和图片所对应的Latex语言的标签数据集;
特征向量提取单元利用Seq2Seq模型,其编码器端使用的是卷积神经网络提取预处理后的图片特征;其解码器是循环神经网络进行的解码得到图片特征所对应的向量;
向量筛选单元;使用Attention(注意力机制)将图片特征向量进一步概率权重计算,突出其中重要的特征向量;
所述对照单元对得到的特征向量经过Beam Search(束搜索)将得到的特征向量与Latex语言的字符集对应,得到图片中Latex语言;使用该神经网络对不同科目的数据集进行训练,得到不同科目的识别模型;
所述结果提取单元根据图片分类模型判断的结果,使用不同科目的公式识别模型进行预处理后的手写体公式的图片识别,得到识别的Latex语言。
所述计量单位识别模块和所述中央处理模块电性连接,用于识别Latex语言中的计量单位中文字符,计量单位中文字符包括但不限于:
天干字符:甲、乙、丙、丁、戊、己、庚、辛、壬、葵;
国标单位:毫米、厘米、米、千米、克、千克、平方毫米、平方厘米、平方米、平方千米、度、摄氏度;
非国标单位:斤、两、亩、公分、尺、寸。
需要说明的是:有些公式中包含中英文的字符,需要使用能够识别中英文字符的公式模型进行。模型使用ABINet网络。ABINet(Asymmetric Bilinear Network)是一种新型的深度学习文本识别算法,该算法主要探索了对齐(alignment)和池化(pooling)之间的协同作用。其中,对齐模块主要作用是反向搜索,将目标尽量对齐到固定的位置或者固定的空间视图中;池化模块的作用则是为了获取更高层次的特征表示,以便进行更准确的分类。
ABINet算法的优势在于采用了一个新型的卷积结构——双线性卷积。双线性卷积能够有效地捕捉不同输入之间的关联性,从而提高了特征提取的质量。在ABINet中,双线性卷积被用来捕获前后单词之间的关系。此外,ABINet还使用了一个新的基于位置的池化算法,将池化操作根据不同的位置进行分组,提高了算法在位置信息不是很明显的场景下的性能表现。ABINet算法在多个场景下都取得了不错的效果,和一般的文本识别算法相比,ABINet算法不仅效果更加准确,而且在计算效率上也表现出优势,是一种非常优秀的文本识别算法。
ABINet网络主要分为3部分:视觉模型,语言模型和融合部分。首先输入图像到视觉模型,提取图像特征以及输出预测结果;将视觉模型的预测结果送入语言模型来提取语言特征并预测结果;将视觉模型的视觉特征和语言模型的语言特征进行融合来得到融合的预测结果;融合的预测结果再送入语言模型,迭代地进行细化,以得到最终的预测结果。
所述数据转化模块和所述中央处理模块电性连接,用于将得到的Latex语言转换Python能够直接识别的sympy语法格式,数据转化模块将Latex语言中的关键词和特殊符号与python中对应关键词和特殊符号一一对应并替换,得到python能够正确识别的sympy格式的公式语法。
所述答案对比模块和所述中央处理模块电性连接,用于与正确答案相对比,得到学生的各个题目的作答情况,答案对比模块包括相同数据替换库;所述相同数据替换库中设置相同意义的字符作为一组;形式不同但含义相同的字符可相互替换,如0.5和1/2可替换。答案对比模块包括运算律替换单元,对于字符不同但含义相同的公式进行替换。如加法交换律,a+b和b+a可相互替换;如乘法交换律,a×b和b×a可相互替换。
实施例
请参阅图1、图2、图3、图4、图6和图7,本发明提供了一种公式图片识别判题系统,包括中央处理模块,用于读取指令,对指令译码并执行指令;科目分类模块、公式识别模块、计量单位识别模块、数据转化模块和答案对比模块。
所述图像录入模块和中央处理模块电性连接,用于采集和录入图像,所述图像录入模块包括灰度识别单元、灰度处理单元、图片矫正单元和阈值分割单元;所述灰度识别单元用于对图片进行灰度化处理,得到灰度图片;所述灰度处理单元用于得到灰度直方图均衡化提升图片亮度;所述图片矫正单元通过霍夫变换对图片倾斜的情况进行矫正;所述阈值分割单元阈值分割得到图片中手写体公式的主体位置并切割出来,填入到预设的固定大小的空白图片中。
图像录入模块的使用方法包括以下步骤:
S1.二值化,使用大津阈值法得到,背景为白色,字体为黑色的二值化图像;
S2.倾斜矫正,利用霍夫变换的原理检测图片的倾斜角度,并进行矫正;
S3.阈值分割,截取图片中手写字体的主体部分,删除空白部分;
S4.改变图片大小,判断图片中手写体部分的尺寸大小,如果过小或过大均需要对图片进行放大或缩小操作,之后将缩放后的图片,填入到预设尺寸的空白图片中,方便后续模型识别。
所述科目分类模块和中央处理模块电性连接,用于将题目分类成不同的科目,所述科目分类模块包括数据库单元;所述数据库单元设置分类模型,可以对预处理过的图片进行图片分类,得到图片所对应的类别,进而可以判断后续应使用哪种公式识别模型。优选的,所述科目分类模块包括科目设置单元,用户可通过科目设置单元设置待识别的科目,从而直接对科目进行识别;优选的,所述科目分类模块包括级别设置单元,将科目分为若干个级别,对于低年级的公式进行识别时,可屏蔽高年级的知识,可进一步简化识别的难度。
所述公式识别模块和所述中央处理模块电性连接,用于对图片进行识别得到Latex语言,所述公式识别模块包括Latex语言转换单元、特征向量提取单元、向量筛选单元、对照单元、结果提取单元;
Latex语言转换单元采集到不同科目的手写体图片,分别进行图片预处理,图片中公式所对应的Latex语言进行预处理得到Latex语言的字符集,得到公式图片数据集,和图片所对应的Latex语言的标签数据集;
特征向量提取单元利用Seq2Seq模型,其编码器端使用的是卷积神经网络提取预处理后的图片特征;其解码器是循环神经网络进行的解码得到图片特征所对应的向量;
向量筛选单元;使用Attention(注意力机制)将图片特征向量进一步概率权重计算,突出其中重要的特征向量;
所述对照单元对得到的特征向量经过Beam Search(束搜索)将得到的特征向量与Latex语言的字符集对应,得到图片中Latex语言;使用该神经网络对不同科目的数据集进行训练,得到不同科目的识别模型;
所述结果提取单元根据图片分类模型判断的结果,使用不同科目的公式识别模型进行预处理后的手写体公式的图片识别,得到识别的Latex语言。
所述计量单位识别模块和所述中央处理模块电性连接,用于识别Latex语言中的计量单位中文字符,计量单位中文字符包括但不限于:
天干字符:甲、乙、丙、丁、戊、己、庚、辛、壬、葵;
国标单位:毫米、厘米、米、千米、克、千克、平方毫米、平方厘米、平方米、平方千米、度、摄氏度;
非国标单位:斤、两、亩、公分、尺、寸。
需要说明的是:有些公式中包含中英文的字符,需要使用能够识别中英文字符的公式模型进行。模型使用ABINet网络。ABINet(Asymmetric Bilinear Network)是一种新型的深度学习文本识别算法,该算法主要探索了对齐(alignment)和池化(pooling)之间的协同作用。其中,对齐模块主要作用是反向搜索,将目标尽量对齐到固定的位置或者固定的空间视图中;池化模块的作用则是为了获取更高层次的特征表示,以便进行更准确的分类。
ABINet算法的优势在于采用了一个新型的卷积结构——双线性卷积。双线性卷积能够有效地捕捉不同输入之间的关联性,从而提高了特征提取的质量。在ABINet中,双线性卷积被用来捕获前后单词之间的关系。此外,ABINet还使用了一个新的基于位置的池化算法,将池化操作根据不同的位置进行分组,提高了算法在位置信息不是很明显的场景下的性能表现。ABINet算法在多个场景下都取得了不错的效果,和一般的文本识别算法相比,ABINet算法不仅效果更加准确,而且在计算效率上也表现出优势,是一种非常优秀的文本识别算法。
ABINet网络主要分为3部分:视觉模型,语言模型和融合部分。首先输入图像到视觉模型,提取图像特征以及输出预测结果;将视觉模型的预测结果送入语言模型来提取语言特征并预测结果;将视觉模型的视觉特征和语言模型的语言特征进行融合来得到融合的预测结果;融合的预测结果再送入语言模型,迭代地进行细化,以得到最终的预测结果。
所述数据转化模块和所述中央处理模块电性连接,用于将得到的Latex语言转换Python能够直接识别的sympy语法格式,数据转化模块将Latex语言中的关键词和特殊符号与python中对应关键词和特殊符号一一对应并替换,得到python能够正确识别的sympy格式的公式语法。
所述答案对比模块和所述中央处理模块电性连接,用于与正确答案相对比,得到学生的各个题目的作答情况,答案对比模块包括相同数据替换库;所述相同数据替换库中设置相同意义的字符作为一组;形式不同但含义相同的字符可相互替换,如0.5和1/2可替换。答案对比模块包括运算律替换单元,对于字符不同但含义相同的公式进行替换。如加法交换律,a+b和b+a可相互替换;如乘法交换律,a×b和b×a可相互替换。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种公式图片识别判题系统,其特征在于,包括:
中央处理模块,用于读取指令,对指令译码并执行指令;
图像录入模块,所述图像录入模块和中央处理模块电性连接,用于采集和录入图像;
科目分类模块,所述科目分类模块和中央处理模块电性连接,用于将题目分类成不同的科目;
公式识别模块,所述公式识别模块和所述中央处理模块电性连接,用于对图片进行识别得到Latex语言;
计量单位识别模块,所述计量单位识别模块和所述中央处理模块电性连接,用于识别Latex语言中的计量单位中文字符;
数据转化模块,所述数据转化模块和所述中央处理模块电性连接,用于将得到的Latex语言转换Python能够直接识别的sympy语法格式;
答案对比模块,所述答案对比模块和所述中央处理模块电性连接,用于与正确答案相对比,得到学生的各个题目的作答情况。
2.如权利要求1所述的一种公式图片识别判题系统,其特征在于,所述图像录入模块包括灰度识别单元、灰度处理单元、图片矫正单元和阈值分割单元;
所述灰度识别单元用于对图片进行灰度化处理,得到灰度图片;
所述灰度处理单元用于得到灰度直方图均衡化提升图片亮度;
所述图片矫正单元通过霍夫变换对图片倾斜的情况进行矫正;
所述阈值分割单元阈值分割得到图片中手写体公式的主体位置并切割出来,填入到预设的固定大小的空白图片中。
3.如权利要求1或2所述的一种公式图片识别判题系统,其特征在于,所述图像录入模块的使用方法包括以下步骤:
S1.二值化,使用大津阈值法得到,背景为白色,字体为黑色的二值化图像;
S2.倾斜矫正,利用霍夫变换的原理检测图片的倾斜角度,并进行矫正;
S3.阈值分割,截取图片中手写字体的主体部分,删除空白部分;
S4.改变图片大小,判断图片中手写体部分的尺寸大小,如果过小或过大均需要对图片进行放大或缩小操作,之后将缩放后的图片,填入到预设尺寸的空白图片中,方便后续模型识别。
4.如权利要求3所述的一种公式图片识别判题系统,其特征在于,所述科目分类模块包括数据库单元;
所述数据库单元设置分类模型,可以对预处理过的图片进行图片分类,得到图片所对应的类别,进而可以判断后续应使用哪种公式识别模型。
5.如权利要求1或4所述的一种公式图片识别判题系统,其特征在于,所述科目分类模块包括科目设置单元,用户可通过科目设置单元设置待识别的科目,从而直接对科目进行识别;
所述科目分类模块包括级别设置单元,将科目分为若干个级别,对于低年级的公式进行识别时,可屏蔽高年级的知识,可进一步简化识别的难度。
6.如权利要求1所述的一种公式图片识别判题系统,其特征在于,所述公式识别模块包括Latex语言转换单元、特征向量提取单元、向量筛选单元、对照单元、结果提取单元;
Latex语言转换单元采集到不同科目的手写体图片,分别进行图片预处理,图片中公式所对应的Latex语言进行预处理得到Latex语言的字符集,得到公式图片数据集,和图片所对应的Latex语言的标签数据集;
特征向量提取单元利用Seq2Seq模型,其编码器端使用的是卷积神经网络提取预处理后的图片特征;其解码器是循环神经网络进行的解码得到图片特征所对应的向量;
向量筛选单元;使用注意力机制将图片特征向量进一步概率权重计算,突出其中重要的特征向量;
所述对照单元对得到的特征向量经过束搜索将得到的特征向量与Latex语言的字符集对应,得到图片中Latex语言;使用该神经网络对不同科目的数据集进行训练,得到不同科目的识别模型;
所述结果提取单元根据图片分类模型判断的结果,使用不同科目的公式识别模型进行预处理后的手写体公式的图片识别,得到识别的Latex语言。
7.如权利要求1所述的一种公式图片识别判题系统,其特征在于,所述计量单位中文字符包括但不限于:
天干字符:甲、乙、丙、丁、戊、己、庚、辛、壬、葵;
国标单位:毫米、厘米、米、千米、克、千克、平方毫米、平方厘米、平方米、平方千米、度、摄氏度;
非国标单位:斤、两、亩、公分、尺、寸。
8.如权利要求1所述的一种公式图片识别判题系统,其特征在于,所述数据转化模块将Latex语言中的关键词和特殊符号与python中对应关键词和特殊符号一一对应并替换,得到python能够正确识别的sympy格式的公式语法。
9.如权利要求1所述的一种公式图片识别判题系统,其特征在于,所述答案对比模块包括相同数据替换库;
所述相同数据替换库中设置相同意义的字符作为一组;形式不同但含义相同的字符可相互替换。
10.如权利要求1所述的一种公式图片识别判题系统,其特征在于,所述答案对比模块包括运算律替换单元,对于字符不同但含义相同的公式进行替换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310259770.7A CN116311269A (zh) | 2023-03-17 | 2023-03-17 | 一种公式图片识别判题系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310259770.7A CN116311269A (zh) | 2023-03-17 | 2023-03-17 | 一种公式图片识别判题系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116311269A true CN116311269A (zh) | 2023-06-23 |
Family
ID=86818179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310259770.7A Pending CN116311269A (zh) | 2023-03-17 | 2023-03-17 | 一种公式图片识别判题系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311269A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI846578B (zh) * | 2023-08-25 | 2024-06-21 | 博相科技股份有限公司 | 英文單字影像辨識方法 |
-
2023
- 2023-03-17 CN CN202310259770.7A patent/CN116311269A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI846578B (zh) * | 2023-08-25 | 2024-06-21 | 博相科技股份有限公司 | 英文單字影像辨識方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11790641B2 (en) | Answer evaluation method, answer evaluation system, electronic device, and medium | |
CN110110585B (zh) | 基于深度学习的智能阅卷实现方法及系统、计算机程序 | |
CN109993160B (zh) | 一种图像矫正及文本与位置识别方法及系统 | |
CN110619326B (zh) | 一种基于扫描的英语试卷作文检测识别系统及方法 | |
CN113537227B (zh) | 一种结构化文本识别方法及系统 | |
CN111950528B (zh) | 图表识别模型训练方法以及装置 | |
CN113177435B (zh) | 试卷分析方法、装置、存储介质及电子设备 | |
CN105447522A (zh) | 一种复杂图像文字识别系统 | |
CN105427696A (zh) | 一种对目标题目所作答案进行判别的方法 | |
CN112686263B (zh) | 文字识别方法、装置、电子设备及存储介质 | |
Rasyidi et al. | Classification of handwritten Javanese script using random forest algorithm | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN101855640A (zh) | 尤其是用于移动无线设备的图像分析方法 | |
Mor et al. | Confidence prediction for lexicon-free OCR | |
CN114663904A (zh) | 一种pdf文档布局检测方法、装置、设备及介质 | |
CN116311269A (zh) | 一种公式图片识别判题系统 | |
CN111079641A (zh) | 作答内容识别方法、相关设备及可读存储介质 | |
CN114758341A (zh) | 一种智能化合同图像识别与合同要素抽取方法及装置 | |
CN112926571A (zh) | 一种基于深度学习的公式图片识别判题系统 | |
CN115810197A (zh) | 一种多模态电力表单识别方法及装置 | |
CN116049367A (zh) | 一种基于无监督知识增强的视觉-语言预训练方法及装置 | |
WO2021051502A1 (zh) | 基于长短期记忆的教学方法、装置和计算机设备 | |
Tayyab et al. | Recognition of Visual Arabic Scripting News Ticker From Broadcast Stream | |
CN115661183B (zh) | 一种基于边缘计算的智能扫描管理系统及方法 | |
CN110298236B (zh) | 一种基于深度学习的盲文图像自动识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |