CN110674721A - 一种试卷版面公式自动检测的方法 - Google Patents
一种试卷版面公式自动检测的方法 Download PDFInfo
- Publication number
- CN110674721A CN110674721A CN201910884265.5A CN201910884265A CN110674721A CN 110674721 A CN110674721 A CN 110674721A CN 201910884265 A CN201910884265 A CN 201910884265A CN 110674721 A CN110674721 A CN 110674721A
- Authority
- CN
- China
- Prior art keywords
- network
- formula
- feature
- test paper
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像目标检测技术领域,且公开了一种试卷版面公式自动检测的方法,该系统基于ssd网络架构设计,主要包含仿真数据生成、基于mobilenetv2网络的特征提取、基于advance east网络的特征融合、基于ssd网络的分层预测部分;该试卷版面公式自动检测的方法针对扫描及拍照试卷这种特殊的文档图像数据,提出将mobilenetv2、advance east和ssd算法结合的整体解决方案,整体基于ssd网络架构,将原有主干网络替换成更加轻量级的mobilenetv2网络,并引入advance east算法中的特征融合方式,最后,从融合后的特征图上,分阶段从不同层中预测大小不同的目标物体。
Description
技术领域
本发明涉及图像目标检测技术领域,具体为一种试卷版面公式自动检测的方法。
背景技术
随着以卷积神经网络为基础的深度学习技术在计算机视觉领域的不断应用,其在图像目标检测、OCR、语音识别等场景取得了巨大进展。以目标检测为例,当前自然场景下的目标检测已经广泛应用在行人检测、人脸检测、自动驾驶等方面,尤其在目标物体具有特定形体特征场景检测准确率较高。然而,在特定领域目标检测中却面临诸多问题,如专门针对试卷的公式检测,试卷中除了常用文字行信息外,往往包含大量特殊符号、公式、图表等,对这些信息的有效定位和识别有利于将试卷自动转录成Word版本,方便存储,并加深计算机对试卷内容的分析理解。此外,现有的通用OCR识别无法对公式进行识别,如果能够准确检测出试卷中出现的公式,将公式单独送入公式识别引擎识别,再将OCR和公式识别结果整合,便能很好地完成试卷自动转录任务。
现有试卷版面公式自动检测的方法大都是通用目标检测方法直接在试卷中进行公式检测,然而效果并不理想。因为公式相对试卷本身是小目标物体,而现有目标检测方法,如yolo、faster rcnn等检测不到小目标物体。而且在试卷公式检测中,公式存在的形式各异,例如化学试卷中的二氧化碳、氢气、氧气等符号表示,数学试卷中的微积分、高阶函数等符号表示,如果手动标注这类样本需要耗费极大的人力,工作效率极低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种试卷版面公式自动检测的方法,解决了现有目标检测算法在试卷版面公式自动检测中对公式这种小目标物体检测性能不佳和手动标注公式数据耗时的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种试卷版面公式自动检测的方法,该系统基于ssd网络架构设计,主要包含仿真数据生成、基于mobilenetv2网络的特征提取、基于advance east网络的特征融合、基于ssd网络的分层预测部分。
优选的,所述主要特征具体描述为:主干网络mobilenetv2用于从输入图片中提取符合公式检测的特征,特征融合关注将不同大小特征图上的有用信息合并成一个特征图,分层预测参照ssd原有实现,在融合后的特征图上产生多个不同大小feature map,从而单独预测不同大小的目标物体。
优选的,所述仿真数据生成具体描述为:使用计算机程序设计语言自动生成和真实样本高度相似的训练数据,通过程序控制,在仿真数据过程中,随机为文字行信息添加公式,并标记其添加位置信息。
优选的,所述特征提取具体描述为:将带公式的试卷题目通过图片形式传入mobilenetv2网络,网络从该图片中提取特征后得到输出特征图。该过程去掉原始网络中最后两层conv2d和avgpool层,最后网络保留第3、第4、第5、第6和第7个bottleneck输出特征图作为后续融合使用。这5个不同状态保留的特征图大小不同,分别对应大小不同目标的预测,同时,将最后一个bottleneck块的输出通道数降为16,从而降低最后一层计算量。
优选的,所述特征融合具体描述为:权利4中所述特征提取到的5个不同层的特征图,对后4个特征图分别进行3x3卷积、1x1卷积,分别对应4个不同大小的特征图,然后从最后一个特征图开始上采样,得到与之前一个相邻特征图相同大小尺寸,并且进行concat操作,最后得到融合5个特征图后的特征图大小,这样的特征图具有不同尺度上的特征,包含了不同尺寸的目标需要特征信息。
优选的,所述分层预测具体描述为:包括5个卷积过程,每个卷积过程分别基于前一个卷积过程进行1x1和3x3卷积操作,包含池化层和Leaky-Relu非线性激活层,基于得到的5个特征图上预测目标物体,最后进行全局NMS完成最终检测目标输出。
优选的,包括以下具体步骤:
步骤一、仿真训练数据:本方法面向试卷版面公式检测,由于公式存在的形式各异,在实际中一般需要人工对其标注,一份试卷中存在多道试题,每道试题又存在多种不同形式公式,人工标注较为耗时并且不符合实际需要,因此本方法通过计算机程序设计语言仿真需要的训练数据;
首先截图若干张白色图片作为仿真图片的背景使用,然后生成上千张不同形式的公式图片。此外,准备若干语料库,根据需要检测的试卷公式类别分为不同类型,例如数学题目中公式出现在证明题和填空题中,诸如‘假如’、‘如果’、‘证明’等等词后很大可能是一个数学公式。仿真数据过程,先随机选择一个背景图片,在背景图片上随机选择一个语料信息按从左到右、从上到下的顺序写入到背景图片,然后随机选择一个公式图片,在某一个文字行中随机选择开始位置并将图片贴在当前位置,并记录坐标信息,仿真后的训练数据及标注信息如图6所示;
步骤二、数据预处理:将仿真后的训练数据写入.txt文件,文件中按照图片路径、[xmin,ymin,xmax,ymax]的形式存放,一张图片有多个公式时,按照该形式依次追加;
步骤三、训练神经网络:将网络结构按照上述描述架构整合,产生新检测算法,整体采用端到端的训练模式,网络超参数设置如下:
1)学习率:初始学习率设置为0.001,每训练50轮减小10%;
2)优化器:使用adam优化器;
3)其他:batchsize大小设置为8,与显存容量有关,总共训练轮数为200;
步骤四、模型预测输出:加载训练好的模型,对实际切分好的试卷题目图像进行模型预测,输出公式位置坐标信息。
(三)有益效果
本发明提供了一种试卷版面公式自动检测的方法,具备以下有益效果:
(1)、本发明提出一种试卷版面公式自动检测方法,本方法主要针对试卷公式检测,包含数学、化学、物理、生物等含有公式的试卷,本发明将advanceeast与ssd融合,特征提取网络使用mobilenetv2,使用mobilenetv2网络可以降低网络参数量,减少模型运行时间,ssd网络从不同特征图上预测目标物体,从而对小目标检测具有很好效果,Advanceeast中特征融合方式为ssd提供参考思路,解决了现有目标检测算法在试卷版面公式自动检测中对公式这种小目标物体检测效果不佳和手动标注耗时问题。
(2)、本发明提出的公式检测方法具有参数量少、运行时间短、可以对任意类型的大小公式进行检测。
附图说明
图1为本发明的整体实施流程图;
图2为本发明中特征提取网络结构图;
图3为本发明中每个bottleneck块的机构图;
图4为本发明中特征融合结构图;
图5为本发明中分层预测结构图;
图6为本发明仿真后的训练数据及标注信息示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-6所示,本发明提供一种技术方案:一种试卷版面公式自动检测的方法,包括数据仿真部分、特征提取部分、特征融合部分以及分层预测部分组成:
数据仿真部分:主要描述本方法使用的训练数据制作思路,基本思路为使用程序设计语言开发程序,自动仿真需要的各种类型公式,先使用latex样式预设若干种不同类型公式,仿真过程随机选择数据、字母填充到预设的公式样例,从而生成包含特定公式的图片,预设的公式样例包含长短不同的公式,覆盖数学、化学和物理等试卷中用到的所有公式。准备好仿真公式后,将仿真公式图片随机插入文字行中,并将其resize到与文字行相同高度,同时将插入的公式坐标信息记录到.txt文件中。通过该步骤生成100万张以上训练数据,其中5万张用于测试集,5万张用于验证集使用。
特征提取部分:主要描述如何使用mobilenetv2网络提取图片特征,请参阅图2,基本思路为修改mobilenetv2结构,去掉最后两个conv2d和最后一个avgpool层,并将最后一个bottleneck输出通道数改为16,其中,t表示‘扩张’倍数,c表示输出通道数,n表示重复次数,s表示步长stride,每个bottleneck块的构成如图3所示。
特征融合部分:将特征提取到的feature map进行融合,请参阅图4,基本思路为参照借鉴advance east思想融合特征,提取到的5个特征分别对应图中5个conv block块,从最后一个最小的特征图开始进行卷积操作,并且上采样到与前一个相邻特征图相同尺寸,并与之concat操作,每次concat操作后进行1x1卷积和3x3卷积步骤,输出通道数128,最终输出融合后的特征图。
分层预测部分:参照ssd分层预测思想,在融合后的特征图上进行卷积操作,产生的每个特征图上分别预测目标物体,请参阅图5,Feature map为融合后得到的特征图大小,依次进行不同程度卷积操作,在卷积后的特征图上预测目标物体,最后将所有特征图上的预测结果经过NMS过滤得到最终输出。
一种试卷版面公式自动检测的方法,具体步骤包括以下:
步骤一、制作训练数据:深度学习模型训练需要大量数据作为支撑,本方法针对的试卷公式检测中,需要大量试卷作为训练数据,试卷中公式的位置信息标注成本太高。因此,借助本方法中的自动仿真程序完成训练数据生成,考虑到真实场景下试卷类型各异,并且试卷经过扫描仪或摄像头拍摄形成图片数据,扫描过程产生的背景干扰等信息对后续检测会产生影响,仿真过程背景图片选择纯白色作为背景,不做任何模糊化等背景干扰处理,在实际训练过程,根据一定概率对数据进行加噪声等处理,通过指定需要仿真的数据量后,执行仿真程序即可完成训练数据的制作。
步骤二、数据预处理:训练过程输入的试卷图片为单个题目,因此假设已经将整张试卷中的试题单独裁剪处理。对应一道试题而言,试题图片的宽度大于高度,因此网络输入图片大小固定resize到200x400大小,同时,图片中公式坐标位置信息也相应发生变化,为提高模型泛化能力和抗噪能力,训练过程对数据随机添加不同程度的高斯模糊化、对比度、明亮度和噪声等数据增强方式。
步骤三、训练神经网络:整体采用端到端的模式进行模型训练,超参数的设置如下:
1)学习率:初始学习率设置为0.001,每训练50轮减小10%。
2)优化器:adam优化器。
3)其他:批处理大小设置为8,根据显存大小不同而不同;总共训练轮数为200。
步骤四、模型预测输出:加载训练好的模型,将从试卷中裁剪出的单个试题图片resize到200x400大小后输入到模型,运行程序得到模型预测结果。
本发明针对试卷中包含公式的图像,提出了一种自动检测方法,通过自动检测试卷中公式位置,输出公式位置坐标信息,并将公式送入专用的公式识别引擎,从而实现试卷图像的文本自动转录,为基础教育领域的试卷信息化处理奠定了基础。
综上可得,本发明提出一种试卷版面公式自动检测方法,本方法主要针对试卷公式检测,包含数学、化学、物理、生物等含有公式的试卷。本发明将advanceeast与ssd融合,特征提取网络使用mobilenetv2,使用mobilenetv2网络可以降低网络参数量,减少模型运行时间,ssd网络从不同特征图上预测目标物体,从而对小目标检测具有很好效果。Advanceeast中特征融合方式为ssd提供参考思路,提出的公式检测方法具有参数量少、运行时间短、可以对任意类型的大小公式进行检测,解决了现有目标检测算法在试卷版面公式自动检测中对公式这种小目标物体检测效果不佳和手动标注耗时的问题。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种试卷版面公式自动检测的方法,其特征在于:该系统基于ssd网络架构设计,主要包含仿真数据生成、基于mobilenetv2网络的特征提取、基于advance east网络的特征融合、基于ssd网络的分层预测部分。
2.根据权利要求1所述的一种试卷版面公式自动检测的方法,其特征在于:所述主要特征具体描述为:主干网络mobilenetv2用于从输入图片中提取符合公式检测的特征,特征融合关注将不同大小特征图上的有用信息合并成一个特征图,分层预测参照ssd原有实现,在融合后的特征图上产生多个不同大小feature map,从而单独预测不同大小的目标物体。
3.根据权利要求1所述的一种试卷版面公式自动检测的方法,其特征在于:所述仿真数据生成具体描述为:使用计算机程序设计语言自动生成和真实样本高度相似的训练数据,通过程序控制,在仿真数据过程中,随机为文字行信息添加公式,并标记其添加位置信息。
4.根据权利要求1所述的一种试卷版面公式自动检测的方法,其特征在于:所述特征提取具体描述为:将带公式的试卷题目通过图片形式传入mobilenetv2网络,网络从该图片中提取特征后得到输出特征图,该过程去掉原始网络中最后两层conv2d和avgpool层,最后网络保留第3、第4、第5、第6和第7个bottleneck输出特征图作为后续融合使用,这5个不同状态保留的特征图大小不同,分别对应大小不同目标物体的预测。同时,将最后一个bottleneck块的输出通道数降为16,从而降低最后一层计算量。
5.根据权利要求1所述的一种试卷版面公式自动检测的方法,其特征在于:所述特征融合具体描述为:权利4中所述特征提取到的5个不同层的特征图,对最后4个特征图分别进行3x3卷积、1x1卷积,分别对应4个不同大小的特征图,然后从最后一个特征图开始上采样,得到与之前一个相邻特征图相同大小尺寸,并且进行concat操作,最后得到融合5个特征图后的特征图大小,这样的特征图具有不同尺度上的特征,包含了不同尺寸的目标需要特征信息。
6.根据权利要求1所述的一种试卷版面公式自动检测的方法,其特征在于:所述分层预测具体描述为:包括5个卷积过程,每个卷积过程分别基于前一个卷积过程进行1x1和3x3卷积操作,包含池化层和Leaky-Relu非线性激活层,基于得到的5个特征图上预测目标物体,最后进行全局NMS完成最终检测目标输出。
7.根据权利要求1所述的一种试卷版面公式自动检测的方法,其特征在于:包括以下具体步骤:
步骤一、仿真训练数据:本方法面向试卷版面公式检测,由于公式存在的形式各异,在实际中一般需要人工对其标注,一份试卷中存在多道试题,每道试题又存在多种不同形式公式,人工标注较为耗时并且不符合实际需要,因此本方法通过计算机程序设计语言仿真需要的训练数据;
首先截图若干张白色图片作为仿真图片的背景使用,然后生成上千张不同形式的公式图片。此外,准备若干语料库,根据需要检测的公式类型分为不同类型,例如数学题目检测出现在证明题和填空题中,诸如‘假如’、‘如果’、‘证明’等等词后很大可能是一个数学公式。仿真数据过程,先随机选择一个背景图片,在背景图片上随机选择一个语料信息按从左到右、从上到下的顺序写入到背景图片,然后随机选择一个公式图片,在某一个文字行中随机选择开始位置并将图片贴在当前位置,并记录坐标信息,仿真后的训练数据及标注信息样例如图6所示;
步骤二、数据预处理:将仿真后的训练数据写入.txt文件,文件中按照图片路径、[xmin,ymin,xmax,ymax]的形式存放,一张图片有多个公式时,按照该形式依次追加;
步骤三、训练神经网络:将网络结构按照上述描述架构整合,产生新检测算法,整体采用端到端的训练模式,网络超参数设置如下:
1)学习率:初始学习率设置为0.001,每训练50轮减小10%;
2)优化器:使用adam优化器;
3)其他:batchsize大小设置为8,与显存容量有关,总共训练轮数为200;
步骤四、模型预测输出:加载训练好的模型,对实际切分好的试卷题目图像进行模型预测,输出公式位置坐标信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910884265.5A CN110674721A (zh) | 2019-09-19 | 2019-09-19 | 一种试卷版面公式自动检测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910884265.5A CN110674721A (zh) | 2019-09-19 | 2019-09-19 | 一种试卷版面公式自动检测的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110674721A true CN110674721A (zh) | 2020-01-10 |
Family
ID=69076872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910884265.5A Withdrawn CN110674721A (zh) | 2019-09-19 | 2019-09-19 | 一种试卷版面公式自动检测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674721A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906862A (zh) * | 2021-02-09 | 2021-06-04 | 柳州智视科技有限公司 | 基于算式和题目求解同类数学题的方法 |
CN114266769A (zh) * | 2022-03-01 | 2022-04-01 | 北京鹰瞳科技发展股份有限公司 | 一种基于神经网络模型进行眼部疾病识别的系统及其方法 |
-
2019
- 2019-09-19 CN CN201910884265.5A patent/CN110674721A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906862A (zh) * | 2021-02-09 | 2021-06-04 | 柳州智视科技有限公司 | 基于算式和题目求解同类数学题的方法 |
CN114266769A (zh) * | 2022-03-01 | 2022-04-01 | 北京鹰瞳科技发展股份有限公司 | 一种基于神经网络模型进行眼部疾病识别的系统及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111582241B (zh) | 视频字幕识别方法、装置、设备及存储介质 | |
CN110781648A (zh) | 一种基于深度学习的试卷自动转录系统及方法 | |
CN111612010B (zh) | 图像处理方法、装置、设备以及计算机可读存储介质 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN110114776A (zh) | 使用全卷积神经网络的字符识别的系统和方法 | |
CN110826609B (zh) | 一种基于强化学习的双流特征融合图像识别方法 | |
CN111930976B (zh) | 演示文稿生成方法、装置、设备及存储介质 | |
CN113283336A (zh) | 一种文本识别方法与系统 | |
CN110705400A (zh) | 一种试卷版面题目自动拆分的方法 | |
CN113205047A (zh) | 药名识别方法、装置、计算机设备和存储介质 | |
CN114742014B (zh) | 基于关联注意力的少样本文字风格迁移方法 | |
CN110674721A (zh) | 一种试卷版面公式自动检测的方法 | |
CN115115969A (zh) | 视频检测方法、装置、设备、存储介质和程序产品 | |
CN113468946A (zh) | 用于交通灯检测的语义一致的增强训练数据 | |
CN115909280A (zh) | 基于多头注意力机制的交通标志识别算法 | |
CN111461211A (zh) | 一种用于轻量级目标检测的特征提取方法及相应检测方法 | |
CN110287981A (zh) | 基于生物启发性表征学习的显著性检测方法及系统 | |
CN117793483A (zh) | 视频标签的提取方法、系统、设备及介质 | |
CN116167910B (zh) | 文本编辑方法、装置、计算机设备及计算机可读存储介质 | |
Castillo et al. | Object detection in digital documents based on machine learning algorithms | |
CN117115505A (zh) | 一种结合知识蒸馏与对比学习的情感增强继续训练方法 | |
CN116311322A (zh) | 一种文档版面要素检测方法、装置、存储介质及设备 | |
CN116778497A (zh) | 一种人手井编号识别方法、装置、计算机设备和存储介质 | |
CN113837157B (zh) | 题目类型识别方法、系统和存储介质 | |
CN112801960B (zh) | 图像处理方法及装置、存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200110 |