CN110705400A - 一种试卷版面题目自动拆分的方法 - Google Patents
一种试卷版面题目自动拆分的方法 Download PDFInfo
- Publication number
- CN110705400A CN110705400A CN201910884281.4A CN201910884281A CN110705400A CN 110705400 A CN110705400 A CN 110705400A CN 201910884281 A CN201910884281 A CN 201910884281A CN 110705400 A CN110705400 A CN 110705400A
- Authority
- CN
- China
- Prior art keywords
- test paper
- layout
- questions
- prediction
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及图像目标检测与识别技术领域,且公开了一种试卷版面题目自动拆分的方法,该系统基于改进后的yolov3网络架构设计,主要包含仿真数据生成、图片特征提取和特征层预测部分;该方法提出一种试卷版面题目自动拆分的方法,本方法主要针对包含数学、语文、英语等常用试卷在内的试卷版面题目自动拆分,本发明所述试卷版面题目拆分是指,通过本方法(包括但不限于本方法)从扫描或拍摄等方式获取的试卷图像数据中将每道题目单独完整检测,并获得其在试卷中的坐标位置信息的过程。
Description
技术领域
本发明涉及图像目标检测与识别技术领域,具体为一种试卷版面题目自动拆分的方法。
背景技术
目标检测作为图像处理中的一个重要应用领域,在智能交通、安防、医疗、教育等领域得到了广泛的应用。同时,随着深度学习方法的不断应用,目标检测精度得到了大幅度的提高,尤其是目标物体具有特定形体特征的场景,目标检测准确率很高。然而,深度学习技术在试卷版面题目拆分中的应用较少,本方法将深度学习技术强大的卷积神经网络引入试卷版面题目拆分中,提出一种专门解决试卷版面题目拆分的新方法。
现有的针对试卷版面题目拆分中大多都是基于试卷版面题目固定位置拆分单个试题,这种拆分方法对不同板式试卷需要变更已知的试题坐标位置信息,不能适应所有版面试卷。而将深度学习的方法在版面分析的应用已经出现,其主要是利用强大的卷积神经网络分析版面中存在的文字区域、图片、表格和公式等检测,本质还是目标检测算法在版面分析中的直接使用,而将目标检测方法在试卷版面分析中以每道题为目标进行拆分的应用较少。以题目为目标单位自动拆分的方法能够将试卷中所有类型题目独立检测并拆分,有利于后续对每道题目单独OCR识别和知识点判定。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种试卷版面题目自动拆分的方法,通过将深度学习技术引入到试卷版面题目自动拆分中,解决了现有试卷版面题目基于固定位置拆分单个试题导致的非灵活扩展和手动标注数据耗时问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种试卷版面题目自动拆分的方法,其特征在于;该系统基于改进后的yolov3网络架构设计,主要包含仿真数据生成、图片特征提取和特征层预测部分。
优选的,所述主要特征具体描述为:主干网络yolov3用于从输入为1024x768大小图片中提取符合版面需要的特征,从而得到1/4、1/8、1/16和1/32四个特征图,四个特征图经过单独卷积后独立预测,同时当前特征图经过上采样后,与下层特征图拼接,并参与下层计算。
优选的,所述仿真数据生成具体描述为:使用程序设计自动生成和真实样本高度相似的训练数据,通过程序控制,在仿真数据过程中,随机生成指定数量的包含各种版面试卷题目图片及label数据。
优选的,所述图片特征提取具体描述为:在原有1/8、1/16和1/32特征图大小的基础上,新增1/4大小特征图参与预测,同时,主干网络中第三和第四个残差块的次数降为4,以此解决增加特征图个数带来的计算量问题,特征图单独预测中,舍弃原有3x3大小卷积,增加用于预测的特征图之间的拼接关系,使得上层预测特征图也参与下层预测。
优选的,所述分层预测具体描述为:权利4中所述特征提取到的四个不同层的特征图,分别进行convolutional set操作,该操作由多个1x1和3x3卷积组成,该操作结果进行上采样,并与下层特征图拼接后,经过1x1卷积得到用于预测的特征图,为了再次降低计算量,此处去掉原有3x3大小卷积操作,本方法将四个用于预测的F1-F4个特征图上采样,并使其与下层特征融合,丰富其特征。
优选的,包括以下具体步骤:
步骤一、仿真训练数据:本方法面向试卷版面题目自动拆分,由于试卷版面题目存在形式多样,人工标注过程较慢,并且现有试卷数据不能完全覆盖所有可能出现的试卷版面呈现形式,因此本方法通过程序设计仿真需要的训练数据;
首先准备若干张公式和图表图片,每次仿真过程产生0-1之间随机数,规定[0-0.3,0.3-0.5,0.5-0.7,0.7-1.0]为四个不同区间,每个区间代表填空、选择、证明、解答等题目类型(具体实施过程包括但不限于此),每个区间段范围连续产生数量不等的同类型题目,并按照从左到右、从上到下的顺序排列(程序随机控制每道题目之间的行间距大小),从而仿真出与真实试卷版面排版接近的训练数据。
步骤二、数据预处理:结合常用试卷板式,本次训练数据统一resize到1024x768大小,输入为RGB图片,并且将图片归一化到-1到1之间,训练过程以batchsize为基本输入,每个batchsize随机从原始图片中选择,并随机添加高斯模糊化、对比度、明亮度和试卷裁剪等数据增强操作;
步骤三、训练神经网络:将网络结构按照上述描述架构整合,产生新的试卷版面题目自动拆分算法,整体采用端到端的训练模式,网络超参数设置如下:
(1)、学习率:初始学习率设置为0.01,每训练10轮减小10%;
(2)、优化器:adam或sgd优化器(实施过程根据模型训练情况决定);
(3)、其它:批处理大小设置为8,根据显存大小不同而不同;总共训练轮数为200;
步骤四、模型预测输出:加载训练好的模型,分别在1000张真实和仿真数据中进行模型预测,输出试卷中各版面拆分结果的位置坐标信息,并对该模型进行评估分析。
(三)有益效果
本发明提供了一种试卷版面题目自动拆分的方法,具备以下有益效果:
(1)、本发明针对以上现状,提出一种试卷版面题目自动拆分的方法,本方法主要针对包含数学、语文、英语等常用试卷在内的试卷版面题目自动拆分,本发明所述试卷版面题目拆分是指,通过本方法(包括但不限于本方法)从扫描或拍摄等方式获取的试卷图像数据中将每道题目单独完整检测,并获得其在试卷中的坐标位置信息的过程,通过将深度学习技术引入到试卷版面题目自动拆分中,解决了现有试卷版面题目基于固定位置拆分单个试题导致的非灵活扩展和手动标注数据耗时问题。
(2)、本发明通过设置将深度学习技术引入到试卷版面题目拆分中,从而实现试卷版面题目的自动化拆分,针对试卷版面题目拆分特点,通过对现有目标检测方法yolov3进行改进,提出更多尺度特征图联合预测目标物体的新方法,本方法针对不同类型的题目,尤其在题目中含有图表、题目结构分布比较分散等场景中能够对题目很好拆分检测,避免出现一道题目多检、漏检等情况。
附图说明
图1为本发明的整体实施流程图;
图2为本发明整体实施流程中的Convolutional Set结构图;
图3为本发明整体实施流程中的Convolutional Concat结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
如图1-3所示,本发明提供一种技术方案:一种试卷版面题目自动拆分的方法,包括数据仿真部分、图片特征提取部分和特征层预测部分组成:
数据仿真部分:主要描述本方法使用的训练数据制作思路,基本思路为使用程序设计语言开发程序,自动仿真需要的各种类型版面试卷,首先随机选取一张背景图片,将其resize到1024x768尺度大小,随机选择一张类型版面(如填空、选择题等)形式,按照该类型生成文字+公式+图表结构的版面试题,通过程序控制每道题题目之间的行间距大小,每张仿真试卷版面题目之间字体、字号等大小随机选取,确保仿真样本形式各异,涵盖所有可能出现的真实场景,通过该步骤生成100万张以上训练数据,其中5万张用于测试集,5万张用于验证集使用。
图片特征提取部分:主要描述如何从yolov3网络中提取特征层,原始yolov3网络分别在原始输入图片的1/8、1/16和1/32大小特征图上分别预测框,本次将1/4大小特征图也作为特征层预测框,更多层特征图参与预测,可以更好兼顾不同大小目标物体,增加预测框数量,可提高召回率,同时,将第三和第四个residual块的重复次数从8降到4,从而降低参数量并提高运算速度。
特征层预测部分:主要描述如何通过四个不同尺度特征图来预测框的位置,得到四个特征图后,从32x24的特征图开始,经过convolutional set和1x1卷积,输出第一个用于预测bounding box的特征图,convolutional set结果经过convolutional concat与64x48大小特征图拼接,拼接后的特征图,再经过convolutional set操作,输出第二个用于预测bounding box的特征图,依次类推,用于预测的特征图单独上采样后,继续与下一层特征图拼接,并参与运算,这里convolutional set表示为连续多个1x1和3x3卷积,请参阅图2所示,convolutional concat结构,请参阅图3所示。
一种试卷版面题目自动拆分的方法,包括以下步骤:
步骤一、制作训练数据:深度学习模型训练需要大量数据作为支撑,本方法针对的试卷版面题目自动拆分,需要大量不同版面试卷作为训练数据,因此利用本方法中的数据仿真程序,通过指定总样本量、试卷类型、版面形式等参数快速生成大量训练数据,仿真程序会生成.jpg格式图片和对应的.txt文件,txt文件中存放了[xmin,ymin,xmax,ymax]格式的版面题目坐标信息,jpg格式图片中有N个版面题目,对应的txt中会存在N行类似的坐标信息;
步骤二、数据预处理:结合常用试卷板式,本次训练数据统一resize到1024x768大小,输入为RGB图片,并且将图片归一化到-1到1之间,训练过程以batchsize为基本输入,每个batchsize随机从原始图片中选择,并随机添加高斯模糊化、对比度、明亮度和试卷裁剪等数据增强操作;
步骤三、训练神经网络:整体采用端到端的网络结构进行模型训练,超参数的设置如下:
(1)、学习率:初始学习率设置为0.01,每训练10轮减小10%;
(2)、优化器:adam或sgd优化器(实施过程根据模型训练情况决定);
(3)、其它:批处理大小设置为8,根据显存大小不同而不同;总共训练轮数为200;
步骤四、模型预测输出:加载训练好的模型,分别在1000张真实和仿真数据中进行模型预测,输出试卷中各版面拆分结果的位置坐标信息,并对该模型进行评估分析。
本发明针对试卷图像,通过深度学习的方法,实现试卷中版面题目自动拆分,输出试卷中包含的所有类型的版面位置坐标信息,为大规模试卷数据库建设奠定了基础。
综上可得,本发明针对以上现状,提出一种试卷版面题目自动拆分的方法,本方法主要针对包含数学、语文、英语等常用试卷在内的试卷版面题目自动拆分,本发明所述试卷版面题目拆分是指,通过本方法(包括但不限于本方法)从扫描或拍摄等方式获取的试卷图像数据中将每道题目单独完整检测,并获得其在试卷中的坐标位置信息的过程,通过设置将深度学习技术引入到试卷版面题目拆分中,从而实现试卷版面题目的自动化拆分,针对试卷版面题目拆分特点,通过对现有目标检测方法yolov3进行改进,提出更多尺度特征图联合预测目标物体的新方法。本方法针对不同类型的题目,尤其在题目中含有图表、题目结构分布比较分散等场景中能够对题目很好拆分检测,避免出现一道题目多检、漏检等情况,通过将深度学习技术引入到试卷版面题目自动拆分中,解决了现有试卷版面题目基于固定位置拆分单个试题导致的非灵活扩展和手动标注数据耗时问题。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种试卷版面题目自动拆分的方法,其特征在于:该系统基于改进后的yolov3网络架构设计,主要包含仿真数据生成、图片特征提取和特征层预测部分。
2.根据权利要求1所述的一种试卷版面题目自动拆分的方法,其特征在于:所述主要特征具体描述为:主干网络yolov3用于从输入为1024x768大小图片中提取符合版面需要的特征,从而得到1/4、1/8、1/16和1/32四个特征图,四个特征图经过单独卷积后独立预测,同时当前特征图经过上采样后,与下层特征图拼接,并参与下层计算。
3.根据权利要求1所述的一种试卷版面题目自动拆分的方法,其特征在于:所述仿真数据生成具体描述为:使用程序设计自动生成和真实样本高度相似的训练数据,通过程序控制,在仿真数据过程中,随机生成指定数量的包含各种版面试卷题目图片及label数据。
4.根据权利要求1所述的一种试卷版面题目自动拆分的方法,其特征在于:所述图片特征提取具体描述为:在原有1/8、1/16和1/32特征图大小的基础上,新增1/4大小特征图参与预测,同时,主干网络中第三和第四个残差块的次数降为4,以此解决增加特征图个数带来的计算量问题,特征图单独预测中,舍弃原有3x3大小卷积,增加用于预测的特征图之间的拼接关系,使得上层预测特征图也参与下层预测。
5.根据权利要求1所述的一种试卷版面题目自动拆分的方法,其特征在于:所述分层预测具体描述为:权利4中所述特征提取到的四个不同层的特征图,分别进行convolutionalset操作,该操作由多个1x1和3x3卷积组成,该操作结果进行上采样,并与下层特征图拼接后,经过1x1卷积得到用于预测的特征图,为了再次降低计算量,此处去掉原有3x3大小卷积操作,本方法将四个用于预测的F1-F4个特征图上采样,并使其与下层特征融合,丰富其特征。
6.根据权利要求1所述的一种试卷版面题目自动拆分的方法,其特征在于,包括以下具体步骤:
步骤一、仿真训练数据:本方法面向试卷版面题目自动拆分,由于试卷版面题目存在形式多样,人工标注过程较慢,并且现有试卷数据不能完全覆盖所有可能出现的试卷版面呈现形式,因此本方法通过程序设计仿真需要的训练数据;
首先准备若干张公式和图表图片,每次仿真过程产生0-1之间随机数,规定[0-0.3,0.3-0.5,0.5-0.7,0.7-1.0]为四个不同区间,每个区间代表填空、选择、证明、解答等题目类型(具体实施过程包括但不限于此),每个区间段范围连续产生数量不等的同类型题目,并按照从左到右、从上到下的顺序排列(程序随机控制每道题目之间的行间距大小),从而仿真出与真实试卷版面排版接近的训练数据;
步骤二、数据预处理:结合常用试卷板式,本次训练数据统一resize到1024x768大小,输入为RGB图片,并且将图片归一化到-1到1之间,训练过程以batchsize为基本输入,每个batchsize随机从原始图片中选择,并随机添加高斯模糊化、对比度、明亮度和试卷裁剪等数据增强操作;
步骤三、训练神经网络:将网络结构按照上述描述架构整合,产生新的试卷版面题目自动拆分算法,整体采用端到端的训练模式,网络超参数设置如下:
(1)、学习率:初始学习率设置为0.01,每训练10轮减小10%;
(2)、优化器:adam或sgd优化器(实施过程根据模型训练情况决定);
(3)、其它:批处理大小设置为8,根据显存大小不同而不同;总共训练轮数为200;
步骤四、模型预测输出:加载训练好的模型,分别在1000张真实和仿真数据中进行模型预测,输出试卷中各版面拆分结果的位置坐标信息,并对该模型进行评估分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910884281.4A CN110705400A (zh) | 2019-09-19 | 2019-09-19 | 一种试卷版面题目自动拆分的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910884281.4A CN110705400A (zh) | 2019-09-19 | 2019-09-19 | 一种试卷版面题目自动拆分的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110705400A true CN110705400A (zh) | 2020-01-17 |
Family
ID=69194898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910884281.4A Withdrawn CN110705400A (zh) | 2019-09-19 | 2019-09-19 | 一种试卷版面题目自动拆分的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705400A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539412A (zh) * | 2020-04-21 | 2020-08-14 | 上海云从企业发展有限公司 | 一种基于ocr的图像分析方法、系统、设备及介质 |
CN112200081A (zh) * | 2020-10-10 | 2021-01-08 | 平安国际智慧城市科技股份有限公司 | 异常行为识别方法、装置、电子设备及存储介质 |
CN113837157A (zh) * | 2021-11-26 | 2021-12-24 | 北京世纪好未来教育科技有限公司 | 题目类型识别方法、系统和存储介质 |
CN115565190A (zh) * | 2022-11-17 | 2023-01-03 | 江西风向标智能科技有限公司 | 试卷版面分析方法、系统、计算机及可读存储介质 |
-
2019
- 2019-09-19 CN CN201910884281.4A patent/CN110705400A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539412A (zh) * | 2020-04-21 | 2020-08-14 | 上海云从企业发展有限公司 | 一种基于ocr的图像分析方法、系统、设备及介质 |
CN112200081A (zh) * | 2020-10-10 | 2021-01-08 | 平安国际智慧城市科技股份有限公司 | 异常行为识别方法、装置、电子设备及存储介质 |
CN113837157A (zh) * | 2021-11-26 | 2021-12-24 | 北京世纪好未来教育科技有限公司 | 题目类型识别方法、系统和存储介质 |
CN115565190A (zh) * | 2022-11-17 | 2023-01-03 | 江西风向标智能科技有限公司 | 试卷版面分析方法、系统、计算机及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705400A (zh) | 一种试卷版面题目自动拆分的方法 | |
US11508251B2 (en) | Method and system for intelligent identification and correction of questions | |
Baddeley et al. | Spatial point patterns: methodology and applications with R | |
JP2022541199A (ja) | データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。 | |
CN110781648A (zh) | 一种基于深度学习的试卷自动转录系统及方法 | |
CN110765907A (zh) | 一种基于深度学习的视频中试卷纸质文档信息提取系统及方法 | |
CN111144191B (zh) | 字体识别方法、装置、电子设备及存储介质 | |
US20190294921A1 (en) | Field identification in an image using artificial intelligence | |
RU2760471C1 (ru) | Способы и системы идентификации полей в документе | |
DE102018006481A1 (de) | Nutzung von Deep-Learning-Techniken zum Bestimmen einer kontextbezogenen Lesereihenfolge in einem Dokument | |
KR102004180B1 (ko) | 시험지 인식을 통한 유사 문제 추출 장치 및 그 방법 | |
CN110874618B (zh) | 基于小样本的ocr模板学习方法、装置、电子设备及介质 | |
CN110175609B (zh) | 界面元素检测方法、装置及设备 | |
CN111274239A (zh) | 试卷结构化处理方法、装置和设备 | |
CN111767883A (zh) | 一种题目批改方法及装置 | |
CN110750624A (zh) | 信息输出方法及装置 | |
US20240312181A1 (en) | Video detection method and apparatus, device, and storage medium | |
EP3929800A1 (en) | Skill word evaluation method and device, electronic device, and computer readable medium | |
CN113706562B (zh) | 图像分割方法、装置、系统及细胞分割方法 | |
CN114913923A (zh) | 针对单细胞染色质开放性测序数据的细胞类型识别方法 | |
CN111160606A (zh) | 试题难度预测方法及相关装置 | |
Ivanova et al. | Checking the possibility of equating a mathematics assessment between Russia, Scotland and England for children starting school | |
CN117745680A (zh) | 基于大型视觉语言模型的异常检测方法及装置 | |
Azizah et al. | Tajweed-YOLO: Object detection method for Tajweed by applying HSV color model augmentation on Mushaf images | |
CN115599962B (zh) | 基于教育领域的数据资源云存储共享方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200117 |
|
WW01 | Invention patent application withdrawn after publication |