CN107169502A - 一种基于决策树的选项识别方法 - Google Patents

一种基于决策树的选项识别方法 Download PDF

Info

Publication number
CN107169502A
CN107169502A CN201710173977.7A CN201710173977A CN107169502A CN 107169502 A CN107169502 A CN 107169502A CN 201710173977 A CN201710173977 A CN 201710173977A CN 107169502 A CN107169502 A CN 107169502A
Authority
CN
China
Prior art keywords
option
full
filling
recognition methods
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710173977.7A
Other languages
English (en)
Inventor
余荣
陈慰南
雷俊杰
张浩川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201710173977.7A priority Critical patent/CN107169502A/zh
Publication of CN107169502A publication Critical patent/CN107169502A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

基于数码阅卷的种种好处,数码阅卷得到了飞速的发展。但现有的选项识别方法需要设置一个固定的阈值去判断选项是否填涂。在答题卡在一层层传递、抽象的过程中会受到各种因素的影响,如答题卡的材质、填涂的笔迹、扫描的仪器、二值化的方法、纠偏的算法等,都会对选项最后的读取产生一定的失真。这时候,固定阈值的方法识别正确率就会降低许多。本发明提供了一种基于决策树的选项识别方法,经测试,能够兼容各种选项的类型,适应各种填涂的形状,并且能够很好地处理由于扫描而导致的选项填涂零散的情况,具有很高的正确率。这种识别的方法还能够方便地添加到当前的答题卡处理系统上。

Description

一种基于决策树的选项识别方法
技术领域
本发明涉及一种选项识别方法,特别涉及一种基于决策树的选项识别方法。
背景技术
随着科学技术的日益发展,传统的教育行业也发生着巨大的变革,从以前的客观题需要人工手动批改,到后来使用光学标记阅读机去识别选项答案,效率得到了大大的提升。但光学标记阅读机虽然速度快,准确性高,但也存在着一些问题:一是设备成本高,一台普通的光学标记阅读机需要好几万的成本,其中还不包括维修的费用;二是答题卡需要定制,光学标记阅读机只能识别特定的答题卡,但有时候答题卡需要自定义,这时光学标记阅读机便无能为力;三光学标记阅读机不能保存数字图像。因此人们一直寻找着一种更加通用、便宜、可靠性好的识别方法。随着计算机性能的飞速提升和各种图像处理算法的提出,使到直接使用软件的方式实现答题卡客观题选项的识别成为可能。这种基于软件的实现称为数码阅卷,无需添加任何硬件,能够很好地节省成本,并且答题卡的样式可以根据需求各个学校自己定义,比过去的光学标记阅读机具有更好的通用性,还能够根据需要保存电子试卷,方便以后查询修改。基于数码阅卷的种种好处,数码阅卷得到了飞速的发展。但现有的选项识别方法需要设置一个固定的阈值去判断选项是否填涂。当填涂规范,扫描清晰的情况下,这种做法没有什么问题,并且具有实现简单,效率高等优点。但实际情况是,在答题卡在一层层传递、抽象的过程中会受到各种因素的影响,如答题卡的材质、填涂的笔迹、扫描的仪器、二值化的方法、纠偏的算法,等等,都会对选项最后的读取产生一定的失真。这时候,固定阈值的方法识别正确率就会降低许多。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种提取客观题选项特征和识别的方法,经测试,能够兼容各种选项的类型,适应各种填涂的形状,并且能够很好地处理由于扫描而导致的选项填涂零散的情况,具有很高的正确率。这种识别的方法还能够方便地添加到当前的答题卡处理系统上。
该方法的步骤为:
1.构造训练样本和测试样本;
2.设定划分个数N和离散化阈值T;
3.将训练样本中的选项图像分为N个大小相同的小区域,逐一计算每个区域黑色像素的占空比;经过测试,N=4*4时有最高的识别正确率。
4.根据离散化阈值将每一个小区域的占空比离散化,方法为:占空比大于阈值,特征值置为1;否则,特征值置为0;
5.对该选项所有区域的特征值求和;
6.根据上面的特征信息构造该选项图像的特征值向量,最后输出的特征值向量会是下面这样的形式:Vector=[1,1,1,0,0,1,0,1,…,11,1],其中,11为前面的1的个数之和,最后的1是该选项的类别(这里1代表“填涂”,0代表“未填涂”)。
7.将所有的训练样本的特征向量构造成特征矩阵的形式。
8.将特征矩阵数据输入决策树训练算法中,构造用于识别选项的决策树模型。
9.提取测试样本的特征向量,输入构造后的决策树模型,调整参数,得到识别率最高的结果。
本发明相对于现有技术具有如下的优点及效果:
1.容易理解和实现,人们能够直观地理解决策树所表达的意义。
2.对于决策树,数据的准备往往是简单或者是不必要的。其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的特征,而在决策树中,会自动地通过信息度量计算将冗余的特征去除。
3.在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
4.识别速度快,准确率高,一般能达到99%以上。
5.适应各种填涂的形状,并且能够很好地处理由于扫描而导致的选项填涂零散的情况
6.这种识别的方法与特定的系统无关,不需要额外的参数,能够方便地添加到答题卡处理系统上。
附图说明
图1是算法的流程图;
图2是阈值与准确率关系图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
构造训练样本和测试样本具体为:
训练样本集的构造对决策树的生成非常重要。构造的训练样本集需要包含两部分,一是正样本集(填涂的选项图像集),二是负样本集(未填涂的选项图像集)。在构造训练样本集的时候,有一点是需要注意的,那就是在正样本集中,填涂不全的选项需要占较大部分,在本论文构造的正样本集中,填涂不全所占比例为70%,而在负样本集中,选项清晰的部分需要占较大的比例,在本论文构造的负样本集中,填涂清晰所占比例为80%。这样做的原因是,如果正样本集都是填涂完整的选项图像,那么那些填涂不全的选项就会输出为未填涂,而如果负样本的选项不够清晰的话,那些清晰的、线条较粗的选项就会输出为填涂。因此,我们在构造数据集的时候,需要选取那些正样本的下限,负样本的上限,这样数据集才具有良好的兼容性。
设定划分个数N和离散化阈值T具体为:
将选项区域分成n×m个大小相同的小矩形区域,统计这些小的矩形区域的占空比,然后将占空比离散化,离散化的原因是:占空比的值是连续的,会使到生成的决策树臃肿复杂,容易导致过拟合的问题,将其离散化之后,决策树会得到简化,避免过拟合的问题。离散化的方法也非常简单,就是设置一阈值,若占空比高于该阈值则将特征值置为1,否则为0。以往的占空比阈值判断方法往往会丢失了选项填涂的空间信息,它只能够得到选项大致填涂了多少,而不会知道这些填涂是分散的还是集中的;现在通过将选项分割成一个个小的区域,其特征值代表了区域的填涂信息,能够在整体上保留了填涂的空间信息,不过,由于特征值只会代表单个区域信息,我们还需要一个特征来表征整个区域的填涂信息,这个特征可以通过对所有小区域的特征求和来得到。经过测试,阈值T选择0.62具有最高的识别正确率。
构造决策树的方法如下:
1)选择度量集合有序程度的计算方法
这里度量方法选择的是Gini不纯度:
其中,p(i)为训练样本集中样本属于第i类Ci的概率。
2)划分数据集
当确定了有序度量的方法后,便可以对训练样本集进行划分,具体做法是,将对每个特征划分数据集的结果计算一次Gini不纯度,然后选择出分类结果最好的特征,将其作为根节点,而子节点则作为分类结果集。
3)递归地构造整棵决策树
在决策树中,递归结束的条件是:子节点的数据集中只包含单一的类别。当决策树构造完成后,添加多一个“剪枝”的步骤,尽可能地将噪声去掉。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (6)

1.一种基于决策树的选项识别方法,包括如下步骤:步骤一、构造训练样本和测试样本;步骤二、设定划分个数N和离散化阈值T;步骤三、将训练样本中的选项图像分为N个大小相同的小区域,逐一计算每个区域黑色像素的占空比;步骤四、根据离散化阈值将每一个小区域的占空比离散化;步骤五、对该选项所有区域的特征值求和;步骤六、根据特征信息构造该选项图像的特征值向量;步骤七、将所有的训练样本的特征向量构造成特征矩阵的形式;步骤八:将特征矩阵数据输入决策树训练算法中,构造用于识别选项的决策树模型;步骤九:提取测试样本的特征向量,输入构造后的决策树模型,调整参数,得到识别率最高的结果。
2.根据权利要求1所述的选项识别方法,其特征在于:所述的步骤八具体为:选择度量集合有序程度的计算方法;划分数据集;递归地构造整棵决策树。
3.根据权利要求2所述的选项识别方法,其特征在于:度量方法选择Gini不纯度:
<mrow> <mi>G</mi> <mi>i</mi> <mi>n</mi> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>p</mi> <msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>
其中,p(i)为训练样本集中样本属于第i类Ci的概率。
4.根据权利要求2所述的选项识别方法,其特征在于:所述的划分数据集具体为:将对每个特征划分数据集的结果计算一次Gini不纯度,然后选择出分类结果最好的特征,将其作为根节点,而子节点则作为分类结果集。
5.根据权利要求1所述的选项识别方法,其特征在于:构造的训练样本集需要包含两部分,一是正样本集即填涂的选项图像集,二是负样本集即未填涂的选项图像集,在构造训练样本集的时候,填涂不全的选项需要占较大部分,在本论文构造的正样本集中,填涂不全所占比例为70%,而在负样本集中,选项清晰的部分需要占较大的比例。
6.根据权利要求1所述的选项识别方法,其特征在于:所述步骤四具体为:占空比大于阈值,特征值置为1;否则,特征值置为0。
CN201710173977.7A 2017-03-22 2017-03-22 一种基于决策树的选项识别方法 Pending CN107169502A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710173977.7A CN107169502A (zh) 2017-03-22 2017-03-22 一种基于决策树的选项识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710173977.7A CN107169502A (zh) 2017-03-22 2017-03-22 一种基于决策树的选项识别方法

Publications (1)

Publication Number Publication Date
CN107169502A true CN107169502A (zh) 2017-09-15

Family

ID=59848815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710173977.7A Pending CN107169502A (zh) 2017-03-22 2017-03-22 一种基于决策树的选项识别方法

Country Status (1)

Country Link
CN (1) CN107169502A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108174125A (zh) * 2018-01-23 2018-06-15 奇酷互联网络科技(深圳)有限公司 控制hdr功能的方法、装置及电子设备
CN113408945A (zh) * 2021-07-15 2021-09-17 广西中烟工业有限责任公司 一种烤烟纯度的检测方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1367454A (zh) * 2002-03-25 2002-09-04 北京工业大学 基于多类支持向量机的中医舌色、苔色、舌苔厚度分析方法
CN101414356A (zh) * 2007-10-17 2009-04-22 中国科学院自动化研究所 基于模板匹配的信息填涂卡识别方法
CN102360419A (zh) * 2011-09-28 2012-02-22 广东启明科技发展有限公司 计算机扫描阅读管理方法及系统
CN102760225A (zh) * 2011-04-29 2012-10-31 贵州师范大学 一种基于矩形包围框的试卷客观题答题卡定位方法
CN103246873A (zh) * 2013-04-28 2013-08-14 北京贞观雨科技有限公司 一种采集答题卡的答题信息的方法及装置
CN103559490A (zh) * 2013-10-11 2014-02-05 华南理工大学 基于二值图像连通域统计的答题卡自动评分方法
CN103577837A (zh) * 2013-10-25 2014-02-12 江苏经贸职业技术学院 答题卡图片判读统计分析系统
US20150379426A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Optimized decision tree based models
CN105989347A (zh) * 2015-02-28 2016-10-05 科大讯飞股份有限公司 客观题智能阅卷方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1367454A (zh) * 2002-03-25 2002-09-04 北京工业大学 基于多类支持向量机的中医舌色、苔色、舌苔厚度分析方法
CN101414356A (zh) * 2007-10-17 2009-04-22 中国科学院自动化研究所 基于模板匹配的信息填涂卡识别方法
CN102760225A (zh) * 2011-04-29 2012-10-31 贵州师范大学 一种基于矩形包围框的试卷客观题答题卡定位方法
CN102360419A (zh) * 2011-09-28 2012-02-22 广东启明科技发展有限公司 计算机扫描阅读管理方法及系统
CN103246873A (zh) * 2013-04-28 2013-08-14 北京贞观雨科技有限公司 一种采集答题卡的答题信息的方法及装置
CN103559490A (zh) * 2013-10-11 2014-02-05 华南理工大学 基于二值图像连通域统计的答题卡自动评分方法
CN103577837A (zh) * 2013-10-25 2014-02-12 江苏经贸职业技术学院 答题卡图片判读统计分析系统
US20150379426A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Optimized decision tree based models
CN105989347A (zh) * 2015-02-28 2016-10-05 科大讯飞股份有限公司 客观题智能阅卷方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王胜春: ""基于SVM的信息卡识别系统"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
穆建伟: ""决策树分类的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108174125A (zh) * 2018-01-23 2018-06-15 奇酷互联网络科技(深圳)有限公司 控制hdr功能的方法、装置及电子设备
CN108174125B (zh) * 2018-01-23 2020-12-25 奇酷互联网络科技(深圳)有限公司 控制hdr功能的方法、装置、电子设备及存储介质
CN113408945A (zh) * 2021-07-15 2021-09-17 广西中烟工业有限责任公司 一种烤烟纯度的检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Wäldchen et al. Plant species identification using computer vision techniques: a systematic literature review
US11416710B2 (en) Feature representation device, feature representation method, and program
CN109977780A (zh) 一种基于深度学习算法的硅藻的检测与识别方法
CN105608454B (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
CN112801146B (zh) 一种目标检测方法及系统
CN108564085B (zh) 一种自动读取指针式仪表读数的方法
CN104809452A (zh) 一种指纹识别方法
US20090041361A1 (en) Character recognition apparatus, character recognition method, and computer product
CN111950528B (zh) 图表识别模型训练方法以及装置
Cao et al. Similarity based leaf image retrieval using multiscale R-angle description
CN105447522A (zh) 一种复杂图像文字识别系统
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
CN104809464A (zh) 一种指纹信息处理方法
CN106600595A (zh) 一种基于人工智能算法的人体特征尺寸自动测量方法
CN102982343B (zh) 手写数字识别的增量式模糊支持向量机方法
CN108108753A (zh) 一种基于支持向量机的复选框选择状态的识别方法及装置
CN105608478A (zh) 一种图像的特征提取与分类联合方法及系统
CN113762269A (zh) 基于神经网络的中文字符ocr识别方法、系统、介质及应用
CN106228136A (zh) 基于聚合通道特征的全景街景隐私保护方法
CN108520261B (zh) 一种花生果仁数量的识别方法和装置
CN106650696A (zh) 一种基于奇异值分解的手写电气元件符号识别方法
CN110659637A (zh) 一种结合深度神经网络和sift特征的电能表示数与标签自动识别方法
CN115457327A (zh) 基于视觉的烤后烟烟叶部位分类方法、装置及电子设备
CN113313149A (zh) 一种基于注意力机制和度量学习的菜品识别方法
CN114078213A (zh) 一种基于生成对抗网络的农田轮廓检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170915

WD01 Invention patent application deemed withdrawn after publication