CN107169502A

CN107169502A - 一种基于决策树的选项识别方法

Info

Publication number: CN107169502A
Application number: CN201710173977.7A
Authority: CN
Inventors: 余荣; 陈慰南; 雷俊杰; 张浩川
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2017-09-15

Abstract

基于数码阅卷的种种好处，数码阅卷得到了飞速的发展。但现有的选项识别方法需要设置一个固定的阈值去判断选项是否填涂。在答题卡在一层层传递、抽象的过程中会受到各种因素的影响，如答题卡的材质、填涂的笔迹、扫描的仪器、二值化的方法、纠偏的算法等，都会对选项最后的读取产生一定的失真。这时候，固定阈值的方法识别正确率就会降低许多。本发明提供了一种基于决策树的选项识别方法，经测试，能够兼容各种选项的类型，适应各种填涂的形状，并且能够很好地处理由于扫描而导致的选项填涂零散的情况，具有很高的正确率。这种识别的方法还能够方便地添加到当前的答题卡处理系统上。

Description

一种基于决策树的选项识别方法

技术领域

本发明涉及一种选项识别方法，特别涉及一种基于决策树的选项识别方法。

背景技术

随着科学技术的日益发展，传统的教育行业也发生着巨大的变革，从以前的客观题需要人工手动批改，到后来使用光学标记阅读机去识别选项答案，效率得到了大大的提升。但光学标记阅读机虽然速度快，准确性高，但也存在着一些问题：一是设备成本高，一台普通的光学标记阅读机需要好几万的成本，其中还不包括维修的费用；二是答题卡需要定制，光学标记阅读机只能识别特定的答题卡，但有时候答题卡需要自定义，这时光学标记阅读机便无能为力；三光学标记阅读机不能保存数字图像。因此人们一直寻找着一种更加通用、便宜、可靠性好的识别方法。随着计算机性能的飞速提升和各种图像处理算法的提出，使到直接使用软件的方式实现答题卡客观题选项的识别成为可能。这种基于软件的实现称为数码阅卷，无需添加任何硬件，能够很好地节省成本，并且答题卡的样式可以根据需求各个学校自己定义，比过去的光学标记阅读机具有更好的通用性，还能够根据需要保存电子试卷，方便以后查询修改。基于数码阅卷的种种好处，数码阅卷得到了飞速的发展。但现有的选项识别方法需要设置一个固定的阈值去判断选项是否填涂。当填涂规范，扫描清晰的情况下，这种做法没有什么问题，并且具有实现简单，效率高等优点。但实际情况是，在答题卡在一层层传递、抽象的过程中会受到各种因素的影响，如答题卡的材质、填涂的笔迹、扫描的仪器、二值化的方法、纠偏的算法，等等，都会对选项最后的读取产生一定的失真。这时候，固定阈值的方法识别正确率就会降低许多。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种提取客观题选项特征和识别的方法，经测试，能够兼容各种选项的类型，适应各种填涂的形状，并且能够很好地处理由于扫描而导致的选项填涂零散的情况，具有很高的正确率。这种识别的方法还能够方便地添加到当前的答题卡处理系统上。

该方法的步骤为：

1.构造训练样本和测试样本；

2.设定划分个数N和离散化阈值T；

3.将训练样本中的选项图像分为N个大小相同的小区域，逐一计算每个区域黑色像素的占空比；经过测试，N＝4*4时有最高的识别正确率。

4.根据离散化阈值将每一个小区域的占空比离散化，方法为：占空比大于阈值，特征值置为1；否则，特征值置为0；

5.对该选项所有区域的特征值求和；

6.根据上面的特征信息构造该选项图像的特征值向量，最后输出的特征值向量会是下面这样的形式：Vector＝[1,1,1,0,0,1,0,1,…,11,1]，其中，11为前面的1的个数之和，最后的1是该选项的类别(这里1代表“填涂”，0代表“未填涂”)。

7.将所有的训练样本的特征向量构造成特征矩阵的形式。

8.将特征矩阵数据输入决策树训练算法中，构造用于识别选项的决策树模型。

9.提取测试样本的特征向量，输入构造后的决策树模型，调整参数，得到识别率最高的结果。

本发明相对于现有技术具有如下的优点及效果：

1.容易理解和实现，人们能够直观地理解决策树所表达的意义。

2.对于决策树，数据的准备往往是简单或者是不必要的。其他的技术往往要求先把数据一般化，比如去掉多余的或者空白的特征，而在决策树中，会自动地通过信息度量计算将冗余的特征去除。

3.在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

4.识别速度快，准确率高，一般能达到99％以上。

5.适应各种填涂的形状，并且能够很好地处理由于扫描而导致的选项填涂零散的情况

6.这种识别的方法与特定的系统无关，不需要额外的参数，能够方便地添加到答题卡处理系统上。

附图说明

图1是算法的流程图；

图2是阈值与准确率关系图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

构造训练样本和测试样本具体为：

训练样本集的构造对决策树的生成非常重要。构造的训练样本集需要包含两部分，一是正样本集(填涂的选项图像集)，二是负样本集(未填涂的选项图像集)。在构造训练样本集的时候，有一点是需要注意的，那就是在正样本集中，填涂不全的选项需要占较大部分，在本论文构造的正样本集中，填涂不全所占比例为70％，而在负样本集中，选项清晰的部分需要占较大的比例，在本论文构造的负样本集中，填涂清晰所占比例为80％。这样做的原因是，如果正样本集都是填涂完整的选项图像，那么那些填涂不全的选项就会输出为未填涂，而如果负样本的选项不够清晰的话，那些清晰的、线条较粗的选项就会输出为填涂。因此，我们在构造数据集的时候，需要选取那些正样本的下限，负样本的上限，这样数据集才具有良好的兼容性。

设定划分个数N和离散化阈值T具体为：

将选项区域分成n×m个大小相同的小矩形区域，统计这些小的矩形区域的占空比，然后将占空比离散化，离散化的原因是：占空比的值是连续的，会使到生成的决策树臃肿复杂，容易导致过拟合的问题，将其离散化之后，决策树会得到简化，避免过拟合的问题。离散化的方法也非常简单，就是设置一阈值，若占空比高于该阈值则将特征值置为1，否则为0。以往的占空比阈值判断方法往往会丢失了选项填涂的空间信息，它只能够得到选项大致填涂了多少，而不会知道这些填涂是分散的还是集中的；现在通过将选项分割成一个个小的区域，其特征值代表了区域的填涂信息，能够在整体上保留了填涂的空间信息，不过，由于特征值只会代表单个区域信息，我们还需要一个特征来表征整个区域的填涂信息，这个特征可以通过对所有小区域的特征求和来得到。经过测试，阈值T选择0.62具有最高的识别正确率。

构造决策树的方法如下：

1)选择度量集合有序程度的计算方法

这里度量方法选择的是Gini不纯度：

其中，p(i)为训练样本集中样本属于第i类Ci的概率。

2)划分数据集

当确定了有序度量的方法后，便可以对训练样本集进行划分，具体做法是，将对每个特征划分数据集的结果计算一次Gini不纯度，然后选择出分类结果最好的特征，将其作为根节点，而子节点则作为分类结果集。

3)递归地构造整棵决策树

在决策树中，递归结束的条件是：子节点的数据集中只包含单一的类别。当决策树构造完成后，添加多一个“剪枝”的步骤，尽可能地将噪声去掉。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于决策树的选项识别方法，包括如下步骤：步骤一、构造训练样本和测试样本；步骤二、设定划分个数N和离散化阈值T；步骤三、将训练样本中的选项图像分为N个大小相同的小区域，逐一计算每个区域黑色像素的占空比；步骤四、根据离散化阈值将每一个小区域的占空比离散化；步骤五、对该选项所有区域的特征值求和；步骤六、根据特征信息构造该选项图像的特征值向量；步骤七、将所有的训练样本的特征向量构造成特征矩阵的形式；步骤八：将特征矩阵数据输入决策树训练算法中，构造用于识别选项的决策树模型；步骤九：提取测试样本的特征向量，输入构造后的决策树模型，调整参数，得到识别率最高的结果。

2.根据权利要求1所述的选项识别方法，其特征在于：所述的步骤八具体为：选择度量集合有序程度的计算方法；划分数据集；递归地构造整棵决策树。

3.根据权利要求2所述的选项识别方法，其特征在于：度量方法选择Gini不纯度：

<mrow> <mi>G</mi> <mi>i</mi> <mi>n</mi> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>p</mi> <msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>

其中，p(i)为训练样本集中样本属于第i类Ci的概率。

4.根据权利要求2所述的选项识别方法，其特征在于：所述的划分数据集具体为：将对每个特征划分数据集的结果计算一次Gini不纯度，然后选择出分类结果最好的特征，将其作为根节点，而子节点则作为分类结果集。

5.根据权利要求1所述的选项识别方法，其特征在于：构造的训练样本集需要包含两部分，一是正样本集即填涂的选项图像集，二是负样本集即未填涂的选项图像集，在构造训练样本集的时候，填涂不全的选项需要占较大部分，在本论文构造的正样本集中，填涂不全所占比例为70％，而在负样本集中，选项清晰的部分需要占较大的比例。

6.根据权利要求1所述的选项识别方法，其特征在于：所述步骤四具体为：占空比大于阈值，特征值置为1；否则，特征值置为0。