CN110413789A

CN110413789A - 一种基于svm的习题自动分类方法

Info

Publication number: CN110413789A
Application number: CN201910704864.4A
Authority: CN
Inventors: 李廷会; 李其娜; 李顺; 黄荟霖
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-05

Abstract

本发明公开了一种基于SVM的习题自动分类方法，其特征在于，包括以下步骤：（1）习题类型选择和类别标注；（2）习题文本预处理；（3）划分；（4）构建TF‑IDF词向量空间模型；（5）采用SVM构造习题分类器；（6）评价指标。这种方法对未知类别的新习题样本进行自动归类，提高习题分类精度，有利于学习者通过章节习题巩固阶段性所学知识点，查漏补缺，提高学习效率。

Description

一种基于SVM的习题自动分类方法

技术领域

本发明涉及机器学习技术领域,具体是一种基于SVM的习题自动分类方法。

背景技术

随着知识经济的发展，当今社会对知识掌握程度提出了更高的要求:知识的专业化、综合化与结构化。在教育领域，教学资源的形式多种多样，而习题是教学资源的一部分。习题不仅可以检测学生对阶段性所学知识的掌握程度，而且可以让老师发现学生掌握不足的知识点，从而有针对性的进行教学。通过精心设置习题的考查点，可以帮助学生形成良好的思维方式，因此习题是教学资源中重要的组成部分，而习题分类就显得尤为重要。通过对习题按章节自动分类让学生有针对性的进行习题练习，能够让学生阶段性所学知识得到巩固，进而查漏补缺，提高学习者的学习效率。习题文本内容字数一般在十几到几十个字之间，属于短文本甚至是极短文本。所以习题分类就是短文本分类的一个应用场景。

常用的传统文本分类方法有KNN最近邻算法、逻辑回归、朴素贝叶斯算法和支持向量机算法(SVM)等。但是由于SVM能对训练集之外的数据做很好的预测、泛化错误率低、计算开销小、结果易解释，具有较好的稳定性和分类效果，特别是对短文本有较好的分类精度，而成为了文本分类领域最常用的方法。支持向量机的原理是将低维空间的点映射到高维空间，使它们成为线性可分，再使用线性划分的原理来判断分类边界。在高维空间中是一种线性划分，而在原有的数据空间中，是一种非线性划分。SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。

发明内容

本发明的目的是针对现有技术的不足，而提供一种基于SVM的习题自动分类方法。这种方法对未知类别的新习题样本进行自动归类，提高习题分类精度，有利于学习者通过章节习题巩固阶段性所学知识点，查漏补缺，提高学习效率。

实现本发明目的的技术方案是：

一种基于SVM的习题自动分类方法，包括以下步骤：

(1)习题类型选择和类别标注：习题类型一般包括选择题、填空题、判断题和应用题，由于填空题需要填写的答案有时是判断类别的关键信息，对习题类别的判断造成不便，分类时容易误判，而应用题是综合型题目，涵盖的类别知识点较多，难于进行习题类别判断，选择的习题类型只适用于选择题和判断题，并对习题按教材内容里的章节进行人工类别标注；

(2)习题文本预处理：对习题文本预处理包括分词、去除停用词和合并同义词；

(3)划分：将步骤(2)预处理后的习题文本划分为训练集和测试集；

(4)构建TF-IDF词向量空间模型：分别对训练集和测试集构建TF-IDF词向量空间模型，词向量空间模型即VSM(Vector Space Model，简称VSM)是将文档d_i看作向量空间中的一个n维向量，形如公式(1)：

d_i＝((v₁,w_i1),(v₂,w_i2),…,(v_j,w_ij)) (1)，

其中，v_j表示特征词，w_ij表示特征词v_j在文本d_i中的权重，采用TF-IDF值来计算，由于题目短文本经过分词、去停用词与及同义词合并之后，剩下的与知识点相关的特征词很少，只有几个到十几个之间，特征词特别稀疏，所以无须进行特征选择，全部保留，然后进行TF-IDF权重计算，TF-IDF是一种统计方法，用以评估一个字或词对于一个文件集或一个语料库中的其中一份文件的重要程度，计算如公式(2)所示：

w_ij＝TFIDF_ij＝TF_ij×IDF_j (2)，

其中TF_ij称为词频，表示特征词v_j在文本d_i中的出现频率，其刻画了特征词对文本的重要性，IDF_j为文本集合D中出现特征词v_j的文档数量即文档频率的倒数，称为逆向文档频率，其体现了特征词对整个文本集的重要性，特征词v_j的TF_ij和IDF_j值的计算公式分别为公式(3)、公式(4)所示：

测试集和训练集构建的TF-IDF词向量空间模型不同之处在于：测试集在训练词向量模型时，需要加载训练集词袋，将测试集产生的词向量映射到训练集词袋的词典中，生成TF-IDF词向量空间模型；

(5)采用SVM构造习题分类器：SVM具有较好的稳定性和分类效果，应用SVM对训练集进行训练，并根据训练集的结果调整模型参数而使模型达到最优，最后将优化后的模型用于测试集的预测；

(6)评价指标：习题分类评价指标采用错误率、准确率、召回率和调和平均值F1值四个指标来衡量，其中，

错误率为:

准确率为:

召回率为：

F1值为：

n为分类器分类错误题目数，N为实际总的题目数，A为实际属于该类，且被分类器划分到该类的题目数，B为实际不属于该类，但被分类器划分到该类的题目数，C代表实际属于该类，但没有划分到该类的题目数。

步骤(2)中所述的分词为应用python语言环境下的pycharm编辑工具里的Jieba分词包进行分词，采用Jieba分词中的精确模式,该模式是Jieba分词中最基础和自然的模式，它试图尽可能精确地划分语句，因此适合题目文本分析，相关教材里的知识点大部分是专有名词，原有的Jieba分词包不能对这些新词进行识别，所以必须导入自定义词典提高新词识别率。

步骤(2)中所述的去除停用词为去除习题中的助词、虚词、副词、标点、字母和非法字符，结合采用哈工大停用词表、四川大学机器智能实验室停用词库和百度停用词表，对结合后的停用词表做去重处理，再往停用词表加入习题里出现的类似“设有”“总共”“多少”与知识点关键词意义不大的词，重新整理出针对习题分类的停用词表。

同一个知识点在不同的题目里有不同的表述，所以必须进行同义词合并，这样有利于降低向量空间维度。

这种方法对未知类别的新习题样本进行自动归类，提高习题分类精度，有利于学习者通过章节习题巩固阶段性所学知识点，查漏补缺，提高学习效率。

附图说明

图1为实施例的方法流程示意图。

具体实施方式

下面结合附图和实施例对本发明内容进行详细说明，但不是对本发明的限定。

实施例：

本例选择电子专业《数据结构》这门课程内容相关习题按章节进行分类，把习题按章节分为7个类别，分别是线性表、栈和队列、串、数组和广义表、树和二叉树、图、查找和排序，采用SVM对《数据结构》习题按章节进行自动分类，

一种基于SVM的习题自动分类方法，包括以下步骤：

(4)构建TF-IDF词向量空间模型：分别对训练集和测试集构建TF-IDF词向量空间模型，词向量空间模型即VSM(Vector Space Model)是将文档d_i看作向量空间中的一个n维向量，形如公式(1)：

d_i＝((v₁,w_i1),(v₂,w_i2),…,(v_j,w_ij)) (1)，

w_ij＝TFIDF_ij＝TF_ij×IDF_j (2)，

错误率为:

准确率为:

召回率为：

F1值为：

步骤(2)中所述的分词为应用python语言环境下的pycharm编辑工具里的Jieba分词包进行分词，采用Jieba分词中的精确模式,该模式是Jieba分词中最基础和自然的模式，它试图尽可能精确地划分语句，因此适合题目文本分析，《数据结构》教材里的知识点大部分是专有名词，原有的Jieba分词包不能对这些新词进行识别，所以必须导入自定义词典提高新词识别率。

步骤(2)中所述的去除停用词为去除习题中的助词、虚词、副词、标点、字母和非法字符，本例结合采用哈工大停用词表、四川大学机器智能实验室停用词库和百度停用词表，对结合后的停用词表做去重处理，再往停用词表加入习题里出现的类似“设有”“总共”“多少”与知识点关键词意义不大的词，重新整理出针对习题分类的停用词表，本例针对《数据结构》习题分类的停用词表，一共包含2503个停用词。

本例中，同一个知识点在不同的题目里有不同的表述，所以必须进行同义词合并，这样有利于降低向量空间维度，本例中比如“单循环链表”、“单向循环链表”和“循环单链表”都表示同一个知识点，统一合并为“单循环链表”，“哈希表”、“HASH表”和“散列表”统一合并为“散列表”等。

Claims

1.一种基于SVM的习题自动分类方法，其特征在于，包括以下步骤：

(1)习题类型选择和类别标注：选择的习题类型只适用于选择题和判断题，并对习题按教材内容里的章节进行人工类别标注；

d_i＝((v₁，w_i1)，(v₂，w_i2)，...，(v_j，w_ij)) (1)，

其中，v_j表示特征词，w_ij表示特征词v_j在文本d_i中的权重，采用TF-IDF值来计算，TF-IDF用以评估一个字或词对于一个文件集或一个语料库中的其中一份文件的重要程度，计算如公式(2)所示：

w_ij＝TFIDF_ij＝TF_ij×IDF_j (2)，

其中TF_ij称为词频，表示特征词v_j在文本d_i中的出现频率，，IDF_j为文本集合D中出现特征词v_j的文档数量即文档频率的倒数，称为逆向文档频率，，特征词v_j的TF_ij和IDF_i值的计算公式分别为公式(3)、公式(4)所示：

(5)采用SVM构造习题分类器：应用SVM对训练集进行训练，并根据训练集的结果调整模型参数而使模型达到最优，最后将优化后的模型用于测试集的预测；

错误率为：

准确率为：

召回率为：

F1值为：

2.根据权利要求1所述的基于SVM的习题自动分类方法，其特征在于，步骤(2)中所述的分词为应用python语言环境下的pycharm编辑工具里的Jieba分词包进行分词。

3.根据权利要求1所述的基于SVM的习题自动分类方法，其特征在于，步骤(2)中所述的去除停用词为去除习题中的助词、虚词、副词、标点、字母和非法字符，结合采用哈工大停用词表、四川大学机器智能实验室停用词库和百度停用词表，对结合后的停用词表做去重处理，再往停用词表加入习题里出现的类似“设有”“总共”“多少”与知识点关键词意义不大的词，重新整理出针对习题分类的停用词表。