CN110413789A - 一种基于svm的习题自动分类方法 - Google Patents

一种基于svm的习题自动分类方法 Download PDF

Info

Publication number
CN110413789A
CN110413789A CN201910704864.4A CN201910704864A CN110413789A CN 110413789 A CN110413789 A CN 110413789A CN 201910704864 A CN201910704864 A CN 201910704864A CN 110413789 A CN110413789 A CN 110413789A
Authority
CN
China
Prior art keywords
exercise
word
idf
svm
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910704864.4A
Other languages
English (en)
Inventor
李廷会
李其娜
李顺
黄荟霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Normal University
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN201910704864.4A priority Critical patent/CN110413789A/zh
Publication of CN110413789A publication Critical patent/CN110413789A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于SVM的习题自动分类方法,其特征在于,包括以下步骤:(1)习题类型选择和类别标注;(2)习题文本预处理;(3)划分;(4)构建TF‑IDF词向量空间模型;(5)采用SVM构造习题分类器;(6)评价指标。这种方法对未知类别的新习题样本进行自动归类,提高习题分类精度,有利于学习者通过章节习题巩固阶段性所学知识点,查漏补缺,提高学习效率。

Description

一种基于SVM的习题自动分类方法
技术领域
本发明涉及机器学习技术领域,具体是一种基于SVM的习题自动分类方法。
背景技术
随着知识经济的发展,当今社会对知识掌握程度提出了更高的要求:知识的专业化、综合化与结构化。在教育领域,教学资源的形式多种多样,而习题是教学资源的一部分。习题不仅可以检测学生对阶段性所学知识的掌握程度,而且可以让老师发现学生掌握不足的知识点,从而有针对性的进行教学。通过精心设置习题的考查点,可以帮助学生形成良好的思维方式,因此习题是教学资源中重要的组成部分,而习题分类就显得尤为重要。通过对习题按章节自动分类让学生有针对性的进行习题练习,能够让学生阶段性所学知识得到巩固,进而查漏补缺,提高学习者的学习效率。习题文本内容字数一般在十几到几十个字之间,属于短文本甚至是极短文本。所以习题分类就是短文本分类的一个应用场景。
常用的传统文本分类方法有KNN最近邻算法、逻辑回归、朴素贝叶斯算法和支持向量机算法(SVM)等。但是由于SVM能对训练集之外的数据做很好的预测、泛化错误率低、计算开销小、结果易解释,具有较好的稳定性和分类效果,特别是对短文本有较好的分类精度,而成为了文本分类领域最常用的方法。支持向量机的原理是将低维空间的点映射到高维空间,使它们成为线性可分,再使用线性划分的原理来判断分类边界。在高维空间中是一种线性划分,而在原有的数据空间中,是一种非线性划分。SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于SVM的习题自动分类方法。这种方法对未知类别的新习题样本进行自动归类,提高习题分类精度,有利于学习者通过章节习题巩固阶段性所学知识点,查漏补缺,提高学习效率。
实现本发明目的的技术方案是:
一种基于SVM的习题自动分类方法,包括以下步骤:
(1)习题类型选择和类别标注:习题类型一般包括选择题、填空题、判断题和应用题,由于填空题需要填写的答案有时是判断类别的关键信息,对习题类别的判断造成不便,分类时容易误判,而应用题是综合型题目,涵盖的类别知识点较多,难于进行习题类别判断,选择的习题类型只适用于选择题和判断题,并对习题按教材内容里的章节进行人工类别标注;
(2)习题文本预处理:对习题文本预处理包括分词、去除停用词和合并同义词;
(3)划分:将步骤(2)预处理后的习题文本划分为训练集和测试集;
(4)构建TF-IDF词向量空间模型:分别对训练集和测试集构建TF-IDF词向量空间模型,词向量空间模型即VSM(Vector Space Model,简称VSM)是将文档di看作向量空间中的一个n维向量,形如公式(1):
di=((v1,wi1),(v2,wi2),…,(vj,wij)) (1),
其中,vj表示特征词,wij表示特征词vj在文本di中的权重,采用TF-IDF值来计算,由于题目短文本经过分词、去停用词与及同义词合并之后,剩下的与知识点相关的特征词很少,只有几个到十几个之间,特征词特别稀疏,所以无须进行特征选择,全部保留,然后进行TF-IDF权重计算,TF-IDF是一种统计方法,用以评估一个字或词对于一个文件集或一个语料库中的其中一份文件的重要程度,计算如公式(2)所示:
wij=TFIDFij=TFij×IDFj (2),
其中TFij称为词频,表示特征词vj在文本di中的出现频率,其刻画了特征词对文本的重要性,IDFj为文本集合D中出现特征词vj的文档数量即文档频率的倒数,称为逆向文档频率,其体现了特征词对整个文本集的重要性,特征词vj的TFij和IDFj值的计算公式分别为公式(3)、公式(4)所示:
测试集和训练集构建的TF-IDF词向量空间模型不同之处在于:测试集在训练词向量模型时,需要加载训练集词袋,将测试集产生的词向量映射到训练集词袋的词典中,生成TF-IDF词向量空间模型;
(5)采用SVM构造习题分类器:SVM具有较好的稳定性和分类效果,应用SVM对训练集进行训练,并根据训练集的结果调整模型参数而使模型达到最优,最后将优化后的模型用于测试集的预测;
(6)评价指标:习题分类评价指标采用错误率、准确率、召回率和调和平均值F1值四个指标来衡量,其中,
错误率为:
准确率为:
召回率为:
F1值为:
n为分类器分类错误题目数,N为实际总的题目数,A为实际属于该类,且被分类器划分到该类的题目数,B为实际不属于该类,但被分类器划分到该类的题目数,C代表实际属于该类,但没有划分到该类的题目数。
步骤(2)中所述的分词为应用python语言环境下的pycharm编辑工具里的Jieba分词包进行分词,采用Jieba分词中的精确模式,该模式是Jieba分词中最基础和自然的模式,它试图尽可能精确地划分语句,因此适合题目文本分析,相关教材里的知识点大部分是专有名词,原有的Jieba分词包不能对这些新词进行识别,所以必须导入自定义词典提高新词识别率。
步骤(2)中所述的去除停用词为去除习题中的助词、虚词、副词、标点、字母和非法字符,结合采用哈工大停用词表、四川大学机器智能实验室停用词库和百度停用词表,对结合后的停用词表做去重处理,再往停用词表加入习题里出现的类似“设有”“总共”“多少”与知识点关键词意义不大的词,重新整理出针对习题分类的停用词表。
同一个知识点在不同的题目里有不同的表述,所以必须进行同义词合并,这样有利于降低向量空间维度。
这种方法对未知类别的新习题样本进行自动归类,提高习题分类精度,有利于学习者通过章节习题巩固阶段性所学知识点,查漏补缺,提高学习效率。
附图说明
图1为实施例的方法流程示意图。
具体实施方式
下面结合附图和实施例对本发明内容进行详细说明,但不是对本发明的限定。
实施例:
本例选择电子专业《数据结构》这门课程内容相关习题按章节进行分类,把习题按章节分为7个类别,分别是线性表、栈和队列、串、数组和广义表、树和二叉树、图、查找和排序,采用SVM对《数据结构》习题按章节进行自动分类,
一种基于SVM的习题自动分类方法,包括以下步骤:
(1)习题类型选择和类别标注:习题类型一般包括选择题、填空题、判断题和应用题,由于填空题需要填写的答案有时是判断类别的关键信息,对习题类别的判断造成不便,分类时容易误判,而应用题是综合型题目,涵盖的类别知识点较多,难于进行习题类别判断,选择的习题类型只适用于选择题和判断题,并对习题按教材内容里的章节进行人工类别标注;
(2)习题文本预处理:对习题文本预处理包括分词、去除停用词和合并同义词;
(3)划分:将步骤(2)预处理后的习题文本划分为训练集和测试集;
(4)构建TF-IDF词向量空间模型:分别对训练集和测试集构建TF-IDF词向量空间模型,词向量空间模型即VSM(Vector Space Model)是将文档di看作向量空间中的一个n维向量,形如公式(1):
di=((v1,wi1),(v2,wi2),…,(vj,wij)) (1),
其中,vj表示特征词,wij表示特征词vj在文本di中的权重,采用TF-IDF值来计算,由于题目短文本经过分词、去停用词与及同义词合并之后,剩下的与知识点相关的特征词很少,只有几个到十几个之间,特征词特别稀疏,所以无须进行特征选择,全部保留,然后进行TF-IDF权重计算,TF-IDF是一种统计方法,用以评估一个字或词对于一个文件集或一个语料库中的其中一份文件的重要程度,计算如公式(2)所示:
wij=TFIDFij=TFij×IDFj (2),
其中TFij称为词频,表示特征词vj在文本di中的出现频率,其刻画了特征词对文本的重要性,IDFj为文本集合D中出现特征词vj的文档数量即文档频率的倒数,称为逆向文档频率,其体现了特征词对整个文本集的重要性,特征词vj的TFij和IDFj值的计算公式分别为公式(3)、公式(4)所示:
测试集和训练集构建的TF-IDF词向量空间模型不同之处在于:测试集在训练词向量模型时,需要加载训练集词袋,将测试集产生的词向量映射到训练集词袋的词典中,生成TF-IDF词向量空间模型;
(5)采用SVM构造习题分类器:SVM具有较好的稳定性和分类效果,应用SVM对训练集进行训练,并根据训练集的结果调整模型参数而使模型达到最优,最后将优化后的模型用于测试集的预测;
(6)评价指标:习题分类评价指标采用错误率、准确率、召回率和调和平均值F1值四个指标来衡量,其中,
错误率为:
准确率为:
召回率为:
F1值为:
n为分类器分类错误题目数,N为实际总的题目数,A为实际属于该类,且被分类器划分到该类的题目数,B为实际不属于该类,但被分类器划分到该类的题目数,C代表实际属于该类,但没有划分到该类的题目数。
步骤(2)中所述的分词为应用python语言环境下的pycharm编辑工具里的Jieba分词包进行分词,采用Jieba分词中的精确模式,该模式是Jieba分词中最基础和自然的模式,它试图尽可能精确地划分语句,因此适合题目文本分析,《数据结构》教材里的知识点大部分是专有名词,原有的Jieba分词包不能对这些新词进行识别,所以必须导入自定义词典提高新词识别率。
步骤(2)中所述的去除停用词为去除习题中的助词、虚词、副词、标点、字母和非法字符,本例结合采用哈工大停用词表、四川大学机器智能实验室停用词库和百度停用词表,对结合后的停用词表做去重处理,再往停用词表加入习题里出现的类似“设有”“总共”“多少”与知识点关键词意义不大的词,重新整理出针对习题分类的停用词表,本例针对《数据结构》习题分类的停用词表,一共包含2503个停用词。
本例中,同一个知识点在不同的题目里有不同的表述,所以必须进行同义词合并,这样有利于降低向量空间维度,本例中比如“单循环链表”、“单向循环链表”和“循环单链表”都表示同一个知识点,统一合并为“单循环链表”,“哈希表”、“HASH表”和“散列表”统一合并为“散列表”等。

Claims (3)

1.一种基于SVM的习题自动分类方法,其特征在于,包括以下步骤:
(1)习题类型选择和类别标注:选择的习题类型只适用于选择题和判断题,并对习题按教材内容里的章节进行人工类别标注;
(2)习题文本预处理:对习题文本预处理包括分词、去除停用词和合并同义词;
(3)划分:将步骤(2)预处理后的习题文本划分为训练集和测试集;
(4)构建TF-IDF词向量空间模型:分别对训练集和测试集构建TF-IDF词向量空间模型,词向量空间模型即VSM(Vector Space Model)是将文档di看作向量空间中的一个n维向量,形如公式(1):
di=((v1,wi1),(v2,wi2),...,(vj,wij)) (1),
其中,vj表示特征词,wij表示特征词vj在文本di中的权重,采用TF-IDF值来计算,TF-IDF用以评估一个字或词对于一个文件集或一个语料库中的其中一份文件的重要程度,计算如公式(2)所示:
wij=TFIDFij=TFij×IDFj (2),
其中TFij称为词频,表示特征词vj在文本di中的出现频率,,IDFj为文本集合D中出现特征词vj的文档数量即文档频率的倒数,称为逆向文档频率,,特征词vj的TFij和IDFi值的计算公式分别为公式(3)、公式(4)所示:
测试集和训练集构建的TF-IDF词向量空间模型不同之处在于:测试集在训练词向量模型时,需要加载训练集词袋,将测试集产生的词向量映射到训练集词袋的词典中,生成TF-IDF词向量空间模型;
(5)采用SVM构造习题分类器:应用SVM对训练集进行训练,并根据训练集的结果调整模型参数而使模型达到最优,最后将优化后的模型用于测试集的预测;
(6)评价指标:习题分类评价指标采用错误率、准确率、召回率和调和平均值F1值四个指标来衡量,其中,
错误率为:
准确率为:
召回率为:
F1值为:
n为分类器分类错误题目数,N为实际总的题目数,A为实际属于该类,且被分类器划分到该类的题目数,B为实际不属于该类,但被分类器划分到该类的题目数,C代表实际属于该类,但没有划分到该类的题目数。
2.根据权利要求1所述的基于SVM的习题自动分类方法,其特征在于,步骤(2)中所述的分词为应用python语言环境下的pycharm编辑工具里的Jieba分词包进行分词。
3.根据权利要求1所述的基于SVM的习题自动分类方法,其特征在于,步骤(2)中所述的去除停用词为去除习题中的助词、虚词、副词、标点、字母和非法字符,结合采用哈工大停用词表、四川大学机器智能实验室停用词库和百度停用词表,对结合后的停用词表做去重处理,再往停用词表加入习题里出现的类似“设有”“总共”“多少”与知识点关键词意义不大的词,重新整理出针对习题分类的停用词表。
CN201910704864.4A 2019-07-31 2019-07-31 一种基于svm的习题自动分类方法 Pending CN110413789A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910704864.4A CN110413789A (zh) 2019-07-31 2019-07-31 一种基于svm的习题自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910704864.4A CN110413789A (zh) 2019-07-31 2019-07-31 一种基于svm的习题自动分类方法

Publications (1)

Publication Number Publication Date
CN110413789A true CN110413789A (zh) 2019-11-05

Family

ID=68365037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910704864.4A Pending CN110413789A (zh) 2019-07-31 2019-07-31 一种基于svm的习题自动分类方法

Country Status (1)

Country Link
CN (1) CN110413789A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364165A (zh) * 2020-11-12 2021-02-12 上海犇众信息技术有限公司 一种基于中文隐私政策条款的自动分类方法
CN114492397A (zh) * 2020-11-12 2022-05-13 宏碁股份有限公司 人工智能模型训练系统及人工智能模型训练方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820703A (zh) * 2015-05-12 2015-08-05 武汉数为科技有限公司 一种文本精细分类方法
CN105183831A (zh) * 2015-08-31 2015-12-23 上海德唐数据科技有限公司 一种针对不同学科题目文本分类的方法
CN105243087A (zh) * 2015-09-09 2016-01-13 浙江网新恒天软件有限公司 It资讯聚合阅读个性化推荐方法
CN105488142A (zh) * 2015-11-24 2016-04-13 科大讯飞股份有限公司 成绩信息录入方法及系统
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法
CN105869085A (zh) * 2016-03-29 2016-08-17 河北师范大学 一种成绩录入系统及图像处理的方法
CN106570109A (zh) * 2016-11-01 2017-04-19 深圳市前海点通数据有限公司 一种通过文本分析自动生成题库知识点的方法
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
CN108388895A (zh) * 2018-03-04 2018-08-10 南京理工大学 一种基于机器学习的试卷答题卡自动处理方法
CN109543037A (zh) * 2018-11-21 2019-03-29 南京安讯科技有限责任公司 一种基于改进的tf-idf的文章分类方法
CN109685137A (zh) * 2018-12-24 2019-04-26 上海仁静信息技术有限公司 一种题目分类方法、装置、电子设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820703A (zh) * 2015-05-12 2015-08-05 武汉数为科技有限公司 一种文本精细分类方法
CN105183831A (zh) * 2015-08-31 2015-12-23 上海德唐数据科技有限公司 一种针对不同学科题目文本分类的方法
CN105243087A (zh) * 2015-09-09 2016-01-13 浙江网新恒天软件有限公司 It资讯聚合阅读个性化推荐方法
CN105488142A (zh) * 2015-11-24 2016-04-13 科大讯飞股份有限公司 成绩信息录入方法及系统
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法
CN105869085A (zh) * 2016-03-29 2016-08-17 河北师范大学 一种成绩录入系统及图像处理的方法
CN106570109A (zh) * 2016-11-01 2017-04-19 深圳市前海点通数据有限公司 一种通过文本分析自动生成题库知识点的方法
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
CN108388895A (zh) * 2018-03-04 2018-08-10 南京理工大学 一种基于机器学习的试卷答题卡自动处理方法
CN109543037A (zh) * 2018-11-21 2019-03-29 南京安讯科技有限责任公司 一种基于改进的tf-idf的文章分类方法
CN109685137A (zh) * 2018-12-24 2019-04-26 上海仁静信息技术有限公司 一种题目分类方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364165A (zh) * 2020-11-12 2021-02-12 上海犇众信息技术有限公司 一种基于中文隐私政策条款的自动分类方法
CN114492397A (zh) * 2020-11-12 2022-05-13 宏碁股份有限公司 人工智能模型训练系统及人工智能模型训练方法
CN114492397B (zh) * 2020-11-12 2024-08-20 宏碁股份有限公司 人工智能模型训练系统及人工智能模型训练方法

Similar Documents

Publication Publication Date Title
CN107590127B (zh) 一种题库知识点自动标注方法及系统
US20050027664A1 (en) Interactive machine learning system for automated annotation of information in text
CN107506346A (zh) 一种基于机器学习的中文阅读难度分级方法及系统
CN105843897A (zh) 一种面向垂直领域的智能问答系统
TW201329752A (zh) 中文文本可讀性計量系統及其方法
CN109918670A (zh) 一种文章查重方法及系统
CN113343690B (zh) 一种文本可读性自动评估方法及装置
CN110969412A (zh) 一种电子实验报告生成、智能批阅、存储及下载系统
CN114897167A (zh) 生物领域知识图谱构建方法及装置
Sanuvala et al. A study of automated evaluation of student’s examination paper using machine learning techniques
Wadud et al. Text coherence analysis based on misspelling oblivious word embeddings and deep neural network
CN113743085A (zh) 一种文本质量评价系统及方法
CN107292348A (zh) 一种Bagging_BSJ短文本分类方法
CN114118088A (zh) 基于超图卷积神经网络的文档级实体关系抽取方法及装置
CN110413789A (zh) 一种基于svm的习题自动分类方法
CN113971394A (zh) 文本复述改写系统
Kung et al. Intelligent pig‐raising knowledge question‐answering system based on neural network schemes
Wang Construction of Intelligent Evaluation Model of English Composition Based on Machine Learning
Iqbal et al. Towards automated analysis of rhetorical categories in students essay writings using Bloom’s taxonomy
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
Bai et al. Gated character-aware convolutional neural network for effective automated essay scoring
Forsyth Automatic readability detection for modern Standard Arabic
CN115496630A (zh) 一种基于自然语言算法的专利撰写质量核检方法以及系统
Shah et al. Automatic evaluation of free text answers: A review
Das et al. Mining multiple informational text structure from text data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191105

RJ01 Rejection of invention patent application after publication