CN105183831A - 一种针对不同学科题目文本分类的方法 - Google Patents

一种针对不同学科题目文本分类的方法 Download PDF

Info

Publication number
CN105183831A
CN105183831A CN201510545940.3A CN201510545940A CN105183831A CN 105183831 A CN105183831 A CN 105183831A CN 201510545940 A CN201510545940 A CN 201510545940A CN 105183831 A CN105183831 A CN 105183831A
Authority
CN
China
Prior art keywords
classification
word
subject
chi
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510545940.3A
Other languages
English (en)
Inventor
罗登
周贤华
万享
张玉志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Datum Data Co., Ltd.
Original Assignee
Shanghai Detang Data Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Detang Data Science & Technology Co Ltd filed Critical Shanghai Detang Data Science & Technology Co Ltd
Priority to CN201510545940.3A priority Critical patent/CN105183831A/zh
Publication of CN105183831A publication Critical patent/CN105183831A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于数据预处理技术领域,提供了一种针对不同学科题目文本分类的方法,所述方法包括以下步骤:A、使用卡方检验对每门学科进行选词组成该学科的特征词表;B、利用朴素贝叶斯模型将选好的特征词进行学科分类;C、利用支持向量机对朴素贝叶斯模型分类中给出的前两名概率最大的结构进行二次分类给出第一名结果。通过两次分类,使得分类平均正确率得到提高,本方法实现简单、操作简单、使用方便准确,对学科间的分类更加准确,有效的提高了邻近学科之间分类的正确率。

Description

一种针对不同学科题目文本分类的方法
技术领域
本发明涉及数据预处理技术,尤其涉及一种针对不同学科题目文本分类的方法。
背景技术
随着网络上文本信息的爆炸式增长,对文本的处理需求越来越迫切,同时要求的精度和准确性也越来越高,尤其是在文档分类和信息检索等领域,经常需要对大批量的文档进行自动分类。
目前的文本分类方法主要包含三个环节,即文本表示、特征提取和文本分类,一般来说不同的文本分类方法主要区别在于如何表示文本。在文本表示方面,主要有基于词典向量和基于深度学习两种文本分类法,前者直接将文本按照分词结果表示为向量,向量的每个位表示在文档中有无该分词或者通过某种加权方法后得到的值,而后者一般通过深度学习方法将词表示成向量,向量中每一位没有具体的意义,但整个向量可用来描述该词与其他词之间的联系;在特征提取方面,除了常用的词频、逆向文档频率等指标,还有信息增益以及卡方检验等统计学方法;在文本分类方面,常用的分类法如朴素贝叶斯、k邻近、支持向量机以及神经网络等方法都可以用于文本分类。
目前的文本分类方法在处理特征明显、类别间相互差异较大的文本时有较高的正确率,但在处理有一定相似度的文本时效果会降低,以常见的初、高中九门学科的题目,即数、语、外、物、化、生、政、史、地为例,其中理科与文科之间比较容易分类,但理科或者文科内部的各科间都有一定的相似度。在基于词典向量的方法中,选择特征词时一般都会使用统计学习方法,在统计时一般只考虑了词的信息,而词与词之间的关联则被忽略;而基于深度学习的方法在把词表示成向量后,虽然向量中包含了词与词之间的关联信息,但在用词向量表示整个文本时,由于不同文本的长度变化幅度大,难以找到统一的特征输入分类器,在一些使用深度学习的方案中将文本长度固定,这样的做法不可避免会带来信息的丢失。
发明内容
为了解决现有技术中的问题,本发明提供了一种针对不同学科题目文本分类的方法。
本发明是这样实现的,一种针对不同学科题目文本分类的方法,所述方法包括以下步骤:
A、使用卡方检验对每门学科进行选词组成该学科的特征词表;
B、利用朴素贝叶斯模型将选好的特征词进行学科分类;
C、利用支持向量机对朴素贝叶斯模型分类中给出的前两名概率最大的结果进行二次分类给出第一名结果。
本发明的进一步技术方案是:所述步骤A中还包括步骤:
A1、将选出的词按照该词与学科的关联性做排序。
本发明的进一步技术方案是:所述步骤A中还包括步骤:
A2、利用词频表对组成的特征词进行词频过滤生成新的特征词表。
本发明的进一步技术方案是:所述卡方检验是统计样本的实际值与理论值之间的偏离程度,根据偏离程度大小确定理论值是否正确;其中偏差程度为:E为理论值,x1,x2,…xi,…xn为实际值。
本发明的进一步技术方案是:所述步骤B中计算文档d属于某个类别Ci的概率为:其中P(d|Ci)=P(w1|Ci)P(w2|Ci)…P(wj|Ci)…P(wm|Ci),m为文档d分词的个数,P(wj|Ci)就代表词汇wj属于类别Ci的概率。
本发明的进一步技术方案是:对于P(d|Ci)=P(w1|Ci)P(w2|Ci)…P(wj|Ci)…P(wm|Ci)式中P(Ci)和P(d)在同一文档中大小值一样。
本发明的有益效果是:通过两次分类,使得分类平均正确率得到提高,本方法实现简单、操作简单、使用方便准确,对学科间的分类更加准确,有效的提高了邻近学科之间分类的正确率。
附图说明
图1是本发明实施例提供的针对不同学科题目文本分类的方法的流程图。
图2是卡方检验选词流程图。
具体实施方式
针对现有方法的不足,本方案设计了一个新的二次分类处理方法,在选择特征词的基础上根据不同的阶段确定有效的分类策略。为了使词典中的特征词尽可能具有代表性,本方案使用卡方检验选词。卡方检验是统计学中一种专门用于相关分析的假设检验方法,其模型中包含了对相关文档频率的统计,比仅统计词频要更可靠,而且卡方检验是在每个类别中得到一系列特征词,这比使用信息增益在总体上得到的特征词更有针对性。
在使用卡方检验得到特征词后,文档就可以表示成由这些特征词组成的向量,接下来要考虑如何进行分类。由于卡方检验得到的词表是经过相关性排序的,利用这一点,在每个类别的特征词表中依次对每个词赋权值,然后在分类时,根据文档分词后的匹配情况,对每一个类别都得到一个权值之和,最后以该和值大小来判断属于哪个类别。这种方法在对特征词赋予权值时使用了自定义的模型来进行量化,得到的量化值与每个特征词的重要性并不一定相符。本方案使用NBM进行分类,对卡方检验选出来的特征词,经过词频统计得到先验概率,然后在分类时根据贝叶斯公式计算文档属于每个类别的概率。相比于自定义模型,NBM有理论基础且应用广泛,而且其中先验概率的计算考虑了词在文档中重复出现的个数,这在一定程度上弥补了卡方检验的不足之处,即仅考虑词在不同文档中出现次数。
在上一节中提到,在文本分类中统计学习方法一般只考虑了单个词的信息,词与词之间的关联往往被忽略,这个问题对于卡方检验和NBM来说都是存在的,再加上NBM需要假设文档中出现的词与词之间相互独立,而这一点在实际中难以满足。为了尽可能弥补这些缺陷,本方案在NBM基础上,添加了SVM进行二次分类。SVM是一种寻找最优分界面的模型,其寻找最优界面的过程隐性地包含了寻找不同词之间的最佳组合,而且SVM并不要求输入的特征之间满足任何相关性条件。综上,将SVM用于优化分类结果,是一种合适的选择。
图1示出了本发明提供的一种针对不同学科题目文本分类的方法的流程图,其详述如下:
步骤S1,使用卡方检验对每门学科进行选词组成该学科的特征词表;使用卡方检验对每门学科进行选词,并且对选出的词按照该词与学科的关联性做一个排序,组成该学科的特征词表。卡方检验基本思想是统计样本的实际值与理论值之间的偏离程度,根据偏离程度大小确定理论值是否正确。设理论值为E,实际值为x1,x2,…xi,…xn,偏差程度的计算公式为:具体到文本分类中,一般假设某个词t与某个类别c不相关,即t不是类c的特征词。这样求到的卡方值越大,与假设偏差越大,说明t与c越相关;卡方值越小,与假设偏差越小,说明t与c越不相关。此时卡方值可用于衡量词t与类别c的相关程度。
在得到词t与类别c的卡方值过程中,实际值为下表中的四种文档数:
四种文档数
属于类别c 不属于类别c
包含词t A B
不包含词t C D
对所有的文档按表中条件统计出A、B、C和D(即实际值),以A为例,A表示既包含词t又属于类别c的文档数,其理论值即为属于类别c的文档数(A+C)乘以文档包含词t的概率(A+B)/N,其中N为总文档数:则A的偏差程度为:同理得到B、C、D的偏差程度D12、D21、D22,最后词t与类别c的卡方值为:
χ2(t,c)=D11+D12+D21+D22,由于一般只关心每个词对某个类的相关大小顺序,而不关心具体的卡方值,一般将上式可简化为:以上为卡方检验的原理和卡方值的计算方法,其流程图乳图2所示。
每个词相对于每个类别都会有一个卡方值,选择卡方值大小排前两位的类别作为该词所属的类,这样每个类别都会被分配一定数量的特征词,由于卡方检验没有考虑词在文档中的个数,可能会夸大低频词的作用,所以需要经过词频表过滤一遍。
之所以流程中选择每个词分配到两个类别中,是因为不同学科之间的关键词有很多是共有的,不能只分配给一个类别,而分配的类别过多会降低特征词表总体上与对应类别的相关性。
步骤S2,利用朴素贝叶斯模型将选好的特征词进行学科分类;NBM(NaiveBayesianModel,NBM,朴素贝叶斯)首先假设给定目标值时属性之间相互条件独立,即文档中出现的词与词之间相互独立,然后根据文档中的每个词属于每个类别的先验概率,以及贝叶斯公式,得到该文档d属于某个类别的概率。计算公式如下:其中P(d|Ci)=P(w1|Ci)P(w2|Ci)…P(wj|Ci)…P(wm|Ci),m为文档d分词的个数,P(wj|Ci)就代表词汇wj属于类别Ci的概率,可以用该词在该类中的词频来估计。式中的P(Ci)和P(d)对于同一个文档的计算来说是一样大小的值,可以不用进行计算。
步骤S3,利用支持向量机对朴素贝叶斯模型分类中给出的前两名概率最大的结构进行二次分类给出第一名结果。经过对NBM分类结果(对应表3.1)的观察,某些类别间比较容易混淆:数学vs物理、语文vs政治、语文vs历史、英语vs政治、物理vs化学、化学vs生物、政治vs地理、政治vs历史、地理vs历史(相关数据见附表1)。这些科目间部分题目具有较高的相似性,难以分辨。本方案使用SVM对以上九种情况进行二次分类,经过二次分类的优化,有效提高正确率。
在学科分类中,每门学科选取10000道题目,最终得到每科的特征词数如下表:
每科的特征词数
学科 数学 语文 英语 物理 化学
特征词数 863 12656 9733 1764 1651
学科 生物 政治 地理 历史
特征词数 1480 3349 1537 2598
对卡方检验选出来的词,经去重处理得到7333个词作为总词表;对总词表中的每个词计算它出现在每个类中的概率;在测试时,根据贝叶斯公式计算测试样本属于每个类的概率,以概率最大的类别作为判定结果。通过这一处理,使得分类平均正确率从卡方检验赋值分类方法的85%提升到93%。
在本方案中对于SVM的二次分类,使用方检验选出来的7333个词来表示每个题目,作为SVM的输入,这样SVM的输入就是一个7333维的向量,每个位对应一个词,用-1表示题目中没有该词,1表示题目中有该词。对以上九种情况的每个类别各取2000个样本训练SVM分类器,在测试时,如果NBM分类法给出的前两名为九种情况中的一种,则调用相应的SVM分类器进行二次分类。
通过这一处理,使得分类平均正确率进一步从NBM分类方法的92%提升到96%。这样就比较可靠地实现了对题目的学科分类。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种针对不同学科题目文本分类的方法,其特征在于:所述方法包括以下步骤:
A、使用卡方检验对每门学科进行选词组成该学科的特征词表;
B、利用朴素贝叶斯模型将选好的特征词进行学科分类;
C、利用支持向量机对朴素贝叶斯模型分类中给出的前两名概率最大的结果进行二次分类给出第一名结果。
2.根据权利要求1所述的方法,其特征在于:所述步骤A中还包括步骤:
A1、将选出的词按照该词与学科的关联性做排序。
3.根据权利要求2所述的方法,其特征在于:所述步骤A中还包括步骤:
A2、利用词频表对组成的特征词进行词频过滤生成新的特征词表。
4.根据权利要求3所述的方法,其特征在于:所述卡方检验是统计样本的实际值与理论值之间的偏离程度,根据偏离程度大小确定理论值是否正确;其中偏差程度为:E为理论值,x1,x2,...xi,...xn为实际值。
5.根据权利要求4所述的方法,其特征在于:所述步骤B中计算文档d属于某个类别Ci的概率为:其中P(d|Ci)=P(w1|Ci)P(w2|Ci)...P(wj|Ci)...P(wm|Ci),m为文档d分词的个数,P(wj|Ci)就代表词汇wj属于类别Ci的概率。
6.根据权利要求5所述的方法,其特征在于:对于P(d|Ci)=P(w1|Ci)P(w2|Ci)...P(wj|Ci)...P(wm|Ci)式中P(Ci)和P(d)在同一文档中大小值一样。
CN201510545940.3A 2015-08-31 2015-08-31 一种针对不同学科题目文本分类的方法 Pending CN105183831A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510545940.3A CN105183831A (zh) 2015-08-31 2015-08-31 一种针对不同学科题目文本分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510545940.3A CN105183831A (zh) 2015-08-31 2015-08-31 一种针对不同学科题目文本分类的方法

Publications (1)

Publication Number Publication Date
CN105183831A true CN105183831A (zh) 2015-12-23

Family

ID=54905913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510545940.3A Pending CN105183831A (zh) 2015-08-31 2015-08-31 一种针对不同学科题目文本分类的方法

Country Status (1)

Country Link
CN (1) CN105183831A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570109A (zh) * 2016-11-01 2017-04-19 深圳市前海点通数据有限公司 一种通过文本分析自动生成题库知识点的方法
CN107590127A (zh) * 2017-09-21 2018-01-16 北京师范大学 一种题库知识点自动标注方法及系统
CN108241867A (zh) * 2016-12-26 2018-07-03 阿里巴巴集团控股有限公司 一种分类方法及装置
CN109214445A (zh) * 2018-08-27 2019-01-15 陆柒(北京)科技有限公司 一种基于人工智能的多标签分类方法
CN109522544A (zh) * 2018-09-27 2019-03-26 厦门快商通信息技术有限公司 基于卡方检验的句向量计算方法、文本分类方法及系统
CN109670042A (zh) * 2018-12-04 2019-04-23 广东宜教通教育有限公司 一种基于递归神经网络的试题分类及难度分级方法
CN109902173A (zh) * 2019-01-31 2019-06-18 青岛科技大学 一种中文文本分类方法
CN110413789A (zh) * 2019-07-31 2019-11-05 广西师范大学 一种基于svm的习题自动分类方法
CN112396105A (zh) * 2020-11-18 2021-02-23 沈阳航空航天大学 一种基于贝叶斯网络的飞行训练科目智能生成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059796A (zh) * 2006-04-19 2007-10-24 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法
CN101257671A (zh) * 2007-07-06 2008-09-03 浙江大学 基于内容的大规模垃圾短信实时过滤方法
CN102324038A (zh) * 2011-09-06 2012-01-18 北京林业大学 一种基于数字图像的植物种类识别方法
US20130035864A1 (en) * 2011-08-03 2013-02-07 Steven Elliot Stupp Technique for identifying association variables
CN103049484A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 一种网页危险性的识别方法和装置
CN103995876A (zh) * 2014-05-26 2014-08-20 上海大学 一种基于卡方统计和smo算法的文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059796A (zh) * 2006-04-19 2007-10-24 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法
CN101257671A (zh) * 2007-07-06 2008-09-03 浙江大学 基于内容的大规模垃圾短信实时过滤方法
US20130035864A1 (en) * 2011-08-03 2013-02-07 Steven Elliot Stupp Technique for identifying association variables
CN102324038A (zh) * 2011-09-06 2012-01-18 北京林业大学 一种基于数字图像的植物种类识别方法
CN103049484A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 一种网页危险性的识别方法和装置
CN103995876A (zh) * 2014-05-26 2014-08-20 上海大学 一种基于卡方统计和smo算法的文本分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MONDELLE SIMEON等: "Categorical proportional difference:a feature selection method for text categorization", 《ACM》 *
张东亮等: "基于改进的朴素贝叶斯算法在垃圾短信过滤中的研究", 《计算机测量与控制》 *
彭敏等: "基于情感分析技术的股票研究报告分类", 《武汉大学学报(理学版)》 *
胡韧奋等: "唐诗题材自动分类研究", 《北京大学学报(自然科学版)》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570109A (zh) * 2016-11-01 2017-04-19 深圳市前海点通数据有限公司 一种通过文本分析自动生成题库知识点的方法
CN106570109B (zh) * 2016-11-01 2020-07-24 深圳市点通数据有限公司 一种通过文本分析自动生成题库知识点的方法
CN108241867A (zh) * 2016-12-26 2018-07-03 阿里巴巴集团控股有限公司 一种分类方法及装置
CN107590127A (zh) * 2017-09-21 2018-01-16 北京师范大学 一种题库知识点自动标注方法及系统
CN107590127B (zh) * 2017-09-21 2019-12-06 北京师范大学 一种题库知识点自动标注方法及系统
CN109214445A (zh) * 2018-08-27 2019-01-15 陆柒(北京)科技有限公司 一种基于人工智能的多标签分类方法
CN109522544A (zh) * 2018-09-27 2019-03-26 厦门快商通信息技术有限公司 基于卡方检验的句向量计算方法、文本分类方法及系统
CN109670042A (zh) * 2018-12-04 2019-04-23 广东宜教通教育有限公司 一种基于递归神经网络的试题分类及难度分级方法
CN109902173A (zh) * 2019-01-31 2019-06-18 青岛科技大学 一种中文文本分类方法
CN110413789A (zh) * 2019-07-31 2019-11-05 广西师范大学 一种基于svm的习题自动分类方法
CN112396105A (zh) * 2020-11-18 2021-02-23 沈阳航空航天大学 一种基于贝叶斯网络的飞行训练科目智能生成方法
CN112396105B (zh) * 2020-11-18 2023-11-07 沈阳航空航天大学 一种基于贝叶斯网络的飞行训练科目智能生成方法

Similar Documents

Publication Publication Date Title
CN105183831A (zh) 一种针对不同学科题目文本分类的方法
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN106570109B (zh) 一种通过文本分析自动生成题库知识点的方法
CN111444344B (zh) 实体分类方法、装置、计算机设备和存储介质
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN109885675B (zh) 基于改进lda的文本子话题发现方法
US8560466B2 (en) Method and arrangement for automatic charset detection
Adeleke et al. Comparative analysis of text classification algorithms for automated labelling of Quranic verses
CN110795564B (zh) 一种缺少负例的文本分类方法
Noaman et al. Naive Bayes classifier based Arabic document categorization
CN110347791B (zh) 一种基于多标签分类卷积神经网络的题目推荐方法
CN108959305A (zh) 一种基于互联网大数据的事件抽取方法及系统
Sari et al. Sentiment Analysis of Customer Satisfaction on Transportation Network Company Using Naive Bayes Classifier
Trivedi et al. Interplay between probabilistic classifiers and boosting algorithms for detecting complex unsolicited emails
CN108228541A (zh) 生成文档摘要的方法和装置
CN103886077B (zh) 短文本的聚类方法和系统
Saleh et al. A semantic based Web page classification strategy using multi-layered domain ontology
CN110347701A (zh) 一种面向实体检索查询的目标类型标识方法
CN104361037A (zh) 微博分类方法及装置
CN112347352A (zh) 一种课程推荐方法、装置及存储介质
CN103268346B (zh) 半监督分类方法及系统
CN117291192B (zh) 一种政务文本语义理解分析方法及系统
CN113407700A (zh) 一种数据查询方法、装置和设备
CN112487306A (zh) 基于知识图谱的自动化事件标记与分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180516

Address after: 518000 0302, 001 Meilin court District, Futian District, Shenzhen, Guangdong.

Applicant after: Shenzhen Datum Data Co., Ltd.

Address before: 201600 Shanghai Songjiang District Caohejing Development Zone Songjiang high tech Park Xinzhu Road 518, 11 building 404-2 room.

Applicant before: SHANGHAI DETANG DATA SCIENCE & TECHNOLOGY CO., LTD.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151223