CN106570109A - 一种通过文本分析自动生成题库知识点的方法 - Google Patents

一种通过文本分析自动生成题库知识点的方法 Download PDF

Info

Publication number
CN106570109A
CN106570109A CN201610937043.1A CN201610937043A CN106570109A CN 106570109 A CN106570109 A CN 106570109A CN 201610937043 A CN201610937043 A CN 201610937043A CN 106570109 A CN106570109 A CN 106570109A
Authority
CN
China
Prior art keywords
classification
knowledge point
text
feature words
chi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610937043.1A
Other languages
English (en)
Other versions
CN106570109B (zh
Inventor
罗登
万享
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Datum Data Co., Ltd.
Original Assignee
Shenzhen Qianhai Diantong Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Diantong Data Co Ltd filed Critical Shenzhen Qianhai Diantong Data Co Ltd
Priority to CN201610937043.1A priority Critical patent/CN106570109B/zh
Publication of CN106570109A publication Critical patent/CN106570109A/zh
Application granted granted Critical
Publication of CN106570109B publication Critical patent/CN106570109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种通过文本分析自动生成题库知识点的方法,包括以下步骤:步骤S1,通过所有对文本样本进行分词、统计和过滤,选取特征词,组成特征词表;步骤S2,分别对题干和题目解析进行分词,经过特征词表过滤分别得到题干和题目解析的特征词,得到知识点分类;步骤S3,融合所述题干和题目解析这两种数据源中的分类结果,进而输出最终的知识点分类结果。本发明通过卡方检验分类和频繁项集分类实现所述特征词在知识点类别中的分类,并结合题目的题干和题目解析等信息来生成知识点分类的结果,能够非常有效地提高知识点分类生成的准确性;尤其针对知识点数目较多的情况,本发明依然能够提高其正确率。

Description

一种通过文本分析自动生成题库知识点的方法
技术领域
本发明涉及一种生成题库知识点的方法,尤其涉及一种通过文本分析自动生成题库知识点的方法。
背景技术
目前用于文本分类方法有很多,例如LDA(文档主题生成模型)的基于LDA的结构-内容联合社团发现模型(叶娟,陈启买.基于LDA的结构-内容联合社团发现模型[J].计算机应用研究,2016,33(3):686-688,692.DOI:10.3969/j.issn.1001-3695.2016.03.011.)、LSI的潜在语义分析(谭光兴,刘臻晖.基于SVM的局部潜在语义分析算法研究[J].计算机工程与科学,2016,38(1):177-182.DOI:10.3969/j.issn.1007-130X.2016.01.029)、支持向量机和神经网络等。这些方法或直接对文本分类,比如LDA,不需要监督训练,可以直接生成文档的主题信息;或者产生文本特征,比如LSI,可以提取出关于特征词的有效信息作为文本特征;或者相互结合,比如将LSI提取出来的特征输入到支持向量机或者神经网络进行学习,进一步得到文本分类模型。在文本分类领域中,以上这些方法都有广泛的应用。但是由于现在基础教育的知识点分类涉及到比较多的知识点类别,且不同样本的数目不能保证一致,采用以上方法在建模上会比较困难,最终效果难以保证。
发明内容
本发明所要解决的技术问题是需要提供一种能够有效提高知识点生成的准确性的通过文本分析自动生成题库知识点的方法。
对此,本发明提供一种通过文本分析自动生成题库知识点的方法,包括以下步骤:
步骤S1,通过对所有文本样本进行分词、统计和过滤,选取特征词,组成特征词表;
步骤S2,分别对题干和题目解析进行分词,经过特征词表过滤分别得到题干和题目解析的特征词,得到知识点分类;
步骤S3,融合所述题干和题目解析这两种数据源中的分类结果,进而输出最终的知识点分类结果。
本发明的进一步改进在于,所述步骤S1中,针对基础教育的九门学科的分词进行统计,得到各个分词关于学科的卡方检验值,根据卡方检验值排序得出各个学科的特征词。
本发明的进一步改进在于,所述步骤S1中,若存在与所述学科不相关的特征词,则对比该特征词分别关于文科类别和理科类别的卡方检验值,然后将该特征词归类为卡方检验值较大的学科类别中。
本发明的进一步改进在于,所述步骤S2中,通过卡方检验分类和/或频繁项集分类实现所述特征词在知识点类别中的分类;所述卡方检验分类中,通过计算文本样本中特征词在知识点类别中的卡方检验值,进而获得特征表,通过所述特征表进行文本分类;所述频繁项集分类中,通过计算文本样本中所述特征词的频繁项集进而实现文本分类。
本发明的进一步改进在于,所述卡方检验分类中,假设包含特征词t的文本样本属于知识点类别c的集合为A,包含特征词t的文本样本不属于知识点类别c的集合为B,不包含特征词t的文本样本属于知识点类别c的集合为C,不包含特征词t的文本样本不属于知识点类别c的集合为D,则特征词t在知识点类别c中的卡方检验值为其中,所述卡方检验值与所述特征词t和知识点类别c之间相关性成反比。
本发明的进一步改进在于,当所述文本样本中包括的特征词或知识点类别的数量大于2时,分别计算不同的特征词在每一个知识点类别中的卡方检验值之和,然后将不同的特征词在每一个知识点类别中的卡方检验值之和进行排序和比对,选取卡方检验值之和最大的知识点类别作为文本分类的结果。
本发明的进一步改进在于,所述频繁项集分类中,通过对文本样本进行扫描,计算文本样本中出现的特征词或特征词组的支持度,其中,支持度指的是该特征词或特征词组在文本样本集合中的出现次数,其出现次数超过最小支持度的特征词组合就定义为频繁项集,进而得到其文本分类;所述最小支持度为根据文本样本数量进而设置的自定义阈值。
本发明的进一步改进在于,对每个知识点类别选取预定样本进行统计,得到各知识点类别的频繁项集;然后在文本分类时,将单个待分类的文本中的特征词进行组合,将特征词的组合与各个知识点类别的频繁项集进行匹配和评分,将累计评分最高的知识点类别作为文本分类的结果。
本发明的进一步改进在于,对特征词的组合在每一个知识点类别的频繁项集的评分公式为:支持度平均值*2n/最小支持度,其中,n为频繁项集的项数。
本发明的进一步改进在于,所述步骤S3包括以下子步骤:
步骤S301,对题目解析的特征词进行卡方检验分类和频繁项集分类,并判断其在卡方检验分类和频繁项集分类中得到的结果是否相同,若是则直接输出结果作为最终的知识点分类结果,若否则跳转至步骤S302;
步骤S302,所述特征词在卡方检验分类和频繁项集分类中得到的知识点分类是否相同,若是则输出卡方检验分类的结果作为最终的知识点分类结果,若否则跳转至步骤S304;
步骤S303,对题干的特征词进行卡方检验分类和频繁项集分类,并将其在卡方检验分类和频繁项集分类中得到的结果进行知识点类别的匹配;
步骤S304,判断是否存在相同的知识点类别,若是则跳转至步骤S305,若否则输出分类结果不确定的提示;
步骤S305,判断相同的知识点类别是否在频繁项集分类中权重较大,若是则输出频繁项集分类的结果作为最终的知识点分类结果,若否则输出卡方检验分类的结果作为最终的知识点分类结果。
与现有技术相比,本发明的有益效果在于:通过卡方检验分类和频繁项集分类实现所述特征词在知识点类别中的分类,并结合题目的题干和题目解析等信息来生成知识点分类的结果,能够非常有效地提高知识点分类生成的准确性;尤其针对知识点数目较多的情况,本发明依然能够提高其正确率。
附图说明
图1是本发明一种实施例的工作流程示意图;
图2是本发明一种实施例中电阻单位的换算的频繁项集分类的原理示意图;
图3是本发明一种实施例中步骤S3的详细工作流程示意图。
具体实施方式
下面结合附图,对本发明的较优的实施例作进一步的详细说明。
如图1所示,本例提供一种通过文本分析自动生成题库知识点的方法,包括以下步骤:
步骤S1,通过对所有文本样本进行分词、统计和过滤,选取特征词,组成特征词表;
步骤S2,分别对题干和题目解析进行分词,经过特征词表过滤分别得到题干和题目解析的特征词,得到知识点分类;
步骤S3,融合所述题干和题目解析这两种数据源中的分类结果,进而输出最终的知识点分类结果。
题库数据是重要的教学资源,而题库中题目的知识点数据项则有着十分重要的作用,它是题库分类检索的重要字段,也是各种延伸应用的基础。在实际的中考和高考中,学生试卷的打分,也是在遵循一个“踏点得分”的原则,即只要考察的知识点按步骤写出来了,即使题没有解出来,也能得到相应部分的分数。
然而知识点的生成是一项非常费人工事情,通常需要教学经验丰富的老师根据题意列出知识点,经过审核、录入和校对等环节后再入库,这样每个题目的知识点生产要花2至3元的成本。在题库数量动辄以几百万乃至上千万规模的今天,这无疑是一笔耗资巨大的投入;同时,真正操作时需要的人员组织、管理以及工期耗时都是令人头疼的事。另一方面,对基础教育的九门学科来讲,其覆盖的知识点是有限的,当已经有数百万带知识点的题目后,新入库的题目即使没有知识点,应该也可以通过学习和分类方法,根据现有的带知识点的题目分析,对知识点信息缺失的题目生成知识点。这样不仅可以节约人工成本,从完成时间上更有无比的优势。所述基础教育的九门学科包括数学、物理、化学、英语、语文、生物、自然地理、政治和历史。本例优选以物理学为例子进行举例说明。
本例所述步骤S1中,针对基础教育的九门学科的分词进行统计,得到各个分词关于学科的卡方检验值,根据卡方检验值排序得出各个学科的特征词。也就是说,通过统计各个分词在不同的学科中的卡方检验值,进而将卡方检验值超过预设阈值的分词作为该门学科的特征词,而预设阈值可以根据实际情况和需要进行设置。
首先,所述学科类别包括文科类别和理科类别,文科类别包括英语、语文、生物、自然地理、政治和历史,所述理科类别包括数学、物理和化学,而基础教育的九门学科中每一个学科又可以根据自己的内容进行知识点类别的分类,该知识点类别的分类可以认为是我们平时题库中的知识点大类。如下表所示的就是初中物理中所整理的15个知识点类别,也称15个知识点大类。
所述步骤S1用于选择特征词,首先是对所有文本样本进行分词、统计和过滤,选出特征词。由于本例的文本分类方法以分词作为基本特征,所以首先需要统计一套富有特征的词表,然后对该词表进行滤词,剔除一些特征不明显的词。本例以生成物理知识点为例,要去掉一些与物理不是很相关的词。
在选择特征词方面,本例使用卡方检验的统计方法,对基础教育的九门学科的分词统计后,得到各分词关于各类别的卡方检验值,根据卡方检验值排序后,可知分词与哪些学科最相关,从而得出各个学科的特征词,这部分的内容可以参考“罗登,万享.一种学科题目文本自动分类方法[J].中国索引,2015.04”,以物理学科为例,这种方法除了物理学科,还用到了其他学科的样本,与物理不相关的词会被尽量分配到其他学科,作为其他学科的特征词。
相比于通过词频或信息增益方法选出来的特征词,卡方检验选出的特征词的特征会更明显,但也会夹杂一些较为中性的词,即存在与所述学科不相关的特征词,例如“理由”和“判断”等特征词,这时,可将物理的特征词与一些文科类特征词相对比,如果有在文科类别中特征较强则滤掉,即在文科类别中的卡方检验值较大的词则滤掉。因此,所述步骤S1中,若存在与所述学科不相关的特征词,则对比该特征词分别关于文科类别和理科类别的卡方检验值,然后将该特征词归类为卡方检验值较大的学科类别中。
本例所述步骤S2中,通过卡方检验分类和/或频繁项集分类实现所述特征词在知识点类别中的分类;所述卡方检验分类中,通过计算文本样本中特征词在知识点类别中的卡方检验值,进而获得特征表,通过所述特征表进行文本分类;所述频繁项集分类中,通过计算文本样本中所述特征词的频繁项集进而实现文本分类。
本例所以本文样本选择使用卡方检验分类和频繁项集分类等统计方法,并结合题目的题干和题目解析等信息来生成知识点,本例通过统计词与不同类别的文本样本的所属关系,得到特征词与知识点类别的关系,而频繁项集则统计的是文本样本中特征词的组合,这两种方法从不同的角度提取特征,不需要文本样本的数量保持一致,可以应对类别较多的情况,非常适合用于知识点生成。本例将以初中物理知识点为例,详细介绍所述通过文本分析自动生成题库知识点的方法。
卡方检验分类基本思想是统计文本样本的实际值与理论值之间的偏离程度,根据偏离程度大小确定理论值是否正确。在文本样本中,一般假设某个特征词t与某个知识点类别c是不相关,即特征词t不是知识点类别c的特征词;这样,如果求到的卡方检验值越大,则说明实际值与理论值的偏差越大,说明特征词t与知识点类别c越相关;如果求到的卡方检验值越小,则说明实际值与理论值的偏差越小,说明特征词t与知识点类别c越不相关。因此,所述卡方检验值可用于衡量特征词t与知识点类别c的相关程度。
所述卡方检验分类中,假设包含特征词t的文本样本属于知识点类别c的集合为A,包含特征词t的文本样本不属于知识点类别c的集合为B,不包含特征词t的文本样本属于知识点类别c的集合为C,不包含特征词t的文本样本不属于知识点类别c的集合为D,也就是说,在得到特征词t与知识点类别c的卡方检测值的过程中,其实际值为下表中的四种文档数。
属于类别c 不属于类别c
包含词t A B
不包含词t C D
对所有的文档按上表中条件统计出A、B、C和D(即实际值),以A为例,A表示文本样本中既包含特征词t又属于知识点类别c的文本样本数量,其理论值即为属于知识点类别c的文档数量(A+C)乘以文本样本中包含特征词t的概率(A+B)/N,其中N为总文本样本的数量。根据卡方检验的概念进行推导,最终可得到特征词t在知识点类别c中的卡方检验值为其中,所述卡方检验值与所述特征词t和知识点类别c之间相关性成反比。
值得一提的是,上面介绍的这个卡方检验值的计算方法不仅仅是用于步骤S1中用来选取特征词,而且还适用于步骤S2的计算特征词在知识点类别中的分类结果,也就是用来实现步骤S2对文本样本进行分类。
本例所述步骤S2中,当所述文本样本中包括的特征词或知识点类别的数量大于2时,分别计算不同的特征词在每一个知识点类别中的卡方检验值之和,然后将不同的特征词在每一个知识点类别中的卡方检验值之和进行排序和比对,选取卡方检验值之和最大的知识点类别作为文本分类的结果。
按照上述步骤S1的选择特征词的步骤,可得各分词关于各个知识点类别的卡方检验值,组成一个特征表,如下表所示,下表中仅对两个特征词各显示了三个相关知识点类别和两个不相关知识点类别,使用这个特征表就可以进行文本分类:首先将待分类的文本样本进行选取特征词,分别计算这些特征词在每一个知识点类别中的卡方检验值之和,该卡方检验值之和的值可作为待分类的文本样本关于各个知识点类别的特征值,然后按照该特征值大小排序,选取特征值最大的知识点类别即可作为文本分类的结果。
在实际使用卡方检验分类的特征表实现文本分类时,需要对每个特征词的卡方检验值进行归一化,本例采取的方式是按每个特征词的卡方检验最大值进行归一化,即每个特征词的卡方检验值除以其中的最大值。
本例所述频繁项集分类中,通过对文本样本进行扫描,计算文本样本中出现的特征词或特征词组的支持度,其中,支持度指的是该特征词或特征词组在文本样本集合中的出现次数,其出现次数超过最小支持度的特征词组合就定义为频繁项集,进而得到其文本分类;所述最小支持度为根据文本样本数量进而设置的自定义阈值,所述特征词组为两个或多个特征词的组合。
获取频繁项集可以通过以下两种方法获取:一种是根据其定义直接暴力搜索,由于暴力搜索中每次获取新频繁项集时都要遍历所有文本,非常耗时,所以一般使用FpTree方法(Han J,Pei J,Yin Y.Mining frequent patterns without candidate generation[J].AcmSigmod Record,2000,29(2):1-12.)。FpTree是一种获取频繁项集的快速算法,它只需要遍历两次数据即可得到所有频繁项集。
本例是这样实现所述频繁项集的:对每个知识点类别选取预定样本进行统计,得到各知识点类别的频繁项集;然后在文本分类时,将单个待分类的文本中的特征词进行组合,将特征词的组合与各个知识点类别的频繁项集进行匹配和评分,将累计评分最高的知识点类别作为文本分类的结果。所述预定样本可以根据实际需求进行自定义设置。
在频繁项集与特征词的组合进行匹配时,如果将待分类的文本样本的特征词的组合与各个知识点类别频繁项集之间逐个遍历来匹配,则比较耗时,可将每个知识点类别的频繁项集组成FpTree(不需要头指针表),然后把文本样本的特征词按FpTree中词语的顺序排列,再与FpTree进行匹配,相当于在FpTree中寻找由特征词组成的路径,这种方法可以加快分类的速度。如图2所示的就是为“电阻单位的换算”这一知识点类别的频繁项集的FpTree方法原理,该知识点类别的样本较少,特征词不多。
关于频繁项集分类的评分方法,本例按“频繁项集中的频繁项越多评分越高”这一原则来决定,因为频繁项集中的频繁项越多,该项集所包含的特征就越多,所以频繁项的数目应当是评分的一个重要参考依据。当待分类的文本样本在某个类别中匹配到某个频繁项集后,可以直接以该项集的项数作为评分,但实际上一个包含n项的频繁项集有2的n次方个子集,用2的n次方比仅仅只用项数n更能突出频繁项集在项数多少上的差别。
值得一提的是,本例除了根据频繁项数来打分,各类别频繁项集的支持度也应该被考虑进来。首先,由于知识点类别较多,文本样本的数量不可能做到均匀一致,所以对不同知识点类别进行统计频繁项集时,支持度是不一样的,这可能导致不同知识点类别的频繁项集的权重不一样,因此,本例在频繁项集打分时会除以每个知识点类别的最小支持度来抵消这种权重不同而带来的误差;其次,除了每个知识点类别的最小支持度,每个频繁项集还有自己的支持度,一般来说,频繁项集的支持度等于该频繁项集中支持度最小的项,实际上就是最小项的频率,如果两个频繁项集支持度差别较大,而仅因为项数一样就得到相同的评分,这是不合理的,因此在本例的评分过程中加入了频繁项集支持度这一指标。考虑到频繁项集中各个项都有各自的支持度,决定采用各项的支持度平均值来作为频繁项集支持度。
综上,本例对特征词的组合在每一个知识点类别的频繁项集的评分公式为:支持度平均值*2n/最小支持度,其中,n为频繁项集的项数。本例所述最小支持度是相对于每一个知识点类别进行针对性的自定义设置的,一般可选取对应的知识点类别所统计文本样本数量的20%作为其最小支持度。
如图3所示,本例所述步骤S3包括以下子步骤:
步骤S301,对题目解析的特征词进行卡方检验分类和频繁项集分类,并判断其在卡方检验分类和频繁项集分类中得到的结果是否相同,若是则直接输出结果作为最终的知识点分类结果,若否则跳转至步骤S302;
步骤S302,所述特征词在卡方检验分类和频繁项集分类中得到的知识点分类是否相同,若是则输出卡方检验分类的结果作为最终的知识点分类结果,若否则跳转至步骤S304;
步骤S303,对题干的特征词进行卡方检验分类和频繁项集分类,并将其在卡方检验分类和频繁项集分类中得到的结果进行知识点类别的匹配;
步骤S304,判断是否存在相同的知识点类别,若是则跳转至步骤S305,若否则输出分类结果不确定的提示;
步骤S305,判断相同的知识点类别是否在频繁项集分类中权重较大,若是则输出频繁项集分类的结果作为最终的知识点分类结果,若否则输出卡方检验分类的结果作为最终的知识点分类结果。
本例使用了题目的两种文本:题干和题目解析,有时会得到不同的结果。
例如,通过卡方检验分类,对于某道题目的题目解析“提示1:一滴水滴在玻璃板相当于凸透镜,而物体在凸透镜的一倍焦距内,成放大正立的像.提示2:本题利用了凸透镜能成放大正立的像的来解释现象。解:字被放大。水滴在玻璃板形成了凸透镜,纸上的字在一倍焦距内,成正立放大的像,故看到的字变大了”,可得到“凸透镜对光的作用”这一知识点类别,以3.626074分排在第一,而“透镜及其分类”这一知识点类别以2.927895分排在第二,同样,通过频繁项集得到的第一个结果也是“凸透镜对光的作用”,这个结果是比较合理。
但是,该题的题干若为“把一块玻璃板压在报纸上,然后在玻璃板上滴一滴水,通过水滴看报纸上的字,字的大小发生怎样的变化?原因是什么?”,将题干通过卡方检验得到的第一个知识点是“控制变量法和科学探究的过程”,这主要是因为题干的内容更为抽象,特征词不明显,因此应该主要以题目解析给出的知识点类别为主,因此,本例在步骤S301首先将所述特征词分别在题目解析中进行卡方检验分类和频繁项集分类,并判断其在卡方检验分类和频繁项集分类中得到的结果是否相同,若是则直接输出结果作为最终的知识点分类结果。
另一方面,通过题干得到的知识点类别虽然不能直接作为最终结果,但仍有一定的参考价值,在多数情况下,题干是与题目相关的,只是不够准确。本例将333个物理知识点整理成15个大类,这样题干就可以给出关于15个知识点类别的信息作为参考。
本例综合了卡方检验和频繁项集这两种分类方法,在分类结果上各有好坏。例如以下这段题目解析:“……,景色发出的或反射的光线由空气经过玻璃时发生折射,我们看到的是由于折射所成的像,因为玻璃不平整,所以看到的景色是变形的”,卡方检验分类给出的第一个知识点类别是“控制噪声的途径”,而频繁项集给出的第一个知识点类别是“光的折射规律及其应用”,显然频繁项集的知识点类别要更好;再例如这段题目解析“同步卫星的‘同步’指的正是它与地球自转周期和角速度相同的意思,所以它和地球是相对静止不动的”,卡方检验分类的结果是“运动和静止的相对性”,而频繁项集的结果是“变速运动”,显然卡方检验分类的结果更合理。
以上例子说明卡方检验分类和频繁项集分类这两种方法是可以互相补充的。通过这两种分类方法的测试结果,可知卡方检验分类的方法正确率更高,因此综合结果时会偏向卡方检验分类的结果,具体来说,就是当这两种方法给出的大类一致时,结果以卡方检验分类为准。
图3中关于所属知识点类别的投票,首先考虑两种分类方法(卡方检验分类和频繁项集分类)、两种文本样本(题干和题目分析)共四种情况中的知识点类别是否都不相同,如果都不相同,则说明对于当前样本知识点类别的判断有较大的不确定性,宜采取其他方法处理,包括人工介入的判断,此时需要输出分类结果不确定的提示。当各个知识点类别有相同的情况出现,则会综合考虑题目解析和题干分别给出的结果,并且偏重考虑题目解析的结果,例如,当题干的两个知识点类别相同时,则算做一票,此外,如果这个相同的知识点类别又与题目解析中的两个知识点类别都不相同时,则以题目解析中的卡方检验分类结果为准,而当知识点类别投票结果确定是频繁项集给出的知识点类别(与开发检验的知识点类别不同)时,会给出频繁项集分类的结果。
本例通过选取两个不同题库的题目分别作为训练样本和测试样本,其中训练样本基本上涵盖了所有的初中物理知识点,有333个,共18万条数据,不过333个知识点类别的样本数目不一致,从几百到上千不等,而测试样本则随机选取3组,每组100道题,题目包含题干以及题目解析。一般一道题目可能会包含多个知识点,而且这些知识点本身也是相互有关联的,只要给出的是一个主要的正确知识点即可。值得一提的是,本例所述的题目解析指的是针对题目和题目答案的解析。
下表记录是三组测试正确率的对比示意表,包括卡方检验分类正确率、频繁项集分类正确率(针对题目解析)以及综合卡方检验分类和频繁项集分类之后的正确率。
上表中的正确率是以各种方法给出的排名第一的知识点类别来计算的,考虑到知识点类别有333个,说明本例对于知识点分类是有一定效果的。在以特征词为文本特征的思路中,本例充分利用卡方检验和频繁项集两大特征进而实现分类,并通过题目解析和题干根据分类结果将两种分类方法进行综合,提高了知识点分类正确率。因此,充分利用各种分类方法给出的类别排名信息,结合具体分类问题的特征词,适应性地调整综合策略,完全可以进一步提高自动生成题库知识点的正确率。
本例通过卡方检验分类和频繁项集分类实现所述特征词在知识点类别中的分类,并结合题目的题干和题目解析等信息来生成知识点分类的结果,能够非常有效地提高知识点分类生成的准确性;尤其针对知识点数目较多的情况,本发明依然能够提高其正确率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种通过文本分析自动生成题库知识点的方法,其特征在于,包括以下步骤:
步骤S1,通过对所有文本样本进行分词、统计和过滤,选取特征词,组成特征词表;
步骤S2,分别对题干和题目解析进行分词,经过特征词表过滤分别得到题干和题目解析的特征词,得到知识点分类;
步骤S3,融合所述题干和题目解析这两种数据源中的分类结果,进而输出最终的知识点分类结果。
2.根据权利要求1所述的通过文本分析自动生成题库知识点的方法,其特征在于,所述步骤S1中,针对基础教育的九门学科的分词进行统计,得到各个分词关于学科的卡方检验值,根据卡方检验值排序得出各个学科的特征词。
3.根据权利要求2所述的通过文本分析自动生成题库知识点的方法,其特征在于,所述步骤S1中,若存在与所述学科不相关的特征词,则对比该特征词分别关于文科类别和理科类别的卡方检验值,然后将该特征词归类为卡方检验值较大的学科类别中。
4.根据权利要求1至3任意一项所述的通过文本分析自动生成题库知识点的方法,其特征在于,所述步骤S2中,通过卡方检验分类和/或频繁项集分类实现所述特征词在知识点类别中的分类;所述卡方检验分类中,通过计算文本样本中特征词在知识点类别中的卡方检验值,进而获得特征表,通过所述特征表进行文本分类;所述频繁项集分类中,通过计算文本样本中所述特征词的频繁项集进而实现文本分类。
5.根据权利要求4所述的通过文本分析自动生成题库知识点的方法,其特征在于,所述卡方检验分类中,假设包含特征词t的文本样本属于知识点类别c的集合为A,包含特征词t的文本样本不属于知识点类别c的集合为B,不包含特征词t的文本样本属于知识点类别c的集合为C,不包含特征词t的文本样本不属于知识点类别c的集合为D,则特征词t在知识点类别c中的卡方检验值为其中,所述卡方检验值与所述特征词t和知识点类别c之间相关性成反比。
6.根据权利要求5所述的通过文本分析自动生成题库知识点的方法,其特征在于,当所述文本样本中包括的特征词或知识点类别的数量大于2时,分别计算不同的特征词在每一个知识点类别中的卡方检验值之和,然后将不同的特征词在每一个知识点类别中的卡方检验值之和进行排序和比对,选取卡方检验值之和最大的知识点类别作为文本分类的结果。
7.根据权利要求4所述的通过文本分析自动生成题库知识点的方法,其特征在于,所述频繁项集分类中,通过对文本样本进行扫描,计算文本样本中出现的特征词或特征词组的支持度,其中,支持度指的是特征词或特征词组在文本样本集合中的出现次数,其出现次数超过最小支持度的特征词组合就定义为频繁项集,进而得到其文本分类;所述最小支持度为根据文本样本数量进而设置的自定义阈值。
8.根据权利要求7所述的通过文本分析自动生成题库知识点的方法,其特征在于,对每个知识点类别选取预定样本进行统计,得到各知识点类别的频繁项集;然后在文本分类时,将单个待分类的文本中的特征词进行组合,将特征词的组合与各个知识点类别的频繁项集进行匹配和评分,将累计评分最高的知识点类别作为文本分类的结果。
9.根据权利要求8所述的通过文本分析自动生成题库知识点的方法,其特征在于,对特征词的组合在每一个知识点类别的频繁项集的评分公式为:支持度平均值*2n/最小支持度,其中,n为频繁项集的项数。
10.根据权利要求4所述的通过文本分析自动生成题库知识点的方法,其特征在于,所述步骤S3包括以下子步骤:
步骤S301,对题目解析的特征词进行卡方检验分类和频繁项集分类,并判断其在卡方检验分类和频繁项集分类中得到的结果是否相同,若是则直接输出结果作为最终的知识点分类结果,若否则跳转至步骤S302;
步骤S302,所述特征词在卡方检验分类和频繁项集分类中得到的知识点分类是否相同,若是则输出卡方检验分类的结果作为最终的知识点分类结果,若否则跳转至步骤S304;
步骤S303,对题干的特征词进行卡方检验分类和频繁项集分类,并将其在卡方检验分类和频繁项集分类中得到的结果进行知识点类别的匹配;
步骤S304,判断是否存在相同的知识点类别,若是则跳转至步骤S305,若否则输出分类结果不确定的提示;
步骤S305,判断相同的知识点类别是否在频繁项集分类中权重较大,若是则输出频繁项集分类的结果作为最终的知识点分类结果,若否则输出卡方检验分类的结果作为最终的知识点分类结果。
CN201610937043.1A 2016-11-01 2016-11-01 一种通过文本分析自动生成题库知识点的方法 Active CN106570109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610937043.1A CN106570109B (zh) 2016-11-01 2016-11-01 一种通过文本分析自动生成题库知识点的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610937043.1A CN106570109B (zh) 2016-11-01 2016-11-01 一种通过文本分析自动生成题库知识点的方法

Publications (2)

Publication Number Publication Date
CN106570109A true CN106570109A (zh) 2017-04-19
CN106570109B CN106570109B (zh) 2020-07-24

Family

ID=60414345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610937043.1A Active CN106570109B (zh) 2016-11-01 2016-11-01 一种通过文本分析自动生成题库知识点的方法

Country Status (1)

Country Link
CN (1) CN106570109B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241534A (zh) * 2018-09-12 2019-01-18 重庆工业职业技术学院 一种基于文本ai学习的考题自动生成方法和装置
CN109359290A (zh) * 2018-08-20 2019-02-19 国政通科技有限公司 试题文本的知识点确定方法、电子设备及存储介质
CN110309300A (zh) * 2018-08-23 2019-10-08 北京慧经知行信息技术有限公司 一种识别理科试题知识点的方法
CN110362671A (zh) * 2019-07-16 2019-10-22 安徽知学科技有限公司 题目推荐方法、设备和存储介质
WO2019200705A1 (zh) * 2018-04-18 2019-10-24 深圳市鹰硕技术有限公司 自动生成完形填空试题的方法以及装置
CN110413789A (zh) * 2019-07-31 2019-11-05 广西师范大学 一种基于svm的习题自动分类方法
WO2020051907A1 (zh) * 2018-09-14 2020-03-19 深圳市欢太科技有限公司 一种速记项目的分类方法、终端及计算机存储介质
CN111881285A (zh) * 2020-07-28 2020-11-03 扬州大学 一种错题收集及重难点知识提取方法
CN112286900A (zh) * 2019-07-16 2021-01-29 北京字节跳动网络技术有限公司 一种数据处理方法、装置、设备及存储介质
CN112560849A (zh) * 2021-01-24 2021-03-26 中天恒星(上海)科技有限公司 基于神经网络算法的文理分割方法及系统
CN112906895A (zh) * 2021-02-09 2021-06-04 柳州智视科技有限公司 一种题目对象仿造的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统
CN104317794A (zh) * 2014-08-27 2015-01-28 广西教育学院 基于动态项权值的中文特征词关联模式挖掘方法及其系统
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN105023214A (zh) * 2015-07-17 2015-11-04 蓝舰信息科技南京有限公司 一种题目知识点智能推荐方法
CN105183831A (zh) * 2015-08-31 2015-12-23 上海德唐数据科技有限公司 一种针对不同学科题目文本分类的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统
CN104317794A (zh) * 2014-08-27 2015-01-28 广西教育学院 基于动态项权值的中文特征词关联模式挖掘方法及其系统
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN105023214A (zh) * 2015-07-17 2015-11-04 蓝舰信息科技南京有限公司 一种题目知识点智能推荐方法
CN105183831A (zh) * 2015-08-31 2015-12-23 上海德唐数据科技有限公司 一种针对不同学科题目文本分类的方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019200705A1 (zh) * 2018-04-18 2019-10-24 深圳市鹰硕技术有限公司 自动生成完形填空试题的方法以及装置
CN109359290A (zh) * 2018-08-20 2019-02-19 国政通科技有限公司 试题文本的知识点确定方法、电子设备及存储介质
CN109359290B (zh) * 2018-08-20 2023-05-05 国政通科技有限公司 试题文本的知识点确定方法、电子设备及存储介质
CN110309300A (zh) * 2018-08-23 2019-10-08 北京慧经知行信息技术有限公司 一种识别理科试题知识点的方法
CN110309300B (zh) * 2018-08-23 2021-05-11 北京慧经知行信息技术有限公司 一种识别理科试题知识点的方法
CN109241534A (zh) * 2018-09-12 2019-01-18 重庆工业职业技术学院 一种基于文本ai学习的考题自动生成方法和装置
CN109241534B (zh) * 2018-09-12 2022-12-27 重庆工业职业技术学院 一种基于文本ai学习的考题自动生成方法和装置
WO2020051907A1 (zh) * 2018-09-14 2020-03-19 深圳市欢太科技有限公司 一种速记项目的分类方法、终端及计算机存储介质
CN112286900A (zh) * 2019-07-16 2021-01-29 北京字节跳动网络技术有限公司 一种数据处理方法、装置、设备及存储介质
CN110362671B (zh) * 2019-07-16 2022-04-19 安徽知学科技有限公司 题目推荐方法、设备和存储介质
CN110362671A (zh) * 2019-07-16 2019-10-22 安徽知学科技有限公司 题目推荐方法、设备和存储介质
CN110413789A (zh) * 2019-07-31 2019-11-05 广西师范大学 一种基于svm的习题自动分类方法
CN111881285A (zh) * 2020-07-28 2020-11-03 扬州大学 一种错题收集及重难点知识提取方法
CN112560849A (zh) * 2021-01-24 2021-03-26 中天恒星(上海)科技有限公司 基于神经网络算法的文理分割方法及系统
CN112906895A (zh) * 2021-02-09 2021-06-04 柳州智视科技有限公司 一种题目对象仿造的方法
CN112906895B (zh) * 2021-02-09 2022-12-06 柳州智视科技有限公司 一种题目对象仿造的方法

Also Published As

Publication number Publication date
CN106570109B (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN106570109A (zh) 一种通过文本分析自动生成题库知识点的方法
US10332007B2 (en) Computer-implemented system and method for generating document training sets
CN103632168B (zh) 一种机器学习中的分类器集成方法
CN103810274B (zh) 基于WordNet语义相似度的多特征图像标签排序方法
CN107239529A (zh) 一种基于深度学习的舆情热点类别划分方法
CN109299271A (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN106446287A (zh) 面向众包场景问答系统答案聚合方法和系统
CN108833409A (zh) 基于深度学习和半监督学习的webshell检测方法及装置
CN106649849A (zh) 文本信息库建立方法和装置、以及搜索方法、装置和系统
Mgala et al. Data-driven intervention-level prediction modeling for academic performance
CN110472257A (zh) 一种基于句对的机器翻译引擎测评优选方法及系统
CN106682236A (zh) 基于机器学习的专利数据处理方法及其处理系统
CN110232128A (zh) 题目文本分类方法及装置
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN110472256A (zh) 一种基于篇章的机器翻译引擎测评优选方法及系统
CN103324758A (zh) 一种新闻分类方法和系统
CN106960003A (zh) 抄袭检测中的基于机器学习的源检索的查询生成方法
Azmi et al. A novel method to automatically pass hukm on hadith
CN104462279B (zh) 分析对象特征信息的获取方法和装置
CN108763459A (zh) 基于心理测试及dnn算法的专业倾向分析方法及系统
CN105677641B (zh) 一种论文自检方法及系统
CN107845047A (zh) 一种动态评分系统、方法以及计算机可读存储介质
CN105550172B (zh) 一种分布式文本检测方法及系统
CN105701213B (zh) 一种文献对比方法及系统
CN110427973B (zh) 一种面向歧义标注样本的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180521

Address after: 518000 0302, 001 Meilin court District, Futian District, Shenzhen, Guangdong.

Applicant after: Shenzhen Datum Data Co., Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: SHENZHEN QIANHAI DIANTONG DATA CO., LTD.

GR01 Patent grant
GR01 Patent grant