CN110377802B - 一种新增试题的知识点标注方法及系统 - Google Patents

一种新增试题的知识点标注方法及系统 Download PDF

Info

Publication number
CN110377802B
CN110377802B CN201910681103.1A CN201910681103A CN110377802B CN 110377802 B CN110377802 B CN 110377802B CN 201910681103 A CN201910681103 A CN 201910681103A CN 110377802 B CN110377802 B CN 110377802B
Authority
CN
China
Prior art keywords
questions
similar
question
test
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910681103.1A
Other languages
English (en)
Other versions
CN110377802A (zh
Inventor
谢楚鹏
李可佳
郭晨阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Qusu Education Technology Co ltd
Original Assignee
Jiangsu Qusu Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Qusu Education Technology Co ltd filed Critical Jiangsu Qusu Education Technology Co ltd
Priority to CN201910681103.1A priority Critical patent/CN110377802B/zh
Publication of CN110377802A publication Critical patent/CN110377802A/zh
Application granted granted Critical
Publication of CN110377802B publication Critical patent/CN110377802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Abstract

本发明公开了一种新增试题的知识点标注方法及系统。新增试题的知识点标注方法包括:获取新增试题,遍寻样本库寻找与新增试题相似的相似题得到相似题组;根据相似题组对新增试题进行知识点标注:当最相似试题对应的相似度在第一级别范围内时,将位于第一级别范围内的相似度对应的相似题判定为第一待利用试题,将其对应的知识点赋予新增试题;当最相似试题对应的相似度在第二级别范围内时,将相似题组中的试题判定为第二待利用试题,将其对应的所有知识点中出现次数最多的知识点赋予新增试题,判断剩余知识点中与出现次数最多的知识点最可能同时出现的p个知识点,将p个知识点也赋予新增试题。本发明能够提升知识点标注的效率,节约时间和费用。

Description

一种新增试题的知识点标注方法及系统
技术领域
本发明涉及教育技术领域,更具体地,涉及一种新增试题的知识点标注方法及系统。
背景技术
现有技术中,当在试题题库中增加新试题时,通常采用人工标注的方式对新增试题标注知识点。这种人工标注知识点的方式,通常需要有丰富教学研究经验的教师,对各科试题进行人工判断,来进行具体知识点的标注,从而达到较高的准确度。然而,采用人工标注的方式效率低且费用成本高昂。
因此,提供一种新增试题的知识点标注方法及系统,提升知识点标注的效率,节约时间和费用,并且同时保证较高的准确性,是本领域亟待解决的技术问题。
发明内容
有鉴于此,本发明提供了一种新增试题的知识点标注方法及系统,解决了上述技术问题。
第一方面,本发明提供一种新增试题的知识点标注方法,包括:
获取新增试题,遍寻样本库寻找与所述新增试题相似的相似题,得到相似题组,所述样本库中的试题均为待判断试题,一道所述待判断试题对应n个知识点,n为正整数,且n≥1,具体包括:
确定所述新增试题的重要关键字符记为第一字符串,确定所述待判断试题的重要关键字符记为第二字符串,所述重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符;
计算所述第一字符串和所述第二字符串之间的加权编辑距离,所述加权编辑距离为所述第一字符串和所述第二字符串之间相互转化的最少的加权操作次数;
根据所述加权编辑距离计算所述新增试题与所述待判断试题之间的相似度r;
当相似度r大于等于第一阈值时,相似度r所对应的所述待判断试题为所述相似题;
遍寻所述样本库得到所述相似题组,所述相似题组包括m道所述相似题,m为正整数,且m≥1;
根据所述相似题组对所述新增试题进行知识点标注,具体包括:
当所述相似题组中最相似试题对应的相似度r在第一级别范围内时,将位于第一级别范围内的相似度r对应的所述相似题判定为第一待利用试题,将所述第一待利用试题对应的知识点赋予所述新增试题;
当所述相似题组中最相似试题对应的相似度r在第二级别范围内时,将所述相似题组中的试题判定为第二待利用试题,将在所述第二待利用试题对应的所有知识点中出现次数最多的知识点赋予所述新增试题,然后根据两个知识点同时出现的置信度,判断所述第二待利用试题对应的剩余知识点中与所述出现次数最多的知识点最可能同时出现的p个知识点,将所述p个知识点也赋予所述新增试题,p为正整数,且p≥1;其中,
最相似试题为所述相似题组中相似度r最大的试题,所述第一级别范围的相似度大于第二级别范围的相似度。
可选的,相似度r的计算公式为:r=(sum-dist)/sum,其中,sum为所述第一字符串和所述第二字符串的长度总和,dist为所述加权编辑距离。
可选的,所述两个知识点同时出现的置信度的计算方法为:
统计所述样本库中,两个知识点在同一道题中同时出现的次数q;
根据所述次数q计算所述置信度D,其中,D=R*q,R正相关系数。
可选的,获取新增试题,遍寻样本库寻找与所述新增试题相似的相似题,得到相似题组,进一步包括:
将样本库中试题按题型进行分类为子样本库,一个所述子样本库中仅包括一种题型的试题;
获取新增试题,根据所述新增试题的题型,遍寻相应的所述子样本库寻找与所述新增试题相似的相似题,得到相似题组。
可选的,根据所述相似题组对所述新增试题进行知识点标注,还包括:当所述相似题组中最相似试题对应的相似度r在第二级别范围内,且所述相似题组中的所述相似题均各自对应一个知识点时,将所述相似题组对应的所有知识点均赋予所述新增试题。
可选的,根据所述相似题组对所述新增试题进行知识点标注,还包括:
当所述相似题组中最相似试题对应的相似度r在第一级别范围内时,根据相似度r由大到小对所述相似题进行排序,将最多前5道相似度r位于第一级别范围内的所述相似题判定为所述第一待利用试题;
当所述相似题组中最相似试题对应的相似度r在第二级别范围内时,根据相似度r由大到小对所述相似题进行排序,将最多前5道所述相似题判定为所述第二待利用试题。
可选的,确定所述新增试题的重要关键字符记为第一字符串,确定待判断试题的重要关键字符记为第二字符串的步骤包括:
采用词频-逆文档频度模型构建重要关键字字符库;
根据所述重要关键字字符库确定所述第一字符串和所述第二字符串。
可选的,所述样本库中试题的来源至少包括:例题、课后习题、模拟题、期中考试试题、期末考试试题、升学考试真题。
可选的,根据所述相似题组对所述新增试题进行知识点标注,进一步包括:将知识点赋予所述新增试题时,相同的知识点仅赋予一次。
第二方面,本发明还提供一种新增试题的知识点标注系统,包括:相似题寻找模块、知识点标注模块;其中,
所述相似题寻找模块,用于获取新增试题,并遍寻样本库寻找与所述新增试题相似的相似题,得到相似题组,所述样本库中的试题均为待判断试题,一道所述待判断试题对应n个知识点,n为正整数,且n≥1,包括:重要关键字符确定模块、加权编辑距离计算模块、相似度计算模块、相似题组生成模块;
所述重要关键字符确定模块,与所述加权编辑距离计算模块相连接,用于确定所述新增试题的重要关键字符记为第一字符串,确定所述待判断试题的重要关键字符记为第二字符串,并将所述第一字符串和所述第二字符串发送给所述加权编辑距离计算模块,所述重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符;
所述加权编辑距离计算模块,与所述相似度计算模块相连接,用于计算所述第一字符串和所述第二字符串之间的加权编辑距离,并将所述加权编辑距离发送给所述相似度计算模块,所述加权编辑距离为所述第一字符串和所述第二字符串之间相互转化的最少的加权操作次数;
所述相似度计算模块,与所述相似题组生成模块相连接,用于根据所述加权编辑距离计算所述新增试题与所述待判断试题之间的相似度r,并将相似度r的计算结果发送给所述相似题组生成模块;
所述相似题组生成模块,用于接收相似度r的计算结果并判断,当相似度r大于等于第一阈值时,相似度r所对应的所述待判断试题为所述相似题,遍寻所述样本库得到所述相似题组,所述相似题组包括m道所述相似题,m为正整数,且m≥1,并将所述相似题组的生成结果发送给所述知识点确定模块;
所述知识点标注模块,用于根据所述相似题组对所述新增试题进行知识点标注;包括判断子模块、标注子模块;
所述判断子模块,与所述标注子模块相连接,用于当判断所述相似题组中最相似试题对应的相似度r在第一级别范围内时,将位于第一级别范围内的相似度r对应的所述相似题判定为第一待利用试题,并将所述第一待利用试题的判定结果发送给所述标注子模块;
所述标注子模块,根据所述第一待利用试题的判定结果,将所述第一待利用试题对应的知识点赋予所述新增试题;
所述判断子模块,还用于当判断所述相似题组中最相似试题对应的相似度r在第二级别范围内时,将所述相似题组中的试题判定为第二待利用试题,并将所述第二待利用试题的判断结果发送给所述标注子模块,
所述标注子模块,还用于根据所述第二待利用试题的判断结果将在所述第二待利用试题对应的所有知识点中出现次数最多的知识点赋予所述新增试题,并根据两个知识点同时出现的置信度,判断所述第二待利用试题对应的剩余知识点中与所述出现次数最多的知识点最可能同时出现的p个知识点,将所述p个知识点也赋予所述新增试题,p为正整数,且p≥1;其中,
最相似试题为所述相似题组中相似度r最大的试题,所述第一级别范围的相似度大于第二级别范围的相似度。
与现有技术相比,本发明提供的新增试题的知识点标注方法及系统,至少实现了如下的有益效果:
(1)本发明基于计算新增试题与样本库中试题之间的相似度,根据相似题对应的知识点对新增试题的知识点进行标注,知识点标注过程不需要人工参与,能够提升知识点标注的效率,节约时间和费用。
(2)基于重要关键字作为权重,计算新增试题与样本库中试题之间的重要关键字之间的加权编辑距离,从而确定新增试题与样本库中试题之间的相似度,来选择与新增试题相似的试题,相似度越高考察相同知识点的可能性越高,本发明采用重要关键字作为权重,相似度计算的准确度更高,从而能够提高知识点标注的准确性。
(3)在判定第一待利用试题或者第二待利用试题时最多判定5道相应的试题,能够进一步提升知识点标注的准确性,简化运算过程,提高知识点标注效率。
(4)样本库按题型进行分类,获取新增试题后,根据试题类型来寻找相似题,后续相似度计算更加准确,且不需要遍寻所有的题型简化了相似度计算的过程,能够有利于提升知识点标注的效率。
当然,实施本发明的任一产品必不特定需要同时达到以上所述的所有技术效果。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1为本发明实施例提供的新增试题的知识点标注方法流程图;
图2为本发明实施例提供的新增试题的知识点标注方法中相似题组生成流程图;
图3为本发明实施例提供的新增试题的知识点标注系统框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明提出一种基于大数据和人工智能的方法来进行知识点自动标注的方法和系统,能够有效提升知识点标注的效率,节约时间和费用,并且同时保证较高的准确性。
图1为本发明实施例提供的新增试题的知识点标注方法流程图,图2为本发明实施例提供的新增试题的知识点标注方法中相似题组生成流程图。
如图1所示,本发明提供一种新增试题的知识点标注方法,包括:
步骤S101:获取新增试题,遍寻样本库寻找与新增试题相似的相似题,得到相似题组,样本库中的试题均为待判断试题,一道待判断试题对应n个知识点,n为正整数,且n≥1。
可选的,本发明的样本库中试题的来源至少包括:例题、课后习题、模拟题、期中考试试题、期末考试试题、升学考试真题。其中,升学考试可以为小学升初中,初中升高中、高考。比如例题和课后习题,通常只有一个知识点(即该小节的名称),题目也比较基础,直接与课本中的文字内容相关,题目题干与课本文字内容的关键字重合程度比较高;模拟题和期中、期末考试的题目,这些题目需要对单个学期所学的多个章节融会贯通,才能做对,所以通常包含单个学期的多个知识点;高考题和中考题,这些题目需要对多个学期所学的多个章节融会贯通,才能做对,所以通常包含多个学期的多个知识点,。
样本库首先,可以使用各个省(每个省的教学大纲和课本会有一些不同)的标准课本的例题和课后练习题和核心教学辅导书的附录习题来构建。由于每一章的每一小节,都有章节的名称,因此使用每一个小节的章节名称来标注每一小节附录的例题和练习题的知识点。其次,样本库收集了过去前几年(比如前10年或者前20年)各省历届高考、中考、小升初等重要升学考试真题。这些真题已经有了大量的教学研究,有较为权威的知识点标注,也包含准确的解析和答案,而且也有基于被试学生答题记录的试题难度和区分度数据。另外,样本库还可以包括多个合作方的核心题库的高质量试题。在过去多年的长期积累过程中,这些试题已经被有丰富教研经验的专家通过人工方式标注了知识点,而且在很多模拟考试和多校联考中被很多学生考试过,有较多的答题数据,而且能够统计出难度值和区分度值。
本发明构建的样本库具有以下特点:1、样本库中的试题比较权威或者具有很高的认可度;2、知识点的标注准确;3、试题的知识点分布较为全面,不会发生某些知识点的试题特别少的情况。本发明可以按学科分类分别构建数学、物理、化学、生物、英语、语文、政治、历史、和地理等学科的样本库。
如图2所示,步骤S101具体包括:
步骤S1011:确定新增试题的重要关键字符记为第一字符串,确定待判断试题的重要关键字符记为第二字符串,重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符;
以下述数学试题为例:已知向量a=(cos3x/4,sin3x/4),b=(cos(x/4+π/3),-sin(x/4+π/3));令f(x)=(a+b)^2,(1)求f(x)解析式及单调递增区间;(2)若x∈[-π/6,5π/6],求函数f(x)的最大值和最小值;(3)若f(x)=5/2,求sin(x-π/6)的值。
上述试题中,“向量”以及向量符号“→”对于题目的知识点标注意义重大,如果新增、替换和删除这样的重要关键字,会显著修改题目的含义和类别。因此,本发明中将此类重要关键字,在加权编辑距离中赋予更大的权重。
可选的,本发明中采用词频-逆文档频度模型构建重要关键字字符库;以同一科目的大量的试题为数据基础(比如为100万道题),采用词频-逆文档频度模型在大量的试题中挑选出重要关键字,形成基本涵盖科目中所有知识点的重要关键字字符库;然后根据重要关键字字符库确定新增试题中的第一字符串和待判断试题中的第二字符串。第一字符串和第二字符串作为加权编辑距离的权重。以大量试题为基础,根据模型来挑选出重要关键字,能够保证重要关键字选取的准确性,进而保证后续相似度计算的准确性。
步骤S1012:计算第一字符串和第二字符串之间的加权编辑距离,加权编辑距离为第一字符串和第二字符串之间相互转化的最少的加权操作次数;
可选的,加权编辑距离的操作包括:插入、删除、替换;其中,在计算加权操作次数时:删除记为一次操作,插入记为一次操作,替换记为两次操作。本发明采用的加权编辑距离的权重为试题中的重要关键字,由于重要关键字的会影响试题含义或者类型,所以在计算加权操作次数时,将替换记为两次操作,以增加替换重要关键字在操作次数中的影响,提升后续相似度计算的准确性。
步骤S1013:根据加权编辑距离计算新增试题与待判断试题之间的相似度r。可选的,相似度r的计算公式为:
r=(sum-dist)/sum,其中,sum为第一字符串和第二字符串的长度总和,dist为加权编辑距离;
步骤S1014:当相似度r大于等于第一阈值时,相似度r所对应的待判断试题为相似题;可选的,第一阈值可以根据实际需求进行选择,第一阈值可以在0到1之间选取任意值。例如可以为0.3、0.4或者0.5。比如当第一阈值为0.3时,则判断相似度r大于等于0.3对应的待判断试题均为相似题。
步骤S1015:遍寻样本库得到相似题组,相似题组包括m道相似题,m为正整数,且m≥1;在某些情况下,遍寻样本库仅得到一道相似题;在某些情况下,遍寻样本库也可以得到多道相似题。
步骤S102:根据相似题组对新增试题进行知识点标注,步骤S102具体包括:
步骤S1021:当相似题组中最相似试题对应的相似度r在第一级别范围内时,将位于第一级别范围内的相似度r对应的相似题判定为第一待利用试题,将第一待利用试题对应的知识点赋予新增试题;
在一种实施方式中,第一级别范围为大于等于0.9,且小于等于1。经步骤S101中的计算后,相似题组中最相似试题对应的相似度r为0.98,则最相似试题对应的相似度r在第一级别范围内,说明相似题组中包括与新增试题非常相似的试题,本发明通过重要关键字的加权编辑距离,来计算得到的相似度,能够准确的反映新增试题与待判定试题之间的相似度,相似度越高,则新增试题与待判定试题之间考察的知识点越接近或者即为考察相同的知识点。通过将第一待利用试题对应的知识点赋予新增试题,能够实现对新增试题知识点的准确标注。
可选的,每道第一待利用试题可以对应一个知识点或者对应多个知识点。当相似题组中包括多道第一待利用试题时,将知识点赋予所述新增试题时,相同的知识点仅赋予一次。
步骤S1022:当相似题组中最相似试题对应的相似度r在第二级别范围内时,将相似题组中的试题判定为第二待利用试题,将在第二待利用试题对应的所有知识点中出现次数最多的知识点赋予新增试题,然后根据两个知识点同时出现的置信度,判断第二待利用试题对应的剩余知识点中与出现次数最多的知识点最可能同时出现的p个知识点,将p个知识点也赋予新增试题,p为正整数,且p≥1。
第二级别范围为大于等于第一阈值,且小于第一级别范围的最小值。在一种实施例中,当第一阈值为0.3,第一级别范围为大于等于0.9,且小于等于1时,第二级别范围为大于等于0.3,且小于0.9。
在一种实施例中,经步骤S101中的计算后,相似题组中最相似试题对应的相似度r为0.8,则最相似试题对应的相似度r在第二级别范围内,将相似题组中的试题判定为第二待利用试题,将在第二待利用试题对应的所有知识点中出现次数最多的知识点赋予新增试题。其中,出现次数最多的知识点可以为一个知识点,也可以为两个或者多个知识点。比如第二待利用试题对应的所有知识点为:圆的切线方程、圆与圆的位置关系及其判定、直线与圆的位置关系、两点间的距离公式、点与直线的距离公式。经判断知识点“圆的切线方程”出现的次数最多,则将知识点“圆的切线方程”赋予新增试题。然后判断剩余的其他知识点,即:圆与圆的位置关系及其判定、直线与圆的位置关系、两点间的距离公式、点与直线的距离公式,与“圆的切线方程”这一被选知识点之间的置信度,判断与“圆的切线方程”这一知识点可能同时出现的知识点,经判断后“圆与圆的位置关系及其判定”为最可能同时出现的知识点,则将“圆与圆的位置关系及其判定”也赋予新增试题。
本发明中最相似试题为相似题组中相似度r最大的试题,第一级别范围的相似度大于第二级别范围的相似度。
新增试题的相似题越多,则往往涉及较为重要的知识点。而且,这些新增试题,往往是涉及多个知识点。通常,涉及的知识点越多,试题就会越重要,也就越容易被推荐。因此新增试题,如果重要,通常也更容易找到相似题,也就越容易通过本发明提供的自动标注的方法赋予相关的知识点。
可选的,在步骤S1022中利用的两个知识点同时出现的置信度的计算方法为:统计样本库中,两个知识点在同一道题中同时出现的次数q;根据次数q计算置信度D,其中,D=R*q,R正相关系数。采用本发明提供的方法时,R取值可以根据需求自己定义。通过样本库中的大量数据的统计,两个知识点在同一道题中同时出现的次数越多,则两个知识点之间的关联性越大,则两个知识点同时出现的置信度越高。
可选的,步骤S102根据相似题组对新增试题进行知识点标注,还包括:当相似题组中最相似试题对应的相似度r在第二级别范围内,且相似题组中的相似题均各自对应一个知识点时,将相似题组对应的所有知识点均赋予新增试题。相似题组中对应的知识点可能重复,将知识点赋予所述新增试题时,相同的知识点仅赋予一次。
在一种实施例中,步骤S102根据相似题组对新增试题进行知识点标注,还包括:
当相似题组中最相似试题对应的相似度r在第一级别范围内时,根据相似度r由大到小对相似题进行排序,将最多前5道相似度r位于第一级别范围内的相似题判定为第一待利用试题。也即当根据相似度r进行排序后,相似度r在第一级别范围内的试题少于5道,则将所有的相似度r在第一级别范围对应的相似题均判定为第一待利用试题;当根据相似度r进行排序后,相似度r在第一级别范围内的试题多于5道,则选取前5道相似题判定为第一待利用试题。
当相似题组中最相似试题对应的相似度r在第二级别范围内时,根据相似度r由大到小对相似题进行排序,将最多前5道相似题判定为第二待利用试题。也即当根据相似度r进行排序后,相似度r在第二级别范围内的试题少于5道,则将所有的相似题均判定为第二待利用试题;当根据相似度r进行排序后,相似度r在第二级别范围内的试题多于5道,则选取前5道相似题判定为第二待利用试题。在后续计算知识点中出现次数时,也仅在最多5道试题中计算,将出现次数最多的知识点赋予新增试题;在后续计算与出现次数最多的知识点最可能同时出现的p个知识点时,也仅在此最多5道试题对应的知识点中进行判断。
该实施方式中,在判定第一待利用试题或者第二待利用试题时最多判定5道相应的试题,能够进一步提升知识点标注的准确性,简化运算过程,提高知识点标注效率。
在一种实施例中,步骤S101获取新增试题,遍寻样本库寻找与新增试题相似的相似题,得到相似题组,进一步包括:
将样本库中试题按题型进行分类为子样本库,一个子样本库中仅包括一种题型的试题;
获取新增试题,根据新增试题的题型,遍寻相应的子样本库寻找与新增试题相似的相似题,得到相似题组。
该实施方式中,样本库按题型进行分类,获取新增试题后,根据试题类型来寻找相似题,后续相似度计算更加准确,且不需要遍寻所有的题型简化了相似度计算的过程,能够有利于提升知识点标注的效率。
基于同一发明构思,本发明还提供一种新增试题的知识点标注系统,其特征在于,图3为本发明实施例提供的新增试题的知识点标注系统框图,如图3所示,包括:相似题寻找模块10、知识点标注模块20;其中,
相似题寻找模块10,用于获取新增试题,并遍寻样本库寻找与新增试题相似的相似题,得到相似题组,样本库中的试题均为待判断试题,一道待判断试题对应n个知识点,n为正整数,且n≥1,包括:重要关键字符确定模块101、加权编辑距离计算模块102、相似度计算模块103、相似题组生成模块104;
在一种实施方式中,将样本库中试题按题型进行分类为子样本库,一个子样本库中仅包括一种题型的试题;相似题寻找模块10,还用于获取新增试题,根据新增试题的题型,遍寻相应的子样本库寻找与新增试题相似的相似题,得到相似题组。该实施方式中,样本库按题型进行分类,获取新增试题后,根据试题类型来寻找相似题,后续相似度计算更加准确,且不需要遍寻所有的题型简化了相似度计算的过程,能够有利于提升知识点标注的效率。
重要关键字符确定模块101,与加权编辑距离计算模块102相连接,用于确定新增试题的重要关键字符记为第一字符串,确定待判断试题的重要关键字符记为第二字符串,并将第一字符串和第二字符串发送给加权编辑距离计算模块102,重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符;
可选的,本发明中采用词频-逆文档频度模型构建重要关键字字符库;以同一科目的大量的试题为数据基础(比如为100万道题),采用词频-逆文档频度模型在大量的试题中挑选出重要关键字,形成基本涵盖科目中所有知识点的重要关键字字符库;然后根据重要关键字字符库确定新增试题中的第一字符串和待判断试题中的第二字符串。第一字符串和第二字符串作为加权编辑距离的权重。以大量试题为基础,根据模型来挑选出重要关键字,能够保证重要关键字选取的准确性,进而保证后续相似度计算的准确性。
加权编辑距离计算模块102,与相似度计算模块103相连接,用于计算第一字符串和第二字符串之间的加权编辑距离,并将加权编辑距离发送给相似度计算模块,加权编辑距离为第一字符串和第二字符串之间相互转化的最少的加权操作次数;
可选的,加权编辑距离的操作包括:插入、删除、替换;其中,在计算加权操作次数时:删除记为一次操作,插入记为一次操作,替换记为两次操作。本发明采用的加权编辑距离的权重为试题中的重要关键字,由于重要关键字的会影响试题含义或者类型,所以在计算加权操作次数时,将替换记为两次操作,以增加替换重要关键字在操作次数中的影响,提升后续相似度计算的准确性。
相似度计算模块103,与相似题组生成模块104相连接,用于根据加权编辑距离计算新增试题与待判断试题之间的相似度r,并将相似度r的计算结果发送给相似题组生成模块104;可选的,相似度r的计算公式为:
r=(sum-dist)/sum,其中,sum为第一字符串和第二字符串的长度总和,dist为加权编辑距离;
相似题组生成模块104,用于接收相似度r的计算结果并判断,当相似度r大于等于第一阈值时,相似度r所对应的待判断试题为相似题,遍寻样本库得到相似题组,相似题组包括m道相似题,m为正整数,且m≥1,并将相似题组的生成结果发送给知识点确定模块20;可选的,第一阈值可以根据实际需求进行选择,第一阈值可以在0到1之间选取任意值。例如可以为0.3、0.4或者0.5。比如当第一阈值为0.3时,则判断相似度r大于等于0.3对应的待判断试题均为相似题。
知识点标注模块20,用于根据相似题组对新增试题进行知识点标注;包括判断子模块201、标注子模块202;
判断子模块201,与标注子模块202相连接,用于当判断相似题组中最相似试题对应的相似度r在第一级别范围内时,将位于第一级别范围内的相似度r对应的相似题判定为第一待利用试题,并将第一待利用试题的判定结果发送给标注子模块202;可选的,当相似题组中最相似试题对应的相似度r在第一级别范围内时,根据相似度r由大到小对相似题进行排序,将最多前5道相似度r位于第一级别范围内的相似题判定为第一待利用试题。也即当根据相似度r进行排序后,相似度r在第一级别范围内的试题少于5道,则将所有的相似度r在第一级别范围对应的相似题均判定为第一待利用试题;当根据相似度r进行排序后,相似度r在第一级别范围内的试题多于5道,则选取前5道相似题判定为第一待利用试题。
标注子模块202,根据第一待利用试题的判定结果,将第一待利用试题对应的知识点赋予新增试题;可选的,每道第一待利用试题可以对应一个知识点或者对应多个知识点。当相似题组中包括多道第一待利用试题时,将知识点赋予所述新增试题时,相同的知识点仅赋予一次。
判断子模块201,还用于当判断相似题组中最相似试题对应的相似度r在第二级别范围内时,将相似题组中的所有试题均判定为第二待利用试题,并将第二待利用试题的判断结果发送给标注子模块202;可选的,根据相似度r由大到小对相似题进行排序,将最多前5道相似题判定为第二待利用试题。也即当根据相似度r进行排序后,相似度r在第二级别范围内的试题少于5道,则将所有的相似题均判定为第二待利用试题;当根据相似度r进行排序后,相似度r在第二级别范围内的试题多于5道,则选取前5道相似题判定为第二待利用试题。在后续计算知识点中出现次数时,也仅在最多5道试题中计算,将出现次数最多的知识点赋予新增试题;在后续计算最相似的p个知识点时,也仅在此最多5道试题对应的知识点中进行判断。
标注子模块202,还用于根据第二待利用试题的判断结果将在第二待利用试题对应的所有知识点中出现次数最多的知识点赋予新增试题,并根据两个知识点同时出现的置信度,判断第二待利用试题对应的剩余知识点中与出现次数最多的知识点最可能同时出现的p个知识点,将p个知识点也赋予新增试题,p为正整数,且p≥1;其中,
可选的,两个知识点同时出现的置信度的计算方法为:统计样本库中,两个知识点在同一道题中同时出现的次数q;根据次数q计算置信度D,其中,D=R*q,R正相关系数,R取值可以根据需求自己定义。通过样本库中的大量数据的统计,两个知识点在同一道题中同时出现的次数越多,则两个知识点之间的关联性越大,则两个知识点同时出现的置信度越高。
最相似试题为相似题组中相似度r最大的试题,第一级别范围的相似度大于第二级别范围的相似度。
可选的,判断子模块201,还用于判断相似题组中最相似试题对应的相似度r在第二级别范围内,且相似题组中的相似题均各自对应一个知识点时,将相似题组中的相似题判定为第三待利用试题,并将第三待利用试题的判断结果发送给标注子模块202;标注子模块202还用于根据第三待利用试题的判断结果,将第三待利用试题对应的知识点赋予新增试题,也即将相似题组对应的所有知识点均赋予新增试题。相似题组中对应的知识点可能重复,将知识点赋予新增试题时,相同的知识点仅赋予一次。
通过上述实施例可知,本发明提供的新增试题的知识点标注方法及系统,至少实现了如下的有益效果:
(1)本发明基于计算新增试题与样本库中试题之间的相似度,根据相似题对应的知识点对新增试题的知识点进行标注,知识点标注过程不需要人工参与,能够提升知识点标注的效率,节约时间和费用。
(2)基于重要关键字作为权重,计算新增试题与样本库中试题之间的重要关键字之间的加权编辑距离,从而确定新增试题与样本库中试题之间的相似度,来选择与新增试题相似的试题,相似度越高考察相同知识点的可能性越高,本发明采用重要关键字作为权重,相似度计算的准确度更高,从而能够提高知识点标注的准确性。
(3)在判定第一待利用试题或者第二待利用试题时最多判定5道相应的试题,能够进一步提升知识点标注的准确性,简化运算过程,提高知识点标注效率。
(4)样本库按题型进行分类,获取新增试题后,根据试题类型来寻找相似题,后续相似度计算更加准确,且不需要遍寻所有的题型简化了相似度计算的过程,能够有利于提升知识点标注的效率。
虽然已经通过例子对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上例子仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种新增试题的知识点标注方法,其特征在于,包括:
获取新增试题,遍寻样本库寻找与所述新增试题相似的相似题,得到相似题组,所述样本库中的试题均为待判断试题,一道所述待判断试题对应n个知识点,n为正整数,且n≥1,具体包括:
确定所述新增试题的重要关键字符记为第一字符串,确定所述待判断试题的重要关键字符记为第二字符串,所述重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符;
计算所述第一字符串和所述第二字符串之间的加权编辑距离,所述加权编辑距离为所述第一字符串和所述第二字符串之间相互转化的最少的加权操作次数;
根据所述加权编辑距离计算所述新增试题与所述待判断试题之间的相似度r;
当相似度r大于等于第一阈值时,相似度r所对应的所述待判断试题为所述相似题;
遍寻所述样本库得到所述相似题组,所述相似题组包括m道所述相似题,m为正整数,且m≥1;
根据所述相似题组对所述新增试题进行知识点标注,具体包括:
当所述相似题组中最相似试题对应的相似度r在第一级别范围内时,将位于第一级别范围内的相似度r对应的所述相似题判定为第一待利用试题,将所述第一待利用试题对应的知识点赋予所述新增试题;
当所述相似题组中最相似试题对应的相似度r在第二级别范围内时,将所述相似题组中的试题判定为第二待利用试题,将在所述第二待利用试题对应的所有知识点中出现次数最多的知识点赋予所述新增试题,然后根据两个知识点同时出现的置信度,判断所述第二待利用试题对应的剩余知识点中与所述出现次数最多的知识点最可能同时出现的p个知识点,将所述p个知识点也赋予所述新增试题,p为正整数,且p≥1;其中,
最相似试题为所述相似题组中相似度r最大的试题,所述第一级别范围的相似度大于第二级别范围的相似度。
2.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,
相似度r的计算公式为:r=(sum-dist)/sum,其中,sum为所述第一字符串和所述第二字符串的长度总和,dist为所述加权编辑距离。
3.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,
所述两个知识点同时出现的置信度的计算方法为:
统计所述样本库中,两个知识点在同一道题中同时出现的次数q;
根据所述次数q计算所述置信度D,其中,D=R*q,R正相关系数。
4.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,
获取新增试题,遍寻样本库寻找与所述新增试题相似的相似题,得到相似题组,进一步包括:
将样本库中试题按题型进行分类为子样本库,一个所述子样本库中仅包括一种题型的试题;
获取新增试题,根据所述新增试题的题型,遍寻相应的所述子样本库寻找与所述新增试题相似的相似题,得到相似题组。
5.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,
根据所述相似题组对所述新增试题进行知识点标注,还包括:当所述相似题组中最相似试题对应的相似度r在第二级别范围内,且所述相似题组中的所述相似题均各自对应一个知识点时,将所述相似题组对应的所有知识点均赋予所述新增试题。
6.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,
根据所述相似题组对所述新增试题进行知识点标注,还包括:
当所述相似题组中最相似试题对应的相似度r在第一级别范围内时,根据相似度r由大到小对所述相似题进行排序,将最多前5道相似度r位于第一级别范围内的所述相似题判定为所述第一待利用试题;
当所述相似题组中最相似试题对应的相似度r在第二级别范围内时,根据相似度r由大到小对所述相似题进行排序,将最多前5道所述相似题判定为所述第二待利用试题。
7.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,
确定所述新增试题的重要关键字符记为第一字符串,确定待判断试题的重要关键字符记为第二字符串的步骤包括:
采用词频-逆文档频度模型构建重要关键字字符库;
根据所述重要关键字字符库确定所述第一字符串和所述第二字符串。
8.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,
所述样本库中试题的来源至少包括:例题、课后习题、模拟题、期中考试试题、期末考试试题、升学考试真题。
9.根据权利要求1所述的新增试题的知识点标注方法,其特征在于,
根据所述相似题组对所述新增试题进行知识点标注,进一步包括:将知识点赋予所述新增试题时,相同的知识点仅赋予一次。
10.一种新增试题的知识点标注系统,其特征在于,包括:相似题寻找模块、知识点标注模块;其中,
所述相似题寻找模块,用于获取新增试题,并遍寻样本库寻找与所述新增试题相似的相似题,得到相似题组,所述样本库中的试题均为待判断试题,一道所述待判断试题对应n个知识点,n为正整数,且n≥1,包括:重要关键字符确定模块、加权编辑距离计算模块、相似度计算模块、相似题组生成模块;
所述重要关键字符确定模块,与所述加权编辑距离计算模块相连接,用于确定所述新增试题的重要关键字符记为第一字符串,确定所述待判断试题的重要关键字符记为第二字符串,并将所述第一字符串和所述第二字符串发送给所述加权编辑距离计算模块,所述重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符;
所述加权编辑距离计算模块,与所述相似度计算模块相连接,用于计算所述第一字符串和所述第二字符串之间的加权编辑距离,并将所述加权编辑距离发送给所述相似度计算模块,所述加权编辑距离为所述第一字符串和所述第二字符串之间相互转化的最少的加权操作次数;
所述相似度计算模块,与所述相似题组生成模块相连接,用于根据所述加权编辑距离计算所述新增试题与所述待判断试题之间的相似度r,并将相似度r的计算结果发送给所述相似题组生成模块;
所述相似题组生成模块,用于接收相似度r的计算结果并判断,当相似度r大于等于第一阈值时,相似度r所对应的所述待判断试题为所述相似题,遍寻所述样本库得到所述相似题组,所述相似题组包括m道所述相似题,m为正整数,且m≥1,并将所述相似题组的生成结果发送给所述知识点确定模块;
所述知识点标注模块,用于根据所述相似题组对所述新增试题进行知识点标注;包括判断子模块、标注子模块;
所述判断子模块,与所述标注子模块相连接,用于当判断所述相似题组中最相似试题对应的相似度r在第一级别范围内时,将位于第一级别范围内的相似度r对应的所述相似题判定为第一待利用试题,并将所述第一待利用试题的判定结果发送给所述标注子模块;
所述标注子模块,根据所述第一待利用试题的判定结果,将所述第一待利用试题对应的知识点赋予所述新增试题;
所述判断子模块,还用于当判断所述相似题组中最相似试题对应的相似度r在第二级别范围内时,将所述相似题组中的试题判定为第二待利用试题,并将所述第二待利用试题的判断结果发送给所述标注子模块,
所述标注子模块,还用于根据所述第二待利用试题的判断结果将在所述第二待利用试题对应的所有知识点中出现次数最多的知识点赋予所述新增试题,并根据两个知识点同时出现的置信度,判断所述第二待利用试题对应的剩余知识点中与所述出现次数最多的知识点最可能同时出现的p个知识点,将所述p个知识点也赋予所述新增试题,p为正整数,且p≥1;其中,
最相似试题为所述相似题组中相似度r最大的试题,所述第一级别范围的相似度大于第二级别范围的相似度。
CN201910681103.1A 2019-07-26 2019-07-26 一种新增试题的知识点标注方法及系统 Active CN110377802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910681103.1A CN110377802B (zh) 2019-07-26 2019-07-26 一种新增试题的知识点标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910681103.1A CN110377802B (zh) 2019-07-26 2019-07-26 一种新增试题的知识点标注方法及系统

Publications (2)

Publication Number Publication Date
CN110377802A CN110377802A (zh) 2019-10-25
CN110377802B true CN110377802B (zh) 2021-07-02

Family

ID=68256262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910681103.1A Active CN110377802B (zh) 2019-07-26 2019-07-26 一种新增试题的知识点标注方法及系统

Country Status (1)

Country Link
CN (1) CN110377802B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100976B (zh) * 2020-09-24 2021-11-16 上海松鼠课堂人工智能科技有限公司 知识点关系标注方法及系统
CN112966105B (zh) * 2021-03-04 2021-09-10 南京审计大学 一种利用违规问题分析自动生成审计试题的方法
CN114077873B (zh) * 2022-01-06 2022-05-31 江西风向标教育科技有限公司 数学试题难度类型的确定方法、系统、存储介质及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN106844384A (zh) * 2015-12-04 2017-06-13 北大方正集团有限公司 试题标引方法和装置
CN107967254A (zh) * 2017-10-31 2018-04-27 科大讯飞股份有限公司 知识点预测方法及装置、存储介质、电子设备
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
CN109191953A (zh) * 2018-11-12 2019-01-11 重庆靶向科技发展有限公司 一种智能化教学系统及方法
CN109299281A (zh) * 2018-07-06 2019-02-01 浙江学海教育科技有限公司 知识点标签的标注方法
CN109766548A (zh) * 2018-12-29 2019-05-17 北京京师乐学教育科技有限公司 考点识别方法、装置、设备和计算机存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100005413A1 (en) * 2008-07-07 2010-01-07 Changnian Liang User Interface for Individualized Education
US10474455B2 (en) * 2017-09-08 2019-11-12 Devfactory Fz-Llc Automating identification of code snippets for library suggestion models

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN106844384A (zh) * 2015-12-04 2017-06-13 北大方正集团有限公司 试题标引方法和装置
CN107967254A (zh) * 2017-10-31 2018-04-27 科大讯飞股份有限公司 知识点预测方法及装置、存储介质、电子设备
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
CN109299281A (zh) * 2018-07-06 2019-02-01 浙江学海教育科技有限公司 知识点标签的标注方法
CN109191953A (zh) * 2018-11-12 2019-01-11 重庆靶向科技发展有限公司 一种智能化教学系统及方法
CN109766548A (zh) * 2018-12-29 2019-05-17 北京京师乐学教育科技有限公司 考点识别方法、装置、设备和计算机存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Test Question Classification and Duplicate Checking Based on Course Knowledge Point;Li Yong;《 2009 International Conference on Computational Intelligence and Software Engineering》;20091213;全文 *
试题知识点预测:一种教研知识强化的卷积神经网络模型;胡国平,张丹,苏喻,刘青文,李佳,王瑞;《中文信息学报》;20180531;第32卷(第5期);全文 *

Also Published As

Publication number Publication date
CN110377802A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
Li et al. Traditional literature review and research synthesis
CN108846126B (zh) 关联问题聚合模型的生成、问答式聚合方法、装置及设备
CN110377802B (zh) 一种新增试题的知识点标注方法及系统
CN111274411A (zh) 课程推荐方法、装置、电子设备及可读存储介质
CN109977408A (zh) 基于深度学习的英语阅读分级和读物推荐系统的实现方法
CN109949637B (zh) 一种客观题目的自动解答方法和装置
CN110888989B (zh) 一种智能学习平台及其构建方法
CN111524578B (zh) 一种基于电子心理沙盘的心理评估装置、方法及系统
US20150026184A1 (en) Methods and systems for content management
CN111159356B (zh) 基于教学内容的知识图谱构建方法
CN112287037A (zh) 一种多实体混合知识图谱构建方法、装置及存储介质
CN111177399A (zh) 一种知识图谱构建方法和装置
Agrawal et al. Identifying enrichment candidates in textbooks
CN111460101A (zh) 知识点类型的识别方法、装置及处理器
CN110968708A (zh) 一种教育信息资源属性标注方法及系统
CN110993102A (zh) 一种基于校园大数据的学生行为与心理检测结果的精准分析方法及系统
Agarwal et al. Autoeval: A nlp approach for automatic test evaluation system
CN112487290A (zh) 基于大数据和人工智能的互联网精准化教学方法及系统
CN116049367A (zh) 一种基于无监督知识增强的视觉-语言预训练方法及装置
CN114722204A (zh) 多标签文本分类方法及装置
CN117114104B (zh) 基于知识特征划分与多维测评的个性化知识图谱生成方法
Abazeed et al. A Classification and Prediction Model for Student's Performance in University Level.
CN116860978B (zh) 基于知识图谱和大模型的小学语文个性化学习系统
CN113065356A (zh) 一种基于语义分析算法的it设备运维故障建议处理方法
CN112101567A (zh) 基于人工智能的自动化建模方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant