CN102629272A - 一种基于聚类的考试系统试题库优化方法 - Google Patents
一种基于聚类的考试系统试题库优化方法 Download PDFInfo
- Publication number
- CN102629272A CN102629272A CN2012100669952A CN201210066995A CN102629272A CN 102629272 A CN102629272 A CN 102629272A CN 2012100669952 A CN2012100669952 A CN 2012100669952A CN 201210066995 A CN201210066995 A CN 201210066995A CN 102629272 A CN102629272 A CN 102629272A
- Authority
- CN
- China
- Prior art keywords
- examination question
- cluster
- central point
- word
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明提供的是一种基于聚类的考试系统试题库优化方法。本发明的关键在于将文本聚类特征引入到考试系统的试题库优化过程中,该方法能够在未知试题库是否无重复试题的情况下,根据试题内容与词库词语的匹配程度分词,并通过计算试题与选定中心点的相似度,将相似度最接近的试题聚为一簇,并在本簇内查找重复试题进行标记。基于聚类的考试系统试题库优化方法,能够综合考虑试题库中各试题的相似情况及试题语义,对语义相似或完全相同的试题进行标记,从而有效降低了试题库的重复度;各簇内并行运行,从而大大提升了查重速度,提高了试题查重效率。
Description
(一)技术领域
本发明涉及的是一种基于聚类的考试系统试题库优化方法。
(二)背景技术
当前网上考试系统的实现中试题库容量的数量级还处在千级、万级,而云教育系统的出现会使数量级上升至十万、百万甚至千万级。对于试题库的优化大多数是基于数据库自身的优化功能,此种方法对于小数量级的数据具有比较明显的功能,但对于大数量级的数据处理却不具备快速准确的优点。
聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类与分类的不同在于,聚类所要求划分的类是未知的。
本发明是将聚类的思想应用于考试系统试题库优化。该方法能够在未知试题库是否无重复试题的情况下,根据试题内容与词库词语的匹配程度分词,并通过计算试题与选定中心点的相似度,将相似度最接近的试题聚为一簇,并在本簇内查找重复试题进行标记。基于聚类的考试系统试题库优化方法,能够综合考虑试题库中各试题的相似情况及试题语义,对语义相似或完全相同的试题进行标记,从而有效降低了试题库的重复度;各簇内并行运行,从而大大提升了查重速度,提高了试题查重效率。
(三)发明内容
本发明的目的在于提供一种基于聚类思想的考试系统试题库优化方法。该方法能够在未知试题库是否无重复试题的情况下,根据试题内容与词库词语的匹配程度分词,并通过计算试题与选定中心点的相似度,将相似度最接近的试题聚为一簇,并在本簇内查找重复试题进行标记。基于聚类的考试系统试题库优化方法,能够综合考虑试题库中各试题的相似情况及试题语义,对语义相似或完全相同的试题进行标记,从而有效降低了试题库的重复度;各簇内并行运行,从而大大提升了查重速度,提高了试题查重效率。
本发明的目的是这样实现的:
由1个试题库、1个Web服务器、1个词库和n个用户构成的考试系统,在未知试题库是否存在重复试题时,将各试题分词并与词库中各词比对,得到中心点与各试题的分词向量,由此计算试题与各中心点的相似度,并将试题加入相似度最高的中心点所在的簇内;在输入新试题组时,依次对试题分词,并与各簇内中心点计算相似度,并将试题加入相似度最高点中心点所在的簇内;在各簇内进行相似查找,将各簇内的相似试题进行标记;
词库U中各词之间的权值关系表示为wij,其中,1≤i,j≤n,0≤wij≤1;
试题集合X={Z1,Z2,…,Zm},聚类半径分别为R1,R2,…,Rs,其中,m为试题总数,s为总簇数;
各簇中心点分别表示为A1,A2,…,As,Al分词后得到各词表示为(Al1,Al2,…,Alh),其向量表示为其中,1≤l≤s,h为Al词总数即维数;由A1,A2,…,As为中心点的簇分别表示为V1,V2,…,Vs;
其具体方法步骤为:
1:输入词库U,词库中词语的权值为wij,其中,1≤i,j≤n,0≤wij≤1;
2:输入各簇中心点(A1,A2,…,As),Al为某一个中心点,其中,1≤l≤s,s为中心点总数;
3:输入中心点簇类半径R1,R2,…,Rs;
4:输入试题集X={Z1,Z2,…,Zm},Zk为试题集中某试题,其中,1≤k≤m,m代表试题总数;
5:若X为空,则程序结束;否则,执行步骤6;
6:初始化集合V1,V2,…,Vs为空;
7:令l=1,初始化集合A为空;
8:根据词库将中心点Al分词为Al1,Al2,…,Alh,其中,Alj为中心点Al分词后的某词,h为词语总数,Alj在词库中的权值为wlj;
9:令j=1;
10:计算权值alj=wlj×nlj,其中,wlj为Alj权值,nlj为该词出现的次数;
11:将Al加入Vl中;
12:j+1;
13:若j>h,则执行步骤14;否则,执行步骤10;
14:将Al向量表示为
16:l+1;
17:若l>s,则执行步骤18;否则,执行步骤8;
18:令k=1,初始化集合B为空;
19:根据词库将试题Zk分词为Zk1,Zk2,…,Zkh,取得Zkh权值wkj,其中,Zkh为试题中某词,h为词语总数;
20:令j=1;
21:计算权值Qkj=wkj×nkj,其中,wkj为Qkj权值,nkj为该词出现的次数;
22:j+1;
23:若j>h,则执行步骤24;否则,执行步骤21;
24:将Zk向量表示为
26:k+1;
27:若k>m,则执行步骤28;否则,执行步骤19;
28:令k=1,l=1;
30:初始化集合C为空;
31:将其加入集合C中;
32:l+1;
33:若l>s,执行步骤34;否则,执行步骤29;
34:若Ckl为C中最大值,则将试题Zk加入Vl,执行步骤35;否则,执行步骤35;
35:k+1,l=1;
36:若k>m,则执行步骤37;否则,执行步骤29;
37:令u=1;
39:u+1;
40:若u>s,则结束程序;否则,执行步骤38。
本发明的关键在于如何根据试题库试题的分词,对各试题生成向量,为此,引入了词库以维护词与词之间的联系。当试题库容量较大时,对试题无法正确分类,使用了聚类思想,对试题进行了比较精确的分类,为试题库优化做了重要准备,有利于提高查重速度;而在新题目加入时,只在本簇内进行比对,减少了一些不必要的操作。
其主要创新点如下:
1、根据聚类思想将未知的大容量试题库进行了划分,使近似度较高的试题聚为一簇,综合考虑试题库中各试题的相似情况及试题语义,对语义相似或完全相同的试题进行标记,从而有效降低了试题库的重复度;各簇内并行运行,从而大大提升了查重速度,提高了试题查重效率。
2、引入了词典,该部件可以维护词与词之间的权值关系,保证新试题加入时在分词过程中可以得到每一次的权值,为之后向量的建立做准备,并保持词与词之间的相互联系,更具科学性。
(四)附图说明
图1:基于聚类的考试系统试题库优化方法;
(五)具体实施方式
下面结合附图举例对本发明做更详细地描述:
本发明所述算法的特征在于:
由1个试题库、1个Web服务器、1个词库和n个用户构成的考试系统,在未知试题库是否存在重复试题时,将各试题分词并与词库中各词比对,得到中心点与各试题的分词向量,由此计算试题与各中心点的相似度,并将试题加入相似度最高点中心点所在的簇内;在输入新试题组时,依次对试题分词,并与各簇内中心点计算相似度,并将试题加入相似度最高的中心点所在的簇内;在各簇内进行相似查找,将各簇内的相似试题进行标记;
词库U中各词之间的权值关系表示为wij,其中,1≤i,j≤n,0≤wij≤1;
试题集合X={Z1,Z2,…,Zm},聚类半径分别为R1,R2,…,Rs,其中,m为试题总数,s为总簇数;
各簇中心点分别表示为A1,A2,…,As,Al分词后得到各词表示为(Al1,Al2,…,Alh),其向量表示为其中,1≤l≤s,h为Al词总数即维数;由A1,A2,…,As为中心点的簇分别表示为V1,V2,…,Vs;
其具体方法步骤为:
1:输入词库U,词库中词语的权值为wij,其中,1≤i,j ≤n,0≤wij≤1;
2:输入各簇中心点(A1,A2,…,As),Al为某一个中心点,其中,1≤l≤s,s为中心点总数;
3:输入中心点簇类半径R1,R2,…,Rs;
4:输入试题集X={Z1,Z2,…,Zm},Zk为试题集中某试题,其中,1≤k≤m,m代表试题总数;
5:若X为空,则程序结束;否则,执行步骤6;
6:初始化集合V1,V2,…,Vs为空;
7:令l=1,初始化集合A为空;
8:根据词库将中心点Al分词为Al1,Al2,…,Alh,其中,Alj为中心点Al分词后的某词,h为词语总数,Alj在词库中的权值为wlj;
9:令j=1;
10:计算权值alj=wlj×nlj,其中,wlj为Alj权值,nlj为该词出现的次数;
11:将Al加入Vl中;
12:j+1;
13:若j>h,则执行步骤14;否则,执行步骤10;
14:将Al向量表示为
15:将加入集合A中;
16:l+1;
17:若l>s,则执行步骤18;否则,执行步骤8;
18:令k=1,初始化集合B为空;
19:根据词库将试题Zk分词为Zk1,Zk2,…,Zkh,取得Zkh权值wkj,其中,Zkh为试题中某词,h为词语总数;
20:令j=1;
21:计算权值Qkj=wkj×nkj,其中,wkj为Qkj权值,nkj为该词出现的次数;
22:j+1;
23:若j>h,则执行步骤24;否则,执行步骤21;
24:将Zk向量表示为
26:k+1;
27:若k>m,则执行步骤28;否则,执行步骤19;
28:令k=1,l=1;
30:初始化集合C为空;
32:l+1;
33:若l>s,执行步骤34;否则,执行步骤29;
34:若Ckl为C中最大值,则将试题Zk加入Vl,执行步骤35;否则,执行步骤35;
35:k+1,l=1;
36:若k>m,则执行步骤37;否则,执行步骤29;
37:令u=1;
39:u+1;
40:若u>s,则结束程序;否则,执行步骤38。
基于聚类的考试系统试题库优化方法具体实施模式是这样的:
由1个试题库、1个Web服务器、1个词库和n个用户构成的考试系统,在未知试题库是否存在重复试题时,将各试题分词并与词库中各词比对,得到中心点与各试题的分词向量,由此计算试题与各中心点的相似度,并将试题加入相似度最高点中心点所在的簇内;在输入新试题组时,依次对试题分词,并与各簇内中心点计算相似度,并将试题加入相似度最高点中心点所在的簇内;在各簇内进行相似查找,将各簇内的相似试题进行标记。
Claims (2)
1.一种基于聚类的考试系统试题库优化方法,其特征是:由1个试题库、1个Web服务器、1个词库和n个用户构成的考试系统,在未知试题库是否存在重复试题时,将各试题分词并与词库中各词比对,得到中心点与各试题的分词向量,由此计算试题与各中心点的相似度,并将试题加入相似度最高点中心点所在的簇内;在输入新试题组时,依次对试题分词,并与各簇内中心点计算相似度,并将试题加入相似度最高的中心点所在的簇内;在各簇内进行相似查找,将各簇内的相似试题进行标记;
词库U中各词之间的权值关系表示为wij,其中,1≤i,j≤n,0≤wij≤1;
试题集合X={Z1,Z2,…,Zm},聚类半径分别为R1,R2,…,Rs,其中,m为试题总数,s为总簇数;
各簇中心点分别表示为A1,A2,…,As,Al分词后得到各词表示为(Al1,Al2,…,Alh),其向量表示为 其中,1≤l≤s,h为Al词总数即 维数;由A1,A2,…,As为中心点的簇分别表示为V1,V2,…,Vs;
2.根据权利要求1所述的基于聚类的考试系统试题库优化方法,其特征是:其具体方法步骤为:
1:输入词库U,词库中词语的权值为wij,其中,1≤i,j≤n,0≤wij≤1;
2:输入各簇中心点(A1,A2,…,As),Al为某一个中心点,其中,1≤l≤s,s为中心点总数;
3:输入中心点簇类半径R1,R2,…,Rs;
4:输入试题集X={Z1,Z2,…,Zm},Zk为试题集中某试题,其中,1≤k≤m,m代表试题总数;
5:若X为空,则程序结束;否则,执行步骤6;
6:初始化集合V1,V2,…,Vs为空;
7:令l=1,初始化集合A为空;
8:根据词库将中心点Al分词为Al1,Al2,…,Alh,其中,Alj为中心点Al分词后的某词,h为词语 总数,Alj在词库中的权值为wlj;
9:令j=1;
10:计算权值alj=wlj×nlj,其中,wlj为Alj权值,nlj为该词出现的次数;
11:将Al加入Vl中;
12:j+1;
13:若j>h,则执行步骤14;否则,执行步骤10;
15:将 加入集合A中;
16:l+1;
17:若l>s,则执行步骤18;否则,执行步骤8;
18:令k=1,初始化集合B为空;
19:根据词库将试题Zk分词为Zk1,Zk2,…,Zkh,取得Zkh权值wkj,其中,Zkh为试题中某词,h为词语总数;
20:令j=1;
21:计算权值Qkj=wkj×nkj,其中,wkj为Qkj权值,nkj为该词出现的次数;
22:j+1;
23:若j>h,则执行步骤24;否则,执行步骤21;
26:k+1;
27:若k>m,则执行步骤28;否则,执行步骤19;
28:令k=1,l=1;
30:初始化集合C为空;
32:l+1;
33:若l>s,执行步骤34;否则,执行步骤29;
34:若Ckl为C中最大值,则将试题Zk加入Vl,执行步骤35;否则,执行步骤35;
35:k+1,l=1;
36:若k>m,则执行步骤37;否则,执行步骤29;
37:令u=1;
39:u+1;
40:若u>s,则结束程序;否则,执行步骤38。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100669952A CN102629272A (zh) | 2012-03-14 | 2012-03-14 | 一种基于聚类的考试系统试题库优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100669952A CN102629272A (zh) | 2012-03-14 | 2012-03-14 | 一种基于聚类的考试系统试题库优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102629272A true CN102629272A (zh) | 2012-08-08 |
Family
ID=46587532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012100669952A Pending CN102629272A (zh) | 2012-03-14 | 2012-03-14 | 一种基于聚类的考试系统试题库优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102629272A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955857A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种搜索引擎中基于类中心压缩变换的文本聚类方法 |
CN105373594A (zh) * | 2015-10-23 | 2016-03-02 | 广东小天才科技有限公司 | 一种筛查题库中重复试题的方法及装置 |
CN105824798A (zh) * | 2016-03-03 | 2016-08-03 | 云南电网有限责任公司教育培训评价中心 | 基于试题关键字相似性的试题库中的试题去重方法 |
CN106023009A (zh) * | 2016-05-05 | 2016-10-12 | 广东小天才科技有限公司 | 一种试卷试题库建立方法及系统 |
CN106326417A (zh) * | 2016-08-24 | 2017-01-11 | 冯玉国 | 一种试题数据处理方法及系统 |
CN106815372A (zh) * | 2017-02-06 | 2017-06-09 | 广东小天才科技有限公司 | 一种基于理科试题库的试题去重方法及装置、用户设备 |
CN107301165A (zh) * | 2016-04-14 | 2017-10-27 | 科大讯飞股份有限公司 | 一种试题难度分析方法及系统 |
CN110297886A (zh) * | 2019-05-31 | 2019-10-01 | 广州大学 | 基于短文本的oj题目分类器构建方法及题目模拟方法 |
CN110390019A (zh) * | 2019-07-26 | 2019-10-29 | 江苏曲速教育科技有限公司 | 一种试题的聚类方法、去重方法及系统 |
CN114913729A (zh) * | 2021-02-09 | 2022-08-16 | 广州视源电子科技股份有限公司 | 一种选题方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408893A (zh) * | 2008-11-26 | 2009-04-15 | 哈尔滨工业大学 | 一种快速文档聚类方法 |
CN101520802A (zh) * | 2009-04-13 | 2009-09-02 | 腾讯科技(深圳)有限公司 | 一种问答对的质量评价方法和系统 |
CN101763431A (zh) * | 2010-01-06 | 2010-06-30 | 电子科技大学 | 基于海量网络舆情信息的pl聚类处理方法 |
CN101853272A (zh) * | 2010-04-30 | 2010-10-06 | 华北电力大学(保定) | 基于相关反馈和聚类的搜索引擎技术 |
CN101984435A (zh) * | 2010-11-17 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种对文本进行分发的方法和装置 |
-
2012
- 2012-03-14 CN CN2012100669952A patent/CN102629272A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408893A (zh) * | 2008-11-26 | 2009-04-15 | 哈尔滨工业大学 | 一种快速文档聚类方法 |
CN101520802A (zh) * | 2009-04-13 | 2009-09-02 | 腾讯科技(深圳)有限公司 | 一种问答对的质量评价方法和系统 |
CN101763431A (zh) * | 2010-01-06 | 2010-06-30 | 电子科技大学 | 基于海量网络舆情信息的pl聚类处理方法 |
CN101853272A (zh) * | 2010-04-30 | 2010-10-06 | 华北电力大学(保定) | 基于相关反馈和聚类的搜索引擎技术 |
CN101984435A (zh) * | 2010-11-17 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种对文本进行分发的方法和装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955857B (zh) * | 2012-11-09 | 2015-07-08 | 北京航空航天大学 | 一种搜索引擎中基于类中心压缩变换的文本聚类方法 |
CN102955857A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种搜索引擎中基于类中心压缩变换的文本聚类方法 |
CN105373594B (zh) * | 2015-10-23 | 2019-05-21 | 广东小天才科技有限公司 | 一种筛查题库中重复试题的方法及装置 |
CN105373594A (zh) * | 2015-10-23 | 2016-03-02 | 广东小天才科技有限公司 | 一种筛查题库中重复试题的方法及装置 |
CN105824798A (zh) * | 2016-03-03 | 2016-08-03 | 云南电网有限责任公司教育培训评价中心 | 基于试题关键字相似性的试题库中的试题去重方法 |
CN107301165A (zh) * | 2016-04-14 | 2017-10-27 | 科大讯飞股份有限公司 | 一种试题难度分析方法及系统 |
CN106023009A (zh) * | 2016-05-05 | 2016-10-12 | 广东小天才科技有限公司 | 一种试卷试题库建立方法及系统 |
CN106326417A (zh) * | 2016-08-24 | 2017-01-11 | 冯玉国 | 一种试题数据处理方法及系统 |
CN106815372A (zh) * | 2017-02-06 | 2017-06-09 | 广东小天才科技有限公司 | 一种基于理科试题库的试题去重方法及装置、用户设备 |
CN110297886A (zh) * | 2019-05-31 | 2019-10-01 | 广州大学 | 基于短文本的oj题目分类器构建方法及题目模拟方法 |
CN110390019A (zh) * | 2019-07-26 | 2019-10-29 | 江苏曲速教育科技有限公司 | 一种试题的聚类方法、去重方法及系统 |
CN114913729A (zh) * | 2021-02-09 | 2022-08-16 | 广州视源电子科技股份有限公司 | 一种选题方法、装置、计算机设备和存储介质 |
WO2022170985A1 (zh) * | 2021-02-09 | 2022-08-18 | 广州视源电子科技股份有限公司 | 选题方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102629272A (zh) | 一种基于聚类的考试系统试题库优化方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN105224695B (zh) | 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置 | |
CN104573046B (zh) | 一种基于词向量的评论分析方法及系统 | |
CN103279478B (zh) | 一种基于分布式互信息文档特征提取方法 | |
CN103823896B (zh) | 一种学科特征值算法及基于其的项目评审专家推荐算法 | |
CN106599054B (zh) | 一种题目分类及推送的方法及系统 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN105550269A (zh) | 一种有监督学习的产品评论分析方法及系统 | |
CN106202032A (zh) | 一种面向微博短文本的情感分析方法及其系统 | |
CN104699766A (zh) | 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法 | |
CN110188047A (zh) | 一种基于双通道卷积神经网络的重复缺陷报告检测方法 | |
CN104361037B (zh) | 微博分类方法及装置 | |
CN105320646A (zh) | 一种基于增量聚类的新闻话题挖掘方法及其装置 | |
CN103886108A (zh) | 一种不均衡文本集的特征选择和权重计算方法 | |
CN105069143A (zh) | 提取文档中关键词的方法及装置 | |
CN103473262A (zh) | 一种基于关联规则的Web评论观点自动分类系统及分类方法 | |
CN106156372A (zh) | 一种互联网网站的分类方法及装置 | |
CN103544307B (zh) | 一种不依赖文档库的多搜索引擎自动化对比评测方法 | |
CN103092966A (zh) | 一种挖掘词汇的方法及装置 | |
CN103530316A (zh) | 一种基于多视图学习的科学主题提取方法 | |
CN104881399A (zh) | 基于概率软逻辑psl的事件识别方法和系统 | |
CN106681986A (zh) | 一种多维度情感分析系统 | |
CN103207804B (zh) | 基于集群作业日志的MapReduce负载模拟方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120808 |