CN102629272A

CN102629272A - 一种基于聚类的考试系统试题库优化方法

Info

Publication number: CN102629272A
Application number: CN2012100669952A
Authority: CN
Inventors: 姚文斌; 雷鸣涛; 叶鹏迪; 韩司; 王枞
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2012-03-14
Filing date: 2012-03-14
Publication date: 2012-08-08

Abstract

本发明提供的是一种基于聚类的考试系统试题库优化方法。本发明的关键在于将文本聚类特征引入到考试系统的试题库优化过程中，该方法能够在未知试题库是否无重复试题的情况下，根据试题内容与词库词语的匹配程度分词，并通过计算试题与选定中心点的相似度，将相似度最接近的试题聚为一簇，并在本簇内查找重复试题进行标记。基于聚类的考试系统试题库优化方法，能够综合考虑试题库中各试题的相似情况及试题语义，对语义相似或完全相同的试题进行标记，从而有效降低了试题库的重复度；各簇内并行运行，从而大大提升了查重速度，提高了试题查重效率。

Description

一种基于聚类的考试系统试题库优化方法

(一)技术领域

本发明涉及的是一种基于聚类的考试系统试题库优化方法。

(二)背景技术

当前网上考试系统的实现中试题库容量的数量级还处在千级、万级，而云教育系统的出现会使数量级上升至十万、百万甚至千万级。对于试题库的优化大多数是基于数据库自身的优化功能，此种方法对于小数量级的数据具有比较明显的功能，但对于大数量级的数据处理却不具备快速准确的优点。

聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。聚类分析又称群分析，它是研究(样品或指标)分类问题的一种统计分析方法。聚类与分类的不同在于，聚类所要求划分的类是未知的。

本发明是将聚类的思想应用于考试系统试题库优化。该方法能够在未知试题库是否无重复试题的情况下，根据试题内容与词库词语的匹配程度分词，并通过计算试题与选定中心点的相似度，将相似度最接近的试题聚为一簇，并在本簇内查找重复试题进行标记。基于聚类的考试系统试题库优化方法，能够综合考虑试题库中各试题的相似情况及试题语义，对语义相似或完全相同的试题进行标记，从而有效降低了试题库的重复度；各簇内并行运行，从而大大提升了查重速度，提高了试题查重效率。

(三)发明内容

本发明的目的在于提供一种基于聚类思想的考试系统试题库优化方法。该方法能够在未知试题库是否无重复试题的情况下，根据试题内容与词库词语的匹配程度分词，并通过计算试题与选定中心点的相似度，将相似度最接近的试题聚为一簇，并在本簇内查找重复试题进行标记。基于聚类的考试系统试题库优化方法，能够综合考虑试题库中各试题的相似情况及试题语义，对语义相似或完全相同的试题进行标记，从而有效降低了试题库的重复度；各簇内并行运行，从而大大提升了查重速度，提高了试题查重效率。

本发明的目的是这样实现的：

由1个试题库、1个Web服务器、1个词库和n个用户构成的考试系统，在未知试题库是否存在重复试题时，将各试题分词并与词库中各词比对，得到中心点与各试题的分词向量，由此计算试题与各中心点的相似度，并将试题加入相似度最高的中心点所在的簇内；在输入新试题组时，依次对试题分词，并与各簇内中心点计算相似度，并将试题加入相似度最高点中心点所在的簇内；在各簇内进行相似查找，将各簇内的相似试题进行标记；

词库U中各词之间的权值关系表示为w_ij，其中，1≤i，j≤n，0≤w_ij≤1；

试题集合X＝{Z₁，Z₂，…，Z_m}，聚类半径分别为R₁，R₂，…，R_s，其中，m为试题总数，s为总簇数；

各簇中心点分别表示为A₁，A₂，…，A_s，A_l分词后得到各词表示为(A_l1，A_l2，…，A_lh)，其向量表示为

其中，1≤l≤s，h为A_l词总数即

维数；由A₁，A₂，…，A_s为中心点的簇分别表示为V₁，V₂，…，V_s；

第k个试题表示为Z_k，Z_k分词后得到各词表示为Z_k1，Z_k2，…，Z_kh，权值表示为Q_k1，Q_k2，…，Q_kh，其中，1≤k≤m，h表示Z_k的词总数即

维数；Z_k的向量表示为

{\overset{&RightArrow;}{λ}}_{k} = (Q_{k 1}, Q_{k 2}, \cdot \cdot \cdot, Q_{kh});

其具体方法步骤为：

1：输入词库U，词库中词语的权值为w_ij，其中，1≤i，j≤n，0≤w_ij≤1；

2：输入各簇中心点(A₁，A₂，…，A_s)，A_l为某一个中心点，其中，1≤l≤s，s为中心点总数；

3：输入中心点簇类半径R₁，R₂，…，R_s；

4：输入试题集X＝{Z₁，Z₂，…，Z_m}，Z_k为试题集中某试题，其中，1≤k≤m，m代表试题总数；

5：若X为空，则程序结束；否则，执行步骤6；

6：初始化集合V₁，V₂，…，V_s为空；

7：令l＝1，初始化集合A为空；

8：根据词库将中心点A_l分词为A_l1，A_l2，…，A_lh，其中，A_lj为中心点A_l分词后的某词，h为词语总数，A_lj在词库中的权值为w_lj；

9：令j＝1；

10：计算权值a_lj＝w_lj×n_lj，其中，w_lj为A_lj权值，n_lj为该词出现的次数；

11：将A_l加入V_l中；

12：j+1；

13：若j＞h，则执行步骤14；否则，执行步骤10；

14：将A_l向量表示为

{\overset{&RightArrow;}{β}}_{l} = (A_{l 1}, A_{l 2}, \cdot \cdot \cdot, A_{lh});

15：将

加入集合A中；

16：l+1；

17：若l＞s，则执行步骤18；否则，执行步骤8；

18：令k＝1，初始化集合B为空；

19：根据词库将试题Z_k分词为Z_k1，Z_k2，…，Z_kh，取得Z_kh权值w_kj，其中，Z_kh为试题中某词，h为词语总数；

20：令j＝1；

21：计算权值Q_kj＝w_kj×n_kj，其中，w_kj为Q_kj权值，n_kj为该词出现的次数；

22：j+1；

23：若j＞h，则执行步骤24；否则，执行步骤21；

24：将Z_k向量表示为

{\overset{&RightArrow;}{λ}}_{k} = (Q_{k 1}, Q_{k 2}, \cdot \cdot \cdot, Q_{kh});

25：将

加入集合B中；

26：k+1；

27：若k＞m，则执行步骤28；否则，执行步骤19；

28：令k＝1，l＝1；

29：由集合A中取得中心点A_l向量

集合B中取得中心点Z_k向量

计算试题Z_k与中心点A_l的相似度

sim ({\overset{&RightArrow;}{λ}}_{k}, {\overset{&RightArrow;}{β}}_{l}) = \cos (({\overset{&RightArrow;}{λ}}_{k} \cdot {\overset{&RightArrow;}{β}}_{l}) / (| {\overset{&RightArrow;}{λ}}_{k} | | {\overset{&RightArrow;}{β}}_{l} |)),

| {\overset{&RightArrow;}{λ}}_{k} | = \sqrt{Σ_{u = 0}^{h} Q_{ku}^{2}},

| {\overset{&RightArrow;}{β}}_{l} | = \sqrt{Σ_{v = 0}^{h} A_{lv}^{2}};

30：初始化集合C为空；

31：将其加入集合C中；

32：l+1；

33：若l＞s，执行步骤34；否则，执行步骤29；

34：若C_kl为C中最大值，则将试题Z_k加入V_l，执行步骤35；否则，执行步骤35；

35：k+1，l＝1；

36：若k＞m，则执行步骤37；否则，执行步骤29；

37：令u＝1；

38：若V_up＝V_uq，则标记V_uq为重复题目，其中，

执行步骤39；否则，执行步骤39；

39：u+1；

40：若u＞s，则结束程序；否则，执行步骤38。

本发明的关键在于如何根据试题库试题的分词，对各试题生成向量，为此，引入了词库以维护词与词之间的联系。当试题库容量较大时，对试题无法正确分类，使用了聚类思想，对试题进行了比较精确的分类，为试题库优化做了重要准备，有利于提高查重速度；而在新题目加入时，只在本簇内进行比对，减少了一些不必要的操作。

其主要创新点如下：

1、根据聚类思想将未知的大容量试题库进行了划分，使近似度较高的试题聚为一簇，综合考虑试题库中各试题的相似情况及试题语义，对语义相似或完全相同的试题进行标记，从而有效降低了试题库的重复度；各簇内并行运行，从而大大提升了查重速度，提高了试题查重效率。

2、引入了词典，该部件可以维护词与词之间的权值关系，保证新试题加入时在分词过程中可以得到每一次的权值，为之后向量的建立做准备，并保持词与词之间的相互联系，更具科学性。

(四)附图说明

图1：基于聚类的考试系统试题库优化方法；

(五)具体实施方式

下面结合附图举例对本发明做更详细地描述：

本发明所述算法的特征在于：

由1个试题库、1个Web服务器、1个词库和n个用户构成的考试系统，在未知试题库是否存在重复试题时，将各试题分词并与词库中各词比对，得到中心点与各试题的分词向量，由此计算试题与各中心点的相似度，并将试题加入相似度最高点中心点所在的簇内；在输入新试题组时，依次对试题分词，并与各簇内中心点计算相似度，并将试题加入相似度最高的中心点所在的簇内；在各簇内进行相似查找，将各簇内的相似试题进行标记；

其中，1≤l≤s，h为A_l词总数即维数；由A₁，A₂，…，A_s为中心点的簇分别表示为V₁，V₂，…，V_s；

维数；Z_k的向量表示为

{\overset{&RightArrow;}{λ}}_{k} = (Q_{k 1}, Q_{k 2}, \cdot \cdot \cdot, Q_{kh});

其具体方法步骤为：

1：输入词库U，词库中词语的权值为w_ij，其中，1≤i，j ≤n，0≤w_ij≤1；

3：输入中心点簇类半径R₁，R₂，…，R_s；

4：输入试题集X＝{Z₁，Z₂，…，Z_m}，Zk为试题集中某试题，其中，1≤k≤m，m代表试题总数；

5：若X为空，则程序结束；否则，执行步骤6；

6：初始化集合V₁，V₂，…，V_s为空；

7：令l＝1，初始化集合A为空；

9：令j＝1；

11：将A_l加入V_l中；

12：j+1；

13：若j＞h，则执行步骤14；否则，执行步骤10；

14：将A_l向量表示为

{\overset{&RightArrow;}{β}}_{l} = (A_{l 1}, A_{l 2}, \cdot \cdot \cdot, A_{lh});

15：将加入集合A中；

16：l+1；

17：若l＞s，则执行步骤18；否则，执行步骤8；

18：令k＝1，初始化集合B为空；

20：令j＝1；

22：j+1；

23：若j＞h，则执行步骤24；否则，执行步骤21；

24：将Z_k向量表示为

{\overset{&RightArrow;}{λ}}_{k} = (Q_{k 1}, Q_{k 2}, \cdot \cdot \cdot, Q_{kh});

25：将

加入集合B中；

26：k+1；

27：若k＞m，则执行步骤28；否则，执行步骤19；

28：令k＝1，l＝1；

29：由集合A中取得中心点A_l向量

集合B中取得中心点Z_k向量

计算试题Z_k与中心点A_l的相似度

sim ({\overset{&RightArrow;}{λ}}_{k}, {\overset{&RightArrow;}{β}}_{l}) = \cos (({\overset{&RightArrow;}{λ}}_{k} \cdot {\overset{&RightArrow;}{β}}_{l}) / (| {\overset{&RightArrow;}{λ}}_{k} | | {\overset{&RightArrow;}{β}}_{l} |)),

| {\overset{&RightArrow;}{λ}}_{k} | = \sqrt{Σ_{u = 0}^{h} Q_{ku}^{2}},

| {\overset{&RightArrow;}{β}}_{l} | = \sqrt{Σ_{v = 0}^{h} A_{lv}^{2}};

30：初始化集合C为空；

31：

将其加入集合C中；

32：l+1；

33：若l＞s，执行步骤34；否则，执行步骤29；

35：k+1，l＝1；

36：若k＞m，则执行步骤37；否则，执行步骤29；

37：令u＝1；

38：若V_up＝V_uq，则标记V_uq为重复题目，其中，

执行步骤39；否则，执行步骤39；

39：u+1；

40：若u＞s，则结束程序；否则，执行步骤38。

基于聚类的考试系统试题库优化方法具体实施模式是这样的：

由1个试题库、1个Web服务器、1个词库和n个用户构成的考试系统，在未知试题库是否存在重复试题时，将各试题分词并与词库中各词比对，得到中心点与各试题的分词向量，由此计算试题与各中心点的相似度，并将试题加入相似度最高点中心点所在的簇内；在输入新试题组时，依次对试题分词，并与各簇内中心点计算相似度，并将试题加入相似度最高点中心点所在的簇内；在各簇内进行相似查找，将各簇内的相似试题进行标记。

Claims

1.一种基于聚类的考试系统试题库优化方法，其特征是：由1个试题库、1个Web服务器、1个词库和n个用户构成的考试系统，在未知试题库是否存在重复试题时，将各试题分词并与词库中各词比对，得到中心点与各试题的分词向量，由此计算试题与各中心点的相似度，并将试题加入相似度最高点中心点所在的簇内；在输入新试题组时，依次对试题分词，并与各簇内中心点计算相似度，并将试题加入相似度最高的中心点所在的簇内；在各簇内进行相似查找，将各簇内的相似试题进行标记；