CN107315822A

CN107315822A - 一种知识点关联的挖掘方法

Info

Publication number: CN107315822A
Application number: CN201710536461.4A
Authority: CN
Inventors: 申鹂; 王黎; 郭兰兰; 郭大琦; 李莹莹; 王硕; 王舒颦; 高琼; 胡冰涛; 刘雄; 侯麟; 毛大鹏; 邢雅菲; 吴翔; 琚小明
Original assignee: East China Normal University; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: East China Normal University; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2017-11-03
Anticipated expiration: 2037-07-04
Also published as: CN107315822B

Abstract

本发明公开了一种知识点关联的挖掘方法，针对网络课程，具体步骤为：通过改进的频繁模式树压缩存储学生在线学习知识点的记录数据，并对频繁模式树进行挖掘，确立知识点间所存在的关联，再进一步通过改进的频繁模式树来量化这种知识点关联。本发明采用单一支持度与多支持度结合的方式，能较好地适应最小支持度阈值多次调整的场景。在知识点关联量化过程中，将知识点间的关联归纳为直接关联以及间接关联，并综合这两种关联来计算知识点关联度。

Description

一种知识点关联的挖掘方法

技术领域

本发明涉及关联规则挖掘算法、知识关联分析研究技术领域，具体是一种知识点关联的挖掘方法。

背景技术

随着信息技术的快速发展，网络在线教育也蓬勃兴起，网络课程在方便学生学习知识的同时，也带来了大量学生的学习行为数据。通过对这些学生的学习行为数据进行挖掘可发现学生的学习规律，找网络课程知识点间的关联信息，为学生提供更好地导航与推荐服务。现有对知识点关联的研究中，大多主要关注对知识点之间是否存在关联，而并未深入研究这种关联并量化这种关联，以区分关联的强弱。

FP-tree(Frequent Pattern-tree)是一种用于将事务数据库频繁模式压缩存储的数据结构，对事务数据库建立FP-tree后，通过FP-growth算法可获取事务数据库所有频繁模式。FP-tree由一棵以根节点为“null”标记的项前缀子树以及一个频繁项头表构成。项前缀子树中的每个节点标记一个项以及根节点到该节点的路径对应项集的支持度，项头表记录了频繁项以及其对应支持度，并将项前缀子树中不同路径上的相同项用指针链接起来，将每个频繁项的链头指针保存在项头表中。但FP-growth算法仅能处理事务数据库的静态数据，当事务数据库新增数据时，FP-tree则需要重新创建。另外，FP-growth算法采用单一支持度策略，无法对支持度较低的项进行深入挖掘。

发明内容

本发明的目的是提供一种针对网络课程知识点关联的挖掘方法，该方法可通过学生学习知识点的记录数据挖掘知识点之间存在的关联，并通过计算知识点关联度量化知识点间的关联。

实现本发明目的的具体技术方案是：

一种知识点关联的挖掘方法，该方法包括以下具体步骤：

步骤1：遍历事务数据库，计算每一个项的计数值；创建动态频繁模式树(DynamicFrequent Pattern-tree,DFP-tree)的根节点，并标记其为null；再次遍历事务数据库，将每条事务中的项按计数值递减序排列后，插入到DFP-tree中；当DFP-tree构建完成后，事务数据库新增了事务而发生变化时，通过对新增事务中各项统计排序并判断是否需要重新构建DFP-tree；

步骤2：从DFP-tree项头表底部开始向上遍历，根据用户给定的全局支持度阈值分别设定每项的最小支持度阈值，并根据DFP-tree为每项构建条件动态频繁模式树(conditional-DFP-tree)，根据每项的条件动态频繁模式树(conditional-DFP-tree)递归地生成该项的频繁模式，再从所得到的频繁模式中找到所有强关联规则，最终得到这些强关联规则所对应的知识点关联；

步骤3：将知识点间的强关联规则作为知识点间的直接关联，而间接地通过第三个知识点产生的关联作为知识点间接关联；分别计算知识点直接关联度和知识点间接关联度，并将两种关联度求和再归一化后计算得到知识点关联度。

其中，步骤1中，所述通过对新增事务中各项统计排序并判断是否需要重新构建DFP-tree是：当事务数据库新增事务时，遍历新增事务，统计事务数据库的各项的计数值并按递减序排列后，判断各项顺序对比新增事务前是否发生变化，若顺序改变则需重新创建DFP-tree，若不变则直接将新增事务插入到DFP-tree中。

步骤3中，所述计算得到知识点关联度，具体为：

直接关联度根据公式(1)计算：

其中k代表知识点，D为两个知识点的直接关联度，Sim(k_a,k_b)为知识点a和知识点b共现的次数，为知识点a出现的次数，为知识点b出现的次数；

间接关联度需要根据conditional-DFP-tree计算两个知识点的约减直接关联度，再根据公式(2)计算间接关联度：

其中I为两个知识点的间接关联度，D'为两个知识点约减直接关联度；

将两种关联度求和再做归一化后计算得到知识点关联度：

其中C'为知识点关联度，C为归一化后的知识点关联度。

步骤2中，所述设定每项的最小支持度阈值的方式为：设事务数据中的项的集合I＝{a₁,a₂,...,a_n}，MIS(a_i)为项a_i的支持度阈值(1≤i≤n)，count(a_i)为项a_i的实际支持度，则MIS(a_i)＝count(a_i)*r，其中r为用户输入的全局的支持度阈值(0<r<1)。

本发明可根据学生在线学习知识点的记录数据客观有效地挖掘知识点间存在的关联，并量化知识点间的关联，构建以知识点和知识点关联为基本要素的知识点关联图，从而具体地展示知识体系结构，可应用于在线课程中知识点的推荐和导航。

附图说明

图1为本发明中的DFP-tree示意图；

图2为本发明中的新增数据调整后的DFP-tree示意图；

图3为本发明中f项频繁模式的挖掘过程示意图；

图4为本发明中的知识点关联类型示意图；

图5为本发明中的间接关联度计算流程示意图。

具体实施方式

下面结合附图及实施例对本发明进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

本发明提出了一种数据结构动态频繁模式树即DFP-tree(Dynamic FrequentPattern tree)可更好地适应事务数据库动态数据的挖掘。DFP-tree在构建过程中并未对事务数据库的中项进行过滤，而是将完整的事务数据库压缩存储。其相关的具体实现方法如下所示：

⑴、DFP-tree的构建：遍历事务数据库，得到每一个项的支持度。创建DFP-tree的根节点T，并且标记它为null。遍历事务数据库中的每一条事务，将事务中的项，根据每项的支持度递减序排列。调用insert_tree([p|P],T)将事务插入到DFP-tree中。在插入事务时，存在两个指针a,b，初始时刻a指向事务中的首项，b指向DFP-tree的根节点。查找b所指向的结点是否存在与a所指的项的名字相同的子节点，若存在，则该子结点计数值增加1，b指向该子节点，a指向事务中的下一个项；若不存在，则新增一个结点作为b所指向结点的子节点，并设置该子节点的计数值为1，再使b指向新建的子节点，a指向事务中的下一个项，直到遍历完成该事务的所有项。

⑵、DFP-tree新增事务处理：遍历新增事务，得到每一项的支持度。将新增各项支持度与原各项支持度对应相加后对各项以支持度递减序重新排列。检查项头表中原有的项的下标在排序后是否发生改变。若改变，重新构建DFP-tree。如果未改变，重新遍历新增事务，将事务中的项根据每项的支持度递减序排列。并根据(1)中的方法，将新增事务插入到DFP-tree中。

⑶、频繁模式挖掘：根据全局最小支持度阈值计算所有项的支持度阈值，从DFP-tree项头表的底部开始向上遍历每一项i，执行下列操作：由node_link找到DFP-tree中所有含有项i的路径。截取这些路径以DFP-tree根节点的子节点为开始节点，项i的父节点为结束节点，并使截取后每条路径上的节点的计数值与项i在该路径上的计数值保持一致。根据处理后的路径信息为该项构建conditional-DFP-tree T。若T是空集，进入下一次迭代，否则从T的项头表的底部开始向上遍历每一项i，执行下列操作：(a)若i的支持度小于最小支持度阈值，进入下一次迭代；否则，记录该模式及其支持度，并将该模式插入到FCPF-list中。(b)由node_link找到T中所有含有项i的路径。(c)截取这些路径以Tree根节点的子节点为开始节点，项i的父节点为结束节点，并使截取后每条路径上的节点的计数值与项i在该路径上的计数值保持一致。(d)根据处理后的路径信息为该项构建conditional-DFP-treeT’。(e)若T’不是空集，递归地从步骤(a)开始，否则进入下一次迭代。

⑷、知识点关联度的计算：首先将知识点间的强关联规则作为知识点间的直接关联，而间接地通过第三个知识点产生的关联作为知识点间接关联。直接关联度可根据公式(1)直接计算，间接关联度则首先需要根据conditional-DFP-tree计算两个知识点的约减直接关联度，再进一步根据公式(2)计算间接关联度。最终将两种关联度求和再归一化后作为知识点关联度。

实施例

给出一个示例：{(c,b,a),(d,a,b),(c,d,a),(c,f,e,a),(b,f,e),(b,a),(c,b,d)}为一个事务数据库，需要解释说明的一点是，以事务数据库中的第一个事务(c,b,a)为例，其中c,b,a分别代表一个知识点，而一个事务代表某学生某次登录在线学习平台所学习的知识点。根据上述事务数据库示例，构建如附图1所示DFP-tree，当新增两条事务(b,a,c,g),(c,a,d)时，则DFP-tree调整后为附图2所示。假设用户给定的全局最小支持度阈值r＝0.4，则MIS(f)＝0.8/9。以f为例来说明频繁模式挖掘的过程，如图3(a)所示，从f的条件模式树的项头表底部的项e出发，首先发现项e的计数值为2，满足最小支持度阈值的要求，因此记录频繁模式ef，并截取e的所有前缀子路径构建ef的条件模式树，如图3(b)所示，ef的条件模式树不为空，从ef的条件模式树的项头表底部的项c出发，项c的计数值为1，满足最小支持度阈值的要求，所以记录频繁模式cef，并截取c的所有前缀子路径构建cef的条件模式树如图3(c)所示，cef的条件模式树仍不为空，项头表中只有一个项a，支持度为1，仍然满足最小支持度的要求，所以acef也为频繁模式，记录该频繁模式后，截取a的前缀子路径构建acef的条件模式树，发现该树为空，则继续进行至图3(b)中的b项，b的计数值为1，满足最小支持度阈值的要求，因此bef也是频繁模式，记录频繁模式bef后，截取b的所有前缀子路径构建bef的条件模式树，发现树为空。同理，aef也为频繁模式。继续进行至图3(a)中的项c，c的计数值为1，满足最小支持度阈值的要求，因此cf为频繁模式，记录频繁模式cf后，为cf构建条件模式树，如图3(d)所示，树中只有一个结点a，且满足最小支持度阈值的要求，因此acf为频繁模式，但acf的频繁模式树为空，继续依次检验图3(a)项头表中的项b，a的计数值，发现项b，a所分别代表的bf，af均为频繁模式且bf，af的条件模式树也均为空，至此所有关于项f的频繁模式均已发现并记录。最终可获得各项的条件模式基和频繁条件模式如表1所示。

表1各项条件模式基和频繁条件模式

支持度大于或等于最小支持度且置信度大于或等于最小置信度的关联规则被称为强关联规则。在本实施例中，最小置信度的取值与全局最小支持度阈值相同。由此，最终可获得每个知识点的关联知识点集，并获得知识点间的关联。

下面以图2中的DFP-tree为例详细介绍公式(2)中两个知识点约减直接关联的计算方法，当构建f的条件模式树时，会形成如图3(a)的树结构，设全局最小支持度阈值为0.4，根据频繁模式挖掘方法得到知识点f到e和知识点e到a的直接关联，因此在知识点f到a的间接关联中，存在通过知识点e形成的间接关联，由公式(2)可知，在计算该间接关联时需要先计算知识点f到e的约减直接关联。根据图3(a)中描绘的树结构，在计算D'_kfke时会将根结点的左子树排除在外，因为虽然左子树中存在e结点，但也同时存在a结点，所以左子树参与了知识点f到a的直接关联度的计算，在计算知识点f到a的间接关联度时则将该部分排除，以免重复计算。

以f项为例，首先根据其频繁条件模式可知f项关联知识点的集合为{a,b,c,e}，然后获得其中每个知识点的关联知识点集，知识点a，b，c，e的关联知识点集分别为，{a}，{a，b}，{a,b,c}。根据上述关联度计算的算法，可分别计算其与各知识点之间的关联度。如图5所示，在知识点f到其关联知识点的间接关联度计算过程中，知识点f到a存在3个中介知识点，则需分别计算3个中介知识点对应的间接关联度，并求和作为知识点f到a的间接关联度。以此类推，可分别计算出知识点f到b，c，e的间接关联度。

表2知识点f到其关联知识点的关联度计算结果

关联知识点	直接关联度	间接关联度	关联度	调整后的关联度
					a	1/2	7/12	13/12	1
b	1/2	1/2	1	12/13
					c	1/2	1/4	3/4	9/13
e	1	0	1	12/13

表2所示为表1中知识点f到其关联知识点的直接关联度、间接关联度和关联度的计算结果。

本发明提出了一种针对网络课程中知识点关联的挖掘方法，首先，通过改进的频繁模式树DFP-tree压缩存储学生在线学习知识点的记录数据，并对DFP-tree进行挖掘，确立知识点间所存在的关联，再进一步通过DFP-tree来量化这种知识点关联，该方法可定量地区分知识点间关联的强弱，有助于改进在线教育系统中知识点的推荐与导航功能。

Claims

1.一种知识点关联的挖掘方法，其特征在于，该方法包括以下具体步骤：

步骤1：遍历事务数据库，计算每一个项的计数值；创建动态频繁模式树即DFP-tree的根节点，并标记其为null；再次遍历事务数据库，将每条事务中的项按计数值递减序排列后，插入到DFP-tree中；当DFP-tree构建完成后，事务数据库新增了事务而发生变化时，通过对新增事务中各项统计排序并判断是否需要重新构建DFP-tree；

步骤2：从DFP-tree项头表底部开始向上遍历，根据用户给定的全局支持度阈值分别设定每项的最小支持度阈值，并根据DFP-tree为每项构建条件动态频繁模式树即conditional-DFP-tree，根据每项的条件动态频繁模式树递归地生成该项的频繁模式，再从所得到的频繁模式中找到所有强关联规则，最终得到这些强关联规则所对应的知识点关联；

2.根据权利要求1所述的挖掘方法，其特征在于，步骤1中，所述通过对新增事务中各项统计排序并判断是否需要重新构建DFP-tree是：当事务数据库新增事务时，遍历新增事务，统计事务数据库的各项的计数值并按递减序排列后，判断各项顺序对比新增事务前是否发生变化，若顺序改变则需重新创建DFP-tree，若不变则直接将新增事务插入到DFP-tree中。

3.根据权利要求1所述的挖掘方法，其特征在于，步骤3中，所述计算得到知识点关联度，具体为：

直接关联度根据公式(1)计算：

<mrow> <msub> <mi>I</mi> <mrow> <msub> <mi>k</mi> <mi>a</mi> </msub> <msub> <mi>k</mi> <mi>b</mi> </msub> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>I</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>I</mi> <mi>j</mi> </msub> <mo>=</mo> <msub> <msup> <mi>D</mi> <mo>&prime;</mo> </msup> <mrow> <msub> <mi>k</mi> <mi>a</mi> </msub> <msub> <mi>k</mi> <mi>j</mi> </msub> </mrow> </msub> <mo>&CenterDot;</mo> <msub> <mi>D</mi> <mrow> <msub> <mi>k</mi> <mi>j</mi> </msub> <msub> <mi>k</mi> <mi>b</mi> </msub> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

将两种关联度求和再做归一化后计算得到知识点关联度：

<mrow> <msub> <mi>C</mi> <mrow> <msub> <mi>k</mi> <mi>a</mi> </msub> <msub> <mi>k</mi> <mi>b</mi> </msub> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> <mrow> <msub> <mi>k</mi> <mi>a</mi> </msub> <msub> <mi>k</mi> <mi>b</mi> </msub> </mrow> </msub> </mrow> <mrow> <msub> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> <mi>max</mi> </msub> </mrow> </mfrac> <mo>,</mo> <msub> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> <mrow> <msub> <mi>k</mi> <mi>a</mi> </msub> <msub> <mi>k</mi> <mi>b</mi> </msub> </mrow> </msub> <mo>=</mo> <msub> <mi>D</mi> <mrow> <msub> <mi>k</mi> <mi>a</mi> </msub> <msub> <mi>k</mi> <mi>b</mi> </msub> </mrow> </msub> <mo>+</mo> <msub> <mi>I</mi> <mrow> <msub> <mi>k</mi> <mi>a</mi> </msub> <msub> <mi>k</mi> <mi>b</mi> </msub> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

其中C'为知识点关联度，C为归一化后的知识点关联度。