CN111752995A

CN111752995A - 一种学生数据挖掘系统及方法

Info

Publication number: CN111752995A
Application number: CN202010611073.XA
Authority: CN
Inventors: 岳希; 唐孟轩
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-09

Abstract

本发明公开了一种学生数据挖掘系统及方法，本系统包括包括：数据采集模块、样本选择模块、属性统计模块、样本预处理模块、模型训练模块和数据导出模块，本发明对现有学生成绩分析和预测系统的运算复杂效率低及准确率不足，以及决策树分类算法在进行对数运算时的运算复杂且不准确问题，提出了一种基于改进的C4.5决策树算法的学生数据挖掘系统及方法，提高了系统的数据挖掘效率及准确率。

Description

一种学生数据挖掘系统及方法

技术领域

本发明涉及数据挖掘领域，具体地，涉及一种基于改进的C4.5决策树算法的学生数据挖掘系统及方法。

背景技术

随着数据库技术的发展，人们搜集数据的能力大幅度提高，可以非常方便地获取和存储大量地数据，但却无法从这些数据中发现潜在的规律和知识，无法预测未来的发展趋势，如何有效的利用这些数据为人类服务，成为研究的热点之一。同时随着教育资源、教学管理、教与学行为以及教学评估等教育数据的大量出现，课程安排信息、学生成绩信息等逐渐成为教育大数据的主要表现形式。而对学生成绩等信息的收集、整理、挖掘、分析是研究教育大数据必不可少的工作。

分类是数据挖掘的重要分支，可用于提取、描述重要数据类的模型或预测未来的数据趋势。通过分类和预测，能够提供良好的决策支持，对整个社会的发展产生重要而深远的影响。决策树算法是数据挖掘分类算法中常见的一种分类算法，与其他技术相比，决策树算法结构简单直观，容易理解，有较高的分类精度。决策树算法是从无序、无规则的样本数据集中推理出决策树的分类规则方法。它采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支，在决策树的叶结点得到结论，因此从根结点到叶结点的一条路径就对应着一条规则，整棵决策树就对应着一组表达式规则。我们可将决策树看成是定义布尔函数的一种方法。其输入是一组属性描述的对象，输出为yes/no决策。决策树代表一个假设，可以写成逻辑公式。决策树的表达能力限于命题逻辑，该对象的任一个属性的任一次测试均是一个命题。在命题逻辑范围内，决策树的表达能力是完全的。一棵决策树可以代表一个决定训练例集分类的决策过程，树的每个结点对应于一个属性名或一个特定的测试，该测试在此结点根据测试的可能结果对训练例集进行划分。划分出的每个部分都对应于相应训练例集子空间的一个分类子问题，该分类子问题可以由一棵决策树来解决。因此，一棵决策树可以看作是一个对目标分类的划分和获取策略。

综上所述，本申请发明人在实现本申请发明技术方案的过程中，发现上述技术至少存在如下技术问题：

在现有技术中，现有的学生数据挖掘系统由于采用的是现有的C4.5决策树算法，而现有的C4.5决策树算法大量使用了对数函数进行熵值运算，增加了计算机的运算时间，降低了每一次属性选择时算法的运算效率，以及现有的C4.5决策树算法在选择分类属性时没有考虑到条件属性间的相关性，导致准确率不足，因此，现有的学生数据挖掘系统存在运算复杂效率低且运算准确率不足的技术问题。

发明内容

本发明其中一个目的是针对现有学生成绩分析和预测系统的运算复杂效率低的不足，以及决策树分类算法在进行对数运算时的运算复杂问题，提出了一种基于改进的C4.5决策树算法的学生数据挖掘系统及方法，提高了系统的数据挖掘效率。

本发明另外一个目的是针对现有学生成绩分析和预测系统的运算准确率不足的问题，以及决策树分类算法在选择分裂属性时没有考虑到条件属性间的相关性问题，提出了一种基于改进的C4.5决策树算法的学生数据挖掘系统及方法，提高了系统的数据挖掘的准确率。

为实现上述第一个目的，本发明一方面提供了一种学生数据挖掘系统，所述系统包括：

数据采集模块，用于采集学生成绩数据并存储至数据库；

样本选择模块，用于从数据库中选择学生成绩样本，学生成绩样本根据分类标签分为合格学生成绩样本和不合格学生成绩样本；

属性统计模块，用于统计学生成绩样本的分类属性的属性值；

样本预处理模块，用于对学生成绩样本进行初步分类和数据预处理，处理后获得训练样本，其中，分类数据集是样本预处理模块后的数据集，分类数据集即训练样本；

模型建立及训练模块，用于构建数据挖掘模型，并基于训练样本对数据挖掘模型进行训练，获得训练后的数据挖掘模型，其中，数据挖掘模型在进行对数计算时采用简化后的对数计算公式进行计算，简化后的对数计算公式为：

其中，x为需要进行对数运算的值；

输出模块，用于将待挖掘学生数据输入训练后的数据挖掘模型，模型输出学生数据挖掘结果。

其中，由于本系统中的数据挖掘模型在进行对数计算时采用简化后的对数计算公式进行计算，能够简化对数计算，将复杂且多次进行的对数计算进行简化，从整体上对C4.5决策树算法进行了改进，从而简化了系统的运算，提高了运算效率。

优选的，本系统和方法采用Hadoop平台实现相应功能。

优选的，所述系统还包括数据导出模块，用于将数据挖掘模型挖掘处理后的结果导出至数据库中，用于后续分析。

为了实现本发明的第二个目的，本系统中的数据挖掘模型基于条件属性间的相关性选择样本分裂属性。通过基于条件属性间的相关性选择样本分裂属性对C4.5决策树算法进行了改进，从而使得算法更佳准确，提供了系统运算的准确率。

优选的，本系统和方法中数据挖掘模型采用余弦相似度计算样本属性相似度。

优选的，本系统和方法中数据挖掘模型的数据挖掘过程包括：

步骤a：计算待分类数据集的信息熵；

步骤b：计算待分类数据集属性的信息熵；

步骤c：计算待分类数据集属性的信息增益；

步骤d：计算待分类数据集属性信息增益率；

步骤e：比较每个属性的属性值中是否有信息熵在阈值范围内的属性值对，若有则执行步骤f，若没有则执行步骤j；

步骤f：计算两个属性值对的余弦相似值，若余弦相似值大于阈值则执行步骤g，否则执行步骤j；

步骤g：针对数值型属性将两个属性值向量合并成新的属性值向量，将属性中参与比较的属性值删除，添加上新的属性值，构成新的属性；针对非数值型数据，将两者中分类属性较多的删除；

步骤h：根据修改后的属性重新计算属性的信息熵和信息增益率；

步骤j：从属性集中选择出信息增益最大的属性作为分裂节点循环迭代，当训练集属性全部遍历或者分类结果不再变化时，停止迭代，得到决策树。

优选的，本系统和方法根据公式8比较每个属性的属性值中是否有信息熵在阈值范围内的属性值对，公式8为：

ΔInfo(v1,v2)＝|Info(S)_v1-Info(S)_v2|<ε (8)

其中，ΔInfo(v1,v2)为信息熵差；Info(S)_v1为v1的信息熵；Info(S)_v2为v1的信息熵；ε为设定值；v1、v2为属性值。

优选的，本系统和方法根据公式6计算两个属性值对的余弦相似值，公式6为：

其中，cosθ为两个向量之间的余弦相似度；θ为向量

与

之间的夹角。

优选的，本系统和方法针对数值型属性根据公式13将两个属性值向量合并成新的属性值向量，公式13为：

其中，

为合并后新的属性值向量。

优选的，本系统和方法采用分类变量方法将获取的学生成绩样本数据分为有序变量和无序变量两类；无序变量中，利用二项分类法将普通考察科目是否通过分为是和否，利用多项分类法将不同专业分为软件、控制和通信；利用有序变量法将考试考察科目成绩分为优秀、良好和及格三类；

数据预处理包括：缺失数据处理、错误值检测、异常数据检测和清理、光滑噪声、不一致数据清理和连续数据离散化。

与本发明中的系统对应，本发明还提供了一种学生数据挖掘方法，所述方法包括：

采集学生成绩数据并存储至数据库；

从数据库中选择学生成绩样本，学生成绩样本根据分类标签分为合格学生成绩样本和不合格学生成绩样本；

统计学生成绩样本的分类属性的属性值；

对学生成绩样本进行初步分类和数据预处理，处理后获得训练样本；

构建数据挖掘模型，并基于训练样本对数据挖掘模型进行训练，获得训练后的数据挖掘模型，其中，数据挖掘模型在进行对数计算时采用简化后的对数计算公式进行计算，简化后的对数计算公式为：

其中，x为需要进行对数运算的值；

将待挖掘学生数据输入训练后的数据挖掘模型，模型输出学生数据挖掘结果。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

(1)数据预处理模块能够根据用户需求检查数据集的完整性和一致性，并对数据集进行过滤，去除数据集中错误的或不一致的数据，保证了有效数据集的有效性。

(2)充分利用了Hadoop平台本身具有的高可靠性、高扩展性、高效性、成本低的特点。

(3)本发明采用了简化对数运算、计算信息熵之差以及余弦相似度等技术手段，所以，能够实现删除或者合并冗余属性，简化决策树的构建，提高了C4.5决策树模型的效率和正确率，进而提高系统和方法数据挖掘的效率和准确率。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定；

图1为学生成绩挖掘系统的组成示意图；

图2为决策树示意图；

图3为改进算法流程示意图；

图4为系统模块组成示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

本领域技术人员应理解的是，在本发明的揭露中，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系，其仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此上述术语不能理解为对本发明的限制。

可以理解的是，术语“一”应理解为“至少一”或“一个或多个”，即在一个实施例中，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个，术语“一”不能理解为对数量的限制。

本发明实施例针对现有的学生成绩挖掘系统的不足和影响决策树分类算法在选择分裂属性时没有考虑到条件属性间的相关性问题以及进行对数运算时的简化问题，提出基于改进的C4.5决策树算法的学生数据挖掘系统及方法。

本发明实施例是通过以下技术方案实现的：

本发明所采用的技术方案是：一种基于改进的C4.5决策树算法的学生数据挖掘系统，请参考图1，包括：数据采集模块、样本选择模块、属性统计模块、样本预处理模块、模型训练模块和数据导出模块。

数据采集模块，其用于通过高校教务处等数据库将学生的成绩采集起来，存储到数据库中进行保存。

样本选择模块，其用于选择学生样本，所述学生样本根据分类标签分为合格和不合格学生样本。

属性统计模块，其用于统计所述学生样本的分类属性的属性值。

样本预处理模块，其用于将数据的初步分类采用分类变量方法，将获取的数据分为有序变量和无序变量两类。无序变量法中，利用二项分类法将普通考察科目是否通过分为是、否等，利用多项分类法将不同专业分为软件、控制、通信等等。利用有序变量法将考试考察科目成绩分为优秀、良好和及格三类等。其中主要包括了缺失数据处理、错误值检测、异常数据检测和清理、光滑噪声、不一致数据清理、连续数据离散化等。

模型训练模块，其用于构建分析的数据挖掘模型，由于现有的决策树算法存在选择分裂属性时没有考虑到条件属性间的相关性问题以及进行对数运算时的简化问题，本发明提供了一种改进的C4.5决策树模型。具体改进模型如下。

①对数简化

C4.5算法由于大量使用了对数函数进行熵值运算，增加了计算机的运算时间，降低了每一次属性选择时算法的运算效率，所以引入泰勒中值定理和麦克劳林展开式，对熵值中的对数运算进行变换，优化熵值运算，缩短其运算时间。

在C4.5的计算过程中，不可避免会进行多次对数运算，增加了算法计算时间。由此引入了泰勒中值定理和麦克劳林展开式。根据泰勒级数的定义一个在a邻域上的无穷可微的函数f(x)的泰勒级数具有式(1)的幂级数：

其中，fⁿ(a)为f(a)的n阶导数值，n为阶数值，x为函数自变量；

那么当f(x)＝ln(1+x)，a＝0时代入上式，此时f(x)为麦克劳林级数：

所以当x的取值无穷小时，可以将公式简化为:

有对数运算法则可知：

将式(3)带入式(4)中，可得对数简化公式，公式如下：

②属性相似度

余弦相似度是计算相似度的一种方法，该方法将个体的指标数据映射到向量空间，然后通过计算两个个体向量之间的内积空间夹角余弦值来度量它们之间的相似性。两个个体向量夹角越接近0度，即夹角余弦值越大，说明两个个体之间的相似度越高，反之，表明相似度越低。两个向量间的余弦值采用欧几里得点积公式计算：

cos θ为两个向量之间的余弦相似度，其取值范围是[－1，1]，

为两向量的模场，模型中余弦相似度的计算公式：

式中a_n,b_m分别代表向量

各个分量值。

③属性联合

计算每个属性的信息熵和增益率，若任意属性的任意两个属性值v1、v2的信息熵之差在一个很小范围内时，即

ΔInfo(v1,v2)＝|Info(S)_v1-Info(S)_v2|<ε (8)

计算两个属性值的余弦相似度合并相似度在阈值范围内的属性值，重新计算合并后属性的信息增益率，式中ε的数值越小越好，一般不大于0.05。

完整的流程如下：

a计算待分类数据集的信息熵I(X)，计算公式为:

I(X)＝-∑_x∈X p(x)log₂ x (9)

其中，x为数据的分类标签，x是分类标签的取值，p(x)为x的出现概率。

b计算属性信息熵E(A)，计算公式为；

E(A)＝∑_v∈V{-p(v)*∑_x∈Xp(x_v)log₂ p(x_v)} (10)

其中，v为属性的属性值，x_v为属性的某一属性取值的出现概率。

c计算每个属性的信息增益IG(A)，计算公式为:

IG(A)＝I(X)-E (11)

d计算属性信息增益率IGR(A)，计算公式为：

e根据式(8)比较每个属性的属性值中是否有信息熵在阈值范围内的属性值对，若存在则计算f，否则转j；

f再根据式(6)计算两个属性值对的余弦相似值，若大于阈值0.85，说明两个向量具有很高的相似性则转到g，否则转j；

g针对数值型属性根据式(13)将两个属性值向量合并成新的属性值向量，则新的向量代表了新的子集、新的属性值。再将属性中的原来参与比较的属性值删掉，添加上新的属性值，构成新的属性；针对非数值型数据，由于两属性对于分类结果的影响一致，将两者中分类属性较多的删除。

h根据修改后的属性重新计算属性的信息熵，信息增益率；

j再从属性集中选择出信息增益最大的属性作为分裂节点循环迭代，当训练集属性全部遍历或者分类结果不再变化时，停止迭代，得到决策树。

数据导出模块，其用于将数据挖掘模块挖掘处理后的结果导出到学生数据挖掘系统数据库中，用于后续分析。

请参考图2-图4，图2为决策树示意图；图3为改进算法流程示意图；图4为系统模块组成示意图。

实验数据为通过后课程是否合格的数据，共分为两类，分别是合格和不合格。包含了四个属性，分别是Java初级、Java高级、网页设计、数据库应用设计，详细数据如下表1所示。

表1：实验数据表

(1)计算分类信息熵，由上述数据集可得，合格的数据共9条，不合格的数据共6条。由此利用上述的对数简化公式计算得到分类信息熵(经验熵)

(2)利用对数简化公式计算属性信息熵

根据上述，同理可得，E(S，JAVA高级)＝0.648、E(S，网页设计)＝0.55、E(S，数据库应用设计)＝0.594.

(3)计算任意两属性间的信息熵之差，ΔInfo(JAVA初级，网页设计)＝0.887-0.648＝0.239、ΔInfo(JAVA初级，JAVA高级)＝0.337、ΔInfo(JAVA初级，数据库应用技术)＝0.293、ΔInfo(网页设计，JAVA高级)＝0.098、ΔInfo(网页设计，数据库应用技术)＝0.054、ΔInfo(数据库应用技术，JAVA高级)＝0.044.

(4)选取信息熵之差小于0.05的属性组合，可以得到两个组合，分别是网页设计和Java高级、数据库应用技术和Java高级。紧接着计算两组属性组合的余弦相似度，为了方便计算，将数据中“否”和“及格”替换为0，“是”和“良好”替换为1，“优秀”替换为2，可以得到网页设计和JAVA高级属性组合的余弦相似度：

同理可得到网页设计和数据库应用技术属性组合的余弦相似度cosθ＝0.871。由于网页设计和JAVA高级属性组合余弦相似度未达到阈值，所以继续保留；将数据库应用技术删除得到新的数据集(针对数值属性采取向量相加的方式，针对类别选取将分裂多的属性删除)。

(5)计算新的数据集的属性增益。IG(Java初级)＝E(S)-E(S，Java初级)＝0.971-0.887＝0.084，同理可得IG(网页设计)＝0.323，IG(Java高级)＝0.421.

(6)紧接着计算信息增益率。

同理可得，IGR(网页设计)＝0.352，IGR(Java高级)＝0.566.

(7)根据C4.5算法选取信息增益率最大的作为分裂节点，如图3所示，由此选择“住房”作为根节点，再不断迭代，寻找下一个分裂节点。当训练集属性全部遍历或者分类结果不再变化时，停止迭代，得到决策树。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种学生数据挖掘系统，其特征在于，所述系统包括：

数据采集模块，用于采集学生成绩数据并存储至数据库；

样本预处理模块，用于对学生成绩样本进行初步分类和数据预处理，处理后获得训练样本即分类数据集；

模型建立及训练模块，用于构建数据挖掘模型，并基于训练样本对数据挖掘模型进行训练，获得训练后的数据挖掘模型，其中，数据挖掘模型在进行对数计算时采用预设对数计算公式进行计算，预设对数计算公式为：

其中，x为需要进行对数运算的值；

2.根据权利要求1所述的学生数据挖掘系统，其特征在于，所述系统还包括数据导出模块，用于将数据挖掘模型挖掘处理后的结果导出至数据库中，用于后续分析。

3.根据权利要求1所述的学生数据挖掘系统，其特征在于，数据挖掘模型基于条件属性间的相关性选择样本分裂属性。

4.根据权利要求1所述的学生数据挖掘系统，其特征在于，数据挖掘模型采用余弦相似度计算样本属性相似度。

5.根据权利要求1所述的学生数据挖掘系统，其特征在于，数据挖掘模型的数据挖掘过程包括：

步骤a：计算待分类数据集的信息熵；

步骤b：计算待分类数据集属性的信息熵；

步骤c：计算待分类数据集属性的信息增益；

步骤d：计算待分类数据集属性信息增益率；

步骤g：针对数值型属性将两个属性值向量合并成新的属性值向量，将属性中参与比较的属性值删除，添加新的属性值，构成新的属性；针对非数值型数据，将两者中分类属性较多的删除；

6.根据权利要求5所述的学生数据挖掘系统，其特征在于，根据公式8比较每个属性的属性值中是否有信息熵在阈值范围内的属性值对，公式8为：

ΔInfo(v1,v2)＝|Info(S)_v1-Info(S)_v2|<ε (8)

7.根据权利要求5所述的学生数据挖掘系统，其特征在于，根据公式6计算两个属性值对的余弦相似值，公式6为：

其中，cosθ为两个向量之间的余弦相似度；θ为向量

与

之间的夹角。

8.根据权利要求5所述的学生数据挖掘系统，其特征在于，针对数值型属性根据公式13将两个属性值向量合并成新的属性值向量，公式13为：

其中，

为合并后新的属性值向量。

9.根据权利要求1所述的学生数据挖掘系统，其特征在于，采用分类变量方法将获取的学生成绩样本数据分为有序变量和无序变量两类；无序变量中，利用二项分类法将普通考察科目是否通过分为是和否，利用多项分类法将不同专业分为软件、控制和通信；利用有序变量法将考试考察科目成绩分为优秀、良好和及格三类；

10.一种学生数据挖掘方法，其特征在于，所述方法包括：

采集学生成绩数据并存储至数据库；

统计学生成绩样本的分类属性的属性值；

构建数据挖掘模型，并基于训练样本对数据挖掘模型进行训练，获得训练后的数据挖掘模型，其中，数据挖掘模型在进行对数计算时采用预设对数计算公式进行计算，预设对数计算公式为：

其中，x为需要进行对数运算的值；