CN110084291B

CN110084291B - 一种基于大数据极限学习的学生行为分析方法及装置

Info

Publication number: CN110084291B
Application number: CN201910295218.7A
Authority: CN
Inventors: 王春枝; 卞文硕; 施肖肖; 胡明威; 汤远志
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2021-10-22
Anticipated expiration: 2039-04-12
Also published as: CN110084291A

Abstract

本发明公开了一种基于大数据极限学习的学生行为分析方法及装置，其中的方法通过采集学生的信息；采用K—means聚类算法将相同族类聚集在一起形成集合；采用简单交叉验证把数据集划分为训练集与测试集；在相同数据集合内对数据进行相对影响较大、较小划分；采用不平衡模糊加权极限学习机方法对学生数据进行分析预测；根据预测结果得出学生行动轨迹数据。本发明提供了一种预测精准较高、较为全面分析学生行为轨迹的极限学习机方法。通过预测结果分析可清楚了解学生行为轨迹对学生学习、生活的影响并对异常行为予以规划。

Description

一种基于大数据极限学习的学生行为分析方法及装置

技术领域

本发明涉及大数据分析教育领域，具体涉及一种基于大数据极限学习的学生行为分析方法。

背景技术

随着计算机互联网、移动互联网、物联网、平板电脑、手机的大众化和微博、论坛、微信等网络交流方式的日益红火，数据资料的增长正发生着巨大的变化。

大数据兴起的第一个原因是数据量越来越大。从监测的数据来看，数据量越来越多，每年都会翻番，数据一直在飞速增长；针对即时数据的处理也变得越来越快；通过各种终端，比如手机、PC、服务器等产生的数据越来越多。大数据兴起的第二个原因也是最重要的原因就是科技的进步导致了存储成本的下降，这使得设备的造价出现大幅下降。新技术和新算法的出现是大数据火起来的第三个原因。最后一个原因也是最本质的原因，即商业利益的驱动，极大地促进了大数据的发展。

现有技术中，一般是通过一些周期性的能力测试来对学生的学习能力或者行为进行预测，从而教师可以分析到学生已经掌握了什么，什么方法对学生来说是最有效的学习路径。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

在教育行业，随着大型开放式网络课程的流行，大数据对教育的影响也逐渐显露头角。大数据之所以会对教育产生巨大的影响，这与型开放式网络课程教育有着千丝万缕的关系。在大数据时代里，教师应当主要致力于挖掘与学生学习相关的表现，探寻最适合学生学习的方法，而不是依赖于某些周期性的能力测试来对学生的学习行为进行分析与预测。并且，这种传统的分析方法也无法准确反映真实的情况。

由此可知，现有技术中的方法存在对学生行为分析不准确的技术问题。

发明内容

有鉴于此，本发明提供了一种基于大数据极限学习的学生行为分析方法及装置，用以解决或者至少部分解决现有技术中的方法存在的对学生行为分析不准确的技术问题。

为了解决上述技术问题，本发明第一方面提供了一种基于大数据极限学习的学生行为分析方法，包括：

步骤S1：采集学生的身份信息和行为信息；

步骤S2：采用K-means聚类算法对采集的身份信息和行为信息进行聚类，划分为不同的族类；

步骤S3：对于每一个族类中的数据，根据其对预测结果的影响情况分为大量数据集与小量数据集，其中，大量数据集中的数据对预测结果影响较大，大量数据集的数据对预测结果影响较小；

步骤S4：在不同族类将数据按照预设比例划分为训练集、测试集与预测集；

步骤S5：利用训练集、测试集对划分的大量数据集与小量数据集进行不平衡模糊加权的极限学习机学习，得出极限学习机数据模型，再利用预测集进行预测验证；

步骤S6：利用极限学习机数据模型进行学生行为分析，输出分析预测结果。

在一种实施方式中，步骤S1中，学生的身份信息包括但不限于学号和姓名，学生的行为信息包括但不限于出入图书馆的时间、出入体育馆的时间、出校时间。

在一种实施方式中，步骤S2具体包括：

以学生的身份信息和行为信息分为作为类别的初始质心，通过k-means聚类算法，可把每个学生的信息聚合为一个族类，计算公式如下：

其中，D表示欧式距离，x₁,x₂分别表示不同的身份信息，y₁,y₂分别表示不同的行为信息，且D越小则被分为同族的概率越高。

在一种实施方式中，步骤S3具体包括：

将数据出现的频率作为数据对预测结果的影响的指标，在每个数据族类按照数据出现频率划分为大量数据集和小量数据集。

在一种实施方式中，步骤S5具体包括：

步骤S5.1：对聚类划分同一族数据设计信息平衡函数，其计算公式如下：

其中，

表示小量数据集

所对应的函数值，

表示大量数据集

所对应的函数值，r为小量数据集与大量数据集的比值，函数

选择基于质心距离的线性衰减函数值，计算公式如下：

其中，d_i为数据到该族类质心的距离，max(d_i)为最远距离，Δ为一个预设值；

步骤S5.2：选择无限可微分的激励函数，计算公式如下：

其中，R表示数据集合；

步骤S5.3：基于上述信息平衡函数和无线可微分激励函数的处理结果，构建极限学习机数据模型。

在一种实施方式中，构建的极限学习机数据模型包括三层结构，具体为输入层、隐含层和输出层，步骤S5.3具体包括：

计算输入层到隐含层的权值以及隐含层到输出层的权值，从而构建极限学习机数据模型，其中的权值更新计算公式如下：

其中，t_j为训练集实际结果，R为复合函数的最终集合值，R＝w_i*x_i+b_i,其中的w_i由公式(2)和(3)联立所确定的输入层到隐含层的权值，b_i为每个权值所对应的随机偏置；

建立隐含层到输出层的权值，将公式(5)转化为：Hβ＝T，H为隐含层输出，其表达式为：

其中，T为期望输出，β为权值矩阵，β＝H⁺T，H⁺为H的广义逆矩阵，最终隐含层到输出层的权值被确定为β。

基于同样的发明构思，本发明第二方面提供了一种基于大数据极限学习的学生行为分析装置，包括：

信息采集模块，用于采集学生的身份信息和行为信息；

聚类模块，用于采用K-means聚类算法对采集的身份信息和行为信息进行聚类，划分为不同的族类；

大小数据集划分模块，用于对于每一个族类中的数据，根据其对预测结果的影响情况分为大量数据集与小量数据集，其中，大量数据集中的数据对预测结果影响较大，大量数据集的数据对预测结果影响较小；

数据划分模块，用于在不同族类将数据按照预设比例划分为训练集、测试集与预测集；

模型构建模块，用于利用训练集、测试集对划分的大量数据集与小量数据集进行不平衡模糊加权的极限学习机学习，得出极限学习机数据模型，再利用预测集进行预测验证；

行为分析模块，用于利用极限学习机数据模型进行学生行为分析，输出分析预测结果。

在一种实施方式中，学生的身份信息包括但不限于学号和姓名，学生的行为信息包括但不限于出入图书馆的时间、出入体育馆的时间、出校时间。

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面所述的方法。

基于同样的发明构思，本发明第四方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于大数据极限学习的学生行为分析方法，首先采集学生的身份信息和行为信息；并采用K-means聚类算法对采集的身份信息和行为信息进行聚类，划分为不同的族类；然后对于每一个族类中的数据，根据其对预测结果的影响情况分为大量数据集与小量数据集；接着在不同族类将数据按照预设比例划分为训练集、测试集与预测集；再利用训练集、测试集对划分的大量数据集与小量数据集进行模糊加权的极限学习机学习，得出极限学习机数据模型，再利用预测集进行预测验证；最后利用极限学习机数据模型进行学生行为分析，输出分析预测结果。

相对于传统的方法而言，本发明的方法采用不平衡模糊加权极限学习机方法对学生数据进行分析预测；根据预测结果可以得出学生行动轨迹数据，并对学生的行为进行准确分析，是一种预测精准较高、较为全面分析学生行为轨迹的极限学习机方法。通过预测结果分析可清楚了解学生行为轨迹对学生学习、生活的影响并对异常行为予以规划。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种基于大数据极限学习的学生行为分析方法的流程图；

图2为本发明实施例中基于大数据极限学习的学生行为分析装置的结构框图；

图3为本发明实施例中计算机可读存储介质的结构图；

图4为本发明实施例中计算机设备的结构图。

具体实施方式

本发明的目的在于针对现有方法中存在的对学生行为分析不准确的技术问题，提供一种基于大数据极限学习的学生行为分析方法及装置，从而达到提高预测准确性的技术效果。

为了实现上述技术效果，本发明的主要构思如下：

首先采集学生的身份信息和行为信息；并使用K—means聚类算法对采集的数据进行挖掘提取，将相同族类聚集在一起形成集合；然后采用简单交叉验证将采集的数据划分为训练集与测试集；在相同数据集合内对数据进行相对影响较大、较小划分，划分为大量数据集与小量数据集；然后采用不平衡模糊加权极限学习机方法对学生数据进行分析预测；根据预测结果得出学生行动轨迹数据。

通过上述方法，可以对学生最近行为动态有一定了解，让教师对学生异于以往的行为有所了解，及时与学生进行沟通了解，保障学生学习与生活正常进行。本发明提供的是一种预测精准较高、较为全面分析学生行为轨迹的极限学习机方法。通过预测结果分析可清楚了解学生行为轨迹对学生学习、生活的影响并对异常行为予以规划。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明提供了一种基于大数据极限学习学生行为分析方法，该方法通过对数据的聚类分析整合出所有学生信息，如“校园一卡通”消费信息、出入图书馆、体育馆信息，通过对录入信息的极限学习可得到每条信息对学生学习行为、运动行为等的不同影响，从而对学生整体行为轨迹进行预测，对异常行为或造成学生学业异常的行为进行规划，该预测分析方法的具体实现过程如下所示。

本实施例提供了一种基于大数据极限学习的学生行为分析方法，请参见图1，该方法包括：

步骤S1：采集学生的身份信息和行为信息。

其中，步骤S1中，学生的身份信息包括但不限于学号和姓名，学生的行为信息包括但不限于出入图书馆的时间、出入体育馆的时间、出校时间。

具体来说，可以通过采集学生的身份信息和行为信息从而来对轨迹和行为进行预测。在具体的实施过程中，可以通过采集学生的一卡通信息作为身份信息，以及其他使用一卡通的信息，例如出入图书馆的时间、出入体育馆的时间等等。

步骤S2：采用K-means聚类算法对采集的身份信息和行为信息进行聚类，划分为不同的族类。

具体来说，用K-means聚类算法，即K均值聚类算法。可以通过先随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心，进而实现聚类。本发明中采用K—means聚类算法对数据进行挖掘提取，可以将相同族类聚集在一起形成集合，每个集合代表一个数据的族类。

在一种实施方式中，步骤S2具体包括：

具体来说，在具体计算时，可以分别将获取的信息直接进行计算或者进行转换后进行计算，例如学号为数字可以直接减，姓名可以转化为笔画数再相减。通过公式(1)可以将采集的数据进行分类，D越小，对应的两种数据被分为同组的概率越高。

具体来说，可以根据数据对预测结果的影响程度来划分大量数据集与小量数据集，例如，根据数据出现的次数，或者为不同数据的赋予权重等。

在一种实施方式中，步骤S3具体包括：

步骤S4：在不同族类将数据按照预设比例划分为训练集、测试集与预测集。

具体来说，预设比例可以根据实际情况设置，例如通过交叉验证来确定。训练集、测试集与预测集的比例可以为70％、20％、10％。

步骤S5：利用训练集、测试集对划分的大量数据集与小量数据集进行不平衡模糊加权的极限学习机学习，得出极限学习机数据模型，再利用预测集进行预测验证。

具体来说，极限学习机作为前馈神经网络的改进算法，对人们的行为预测有着出色的表现，它通过3层神经元系统之间的规律性消息传递可以很好的预测出人们行为轨迹。这种“规律性消息传递”通常被称为权值，即输入信息按照不同比率到达输出层所表现的量不同。

在一种实施方式中，步骤S5具体包括：

步骤S5.1：对聚类划分同一族数据设计信息平衡函数，用以平衡数据占比不对称，其计算公式如下：

其中，

表示小量数据集

所对应的函数值，

表示大量数据集

所对应的函数值，r为小量数据集与大量数据集的比值，函数

选择基于质心距离的线性衰减函数值，计算公式如下：

其中，d_i为数据到该族类质心的距离，max(d_i)为最远距离，Δ为一个预设值，用以保证分母不为零；

步骤S5.2：选择无限可微分的激励函数，计算公式如下：

其中，R表示数据集合；

具体来说，通过设计信息平衡函数来平衡数据占比的不对称，d_i为数据到该族类质心的距离，其计算公式同公式(1)。Δ为一个不为零且非常小的数，确保分母不为零。而无限可微分的激励函数的作用是：将数据转换为0到1的数字，可以将模型转变为非线性问题。

具体来说，构建极限学习机数据模型的关键是：建立输入层到隐含层的权值、隐含层到输出层的权值，通过权值可以得知信息通过何种规律传递，进而可以得出行为轨迹。根据上述公式，可以得出，显然有可以唯一确定权值矩阵β。

具体来说，在构建极限学习机数据模型后，则可以通过该模型对采集的学生信息进行预测，得到预测结果，即为学生行动轨迹数据。

本发明的有益效果是：提出了一种基于大数据科学预测学生行为新方法，即一种预测精准较高、较为全面分析学生行为轨迹的极限学习机方法。通过预测结果分析可清楚了解学生行为轨迹对学生学习、生活的影响并对异常行为予以规划。

基于同一发明构思，本申请还提供了一种与实施例一中一种基于大数据极限学习的学生行为分析方法对应的装置，详见实施例二。

实施例二

本实施例提供了一种基于大数据极限学习的学生行为分析装置，请参见图2，该装置包括：

信息采集模块201，用于采集学生的身份信息和行为信息；

聚类模块202，用于采用K-means聚类算法对采集的身份信息和行为信息进行聚类，划分为不同的族类；

大小数据集划分模块203，用于对于每一个族类中的数据，根据其对预测结果的影响情况分为大量数据集与小量数据集，其中，大量数据集中的数据对预测结果影响较大，大量数据集的数据对预测结果影响较小；

数据划分模块204，用于在不同族类将数据按照预设比例划分为训练集、测试集与预测集；

模型构建模块205，用于利用训练集、测试集对划分的大量数据集与小量数据集进行不平衡模糊加权的极限学习机学习，得出极限学习机数据模型，再利用预测集进行预测验证；

行为分析模块206，用于利用极限学习机数据模型进行学生行为分析，输出分析预测结果。

在一种实施方式中，聚类模块202具体用于：

在一种实施方式中，大小数据集划分模块203具体用于：

将数据出现的频率作为数据对预测结果的影响的指标，在每个数据族类按照数据出现频率划分分为大量数据集和小量数据集。

在一种实施方式中，模型构建模块205具体用于：

其中，

表示小量数据集

所对应的函数值，

表示大量数据集

所对应的函数值，r为小量数据集与大量数据集的比值，函数

选择基于质心距离的线性衰减函数值，计算公式如下：

步骤S5.2：选择无限可微分的激励函数，计算公式如下：

其中，R表示数据集合；

在一种实施方式中，构建的极限学习机数据模型包括三层结构，具体为输入层、隐含层和输出层，模型构建模块205具体用于：

由于本发明实施例二所介绍的装置，为实施本发明实施例一中基于大数据极限学习的学生行为分析方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

实施例三

基于同一发明构思，本申请还提供了一种计算机可读存储介质300，请参见图3，其上存储有计算机程序311，该程序被执行时实现实施例一中的方法。

由于本发明实施例三所介绍的计算机可读存储介质，为实施本发明实施例一中基于大数据极限学习的学生行为分析方法所采用的计算机可读存储介质，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

实施例四

基于同一发明构思，本申请还提供了一种计算机设备，请参见图4，包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403，处理器402执行上述程序时实现实施例一中的方法。

由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于大数据极限学习的学生行为分析方法所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。