CN110084291B - 一种基于大数据极限学习的学生行为分析方法及装置 - Google Patents

一种基于大数据极限学习的学生行为分析方法及装置 Download PDF

Info

Publication number
CN110084291B
CN110084291B CN201910295218.7A CN201910295218A CN110084291B CN 110084291 B CN110084291 B CN 110084291B CN 201910295218 A CN201910295218 A CN 201910295218A CN 110084291 B CN110084291 B CN 110084291B
Authority
CN
China
Prior art keywords
data
student
information
behavior
extreme learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910295218.7A
Other languages
English (en)
Other versions
CN110084291A (zh
Inventor
王春枝
卞文硕
施肖肖
胡明威
汤远志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN201910295218.7A priority Critical patent/CN110084291B/zh
Publication of CN110084291A publication Critical patent/CN110084291A/zh
Application granted granted Critical
Publication of CN110084291B publication Critical patent/CN110084291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据极限学习的学生行为分析方法及装置,其中的方法通过采集学生的信息;采用K—means聚类算法将相同族类聚集在一起形成集合;采用简单交叉验证把数据集划分为训练集与测试集;在相同数据集合内对数据进行相对影响较大、较小划分;采用不平衡模糊加权极限学习机方法对学生数据进行分析预测;根据预测结果得出学生行动轨迹数据。本发明提供了一种预测精准较高、较为全面分析学生行为轨迹的极限学习机方法。通过预测结果分析可清楚了解学生行为轨迹对学生学习、生活的影响并对异常行为予以规划。

Description

一种基于大数据极限学习的学生行为分析方法及装置
技术领域
本发明涉及大数据分析教育领域,具体涉及一种基于大数据极限学习的学生行为分析方法。
背景技术
随着计算机互联网、移动互联网、物联网、平板电脑、手机的大众化和微博、论坛、微信等网络交流方式的日益红火,数据资料的增长正发生着巨大的变化。
大数据兴起的第一个原因是数据量越来越大。从监测的数据来看,数据量越来越多,每年都会翻番,数据一直在飞速增长;针对即时数据的处理也变得越来越快;通过各种终端,比如手机、PC、服务器等产生的数据越来越多。大数据兴起的第二个原因也是最重要的原因就是科技的进步导致了存储成本的下降,这使得设备的造价出现大幅下降。新技术和新算法的出现是大数据火起来的第三个原因。最后一个原因也是最本质的原因,即商业利益的驱动,极大地促进了大数据的发展。
现有技术中,一般是通过一些周期性的能力测试来对学生的学习能力或者行为进行预测,从而教师可以分析到学生已经掌握了什么,什么方法对学生来说是最有效的学习路径。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
在教育行业,随着大型开放式网络课程的流行,大数据对教育的影响也逐渐显露头角。大数据之所以会对教育产生巨大的影响,这与型开放式网络课程教育有着千丝万缕的关系。在大数据时代里,教师应当主要致力于挖掘与学生学习相关的表现,探寻最适合学生学习的方法,而不是依赖于某些周期性的能力测试来对学生的学习行为进行分析与预测。并且,这种传统的分析方法也无法准确反映真实的情况。
由此可知,现有技术中的方法存在对学生行为分析不准确的技术问题。
发明内容
有鉴于此,本发明提供了一种基于大数据极限学习的学生行为分析方法及装置,用以解决或者至少部分解决现有技术中的方法存在的对学生行为分析不准确的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于大数据极限学习的学生行为分析方法,包括:
步骤S1:采集学生的身份信息和行为信息;
步骤S2:采用K-means聚类算法对采集的身份信息和行为信息进行聚类,划分为不同的族类;
步骤S3:对于每一个族类中的数据,根据其对预测结果的影响情况分为大量数据集与小量数据集,其中,大量数据集中的数据对预测结果影响较大,大量数据集的数据对预测结果影响较小;
步骤S4:在不同族类将数据按照预设比例划分为训练集、测试集与预测集;
步骤S5:利用训练集、测试集对划分的大量数据集与小量数据集进行不平衡模糊加权的极限学习机学习,得出极限学习机数据模型,再利用预测集进行预测验证;
步骤S6:利用极限学习机数据模型进行学生行为分析,输出分析预测结果。
在一种实施方式中,步骤S1中,学生的身份信息包括但不限于学号和姓名,学生的行为信息包括但不限于出入图书馆的时间、出入体育馆的时间、出校时间。
在一种实施方式中,步骤S2具体包括:
以学生的身份信息和行为信息分为作为类别的初始质心,通过k-means聚类算法,可把每个学生的信息聚合为一个族类,计算公式如下:
Figure BDA0002026263930000021
其中,D表示欧式距离,x1,x2分别表示不同的身份信息,y1,y2分别表示不同的行为信息,且D越小则被分为同族的概率越高。
在一种实施方式中,步骤S3具体包括:
将数据出现的频率作为数据对预测结果的影响的指标,在每个数据族类按照数据出现频率划分为大量数据集和小量数据集。
在一种实施方式中,步骤S5具体包括:
步骤S5.1:对聚类划分同一族数据设计信息平衡函数,其计算公式如下:
Figure BDA0002026263930000031
其中,
Figure BDA0002026263930000032
表示小量数据集
Figure BDA0002026263930000033
所对应的函数值,
Figure BDA0002026263930000034
表示大量数据集
Figure BDA0002026263930000035
所对应的函数值,r为小量数据集与大量数据集的比值,函数
Figure BDA0002026263930000036
选择基于质心距离的线性衰减函数值,计算公式如下:
Figure BDA0002026263930000037
其中,di为数据到该族类质心的距离,max(di)为最远距离,Δ为一个预设值;
步骤S5.2:选择无限可微分的激励函数,计算公式如下:
Figure BDA0002026263930000038
其中,R表示数据集合;
步骤S5.3:基于上述信息平衡函数和无线可微分激励函数的处理结果,构建极限学习机数据模型。
在一种实施方式中,构建的极限学习机数据模型包括三层结构,具体为输入层、隐含层和输出层,步骤S5.3具体包括:
计算输入层到隐含层的权值以及隐含层到输出层的权值,从而构建极限学习机数据模型,其中的权值更新计算公式如下:
Figure BDA0002026263930000039
其中,tj为训练集实际结果,R为复合函数的最终集合值,R=wi*xi+bi,其中的wi由公式(2)和(3)联立所确定的输入层到隐含层的权值,bi为每个权值所对应的随机偏置;
建立隐含层到输出层的权值,将公式(5)转化为:Hβ=T,H为隐含层输出,其表达式为:
Figure BDA00020262639300000310
其中,T为期望输出,β为权值矩阵,β=H+T,H+为H的广义逆矩阵,最终隐含层到输出层的权值被确定为β。
基于同样的发明构思,本发明第二方面提供了一种基于大数据极限学习的学生行为分析装置,包括:
信息采集模块,用于采集学生的身份信息和行为信息;
聚类模块,用于采用K-means聚类算法对采集的身份信息和行为信息进行聚类,划分为不同的族类;
大小数据集划分模块,用于对于每一个族类中的数据,根据其对预测结果的影响情况分为大量数据集与小量数据集,其中,大量数据集中的数据对预测结果影响较大,大量数据集的数据对预测结果影响较小;
数据划分模块,用于在不同族类将数据按照预设比例划分为训练集、测试集与预测集;
模型构建模块,用于利用训练集、测试集对划分的大量数据集与小量数据集进行不平衡模糊加权的极限学习机学习,得出极限学习机数据模型,再利用预测集进行预测验证;
行为分析模块,用于利用极限学习机数据模型进行学生行为分析,输出分析预测结果。
在一种实施方式中,学生的身份信息包括但不限于学号和姓名,学生的行为信息包括但不限于出入图书馆的时间、出入体育馆的时间、出校时间。
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于大数据极限学习的学生行为分析方法,首先采集学生的身份信息和行为信息;并采用K-means聚类算法对采集的身份信息和行为信息进行聚类,划分为不同的族类;然后对于每一个族类中的数据,根据其对预测结果的影响情况分为大量数据集与小量数据集;接着在不同族类将数据按照预设比例划分为训练集、测试集与预测集;再利用训练集、测试集对划分的大量数据集与小量数据集进行模糊加权的极限学习机学习,得出极限学习机数据模型,再利用预测集进行预测验证;最后利用极限学习机数据模型进行学生行为分析,输出分析预测结果。
相对于传统的方法而言,本发明的方法采用不平衡模糊加权极限学习机方法对学生数据进行分析预测;根据预测结果可以得出学生行动轨迹数据,并对学生的行为进行准确分析,是一种预测精准较高、较为全面分析学生行为轨迹的极限学习机方法。通过预测结果分析可清楚了解学生行为轨迹对学生学习、生活的影响并对异常行为予以规划。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种基于大数据极限学习的学生行为分析方法的流程图;
图2为本发明实施例中基于大数据极限学习的学生行为分析装置的结构框图;
图3为本发明实施例中计算机可读存储介质的结构图;
图4为本发明实施例中计算机设备的结构图。
具体实施方式
本发明的目的在于针对现有方法中存在的对学生行为分析不准确的技术问题,提供一种基于大数据极限学习的学生行为分析方法及装置,从而达到提高预测准确性的技术效果。
为了实现上述技术效果,本发明的主要构思如下:
首先采集学生的身份信息和行为信息;并使用K—means聚类算法对采集的数据进行挖掘提取,将相同族类聚集在一起形成集合;然后采用简单交叉验证将采集的数据划分为训练集与测试集;在相同数据集合内对数据进行相对影响较大、较小划分,划分为大量数据集与小量数据集;然后采用不平衡模糊加权极限学习机方法对学生数据进行分析预测;根据预测结果得出学生行动轨迹数据。
通过上述方法,可以对学生最近行为动态有一定了解,让教师对学生异于以往的行为有所了解,及时与学生进行沟通了解,保障学生学习与生活正常进行。本发明提供的是一种预测精准较高、较为全面分析学生行为轨迹的极限学习机方法。通过预测结果分析可清楚了解学生行为轨迹对学生学习、生活的影响并对异常行为予以规划。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明提供了一种基于大数据极限学习学生行为分析方法,该方法通过对数据的聚类分析整合出所有学生信息,如“校园一卡通”消费信息、出入图书馆、体育馆信息,通过对录入信息的极限学习可得到每条信息对学生学习行为、运动行为等的不同影响,从而对学生整体行为轨迹进行预测,对异常行为或造成学生学业异常的行为进行规划,该预测分析方法的具体实现过程如下所示。
本实施例提供了一种基于大数据极限学习的学生行为分析方法,请参见图1,该方法包括:
步骤S1:采集学生的身份信息和行为信息。
其中,步骤S1中,学生的身份信息包括但不限于学号和姓名,学生的行为信息包括但不限于出入图书馆的时间、出入体育馆的时间、出校时间。
具体来说,可以通过采集学生的身份信息和行为信息从而来对轨迹和行为进行预测。在具体的实施过程中,可以通过采集学生的一卡通信息作为身份信息,以及其他使用一卡通的信息,例如出入图书馆的时间、出入体育馆的时间等等。
步骤S2:采用K-means聚类算法对采集的身份信息和行为信息进行聚类,划分为不同的族类。
具体来说,用K-means聚类算法,即K均值聚类算法。可以通过先随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,进而实现聚类。本发明中采用K—means聚类算法对数据进行挖掘提取,可以将相同族类聚集在一起形成集合,每个集合代表一个数据的族类。
在一种实施方式中,步骤S2具体包括:
以学生的身份信息和行为信息分为作为类别的初始质心,通过k-means聚类算法,可把每个学生的信息聚合为一个族类,计算公式如下:
Figure BDA0002026263930000071
其中,D表示欧式距离,x1,x2分别表示不同的身份信息,y1,y2分别表示不同的行为信息,且D越小则被分为同族的概率越高。
具体来说,在具体计算时,可以分别将获取的信息直接进行计算或者进行转换后进行计算,例如学号为数字可以直接减,姓名可以转化为笔画数再相减。通过公式(1)可以将采集的数据进行分类,D越小,对应的两种数据被分为同组的概率越高。
步骤S3:对于每一个族类中的数据,根据其对预测结果的影响情况分为大量数据集与小量数据集,其中,大量数据集中的数据对预测结果影响较大,大量数据集的数据对预测结果影响较小;
具体来说,可以根据数据对预测结果的影响程度来划分大量数据集与小量数据集,例如,根据数据出现的次数,或者为不同数据的赋予权重等。
在一种实施方式中,步骤S3具体包括:
将数据出现的频率作为数据对预测结果的影响的指标,在每个数据族类按照数据出现频率划分为大量数据集和小量数据集。
步骤S4:在不同族类将数据按照预设比例划分为训练集、测试集与预测集。
具体来说,预设比例可以根据实际情况设置,例如通过交叉验证来确定。训练集、测试集与预测集的比例可以为70%、20%、10%。
步骤S5:利用训练集、测试集对划分的大量数据集与小量数据集进行不平衡模糊加权的极限学习机学习,得出极限学习机数据模型,再利用预测集进行预测验证。
具体来说,极限学习机作为前馈神经网络的改进算法,对人们的行为预测有着出色的表现,它通过3层神经元系统之间的规律性消息传递可以很好的预测出人们行为轨迹。这种“规律性消息传递”通常被称为权值,即输入信息按照不同比率到达输出层所表现的量不同。
在一种实施方式中,步骤S5具体包括:
步骤S5.1:对聚类划分同一族数据设计信息平衡函数,用以平衡数据占比不对称,其计算公式如下:
Figure BDA0002026263930000081
其中,
Figure BDA0002026263930000082
表示小量数据集
Figure BDA0002026263930000083
所对应的函数值,
Figure BDA0002026263930000084
表示大量数据集
Figure BDA0002026263930000085
所对应的函数值,r为小量数据集与大量数据集的比值,函数
Figure BDA0002026263930000086
选择基于质心距离的线性衰减函数值,计算公式如下:
Figure BDA0002026263930000087
其中,di为数据到该族类质心的距离,max(di)为最远距离,Δ为一个预设值,用以保证分母不为零;
步骤S5.2:选择无限可微分的激励函数,计算公式如下:
Figure BDA0002026263930000088
其中,R表示数据集合;
步骤S5.3:基于上述信息平衡函数和无线可微分激励函数的处理结果,构建极限学习机数据模型。
具体来说,通过设计信息平衡函数来平衡数据占比的不对称,di为数据到该族类质心的距离,其计算公式同公式(1)。Δ为一个不为零且非常小的数,确保分母不为零。而无限可微分的激励函数的作用是:将数据转换为0到1的数字,可以将模型转变为非线性问题。
在一种实施方式中,构建的极限学习机数据模型包括三层结构,具体为输入层、隐含层和输出层,步骤S5.3具体包括:
计算输入层到隐含层的权值以及隐含层到输出层的权值,从而构建极限学习机数据模型,其中的权值更新计算公式如下:
Figure BDA0002026263930000089
其中,tj为训练集实际结果,R为复合函数的最终集合值,R=wi*xi+bi,其中的wi由公式(2)和(3)联立所确定的输入层到隐含层的权值,bi为每个权值所对应的随机偏置;
建立隐含层到输出层的权值,将公式(5)转化为:Hβ=T,H为隐含层输出,其表达式为:
Figure BDA0002026263930000091
其中,T为期望输出,β为权值矩阵,β=H+T,H+为H的广义逆矩阵,最终隐含层到输出层的权值被确定为β。
具体来说,构建极限学习机数据模型的关键是:建立输入层到隐含层的权值、隐含层到输出层的权值,通过权值可以得知信息通过何种规律传递,进而可以得出行为轨迹。根据上述公式,可以得出,显然有可以唯一确定权值矩阵β。
步骤S6:利用极限学习机数据模型进行学生行为分析,输出分析预测结果。
具体来说,在构建极限学习机数据模型后,则可以通过该模型对采集的学生信息进行预测,得到预测结果,即为学生行动轨迹数据。
本发明的有益效果是:提出了一种基于大数据科学预测学生行为新方法,即一种预测精准较高、较为全面分析学生行为轨迹的极限学习机方法。通过预测结果分析可清楚了解学生行为轨迹对学生学习、生活的影响并对异常行为予以规划。
基于同一发明构思,本申请还提供了一种与实施例一中一种基于大数据极限学习的学生行为分析方法对应的装置,详见实施例二。
实施例二
本实施例提供了一种基于大数据极限学习的学生行为分析装置,请参见图2,该装置包括:
信息采集模块201,用于采集学生的身份信息和行为信息;
聚类模块202,用于采用K-means聚类算法对采集的身份信息和行为信息进行聚类,划分为不同的族类;
大小数据集划分模块203,用于对于每一个族类中的数据,根据其对预测结果的影响情况分为大量数据集与小量数据集,其中,大量数据集中的数据对预测结果影响较大,大量数据集的数据对预测结果影响较小;
数据划分模块204,用于在不同族类将数据按照预设比例划分为训练集、测试集与预测集;
模型构建模块205,用于利用训练集、测试集对划分的大量数据集与小量数据集进行不平衡模糊加权的极限学习机学习,得出极限学习机数据模型,再利用预测集进行预测验证;
行为分析模块206,用于利用极限学习机数据模型进行学生行为分析,输出分析预测结果。
在一种实施方式中,学生的身份信息包括但不限于学号和姓名,学生的行为信息包括但不限于出入图书馆的时间、出入体育馆的时间、出校时间。
在一种实施方式中,聚类模块202具体用于:
以学生的身份信息和行为信息分为作为类别的初始质心,通过k-means聚类算法,可把每个学生的信息聚合为一个族类,计算公式如下:
Figure BDA0002026263930000101
其中,D表示欧式距离,x1,x2分别表示不同的身份信息,y1,y2分别表示不同的行为信息,且D越小则被分为同族的概率越高。
在一种实施方式中,大小数据集划分模块203具体用于:
将数据出现的频率作为数据对预测结果的影响的指标,在每个数据族类按照数据出现频率划分分为大量数据集和小量数据集。
在一种实施方式中,模型构建模块205具体用于:
步骤S5.1:对聚类划分同一族数据设计信息平衡函数,其计算公式如下:
Figure BDA0002026263930000102
其中,
Figure BDA0002026263930000103
表示小量数据集
Figure BDA0002026263930000104
所对应的函数值,
Figure BDA0002026263930000105
表示大量数据集
Figure BDA0002026263930000106
所对应的函数值,r为小量数据集与大量数据集的比值,函数
Figure BDA0002026263930000107
选择基于质心距离的线性衰减函数值,计算公式如下:
Figure BDA0002026263930000108
其中,di为数据到该族类质心的距离,max(di)为最远距离,Δ为一个预设值;
步骤S5.2:选择无限可微分的激励函数,计算公式如下:
Figure BDA0002026263930000109
其中,R表示数据集合;
步骤S5.3:基于上述信息平衡函数和无线可微分激励函数的处理结果,构建极限学习机数据模型。
在一种实施方式中,构建的极限学习机数据模型包括三层结构,具体为输入层、隐含层和输出层,模型构建模块205具体用于:
计算输入层到隐含层的权值以及隐含层到输出层的权值,从而构建极限学习机数据模型,其中的权值更新计算公式如下:
Figure BDA0002026263930000111
其中,tj为训练集实际结果,R为复合函数的最终集合值,R=wi*xi+bi,其中的wi由公式(2)和(3)联立所确定的输入层到隐含层的权值,bi为每个权值所对应的随机偏置;
建立隐含层到输出层的权值,将公式(5)转化为:Hβ=T,H为隐含层输出,其表达式为:
Figure BDA0002026263930000112
其中,T为期望输出,β为权值矩阵,β=H+T,H+为H的广义逆矩阵,最终隐含层到输出层的权值被确定为β。
由于本发明实施例二所介绍的装置,为实施本发明实施例一中基于大数据极限学习的学生行为分析方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
实施例三
基于同一发明构思,本申请还提供了一种计算机可读存储介质300,请参见图3,其上存储有计算机程序311,该程序被执行时实现实施例一中的方法。
由于本发明实施例三所介绍的计算机可读存储介质,为实施本发明实施例一中基于大数据极限学习的学生行为分析方法所采用的计算机可读存储介质,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本申请还提供了一种计算机设备,请参见图4,包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器402执行上述程序时实现实施例一中的方法。
由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于大数据极限学习的学生行为分析方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种基于大数据极限学习的学生行为分析方法,其特征在于,包括:
步骤S1:采集学生的身份信息和行为信息;
步骤S2:采用K-means聚类算法对采集的身份信息和行为信息进行聚类,划分为不同的族类;
步骤S3:对于每一个族类中的数据,根据其对预测结果的影响情况分为大量数据集与小量数据集,其中,大量数据集中的数据对预测结果影响较大,小量 数据集的数据对预测结果影响较小;
步骤S4:在不同族类将数据按照预设比例划分为训练集、测试集与预测集;
步骤S5:利用训练集、测试集对划分的大量数据集与小量数据集进行不平衡模糊加权的极限学习机学习,得出极限学习机数据模型,再利用预测集进行预测验证;
步骤S6:利用极限学习机数据模型进行学生行为分析,输出分析预测结果;
其中,步骤S1中,学生的身份信息包括学号和姓名,学生的行为信息包括出入图书馆的时间、出入体育馆的时间、出校时间;
步骤S5具体包括:
步骤S5.1:对聚类划分同一族数据设计信息平衡函数,其计算公式如下:
Figure FDA0003142707790000011
其中,
Figure FDA0003142707790000012
表示小量数据集
Figure FDA0003142707790000013
所对应的函数值,
Figure FDA0003142707790000014
表示大量数据集
Figure FDA0003142707790000015
所对应的函数值,r为小量数据集与大量数据集的比值,函数
Figure FDA0003142707790000016
选择基于质心距离的线性衰减函数值,计算公式如下:
Figure FDA0003142707790000017
其中,di为数据到该族类质心的距离,max(di)为最远距离,Δ为一个预设值;
步骤S5.2:选择无限可微分的激励函数,计算公式如下:
Figure FDA0003142707790000018
其中,R表示数据集合;
步骤S5.3:基于上述信息平衡函数和无线可微分激励函数的处理结果,构建极限学习机数据模型。
2.如权利要求1所述的方法,其特征在于,步骤S2具体包括:
以学生的身份信息和行为信息分别作为类别的初始质心,通过k-means聚类算法,可把每个学生的信息聚合为一个族类,计算公式如下:
Figure FDA0003142707790000021
其中,D表示欧式距离,x1,x2分别表示不同的身份信息,y1,y2分别表示不同的行为信息,且D越小则被分为同族的概率越高。
3.如权利要求1所述的方法,其特征在于,步骤S3具体包括:
将数据出现的频率作为数据对预测结果的影响的指标,在每个数据族类按照数据出现频率划分为大量数据集和小量数据集。
4.如权利要求1所述的方法,其特征在于,构建的极限学习机数据模型包括三层结构,具体为输入层、隐含层和输出层,步骤S5.3具体包括:
计算输入层到隐含层的权值以及隐含层到输出层的权值,从而构建极限学习机数据模型,其中的权值更新计算公式如下:
Figure FDA0003142707790000022
其中,tj为训练集实际结果,R′为复合函数的最终集合值,R′=wi*xi+bi,其中的wi由公式(2)和(3)联立所确定的输入层到隐含层的权值,bi为每个权值所对应的随机偏置;
建立隐含层到输出层的权值,将公式(5)转化为:Hβ=T,H为隐含层输出,其表达式为:
Figure FDA0003142707790000023
其中,T为期望输出,β为权值矩阵,β=H+T,H+为H的广义逆矩阵,最终隐含层到输出层的权值被确定为β。
5.一种基于大数据极限学习的学生行为分析装置,其特征在于,包括:
信息采集模块,用于采集学生的身份信息和行为信息;
聚类模块,用于采用K-means聚类算法对采集的身份信息和行为信息进行聚类,划分为不同的族类;
大小数据集划分模块,用于对于每一个族类中的数据,根据其对预测结果的影响情况分为大量数据集与小量数据集,其中,大量数据集中的数据对预测结果影响较大,小量 数据集的数据对预测结果影响较小;
数据划分模块,用于在不同族类将数据按照预设比例划分为训练集、测试集与预测集;
模型构建模块,用于利用训练集、测试集对划分的大量数据集与小量数据集进行不平衡模糊加权的极限学习机学习,得出极限学习机数据模型,再利用预测集进行预测验证;
行为分析模块,用于利用极限学习机数据模型进行学生行为分析,输出分析预测结果;
其中,学生的身份信息包括学号和姓名,学生的行为信息包括出入图书馆的时间、出入体育馆的时间、出校时间;
模型构建模块具体用于:
对聚类划分同一族数据设计信息平衡函数,其计算公式如下:
Figure FDA0003142707790000031
其中,
Figure FDA0003142707790000032
表示小量数据集
Figure FDA0003142707790000033
所对应的函数值,
Figure FDA0003142707790000034
表示大量数据集
Figure FDA0003142707790000035
所对应的函数值,r为小量数据集与大量数据集的比值,函数
Figure FDA0003142707790000036
选择基于质心距离的线性衰减函数值,计算公式如下:
Figure FDA0003142707790000037
其中,di为数据到该族类质心的距离,max(di)为最远距离,Δ为一个预设值;
选择无限可微分的激励函数,计算公式如下:
Figure FDA0003142707790000038
其中,R表示数据集合;
基于上述信息平衡函数和无线可微分激励函数的处理结果,构建极限学习机数据模型。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至4中任一项权利要求所述的方法。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4中任一项权利要求所述的方法。
CN201910295218.7A 2019-04-12 2019-04-12 一种基于大数据极限学习的学生行为分析方法及装置 Active CN110084291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910295218.7A CN110084291B (zh) 2019-04-12 2019-04-12 一种基于大数据极限学习的学生行为分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910295218.7A CN110084291B (zh) 2019-04-12 2019-04-12 一种基于大数据极限学习的学生行为分析方法及装置

Publications (2)

Publication Number Publication Date
CN110084291A CN110084291A (zh) 2019-08-02
CN110084291B true CN110084291B (zh) 2021-10-22

Family

ID=67414966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910295218.7A Active CN110084291B (zh) 2019-04-12 2019-04-12 一种基于大数据极限学习的学生行为分析方法及装置

Country Status (1)

Country Link
CN (1) CN110084291B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796200B (zh) * 2019-10-30 2022-11-25 深圳前海微众银行股份有限公司 数据分类方法、终端、装置及存储介质
CN111091484B (zh) * 2020-03-19 2020-07-28 浙江正元智慧科技股份有限公司 基于大数据的学生学习行为分析系统
CN112668749B (zh) * 2020-11-24 2023-07-07 江苏中矿安华科技发展有限公司 一种基于类标加权极限学习机的煤矿瓦斯预警方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210453B2 (en) * 2015-08-17 2019-02-19 Adobe Inc. Behavioral prediction for targeted end users
CN105740619B (zh) * 2016-01-28 2018-06-12 华南理工大学 基于核函数的加权极限学习机污水处理在线故障诊断方法
CN106228178A (zh) * 2016-07-06 2016-12-14 吴本刚 网络用户行为预测系统
CN106897826A (zh) * 2017-02-23 2017-06-27 吉林大学 一种交通事故风险评估方法及系统
CN107688825B (zh) * 2017-08-03 2020-02-18 华南理工大学 一种改进型的集成加权极限学习机污水处理故障诊断方法
CN107451278A (zh) * 2017-08-07 2017-12-08 北京工业大学 基于多隐层极限学习机的中文文本分类方法
CN107590538B (zh) * 2017-08-28 2021-04-27 南京航空航天大学 一种基于在线序列学习机的危险源识别方法
CN108596068B (zh) * 2018-04-17 2022-04-19 广东工业大学 一种动作识别的方法和装置

Also Published As

Publication number Publication date
CN110084291A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
Romashkova et al. Application of information technology for the analysis of the rating of university
Yang et al. A network security situation assessment method based on adversarial deep learning
US11190562B2 (en) Generic event stream processing for machine learning
CN108322317B (zh) 一种账号识别关联方法及服务器
CN110992169A (zh) 一种风险评估方法、装置、服务器及存储介质
CN110084291B (zh) 一种基于大数据极限学习的学生行为分析方法及装置
CN111932269B (zh) 设备信息处理方法及装置
CN111985751B (zh) 人机聊天体验评估体系
JP6783443B2 (ja) 情報処理装置、情報処理システム、情報処理方法、プログラム、及び記録媒体
CN117591944A (zh) 一种针对于大数据分析的学习预警方法及系统
CN115662627A (zh) 学生心理健康风险预警模型构建预警方法及其应用
Hu Tolerance rough sets for pattern classification using multiple grey single-layer perceptrons
CN115221396A (zh) 基于人工智能的信息推荐方法、装置及电子设备
Fayaz et al. Assessment of ground motion amplitude scaling using interpretable Gaussian process regression: Application to steel moment frames
Souai et al. Predicting at-risk students using the deep learning blstm approach
CN117235633A (zh) 机构分类方法、装置、计算机设备及存储介质
Hilbert ICT4ICTD: Computational social science for digital development
Lin et al. The prediction of network security situation based on deep learning method
CN114912354B (zh) 一种预测蚊媒传染病风险的方法、装置及介质
CN116094765A (zh) 基于量子生成对抗网络的内部用户异常行为检测与评估方法
CN112507185B (zh) 用户肖像的确定方法和装置
Chen Hotel management evaluation index system based on data mining and deep neural network
Rong et al. Exploring network behavior using cluster analysis
CN113673811A (zh) 一种基于session的在线学习绩效评估方法及装置
Escovedo et al. Learning under concept drift using a neuro-evolutionary ensemble

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant