CN111291173A

CN111291173A - 一种基于混合神经网络的高校学生画像技术的应用方法

Info

Publication number: CN111291173A
Application number: CN202010050299.7A
Authority: CN
Inventors: 李旭阳; 于磊; 刘子豪; 丁治明
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-16
Anticipated expiration: 2040-01-17
Also published as: CN111291173B

Abstract

本发明公开了一种基于混合神经网络的高校学生画像技术的应用方法，包括以下步骤：步骤S1:基于高维度聚类的学生画像进行标签设计；步骤S2：基于混合神经网络建立学生画像分类模型；步骤S3：利用合并结果得出最优解，进而得出学生画像；利用所采集的数据并利用卷积神经网络和前馈神经网络的混合神经网络模型得出合并结果，再利用合并结果参与利用贝叶斯个性排序、遗传算法对混合神经网络框架进行最优解计算，得出学生画像；本发明的有益效果是：助力学生学业发展。

Description

一种基于混合神经网络的高校学生画像技术的应用方法

技术领域

本发明涉及到画像技术领域，具体是一种基于混合神经网络的高校学生画像技术的应用方法。

背景技术

数据挖掘技术可以从大量的数据中发现隐藏的模式与知识，目前已成功应用在生物、金融和电子商务等广泛的领域；近年来，在教育信息化、远程教育和Web2.0等应用的带动下，教育数据挖掘(educational data mining，简称EDM)开始受到越来越多的研究者的关注；在过去几年中，教育领域和信息领域都发生了革命性的变化，在线学习系统、智能手机应用和社交网络为EDM研究提供了大量的应用和数据；以在线学习系统MOODLE为例，截至2013年，已为全球超过6000万名学生和老师提供服务；截至2012年6月，全球智能手机户人数超过10亿人，社交媒体Facebook的用户数超过22亿人；大规模公开在线课程(massiveopen online courses，简称MOOCs)是近两年兴起的新型教学模式；截至2014年底，在MOOCs网站Coursera上注册的用户人数已超过1000万；显然，EDM也正处于一个“大数据”的时代；这一特殊的背景，预示着EDM研究将在近几年内迅速发展；我国教育部于2018年4月13日印发的《教育信息化2.0行动计划》中提及“教育信息化2.0行动计划是顺应智能环境下教育发展的必然选择；教育信息化2.0行动计划是推进“互联网+教育”的具体实施计划；人工智能、大数据、区块链等技术迅猛发展，将深刻改变人才需求和教育形态；智能环境不仅改变了教与学的方式，而且已经开始深入影响到教育的理念、文化和生态；主要发达国家均已意识到新形势下教育变革势在必行，从国家层面发布教育创新战略，设计教育改革发展蓝图，积极探索新模式、开发新产品、推进新技术支持下的教育教学创新；我国已发布《新一代人工智能发展规划》，强调发展智能教育，主动应对新技术浪潮带来的新机遇和新挑战”；北京工业大学于2016年初开始探索学生大数据挖掘与精准服务工作，通过理论研究和实践探索，“全员参与+技术支持+分步实施+智能服务”四位一体的学生工作新模式应运而生，初步取得了阶段性进展；于2018年10月11日正式成立北京工业大学学生大数据中心(教育大数据分析与应用实验室)，以“人人参与大数据建设，人人享有大数据成果”为建设理念，砥砺前行，探索大数据在高校学生思想政治教育工作中的研究与应用，为学生发展、辅导员精细化工作、双一流建设服务；就目前情况而言，对于高校的现有学生数据进行深层次的并针对学生个性化的数据挖掘是十分有意义的；学生画像是用户画像在教育数据挖掘应用中的延伸，根据学生的在校行为数据抽象出标签化的学生模型；目前，很多高校对于学生工作所产生的相关数据更多的是对其进行汇总和展示，而在数据挖掘上进行研究的相对较少；在学生画像方面，其研究更多的是对学生产生数据信息在次数和频率上的统计，其中的画像标签更多是由相关高等教育研究工作者根据经验得出，不具有全面的代表性。

所以现有的技术需要一种在混合神经网络的基础上，就某高校本科生目前已知的部分基本信息(生源地、民族、性别等)、学生在学期内产生的教务信息数据以及由校园一卡通和网关账号等产生的部分学生行为数据，对学生建立长短时学生画像，并逐步优化，从而助力学生学业发展的基于混合神经网络的高校学生画像技术的应用方法。

发明内容

本发明的目的在于提供一种基于混合神经网络的高校学生画像技术的应用方法，以解决上述背景技术中所提到的问题。

为实现上述目的，本发明提供如下技术方案：一种基于混合神经网络的高校学生画像技术的应用方法，包括以下步骤：

步骤S1:基于高维度聚类的学生画像进行标签设计；

步骤S2：基于混合神经网络建立学生画像分类模型；

步骤S3：利用合并结果得出最优解，进而得出学生画像。

作为本发明进一步的方案：

所述步骤S1包括：学生在高校学习生活中会产生形形色色的各类数据，如学生基本数据、教务数据、一卡通消费数据、门禁数据、图书馆借阅数据、网关流量浏览数据等等，这些数据可以分为有结构数据和无结构数据；有结构数据即结构化的数据，一般数据量较小，但具有良好的数据特征；无结构数据包括半结构化数据和非结构化数据，数据量庞大，数据特征不明显；利用高维度聚类技术，可以进行数据挖掘，将复杂的多源异构数据转换为简单的语义标签，为学生画像的建立打下基础；

本发明采用基于CLIQUE聚类算法，即自动子空间聚类算法，对学生的各项数据进行聚类，发掘学生在静态数据和动态数据中的潜在联系，从而确立学生画像标签；子空间聚类的模式更适合去探究学生各项属性间存在影响的程度，从而确定特定属性或行为对学生的影响；

CLIQUE具有网格类算法高的优点，对数据输入顺序不敏感，无需假设任何规范的数据分布，它随输入数据的大小线性的扩展，当数据维数增加时具有良好的可伸缩性，对于大型数据库中的高位数据的聚类非常有效；上述CLIQUE的优点在应对学生数据上十分符合，对学生历史数据的输入并不需要顺序，且数据结构可设计性强，便于扩展和调整。

作为本发明进一步的方案：

所述步骤S2包括：学生画像近期标签的确立是相比长时间前的特性标签确立更有时效性的，但同时不能否认静态数据产生的标签的意义，因此本发明提出一种基于卷积神经网络和前馈神经网络的混合神经网络模型来解决这种情况，以此来实行卷积神经网络模型建立、反馈神经网络模型建立、混合神经网络模型建立。

作为本发明进一步的方案：

所述步骤S2中的卷积神经网络(1D-CNN)建立，包括：

相较于学生静态数据的简单，学生的动态数据中则有着大量的以时间为轴的行为数据，因而更加复杂；在其中发现学生的动态数据由于与静态数据两种数据格式不同，整合成统一的数据格式会使得数据产生大量的压缩而损失，或是出现数据大量冗余现象；对于学生的行为数据，在对数据进行清洗和整理后采用矩阵的形式对其进行存储；数据情况一般包括每个学生的食堂消费总额、食堂消费标准差、超市消费总额、超市消费标准差、网络消费总额、浴室消费总额数据；

而动态数据以二维矩阵形式存在，在深度学习中，卷积神经网络一直以来对视频、图像、音频等二维数据有着深入的研究，其中的一维卷积神经网络适用于序列数据或语言数据，因此，借鉴其处理二维数据的方式采用一维卷积神经网络对学生动态数据进行处理；

常见一维卷积神经网络模型的结构为：输入层、卷积层、池化层、三层全连接层以及输出层；

卷积层可表述为：

C＝f(xk+b)

其中x代表输入，k代表卷积核，b代表偏置值；f为激活函数，常用的激活函数有relu、tanh、sigmoid等函数，本发明采用的是relu函数,公式如下：

f(x)＝max(0,x)

卷积层C在序列化数据集上做滑动与原始数据进行卷积后得到特征层；

池化层S，池化层是指下采样层，它把前层神经元的一个集群的输出与下层单个神经元相结合；池化运算在非线性激活之后执行，其中池化层有助于减少参数的数量并避免过拟合，它同样可作为一种平滑手段消除不想要的噪音；S层可表述为：

S＝βdown(C)+b

其中β和b为标量参数，down为下采样选择的函数，有平均池化层和最大池化层，本发明对两种方法都进行了采用，以提高感受区域的功能性；

输出层采用的是Softmax函数分类器，假设一维卷积神经网络的输出为y₁，y₂，...，y_n，经过softmax层后输出为：

本发明中根据高校学生数据挖掘需求设计的一维卷积神经网络模型可参见图5；

1D-CNN中各层数据结构可参见图6；

在最大池化层与平均池化层间，引入了两层长短期记忆网络(LSTM)，利用其循环神经网络所具备的记忆性和参数共享特点，提升了学生画像标签中联系上下教学周进行预测的关联性；

LSTM网络是一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的，其网络结构可参见图7；

在本发明中x₁,x₁,...,x_n表示上一层MaxPooling层的输出，结构为1行8列40通道，x_n对应第n列(n最大为8)数组，该数组包括40个特征值，h₁,h₁,...,h_n表示x₁,x₁,...,x_n分别经过cell的各个输出，当LSTM结构为1行8列80通道时，h_n表示x_n(40个特征值)经过cell后的输出(80个特征值)；示意参考表可参见图8；

训练目标函数本发明采用交叉熵算式函数，公式如下：

当y＝1时，

预测输出越接近真实样本标签1，损失函数L越小；预测输出越接近0，L越大，因此，函数的变化趋势完全符合实际需要的情况；当y＝0时，

预测输出越接近真实样本标签0，损失函数L越小；预测函数越接近1，L越大，函数的变化趋势也完全符合实际需要的情况。

作为本发明进一步的方案：

所述步骤S2中的前馈神经网络模型建立，包括：相比较学生的动态行为数据，由学生的基本信息和教务信息组成的静态数据就好处理的多，仍需要对学生长远方向的发展进行预测，经过对神经网络知识的学习，本发明用前反馈神经网络(FNN)对这部分数据进行数据挖掘，来确定学生画像的对应标签。

作为本发明进一步的方案：

所述步骤S2中的混合神经网络模型建立，包括：

在卷积神经网络和前馈神经网络中所得出的学生画像标签中一定会有重合部分，如学生的是否会或得“学习努力”标签，该标签既受到静态数据中教务数据的成绩结果影响，也会受到学生本学期的作息规律，出入图书馆频次等行为影响，即标签结果既受到学生长期静态属性影响，也受到短期行为影响，那么两个结果中一定会对标签的结果有不同的选择，所以需要利用卷积神经网络和前馈神经网络中所得出的学生画像标签，进行合并；

作为本发明进一步的方案：

所述步骤S3，包括：利用合并结果得出最优解，进而得出学生画像；

利用贝叶斯个性排序、遗传算法对混合神经网络框架进行最优解计算，得出学生画像。

与现有技术相比，本发明的有益效果是：

可以根据学生在学期内产生的教务信息数据以及由校园一卡通和网关账号等产生的部分学生行为数据，对学生建立长短时学生画像，并逐步优化，从而助力学生学业发展。

附图说明

图1为本发明的步骤流程图。

图2为本发明的整体路线图；

图3为本发明的CLIQUE算法伪代码图；

图4为本发明所采集数据情况图；

图5为本发明的卷积神经网络模型；

图6为本发明的1D-CNN中各层数据结构示图；

图7为本发明的LSTM网络网络结构图；

图8为本发明的40个特征值经过cell后的输出80个特征值的示意参考表；

图9为本发明的FNN在学生画像中的例图；

图10为本发明的混合神经网络基本框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1～10，本发明实施例中，一种基于混合神经网络的高校学生画像技术的应用方法，包括以下步骤：

步骤S1:基于高维度聚类的学生画像进行标签设计；

步骤S2：基于混合神经网络建立学生画像分类模型；

步骤S3：利用合并结果得出最优解，进而得出学生画像。

所述步骤S2中的卷积神经网络(1D-CNN)建立，包括：

卷积层可表述为：

C＝f(xk+b)

f(x)＝max(0,x)

S＝βdown(C)+b

1D-CNN中各层数据结构可参见图6；

在本发明中x₁,x₁,…,x_n表示上一层MaxPooling层的输出，结构为1行8列40通道，x_n对应第n列(n最大为8)数组，该数组包括40个特征值，h₁,h₁,...,h_n表示x₁,x₁,...,x_n分别经过cell的各个输出，当LSTM结构为1行8列80通道时，h_n表示x_n(40个特征值)经过cell后的输出(80个特征值)；示意参考表可参见图8；

训练目标函数本发明采用交叉熵算式函数，公式如下：

当y＝1时，

所述步骤S2中的混合神经网络模型建立，包括：

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内；不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于混合神经网络的高校学生画像技术的应用方法，其特征在于：包括以下步骤：

步骤S1:基于高维度聚类的学生画像进行标签设计；

步骤S2：基于混合神经网络建立学生画像分类模型；

步骤S3：利用合并结果得出最优解，进而得出学生画像。

2.根据权利要求1所述的一种基于混合神经网络的高校学生画像技术的应用方法，其特征在于：所述步骤S1包括：学生在高校学习生活中的各类数据包括学生基本数据、教务数据、一卡通消费数据、门禁数据、图书馆借阅数据、网关流量浏览数据，这些数据分为有结构数据和无结构数据；有结构数据即结构化的数据；无结构数据包括半结构化数据和非结构化数据；利用高维度聚类进行数据挖掘，将复杂的多源异构数据转换为简单的语义标签；

采用基于CLIQUE聚类算法，即自动子空间聚类算法，对学生的各项数据进行聚类，发掘学生在静态数据和动态数据中的潜在联系，从而确立学生画像标签；子空间聚类的模式确定特定属性或行为对学生的影响；

CLIQUE具有网格类算法高的优点，对数据输入顺序不敏感，无需假设任何规范的数据分布，随输入数据的大小线性的扩展，当数据维数增加时具有可伸缩性，对于大型数据库中的高位数据的聚类非常有效。

3.根据权利要求1所述的一种基于混合神经网络的高校学生画像技术的应用方法，其特征在于：采用基于卷积神经网络和前馈神经网络的混合神经网络模型来实行卷积神经网络模型、反馈神经网络模型、混合神经网络模型。

4.根据权利要求3所述的一种基于混合神经网络的高校学生画像技术的应用方法，其特征在于：所述步骤S2中的卷积神经网络建立，包括：

对于学生的行为数据，在对数据进行清洗和整理后采用矩阵的形式对其进行存储；数据情况包括每个学生的食堂消费总额、食堂消费标准差、超市消费总额、超市消费标准差、网络消费总额、浴室消费总额数据；

而动态数据以二维矩阵形式存在，借鉴其处理二维数据的方式采用一维卷积神经网络对学生动态数据进行处理；

一维卷积神经网络模型的结构为：输入层、卷积层、池化层、三层全连接层以及输出层；

卷积层表述为：

C＝f(xk+b)

其中x代表输入，k代表卷积核，b代表偏置值；f为激活函数，采用的是relu函数,公式如下：

f(x)＝max(0,x)

池化层S，池化层是指下采样层，把前层神经元的一个集群的输出与下层单个神经元相结合；池化运算在非线性激活之后执行，其中池化层有助于减少参数的数量并避免过拟合，同样作为一种平滑手段消除不想要的噪音；S层表述为：

S＝βdown(C)+b

其中β和b为标量参数，down为下采样选择的函数，有平均池化层和最大池化层；

在最大池化层与平均池化层间，引入两层长短期记忆网络，利用其循环神经网络所具备的记忆性和参数共享特点，提升了学生画像标签中联系上下教学周进行预测的关联性；

x₁,x₁,...,x_n表示上一层MaxPooling层的输出，结构为1行8列40通道，x_n对应第n列数组，数组包括40个特征值，h₁,h₁,...,h_n表示x₁,x₁,...,x_n分别经过cell的各个输出，当LSTM结构为1行8列80通道时，h_n表示x_n经过cell后的输出；

训练目标函数

采用交叉熵算式函数，公式如下：

当y＝1时，

5.根据权利要求3所述的一种基于混合神经网络的高校学生画像技术的应用方法，其特征在于：所述步骤S2中的前馈神经网络模型建立中，用前反馈神经网络对这部分数据进行数据挖掘，来确定学生画像的对应标签。

6.根据权利要求3所述的一种基于混合神经网络的高校学生画像技术的应用方法，其特征在于：所述步骤S2中的混合神经网络模型建立，包括：

在卷积神经网络和前馈神经网络中所得出的学生画像标签中一定会有重合部分，需要利用卷积神经网络和前馈神经网络中所得出的学生画像标签，进行合并。

7.根据权利要求1所述的一种基于混合神经网络的高校学生画像技术的应用方法，其特征在于：所述步骤S3，包括：利用合并结果得出最优解，进而得出学生画像；