CN116340815A

CN116340815A - 一种基于卷积神经网络的高校异常行为学生识别方法

Info

Publication number: CN116340815A
Application number: CN202310203293.2A
Authority: CN
Inventors: 邹洋; 李富松
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-06-27

Abstract

本发明涉及一种基于卷积神经网络的高校异常行为学生识别方法，属于数据挖掘领域。该方法为：获取高校教务后台数据进行预处理；构建卷积神经网络；训练和测试所述卷积神经网络，得到异常行为学生识别卷积神经网络模型；利用模型对学生实时校园活动数据进行分析，及时发现可能存在异常行为的学生。本发明通过高校学生背景信息及学习成绩，结合校园日常行为数据，通过卷积神经网络提取高校学生校园行为的持续性、变化性、周期性的特征，引入DBSCAN密度聚类算法代替softmax函数对提取的特征值进行分类，将有异常行为的学生区分而出以及时干预，帮助克服学习或生活中的困难。

Description

一种基于卷积神经网络的高校异常行为学生识别方法

技术领域

本发明属于数据挖掘领域，涉及一种基于卷积神经网络的高校异常行为学生识别方法。

背景技术

当前高校相对宽松的教育管理环境给予了高校学生对自身发展方向广阔的选择方向，但是面对大量余裕时间，从小到大从应试教育的高校学子，虽然大多已经成年，也会存在自制力不足，过度沉迷于虚拟网络游戏而无法顺利完成自身学业延迟毕业的情况，更严重的可能误入网贷、传销、赌博的歧路中。当前存在不少提醒高校学生挂科风险的学习预警方法，通过机器学习的方法建立过往学生校园行为和学习成绩的关联，对当前学生进行风险区分，提醒可能存在的挂科风险，但是无法解决异常行为学生的识别问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于卷积神经网络的高校异常行为学生识别方法。

为达到上述目的，本发明提供如下技术方案：

一种基于卷积神经网络的高校异常行为学生识别方法，该方法包括以下步骤：

S1：获取后台数据库的原始行为数据，创建数据集；

S2：数据集预处理，划分训练集和测试集；

S3：创建多分支的卷积神经网络模型，引入DBSCAN密度聚类算法替代softmax函数作为分类输出；

S4：使用创建好的数据集来训练和测试深度神经网络模型；

S5：利用训练好的模型对待识别的数据进行分类。

可选的，所述S1具体为：

首先通过学校后勤中的数据库将学生在学校刷卡、电子支付、进出图书馆和进出学校记录的行为抽取出来，再清洗数据异常部分后进行数据工程，将数据进行归一化处理。

可选的，所述S2具体为：

基于数据集，对单个样本X，构建一个二值化的三维张量对其进行表示，即

其中，t、l和d分别表示校园行为数据中含有的时段数、地点个数和天数；对数据的记录时间进行离散化，取时间区间为6点至24点，以半个小时为单位进行时间切片，将每天分为36个时间段，则t值为36；根据已有数据维度，得出l值和d值；如果X于第k天第i时段在第j个地点存在刷卡行为，则X_ijk值为1，否则为0；将构建出的数据以7∶3的比例划分为训练集和测试集。

可选的，所述S3具体为：

构建神经网络模型；基于以上构建的数据，将“日期”维度作为深度，设计卷积核维度为a×l，表示对学生日常行为的轨迹的特征提取，定义为：

利用卷积核

对学生样本X进行卷积操作；a为卷积核的高度且深度为日期方向，对学生样本X进行卷积操作，每次卷积捕获学生在d天中相应a个时段的被记录行为，记录为：

{X_{i，i+a-1}1，...，X_{{i，i+a-1}(d-1)}，X_{i，i+a-1}d}

其中，X_{i，i+a-1}1表示第j(1≤j≤d)天自第i(j≤i≤t个)个时间段节点开始的a个时间段内的记录的行为信息；然后，把每天在此a个时间段内的信息连接起来，形成一个三维张量，计为

则卷积公式定义为：

其中，W⁽¹⁾与b⁽¹⁾为网络第一层需学习的参数，*表示卷积操作运算；f为激活函数，采用常用的ReLU激活函数，表示为：

f(z)＝max(0，z)

以日期为深度，构建第二个卷积核，抽取数据的变化性和周期性特征，表示为：

其中l取值为1，表示每次只对一个地点的刷卡信息进行卷积操作，样本X于d天内在该地点的刷卡信息定义为：

{X_{addr}1，...，X_{addr}(d-1)，X_{addr}d}

将给定的在addr的记录信息连接为序列，表示为张量

结合卷积核

带入上述公式*进行卷积操作；

采用DBSCAN密度聚类算法对深度卷积神经网络抽取的多维度特征值进行聚类的过程包括：

S31：从提取的特征值中已标注的目标特征值的选出核心样本点及其邻居；

S32：遍历所有筛选出的样本点，判断筛选出的样本点p是否为核心样本点，是则给p分配一个簇标签；不是核心样本点，则将样本点p标记为噪声；

S33：访问核心样本点p的所有邻居，并将点p的簇标签分配给所有邻居；

S34：判断每个被访问的邻居是否为核心样本点，若是则点p依次访问各核心样本的邻居，并将点p的簇标签分配给所有访问的邻居点，直到点p的邻居没有核心样本点为止；

S35：选取筛选出的样本点中另一个未被访问过的点，返回步骤S2重复上述过程，直至所有样本点都被分配簇标签或被标记为噪声，完成聚类。

可选的，所述S4具体为：

利用训练集训练该网络，迭代通过反向传播算法不断优化，调整卷积神经网络的超参数以让结果达到最优。

本发明的有益效果在于：通过结合高校学生在校园中日常学习生活的数据与背景资料，通过训练好的卷积神经网络提取其特征值进行人物建模，使用聚类方法筛选出可能表现出异常行为的学生，及时预警以人工干预。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明一种基于卷积神经网络的高校异常行为学生识别方法；

图2为本发明一实施例的卷积过程原理图；

图3为本发明一实施例的深度神经网络模型流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

一种基于深度卷积神经网络和DBSCAN密度聚类算法的高校学生异常行为识别方法，该方法包括：获取高校教务后台数据进行预处理；构建卷积神经网络；训练和测试所述卷积神经网络，得到异常行为学生识别卷积神经网络模型；利用模型对学生实时校园活动数据进行分析，及时发现可能存在异常行为的学生。本发明通过高校学生背景信息及学习成绩，结合校园日常行为数据，通过卷积神经网络提取高校学生校园行为的持续性、变化性、周期性的特征，特别的，引入DBSCAN密度聚类算法代替softmax函数对提取的特征值进行分类识别行为异常群体。

如图1所示，一种基于深度卷积神经网络的高校学生异常行为识别方法包括以下步骤：

S1：获取后台数据库的原始数据，创建数据集；

首先通过学校后勤中的数据库将学生每日在学校刷卡时间地址，电子支付，进出图书馆，进出寝室时间和学校等可记录的行为抽取出来，再清洗数据异常部分后进行数据工程，将数据进行归一化处理。

S2：数据集预处理，划分训练集和测试集；基于以上数据，对单个样本X，构建一个二值化的三维张量对其进行表示，即

其中，t、l和d分别表示校园行为数据中含有的时段数、地点个数和天数。因此，对数据的记录时间进行离散化，取时间区间为6点至24点，以半个小时为单位进行时间切片，将每天分为36个时间段，则t值为36。根据已有数据维度，可得出l值和d值。进一步的，如果X于第k天第i时段在第j个地点存在刷卡行为，则X_ijk值为1，否则为0。将构建出的数据以7：3的比例划分为训练集和测试集。

构建神经网络模型。基于以上构建的数据，将“日期”维度作为深度，设计卷积核维度为a×l，表示对学生日常行为的轨迹的特征提取，定义为：

利用卷积核

对学生样本X进行卷积操作。因卷积高度为a且深度为日期方向，对学生样本X进行卷积操作，因此每次卷积可以捕获学生在d天中相应a个时段的被记录行为，记录为：

{X_{i，i+a-1}1，...，X_{{i，i+a-1}(d-1)}，X_{i，i+a-1}d}

其中，X_{i，j+a-1}1表示第j(1≤j≤d)天自第i(j≤i≤t个)个时间段节点开始的a个时间段内的记录的行为信息。然后，把每天在此a个时间段内的信息连接起来，形成一个三维张量，计为

则卷积公式定义为：

f(z)＝max(0，z)

类似的，以日期为深度，构建第二个卷积核，抽取数据的变化性和周期性特征，表示为：

{X_{addr}1，...，X_{addr}(d-1)，X_{addr}d}

将给定的在addr的记录信息连接为序列，表示为张量

结合卷积核

带入上述公式*进行卷积操作。卷积操作的具体细节如图2所示。

进一步的，采用DBSCAN密度聚类算法对深度卷积神经网络抽取的多维度特征值进行聚类的过程包括：

本发明实例中所采用的深度神经网络模型基于两种卷积核的双支路神经网络模型DPCNN作为主干网络的基础结构，用于数据特征提取，双分支结构可以提取出行为的周期变化性和持续性。将主干神经网络提取到的特征向量交给DBSCAN模块进行聚类。具体细节参照图3模型流程图。

S4：使用创建好的数据集来训练和测试深度神经网络模型；

本发明选择的深度神经网络的训练策略为：所述神经网络中代价函数的选择为交叉熵函数，激活函数使用非线性的ReLU。所述神经网络的优化方法采用随机梯度下降SGD，采用的深度学习框架为Pytorch，通过训练不断降低目标函数的函数值来学习和确定深度神经网络的参数。

模型训练过程中的参数如表1所示。

表1 模型训练参数设置

S5：利用训练好的模型对待识别的数据进行分类；

对输出结果进行评估。根据S1所述的数据集的两种不同的划分标准，以异常行为模式的识别准确率作为选取的评价指标：

准确率

其中N_current是被正确分类的异常行为模式的样本总数，N_total是该样本总数。实验显示该模型的准确率为69.391％。能够较为有效的从上万的样本中识别出可能存在异常行为模式的个体。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。