CN116340815A - 一种基于卷积神经网络的高校异常行为学生识别方法 - Google Patents
一种基于卷积神经网络的高校异常行为学生识别方法 Download PDFInfo
- Publication number
- CN116340815A CN116340815A CN202310203293.2A CN202310203293A CN116340815A CN 116340815 A CN116340815 A CN 116340815A CN 202310203293 A CN202310203293 A CN 202310203293A CN 116340815 A CN116340815 A CN 116340815A
- Authority
- CN
- China
- Prior art keywords
- neural network
- data
- convolutional neural
- student
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于卷积神经网络的高校异常行为学生识别方法,属于数据挖掘领域。该方法为:获取高校教务后台数据进行预处理;构建卷积神经网络;训练和测试所述卷积神经网络,得到异常行为学生识别卷积神经网络模型;利用模型对学生实时校园活动数据进行分析,及时发现可能存在异常行为的学生。本发明通过高校学生背景信息及学习成绩,结合校园日常行为数据,通过卷积神经网络提取高校学生校园行为的持续性、变化性、周期性的特征,引入DBSCAN密度聚类算法代替softmax函数对提取的特征值进行分类,将有异常行为的学生区分而出以及时干预,帮助克服学习或生活中的困难。
Description
技术领域
本发明属于数据挖掘领域,涉及一种基于卷积神经网络的高校异常行为学生识别方法。
背景技术
当前高校相对宽松的教育管理环境给予了高校学生对自身发展方向广阔的选择方向,但是面对大量余裕时间,从小到大从应试教育的高校学子,虽然大多已经成年,也会存在自制力不足,过度沉迷于虚拟网络游戏而无法顺利完成自身学业延迟毕业的情况,更严重的可能误入网贷、传销、赌博的歧路中。当前存在不少提醒高校学生挂科风险的学习预警方法,通过机器学习的方法建立过往学生校园行为和学习成绩的关联,对当前学生进行风险区分,提醒可能存在的挂科风险,但是无法解决异常行为学生的识别问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于卷积神经网络的高校异常行为学生识别方法。
为达到上述目的,本发明提供如下技术方案:
一种基于卷积神经网络的高校异常行为学生识别方法,该方法包括以下步骤:
S1:获取后台数据库的原始行为数据,创建数据集;
S2:数据集预处理,划分训练集和测试集;
S3:创建多分支的卷积神经网络模型,引入DBSCAN密度聚类算法替代softmax函数作为分类输出;
S4:使用创建好的数据集来训练和测试深度神经网络模型;
S5:利用训练好的模型对待识别的数据进行分类。
可选的,所述S1具体为:
首先通过学校后勤中的数据库将学生在学校刷卡、电子支付、进出图书馆和进出学校记录的行为抽取出来,再清洗数据异常部分后进行数据工程,将数据进行归一化处理。
可选的,所述S2具体为:
基于数据集,对单个样本X,构建一个二值化的三维张量对其进行表示,即
其中,t、l和d分别表示校园行为数据中含有的时段数、地点个数和天数;对数据的记录时间进行离散化,取时间区间为6点至24点,以半个小时为单位进行时间切片,将每天分为36个时间段,则t值为36;根据已有数据维度,得出l值和d值;如果X于第k天第i时段在第j个地点存在刷卡行为,则Xijk值为1,否则为0;将构建出的数据以7∶3的比例划分为训练集和测试集。
可选的,所述S3具体为:
构建神经网络模型;基于以上构建的数据,将“日期”维度作为深度,设计卷积核维度为a×l,表示对学生日常行为的轨迹的特征提取,定义为:
{X{i,i+a-1}1,...,X{i,i+a-1}(d-1),X{i,i+a-1}d}
其中,X{i,i+a-1}1表示第j(1≤j≤d)天自第i(j≤i≤t个)个时间段节点开始的a个时间段内的记录的行为信息;然后,把每天在此a个时间段内的信息连接起来,形成一个三维张量,计为则卷积公式定义为:
其中,W(1)与b(1)为网络第一层需学习的参数,*表示卷积操作运算;f为激活函数,采用常用的ReLU激活函数,表示为:
f(z)=max(0,z)
以日期为深度,构建第二个卷积核,抽取数据的变化性和周期性特征,表示为:
其中l取值为1,表示每次只对一个地点的刷卡信息进行卷积操作,样本X于d天内在该地点的刷卡信息定义为:
{X{addr}1,...,X{addr}(d-1),X{addr}d}
采用DBSCAN密度聚类算法对深度卷积神经网络抽取的多维度特征值进行聚类的过程包括:
S31:从提取的特征值中已标注的目标特征值的选出核心样本点及其邻居;
S32:遍历所有筛选出的样本点,判断筛选出的样本点p是否为核心样本点,是则给p分配一个簇标签;不是核心样本点,则将样本点p标记为噪声;
S33:访问核心样本点p的所有邻居,并将点p的簇标签分配给所有邻居;
S34:判断每个被访问的邻居是否为核心样本点,若是则点p依次访问各核心样本的邻居,并将点p的簇标签分配给所有访问的邻居点,直到点p的邻居没有核心样本点为止;
S35:选取筛选出的样本点中另一个未被访问过的点,返回步骤S2重复上述过程,直至所有样本点都被分配簇标签或被标记为噪声,完成聚类。
可选的,所述S4具体为:
利用训练集训练该网络,迭代通过反向传播算法不断优化,调整卷积神经网络的超参数以让结果达到最优。
本发明的有益效果在于:通过结合高校学生在校园中日常学习生活的数据与背景资料,通过训练好的卷积神经网络提取其特征值进行人物建模,使用聚类方法筛选出可能表现出异常行为的学生,及时预警以人工干预。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明一种基于卷积神经网络的高校异常行为学生识别方法;
图2为本发明一实施例的卷积过程原理图;
图3为本发明一实施例的深度神经网络模型流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
一种基于深度卷积神经网络和DBSCAN密度聚类算法的高校学生异常行为识别方法,该方法包括:获取高校教务后台数据进行预处理;构建卷积神经网络;训练和测试所述卷积神经网络,得到异常行为学生识别卷积神经网络模型;利用模型对学生实时校园活动数据进行分析,及时发现可能存在异常行为的学生。本发明通过高校学生背景信息及学习成绩,结合校园日常行为数据,通过卷积神经网络提取高校学生校园行为的持续性、变化性、周期性的特征,特别的,引入DBSCAN密度聚类算法代替softmax函数对提取的特征值进行分类识别行为异常群体。
如图1所示,一种基于深度卷积神经网络的高校学生异常行为识别方法包括以下步骤:
S1:获取后台数据库的原始数据,创建数据集;
首先通过学校后勤中的数据库将学生每日在学校刷卡时间地址,电子支付,进出图书馆,进出寝室时间和学校等可记录的行为抽取出来,再清洗数据异常部分后进行数据工程,将数据进行归一化处理。
S2:数据集预处理,划分训练集和测试集;基于以上数据,对单个样本X,构建一个二值化的三维张量对其进行表示,即
其中,t、l和d分别表示校园行为数据中含有的时段数、地点个数和天数。因此,对数据的记录时间进行离散化,取时间区间为6点至24点,以半个小时为单位进行时间切片,将每天分为36个时间段,则t值为36。根据已有数据维度,可得出l值和d值。进一步的,如果X于第k天第i时段在第j个地点存在刷卡行为,则Xijk值为1,否则为0。将构建出的数据以7:3的比例划分为训练集和测试集。
S3:创建多分支的卷积神经网络模型,引入DBSCAN密度聚类算法替代softmax函数作为分类输出;
构建神经网络模型。基于以上构建的数据,将“日期”维度作为深度,设计卷积核维度为a×l,表示对学生日常行为的轨迹的特征提取,定义为:
{X{i,i+a-1}1,...,X{i,i+a-1}(d-1),X{i,i+a-1}d}
其中,X{i,j+a-1}1表示第j(1≤j≤d)天自第i(j≤i≤t个)个时间段节点开始的a个时间段内的记录的行为信息。然后,把每天在此a个时间段内的信息连接起来,形成一个三维张量,计为则卷积公式定义为:
其中,W(1)与b(1)为网络第一层需学习的参数,*表示卷积操作运算;f为激活函数,采用常用的ReLU激活函数,表示为:
f(z)=max(0,z)
类似的,以日期为深度,构建第二个卷积核,抽取数据的变化性和周期性特征,表示为:
其中l取值为1,表示每次只对一个地点的刷卡信息进行卷积操作,样本X于d天内在该地点的刷卡信息定义为:
{X{addr}1,...,X{addr}(d-1),X{addr}d}
进一步的,采用DBSCAN密度聚类算法对深度卷积神经网络抽取的多维度特征值进行聚类的过程包括:
S31:从提取的特征值中已标注的目标特征值的选出核心样本点及其邻居;
S32:遍历所有筛选出的样本点,判断筛选出的样本点p是否为核心样本点,是则给p分配一个簇标签;不是核心样本点,则将样本点p标记为噪声;
S33:访问核心样本点p的所有邻居,并将点p的簇标签分配给所有邻居;
S34:判断每个被访问的邻居是否为核心样本点,若是则点p依次访问各核心样本的邻居,并将点p的簇标签分配给所有访问的邻居点,直到点p的邻居没有核心样本点为止;
S35:选取筛选出的样本点中另一个未被访问过的点,返回步骤S2重复上述过程,直至所有样本点都被分配簇标签或被标记为噪声,完成聚类。
本发明实例中所采用的深度神经网络模型基于两种卷积核的双支路神经网络模型DPCNN作为主干网络的基础结构,用于数据特征提取,双分支结构可以提取出行为的周期变化性和持续性。将主干神经网络提取到的特征向量交给DBSCAN模块进行聚类。具体细节参照图3模型流程图。
S4:使用创建好的数据集来训练和测试深度神经网络模型;
本发明选择的深度神经网络的训练策略为:所述神经网络中代价函数的选择为交叉熵函数,激活函数使用非线性的ReLU。所述神经网络的优化方法采用随机梯度下降SGD,采用的深度学习框架为Pytorch,通过训练不断降低目标函数的函数值来学习和确定深度神经网络的参数。
模型训练过程中的参数如表1所示。
表1 模型训练参数设置
S5:利用训练好的模型对待识别的数据进行分类;
对输出结果进行评估。根据S1所述的数据集的两种不同的划分标准,以异常行为模式的识别准确率作为选取的评价指标:
其中Ncurrent是被正确分类的异常行为模式的样本总数,Ntotal是该样本总数。实验显示该模型的准确率为69.391%。能够较为有效的从上万的样本中识别出可能存在异常行为模式的个体。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.一种基于卷积神经网络的高校异常行为学生识别方法,其特征在于:该方法包括以下步骤:
S1:获取后台数据库的原始行为数据,创建数据集;
S2:数据集预处理,划分训练集和测试集;
S3:创建多分支的卷积神经网络模型,引入DBSCAN密度聚类算法替代softmax函数作为分类输出;
S4:使用创建好的数据集来训练和测试深度神经网络模型;
S5:利用训练好的模型对待识别的数据进行分类。
2.根据权利要求1所述的一种基于卷积神经网络的高校异常行为学生识别方法,其特征在于:所述S1具体为:
首先通过学校后勤中的数据库将学生在学校刷卡、电子支付、进出图书馆和进出学校记录的行为抽取出来,再清洗数据异常部分后进行数据工程,将数据进行归一化处理。
4.根据权利要求3所述的一种基于卷积神经网络的高校异常行为学生识别方法,其特征在于:所述S3具体为:
构建神经网络模型;基于以上构建的数据,将“日期”维度作为深度,设计卷积核维度为a×l,a为卷积核的高度,l为卷积核宽度,表示对学生日常行为的轨迹的特征提取,定义为:
{X(i,i+a-1}1,...,X{i,i+a-1}(d-1),X(i,i+a-1}d}
其中,W(1)与b(1)为网络第一层需学习的参数,*表示卷积操作运算;f为激活函数,采用常用的ReLU激活函数,表示为:
f(z)=max(0,z)
z表示函数输入值,z若大于0,则输出z,否则输出为0;
以日期为深度,构建第二个卷积核,抽取数据的变化性和周期性特征,表示为:
其中l取值为1,表示每次只对一个地点的刷卡信息进行卷积操作,样本X于d天内在该地点的刷卡信息定义为:
{X{addr}1,...,X{addr}(d-1),X(addr}d}
采用DBSCAN密度聚类算法对深度卷积神经网络抽取的多维度特征值进行聚类的过程包括:
S31:从提取的特征值中已标注的目标特征值的选出核心样本点及其邻居;
S32:遍历所有筛选出的样本点,判断筛选出的样本点p是否为核心样本点,是则给p分配一个簇标签;不是核心样本点,则将样本点p标记为噪声;
S33:访问核心样本点p的所有邻居,并将点p的簇标签分配给所有邻居;
S34:判断每个被访问的邻居是否为核心样本点,若是则点p依次访问各核心样本的邻居,并将点p的簇标签分配给所有访问的邻居点,直到点p的邻居没有核心样本点为止;
S35:选取筛选出的样本点中另一个未被访问过的点,返回步骤S2重复上述过程,直至所有样本点都被分配簇标签或被标记为噪声,完成聚类。
5.根据权利要求4所述的一种基于卷积神经网络的高校异常行为学生识别方法,其特征在于:所述S4具体为:
利用训练集训练该网络,迭代通过反向传播算法不断优化,调整卷积神经网络的超参数以达到最高的分类准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310203293.2A CN116340815A (zh) | 2023-03-06 | 2023-03-06 | 一种基于卷积神经网络的高校异常行为学生识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310203293.2A CN116340815A (zh) | 2023-03-06 | 2023-03-06 | 一种基于卷积神经网络的高校异常行为学生识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116340815A true CN116340815A (zh) | 2023-06-27 |
Family
ID=86878282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310203293.2A Pending CN116340815A (zh) | 2023-03-06 | 2023-03-06 | 一种基于卷积神经网络的高校异常行为学生识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116340815A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935286A (zh) * | 2023-08-03 | 2023-10-24 | 广州城市职业学院 | 一种短视频识别系统 |
-
2023
- 2023-03-06 CN CN202310203293.2A patent/CN116340815A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935286A (zh) * | 2023-08-03 | 2023-10-24 | 广州城市职业学院 | 一种短视频识别系统 |
CN116935286B (zh) * | 2023-08-03 | 2024-01-09 | 广州城市职业学院 | 一种短视频识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Levy et al. | Bayesian psychometric modeling | |
CN106557846A (zh) | 基于大学生在校数据的毕业去向预测方法 | |
CN108182489A (zh) | 一种基于在线学习行为分析的个性化学习推荐方法 | |
CN109002492B (zh) | 一种基于LightGBM的绩点预测方法 | |
Ollech et al. | A random forest-based approach to identifying the most informative seasonality tests | |
CN102930495B (zh) | 一种基于隐写测评的隐写分析方法 | |
Miller | Statistics for data science: Leverage the power of statistics for data analysis, classification, regression, machine learning, and neural networks | |
Shrestha et al. | Machine Learning algorithm in educational data | |
Vankayalapati et al. | K-Means algorithm for clustering of learners performance levels using machine learning techniques. | |
de Chiusole et al. | Modeling missing data in knowledge space theory. | |
Akçapınar et al. | Modeling students’ academic performance based on their interactions in an online learning environment | |
Liz Domínguez et al. | Predictors and early warning systems in higher education: A systematic literature review | |
CN116340815A (zh) | 一种基于卷积神经网络的高校异常行为学生识别方法 | |
CN113343106A (zh) | 学生智能推荐方法及系统 | |
CN117540104A (zh) | 一种基于图神经网络的学习群体差异评价方法与系统 | |
Sánchez-Pozo et al. | Predicting High School Students' Academic Performance: A Comparative Study of Supervised Machine Learning Techniques | |
CN106055875A (zh) | 一种基于大数据的皮纹分析处理装置 | |
CN109325130A (zh) | 一种时序性认知诊断方法及装置 | |
Jayanthi et al. | Research contemplate on educational data mining | |
CN116523293A (zh) | 基于融合行为流程图特征的用户风险评估方法 | |
CN109300031A (zh) | 基于股票评论数据的数据挖掘方法和装置 | |
Jiang et al. | Learning analytics in a blended computer education course | |
Chen | Hotel management evaluation index system based on data mining and deep neural network | |
Merembayev et al. | Using item response theory in machine learning algorithms for student response data | |
CN113326967A (zh) | 一种基于粒子群算法优化的极限学习机模型的学生成绩预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |