CN113421176B - 一种学生成绩分数中异常数据智能筛选方法 - Google Patents
一种学生成绩分数中异常数据智能筛选方法 Download PDFInfo
- Publication number
- CN113421176B CN113421176B CN202110805616.6A CN202110805616A CN113421176B CN 113421176 B CN113421176 B CN 113421176B CN 202110805616 A CN202110805616 A CN 202110805616A CN 113421176 B CN113421176 B CN 113421176B
- Authority
- CN
- China
- Prior art keywords
- data
- training
- data set
- sigma
- covered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000012216 screening Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000012360 testing method Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000002372 labelling Methods 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 16
- 210000002569 neuron Anatomy 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 238000012850 discrimination method Methods 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000003062 neural network model Methods 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 9
- 238000013523 data management Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Biomedical Technology (AREA)
- Educational Technology (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种异常数据智能筛选方法,首先,寻找数据集的中心数据;其次,设置中心半径;第三,数据标注;第四,获取平衡数据集;第五,训练高阶神经网络模型;第六,判断异常数据结论。通过计算机系统把判断为异常的数据,自动提取并存储起来。该方法较之于传统的异常数据判别方法,是集判断、抽取、存储为一体的方法,计算简便,直观明了,数据标注原则明确,训练数据集和测试数据集的数据平衡性好,模型具有良好的非线性处理能力,判断结论明确。
Description
技术领域
本发明涉及数据治理、深度学习领域领域,特别涉及一种学生成绩分数中异常数据智能筛选方法。
背景技术
近年来,我国已将“数字经济”列入国家发展战略,大数据、人工智能、区块链等数字技术被广泛应用于智慧城市、公共事务管理等社会治理领域,加速了社会治理的数字化转型进程。
在数字化转型过程中,“数据治理”是最关键的环节之一。“数据治理”关注的是数据规划、数据获取、数据质量、数据共享、数据标注等数据管理的整个生命周期,是各个领域“智能决策”应用的关键支撑。
在“数据治理”中,保证数据质量、确保数据的准确性是非常重要的基础工作。在这基础工作中,关注异常数据是关键点,对异常数据的处理是确保数据质量和数据准确性的前提。所以,如何从数据集中筛选出异常数据成为必然。
发明内容
本发明所要解决的技术问题是提供一种,以解决现有技术中导致的上述多项缺陷。
为实现上述目的,本发明提供以下的技术方案:一种学生成绩分数中异常数据智能筛选方法,包括如下步骤:
步骤1)寻找数据集的中心数据,通过计算子元素与总体数据集之间的数据偏移量,寻找出偏移量最小的数据,即中心数据;
步骤2)设置中心半径,以中心数据为圆心,寻找到一个合适的半径,使该圆所覆盖的数据数量为总体数据集的数据数量的一半;
步骤3)数据标注,把圆所覆盖的数据,添加标注为0,表示数据正常;把圆没有覆盖的数据,添加标注为1,表示数据异常;
步骤4)获取平衡数据集,从标注为0的数据集中随机抽取一半的数据,归入训练集,再从标注为1的数据集中随机抽取一半的数据,归入训练集,由此得到最终的训练数据集;把标注为0的数据集和标注为1的数据集剩下的各一半的数据归入测试集,由此得到测试数据集;
步骤5)训练模型,采用Pi-Sigma高阶神经网络来训练模型,寻找到最优权向量及判断阈值;
步骤6)判断异常数据结论,针对待判断的数据,输入训练好的Pi-Sigma神经网络中,计算出实际输出值,当实际输出值大于等于判断阈值时,判断该数据正常,无需做处理;当实际输出值小于判断阈值时,判断该数据异常。
优选的,将学生成绩分数作为数据处理对象,定义为数据集X,X=(X1,X2,…,Xi,…,Xn),其中,n为数据集X包含的数据个数,Xi为数据集X中的第i个学生的成绩,Xi为C×D的多维数据,当Xi为一个数值时,C=D=1;
设X的所有数据元素样本均值为μ,协方差矩阵为∑,Xi的数据样本均值为μi,协方差矩阵为∑i,μ,∑,μi,∑i均可通过计算得出实际值。
优选的,所述步骤1)中,下面通过计算子元素Xi与总体数据集X的偏移量,寻找出偏移量最小的数据,即寻找X的中心数据,Xi与X的偏移量定义如下:
σi=(μi-μ)'(∑i)-1(μi-μ)
然后寻找偏移量最小的数据,记为X0:
X0={Xi|min(σi),i=1,2,…,n}
X0即为X的中心数据,X0的数据元素个数为1个或者多个。
优选的,所述步骤2)中,以X0的数据元素为圆心,当X0的数据元素个数为多个时,随机选取其中一个作为圆心,设置初始半径R0,计算1个或者多个圆,对应X0的数据元素个数,覆盖的数据数量:(1)当覆盖的数据数量大于[n/2],缩小R0的值,进行寻找;(2)当覆盖的数据数量小于[n/2],扩大R0的值,进行寻找;(3)当覆盖的数据数量为[n/2],确定出中心半径R=R0,停止寻找,把圆所覆盖的所有数据集,记为:Xin;把圆没有覆盖的所有数据集,记为:Xout。
优选的,所述步骤3)中,把Xin里的数据元素,添加标注为0,表示数据正常;把Xout里的数据元素,添加标注为1,表示数据异常;标注原则:把距X的中心数据较近的数据标注为0,其它较远的数据标注为1。
优选的,所述步骤4)中,设训练数据集和测试数据集分别记为H0和H1,从Xin中随机抽取一半的数据,归入H0,再从Xout中随机抽取一半的数据,归入H0,由此得到训练数据集H0;把Xin和Xout剩下的各一半的数据归入H1,由此得到测试数据集H1;
H0=(X0,1,X0,2,…,X0,j…,X0,[n/2]),
其中,X0,j=(x0,j,1,x0,j,2,…,x0,j,d,…,x0,j,D),D为X0,j的数据维度,与Xi一致,O0,j为X0,j对应的数据标注值;
H1=(X1,1,X1,2,…,X1,j…,X1,n-[n/2]),
其中,X1,j=(x1,j,1,x1,j,2,…,x1,j,d,…,x1,j,D),D为X1,j的数据维度,与Xi一致,O1,j为X1,j对应的数据标注值。
优选的,所述步骤5)中,Pi-Sigma神经网络由一个输入层、一个隐含层和一个输出层组成,假设输入层、隐含层和输出层的神经元个数分别为N、K和1;输入样本Xm=(xm,1,xm,2,…,xm,N-1,xm,N)T,其中xm,N=-1是对应的阈值,相应的实际输出为y,理想输出为O,wi,k为第i个输入点与第k个求和层结点间的权值,wk=(w1,k,w2,k,…,wi,k,…,wN-1,k,wN,k)为输入层各结点与求和层k结点的权值向量,其中wNk=1,则求和层的hk为:
设激活函数为f(x),这里取f(x)为Sigmoid函数(1/1+e-x),则对于样本集(yj,Oj),网络实际输出为:
网络误差函数取为传统的平方误差函数:
使用梯度算法来训练Pi-Sigma神经网络,目的就是寻找到权值向量w*,使E(w)达到最小,
在使用训练数据集H0进行模型训练时:
输入层的神经元个数为:N=D+1,即Xm=(X0,j,-1)T;
样本集(yj,Oj)对应的理想输出Oj为:Oj=O0,j,j=[n/2];
训练以前,对数据集H0进行归一化处理;
通过数据集H0训练Pi-Sigma神经网络,找出最优权值向量w*;
在使用测试数据集H1进行模型测试时:
输入层、隐含层、输出层的神经元个数保持不变,权值向量为w*;
样本集(yj,Oj)对应的理想输出Oj为:Oj=O1,j,j=n-[n/2]。
优选的,所述步骤6)中,针对任何一个数据Xi,输入训练好的Pi-Sigma神经网络,对应的实际输出值为yi;
当yi>=A*时,判断该数据Xi正常,判断结束;
当yi<A*时,判断该数据Xi异常,把该数据自动提取处理,存储在计算机系统中,为下一步的“数据治理”做准备。
采用以上技术方案的有益效果是:该方法较之于传统的异常数据判别方法,是集判断、抽取、存储为一体的方法,计算简便,直观明了,数据标注原则明确,训练数据集和测试数据集的数据平衡性好,模型具有良好的非线性处理能力,判断结论明确。
附图说明
图1为本发明一种学生成绩分数中异常数据智能筛选方法的流程图;
图2是Pi-Sigma神经网络函数图;
图3是误差变化示意图。
具体实施方式
下面详细说明本发明的优选实施方式。
一种学生成绩分数中异常数据智能筛选方法,首先,通过计算子元素与总体数据集之间的数据偏移量,寻找出偏移量最小的数据,即中心数据;其次,以中心数据为圆心,寻找到一个合适的半径,使该圆所覆盖的数据数量为总体数据集的数据数量的一半;第三,把圆所覆盖的数据,添加标注为0(表示数据正常);把圆没有覆盖的数据,添加标注为1(表示数据异常);第四,从标注为0的数据集中随机抽取一半的数据,归入训练集,再从标注为1的数据集中随机抽取一半的数据,归入训练集,由此得到最终的训练数据集;把标注为0的数据集和标注为1的数据集剩下的各一半的数据归入测试集,由此得到测试数据集;第五,采用一种Pi-Sigma高阶神经网络来训练模型,利用训练数据集和测试数据集寻找到最优权向量及判断阈值;第六,针对待判断的数据,输入训练好的Pi-Sigma神经网络中,计算出实际输出值,当实际输出值大于等于判断阈值时,判断该数据正常,无需做处理,当实际输出值小于判断阈值时,判断该数据异常;最后,把判断为异常的数据,通过计算机系统自动提取并存储起来,为下一步“数据治理”做准备。
把“数据治理”中的一种类型的数据处理对象,定义为数据集X,X=(X1,X2,…,Xi,…,Xn),其中,n为数据集X包含的数据个数,Xi为数据集X中的第i个数据,Xi为C×D的多维数据,当Xi为一个数值时,C=D=1。
设X的所有数据元素样本均值为μ,协方差矩阵为∑,Xi的数据样本均值为μi,协方差矩阵为∑i(μ,∑,μi,∑i均可通过计算得出实际值)。
寻找中心数据:
下面通过计算子元素Xi与总体数据集X的偏移量,寻找出偏移量最小的数据,即寻找X的中心数据,Xi与X的偏移量定义如下:
σi=(μi-μ)'(∑i)-1(μi-μ)
然后寻找偏移量最小的数据,记为X0:
X0={Xi|min(σi),i=1,2,…,n}
X0即为X的中心数据,X0的数据元素个数为1个或者多个。
设置中心半径:
以X0的数据元素为圆心(当X0的数据元素个数为多个时,随机选取其中一个作为圆心),设置初始半径R0,计算1个或者多个圆(对应X0的数据元素个数)覆盖的数据数量:(1)当覆盖的数据数量大于[n/2](取整),缩小R0的值,进行寻找;(2)当覆盖的数据数量小于[n/2],扩大R0的值,进行寻找;(3)当覆盖的数据数量为[n/2],确定出中心半径R=R0,停止寻找,把圆所覆盖的所有数据集,记为:Xin;把圆没有覆盖的所有数据集,记为:Xout;
数据标注:
把Xin里的数据元素,添加标注为0(表示数据正常);把Xout里的数据元素,添加标注为1(表示数据异常)。标注原则:把距X的中心数据较近的数据标注为0,其它较远的数据标注为1。
获取平衡数据集:
设训练数据集和测试数据集分别记为H0和H1。从Xin中随机抽取一半的数据,归入H0,再从Xout中随机抽取一半的数据,归入H0,由此得到训练数据集H0;把Xin和Xout剩下的各一半的数据归入H1,由此得到测试数据集H1。
H0=(X0,1,X0,2,…,X0,j…,X0,[n/2]),其中,X0,j=(x0,j,1,x0,j,2,…,x0,j,d,…,x0,j,D),D为X0,j的数据维度,与Xi一致,O0,j为X0,j对应的数据标注值;
H1=(X1,1,X1,2,…,X1,j…,X1,n-[n/2]),其中,X1,j=(x1,j,1,x1,j,2,…,x1,j,d,…,x1,j,D),D为X1,j的数据维度,与Xi一致,O1,j为X1,j对应的数据标注值。
用这种方式获取训练数据集和测试数据集,是为了加强两个数据集的数据平衡性,减少因数据不平衡性导致的模型不准确性。
训练模型:
本专利采用一种高阶神经网络Pi-Sigma神经网络来作为训练模型。针对传统的神经网络结构,只包含一种求和神经元(∑),这种结构效率低下,面对非线性问题时束手无策,而现实生活中到处存在着非线性问题;而Pi-Sigma高阶神经网络结构中包含求积神经元(Π)的前馈神经网络,包含了多项式乘积的特点,很好地提高了网络效率,增强了非线性能力,还有效地克服了“维数灾难”问题。因此,利用Pi-Sigma神经网络来训练模型。
Pi-Sigma神经网络由一个输入层、一个隐含层(求和层)和一个输出层(求积层)组成,假设输入层、隐含层和输出层的神经元个数分别为N、K和1(如图2)。输入样本Xm=(xm,1,xm,2,…,xm,N-1,xm,N)T,其中xm,N=-1是对应的阈值,相应的实际输出为y,理想输出为O,wi,k为第i个输入点与第k个求和层结点间的权值,wk=(w1,k,w2,k,…,wi,k,…,wN-1,k,wN,k)为输入层各结点与求和层k结点的权值向量,其中wNk=1,则求和层的hk为:
设激活函数为f(x),这里取f(x)为Sigmoid函数(1/1+e-x),则对于样本集(yj,Oj),网络实际输出为:
网络误差函数取为传统的平方误差函数:
使用梯度算法来训练Pi-Sigma神经网络,目的就是寻找到权值向量w*,使E(w)达到最小,即
在使用训练数据集H0进行模型训练时:
输入层的神经元个数为:N=D+1,即Xm=(X0,j,-1)T;
样本集(yj,Oj)对应的理想输出Oj为:Oj=O0,j,j=[n/2];
训练以前,对数据集H0进行归一化处理;
通过数据集H0训练Pi-Sigma神经网络,找出最优权值向量w*。
在使用测试数据集H1进行模型测试时:
输入层、隐含层、输出层的神经元个数保持不变,权值向量为w*;
样本集(yj,Oj)对应的理想输出Oj为:Oj=O1,j,j=n-[n/2];
训练以前,对数据集H1进行归一化处理;
通过数据集H1测试Pi-Sigma神经网络,确定模型效果及判断阈值A*(选取的判断阈值,要确保判断结论的准确率最高)。
判断、抽取、存储异常数据:
针对任何一个数据Xi,输入训练好的Pi-Sigma神经网络,对应的实际输出值为yi。
当yi>=A*时,判断该数据Xi正常,判断结束;
当yi<A*时,判断该数据Xi异常,把该数据自动提取处理,存储在计算机系统中,为下一步的“数据治理”做准备。
实施例
这里以某专业某班级学生的成绩分数为例:
假设该班12名学生的各科成绩如表1。
表1学生成绩表
X | 高等数学 | 大学英语 | 数据结构 | 操作系统 | 数据库原理 |
X<sub>1</sub> | 96 | 97 | 68 | 94 | 71 |
X<sub>2</sub> | 89 | 98 | 78 | 51 | 78 |
X<sub>3</sub> | 65 | 89 | 76 | 86 | 74 |
X<sub>4</sub> | 97 | 68 | 85 | 89 | 88 |
X<sub>5</sub> | 73 | 0 | 84 | 45 | 64 |
X<sub>6</sub> | 32 | 52 | 13 | 62 | 52 |
X<sub>7</sub> | 42 | 24 | 25 | 23 | 42 |
X<sub>8</sub> | 74 | 84 | 74 | 63 | 69 |
X<sub>9</sub> | 120 | 53 | 85 | 96 | 74 |
X<sub>10</sub> | 59 | 75 | 76 | 63 | 120 |
X<sub>11</sub> | 313 | 64 | 55 | 84 | 150 |
X<sub>12</sub> | 64 | 85 | 74 | 96 | 181 |
数据集X,X=(X1,X2,…,Xi,…,X12),其中,数据集X包含的数据个数为12,Xi为数据集X中的第i个学生的成绩,Xi为1×5的多维数据,即C=1,D=5。
寻找数据集的中心数据:
接下来通过计算子元素Xi与总体数据集X的各个均值与协方差矩阵,得到子元素Xi与总体数据集X的数据偏移量
σ1=30.0963,σ2=16.8609,σ3=13.1709,σ4=11.6793,σ5=97.7867,σ6=110.1493,
σ7=98.1713,σ8=4.0000,σ9=7.4563,σ10=6.2771,σ11=320.0841,σ12=310.0842
根据最小原则,确定出中心数据:X8。
设置中心半径:
以中心数据X8为圆心,当半径为R=13时,使该圆所覆盖的数据为6,所覆盖的数据分别为:X2,X3,X4,X8,X9,X10。
数据标注:
X2,X3,X4,X8,X9,X10,加标注为0;X1,X5,X6,X7,X11,X12,加标注为1。
获取平衡数据集:
把标注为0的X2,X4,X10列入数据集H0,再把标注为1的X5,X7,X12列入数据集H0,最终形成数据集H0
表2数据集H0
把标注为0的X3,X8,X9列入数据集H1,再把标注为1的X1,X6,X11列入数据集H1,最终形成数据集H1
表3数据集H1
训练Pi-Sigma高阶神经网络模型:
在训练Pi-Sigma高阶神经网络前,先确认几个参数:
隐含层节点数为:3,最大训练次数为:100000,学习率为:0.01,目标误差为:1.50001,输入层与隐含层的初始权值在0-1之间随机选取。在数据输入前,把H0和H1中的成绩进行归一化处理。
H0数据输入后,得到训练的误差变化如图3所示:
当迭代次数得到24904时,满足误差要求。此时得到最优权向量
w*=0.3465 0.4296 0.4900 -0.1989 -0.3981 -0.1517 1.2246 1.2241 0.98001.3099 1.4715 1.3877 0.5620 0.2308 0.3897 1.0377 1.0586 1.1846
然后保持w*不变,把H1数据输入后,得出实际输出值:
表4测试实际输出值与判断阈值选取表
从表4可以看出,当判断阈值取A*=0.5011时,判断结果准确率最高(5/6≈83.33%,X3,X6,X8,X9,X11判断正确,X1判断错误)。
判断异常数据结论:
另外列出三个数据:X13=[95,65,74,86,90];X14=[101,180,89,64,140];X15=[0,100,100,99,100],把这三个数据分别输入训练好的Pi-Sigma模型中,各自的输出值为:y13=0.5011;y14=0.5001;y15=0.5010。
因为y13>=A*,所有X13数据正常;
(分数的取值范围正常情况下为0-100之间,所以X13的判断结论正确)
因为y14<A*,所有X14数据异常,把该数据自动提取处理,存储在计算机系统中,为下一步的“数据治理”做准备。
(分数的取值范围正常情况下为0-100之间,而X14的出现了101、180、140等数据,所以X14的判断结论正确)
因为y15<A*,所有X15数据异常,把该数据自动提取处理,存储在计算机系统中,为下一步的“数据治理”做准备。
(从X15的成绩可以看出,后面四门课程的成绩为满分或接近满分,应该是优等生,但出现了一门0分,可以推测该学生的成绩异常,所以X15的判断结论正确)
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (7)
1.一种学生成绩分数中异常数据智能筛选方法,其特征在于,
将学生成绩分数作为数据处理对象,定义为数据集X,X=(X1,X2,…,Xi,…,Xn),其中,n为数据集X包含的数据个数,Xi为数据集X中的第i个学生的成绩,Xi为C×D的多维数据,当Xi为一个数值时,C=D=1;
设X的所有数据元素样本均值为μ,协方差矩阵为∑,Xi的数据样本均值为μi,协方差矩阵为∑i,μ,∑,μi,∑i均可通过计算得出实际值;
包括如下步骤:
步骤1)寻找数据集的中心数据,通过计算子元素与总体数据集之间的数据偏移量,寻找出偏移量最小的数据,即中心数据;
步骤2)设置中心半径,以中心数据为圆心,寻找到一个合适的半径,使该圆所覆盖的数据数量为总体数据集的数据数量的一半;
步骤3)数据标注,把圆所覆盖的数据,添加标注为0,表示数据正常;把圆没有覆盖的数据,添加标注为1,表示数据异常;
步骤4)获取平衡数据集,从标注为0的数据集中随机抽取一半的数据,归入训练集,再从标注为1的数据集中随机抽取一半的数据,归入训练集,由此得到最终的训练数据集;把标注为0的数据集和标注为1的数据集剩下的各一半的数据归入测试集,由此得到测试数据集;
步骤5)训练模型,采用Pi-Sigma高阶神经网络来训练模型,寻找到最优权向量及判断阈值;
步骤6)判断异常数据结论,针对待判断的数据,输入训练好的Pi-Sigma神经网络中,计算出实际输出值,当实际输出值大于等于判断阈值时,判断该数据正常,无需做处理;当实际输出值小于判断阈值时,判断该数据异常。
2.根据权利要求1所述的学生成绩分数中异常数据智能筛选方法,其特征在于,所述步骤1)中,下面通过计算子元素Xi与总体数据集X的偏移量,寻找出偏移量最小的数据,即寻找X的中心数据,Xi与X的偏移量定义如下:
σi=(μi-μ)'(∑i)-1(μi-μ)
然后寻找偏移量最小的数据,记为X0:
X0={Xi|min(σi),i=1,2,…,n}
X0即为X的中心数据,X0的数据元素个数为1个或者多个。
3.根据权利要求2所述的学生成绩分数中异常数据智能筛选方法,其特征在于,所述步骤2)中,以X0的数据元素为圆心,当X0的数据元素个数为多个时,随机选取其中一个作为圆心,设置初始半径R0,计算1个或者多个圆,对应X0的数据元素个数,覆盖的数据数量:(1)当覆盖的数据数量大于[n/2],缩小R0的值,进行寻找;(2)当覆盖的数据数量小于[n/2],扩大R0的值,进行寻找;(3)当覆盖的数据数量为[n/2],确定出中心半径R=R0,停止寻找,把圆所覆盖的所有数据集,记为:Xin;把圆没有覆盖的所有数据集,记为:Xout。
4.根据权利要求3所述的学生成绩分数中异常数据智能筛选方法,其特征在于,所述步骤3)中,把Xin里的数据元素,添加标注为0,表示数据正常;把Xout里的数据元素,添加标注为1,表示数据异常;标注原则:把距X的中心数据较近的数据标注为0,其它较远的数据标注为1。
5.根据权利要求4所述的学生成绩分数中异常数据智能筛选方法,其特征在于,所述步骤4)中,设训练数据集和测试数据集分别记为H0和H1,从Xin中随机抽取一半的数据,归入H0,再从Xout中随机抽取一半的数据,归入H0,由此得到训练数据集H0;把Xin和Xout剩下的各一半的数据归入H1,由此得到测试数据集H1;
H0=(X0,1,X0,2,…,X0,j…,X0,[n/2]),
其中,X0,j=(x0,j,1,x0,j,2,…,x0,j,d,…,x0,j,D),D为X0,j的数据维度,与Xi一致,O0,j为X0,j对应的数据标注值;
H1=(X1,1,X1,2,…,X1,j…,X1,n-[n/2]),
其中,X1,j=(x1,j,1,x1,j,2,…,x1,j,d,…,x1,j,D),D为X1,j的数据维度,与Xi一致,O1,j为X1,j对应的数据标注值。
6.根据权利要求5所述的学生成绩分数中异常数据智能筛选方法,其特征在于,所述步骤5)中,Pi-Sigma神经网络由一个输入层、一个隐含层和一个输出层组成,假设输入层、隐含层和输出层的神经元个数分别为N、K和1;输入样本Xm=(xm,1,xm,2,…,xm,N-1,xm,N)T,其中xm,N=-1是对应的阈值,相应的实际输出为y,理想输出为O,wi,k为第i个输入点与第k个求和层结点间的权值,wk=(w1,k,w2,k,…,wi,k,…,wN-1,k,wN,k)为输入层各结点与求和层k结点的权值向量,其中wNk=1,则求和层的hk为:
设激活函数为f(x),这里取f(x)为Sigmoid函数(1/1+e-x),则对于样本集(yj,Oj),网络实际输出为:
网络误差函数取为传统的平方误差函数:
使用梯度算法来训练Pi-Sigma神经网络,目的就是寻找到权值向量w*,使E(w)达到最小,
在使用训练数据集H0进行模型训练时:
输入层的神经元个数为:N=D+1,即Xm=(X0,j,-1)T;
样本集(yj,Oj)对应的理想输出Oj为:Oj=O0,j,j=[n/2];
训练以前,对数据集H0进行归一化处理;
通过数据集H0训练Pi-Sigma神经网络,找出最优权值向量w*;
在使用测试数据集H1进行模型测试时:
输入层、隐含层、输出层的神经元个数保持不变,权值向量为w*;
样本集(yj,Oj)对应的理想输出Oj为:Oj=O1,j,j=n-[n/2]。
7.根据权利要求6所述的学生成绩分数中异常数据智能筛选方法,其特征在于,所述步骤6)中,通过数据集H1测试Pi-Sigma神经网络,确定模型效果及判断阈值A*,A*为选取的判断阈值;针对任何一个数据Xi,输入训练好的Pi-Sigma神经网络,对应的实际输出值为yi;
当yi>=A*时,判断该数据Xi正常,判断结束;
当yi<A*时,判断该数据Xi异常,把该数据自动提取处理,存储在计算机系统中,为下一步的“数据治理”做准备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110805616.6A CN113421176B (zh) | 2021-07-16 | 2021-07-16 | 一种学生成绩分数中异常数据智能筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110805616.6A CN113421176B (zh) | 2021-07-16 | 2021-07-16 | 一种学生成绩分数中异常数据智能筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113421176A CN113421176A (zh) | 2021-09-21 |
CN113421176B true CN113421176B (zh) | 2022-11-01 |
Family
ID=77721082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110805616.6A Active CN113421176B (zh) | 2021-07-16 | 2021-07-16 | 一种学生成绩分数中异常数据智能筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113421176B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114429798A (zh) * | 2021-12-31 | 2022-05-03 | 王昊昱 | 一种人工智能筛选错误数据的系统及方法 |
Citations (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184512A (zh) * | 2011-05-10 | 2011-09-14 | 天津大学 | 利用手机数据发现城市活动中异常事件的方法 |
EP2547733A1 (en) * | 2010-03-17 | 2013-01-23 | Nanologica AB | Enhanced folic acid fluorescent material, multifluorescent porous compositions of matter and potential applications thereof |
CN103047946A (zh) * | 2012-12-10 | 2013-04-17 | 北京航空航天大学 | 一种基于虚拟数据的轴对称参数分布图像重建方法 |
CN104779562A (zh) * | 2015-04-26 | 2015-07-15 | 成都创行信息科技有限公司 | 爬虫数据中心数据传输线拔线临时定位排放系统 |
CN105976078A (zh) * | 2016-03-09 | 2016-09-28 | 浪潮通用软件有限公司 | 一种企业客商主数据的形成方法 |
CN106204366A (zh) * | 2016-07-22 | 2016-12-07 | 三峡大学 | 一种基于模糊推理的法律大数据管理系统 |
CN106564503A (zh) * | 2016-11-08 | 2017-04-19 | 交通运输部公路科学研究所 | 产生异常驾驶行为的行为信息确定方法及装置 |
CN106845526A (zh) * | 2016-12-29 | 2017-06-13 | 北京航天测控技术有限公司 | 一种基于大数据融合聚类分析的关联参数故障分类方法 |
CN106844977A (zh) * | 2017-01-23 | 2017-06-13 | 重庆市勘测院 | 一种市政道路bim设计模型与gis数据集成方法 |
CN107247885A (zh) * | 2017-07-06 | 2017-10-13 | 中国水产科学研究院黄海水产研究所 | 一种电压‑门控钠离子通道的结构预测方法 |
CN107633301A (zh) * | 2017-08-28 | 2018-01-26 | 广东工业大学 | 一种bp神经网络回归模型的训练测试方法及其应用系统 |
CN108322347A (zh) * | 2018-02-09 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 数据检测方法、装置、检测服务器及存储介质 |
CN108761227A (zh) * | 2018-04-02 | 2018-11-06 | 深圳市益鑫智能科技有限公司 | 一种高铁电能质量数据处理系统 |
CN108764372A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 数据集的构建方法和装置、移动终端、可读存储介质 |
CN108921218A (zh) * | 2018-06-29 | 2018-11-30 | 炬大科技有限公司 | 一种目标物体检测方法及装置 |
WO2018232388A1 (en) * | 2017-06-16 | 2018-12-20 | Rensselaer Polytechnic Institute | Systems and methods for integrating tomographic image reconstruction and radiomics using neural networks |
CN109101476A (zh) * | 2017-06-21 | 2018-12-28 | 阿里巴巴集团控股有限公司 | 一种词向量生成、数据处理方法和装置 |
CN109255441A (zh) * | 2018-10-18 | 2019-01-22 | 西安电子科技大学 | 基于人工智能的航天器故障诊断方法 |
CN109283962A (zh) * | 2018-09-21 | 2019-01-29 | 河南元祖信息技术有限公司 | 数据安全智慧运维监控系统 |
CN109447674A (zh) * | 2018-09-03 | 2019-03-08 | 中国平安人寿保险股份有限公司 | 电子装置、保险代理人目标服务区域确定方法及存储介质 |
CN109508846A (zh) * | 2017-09-15 | 2019-03-22 | 新奥(中国)燃气投资有限公司 | 一种机组数据异常波动的检测方法及装置 |
CN109600792A (zh) * | 2019-02-01 | 2019-04-09 | 中南民族大学 | 一种lte mr数据的定位方法 |
CN109633369A (zh) * | 2018-12-08 | 2019-04-16 | 国网山东省电力公司德州供电公司 | 一种基于多维数据相似性匹配的电网故障诊断方法 |
CN109685122A (zh) * | 2018-12-12 | 2019-04-26 | 浙江工业大学 | 一种基于密度峰和引力影响的半监督游客画像数据聚类方法 |
CN109858509A (zh) * | 2018-11-05 | 2019-06-07 | 杭州电子科技大学 | 基于多层随机神经网络单分类器异常检测方法 |
CN110032609A (zh) * | 2019-02-28 | 2019-07-19 | 东南大学 | 一种基于定位数据的生活圈识别方法 |
CN110175651A (zh) * | 2019-05-28 | 2019-08-27 | 桂林电子科技大学 | 一种数据自适应平衡分组方法 |
CN110232420A (zh) * | 2019-06-21 | 2019-09-13 | 安阳工学院 | 一种数据的聚类方法 |
WO2019245597A1 (en) * | 2018-06-18 | 2019-12-26 | Google Llc | Method and system for improving cancer detection using deep learning |
CN110737726A (zh) * | 2018-07-03 | 2020-01-31 | 北京京东尚科信息技术有限公司 | 一种确定待测试接口的测试数据的方法和装置 |
CN110941603A (zh) * | 2019-12-30 | 2020-03-31 | 东软集团股份有限公司 | 一种数据的扩充方法、装置、存储介质和电子设备 |
WO2020106631A1 (en) * | 2018-11-20 | 2020-05-28 | Arterys Inc. | Machine learning-based automated abnormality detection in medical images and presentation thereof |
CN111310963A (zh) * | 2018-12-12 | 2020-06-19 | 汉能移动能源控股集团有限公司 | 电站的发电数据预测方法、装置、计算机设备和存储介质 |
CN111382862A (zh) * | 2018-12-27 | 2020-07-07 | 国网辽宁省电力有限公司信息通信分公司 | 一种电力系统异常数据辨识方法 |
CN112149607A (zh) * | 2020-10-08 | 2020-12-29 | 吉林大学 | 基于贝叶斯算法的远程智能运维方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080306346A1 (en) * | 2007-06-07 | 2008-12-11 | Claus Ralf A | Diagnostic tool detecting the degradation status of Von Willebrand Factor multimers |
-
2021
- 2021-07-16 CN CN202110805616.6A patent/CN113421176B/zh active Active
Patent Citations (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2547733A1 (en) * | 2010-03-17 | 2013-01-23 | Nanologica AB | Enhanced folic acid fluorescent material, multifluorescent porous compositions of matter and potential applications thereof |
CN102184512A (zh) * | 2011-05-10 | 2011-09-14 | 天津大学 | 利用手机数据发现城市活动中异常事件的方法 |
CN103047946A (zh) * | 2012-12-10 | 2013-04-17 | 北京航空航天大学 | 一种基于虚拟数据的轴对称参数分布图像重建方法 |
CN104779562A (zh) * | 2015-04-26 | 2015-07-15 | 成都创行信息科技有限公司 | 爬虫数据中心数据传输线拔线临时定位排放系统 |
CN105976078A (zh) * | 2016-03-09 | 2016-09-28 | 浪潮通用软件有限公司 | 一种企业客商主数据的形成方法 |
CN106204366A (zh) * | 2016-07-22 | 2016-12-07 | 三峡大学 | 一种基于模糊推理的法律大数据管理系统 |
CN106564503A (zh) * | 2016-11-08 | 2017-04-19 | 交通运输部公路科学研究所 | 产生异常驾驶行为的行为信息确定方法及装置 |
CN106845526A (zh) * | 2016-12-29 | 2017-06-13 | 北京航天测控技术有限公司 | 一种基于大数据融合聚类分析的关联参数故障分类方法 |
CN106844977A (zh) * | 2017-01-23 | 2017-06-13 | 重庆市勘测院 | 一种市政道路bim设计模型与gis数据集成方法 |
WO2018232388A1 (en) * | 2017-06-16 | 2018-12-20 | Rensselaer Polytechnic Institute | Systems and methods for integrating tomographic image reconstruction and radiomics using neural networks |
EP3638115A1 (en) * | 2017-06-16 | 2020-04-22 | Rensselaer Polytechnic Institute | Systems and methods for integrating tomographic image reconstruction and radiomics using neural networks |
CN109101476A (zh) * | 2017-06-21 | 2018-12-28 | 阿里巴巴集团控股有限公司 | 一种词向量生成、数据处理方法和装置 |
CN107247885A (zh) * | 2017-07-06 | 2017-10-13 | 中国水产科学研究院黄海水产研究所 | 一种电压‑门控钠离子通道的结构预测方法 |
CN107633301A (zh) * | 2017-08-28 | 2018-01-26 | 广东工业大学 | 一种bp神经网络回归模型的训练测试方法及其应用系统 |
CN109508846A (zh) * | 2017-09-15 | 2019-03-22 | 新奥(中国)燃气投资有限公司 | 一种机组数据异常波动的检测方法及装置 |
CN108322347A (zh) * | 2018-02-09 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 数据检测方法、装置、检测服务器及存储介质 |
CN108761227A (zh) * | 2018-04-02 | 2018-11-06 | 深圳市益鑫智能科技有限公司 | 一种高铁电能质量数据处理系统 |
CN108764372A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 数据集的构建方法和装置、移动终端、可读存储介质 |
WO2019245597A1 (en) * | 2018-06-18 | 2019-12-26 | Google Llc | Method and system for improving cancer detection using deep learning |
CN108921218A (zh) * | 2018-06-29 | 2018-11-30 | 炬大科技有限公司 | 一种目标物体检测方法及装置 |
CN110737726A (zh) * | 2018-07-03 | 2020-01-31 | 北京京东尚科信息技术有限公司 | 一种确定待测试接口的测试数据的方法和装置 |
CN109447674A (zh) * | 2018-09-03 | 2019-03-08 | 中国平安人寿保险股份有限公司 | 电子装置、保险代理人目标服务区域确定方法及存储介质 |
CN109283962A (zh) * | 2018-09-21 | 2019-01-29 | 河南元祖信息技术有限公司 | 数据安全智慧运维监控系统 |
CN109255441A (zh) * | 2018-10-18 | 2019-01-22 | 西安电子科技大学 | 基于人工智能的航天器故障诊断方法 |
CN109858509A (zh) * | 2018-11-05 | 2019-06-07 | 杭州电子科技大学 | 基于多层随机神经网络单分类器异常检测方法 |
WO2020106631A1 (en) * | 2018-11-20 | 2020-05-28 | Arterys Inc. | Machine learning-based automated abnormality detection in medical images and presentation thereof |
CN109633369A (zh) * | 2018-12-08 | 2019-04-16 | 国网山东省电力公司德州供电公司 | 一种基于多维数据相似性匹配的电网故障诊断方法 |
CN111310963A (zh) * | 2018-12-12 | 2020-06-19 | 汉能移动能源控股集团有限公司 | 电站的发电数据预测方法、装置、计算机设备和存储介质 |
CN109685122A (zh) * | 2018-12-12 | 2019-04-26 | 浙江工业大学 | 一种基于密度峰和引力影响的半监督游客画像数据聚类方法 |
CN111382862A (zh) * | 2018-12-27 | 2020-07-07 | 国网辽宁省电力有限公司信息通信分公司 | 一种电力系统异常数据辨识方法 |
CN109600792A (zh) * | 2019-02-01 | 2019-04-09 | 中南民族大学 | 一种lte mr数据的定位方法 |
CN110032609A (zh) * | 2019-02-28 | 2019-07-19 | 东南大学 | 一种基于定位数据的生活圈识别方法 |
CN110175651A (zh) * | 2019-05-28 | 2019-08-27 | 桂林电子科技大学 | 一种数据自适应平衡分组方法 |
CN110232420A (zh) * | 2019-06-21 | 2019-09-13 | 安阳工学院 | 一种数据的聚类方法 |
CN110941603A (zh) * | 2019-12-30 | 2020-03-31 | 东软集团股份有限公司 | 一种数据的扩充方法、装置、存储介质和电子设备 |
CN112149607A (zh) * | 2020-10-08 | 2020-12-29 | 吉林大学 | 基于贝叶斯算法的远程智能运维方法 |
Non-Patent Citations (1)
Title |
---|
"基于云计算的数据异常智能检测技术研究";徐静;《自动化与仪器仪表》;20200225(第2期);第23-26页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113421176A (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aydadenta et al. | A clustering approach for feature selection in microarray data classification using random forest | |
Roffo et al. | Infinite latent feature selection: A probabilistic latent graph-based ranking approach | |
Tang et al. | A pruning neural network model in credit classification analysis | |
CN106203534A (zh) | 一种基于Boosting的代价敏感软件缺陷预测方法 | |
CN108564117B (zh) | 一种基于svm的贫困生辅助认定方法 | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和系统 | |
CN106156805A (zh) | 一种样本标签缺失数据的分类器训练方法 | |
CN113421176B (zh) | 一种学生成绩分数中异常数据智能筛选方法 | |
CN117668360A (zh) | 一种基于学习者在线学习行为分析的个性化习题推荐方法 | |
Adeyemo et al. | Effects of normalization techniques on logistic regression in data science | |
Yamasari et al. | Features extraction to improve performance of clustering process on student achievement | |
CN108153818B (zh) | 一种基于大数据的聚类方法 | |
CN104714977A (zh) | 一种实体与知识库项的关联方法及装置 | |
Reddy et al. | Neural networks for prediction of loan default using attribute relevance analysis | |
Bindushree | Prediction of cardiovascular risk analysis and performance evaluation using various data mining techniques: A review | |
Mohseni et al. | Improving classification in imbalanced educational datasets using over-sampling | |
Niu et al. | A hybrid model for predicting academic performance of engineering undergraduates | |
CN115083511A (zh) | 基于图表示学习与注意力的外围基因调控特征提取方法 | |
CN114626594A (zh) | 一种基于聚类分析和深度学习的中长期电量预测方法 | |
Kashani et al. | Evolving data stream clustering based on constant false clustering probability | |
Rochman et al. | Utilizing LSTM and K-NN for Anatomical Localization of Tuberculosis: A Solution for Incomplete Data. | |
Liang et al. | Research on higher education evaluation system based on AHP-NBM comprehensive evaluation model | |
Pristyanto et al. | Comparison of ensemble models as solutions for imbalanced class classification of datasets | |
Rao et al. | Early Prediction of Student Performance Using Deep Neural Networks | |
Herlambang et al. | Prediction of Graduation with Naïve Bayes Algorithm and Principal Component Analysis (PCA) on Time Series Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20210921 Assignee: Luxi County Yunrui Agricultural Development Co.,Ltd. Assignor: KUNMING University Contract record no.: X2023980037184 Denomination of invention: An Intelligent Filtering Method for Abnormal Data in Student Scores Granted publication date: 20221101 License type: Common License Record date: 20230628 |