CN113421176B

CN113421176B - 一种学生成绩分数中异常数据智能筛选方法

Info

Publication number: CN113421176B
Application number: CN202110805616.6A
Authority: CN
Inventors: 邓飞; 何俊; 洪孙焱; 岳维好; 陈震霆; 石宝坤
Original assignee: Kunming University
Current assignee: Kunming University
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2022-11-01
Anticipated expiration: 2041-07-16
Also published as: CN113421176A

Abstract

本发明公开了一种异常数据智能筛选方法，首先，寻找数据集的中心数据；其次，设置中心半径；第三，数据标注；第四，获取平衡数据集；第五，训练高阶神经网络模型；第六，判断异常数据结论。通过计算机系统把判断为异常的数据，自动提取并存储起来。该方法较之于传统的异常数据判别方法，是集判断、抽取、存储为一体的方法，计算简便，直观明了，数据标注原则明确，训练数据集和测试数据集的数据平衡性好，模型具有良好的非线性处理能力，判断结论明确。

Description

一种学生成绩分数中异常数据智能筛选方法

技术领域

本发明涉及数据治理、深度学习领域领域，特别涉及一种学生成绩分数中异常数据智能筛选方法。

背景技术

近年来，我国已将“数字经济”列入国家发展战略，大数据、人工智能、区块链等数字技术被广泛应用于智慧城市、公共事务管理等社会治理领域，加速了社会治理的数字化转型进程。

在数字化转型过程中，“数据治理”是最关键的环节之一。“数据治理”关注的是数据规划、数据获取、数据质量、数据共享、数据标注等数据管理的整个生命周期，是各个领域“智能决策”应用的关键支撑。

在“数据治理”中，保证数据质量、确保数据的准确性是非常重要的基础工作。在这基础工作中，关注异常数据是关键点，对异常数据的处理是确保数据质量和数据准确性的前提。所以，如何从数据集中筛选出异常数据成为必然。

发明内容

本发明所要解决的技术问题是提供一种，以解决现有技术中导致的上述多项缺陷。

为实现上述目的，本发明提供以下的技术方案：一种学生成绩分数中异常数据智能筛选方法，包括如下步骤：

步骤1)寻找数据集的中心数据，通过计算子元素与总体数据集之间的数据偏移量，寻找出偏移量最小的数据，即中心数据；

步骤2)设置中心半径，以中心数据为圆心，寻找到一个合适的半径，使该圆所覆盖的数据数量为总体数据集的数据数量的一半；

步骤3)数据标注，把圆所覆盖的数据，添加标注为0，表示数据正常；把圆没有覆盖的数据，添加标注为1，表示数据异常；

步骤4)获取平衡数据集，从标注为0的数据集中随机抽取一半的数据，归入训练集，再从标注为1的数据集中随机抽取一半的数据，归入训练集，由此得到最终的训练数据集；把标注为0的数据集和标注为1的数据集剩下的各一半的数据归入测试集，由此得到测试数据集；

步骤5)训练模型，采用Pi-Sigma高阶神经网络来训练模型，寻找到最优权向量及判断阈值；

步骤6)判断异常数据结论，针对待判断的数据，输入训练好的Pi-Sigma神经网络中，计算出实际输出值，当实际输出值大于等于判断阈值时，判断该数据正常，无需做处理；当实际输出值小于判断阈值时，判断该数据异常。

优选的，将学生成绩分数作为数据处理对象，定义为数据集X，X＝(X₁,X₂,…,X_i,…,X_n)，其中，n为数据集X包含的数据个数，X_i为数据集X中的第i个学生的成绩，X_i为C×D的多维数据，当X_i为一个数值时，C＝D＝1；

设X的所有数据元素样本均值为μ，协方差矩阵为∑，X_i的数据样本均值为μ_i，协方差矩阵为∑_i，μ，∑，μ_i，∑_i均可通过计算得出实际值。

优选的，所述步骤1)中，下面通过计算子元素X_i与总体数据集X的偏移量，寻找出偏移量最小的数据，即寻找X的中心数据，X_i与X的偏移量定义如下：

σ_i＝(μ_i-μ)'(∑_i)^-1(μ_i-μ)

然后寻找偏移量最小的数据，记为X₀：

X₀＝{X_i|min(σ_i)，i＝1,2,…,n}

X₀即为X的中心数据，X₀的数据元素个数为1个或者多个。

优选的，所述步骤2)中，以X₀的数据元素为圆心，当X₀的数据元素个数为多个时，随机选取其中一个作为圆心，设置初始半径R₀，计算1个或者多个圆，对应X₀的数据元素个数，覆盖的数据数量：(1)当覆盖的数据数量大于[n/2]，缩小R₀的值，进行寻找；(2)当覆盖的数据数量小于[n/2]，扩大R₀的值，进行寻找；(3)当覆盖的数据数量为[n/2]，确定出中心半径R＝R₀，停止寻找，把圆所覆盖的所有数据集，记为：X_in；把圆没有覆盖的所有数据集，记为：X_out。

优选的，所述步骤3)中，把X_in里的数据元素，添加标注为0，表示数据正常；把X_out里的数据元素，添加标注为1，表示数据异常；标注原则：把距X的中心数据较近的数据标注为0，其它较远的数据标注为1。

优选的，所述步骤4)中，设训练数据集和测试数据集分别记为H₀和H₁，从X_in中随机抽取一半的数据，归入H₀，再从X_out中随机抽取一半的数据，归入H₀，由此得到训练数据集H₀；把X_in和X_out剩下的各一半的数据归入H₁，由此得到测试数据集H₁；

H₀＝(X_0，1,X_0，2,…,X_0,j…,X_0,[n/2])，

其中,X_0,j＝(x_0,j,1,x_0,j,2,…,x_0,j,d,…,x_0,j,D)，D为X_0,j的数据维度，与X_i一致，O_0,j为X_0,j对应的数据标注值；

H₁＝(X_1，1,X_1，2,…,X_1,j…,X_1,n-[n/2])，

其中，X_1,j＝(x_1,j,1,x_1,j,2,…,x_1,j,d,…,x_1,j,D)，D为X_1,j的数据维度，与X_i一致，O_1,j为X_1,j对应的数据标注值。

优选的，所述步骤5)中，Pi-Sigma神经网络由一个输入层、一个隐含层和一个输出层组成，假设输入层、隐含层和输出层的神经元个数分别为N、K和1；输入样本X_m＝(x_m,1,x_m,2,…,x_m,N-1,x_m,N)^T，其中x_m,N＝-1是对应的阈值，相应的实际输出为y，理想输出为O，w_i,k为第i个输入点与第k个求和层结点间的权值，w_k＝(w_1,k,w_2,k,…,w_i,k,…,w_N-1,k,w_N,k)为输入层各结点与求和层k结点的权值向量，其中w_Nk＝1，则求和层的h_k为：

设激活函数为f(x)，这里取f(x)为Sigmoid函数(1/1+e^-x)，则对于样本集(y_j,O_j)，网络实际输出为：

网络误差函数取为传统的平方误差函数：

使用梯度算法来训练Pi-Sigma神经网络，目的就是寻找到权值向量w^*，使E(w)达到最小，

即

在使用训练数据集H₀进行模型训练时：

输入层的神经元个数为：N＝D+1，即X_m＝(X_0,j,-1)^T；

样本集(y_j,O_j)对应的理想输出O_j为：O_j＝O_0,j,j＝[n/2]；

训练以前，对数据集H₀进行归一化处理；

通过数据集H₀训练Pi-Sigma神经网络，找出最优权值向量w^*；

在使用测试数据集H₁进行模型测试时：

输入层、隐含层、输出层的神经元个数保持不变，权值向量为w^*；

样本集(y_j,O_j)对应的理想输出O_j为：O_j＝O_1,j,j＝n-[n/2]。

优选的，所述步骤6)中，针对任何一个数据X_i，输入训练好的Pi-Sigma神经网络，对应的实际输出值为y_i；

当y_i>＝A^*时，判断该数据X_i正常，判断结束；

当y_i<A^*时，判断该数据X_i异常，把该数据自动提取处理，存储在计算机系统中，为下一步的“数据治理”做准备。

采用以上技术方案的有益效果是：该方法较之于传统的异常数据判别方法，是集判断、抽取、存储为一体的方法，计算简便，直观明了，数据标注原则明确，训练数据集和测试数据集的数据平衡性好，模型具有良好的非线性处理能力，判断结论明确。

附图说明

图1为本发明一种学生成绩分数中异常数据智能筛选方法的流程图；

图2是Pi-Sigma神经网络函数图；

图3是误差变化示意图。

具体实施方式

下面详细说明本发明的优选实施方式。

一种学生成绩分数中异常数据智能筛选方法，首先，通过计算子元素与总体数据集之间的数据偏移量，寻找出偏移量最小的数据，即中心数据；其次，以中心数据为圆心，寻找到一个合适的半径，使该圆所覆盖的数据数量为总体数据集的数据数量的一半；第三，把圆所覆盖的数据，添加标注为0(表示数据正常)；把圆没有覆盖的数据，添加标注为1(表示数据异常)；第四，从标注为0的数据集中随机抽取一半的数据，归入训练集，再从标注为1的数据集中随机抽取一半的数据，归入训练集，由此得到最终的训练数据集；把标注为0的数据集和标注为1的数据集剩下的各一半的数据归入测试集，由此得到测试数据集；第五，采用一种Pi-Sigma高阶神经网络来训练模型，利用训练数据集和测试数据集寻找到最优权向量及判断阈值；第六，针对待判断的数据，输入训练好的Pi-Sigma神经网络中，计算出实际输出值，当实际输出值大于等于判断阈值时，判断该数据正常，无需做处理，当实际输出值小于判断阈值时，判断该数据异常；最后，把判断为异常的数据，通过计算机系统自动提取并存储起来，为下一步“数据治理”做准备。

把“数据治理”中的一种类型的数据处理对象，定义为数据集X，X＝(X₁,X₂,…,X_i,…,X_n)，其中，n为数据集X包含的数据个数，X_i为数据集X中的第i个数据，X_i为C×D的多维数据，当X_i为一个数值时，C＝D＝1。

设X的所有数据元素样本均值为μ，协方差矩阵为∑，X_i的数据样本均值为μ_i，协方差矩阵为∑_i(μ，∑，μ_i，∑_i均可通过计算得出实际值)。

寻找中心数据：

下面通过计算子元素X_i与总体数据集X的偏移量，寻找出偏移量最小的数据，即寻找X的中心数据，X_i与X的偏移量定义如下：

σ_i＝(μ_i-μ)'(∑_i)^-1(μ_i-μ)

然后寻找偏移量最小的数据，记为X₀：

X₀＝{X_i|min(σ_i)，i＝1,2,…,n}

X₀即为X的中心数据，X₀的数据元素个数为1个或者多个。

设置中心半径：

以X₀的数据元素为圆心(当X₀的数据元素个数为多个时，随机选取其中一个作为圆心)，设置初始半径R₀，计算1个或者多个圆(对应X₀的数据元素个数)覆盖的数据数量：(1)当覆盖的数据数量大于[n/2](取整)，缩小R₀的值，进行寻找；(2)当覆盖的数据数量小于[n/2]，扩大R₀的值，进行寻找；(3)当覆盖的数据数量为[n/2]，确定出中心半径R＝R₀，停止寻找，把圆所覆盖的所有数据集，记为：X_in；把圆没有覆盖的所有数据集，记为：X_out；

数据标注：

把X_in里的数据元素，添加标注为0(表示数据正常)；把X_out里的数据元素，添加标注为1(表示数据异常)。标注原则：把距X的中心数据较近的数据标注为0，其它较远的数据标注为1。

获取平衡数据集：

设训练数据集和测试数据集分别记为H₀和H₁。从X_in中随机抽取一半的数据，归入H₀，再从X_out中随机抽取一半的数据，归入H₀，由此得到训练数据集H₀；把X_in和X_out剩下的各一半的数据归入H₁，由此得到测试数据集H₁。

H₀＝(X_0，1,X_0，2,…,X_0,j…,X_0,[n/2]),其中,X_0,j＝(x_0,j,1,x_0,j,2,…,x_0,j,d,…,x_0,j,D)，D为X_0,j的数据维度，与X_i一致，O_0,j为X_0,j对应的数据标注值；

H₁＝(X_1，1,X_1，2,…,X_1,j…,X_1,n-[n/2]),其中，X_1,j＝(x_1,j,1,x_1,j,2,…,x_1,j,d,…,x_1,j,D)，D为X_1,j的数据维度，与X_i一致，O_1,j为X_1,j对应的数据标注值。

用这种方式获取训练数据集和测试数据集，是为了加强两个数据集的数据平衡性，减少因数据不平衡性导致的模型不准确性。

训练模型：

本专利采用一种高阶神经网络Pi-Sigma神经网络来作为训练模型。针对传统的神经网络结构，只包含一种求和神经元(∑)，这种结构效率低下，面对非线性问题时束手无策，而现实生活中到处存在着非线性问题；而Pi-Sigma高阶神经网络结构中包含求积神经元(Π)的前馈神经网络，包含了多项式乘积的特点，很好地提高了网络效率，增强了非线性能力，还有效地克服了“维数灾难”问题。因此，利用Pi-Sigma神经网络来训练模型。

Pi-Sigma神经网络由一个输入层、一个隐含层(求和层)和一个输出层(求积层)组成，假设输入层、隐含层和输出层的神经元个数分别为N、K和1(如图2)。输入样本X_m＝(x_m,1,x_m,2,…,x_m,N-1,x_m,N)^T，其中x_m,N＝-1是对应的阈值，相应的实际输出为y，理想输出为O，w_i,k为第i个输入点与第k个求和层结点间的权值，w_k＝(w_1,k,w_2,k,…,w_i,k,…,w_N-1,k,w_N,k)为输入层各结点与求和层k结点的权值向量，其中w_Nk＝1，则求和层的h_k为：

网络误差函数取为传统的平方误差函数：

使用梯度算法来训练Pi-Sigma神经网络，目的就是寻找到权值向量w*，使E(w)达到最小，即

在使用训练数据集H₀进行模型训练时：

输入层的神经元个数为：N＝D+1，即X_m＝(X_0,j,-1)^T；

样本集(y_j,O_j)对应的理想输出O_j为：O_j＝O_0,j,j＝[n/2]；

训练以前，对数据集H₀进行归一化处理；

通过数据集H₀训练Pi-Sigma神经网络，找出最优权值向量w^*。

在使用测试数据集H₁进行模型测试时：

样本集(y_j,O_j)对应的理想输出O_j为：O_j＝O_1,j,j＝n-[n/2]；

训练以前，对数据集H₁进行归一化处理；

通过数据集H₁测试Pi-Sigma神经网络，确定模型效果及判断阈值A^*(选取的判断阈值，要确保判断结论的准确率最高)。

判断、抽取、存储异常数据：

针对任何一个数据X_i，输入训练好的Pi-Sigma神经网络，对应的实际输出值为y_i。

当y_i>＝A^*时，判断该数据X_i正常，判断结束；

实施例

这里以某专业某班级学生的成绩分数为例：

假设该班12名学生的各科成绩如表1。

表1学生成绩表

X	高等数学	大学英语	数据结构	操作系统	数据库原理
						X<sub>1</sub>	96	97	68	94	71
X<sub>2</sub>	89	98	78	51	78
						X<sub>3</sub>	65	89	76	86	74
X<sub>4</sub>	97	68	85	89	88
						X<sub>5</sub>	73	0	84	45	64
X<sub>6</sub>	32	52	13	62	52
						X<sub>7</sub>	42	24	25	23	42
X<sub>8</sub>	74	84	74	63	69
						X<sub>9</sub>	120	53	85	96	74
X<sub>10</sub>	59	75	76	63	120
						X<sub>11</sub>	313	64	55	84	150
X<sub>12</sub>	64	85	74	96	181

数据集X，X＝(X₁,X₂,…,X_i,…,X₁₂)，其中，数据集X包含的数据个数为12，X_i为数据集X中的第i个学生的成绩，X_i为1×5的多维数据，即C＝1，D＝5。

寻找数据集的中心数据：

接下来通过计算子元素X_i与总体数据集X的各个均值与协方差矩阵，得到子元素X_i与总体数据集X的数据偏移量

σ₁＝30.0963,σ₂＝16.8609,σ₃＝13.1709,σ₄＝11.6793,σ₅＝97.7867,σ₆＝110.1493,

σ₇＝98.1713,σ₈＝4.0000,σ₉＝7.4563,σ₁₀＝6.2771,σ₁₁＝320.0841,σ₁₂＝310.0842

根据最小原则，确定出中心数据：X₈。

设置中心半径：

以中心数据X₈为圆心，当半径为R＝13时，使该圆所覆盖的数据为6，所覆盖的数据分别为：X₂，X₃，X₄，X₈，X₉，X₁₀。

数据标注：

X₂，X₃，X₄，X₈，X₉，X₁₀，加标注为0；X₁，X₅，X₆，X₇，X₁₁，X₁₂，加标注为1。

获取平衡数据集：

把标注为0的X₂，X₄，X₁₀列入数据集H₀，再把标注为1的X₅，X₇，X₁₂列入数据集H₀，最终形成数据集H₀

表2数据集H₀

把标注为0的X₃，X₈，X₉列入数据集H₁，再把标注为1的X₁，X₆，X₁₁列入数据集H₁，最终形成数据集H₁

表3数据集H₁

训练Pi-Sigma高阶神经网络模型：

在训练Pi-Sigma高阶神经网络前，先确认几个参数：

隐含层节点数为：3，最大训练次数为：100000，学习率为：0.01，目标误差为：1.50001，输入层与隐含层的初始权值在0-1之间随机选取。在数据输入前，把H₀和H₁中的成绩进行归一化处理。

H₀数据输入后，得到训练的误差变化如图3所示：

当迭代次数得到24904时，满足误差要求。此时得到最优权向量

w^*＝0.3465 0.4296 0.4900 -0.1989 -0.3981 -0.1517 1.2246 1.2241 0.98001.3099 1.4715 1.3877 0.5620 0.2308 0.3897 1.0377 1.0586 1.1846

然后保持w^*不变，把H₁数据输入后，得出实际输出值:

表4测试实际输出值与判断阈值选取表

从表4可以看出，当判断阈值取A^*＝0.5011时，判断结果准确率最高(5/6≈83.33％，X₃，X₆，X₈，X₉，X₁₁判断正确，X₁判断错误)。

判断异常数据结论：

另外列出三个数据：X₁₃＝[95，65，74，86，90]；X₁₄＝[101，180，89，64，140]；X₁₅＝[0，100，100，99，100]，把这三个数据分别输入训练好的Pi-Sigma模型中，各自的输出值为：y₁₃＝0.5011；y₁₄＝0.5001；y₁₅＝0.5010。

因为y₁₃>＝A^*，所有X₁₃数据正常；

(分数的取值范围正常情况下为0-100之间，所以X₁₃的判断结论正确)

因为y₁₄<A^*，所有X₁₄数据异常，把该数据自动提取处理，存储在计算机系统中，为下一步的“数据治理”做准备。

(分数的取值范围正常情况下为0-100之间，而X₁₄的出现了101、180、140等数据，所以X₁₄的判断结论正确)

因为y₁₅<A^*，所有X₁₅数据异常，把该数据自动提取处理，存储在计算机系统中，为下一步的“数据治理”做准备。

(从X₁₅的成绩可以看出，后面四门课程的成绩为满分或接近满分，应该是优等生，但出现了一门0分，可以推测该学生的成绩异常，所以X₁₅的判断结论正确)

以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种学生成绩分数中异常数据智能筛选方法，其特征在于，

将学生成绩分数作为数据处理对象，定义为数据集X，X＝(X₁,X₂,…,X_i,…,X_n)，其中，n为数据集X包含的数据个数，X_i为数据集X中的第i个学生的成绩，X_i为C×D的多维数据，当X_i为一个数值时，C＝D＝1；

设X的所有数据元素样本均值为μ，协方差矩阵为∑，X_i的数据样本均值为μ_i，协方差矩阵为∑_i，μ，∑，μ_i，∑_i均可通过计算得出实际值；

包括如下步骤：

2.根据权利要求1所述的学生成绩分数中异常数据智能筛选方法，其特征在于，所述步骤1)中，下面通过计算子元素X_i与总体数据集X的偏移量，寻找出偏移量最小的数据，即寻找X的中心数据，X_i与X的偏移量定义如下：

σ_i＝(μ_i-μ)'(∑_i)^-1(μ_i-μ)

然后寻找偏移量最小的数据，记为X₀：

X₀＝{X_i|min(σ_i)，i＝1,2,…,n}

X₀即为X的中心数据，X₀的数据元素个数为1个或者多个。

3.根据权利要求2所述的学生成绩分数中异常数据智能筛选方法，其特征在于，所述步骤2)中，以X₀的数据元素为圆心，当X₀的数据元素个数为多个时，随机选取其中一个作为圆心，设置初始半径R₀，计算1个或者多个圆，对应X₀的数据元素个数，覆盖的数据数量：(1)当覆盖的数据数量大于[n/2]，缩小R₀的值，进行寻找；(2)当覆盖的数据数量小于[n/2]，扩大R₀的值，进行寻找；(3)当覆盖的数据数量为[n/2]，确定出中心半径R＝R₀，停止寻找，把圆所覆盖的所有数据集，记为：X_in；把圆没有覆盖的所有数据集，记为：X_out。

4.根据权利要求3所述的学生成绩分数中异常数据智能筛选方法，其特征在于，所述步骤3)中，把X_in里的数据元素，添加标注为0，表示数据正常；把X_out里的数据元素，添加标注为1，表示数据异常；标注原则：把距X的中心数据较近的数据标注为0，其它较远的数据标注为1。

5.根据权利要求4所述的学生成绩分数中异常数据智能筛选方法，其特征在于，所述步骤4)中，设训练数据集和测试数据集分别记为H₀和H₁，从X_in中随机抽取一半的数据，归入H₀，再从X_out中随机抽取一半的数据，归入H₀，由此得到训练数据集H₀；把X_in和X_out剩下的各一半的数据归入H₁，由此得到测试数据集H₁；

H₀＝(X_0，1,X_0，2,…,X_0,j…,X_0,[n/2])，

H₁＝(X_1，1,X_1，2,…,X_1,j…,X_1,n-[n/2])，

6.根据权利要求5所述的学生成绩分数中异常数据智能筛选方法，其特征在于，所述步骤5)中，Pi-Sigma神经网络由一个输入层、一个隐含层和一个输出层组成，假设输入层、隐含层和输出层的神经元个数分别为N、K和1；输入样本X_m＝(x_m,1,x_m,2,…,x_m,N-1,x_m,N)^T，其中x_m,N＝-1是对应的阈值，相应的实际输出为y，理想输出为O，w_i,k为第i个输入点与第k个求和层结点间的权值，w_k＝(w_1,k,w_2,k,…,w_i,k,…,w_N-1,k,w_N,k)为输入层各结点与求和层k结点的权值向量，其中w_Nk＝1，则求和层的h_k为：

设激活函数为f(x)，这里取f(x)为Sigmoid函数(1/1+e_-x)，则对于样本集(y_j,O_j)，网络实际输出为：

网络误差函数取为传统的平方误差函数：

即

在使用训练数据集H₀进行模型训练时：

输入层的神经元个数为：N＝D+1，即X_m＝(X_0,j,-1)^T；

样本集(y_j,O_j)对应的理想输出O_j为：O_j＝O_0,j,j＝[n/2]；

训练以前，对数据集H₀进行归一化处理；

通过数据集H₀训练Pi-Sigma神经网络，找出最优权值向量w^*；

在使用测试数据集H₁进行模型测试时：

样本集(y_j,O_j)对应的理想输出O_j为：O_j＝O_1,j,j＝n-[n/2]。

7.根据权利要求6所述的学生成绩分数中异常数据智能筛选方法，其特征在于，所述步骤6)中，通过数据集H₁测试Pi-Sigma神经网络，确定模型效果及判断阈值A^*，A^*为选取的判断阈值；针对任何一个数据X_i，输入训练好的Pi-Sigma神经网络，对应的实际输出值为y_i；

当y_i＞＝A^*时，判断该数据X_i正常，判断结束；

当y_i＜A^*时，判断该数据X_i异常，把该数据自动提取处理，存储在计算机系统中，为下一步的“数据治理”做准备。