CN111209316A

CN111209316A - 一种信息素养数据挖掘方法、装置、电子设备及存储介质

Info

Publication number: CN111209316A
Application number: CN202010033932.1A
Authority: CN
Inventors: 吴砥; 朱莎; 徐建
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2020-05-29

Abstract

本发明公开了一种信息素养数据挖掘方法、装置、电子设备及存储介质。该方法包括：采集被测试者的信息素养测试数据，将所述测试数据存储为成绩矩阵表；采集专家对指标的重要度评价数据，将所述重要度评价数据存储为组比较矩阵；构建数据挖掘模型，所述数据挖掘模型用于接收所述成绩矩阵表和所述组比较矩阵，根据所述成绩矩阵表运用熵值法获得第一指标权重，根据所述组比较矩阵运用层次分析法获得第二指标权重，根据所述第一指标权重和第二指标权重获得综合权重，根据所述综合权重输出被测试者的信息素养等级数据。本发明实现了对采集数据的自动化处理，能够有效提高数据挖掘的可信度，从而对被测试者的信息素养水平进行科学可靠的评估。

Description

一种信息素养数据挖掘方法、装置、电子设备及存储介质

技术领域

本发明属于教育信息化评价技术领域，更具体地，涉及一种信息素养数据挖掘方法、装置、电子设备及存储介质。

背景技术

在信息化高速发展的浪潮下，教育领域也已经与科技充分结合并演变出丰富多彩的形式。如何利用计算机来设计、开发一套可用于测量我国学生信息素养水平的评估工具、充分从测试数据中挖掘信息，对学生的信息素养水平进行科学可靠的评估、提高评估的可信度是十分必要的。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种信息素养数据挖掘方法、装置、电子设备及存储介质。

为实现上述目的，按照本发明的一个方面，提供了一种信息素养数据挖掘方法，包括：

采集被测试者的信息素养测试数据，将所述测试数据存储为成绩矩阵表；

采集专家对指标的重要度评价数据，将所述重要度评价数据存储为组比较矩阵；

构建数据挖掘模型，所述数据挖掘模型用于接收所述成绩矩阵表和所述组比较矩阵，根据所述成绩矩阵表运用熵值法获得第一指标权重，根据所述组比较矩阵运用层次分析法获得第二指标权重，根据所述第一指标权重和第二指标权重获得综合权重，根据所述综合权重输出被测试者的信息素养等级数据。

优选地，所述将所述测试数据存储为成绩矩阵表包括：

信息素养测试数据中每题记为一分，将正确结果为得1分，错误记为0分，汇总结果，储存为一个n×m的成绩表T，n为被测试者数目，m为题目数，表的每行代表一个被测试者的所有题目成绩，表的每列代表某题所有被测试者的作答情况；

将同一最低指标中的题目分数相加得到指标原始分数,转换为一个n×k的原始分数表T_org，n为被测试者数目，k为最低层级指标数，表的每行代表一个被测试者的所有维度原始成绩，表的每列代表某维度所有被测试者的原始成绩。

优选地，所述根据所述成绩矩阵表运用熵值法获得第一指标权重包括：

步骤(21)：对每个指标标准化处理将n×k的原始分数表T_org转换为n×k的标准分数表T_std，标准化处理方法是：

将k个指标记为X₁,X₂,..X_k，每个指标有n个元素，指标X_i＝x_i1,x_i2,...,x_in标准化后的指标X′_i的元素x′_ij可表示为：

x′_ij＝(x_ij-min{x_i1,…,x_in})/(max{x_i1,…,x_in}-min{x_i1,…,x_in})

步骤(22)：根据标准分数表T_std运用熵值法计算第一指标权重，具体是：

根据信息熵的定义，标准分数表T_std中指标X′_i的信息熵e_i为：

其中，p_ij为第j项指标下第i个样本值占该指标的比重，

各指标的权重可表示为：

结果储存为长度为k的最低级指标的第一指标权重，将高级指标对应的低级指标第一指标权重相加便可得到高级指标的第一指标权重。

优选地，所述将所述重要度评价数据存储为组比较矩阵包括：

建立层次结构模型，将决策目标、考虑因素和决策对象绘出层次结构图，构造判断矩阵，根据所述重要度评价数据得到专家e的个体判断矩阵A_e：

判断矩阵A_e中各元素a_ij为i行指标相对j列指标进行重要性两两比较的值，p为同一层次内指标数量，将A_e储存为p×p二维数组；

再将个人判断矩阵合成为组比较矩阵A：

将A储存为p×p二维数组。

优选地，根据所述判断矩阵运用层次分析法获得第二指标权重包括：

步骤(31)：将比较矩阵A的各行向量进行几何平均，然后归一化，得到的行向量就是所述第二指标权重，具体计算方法如下：将A的最大特征根记为λmax,其相应的第二指标权重为W，则有AW＝λmaxW，

1)判断矩阵每一行元素的乘积Mi可表示为：

其中i＝1,2,...,p。结果储存为长度为p的向量M，

2)计算Mi的p次方根

可表示为：

结果储存为长度为p的向量W_sqrt，

3)对指标权重ω进行归一化处理：

结果储存为长度为p的向量W_level，

4)计算判断矩阵的最大特征根λmax：

步骤(32)：计算一致性指标CI，

结合一致性系数RI计算得到一致性比率CR：

当CR<0.1时，比较矩阵A的不一致性程度在容许范围内，

步骤(33)：先对最高级指标进行分析，再对同一指标内的次级指标进行逐层分析，指标的第二指标权重是步骤3)中计算得到的权重ω_i和其上级指标在步骤3)中计算得到的权重ω_i的乘积，

最后，最低级指标的权重存为长度为k的第二指标权重。

优选地，根据所述第一指标权重和第二指标权重获得综合权重包括：

将所述第一指标权重记为x₁,x₂,…,x_k，将所述第二指标权重记为y₁,y₂,…,y_k,k为最低级指标数，组合权重可表示为z₁,z₂,…,z_k，最后得出综合权重为：

结果储存为长度为k的综合指标权重向量W_c。

优选地，根据所述综合权重输出被测试者的信息素养等级数据包括：

将所述成绩矩阵表与所述综合权重按指标对应相乘并乘以100，得到各指标对应分数表T_index，再将分数表T_index各指标分数逐层汇总相加，得到最终信息素养总分，最后输出添加了汇总分数列的信息素养分数表T_IL。

根据本发明的第二方面，提供了一种信息素养数据挖掘装置，包括：

信息素养测试数据采集转换模块，用于采集被测试者的信息素养测试数据，将所述测试数据存储为成绩矩阵表；

重要度评价数据采集转换模块，用于采集专家对指标的重要度评价数据，将所述重要度评价数据存储为组比较矩阵；

数据挖掘模型构建模块，用于构建数据挖掘模型，所述数据挖掘模型用于接收所述成绩矩阵表和所述组比较矩阵，根据所述成绩矩阵表运用熵值法获得第一指标权重，根据所述组比较矩阵运用层次分析法获得第二指标权重，根据所述第一指标权重和第二指标权重获得综合权重，根据所述综合权重输出被测试者的信息素养等级数据。

根据本发明的第三方面，提供了一种电子设备，包括处理器和存储器，

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现上述任一方法。

根据本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有有益效果：能够利用计算机来设计、开发一套可用于测量我国学生信息素养水平的评估工具，通过构建数据挖掘模型来获取第一指标权重、第二指标权重、综合权重以及输出信息素养等级数据，实现了对采集数据的自动化处理，能够有效提高数据挖掘的可信度，能够充分从测试数据中挖掘信息，对被测试者的信息素养水平进行科学可靠的评估，从而提高评估的可信度。

附图说明

图1是本发明实施例提供的一种信息素养数据挖掘方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的一种信息素养数据挖掘方法，可用于学生信息素养评估或其他场景中，包括以下步骤：

下面以进行学生信息素养评估为例，来说明本发明的信息素养数据挖掘方法的具体实现方法。

(1)采集学生信息素养测试结果，根据信息素养测试结果运用熵值法计算第一指标权重A；

整理原始记录，将学生答题的原始数据整理为可处理的形式，并剔除无效样本，如包含缺失值、异常值的样本。测试结果中每题记为一分，将正确结果为得1分，错误记为0分。如下表

表1评分例表

题目	正确答案·	学生作答	得分
				1	B	A	0
2	A	A	1
				3	D	D	1

汇总结果，储存为一个n×m的成绩表T，n为学生数目，m为题目数。表的每行代表一个学生的所有题目成绩，表的每列代表某题所有学生的作答情况。

表2成绩表(部分)示例

再将同一最低指标中的题目分数相加得到指标原始分数,转换为一个n×k的原始分数表T_org，n为学生数目，k为最低层级指标数。表的每行代表一个学生的所有维度原始成绩，表的每列代表某指标所有学生的原始成绩。

例如，指标1包含题目1，2，3，5，6，则指标1的原始分数为这几道题目的总分。

表3原始分数转换示例

表4原始分数表(部分)示例

学生	指标1	指标2	指标3
				1	3	2	4
2	4	5	2

对每个指标标准化处理。由于各项指标存在计量标准不统一的问题，因此在求权重前需要对其进行标准化处理。设设有k个指标X₁,X₂,..X_k，每个指标有n个元素，指标X_i＝x_i1,x_i2,...,x_in标准化后的指标X′_i的元素x′_ij可表示为：

x′_ij＝(x_ij-min{x_i1,…,x_in})/(max{x_i1,…,x_in}-min{x_i1,…,x_in})

将上一步n×k的原始分数表T_org，转换为n×k的标准分数表T_std。

表5标准分数表(部分)示例

学生	指标1	指标2	指标3
				1	0.6	0.333	0.5
2	0.8	0.833	0.25

运用熵值法计算其权重A。根据信息熵的定义，标准分数表T_std中指标X′_i的信息熵e_i为：

p_ij为第j项指标下第i个样本值占该指标的比重。

信息熵可作为中间结果储存在长度为k的向量E中。

各指标的权重可表示为：

结果储存为长度为k的最低级指标向量W_A。将高级指标对应的低级指标权重相加便可得到高级指标权重。

表6指标相加示例表

(2)收集专家意见，运用层次分析法计算第二指标权重B；

(21)收集专家意见，标编制打分表。

运用层次分析法计算指标的权重B。向专家们发放评分表。家们先对最高层指标的相对重要性进行判断，再对同一指标下的次级指标的相对重要性进行判断，逐层进行直至最底层。

要性进行评判时，引入了九分位的比例标度，见表7。

表7九分位比例标度

因素i比因素j	量化值
		同等重要	1
稍微重要	3
		明显重要	5
强烈重要	7
		极端重要	9
两相邻判断的中间值	2，4，6，8

(22)将专家评分表转换为判断矩阵。判断矩阵A中各元素a_ij为i行指标相对j列指标进行重要性两两比较的值。首先，建立层次结构模型，将决策的目标、考虑的因素(决策准则)和决策对象绘出层次结构图；其次，构造判断(成对比较)矩阵，同一层次内p个指标相对重要性的判断由多个专家完成。将专家打分汇总后得到专家e的个体判断矩阵A_e：

A_e储存为p×p二维数组。如，专家1对第一级4个指标的判断矩阵：

表8判断矩阵示例

接着，再将专家们对同一指标集的个人判断矩阵合成为组比较矩阵Ac：

Ac储存为p×p二维数组。

(23)然后计算各指标权重与最大特征根。

将判断矩阵Ac的各行向量进行几何平均，然后归一化，得到的行向量就是权重向量。设A的最大特征根为λmax,其相应的特征向量为W，则有AW＝λmaxW。计算过程如下：

1)判断矩阵每一行元素的乘积Mi可表示为：

其中i＝1,2,...,p。结果储存为长度为p的向量M。

2)计算Mi的p次方根

可表示为：

结果储存为长度为p的向量W_sqrt。

3)对指标权重ω进行归一化处理：

结果储存为长度为p的向量W_level。在表11的基础上，计算过程如表12所示。

表9指标B计算示例表

	指标1	指标2	指标3	指标4	行内连乘	开4次方	权重Wi
								指标1	1	3	3	3	27	2.280	0.50
指标2	0.333	1	1	1	0.333	0.760	0.17
								指标3	0.333	1	1	1	0.333	0.760	0.17
指标4	0.333	1	1	1	0.333	0.760	0.17

4)计算判断矩阵的最大特征根λmax：

(24)矩阵一致性检验

计算一致性指标CI：

结合一致性系数RI:

表1平均随机一致性系数RI值

n	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
																RI	0	0	0.52	0.89	1.12	1.26	1.36	1.41	1.46	1.49	1.52	1.54	1.56	1.58	1.59

计算得到一致性比率CR：

表12的λ_max,CI,CR为：

表2一致性结果示例

λmax	4
		CI	0
CR	0.00

当CR<0.1时，矩阵A的不一致性程度在容许范围内。

(25)汇总权总

先对最高级指标进行分析，再对同一指标内的次级指标进行逐层分析。指标的第二指标权重是步骤3)中计算得到的权重ω_i和其上级指标在步骤3)中计算得到的权重ω_i的乘积。最后，最低级指标权重存为长度为k的向量W_B，即第二指标权重。

表12指标汇总示例

(3)结合权重A与权重B计算综合权重；

(41)为了提高多属性权重赋值的科学性，将主观赋权与客观赋权的优点结合起来。设权重A为x₁,x₂,…,x_k，权重B为y₁,y₂,…,y_k,组合权重可表示为z₁,z₂,…,z_k，最后得出综合权重为：

结果储存为长度为k的综合指标权重向量W_c。

表3综合指标示例

(4)运用综合权重计算得分，并判定被测者的信息素养等级。

将标准化分数表T_std,与综合权重Wc，按指标指标对应相乘并乘以100，得到各指标对应分数表T_index。再将各指标分数逐层汇总相加，得到最终信息素养总分。最后得到添加了汇总分数列的信息素养分数表T_IL。

表14信息素养分数表示例

学生	指标1	指标2	指标3	指标4	信息素养总分
						1	18.60	11.90	27.03	24.60	82.14
2	29.50	15.56	23.83	19.27	88.16
						3	25.70	5.28	8.03	24.60	63.61
4	24.03	14.02	25.17	16.40	79.62

上述第一指标权重、第二指标权重、综合权重以及信息素养等级数据的获取都是通过构建数据挖掘模型，在数据挖掘模型中实现了对采集数据的自动化处理，能够有效提高数据挖掘的置信度。

本发明实施例的一种信息素养数据挖掘装置，包括：

信息素养测试数据采集转换模块，用于采集被测试者的信息素养测试数据，将测试数据存储为成绩矩阵表；

重要度评价数据采集转换模块，用于采集专家对指标的重要度评价数据，将重要度评价数据存储为组比较矩阵；

数据挖掘模型构建模块，用于构建数据挖掘模型，所述数据挖掘模型用于接收成绩矩阵表和组比较矩阵，根据成绩矩阵表运用熵值法获得第一指标权重，根据组比较矩阵运用层次分析法获得第二指标权重，根据第一指标权重和第二指标权重获得综合权重，根据综合权重输出被测试者的信息素养等级数据。

信息素养数据挖掘装置的实现原理、技术效果与上述方法类似，此处不再赘述。

为了实现上述实施例，本发明实施例还提出一种电子设备，包括：处理器和存储器。其中，存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。存储器中存储有计算机程序，计算机程序被处理器执行时可以实现上述任一信息素养数据挖掘方法实施例的技术方案。存储器中存储有计算机程序，包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理。处理器可以是一种集成电路芯片，具有信号的处理能力。处理器在接收到执行指令后，执行程序。可选的，上述存储器内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。本实施例提供的电子设备，可以用于执行上述任一信息素养数据挖掘方法实施例的技术方案，其实现原理、技术效果与上述方法类似，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述任一方法实施例的技术方案。其实现原理、技术效果与上述信息素养数据挖掘方法类似，此处不再赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。