CN113094359A - 基于决策规则的考试数据预处理方法、系统、装置及介质 - Google Patents

基于决策规则的考试数据预处理方法、系统、装置及介质 Download PDF

Info

Publication number
CN113094359A
CN113094359A CN202110203289.7A CN202110203289A CN113094359A CN 113094359 A CN113094359 A CN 113094359A CN 202110203289 A CN202110203289 A CN 202110203289A CN 113094359 A CN113094359 A CN 113094359A
Authority
CN
China
Prior art keywords
data
score
decision rule
preprocessing
examination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110203289.7A
Other languages
English (en)
Inventor
郝天永
谢燚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202110203289.7A priority Critical patent/CN113094359A/zh
Publication of CN113094359A publication Critical patent/CN113094359A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于决策规则的考试数据预处理方法、系统、装置及存储介质;该方法包括对考试数据进行结构化整理,得到规范化的数据字段;根据考试数据预处理的维度,构建决策规则,并得到决策规则集,所述考试数据预处理的维度包括数据一致性、数据冗余、数据缺失和数据噪音;对所述决策规则集进行排序,得到排序决策规则集;利用所述排序决策规则集对所述规范化的数据字段进行预处理。本发明利用排序决策规则集对所述规范化的数据字段进行预处理;能够减少考试数据的复杂性,并降低数据的冗余情况,增加数据的可读性,提高考试数据的质量;对考试数据分析和分析结果评价具有重要意义。本发明可广泛应用于数据处理技术领域。

Description

基于决策规则的考试数据预处理方法、系统、装置及介质
技术领域
本发明涉及数据处理技术领域,尤其是一种基于决策规则的考试数据预处理方法、系统、装置及存储介质。
背景技术
考试评价工作是考试工作中的重要组成部分,而考试评价工作需要大量且准确的数据作为前提,利用考生数据进行数据分析,得到各个角度的数据结果,整理成可靠的数据报告,便可从中分析得到考试中所反映出的问题。通过科学的考试评价,对于推动教学改革、开展精准校验、指导教育教学、提升教学质量起到积极作用。通过考试评价工作,可以多维度的了解考试的基本情况,有效的掌握考生的学习状况,找到在教育教学中的优劣,准确的对教育教学方案进行改进,是提高教学质量、促进考生全方位发展的依据。
如今,各地的考试数据录入方法各不相同,常规教学工作中,考试数据往往涉及数据量大、数据生源地多样、手动自动等录入方式混杂,加之考试过程中的特殊情况,以及考试成绩的差异,常导致所采集的数据中出现错误、缺失、冗余、不一致等问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于决策规则的考试数据预处理方法、系统、装置及存储介质。
本发明所采取的技术方案是:
一方面,本发明实施例包括一种基于决策规则的考试数据预处理方法,包括:
对考试数据进行结构化整理,得到规范化的数据字段;
根据考试数据预处理的维度,构建决策规则,并得到决策规则集,所述考试数据预处理的维度包括数据一致性、数据冗余、数据缺失和数据噪音;
对所述决策规则集进行排序,得到排序决策规则集;
利用所述排序决策规则集对所述规范化的数据字段进行预处理。
进一步地,所述方法还包括:
对进行预处理后的所述规范化的数据字段进行抽样,检验预处理的有效性。
进一步地,所述决策规则包括以下至少一种:
是否存在单科成绩;
是否存在单题成绩;
单科成绩是否大于最高分;
单科成绩是否低于最低分;
单题成绩是否大于最高分;
单题成绩是否低于最低分;
单题成绩之和与单科成绩是否一致。
进一步地,对所述决策规则集进行排序,得到排序决策规则集这一步骤,具体包括:
设定所述决策规则集的先后匹配顺序;
根据所述先后匹配顺序对所述决策规则集进行排序,得到排序决策规则集。
进一步地,所述利用所述排序决策规则集对所述规范化的数据字段进行预处理这一步骤,具体包括:
根据所述规范化的数据字段,提取得到第一组数据,所述第一组数据包括以下至少一种:
考试科目集合、各科的满分集合、各科的最低分集合、各科各个试题的得分集合、各个试题的最高分集合、各个试题的最低分集合和错误试题集合;所述错误试题集合为第一试题得分不合理的试题集合,所述第一试题为各科各个试题中的任意试题;
根据所述第一组数据,检查考试成绩信息表和考生单题成绩信息表;
根据检查结果,对所述考试成绩信息表和考生单题成绩信息表进行修正。
进一步地,所述利用所述排序决策规则集对所述规范化的数据字段进行预处理之后,所述方法还包括:
从修正后的所述考试成绩信息表和考生单题成绩信息表中获取每个考生的得分情况;
根据所述得分情况,对考生进行分组。
进一步地,所述利用所述排序决策规则集对所述规范化的数据字段进行预处理之后,所述方法还包括:
根据修正后的所述考试成绩信息表和考生单题成绩信息表,统计得到以下至少一组数据:
各科目总体的平均分、标准差、差异系数、得分率、信度、得分分布情况;
或者,
各科目各个维度的平均分、标准差、差异系数和得分率,所述各个维度包括性别维度、户口维度、生源地维度和应往届维度;
或者,
各科目各个单题的平均分、标准差、差异系数、得分率、区分度和各分组得分率。
另一方面,本发明实施例还包括一种基于决策规则的考试数据预处理系统,包括:
整理模块,用于对考试数据进行结构化整理,得到规范化的数据字段;
构建模块,用于根据考试数据预处理的维度,构建决策规则,并得到决策规则集,所述考试数据预处理的维度包括数据一致性、数据冗余、数据缺失和数据噪音;
排序模块,用于对所述决策规则集进行排序,得到排序决策规则集;
预处理模块,用于利用所述排序决策规则集对所述规范化的数据字段进行预处理。
另一方面,本发明实施例还包括一种基于决策规则的考试数据预处理装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的基于决策规则的考试数据预处理方法。
另一方面,本发明实施例还包括计算机可读存储介质,其上存储有处理器可执行的程序,所述处理器可执行的程序在被处理器执行时用于实现所述的基于决策规则的考试数据预处理方法。
本发明的有益效果是:
本发明对考试数据进行结构化整理,得到规范化的数据字段,然后根据考试数据预处理的维度,构建决策规则,并得到决策规则集,对决策规则集进行排序,得到排序决策规则集;再利用排序决策规则集对所述规范化的数据字段进行预处理;能够减少考试数据的复杂性,并降低数据的冗余情况,增加数据的可读性,提高考试数据的质量;对考试数据分析和分析结果评价具有重要意义。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所述基于决策规则的考试数据预处理方法的步骤流程图;
图2为本发明实施例所述生成排序决策规则集的流程图;
图3为本发明实施例所述对决策规则集进行排序,得到排序决策规则集的流程图;
图4为本发明实施例所述基于决策规则的考试数据预处理装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。下面结合附图,对本申请实施例作进一步阐述。
参照图1,本发明实施例提供一种基于决策规则的考试数据预处理方法,包括但不限于以下步骤:
S1.对考试数据进行结构化整理,得到规范化的数据字段;
S2.根据考试数据预处理的维度,构建决策规则,并得到决策规则集,所述考试数据预处理的维度包括数据一致性、数据冗余、数据缺失和数据噪音;
S3.对所述决策规则集进行排序,得到排序决策规则集;
S4.利用所述排序决策规则集对所述规范化的数据字段进行预处理。
本实施例中,所述方法还包括:
S5.关于步骤S1,本实施例中,考试数据包括考生个人基本信息、考试科目信息、考试科目单题信息、考生考试成绩信息、考生单题成绩信息等;考生个人基本信息包括考生姓名子信息、考生号子信息、性别子信息、户籍子信息、应往届子信息、考生生源地子信息、考生类型子信息等;考试科目单题信息包括所述科目子信息、题号子信息、题型子信息、知识板块子信息、考核能力子信息、客观题选项子信息等。得到的规范化的数据字段包括数值数据和非数值数据。
关于步骤S2,本实施例中,考试数据预处理的维度包括数据一致性、数据冗余、数据缺失、数据噪音等;进而根据考试数据预处理的维度,产生的决策规则包括但不限于以下几种:是否存在单科成绩,是否存在单题成绩,单科成绩是否大于最高分,单科成绩是否低于最低分,单题成绩是否大于最高分,单题成绩是否低于最低分,单题成绩之和与单科成绩是否一致等。参照图2,将这些决策规则进行整理,得到决策规则集。
关于步骤S3,也就是对所述决策规则集进行排序,得到排序决策规则集这一步骤,具体包括:
S301.设定所述决策规则集的先后匹配顺序;
S302.根据所述先后匹配顺序对所述决策规则集进行排序,得到排序决策规则集。
参照图2和图3,本实施例中,得到决策规则集后,再进行排序,可得到排序决策规则集,其中排序是指对特定的决策规则集进行先后匹配顺序的设定;具体地,排序过程如图3所示,包括以下步骤:
(1)单科成绩是否缺失,若缺失,执行步骤(2),否则,执行步骤(3);
(2)缺失成绩的科目的单题成绩是否缺失,若缺失,删除考生数据,检查下一名考生的数据;若存在,补充单科成绩,执行步骤(3);
(3)缺失成绩的科目的单题成绩是否缺失,若缺失,删除考生数据,检查下一名考生的数据;若存在,补充单科成绩,执行步骤(4);
(4)各单题成绩是否大于该题得分最大值,若大于,添加至错题集合;执行步骤(5);
(5)错题集合中元素个数是否大于阈值,若小于阈值,则进行错误处理,否则删除考生数据,检查下一名考生;
(6)考生单题成绩是否大于该题得分最大值,若小于,执行步骤(7),若大于,删除考生成绩,检查下一名考生数据;
(7)考生单题成绩是否小于该题得分最小值,若大于,执行步骤(8),若小于,删除考生数据,检查下一名考生数据;
(8)考生单题成绩和是否等于单科总成绩,若相等执行步骤(9),若不相等,删除考生成绩,检查下一名考生数据;
(9)考生各科成绩之和是否等于总成绩,若不相等,更改考生总成绩,若相等,执行步骤(10);
(10)各非数值数据是否合理,若不合理,置为NULL,若合理,该考生成绩数据合理,检查下一个考生数据。
关于步骤S4,也就是所述利用所述排序决策规则集对所述规范化的数据字段进行预处理这一步骤,具体包括:
S401.根据所述规范化的数据字段,提取得到第一组数据,所述第一组数据包括以下至少一种:
S402.考试科目集合、各科的满分集合、各科的最低分集合、各科各个试题的得分集合、各个试题的最高分集合、各个试题的最低分集合和错误试题集合;所述错误试题集合为第一试题得分不合理的试题集合,所述第一试题为各科各个试题中的任意试题;
S403.根据所述第一组数据,检查考试成绩信息表和考生单题成绩信息表;
S404.根据检查结果,对所述考试成绩信息表和考生单题成绩信息表进行修正。
本实施例中,首先对数值数据进行处理,包括以下步骤:
(1)获取考试科目集合S={S1,...,Si,...,Sn},各科的满分集合为M={m1,...,mi,...,mn},各科的最低分集合为L={l1,...,li,...,ln},n为考试科目数量,1≤i≤n;设各科Si试题得分集合为Ti={ti1,...,tis,...,tim},其中m为科目Si的题目数量,1≤s≤m,且各题目最高分和最低分分别为Mi={mi1,...,mis,....,mim},Li={li1,...,lis,...,lim},错误单题数量最大占比为Merror
(2)检查考试成绩信息表和考生单题成绩信息表,若某考生的科目Si成绩为li,且Si单题成绩
Figure BDA0002949544490000061
或Ti∈Li,则视该考生缺考,不参与该科的数据统计;
(3)检查考试成绩信息表和考生单题成绩信息表,若某考生的某科目成绩为li,且存在科目Si单题科目分数,则补充该名考生的Si成绩;
(4)检查考生单题成绩信息,若某考生科目Si中存在mis<tis的情况,加入错误题目集合T中,若|T|>m*Merror,则视该考生科目Si成绩无效,不参与该科目的相关的数值计算;若|T|≤m*Merror,将错误题目数值进行填充;
(5)检查考生单题成绩信息表,若某考生科目Si中存在mis<tis或tis<lis,则视该考生考试成绩无效,该考生科目Si的成绩不参与科目Si相关的数值计算;
(6)检查考试成绩信息表以及考生单题信息表,若考生科目的单题得分之和与考试信息表的成绩不相同,视考生成绩无效,该考生科目Si的成绩不参与科目Si相关的数值计算;
(7)检查考生成绩信息表,若考生科目Si得分大于mi或者低于li,则视该考生科目Si成绩无效,不参与该科目的相关数值计算
(8)重复步骤(2)-(7),直至遍历完科目集合S;
(9)检查文科/理科综合成绩以及总成绩是否正确,对不正确的进行修正;
其中,步骤(4)中将错误题目数值进行填充过程如下:
错误题目集合T={t1,...tn},n为数据错误的题目个数;若n为1,则该考生题目t1的得分为科目得分减去其他单题的得分和;若n>1,则题目ti(i=1...n-1)的得分为该题目的平均分,题目tn的得分为科目得分减去其他单题的得分之和。
本实施例中,利用排序决策规则集完成对数值数据的预处理后,继续对非数值数据进行处理;具体过程为:假设考生数据中某非数值数据字段可能的值为集合G={g1,...gi,...,gn},n为集合元素个数,某考生该非数值数据取值为g,若
Figure BDA0002949544490000071
则令g=NULL,不参与相关的数值运算。
本实施例中,利用所述排序决策规则集对所述规范化的数据字段进行预处理之后,所述方法还包括:
S5.从修正后的所述考试成绩信息表和考生单题成绩信息表中获取每个考生的得分情况;
S6.根据所述得分情况,对考生进行分组。
本实施例中,经过预处理之后,对各科目以及总分进行分组,并根据每个学生的得分情况以及划分规则,将考生分组,并且补充至数据库中;分组的划分可根据不同考试科目进行不同的划分情况,如可以利用固定的分数线划分为[优秀,良好,中,及格,不及格]、[A,B,C,D],或者利用现有合法的考生成绩,将现有数据按照分数段或者百分比进行划分;或者,根据预处理后得到的数值数据,根据考生各科成绩以及总成绩成绩划分为高分组、中间组、低分组,分别为各科成绩或者总成绩排名的前1/3,中间1/3,以及后1/3,并将数据补充至数据库中。
本实施例中,利用所述排序决策规则集对所述规范化的数据字段进行预处理之后,所述方法还包括:
S7.根据修正后的所述考试成绩信息表和考生单题成绩信息表,统计得到以下至少一组数据:
各科目总体的平均分、标准差、差异系数、得分率、信度、得分分布情况;
或者,
各科目各个维度的平均分、标准差、差异系数和得分率,所述各个维度包括性别维度、户口维度、生源地维度和应往届维度;
或者,
各科目各个单题的平均分、标准差、差异系数、得分率、区分度和各分组得分率。
本实施例中,利用所述排序决策规则集对所述规范化的数据字段进行预处理之后,对考生考试成绩信息以及考生单题考试信息中的数值信息进行统计,包括:
(1)各科目总体的平均分、标准差、差异系数、得分率、信度、得分分布情况;
(2)各科目各维度的平均分、标准差、差异系数、得分率,如:性别维度、户口维度、生源地维度、应往届维度;
(3)各科目单题/题型/知识板块/考核能力的平均分、标准差、差异系数、得分率、区分度、各分组得分率;
本实施例中,利用所述排序决策规则集对所述规范化的数据字段进行预处理之后,所述方法还包括:
S8.对进行预处理后的所述规范化的数据字段进行抽样,检验预处理的有效性。
本实施例中,可根据考生生源地,分别得到不同的考生集合,随机抽取其中若干考生集合,对数据是否缺失、是否一致、是否合法等情况进行抽样检查。
所述检验预处理的有效性具体为:将预处理后的考试数据,以任意方式将考生划分为多个集合,随机抽取若干个集合,选择来自相同考生生源地的数据作为考试抽查样本,检查数据是否一致,是否存在缺失以及是否合理。
本发明实施例所述基于决策规则的考试数据预处理方法具有以下技术效果:
本发明实施例对考试数据进行结构化整理,得到规范化的数据字段,然后根据考试数据预处理的维度,构建决策规则,并得到决策规则集,对决策规则集进行排序,得到排序决策规则集;再利用排序决策规则集对所述规范化的数据字段进行预处理;能够减少考试数据的复杂性,并降低数据的冗余情况,增加数据的可读性,提高考试数据的质量;对考试数据分析和分析结果评价具有重要意义。
本发明实施例还包括一种基于决策规则的考试数据预处理系统,包括:
整理模块,用于对考试数据进行结构化整理,得到规范化的数据字段;
构建模块,用于根据考试数据预处理的维度,构建决策规则,并得到决策规则集,所述考试数据预处理的维度包括数据一致性、数据冗余、数据缺失和数据噪音;
排序模块,用于对所述决策规则集进行排序,得到排序决策规则集;
预处理模块,用于利用所述排序决策规则集对所述规范化的数据字段进行预处理。
参照图4,本发明实施例还包括一种基于决策规则的考试数据预处理装置200,具体包括:
至少一个处理器210;
至少一个存储器220,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器210执行,使得所述至少一个处理器210实现如图1所示的方法。
其中,存储器220作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。存储器220可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器220可选包括相对于处理器210远程设置的远程存储器,这些远程存储器可以通过网络连接至处理器210。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
可以理解到,图4中示出的装置结构并不构成对装置200的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示的装置200中,处理器210可以调取存储器220中储存的程序,并执行但不限于图1所示实施例的步骤。
以上所描述的装置200实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现实施例的目的。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有处理器可执行的程序,所述处理器可执行的程序在被处理器执行时用于实现如图1所示的方法。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
可以理解的是,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.一种基于决策规则的考试数据预处理方法,其特征在于,包括:
对考试数据进行结构化整理,得到规范化的数据字段;
根据考试数据预处理的维度,构建决策规则,并得到决策规则集,所述考试数据预处理的维度包括数据一致性、数据冗余、数据缺失和数据噪音;
对所述决策规则集进行排序,得到排序决策规则集;
利用所述排序决策规则集对所述规范化的数据字段进行预处理。
2.根据权利要求1所述的一种基于决策规则的考试数据预处理方法,其特征在于,所述方法还包括:
对进行预处理后的所述规范化的数据字段进行抽样,检验预处理的有效性。
3.根据权利要求1所述的一种基于决策规则的考试数据预处理方法,其特征在于,所述决策规则包括以下至少一种:
是否存在单科成绩;
是否存在单题成绩;
单科成绩是否大于最高分;
单科成绩是否低于最低分;
单题成绩是否大于最高分;
单题成绩是否低于最低分;
单题成绩之和与单科成绩是否一致。
4.根据权利要求1所述的一种基于决策规则的考试数据预处理方法,其特征在于,对所述决策规则集进行排序,得到排序决策规则集这一步骤,具体包括:
设定所述决策规则集的先后匹配顺序;
根据所述先后匹配顺序对所述决策规则集进行排序,得到排序决策规则集。
5.根据权利要求1所述的一种基于决策规则的考试数据预处理方法,其特征在于,所述利用所述排序决策规则集对所述规范化的数据字段进行预处理这一步骤,具体包括:
根据所述规范化的数据字段,提取得到第一组数据,所述第一组数据包括以下至少一种:
考试科目集合、各科的满分集合、各科的最低分集合、各科各个试题的得分集合、各个试题的最高分集合、各个试题的最低分集合和错误试题集合;所述错误试题集合为第一试题得分不合理的试题集合,所述第一试题为各科各个试题中的任意试题;
根据所述第一组数据,检查考试成绩信息表和考生单题成绩信息表;
根据检查结果,对所述考试成绩信息表和考生单题成绩信息表进行修正。
6.根据权利要求5所述的一种基于决策规则的考试数据预处理方法,其特征在于,所述利用所述排序决策规则集对所述规范化的数据字段进行预处理之后,所述方法还包括:
从修正后的所述考试成绩信息表和考生单题成绩信息表中获取每个考生的得分情况;
根据所述得分情况,对考生进行分组。
7.根据权利要求5所述的一种基于决策规则的考试数据预处理方法,其特征在于,所述利用所述排序决策规则集对所述规范化的数据字段进行预处理之后,所述方法还包括:
根据修正后的所述考试成绩信息表和考生单题成绩信息表,统计得到以下至少一组数据:
各科目总体的平均分、标准差、差异系数、得分率、信度、得分分布情况;
或者,
各科目各个维度的平均分、标准差、差异系数和得分率,所述各个维度包括性别维度、户口维度、生源地维度和应往届维度;
或者,
各科目各个单题的平均分、标准差、差异系数、得分率、区分度和各分组得分率。
8.一种基于决策规则的考试数据预处理系统,其特征在于,包括:
整理模块,用于对考试数据进行结构化整理,得到规范化的数据字段;
构建模块,用于根据考试数据预处理的维度,构建决策规则,并得到决策规则集,所述考试数据预处理的维度包括数据一致性、数据冗余、数据缺失和数据噪音;
排序模块,用于对所述决策规则集进行排序,得到排序决策规则集;
预处理模块,用于利用所述排序决策规则集对所述规范化的数据字段进行预处理。
9.一种基于决策规则的考试数据预处理装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7任一项所述的方法。
10.计算机可读存储介质,其特征在于,其上存储有处理器可执行的程序,所述处理器可执行的程序在被处理器执行时用于实现如权利要求1-7任一项所述的方法。
CN202110203289.7A 2021-02-24 2021-02-24 基于决策规则的考试数据预处理方法、系统、装置及介质 Pending CN113094359A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110203289.7A CN113094359A (zh) 2021-02-24 2021-02-24 基于决策规则的考试数据预处理方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110203289.7A CN113094359A (zh) 2021-02-24 2021-02-24 基于决策规则的考试数据预处理方法、系统、装置及介质

Publications (1)

Publication Number Publication Date
CN113094359A true CN113094359A (zh) 2021-07-09

Family

ID=76667267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110203289.7A Pending CN113094359A (zh) 2021-02-24 2021-02-24 基于决策规则的考试数据预处理方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN113094359A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850663A (zh) * 2015-06-09 2015-08-19 苏州点通教育科技有限公司 考试成绩录入和分析系统及方法
CN105677854A (zh) * 2016-01-04 2016-06-15 安徽大学 基于粗糙集的学生单科成绩决策分析方法及分析器
CN108491475A (zh) * 2018-03-08 2018-09-04 平安科技(深圳)有限公司 数据快速批量导入方法、电子装置及计算机可读存储介质
CN109460412A (zh) * 2018-11-14 2019-03-12 北京锐安科技有限公司 数据聚合方法、装置、设备及存储介质
CN109739839A (zh) * 2018-12-10 2019-05-10 中科恒运股份有限公司 数据空值处理方法、装置及终端设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850663A (zh) * 2015-06-09 2015-08-19 苏州点通教育科技有限公司 考试成绩录入和分析系统及方法
CN105677854A (zh) * 2016-01-04 2016-06-15 安徽大学 基于粗糙集的学生单科成绩决策分析方法及分析器
CN108491475A (zh) * 2018-03-08 2018-09-04 平安科技(深圳)有限公司 数据快速批量导入方法、电子装置及计算机可读存储介质
WO2019169693A1 (zh) * 2018-03-08 2019-09-12 平安科技(深圳)有限公司 数据快速批量导入方法、电子装置及计算机可读存储介质
CN109460412A (zh) * 2018-11-14 2019-03-12 北京锐安科技有限公司 数据聚合方法、装置、设备及存储介质
CN109739839A (zh) * 2018-12-10 2019-05-10 中科恒运股份有限公司 数据空值处理方法、装置及终端设备

Similar Documents

Publication Publication Date Title
CN109800320B (zh) 一种图像处理方法、设备及计算机可读存储介质
CN110909035A (zh) 个性化复习题集生成方法、装置、电子设备及存储介质
CN110046789B (zh) 一种学生信息素养测评试卷的自动生成方法及系统
CN111783855A (zh) 智能阅卷方法及装置
EP4214694A1 (en) Systems and methods for detecting collusion in student testing using graded scores or answers for individual questions
CN112363923A (zh) 基于问卷系统的测试方法、装置、计算机设备及介质
CN116414815A (zh) 数据质量检测方法、装置、计算机设备和存储介质
CN103368762B (zh) 大数据对比测试方法、系统及装置
CN114140280A (zh) 一种基于ai批改的数据处理方法、系统和电子设备
CN113094359A (zh) 基于决策规则的考试数据预处理方法、系统、装置及介质
CN116230208B (zh) 基于深度学习的胃粘膜炎症分型辅助诊断系统
CN112270486A (zh) 数据质量评估方法、装置、电子设备及可读介质
CN110600090A (zh) 一种临床检验数据处理方法、装置、介质及终端设备
CN114550865A (zh) 一种影响学生体测的多维度数据分析方法及装置
CN116028551A (zh) 作业数据处理方法、装置、电子设备和存储介质
CN112651397B (zh) 检查单分类方法、装置、计算机设备和存储介质
CN113256289A (zh) 区块链的判别方法、装置及电子设备
CN114782224A (zh) 基于用户特征的网页考评作弊监测方法、装置及电子设备
CN109446192B (zh) 数据测试方法及装置
CN112884430A (zh) 一种基于大数据的考试管理系统及方法
CN113888318A (zh) 风险检测方法及系统
Mulry et al. Comparison of 2010 census nonresponse follow-up proxy responses with administrative records using census coverage measurement results
CN106708638A (zh) 系统错误检测方法和装置
CN116563067B (zh) 一种基于大数据的毕业生人群就业分析方法、系统及介质
CN113485906B (zh) 财务云平台中统计数据的测试方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination