CN113469468A - 一种改进插补方法的学生体能分数预测方法 - Google Patents
一种改进插补方法的学生体能分数预测方法 Download PDFInfo
- Publication number
- CN113469468A CN113469468A CN202111023310.1A CN202111023310A CN113469468A CN 113469468 A CN113469468 A CN 113469468A CN 202111023310 A CN202111023310 A CN 202111023310A CN 113469468 A CN113469468 A CN 113469468A
- Authority
- CN
- China
- Prior art keywords
- data
- interpolation
- value
- student
- iteration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 230000002159 abnormal effect Effects 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 22
- 201000010099 disease Diseases 0.000 claims description 21
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 21
- 230000037213 diet Effects 0.000 claims description 12
- 235000005911 diet Nutrition 0.000 claims description 12
- 230000036541 health Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000004617 sleep duration Effects 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 4
- 208000001145 Metabolic Syndrome Diseases 0.000 claims description 3
- 208000008589 Obesity Diseases 0.000 claims description 3
- 201000000690 abdominal obesity-metabolic syndrome Diseases 0.000 claims description 3
- 201000009310 astigmatism Diseases 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 208000001491 myopia Diseases 0.000 claims description 3
- 230000004379 myopia Effects 0.000 claims description 3
- 235000020824 obesity Nutrition 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005429 filling process Methods 0.000 description 3
- 230000036314 physical performance Effects 0.000 description 3
- 230000001172 regenerating effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000004622 sleep time Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Educational Technology (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种改进插补方法的学生体能分数预测方法,S1采集学生体能预测所需的数据;S2采用MCMC多重插补法对稀疏数据进行填充;MCMC多重插补法的迭代次数N确定方法为:若迭代第0‑k次出现马尔科夫链收敛,以马尔科夫链收敛时的迭代次数作为所述MCMC多重插补法的迭代次数N;若迭代第k次后未出现马尔科夫链收敛,将第k+i次迭代获得数据D14、数据D24输入XGBoost模型,若模型效果提升,则以k+i作为所述MCMC多重插补法的迭代次数N;S3采用插补前后的数据构造时间段特征模块;S4基于时间段特征模块,采用XGBoost建模,预测学生在第二时间段的体能分数。本发明解决了体能预测数据系数,插补值不当的计算问题,提高了测试结果的准确性。
Description
技术领域
本发明属于人工智能、数据统计学、医疗信息化等领域,涉及一种改进插补方法的学生体能分数预测方法、存储介质和系统。
背景技术
学生体能反应了一个学生的身体素质,学生体质健康问题一直受到国家的重视。学校和家长往往重视孩子的学习而忽视了对学生身体健康。目前,很多学校会每年对学生体能进行测试,了解学生体能状态。现有技术中对学生体能测试场采用以下方法:在肺活量、50米跑、坐位体前屈、一分钟跳绳、折返跑、仰卧起坐、台阶试验、引体向上、立定跳远和球类等项目之中选择多项测试,综合每项测试的成绩,给出学生体能综合评分。目前的学生体能测试方法至少存在以下问题:第一,需要学生进行多项测试,耗时耗力;第二,学校只能每年对学生进行一次体能测试,不能及时观测到学生当前体能状态,无法及时提醒体能近期有所下降的同学保持健康生活状态,积极进行体育锻炼;第三,常规的预测算法无法对维度数量多、密度差异大、缺失值比例高的数据进行处理,准确有效地获得学生体能数据预测情况。
多重插补法是1977年由Rubin提出的一种缺失值插补方法,也是几年来被普遍接受的缺失值处理方法。多重插补的具体包括如下三个步骤:(1)插补:对数据集中缺失部分进行n次插补,插补完以后得到n个完整的数据集;(2)分析:对插补完以后的n个数据集采用相同的分析方法进行分析,得到相应的n个结果;(3)合并:把n个结果综合起来得到最终的缺失值替代值。常见的多重插补法有倾向得分法、回归预测法和马尔科夫链蒙特卡罗法(Markov Chain Monte Carlo,MCMC)。
发明内容
本发明实施方式的目的在于针对现有的学生体能检测方法存在测试耗时耗力、无法有效处理维度数量多、密度差异大、缺失值比例高的数据,进而难以及时预测学生体能状态的技术问题,提供一种改进插补方法的学生体能分数预测方法,包括以下步骤:
S1,采集第一时间段内学生体能预测所需数据D11、数据D12和数据D13,第二时间段内学生体能预测所需的数据D22和数据D23,所述数据D11、数据D12、数据D22为高密度数据,所述数据D13、数据D23为稀疏数据;
S2,采用MCMC多重插补法对所述S1采集的数据D13、数据D23进行填充,获得数据D14、数据D24;
所述MCMC多重插补法的迭代次数N确定方法为:
若迭代第0-k次出现马尔科夫链收敛,以马尔科夫链收敛时的迭代次数作为所述MCMC多重插补法的迭代次数N;
若迭代第k次后未出现马尔科夫链收敛,将第k+i次迭代获得数据D14、数据D24输入预测学生体能分数的XGBoost模型,比较输入第k+i迭代获得的数据D14及第k+i-1次迭代获得的数据D14,体能预测值与真实值均方根误差和绝对平均误差,若均方根误差和绝对平均误差均降低,则以k+i作为所述MCMC多重插补法的迭代次数N,否则以k作为所述MCMC多重插补法的迭代次数N;
其中,k,i为大于0的整数;
S3,采用数据D11、数据D12、数据D14构造第一时间段特征模块,采用数据D22、数据D24构造第二时间段特征模块;
S4,基于所述S3中的第一时间段特征模块和第二时间段特征模块,采用XGBoost建模,预测学生在第二时间段的体能分数。
优选的,所述S2基于MCMC的多重插补法包括:
S2.1:计算数据D13或数据D23的观测值Ybos的均值μ、协方差矩阵∑;
S2.2:根据此刻的观测值Ybos的均值μ、协方差矩阵∑计算下一刻的插补值Ymis (n+1);
S2.3:根据数据D13或数据D23的特点对下一刻的插补值Ymis (n+1)进行过滤;
S2.4:重复S2.2-S2.3 N次,获得数据D14或数据D24。
优选的,所述S2.3还包括判断是否出现异常插补值。
优选的,所述判断出现异常插补值的方法为:
S2.3.1对观测值Ybos及已有插补值拟合,获得函数F1;
若该次插补值与函数F1的最近距离大于第一预设值,则判断该时刻插补值异常,删除该次插补值;
若该次插补值与函数F1的最近距离小于等于第一预设值,大于第二预设值,则判断该时刻插补值存在异常风险,继续重复S2.2进行插补;若连续两次插补值存在异常风险,则比较该两次插补前及插补后的XGBoost模型结果;若输入存在异常风险的连续两次插补值后,XGBoost模型结果比未包括存在异常风险的连续两次插补值好,则继续重复S2.2,若输入存在异常风险的连续两次插补值后,XGBoost模型结果比未包括存在异常风险的连续两次插补值差,则判断该时刻插补值异常,删除该两次插补值;
若该时刻插补值与函数F1的最近距离小于等于第二预设值,则判断该插补值正常,继续重复S2.2至迭代次数N次。
优选的,所述数据D11包括体能评估数据、健康数据,所述数据D12、所述数据D22包括课程数据、疾病数据,所述数据D13、所述数据D23包括饮食数据、运动数据、睡眠数据;所述第一时间段早于所述第二时间段。
优选的,所述数据D11中的体能评估数据包括体能测试类型、各体能测试类型体能测试得分,健康数据包括学生年龄、BMI、代谢综合症分类、肥胖分类、近视、散光、配镜情况;所述数据D12中的课程数据包括体育课次数、文化课次数、体育课分数、文化课平均分数;所述数据D12中的疾病数据均包括是否患病、患病频率、患病严重程度、疾病类型、学生缺勤频率和缺勤天数;所述数据D13中的饮食数据均包括平均每天摄入能量、学生所需能量,运动数据均包括平均每天运动量、运动时长、参加学校课间运动次数,睡眠数据均包括平均每天睡眠时长;所述数据D22中的课程安排数据包括体育课次数、文化课次数;所述数据D22中的疾病数据均包括是否患病、患病频率、患病严重程度、疾病类型、学生缺勤频率和缺勤天数;所述数据D23中的饮食数据均包括平均每天摄入能量、学生所需能量,运动数据均包括平均每天运动量、运动时长、参加学校课间运动次数,睡眠数据均包括平均每天睡眠时长。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的改进插补方法的学生体能分数预测方法中的步骤。
一种改进插补方法的学生体能分数预测系统,所述系统包括一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述中任一方法的指令。
相对于现有技术而言,本发明提供的改进插补方法的学生体能分数预测方法和系统具有以下有益技术效果:
1、针对学生饮食、运动和睡眠模块数据获取比较困难,出现大量缺失值,将影响XGBoost建模效果,采用基于MCMC的多重插补法对上述模块数据进行插补填充,有效处理维度数量多、密度差异大、缺失值比例高的数据,保证后续XGBoost建模的准确性。
2、在进行缺失值填充过程中进行了三重改进,首先对缺失值设置特征范围,其次对填充时出现的异常值进行判断、剔除和再生成,最终确定了MCMC插补法中的马尔科夫链迭代次数,进一步保证了所缺失填充值的准确性,从而使后续XGBoost建模的输入数据更加准确,体能预测结果更加准确。此外,逐次插补拟合函数的设置,有效提高了不佳插补值识别的及时性,避免对最终计算结果产生负面影响。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
本实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明实施例提供的改进插补方法的学生体能分数预测方法的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本发明的第一实施例涉及一种改进插补方法的学生体能分数预测方法,如图1所示,实施方式具体如下:
S1,采集第一时间段内学生体能预测所需数据D11、数据D12和数据D13,第二时间段内学生体能预测所需的D22和数据D23,所述数据D11、数据D12、数据D22为高密度数据,所述数据D13、数据D23是稀疏数据。
在本实施例中,选取上一学年作为第一时间段,获取的相关数据供XGBoost模型进行机器学习使用,选取本学年最近一个月作为第二时间段,获取的数据作为训练好的XGBoost模型的输入,以预测得到该学生本学年最近一个月的体能预测结果。所述数据D11包括体能评估、健康体检数据,所述数据D12、数据D22包括课程安排数据、疾病数据,由于学校每年都会对学生进行体能评估和健康体检,有每名学生详细的课程安排数据,对学生疾病情况了解也较为全面,因此每名学生的数据D11、数据D12、数据D22都较为准确,属于高密度数据,基本不存在缺失值,无需进行填充。所述数据D13、数据D23包括饮食数据、运动数据、睡眠数据。
具体的,数据D11中的体能评估数据包括体能测试类型、各体能测试类型体能测试得分,健康数据包括学生年龄、BMI、代谢综合症分类、肥胖分类、近视、散光、配镜情况;所述数据D12中的课程数据包括体育课次数、文化课次数、体育课分数、文化课平均分数;所述数据D12中的疾病数据均包括是否患病、患病频率、患病严重程度、疾病类型、学生缺勤频率和缺勤天数;所述数据D13中的饮食数据均包括平均每天摄入能量、学生所需能量,运动数据均包括平均每天运动量、运动时长、参加学校课间运动次数,睡眠数据均包括平均每天睡眠时长;所述数据D22中的课程安排数据包括体育课次数、文化课次数;所述数据D22中的疾病数据均包括是否患病、患病频率、患病严重程度、疾病类型、学生缺勤频率和缺勤天数;所述数据D23中的饮食数据均包括平均每天摄入能量、学生所需能量,运动数据均包括平均每天运动量、运动时长、参加学校课间运动次数,睡眠数据均包括平均每天睡眠时长
由于学生人数较多,生活习惯各不相同,学校平日监测和统计渠道不足,此类数据会存在较多缺失值,属于稀疏数据。
将采集的数据分为高密度数据和稀疏数据,在后续的步骤的使用中,根据数据特点分别进行处理和使用,能够在一定程度上避免因数据处理不当,对预测结果准确性产生的不良影响。表1展示了上一学年部分数据,可以看出,睡眠、饮食两项的缺失值占比较大,由于表1仅为体现数据的缺失情况,并不代表全部输入维度,具体输入的数据维度参见表2。
表1
S2,采用MCMC多重插补法对所述S1采集的数据D13、数据D23进行填充,获得数据D14、数据D24。所述MCMC多重插补法的迭代次数N确定的一种方法为:若迭代第0-k次出现马尔科夫链收敛,以马尔科夫链收敛时的迭代次数作为所述MCMC多重插补法的迭代次数N;若迭代第k次后未出现马尔科夫链收敛,将第k+i次迭代获得数据D14、数据D24输入预测学生体能分数的XGBoost模型,比较输入第k+1迭代获得的数据D14及第k次迭代获得的数据D14,体能预测值与真实值均方根误差和绝对平均误差,若均方根误差和绝对平均误差均降低,则以k+i作为所述MCMC多重插补法的迭代次数N,否则以k作为所述MCMC多重插补法的迭代次数N;其中,k,i为大于0的整数,i为从0开始逐一递增的整数。
具体的,基于MCMC多重插补法的数据填充过程为:
S21,以一定时间间隔抽取数据D13、数据D23,本实施例中抽取每天的数据D13、数据D23,对数据是否为空值进行判断,如果非空值则直接将该数据存储成数据D14、数据D24,如果是空值,则进行后续的插补填充步骤;
S22,对所述数据D13、数据D23各缺失值设置特征范围。
由于数据D13、数据D23中包含的饮食数据、运动数据、睡眠数据均有其真实含义,并不是生成任意值均可作为插补值进行填充,因此根据当前观测值、均值μ和协方差矩阵∑生成下一刻的插补值Ymin (n+1)时,要对每种数据的具体范围进行设置,以保证插补值在符合其物理含义的范围内生成。本实施例以16-25岁大学生为例,学生每天运动时长和睡眠时长范围为0~24小时;平均每天摄入能量和学生所需能量范围为1500大卡~20×学生体重(单位:公斤)+1000大卡。
S23,计算数据D13或数据D23的观测值Ybos的均值μ、协方差矩阵∑。观测值Ybos为此刻针对样本的观测值。
S24,根据此刻的观测值Ybos的均值μ、协方差矩阵∑计算下一刻的插补值Ymis (n+1)。
S25,根据数据D13或数据D23的特点对下一刻的插补值Ymis (n+1)进行过滤。在产生每一个插补值时的,都有可能会产生明显不合理的,或是插补超出区域范围的异常值,因此还需进行异常值判定,若判断插补值为非异常值,则将其存储为第四类数据,若判断插补值为异常值,则进行剔除,重复S22-S24生成插补值,再次进行异常值判断,直至生成非异常插补值,将其存储为数据D14、数据D24。
可见,本发明结合数据的特性,增加了对插补值是否异常进行判断、剔除和再生成的步骤,相较于现有技术单纯的MCMC插补法,生成的缺失值更加符合学生体能预测的数据特点,从输入数据准确性的层面,保障了后续XGBoost建模预测结果的准确性。
S26,重复上述步骤得到马尔科夫链,直到该马尔科夫链收敛于P(a| Ymis, Yobs),此时得到的数据可用于插补缺失数据。
本实施例中,对上述马尔科夫链迭代次数的确定方法进行了改进,具体包括以下步骤:S251,采用Gelman-Rubin检验法检验马尔科夫链是否收敛,如果收敛则停止迭代;步骤252,若迭代100还未收敛,则后续每次迭代将生成的新样本放到模型,如果模型效果提升则停止迭代。
综合所述S2的全过程可见,本发明在采用基于MCMC的多重插补法对缺失数据进行填充时,进行了以下三重改进,首先对缺失值设置特征范围,避免数学合理但含义不合理的插补值的出现;其次对填充时出现的异常值进行判断、剔除和再生成,确定了MCMC插补法中的马尔科夫链迭代次数,相较单一的插补来说,及时有效的规避某次异常值的出现导致后续基于上述异常数据进一步插补扩大的误差;同时根据拟合函数距离的方式对插补异常的次数进行优化判断,综合考虑风险出现的复杂性,避免单一情况出现即认为存在风险。上述三重改进综合地对缺失值的范围界定、插补值的形成、异常风险的判断进行一致性结合,因此采用所述S2进行缺失值填充,相较于现有技术而言,能够使填充的缺失值更加准确合理,有效保证了后续XGBoost建模时输入数据的充足性、全面性和准确性,进而使体能预测结果更加准确。
此外,插补步骤还包括对观测值Ybos及已有插补值拟合,获得函数F1;
若该次插补值与函数F1的最近距离大于第一预设值,则判断该时刻插补值异常,删除该次插补值;
若该次插补值与函数F1的最近距离小于等于第一预设值,大于第二预设值,则判断该时刻插补值存在异常风险,继续重复进行插补;若连续两次插补值存在异常风险,则比较该两次插补前及插补后的XGBoost模型结果;若输入存在异常风险的连续两次插补值后,XGBoost模型结果比未包括存在异常风险的连续两次插补值好,则继续重复插补,若输入存在异常风险的连续两次插补值后,XGBoost模型结果比未包括存在异常风险的连续两次插补值差,则判断该时刻插补值异常,删除该两次插补值。若该时刻插补值与函数F1的最近距离小于等于第二预设值,则判断该插补值正常,继续重复S2.2至迭代次数N次。所述函数F1通过函数拟合手段获得,也可基于matlab,spss等现有工具,其构成与输入数据的特点关系明显,形式不限定于多项式、三角函数、幂函数或其组合。
逐次插补拟合函数的设置,有效提高了不佳插补值识别的及时性,避免对最终计算结果产生负面影响。
S3,采用数据D11、数据D12、数据D14构造第一时间段特征模块,采用数据D22、数据D24构造第二时间段特征模块。在本实施例中,特征工程提取的特征工程见表2中的具体特征,构造的两个特征模块包含的数据如表2所示。特征工程及多个时间段的特征模块的构造方法,可采用例如Spark MLlib等库提供的可供选择的多种公知技术。样本数量随需待评价的学生数量变化。
表2
S4,基于所述S3中的上一学年特征模块和本学年最近一个月特征模块,采用XGBoost模型,预测学生在本学年最近一个月的体能分数,及时提醒体能下降的学生调整生活状态,加强体育锻炼。最后采用均方根误差和绝对平均误差来衡量S4中的学生体能预测结果,公式为:
表3为针对表2数据的学生体能分数预测体能分数与真实体能分数的对比,在该实施例中,RMSE为2.07,MAE为1.98。
表3
XGBoost模型的建立、模型迭代或其他流程采用本领域技术人员熟知的XGBoost成熟的模型的建立和预测的方法,其结构及构建方法在常用API软件说明及官方文档均有详述,故不在此赘述。
本发明第二实施方式涉及一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的改进插补方法的学生体能分数预测方法中的步骤。
本发明第三实施方式涉及一种改进插补方法的学生体能预测系统,包括一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行实施例一中的任一方法的指令。
本实施例针对学生饮食、运动和睡眠模块数据获取比较困难,出现大量缺失值,将影响XGBoost建模效果,采用基于MCMC的多重插补法对上述模块数据进行插补填充,有效处理维度数量多、密度差异大、缺失值比例高的数据,保证后续XGBoost建模的准确性。本实施例在进行缺失值填充过程中进行了三重改进,首先对缺失值设置特征范围,避免数学合理但含义不合理的插补值的出现;其次对填充时出现的异常值进行判断、剔除和再生成,确定了MCMC插补法中的马尔科夫链迭代次数,相较单一的插补来说,及时有效的规避某次异常值的出现导致后续基于上述异常数据进一步插补扩大的误差;同时根据拟合函数距离的方式对插补异常的次数进行优化判断,综合考虑风险出现的复杂性,避免单一情况出现即认为存在风险。逐次插补拟合函数的设置,有效提高了不佳插补值识别的及时性,避免对最终计算结果产生负面影响。上述三重改进综合地对缺失值的范围界定、插补值的形成、异常风险的判断进行一致性结合,相较于现有技术而言,能够使填充的缺失值更加准确合理,有效保证了后续XGBoost建模时输入数据的充足性、全面性和准确性,进而使体能预测结果更加准确。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (8)
1.一种改进插补方法的学生体能分数预测方法,其特征在于,包括以下步骤:
S1,采集第一时间段内学生体能预测所需数据D11、数据D12和数据D13,第二时间段内学生体能预测所需的数据D22和数据D23,所述数据D11、数据D12、数据D22为高密度数据,所述数据D13、数据D23为稀疏数据;
S2,采用MCMC多重插补法对所述S1采集的数据D13、数据D23进行填充,获得数据D14、数据D24;
所述MCMC多重插补法的迭代次数N确定方法为:
若迭代第0-k次出现马尔科夫链收敛,以马尔科夫链收敛时的迭代次数作为所述MCMC多重插补法的迭代次数N;
若迭代第k次后未出现马尔科夫链收敛,将第k+i次迭代获得数据D14、数据D24输入预测学生体能分数的XGBoost模型,比较输入第k+i迭代获得的数据D14及第k+i-1次迭代获得的数据D14,体能预测值与真实值均方根误差和绝对平均误差,若均方根误差和绝对平均误差均降低,则以k+i作为所述MCMC多重插补法的迭代次数N,否则以k作为所述MCMC多重插补法的迭代次数N;
其中,k,i为大于0的整数;
S3,采用数据D11、数据D12、数据D14构造第一时间段特征模块,采用数据D22、数据D24构造第二时间段特征模块;
S4,基于所述S3中的第一时间段特征模块和第二时间段特征模块,采用XGBoost建模,预测学生在第二时间段的体能分数。
2.根据权利要求1所述的改进插补方法的学生体能分数预测方法,其特征在于:所述S2基于MCMC的多重插补法包括:
S2.1:计算数据D13或数据D23的观测值Ybos的均值μ、协方差矩阵∑;
S2.2:根据此刻的观测值Ybos的均值μ、协方差矩阵∑计算下一刻的插补值Ymis (n+1);
S2.3:根据数据D13或数据D23的特点对下一刻的插补值Ymis (n+1)进行过滤;
S2.4:重复S2.2-S2.3N次,获得数据D14或数据D24。
3.根据权利要求2所述的改进插补方法的学生体能分数预测方法,其特征在于:所述S2.3还包括判断是否出现异常插补值。
4.根据权利要求3所述的改进插补方法的学生体能分数预测方法,其特征在于:
所述判断出现异常插补值的方法为:
S2.3.1对观测值Ybos及已有插补值拟合,获得函数F1;
若该次插补值与函数F1的最近距离大于第一预设值,则判断该时刻插补值异常,删除该次插补值;
若该次插补值与函数F1的最近距离小于等于第一预设值,大于第二预设值,则判断该时刻插补值存在异常风险,继续重复S2.2进行插补;若连续两次插补值存在异常风险,则比较该两次插补前及插补后的XGBoost模型结果;若输入存在异常风险的连续两次插补值后,XGBoost模型结果比未包括存在异常风险的连续两次插补值好,则继续重复S2.2,若输入存在异常风险的连续两次插补值后,XGBoost模型结果比未包括存在异常风险的连续两次插补值差,则判断该时刻插补值异常,删除该两次插补值;
若该时刻插补值与函数F1的最近距离小于等于第二预设值,则判断该插补值正常,继续重复S2.2至迭代次数N次。
5.根据权利要求1所述的改进插补方法的学生体能分数预测方法,其特征在于:所述数据D11包括体能评估数据、健康数据,所述数据D12、所述数据D22包括课程数据、疾病数据,所述数据D13、所述数据D23包括饮食数据、运动数据、睡眠数据;所述第一时间段早于所述第二时间段。
6.根据权利要求2所述的改进插补方法的学生体能分数预测方法,其特征在于:所述数据D11中的体能评估数据包括体能测试类型、各体能测试类型体能测试得分,健康数据包括学生年龄、BMI、代谢综合症分类、肥胖分类、近视、散光、配镜情况;所述数据D12中的课程数据包括体育课次数、文化课次数、体育课分数、文化课平均分数;所述数据D12中的疾病数据均包括是否患病、患病频率、患病严重程度、疾病类型、学生缺勤频率和缺勤天数;所述数据D13中的饮食数据均包括平均每天摄入能量、学生所需能量,运动数据均包括平均每天运动量、运动时长、参加学校课间运动次数,睡眠数据均包括平均每天睡眠时长;所述数据D22中的课程安排数据包括体育课次数、文化课次数;所述数据D22中的疾病数据均包括是否患病、患病频率、患病严重程度、疾病类型、学生缺勤频率和缺勤天数;所述数据D23中的饮食数据均包括平均每天摄入能量、学生所需能量,运动数据均包括平均每天运动量、运动时长、参加学校课间运动次数,睡眠数据均包括平均每天睡眠时长。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的改进插补方法的学生体能分数预测方法中的步骤。
8.一种改进插补方法的学生体能分数预测系统,其特征在于,所述系统包括一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行权利要求1-6中任一方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111023310.1A CN113469468B (zh) | 2021-09-02 | 2021-09-02 | 一种改进插补方法的学生体能分数预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111023310.1A CN113469468B (zh) | 2021-09-02 | 2021-09-02 | 一种改进插补方法的学生体能分数预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113469468A true CN113469468A (zh) | 2021-10-01 |
CN113469468B CN113469468B (zh) | 2021-11-30 |
Family
ID=77867173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111023310.1A Active CN113469468B (zh) | 2021-09-02 | 2021-09-02 | 一种改进插补方法的学生体能分数预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469468B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778263A (zh) * | 2012-10-23 | 2014-05-07 | 南车青岛四方机车车辆股份有限公司 | 地铁车辆数据采集处理的装置和方法 |
CN106384298A (zh) * | 2016-09-19 | 2017-02-08 | 合肥工业大学 | 一种基于两阶段插补模型的智能用电缺失数据修正方法 |
CN107016571A (zh) * | 2017-03-31 | 2017-08-04 | 北京百分点信息科技有限公司 | 数据预测方法及其系统 |
-
2021
- 2021-09-02 CN CN202111023310.1A patent/CN113469468B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778263A (zh) * | 2012-10-23 | 2014-05-07 | 南车青岛四方机车车辆股份有限公司 | 地铁车辆数据采集处理的装置和方法 |
CN106384298A (zh) * | 2016-09-19 | 2017-02-08 | 合肥工业大学 | 一种基于两阶段插补模型的智能用电缺失数据修正方法 |
CN107016571A (zh) * | 2017-03-31 | 2017-08-04 | 北京百分点信息科技有限公司 | 数据预测方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113469468B (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11335450B2 (en) | Dehydration amount prediction method for hemodialysis and electronic device using the same | |
Lu et al. | An MDL approach to the climate segmentation problem | |
Chapman et al. | Statistical learning theory for high dimensional prediction: Application to criterion-keyed scale development. | |
Cai et al. | Semiparametric regression analysis for clustered failure time data | |
CN103218533B (zh) | 一种指数分布的串联系统可靠度置信下限估计方法 | |
CN112397204B (zh) | 一种预测高原病的方法、装置、计算机设备和存储介质 | |
CN110993100B (zh) | 一种青少年儿童近视预测系统的缺失值填补方法及使用该方法的系统 | |
Szuwalski et al. | Identifying research priorities for management under uncertainty: the estimation ability of the stock assessment method used for eastern Bering Sea snow crab (Chionoecetes opilio) | |
CN116306783A (zh) | 基于lstm-dcgan模型的fhr数据增强方法 | |
CN113469468B (zh) | 一种改进插补方法的学生体能分数预测方法 | |
Zeng et al. | Additive transformation models for clustered failure time data | |
Viles et al. | Percolation under noise: Detecting explosive percolation using the second-largest component | |
Allen et al. | Proximity and gravity: modeling heaped self‐reports | |
Liu et al. | An omnibus lack of fit test in logistic regression with sparse data | |
Hindriks et al. | Unbiased estimation of Langevin dynamics from time series with application to hippocampal field potentials in vitro | |
Yang et al. | Research on hepatitis auxiliary diagnosis model based on fuzzy integral and GA—BP neural network | |
CN113469469A (zh) | 一种基于分段式损失函数的学生体能分数预测方法 | |
CN112037914B (zh) | 一种强迫症风险评估模型的构建方法、系统及设备 | |
Li | Joint Tweedie Mixed Models for longitudinal data of mixed types | |
Musto et al. | On a Survival Gradient Boosting, Neural Network and Cox PH Based Approach to Predicting Dementia Diagnosis Risk on ADNI | |
Kazempoor et al. | Statistical inferences for the Weibull distribution under adaptive progressive type-II censoring plan and their application in wind speed data analysis | |
CN117807454B (zh) | 一种用于腹盆肌恢复的数据信号处理方法 | |
Muhsal | Change-point methods for multivariate autoregressive models and multiple structural breaks in the mean | |
CN117084638A (zh) | 一种基于游戏行为分析的认知障碍评估方法及系统 | |
CN106611107A (zh) | 一种去除测序数据噪声的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231109 Address after: Room 612-1, Building 1, No. 425 Qingchuan Street, Xihu District, Hangzhou City, Zhejiang Province, 310000 Patentee after: Zhejiang Huawang Hengye Technology Co.,Ltd. Address before: 311202 room b1-201-28, No. 198, Qidi Road, Xiaoshan Economic and Technological Development Zone, Xiaoshan District, Hangzhou City, Zhejiang Province Patentee before: HANGZHOU HUAWANG INFORMATION TECHNOLOGY CO.,LTD. |