CN113469468A

CN113469468A - 一种改进插补方法的学生体能分数预测方法

Info

Publication number: CN113469468A
Application number: CN202111023310.1A
Authority: CN
Inventors: 吴和俊; 王敏康; 王玲; 傅天涯
Original assignee: Hangzhou Huawang Information Technology Co ltd
Current assignee: Zhejiang Huawang Hengye Technology Co ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-10-01
Anticipated expiration: 2041-09-02
Also published as: CN113469468B

Abstract

本发明公开了一种改进插补方法的学生体能分数预测方法，S1采集学生体能预测所需的数据；S2采用MCMC多重插补法对稀疏数据进行填充；MCMC多重插补法的迭代次数N确定方法为：若迭代第0‑k次出现马尔科夫链收敛，以马尔科夫链收敛时的迭代次数作为所述MCMC多重插补法的迭代次数N；若迭代第k次后未出现马尔科夫链收敛，将第k+i次迭代获得数据D₁₄、数据D₂₄输入XGBoost模型，若模型效果提升，则以k+i作为所述MCMC多重插补法的迭代次数N；S3采用插补前后的数据构造时间段特征模块；S4基于时间段特征模块，采用XGBoost建模，预测学生在第二时间段的体能分数。本发明解决了体能预测数据系数，插补值不当的计算问题，提高了测试结果的准确性。

Description

一种改进插补方法的学生体能分数预测方法

技术领域

本发明属于人工智能、数据统计学、医疗信息化等领域，涉及一种改进插补方法的学生体能分数预测方法、存储介质和系统。

背景技术

学生体能反应了一个学生的身体素质，学生体质健康问题一直受到国家的重视。学校和家长往往重视孩子的学习而忽视了对学生身体健康。目前，很多学校会每年对学生体能进行测试，了解学生体能状态。现有技术中对学生体能测试场采用以下方法：在肺活量、50米跑、坐位体前屈、一分钟跳绳、折返跑、仰卧起坐、台阶试验、引体向上、立定跳远和球类等项目之中选择多项测试，综合每项测试的成绩，给出学生体能综合评分。目前的学生体能测试方法至少存在以下问题：第一，需要学生进行多项测试，耗时耗力；第二，学校只能每年对学生进行一次体能测试，不能及时观测到学生当前体能状态，无法及时提醒体能近期有所下降的同学保持健康生活状态，积极进行体育锻炼；第三，常规的预测算法无法对维度数量多、密度差异大、缺失值比例高的数据进行处理，准确有效地获得学生体能数据预测情况。

多重插补法是1977年由Rubin提出的一种缺失值插补方法，也是几年来被普遍接受的缺失值处理方法。多重插补的具体包括如下三个步骤：（1）插补：对数据集中缺失部分进行n次插补，插补完以后得到n个完整的数据集；（2）分析：对插补完以后的n个数据集采用相同的分析方法进行分析，得到相应的n个结果；（3）合并：把n个结果综合起来得到最终的缺失值替代值。常见的多重插补法有倾向得分法、回归预测法和马尔科夫链蒙特卡罗法(Markov Chain Monte Carlo,MCMC)。

发明内容

本发明实施方式的目的在于针对现有的学生体能检测方法存在测试耗时耗力、无法有效处理维度数量多、密度差异大、缺失值比例高的数据，进而难以及时预测学生体能状态的技术问题，提供一种改进插补方法的学生体能分数预测方法，包括以下步骤：

S1，采集第一时间段内学生体能预测所需数据D₁₁、数据D₁₂和数据D₁₃，第二时间段内学生体能预测所需的数据D₂₂和数据D₂₃，所述数据D₁₁、数据D₁₂、数据D₂₂为高密度数据，所述数据D₁₃、数据D₂₃为稀疏数据；

S2，采用MCMC多重插补法对所述S1采集的数据D₁₃、数据D₂₃进行填充，获得数据D₁₄、数据D₂₄；

所述MCMC多重插补法的迭代次数N确定方法为：

若迭代第0-k次出现马尔科夫链收敛，以马尔科夫链收敛时的迭代次数作为所述MCMC多重插补法的迭代次数N；

若迭代第k次后未出现马尔科夫链收敛，将第k+i次迭代获得数据D₁₄、数据D₂₄输入预测学生体能分数的XGBoost模型，比较输入第k+i迭代获得的数据D₁₄及第k+i-1次迭代获得的数据D₁₄，体能预测值与真实值均方根误差和绝对平均误差，若均方根误差和绝对平均误差均降低，则以k+i作为所述MCMC多重插补法的迭代次数N，否则以k作为所述MCMC多重插补法的迭代次数N；

其中，k，i为大于0的整数；

S3，采用数据D₁₁、数据D₁₂、数据D₁₄构造第一时间段特征模块，采用数据D₂₂、数据D₂₄构造第二时间段特征模块；

S4，基于所述S3中的第一时间段特征模块和第二时间段特征模块，采用XGBoost建模，预测学生在第二时间段的体能分数。

优选的，所述S2基于MCMC的多重插补法包括：

S2.1：计算数据D₁₃或数据D₂₃的观测值Y_bos的均值μ、协方差矩阵∑；

S2.2：根据此刻的观测值Y_bos的均值μ、协方差矩阵∑计算下一刻的插补值Y_mis ⁽ⁿ⁺¹⁾；

S2.3：根据数据D₁₃或数据D₂₃的特点对下一刻的插补值Y_mis ⁽ⁿ⁺¹⁾进行过滤；

S2.4：重复S2.2-S2.3 N次，获得数据D₁₄或数据D₂₄。

优选的，所述S2.3还包括判断是否出现异常插补值。

优选的，所述判断出现异常插补值的方法为：

S2.3.1对观测值Y_bos及已有插补值拟合，获得函数F₁；

若该次插补值与函数F₁的最近距离大于第一预设值，则判断该时刻插补值异常，删除该次插补值；

若该次插补值与函数F₁的最近距离小于等于第一预设值，大于第二预设值，则判断该时刻插补值存在异常风险，继续重复S2.2进行插补；若连续两次插补值存在异常风险，则比较该两次插补前及插补后的XGBoost模型结果；若输入存在异常风险的连续两次插补值后，XGBoost模型结果比未包括存在异常风险的连续两次插补值好，则继续重复S2.2，若输入存在异常风险的连续两次插补值后，XGBoost模型结果比未包括存在异常风险的连续两次插补值差，则判断该时刻插补值异常，删除该两次插补值；

若该时刻插补值与函数F₁的最近距离小于等于第二预设值，则判断该插补值正常，继续重复S2.2至迭代次数N次。

优选的，所述数据D₁₁包括体能评估数据、健康数据，所述数据D₁₂、所述数据D₂₂包括课程数据、疾病数据，所述数据D₁₃、所述数据D₂₃包括饮食数据、运动数据、睡眠数据；所述第一时间段早于所述第二时间段。

优选的，所述数据D₁₁中的体能评估数据包括体能测试类型、各体能测试类型体能测试得分，健康数据包括学生年龄、BMI、代谢综合症分类、肥胖分类、近视、散光、配镜情况；所述数据D₁₂中的课程数据包括体育课次数、文化课次数、体育课分数、文化课平均分数；所述数据D₁₂中的疾病数据均包括是否患病、患病频率、患病严重程度、疾病类型、学生缺勤频率和缺勤天数；所述数据D₁₃中的饮食数据均包括平均每天摄入能量、学生所需能量，运动数据均包括平均每天运动量、运动时长、参加学校课间运动次数，睡眠数据均包括平均每天睡眠时长；所述数据D₂₂中的课程安排数据包括体育课次数、文化课次数；所述数据D₂₂中的疾病数据均包括是否患病、患病频率、患病严重程度、疾病类型、学生缺勤频率和缺勤天数；所述数据D₂₃中的饮食数据均包括平均每天摄入能量、学生所需能量，运动数据均包括平均每天运动量、运动时长、参加学校课间运动次数，睡眠数据均包括平均每天睡眠时长。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述的改进插补方法的学生体能分数预测方法中的步骤。

一种改进插补方法的学生体能分数预测系统，所述系统包括一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述中任一方法的指令。

相对于现有技术而言，本发明提供的改进插补方法的学生体能分数预测方法和系统具有以下有益技术效果：

1、针对学生饮食、运动和睡眠模块数据获取比较困难，出现大量缺失值，将影响XGBoost建模效果，采用基于MCMC的多重插补法对上述模块数据进行插补填充，有效处理维度数量多、密度差异大、缺失值比例高的数据，保证后续XGBoost建模的准确性。

2、在进行缺失值填充过程中进行了三重改进，首先对缺失值设置特征范围，其次对填充时出现的异常值进行判断、剔除和再生成，最终确定了MCMC插补法中的马尔科夫链迭代次数，进一步保证了所缺失填充值的准确性，从而使后续XGBoost建模的输入数据更加准确，体能预测结果更加准确。此外，逐次插补拟合函数的设置，有效提高了不佳插补值识别的及时性，避免对最终计算结果产生负面影响。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

本实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明实施例提供的改进插补方法的学生体能分数预测方法的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施例涉及一种改进插补方法的学生体能分数预测方法，如图1所示，实施方式具体如下：

S1，采集第一时间段内学生体能预测所需数据D₁₁、数据D₁₂和数据D₁₃，第二时间段内学生体能预测所需的D₂₂和数据D₂₃，所述数据D₁₁、数据D₁₂、数据D₂₂为高密度数据，所述数据D₁₃、数据D₂₃是稀疏数据。

在本实施例中，选取上一学年作为第一时间段，获取的相关数据供XGBoost模型进行机器学习使用，选取本学年最近一个月作为第二时间段，获取的数据作为训练好的XGBoost模型的输入，以预测得到该学生本学年最近一个月的体能预测结果。所述数据D₁₁包括体能评估、健康体检数据，所述数据D₁₂、数据D₂₂包括课程安排数据、疾病数据，由于学校每年都会对学生进行体能评估和健康体检，有每名学生详细的课程安排数据，对学生疾病情况了解也较为全面，因此每名学生的数据D₁₁、数据D₁₂、数据D₂₂都较为准确，属于高密度数据，基本不存在缺失值，无需进行填充。所述数据D₁₃、数据D₂₃包括饮食数据、运动数据、睡眠数据。

具体的，数据D₁₁中的体能评估数据包括体能测试类型、各体能测试类型体能测试得分，健康数据包括学生年龄、BMI、代谢综合症分类、肥胖分类、近视、散光、配镜情况；所述数据D₁₂中的课程数据包括体育课次数、文化课次数、体育课分数、文化课平均分数；所述数据D₁₂中的疾病数据均包括是否患病、患病频率、患病严重程度、疾病类型、学生缺勤频率和缺勤天数；所述数据D₁₃中的饮食数据均包括平均每天摄入能量、学生所需能量，运动数据均包括平均每天运动量、运动时长、参加学校课间运动次数，睡眠数据均包括平均每天睡眠时长；所述数据D₂₂中的课程安排数据包括体育课次数、文化课次数；所述数据D₂₂中的疾病数据均包括是否患病、患病频率、患病严重程度、疾病类型、学生缺勤频率和缺勤天数；所述数据D₂₃中的饮食数据均包括平均每天摄入能量、学生所需能量，运动数据均包括平均每天运动量、运动时长、参加学校课间运动次数，睡眠数据均包括平均每天睡眠时长

由于学生人数较多，生活习惯各不相同，学校平日监测和统计渠道不足，此类数据会存在较多缺失值，属于稀疏数据。

将采集的数据分为高密度数据和稀疏数据，在后续的步骤的使用中，根据数据特点分别进行处理和使用，能够在一定程度上避免因数据处理不当，对预测结果准确性产生的不良影响。表1展示了上一学年部分数据，可以看出，睡眠、饮食两项的缺失值占比较大，由于表1仅为体现数据的缺失情况，并不代表全部输入维度，具体输入的数据维度参见表2。

表1

S2，采用MCMC多重插补法对所述S1采集的数据D₁₃、数据D₂₃进行填充，获得数据D₁₄、数据D₂₄。所述MCMC多重插补法的迭代次数N确定的一种方法为：若迭代第0-k次出现马尔科夫链收敛，以马尔科夫链收敛时的迭代次数作为所述MCMC多重插补法的迭代次数N；若迭代第k次后未出现马尔科夫链收敛，将第k+i次迭代获得数据D₁₄、数据D₂₄输入预测学生体能分数的XGBoost模型，比较输入第k+1迭代获得的数据D₁₄及第k次迭代获得的数据D₁₄，体能预测值与真实值均方根误差和绝对平均误差，若均方根误差和绝对平均误差均降低，则以k+i作为所述MCMC多重插补法的迭代次数N，否则以k作为所述MCMC多重插补法的迭代次数N；其中，k，i为大于0的整数，i为从0开始逐一递增的整数。

具体的，基于MCMC多重插补法的数据填充过程为：

S21，以一定时间间隔抽取数据D₁₃、数据D₂₃，本实施例中抽取每天的数据D₁₃、数据D₂₃，对数据是否为空值进行判断，如果非空值则直接将该数据存储成数据D₁₄、数据D₂₄，如果是空值，则进行后续的插补填充步骤；

S22，对所述数据D₁₃、数据D₂₃各缺失值设置特征范围。

由于数据D₁₃、数据D₂₃中包含的饮食数据、运动数据、睡眠数据均有其真实含义，并不是生成任意值均可作为插补值进行填充，因此根据当前观测值、均值μ和协方差矩阵∑生成下一刻的插补值Y_min ⁽ⁿ⁺¹⁾时，要对每种数据的具体范围进行设置，以保证插补值在符合其物理含义的范围内生成。本实施例以16-25岁大学生为例，学生每天运动时长和睡眠时长范围为0~24小时；平均每天摄入能量和学生所需能量范围为1500大卡~20×学生体重（单位：公斤）+1000大卡。

S23，计算数据D₁₃或数据D₂₃的观测值Y_bos的均值μ、协方差矩阵∑。观测值Y_bos为此刻针对样本的观测值。

S24，根据此刻的观测值Y_bos的均值μ、协方差矩阵∑计算下一刻的插补值Y_mis ⁽ⁿ⁺¹⁾。

S25，根据数据D₁₃或数据D₂₃的特点对下一刻的插补值Y_mis ⁽ⁿ⁺¹⁾进行过滤。在产生每一个插补值时的，都有可能会产生明显不合理的，或是插补超出区域范围的异常值，因此还需进行异常值判定，若判断插补值为非异常值，则将其存储为第四类数据，若判断插补值为异常值，则进行剔除，重复S22-S24生成插补值，再次进行异常值判断，直至生成非异常插补值，将其存储为数据D₁₄、数据D₂₄。

可见，本发明结合数据的特性，增加了对插补值是否异常进行判断、剔除和再生成的步骤，相较于现有技术单纯的MCMC插补法，生成的缺失值更加符合学生体能预测的数据特点，从输入数据准确性的层面，保障了后续XGBoost建模预测结果的准确性。

S26，重复上述步骤得到马尔科夫链，直到该马尔科夫链收敛于P(a| Y_mis, Y_obs)，此时得到的数据可用于插补缺失数据。

本实施例中，对上述马尔科夫链迭代次数的确定方法进行了改进，具体包括以下步骤：S251，采用Gelman-Rubin检验法检验马尔科夫链是否收敛，如果收敛则停止迭代；步骤252，若迭代100还未收敛，则后续每次迭代将生成的新样本放到模型，如果模型效果提升则停止迭代。

综合所述S2的全过程可见，本发明在采用基于MCMC的多重插补法对缺失数据进行填充时，进行了以下三重改进，首先对缺失值设置特征范围，避免数学合理但含义不合理的插补值的出现；其次对填充时出现的异常值进行判断、剔除和再生成，确定了MCMC插补法中的马尔科夫链迭代次数，相较单一的插补来说，及时有效的规避某次异常值的出现导致后续基于上述异常数据进一步插补扩大的误差；同时根据拟合函数距离的方式对插补异常的次数进行优化判断，综合考虑风险出现的复杂性，避免单一情况出现即认为存在风险。上述三重改进综合地对缺失值的范围界定、插补值的形成、异常风险的判断进行一致性结合，因此采用所述S2进行缺失值填充，相较于现有技术而言，能够使填充的缺失值更加准确合理，有效保证了后续XGBoost建模时输入数据的充足性、全面性和准确性，进而使体能预测结果更加准确。

此外，插补步骤还包括对观测值Y_bos及已有插补值拟合，获得函数F₁；

若该次插补值与函数F₁的最近距离小于等于第一预设值，大于第二预设值，则判断该时刻插补值存在异常风险，继续重复进行插补；若连续两次插补值存在异常风险，则比较该两次插补前及插补后的XGBoost模型结果；若输入存在异常风险的连续两次插补值后，XGBoost模型结果比未包括存在异常风险的连续两次插补值好，则继续重复插补，若输入存在异常风险的连续两次插补值后，XGBoost模型结果比未包括存在异常风险的连续两次插补值差，则判断该时刻插补值异常，删除该两次插补值。若该时刻插补值与函数F₁的最近距离小于等于第二预设值，则判断该插补值正常，继续重复S2.2至迭代次数N次。所述函数F₁通过函数拟合手段获得，也可基于matlab，spss等现有工具，其构成与输入数据的特点关系明显，形式不限定于多项式、三角函数、幂函数或其组合。

逐次插补拟合函数的设置，有效提高了不佳插补值识别的及时性，避免对最终计算结果产生负面影响。

S3，采用数据D₁₁、数据D₁₂、数据D₁₄构造第一时间段特征模块，采用数据D₂₂、数据D₂₄构造第二时间段特征模块。在本实施例中，特征工程提取的特征工程见表2中的具体特征，构造的两个特征模块包含的数据如表2所示。特征工程及多个时间段的特征模块的构造方法，可采用例如Spark MLlib等库提供的可供选择的多种公知技术。样本数量随需待评价的学生数量变化。

表2

S4，基于所述S3中的上一学年特征模块和本学年最近一个月特征模块，采用XGBoost模型，预测学生在本学年最近一个月的体能分数，及时提醒体能下降的学生调整生活状态，加强体育锻炼。最后采用均方根误差和绝对平均误差来衡量S4中的学生体能预测结果，公式为：

其中RMSE表示均方根误差，MAE表示绝对平均误差，y_i表示真实值，

表示预测值，m为预测的样本量。

表3为针对表2数据的学生体能分数预测体能分数与真实体能分数的对比，在该实施例中，RMSE为2.07，MAE为1.98。

表3

XGBoost模型的建立、模型迭代或其他流程采用本领域技术人员熟知的XGBoost成熟的模型的建立和预测的方法，其结构及构建方法在常用API软件说明及官方文档均有详述，故不在此赘述。

本发明第二实施方式涉及一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前所述的改进插补方法的学生体能分数预测方法中的步骤。

本发明第三实施方式涉及一种改进插补方法的学生体能预测系统，包括一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行实施例一中的任一方法的指令。

本实施例针对学生饮食、运动和睡眠模块数据获取比较困难，出现大量缺失值，将影响XGBoost建模效果，采用基于MCMC的多重插补法对上述模块数据进行插补填充，有效处理维度数量多、密度差异大、缺失值比例高的数据，保证后续XGBoost建模的准确性。本实施例在进行缺失值填充过程中进行了三重改进，首先对缺失值设置特征范围，避免数学合理但含义不合理的插补值的出现；其次对填充时出现的异常值进行判断、剔除和再生成，确定了MCMC插补法中的马尔科夫链迭代次数，相较单一的插补来说，及时有效的规避某次异常值的出现导致后续基于上述异常数据进一步插补扩大的误差；同时根据拟合函数距离的方式对插补异常的次数进行优化判断，综合考虑风险出现的复杂性，避免单一情况出现即认为存在风险。逐次插补拟合函数的设置，有效提高了不佳插补值识别的及时性，避免对最终计算结果产生负面影响。上述三重改进综合地对缺失值的范围界定、插补值的形成、异常风险的判断进行一致性结合，相较于现有技术而言，能够使填充的缺失值更加准确合理，有效保证了后续XGBoost建模时输入数据的充足性、全面性和准确性，进而使体能预测结果更加准确。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种改进插补方法的学生体能分数预测方法，其特征在于，包括以下步骤：

所述MCMC多重插补法的迭代次数N确定方法为：

其中，k，i为大于0的整数；

2.根据权利要求1所述的改进插补方法的学生体能分数预测方法，其特征在于：所述S2基于MCMC的多重插补法包括：

S2.4：重复S2.2-S2.3N次，获得数据D₁₄或数据D₂₄。

3.根据权利要求2所述的改进插补方法的学生体能分数预测方法，其特征在于：所述S2.3还包括判断是否出现异常插补值。

4.根据权利要求3所述的改进插补方法的学生体能分数预测方法，其特征在于：

所述判断出现异常插补值的方法为：

S2.3.1对观测值Y_bos及已有插补值拟合，获得函数F₁；

5.根据权利要求1所述的改进插补方法的学生体能分数预测方法，其特征在于：所述数据D₁₁包括体能评估数据、健康数据，所述数据D₁₂、所述数据D₂₂包括课程数据、疾病数据，所述数据D₁₃、所述数据D₂₃包括饮食数据、运动数据、睡眠数据；所述第一时间段早于所述第二时间段。

6.根据权利要求2所述的改进插补方法的学生体能分数预测方法，其特征在于：所述数据D₁₁中的体能评估数据包括体能测试类型、各体能测试类型体能测试得分，健康数据包括学生年龄、BMI、代谢综合症分类、肥胖分类、近视、散光、配镜情况；所述数据D₁₂中的课程数据包括体育课次数、文化课次数、体育课分数、文化课平均分数；所述数据D₁₂中的疾病数据均包括是否患病、患病频率、患病严重程度、疾病类型、学生缺勤频率和缺勤天数；所述数据D₁₃中的饮食数据均包括平均每天摄入能量、学生所需能量，运动数据均包括平均每天运动量、运动时长、参加学校课间运动次数，睡眠数据均包括平均每天睡眠时长；所述数据D₂₂中的课程安排数据包括体育课次数、文化课次数；所述数据D₂₂中的疾病数据均包括是否患病、患病频率、患病严重程度、疾病类型、学生缺勤频率和缺勤天数；所述数据D₂₃中的饮食数据均包括平均每天摄入能量、学生所需能量，运动数据均包括平均每天运动量、运动时长、参加学校课间运动次数，睡眠数据均包括平均每天睡眠时长。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的改进插补方法的学生体能分数预测方法中的步骤。

8.一种改进插补方法的学生体能分数预测系统，其特征在于，所述系统包括一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1-6中任一方法的指令。