CN110993100A

CN110993100A - 一种青少年儿童近视预测系统的缺失值填补方法及使用该方法的系统

Info

Publication number: CN110993100A
Application number: CN201911075541.XA
Authority: CN
Inventors: 杨旭; 徐扬; 翟益松; 赵晋锋
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-04-10
Anticipated expiration: 2039-11-06
Also published as: CN110993100B

Abstract

一种青少年儿童近视预测系统的缺失值填补方法，包括：填补眼科数据中的非屈光度数据；筛选一年级屈光度数据样本和二年级屈光度未缺失的数据样本；将二年级屈光度作为要拟合的标签数据，从一年级屈光度数据中选取特征，得到特征子集；利用机器学习方法构建回归模型进行拟合；选取拟合效果最佳的机器学习模型；将二年级屈光度缺失的数据样本输入模型，用预测值进行填补得到二年级的完整屈光度数据；依此类推，利用当前年级的屈光度数据填补下一年级的屈光度数据，本发明还提供了一种使用该方法的青少年儿童近视预测系统以及管理平台，本发明方法的特点是引入GBRT对缺失数据进行填补，使得填补的结果更加接近真实的情况，可提升多年后的预测准确率。

Description

一种青少年儿童近视预测系统的缺失值填补方法及使用该方法的系统

技术领域

本发明属于数据挖掘和机器学习技术领域，特别涉及一种青少年儿童近视预测系统的缺失值填补方法及使用该方法的系统。

背景技术

青少年儿童近视预测是基于儿童眼科队列数据进行的数据分析，由于此数据是前瞻性人群队列数据，数据涉及儿童在小学时期的每一年的事例调查数据，实务中，除了小学一年级的数据较为完整外，其余各年级的数据都缺失比较严重，丧失了大量可用的数据信息，在队列数据方面，还未见有效的和完整的数据缺失值填补方法。而现有的医学数据研究中，大多采用均值，众数，多位数等数据填补方法，但是并不适用于儿童的眼部数据填补，因为屈光度数据是儿童散瞳后的视力检测数据，属于客观数据，使用常规方法进行填补没有实际意义，且效果也不够理想。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种青少年儿童近视预测系统的缺失值填补方法及使用该方法的系统，该填补方法的特点是引入机器学习中的渐进梯度回归树方法(GBRT)对缺失的屈光度数据进行填补，使得填补的结果更加接近真实的情况。基于该方法的预测系统，可大大提升多年后的预测准确率，弥补了数据缺失的缺陷。

为了实现上述目的，本发明采用的技术方案是：

一种青少年儿童近视预测系统的缺失值填补方法，包括：

步骤1、填补眼科数据中的非屈光度数据；

步骤2、筛选一年级屈光度数据样本和二年级屈光度未缺失的数据样本；

步骤3、将二年级屈光度作为要拟合的标签数据，从一年级屈光度数据中选取特征，得到特征子集；

步骤4、利用机器学习方法构建回归模型进行拟合；

步骤5、选取拟合效果最佳的机器学习模型；

步骤6、将二年级屈光度缺失的数据样本输入模型，用预测值进行填补得到二年级的完整屈光度数据；

步骤7、依此类推，利用当前年级的屈光度数据填补下一年级的屈光度数据。

所述步骤1中，非屈光度数据分为连续变量数据和分类变量数据，对于连续变量数据，使用中位数或平均数进行填补，对于分类变量数据，采用众数进行填补。

所述步骤2，所述一年级屈光度数据样本作为完整的基线数据，不需要填补。

所述步骤3，基于单因素和多因素分析方法进行数据相关分析，并进行特征选取，具体步骤如下：

(1)利用单因素分析方法计算每个特征和因变量的相关系数和p值；

(2)根据统计得到的p值，选取p值小于显著性水平的特征，构建初步的特征子集；

(3)根据单因素分析初步构建的特征子集，使用多元线性回归方法建立多因素回归模型，得到回归模型参数表；

(4)根据参数表中的p值统计量，再一次筛选出回归模型中具有显著统计学意义的特征，得到进一步筛选出的特征子集。

所述步骤4中，采用渐进梯度回归树方法(GBRT)构建模型进行拟合，具体方法如下：

(1)将数据集分为缺失数据集和非缺失数据集两部分，缺失数据集为需要填补的数据集，非缺失数据集为用于训练回归模型的数据集；

(2)设定非缺失数据集为D，将D按划分系数p和1-p的比例划分成训练集D_train和测试集D_test，划分系数p的取值范围为0-1；

(3)将训练集D_train中的数据输入，利用GBRT方法构建回归模型；

(4)使用测试集D_test测试回归模型，得到输出结果，计算REP(Square of R andError Proportion，拟合优度误差比)值，计算公式为：

其中R²为拟合优度，r为绝对误差率。

所述步骤5中，多次调整系数p，使用GBRT方法构建多个回归模型，选取拟合效果最佳的回归模型，具体步骤如下：

(1)调整系数p，使用GBRT方法再次构建回归模型，记录不同系数p下不同模型的REP值；

(2)挑选REP值最大的回归模型；

所述步骤6中，将二年级屈光度缺失的数据样本输入REP值最大的回归模型，得到预测结果，将其作为新值进行对缺失数据的填补，得到二年级的完整屈光度数据。

本发明还提供了一种使用所述缺失值填补方法的青少年儿童近视预测系统，包括：

特征选取模块，利用相关系数法选取所需的数据特征；

数据预处理模块，利用所述缺失值填补方法填补缺失数据，将填补完整后的数据降维并归一化，生成训练数据集和测试数据集；

模型构建模块，将数据特征输入模型，利用logistic模型对数据进行二分类。

所述特征选取模块采用基于单因素和多因素的特征选择方法选取所需的数据特征，所需的数据特征为在构建机器学习模型时，需要纳入与学习目标相关的特征，特征选取模块中所取的特征将参与模型构建模块中算法选择和参数调整的过程，数据预处理模块生成的训练数据集将用于模型构建模块中预测模型的建立，数据预处理模块生成的测试数据集将在模型构建模块中对模型预测结果进行评价，模型构建模块将数据输入SVM模型，调整模型参数，构建预测模型，输出结果，进行模型评价。

所述特征选取模块中所选取出来的特征用于对数据预处理模块中2-6年级屈光度数据的填补，所得的完整数据进行数据降维和归一化处理，该步骤将生成训练数据集，训练数据集参与到模型构建模块，最后得到完整的数据模型。

所述数据归一化处理采用最值归一化方法将所有数据映射0-1之间，计算公式如下：

x_max为样本数据中的最大值，x_min为样本数据中的最小值。

本发明还可提供一种相应的近视数据测试、传输、数据处理、预测、结果分发推送的健康管理平台。

与现有技术相比，本发明的有益效果是：

1、本发明中基于单因素和多因素的特征选择方法在单因素相关分析的基础上，再利用回归模型进行多因素分析，去除其中的混杂因素的影响，不仅能够减小计算量，更有利于选择出更好的特征子集，提高后续模型的学习效果。

2、与其他机器学习算法相比，渐进梯度回归树具有更好的拟合效果。

3、与传统数据填补方法相比，使用本发明中基于渐进梯度回归树(GBRT)的数据填补方法所得到的屈光度数据更加接近真实客观的情况。

附图说明

图1是本发明青少年儿童近视预测系统的实现示意图。

图2是本发明中基于单因素和多因素的特征选择方法流程示意图。

图3是本发明基于渐进梯度回归树(GBRT)方法的数据填补流程示意图。

图4是本发明不同系数下拟合优度误差比值示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

参照图1，为本发明青少年儿童近视预测系统的实现示意图，将机器学习方法和数据缺失值填补进行结合，其实现过程包括以下步骤：

S1、相关特征选取；

S2、数据预处理；

S3、模型构建。

具体而言，在获取眼科数据后，进行数据缺失值填补方法的步骤如下：

步骤1、填补眼科数据中的非屈光度数据。

进行填补的目的是为了不破坏数据的整体分布。非屈光度数据分为连续变量数据和分类变量数据，对于连续变量数据，使用中位数或平均数进行填补，比如近距离工作量，户外活动量等数据是根据整体的平均值来进行填补的，而像儿童自身的一些眼部数据，比如眼轴长度，角膜曲率，眼部晶体厚度等，采用中位数进行填补，避免极大和极小数据的影响。对于分类变量数据，一般采用众数进行填补。

填补后的数据将进行相关因素分析，分析各变量与屈光度数据之间是否呈现出线性关系、线性关系的强弱大小以及两者是正相关、负相关或者不相关。以便步骤3中进行基于单因素和多因素分析方法的数据相关分析，并进行特征选取。

步骤2、筛选一年级屈光度数据样本和二年级屈光度未缺失即屈光度数据完整的数据样本。其中一年级屈光度数据样本作为完整的基线数据，不需要填补。基线数据就是该研究实施时最开始搜集到的数据，是完整客观的。

步骤3、将二年级屈光度作为要拟合的标签数据，从一年级屈光度数据中选取特征，得到特征子集，以提高模型的学习效果，加快运算时间。具体地，参照图2，可基于单因素和多因素分析方法进行数据相关分析，并进行特征选取(即图1步骤S1中相关特征选取的具体方法)，详细步骤如下：

此处的特征是可能造成近视的影响因素，包括父母戴镜人数、男女性别、散瞳前眼睛屈光度、近距离调节反应能力、远距离调节反应能力、不戴镜右眼的远视力、中央角膜的厚度、前房深度、晶状体的厚度、近距离工作量、远距离户外活动量、眼轴的长度、左右眼角膜曲率、左右眼角膜曲率半径、瞳孔直径、脉搏、参加户外运动类兴趣班与否、参加课外辅导班与否、每周读书频率、近距离工作时是否使用台灯等多项影响因素。因变量则是是否近视。

上述的单因素分析，是考察每一个因素与近视之间的相关性，而不论是在医学研究，还是日常生活中，许多事情的发生和影响都是很多的因素在一起互相影响，一起发生作用才能产生的一种共同效果，所以需要用到多因素相关分析，即建立多因素回归模型。

(4)根据参数表中的p值统计量，可基于表1，再一次筛选出回归模型中具有显著统计学意义的特征，得到进一步筛选出的特征子集。

表1相关程度等级划分表

相关等级	系数绝对值范围
		极强相关	0.80-1.00
强相关	0.60-0.80
		中等程度相关	0.40-0.60
弱相关	0.20-0.40
		极弱相关或不相关	0.00-0.20

一般通过此表筛选具有显著统计学意义的特征，得到p值后，可由p值所在的范围确定此特征是否具有统计学意义，这也是统计学中常用的方法。

步骤4、利用机器学习方法构建回归模型进行拟合，具体地，可采用渐进梯度回归树方法(GBRT)，参照图3，步骤如下：

(1)将数据集(此处的数据集是特征选取之后得到的数据集，可以理解为所获取的特征子集)分为缺失数据集和非缺失数据集两部分，缺失数据集为需要填补的数据集，非缺失数据集为用于训练回归模型的数据集；

其中R²为拟合优度，r为绝对误差率。

REP指标的提出主要是为防止参与训练的数据训练出的模型拟合优度较高而实际预测值与测量值之间的偏差较大的问题，避免单一指标造成的片面性，使得预测结果既保证了小于给定的误差范围，又保证了回归模型的拟合效果。REP的值越大，则说明回归模型预测的整组数据的效果越好，反之则效果越差。

步骤5、多次调整系数p，使用GBRT方法构建多个回归模型，记录不同系数p下不同模型的REP值，选取拟合效果最佳的回归模型，具体步骤如下：

(2)挑选REP值最大的回归模型，即拟合效果最佳的机器学习模型。

调整系数p的目的是为了找到适合GBRT方法的最佳数据分布，系数p的取值视数据集的大小而定，若数据集数据量较大，此时p可以取到小数点后两位；若数据集数据量较小，p可取小数点后一位。这里数据集的数据量较小，所以p只取小数点后一位来训练新的模型。

步骤6、将二年级屈光度缺失的数据样本输入REP值最大的回归模型，得到预测结果，将其作为新值进行对缺失数据的填补，得到二年级的完整屈光度数据。

表2是部分屈光度数据填补前的形式。

表2

WEINO	RA_1	RA_2	RA_3	RA_4	RA_5	RA_6
							20101011	0.875	0.875		1	0.625	0.5
20101021	0.375	0.875	0.5	-0.875	-1.875	-3.25
							20101041	3.5	3.375	3.375	3.125	2.875	2.875
20101051	1.5	1.25	0.75	0.875	0.625	-0.25
							20101061	-1.125	-2.625	-3.875	-5.125	-5.625	-6.125
20101071	1.111397	-0.375	-0.375		-2.375	-3.875
							20101131	1.055416		-0.875	-2.25	-3.75	-4.125
20101141	0.875	0.875	0.875	1.375
							20101151	1.25	0.625	-0.125	-1.125	-1.875	-2.875
20101161	0.875	1.375	1	0.5	0.375	-0.375
							20101171	-0.625	-0.125	-0.125
20101181	0.383647	-0.25	-1.25	-2.375	-4.75
							20101191	-1.375	-1	-2.375	-3.875
20101201	1	1.25	0.875	0.25	0.5	0.5
							20101221	1.447281	1.625	1.75	1.375	1.25	1.375

表3是对表2部分屈光度数据填补后的形式。

表3

WEINO	RA_1	RA_2	RA_3	RA_4	RA_5	RA_6
							20101011	0.875	0.875	0.625	1	0.625	0.5
20101021	0.375	0.875	0.5	-0.875	-1.875	-3.25
							20101041	3.5	3.375	3.375	3.125	2.875	2.875
20101051	1.5	1.25	0.75	0.875	0.625	-0.25
							20101061	-1.125	-2.625	-3.875	-5.125	-5.625	-6.125
20101071	1.111397	-0.375	-0.375	-1.375	-2.375	-3.875
							20101131	1.055416	0.75	-0.875	-2.25	-3.75	-4.125
20101141	0.875	0.875	0.875	1.375	0.75	-0.125
							20101151	1.25	0.625	-0.125	-1.125	-1.875	-2.875
20101161	0.875	1.375	1	0.5	0.375	-0.375
							20101171	-0.625	-0.125	-0.125	-0.875	-1.5	-2.125
20101181	0.383647	-0.25	-1.25	-2.375	-4.75	-5
							20101191	-1.375	-1	-2.375	-3.875	-4.75	-5.5
20101201	1	1.25	0.875	0.25	0.5	0.5
							20101221	1.447281	1.625	1.75	1.375	1.25	1.375

表格中，RA_1至RA_6分别为一至六年级的屈光度数据，WEINO为编号。

由表2，表3中的部分屈光度数据可以看出，表2中所缺失的数据都在表3中得到了有效的填补，依据本发明中提供的缺失值填补方法，可使屈光度数据集中缺失的数据得到有效填补，填补后的可用样本数量得到了大幅提高。

填补方法应用结果分析：

以下内容通过实验验证基于GBRT填补方法的使用效果，使用1年级和2年级屈光度都未缺失的数据作为验证数据集，验证不同调整系数下的回归填补效果。具体参数值见表4，不同划分系数下各指标之间的大小变化见图4。

表4不同划分系数下的各参数值

从表3可以看出，当系数为0.8时，拟合优度最大，绝对误差率最小，回归模型的效果最好。图4显示了REP的趋势变化，其中当系数为0.8时，REP值最大，随着系数的减小，REP也呈下降的趋势，又因为此时的绝对误差。率最小，所以使用REP指标评判回归模型的拟合效果是有效的。

根据填补后的数据，进行下一年屈光度预测以及近视预测，结果证明：

1.对于预测下一年屈光度，误差在±0.5D范围内准确率从78％提高到85％，误差在±0.25D范围内准确率从51％提高到62％；

2.通过屈光度预测模型对样本进行填补相较于原始数据大约能增加35％的可用样本；

3.利用填补后的数据，预测五年内是否近视模型的准确率从76％提高到80％；

4.对于散瞳前后屈光度的预测，利用填补后的数据，并将其按照屈光度等级进行分类，分为正视，远视，高度远视以及近视四类，其中正视和远视两类模型的准确率分别提高到93％和91％(误差在±0.5D范围内)。

基于上述方法，本发明的青少年儿童近视预测系统，其特征在于，包括：

特征选取模块，利用相关系数法(即基于单因素和多因素的特征选择方法)选取所需的数据特征，所需的数据特征为在构建机器学习模型时，需要纳入与学习目标相关的特征；

特征选取模块中所取的特征将参与模型构建模块中算法选择和参数调整的过程。

数据预处理模块，利用所述缺失值填补方法填补缺失数据，将特征选取模块所取的特征对数据预处理模块中2-6年级屈光度数据的填补，所得的完整数据进行数据降维和归一化处理，生成训练数据集和测试数据集，此处生成的训练数据集和测试数据集用于模型构建模块中预测模型的建立，测试数据集将在模型构建模块中对模型预测结果进行评价。

x_max为样本数据中的最大值，x_min为样本数据中的最小值。

模型构建模块，将数据特征输入SVM模型，利用logistic模型对数据进行二分类，调整模型参数，构建预测模型，输出结果，进行模型评价。

进一步地，本发明可应用于青少年儿童近视管理平台，主要包括数据采集端、数据传输系统、数据处理端、接收端等，其中数据采集端采用视力测试仪，接收端可采用个人智能手机或者pc设备，数据处理端可采用计算机或者远程控制中心，相应地，数据传输系统为现场传输的数据线或者GPRS无线传输，数据处理端运行上述的缺失值填补方法，并在此基础上运行下一年屈光度预测以及近视预测算法，得出相应的结论，并推送至接收端。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种青少年儿童近视预测系统的缺失值填补方法，其特征在于，包括：

步骤1、填补眼科数据中的非屈光度数据；

步骤4、利用机器学习方法构建回归模型进行拟合；

步骤5、选取拟合效果最佳的机器学习模型；

2.根据权利要求1所述青少年儿童近视预测系统的缺失值填补方法，其特征在于，所述步骤1中，非屈光度数据分为连续变量数据和分类变量数据，对于连续变量数据，使用中位数或平均数进行填补，对于分类变量数据，采用众数进行填补。

3.根据权利要求1所述青少年儿童近视预测系统的缺失值填补方法，其特征在于，所述步骤2，所述一年级屈光度数据样本作为完整的基线数据，不需要填补。

4.根据权利要求1所述青少年儿童近视预测系统的缺失值填补方法，其特征在于，所述步骤3，基于单因素和多因素分析方法进行数据相关分析，并进行特征选取，具体步骤如下：

5.根据权利要求1所述青少年儿童近视预测系统的缺失值填补方法，其特征在于，所述步骤4中，采用渐进梯度回归树方法(GBRT)构建模型进行拟合，具体方法如下：

(4)使用测试集D_test测试回归模型，得到输出结果，计算REP(Square of R and ErrorProportion，拟合优度误差比)值，计算公式为：

其中R²为拟合优度，r为绝对误差率。

6.根据权利要求5所述青少年儿童近视预测系统的缺失值填补方法，其特征在于，所述步骤5中，多次调整系数p，使用GBRT方法构建多个回归模型，选取拟合效果最佳的回归模型，具体步骤如下：

(2)挑选REP值最大的回归模型；

7.一种使用权利要求1所述缺失值填补方法的青少年儿童近视预测系统，其特征在于，包括：

特征选取模块，利用相关系数法选取所需的数据特征；

8.根据权利要求7所述青少年儿童近视预测系统，其特征在于，所述特征选取模块采用基于单因素和多因素的特征选择方法选取所需的数据特征，所需的数据特征为在构建机器学习模型时，需要纳入与学习目标相关的特征，特征选取模块中所取的特征将参与模型构建模块中算法选择和参数调整的过程，数据预处理模块生成的训练数据集将用于模型构建模块中预测模型的建立，数据预处理模块生成的测试数据集将在模型构建模块中对模型预测结果进行评价，模型构建模块将数据输入SVM模型，调整模型参数，构建预测模型，输出结果，进行模型评价。

9.根据权利要求7所述青少年儿童近视预测系统，其特征在于，所述特征选取模块中所选取出来的特征用于对数据预处理模块中2-6年级屈光度数据的填补，所得的完整数据进行数据降维和归一化处理，该步骤将生成训练数据集，训练数据集参与到模型构建模块和迭代优化模块，最后得到完整的数据模型。

10.根据权利要求6所述青少年儿童近视预测系统，其特征在于，所述数据归一化处理采用最值归一化方法将所有数据映射0-1之间，计算公式如下：

x_max为样本数据中的最大值，x_min为样本数据中的最小值。