CN111414972A

CN111414972A - 一种基于XGBoost的眼屈光矫正多源数据自动分类方法

Info

Publication number: CN111414972A
Application number: CN202010234736.0A
Authority: CN
Inventors: 王雁; 马娇楠; 孟祥冰
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-14
Anticipated expiration: 2040-03-30
Also published as: CN111414972B

Abstract

本发明涉及一种基于XGBoost的眼屈光矫正多源数据自动分类方法，利用眼科医生的临床经验与统计策略相结合的方案，挑选出与眼屈光数据分类相关的属性特征作为训练所用的最原始的特征；基于筛选之后的数据，利用XGBoost算法按照其特征重要性进一步进行特征筛选，选取与目标最为相关的相关属性特征；基于选取的训练样本，考虑样本不均衡的问题给予每个样本以不同权重以及避免训练过拟合设置相应的早停函数，训练XGBoost模型用以对样本进行分类。本发明可有效提高基于多源数据分类的准确性，并在训练过程中不需要人工干预，缩短了训练时间，提高了训练效率。

Description

一种基于XGBoost的眼屈光矫正多源数据自动分类方法

技术领域

本发明属于机器学习算法应用于医学数据处理领域，涉及机器学习技术，尤其涉及一种利用基于XGBoost模型的集成学习方法对眼科的角膜屈光矫正多源数据进行自动分类的算法方案。

背景技术

近视已成为全世界导致视力损害的首要因素，不仅成为全球关注的焦点医学问题之一，也是一项重要社会问题。每年都有大量人群存在近视矫正的需求，因此需要寻求安全有效精准的矫正方法。目前角膜屈光手术是青年人群矫正近视的主要手段，中国每年接受屈光手术的人群已逾百万。角膜屈光手术包括多种手术方式，不同方式的选择是基于对多源临床数据分析后的分类，其对于屈光状态的诊断、屈光不正矫正方案的合理制定起着至关重要的作用。目前眼屈光矫正的多源数据主要包括患者的人口学资料、眼病史、眼屈光度数及角膜的形态学等，其存在多种来源、数据类型不统一、分类指征交叉、数据存在缺失值等特征，在传统的临床数据分析中，此工作往往依赖于医生的主观经验，导致角膜屈光手术的决策和选择上存在模糊性；此外，数据分类的有效性也受到患者个体差异及医生临床经验的不同的影响。因此，设计针对眼屈光矫正多源数据的自动分析分类算法是解决上述问题的最佳方式。

当前这些多源数据的分类是根据每种屈光矫正方式的临床特征进行传统的统计分析并结合医生经验进行的。传统的统计分析方案，能够分析单变量对于分类的影响，但是当多源多变量间存在耦合时，往往很难对变量进行拆分；另外，基于临床医生的数据分类又受到人为主观临床经验的影响，均会导致数据分类的错误。此外，传统的分类方案很难分析纳入潜在的影响因素，例如角膜生物力学特性相关数据并未被传统的分类方案考虑，而本发明的方案分析显示此数据对分类结果也有较大影响。

随着现在屈光矫正数据量的不断积累，以数据为驱动的机器学习技术，为眼屈光矫正多源数据分析分类提供了新的方向。因此本发明提供了一种高效、准确的基于XGBoost的眼屈光矫正多源数据的自动分类方法，能够自动分析多变量对分类的影响，并且可以允许数据中存在一定的数据缺失，由于模型训练过程将有效特征全部纳入进行训练分析，因此可同时分析发现潜在的重要特征。应用这一方案的难点在于：各数据类型的样本量严重不均衡，且数据类型包含字符、数字等各种类型需要进行统一；训练模型过程中earlystopping策略需采用临床上医生关心的指标进行衡量。

发明内容

本发明的目的在于克服现有技术的不足之处，提供一种基于XGBoost的机器学习模型对眼屈光矫正多源数据进行自动分类的方案，该自动分类方案能够应用于医学多源数据的自动分类，并为临床医生综合分析临床多源数据间的复杂关系提供了参考和辅助。

本发明解决技术问题所采用的技术方案是：

一种基于XGBoost的眼屈光多源数据自动分类方法，具体包含以下步骤：

步骤1：对原始数据进行预处理。包含数据的筛选、数值化、标签化以及训练集、测试集的划分等操作。

步骤2：根据医生的经验和统计策略挑选出与数据分类的属性特征作为训练所用的最原始的特征。

步骤3：基于筛选之后的数据，利用XGBoost进一步进行特征筛选，选取与目标最为相关的属性特征。

步骤4：基于选取的训练样本，训练XGBoost模型用以针对多源数据实现自动分类；

训练过程中根据样本的数量为样本设置不同的权重，以降低样本不均衡导致的误差，设计目标函数f(x)为：

式中，w_i为样本权重，|D_i|_num为进行数据分类i的数量，其中|D_max|_num为数量最多的数据类别数量，f(x)为目标损失函数；x_i为样本中的特征变量；y_i为样本的数据分类结果，γ为模型中待优化参数，Q为训练样本总数，L为均方根误差。

训练过程中采用early stopping的策略防止训练过拟合，并利用AUC作为earlystopping的验证方案。

而且，训练XGBoost模型优选该模型的决策树。

而且，步骤4利用贝叶斯优化结合K折交叉验证的方案选取基于训练集的最优参数。

而且，挑选出的特征按重要性排序包含：S、Ss、RMS.LOA.CF、AC.Volume、IOP、Pupil、UDVA、AC.Depth、C、Ast7mm、HC.Deflection.Amp、Age、Peak.Dist、Z.3.-3(CF)、Z.4.0(CF)、A2.Deformation.Amp、Z.3.-3(Cornea)、Axs7mm、Ast9mm、A1.Deflection.Length、AC.Angle、Z.4.0(CB)、Ast3mm、A2.Deflection.Area、Z.3.-1(Cornea)、A、Z.3.-1(CF)、A1.Deflection.Amp、Cor.Vol、Sag11mm、dArcLengthMax、ISV、HC.Deflection.Length、Radius、Z.4.0(Cornea)、Axs9mm、A1.Deformation.Amp、Whole.Eye.Movement.Max、A2.Deflection.Length、RMS.HOA(CF)、Ast11mm、Pachy.Apex、HC.dArc.Length、PupilY、A1.Deflection.Area、A2.Velocity、RMS.LOA(Cornea)、PachyMinY、DA.Ratio.Max(2mm)、ARTh、Sag7mm、Axs3mm、A1.Time、Z.3.-3(CB)、Z.3.3(CB)、Z.3.-1(CB)、Pachy.Pupil。

而且，步骤1中样本特征选择上考虑了患者的病史、眼部屈光状态、角膜形态学参数，结合全面的角膜受力后的形变参数(代表角膜的生物力学特性)。

而且，步骤2、3中采用将医生经验、卡方检验以及基于XGBoost的特征重要性参数三者相结合的流程方案进行特征筛选。

而且，步骤2中采用以人为单位进行数据集划分，避免了训练集和测试集的数据耦合性。

而且，步骤4针对数据类别不均衡，采用不同类别的样本采用不同权重的损失函数。

而且，步骤4中采用样本加权的方案处理样本失衡的问题，并利用个性化(医学有益)损失函数作为早停(early stopping)标准提升模型训练准确率；模型训练完成后，与医生手动分类进行对比，验证了模型的高效性及准确性。

本发明根据临床多源数据特性进行了针对性地预处理，包含数据的筛选、数值化以及数据集的分割等；并针对数据类别的不均衡的特性采用了样本加权等措施；为了避免训练过程的过拟合，本发明除了调整参数，还采用了早停(early stopping)的方案进行模型训练，提供了一种更为高效的、准确的基于极值梯度提升模型(XGBoost)的眼屈光矫正数据自动分类的方法。

本发明的优点和积极效果是：

1、本发明针对眼屈光矫正数据类别不均衡，数据缺失等特点，利用基于集成学习的方案进行自动分类。样本特征选择上考虑了患者的病史、眼部屈光状态、角膜形态学参数，结合全面的角膜受力后的形变参数(代表角膜的生物力学特性)。

2、本发明采用以人为单位进行数据划分，避免了训练集和测试集的数据耦合性。采用样本加权的方案处理样本失衡的问题，并利用个性化(医学有益)损失函数作为早停(early stopping)标准提升模型训练准确率。

3、本发明利用了贝叶斯优化结合K折交叉验证的方案进行模型的参数优化，缩短了参数优化时间，并针对不同样本设置了不同的权重，使得小样本的类别仍然可以得到较好的拟合，提升了分类结果。

附图说明

图1为本发明所述的基于XGBoost模型实现眼屈光多源数据自动分类的方法流程图。

图2为本发明所述的数据特征筛选流程图。

图3为本发明所述的模型训练流程图。

具体实施方式

下面通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

步骤1：对原始数据进行预处理。包含数据的筛选、数值化、标签化以及训练集、测试集的划分等操作。下面具体说明(步骤1.1-1.3)：

步骤1.1对统计得到的数据进行数值化处理，并且清理异常数据。

步骤1.2对数据进行标准化处理以及归一化等尺度变换处理，其中屈光相关数据转换为LogMAR(国际标准对数视力)数据使其线性化。

步骤1.3将数据按照分布一致的原则，随机分为训练集和测试集两部分，其比例为4:1，其中分割过程中采用以人为单位进行数据分离，而不是以眼为单位。

步骤2：根据医生的经验和统计策略挑选出与数据分类相关的属性特征作为训练所用的最原始的特征。下面具体说明(步骤2.1-2.2)：

步骤2.1：利用经验去除不相关的特征以及与预测目标相关的无用特征，

步骤2.2：利用卡方检验挑选出重要的特征，

挑选出的特征包含：

Age(年龄)、Sex(性别)、Eye(眼别)、UCVA(未矫正裸眼视力)、BCVA(最佳矫正视力)、S(球镜度)、C(柱镜度)、A(柱镜轴位)、Sc(散瞳后球镜度)、Cc(散瞳后柱镜度)、Ac(散瞳后柱镜轴位)、BCVAc(散瞳后最佳矫正视力)、IOP(眼压)、Kf(平轴曲率)、Ks(陡轴曲率)、Pupil(瞳孔直径)、Pupil.X(瞳孔相对于角膜顶点的x坐标)、Pupil.Y(瞳孔相对于角膜顶点的y坐标)、Pachy.Apex(角膜顶点处的角膜厚度)、Pachy.Pupil(瞳孔中心处的角膜厚度)、Pachy.Min(角膜最薄点厚度)、PachyMinX(角膜最薄点相对于角膜顶点的x坐标)、PachyMinY(角膜最薄点相对于角膜顶点的y坐标)、Cor.Vol.(角膜体积)、Sag3mm(角膜顶点3mm区域内的矢面曲率)、Sag5mm(角膜顶点5mm区域内的矢面曲率)、Sag7mm(角膜顶点7mm区域内的矢面曲率)、Sag9mm(角膜顶点9mm区域内的矢面曲率)、Sag11mm(角膜顶点11mm区域内的矢面曲率)、Sag13mm(角膜顶点13mm区域内的矢面曲率)、Ast3mm(角膜顶点3mm区域内的曲率绝对值)、Ast5mm(角膜顶点5mm区域内的曲率绝对值)、Ast7mm(角膜顶点7mm区域内的曲率绝对值)、Ast9mm(角膜顶点9mm区域内的曲率绝对值)、Ast11mm(角膜顶点11mm区域内的曲率绝对值)、Axs3mm(角膜顶点3mm区域内的曲率轴向)、Axs5mm(角膜顶点5mm区域内的曲率轴向)、Axs7mm(角膜顶点7mm区域内的曲率轴向)、Axs9mm(角膜顶点9mm区域内的曲率轴向)、Axs11mm(角膜顶点11mm区域内的曲率轴向)、AC.Depth(前房深度)、AC.Volume(前房体积)、AC.Angle(前房角)、IHA(高度不对称性指数)、IHD(高度离心指数)、ISV(表面变异指数)、IVA(垂直不对称指数)、RMS.CB(角膜后表面像差的均方根)、RMS.CF(角膜前表面像差的均方根)、RMS.Cornea(总角膜像差的均方根)、RMS.HOA.CB(角膜后表面高阶像差的均方根)、RMS.HOA.CF(角膜前表面高阶像差的均方根)、RMS.HOA.Cornea(总角膜高阶像差的均方根)、RMS.LOA.CB(角膜后表面低阶像差的均方根)、RMS.LOA.CF(角膜前表面低阶像差的均方根)、RMS.LOA.Cornea(总角膜低阶像差的均方根)、Z.3.3(CF)(角膜前表面水平三叶草像差)、Z.3.1(CF)(角膜前表面水平彗差)、Z.3.-1(CF)(角膜前表面垂直彗差)、Z.3.-3(CF)(角膜前表面垂直三叶草像差)、Z.4.0(CF)(角膜前表面球差)、Z.3.3(CB)(角膜后表面水平三叶草像差)、Z.3.1(CB)(角膜后表面水平彗差)、Z.3.-1(CB)(角膜后表面垂直彗差)、Z.3.-3(CB)(角膜后表面垂直三叶草像差)、Z.4.0(CB)(角膜后表面球差)、Z.3.3(Cornea)(总角膜水平三叶草像差)、Z.3.1(Cornea)(总角膜水平彗差)、Z.3.-1(Cornea)(总角膜垂直彗差)、Z.3.-3(Cornea)(总角膜垂直三叶草像差、Z.4.0(Cornea)(总角膜球差)、Def.Amp.Max(角膜最大形变幅度)、A1.Time(角膜第一次压平时间)、A1.Velocity(角膜第一次压平速度)、A2.Time(角膜第二次压平时间)、A2.Velocity(角膜第二次压平速度)、HC.Time(角膜最大压陷时间)、Peak.Dist.(角膜最大压陷时峰值距离)、Radius(角膜最大压陷时曲率半径)、A1.Deformation.Amp(角膜第一次压平时形变幅度)、HC.Deformation.Amp(角膜最大压陷时形变幅度)、A2.Deformation.Amp(角膜第二次压平时形变幅度)、A1.Deflection.Length(角膜第一次压平时偏移长度)、HC.Deflection.Length(角膜最大压陷时偏移长度)、A2.Deflection.Length(角膜第二次压平时偏移长度)、A1.Deflection.Amp(角膜第一次压平时偏移幅度)、HC.Deflection.Amp(角膜最大压陷时偏移幅度)、A2.Deflection.Amp(角膜第二次压平时偏移幅度)、Deflection.Amp.Max(角膜最大偏移幅度)、Whole.Eye.Movement.Max(眼球运动量最大值)、A1.Deflection.Area(角膜第一次压平时的偏移面积)、HC.Deflection.Area(角膜最大压陷时的偏移面积)、A2.Deflection.Area(角膜第二次压平时的偏移面积)、A1.dArc.Length(第一次压平时的角膜弧长)、HC.dArc.Length(最大压陷时的角膜弧长)、A2.dArc.Length(第二次压平时的角膜弧长)、dArcLengthMax(最大角膜弧长)、Max.InverseRadius(最大反向凹面半径)、DA.Ratio.Max(2mm)(顶点和2mm处之间的形变幅度比值)、DA.Ratio.Max(1mm)(顶点和1mm处之间的形变幅度比值)、ARTh(最薄点厚度与厚度变化率的比值)、bIOP(角膜生物力学矫正眼压)、Integrated.Radius(综合半径)、SPA1(第一次压平时的角膜硬度)、CBI(角膜生物力学指数)；标签属性为：NONE(无方案)、SMILE(小切口角膜基质透镜取出术)、FS-LASIK(飞秒激光辅助的准分子激光原位角膜磨镶术)、LASEK(准分子激光上皮下角膜磨镶术)。

步骤3：基于筛选之后的数据，利用XGBoost进一步进行特征筛选，选取与目标最为相关的属性特征。下面具体说明(步骤3.1-3.3)：

步骤3.1：利用训练数据训练XGBoost模型，根据训练得到的模型获取各个属性特征对于模型的重要性(信息增益)，其计算如下:

式中，Gain为信息增益，G_L为落入左叶子节点所有样本的一阶梯度统计值总和，G_R为落入右叶子节点所有样本的一阶梯度统计值总和，H_L为落入左叶子节点所有样本的二阶梯度统计值总和，H_R为落入右叶子节点所有样本的二阶梯度统计值总和，γ、λ为可调参数。

步骤3.2：根据得到的重要性数据挑选出需要的参数。

步骤3.3：重复步骤3.1-3.2获取最优的特征。

挑选出的特征(按重要性排序)包含：

S、Ss、RMS.LOA.CF、AC.Volume、IOP、Pupil、UDVA、AC.Depth、C、Ast7mm、HC.Deflection.Amp、Age、Peak.Dist、Z.3.-3(CF)、Z.4.0(CF)、A2.Deformation.Amp、Z.3.-3(Cornea)、Axs7mm、Ast9mm、A1.Deflection.Length、AC.Angle、Z.4.0(CB)、Ast3mm、A2.Deflection.Area、Z.3.-1(Cornea)、A、Z.3.-1(CF)、A1.Deflection.Amp、Cor.Vol、Sag11mm、dArcLengthMax、ISV、HC.Deflection.Length、Radius、Z.4.0(Cornea)、Axs9mm、A1.Deformation.Amp、Whole.Eye.Movement.Max、A2.Deflection.Length、RMS.HOA(CF)、Ast11mm、Pachy.Apex、HC.dArc.Length、PupilY、A1.Deflection.Area、A2.Velocity、RMS.LOA(Cornea)、PachyMinY、DA.Ratio.Max(2mm)、ARTh、Sag7mm、Axs3mm、A1.Time、Z.3.-3(CB)、Z.3.3(CB)、Z.3.-1(CB)、Pachy.Pupil。

步骤4：基于最终选取的训练样本，训练得到用于自动数据分类的XGBoost模型，下面具体说明(步骤4.1-4.8)：：

步骤4.1：设定模型的初始参数，并利用贝叶斯优化结合K折交叉验证的方案选取基于训练集的最优参数。

步骤4.2：输入训练样本，使用极值梯度提升模型(XGBoost)构建N棵决策树(GBtree)，即极值梯度提升模型迭代次数设置为N；

步骤4.3：初始化模型，令Q为训练样本总数，L为均方根误差，y代表训练样本中需要预测的数据分类类型，x为训练样本的特征，即训练样本表示为

求得一个使得损失函数

最小的常量γ：

f(x)为目标损失函数；x_i为样本中的特征变量；y_i为样本的数据分类结果，γ为模型中待优化参数。

步骤4.4：依据初始化结果，令f₁(x_i)代表模型第一轮迭代的输出结果，

代表树的复杂度，

则第一轮迭代的损失函数可以写为：

β为可调参数，T为XGBoost决策树的叶子节点个数，ω为该决策树所有叶子节点对应的值。

步骤4.5：令α为模型学习率，遍历第一棵树的划分点，找到使得损失函数L¹最小的划分方法，得到第一棵树并更新

步骤4.6：重复步骤4.4-步骤4.5，进行N轮迭代后，得到N棵决策树(gbtree)，极值梯度提升模型(XGBoost)训练结束；

步骤4.7：训练过程中根据样本的数量为样本设置不同的权重，以降低样本不均衡导致的误差，即修改f_m(x)为：

式中，m为0或1，w_i为样本权重，|D_i|_num为进行数据分类i的数量，其中|D_max|_num为数量最多的数据类别的数量。f(x)为目标损失函数；x_i为样本中的特征变量；y_i为样本的数据分类结果，γ为模型中待优化参数。

步骤4.8：训练过程中采用early stopping的策略防止训练过拟合，并利用AUC(曲线下面积)作为early stopping的验证方案。

本发明实例中，首先筛选出新增病例的人口统计信息及人眼屈光信息等特征，并将其输入到训练好的基于XGBoost模型的分类器中，然后分类器模型输出类别标签，作为分类结果。

下面通过50例眼屈光多源数据的分类结果来说明通过本发明方法实现自动分类的准确性(其中特征中仅提供部分临床基本重要信息)：

从上表可以看出，本发明所提出的方法可较为准确地针对眼多源屈光数据进行分类。

以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于XGBoost的眼屈光矫正多源数据自动分类方法，具体包含以下步骤：

步骤1：对原始数据进行预处理，包含数据的筛选、数值化、标签化以及训练集、测试集的划分操作；

步骤2：根据医生的经验和统计策略挑选出与眼屈光矫正数据分类相关的属性特征作为训练所用的最原始的特征；

步骤3：基于筛选之后的数据，利用XGBoost进一步进行特征筛选，选取与目标最为相关的属性特征；

步骤4：基于选取的训练样本，训练XGBoost模型对眼屈光数据进行分类，训练过程中根据样本的数量为样本设置不同的权重，以降低样本不均衡导致的误差，设计目标函数f(x)为：

式中，w_i为样本权重，|D_i|_num为数据分类i的数量，其中|D_max|_num为数量最多的数据类别的数量，f(x)为目标损失函数；x_i为样本中的特征变量；y_i为样本的数据分类结果，γ为模型中待优化参数，Q为训练样本总数，L为均方根误差。

2.根据权利要求1所述的方法，其特征在于：训练过程中采用early stopping的策略防止训练过拟合，并利用AUC作为early stopping的验证方案。

3.根据权利要求1所述的方法，其特征在于：训练XGBoost模型选择该模型的决策树。

4.根据权利要求1所述的方法，其特征在于：步骤4利用贝叶斯优化结合K折交叉验证的方案选取基于训练集的最优参数。

5.根据权利要求1所述的方法，其特征在于：挑选出的特征按重要性排序包含：S、Ss、RMS.LOA.CF、AC.Volume、IOP、Pupil、UDVA、AC.Depth、C、Ast7mm、HC.Deflection.Amp、Age、Peak.Dist、Z.3.-3(CF)、Z.4.0(CF)、A2.Deformation.Amp、Z.3.-3(Cornea)、Axs7mm、Ast9mm、A1.Deflection.Length、AC.Angle、Z.4.0(CB)、Ast3mm、A2.Deflection.Area、Z.3.-1(Cornea)、A、Z.3.-1(CF)、A1.Deflection.Amp、Cor.Vol、Sag11mm、dArcLengthMax、ISV、HC.Deflection.Length、Radius、Z.4.0(Cornea)、Axs9mm、A1.Deformation.Amp、Whole.Eye.Movement.Max、A2.Deflection.Length、RMS.HOA(CF)、Ast11mm、Pachy.Apex、HC.dArc.Length、PupilY、A1.Deflection.Area、A2.Velocity、RMS.LOA(Cornea)、PachyMinY、DA.Ratio.Max(2mm)、ARTh、Sag7mm、Axs3mm、A1.Time、Z.3.-3(CB)、Z.3.3(CB)、Z.3.-1(CB)、Pachy.Pupil。

6.根据权利要求1所述的方法，其特征在于：步骤1中样本特征选择上考虑患者的病史、眼部屈光状态、角膜形态学参数，结合全面的角膜受力后的形变参数。

7.根据权利要求1所述的方法，其特征在于：步骤2、3中特征筛选的流程方案，首先根据根据医生经验和卡方检验进行特征初选，然后基于XGBoost的特征重要性参数进行更为精细的选择。

8.根据权利要求1所述的方法，其特征在于：步骤2中采用以人为单位进行数据集划分。

9.根据权利要求1所述的方法，其特征在于：步骤4不同类别的样本采用不同权重的损失函数。

10.根据权利要求1所述的方法，其特征在于：步骤4中采用样本加权的方案处理样本失衡的问题。