CN111414972A - 一种基于XGBoost的眼屈光矫正多源数据自动分类方法 - Google Patents

一种基于XGBoost的眼屈光矫正多源数据自动分类方法 Download PDF

Info

Publication number
CN111414972A
CN111414972A CN202010234736.0A CN202010234736A CN111414972A CN 111414972 A CN111414972 A CN 111414972A CN 202010234736 A CN202010234736 A CN 202010234736A CN 111414972 A CN111414972 A CN 111414972A
Authority
CN
China
Prior art keywords
data
training
xgboost
samples
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010234736.0A
Other languages
English (en)
Other versions
CN111414972B (zh
Inventor
王雁
马娇楠
孟祥冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010234736.0A priority Critical patent/CN111414972B/zh
Publication of CN111414972A publication Critical patent/CN111414972A/zh
Application granted granted Critical
Publication of CN111414972B publication Critical patent/CN111414972B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/40ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Urology & Nephrology (AREA)
  • Surgery (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Eye Examination Apparatus (AREA)

Abstract

本发明涉及一种基于XGBoost的眼屈光矫正多源数据自动分类方法,利用眼科医生的临床经验与统计策略相结合的方案,挑选出与眼屈光数据分类相关的属性特征作为训练所用的最原始的特征;基于筛选之后的数据,利用XGBoost算法按照其特征重要性进一步进行特征筛选,选取与目标最为相关的相关属性特征;基于选取的训练样本,考虑样本不均衡的问题给予每个样本以不同权重以及避免训练过拟合设置相应的早停函数,训练XGBoost模型用以对样本进行分类。本发明可有效提高基于多源数据分类的准确性,并在训练过程中不需要人工干预,缩短了训练时间,提高了训练效率。

Description

一种基于XGBoost的眼屈光矫正多源数据自动分类方法
技术领域
本发明属于机器学习算法应用于医学数据处理领域,涉及机器学习技术,尤其涉及一种利用基于XGBoost模型的集成学习方法对眼科的角膜屈光矫正多源数据进行自动分类的算法方案。
背景技术
近视已成为全世界导致视力损害的首要因素,不仅成为全球关注的焦点医学问题之一,也是一项重要社会问题。每年都有大量人群存在近视矫正的需求,因此需要寻求安全有效精准的矫正方法。目前角膜屈光手术是青年人群矫正近视的主要手段,中国每年接受屈光手术的人群已逾百万。角膜屈光手术包括多种手术方式,不同方式的选择是基于对多源临床数据分析后的分类,其对于屈光状态的诊断、屈光不正矫正方案的合理制定起着至关重要的作用。目前眼屈光矫正的多源数据主要包括患者的人口学资料、眼病史、眼屈光度数及角膜的形态学等,其存在多种来源、数据类型不统一、分类指征交叉、数据存在缺失值等特征,在传统的临床数据分析中,此工作往往依赖于医生的主观经验,导致角膜屈光手术的决策和选择上存在模糊性;此外,数据分类的有效性也受到患者个体差异及医生临床经验的不同的影响。因此,设计针对眼屈光矫正多源数据的自动分析分类算法是解决上述问题的最佳方式。
当前这些多源数据的分类是根据每种屈光矫正方式的临床特征进行传统的统计分析并结合医生经验进行的。传统的统计分析方案,能够分析单变量对于分类的影响,但是当多源多变量间存在耦合时,往往很难对变量进行拆分;另外,基于临床医生的数据分类又受到人为主观临床经验的影响,均会导致数据分类的错误。此外,传统的分类方案很难分析纳入潜在的影响因素,例如角膜生物力学特性相关数据并未被传统的分类方案考虑,而本发明的方案分析显示此数据对分类结果也有较大影响。
随着现在屈光矫正数据量的不断积累,以数据为驱动的机器学习技术,为眼屈光矫正多源数据分析分类提供了新的方向。因此本发明提供了一种高效、准确的基于XGBoost的眼屈光矫正多源数据的自动分类方法,能够自动分析多变量对分类的影响,并且可以允许数据中存在一定的数据缺失,由于模型训练过程将有效特征全部纳入进行训练分析,因此可同时分析发现潜在的重要特征。应用这一方案的难点在于:各数据类型的样本量严重不均衡,且数据类型包含字符、数字等各种类型需要进行统一;训练模型过程中earlystopping策略需采用临床上医生关心的指标进行衡量。
发明内容
本发明的目的在于克服现有技术的不足之处,提供一种基于XGBoost的机器学习模型对眼屈光矫正多源数据进行自动分类的方案,该自动分类方案能够应用于医学多源数据的自动分类,并为临床医生综合分析临床多源数据间的复杂关系提供了参考和辅助。
本发明解决技术问题所采用的技术方案是:
一种基于XGBoost的眼屈光多源数据自动分类方法,具体包含以下步骤:
步骤1:对原始数据进行预处理。包含数据的筛选、数值化、标签化以及训练集、测试集的划分等操作。
步骤2:根据医生的经验和统计策略挑选出与数据分类的属性特征作为训练所用的最原始的特征。
步骤3:基于筛选之后的数据,利用XGBoost进一步进行特征筛选,选取与目标最为相关的属性特征。
步骤4:基于选取的训练样本,训练XGBoost模型用以针对多源数据实现自动分类;
训练过程中根据样本的数量为样本设置不同的权重,以降低样本不均衡导致的误差,设计目标函数f(x)为:
Figure BDA0002430600940000021
式中,wi为样本权重,|Di|num为进行数据分类i的数量,其中|Dmax|num为数量最多的数据类别数量,f(x)为目标损失函数;xi为样本中的特征变量;yi为样本的数据分类结果,γ为模型中待优化参数,Q为训练样本总数,L为均方根误差。
训练过程中采用early stopping的策略防止训练过拟合,并利用AUC作为earlystopping的验证方案。
而且,训练XGBoost模型优选该模型的决策树。
而且,步骤4利用贝叶斯优化结合K折交叉验证的方案选取基于训练集的最优参数。
而且,挑选出的特征按重要性排序包含:S、Ss、RMS.LOA.CF、AC.Volume、IOP、Pupil、UDVA、AC.Depth、C、Ast7mm、HC.Deflection.Amp、Age、Peak.Dist、Z.3.-3(CF)、Z.4.0(CF)、A2.Deformation.Amp、Z.3.-3(Cornea)、Axs7mm、Ast9mm、A1.Deflection.Length、AC.Angle、Z.4.0(CB)、Ast3mm、A2.Deflection.Area、Z.3.-1(Cornea)、A、Z.3.-1(CF)、A1.Deflection.Amp、Cor.Vol、Sag11mm、dArcLengthMax、ISV、HC.Deflection.Length、Radius、Z.4.0(Cornea)、Axs9mm、A1.Deformation.Amp、Whole.Eye.Movement.Max、A2.Deflection.Length、RMS.HOA(CF)、Ast11mm、Pachy.Apex、HC.dArc.Length、PupilY、A1.Deflection.Area、A2.Velocity、RMS.LOA(Cornea)、PachyMinY、DA.Ratio.Max(2mm)、ARTh、Sag7mm、Axs3mm、A1.Time、Z.3.-3(CB)、Z.3.3(CB)、Z.3.-1(CB)、Pachy.Pupil。
而且,步骤1中样本特征选择上考虑了患者的病史、眼部屈光状态、角膜形态学参数,结合全面的角膜受力后的形变参数(代表角膜的生物力学特性)。
而且,步骤2、3中采用将医生经验、卡方检验以及基于XGBoost的特征重要性参数三者相结合的流程方案进行特征筛选。
而且,步骤2中采用以人为单位进行数据集划分,避免了训练集和测试集的数据耦合性。
而且,步骤4针对数据类别不均衡,采用不同类别的样本采用不同权重的损失函数。
而且,步骤4中采用样本加权的方案处理样本失衡的问题,并利用个性化(医学有益)损失函数作为早停(early stopping)标准提升模型训练准确率;模型训练完成后,与医生手动分类进行对比,验证了模型的高效性及准确性。
本发明根据临床多源数据特性进行了针对性地预处理,包含数据的筛选、数值化以及数据集的分割等;并针对数据类别的不均衡的特性采用了样本加权等措施;为了避免训练过程的过拟合,本发明除了调整参数,还采用了早停(early stopping)的方案进行模型训练,提供了一种更为高效的、准确的基于极值梯度提升模型(XGBoost)的眼屈光矫正数据自动分类的方法。
本发明的优点和积极效果是:
1、本发明针对眼屈光矫正数据类别不均衡,数据缺失等特点,利用基于集成学习的方案进行自动分类。样本特征选择上考虑了患者的病史、眼部屈光状态、角膜形态学参数,结合全面的角膜受力后的形变参数(代表角膜的生物力学特性)。
2、本发明采用以人为单位进行数据划分,避免了训练集和测试集的数据耦合性。采用样本加权的方案处理样本失衡的问题,并利用个性化(医学有益)损失函数作为早停(early stopping)标准提升模型训练准确率。
3、本发明利用了贝叶斯优化结合K折交叉验证的方案进行模型的参数优化,缩短了参数优化时间,并针对不同样本设置了不同的权重,使得小样本的类别仍然可以得到较好的拟合,提升了分类结果。
附图说明
图1为本发明所述的基于XGBoost模型实现眼屈光多源数据自动分类的方法流程图。
图2为本发明所述的数据特征筛选流程图。
图3为本发明所述的模型训练流程图。
具体实施方式
下面通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
一种基于XGBoost的眼屈光多源数据自动分类方法,具体包含以下步骤:
步骤1:对原始数据进行预处理。包含数据的筛选、数值化、标签化以及训练集、测试集的划分等操作。下面具体说明(步骤1.1-1.3):
步骤1.1对统计得到的数据进行数值化处理,并且清理异常数据。
步骤1.2对数据进行标准化处理以及归一化等尺度变换处理,其中屈光相关数据转换为LogMAR(国际标准对数视力)数据使其线性化。
步骤1.3将数据按照分布一致的原则,随机分为训练集和测试集两部分,其比例为4:1,其中分割过程中采用以人为单位进行数据分离,而不是以眼为单位。
步骤2:根据医生的经验和统计策略挑选出与数据分类相关的属性特征作为训练所用的最原始的特征。下面具体说明(步骤2.1-2.2):
步骤2.1:利用经验去除不相关的特征以及与预测目标相关的无用特征,
步骤2.2:利用卡方检验挑选出重要的特征,
挑选出的特征包含:
Age(年龄)、Sex(性别)、Eye(眼别)、UCVA(未矫正裸眼视力)、BCVA(最佳矫正视力)、S(球镜度)、C(柱镜度)、A(柱镜轴位)、Sc(散瞳后球镜度)、Cc(散瞳后柱镜度)、Ac(散瞳后柱镜轴位)、BCVAc(散瞳后最佳矫正视力)、IOP(眼压)、Kf(平轴曲率)、Ks(陡轴曲率)、Pupil(瞳孔直径)、Pupil.X(瞳孔相对于角膜顶点的x坐标)、Pupil.Y(瞳孔相对于角膜顶点的y坐标)、Pachy.Apex(角膜顶点处的角膜厚度)、Pachy.Pupil(瞳孔中心处的角膜厚度)、Pachy.Min(角膜最薄点厚度)、PachyMinX(角膜最薄点相对于角膜顶点的x坐标)、PachyMinY(角膜最薄点相对于角膜顶点的y坐标)、Cor.Vol.(角膜体积)、Sag3mm(角膜顶点3mm区域内的矢面曲率)、Sag5mm(角膜顶点5mm区域内的矢面曲率)、Sag7mm(角膜顶点7mm区域内的矢面曲率)、Sag9mm(角膜顶点9mm区域内的矢面曲率)、Sag11mm(角膜顶点11mm区域内的矢面曲率)、Sag13mm(角膜顶点13mm区域内的矢面曲率)、Ast3mm(角膜顶点3mm区域内的曲率绝对值)、Ast5mm(角膜顶点5mm区域内的曲率绝对值)、Ast7mm(角膜顶点7mm区域内的曲率绝对值)、Ast9mm(角膜顶点9mm区域内的曲率绝对值)、Ast11mm(角膜顶点11mm区域内的曲率绝对值)、Axs3mm(角膜顶点3mm区域内的曲率轴向)、Axs5mm(角膜顶点5mm区域内的曲率轴向)、Axs7mm(角膜顶点7mm区域内的曲率轴向)、Axs9mm(角膜顶点9mm区域内的曲率轴向)、Axs11mm(角膜顶点11mm区域内的曲率轴向)、AC.Depth(前房深度)、AC.Volume(前房体积)、AC.Angle(前房角)、IHA(高度不对称性指数)、IHD(高度离心指数)、ISV(表面变异指数)、IVA(垂直不对称指数)、RMS.CB(角膜后表面像差的均方根)、RMS.CF(角膜前表面像差的均方根)、RMS.Cornea(总角膜像差的均方根)、RMS.HOA.CB(角膜后表面高阶像差的均方根)、RMS.HOA.CF(角膜前表面高阶像差的均方根)、RMS.HOA.Cornea(总角膜高阶像差的均方根)、RMS.LOA.CB(角膜后表面低阶像差的均方根)、RMS.LOA.CF(角膜前表面低阶像差的均方根)、RMS.LOA.Cornea(总角膜低阶像差的均方根)、Z.3.3(CF)(角膜前表面水平三叶草像差)、Z.3.1(CF)(角膜前表面水平彗差)、Z.3.-1(CF)(角膜前表面垂直彗差)、Z.3.-3(CF)(角膜前表面垂直三叶草像差)、Z.4.0(CF)(角膜前表面球差)、Z.3.3(CB)(角膜后表面水平三叶草像差)、Z.3.1(CB)(角膜后表面水平彗差)、Z.3.-1(CB)(角膜后表面垂直彗差)、Z.3.-3(CB)(角膜后表面垂直三叶草像差)、Z.4.0(CB)(角膜后表面球差)、Z.3.3(Cornea)(总角膜水平三叶草像差)、Z.3.1(Cornea)(总角膜水平彗差)、Z.3.-1(Cornea)(总角膜垂直彗差)、Z.3.-3(Cornea)(总角膜垂直三叶草像差、Z.4.0(Cornea)(总角膜球差)、Def.Amp.Max(角膜最大形变幅度)、A1.Time(角膜第一次压平时间)、A1.Velocity(角膜第一次压平速度)、A2.Time(角膜第二次压平时间)、A2.Velocity(角膜第二次压平速度)、HC.Time(角膜最大压陷时间)、Peak.Dist.(角膜最大压陷时峰值距离)、Radius(角膜最大压陷时曲率半径)、A1.Deformation.Amp(角膜第一次压平时形变幅度)、HC.Deformation.Amp(角膜最大压陷时形变幅度)、A2.Deformation.Amp(角膜第二次压平时形变幅度)、A1.Deflection.Length(角膜第一次压平时偏移长度)、HC.Deflection.Length(角膜最大压陷时偏移长度)、A2.Deflection.Length(角膜第二次压平时偏移长度)、A1.Deflection.Amp(角膜第一次压平时偏移幅度)、HC.Deflection.Amp(角膜最大压陷时偏移幅度)、A2.Deflection.Amp(角膜第二次压平时偏移幅度)、Deflection.Amp.Max(角膜最大偏移幅度)、Whole.Eye.Movement.Max(眼球运动量最大值)、A1.Deflection.Area(角膜第一次压平时的偏移面积)、HC.Deflection.Area(角膜最大压陷时的偏移面积)、A2.Deflection.Area(角膜第二次压平时的偏移面积)、A1.dArc.Length(第一次压平时的角膜弧长)、HC.dArc.Length(最大压陷时的角膜弧长)、A2.dArc.Length(第二次压平时的角膜弧长)、dArcLengthMax(最大角膜弧长)、Max.InverseRadius(最大反向凹面半径)、DA.Ratio.Max(2mm)(顶点和2mm处之间的形变幅度比值)、DA.Ratio.Max(1mm)(顶点和1mm处之间的形变幅度比值)、ARTh(最薄点厚度与厚度变化率的比值)、bIOP(角膜生物力学矫正眼压)、Integrated.Radius(综合半径)、SPA1(第一次压平时的角膜硬度)、CBI(角膜生物力学指数);标签属性为:NONE(无方案)、SMILE(小切口角膜基质透镜取出术)、FS-LASIK(飞秒激光辅助的准分子激光原位角膜磨镶术)、LASEK(准分子激光上皮下角膜磨镶术)。
步骤3:基于筛选之后的数据,利用XGBoost进一步进行特征筛选,选取与目标最为相关的属性特征。下面具体说明(步骤3.1-3.3):
步骤3.1:利用训练数据训练XGBoost模型,根据训练得到的模型获取各个属性特征对于模型的重要性(信息增益),其计算如下:
Figure BDA0002430600940000061
式中,Gain为信息增益,GL为落入左叶子节点所有样本的一阶梯度统计值总和,GR为落入右叶子节点所有样本的一阶梯度统计值总和,HL为落入左叶子节点所有样本的二阶梯度统计值总和,HR为落入右叶子节点所有样本的二阶梯度统计值总和,γ、λ为可调参数。
步骤3.2:根据得到的重要性数据挑选出需要的参数。
步骤3.3:重复步骤3.1-3.2获取最优的特征。
挑选出的特征(按重要性排序)包含:
S、Ss、RMS.LOA.CF、AC.Volume、IOP、Pupil、UDVA、AC.Depth、C、Ast7mm、HC.Deflection.Amp、Age、Peak.Dist、Z.3.-3(CF)、Z.4.0(CF)、A2.Deformation.Amp、Z.3.-3(Cornea)、Axs7mm、Ast9mm、A1.Deflection.Length、AC.Angle、Z.4.0(CB)、Ast3mm、A2.Deflection.Area、Z.3.-1(Cornea)、A、Z.3.-1(CF)、A1.Deflection.Amp、Cor.Vol、Sag11mm、dArcLengthMax、ISV、HC.Deflection.Length、Radius、Z.4.0(Cornea)、Axs9mm、A1.Deformation.Amp、Whole.Eye.Movement.Max、A2.Deflection.Length、RMS.HOA(CF)、Ast11mm、Pachy.Apex、HC.dArc.Length、PupilY、A1.Deflection.Area、A2.Velocity、RMS.LOA(Cornea)、PachyMinY、DA.Ratio.Max(2mm)、ARTh、Sag7mm、Axs3mm、A1.Time、Z.3.-3(CB)、Z.3.3(CB)、Z.3.-1(CB)、Pachy.Pupil。
步骤4:基于最终选取的训练样本,训练得到用于自动数据分类的XGBoost模型,下面具体说明(步骤4.1-4.8)::
步骤4.1:设定模型的初始参数,并利用贝叶斯优化结合K折交叉验证的方案选取基于训练集的最优参数。
步骤4.2:输入训练样本,使用极值梯度提升模型(XGBoost)构建N棵决策树(GBtree),即极值梯度提升模型迭代次数设置为N;
Figure BDA0002430600940000071
Figure BDA0002430600940000081
步骤4.3:初始化模型,令Q为训练样本总数,L为均方根误差,y代表训练样本中需要预测的数据分类类型,x为训练样本的特征,即训练样本表示为
Figure BDA0002430600940000082
求得一个使得损失函数
Figure BDA0002430600940000083
最小的常量γ:
Figure BDA0002430600940000084
f(x)为目标损失函数;xi为样本中的特征变量;yi为样本的数据分类结果,γ为模型中待优化参数。
步骤4.4:依据初始化结果,令f1(xi)代表模型第一轮迭代的输出结果,
Figure BDA0002430600940000085
Figure BDA0002430600940000086
代表树的复杂度,
Figure BDA0002430600940000087
则第一轮迭代的损失函数可以写为:
Figure BDA0002430600940000088
β为可调参数,T为XGBoost决策树的叶子节点个数,ω为该决策树所有叶子节点对应的值。
步骤4.5:令α为模型学习率,遍历第一棵树的划分点,找到使得损失函数L1最小的划分方法,得到第一棵树并更新
Figure BDA0002430600940000089
Figure BDA00024306009400000810
步骤4.6:重复步骤4.4-步骤4.5,进行N轮迭代后,得到N棵决策树(gbtree),极值梯度提升模型(XGBoost)训练结束;
步骤4.7:训练过程中根据样本的数量为样本设置不同的权重,以降低样本不均衡导致的误差,即修改fm(x)为:
Figure BDA00024306009400000811
式中,m为0或1,wi为样本权重,|Di|num为进行数据分类i的数量,其中|Dmax|num为数量最多的数据类别的数量。f(x)为目标损失函数;xi为样本中的特征变量;yi为样本的数据分类结果,γ为模型中待优化参数。
步骤4.8:训练过程中采用early stopping的策略防止训练过拟合,并利用AUC(曲线下面积)作为early stopping的验证方案。
本发明实例中,首先筛选出新增病例的人口统计信息及人眼屈光信息等特征,并将其输入到训练好的基于XGBoost模型的分类器中,然后分类器模型输出类别标签,作为分类结果。
下面通过50例眼屈光多源数据的分类结果来说明通过本发明方法实现自动分类的准确性(其中特征中仅提供部分临床基本重要信息):
Figure BDA0002430600940000091
Figure BDA0002430600940000101
从上表可以看出,本发明所提出的方法可较为准确地针对眼多源屈光数据进行分类。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.一种基于XGBoost的眼屈光矫正多源数据自动分类方法,具体包含以下步骤:
步骤1:对原始数据进行预处理,包含数据的筛选、数值化、标签化以及训练集、测试集的划分操作;
步骤2:根据医生的经验和统计策略挑选出与眼屈光矫正数据分类相关的属性特征作为训练所用的最原始的特征;
步骤3:基于筛选之后的数据,利用XGBoost进一步进行特征筛选,选取与目标最为相关的属性特征;
步骤4:基于选取的训练样本,训练XGBoost模型对眼屈光数据进行分类,训练过程中根据样本的数量为样本设置不同的权重,以降低样本不均衡导致的误差,设计目标函数f(x)为:
Figure FDA0002430600930000011
式中,wi为样本权重,|Di|num为数据分类i的数量,其中|Dmax|num为数量最多的数据类别的数量,f(x)为目标损失函数;xi为样本中的特征变量;yi为样本的数据分类结果,γ为模型中待优化参数,Q为训练样本总数,L为均方根误差。
2.根据权利要求1所述的方法,其特征在于:训练过程中采用early stopping的策略防止训练过拟合,并利用AUC作为early stopping的验证方案。
3.根据权利要求1所述的方法,其特征在于:训练XGBoost模型选择该模型的决策树。
4.根据权利要求1所述的方法,其特征在于:步骤4利用贝叶斯优化结合K折交叉验证的方案选取基于训练集的最优参数。
5.根据权利要求1所述的方法,其特征在于:挑选出的特征按重要性排序包含:S、Ss、RMS.LOA.CF、AC.Volume、IOP、Pupil、UDVA、AC.Depth、C、Ast7mm、HC.Deflection.Amp、Age、Peak.Dist、Z.3.-3(CF)、Z.4.0(CF)、A2.Deformation.Amp、Z.3.-3(Cornea)、Axs7mm、Ast9mm、A1.Deflection.Length、AC.Angle、Z.4.0(CB)、Ast3mm、A2.Deflection.Area、Z.3.-1(Cornea)、A、Z.3.-1(CF)、A1.Deflection.Amp、Cor.Vol、Sag11mm、dArcLengthMax、ISV、HC.Deflection.Length、Radius、Z.4.0(Cornea)、Axs9mm、A1.Deformation.Amp、Whole.Eye.Movement.Max、A2.Deflection.Length、RMS.HOA(CF)、Ast11mm、Pachy.Apex、HC.dArc.Length、PupilY、A1.Deflection.Area、A2.Velocity、RMS.LOA(Cornea)、PachyMinY、DA.Ratio.Max(2mm)、ARTh、Sag7mm、Axs3mm、A1.Time、Z.3.-3(CB)、Z.3.3(CB)、Z.3.-1(CB)、Pachy.Pupil。
6.根据权利要求1所述的方法,其特征在于:步骤1中样本特征选择上考虑患者的病史、眼部屈光状态、角膜形态学参数,结合全面的角膜受力后的形变参数。
7.根据权利要求1所述的方法,其特征在于:步骤2、3中特征筛选的流程方案,首先根据根据医生经验和卡方检验进行特征初选,然后基于XGBoost的特征重要性参数进行更为精细的选择。
8.根据权利要求1所述的方法,其特征在于:步骤2中采用以人为单位进行数据集划分。
9.根据权利要求1所述的方法,其特征在于:步骤4不同类别的样本采用不同权重的损失函数。
10.根据权利要求1所述的方法,其特征在于:步骤4中采用样本加权的方案处理样本失衡的问题。
CN202010234736.0A 2020-03-30 2020-03-30 一种基于XGBoost的眼屈光矫正多源数据自动分类方法 Active CN111414972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010234736.0A CN111414972B (zh) 2020-03-30 2020-03-30 一种基于XGBoost的眼屈光矫正多源数据自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010234736.0A CN111414972B (zh) 2020-03-30 2020-03-30 一种基于XGBoost的眼屈光矫正多源数据自动分类方法

Publications (2)

Publication Number Publication Date
CN111414972A true CN111414972A (zh) 2020-07-14
CN111414972B CN111414972B (zh) 2023-09-05

Family

ID=71493381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010234736.0A Active CN111414972B (zh) 2020-03-30 2020-03-30 一种基于XGBoost的眼屈光矫正多源数据自动分类方法

Country Status (1)

Country Link
CN (1) CN111414972B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700863A (zh) * 2020-12-28 2021-04-23 天津市眼科医院 一种基于Scheimpflug眼前节形态的屈光度精准评估的方法和应用
CN113743498A (zh) * 2021-09-02 2021-12-03 美视(杭州)人工智能科技有限公司 一种角膜塑形镜验配okai解决方法
CN114639460A (zh) * 2022-05-16 2022-06-17 天津医科大学眼科医院 睫状肌麻痹需求预测及麻痹后屈光度屈光状态预测方法
CN116028870A (zh) * 2023-03-29 2023-04-28 京东方艺云(苏州)科技有限公司 一种数据检测的方法、装置、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050134799A1 (en) * 2003-03-28 2005-06-23 Thompson Keith P. Application of neuro-ocular wavefront data in vision correction
CN108335757A (zh) * 2018-02-05 2018-07-27 王雁 一种预测smile手术中屈光度调整值的方法
CN108469180A (zh) * 2018-04-09 2018-08-31 华北理工大学 基于大数据和机器学习的烧结终点预测系统的建立方法
CN108538389A (zh) * 2018-03-27 2018-09-14 北京鲸基数据科技有限公司 一种预测smile屈光手术中屈光度调整值的方法及系统
CN108551167A (zh) * 2018-04-25 2018-09-18 浙江大学 一种基于XGBoost算法的电力系统暂态稳定判别方法
CN109300548A (zh) * 2018-08-07 2019-02-01 季书帆 一种预测smile屈光手术中屈光度调整值的优化方法及系统
CN109948735A (zh) * 2019-04-02 2019-06-28 广东工业大学 一种多标签分类方法、系统、装置及存储介质
CN110232362A (zh) * 2019-06-18 2019-09-13 西安电子科技大学 基于卷积神经网络和多特征融合的舰船尺寸估计方法
CN110309813A (zh) * 2019-07-10 2019-10-08 南京行者易智能交通科技有限公司 一种基于深度学习的人眼状态检测的模型训练方法、检测方法、装置、移动端设备及服务器
CN110517219A (zh) * 2019-04-01 2019-11-29 刘泉 一种基于深度学习的角膜地形图判别方法及系统
CN110837921A (zh) * 2019-10-29 2020-02-25 西安建筑科技大学 基于梯度提升决策树混合模型的房地产价格预测研究方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050134799A1 (en) * 2003-03-28 2005-06-23 Thompson Keith P. Application of neuro-ocular wavefront data in vision correction
CN108335757A (zh) * 2018-02-05 2018-07-27 王雁 一种预测smile手术中屈光度调整值的方法
CN108538389A (zh) * 2018-03-27 2018-09-14 北京鲸基数据科技有限公司 一种预测smile屈光手术中屈光度调整值的方法及系统
CN108469180A (zh) * 2018-04-09 2018-08-31 华北理工大学 基于大数据和机器学习的烧结终点预测系统的建立方法
CN108551167A (zh) * 2018-04-25 2018-09-18 浙江大学 一种基于XGBoost算法的电力系统暂态稳定判别方法
CN109300548A (zh) * 2018-08-07 2019-02-01 季书帆 一种预测smile屈光手术中屈光度调整值的优化方法及系统
CN110517219A (zh) * 2019-04-01 2019-11-29 刘泉 一种基于深度学习的角膜地形图判别方法及系统
CN109948735A (zh) * 2019-04-02 2019-06-28 广东工业大学 一种多标签分类方法、系统、装置及存储介质
CN110232362A (zh) * 2019-06-18 2019-09-13 西安电子科技大学 基于卷积神经网络和多特征融合的舰船尺寸估计方法
CN110309813A (zh) * 2019-07-10 2019-10-08 南京行者易智能交通科技有限公司 一种基于深度学习的人眼状态检测的模型训练方法、检测方法、装置、移动端设备及服务器
CN110837921A (zh) * 2019-10-29 2020-02-25 西安建筑科技大学 基于梯度提升决策树混合模型的房地产价格预测研究方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
雷阳等 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700863A (zh) * 2020-12-28 2021-04-23 天津市眼科医院 一种基于Scheimpflug眼前节形态的屈光度精准评估的方法和应用
CN113743498A (zh) * 2021-09-02 2021-12-03 美视(杭州)人工智能科技有限公司 一种角膜塑形镜验配okai解决方法
CN114639460A (zh) * 2022-05-16 2022-06-17 天津医科大学眼科医院 睫状肌麻痹需求预测及麻痹后屈光度屈光状态预测方法
CN116028870A (zh) * 2023-03-29 2023-04-28 京东方艺云(苏州)科技有限公司 一种数据检测的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111414972B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN111414972A (zh) 一种基于XGBoost的眼屈光矫正多源数据自动分类方法
Hogarty et al. Current state and future prospects of artificial intelligence in ophthalmology: a review
Lavric et al. KeratoDetect: keratoconus detection algorithm using convolutional neural networks
CA2923648C (en) Correction values for iol power estimates
CN100337606C (zh) 预测性眼科矫正的系统和方法
JP5368259B2 (ja) 眼の収差を低減する眼レンズを得る方法
Huang et al. Glaucoma detection using adaptive neuro-fuzzy inference system
Valdés-Mas et al. A new approach based on Machine Learning for predicting corneal curvature (K1) and astigmatism in patients with keratoconus after intracorneal ring implantation
Sharif et al. An efficient intelligent analysis system for confocal corneal endothelium images
CN109036556B (zh) 一种基于机器学习诊断圆锥角膜病例的方法
Zhang et al. A novel deep learning method for nuclear cataract classification based on anterior segment optical coherence tomography images
CN112884729A (zh) 基于双模态深度学习的眼底疾病辅助诊断方法和装置
Paul et al. Octx: Ensembled deep learning model to detect retinal disorders
Soni et al. A novel approach for the early recognition of diabetic retinopathy using machine learning
Toutounchian et al. Detection of keratoconus and suspect keratoconus by machine vision
Sudha et al. Early Detection of Glaucoma Disease in Retinal Fundus Images Using Spatial FCM with Level Set Segmentation
Sheeba et al. Glaucoma detection using artificial neural network
Marin et al. Anterior segment optical coherence tomography (AS-OCT) image analysis methods and applications: A systematic review
Gupta et al. An efficient model for detection and classification of internal eye diseases using deep learning
Li et al. Class-Aware Attention Network for infectious keratitis diagnosis using corneal photographs
Liu et al. Development and validation to predict visual acuity and keratometry two years after corneal crosslinking with progressive keratoconus by machine learning
Marsolo et al. Spatial modeling and classification of corneal shape
CN108888407A (zh) 一种基于Softmax回归算法预测SMILE手术中屈光度调整值的方法
Pavani et al. Robust semantic segmentation of retinal fluids from SD-OCT images using FAM-U-Net
CN110458806A (zh) 一种眼部图片和属性信息的分析方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant