CN117612703A

CN117612703A - 一种基于医学检验指标的糖尿病视网膜病变分类方法

Info

Publication number: CN117612703A
Application number: CN202311579700.6A
Authority: CN
Inventors: 吴以凡; 王斌; 张桦; 许艳萍; 张灵均
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2024-02-27

Abstract

本发明公开了一种基于医学检验指标的糖尿病视网膜病变分类方法，包括如下步骤：S1、患者数据采集和预处理：从医学机构的数据库中获取与糖尿病视网膜病变有关的患者的电子病历和化验报告，从电子病历和化验报告中提取DR相关的检验指标；S2、遍历所有患者及其检验指标，使用基于检验指标间隔的相似度计算方法，得到所有患者之间的检验指标相似度权重，构建三元组<患者，患者，权重>，进而构建无向加权图G。S3、构建两层GCN的多分类预测模型，输入S2中患者群体图G的特征矩阵H与邻接矩阵A，对分类预测模型进行训练；S4、在实际应用中，输入一名待分类患者的电子病历信息和检验指标数据到S3中训练好的GCN模型，可得到患者DR分类情况概率。

Description

一种基于医学检验指标的糖尿病视网膜病变分类方法

技术领域

本发明涉及医学数据处理、辅助诊断技术领域，具体指一种基于医学检验指标的糖尿病视网膜病变分类方法。

背景技术

随着糖尿病患者病程的延长，糖尿病视网膜病变(Diabetic Retinopathy，DR)的患病率逐年增加，致盲率也逐年升高。同时DR患者也是其他眼部疾病早发的高危人群，包括白内障、青光眼、视网膜血管阻塞及缺血性视神经病变等。目前绝大多数采用眼部检查的方式进行DR筛查和诊断，主要包括视力、眼压、房角、虹膜、晶体和眼底检查等。近年来国产眼科检查设备的普及已大幅度降低检查费用，有望在不远的未来实现早预防、早诊断、早治疗。但是由于糖尿病患者基数庞大且覆盖城市、地区和年龄段较广，各级医院或医疗机构普及眼科检查设备存在相当程度的困难，同时对于行为不便的患者也存在客观的就诊难度。

随着诊断需求的增长，在线诊断逐渐成为医疗信息系统研究的新方向。目前现有的DR在线诊断绝大部分是结合眼底医学影像、基于卷积神经网络的图像识别应用，可以达到接近100％的准确度。医生可以借助这一应用，大大提高诊断准确性，提高效率。但仅基于眼底医学影像的诊断往往已是DR一期后才有机会应用，此时患者已有较为明显的症状和影像异常，并且患者的生活质量已被明显地影响。因此在眼底影像还未有明显异常时进行识别、预防显得更为重要，具有科学价值、社会价值、经济价值和对患者的人文关怀价值。

为了实现DR的预防性诊断，近年来医学界开始对医学检验指标的变化与DR预测和确诊关系的研究，已有成果表明糖尿病患者检验指标与DR形成存在联系。针对检验指标的DR预测，大多数方法采用的是机器学习算法，例如决策树、支持向量机、随机森林等。这些方法使用简单、性能要求较低，可以解决数据的分类、分割和预测等问题。但是，由于检验指标具有数据波动大、种类繁多、影响因素多等特点，模型对检验指标的数据特征的学习能力不足，无法达到较高的准确率，这也是上述DR预测方法可行性不足的关键原因。

因此，急需提供一个模型面对症状复杂、病因复杂、概念之间关系复杂的糖尿病视网膜病变领域，能够从糖尿病患者的检验指标中有效地学习患者群体特征，在未有明显的症状和影像异常的情况下就能准确的给出糖尿病视网膜病变分类结果，从而为患者实现提前预防，及时治疗奠定了基础。

发明内容

本发明的目的是，针对现有技术的不足提出一种基于医学检验指标的糖尿病视网膜病变分类方法，应用到实际医学数据库中，从而扩展了糖尿病视网膜病变的分类方式，提高分类结果的准确率，结合分类结果并可根据患者检验指标给出预测建议。

为了解决上述技术问题，本发明的技术方案为：

一种基于医学检验指标的糖尿病视网膜病变分类方法，包括如下步骤：

步骤1患者数据采集和预处理

从合作医学机构的数据库中获取与糖尿病视网膜病变(Diabetic Retinopathy，下称DR)有关的患者的电子病历和化验报告，从电子病历和化验报告中提取与DR相关的检验指标集合，汇总为表格形式数据集，并进行数据预处理。

优选地，步骤1中，所获取患者分为三类，包括：患有糖尿病未患DR、患有糖尿病且患有非增殖性DR、患有糖尿病且患有增殖性DR。

优选地，步骤1中，对所述患者数据集进行数据清洗和预处理，包括以下步骤：

当该列空值数据类型是布尔类型时，使用特殊符号填充；

当该列空值数据类型是数值类型时，采用该列数据的平均值进行填充；

当该列数据包含文字信息，但数据类型是数值或布尔类型时，根据文字信息含义进行人工填充，若不能分析文字信息含义，则采用特殊符号或平均值填充方法(根据数据类型决定)；

当该列缺失数据占比大于等于20％时，将该列数据移出数据集；

当该列数据是带有>、<等符号的范围数据时，采用>、<等符号后的数值作为该列数值；

当该列数据是如患者姓名、身份证号码、手机号码、病历号等带有个人隐私信息的数据时，应将该列数据移出数据集。

优选地，在步骤1中，患者数据除标签列和患者唯一识别号之外，需要对所有特征值进行向量化、标准化，用以输入图神经网络进行计算，提高模型训练效率。

优选地，将所构建数据集按照6:2:2的比例划分为训练集、验证集、测试集。

步骤2基于检验指标相似度的患者群体构建

患者群体在本发明中指患有相同DR类型的患者的群体，群体的划分依据是患者间是否具有相似的检验指标。患者群体的表现方式具体是构建患者群体图G＝(U,V)。其中G是无向加权图，包括u名患者节点，v条加权边。其中，患者节点包含数据集中所有检验指标的向量化表示，患者节点的加权边代表其与另一名患者存在相似的检验指标，权重值代表两个患者相似的检验指标数量。

使用基于检验指标间隔的相似度计算方法得到所有患者之间的检验指标相似度权重，构建三元组<患者，患者，权重>；以患者为节点，向量化后的患者检验指标作为节点属性，以<患者，患者，权重>三元组列表所表示的患者间检验指标相似度权重为加权边，构建无向加权图，即患者群体图G。

步骤3构建图卷积神经网络进行训练

图卷积神经网络(Graph Convolutional Network，GCN)是一种多层神经网络架构，可以从图结构数据中学习节点低维表示。GCN利用卷积层进行特征传递，每一层处理一阶邻域数据，通过叠加若干卷积层以重复处理多阶邻域数据。

使用步骤1-2所构建数据集和图G得到患者节点特征矩阵H∈R^N×M和邻接矩阵A∈R^N ^×N，其中N表示训练数据的数量，M表示特征维度，H中行表示一名患者，列表示该名患者的检验指标，A描述患者节点之间邻接关系，行和列均表示患者，若A_i,j为0，表示患者i与患者j不存在相似关系，若不为0，则表示患者i与患者j存在相似关系，且相似度权重为A_i,j。

构建两层GCN的多分类预测模型，将所述特征矩阵H与邻接矩阵A输入到GCN中，GCN传播规则具体公式为：

其中，H^(l)是每层输入的患者节点特征矩阵；是患者群体图G的邻接矩阵加上自连接，I_N是单位矩阵，/>是/>的度矩阵，W^(l)是每一层的参数矩阵，σ是激活函数。

GCN输出聚合了邻接节点特征后的特征向量H^(L)，然后将H^(L)输入全连接层，并使用softmax和交叉熵损失函数，计算训练集Loss并进行反向传播更新参数：

其中，N是批处理大小，M为输出层的类别数量，y_ij是第j个真实标签，p_ij是预测标签的概率。在每轮训练周期中，将验证集输入到GCN模型中可得到验证集Loss，进一步实时评估模型效果。待训练完成后，将所述测试集数据输入到GCN中可得到模型最终训练效果。

步骤4应用模型进行患者DR分类预测

对于实际应用场景，输入一名待分类患者的电子病历信息和检验指标数据，根据步骤2计算该患者与其他患者的检验指标相似度，进而得到特征矩阵H′和邻接矩阵A′，并输入到步骤3中训练好的GCN模型，可得到分类结果的概率分布：

y_out＝GCN(H′,A′)

随后使用softmax进行归一化处理：

其中，是GCN模型输出的预测该患者患有各类型DR的概率。p₀为未患DR的概率，p₁为患非增殖性DR的概率，p₂为患增殖性DR的概率。

本发明还提供了一种基于医学检验指标的糖尿病视网膜病变分类方法的应用，具体形式是客户端辅助诊断系统，其功能模块如下：

输入模块，用于获取待分类的患者基本信息和检查指标数据。输入模块应搭配存储模块使用，其本身不包含存储功能。

存储模块，用于存储训练数据中的患者数据和图结构数据，包括边、权重、出度、入度等。此外，存储模块支持新增患者数据及其图结构数据。

数据预处理模块，用于清洗、处理存储模块中的患者数据，包括空值、无效值的检查、检验指标向量提取、向量标准化、隐私数据处理；

预测模块，用于将待分类患者数据输入到模型进行DR分类预测，获得DR分类结果，预测模块可支持根据存储模块数据动态更新模型参数，以达到持续训练、优化的效果。

本发明具有以下的特点和有益效果：

本发明的预测数据来源是患者电子病历和化验报告数据。大多数DR检查和诊断更依赖眼底影像，本发明拓宽了检查方式和思路，可以从数据的角度提供给医生更全面的诊断证据，提供给患者更便捷的自我诊断依据。

本发明基于图神经网络。区别于以往的纯数据预测，本发明能够很好地结合检验指标的数据特征和患者群体特征，一定程度上避免了纯数据预测可能产生的数据维度不足、整体结构信息丢失的问题，为检验指标数据-疾病预测这一领域工作提供一项新的研究和研发案例。

本发明的应用部署相较于基于眼底医学影像的检测方法，在部署成本、设备要求、操作难度上都较低，因此更适合基础医疗资源不足的地区，有利于在社会推广基础医疗。

本发明中的方法通过分析患者间检验指标的相似性获得不同患者两两之间的检验指标相似程度，从而构建出患者群体图。通过图数据处理库将该网络转化为算法可处理的图数据，并输入模型。模型由两层图卷积神经网络构成，其输入是患者群体图的特征矩阵和邻接矩阵，经过训练后可输出患者的DR分类预测概率。训练完毕后，将模型部署至服务器，模型数据从医学数据库读取，或由操作人员输入，进而得到患者DR分类预测概率。将该分类预测概率结合视网膜眼底影像报告，可给出医务人员更多的参考和建议。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例一种基于医学检验指标的糖尿病视网膜病变分类方法的工作流程图；

图2为患者数据实例部分数据；

图3为患者节点数据预处理过程图；

图4为图卷积神经网络示意图；

图5为应用本实施例进行分类的工作过程图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

本发明的目的是基于医学数据库中大量糖尿病和糖尿病视网膜病变患者的化验指标数据，通过图结构和图卷积神经网络，获取、分析患者群体特征，从而实现预测糖尿病视网膜病变分期情况的效果。提供了一种基于医学检验指标的糖尿病视网膜病变分类方法，如图1所示，具体步骤如下：

步骤1患者数据采集和预处理

从合作医学机构的数据库中获取糖尿病与DR的患者的电子病历和检查报告，提取与DR相关的检验指标和患者数据，以用于后续患者群体和模型的构建。具体包括以下步骤：

步骤110、数据提取；

从电子病历和检查报告中提取患者信息和检验指标数据，根据患病类型，将患者分为患有糖尿病未患DR、患有糖尿病且患有非增殖性DR、患有糖尿病且患有增殖性DR三种标签类型；提取与DR相关的检验指标集合E。在本实施例中获取了1419条符合数据集要求的患者数据记录，提取了71个DR相关的检验指标。

步骤120、根据异常值类型进行预处理；

数据集中包含的数据类型是布尔类型与数值类型，根据数据类型和异常值类型采用不同的处理方式，分别如下：

步骤121、当空值应填数据类型是布尔类型时，由于布尔值对相似度的影响较大，因此不使用有效值填充，使用特殊符号填充；

步骤122、当空值应填数据类型是数值类型时，采用该列数据的平均值进行填充。

步骤123、当该列数据包含文字信息，应填数据类型是数值或布尔类型时，根据文字信息含义进行人工填充，若不能分析文字信息含义，则根据应填数据类型采用特殊符号填充或平均值填充方法。

步骤124、当该列缺失数据占比大于等于20％时，大于一般数据集构建时的缺省比例阈值，将该列数据移出数据集

步骤125、当该列数据是带有>、<等符号的范围数据时，采用>、<等符号后的数值作为该列数值。

步骤126、当该列数据是患者姓名、身份证号码、手机号码、病历号等带有个人隐私信息的数据时，应将该列数据移出数据集。

本实施例中，对步骤110中所获数据集进行所述预处理后，数据集数据量为1023条，其中患有糖尿病未患DR、患有糖尿病且患有非增殖性DR、患有糖尿病且患有增殖性DR的患者比例约为6:3:1。部分数据实例如图2所示。

进一步地，将所构建数据集按照6:2:2的比例将节点划分为训练集、验证集、测试集。

进一步地，步骤110所提取的71种检验指标具体为：年龄、糖尿病病程(年)、糖尿病用药状态、是否高血压、是否高血脂、收缩压/舒张压、AST/ALT比值、C肽、D3羟丁酸(D3H)、D-二聚体(D-Dimer)、α-L-岩藻糖苷酶(AFU)、γ-谷氨酰基转移酶(GGT)、白蛋白(Alb)、白球比值(A/G)、白细胞计数(WBC)、丙氨酸氨基转移酶(ALT)、促甲状腺激素(TSH)、单核细胞计数(MO#)、胆碱脂酶(CHE)、低密度脂蛋白胆固醇(LDL-C)、钙(CA)、甘油三酯(TG)、高密度脂蛋白胆固醇(HDL-C)、估算肾小球滤过率(eGFR)、红细胞计数(RBC)、活化部分凝血活酶时间(APTT)、肌酐(Cr)、肌酸激酶(CK)、肌酸激酶同工酶MB(CK-MB)、甲状腺素(T4)、间接胆红素(IBil)、尿α1微球蛋白(α-MG)、尿蛋白肌酐比、尿免疫球蛋白G定量、尿素(Urea)、尿微量白蛋白(MA)、凝血酶时间(TT)、凝血酶原时间(PT)、平均红细胞体积(MCV)、平均血小板体积(MPV)、葡萄糖(GLU)、前白蛋白(PALB)、三碘甲状原氨酸(T3)、视黄醇结合蛋白(RBP)、糖化血红蛋白(HbA1c)、天门冬氨酸氨基转移酶(AST)、同型半胱氨酸(HCY)、纤维蛋白原(Fib)、纤维结合蛋白(FN)、血小板计数(PLT)、胰岛素、游离甲状腺素(FT4)、游离三碘甲状原氨酸(FT3)、游离脂肪酸(FAA)、载脂蛋白A1(ApoA1)、载脂蛋白B(ApoB)、载脂蛋白E(ApoE)、脂蛋白α(LPa)、直接胆红素(DBil)、中性粒细胞计数(NE#)、总胆固醇(T-CH)、总胆红素(TBil)、总胆汁酸(TBA)、总蛋白(TP)、白蛋白浓度(GALB)、甲状腺球蛋白抗体(TGA)、抗甲状腺过氧化物酶抗体、糖化白蛋白(GA)。

步骤2基于检验指标相似度的患者群体构建

患者群体在本发明中指具有相似特征的DR患者群体，群体划分的特征是患者间是否具有相似的检验指标。患者群体的表现方式具体是构建患者群体图G＝(U,V)。其中G是由步骤1所提供的数据集构建的无向加权图，包括u名患者节点，v条加权边。其中，患者节点包含数据集中所有检验指标的向量化表示，患者节点的加权边代表其与另外一名患者存在相似的检验指标，权重值代表两个患者相似的检验指标数量。

患者群体图基于患者数据，额外构建了检验指标相似度这一数据特征，图卷积神经网络可以聚合患者群体图中相邻节点的数据特征，从而实现更精确的DR分类预测。

基于检验指标相似度的患者群体构建，主要包括以下步骤：

步骤210、设置各项检验指标的正常值范围；

从数据库或医学权威指南中获取步骤1中检验指标集合E中所有检验指标的正常值范围。对于检验指标e_k∈E，其正常值范围为Range_k。

步骤220、基于检验指标间隔的相似度计算方法；

设置检验指标相似度权重范围，本实施例中，权重范围在10-20之间的模型分类预测效果最优。基于检验指标间隔的相似度计算方法流程如图3所示，遍历步骤1中处理后的数据集。对于检验指标e_k∈E，计算检验指标的方差，以方差作为参考数据，设置数据粒度阈值，计算检验指标间隔。其中/>的取值应与方差呈正相关，且应使得最终计算所得检验指标相似度权重在预设范围内。检验指标间隔interval_k的计算公式如下：

interval_k＝Range_k/g_k

假定第i名患者为u_i，第j名患者为u_j，计算u_i和u_j在检验指标e_k检的结果差值Δe_ij,k:

Δe_ij,k＝e_i,k-e_j,k

根据Δe_ij,k的绝对值计算u_i和u_j在检验指标e_k的相似度权重w_ij,k:

u_i和u_j的总相似度权重由各检验指标的权重w_ij,k求和得到：

步骤230、评估所得检验指标相似度权重是否在预设范围内；

本实施例的相似度权重在10-20之间模型的效果最佳，过高或过低的权重会使得模型无法有效地提取相似节点的特征，从而影响模型效果。若超出合理范围，则回到步骤220中对期望粒度进行修改，并重复步骤220-230。

最终，根据患者u_i和患者u_j，以及权重w_ij得到三元组<患者、患者、权重>。

步骤240、构建患者群体图；

根据步骤220得到的所有<患者、患者、权重>，以患者作为图节点，三元组所表示患者间关系作为图的加权边，构建患者群体图G，同时将三元组列表转换为G的邻接矩阵A。

步骤3构建图卷积神经网络进行训练

本实例构建两层GCN图卷积神经网络层，输入特征矩阵与邻接矩阵，反复训练得到能够聚合患者检验指标相似度和患者自身特征的DR分类预测模型,其示意图如图4所示。

具体包括如下步骤：

步骤310、将特征矩阵和邻接矩阵输入到GCN；

使用步骤2中所构建患者群体图G，可得到患者节点特征矩阵H∈R^1023×71和邻接矩阵A∈R^1023×1023。构建两层GCN的多分类预测模型，输入所述特征矩阵H与邻接矩阵A到GCN中。

本实例GCN传播规则公式采用Symmetric normalized Laplacian实现方式，即：

其中，H^(l)是每层输入的患者节点特征矩阵；是患者群体图G的邻接矩阵A加上自连接，I_N为单位矩阵，/>是/>的度矩阵，W^(l)是每一层的参数矩阵，σ是每层的激活函数，本实例采用Rectified Linear Units(ReLU)激活函数。

具体的，GCN的每一层通过邻接矩阵A和特征矩阵H^(l)相乘得到每个患者节点的邻居特征的汇总，然后再乘上参数矩阵W^(l)后加上激活函数σ做一次非线性变换得到聚合邻接节点特征的特征矩阵H^(l+1)。由于信息在卷积层传播时需要保留节点自身的信息，因此邻接矩阵A需要加上一个单位矩阵I_N，而对邻接矩阵进行归一化操作/>是为了信息传递的过程中保持特征矩阵H的原有分布，防止一些度数高的节点和度数低的节点在特征分布上产生较大差异。

步骤320、使用损失函数进行反向传播更新参数；

两层GCN输出聚合了邻接节点特征后的特征向量H^(L)，然后将H^(L)输入全连接层，并使用softmax激活函数和交叉熵损失函数进行反向传播更新参数：

其中，N是批处理大小，M为输出层的类别数量，y_ij是第j个真实标签，p_ij是标签分类预测的概率。

步骤330、验证集和测试集评估模型效果；

在模型每轮训练后将验证集输入到模型中，用于实时评估模型的训练效果。在模型训练结束后，将测试集输入到模型中，可得到测试集的分类预测结果，与真是标签值进行比对得到评估模型最终的训练效果。

步骤4应用模型进行患者DR分类预测

y_out＝GCN(H′,A′)

随后使用softmax进行归一化处理：

根据步骤1、2、3、4，本实例的模型算法伪代码如下：

本实施例的验证实验所运行核心环境如下：

操作系统：Ubuntu 20.04.1x86_64

Python:3.9.16

Pytorch:1.13.0cuda

PyTorch Geometric 2.3.1

numpy:1.24.3

pandas:1.1.3

Scipy:1.10.1

Scikit-learn:1.2.2

本实施例使用PyTorch Geometric(PyG)构建两层GCN模型，PyG中GCN输入层维度为71，即患者群体图的节点特征维度71、隐藏层维度为32。

GCNConv forward方法中，为防止过拟合，采用nn.functional，dropout随机丢弃网络层间的链接，其中参数p＝0.5。优化器使用Adam。

针对本实施例，设置batch size为32，并开启随机样本抽取shuffle＝True。

超参数设置：学习率learning_rate：：8e-2，权重衰减weight_decay：：5e-4，训练周期epoch：1000。

对比实验采用准确度(Accuracy)、精确度(Precision)、召回率(Recall)、F1四种指标来分析模型效果。本实施例应用数据集到常用的数据分类模型和方法支持向量机(SVM)和随机森林(RF)，并与本发明方法进行比较，结果如下：

Table 1：DR预测模型的指标比较

本发明方法在四种指标上都获得较好效果，其中精确度和召回率相较SVM和RF分别提高了18％、16％和16％、12％，这反映了本发明在DR预测方面能够实现更加高效和准确的预测分类。

本实施例还提供了一种基于医学检验指标的糖尿病视网膜病变分类方法的应用。

在GCN模型完成训练后，将模型部署至客户端系统和数据库中，其具体架构如下：

输入模块，用于获取患者基本信息和化验报告数据。输入模块应搭配存储模块，其本身不包含存储功能。

进一步地，输入方式分为手动输入和批量输入。本实例将输入模块嵌入医学数据库中，可支持从数据库中动态读取患者数据。

进一步地，采用利于存储图数据和相应特征数据的图数据库，例如Neo4j。

数据预处理模块，用于清洗、处理存储模块中的患者数据，包括空值、无效值的检查、检验指标向量提取、向量标准、隐私数据。

进一步地，预测模块支持客户端训练以动态更新模型参数。分为离线训练和在线训练，离线训练可重新由初始参数训练数据；在线训练可根据患者数据的变化动态地训练模型参数。本发明中的分类方法可以通过指令形式提供服务，也可以通过图形用户界面(GUI)形式提供服务，整体工作流程如图5所示。各形式均需要实现的基本操作指令有以下：

(1)数据输入。以Excel文件批量导入或手动新增患者各项检验指标数据，此外支持修改每项检验指标的阈值范围。

(2)训练预测模型。先检查模型中已有数据量是否大于模型最低需求，然后可选择离线训练或在线训练。离线训练会重置当前模型，根据现有数据从头进行训练；在线训练会根据新增数据进行迭代并更新参数。

(3)预测DR分期。根据训练得到的模型参数，预测得到某个病人节点的DR分期，并进行展示。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式包括部件进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于医学检验指标的糖尿病视网膜病变分类方法，其特征在于，包括如下步骤：

S1、患者数据采集和预处理

所述数据采集的方法为：从医学机构的数据库中获取与DR有关的患者的电子病历和化验报告，从电子病历和化验报告中提取DR相关的检验指标；其中，所获取患者分为三类，包括：患有糖尿病未患DR、患有糖尿病且患有非增殖性DR、患有糖尿病且患有增殖性DR；

S2、基于检验指标相似度的患者群体构建

遍历所有患者及其检验指标，使用基于检验指标间隔的相似度计算方法，得到所有患者之间的检验指标相似度权重，其中，检验指标间隔根据方差和数据粒度进行计算，根据计算所得相似度权重构建三元组<患者，患者，权重>，以患者为节点，向量化后的患者检验指标作为节点属性，以<患者，患者，权重>三元组列表所表示的患者间检验指标相似度权重为加权边，构建无向加权图，即患者群体图G；

S3、构建图卷积神经网络进行训练

使用S2所构建的图G可得到患者节点特征矩阵H∈R^N×M和邻接矩阵A∈R^N×N，其中N表示训练数据的数量，M表示特征维度，H中行表示一名患者，列表示该名患者的检验指标，A描述患者节点之间邻接关系，行和列均表示患者，若A_i,j为0，表示患者i与患者j不存在相似关系，若不为0，则表示患者i与患者j存在相似关系，且相似度权重为A_i,j；

构建两层GCN的多分类预测模型，输入所述特征矩阵H与邻接矩阵A到GCN中，GCN传播规则具体公式如下：

其中，H^(l)是每层输入的患者节点特征矩阵z；是患者群体图G的邻接矩阵加上自连接，I_N是单位矩阵，/>是/>的度矩阵，W^(l)是每一层的参数矩阵，σ是激活函数；

在GCN后连接上全连接层和softmax层，根据交叉熵损失函数计算Loss并反向传播：

其中，N是批处理大小，M为输出层的类别数量，y_ij是第j个真实标签，p_ij是标签分类预测的概率；

S4、应用模型进行患者DR分类预测

对于实际应用场景，输入一名待分类患者的电子病历信息和检验指标数据，根据S2计算该患者与其他患者的检验指标相似度，进而得到特征矩阵H′和邻接矩阵A′，并输入到S3中训练好的GCN模型，可得到分类结果的概率分布：

y_out＝GCN(H′A′)

随后使用softmax进行归一化处理：

其中，是GCN模型输出的预测该患者患有各类型DR的概率，p₀为未患DR的概率，p₁为患非增殖性DR的概率，p₂为患增殖性DR的概率。

2.根据权利要求1所述的基于医学检验指标的糖尿病视网膜病变分类方法，其特征在于，所述检验指标包括年龄、糖尿病病程(年)、糖尿病用药状态、是否高血压、是否高血脂、收缩压/舒张压、AST/ALT比值C肽、D3羟丁酸(D3H)、D-二聚体(D-Dimer)、α-L-岩藻糖苷酶(AFU)、γ-谷氨酰基转移酶(GGT)、白蛋白(Alb)、白球比值(A/G)、白细胞计数(WBC)、丙氨酸氨基转移酶(ALT)、促甲状腺激素(TSH)、单核细胞计数(MO#)、胆碱脂酶(CHE)低密度脂蛋白胆固醇(LDL-C)、钙(CA)、甘油三酯(TG)、高密度脂蛋白胆固醇(HDL-C)、估算肾小球滤过率(eGFR)、红细胞计数(RBC)、活化部分凝血活酶时间(APTT)、肌酐(Cr)、肌酸激酶(CK)、肌酸激酶同工酶MB(CK-MB)、甲状腺素(T4)、间接胆红素(IBil)、尿α1微球蛋白(α-MG)、尿蛋白肌酐比、尿免疫球蛋白G定量、尿素(Urea)、尿微量白蛋白(MA)、凝血酶时间(TT)、凝血酶原时间(PT)、平均红细胞体积(MCV)、平均血小板体积(MPV)、葡萄糖(GLU)、前白蛋白(PALB)、三碘甲状原氨酸(T3)、视黄醇结合蛋白(RBP)、糖化血红蛋白(HbA1c)、天门冬氨酸氨基转移酶(AST)、同型半胱氨酸(HCY)、纤维蛋白原(Fib)、纤维结合蛋白(FN)、血小板计数(PLT)、胰岛素、游离甲状腺素(FT4)、游离三碘甲状原氨酸(FT3)、游离脂肪酸(FAA)、载脂蛋白A1(ApoA1)、载脂蛋白B(ApoB)、载脂蛋白E(ApoE)、脂蛋白α(LPa)、直接胆红素(DBil)、中性粒细胞计数(NE#)、总胆固醇(T-CH)、总胆红素(TBil)、总胆汁酸(TBA)、总蛋白(TP)、白蛋白浓度(GALB)、甲状腺球蛋白抗体(TGA)、抗甲状腺过氧化物酶抗体、糖化白蛋白(GA)。

3.根据权利要求1所述的基于医学检验指标的糖尿病视网膜病变分类方法，其特征在于，所述步骤S1中预处理方法为：异常值/空值处理、文本数据数字化、范围值取值、标准化、隐私数据处理。

4.根据权利要求1所述的基于医学检验指标的糖尿病视网膜病变分类方法，其特征在于，所述S2中基于检验指标间隔的相似度计算方法为：

(1)设置各项检验指标e_k∈E的正常值范围Range_k；

(2)设置检验指标相似度权重范围，计算步骤S1中获取的检验指标中各列的方差，以方差作为参考数据，结合正常值范围和期望的数据粒度计算各项检验指标的相似度间隔interval_k，其中/>的取值与方差呈正相关，且应使得最终计算所得检验指标相似度权重在预设范围内，interval_k计算公式为：

interval_k＝Range_k/g_k

(3)假定第i名患者为u_i，第j名患者为u_j，若两名患者的相同检验指标e_k∈E之间的结果绝对值差小于等于该间隔，则判定相似，即权重w_ij,k＝1，具体是：

计算u_i和u_j在检验指标e_k检的结果差值Δe_ij,k:

Δe_ij,k＝e_i,k-e_j,k

计算u_i和u_j在检验指标e_k的相似度权重w_ij,k:

u_i和u_j的总相似度权重由各检验指标的权重w_ij,k求和得到：

W_ij＝Σ_kW_ij,k

根据上述计算结果，最终得到<患者，患者，权重>三元组；

(4)遍历(3)中的<患者，患者，权重>三元组列表，以患者作为节点，以向量化后的患者检验指标作为节点属性，患者间检验指标相似度权重作为加权边，构建无向加权图，即患者群体图G；

(5)评估所得检验指标相似度权重是否在预设范围，若超出预设范围，则应回到(2)中对期望粒度进行修改，并重复(3)至(5)。

5.一种基于医学检验指标的糖尿病视网膜病变分类方法的应用，其特征在于，将实现S1-S4的所述基于医学检验指标的糖尿病视网膜病变分类方法部署到服务器，用于构建一个在线解析患者数据的系统，同时应用分类模型到医学数据库，根据数据库数据动态更新图结构和模型参数，系统可使用训练好的模型预测患者当前的DR分类状况。

6.根据权利要求5所述的一种基于医学检验指标的糖尿病视网膜病变分类方法的应用，其特征在于，所述分类方法在完成训练后，将部署至客户端系统和数据库中，其具体架构如下：

输入模块，用于获取待分类的患者基本信息和检查指标数据；

存储模块，用于存储训练数据中的患者数据和图结构数据，包括边、权重、出度、入度，此外，存储模块支持新增患者数据及其图结构数据；

预测模块，用于将待分类患者数据输入到GCN模型进行DR分类预测，获得DR分类结果。