CN115346598A

CN115346598A - 一种慢性肾脏病遗传基因风险筛查系统

Info

Publication number: CN115346598A
Application number: CN202210882125.6A
Authority: CN
Inventors: 段立新; 李文; 刘丹蕾; 魏凡越
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-11-15

Abstract

本发明公开了一种慢性肾脏病遗传基因风险筛查系统，该系统通过机器学习方法构建的慢性肾脏病遗传基因风险筛查分类模型实现，该系统包括：用于整理患者遗传基因信息数据的模块；用于进行数据预处理并将数据分为训练数据和测试数据的模块；用于利用训练数据训练模型的模块；用于将测试数据输入经训练后的模型进行模型测试的模块；用于将待检查的遗传基因信息输入模型，得到最终的风险报告的模块。本发明采用XGBoost方法训练慢性肾脏病遗传基因风险筛查分类模型，根据与肾病有关的遗传基因信息数据，可在早期筛查出慢性肾病高危人群，利于慢性肾病的防治。

Description

一种慢性肾脏病遗传基因风险筛查系统

技术领域

本发明涉及机器学习领域，特别涉及一种慢性肾脏病遗传基因风险筛查系统。

背景技术

我国慢性肾脏病(chronic kidney disease,CKD)人群患病率约为10.8％，CKD患者病情呈慢性进行性进展，最终发展至终末期肾病(即尿毒症)。慢性肾脏病具有高患病率、低知晓率和预后差等特点，我国慢性肾脏病及终末期肾脏病的主要构成均是肾炎，肾炎病程长，病情迁延，最终至慢性肾衰竭。近年来，医生发现慢性肾脏病与遗传因素具有一定程度的关联，因此建立一个有效的慢性肾脏病的遗传基因风险筛查装置进行早期慢性肾脏病普查，利于早发现早治疗，对提高我国肾脏疾病的防治水平具有重要的特殊意义。

发明内容

为了解决上述技术问题，本发明提出一种基于机器学习的慢性肾脏病遗传基因风险筛查系统，利用该系统和与肾病有关的遗传基因信息数据，筛查出慢性肾脏病高危人群。

本发明提出的一种慢性肾脏病遗传基因风险筛查系统，利用机器学习方法XGBoost构建慢性肾脏病遗传基因风险筛查的分类模型，运用与慢性肾脏病有关的遗传基因信息数据，面向慢性肾脏病患者是否会恶化发展为终末期肾病进行评估和预测，筛选出慢性肾脏病的潜在高危人群，做到早发现早预防早治疗。该系统包含数据采集模块、数据预处理模块、模型训练模块、模型预测模块和报告展示模块。

1、数据采集模块：采集慢性肾脏病患者的遗传基因信息数据和慢性肾脏病患者的恶化标签，整理遗传基因信息数据中每个基因点位的变异情况和变异类型，将其中与肾病相关的遗传基因信息数据整理为电子遗传基因信息数据(下文统称基因数据)，并计算基因风险评分数值，得到基因数据集。同时建立慢性肾脏病遗传基因专业数据库，将整理好的电子数据及基因风险评分数值录入慢性肾脏病遗传基因专业数据库中。

所述采集慢性肾脏病患者的遗传基因信息数据，是通过专业的基因检测芯片和慢性肾脏病患者的血液样本进行基因检测得到；

所述恶化标签，即慢性肾脏病是否恶化，即是否达到终末期肾病或eGFR(肾小球滤过率)下降大于50％。其中，终末期肾病指eGFR＜15ml/min/1.73m²或慢性肾脏病患者开始进行肾脏替代治疗，且达到终末期肾病或eGFR下降大于50％的时间持续3个月以上。

所述慢性肾脏病遗传基因专业数据库，是一个可查询和维护的全国联网数据库，用于记录维护患者的遗传基因信息数据，以及为未来可能的相关肾病医学研究和相关肾病遗传研究提供数据支持。

2、数据预处理模块：对数据采集模块得到的基因数据集进行预处理，包含数据清洗和特征归一化处理，通过数据清洗得到基因数据特征F＝[f₁,f₂,…,f_n]，其中，f_i表示第i个特征，n表示共有n个特征，然后通过特征归一化处理得到用于后续模型训练及预测的归一化基因数据特征表示X＝[x₁,x₂,…,x_n]；将恶化标签处理为1和0的二分类标签Y，作为后续模型训练及测试的标签，其中1表示患者的慢性肾脏病恶化，0表示慢性肾脏病没有恶化。最后将预处理后的基因数据集拆分为训练集和测试集。

所述数据清洗的方法，是对有缺失值的基因数据采用均值填补的方法，填补缺失值；

所述特征归一化处理，指通过如下公式将基因数据特征F映射到0-1之间，避免因为数据范围相差过大，增加模型训练的难度。

上式中，f_i表示对应患者的基因数据特征表示为F中的第i个基因数据特征，f_min表示所有患者的第i个基因数据特征的最小值，f_max表示所有患者的第i个基因数据特征的最大值。x_i表示第i个基因数据特征被归一化之后的标准特征值。那么，最终归一化之后的基因数据特征表示为X＝[x₁,x₂,…,x_n]。

所述数据集拆分，即按照预设比例将预处理后的基因数据集拆分为训练集数据和测试集数据。具体地，采用python中的sklearn包中的train_test_split分割方法，将预处理后的基因数据集按照7：3的比例分为训练集和测试集。

3、模型训练模块：在该模块，通过机器学习XGBoost方法，通过数据预处理模块得到的训练集数据，训练构建的慢性肾脏病遗传基因风险筛查分类模型。

所述XGBoost方法是一种基于梯度提升决策树的算法，以顺序的方式将一系列相对较弱的基分类器集成为一个较强的分类器，它在当前决策树的基础上生成下一棵决策树，树中的结点是基因数据特征，依次从第T₁棵树开始训练，在已经训练好第T₁～T_t-1棵树后，就不再调整这第T₁～T_t-1棵树，而继续训练第T_t棵树。

所述慢性肾脏病遗传基因风险筛查的分类模型，即采用XGBoost方法建立的分类模型，输入数据为数据预处理模块得到的训练集基因数据特征X＝[x₁,x₂,…,x_n]以及训练集数据的样本的恶化标签，分类模型通过迭代训练，学习恶化样本和非恶化样本的基因数据特征分布，最终训练目标是得到用于后续慢性肾脏病基因风险筛查的分类模型，用于预测慢性肾脏病患者恶化的概率。当模型的准确度和AUC满足要求时，停止训练。

所述模型准确度，即测试集中分类正确的样本数占测试集中的总的样本数的比例。

所述AUC(Area Under Curve)，即ROC(Receiver Operating CharacteristicCurve)曲线下与坐标轴围成的面积。

4、模型预测模块：在该模块中，使用模型训练模块得到的慢性肾脏病基因风险筛查的分类模型，利用数据预处理得到的测试集数据，预测慢性肾脏病患者恶化的概率；进一步通过shap(SHapley Additive exPlanation)方法，输出每个基因特征的影响度，来对慢性肾脏病遗传基因风险筛查的分类模型的预测结果进行解释。

所述shap方法是一种模型解释方法，解释慢性肾脏病基因风险筛查的分类模型输出的预测结果，输出每一个基因数据特征对慢性肾脏病基因风险筛查的分类模型输出的预测结果的影响度，可以直观地观察到每一个基因数据特征对慢性肾脏病恶化的影响的大小以及正负情况，即观察到每一个与慢性肾脏病有关的基因的风险大小，从而最终达到建立起慢性肾脏病基因风险筛查的系统的目标，更有利于研究人员在未来更关注对慢性肾脏病影响更高的基因风险研究。

所述shap方法将原始的复杂的慢性肾脏病基因风险筛查的分类模型转化为围绕每个数据点的简单线性加法，假设第i′个测试集样本x′_i′的第j个基因特征为x′_i′j，且慢性肾脏病遗传基因风险筛查分类模型对该第i′个测试集样本的恶化概率预测值为

慢性肾脏病基因风险筛查的分类模型的基线(通常是所有测试集样本的目标变量的均值)为y_base，n表示共有n个特征，那么shap值服从以下等式：

其中

为x′_i′j的shap值，即第i′个测试集样本中第j个基因特征对最终预测值

的贡献值，即第i′个测试集样本中第j个基因特征对第i′个测试集样本的恶化的影响度。进一步地，本发明中，以平均shap绝对值I_j衡量基因特征重要性，即将所有测试集样本的第j个基因特征的影响度φ_j取绝对值后再进行求和，得到第j个基因特征对慢性肾脏病基因风险筛查的分类模型输出的预测结果的影响度I_j，以考察基因特征的风险程度，其中I_j的计算公式为

其中|*|表示取绝对值操作。

5、报告生成模块：将慢性肾脏病基因风险筛查的分类模型输出的预测结果(包含恶化概率以及每个基因特征的影响度)整理为风险报告，上传至电脑终端，医生和患者均可在终端中查询到报告结果。

所述风险报告，包含待检查的遗传基因信息数据、慢性肾脏病基因风险筛查的分类模型根据待检查的遗传基因信息数据预测出的恶化概率和对预测结果进行解释的基因特征的影响度、患者的历史病历以及医生给出的防治建议；

所述终端为电脑端的预先安装的如上述描述的慢性肾脏病遗传基因风险筛查系统，所述慢性肾脏病遗传基因风险筛查分类模型自动将风险报告上传至终端；医生和患者均可通过电脑端的系统来查询结果，并打印风险报告。

本发明提出的一种慢性肾脏病遗传基因风险筛查系统，利用机器学习方法XGBoost构建慢性肾脏病遗传基因风险筛查的分类模型，运用与慢性肾脏病有关的遗传基因信息数据，面向慢性肾脏病患者是否会恶化发展为终末期肾病进行评估和预测，可在早期筛选出慢性肾脏病的潜在高危人群，做到早发现早预防早治疗。

附图说明

图1是慢性肾脏病遗传基因风险筛查系统示意图；

图2是慢性肾脏病遗传基因风险筛查系统工作流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，所描述的实施例是本发明一部分实施例，而不是全部的实施例，也并非旨在限制要求保护的本发明的范围。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种慢性肾脏病遗传基因风险筛查系统，利用机器学习方法XGBoost构建慢性肾脏病遗传基因风险筛查分类模型，以慢性肾脏病患者的遗传基因信息数据作为输入，面向慢性肾脏病患者是否会恶化发展为终末期肾病进行评估和预测，以慢性肾脏病患者可能恶化的概率作为输出，并通过shap方法筛查与慢性肾脏病有关的遗传基因的风险程度，筛选出慢性肾脏病的潜在高危人群，做到早发现早预防早治疗。该慢性肾脏病遗传基因风险筛查系统包括数据采集模块、数据预处理模块、模型训练模块、模型预测模块和报告展示模块；

其中，所述数据采集模块用于采集慢性肾脏病患者的遗传基因信息数据和慢性肾脏病患者的恶化标签，整理遗传基因信息数据中每个基因点位的变异情况和变异类型，将其中与肾病相关的遗传基因信息数据整理为电子遗传基因信息数据，即基因数据，并计算基因风险评分数值，得到基因数据集；同时建立慢性肾脏病遗传基因专业数据库，将整理好的基因数据及基因风险评分数值录入慢性肾脏病遗传基因专业数据库中；

所述数据预处理模块用于对数据采集模块得到的基因数据集进行预处理，包含数据清洗和特征归一化处理，通过数据清洗得到基因数据特征F，然后通过特征归一化处理得到用于后续模型训练及预测的归一化基因数据特征表示X＝[x₁,x₂,…,x_n]；将恶化标签处理为1和0的二分类标签Y，作为后续模型训练及测试的标签，其中1表示患者的慢性肾脏病恶化，0表示慢性肾脏病没有恶化，最后将预处理后的基因数据集按照预设比例拆分为训练集和测试集；

所述数据清洗是对有缺失值的基因数据采用均值填补的方法，填补缺失值；

所述特征归一化处理是指通过如下公式将得到的基因数据特征F映射到0-1之间，避免因为数据范围相差过大，增加模型训练的难度，其中，基因数据特征表示为F＝[f₁,f₂,…,f_n]，其中，f_i表示第i个特征，n表示共有n个特征；

上式中，f_i表示对应患者的基因数据特征表示为F中的第i个特征，f_min表示所有患者的第i个特征的最小值，f_max表示所有患者的第i个特征的最大值；x_i表示第i个基因数据特征被归一化之后的标准特征值，最终归一化之后的基因数据特征表示为X＝[x₁,x₂,…,x_n]；

所述模型训练模块通过机器学习XGBoost方法，根据数据预处理模块得到的训练集训练构建的慢性肾脏病遗传基因风险筛查分类模型；

所述慢性肾脏病遗传基因风险筛查分类模型，输入数据为数据预处理模块得到的训练集中归一化基因数据特征X＝[x₁,x₂,…,x_n]以及训练集数据样本的恶化标签，该分类模型通过迭代训练，学习恶化样本和非恶化样本的基因数据特征分布，当模型的准确度和AUC满足要求时，停止训练，最终得到训练完成的慢性肾脏病遗传基因风险筛查分类模型，用于预测慢性肾脏病患者恶化的概率；

所述模型的准确度，即测试集中分类正确的样本数占测试集中的总的样本数的比例；

所述AUC，即ROC曲线下与坐标轴围成的面积；

所述模型预测模块使用模型训练模块得到的训练完成的慢性肾脏病遗传基因风险筛查分类模型，利用数据预处理得到的测试集中的数据样本，即测试集样本，预测慢性肾脏病患者恶化的概率；进一步通过shap方法，输出每个基因特征的影响度，来对慢性肾脏病遗传基因风险筛查分类模型的预测结果进行解释；

所述报告生成模块用于将慢性肾脏病遗传基因风险筛查分类模型输出的预测结果(包含恶化概率以及每个基因特征的影响度)整理为风险报告，上传至终端，医生和患者均可在终端中查询报告结果；

所述风险报告，包含待检查的遗传基因信息数据、慢性肾脏病遗传基因风险筛查分类模型根据待检查的遗传基因信息数据预测出的恶化概率预测值和对预测结果进行解释的基因特征影响度、患者的历史病历以及医生给出的防治建议。

具体地，如图2所示，本发明提出的一种慢性肾脏病遗传基因风险筛查系统的工作流程包括系统建立和外部验证两个大的步骤，其中系统建立通过采集数据、数据预处理、数据集划分、模型训练、模型预测5个步骤完成，从而建立起有效的慢性肾脏病遗传基因风险筛查系统；外部验证通过采集待检查的慢性肾脏病患者的遗传基因信息数据、待检查数据预处理、待检查慢性肾脏病患者的恶化预测及风险报告输出3个步骤完成，从而可以保证该慢性肾脏病遗传基因风险筛查系统可以被每一个慢性肾脏病患者使用。具体流程如下：

S1、采集数据：采集慢性肾脏病患者的遗传基因信息数据和慢性肾脏病患者的恶化标签，整理遗传基因信息数据中每个基因点位的变异情况和变异类型，将其中与肾病相关的遗传基因信息数据整理为基因数据，并计算基因风险评分数值，得到基因数据集。同时建立慢性肾脏病遗传基因专业数据库，将整理好的电子数据及基因风险评分数值录入慢性肾脏病遗传基因专业数据库中。

S2、数据预处理：对基因数据集进行数据清洗，对有缺失值的基因数据采用均值填补的方法填补缺失值；再对基因数据进行特征归一化处理，并对隐私信息进行脱敏处理等，得到基因数据特征表示。对恶化标签进行处理，处理为1和0的标签，基因数据特征表示及恶化标签构成了数据集。

S3、数据集拆分：将数据集的70％划分为训练集数据，用于后续模型训练；将数据集的30％划分为测试集数据，用于后续模型测试。

S4、模型训练：采用python中的sklearn包中的XGBoost算法建立慢性肾脏病遗传基因风险筛查的分类模型，通过训练集数据对慢性肾脏病遗传基因风险筛查的分类模型进行迭代训练，当模型准确率大于预设的0.95且AUC大于预设的0.85时，模型停止训练，得到训练完成的慢性肾脏病遗传基因风险筛查的分类模型。

S5、模型测试：将测试集数据输入经训练完成得到的慢性肾脏病遗传基因风险筛查的分类模型，进行模型测试，输出慢性肾脏病患者的恶化概率和每个基因特征的影响度，来对慢性肾脏病遗传基因风险筛查的分类模型的预测结果进行解释，从而证明慢性肾脏病遗传基因风险筛查的分类模型有效。

S6、采集待检查的慢性肾脏病患者的遗传基因信息数据：患者进行专业的基因检测后，得到专业的遗传基因信息结果，整理遗传基因信息数据中每个基因点位的变异情况和变异类型，将其中与肾病相关的遗传基因信息数据整理为基因数据，并计算基因风险评分数值。

S7、待检查数据预处理：将待检查的遗传基因信息数据进行数据清洗和特征归一化处理，得到后续可输入慢性肾脏病遗传基因风险筛查的分类模型的待检查数据。

S8、待检查慢性肾脏病患者的恶化预测及风险报告输出：将步骤S7中的待检查数据输入步骤S4中训练完成并在步骤S5中经过测试证明有效的慢性肾脏病遗传基因风险筛查的分类模型中，输出待检查数据的恶化概率值和每个基于特征的影响度。并自动整理为风险报告，上传至电脑终端，医生和患者均可在终端中查询到报告结果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种慢性肾脏病遗传基因风险筛查系统，其特征在于，该系统包括数据采集模块、数据预处理模块、模型训练模块、模型预测模块和报告生成模块；

所述数据预处理模块用于对数据采集模块得到的基因数据集进行预处理，包含数据清洗和特征归一化处理，通过数据清洗得到基因数据特征F，然后通过特征归一化处理得到用于后续模型训练及预测的归一化基因数据特征表示X＝[x₁，x₂，...，x_n]；将恶化标签处理为1和0的二分类标签Y，作为后续模型训练及测试的标签，其中1表示患者的慢性肾脏病恶化，0表示慢性肾脏病没有恶化，最后将预处理后的基因数据集按照预设比例拆分为训练集和测试集；

所述特征归一化处理是指通过如下公式将得到的基因数据特征F映射到0-1之间，其中，基因数据特征表示为F＝[f₁，F₂，...，f_n]，其中，f_i表示第i个特征，n表示共有n个特征；

上式中，f_i表示对应患者的基因数据特征表示为F中的第i个特征，f_min表示所有患者的第i个特征的最小值，f_max表示所有患者的第i个特征的最大值；x_i表示第i个基因数据特征被归一化之后的标准特征值，最终归一化之后的基因数据特征表示为X＝[x₁，x₂，...，x_n]；

所述慢性肾脏病遗传基因风险筛查分类模型，输入数据为数据预处理模块得到的训练集中归一化基因数据特征X＝[x₁，x₂，...，x_n]以及训练集数据样本的恶化标签，该分类模型通过迭代训练，学习恶化样本和非恶化样本的基因数据特征分布，当模型的准确度和AUC满足要求时，停止训练，最终得到训练完成的慢性肾脏病遗传基因风险筛查分类模型，用于预测慢性肾脏病患者恶化的概率；

所述AUC，即ROC曲线下与坐标轴围成的面积；

所述模型预测模块使用模型训练模块得到的训练完成的慢性肾脏病遗传基因风险筛查分类模型，利用数据预处理得到的测试集中的数据样本，即测试集样本，预测慢性肾脏病患者恶化概率；进一步通过shap方法，输出每个基因特征的影响度，来对慢性肾脏病遗传基因风险筛查分类模型的预测结果进行解释；

所述报告生成模块用于将慢性肾脏病遗传基因风险筛查分类模型输出的预测结果整理为风险报告，上传至终端，医生和患者均可在终端中查询报告结果；

2.根据权利要求1所述的慢性肾脏病遗传基因风险筛查系统，其特征在于，所述采集慢性肾脏病患者的遗传基因信息数据，是通过专业的基因检测芯片和慢性肾脏病患者的血液样本进行基因检测得到；

所述恶化标签用于表征慢性肾脏病是否恶化，即是否达到终末期肾病或肾小球滤过率eGFR下降大于50％，其中，终末期肾病指eGFR＜15ml/min/1.73m²或慢性肾脏病患者开始进行肾脏替代治疗，且达到终末期肾病或eGFR下降大于50％的时间持续3个月以上。

3.根据权利要求2所述的慢性肾脏病遗传基因风险筛查系统，其特征在于，所述预处理后的基因数据集按照预设比例拆分为训练集和测试集具体为，采用python中的sklearn包中的train_test_split分割方法，将预处理后的基因数据集按照7∶3的比例分为训练集和测试集。

4.根据权利要求3所述的慢性肾脏病遗传基因风险筛查系统，其特征在于，所述XGBoost方法是一种基于梯度提升决策树的算法，以顺序方式将一系列相对较弱的基分类器集成为一个较强的分类器，它在当前决策树的基础上生成下一棵决策树，树中的结点是基因数据特征，依次从第T₁棵树开始训练，在已经训练好第T₁～T_t-1棵树后，就不再调整这第T₁～T_t-1棵树，而继续训练第T_t棵树。

5.根据权利要求4所述的慢性肾脏病遗传基因风险筛查系统，其特征在于，所述shap方法是一种模型解释方法，解释慢性肾脏病遗传基因风险筛查分类模型输出的预测结果，输出每一个基因数据特征对慢性肾脏病遗传基因风险筛查分类模型输出的预测结果的影响度，直观地观察到每一个基因数据特征对慢性肾脏病恶化的影响大小以及正负情况，即观察到每一个与慢性肾脏病有关的基因的风险大小；

所述shap方法将原始复杂的慢性肾脏病遗传基因风险筛查分类模型转化为围绕每个数据点的简单线性加法，假设第i′个测试集样本x′_i′的第j个基因特征为x′_i′j，且慢性肾脏病遗传基因风险筛查分类模型对该第i′个测试集样本的恶化概率预测值为

慢性肾脏病遗传基因风险筛查分类模型的基线为y_base，那么shap值服从以下等式：

其中

的贡献值，即第i′个测试集样本中第j个基因特征对第i′个测试集样本的恶化的影响度，以平均shap绝对值I_j衡量基因特征重要性，即将所有测试集样本的第j个基因特征的影响度φ_j取绝对值后再进行求和，得到第j个基因特征对慢性肾脏病遗传基因风险筛查分类模型输出的预测结果的影响度I_j，以考察基因特征的风险程度，其中I_j的计算公式为：

其中|*|表示取绝对值操作。

6.根据权利要求5所述的慢性肾脏病遗传基因风险筛查系统，其特征在于，所述慢性肾脏病遗传基因风险筛查分类模型的基线是所有测试集样本的目标变量的均值。

7.根据权利要求6所述的慢性肾脏病遗传基因风险筛查系统，其特征在于，所述慢性肾脏病遗传基因风险筛查分类模型输出的预测结果包含恶化概率以及每个基因特征的影响度。

8.根据权利要求7所述的慢性肾脏病遗传基因风险筛查系统，其特征在于，所述终端为电脑端的预先安装的慢性肾脏病遗传基因风险筛查系统，所述慢性肾脏病遗传基因风险筛查分类模型自动将风险报告上传至终端；医生和患者均可通过电脑端的慢性肾脏病遗传基因风险筛查系统来查询报告结果，并打印风险报告。