CN115346598A - 一种慢性肾脏病遗传基因风险筛查系统 - Google Patents

一种慢性肾脏病遗传基因风险筛查系统 Download PDF

Info

Publication number
CN115346598A
CN115346598A CN202210882125.6A CN202210882125A CN115346598A CN 115346598 A CN115346598 A CN 115346598A CN 202210882125 A CN202210882125 A CN 202210882125A CN 115346598 A CN115346598 A CN 115346598A
Authority
CN
China
Prior art keywords
gene
kidney disease
chronic kidney
data
genetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210882125.6A
Other languages
English (en)
Inventor
段立新
李文
刘丹蕾
魏凡越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210882125.6A priority Critical patent/CN115346598A/zh
Publication of CN115346598A publication Critical patent/CN115346598A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Public Health (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Ecology (AREA)
  • Physiology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种慢性肾脏病遗传基因风险筛查系统,该系统通过机器学习方法构建的慢性肾脏病遗传基因风险筛查分类模型实现,该系统包括:用于整理患者遗传基因信息数据的模块;用于进行数据预处理并将数据分为训练数据和测试数据的模块;用于利用训练数据训练模型的模块;用于将测试数据输入经训练后的模型进行模型测试的模块;用于将待检查的遗传基因信息输入模型,得到最终的风险报告的模块。本发明采用XGBoost方法训练慢性肾脏病遗传基因风险筛查分类模型,根据与肾病有关的遗传基因信息数据,可在早期筛查出慢性肾病高危人群,利于慢性肾病的防治。

Description

一种慢性肾脏病遗传基因风险筛查系统
技术领域
本发明涉及机器学习领域,特别涉及一种慢性肾脏病遗传基因风险筛查系统。
背景技术
我国慢性肾脏病(chronic kidney disease,CKD)人群患病率约为10.8%,CKD患者病情呈慢性进行性进展,最终发展至终末期肾病(即尿毒症)。慢性肾脏病具有高患病率、低知晓率和预后差等特点,我国慢性肾脏病及终末期肾脏病的主要构成均是肾炎,肾炎病程长,病情迁延,最终至慢性肾衰竭。近年来,医生发现慢性肾脏病与遗传因素具有一定程度的关联,因此建立一个有效的慢性肾脏病的遗传基因风险筛查装置进行早期慢性肾脏病普查,利于早发现早治疗,对提高我国肾脏疾病的防治水平具有重要的特殊意义。
发明内容
为了解决上述技术问题,本发明提出一种基于机器学习的慢性肾脏病遗传基因风险筛查系统,利用该系统和与肾病有关的遗传基因信息数据,筛查出慢性肾脏病高危人群。
本发明提出的一种慢性肾脏病遗传基因风险筛查系统,利用机器学习方法XGBoost构建慢性肾脏病遗传基因风险筛查的分类模型,运用与慢性肾脏病有关的遗传基因信息数据,面向慢性肾脏病患者是否会恶化发展为终末期肾病进行评估和预测,筛选出慢性肾脏病的潜在高危人群,做到早发现早预防早治疗。该系统包含数据采集模块、数据预处理模块、模型训练模块、模型预测模块和报告展示模块。
1、数据采集模块:采集慢性肾脏病患者的遗传基因信息数据和慢性肾脏病患者的恶化标签,整理遗传基因信息数据中每个基因点位的变异情况和变异类型,将其中与肾病相关的遗传基因信息数据整理为电子遗传基因信息数据(下文统称基因数据),并计算基因风险评分数值,得到基因数据集。同时建立慢性肾脏病遗传基因专业数据库,将整理好的电子数据及基因风险评分数值录入慢性肾脏病遗传基因专业数据库中。
所述采集慢性肾脏病患者的遗传基因信息数据,是通过专业的基因检测芯片和慢性肾脏病患者的血液样本进行基因检测得到;
所述恶化标签,即慢性肾脏病是否恶化,即是否达到终末期肾病或eGFR(肾小球滤过率)下降大于50%。其中,终末期肾病指eGFR<15ml/min/1.73m2或慢性肾脏病患者开始进行肾脏替代治疗,且达到终末期肾病或eGFR下降大于50%的时间持续3个月以上。
所述慢性肾脏病遗传基因专业数据库,是一个可查询和维护的全国联网数据库,用于记录维护患者的遗传基因信息数据,以及为未来可能的相关肾病医学研究和相关肾病遗传研究提供数据支持。
2、数据预处理模块:对数据采集模块得到的基因数据集进行预处理,包含数据清洗和特征归一化处理,通过数据清洗得到基因数据特征F=[f1,f2,…,fn],其中,fi表示第i个特征,n表示共有n个特征,然后通过特征归一化处理得到用于后续模型训练及预测的归一化基因数据特征表示X=[x1,x2,…,xn];将恶化标签处理为1和0的二分类标签Y,作为后续模型训练及测试的标签,其中1表示患者的慢性肾脏病恶化,0表示慢性肾脏病没有恶化。最后将预处理后的基因数据集拆分为训练集和测试集。
所述数据清洗的方法,是对有缺失值的基因数据采用均值填补的方法,填补缺失值;
所述特征归一化处理,指通过如下公式将基因数据特征F映射到0-1之间,避免因为数据范围相差过大,增加模型训练的难度。
Figure BDA0003764590380000021
上式中,fi表示对应患者的基因数据特征表示为F中的第i个基因数据特征,fmin表示所有患者的第i个基因数据特征的最小值,fmax表示所有患者的第i个基因数据特征的最大值。xi表示第i个基因数据特征被归一化之后的标准特征值。那么,最终归一化之后的基因数据特征表示为X=[x1,x2,…,xn]。
所述数据集拆分,即按照预设比例将预处理后的基因数据集拆分为训练集数据和测试集数据。具体地,采用python中的sklearn包中的train_test_split分割方法,将预处理后的基因数据集按照7:3的比例分为训练集和测试集。
3、模型训练模块:在该模块,通过机器学习XGBoost方法,通过数据预处理模块得到的训练集数据,训练构建的慢性肾脏病遗传基因风险筛查分类模型。
所述XGBoost方法是一种基于梯度提升决策树的算法,以顺序的方式将一系列相对较弱的基分类器集成为一个较强的分类器,它在当前决策树的基础上生成下一棵决策树,树中的结点是基因数据特征,依次从第T1棵树开始训练,在已经训练好第T1~Tt-1棵树后,就不再调整这第T1~Tt-1棵树,而继续训练第Tt棵树。
所述慢性肾脏病遗传基因风险筛查的分类模型,即采用XGBoost方法建立的分类模型,输入数据为数据预处理模块得到的训练集基因数据特征X=[x1,x2,…,xn]以及训练集数据的样本的恶化标签,分类模型通过迭代训练,学习恶化样本和非恶化样本的基因数据特征分布,最终训练目标是得到用于后续慢性肾脏病基因风险筛查的分类模型,用于预测慢性肾脏病患者恶化的概率。当模型的准确度和AUC满足要求时,停止训练。
所述模型准确度,即测试集中分类正确的样本数占测试集中的总的样本数的比例。
所述AUC(Area Under Curve),即ROC(Receiver Operating CharacteristicCurve)曲线下与坐标轴围成的面积。
4、模型预测模块:在该模块中,使用模型训练模块得到的慢性肾脏病基因风险筛查的分类模型,利用数据预处理得到的测试集数据,预测慢性肾脏病患者恶化的概率;进一步通过shap(SHapley Additive exPlanation)方法,输出每个基因特征的影响度,来对慢性肾脏病遗传基因风险筛查的分类模型的预测结果进行解释。
所述shap方法是一种模型解释方法,解释慢性肾脏病基因风险筛查的分类模型输出的预测结果,输出每一个基因数据特征对慢性肾脏病基因风险筛查的分类模型输出的预测结果的影响度,可以直观地观察到每一个基因数据特征对慢性肾脏病恶化的影响的大小以及正负情况,即观察到每一个与慢性肾脏病有关的基因的风险大小,从而最终达到建立起慢性肾脏病基因风险筛查的系统的目标,更有利于研究人员在未来更关注对慢性肾脏病影响更高的基因风险研究。
所述shap方法将原始的复杂的慢性肾脏病基因风险筛查的分类模型转化为围绕每个数据点的简单线性加法,假设第i′个测试集样本x′i′的第j个基因特征为x′i′j,且慢性肾脏病遗传基因风险筛查分类模型对该第i′个测试集样本的恶化概率预测值为
Figure BDA0003764590380000031
慢性肾脏病基因风险筛查的分类模型的基线(通常是所有测试集样本的目标变量的均值)为ybase,n表示共有n个特征,那么shap值服从以下等式:
Figure BDA0003764590380000032
其中
Figure BDA0003764590380000033
为x′i′j的shap值,即第i′个测试集样本中第j个基因特征对最终预测值
Figure BDA0003764590380000034
的贡献值,即第i′个测试集样本中第j个基因特征对第i′个测试集样本的恶化的影响度。进一步地,本发明中,以平均shap绝对值Ij衡量基因特征重要性,即将所有测试集样本的第j个基因特征的影响度φj取绝对值后再进行求和,得到第j个基因特征对慢性肾脏病基因风险筛查的分类模型输出的预测结果的影响度Ij,以考察基因特征的风险程度,其中Ij的计算公式为
Figure BDA0003764590380000035
其中|*|表示取绝对值操作。
5、报告生成模块:将慢性肾脏病基因风险筛查的分类模型输出的预测结果(包含恶化概率以及每个基因特征的影响度)整理为风险报告,上传至电脑终端,医生和患者均可在终端中查询到报告结果。
所述风险报告,包含待检查的遗传基因信息数据、慢性肾脏病基因风险筛查的分类模型根据待检查的遗传基因信息数据预测出的恶化概率和对预测结果进行解释的基因特征的影响度、患者的历史病历以及医生给出的防治建议;
所述终端为电脑端的预先安装的如上述描述的慢性肾脏病遗传基因风险筛查系统,所述慢性肾脏病遗传基因风险筛查分类模型自动将风险报告上传至终端;医生和患者均可通过电脑端的系统来查询结果,并打印风险报告。
本发明提出的一种慢性肾脏病遗传基因风险筛查系统,利用机器学习方法XGBoost构建慢性肾脏病遗传基因风险筛查的分类模型,运用与慢性肾脏病有关的遗传基因信息数据,面向慢性肾脏病患者是否会恶化发展为终末期肾病进行评估和预测,可在早期筛选出慢性肾脏病的潜在高危人群,做到早发现早预防早治疗。
附图说明
图1是慢性肾脏病遗传基因风险筛查系统示意图;
图2是慢性肾脏病遗传基因风险筛查系统工作流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,所描述的实施例是本发明一部分实施例,而不是全部的实施例,也并非旨在限制要求保护的本发明的范围。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种慢性肾脏病遗传基因风险筛查系统,利用机器学习方法XGBoost构建慢性肾脏病遗传基因风险筛查分类模型,以慢性肾脏病患者的遗传基因信息数据作为输入,面向慢性肾脏病患者是否会恶化发展为终末期肾病进行评估和预测,以慢性肾脏病患者可能恶化的概率作为输出,并通过shap方法筛查与慢性肾脏病有关的遗传基因的风险程度,筛选出慢性肾脏病的潜在高危人群,做到早发现早预防早治疗。该慢性肾脏病遗传基因风险筛查系统包括数据采集模块、数据预处理模块、模型训练模块、模型预测模块和报告展示模块;
其中,所述数据采集模块用于采集慢性肾脏病患者的遗传基因信息数据和慢性肾脏病患者的恶化标签,整理遗传基因信息数据中每个基因点位的变异情况和变异类型,将其中与肾病相关的遗传基因信息数据整理为电子遗传基因信息数据,即基因数据,并计算基因风险评分数值,得到基因数据集;同时建立慢性肾脏病遗传基因专业数据库,将整理好的基因数据及基因风险评分数值录入慢性肾脏病遗传基因专业数据库中;
所述数据预处理模块用于对数据采集模块得到的基因数据集进行预处理,包含数据清洗和特征归一化处理,通过数据清洗得到基因数据特征F,然后通过特征归一化处理得到用于后续模型训练及预测的归一化基因数据特征表示X=[x1,x2,…,xn];将恶化标签处理为1和0的二分类标签Y,作为后续模型训练及测试的标签,其中1表示患者的慢性肾脏病恶化,0表示慢性肾脏病没有恶化,最后将预处理后的基因数据集按照预设比例拆分为训练集和测试集;
所述数据清洗是对有缺失值的基因数据采用均值填补的方法,填补缺失值;
所述特征归一化处理是指通过如下公式将得到的基因数据特征F映射到0-1之间,避免因为数据范围相差过大,增加模型训练的难度,其中,基因数据特征表示为F=[f1,f2,…,fn],其中,fi表示第i个特征,n表示共有n个特征;
Figure BDA0003764590380000051
上式中,fi表示对应患者的基因数据特征表示为F中的第i个特征,fmin表示所有患者的第i个特征的最小值,fmax表示所有患者的第i个特征的最大值;xi表示第i个基因数据特征被归一化之后的标准特征值,最终归一化之后的基因数据特征表示为X=[x1,x2,…,xn];
所述模型训练模块通过机器学习XGBoost方法,根据数据预处理模块得到的训练集训练构建的慢性肾脏病遗传基因风险筛查分类模型;
所述慢性肾脏病遗传基因风险筛查分类模型,输入数据为数据预处理模块得到的训练集中归一化基因数据特征X=[x1,x2,…,xn]以及训练集数据样本的恶化标签,该分类模型通过迭代训练,学习恶化样本和非恶化样本的基因数据特征分布,当模型的准确度和AUC满足要求时,停止训练,最终得到训练完成的慢性肾脏病遗传基因风险筛查分类模型,用于预测慢性肾脏病患者恶化的概率;
所述模型的准确度,即测试集中分类正确的样本数占测试集中的总的样本数的比例;
所述AUC,即ROC曲线下与坐标轴围成的面积;
所述模型预测模块使用模型训练模块得到的训练完成的慢性肾脏病遗传基因风险筛查分类模型,利用数据预处理得到的测试集中的数据样本,即测试集样本,预测慢性肾脏病患者恶化的概率;进一步通过shap方法,输出每个基因特征的影响度,来对慢性肾脏病遗传基因风险筛查分类模型的预测结果进行解释;
所述报告生成模块用于将慢性肾脏病遗传基因风险筛查分类模型输出的预测结果(包含恶化概率以及每个基因特征的影响度)整理为风险报告,上传至终端,医生和患者均可在终端中查询报告结果;
所述风险报告,包含待检查的遗传基因信息数据、慢性肾脏病遗传基因风险筛查分类模型根据待检查的遗传基因信息数据预测出的恶化概率预测值和对预测结果进行解释的基因特征影响度、患者的历史病历以及医生给出的防治建议。
具体地,如图2所示,本发明提出的一种慢性肾脏病遗传基因风险筛查系统的工作流程包括系统建立和外部验证两个大的步骤,其中系统建立通过采集数据、数据预处理、数据集划分、模型训练、模型预测5个步骤完成,从而建立起有效的慢性肾脏病遗传基因风险筛查系统;外部验证通过采集待检查的慢性肾脏病患者的遗传基因信息数据、待检查数据预处理、待检查慢性肾脏病患者的恶化预测及风险报告输出3个步骤完成,从而可以保证该慢性肾脏病遗传基因风险筛查系统可以被每一个慢性肾脏病患者使用。具体流程如下:
S1、采集数据:采集慢性肾脏病患者的遗传基因信息数据和慢性肾脏病患者的恶化标签,整理遗传基因信息数据中每个基因点位的变异情况和变异类型,将其中与肾病相关的遗传基因信息数据整理为基因数据,并计算基因风险评分数值,得到基因数据集。同时建立慢性肾脏病遗传基因专业数据库,将整理好的电子数据及基因风险评分数值录入慢性肾脏病遗传基因专业数据库中。
S2、数据预处理:对基因数据集进行数据清洗,对有缺失值的基因数据采用均值填补的方法填补缺失值;再对基因数据进行特征归一化处理,并对隐私信息进行脱敏处理等,得到基因数据特征表示。对恶化标签进行处理,处理为1和0的标签,基因数据特征表示及恶化标签构成了数据集。
S3、数据集拆分:将数据集的70%划分为训练集数据,用于后续模型训练;将数据集的30%划分为测试集数据,用于后续模型测试。
S4、模型训练:采用python中的sklearn包中的XGBoost算法建立慢性肾脏病遗传基因风险筛查的分类模型,通过训练集数据对慢性肾脏病遗传基因风险筛查的分类模型进行迭代训练,当模型准确率大于预设的0.95且AUC大于预设的0.85时,模型停止训练,得到训练完成的慢性肾脏病遗传基因风险筛查的分类模型。
S5、模型测试:将测试集数据输入经训练完成得到的慢性肾脏病遗传基因风险筛查的分类模型,进行模型测试,输出慢性肾脏病患者的恶化概率和每个基因特征的影响度,来对慢性肾脏病遗传基因风险筛查的分类模型的预测结果进行解释,从而证明慢性肾脏病遗传基因风险筛查的分类模型有效。
S6、采集待检查的慢性肾脏病患者的遗传基因信息数据:患者进行专业的基因检测后,得到专业的遗传基因信息结果,整理遗传基因信息数据中每个基因点位的变异情况和变异类型,将其中与肾病相关的遗传基因信息数据整理为基因数据,并计算基因风险评分数值。
S7、待检查数据预处理:将待检查的遗传基因信息数据进行数据清洗和特征归一化处理,得到后续可输入慢性肾脏病遗传基因风险筛查的分类模型的待检查数据。
S8、待检查慢性肾脏病患者的恶化预测及风险报告输出:将步骤S7中的待检查数据输入步骤S4中训练完成并在步骤S5中经过测试证明有效的慢性肾脏病遗传基因风险筛查的分类模型中,输出待检查数据的恶化概率值和每个基于特征的影响度。并自动整理为风险报告,上传至电脑终端,医生和患者均可在终端中查询到报告结果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (8)

1.一种慢性肾脏病遗传基因风险筛查系统,其特征在于,该系统包括数据采集模块、数据预处理模块、模型训练模块、模型预测模块和报告生成模块;
其中,所述数据采集模块用于采集慢性肾脏病患者的遗传基因信息数据和慢性肾脏病患者的恶化标签,整理遗传基因信息数据中每个基因点位的变异情况和变异类型,将其中与肾病相关的遗传基因信息数据整理为电子遗传基因信息数据,即基因数据,并计算基因风险评分数值,得到基因数据集;同时建立慢性肾脏病遗传基因专业数据库,将整理好的基因数据及基因风险评分数值录入慢性肾脏病遗传基因专业数据库中;
所述数据预处理模块用于对数据采集模块得到的基因数据集进行预处理,包含数据清洗和特征归一化处理,通过数据清洗得到基因数据特征F,然后通过特征归一化处理得到用于后续模型训练及预测的归一化基因数据特征表示X=[x1,x2,...,xn];将恶化标签处理为1和0的二分类标签Y,作为后续模型训练及测试的标签,其中1表示患者的慢性肾脏病恶化,0表示慢性肾脏病没有恶化,最后将预处理后的基因数据集按照预设比例拆分为训练集和测试集;
所述数据清洗是对有缺失值的基因数据采用均值填补的方法,填补缺失值;
所述特征归一化处理是指通过如下公式将得到的基因数据特征F映射到0-1之间,其中,基因数据特征表示为F=[f1,F2,...,fn],其中,fi表示第i个特征,n表示共有n个特征;
Figure FDA0003764590370000011
上式中,fi表示对应患者的基因数据特征表示为F中的第i个特征,fmin表示所有患者的第i个特征的最小值,fmax表示所有患者的第i个特征的最大值;xi表示第i个基因数据特征被归一化之后的标准特征值,最终归一化之后的基因数据特征表示为X=[x1,x2,...,xn];
所述模型训练模块通过机器学习XGBoost方法,根据数据预处理模块得到的训练集训练构建的慢性肾脏病遗传基因风险筛查分类模型;
所述慢性肾脏病遗传基因风险筛查分类模型,输入数据为数据预处理模块得到的训练集中归一化基因数据特征X=[x1,x2,...,xn]以及训练集数据样本的恶化标签,该分类模型通过迭代训练,学习恶化样本和非恶化样本的基因数据特征分布,当模型的准确度和AUC满足要求时,停止训练,最终得到训练完成的慢性肾脏病遗传基因风险筛查分类模型,用于预测慢性肾脏病患者恶化的概率;
所述模型的准确度,即测试集中分类正确的样本数占测试集中的总的样本数的比例;
所述AUC,即ROC曲线下与坐标轴围成的面积;
所述模型预测模块使用模型训练模块得到的训练完成的慢性肾脏病遗传基因风险筛查分类模型,利用数据预处理得到的测试集中的数据样本,即测试集样本,预测慢性肾脏病患者恶化概率;进一步通过shap方法,输出每个基因特征的影响度,来对慢性肾脏病遗传基因风险筛查分类模型的预测结果进行解释;
所述报告生成模块用于将慢性肾脏病遗传基因风险筛查分类模型输出的预测结果整理为风险报告,上传至终端,医生和患者均可在终端中查询报告结果;
所述风险报告,包含待检查的遗传基因信息数据、慢性肾脏病遗传基因风险筛查分类模型根据待检查的遗传基因信息数据预测出的恶化概率预测值和对预测结果进行解释的基因特征影响度、患者的历史病历以及医生给出的防治建议。
2.根据权利要求1所述的慢性肾脏病遗传基因风险筛查系统,其特征在于,所述采集慢性肾脏病患者的遗传基因信息数据,是通过专业的基因检测芯片和慢性肾脏病患者的血液样本进行基因检测得到;
所述恶化标签用于表征慢性肾脏病是否恶化,即是否达到终末期肾病或肾小球滤过率eGFR下降大于50%,其中,终末期肾病指eGFR<15ml/min/1.73m2或慢性肾脏病患者开始进行肾脏替代治疗,且达到终末期肾病或eGFR下降大于50%的时间持续3个月以上。
3.根据权利要求2所述的慢性肾脏病遗传基因风险筛查系统,其特征在于,所述预处理后的基因数据集按照预设比例拆分为训练集和测试集具体为,采用python中的sklearn包中的train_test_split分割方法,将预处理后的基因数据集按照7∶3的比例分为训练集和测试集。
4.根据权利要求3所述的慢性肾脏病遗传基因风险筛查系统,其特征在于,所述XGBoost方法是一种基于梯度提升决策树的算法,以顺序方式将一系列相对较弱的基分类器集成为一个较强的分类器,它在当前决策树的基础上生成下一棵决策树,树中的结点是基因数据特征,依次从第T1棵树开始训练,在已经训练好第T1~Tt-1棵树后,就不再调整这第T1~Tt-1棵树,而继续训练第Tt棵树。
5.根据权利要求4所述的慢性肾脏病遗传基因风险筛查系统,其特征在于,所述shap方法是一种模型解释方法,解释慢性肾脏病遗传基因风险筛查分类模型输出的预测结果,输出每一个基因数据特征对慢性肾脏病遗传基因风险筛查分类模型输出的预测结果的影响度,直观地观察到每一个基因数据特征对慢性肾脏病恶化的影响大小以及正负情况,即观察到每一个与慢性肾脏病有关的基因的风险大小;
所述shap方法将原始复杂的慢性肾脏病遗传基因风险筛查分类模型转化为围绕每个数据点的简单线性加法,假设第i′个测试集样本x′i′的第j个基因特征为x′i′j,且慢性肾脏病遗传基因风险筛查分类模型对该第i′个测试集样本的恶化概率预测值为
Figure FDA0003764590370000031
慢性肾脏病遗传基因风险筛查分类模型的基线为ybase,那么shap值服从以下等式:
Figure FDA0003764590370000032
其中
Figure FDA0003764590370000033
为x′i′j的shap值,即第i′个测试集样本中第j个基因特征对最终预测值
Figure FDA0003764590370000034
的贡献值,即第i′个测试集样本中第j个基因特征对第i′个测试集样本的恶化的影响度,以平均shap绝对值Ij衡量基因特征重要性,即将所有测试集样本的第j个基因特征的影响度φj取绝对值后再进行求和,得到第j个基因特征对慢性肾脏病遗传基因风险筛查分类模型输出的预测结果的影响度Ij,以考察基因特征的风险程度,其中Ij的计算公式为:
Figure FDA0003764590370000035
其中|*|表示取绝对值操作。
6.根据权利要求5所述的慢性肾脏病遗传基因风险筛查系统,其特征在于,所述慢性肾脏病遗传基因风险筛查分类模型的基线是所有测试集样本的目标变量的均值。
7.根据权利要求6所述的慢性肾脏病遗传基因风险筛查系统,其特征在于,所述慢性肾脏病遗传基因风险筛查分类模型输出的预测结果包含恶化概率以及每个基因特征的影响度。
8.根据权利要求7所述的慢性肾脏病遗传基因风险筛查系统,其特征在于,所述终端为电脑端的预先安装的慢性肾脏病遗传基因风险筛查系统,所述慢性肾脏病遗传基因风险筛查分类模型自动将风险报告上传至终端;医生和患者均可通过电脑端的慢性肾脏病遗传基因风险筛查系统来查询报告结果,并打印风险报告。
CN202210882125.6A 2022-07-26 2022-07-26 一种慢性肾脏病遗传基因风险筛查系统 Pending CN115346598A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210882125.6A CN115346598A (zh) 2022-07-26 2022-07-26 一种慢性肾脏病遗传基因风险筛查系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210882125.6A CN115346598A (zh) 2022-07-26 2022-07-26 一种慢性肾脏病遗传基因风险筛查系统

Publications (1)

Publication Number Publication Date
CN115346598A true CN115346598A (zh) 2022-11-15

Family

ID=83950942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210882125.6A Pending CN115346598A (zh) 2022-07-26 2022-07-26 一种慢性肾脏病遗传基因风险筛查系统

Country Status (1)

Country Link
CN (1) CN115346598A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117198551A (zh) * 2023-11-08 2023-12-08 天津医科大学第二医院 一种基于大数据分析的肾功能恶化的预判系统
CN117802220A (zh) * 2023-12-29 2024-04-02 北京果壳生物科技有限公司 一种用于多种单基因隐性遗传病致病基因的筛查模型及应用
CN117976142A (zh) * 2024-04-02 2024-05-03 营动智能技术(山东)有限公司 一种基于XGBoost和SHAP值的慢性病精准干预系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117198551A (zh) * 2023-11-08 2023-12-08 天津医科大学第二医院 一种基于大数据分析的肾功能恶化的预判系统
CN117198551B (zh) * 2023-11-08 2024-01-30 天津医科大学第二医院 一种基于大数据分析的肾功能恶化的预判系统
CN117802220A (zh) * 2023-12-29 2024-04-02 北京果壳生物科技有限公司 一种用于多种单基因隐性遗传病致病基因的筛查模型及应用
CN117976142A (zh) * 2024-04-02 2024-05-03 营动智能技术(山东)有限公司 一种基于XGBoost和SHAP值的慢性病精准干预系统

Similar Documents

Publication Publication Date Title
US10580530B2 (en) Diagnosis assistance system and control method thereof
CN115346598A (zh) 一种慢性肾脏病遗传基因风险筛查系统
US10327637B2 (en) Systems, methods, and computer-readable media for patient image analysis to identify new diseases
KR20200005404A (ko) 진단 보조 시스템
CN112819093B (zh) 基于小数据集与卷积神经网络的人机不同步识别方法
CN111681219A (zh) 基于深度学习的新冠肺炎ct图像分类方法、系统及设备
US20200111212A1 (en) Chromosome Abnormality Detecting Model, Detecting System Thereof, And Method For Detecting Chromosome Abnormality
CN110731773A (zh) 一种基于心电波形图全局与局部深度特征融合的异常心电图筛查方法
CN111508603A (zh) 一种基于机器学习的出生缺陷预测及风险评估方法、系统及电子设备
Tobias et al. CNN-based deep learning model for chest X-ray health classification using tensorflow
CN112837799B (zh) 基于区块链的远程互联网大数据智慧医疗系统
CN116092680B (zh) 基于随机森林算法的腹主动脉瘤早期预测方法及系统
US20220277811A1 (en) Detecting False Positive Variant Calls In Next-Generation Sequencing
JP2023532292A (ja) 機械学習ベースの医療データチェッカ
CN116740426A (zh) 一种功能磁共振影像的分类预测系统
CN116452851A (zh) 病症分类模型的训练方法、装置、终端及可读存储介质
CN116189909B (zh) 基于推举算法的临床医学判别方法及系统
JP2024061599A (ja) 階層図ニューラルネットワークに基づく疾患診療過程異常識別システム
CN115526882A (zh) 一种医学图像的分类方法、装置、设备及存储介质
CN112086130B (zh) 一种基于测序和数据分析的肥胖风险预测装置的预测方法
Roshanzamir et al. Quantifying uncertainty in automated detection of alzheimer’s patients using deep neural network
EP3855452A1 (en) Tumor classification
CN116738352B (zh) 视网膜血管阻塞疾病的视杆细胞异常分类方法及装置
CN116230193B (zh) 一种智能化医院用档案管理方法及系统
TWI817795B (zh) 癌症進展判別方法及其系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination