CN117711616A - 基于基因表达数据的阿尔兹海默预测模型建立方法及系统 - Google Patents
基于基因表达数据的阿尔兹海默预测模型建立方法及系统 Download PDFInfo
- Publication number
- CN117711616A CN117711616A CN202311576595.0A CN202311576595A CN117711616A CN 117711616 A CN117711616 A CN 117711616A CN 202311576595 A CN202311576595 A CN 202311576595A CN 117711616 A CN117711616 A CN 117711616A
- Authority
- CN
- China
- Prior art keywords
- genes
- model
- alzheimer
- gene expression
- expression data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 143
- 238000000034 method Methods 0.000 title claims abstract description 33
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 148
- 210000005013 brain tissue Anatomy 0.000 claims abstract description 58
- 208000024827 Alzheimer disease Diseases 0.000 claims abstract description 33
- BWGNESOTFCXPMA-UHFFFAOYSA-N Dihydrogen disulfide Chemical compound SS BWGNESOTFCXPMA-UHFFFAOYSA-N 0.000 claims abstract description 30
- 238000011156 evaluation Methods 0.000 claims abstract description 29
- 238000012216 screening Methods 0.000 claims abstract description 27
- 238000010195 expression analysis Methods 0.000 claims abstract description 16
- 238000007637 random forest analysis Methods 0.000 claims abstract description 16
- 210000004556 brain Anatomy 0.000 claims abstract description 12
- 238000010219 correlation analysis Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000007477 logistic regression Methods 0.000 claims description 13
- 239000000523 sample Substances 0.000 claims description 12
- 238000012352 Spearman correlation analysis Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 5
- 101150027068 DEGS1 gene Proteins 0.000 description 4
- 101000856606 Homo sapiens GTP-binding protein GEM Proteins 0.000 description 4
- 101000969031 Homo sapiens Nuclear protein 1 Proteins 0.000 description 4
- 102100021133 Nuclear protein 1 Human genes 0.000 description 4
- 108010003205 Vasoactive Intestinal Peptide Proteins 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 101001068183 Homo sapiens Serine/threonine-protein phosphatase with EF-hands 1 Proteins 0.000 description 3
- 102100034500 Serine/threonine-protein phosphatase with EF-hands 1 Human genes 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 210000003710 cerebral cortex Anatomy 0.000 description 2
- 238000013399 early diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 101150044508 key gene Proteins 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- -1 resured 6 Proteins 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 101150098072 20 gene Proteins 0.000 description 1
- 102100037149 3-oxoacyl-[acyl-carrier-protein] synthase, mitochondrial Human genes 0.000 description 1
- 102100033400 4F2 cell-surface antigen heavy chain Human genes 0.000 description 1
- 102100024881 C3 and PZP-like alpha-2-macroglobulin domain-containing protein 8 Human genes 0.000 description 1
- 102100035300 Cystine/glutamate transporter Human genes 0.000 description 1
- 206010012289 Dementia Diseases 0.000 description 1
- 102100034583 Dolichyl-diphosphooligosaccharide-protein glycosyltransferase subunit 1 Human genes 0.000 description 1
- 102100025626 GTP-binding protein GEM Human genes 0.000 description 1
- 101000590272 Homo sapiens 26S proteasome non-ATPase regulatory subunit 2 Proteins 0.000 description 1
- 101001098439 Homo sapiens 3-oxoacyl-[acyl-carrier-protein] synthase, mitochondrial Proteins 0.000 description 1
- 101000848781 Homo sapiens Dolichyl-diphosphooligosaccharide-protein glycosyltransferase subunit 1 Proteins 0.000 description 1
- 101001107782 Homo sapiens Iron-sulfur protein NUBPL Proteins 0.000 description 1
- 101000966742 Homo sapiens Leucine-rich PPR motif-containing protein, mitochondrial Proteins 0.000 description 1
- 101000973473 Homo sapiens NADH dehydrogenase [ubiquinone] 1 alpha subcomplex subunit 11 Proteins 0.000 description 1
- 101000973439 Homo sapiens NADH-ubiquinone oxidoreductase 75 kDa subunit, mitochondrial Proteins 0.000 description 1
- 101001024714 Homo sapiens Nck-associated protein 1 Proteins 0.000 description 1
- 102100021998 Iron-sulfur protein NUBPL Human genes 0.000 description 1
- 102100040589 Leucine-rich PPR motif-containing protein, mitochondrial Human genes 0.000 description 1
- 102100022200 NADH dehydrogenase [ubiquinone] 1 alpha subcomplex subunit 11 Human genes 0.000 description 1
- 102100022195 NADH-ubiquinone oxidoreductase 75 kDa subunit, mitochondrial Human genes 0.000 description 1
- 101150006690 NEUROD6 gene Proteins 0.000 description 1
- 102100036954 Nck-associated protein 1 Human genes 0.000 description 1
- 102100030589 Neurogenic differentiation factor 6 Human genes 0.000 description 1
- 108091006313 SLC3A2 Proteins 0.000 description 1
- 108091006241 SLC7A11 Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000002222 downregulating effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005182 global health Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004770 neurodegeneration Effects 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 108091008025 regulatory factors Proteins 0.000 description 1
- 102000037983 regulatory factors Human genes 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例提供了一种基于基因表达数据的阿尔兹海默预测模型建立方法及系统,其中,方法包括:获取脑部患者与健康人的脑部组织基因表达数据集,对所述脑部组织基因表达数据集进行预处理得到处理后的脑部组织基因表达数据集;对所述处理后的脑部组织基因表达数据集进行差异表达分析得到与阿尔兹海默相关的差异表达基因,根据所述与阿尔兹海默相关的差异表达基因通过相关性分析筛选出与双硫死亡相关基因强相关的差异表达基因,将所述与双硫死亡相关基因强相关的差异表达基因输入随机森林模型得到关键基因;将所述关键基因分别输入预先构建的多个模型中得到各自的模型评价指标,选取模型评价指标最优的模型作为阿尔兹海默预测模型。
Description
技术领域
本文件涉及计算机技术领域,尤其涉及一种基于基因表达数据的阿尔兹海默预测模型建立方法及系统。
背景技术
阿尔兹海默症是一种起病隐匿的慢性神经退行性疾病,它是老年人群中最常见的痴呆症之一,严重影响其认知能力、记忆力和独立性,给患者的生活带来了巨大负担,并且由于人口老龄化,阿尔兹海默病的发病率在全球范围内不断上升,日益成为一个全球化的健康问题,早期诊断对于阿尔兹海默症的治疗至关重要,然而,现有的阿尔兹海默症的早期诊断依赖于临床评估和医学影像技术,这些方法存在一定的局限性。随着机器学习和人工智能算法的发展,通过分析大规模数据集可以学习和识别与疾病相关的特征,大数据的快速发展为阿尔兹海默症的筛查提供了新的机遇,因此,开发基于大数据的阿尔兹海默症预测模型具有重要的意义。
发明内容
本发明的目的在于提供一种基于基因表达数据的阿尔兹海默预测模型建立方法及系统,旨在解决现有技术中的上述问题。
本发明实施例提供一种基于基因表达数据的阿尔兹海默预测模型建立方法,包括:
获取脑部患者与健康人的脑部组织基因表达数据集,对所述脑部组织基因表达数据集进行预处理得到处理后的脑部组织基因表达数据集;
对所述处理后的脑部组织基因表达数据集进行差异表达分析得到与阿尔兹海默相关的差异表达基因,根据所述与阿尔兹海默相关的差异表达基因通过相关性分析筛选出与双硫死亡相关基因强相关的差异表达基因,将所述与双硫死亡相关基因强相关的差异表达基因输入随机森林模型得到关键基因;
将所述关键基因分别输入预先构建的多个模型中得到各自的模型评价指标,选取模型评价指标最优的模型作为阿尔兹海默预测模型。
本发明实施例提供一种基于基因表达数据的阿尔兹海默预测模型建立系统,包括:
预处理模块,用于获取脑部患者与健康人的脑部组织基因表达数据集,对所述脑部组织基因表达数据集进行预处理得到处理后的脑部组织基因表达数据集;
筛选模块,用于对所述处理后的脑部组织基因表达数据集进行差异表达分析得到与阿尔兹海默相关的差异表达基因,根据所述与阿尔兹海默相关的差异表达基因通过相关性分析筛选出与双硫死亡相关基因强相关的差异表达基因,将所述与双硫死亡相关基因强相关的差异表达基因输入随机森林模型得到关键基因;
建立模块,用于将所述关键基因分别输入预先构建的多个模型中得到各自的模型评价指标,选取模型评价指标最优的模型作为阿尔兹海默预测模型。
本发明实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述基于基因表达数据的阿尔兹海默预测模型建立方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述基于基因表达数据的阿尔兹海默预测模型建立方法的步骤。
采用本发明实施例可以包括以下有益效果:本发明实施例提出的基于基因表达数据的阿尔兹海默预测模型在解决阿尔兹海默症早期筛查困难的问题方面具有显著的效果。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于基因表达数据的阿尔兹海默预测模型建立方法流程图;
图2是本发明实施例的GSE33000数据集中差异表达基因的火山图;
图3是本发明实施例的GSE122063数据集中差异表达基因的火山图;
图4是本发明实施例的GSE33000数据集中选定的差异表达基因热图;
图5是本发明实施例的GSE122063数据集中选定的差异表达基因热图;
图6是本发明实施例的上调差异表达基因的维恩图;
图7是本发明实施例的下调差异表达基因的维恩图;
图8是本发明实施例的随机森林模型中的特征重要性排名;
图9是本发明实施例的前20个基因的相关性分析;
图10是本发明实施例的前20个基因表达量的小提琴图,其中,*、**、***、和****分别表示p<0.05、<0.01、<0.001、和<0.0001;
图11是本发明实施例的关键基因的ROC曲线以及对应的AUC值示意图;
图12是本发明实施例的逻辑回归模型在GSE33000训练集中ROC曲线以及对应的AUC值示意图;
图13是本发明实施例的逻辑回归模型在GSE122063验证集中ROC曲线以及对应的AUC值示意图;
图14是本发明实施例的逻辑回归模型在GSE5281验证集中ROC曲线以及对应的AUC值示意图;
图15是本发明实施例的基于基因表达数据的阿尔兹海默预测模型建立系统示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
方法实施例
根据本发明实施例,提供了一种基于基因表达数据的阿尔兹海默预测模型建立方法,图1是本发明实施例的基于基因表达数据的阿尔兹海默预测模型建立方法流程图,如图1所示,根据本发明实施例的基于基因表达数据的阿尔兹海默预测模型建立方法具体包括:
步骤S101,获取脑部患者与健康人的脑部组织基因表达数据集,对所述脑部组织基因表达数据集进行预处理得到处理后的脑部组织基因表达数据集,具体包括:
获取脑部患者与健康人的脑部组织基因表达数据集,对所述脑部组织基因表达数据集采用R语言进行过滤,排除非阿尔兹海默以及非正常的脑部组织基因表达数据,对过滤后的脑部组织基因表达数据集去除空基因探针表达数据并对重复的基因探针表达数据计算平均值得到处理后的脑部组织基因表达数据集;
步骤S102,对所述处理后的脑部组织基因表达数据集进行差异表达分析得到与阿尔兹海默相关的差异表达基因,根据所述与阿尔兹海默相关的差异表达基因通过相关性分析筛选出与双硫死亡相关基因强相关的差异表达基因,将所述与双硫死亡相关基因强相关的差异表达基因输入随机森林模型得到关键基因,具体包括:
对所述处理后的脑部组织基因表达数据集采用limma包进行差异表达分析得到与阿尔兹海默相关的差异表达基因,根据所述与阿尔兹海默相关的差异表达基因通过Spearman相关性分析筛选出与双硫死亡相关基因强相关的差异表达基因,将所述与双硫死亡相关基因强相关的差异表达基因输入随机森林模型得到关键基因;
步骤S103,将所述关键基因分别输入预先构建的多个模型中得到各自的模型评价指标,选取模型评价指标最优的模型作为阿尔兹海默预测模型,具体包括:
将所述关键基因分别输入预先构建的多个模型中得到各自的模型评价指标,其中,所述预先构建的多个模型包括逻辑回归模型、lasso回归模型、岭回归模型、支持向量机模型和AdaBoost模型,所述模型评价指标包括AUC和准确率,选取模型评价指标最优的模型作为阿尔兹海默预测模型。
以下结合本发明实施例的基于基因表达数据的阿尔兹海默预测模型建立方法的具体实施步骤,结合图2至图14,对本发明实施例的上述技术方案进行详细说明。
1、数据获取及预处理:
从GEO数据库获取包含阿尔兹海默症患者(AD)与健康人脑部组织基因芯片数据集;
使用R筛选脑皮层样本并过滤掉非AD及非正常对照样本,消除空基因探针计数,并对重复的探针表达数据取平均值;
双硫死亡相关基因是Liu等人鉴定的,包括SLC7A11、SLC3A2、RPN1、NCKAP1、NUBPL、NDUFA11、LRPPRC、OXSM、NDUFS1以及GYS110个基因。
2、差异表达分析:
使用limma包进行差异表达分析,鉴定与AD相关的差异表达基因,筛选标准:p.adjust<0.05,|log2fold change(FC)|>1,在GSE33000数据集中筛选到了377个DEGs,即差异表达基因,其中包括187个上调基因和190个下调基因,如图2所示,同样地,在GSE122063数据集中筛选出了716个DEGs,其中包括235个上调基因和481个下调基因,如图3所示,为了可视化这些DEGs的表达模式,绘制了一个显示20个选定DEGs表达水平的热图,如图4、5所示,分别对上调和下调基因组取交集,并在Venn图中可视化,最终有136个基因表现出一致的表达趋势,其中包括43个上调基因和93个下调基因,如图6、7和表1所示。
表1表达趋势一致的DEGs
3、筛选相关基因:
随后,通过Spearman相关性分析筛选出了90个与双硫死亡相关基因强相关的差异表达基因,筛选标准:p.adjust<0.05,相关系数>0.75。
4.、确定关键基因:
为了进一步筛选与双硫死亡相关的关键DEGs,本发明实施例构建了随机森林模型,随机森林模型是一种基于决策树进行学习的集成机器学习算法,在数据分析过程中提供变量重要性评分,因此利用模型提供的特征重要性参数筛选hub基因,即关键基因。图8展示了排名前20的基因,最终,选择了排名前5的基因作为hub基因:PPEF1、NEUROD6、VIP、NUPR1和GEM;此外,本发明实施例还研究了这些与双硫死亡相关的DEGs之间的相关性,揭示了这5个基因与其他调控因子之间的显著相关性,如图9所示。在这些hub基因中,PPEF1、NEUROD6和VIP在AD患者中表达水平较低,而NUPR1和GEM的表达水平较高,如图10所示。
5、构建预测模型并进行外部数据集验证:
评估了五个关键基因,即PPEF1、NEUROD6、VIP、NUPR1和GEM在GSE33000数据集中区分AD和非AD病例的能力,结果显示,这五个关键基因在GSE33000数据集上的AUC均超过0.9,如图11所示,为了建立一个比较准确的疾病诊断预测模型,本发明实施例构建了逻辑回归模型、lasso回归模型、岭回归模型、支持向量机模型和AdaBoost模型,并最终根据模型的AUC和准确度选择使用逻辑回归模型。逻辑回归在二分类问题中是一种常用的统计方法,用于分析疾病与致病因素之间的关联,使用GSE33000数据集构建了一个logistic回归预测模型,该模型具有较强的判别能力,AUC为0.952,如图12所示,该模型在GSE122063和GSE5281数据集上进行了进一步验证,AUC分别为0.916(如图13所示)和0.864(如图14所示)。预测模型使用的logistic回归公式如下所示:
logit(p)=0.180-0.964×PPEF1-0.487×NEUROD6-0.570×VIP+0.040×NUPR1+1.074×GEM。
综上所述,对本发明实施例的操作步骤总结如下:
步骤1、数据获取及预处理:
从GEO数据库获取包含阿尔兹海默症患者即AD患者与健康人脑部组织基因芯片数据集;
筛选脑皮层样本并过滤掉非AD及非正常对照样本,消除空基因探针计数,并对重复的探针表达数据取平均值;
查询双硫死亡相关基因。
步骤2、差异表达分析:
使用limma包进行差异表达分析,鉴定与AD相关的差异表达基因,筛选标准:p.adjust<0.05,|log2fold change(FC)|>1。
步骤3、筛选相关基因:
通过Spearman相关性分析筛选出与双硫死亡相关基因强相关的差异表达基因,筛选标准:p.adjust<0.05,相关系数>0.75。
步骤4、确定关键基因:
构建随机森林模型,利用模型提供的特征重要性参数筛选关键基因。
步骤5、构建预测模型并进行外部数据集验证:
预测模型构建包括逻辑回归模型、lasso回归模型、岭回归模型、SVM模型、AdaBoost模型,通过外部数据集验证,对各个模型的预测效果进行判别分析,根据模型的AUC、准确度筛选出最优模型。
系统实施例
根据本发明实施例,提供了一种基于基因表达数据的阿尔兹海默预测模型建立系统,图15是本发明实施例的基于基因表达数据的阿尔兹海默预测模型建立系统示意图,如图15所示,根据本发明实施例的基于基因表达数据的阿尔兹海默预测模型建立系统具体包括:
预处理模块1500,用于获取脑部患者与健康人的脑部组织基因表达数据集,对所述脑部组织基因表达数据集进行预处理得到处理后的脑部组织基因表达数据集,具体用于:
获取脑部患者与健康人的脑部组织基因表达数据集,对所述脑部组织基因表达数据集采用R语言进行过滤,排除非阿尔兹海默以及非正常的脑部组织基因表达数据,对过滤后的脑部组织基因表达数据集去除空基因探针表达数据并对重复的基因探针表达数据计算平均值得到处理后的脑部组织基因表达数据集;
筛选模块1502,用于对所述处理后的脑部组织基因表达数据集进行差异表达分析得到与阿尔兹海默相关的差异表达基因,根据所述与阿尔兹海默相关的差异表达基因通过相关性分析筛选出与双硫死亡相关基因强相关的差异表达基因,将所述与双硫死亡相关基因强相关的差异表达基因输入随机森林模型得到关键基因,具体用于:
对所述处理后的脑部组织基因表达数据集采用limma包进行差异表达分析得到与阿尔兹海默相关的差异表达基因,根据所述与阿尔兹海默相关的差异表达基因通过Spearman相关性分析筛选出与双硫死亡相关基因强相关的差异表达基因,将所述与双硫死亡相关基因强相关的差异表达基因输入随机森林模型得到关键基因;
建立模块1504,用于将所述关键基因分别输入预先构建的多个模型中得到各自的模型评价指标,选取模型评价指标最优的模型作为阿尔兹海默预测模型,具体用于:
将所述关键基因分别输入预先构建的多个模型中得到各自的模型评价指标,其中,所述预先构建的多个模型包括逻辑回归模型、lasso回归模型、岭回归模型、支持向量机模型和AdaBoost模型,所述模型评价指标包括AUC和准确率,选取模型评价指标最优的模型作为阿尔兹海默预测模型。
本发明实施例是与上述方法实施例对应的系统实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
装置实施例一
本发明实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理上运行的计算机程序,所述计算机程序被所述处理器执行时实现如方法实施例中所述的步骤。
装置实施例二
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传输的实现程序,所述程序被处理器执行时实现如方法实施例中所述的步骤。
本实施例所述计算机可读存储介质包括但不限于为:ROM、RAM、磁盘或光盘等。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于基因表达数据的阿尔兹海默预测模型建立方法,其特征在于,包括:
获取脑部患者与健康人的脑部组织基因表达数据集,对所述脑部组织基因表达数据集进行预处理得到处理后的脑部组织基因表达数据集;
对所述处理后的脑部组织基因表达数据集进行差异表达分析得到与阿尔兹海默相关的差异表达基因,根据所述与阿尔兹海默相关的差异表达基因通过相关性分析筛选出与双硫死亡相关基因强相关的差异表达基因,将所述与双硫死亡相关基因强相关的差异表达基因输入随机森林模型得到关键基因;
将所述关键基因分别输入预先构建的多个模型中得到各自的模型评价指标,选取模型评价指标最优的模型作为阿尔兹海默预测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取脑部患者与健康人的脑部组织基因表达数据集,对所述脑部组织基因表达数据集进行预处理得到处理后的脑部组织基因表达数据集具体包括:
获取脑部患者与健康人的脑部组织基因表达数据集,对所述脑部组织基因表达数据集采用R语言进行过滤,排除非阿尔兹海默以及非正常的脑部组织基因表达数据,对过滤后的脑部组织基因表达数据集去除空基因探针表达数据并对重复的基因探针表达数据计算平均值得到处理后的脑部组织基因表达数据集。
3.根据权利要求1所述的方法,其特征在于,所述对所述处理后的脑部组织基因表达数据集进行差异表达分析得到与阿尔兹海默相关的差异表达基因,根据所述与阿尔兹海默相关的差异表达基因通过相关性分析筛选出与双硫死亡相关基因强相关的差异表达基因,将所述与双硫死亡相关基因强相关的差异表达基因输入随机森林模型得到关键基因具体包括:
对所述处理后的脑部组织基因表达数据集采用limma包进行差异表达分析得到与阿尔兹海默相关的差异表达基因,根据所述与阿尔兹海默相关的差异表达基因通过Spearman相关性分析筛选出与双硫死亡相关基因强相关的差异表达基因,将所述与双硫死亡相关基因强相关的差异表达基因输入随机森林模型得到关键基因。
4.根据权利要求1所述的方法,其特征在于,所述将所述关键基因分别输入预先构建的多个模型中得到各自的模型评价指标,选取模型评价指标最优的模型作为阿尔兹海默预测模型具体包括:
将所述关键基因分别输入预先构建的多个模型中得到各自的模型评价指标,其中,所述预先构建的多个模型包括逻辑回归模型、lasso回归模型、岭回归模型、支持向量机模型和AdaBoost模型,所述模型评价指标包括AUC和准确率,选取模型评价指标最优的模型作为阿尔兹海默预测模型。
5.一种基于基因表达数据的阿尔兹海默预测模型建立系统,其特征在于,包括:
预处理模块,用于获取脑部患者与健康人的脑部组织基因表达数据集,对所述脑部组织基因表达数据集进行预处理得到处理后的脑部组织基因表达数据集;
筛选模块,用于对所述处理后的脑部组织基因表达数据集进行差异表达分析得到与阿尔兹海默相关的差异表达基因,根据所述与阿尔兹海默相关的差异表达基因通过相关性分析筛选出与双硫死亡相关基因强相关的差异表达基因,将所述与双硫死亡相关基因强相关的差异表达基因输入随机森林模型得到关键基因;
建立模块,用于将所述关键基因分别输入预先构建的多个模型中得到各自的模型评价指标,选取模型评价指标最优的模型作为阿尔兹海默预测模型。
6.根据权利要求5所述的系统,其特征在于,所述预处理模块具体用于:
获取脑部患者与健康人的脑部组织基因表达数据集,对所述脑部组织基因表达数据集采用R语言进行过滤排除非阿尔兹海默以及非正常的脑部组织基因表达数据,对过滤后的脑部组织基因表达数据集去除空基因探针表达数据并对重复的基因探针表达数据计算平均值得到处理后的脑部组织基因表达数据集。
7.根据权利要求5所述的系统,其特征在于,所述筛选模块具体用于:
对所述处理后的脑部组织基因表达数据集采用limma包进行差异表达分析得到与阿尔兹海默相关的差异表达基因,根据所述与阿尔兹海默相关的差异表达基因通过Spearman相关性分析筛选出与双硫死亡相关基因强相关的差异表达基因,将所述与双硫死亡相关基因强相关的差异表达基因输入随机森林模型得到关键基因。
8.根据权利要求5所述的方法,其特征在于,所述建立模块具体用于:
将所述关键基因分别输入预先构建的多个模型中得到各自的模型评价指标,其中,所述预先构建的多个模型包括逻辑回归模型、lasso回归模型、岭回归模型、支持向量机模型和AdaBoost模型,所述模型评价指标包括AUC和准确率,选取模型评价指标最优的模型作为阿尔兹海默预测模型。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-4中所述的基于基因表达数据的阿尔兹海默预测模型建立方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1-4中所述的基于基因表达数据的阿尔兹海默预测模型建立方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311576595.0A CN117711616A (zh) | 2023-11-23 | 2023-11-23 | 基于基因表达数据的阿尔兹海默预测模型建立方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311576595.0A CN117711616A (zh) | 2023-11-23 | 2023-11-23 | 基于基因表达数据的阿尔兹海默预测模型建立方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117711616A true CN117711616A (zh) | 2024-03-15 |
Family
ID=90161485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311576595.0A Pending CN117711616A (zh) | 2023-11-23 | 2023-11-23 | 基于基因表达数据的阿尔兹海默预测模型建立方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117711616A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070082350A1 (en) * | 2005-02-09 | 2007-04-12 | Philip Landfield | Assay and method for diagnosing and treating alzheimer's disease |
JP2012135304A (ja) * | 2010-12-08 | 2012-07-19 | Dainippon Sumitomo Pharma Co Ltd | アミロイドベータ産生制御因子を用いた阻害剤スクリーニング方法 |
CN113096814A (zh) * | 2021-05-28 | 2021-07-09 | 哈尔滨理工大学 | 一种基于多分类器融合的阿尔兹海默症分类预测方法 |
CN113308539A (zh) * | 2021-07-21 | 2021-08-27 | 河北医科大学第二医院 | 用于诊断阿尔茨海默病的产品 |
CN115565676A (zh) * | 2022-08-25 | 2023-01-03 | 常州工学院 | 一种基于影像组学的阿尔兹海默症风险预测平台 |
CN115774059A (zh) * | 2021-09-07 | 2023-03-10 | 中国科学院深圳先进技术研究院 | 一种阿尔兹海默症生物标志物及其筛选方法和应用 |
CN115851606A (zh) * | 2022-12-19 | 2023-03-28 | 北京爱思益普生物科技股份有限公司 | Btk突变细胞株及其构建方法和应用 |
CN116130106A (zh) * | 2023-03-01 | 2023-05-16 | 南京医科大学 | 一种用于脑胶质瘤预后的预测模型的构建方法 |
CN116189904A (zh) * | 2023-03-01 | 2023-05-30 | 南京医科大学 | 一种分化型甲状腺癌的基因甲基化诊断模型及其构建方法 |
CN117043339A (zh) * | 2021-01-19 | 2023-11-10 | 由退伍军人事务部代表的美国政府 | 用于治疗认知障碍的微小rna 195组合物和方法 |
-
2023
- 2023-11-23 CN CN202311576595.0A patent/CN117711616A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070082350A1 (en) * | 2005-02-09 | 2007-04-12 | Philip Landfield | Assay and method for diagnosing and treating alzheimer's disease |
JP2012135304A (ja) * | 2010-12-08 | 2012-07-19 | Dainippon Sumitomo Pharma Co Ltd | アミロイドベータ産生制御因子を用いた阻害剤スクリーニング方法 |
CN117043339A (zh) * | 2021-01-19 | 2023-11-10 | 由退伍军人事务部代表的美国政府 | 用于治疗认知障碍的微小rna 195组合物和方法 |
CN113096814A (zh) * | 2021-05-28 | 2021-07-09 | 哈尔滨理工大学 | 一种基于多分类器融合的阿尔兹海默症分类预测方法 |
CN113308539A (zh) * | 2021-07-21 | 2021-08-27 | 河北医科大学第二医院 | 用于诊断阿尔茨海默病的产品 |
CN115774059A (zh) * | 2021-09-07 | 2023-03-10 | 中国科学院深圳先进技术研究院 | 一种阿尔兹海默症生物标志物及其筛选方法和应用 |
CN115565676A (zh) * | 2022-08-25 | 2023-01-03 | 常州工学院 | 一种基于影像组学的阿尔兹海默症风险预测平台 |
CN115851606A (zh) * | 2022-12-19 | 2023-03-28 | 北京爱思益普生物科技股份有限公司 | Btk突变细胞株及其构建方法和应用 |
CN116130106A (zh) * | 2023-03-01 | 2023-05-16 | 南京医科大学 | 一种用于脑胶质瘤预后的预测模型的构建方法 |
CN116189904A (zh) * | 2023-03-01 | 2023-05-30 | 南京医科大学 | 一种分化型甲状腺癌的基因甲基化诊断模型及其构建方法 |
Non-Patent Citations (4)
Title |
---|
SHIJIA MA;等: "Identification of disulfidptosis-related genes and subgroups in Alzheimer’s disease", FRONTIERS IN AGING NEUROSCIENCE, vol. 15, 4 August 2023 (2023-08-04) * |
YIDONG ZHU;等: "Machine learning identification and immune infiltration of disulfidptosis‐related Alzheimer\'s disease molecular subtypes", IMMUNITY, INFLAMM AND DISEASE, vol. 11, no. 10, 11 October 2023 (2023-10-11), pages 2 * |
刘静;等: "基于表达谱芯片数据的阿尔茨海默病易感基因的生物信息学数据挖掘", 东南大学学报(医学版), vol. 35, no. 05, 25 October 2016 (2016-10-25), pages 653 - 657 * |
虞雪云;等: "老年性痴呆患者颞叶皮层差异基因的生物信息学分析", 中国老年学杂志, no. 16, 25 August 2016 (2016-08-25), pages 3927 - 3932 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Parikh et al. | Enhancing diagnosis of autism with optimized machine learning models and personal characteristic data | |
Tong et al. | Automated identification of retinopathy of prematurity by image-based deep learning | |
Kamal et al. | Alzheimer’s patient analysis using image and gene expression data and explainable-AI to present associated genes | |
WO2020103683A1 (zh) | 基于脑功能图谱的猴-人跨物种迁移进行精神疾病的个体化预测方法和系统 | |
CN111009321A (zh) | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 | |
Kaur et al. | Detection of Alzheimer’s disease using deep convolutional neural network | |
Singh et al. | Collaboration of features optimization techniques for the effective diagnosis of glaucoma in retinal fundus images | |
Thangavel et al. | EAD-DNN: Early Alzheimer's disease prediction using deep neural networks | |
Manimurugan | Classification of Alzheimer's disease from MRI Images using CNN based Pre-trained VGG-19 Model | |
Singh et al. | A novel hybrid robust architecture for automatic screening of glaucoma using fundus photos, built on feature selection and machine learning‐nature driven computing | |
Lohani et al. | ADHD diagnosis using structural brain MRI and personal characteristic data with machine learning framework | |
Wang et al. | Automated rest eeg-based diagnosis of depression and schizophrenia using a deep convolutional neural network | |
Singh et al. | An analysis of detection and diagnosis of different classes of skin diseases using artificial intelligence-based learning approaches with hyper parameters | |
Sudharsan et al. | Analysis of machine learning and deep learning algorithms for detection of brain disorders using MRI data | |
RS et al. | Intelligence model for Alzheimer’s disease detection with optimal trained deep hybrid model | |
CN117711616A (zh) | 基于基因表达数据的阿尔兹海默预测模型建立方法及系统 | |
Yu et al. | Prediction of vestibular schwannoma surgical outcome using deep neural network | |
Salam et al. | Schizophrenia diagnosis using optimized federated learning models | |
Drokow et al. | Building a predictive model to assist in the diagnosis of cervical cancer | |
GU et al. | Detecting Alzheimer’s Disease using Multi-Modal Data: An Approach Combining Transfer Learning and Ensemble Learning | |
Dakdareh et al. | Diagnosis of Alzheimer’s Disease and Mild Cognitive Impairment Using Convolutional Neural Networks | |
Santhanakrishna et al. | Early Cerebral Infarction Detection and Classification Using Machine Learning Approaches | |
Abed et al. | AD Classification and Detection Using Neuroimaging Data | |
Dai et al. | The classification system and biomarkers for autism spectrum disorder: A machine learning approach | |
Jadhao et al. | Prediction of Early Stage Alzheimer’s using Machine Learning Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |