CN111584085A - 基于基因及信号通路的蛛网膜下腔出血预测模型建立方法及系统 - Google Patents

基于基因及信号通路的蛛网膜下腔出血预测模型建立方法及系统 Download PDF

Info

Publication number
CN111584085A
CN111584085A CN201911413113.3A CN201911413113A CN111584085A CN 111584085 A CN111584085 A CN 111584085A CN 201911413113 A CN201911413113 A CN 201911413113A CN 111584085 A CN111584085 A CN 111584085A
Authority
CN
China
Prior art keywords
data
gene
differentially expressed
sah
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911413113.3A
Other languages
English (en)
Inventor
章乐
雷婉婧
陈渝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201911413113.3A priority Critical patent/CN111584085A/zh
Publication of CN111584085A publication Critical patent/CN111584085A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种基于基因及细胞信号通路的蛛网膜下腔出血预测模型建立方法及系统,该方法包括:获取正常脑细胞组1和SAH脑细胞基因芯片数据,并进行预处理;对正常脑细胞组1和SAH脑细胞基因芯片数据进行差异表达分析及信号通路分析;获取正常脑细胞组2和SAH脑细胞进行LCN2干预后不同条件下RNA‑Seq数据,并进行预处理,形成LCN2数据;对LCN2数据进行差异表达分析及信号通路分析;对经过差异表达分析获得的差异表达基因数据,进行特征选择,得到特征基因数据;基于特征基因数据获得训练样本,基于训练样本训练多个分类器,集成训练后分类器,建立预测模型。本发明可准确建立蛛网膜下腔出血模型并获得治疗靶点。

Description

基于基因及信号通路的蛛网膜下腔出血预测模型建立方法及 系统
技术领域
本发明属于生物信息学技术领域,主要涉及生物数据分析和生物数据挖掘,具体涉及基因和信号通路相关的蛛网膜下腔出血模型建立的方法及系统。
背景技术
蛛网膜下腔出血是指脑底部或表面的血管发生病变破裂,血液流入蛛网膜下腔,伴或不伴颅内或椎管内其他部位出血。
而在针对SAH的相关研究中,如何寻找能够预测或筛选蛛网膜下腔出血的有效靶点,也是目前的一个重要研究方向。例如,NiW等人发现IL-6可作为预测SAH后脑血管痉挛的早期标志物;Zhang等人证明IL-6和CRP等参与了SAH 的发生和发展过程;Chu等人的研究表明HGF、VEGF参与了SAH后大鼠脑组织的病理损伤和修复;Wang等人发现下调MMP9和Caspase可对SAH后脑损伤提供神经保护作用。大多数过往研究主要还是借助临床医学、生物学实验来完成的,但其研究成果并未有效降低SAH的病死率和致残率。而在现有技术中,针对蛛网膜下腔出血靶点模型建立的方法的相关研究始终不多,而通过大量的临床研究和总结则对于靶点的研究效果并不理想,致使在该领域中的研究缺乏有效的、精准的研究辅助工具。因此,如何有效建立起一套精准的蛛网膜下腔出血的模型,从而能够更加便利地、高效地针对蛛网膜下腔出血进行相关的研究,从而便于更精准寻找后续靶点等,依然是一个重大的挑战,具有很重要的科学和现实意义。
以下对本发明所涉及到的技术词汇/技术术语注释如下:
1、蛛网膜下腔出血(Subarachnoid Hemorrhage,SAH)
2、稀疏主成分分析(sparse principal component analysis,SPCA)
3、支持向量机(support vector machine,SVM)
4、经验贝叶斯(empirical Bayes,e-Bayes)
发明内容
有鉴于此,本发明在总结前人的研究基础上,提出建立一个基于基因表达的模型来筛选或寻找蛛网膜下腔出血靶点,通过两组实验获得的差异表达基因数据及通路数据。结合稀疏主成分分析、显著分析性差异、经验贝叶斯及支持向量机递归特征消除法对差异基因数据进行降维,获得特征基因,并使用逻辑回归、SVM和Naive-Bayes对降维后的数据进行模拟比对,计算预测模型的准确度。
具体而言,本发明所提出的技术方案如下:提供了一种基于基因及信号通路的蛛网膜下腔出血预测模型建立方法,其特征在于,所述方法包括:
步骤1、获取正常脑细胞组1和SAH脑细胞基因芯片数据,并进行预处理;优选的,所述预处理步骤为:获取正常脑细胞组1和SAH脑细胞样本(≥1g),采用经典试剂盒快速提取法进行RNA提取、质控及文库构建,样品需求量:RNA ≥10μg;样品浓度:RNA样品≥100ng/μl;纯度要求:OD260/OD280在1.8- 2.2之间,OD260/OD230≥2,28S/18S≥1,样品RIN≥7.0,RNA无明显降解;
步骤2、对所述正常脑细胞组1和SAH脑细胞基因芯片数据进行差异表达分析及信号通路分析;优选的,对所述正常脑细胞组1和SAH脑细胞进行上机测序 (IlluminaNovaSeq测序系统,型号NovaSeq 6000),获得RNA-Seq数据,并进行差异表达分析及信号通路分析;
步骤3、获取正常脑细胞组2和SAH脑细胞进行LCN2干预后,不同条件下RNA-Seq数据,并进行预处理,形成LCN2数据;
步骤4、对LCN2数据进行差异表达分析及信号通路分析;
步骤5、对步骤2及步骤4中经过差异表达分析获得的差异表达基因数据,使用稀疏主成分分析、显著分析性差异、经验贝叶斯及支持向量机递归特征消除进行特征选择,得到特征基因数据;
步骤6、对所述特征基因数据分成测试样本和训练样本,基于所述训练样本对多个分类器进行训练,得到训练后分类器;集成训练后分类器,建立预测模型。
优选的,所述步骤2进一步包括,筛选差异表达基因,并基于所述差异表达基因对信号通路进行显著性判断,所述显著性判断通过以下方式进行:
Figure RE-GDA0002569204360000031
N表示芯片样本上提取的基因的总数目,n表示pathway中包含的基因总数目,Nf表示差异表达基因的数目,nf则表示差异表达基因落在pathway的数目;精确检验的原假设为H0:p1=p2,备选假设为H1:p1≠p2,其中p1表示差异表达基因落在pathway中的概率,p2表示非差异表达基因不落在pathway中的概率。
优选的,所述步骤4进一步包括筛选差异表达基因,所述筛选差异表达基因通过DESeq2方法实现;并基于所述差异表达基因对信号通路进行显著性判断,所述显著性判断通过以下方式进行:
Figure RE-GDA0002569204360000032
N表示芯片样本上提取的基因的总数目,n表示pathway中包含的基因总数目,Nf表示差异表达基因的数目,nf则表示差异表达基因落在pathway的数目;精确检验的原假设为H0:p1=p2,备选假设为H1:p1≠p2,其中p1表示差异表达基因落在pathway中的概率,p2表示非差异表达基因不落在pathway中的概率。
优选的,所述步骤4中,所述不同条件下RNA-Seq数据,包括设置不同时间下的组别的RNA-Seq数据。
优选的,所述步骤5进一步包括:
步骤501、基于步骤4的结果,形成SAH表达矩阵,针对SAH表达矩阵进行特征选择,并对特征属性排序,选取前A位并进行显著性检验,检验方式如下:
Figure RE-GDA0002569204360000041
其中yi和yj代表探针xi和xj的分类标签,K(xi,xj)是核函数,i,j=1,2,...,n;α是通过训练SVM分类器获得的;DJ(i)是排序函数;H为表达矩阵;
对筛选结果求交集,提取探针的基因ID,确定最终基因;
步骤502、确定所述最终基因在LCN2数据中对应的表达数据,并对该些表达数据进行显著性检验;取不同条件下的组别的交集,获得结果基因;
步骤503、对所述结果基因进行主成分分析,获得特征基因数据。
优选的,所述步骤6进一步包括:
步骤601、基于所述特征基因数据,建立逻辑回归分类器;
步骤602、基于所述特征基因数据,建立支持向量机分类器;
步骤603、基于所述特征基因数据,建立朴素贝叶斯分类器;
步骤604、对所述逻辑回归分类器、支持向量机分类器、朴素贝叶斯分类器进行集成,并使用灵敏性、特效性、精度和准确率衡量分类器集成后的模型效果。
同时,还提供了一种基于基因及信号通路的蛛网膜下腔出血预测模型系统,其特征在于,所述系统包括:
数据获取模块,用于获取正常脑细胞组1和SAH脑细胞基因芯片数据,并进行预处理,通过基因测序机对所述正常脑细胞组1和SAH脑细胞数据进行上机测序,获得RNA-Seq数据;以及获取正常脑细胞组2和SAH脑细胞进行LCN2 干预后,并进行预处理,形成LCN2数据;
差异表达分析模块,用于对所述正常脑细胞组1和SAH脑细胞基因芯片数据进行差异表达分析及信号通路分析;以及对LCN2数据进行差异表达分析及信号通路分析;
特征基因数据模块,用于对经过差异表达分析获得的差异表达基因数据,使用稀疏主成分分析、显著分析性差异、经验贝叶斯及支持向量机递归特征消除进行特征选择,得到特征基因数据;
集成分类器模块,包含建立起的预测模型,所述预测模型基于由所述特征基因数据获得的训练样本进行训练并集成的多个分类器构成;以及用于基于输入数据进行预测计算。
优选的,筛选差异表达基因,并基于所述差异表达基因对信号通路进行显著性判断,所述显著性判断通过以下方式进行:
Figure RE-GDA0002569204360000051
N表示芯片样本上提取的基因的总数目,n表示pathway中包含的基因总数目,Nf表示差异表达基因的数目,nf则表示差异表达基因落在pathway的数目;精确检验的原假设为H0:p1=p2,备选假设为H1:p1≠p2,其中p1表示差异表达基因落在pathway中的概率,p2表示非差异表达基因不落在pathway中的概率,PF表示Fisher精确检验的P值。Ph表示超几何分布值,X代表超几何分布的变量,x用于计数。
优选的,所述特征基因数据的获取,通过以下方式:
形成SAH表达矩阵,针对SAH表达矩阵进行特征选择,并对特征属性排序,选取前A位并进行显著性检验,检验方式如下:
Figure RE-GDA0002569204360000061
其中yi和yj代表探针xi和xj的分类标签,K(xi,xj)是核函数,i,j=1,2,...,n;α是通过训练SVM分类器获得的;DJ(i)是排序函数;H为表达矩阵;
对筛选结果求交集,提取探针的基因ID,确定最终基因;
再确定所述最终基因在LCN2数据中对应的表达数据,并对该些表达数据进行显著性检验;取不同条件下的组别的交集,获得结果基因;
最后对所述结果基因进行主成分分析,获得特征基因数据。
优选的,所述多个分类器包括逻辑回归分类器、支持向量机分类器、朴素贝叶斯分类器。
与现有技术相比,本发明技术方案具有以下的有益效果:
(1)我们进行了SAH干预实验以及LCN2干预实验,明确得到细胞内基因表达及控制LCN2靶点对模型的影响。获得10组SAH干预实验样本,25组LCN2 干预样本,均准确有效也有利于未来进一步分析。
(2)对干预实验进行差异基因分析以及通路分析,该预测模型具有很好的鲁棒性和可靠性。
(3)我们采用集成学习的方法,将各个分类模型进行结合,开发出一个更为准确有效的预测模型。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例的方法流程图;
图2为本发明实施例的特征基因筛选流程图;
图3为本发明实施例的集成模型建立流程图;
图4为本发明实施例的模型分类效果对比图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。应当明确,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本领域技术人员应当知晓,下述具体实施例或具体实施方式,是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式,而这些设置方式之间均是可以相互结合或者相互关联使用的,除非在本发明明确提出了其中某些或某一具体实施例或实施方式无法与其他的实施例或实施方式进行关联设置或共同使用。同时,下述的具体实施例或实施方式仅作为最优化的设置方式,而不作为限定本发明的保护范围的理解。
本发明提供了一种基于基因及细胞信号通路的蛛网膜下腔出血预测模型的建立方法,在一个具体的实施例中,为便于对本发明的模型建立方法进行详细的说明,以小鼠细胞作为示例进行说明,所述方法包括:步骤1、进行SAH干预,获得正常小鼠脑细胞与SAH的小鼠脑细胞的基因芯片数据,并进行预处理;步骤2、对所述SAH数据从生物医学角度对数据进行差异表达分析以及信号通路分析;步骤3、进行LCN2干预,在不同时间点分别对正常小鼠脑细胞与SAH的小鼠脑细胞鞘内注射LCN2 siRNA与空白siRNA,同时设立对照组,获取不同条件下RNA-Seq数据,并进行数据预处理;步骤4、对所述LCN2数据从生物医学角度对数据进行差异表达分析以及信号通路分析;步骤5、对两个实验获得的差异表达基因数据,使用稀疏主成分分析、显著分析性差异、经验贝叶斯及支持向量机递归特征消除法进行特征选择;步骤6、基于交叉验证方法,将所述特征基因数据样本集分成测试样本和训练样本,将所述训练样本分别注入逻辑回归分类器、支持向量机分类器和朴素贝叶斯分类器,得到训练后分类器。集成训练后的分类器,采用软投票方法所述测试样本进行特征分类,并统计分类器的分类效果。本发明实施例可以建立起一个准确有效的蛛网膜下腔出血预测模型,在该模型的基础上,能够有效地得到蛛网膜下腔出血的靶点,通过特征基因提高准确性。图1是本发明的总体流程图,以下结合图1对本发明的模型建立和计算方法进行详细阐述。
(1)SAH干预实验数据收集以及预处理
原始芯片数据由解放军陆军军医大学西南医院神经外科提供,提供的数据包括SAH下小鼠白质区脑细胞芯片SAH(5张)和正常小鼠白质区脑细胞芯片 normal-1(5张)。利用R的Bioconductor包对原始芯片(SAH组和对照组normal- 1)进行质量控制,输出每张芯片样本的灰度图并进行观察,筛选芯片灰度图的芯片名称和四个角花纹均很清晰且明暗适中的结果,并采用RLE(相对表达量取对数)箱线图进一步筛选。最后采用RMA方法对芯片进行预处理,获得能够显示每个样本在各个基因中的表达量,这个矩阵被称为表达矩阵。
(2)SAH干预差异基因分析及通路分析
首先采用e-Bayes方法进行差异基因分析比较SAH组与对照组normal-1,参数设置为Fold change≥1.5,且p-value<0.05。然后筛选得到差异表达基因后对通路进行显著性判断,显著性判断计算公式如下:
Figure RE-GDA0002569204360000091
N表示芯片样本上提取的基因的总数目,n表示pathway中包含的基因总数目,Nf表示差异表达基因的数目,nf则表示差异表达基因落在pathway的数目。精确检验的原假设为H0:p1=p2,备选假设为H1:p1≠p2。其中p1表示差异表达基因落在pathway中的概率,p2表示非差异表达基因不落在pathway中的概率。最后通过Kobas3.0,数据库选择为KEGG Pathway,筛选显著通路 (p-value<0.001,表示差异极显著),PF表示Fisher精确检验的P值。Ph表示超几何分布值,X代表超几何分布的变量,x用于计数。
(3)LCN2干预实验数据收集以及预处理
LCN2测序数据由公司提供,设计干预实验的样本组为如下3组:(1)SAH- siRNA-LCN2,即SAH后小鼠白质区脑细胞,采取鞘内注射LCN2 siRNA的处理; (2)SAH-siRNA-NC,即SAH后小鼠白质区脑细胞,采取鞘内注射空白siRNA的处理,设立此样本是为了去除关于siRNA载体的干扰因素;(3)空白对照组 normal-2,请注意区分第一批数据中的对照组normal-1。分别设立1day组和 3day组,样本总数为25个。此测序数据都经过严格的质量控制及预处理,由专门的基因测序公司完成。
(4)LCN2干预实验差异基因分析及通路分析
通过DESeq2方法来进行差异表达基因的筛选,设置参数为Fold change≥ 1.5,且False Discovery Rate<0.05。分别对1day和3day下的SAH-siRNA- LCN2和normal-2、SAH-siRNA-NC和normal-2、SAH-siRNA-LCN2和SAH-siRNA- NC进行差异表达分析。通路分析方法同步骤(2);
(5)特征基因选择
(5.1)对SAH干预实验的表达矩阵采用e-Bayes方法,设置参数为 Fold change≥2.5,且p-value<0.05,得到具有差异表达的探针利用SVM-RFE方法对表达矩阵X进行特征选择并对特征属性排序,选取前100位并进行显著性检验。
Figure RE-GDA0002569204360000101
其中yi和yj代表探针xi和xj的分类标签,K(xi,xj)是核函数,i,j=1,2,...,n;α是通过训练SVM分类器获得的;DJ(i)是排序函数;H为表达矩阵。
对这两种方法的筛选结果求交集,并在Affy网站下载的转录簇注释文件,来提取这些探针的基因ID。本例中最终得到47个基因。
(5.2)提取上一步筛选出的基因在LCN2实验中对应的表达数据,分别对 SAH-siRNA-LCN2(1day)和nomal-2,SAH-siRNA-LCN2(3day)和nomal-2的表达数据进行显著性检验。首先用F检验验证两样本组的方差齐性,对方差齐的数据进行双样本等方差T检验;方差不齐的进行双样本异方差T检验,剔除不满足p-value<0.05的基因。获得的特征如下表所示:
Figure RE-GDA0002569204360000102
最后取1day组和3day组的交集,得到结果为9个:Tk1、Cyr61、Nupr1、 Dcn、Lum、Olig1、Pcolce2、Slc6a9和Kcnt2。
(5.3)对上一步交集结果,使用稀疏主成分分析进行进一步特征选择。在主成分分析中增加一个惩罚函数,它会把主成分变得稀疏。
最终得到结果为如下5个基因:Tk1、Cyr61、Olig1、Pcolce2和Slc6a9。其中Cyr61、Olig1和Slc6a9已被证实与SAH相关。
(6)预测模型建立
综合上述结果,在(5.3)得到的三个被证实的特征基因,把这三个基因作为分类模型的输入。
(6.1)使用逻辑回归进行回归预测。逻辑回归其实仅为在线性回归的基础上,套用了一个逻辑函数。其中公式是;
Figure RE-GDA0002569204360000111
其中,k为原始变量的个数,p表示正例发生的概率,x1,x2,…,xk表示原始的变量,β01,...,βk表示的是的系数。
(6.2)基于支持向量机进行回归预测。这里我们考虑的是一个两类的分类问题,数据点用x来表示,这是一个n维向量,WT中的T代表转置,而类别用y来表示,可以取1或者-1,分别代表两个不同的类。一个线性分类器就是要在n维的数据空间中找到一个超平面,其方程可以表示为:
f(x)=WTx+b
其中,WTx表示向量WT和向量x的内积。
(6.3)使用朴素贝叶斯方法进行回归预测。在该学习任务中,样本中每个实例x可以用属性值的合取来描述,而目标函数f(x)则从有限集合V中进行取值。通过给定的训练样例和新实例(描述为属性值的元组)<a1,a2,...,an>,来预测新实例的最有可能的目标值(或分类)对应vj∈V时: vMAP=arg max P(vj|a1,a2,......,an)利用贝叶斯公式可以重写为:
vMAP=arg max P(a1,a2,......,an|vj)
在给定目标值的情况下,P(a1,a2,...,an|vj)=ΠiP(ai|vj)。将此式带入到上式子中,可得到朴素贝叶斯分类器输出的目标值:
Figure RE-GDA0002569204360000121
对三种分类器进行集成,集成学习方法如图4所示。
我们使用四个指标:灵敏性(sensitivity)、特效性(specificity)、精度(precision)和准确率(accuracy)来衡量模型的预测蛛网膜下腔出血的效果。所述定义如下表所示:
Figure RE-GDA0002569204360000122
在一些可行的实施例中,基于本发明提供的方法,得到的分类效果如图4所示。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.基于基因及信号通路的蛛网膜下腔出血预测模型建立方法,其特征在于,所述方法包括:
步骤1、获取正常脑细胞组1和SAH脑细胞基因芯片数据,并进行预处理,包括进行RNA提取、质控及文库构建;
步骤2、对所述正常脑细胞组1和SAH脑细胞数据进行上机测序,获得RNA-Seq数据,并进行差异表达分析及信号通路分析;
步骤3、获取正常脑细胞组2和SAH脑细胞进行LCN2干预后,不同条件下RNA-Seq数据,并进行预处理,形成LCN2数据;
步骤4、对LCN2数据进行差异表达分析及信号通路分析;
步骤5、对步骤2及步骤4中经过差异表达分析获得的差异表达基因数据,使用稀疏主成分分析、显著分析性差异、经验贝叶斯及支持向量机递归特征消除进行特征选择,得到特征基因数据;
步骤6、对所述特征基因数据分成测试样本和训练样本,基于所述训练样本对多个分类器进行训练,得到训练后分类器;集成训练后分类器,建立预测模型。
2.根据权利要求1所述的方法,其特征在于,所述步骤2进一步包括,筛选差异表达基因,并基于所述差异表达基因对信号通路进行显著性判断,所述显著性判断通过以下方式进行:
Figure FDA0002350487640000011
其中,N表示芯片样本上提取的基因的总数目,n表示pathway中包含的基因总数目,Nf表示差异表达基因的数目,nf则表示差异表达基因落在pathway的数目;精确检验的原假设为H0:p1=p2,备选假设为H1:p1≠p2,其中p1表示差异表达基因落在pathway中的概率,p2表示非差异表达基因不落在pathway中的概率,PF表示Fisher精确检验的P值,Ph表示超几何分布值,X代表超几何分布的变量,x用于计数。
3.根据权利要求1所述的方法,其特征在于,所述步骤4进一步包括筛选差异表达基因,所述筛选差异表达基因通过DESeq2方法实现;并基于所述差异表达基因对信号通路进行显著性判断,所述显著性判断通过以下方式进行:
Figure FDA0002350487640000021
其中,N表示芯片样本上提取的基因的总数目,n表示pathway中包含的基因总数目,Nf表示差异表达基因的数目,nf则表示差异表达基因落在pathway的数目;精确检验的原假设为H0:p1=p2,备选假设为H1:p1≠p2,其中p1表示差异表达基因落在pathway中的概率,p2表示非差异表达基因不落在pathway中的概率,PF表示Fisher精确检验的P值,Ph表示超几何分布值,X代表超几何分布的变量,x用于计数。
4.根据权利要求1所述的方法,其特征在于,所述步骤4中,所述不同条件下RNA-Seq数据,包括设置不同时间下的组别的RNA-Seq数据。
5.根据权利要求1所述的方法,其特征在于,所述步骤5进一步包括:
步骤501、基于步骤4的结果,形成SAH表达矩阵,针对SAH表达矩阵进行特征选择,并对特征属性排序,选取前A位并进行显著性检验,检验方式如下:
Figure FDA0002350487640000031
其中,yi和yj代表探针xi和xj的分类标签,K(xi,xj)是核函数,i,j=1,2,...,n;α是通过训练SVM分类器获得的;DJ(i)是排序函数;H为表达矩阵;
对筛选结果求交集,提取探针的基因ID,确定最终基因;
步骤502、确定所述最终基因在LCN2数据中对应的表达数据,并对该些表达数据进行显著性检验;取不同条件下的组别的交集,获得结果基因;
步骤503、对所述结果基因进行主成分分析,获得特征基因数据。
6.根据权利要求1所述的方法,其特征在于,所述步骤6进一步包括:
步骤601、基于所述特征基因数据,建立逻辑回归分类器;
步骤602、基于所述特征基因数据,建立支持向量机分类器;
步骤603、基于所述特征基因数据,建立朴素贝叶斯分类器;
步骤604、对所述逻辑回归分类器、支持向量机分类器、朴素贝叶斯分类器进行集成,并使用灵敏性、特效性、精度和准确率衡量分类器集成后的模型效果。
7.基于基因及信号通路的蛛网膜下腔出血预测模型建立系统,其特征在于,所述系统包括:
数据获取模块,用于获取正常脑细胞组1和SAH脑细胞基因芯片数据,并进行预处理,通过基因测序机对所述正常脑细胞组1和SAH脑细胞数据进行上机测序,获得RNA-Seq数据;以及获取正常脑细胞组2和SAH脑细胞进行LCN2干预后,,并进行预处理,形成LCN2数据;
差异表达分析模块,用于对所述正常脑细胞组1和SAH脑细胞基因芯片数据进行差异表达分析及信号通路分析;以及对LCN2数据进行差异表达分析及信号通路分析;
特征基因数据模块,用于对经过差异表达分析获得的差异表达基因数据,使用稀疏主成分分析、显著分析性差异、经验贝叶斯及支持向量机递归特征消除进行特征选择,得到特征基因数据;
集成分类器模块,包含建立起的预测模型,所述预测模型基于由所述特征基因数据获得的训练样本进行训练并集成的多个分类器构成;以及用于基于输入数据进行预测计算。
8.根据权利要求7所述的系统,其特征在于,筛选差异表达基因,并基于所述差异表达基因对信号通路进行显著性判断,所述显著性判断通过以下方式进行:
Figure FDA0002350487640000041
其中,N表示芯片样本上提取的基因的总数目,n表示pathway中包含的基因总数目,Nf表示差异表达基因的数目,nf则表示差异表达基因落在pathway的数目;精确检验的原假设为H0:p1=p2,备选假设为H1:p1≠p2,其中p1表示差异表达基因落在pathway中的概率,p2表示非差异表达基因不落在pathway中的概率,PF表示Fisher精确检验的P值,Ph表示超几何分布值,X代表超几何分布的变量,x用于计数。
9.根据权利要求7所述的系统,其特征在于,所述特征基因数据的获取,通过以下方式:
形成SAH表达矩阵,针对SAH表达矩阵进行特征选择,并对特征属性排序,选取前A位并进行显著性检验,检验方式如下:
Figure FDA0002350487640000051
其中,yi和yj代表探针xi和xj的分类标签,K(xi,xj)是核函数,i,j=1,2,...,n;α是通过训练SVM分类器获得的;DJ(i)是排序函数;H为表达矩阵;
对筛选结果求交集,提取探针的基因ID,确定最终基因;
再确定所述最终基因在LCN2数据中对应的表达数据,并对该些表达数据进行显著性检验;取不同条件下的组别的交集,获得结果基因;
最后对所述结果基因进行主成分分析,获得特征基因数据。
10.根据权利要求7所述的系统,其特征在于,所述多个分类器包括逻辑回归分类器、支持向量机分类器、朴素贝叶斯分类器。
CN201911413113.3A 2019-12-31 2019-12-31 基于基因及信号通路的蛛网膜下腔出血预测模型建立方法及系统 Pending CN111584085A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911413113.3A CN111584085A (zh) 2019-12-31 2019-12-31 基于基因及信号通路的蛛网膜下腔出血预测模型建立方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911413113.3A CN111584085A (zh) 2019-12-31 2019-12-31 基于基因及信号通路的蛛网膜下腔出血预测模型建立方法及系统

Publications (1)

Publication Number Publication Date
CN111584085A true CN111584085A (zh) 2020-08-25

Family

ID=72126026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911413113.3A Pending CN111584085A (zh) 2019-12-31 2019-12-31 基于基因及信号通路的蛛网膜下腔出血预测模型建立方法及系统

Country Status (1)

Country Link
CN (1) CN111584085A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114388063A (zh) * 2021-12-31 2022-04-22 深圳承启生物科技有限公司 与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100119474A1 (en) * 2007-03-06 2010-05-13 Cornell University Chronic obstructive pulmonary disease susceptibility and related compositions and methods
CN106244707A (zh) * 2010-07-28 2016-12-21 维里德克斯有限责任公司 急性髓细胞性白血病应答法尼基转移酶抑制剂治疗的测定方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100119474A1 (en) * 2007-03-06 2010-05-13 Cornell University Chronic obstructive pulmonary disease susceptibility and related compositions and methods
CN106244707A (zh) * 2010-07-28 2016-12-21 维里德克斯有限责任公司 急性髓细胞性白血病应答法尼基转移酶抑制剂治疗的测定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾瀚: "基于SAH(蛛网膜下腔出血)的早期预警模型和相关细胞信号通路研究", 《万方数据》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114388063A (zh) * 2021-12-31 2022-04-22 深圳承启生物科技有限公司 与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用
CN114388063B (zh) * 2021-12-31 2022-11-29 深圳承启生物科技有限公司 与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用

Similar Documents

Publication Publication Date Title
Yousefi et al. DNA methylation-based predictors of health: applications and statistical considerations
AU2022268283B2 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
Sugden et al. Patterns of reliability: assessing the reproducibility and integrity of DNA methylation measurement
Way et al. Predicting cell health phenotypes using image-based morphology profiling
Lazar et al. Batch effect removal methods for microarray gene expression data integration: a survey
Wehling Principles of translational science in medicine: From bench to bedside
ES2929923T3 (es) Procesos de diagnóstico que condicionan las condiciones experimentales
ES2886508T3 (es) Métodos y procedimientos para la evaluación no invasiva de variaciones genéticas
Soneson et al. Batch effect confounding leads to strong bias in performance estimates obtained by cross-validation
Tasaki et al. Deep learning decodes the principles of differential gene expression
Han et al. Integration of molecular features with clinical information for predicting outcomes for neuroblastoma patients
Papiez et al. BatchI: Batch effect Identification in high-throughput screening data using a dynamic programming algorithm
US20220275455A1 (en) Data processing and classification for determining a likelihood score for breast disease
Sun et al. Predicting embryonic aneuploidy rate in IVF patients using whole-exome sequencing
Wang et al. Computational models for transplant biomarker discovery
US20170364633A1 (en) Methods and systems to generate noncoding-coding gene co-expression networks
CN111584085A (zh) 基于基因及信号通路的蛛网膜下腔出血预测模型建立方法及系统
Fujita et al. Cell subtype-specific effects of genetic variation in the Alzheimer’s disease brain
Irigoien et al. Identification of differentially expressed genes by means of outlier detection
Kuznetsov et al. Statistically weighted voting analysis of microarrays for molecular pattern selection and discovery cancer genotypes
Warnat-Herresthal et al. Artificial intelligence in blood transcriptomics
Vos et al. DNA methylation episignatures are sensitive and specific biomarkers for detection of patients with KAT6A/KAT6B variants
Park et al. Wx: a neural network-based feature selection algorithm for next-generation sequencing data
Huang et al. scDemultiplex: An iterative beta-binomial model-based method for accurate demultiplexing with hashtag oligos
Lin et al. A novel assessing system for predicting the prognosis of gastric cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200825