CN111584085A

CN111584085A - 基于基因及信号通路的蛛网膜下腔出血预测模型建立方法及系统

Info

Publication number: CN111584085A
Application number: CN201911413113.3A
Authority: CN
Inventors: 章乐; 雷婉婧; 陈渝杰
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-08-25

Abstract

本发明提供了一种基于基因及细胞信号通路的蛛网膜下腔出血预测模型建立方法及系统，该方法包括：获取正常脑细胞组1和SAH脑细胞基因芯片数据，并进行预处理；对正常脑细胞组1和SAH脑细胞基因芯片数据进行差异表达分析及信号通路分析；获取正常脑细胞组2和SAH脑细胞进行LCN2干预后不同条件下RNA‑Seq数据，并进行预处理，形成LCN2数据；对LCN2数据进行差异表达分析及信号通路分析；对经过差异表达分析获得的差异表达基因数据，进行特征选择，得到特征基因数据；基于特征基因数据获得训练样本，基于训练样本训练多个分类器，集成训练后分类器，建立预测模型。本发明可准确建立蛛网膜下腔出血模型并获得治疗靶点。

Description

基于基因及信号通路的蛛网膜下腔出血预测模型建立方法及系统

技术领域

本发明属于生物信息学技术领域，主要涉及生物数据分析和生物数据挖掘，具体涉及基因和信号通路相关的蛛网膜下腔出血模型建立的方法及系统。

背景技术

蛛网膜下腔出血是指脑底部或表面的血管发生病变破裂，血液流入蛛网膜下腔，伴或不伴颅内或椎管内其他部位出血。

而在针对SAH的相关研究中，如何寻找能够预测或筛选蛛网膜下腔出血的有效靶点，也是目前的一个重要研究方向。例如，NiW等人发现IL-6可作为预测SAH后脑血管痉挛的早期标志物；Zhang等人证明IL-6和CRP等参与了SAH 的发生和发展过程；Chu等人的研究表明HGF、VEGF参与了SAH后大鼠脑组织的病理损伤和修复；Wang等人发现下调MMP9和Caspase可对SAH后脑损伤提供神经保护作用。大多数过往研究主要还是借助临床医学、生物学实验来完成的，但其研究成果并未有效降低SAH的病死率和致残率。而在现有技术中，针对蛛网膜下腔出血靶点模型建立的方法的相关研究始终不多，而通过大量的临床研究和总结则对于靶点的研究效果并不理想，致使在该领域中的研究缺乏有效的、精准的研究辅助工具。因此，如何有效建立起一套精准的蛛网膜下腔出血的模型，从而能够更加便利地、高效地针对蛛网膜下腔出血进行相关的研究，从而便于更精准寻找后续靶点等，依然是一个重大的挑战，具有很重要的科学和现实意义。

以下对本发明所涉及到的技术词汇/技术术语注释如下：

1、蛛网膜下腔出血(Subarachnoid Hemorrhage，SAH)

2、稀疏主成分分析(sparse principal component analysis,SPCA)

3、支持向量机(support vector machine,SVM)

4、经验贝叶斯(empirical Bayes，e-Bayes)

发明内容

有鉴于此，本发明在总结前人的研究基础上，提出建立一个基于基因表达的模型来筛选或寻找蛛网膜下腔出血靶点，通过两组实验获得的差异表达基因数据及通路数据。结合稀疏主成分分析、显著分析性差异、经验贝叶斯及支持向量机递归特征消除法对差异基因数据进行降维，获得特征基因，并使用逻辑回归、SVM和Naive-Bayes对降维后的数据进行模拟比对，计算预测模型的准确度。

具体而言，本发明所提出的技术方案如下：提供了一种基于基因及信号通路的蛛网膜下腔出血预测模型建立方法，其特征在于，所述方法包括：

步骤1、获取正常脑细胞组1和SAH脑细胞基因芯片数据，并进行预处理；优选的，所述预处理步骤为：获取正常脑细胞组1和SAH脑细胞样本(≥1g)，采用经典试剂盒快速提取法进行RNA提取、质控及文库构建，样品需求量：RNA ≥10μg；样品浓度：RNA样品≥100ng/μl；纯度要求：OD260/OD280在1.8- 2.2之间，OD260/OD230≥2，28S/18S≥1，样品RIN≥7.0，RNA无明显降解；

步骤2、对所述正常脑细胞组1和SAH脑细胞基因芯片数据进行差异表达分析及信号通路分析；优选的，对所述正常脑细胞组1和SAH脑细胞进行上机测序 (IlluminaNovaSeq测序系统，型号NovaSeq 6000)，获得RNA-Seq数据，并进行差异表达分析及信号通路分析；

步骤3、获取正常脑细胞组2和SAH脑细胞进行LCN2干预后，不同条件下RNA-Seq数据，并进行预处理，形成LCN2数据；

步骤4、对LCN2数据进行差异表达分析及信号通路分析；

步骤5、对步骤2及步骤4中经过差异表达分析获得的差异表达基因数据，使用稀疏主成分分析、显著分析性差异、经验贝叶斯及支持向量机递归特征消除进行特征选择，得到特征基因数据；

步骤6、对所述特征基因数据分成测试样本和训练样本，基于所述训练样本对多个分类器进行训练，得到训练后分类器；集成训练后分类器，建立预测模型。

优选的，所述步骤2进一步包括，筛选差异表达基因，并基于所述差异表达基因对信号通路进行显著性判断，所述显著性判断通过以下方式进行：

N表示芯片样本上提取的基因的总数目，n表示pathway中包含的基因总数目，N_f表示差异表达基因的数目，n_f则表示差异表达基因落在pathway的数目；精确检验的原假设为H₀:p₁＝p₂，备选假设为H₁:p₁≠p₂，其中p₁表示差异表达基因落在pathway中的概率，p₂表示非差异表达基因不落在pathway中的概率。

优选的，所述步骤4进一步包括筛选差异表达基因，所述筛选差异表达基因通过DESeq2方法实现；并基于所述差异表达基因对信号通路进行显著性判断，所述显著性判断通过以下方式进行：

优选的，所述步骤4中，所述不同条件下RNA-Seq数据，包括设置不同时间下的组别的RNA-Seq数据。

优选的，所述步骤5进一步包括：

步骤501、基于步骤4的结果，形成SAH表达矩阵，针对SAH表达矩阵进行特征选择，并对特征属性排序，选取前A位并进行显著性检验，检验方式如下：

其中y_i和y_j代表探针x_i和x_j的分类标签，K(x_i,x_j)是核函数，i,j＝1,2,...,n；α是通过训练SVM分类器获得的；DJ(i)是排序函数；H为表达矩阵；

对筛选结果求交集，提取探针的基因ID，确定最终基因；

步骤502、确定所述最终基因在LCN2数据中对应的表达数据，并对该些表达数据进行显著性检验；取不同条件下的组别的交集，获得结果基因；

步骤503、对所述结果基因进行主成分分析，获得特征基因数据。

优选的，所述步骤6进一步包括：

步骤601、基于所述特征基因数据，建立逻辑回归分类器；

步骤602、基于所述特征基因数据，建立支持向量机分类器；

步骤603、基于所述特征基因数据，建立朴素贝叶斯分类器；

步骤604、对所述逻辑回归分类器、支持向量机分类器、朴素贝叶斯分类器进行集成，并使用灵敏性、特效性、精度和准确率衡量分类器集成后的模型效果。

同时，还提供了一种基于基因及信号通路的蛛网膜下腔出血预测模型系统，其特征在于，所述系统包括：

数据获取模块，用于获取正常脑细胞组1和SAH脑细胞基因芯片数据，并进行预处理，通过基因测序机对所述正常脑细胞组1和SAH脑细胞数据进行上机测序，获得RNA-Seq数据；以及获取正常脑细胞组2和SAH脑细胞进行LCN2 干预后，并进行预处理，形成LCN2数据；

差异表达分析模块，用于对所述正常脑细胞组1和SAH脑细胞基因芯片数据进行差异表达分析及信号通路分析；以及对LCN2数据进行差异表达分析及信号通路分析；

特征基因数据模块，用于对经过差异表达分析获得的差异表达基因数据，使用稀疏主成分分析、显著分析性差异、经验贝叶斯及支持向量机递归特征消除进行特征选择，得到特征基因数据；

集成分类器模块，包含建立起的预测模型，所述预测模型基于由所述特征基因数据获得的训练样本进行训练并集成的多个分类器构成；以及用于基于输入数据进行预测计算。

优选的，筛选差异表达基因，并基于所述差异表达基因对信号通路进行显著性判断，所述显著性判断通过以下方式进行：

N表示芯片样本上提取的基因的总数目，n表示pathway中包含的基因总数目，N_f表示差异表达基因的数目，n_f则表示差异表达基因落在pathway的数目；精确检验的原假设为H₀:p₁＝p₂，备选假设为H₁:p₁≠p₂，其中p₁表示差异表达基因落在pathway中的概率，p₂表示非差异表达基因不落在pathway中的概率，P_F表示Fisher精确检验的P值。P_h表示超几何分布值，X代表超几何分布的变量，x用于计数。

优选的，所述特征基因数据的获取，通过以下方式：

形成SAH表达矩阵，针对SAH表达矩阵进行特征选择，并对特征属性排序，选取前A位并进行显著性检验，检验方式如下：

对筛选结果求交集，提取探针的基因ID，确定最终基因；

再确定所述最终基因在LCN2数据中对应的表达数据，并对该些表达数据进行显著性检验；取不同条件下的组别的交集，获得结果基因；

最后对所述结果基因进行主成分分析，获得特征基因数据。

优选的，所述多个分类器包括逻辑回归分类器、支持向量机分类器、朴素贝叶斯分类器。

与现有技术相比，本发明技术方案具有以下的有益效果：

(1)我们进行了SAH干预实验以及LCN2干预实验，明确得到细胞内基因表达及控制LCN2靶点对模型的影响。获得10组SAH干预实验样本，25组LCN2 干预样本，均准确有效也有利于未来进一步分析。

(2)对干预实验进行差异基因分析以及通路分析，该预测模型具有很好的鲁棒性和可靠性。

(3)我们采用集成学习的方法，将各个分类模型进行结合，开发出一个更为准确有效的预测模型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的方法流程图；

图2为本发明实施例的特征基因筛选流程图；

图3为本发明实施例的集成模型建立流程图；

图4为本发明实施例的模型分类效果对比图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。应当明确，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本领域技术人员应当知晓，下述具体实施例或具体实施方式，是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式，而这些设置方式之间均是可以相互结合或者相互关联使用的，除非在本发明明确提出了其中某些或某一具体实施例或实施方式无法与其他的实施例或实施方式进行关联设置或共同使用。同时，下述的具体实施例或实施方式仅作为最优化的设置方式，而不作为限定本发明的保护范围的理解。

本发明提供了一种基于基因及细胞信号通路的蛛网膜下腔出血预测模型的建立方法，在一个具体的实施例中，为便于对本发明的模型建立方法进行详细的说明，以小鼠细胞作为示例进行说明，所述方法包括：步骤1、进行SAH干预，获得正常小鼠脑细胞与SAH的小鼠脑细胞的基因芯片数据，并进行预处理；步骤2、对所述SAH数据从生物医学角度对数据进行差异表达分析以及信号通路分析；步骤3、进行LCN2干预，在不同时间点分别对正常小鼠脑细胞与SAH的小鼠脑细胞鞘内注射LCN2 siRNA与空白siRNA，同时设立对照组，获取不同条件下RNA-Seq数据,并进行数据预处理；步骤4、对所述LCN2数据从生物医学角度对数据进行差异表达分析以及信号通路分析；步骤5、对两个实验获得的差异表达基因数据，使用稀疏主成分分析、显著分析性差异、经验贝叶斯及支持向量机递归特征消除法进行特征选择；步骤6、基于交叉验证方法，将所述特征基因数据样本集分成测试样本和训练样本，将所述训练样本分别注入逻辑回归分类器、支持向量机分类器和朴素贝叶斯分类器，得到训练后分类器。集成训练后的分类器，采用软投票方法所述测试样本进行特征分类，并统计分类器的分类效果。本发明实施例可以建立起一个准确有效的蛛网膜下腔出血预测模型，在该模型的基础上，能够有效地得到蛛网膜下腔出血的靶点，通过特征基因提高准确性。图1是本发明的总体流程图，以下结合图1对本发明的模型建立和计算方法进行详细阐述。

(1)SAH干预实验数据收集以及预处理

原始芯片数据由解放军陆军军医大学西南医院神经外科提供,提供的数据包括SAH下小鼠白质区脑细胞芯片SAH(5张)和正常小鼠白质区脑细胞芯片 normal-1(5张)。利用R的Bioconductor包对原始芯片(SAH组和对照组normal- 1)进行质量控制，输出每张芯片样本的灰度图并进行观察，筛选芯片灰度图的芯片名称和四个角花纹均很清晰且明暗适中的结果，并采用RLE(相对表达量取对数)箱线图进一步筛选。最后采用RMA方法对芯片进行预处理，获得能够显示每个样本在各个基因中的表达量，这个矩阵被称为表达矩阵。

(2)SAH干预差异基因分析及通路分析

首先采用e-Bayes方法进行差异基因分析比较SAH组与对照组normal-1，参数设置为Fold change≥1.5，且p-value＜0.05。然后筛选得到差异表达基因后对通路进行显著性判断,显著性判断计算公式如下：

N表示芯片样本上提取的基因的总数目，n表示pathway中包含的基因总数目，N_f表示差异表达基因的数目，n_f则表示差异表达基因落在pathway的数目。精确检验的原假设为H₀:p₁＝p₂，备选假设为H₁:p₁≠p₂。其中p₁表示差异表达基因落在pathway中的概率，p₂表示非差异表达基因不落在pathway中的概率。最后通过Kobas3.0，数据库选择为KEGG Pathway，筛选显著通路 (p-value<0.001，表示差异极显著)，P_F表示Fisher精确检验的P值。P_h表示超几何分布值，X代表超几何分布的变量，x用于计数。

(3)LCN2干预实验数据收集以及预处理

LCN2测序数据由公司提供,设计干预实验的样本组为如下3组：(1)SAH- siRNA-LCN2，即SAH后小鼠白质区脑细胞，采取鞘内注射LCN2 siRNA的处理； (2)SAH-siRNA-NC，即SAH后小鼠白质区脑细胞，采取鞘内注射空白siRNA的处理，设立此样本是为了去除关于siRNA载体的干扰因素；(3)空白对照组 normal-2，请注意区分第一批数据中的对照组normal-1。分别设立1day组和 3day组，样本总数为25个。此测序数据都经过严格的质量控制及预处理，由专门的基因测序公司完成。

(4)LCN2干预实验差异基因分析及通路分析

通过DESeq2方法来进行差异表达基因的筛选，设置参数为Fold change≥ 1.5，且False Discovery Rate<0.05。分别对1day和3day下的SAH-siRNA- LCN2和normal-2、SAH-siRNA-NC和normal-2、SAH-siRNA-LCN2和SAH-siRNA- NC进行差异表达分析。通路分析方法同步骤(2)；

(5)特征基因选择

(5.1)对SAH干预实验的表达矩阵采用e-Bayes方法，设置参数为 Fold change≥2.5，且p-value＜0.05，得到具有差异表达的探针利用SVM-RFE方法对表达矩阵X进行特征选择并对特征属性排序，选取前100位并进行显著性检验。

其中y_i和y_j代表探针x_i和x_j的分类标签，K(x_i,x_j)是核函数，i,j＝1,2,...,n；α是通过训练SVM分类器获得的；DJ(i)是排序函数；H为表达矩阵。

对这两种方法的筛选结果求交集，并在Affy网站下载的转录簇注释文件，来提取这些探针的基因ID。本例中最终得到47个基因。

(5.2)提取上一步筛选出的基因在LCN2实验中对应的表达数据，分别对 SAH-siRNA-LCN2(1day)和nomal-2，SAH-siRNA-LCN2(3day)和nomal-2的表达数据进行显著性检验。首先用F检验验证两样本组的方差齐性，对方差齐的数据进行双样本等方差T检验；方差不齐的进行双样本异方差T检验，剔除不满足p-value＜0.05的基因。获得的特征如下表所示：

最后取1day组和3day组的交集，得到结果为9个：Tk1、Cyr61、Nupr1、 Dcn、Lum、Olig1、Pcolce2、Slc6a9和Kcnt2。

(5.3)对上一步交集结果，使用稀疏主成分分析进行进一步特征选择。在主成分分析中增加一个惩罚函数，它会把主成分变得稀疏。

最终得到结果为如下5个基因：Tk1、Cyr61、Olig1、Pcolce2和Slc6a9。其中Cyr61、Olig1和Slc6a9已被证实与SAH相关。

(6)预测模型建立

综合上述结果，在(5.3)得到的三个被证实的特征基因，把这三个基因作为分类模型的输入。

(6.1)使用逻辑回归进行回归预测。逻辑回归其实仅为在线性回归的基础上，套用了一个逻辑函数。其中公式是；

其中，k为原始变量的个数，p表示正例发生的概率，x₁,x₂,…,x_k表示原始的变量，β₀,β₁,...,β_k表示的是的系数。

(6.2)基于支持向量机进行回归预测。这里我们考虑的是一个两类的分类问题，数据点用x来表示，这是一个n维向量，W^T中的T代表转置，而类别用y来表示，可以取1或者-1，分别代表两个不同的类。一个线性分类器就是要在n维的数据空间中找到一个超平面，其方程可以表示为：

f(x)＝W^Tx+b

其中，W^Tx表示向量W^T和向量x的内积。

(6.3)使用朴素贝叶斯方法进行回归预测。在该学习任务中，样本中每个实例x可以用属性值的合取来描述，而目标函数f(x)则从有限集合V中进行取值。通过给定的训练样例和新实例(描述为属性值的元组)<a₁,a₂,...,a_n>，来预测新实例的最有可能的目标值(或分类)对应v_j∈V时： v_MAP＝arg max P(v_j|a₁，a₂，......，a_n)利用贝叶斯公式可以重写为：

v_MAP＝arg max P(a₁，a_2，......，a_n|v_j)

在给定目标值的情况下，P(a₁,a₂,...,a_n|v_j)＝Π_iP(a_i|v_j)。将此式带入到上式子中，可得到朴素贝叶斯分类器输出的目标值：

对三种分类器进行集成，集成学习方法如图4所示。

我们使用四个指标：灵敏性(sensitivity)、特效性(specificity)、精度(precision)和准确率(accuracy)来衡量模型的预测蛛网膜下腔出血的效果。所述定义如下表所示：

在一些可行的实施例中，基于本发明提供的方法，得到的分类效果如图4所示。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.基于基因及信号通路的蛛网膜下腔出血预测模型建立方法，其特征在于，所述方法包括：

步骤1、获取正常脑细胞组1和SAH脑细胞基因芯片数据，并进行预处理,包括进行RNA提取、质控及文库构建；

步骤2、对所述正常脑细胞组1和SAH脑细胞数据进行上机测序，获得RNA-Seq数据，并进行差异表达分析及信号通路分析；

步骤4、对LCN2数据进行差异表达分析及信号通路分析；

2.根据权利要求1所述的方法，其特征在于，所述步骤2进一步包括，筛选差异表达基因，并基于所述差异表达基因对信号通路进行显著性判断，所述显著性判断通过以下方式进行：

其中，N表示芯片样本上提取的基因的总数目，n表示pathway中包含的基因总数目，N_f表示差异表达基因的数目，n_f则表示差异表达基因落在pathway的数目；精确检验的原假设为H₀:p₁＝p₂，备选假设为H₁:p₁≠p₂，其中p₁表示差异表达基因落在pathway中的概率，p₂表示非差异表达基因不落在pathway中的概率，P_F表示Fisher精确检验的P值，P_h表示超几何分布值，X代表超几何分布的变量，x用于计数。

3.根据权利要求1所述的方法，其特征在于，所述步骤4进一步包括筛选差异表达基因，所述筛选差异表达基因通过DESeq2方法实现；并基于所述差异表达基因对信号通路进行显著性判断，所述显著性判断通过以下方式进行：