CN115019884B

CN115019884B - 一种融合多组学数据的网络标志物识别方法

Info

Publication number: CN115019884B
Application number: CN202210524968.9A
Authority: CN
Inventors: 李雄; 冯轩; 周娟; 刘立月; 刘翔宇
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2023-11-03
Anticipated expiration: 2042-05-13
Also published as: CN115019884A

Abstract

本发明公开了一种融合多组学数据的网络标志物识别方法，该方法同时融合全基因组数据(单核苷酸多态性)、转录组(基因表达谱数据)以及蛋白组(蛋白质相互作用网络数据)，能够比较正常组与患者组之间基因相互作用网络的差异以识别网络标志物，这些网络标志物可能包含了潜在的致病基因。为验证该方法的有效性，将其应用识别阿尔茨海默症不同疾病进展期的网络标志物，结果表明该方法所提取的网络标志物具有较好的样本区分能力。

Description

一种融合多组学数据的网络标志物识别方法

技术领域

本发明涉及生物信息领域，具体涉及网络标志物识别方法。

背景技术

现代医学表明，很多疾病都是多基因疾病(由多个基因控制的疾病)。一组基因突变会导致多个生物功能发生病变，这些生物功能相互交织在一起，共同调控着某一生理活动。通过分析不同患者组的高通量组学数据，传统方法可以较容易地发现不同疾病表型背后潜在的差异基因。例如对疾病各个阶段患者的基因表达数据进行统计学意义上的倍数分析或t检验能够找出疾病背后的差异表达基因。但是，这些方法的缺点也很明显，即找出的差异基因数量很大，且无法保证这些差异基因都与疾病有关。此外，这些差异基因大部分都是孤立的，不能有效的解释疾病背后复杂的致病机理。

随着生物学的不断发展以及计算机运算速度的不断提高，基于生物分子网络的新方法开始被应用于分析复杂疾病背后的致病机理。例如，通过分析患者组与对照组的生物分子网络，可以得到差异子网，这极大地减少了差异基因的数目，同时精确地缩小了致病基因的寻找范围。然而，尽管基于生物分子网络的分析方法能够找到疾病相关的基因子网络，但是仍然无法准确全面地从子网络中找出致病基因。目前，许多数据挖掘方法只关注了基因间的静态调控关系，忽略了动态变化的信息。实际上，复杂疾病背后的基因调控网络往往会随着生物体内外环境的改变而动态变化。因此，为了更加准确地挖掘出疾病的致病基因，人们开始研究疾病相关分子网络的动态变化。另一方面，通过融合各种组学数据和生物分子网络数据对复杂疾病进行系统的分析，也逐渐成为了一个研究热点。因为，融合不同组学的数据能够增加数据的维度，降低数据中噪音的干扰，使数据包含更多的有效信息，从而极大地提高致病基因发现的准确率。但值得注意的是，整合使用这些异构数据，给实现这一目标的方法开发带来了巨大的挑战。

发明内容

传统的方法虽然能够检测出疾病表型背后的差异基因，但检测出的基因数量往往较多，且基因间关联性未知，不能解释疾病的致病机理。本发明旨在通过分析正常组与患病组之间的基因差异网络，找出导致疾病的潜在基因。本发明的方法结合基因表达数据、基因突变数据、蛋白质相互作用网络数据，考虑了基因间的关联信息，因此得到基因可解释性更好。

本发明采用以下技术方案：

(1)处理基因突变数据，将样本分为三组，即CN(对照组)、MCI(早期认知障碍)、AD(阿尔茨海默病患病组)；使用VEP工具中的SIFT分数评估全基因组测序文件中的每个SNP，确定哪些遗传变异对于患者是有害的。基于氨基酸的序列同源性和物理性质，SIFT评估每个氨基酸被替代对蛋白质功能的影响。基因突变数据的表示形式如下：

其中，y_k表示第k个样本的标签，k＝c+m+a，c、m和a分别表示CN、MCI和AD阶段的样本数量，n表示基因个数。当样本i中基因j上的SNP对该基因编码的蛋白质影响程度高时，设置s_ij＝2，影响程度中等时，设置s_ij＝1表示，其他情况设置为0。

(2)处理人类PPIN(蛋白质相互作用网络)数据，将网络中的蛋白质名称转换为对应的基因名称。蛋白质相互作用数据的表示形式如下：

其中，W_n*n为蛋白质相互作用网络的邻接矩阵的表示形式，该矩阵为对称矩阵，值为0或1，n表示基因的个数。当两个蛋白质间存在相互作用时，设置w_ij＝1，否则设置w_ij＝0。

(3)由于使用VEP工具打分后的基因突变数据过于稀疏，因此需要进一步将基因突变数据映射到蛋白质互作网络上应用网络传播算法以平滑每个基因的突变得分。网络传播算法是一种在网络上模拟随机游走的算法，其公式定义如下：

F_t+1＝αF_tA′+(1-α)F₀ (1)

A′＝D^-1A (2)

其中，F₀是患者的原始基因突变矩阵，A是蛋白质互作网络的邻接矩阵，D是对角矩阵，D(i,i)为矩阵A第i行行和，α是一个调节参数，控制变异信号在网络传播过程中扩散的距离，α的最佳值取决于网络结构。传播函数F_t以t＝[0，1，2，…]迭代运行，直到F_t+1收敛(||F_t+1-F_t||₂<1×10^-6，其中，||*||₂为矩阵范数)。在经过网络传播之后，将所得到矩阵F_t按行使用分位数归一化，以确保每个患者的平滑突变曲线大致符合相同的分布。

(4)处理基因表达数据，对基因突变数据集、基因表达数据集、蛋白质互作网络数据集的基因取交集，确保在接下来的分析中所有基因都存在于每个样本中。基因表达数据的表示形式如下：

其中，y_k表示第k个样本的标签，k＝c+m+a，c、m和a分别表示CN、MCI和AD阶段的样本数量，n表示基因个数，p_ij表示样本i中基因j的表达量值。

(5)将基因表达数据与基因突变数据映射到蛋白质互作网络上，然后分组分析基因间的相互作用和协同调控，并推断潜在的基因调控网络机制。通过测量疾病阶段与对照组之间的基因调控变化，研究基因调控网络和表型变化的生物学通路。定义疾病阶段a与健康的对照组b中基因A与基因B之间的差异表达调控如下：

P(AB)＝|ρ_a(AB)-ρ_b(AB)| (3)

其中ρ为两个变量的皮尔森相关系数，定义如下：

当两组中的基因A与基因B的差异表达调控P(AB)≥0.7时(阈值0.7不固定，可根据实验做适当调整)，认定基因A与基因B在疾病阶段和对照组中的表达调控方式发生了显著变化。

(6)对患病组与对照组进行差异基因分析，使用t检验方法计算两个基因表达的统计量t_g，通过查表得到p值，定义p值小于0.0005的基因为差异基因。假设患病组与疾病组的基因突变得分和/>是相等的，则零假设为：

对应的备选假设为：

t检验的计算公式是：

其中，

这里，n_i是组i(即患病组或对照组)中的样本数，表示为基因g在组i中第j个样本的基因突变的得分值。通过计算t_g的值，就可以得到p值。

本发明的有益效果：与现有的传统方法相比，本发明在考虑了基因表达数据之外，还结合了蛋白质相互作用网络数据与基因突变数据。引入蛋白质相互作用网络数据，考虑了基因间的关联信息；引入基因突变数据，考虑了基因突变对疾病进展的影响。因此，通过融合这些不同组学数据，本发明有效地解决了传统方法找出的生物标志物之间关联性较差的问题。

附图说明

图1为本发明基于差异网络分析的阿尔茨海默病网络标志物标识方法流程图。

图2为本发明方法找出的候选基因与随机选择的基因对CN和MCI分类的ROC曲线。

图3为本发明方法找出的候选基因与随机选择的基因对CN和AD分类的ROC曲线。

图4为本发明方法找出的候选基因与随机选择的基因对MCI和AD分类的ROC曲线。

图5为候选基因的GO富集BP(Biological Process)分析结果。

图6为候选基因的GO富集MF(Molecular Function)分析结果。

具体实施方式

在本发明中，首先，根据全基因组测序数据对每个样本全基因组范围内所有单核苷酸多态性位点(SNP)进行基因功能损害程度评估，接着对基因突变数据使用网络传播算法以保证基因突变评分的波动趋于平滑。然后，使用人类PPIN(蛋白质相互作用网络)数据构建疾病不同阶段的分子相互网络，网络上的一个节点对应一个基因，节点值为该阶段所有样本上该基因突变打分的平均值；网络中的边代表基因间的相互作用，边的权重为该阶段所有患者基因表达数据中两个基因间的皮尔森相关系数，可得到不同疾病阶段的基因网络表达数据。最后，对这些网络进行差异网络分析，其中，两个网络上的差异节点(即差异基因)由t检验确定；两个网络中的差异边由皮尔逊相关系数之差的绝对值确定。

为了使本发明的目的、技术方案及优点更加清楚明白，下面将结合附图及实施例，进一步详细说明本发明的目的以及技术方案。需注意，此处所描述的具体实施例仅仅用以解释本发明，并不对本发明的保护范围构成任何限定。

如图1所示，先对三种数据集进行处理，并构建基因表达网络用于后续分析。

1.处理基因突变数据：从ADNI数据库下载了全基因组测序VCF文件，该数据包含809个样本，平均每个样本持有超过3.88亿个SNP。将样本分为三组，分别是CN(对照组)、MCI(早期认知障碍)、AD(阿尔茨海默病患病组)。由于基因突变数据存储的是所有基因的SNP位点信息，因此使用VEP工具中的SIFT分数(设置SIFT<0.05)评估每个突变基因对患者的影响程度。处理后的基因突变数据集包含809个样本和16163个基因。使用矩阵来存储处理后的结果。矩阵的形式如下：

其中，当s_ij＝2，表示样本i中基因j上的SNP对该基因编码的蛋白质影响程度高，s_ij＝1表示影响程度中等，其他情况为0；

2.处理蛋白质相互作用网络数据：从STRING数据库中下载人类PPIN数据，为保证后续结果的可靠性，从中筛选出具有实验佐证的蛋白质相互作用对，接着将筛选后的数据中的蛋白质名称转化为对应的基因名称。蛋白质相互相作用网络使用邻接矩阵的形式表示，当两个蛋白质间存在相互作用时，设置w_ij＝1，否则设置w_ij＝0。

3.由于使用VEP工具打分后的基因突变数据过于稀疏，因此需要进一步将基因突变数据映射到蛋白质互作网络上应用网络传播算法以平滑每个基因的突变得分。网络传播算法是一种在网络上模拟随机游走的算法，其公式定义如下：

F_t+1＝αF_tA′+(1-α)F₀ (1)

A′＝D^-1A (2)

4.处理基因表达数据：从ADNI数据库中下载基因表达数据集，该基因表达数据集总共包含746个样本和10061个基因，由于这些基因表达数据已经经过了标准化处理，所以可以直接使用。接着对基因突变数据集、基因表达数据集、蛋白质互作网络数据集的基因取交集，确保在接下来的分析中所有基因都存在于每个样本中。最后得到了715个共同样本(CN：247例，MCI：428例，AD：40例)和8007个共同基因。基因表达数据采用矩阵存储，形式如下：

5.将步骤1、4处理得到的基因突变数据和基因表达数据映射到蛋白质互作网络上，然后分组分析基因间的相互作用和协同调控，并推断潜在的基因调控网络机制。通过测量疾病与正常条件之间的基因相关性变化，研究基因调控网络和表型变化的生物学通路。定义疾病阶段a与健康的对照组b中基因A与基因B之间的差异表达调控如下：

P(AB)＝|ρ_a(AB)-ρ_b(AB)| (3)

其中ρ为两个变量的皮尔森相关系数，定义如下：

当P(AB)≥0.70时(阈值0.7不是固定，可根据实验做适当调整)，认为基因A与基因B在疾病阶段和对照组中的表达调控方式发生了显著变化。输出调控方式发生显著变化的基因对。

6.对患病组与疾病组进行差异基因分析，使用t检验方法来寻找差异基因。

假设患病组与疾病组的基因突变得分和/>是相等的，则零假设为：

对应的备选假设为：

t检验的计算公式是：

其中，

这里，n_i是组i(即患病组或对照组)中的样本数，表示为基因g在组i中第j个样本的基因突变的得分值。通过计算t_g的值，就可以得到p值。定义p值小于0.0005的基因为差异基因。按p值排列，输出符合条件的基因作为候选基因。

实验结果：分析CN与MCI的基因网络，选择score大于0.45的调控基因对以及p<0.0005的差异基因，共找到4个差异调控基因对和25个差异基因，使用ROC曲线进行评估，结果如图2所示，本发明方法找出的候选基因曲面下面积达到了0.72，远大于随机选择基因的曲面下面积；分析CN与AD的基因网络，选择score大于0.6的调控基因对，共找到11个差异调控基因对。使用ROC曲线进行评估，结果如图3所示，候选基因的曲面下面积远大于随机选择基因；分析MCI与AD的基因网络，选择score大于0.7的调控基因对，共找到6个差异调控基因对。使用ROC曲线进行评估，结果如图4所示，候选基因的曲面下面积依然远大于随机选择基因。

为进一步验证候选基因的有效性，对候选基因进行GO富集BP(生物过程)、MF(分子功能)分析，结果如图5、图6所示，候选基因的生物过程主要集中在神经元的发育和死亡、血管内皮细胞的增殖和迁移、肽基苏氨酸磷酸化、蛋白质结合和生长因子活性等；分子功能主要集中在蛋白磷酸酶结合、细胞因子受体结合、生长因子结合等。这表明候选基因参与了疾病相关的重要信号通路。因此本发明找出的候选基因具有较高的可靠性。

CN与MCI中差异调控基因对

Gene1	Gene2	Score
			COL1A2	COL4A1	0.56
CDC20	CHEK1	0.48
			CDC45	CHEK1	0.47
MKI67	SHCBP1	0.48

CN与AD中差异调控基因对

Gene1	Gene2	Score
			AKT1	PAX3	0.60
MAPT	PDHB	0.62
			CTSB	CST1	0.65
CACNA1H	KCNC1	0.62
			NRP2	VEGFC	0.73
CAMK2B	NGF	0.70
			STAT3	MGST1	0.65
ACVR1	INHA	0.60
			RIBC2	GFAP	0.62
UBE2C	ATG7	0.70
			FKBP3	CALB1	0.64

MCI与AD中差异调控基因对

Gene1	Gene2	Score
			COL1A2	COL4A1	0.79
SIRT6	XPC	0.78
			CDK18	EML2	0.74
HNRNPDL	MCAT	0.70
			FMN2	EFCAB2	0.71
XPC	NPM1	0.70

Claims

1.一种融合多组学数据的网络标志物识别方法，包括以下步骤：

步骤一、基于氨基酸的序列同源性和物理性质，评估全基因组测序文件中的样本i中基因j上的SNP对蛋白质功能的影响，得到基因突变数据集：

其中，s_ij表示影响程度得分，n表示基因个数，y_k表示第k个样本的标签，k＝c+m+a，c、m和a分别表示对照组CN、早期认知障碍MCI和阿尔茨海默病患病组AD阶段的样本数量；

步骤二、将蛋白质相互作用网络PPIN数据中的蛋白质名称转换为对应的基因名称，形成蛋白质相互作用网络数据集：

其中，W_n*n为蛋白质相互作用网络的邻接矩阵的表示形式，w_ij表示蛋白质i和蛋白质j之间的相互作用得分，n表示基因的个数；

步骤三、将所述基因突变数据映射到所述蛋白质相互作用网络上应用网络传播算法以平滑每个基因的影响程度得分，得到平滑后的基因突变数据集；

步骤四、对基因表达数据集、所述平滑后的基因突变数据集、所述蛋白质相互作用网络数据集的基因取交集，得到用于分析的数据集；所述基因表达数据集表示为：

其中，p_ij表示样本i中基因j的表达量值，n表示基因个数，y_k表示第k个样本的标签，k＝c+m+a，c、m和a分别表示对照组CN、早期认知障碍MCI和阿尔茨海默病患病组AD阶段的样本数量；

步骤五、将所述用于分析的数据集中基因表达数据以及平滑后的基因突变数据映射到蛋白质相互作用网络上；定义疾病阶段a与健康的对照组b中基因A与基因B之间的差异表达调控如下：

P(AB)＝|ρ_a(AB)-ρ_b(AB)| (3)

其中ρ为两个变量的皮尔森相关系数，定义如下：

ρ_a(AB)表示基因A与基因B在疾病阶段的皮尔森相关系数，其中疾病阶段指早期认知障碍MCI和阿尔茨海默病患病组AD；

ρ_b(AB)表示基因A与基因B在对照组的皮尔森相关系数，其中对照组指对照组CN；

当P(AB)大于等于第一阈值时，认为基因A与基因B在疾病阶段和对照组中的表达调控方式发生了显著变化，输出调控方式发生显著变化的基因对；

步骤六、对患病组与对照组进行差异基因分析，使用t检验方法计算两个基因表达的统计量t_g，进而得到p值，定义p值小于第二阈值的基因为差异基因，输出所述差异基因。

2.根据权利要求1所述的方法，其特征在于，所述步骤一中s_ij的值为0、1或2，当s_ij＝2时表示样本i中基因j上的SNP对该基因编码的蛋白质影响程度高，当s_ij＝1时表示影响程度中等，当s_ij＝0时表示其他情况。

3.根据权利要求1所述的方法，其特征在于，所述步骤二中w_ij的值为0或1，当w_ij＝1时表示蛋白质i和蛋白质j之间具有相互作用，当w_ij＝0时表示没有相互作用。

4.根据权利要求1所述的方法，其特征在于，所述步骤三中网络传播算法是一种在网络上模拟随机游走的算法，其公式定义如下：

F_t+1＝αF_tA'+(1-α)F₀ (1)

A'＝D^-1A (2)

其中，F₀是患者的原始基因突变矩阵，A是蛋白质互作网络的邻接矩阵，D是对角矩阵，D(i,i)为矩阵A第i行行和，α是控制变异信号在网络传播过程中扩散的距离的调节参数；传播函数F_t以t＝[0，1，2，…]迭代运行，直到F_t+1收敛。

5.根据权利要求1所述的方法，其特征在于，所述步骤五中第一阈值为0.70。

6.根据权利要求1所述的方法，其特征在于，所述步骤六中t检验方法包括：假设患病组与对照组的影响程度得分和/>是相等的，则零假设为：

对应的备选假设为：

t检验的计算公式是：

其中，

其中，n_i是组i，组i表示患病组或对照组中的样本数，表示为基因g在组i中第j个样本的影响程度得分值；通过计算t_g的值，进而通过查表得到p值。

7.根据权利要求1所述的方法，其特征在于，所述步骤六中第二阈值为0.0005。