CN113035279A

CN113035279A - 基于miRNA测序数据的帕金森疾病演化关键模块识别方法

Info

Publication number: CN113035279A
Application number: CN202110410478.1A
Authority: CN
Inventors: 陈伯林; 邵慈; 王腾; 苗立珺; 尚学群
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-06-25
Anticipated expiration: 2041-04-13
Also published as: CN113035279B

Abstract

本发明提供了一种基于miRNA测序数据的帕金森疾病关键模块识别方法。首先，对高通量测序数据进行预处理；然后，根据PD患病的不同阶段对样本进行分组，再进行差异表达分析；接着，根据差异表达miRNA间的相关系数进行层次聚类，构建共表达网络和模块；最后，构建模块网络并识别得到PD关键模块。利用本发明方法可以进行PD演化过程的关键模块识别，根据关键模块判断当前患者所处的PD阶段，为医生发现早期PD患者提供帮助。

Description

基于miRNA测序数据的帕金森疾病演化关键模块识别方法

技术领域

本发明属生物信息技术领域，具体涉及一种基于miRNA测序数据的帕金森疾病演化关键模块识别方法，通过研究miRNA表达数据的差异并构建共表达网络和模块网络对PD演化过程中的关键模块进行识别。

背景技术

帕金森疾病(PD)是一种神经系统变性疾病，常见于中老年患者，并且帕金森疾病的早期症状不明显，一旦发现就往往就处于晚期，使得患者往往丧失了早发现早治疗的机会。外泌体及其miRNA不仅在PD等神经变性疾病中起到早期预警的作用，还有可能会根据miRNA对基因的调节作用起到靶向治疗的作用。目前对基于miRNA数据研究PD的方法和技术主要是针对疾病静态的过程即研究疾病的过程中部分疾病所处的阶段，并且主要是针对单独的miRNA分子进行研究。包括：(1)使用启发式算法。使用有监督学习或者无监督学习的方法识别网络中的疾病模块，但是启发式算法往往需要大量的样本数据，而生物领域样本往往是非常稀少的，这样导致启发式算法在这种情况下很难使用，效果也不是很好。(2)基于差异表达的算法。分子表达数据可以捕获疾病样本特定阶段的信息，可以分析控制组与患病组样本miRNA表达量的分布情况分析差异表达miRNA。(3)其他的生物网络模块识别方法。包括基于贝叶斯分类器的方法、基于聚类的方法和基于随机游走的方法等，但是这些关于疾病相关致病基因的预测研究主要集中在静态网络上。疾病的发展是一个动态的过程，并且在真实生物体中疾病的产生不是由于单独的miRNA分子的作用，而是多个miRNA分子相互作用产生的疾病。

发明内容

为了克服现有技术的不足，本发明提供一种基于miRNA测序数据的帕金森疾病演化关键模块识别方法。首先，对高通量测序数据进行质量控制、去重、比对等预处理；然后，根据PD患病的不同阶段对样本进行分组，再进行差异表达分析，得到差异表达miRNA；接着，根据差异表达miRNA间的相关系数进行层次聚类，以构建共表达网络和模块；最后，构建模块网络并识别得到PD关键模块。差异表达分析是从分子的角度分析在不同患病阶段的样本和正常样本之间差异表达的miRNA；构建共表达网络可以将分子间相互作用考虑进来从而找到协同表达的模块；构建模块网络可以找到疾病演化过程中比较关键的模块。本发明方法从PD动态发展的本质出发，从致病miRNA和模块两个维度，把研究PD演化的问题转化为研究PD各阶段模块的问题，从而构建了共表达网络和模块网络，找到各阶段的关键模块，根据关键模块判断当前患者所处的PD阶段，从而为PD演化的研究提供参考、为医生发现早期PD患者提供帮助。

一种基于miRNA测序数据的帕金森疾病演化关键模块识别方法，其特征在于步骤如下：

步骤1，高通量测序数据预处理：利用fastp和fastxtoolkits软件对所有样本的高通量测序数据进行质量控制，将质量控制后的数据中的重复序列删除并对重复序列计数；然后，利用bowtie软件对去重后的序列与miRbase数据库中的miRNA碱基序列进行比对，统计匹配的miRNA序列数及去重时记录的重复序列数，得到miRNA表达的counts数据，再对miRNA表达的counts数据进行标准化处理，得到miRNA表达量数据；

步骤2，差异表达分析：根据患病的不同阶段对样本进行分组，分为control组、stage1、stage2、stage3、stage4五组数据，其中，control组数据为正常样本，stage1～stage4四组数据为处于不同阶段的PD患者样本；然后，分别使用edgeR方法和T-test方法对每两个阶段样本的miRNA表达量数据进行差异表达分析，得到差异表达miRNA，记为DEmiRNA；

对于使用edgeR方法进行差异表达分析得到的miRNA，如果满足p-value<0.05且|logFC|>1，则认为该miRNA为DE miRNA，其中，p-value表示该miRNA在患病样本中的表达与其在参考样本中表达的差异显著程度，通过计算miRNA在患病样本中的表达不符合在参考样本中的表达数据分布的期望差值并查表得到；FC表示该miRNA在患病样本中的表达与其在参考样本中表达的差异大小，按照下式计算得到：

其中，

分别表示在两个阶段样本中miRNA表达量的平均值；

对于使用T-test方法进行差异表达分析得到的miRNA，如果满足p-value<0.05且|T-statistic|>2，则认为该miRNA为DE miRNA，其中，T-statistic表示在两个阶段样本中该miRNA的表达量有显著差异的概率，按照下式计算得到：

其中，

分别表示在两个阶段样本中miRNA表达量的方差；n表示两个阶段的样本总数；

步骤3，构建共表达网络：对各阶段通过步骤2得到的DE miRNA，利用步骤1求得的miRNA表达量计算阶段内miRNA之间的相关系数并进行层次聚类，得到各阶段的共表达网络和共表达模块，具体过程如下：

步骤a，构建miRNA共表达矩阵：按照下式计算得到miRNA共表达矩阵中的元素S_xy：

S_xy＝|corr(miRNA_x,miRNA_y)| (3)

其中，S_xy表示共表达矩阵的第x行y列元素值，miRNA_x表示第x个DE miRNA，miRNA_y表示第y个DE miRNA，x,y＝1,2,…,n_m，n_m表示该阶段内包含的DE miRNA个数，corr表示计算两个DE miRNA的相关系数；

步骤b，构建邻接矩阵：按照下式计算得到邻接矩阵中的邻接系数a_xy：

a_xy＝|S_xy|^β (4)

其中，a_xy表示邻接矩阵的第x行y列元素值，β为邻接函数的参数，取值为节点连接数的对数与节点连接数出现的概率对数之间的线性相关系数达到0.8时的值；

若a_xy>0.8，表示miRNA_x和miRNA_y之间有邻接关系，其值保持不变；否则，令a_xy＝0；

步骤c，构建拓扑矩阵：按照下式计算得到拓扑矩阵中的元素ω_xy：

其中，ω_xy表示拓扑矩阵的第x行y列元素值，即miRNA_x和miRNA_y之间的共表达系数，l_xy为同时与miRNA_x和miRNA_y有邻接关系的邻接系数之和，按照

计算得到，μ表示同时与miRNA_x和miRNA_y有邻接关系的边数，k_x为只与miRNA_x有邻接关系的邻接系数之和，k_y为只与miRNA_y有邻接关系的邻接系数之和；

如果miRNA_x和miRNA_y之间没有连接，则ω_xy＝0；

以每个DE miRNA为节点，不同DE miRNA之间的共表达系数ω_xy值为边，构成共表达网络；

步骤d，构建相异度矩阵：按照下式计算得到相异度矩阵中的元素d_xy：

d_xy＝1-ω_xy (6)

其中，d_xy表示相异度矩阵的第x行y列元素值；

步骤e，进行层次聚类：对每个阶段得到的相异度矩阵按下述过程进行计算，得到若干共表达模块：

首先，设置每个模块应满足的最少DE miRNA数；

对于每一个DE miRNA，根据相异度值寻找其K个最近邻DE miRNA，并排除其中相异度值小于0.2的DE miRNA，构成一个模块；对所有DE miRNA如此进行处理，得到若干模块；

对每个模块内的所有DE miRNA间的相异度值进行主成分分析，并以第一主成分值作为该模块的特征值；合并所有线性相关系数PCC大于0.8的不同模块；然后，再重新对每个模块进行主成分分析，如此反复，直至所有模块内包含的DE miRNA个数大于设定的最少DEmiRNA数，且不同模块间的线性相关系数PCC均小于0.8，得到各阶段的若干共表达模块；

所述的不同模块间的线性相关系数PCC按下式计算得到：

其中，PCC_XY表示模块X和模块Y之间的线性相关系数，cov(X,Y)表示模块X和模块Y特征值的协方差，σ_X、σ_Y分别表示模块X和模块Y中特征值的标准差；X,Y＝1,2,…,N，N表示该阶段的共表达模块数；

步骤4，关键模块识别：对于步骤3得到的各阶段的若干共表达模块，如果其包含相同的DE miRNA，则对其建立连边，连边的权值为两个模块包含的相同DE miRNA的个数；然后，按照下式计算得到不同模块间的连接关系权重：

其中，s_ij表示模块i和模块j之间的连接关系权重，X_ij表示模块i与模块j相连的边的权值，

表示与模块i相连的边权值的均值，stdev(X_i)表示与模块i相连的边权值的标准差；i,j＝1,2,…,N1，N1表示共表达模块总数；

具有最大连接关系权重值的边所连接的模块即为关键模块。

本发明的有益效果是：通过采用差异表达分析的方法，能够找到各阶段的DEmiRNA，通过采用构建共表达网络和层次聚类的方法，能够找到各阶段协同表达的模块，使得可以从miRNA分子和模块两个角度出发，对不同PD阶段进行分析来研究PD疾病的演化；且通过采用构建模块网络的方法，能够识别在PD阶段演化过程中起到关键性作用的模块，为PD演化的研究提供参考、为医生发现早期PD患者提供帮助。

附图说明

图1是本发明的基于miRNA测序数据的帕金森疾病演化关键模块识别方法流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明提供了一种基于miRNA测序数据的帕金森疾病演化关键模块识别方法，其具体实现过程如下：

1、高通量测序数据预处理

首先，使用fastp、fastxtoolkits软件对高通量测序数据(TCGA数据)进行质量控制，包括包含去掉N碱基序列、过滤Q20比例过低的序列以及进行长度过滤，将质量控制之后得到的数据记为clean-data，然后为了提高接下来的比对任务，将clean-data中的重复序列去重并计数，将得到的结果记为uniq-data，uniq-data的数据格式是fasta，主要由序列名和碱基序列组成。

然后，需要将每个实验样本中的miRNA序列比对到已知的miRNA数据库(miRbase)中得到表达量counts数据，这一步也称之为Map。如果直接将预处理完的序列比对到miRbase将会非常慢，因为全基因序列数据量非常庞大，所以本发明采用的方法是将每个样本中重复的序列删掉并对重复数计数，再进行比对，然后统计匹配的miRNA序列数及去重时记录的重复序列数，得到miRNA表达的counts数据。

最后，需要对得到的表达量counts数据进行标准化，得到miRNA表达量数据。标准化的目的就是降低因测序深度不同对最终结果产生的影响，尽可能地减少因测序技术和重复实验带来的干扰。

2、差异表达分析

根据患病的不同阶段对样本进行分组，分为control组、stage1、stage2、stage3、stage4五组数据，其中，control组数据为正常样本，stage1～stage4四组数据为处于不同阶段的PD患者样本；然后，分别使用edgeR方法和T-test方法对每两个阶段样本的miRNA表达量数据进行差异表达分析，得到差异表达miRNA，记为DE miRNA。

edgeR方法的类似然负二项式广义对数模型，该模型将每个miRNA的read count归一化之后值拟合到模型中，然后对于给定的系数进行统计检验，如果某个miRNA的表达值偏离了这个分布模型，那么该miRNA即为差异表达基因。T-test方法则是检验两组样本平均数与其各自所代表的总体差异是否显著。

其中，

分别表示在两个阶段样本中miRNA表达量的平均值；

其中，

分别表示在两个阶段样本中miRNA表达量的方差；n表示两个阶段的样本总数。

3、构建共表达网络

共表达网络分析是为了寻找协同表达的模块，并研究共表达网络与其表型的关系。通过实验数据探究构建的网络与疾病或者性状之间的关系，常用于复杂疾病基因鉴定等生物学研究领域，共表达当前已经被用于识别复杂疾病的标记和药物靶点，并且也被用于人类复杂疾病的研究，比如阿尔兹海默症、自闭症、胶质母细胞瘤等的关联基因的研究。构建共表达网络和模块包括五个主要步骤：

(1)构建miRNA共表达矩阵

按照下式计算得到miRNA共表达矩阵中的元素S_xy：

(11)

S_xy＝|corr(miRNA_x,miRNA_y)|

(2)构建邻接矩阵

按照下式计算得到邻接矩阵中的邻接系数a_xy：

a_xy＝|S_xy|^β (12)

其中，a_xy表示邻接矩阵的第x行y列元素值，β为邻接函数的参数，取值为节点连接数(与DE miRNA有邻接关系的DE miRNA个数)的对数与节点连接数出现的概率对数之间的线性相关系数达到0.8时的值；

(3)构建拓扑矩阵

按照下式计算得到拓扑矩阵中的元素ω_xy：

如果miRNAx和miRNA_y之间没有连接，则ω_xy＝0；

每个DE miRNA构成了共表达网络的节点，ω_xy构成了共表达网络的边。

(4)构建相异度矩阵

按照下式计算得到相异度矩阵中的元素d_xy：

d_xy＝1-ω_xy (14)

其中，d_xy表示相异度矩阵的第x行y列元素值；

(5)进行层次聚类：对每个阶段得到的相异度矩阵按下述过程进行计算，得到若干共表达模块：

首先，设置每个模块应满足的最少DE miRNA数(一般设置为30个)；

对每个模块内的所有DE miRNA间的相异度值进行主成分分析，并以第一主成分值作为该模块的特征值；合并所有线性相关系数PCC大于0.8的不同模块；然后，再重新对每个模块进行主成分分析，如此反复，直至所有模块内包含的DE miRNA个数大于设定的最少DEmiRNA数，且不同模块间的线性相关系数PCC均小于0.8，得到各阶段的若干共表达模块。

所述的不同模块间的线性相关系数PCC按下式计算得到：

其中，PCC_XY表示模块X和模块Y之间的线性相关系数，cov(X,Y)表示模块X和模块Y特征值的协方差，σ_X、σ_Y分别表示模块X和模块Y中特征值的标准差；X,Y＝1,2,…,N，N表示该阶段的共表达模块数；至此，即完成了对步骤2得到的各阶段DE miRNA的共表达网络和共表达模块构建。

4、关键模块识别

构建模块网络可以找到在PD阶段演化过程中一些关键的模块；如果一个DE miRNA在不同阶段模块中共表达我们认为这两个模块是存在关联关系的。在本发明中，与其他阶段模块之间存在的关联关系越多，那么该模块在该疾病阶段中起到的作用越关键。通过构建模块网络我们可以选择模块之间关联关系最强的模块作为在PD疾病演化过程中起到重要作用的模块。

对于步骤3得到的各阶段的若干共表达模块，如果其包含相同的DE miRNA，则对其建立连边，连边的权值为两个模块包含的相同DE miRNA的个数；然后，按照下式计算得到不同模块间的连接关系权重：

表示与模块i相连的边权值的均值，stdev(X_i)表示与模块i相连的边权值的标准差；i,j＝1,2,…,N1，N1表示共表达模块总数。

最后，将各阶段模块间连接关系权重最强的模块保留，即为最终识别得到的关键模块。

通过实验验证，比对现有与PD相关的miRNA或与PD相似疾病相关的miRNA，采用本发明方法得到的结果中有80.75％的miRNA与PD相关；并使用TAM2.0对输出的模块进行功能富集，选择富集结果中FDR<0.05的功能进行分析，本发明得到的关键模块其功能与免疫反应、细胞凋零、甘小包调节、细胞死亡、炎症反应等相关，这些功能也正是PD相关的功能。

Claims

1.一种基于miRNA测序数据的帕金森疾病演化关键模块识别方法，其特征在于步骤如下：

步骤2，差异表达分析：根据患病的不同阶段对样本进行分组，分为control组、stage1、stage2、stage3、stage4五组数据，其中，control组数据为正常样本，stage1～stage4四组数据为处于不同阶段的PD患者样本；然后，分别使用edgeR方法和T-test方法对每两个阶段样本的miRNA表达量数据进行差异表达分析，得到差异表达miRNA，记为DE miRNA；

其中，

分别表示在两个阶段样本中miRNA表达量的平均值；

其中，

S_xy＝|corr(miRNA_x,miRNA_y)| (3)其中，S_xy表示共表达矩阵的第x行y列元素值，miRNA_x表示第x个DE miRNA，miRNA_y表示第y个DE miRNA，x,y＝1,2,…,n_m，n_m表示该阶段内包含的DE miRNA个数，corr表示计算两个DE miRNA的相关系数；

a_xy＝|S_xy|^β (4)

如果miRNA_x和miRNA_y之间没有连接，则ω_xy＝0；

d_xy＝1-ω_xy (6)

其中，d_xy表示相异度矩阵的第x行y列元素值；

首先，设置每个模块应满足的最少DE miRNA数；

所述的不同模块间的线性相关系数PCC按下式计算得到：

具有最大连接关系权重值的边所连接的模块即为关键模块。