CN113035279A - 基于miRNA测序数据的帕金森疾病演化关键模块识别方法 - Google Patents
基于miRNA测序数据的帕金森疾病演化关键模块识别方法 Download PDFInfo
- Publication number
- CN113035279A CN113035279A CN202110410478.1A CN202110410478A CN113035279A CN 113035279 A CN113035279 A CN 113035279A CN 202110410478 A CN202110410478 A CN 202110410478A CN 113035279 A CN113035279 A CN 113035279A
- Authority
- CN
- China
- Prior art keywords
- mirna
- expression
- module
- modules
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000002679 microRNA Substances 0.000 title claims abstract description 206
- 108091070501 miRNA Proteins 0.000 title claims abstract description 166
- 238000000034 method Methods 0.000 title claims abstract description 46
- 208000018737 Parkinson disease Diseases 0.000 title claims abstract description 35
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 11
- 230000004186 co-expression Effects 0.000 claims abstract description 53
- 230000014509 gene expression Effects 0.000 claims abstract description 51
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 23
- 201000010099 disease Diseases 0.000 claims abstract description 20
- 238000010195 expression analysis Methods 0.000 claims abstract description 16
- 238000012165 high-throughput sequencing Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 38
- 239000000523 sample Substances 0.000 claims description 13
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims description 10
- 239000013074 reference sample Substances 0.000 claims description 9
- 238000003908 quality control method Methods 0.000 claims description 8
- 238000010998 test method Methods 0.000 claims description 7
- 238000000513 principal component analysis Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 108091030146 MiRBase Proteins 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000013610 patient sample Substances 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 208000015122 neurodegenerative disease Diseases 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 206010003805 Autism Diseases 0.000 description 1
- 208000020706 Autistic disease Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000001808 exosome Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000005017 glioblastoma Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009878 intermolecular interaction Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000004770 neurodegeneration Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种基于miRNA测序数据的帕金森疾病关键模块识别方法。首先,对高通量测序数据进行预处理;然后,根据PD患病的不同阶段对样本进行分组,再进行差异表达分析;接着,根据差异表达miRNA间的相关系数进行层次聚类,构建共表达网络和模块;最后,构建模块网络并识别得到PD关键模块。利用本发明方法可以进行PD演化过程的关键模块识别,根据关键模块判断当前患者所处的PD阶段,为医生发现早期PD患者提供帮助。
Description
技术领域
本发明属生物信息技术领域,具体涉及一种基于miRNA测序数据的帕金森疾病演化关键模块识别方法,通过研究miRNA表达数据的差异并构建共表达网络和模块网络对PD演化过程中的关键模块进行识别。
背景技术
帕金森疾病(PD)是一种神经系统变性疾病,常见于中老年患者,并且帕金森疾病的早期症状不明显,一旦发现就往往就处于晚期,使得患者往往丧失了早发现早治疗的机会。外泌体及其miRNA不仅在PD等神经变性疾病中起到早期预警的作用,还有可能会根据miRNA对基因的调节作用起到靶向治疗的作用。目前对基于miRNA数据研究PD的方法和技术主要是针对疾病静态的过程即研究疾病的过程中部分疾病所处的阶段,并且主要是针对单独的miRNA分子进行研究。包括:(1)使用启发式算法。使用有监督学习或者无监督学习的方法识别网络中的疾病模块,但是启发式算法往往需要大量的样本数据,而生物领域样本往往是非常稀少的,这样导致启发式算法在这种情况下很难使用,效果也不是很好。(2)基于差异表达的算法。分子表达数据可以捕获疾病样本特定阶段的信息,可以分析控制组与患病组样本miRNA表达量的分布情况分析差异表达miRNA。(3)其他的生物网络模块识别方法。包括基于贝叶斯分类器的方法、基于聚类的方法和基于随机游走的方法等,但是这些关于疾病相关致病基因的预测研究主要集中在静态网络上。疾病的发展是一个动态的过程,并且在真实生物体中疾病的产生不是由于单独的miRNA分子的作用,而是多个miRNA分子相互作用产生的疾病。
发明内容
为了克服现有技术的不足,本发明提供一种基于miRNA测序数据的帕金森疾病演化关键模块识别方法。首先,对高通量测序数据进行质量控制、去重、比对等预处理;然后,根据PD患病的不同阶段对样本进行分组,再进行差异表达分析,得到差异表达miRNA;接着,根据差异表达miRNA间的相关系数进行层次聚类,以构建共表达网络和模块;最后,构建模块网络并识别得到PD关键模块。差异表达分析是从分子的角度分析在不同患病阶段的样本和正常样本之间差异表达的miRNA;构建共表达网络可以将分子间相互作用考虑进来从而找到协同表达的模块;构建模块网络可以找到疾病演化过程中比较关键的模块。本发明方法从PD动态发展的本质出发,从致病miRNA和模块两个维度,把研究PD演化的问题转化为研究PD各阶段模块的问题,从而构建了共表达网络和模块网络,找到各阶段的关键模块,根据关键模块判断当前患者所处的PD阶段,从而为PD演化的研究提供参考、为医生发现早期PD患者提供帮助。
一种基于miRNA测序数据的帕金森疾病演化关键模块识别方法,其特征在于步骤如下:
步骤1,高通量测序数据预处理:利用fastp和fastxtoolkits软件对所有样本的高通量测序数据进行质量控制,将质量控制后的数据中的重复序列删除并对重复序列计数;然后,利用bowtie软件对去重后的序列与miRbase数据库中的miRNA碱基序列进行比对,统计匹配的miRNA序列数及去重时记录的重复序列数,得到miRNA表达的counts数据,再对miRNA表达的counts数据进行标准化处理,得到miRNA表达量数据;
步骤2,差异表达分析:根据患病的不同阶段对样本进行分组,分为control组、stage1、stage2、stage3、stage4五组数据,其中,control组数据为正常样本,stage1~stage4四组数据为处于不同阶段的PD患者样本;然后,分别使用edgeR方法和T-test方法对每两个阶段样本的miRNA表达量数据进行差异表达分析,得到差异表达miRNA,记为DEmiRNA;
对于使用edgeR方法进行差异表达分析得到的miRNA,如果满足p-value<0.05且|logFC|>1,则认为该miRNA为DE miRNA,其中,p-value表示该miRNA在患病样本中的表达与其在参考样本中表达的差异显著程度,通过计算miRNA在患病样本中的表达不符合在参考样本中的表达数据分布的期望差值并查表得到;FC表示该miRNA在患病样本中的表达与其在参考样本中表达的差异大小,按照下式计算得到:
对于使用T-test方法进行差异表达分析得到的miRNA,如果满足p-value<0.05且|T-statistic|>2,则认为该miRNA为DE miRNA,其中,T-statistic表示在两个阶段样本中该miRNA的表达量有显著差异的概率,按照下式计算得到:
步骤3,构建共表达网络:对各阶段通过步骤2得到的DE miRNA,利用步骤1求得的miRNA表达量计算阶段内miRNA之间的相关系数并进行层次聚类,得到各阶段的共表达网络和共表达模块,具体过程如下:
步骤a,构建miRNA共表达矩阵:按照下式计算得到miRNA共表达矩阵中的元素Sxy:
Sxy=|corr(miRNAx,miRNAy)| (3)
其中,Sxy表示共表达矩阵的第x行y列元素值,miRNAx表示第x个DE miRNA,miRNAy表示第y个DE miRNA,x,y=1,2,…,nm,nm表示该阶段内包含的DE miRNA个数,corr表示计算两个DE miRNA的相关系数;
步骤b,构建邻接矩阵:按照下式计算得到邻接矩阵中的邻接系数axy:
axy=|Sxy|β (4)
其中,axy表示邻接矩阵的第x行y列元素值,β为邻接函数的参数,取值为节点连接数的对数与节点连接数出现的概率对数之间的线性相关系数达到0.8时的值;
若axy>0.8,表示miRNAx和miRNAy之间有邻接关系,其值保持不变;否则,令axy=0;
步骤c,构建拓扑矩阵:按照下式计算得到拓扑矩阵中的元素ωxy:
其中,ωxy表示拓扑矩阵的第x行y列元素值,即miRNAx和miRNAy之间的共表达系数,lxy为同时与miRNAx和miRNAy有邻接关系的邻接系数之和,按照计算得到,μ表示同时与miRNAx和miRNAy有邻接关系的边数,kx为只与miRNAx有邻接关系的邻接系数之和,ky为只与miRNAy有邻接关系的邻接系数之和;
如果miRNAx和miRNAy之间没有连接,则ωxy=0;
以每个DE miRNA为节点,不同DE miRNA之间的共表达系数ωxy值为边,构成共表达网络;
步骤d,构建相异度矩阵:按照下式计算得到相异度矩阵中的元素dxy:
dxy=1-ωxy (6)
其中,dxy表示相异度矩阵的第x行y列元素值;
步骤e,进行层次聚类:对每个阶段得到的相异度矩阵按下述过程进行计算,得到若干共表达模块:
首先,设置每个模块应满足的最少DE miRNA数;
对于每一个DE miRNA,根据相异度值寻找其K个最近邻DE miRNA,并排除其中相异度值小于0.2的DE miRNA,构成一个模块;对所有DE miRNA如此进行处理,得到若干模块;
对每个模块内的所有DE miRNA间的相异度值进行主成分分析,并以第一主成分值作为该模块的特征值;合并所有线性相关系数PCC大于0.8的不同模块;然后,再重新对每个模块进行主成分分析,如此反复,直至所有模块内包含的DE miRNA个数大于设定的最少DEmiRNA数,且不同模块间的线性相关系数PCC均小于0.8,得到各阶段的若干共表达模块;
所述的不同模块间的线性相关系数PCC按下式计算得到:
其中,PCCXY表示模块X和模块Y之间的线性相关系数,cov(X,Y)表示模块X和模块Y特征值的协方差,σX、σY分别表示模块X和模块Y中特征值的标准差;X,Y=1,2,…,N,N表示该阶段的共表达模块数;
步骤4,关键模块识别:对于步骤3得到的各阶段的若干共表达模块,如果其包含相同的DE miRNA,则对其建立连边,连边的权值为两个模块包含的相同DE miRNA的个数;然后,按照下式计算得到不同模块间的连接关系权重:
其中,sij表示模块i和模块j之间的连接关系权重,Xij表示模块i与模块j相连的边的权值,表示与模块i相连的边权值的均值,stdev(Xi)表示与模块i相连的边权值的标准差;i,j=1,2,…,N1,N1表示共表达模块总数;
具有最大连接关系权重值的边所连接的模块即为关键模块。
本发明的有益效果是:通过采用差异表达分析的方法,能够找到各阶段的DEmiRNA,通过采用构建共表达网络和层次聚类的方法,能够找到各阶段协同表达的模块,使得可以从miRNA分子和模块两个角度出发,对不同PD阶段进行分析来研究PD疾病的演化;且通过采用构建模块网络的方法,能够识别在PD阶段演化过程中起到关键性作用的模块,为PD演化的研究提供参考、为医生发现早期PD患者提供帮助。
附图说明
图1是本发明的基于miRNA测序数据的帕金森疾病演化关键模块识别方法流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1所示,本发明提供了一种基于miRNA测序数据的帕金森疾病演化关键模块识别方法,其具体实现过程如下:
1、高通量测序数据预处理
首先,使用fastp、fastxtoolkits软件对高通量测序数据(TCGA数据)进行质量控制,包括包含去掉N碱基序列、过滤Q20比例过低的序列以及进行长度过滤,将质量控制之后得到的数据记为clean-data,然后为了提高接下来的比对任务,将clean-data中的重复序列去重并计数,将得到的结果记为uniq-data,uniq-data的数据格式是fasta,主要由序列名和碱基序列组成。
然后,需要将每个实验样本中的miRNA序列比对到已知的miRNA数据库(miRbase)中得到表达量counts数据,这一步也称之为Map。如果直接将预处理完的序列比对到miRbase将会非常慢,因为全基因序列数据量非常庞大,所以本发明采用的方法是将每个样本中重复的序列删掉并对重复数计数,再进行比对,然后统计匹配的miRNA序列数及去重时记录的重复序列数,得到miRNA表达的counts数据。
最后,需要对得到的表达量counts数据进行标准化,得到miRNA表达量数据。标准化的目的就是降低因测序深度不同对最终结果产生的影响,尽可能地减少因测序技术和重复实验带来的干扰。
2、差异表达分析
根据患病的不同阶段对样本进行分组,分为control组、stage1、stage2、stage3、stage4五组数据,其中,control组数据为正常样本,stage1~stage4四组数据为处于不同阶段的PD患者样本;然后,分别使用edgeR方法和T-test方法对每两个阶段样本的miRNA表达量数据进行差异表达分析,得到差异表达miRNA,记为DE miRNA。
edgeR方法的类似然负二项式广义对数模型,该模型将每个miRNA的read count归一化之后值拟合到模型中,然后对于给定的系数进行统计检验,如果某个miRNA的表达值偏离了这个分布模型,那么该miRNA即为差异表达基因。T-test方法则是检验两组样本平均数与其各自所代表的总体差异是否显著。
对于使用edgeR方法进行差异表达分析得到的miRNA,如果满足p-value<0.05且|logFC|>1,则认为该miRNA为DE miRNA,其中,p-value表示该miRNA在患病样本中的表达与其在参考样本中表达的差异显著程度,通过计算miRNA在患病样本中的表达不符合在参考样本中的表达数据分布的期望差值并查表得到;FC表示该miRNA在患病样本中的表达与其在参考样本中表达的差异大小,按照下式计算得到:
对于使用T-test方法进行差异表达分析得到的miRNA,如果满足p-value<0.05且|T-statistic|>2,则认为该miRNA为DE miRNA,其中,T-statistic表示在两个阶段样本中该miRNA的表达量有显著差异的概率,按照下式计算得到:
3、构建共表达网络
共表达网络分析是为了寻找协同表达的模块,并研究共表达网络与其表型的关系。通过实验数据探究构建的网络与疾病或者性状之间的关系,常用于复杂疾病基因鉴定等生物学研究领域,共表达当前已经被用于识别复杂疾病的标记和药物靶点,并且也被用于人类复杂疾病的研究,比如阿尔兹海默症、自闭症、胶质母细胞瘤等的关联基因的研究。构建共表达网络和模块包括五个主要步骤:
(1)构建miRNA共表达矩阵
按照下式计算得到miRNA共表达矩阵中的元素Sxy:
(11)
Sxy=|corr(miRNAx,miRNAy)|
其中,Sxy表示共表达矩阵的第x行y列元素值,miRNAx表示第x个DE miRNA,miRNAy表示第y个DE miRNA,x,y=1,2,…,nm,nm表示该阶段内包含的DE miRNA个数,corr表示计算两个DE miRNA的相关系数;
(2)构建邻接矩阵
按照下式计算得到邻接矩阵中的邻接系数axy:
axy=|Sxy|β (12)
其中,axy表示邻接矩阵的第x行y列元素值,β为邻接函数的参数,取值为节点连接数(与DE miRNA有邻接关系的DE miRNA个数)的对数与节点连接数出现的概率对数之间的线性相关系数达到0.8时的值;
若axy>0.8,表示miRNAx和miRNAy之间有邻接关系,其值保持不变;否则,令axy=0;
(3)构建拓扑矩阵
按照下式计算得到拓扑矩阵中的元素ωxy:
其中,ωxy表示拓扑矩阵的第x行y列元素值,即miRNAx和miRNAy之间的共表达系数,lxy为同时与miRNAx和miRNAy有邻接关系的邻接系数之和,按照计算得到,μ表示同时与miRNAx和miRNAy有邻接关系的边数,kx为只与miRNAx有邻接关系的邻接系数之和,ky为只与miRNAy有邻接关系的邻接系数之和;
如果miRNAx和miRNAy之间没有连接,则ωxy=0;
每个DE miRNA构成了共表达网络的节点,ωxy构成了共表达网络的边。
(4)构建相异度矩阵
按照下式计算得到相异度矩阵中的元素dxy:
dxy=1-ωxy (14)
其中,dxy表示相异度矩阵的第x行y列元素值;
(5)进行层次聚类:对每个阶段得到的相异度矩阵按下述过程进行计算,得到若干共表达模块:
首先,设置每个模块应满足的最少DE miRNA数(一般设置为30个);
对于每一个DE miRNA,根据相异度值寻找其K个最近邻DE miRNA,并排除其中相异度值小于0.2的DE miRNA,构成一个模块;对所有DE miRNA如此进行处理,得到若干模块;
对每个模块内的所有DE miRNA间的相异度值进行主成分分析,并以第一主成分值作为该模块的特征值;合并所有线性相关系数PCC大于0.8的不同模块;然后,再重新对每个模块进行主成分分析,如此反复,直至所有模块内包含的DE miRNA个数大于设定的最少DEmiRNA数,且不同模块间的线性相关系数PCC均小于0.8,得到各阶段的若干共表达模块。
所述的不同模块间的线性相关系数PCC按下式计算得到:
其中,PCCXY表示模块X和模块Y之间的线性相关系数,cov(X,Y)表示模块X和模块Y特征值的协方差,σX、σY分别表示模块X和模块Y中特征值的标准差;X,Y=1,2,…,N,N表示该阶段的共表达模块数;至此,即完成了对步骤2得到的各阶段DE miRNA的共表达网络和共表达模块构建。
4、关键模块识别
构建模块网络可以找到在PD阶段演化过程中一些关键的模块;如果一个DE miRNA在不同阶段模块中共表达我们认为这两个模块是存在关联关系的。在本发明中,与其他阶段模块之间存在的关联关系越多,那么该模块在该疾病阶段中起到的作用越关键。通过构建模块网络我们可以选择模块之间关联关系最强的模块作为在PD疾病演化过程中起到重要作用的模块。
对于步骤3得到的各阶段的若干共表达模块,如果其包含相同的DE miRNA,则对其建立连边,连边的权值为两个模块包含的相同DE miRNA的个数;然后,按照下式计算得到不同模块间的连接关系权重:
其中,sij表示模块i和模块j之间的连接关系权重,Xij表示模块i与模块j相连的边的权值,表示与模块i相连的边权值的均值,stdev(Xi)表示与模块i相连的边权值的标准差;i,j=1,2,…,N1,N1表示共表达模块总数。
最后,将各阶段模块间连接关系权重最强的模块保留,即为最终识别得到的关键模块。
通过实验验证,比对现有与PD相关的miRNA或与PD相似疾病相关的miRNA,采用本发明方法得到的结果中有80.75%的miRNA与PD相关;并使用TAM2.0对输出的模块进行功能富集,选择富集结果中FDR<0.05的功能进行分析,本发明得到的关键模块其功能与免疫反应、细胞凋零、甘小包调节、细胞死亡、炎症反应等相关,这些功能也正是PD相关的功能。
Claims (1)
1.一种基于miRNA测序数据的帕金森疾病演化关键模块识别方法,其特征在于步骤如下:
步骤1,高通量测序数据预处理:利用fastp和fastxtoolkits软件对所有样本的高通量测序数据进行质量控制,将质量控制后的数据中的重复序列删除并对重复序列计数;然后,利用bowtie软件对去重后的序列与miRbase数据库中的miRNA碱基序列进行比对,统计匹配的miRNA序列数及去重时记录的重复序列数,得到miRNA表达的counts数据,再对miRNA表达的counts数据进行标准化处理,得到miRNA表达量数据;
步骤2,差异表达分析:根据患病的不同阶段对样本进行分组,分为control组、stage1、stage2、stage3、stage4五组数据,其中,control组数据为正常样本,stage1~stage4四组数据为处于不同阶段的PD患者样本;然后,分别使用edgeR方法和T-test方法对每两个阶段样本的miRNA表达量数据进行差异表达分析,得到差异表达miRNA,记为DE miRNA;
对于使用edgeR方法进行差异表达分析得到的miRNA,如果满足p-value<0.05且|logFC|>1,则认为该miRNA为DE miRNA,其中,p-value表示该miRNA在患病样本中的表达与其在参考样本中表达的差异显著程度,通过计算miRNA在患病样本中的表达不符合在参考样本中的表达数据分布的期望差值并查表得到;FC表示该miRNA在患病样本中的表达与其在参考样本中表达的差异大小,按照下式计算得到:
对于使用T-test方法进行差异表达分析得到的miRNA,如果满足p-value<0.05且|T-statistic|>2,则认为该miRNA为DE miRNA,其中,T-statistic表示在两个阶段样本中该miRNA的表达量有显著差异的概率,按照下式计算得到:
步骤3,构建共表达网络:对各阶段通过步骤2得到的DE miRNA,利用步骤1求得的miRNA表达量计算阶段内miRNA之间的相关系数并进行层次聚类,得到各阶段的共表达网络和共表达模块,具体过程如下:
步骤a,构建miRNA共表达矩阵:按照下式计算得到miRNA共表达矩阵中的元素Sxy:
Sxy=|corr(miRNAx,miRNAy)| (3)其中,Sxy表示共表达矩阵的第x行y列元素值,miRNAx表示第x个DE miRNA,miRNAy表示第y个DE miRNA,x,y=1,2,…,nm,nm表示该阶段内包含的DE miRNA个数,corr表示计算两个DE miRNA的相关系数;
步骤b,构建邻接矩阵:按照下式计算得到邻接矩阵中的邻接系数axy:
axy=|Sxy|β (4)
其中,axy表示邻接矩阵的第x行y列元素值,β为邻接函数的参数,取值为节点连接数的对数与节点连接数出现的概率对数之间的线性相关系数达到0.8时的值;
若axy>0.8,表示miRNAx和miRNAy之间有邻接关系,其值保持不变;否则,令axy=0;
步骤c,构建拓扑矩阵:按照下式计算得到拓扑矩阵中的元素ωxy:
其中,ωxy表示拓扑矩阵的第x行y列元素值,即miRNAx和miRNAy之间的共表达系数,lxy为同时与miRNAx和miRNAy有邻接关系的邻接系数之和,按照计算得到,μ表示同时与miRNAx和miRNAy有邻接关系的边数,kx为只与miRNAx有邻接关系的邻接系数之和,ky为只与miRNAy有邻接关系的邻接系数之和;
如果miRNAx和miRNAy之间没有连接,则ωxy=0;
以每个DE miRNA为节点,不同DE miRNA之间的共表达系数ωxy值为边,构成共表达网络;
步骤d,构建相异度矩阵:按照下式计算得到相异度矩阵中的元素dxy:
dxy=1-ωxy (6)
其中,dxy表示相异度矩阵的第x行y列元素值;
步骤e,进行层次聚类:对每个阶段得到的相异度矩阵按下述过程进行计算,得到若干共表达模块:
首先,设置每个模块应满足的最少DE miRNA数;
对于每一个DE miRNA,根据相异度值寻找其K个最近邻DE miRNA,并排除其中相异度值小于0.2的DE miRNA,构成一个模块;对所有DE miRNA如此进行处理,得到若干模块;
对每个模块内的所有DE miRNA间的相异度值进行主成分分析,并以第一主成分值作为该模块的特征值;合并所有线性相关系数PCC大于0.8的不同模块;然后,再重新对每个模块进行主成分分析,如此反复,直至所有模块内包含的DE miRNA个数大于设定的最少DEmiRNA数,且不同模块间的线性相关系数PCC均小于0.8,得到各阶段的若干共表达模块;
所述的不同模块间的线性相关系数PCC按下式计算得到:
其中,PCCXY表示模块X和模块Y之间的线性相关系数,cov(X,Y)表示模块X和模块Y特征值的协方差,σX、σY分别表示模块X和模块Y中特征值的标准差;X,Y=1,2,…,N,N表示该阶段的共表达模块数;
步骤4,关键模块识别:对于步骤3得到的各阶段的若干共表达模块,如果其包含相同的DE miRNA,则对其建立连边,连边的权值为两个模块包含的相同DE miRNA的个数;然后,按照下式计算得到不同模块间的连接关系权重:
其中,sij表示模块i和模块j之间的连接关系权重,Xij表示模块i与模块j相连的边的权值,表示与模块i相连的边权值的均值,stdev(Xi)表示与模块i相连的边权值的标准差;i,j=1,2,…,N1,N1表示共表达模块总数;
具有最大连接关系权重值的边所连接的模块即为关键模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110410478.1A CN113035279B (zh) | 2021-04-13 | 2021-04-13 | 基于miRNA测序数据的帕金森疾病演化关键模块识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110410478.1A CN113035279B (zh) | 2021-04-13 | 2021-04-13 | 基于miRNA测序数据的帕金森疾病演化关键模块识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113035279A true CN113035279A (zh) | 2021-06-25 |
CN113035279B CN113035279B (zh) | 2022-04-19 |
Family
ID=76457260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110410478.1A Active CN113035279B (zh) | 2021-04-13 | 2021-04-13 | 基于miRNA测序数据的帕金森疾病演化关键模块识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113035279B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115376698A (zh) * | 2022-10-25 | 2022-11-22 | 北京鹰瞳科技发展股份有限公司 | 用于对眼底疾病的演进进行预测的装置、方法和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017201919A1 (en) * | 2011-10-26 | 2017-04-13 | The Regents Of The University Of California | Pathway recognition algorithm using data integration on genomic models (paradigm) |
CN109712717A (zh) * | 2018-12-27 | 2019-05-03 | 湖南大学 | 一种基于miRNA-基因调控模块的癌症相关MicroRNA识别方法 |
CN110964801A (zh) * | 2019-11-06 | 2020-04-07 | 华南理工大学 | hsa-miRNA-451a在制备诊断帕金森病认知功能障碍分子标志物中的应用 |
CN112071365A (zh) * | 2020-09-17 | 2020-12-11 | 北京理工大学 | 基于pten基因状态筛选胶质瘤生物标记物的方法 |
-
2021
- 2021-04-13 CN CN202110410478.1A patent/CN113035279B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017201919A1 (en) * | 2011-10-26 | 2017-04-13 | The Regents Of The University Of California | Pathway recognition algorithm using data integration on genomic models (paradigm) |
CN109712717A (zh) * | 2018-12-27 | 2019-05-03 | 湖南大学 | 一种基于miRNA-基因调控模块的癌症相关MicroRNA识别方法 |
CN110964801A (zh) * | 2019-11-06 | 2020-04-07 | 华南理工大学 | hsa-miRNA-451a在制备诊断帕金森病认知功能障碍分子标志物中的应用 |
CN112071365A (zh) * | 2020-09-17 | 2020-12-11 | 北京理工大学 | 基于pten基因状态筛选胶质瘤生物标记物的方法 |
Non-Patent Citations (2)
Title |
---|
JIAJIE PENG.ET.: "A learning-based framework for miRNA-disease association identification using neural networks", 《BIOINFORMATICS (OXFORD, ENGLAND)》 * |
雷子贤: "miRNA在白癜风血浆中的差异表达及其功能研究", 《中国优秀博硕士学位论文全文数据库(博士) 医药卫生科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115376698A (zh) * | 2022-10-25 | 2022-11-22 | 北京鹰瞳科技发展股份有限公司 | 用于对眼底疾病的演进进行预测的装置、方法和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113035279B (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112750502B (zh) | 二维分布结构判定的单细胞转录组测序数据聚类推荐方法 | |
CN106446600B (zh) | 一种基于CRISPR/Cas9的sgRNA的设计方法 | |
CN111899882B (zh) | 一种预测癌症的方法及系统 | |
Goh et al. | A novel feature selection method to improve classification of gene expression data | |
Shekhar et al. | Diversification of multipotential postmitotic mouse retinal ganglion cell precursors into discrete types | |
US20130254202A1 (en) | Parallelization of synthetic events with genetic surprisal data representing a genetic sequence of an organism | |
CN107679367B (zh) | 一种基于网络节点关联度的共调控网络功能模块识别方法及系统 | |
CN114091603A (zh) | 一种空间转录组细胞聚类、分析方法 | |
CN114496092A (zh) | 基于图卷积网络的miRNA和疾病关联关系预测方法 | |
CN113035279B (zh) | 基于miRNA测序数据的帕金森疾病演化关键模块识别方法 | |
CN117591953A (zh) | 基于多组学数据的癌症分类方法、系统及电子设备 | |
EP3584326B1 (en) | Method and system for identification of key driver organisms from microbiome / metagenomics studies | |
Jamail et al. | Current state-of-the-art of clustering methods for gene expression data with RNA-Seq | |
CN114093512B (zh) | 一种基于多模态数据和深度学习模型的生存预测方法 | |
CN115394348A (zh) | 基于图卷积网络的lncRNA亚细胞定位预测方法、设备及介质 | |
CN111180013A (zh) | 检测血液病融合基因的装置 | |
CN114360654A (zh) | 一种基于基因表达的图神经网络数据集构建方法 | |
JP2023546645A (ja) | シングルセルゲノミクスデータセットからの細胞のサブサンプリング方法及びシステム | |
CN115881218B (zh) | 用于全基因组关联分析的基因自动选择方法 | |
Gouwens et al. | Toward an integrated classification of cell types: morphoelectric and transcriptomic characterization of individual GABAergic cortical neurons | |
Zhou et al. | A new method for classification in DNA sequence | |
CN113380326B (zh) | 一种基于pam聚类算法的基因表达数据分析方法 | |
Chen et al. | Multi-objective evolutionary triclustering with constraints of time-series gene expression data | |
CN113723537A (zh) | 一种基于鲁棒的对称非负矩阵分解的微生物数据聚类方法 | |
CN116168761B (zh) | 核酸序列特征区域确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |