CN113192562A - 融合多尺度模块结构信息的致病基因识别方法及系统 - Google Patents

融合多尺度模块结构信息的致病基因识别方法及系统 Download PDF

Info

Publication number
CN113192562A
CN113192562A CN202110496456.1A CN202110496456A CN113192562A CN 113192562 A CN113192562 A CN 113192562A CN 202110496456 A CN202110496456 A CN 202110496456A CN 113192562 A CN113192562 A CN 113192562A
Authority
CN
China
Prior art keywords
gene
network
list
disease
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110496456.1A
Other languages
English (en)
Other versions
CN113192562B (zh
Inventor
李敏
项炬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202110496456.1A priority Critical patent/CN113192562B/zh
Publication of CN113192562A publication Critical patent/CN113192562A/zh
Application granted granted Critical
Publication of CN113192562B publication Critical patent/CN113192562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Bioethics (AREA)
  • Mathematical Optimization (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Epidemiology (AREA)
  • Mathematical Analysis (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Algebra (AREA)

Abstract

本发明公开了一种融合多尺度模块结构信息的致病基因识别方法及系统,通过基于模块度优化的多尺度模块识别算法提取多尺度模块划分;对于每个尺度的模块划分,计算模块的疾病相关性分值和基因的疾病相关性分值,并获得基因的排序列表;基于朴素贝叶斯理论,计算来自多尺度模块划分的基因排序列表的聚合分值列表和对应的基因排序列表;将基于多尺度模块结构的基因排序列表和基于网络随机游走的基因排序列表融合以得到最终的综合的基因分值列表,并计算得到最终的基因排序列表,从而识别致病基因。本发明的方法通过网络多尺度模块挖掘,能够有效地利用隐藏在网络多尺度模块结构中的信息,从而获得更强的识别致病基因的能力。

Description

融合多尺度模块结构信息的致病基因识别方法及系统
技术领域
本发明涉及生物信息学领域,特别是一种融合多尺度模块结构信息的致病基因识别方法及系统。
背景技术
人类疾病基因发现的进展增加了人们对人类疾病潜在分子基础的认识,但已知与疾病相关的致病基因只占发病率的很小比例,还有许多疾病致病基因有待进一步探索。传统的方法往往提供一长串候选基因,需要大量耗时的实验鉴定。因此,开发预测疾病致病基因的计算算法对于加速疾病相关基因的发现具有重要意义。
基于网络的算法已经成为疾病致病基因预测的流行策略。例如,一些算法通过考虑已知疾病相关基因的直接邻居来推断疾病相关基因;一些算法进一步考虑候选基因与网络中已知疾病致病基因(集合)之间的最短路径距离或接近度;一些算法利用网络传播来提取疾病相关信息;一些基于模块的算法也应用于疾病致病基因/模块以及相关问题的分析。模块结构或者说群落结构,在生物分子网络中无处不在,人类疾病的模块结构可为疾病的研究提供有用的见解,但在疾病致病基因预测中还没有得到充分的探索。
多尺度模块检测是研究生物分子网络等复杂系统的重要手段,因为多尺度结构广泛存在于各种自然和人工复杂系统中。例如,蛋白质网络中的模块可包含若干子模块,例如,许多蛋白质复合物(例如SAGA)包含若干次级复合物。多尺度模块结构比单尺度模块结构能提供更多的信息,许多的多尺度模块分解方法已被提出并应用于生物网络分析,但仍存在许多具有挑战性的问题,例如,现有技术并未研究和解决如何挖掘隐藏在多尺度结构中的有价值信息来识别疾病的致病基因。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种融合多尺度模块结构信息的致病基因识别方法及系统,提高疾病的致病基因识别的准确性。
为解决上述技术问题,本发明所采用的技术方案是:一种融合多尺度模块结构信息的致病基因识别方法,包括以下步骤:
S1、通过模块度函数Q(γ)提取不同尺度下的基因网络模块划分;其中,模块度函数Q(γ)的表达式为:
Figure BDA0003054518550000011
γ为分辨率参数,M表示基因网络中的边数目,
Figure BDA0003054518550000021
表示模块s的内部度值,ks表示模块s的总度值;
S2、计算所述不同尺度下的网络模块划分的疾病相关性分值和基因的疾病相关性分值,并获得不同尺度下的基因排位列表;
S3、计算所述不同尺度下的基因排位列表的聚合分值列表,从而获得对应的融合多尺度模块结构信息的聚合的基因排位列表
Figure BDA0003054518550000022
计算基于网络随机游走的基因分值列表,通过所述基因分值列表的降序排列得到基于网络随机游走的基因排位列表
Figure BDA0003054518550000023
S4、融合步骤S3所得的融合多尺度模块结构信息的聚合的基因排位列表和基于网络随机游走的基因排位列表,得到最终的综合的基因计分列表,通过所述综合的基因计分列表计算基因综合得分,识别致病基因。
本发明通过多尺度模块挖掘算法从多个尺度上提取网络的模块结构,分别从每个尺度上的模块结构提取有助于疾病基因识别的信息,然后融合来自不同尺度上的信息,将这些信息与传统的网络随机游走方法提取的信息融合,从而能更有效的识别疾病候选基因。
所述分辨率参数γ的提取方法包括:通过指数抽样从区间[γminmax]获得一组分辨率参数值;其中抽样间隔为Δlogγ=0.01,γmin=10-20
Figure BDA0003054518550000024
kmin是基因-基因关联网络节点的最小度值。采用不同分辨率可获得不同分辨率视角下的模块结构信息,在整个连续的分辨率空间中提取所有模块结构是不可能的,因此依据以往的研究经验,对分辨率进行指数抽样,可以较好地获得各个分辨率下的模块结构信息。
步骤S2的具体实现过程包括:
1)定义一个向量
Figure BDA00030545185500000211
表示N个基因与某个疾病之间的关联性分值;在基因网络中,如果第i个基因是疾病的致病基因,则li=1,否则li=0;RN×1为大小为N×1的实数矩阵;T表示矩阵转置;对每个网络模块划分,定义一个划分矩阵B(h)来表示该网络模块划分;对于每个网络模块,定义一个对角矩阵
Figure BDA0003054518550000025
其中
Figure BDA0003054518550000026
2)在第h个网络模块划分中,所有网络模块的疾病相关性分值
Figure BDA0003054518550000027
的计算公式为:
Figure BDA0003054518550000028
所有基因的疾病相关性分值
Figure BDA0003054518550000029
的计算公式为:
Figure BDA00030545185500000210
3)构建基因排位矩阵
Figure BDA0003054518550000031
其中,
Figure BDA0003054518550000032
表示对应第h个模块划分的基因排位列表;h=1,2,……,H;H为基因排位列表的数量,即网络模块划分的数量,也即抽样的分辨率值的数量;所述基因排位矩阵即H个纵向的基因排位列表沿着横向依次排布构成的矩阵。
以上步骤从每个尺度的网络模块划分中提取有助于疾病基因的信息,能够综合考虑每个网络模块的大小、模块内已知的疾病基因数量等因素来更有效的对基因进行打分,为下一步多尺度模块划分中的信息的融合提供基础。
步骤S3中,融合多尺度模块结构信息的聚合的基因排位列表
Figure BDA0003054518550000033
函数generank()通过
Figure BDA0003054518550000034
中基因分值的降序排列获得基因的排位列表,其中融合多尺度模块结构信息的基因分值列表
Figure BDA0003054518550000035
的计算公式如下:
Figure BDA0003054518550000036
表示基因排位矩阵的第h列中对应基因g的元素的值,即基因g在第h个网络模块划分中对应的基因排位值;g=1,2,……,N;N表示基因个数;H为基因排位列表的数量,即网络模块划分的数量,也即抽样的分辨率值的数量;βh表示对应第h个网络模块划分的权重参数。该融合公式从贝叶斯理论推导而来,能够更有效的融合多源信息。它融合了来自多个尺度下的基因排位列表信息,从而获得基于多尺度模块结构的基因计分,为下一步与传统随机游走方法提取的信息进行融合提供基础。
步骤S3中,基于网络随机游走的基因排位列表
Figure BDA0003054518550000037
Figure BDA0003054518550000038
MG为基因网络中的概率转移矩阵;α表示随机游走的重启概率;
Figure BDA0003054518550000039
表示起始分值向量;
Figure BDA00030545185500000310
表示第t步随机游走时游走粒子处于各个基因节点的概率。在疾病-基因异构网络中,sGRW的计算公式为
Figure BDA00030545185500000311
Figure BDA00030545185500000312
表示第t步随机游走时游走粒子处于各个疾病节点的概率;
Figure BDA00030545185500000313
表示疾病网络的起始分值向量,也称为疾病网络的起始概率向量,
Figure BDA00030545185500000314
中对应被研究的疾病的元素值等于1,其它元素值等于0;MH为异构网络的概率转移矩阵。该随机游走方法能够综合利用已知的疾病基因信息、蛋白质网络或者基因网络的拓扑结构信息以及疾病-疾病之间的关联信息,来对基因进行综合打分,计算结果更准确。
步骤S4中,所述综合的基因计分列表计算基因综合得分
Figure BDA0003054518550000041
其中,
Figure BDA0003054518550000042
表示
基因g在基因排位列表
Figure BDA0003054518550000045
中的值;
Figure BDA0003054518550000046
表示基因g在基因排位列表
Figure BDA0003054518550000044
中的值;g=1,2,……,N;N表示基因个数;RN×1表示对应变量属于N维的列向量。该融合公式从贝叶斯理论推导而来,能够更有效的融合多源信息。
本发明还提供了一种融合多尺度模块结构信息的致病基因识别系统,其包括计算机设备;所述计算机设备被配置或编程为用于执行上述方法的步骤。
与现有技术相比,本发明所具有的有益效果为:本发明通过有效提取网络的多尺度结构特征,从而利用网络的多尺度模块结构信息来更有效的识别疾病的致病基因。在真实的数据集上的实验结果表明,与多个现有方法相比,本发明的方法具有更强的识别疾病致病基因的能力。
附图说明
图1为本发明方法HyMM的流程图;
图2为本发明方法HyMM在基因网络中的交叉验证性能指标图:(a)AUROC性能;(b)AURecall性能;
图3为本发明方法HyMM在疾病-基因异构网络中的交叉验证性能指标图:(a)AUROC性能;(b)AURecall性能;
图4为本发明方法HyMM在基因网络中的外部数据集验证性能指标图:(a)AUROC性能;(b)AURecall性能;
图5为本发明方法HyMM在疾病-基因异构网络中的外部数据集验证性能指标图:(a)AUROC性能;(b)AURecall性能;。
具体实施方式
下面结合附图对本发明作进一步的描述。
一、数据准备与网络构建;
获取疾病-基因关联数据,基因-基因关联数据,疾病-疾病关联数据;将三类数据综合以构建疾病-基因异构网络;
二、多尺度网络模块划分提取;
通过基于模块度优化的多尺度模块识别算法提取多尺度模块划分,计算方法如下:
(1)模块度优化的目标函数Q定义为
Figure BDA0003054518550000051
其中,γ为分辨率参数,M表示网络中的边数目,
Figure BDA0003054518550000052
表示模块s的内部度值,ks表示模块s的总度值,上述求和遍及对应模块划分的所有模块;
(2)分辨率参数的提取方法如下:通过指数抽样从区间[γminmax]获得一组分辨率参数值,其中抽样间隔为Δlogγ=0.01,γmin=10-20
Figure BDA0003054518550000053
通过优化不同分辨率下的模块度函数Q(γ)提取不同尺度下的网络模块划分(network modulepartition或者network community partition,网络模块划分表示具体分辨率下网络的一种分割方式,对应着一个网络模块的集合);
三、基于多尺度网络模块划分计算基因在多尺度下的疾病相关性排位;
对于每个尺度的模块划分,计算模块的疾病相关性分值和基因的疾病相关性分值,并获得基因的降序排位列表;计算方法如下:
(1)定义一个向量
Figure BDA0003054518550000054
来表示N个基因与某个疾病之间的关联性分值;在基因网络中,如果第i个基因是致病基因,则li=1,否则为零;
(2)对每个模块划分,定义一个划分矩阵B(h)来表示该模块划分,其中
Figure BDA0003054518550000055
表示在该模块划分中基因i是否属于模块j;
(3)对于每个模块划分,定义一个对角矩阵
Figure BDA0003054518550000056
其中
Figure BDA0003054518550000057
(4)在第h个模块划分中,所有模块的疾病相关性计分计算为,
Figure BDA0003054518550000058
(5)在第h个模块划分中,所有基因的疾病相关性计分计算为,
Figure BDA0003054518550000059
然后计算基因计分的降序排位列表
Figure BDA00030545185500000510
排位列表沿着纵向排列;依次计算对应于每个模块划分的基因排位列表,共H个排位列表;;
四、基于贝叶斯理论的多个基因排位列表的聚合;
多个基因排位列表的聚合方法定义如下:
(1)给定一组特征{fh},根据朴素贝叶斯理论,某个基因处于状态x的概率表示为
Figure BDA0003054518550000061
其中P(x)P(fh|x)=P(fh)P(x|fh),P(fh)表示特征的先验概率;P(x)表示基因处于状态x的先验概率;令P(fh)和P(x)为常数,得到,
Figure BDA0003054518550000062
(2)每个模块划分对应一个特征,并且基于特征计分的基因(如基因g)的排位越高,则基因g为疾病基因的条件概率P(xg|fh)越大,因而将条件概率定义为,
Figure BDA0003054518550000063
于是基于多尺度模块划分的基因综合计分可以表示为,
Figure BDA0003054518550000064
其中
Figure BDA0003054518550000065
表示基因排位矩阵的第h列中对应基因g的元素的值(即该基因的排位值),即基因g在第h个模块划分中对应的基因排位值;
(3)基于上式和前述的基因排位矩阵,计算每个基因的基于多尺度模块的疾病相关性分值,并进一步整合成基因的综合计分列表
Figure BDA0003054518550000066
计算表达式为,
Figure BDA0003054518550000067
然后,通过基因的综合计分列表
Figure BDA0003054518550000068
的降序排列,计算得到基于多尺度模块结构的综合的基因排位列表
Figure BDA0003054518550000069
该函数通过
Figure BDA00030545185500000610
中基因分值的降序排列获得基因的排位列表;
(4)计算基于网络随机游走的基因计分列表sGRW;在基因网络中sGRW的计算公式为,
Figure BDA00030545185500000611
其中MG为基因网络中的概率转移矩阵,它通过将基因网络的邻接矩阵AG作列归一化得到,计算公式为MG=AGDG -1;DG为对角矩阵,矩阵元素DG(i,i)=∑jAG(j,i);
Figure BDA00030545185500000612
表示第t步随机游走时游走粒子处于各个基因节点的概率;
Figure BDA00030545185500000613
表示起始分值向量,也称为起始概率向量,它可以通过将向量
Figure BDA0003054518550000071
归一化得到;α表示随机游走的重启概率;
在疾病-基因异构网络中sGRW的计算公式为
Figure BDA0003054518550000072
Figure BDA0003054518550000073
Figure BDA0003054518550000074
的含义同上所述;
Figure BDA0003054518550000075
表示第t步随机游走时游走粒子处于各个疾病节点的概率;
Figure BDA0003054518550000076
表示疾病网络的起始分值向量,也称为疾病网络的起始概率向量,
Figure BDA0003054518550000077
中对应被研究的疾病的元素值等于1,其它元素值等于0;
MH为异构网络的概率转移矩阵,计算方法为
Figure BDA0003054518550000078
DH为对角矩阵,矩阵元素DH(i,i)=∑jAH(j,i);AH表示初级概率矩阵,定义为,
Figure BDA0003054518550000079
其中,MD为疾病-疾病网络中的概率转移矩阵,它通过将疾病-疾病网络的邻接矩阵AD作列归一化得到,计算公式为
Figure BDA00030545185500000710
DD为对角矩阵,矩阵元素DD(i,i)=∑jAD(j,i);
MGD表示从疾病到基因的跳转概率,计算方法为,
Figure BDA00030545185500000711
AGD表示基因-疾病关联矩阵,如果基因j是疾病i的致病基因,则AGD(j,i)=1否则等于AGD(j,i)=0;DGD为对角矩阵,矩阵元素DGD(i,i)=∑jAGD(j,i);
MDG表示从基因到疾病的跳转概率,计算方法为
Figure BDA00030545185500000712
表示疾病-基因关联矩阵;DDG为对角矩阵,矩阵元素DDG(i,i)=∑jADG(j,i);
通过上述的迭代计算公式(即随机游走公式1或随机游走公式2)得到稳定的概率向量
Figure BDA00030545185500000713
通过概率向量sGRW的降序排列,计算基于网络随机游走的基因排位列表
Figure BDA00030545185500000714
计算基于多尺度模块结构的基因排位列表
Figure BDA00030545185500000715
和基于网络随机游走的基因排位列表
Figure BDA00030545185500000716
的最终的综合的基因计分列表,计算公式为,
Figure BDA00030545185500000717
其中,
Figure BDA0003054518550000081
表示基因g在基因排位列表
Figure BDA0003054518550000082
中的值;
Figure BDA0003054518550000083
表示基因g在基因排位列表
Figure BDA0003054518550000084
中的值;g=1,2,……,N;N表示基因个数。
最后,通过计算基因综合得分
Figure BDA0003054518550000085
的降序排列来识别致病基因。
五、实验测试
为了验证本发明方法的有效性,将已知的致病基因关联数据作为测试平台,对本发明方法的性能进行综合评估;
(1)测试数据:疾病基因数据、基因-基因关联数据和疾病-疾病关联数据来自公开的数据集(doi.org/10.1038/ncomms5212;doi.org/10.1126/science.1257601;doi.org/10.1371/journal.pcbi.1004120);外部数据集来自公开的DisGeNet数据库;
(2)评价方法:采用五折交叉验证,对每个疾病,将其已知疾病基因集合随机拆分成5份,其中的每一份依次作为阳性测试集,其它作为训练集;将AUROC和AURecall指标作为预测性能的评估指标;AUROC,又称为AUC,是接收着工作特性曲线(ROC)下的面积,已被广泛用于全面衡量预测算法的全局性能,其中ROC曲线是以真阳性率(又称召回率、敏感性)为纵坐标,以假阳性率为横坐标的性能曲线;AURecall(k=100)是top-k召回率曲线下的面积,其中该曲线以召回率为纵坐标,以k为横坐标;AURecall针对预测列表的局部,称其为局部性能指标;
(3)评价结果
从图2和图3可以看出(柱状图上的数字表示本发明方法相比于该基准算法的性能指标提升比率),在交叉验证中,本发明方法HyMM优于基准算法,尤其是在局部性能指标上本方法获得极大的性能提升;从图4和图5可以看出(柱状图上的数字表示本发明方法相比于该基准算法的性能指标提升比率),在外部数据集的测试中,本发明方法的综合性能同样优于基准算法,而且在局部性能指标上明显地优于基准算法。
由此可见,本发明方法HyMM通过有效利用网络多尺度结构的信息能够明显提升疾病致病基因的识别能力。

Claims (7)

1.一种融合多尺度模块结构信息的致病基因识别方法,其特征在于,包括以下步骤:
S1、通过模块度函数Q(γ)提取不同尺度下的基因网络模块划分;其中,模块度函数Q(γ)的表达式为:
Figure FDA0003054518540000011
γ为分辨率参数,M表示基因网络中的边数目,
Figure FDA0003054518540000012
表示模块s的内部度值,ks表示模块s的总度值;
S2、计算所述不同尺度下的网络模块划分的疾病相关性分值和基因的疾病相关性分值,并获得不同尺度下的基因排位列表;
S3、计算所述不同尺度下的基因排位列表的聚合分值列表,从而获得对应的融合多尺度模块结构信息的聚合的基因排位列表
Figure FDA0003054518540000013
计算基于网络随机游走的基因分值列表,通过所述基因分值列表的降序排列得到基于网络随机游走的基因排位列表
Figure FDA0003054518540000014
S4、融合步骤S3所得的融合多尺度模块结构信息的聚合的基因排位列表和基于网络随机游走的基因排位列表,得到最终的综合的基因计分列表,通过所述综合的基因计分列表计算基因的综合排位列表,识别致病基因。
2.根据权利要求1所述的融合多尺度模块结构信息的致病基因识别方法,其特征在于,所述分辨率参数γ的提取方法包括:通过指数抽样从区间[γminmax]获得一组分辨率参数值;其中抽样间隔为Δlogγ=0.01,γmin=10-20
Figure FDA0003054518540000015
kmin是基因-基因关联网络节点的最小度值。
3.根据权利要求1所述的融合多尺度模块结构信息的致病基因识别方法,其特征在于,步骤S2的具体实现过程包括:
1)定义一个向量
Figure FDA0003054518540000016
表示N个基因与某个疾病之间的关联性分值;在基因网络中,如果第i个基因是疾病的致病基因,则li=1,否则li=0;RN×1为大小为N×1的实数矩阵;T表示矩阵转置;对每个网络模块划分,定义一个划分矩阵B(h)来表示该网络模块划分;对于每个网络模块,定义一个对角矩阵
Figure FDA0003054518540000017
其中
Figure FDA0003054518540000018
2)在第h个网络模块划分中,所有网络模块的疾病相关性分值
Figure FDA0003054518540000019
的计算公式为:
Figure FDA00030545185400000110
所有基因的疾病相关性分值
Figure FDA00030545185400000111
的计算公式为:
Figure FDA0003054518540000021
3)构建基因排位矩阵
Figure FDA0003054518540000022
其中,
Figure FDA0003054518540000023
表示对应第h个模块划分的基因排位列表;h=1,2,……,H;H为基因排位列表的数量,即网络模块划分的数量,也即抽样的分辨率值的数量;所述基因排位矩阵即H个纵向的基因排位列表沿着横向依次排布构成的矩阵。
4.根据权利要求1所述的融合多尺度模块结构信息的致病基因识别方法,其特征在于,步骤S3中,融合多尺度模块结构信息的聚合的基因排位列表
Figure FDA0003054518540000024
函数generank()通过
Figure FDA0003054518540000025
中基因分值的降序排列获得基因的排位列表,其中融合多尺度模块结构信息的基因分值列表
Figure FDA0003054518540000026
的计算公式如下:
Figure FDA0003054518540000027
Figure FDA0003054518540000028
表示基因排位矩阵的第h列中对应基因g的元素的值,即基因g在第h个网络模块划分中对应的基因排位值;g=1,2,……,N;N表示基因个数;H为基因排位列表的数量,即网络模块划分的数量,也即抽样的分辨率值的数量;βh表示对应第h个网络模块划分的权重参数,其默认值βh=1。
5.根据权利要求1所述的融合多尺度模块结构信息的致病基因识别方法,其特征在于,步骤S3中,基于网络随机游走的基因排位列表
Figure FDA0003054518540000029
在基因网络中
Figure FDA00030545185400000210
MG为基因网络中的概率转移矩阵;α表示随机游走的重启概率;
Figure FDA00030545185400000211
表示起始分值向量;
Figure FDA00030545185400000212
表示第t步随机游走时游走粒子处于各个基因节点的概率;在疾病-基因异构网络中,sGRW的计算公式为
Figure FDA00030545185400000213
Figure FDA00030545185400000214
表示第t步随机游走时游走粒子处于各个疾病节点的概率;
Figure FDA00030545185400000215
表示疾病网络的起始分值向量,即疾病网络的起始概率向量;
Figure FDA00030545185400000216
中对应被研究的疾病的元素值等于1,其它元素值等于0;MH为异构网络的概率转移矩阵。
6.根据权利要求1所述的融合多尺度模块结构信息的致病基因识别方法,其特征在于,步骤S4中,所述综合的基因计分列表计算基因综合得分
Figure FDA00030545185400000217
Figure FDA0003054518540000031
其中,
Figure FDA0003054518540000032
表示基因g在基因排位列表
Figure FDA0003054518540000033
中的值;
Figure FDA0003054518540000034
表示基因g在基因排位列表
Figure FDA0003054518540000035
中的值;g=1,2,……,N;N表示基因个数;RN×1表示N维的实向量。
7.一种融合多尺度模块结构信息的致病基因识别系统,其特征在于,包括计算机设备;所述计算机设备被配置或编程为用于执行权利要求1~6之一所述方法的步骤。
CN202110496456.1A 2021-05-07 2021-05-07 融合多尺度模块结构信息的致病基因识别方法及系统 Active CN113192562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110496456.1A CN113192562B (zh) 2021-05-07 2021-05-07 融合多尺度模块结构信息的致病基因识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110496456.1A CN113192562B (zh) 2021-05-07 2021-05-07 融合多尺度模块结构信息的致病基因识别方法及系统

Publications (2)

Publication Number Publication Date
CN113192562A true CN113192562A (zh) 2021-07-30
CN113192562B CN113192562B (zh) 2022-05-13

Family

ID=76984102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110496456.1A Active CN113192562B (zh) 2021-05-07 2021-05-07 融合多尺度模块结构信息的致病基因识别方法及系统

Country Status (1)

Country Link
CN (1) CN113192562B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114504298A (zh) * 2022-01-21 2022-05-17 南京航空航天大学 基于多源健康感知数据融合的生理特征判别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140012558A1 (en) * 2012-07-05 2014-01-09 Siemens Corporation System and methods for integrated and predictive analysis of molecular, imaging, and clinical data for patient-specific management of diseases
US20140317033A1 (en) * 2013-04-23 2014-10-23 International Business Machines Corporation Predictive and descriptive analysis on relations graphs with heterogeneous entities
CN106874706A (zh) * 2017-01-18 2017-06-20 湖南大学 一种基于功能模块的疾病关联因子识别方法及系统
CN107887023A (zh) * 2017-12-08 2018-04-06 中南大学 一种基于相似性和双随机游走的微生物‑疾病关系预测方法
CN110070909A (zh) * 2019-03-21 2019-07-30 中南大学 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN111540405A (zh) * 2020-04-29 2020-08-14 新疆大学 一种基于快速网络嵌入的疾病基因预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140012558A1 (en) * 2012-07-05 2014-01-09 Siemens Corporation System and methods for integrated and predictive analysis of molecular, imaging, and clinical data for patient-specific management of diseases
US20140317033A1 (en) * 2013-04-23 2014-10-23 International Business Machines Corporation Predictive and descriptive analysis on relations graphs with heterogeneous entities
CN106874706A (zh) * 2017-01-18 2017-06-20 湖南大学 一种基于功能模块的疾病关联因子识别方法及系统
CN107887023A (zh) * 2017-12-08 2018-04-06 中南大学 一种基于相似性和双随机游走的微生物‑疾病关系预测方法
CN110070909A (zh) * 2019-03-21 2019-07-30 中南大学 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN111540405A (zh) * 2020-04-29 2020-08-14 新疆大学 一种基于快速网络嵌入的疾病基因预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XINGYI LI等: "A dual ranking algorithm based on the multiplex network for heterogeneous complex disease analysis", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 *
王天杰: "基于图像和基因数据整合分析的大脑功能特异性基因特征识别", 《电脑知识与技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114504298A (zh) * 2022-01-21 2022-05-17 南京航空航天大学 基于多源健康感知数据融合的生理特征判别方法及系统
CN114504298B (zh) * 2022-01-21 2024-02-13 南京航空航天大学 基于多源健康感知数据融合的生理特征判别方法及系统

Also Published As

Publication number Publication date
CN113192562B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
US20190304568A1 (en) System and methods for machine learning for drug design and discovery
Maraziotis A semi-supervised fuzzy clustering algorithm applied to gene expression data
CN115171779B (zh) 基于图注意力网络和多组学融合的癌症驱动基因预测装置
CN114255886B (zh) 基于多组学相似度引导的药物敏感性预测方法和装置
Lin et al. Clustering methods in protein-protein interaction network
Yu et al. RPI-MDLStack: Predicting RNA–protein interactions through deep learning with stacking strategy and LASSO
Al Kindhi et al. Hybrid K-means, fuzzy C-means, and hierarchical clustering for DNA hepatitis C virus trend mutation analysis
CN113488104B (zh) 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统
CN116741397B (zh) 基于多组学数据融合的癌症分型方法、系统及存储介质
CN112420126A (zh) 一种基于多源数据融合和网络结构扰动的药物靶标预测方法
CN114093425A (zh) 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法
Wang et al. A novel matrix of sequence descriptors for predicting protein-protein interactions from amino acid sequences
CN116580848A (zh) 一种基于多头注意力机制的分析癌症多组学数据方法
CN113192562B (zh) 融合多尺度模块结构信息的致病基因识别方法及系统
CN117422704A (zh) 一种基于多模态数据的癌症预测方法、系统及设备
Bartlett et al. Two-way sparsity for time-varying networks with applications in genomics
CN114842927A (zh) 一种知识图谱注意力网络的药物与通路的关联预测方法
Hédou et al. Discovery of sparse, reliable omic biomarkers with Stabl
Du et al. Deep multi-label joint learning for RNA and DNA-binding proteins prediction
CN116543832A (zh) 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用
CN112466401A (zh) 利用人工智能ai模型组分析多类数据的方法及装置
Wang et al. Feature selection methods in the framework of mRMR
Iqbal et al. A distance-based feature-encoding technique for protein sequence classification in bioinformatics
CN115938490A (zh) 一种基于图表示学习算法的代谢物鉴定方法、系统和设备
Kabir et al. Classification models and survival analysis for prostate cancer using RNA sequencing and clinical data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant