CN113192562B - 融合多尺度模块结构信息的致病基因识别方法及系统 - Google Patents

融合多尺度模块结构信息的致病基因识别方法及系统 Download PDF

Info

Publication number
CN113192562B
CN113192562B CN202110496456.1A CN202110496456A CN113192562B CN 113192562 B CN113192562 B CN 113192562B CN 202110496456 A CN202110496456 A CN 202110496456A CN 113192562 B CN113192562 B CN 113192562B
Authority
CN
China
Prior art keywords
gene
network
list
disease
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110496456.1A
Other languages
English (en)
Other versions
CN113192562A (zh
Inventor
李敏
项炬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202110496456.1A priority Critical patent/CN113192562B/zh
Publication of CN113192562A publication Critical patent/CN113192562A/zh
Application granted granted Critical
Publication of CN113192562B publication Critical patent/CN113192562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Bioethics (AREA)
  • Mathematical Optimization (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Epidemiology (AREA)
  • Mathematical Analysis (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Algebra (AREA)

Abstract

本发明公开了一种融合多尺度模块结构信息的致病基因识别方法及系统,通过基于模块度优化的多尺度模块识别算法提取多尺度模块划分;对于每个尺度的模块划分,计算模块的疾病相关性分值和基因的疾病相关性分值,并获得基因的排序列表;基于朴素贝叶斯理论,计算来自多尺度模块划分的基因排序列表的聚合分值列表和对应的基因排序列表;将基于多尺度模块结构的基因排序列表和基于网络随机游走的基因排序列表融合以得到最终的综合的基因分值列表,并计算得到最终的基因排序列表,从而识别致病基因。本发明的方法通过网络多尺度模块挖掘,能够有效地利用隐藏在网络多尺度模块结构中的信息,从而获得更强的识别致病基因的能力。

Description

融合多尺度模块结构信息的致病基因识别方法及系统
技术领域
本发明涉及生物信息学领域,特别是一种融合多尺度模块结构信息的致病基因识别方法及系统。
背景技术
人类疾病基因发现的进展增加了人们对人类疾病潜在分子基础的认识,但已知与疾病相关的致病基因只占发病率的很小比例,还有许多疾病致病基因有待进一步探索。传统的方法往往提供一长串候选基因,需要大量耗时的实验鉴定。因此,开发预测疾病致病基因的计算算法对于加速疾病相关基因的发现具有重要意义。
基于网络的算法已经成为疾病致病基因预测的流行策略。例如,一些算法通过考虑已知疾病相关基因的直接邻居来推断疾病相关基因;一些算法进一步考虑候选基因与网络中已知疾病致病基因(集合)之间的最短路径距离或接近度;一些算法利用网络传播来提取疾病相关信息;一些基于模块的算法也应用于疾病致病基因/模块以及相关问题的分析。模块结构或者说群落结构,在生物分子网络中无处不在,人类疾病的模块结构可为疾病的研究提供有用的见解,但在疾病致病基因预测中还没有得到充分的探索。
多尺度模块检测是研究生物分子网络等复杂系统的重要手段,因为多尺度结构广泛存在于各种自然和人工复杂系统中。例如,蛋白质网络中的模块可包含若干子模块,例如,许多蛋白质复合物(例如SAGA)包含若干次级复合物。多尺度模块结构比单尺度模块结构能提供更多的信息,许多的多尺度模块分解方法已被提出并应用于生物网络分析,但仍存在许多具有挑战性的问题,例如,现有技术并未研究和解决如何挖掘隐藏在多尺度结构中的有价值信息来识别疾病的致病基因。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种融合多尺度模块结构信息的致病基因识别方法及系统,提高疾病的致病基因识别的准确性。
为解决上述技术问题,本发明所采用的技术方案是:一种融合多尺度模块结构信息的致病基因识别方法,包括以下步骤:
S1、通过模块度函数Q(γ)提取不同尺度下的基因网络模块划分;其中,模块度函数Q(γ)的表达式为:
Figure GDA0003542933130000021
γ为分辨率参数,M表示基因网络中的边数目,
Figure GDA0003542933130000022
表示模块s的内部度值,ks表示模块s的总度值;
S2、计算所述不同尺度下的网络模块划分的疾病相关性分值和基因的疾病相关性分值,并获得不同尺度下的基因排位列表;
S3、计算所述不同尺度下的基因排位列表的聚合分值列表,从而获得对应的融合多尺度模块结构信息的聚合的基因排位列表
Figure GDA0003542933130000023
计算基于网络随机游走的基因分值列表,通过所述基因分值列表的降序排列得到基于网络随机游走的基因排位列表
Figure GDA0003542933130000024
S4、融合步骤S3所得的融合多尺度模块结构信息的聚合的基因排位列表和基于网络随机游走的基因排位列表,得到最终的综合的基因计分列表,通过所述综合的基因计分列表计算基因综合得分,识别致病基因。
本发明通过多尺度模块挖掘算法从多个尺度上提取网络的模块结构,分别从每个尺度上的模块结构提取有助于疾病基因识别的信息,然后融合来自不同尺度上的信息,将这些信息与传统的网络随机游走方法提取的信息融合,从而能更有效的识别疾病候选基因。
所述分辨率参数γ的提取方法包括:通过指数抽样从区间[γminmax]获得一组分辨率参数值;其中抽样间隔为Δlogγ=0.01,γmin=10-20
Figure GDA0003542933130000025
kmin是基因-基因关联网络节点的最小度值。采用不同分辨率可获得不同分辨率视角下的模块结构信息,在整个连续的分辨率空间中提取所有模块结构是不可能的,因此依据以往的研究经验,对分辨率进行指数抽样,可以较好地获得各个分辨率下的模块结构信息。
步骤S2的具体实现过程包括:
1)定义一个向量
Figure GDA0003542933130000026
表示N个基因与某个疾病之间的关联性分值;在基因网络中,如果第i个基因是疾病的致病基因,则li=1,否则li=0;RN×1为大小为N×1的实数矩阵;T表示矩阵转置;对每个网络模块划分,定义一个划分矩阵B(h)来表示该网络模块划分;对于每个网络模块,定义一个对角矩阵
Figure GDA0003542933130000031
其中
Figure GDA0003542933130000032
2)在第h个网络模块划分中,所有网络模块的疾病相关性分值
Figure GDA0003542933130000033
的计算公式为:
Figure GDA0003542933130000034
所有基因的疾病相关性分值
Figure GDA0003542933130000035
的计算公式为:
Figure GDA0003542933130000036
3)构建基因排位矩阵
Figure GDA0003542933130000037
其中,
Figure GDA0003542933130000038
Figure GDA0003542933130000039
表示对应第h个模块划分的基因排位列表;h= 1,2,……,H;H为基因排位列表的数量,即网络模块划分的数量,也即抽样的分辨率值的数量;所述基因排位矩阵即H个纵向的基因排位列表沿着横向依次排布构成的矩阵。
以上步骤从每个尺度的网络模块划分中提取有助于疾病基因的信息,能够综合考虑每个网络模块的大小、模块内已知的疾病基因数量等因素来更有效的对基因进行打分,为下一步多尺度模块划分中的信息的融合提供基础。
步骤S3中,融合多尺度模块结构信息的聚合的基因排位列表
Figure GDA00035429331300000310
函数generank()通过
Figure GDA00035429331300000311
中基因分值的降序排列获得基因的排位列表,其中融合多尺度模块结构信息的基因分值列表
Figure GDA00035429331300000312
的计算公式如下:
Figure GDA00035429331300000313
Figure GDA00035429331300000314
表示基因排位矩阵的第h列中对应基因g的元素的值,即基因g在第h个网络模块划分中对应的基因排位值;g=1,2,……,N;N表示基因个数;H为基因排位列表的数量,即网络模块划分的数量,也即抽样的分辨率值的数量;βh表示对应第h个网络模块划分的权重参数。该融合公式从贝叶斯理论推导而来,能够更有效的融合多源信息。它融合了来自多个尺度下的基因排位列表信息,从而获得基于多尺度模块结构的基因计分,为下一步与传统随机游走方法提取的信息进行融合提供基础。
步骤S3中,基于网络随机游走的基因排位列表
Figure GDA00035429331300000315
Figure GDA00035429331300000316
MG为基因网络中的概率转移矩阵;α表示随机游走的重启概率;
Figure GDA0003542933130000041
表示起始分值向量;
Figure GDA0003542933130000042
表示第t步随机游走时游走粒子处于各个基因节点的概率。在疾病-基因异构网络中,sGRW的计算公式为
Figure GDA0003542933130000043
Figure GDA0003542933130000044
表示第t步随机游走时游走粒子处于各个疾病节点的概率;
Figure GDA0003542933130000045
表示疾病网络的起始分值向量,也称为疾病网络的起始概率向量,
Figure GDA0003542933130000046
中对应被研究的疾病的元素值等于1,其它元素值等于0;MH为异构网络的概率转移矩阵。该随机游走方法能够综合利用已知的疾病基因信息、蛋白质网络或者基因网络的拓扑结构信息以及疾病-疾病之间的关联信息,来对基因进行综合打分,计算结果更准确。步骤S4中,所述综合的基因计分列表计算基因综合得分
Figure GDA0003542933130000047
其中,
Figure GDA0003542933130000048
表示基因g在基因排位列表
Figure GDA0003542933130000049
中的值;
Figure GDA00035429331300000410
表示基因g在基因排位列表
Figure GDA00035429331300000411
中的值;g=1,2,……,N;N表示基因个数;RN×1表示对应变量属于N维的列向量。该融合公式从贝叶斯理论推导而来,能够更有效的融合多源信息。
本发明还提供了一种融合多尺度模块结构信息的致病基因识别系统,其包括计算机设备;所述计算机设备被配置或编程为用于执行上述方法的步骤。
与现有技术相比,本发明所具有的有益效果为:本发明通过有效提取网络的多尺度结构特征,从而利用网络的多尺度模块结构信息来更有效的识别疾病的致病基因。在真实的数据集上的实验结果表明,与多个现有方法相比,本发明的方法具有更强的识别疾病致病基因的能力。
附图说明
图1为本发明方法HyMM的流程图;
图2为本发明方法HyMM在基因网络中的交叉验证性能指标图:(a) AUROC性能;(b)AURecall性能;
图3为本发明方法HyMM在疾病-基因异构网络中的交叉验证性能指标图: (a)AUROC性能;(b)AURecall性能;
图4为本发明方法HyMM在基因网络中的外部数据集验证性能指标图:(a) AUROC性能;(b)AURecall性能;
图5为本发明方法HyMM在疾病-基因异构网络中的外部数据集验证性能指标图:(a)AUROC性能;(b)AURecall性能;。
具体实施方式
下面结合附图对本发明作进一步的描述。
一、数据准备与网络构建;
获取疾病-基因关联数据,基因-基因关联数据,疾病-疾病关联数据;将三类数据综合以构建疾病-基因异构网络;
二、多尺度网络模块划分提取;
通过基于模块度优化的多尺度模块识别算法提取多尺度模块划分,计算方法如下:
(1)模块度优化的目标函数Q定义为
Figure GDA0003542933130000051
其中,γ为分辨率参数,M表示网络中的边数目,
Figure GDA0003542933130000052
表示模块s的内部度值,ks表示模块s的总度值,上述求和遍及对应模块划分的所有模块;
(2)分辨率参数的提取方法如下:通过指数抽样从区间[γminmax]获得一组分辨率参数值,其中抽样间隔为Δlogγ=0.01,γmin=10-20
Figure GDA0003542933130000057
通过优化不同分辨率下的模块度函数Q(γ)提取不同尺度下的网络模块划分 (network module partition或者network community partition,网络模块划分表示具体分辨率下网络的一种分割方式,对应着一个网络模块的集合);
三、基于多尺度网络模块划分计算基因在多尺度下的疾病相关性排位;
对于每个尺度的模块划分,计算模块的疾病相关性分值和基因的疾病相关性分值,并获得基因的降序排位列表;计算方法如下:
(1)定义一个向量
Figure GDA0003542933130000053
来表示N个基因与某个疾病之间的关联性分值;在基因网络中,如果第i个基因是致病基因,则li=1,否则为零;
(2)对每个模块划分,定义一个划分矩阵B(h)来表示该模块划分,其中
Figure GDA0003542933130000054
表示在该模块划分中基因i是否属于模块j;
(3)对于每个模块划分,定义一个对角矩阵
Figure GDA0003542933130000055
其中
Figure GDA0003542933130000056
(4)在第h个模块划分中,所有模块的疾病相关性计分计算为,
Figure GDA0003542933130000061
(5)在第h个模块划分中,所有基因的疾病相关性计分计算为,
Figure GDA0003542933130000062
然后计算基因计分的降序排位列表
Figure GDA0003542933130000063
排位列表沿着纵向排列;依次计算对应于每个模块划分的基因排位列表,共H个排位列表;
四、基于贝叶斯理论的多个基因排位列表的聚合;
多个基因排位列表的聚合方法定义如下:
(1)给定一组特征{fh},根据朴素贝叶斯理论,某个基因处于状态x的概率表示为
Figure GDA0003542933130000064
其中P(x)P(fh|x)=P(fh)P(x|fh),P(fh)表示特征的先验概率;P(x)表示基因处于状态x的先验概率;令P(fh)和P(x)为常数,得到,
Figure GDA0003542933130000065
(2)每个模块划分对应一个特征,并且基于特征计分的基因(如基因g)的排位越高,则基因g为疾病基因的条件概率P(xg|fh)越大,因而将条件概率定义为,
Figure GDA0003542933130000066
于是基于多尺度模块划分的基因综合计分可以表示为,
Figure GDA0003542933130000067
其中
Figure GDA0003542933130000068
表示基因排位矩阵的第h列中对应基因g的元素的值(即该基因的排位值),即基因g在第h个模块划分中对应的基因排位值;
(3)基于上式和前述的基因排位矩阵,计算每个基因的基于多尺度模块的疾病相关性分值,并进一步整合成基因的综合计分列表
Figure GDA0003542933130000069
计算表达式为,
Figure GDA00035429331300000610
然后,通过基因的综合计分列表
Figure GDA0003542933130000071
的降序排列,计算得到基于多尺度模块结构的综合的基因排位列表
Figure GDA0003542933130000072
该函数通过
Figure GDA0003542933130000073
中基因分值的降序排列获得基因的排位列表;
(4)计算基于网络随机游走的基因计分列表sGRW;在基因网络中sGRW的计算公式为,
Figure GDA0003542933130000074
(随机游走公式1)
其中MG为基因网络中的概率转移矩阵,它通过将基因网络的邻接矩阵AG作列归一化得到,计算公式为
Figure GDA0003542933130000075
DG为对角矩阵,矩阵元素DG(i,i)=∑jAG(j,i);
Figure GDA0003542933130000076
表示第t步随机游走时游走粒子处于各个基因节点的概率;
Figure GDA0003542933130000077
表示起始分值向量,也称为起始概率向量,它可以通过将向量
Figure GDA0003542933130000078
归一化得到;α表示随机游走的重启概率;
在疾病-基因异构网络中sGRW的计算公式为
Figure GDA0003542933130000079
(随机游走公式2)
Figure GDA00035429331300000710
Figure GDA00035429331300000711
的含义同上所述;
Figure GDA00035429331300000712
表示第t步随机游走时游走粒子处于各个疾病节点的概率;
Figure GDA00035429331300000713
表示疾病网络的起始分值向量,也称为疾病网络的起始概率向量,
Figure GDA00035429331300000714
中对应被研究的疾病的元素值等于1,其它元素值等于0;
MH为异构网络的概率转移矩阵,计算方法为
Figure GDA00035429331300000715
DH为对角矩阵,矩阵元素DH(i,i)=∑jAH(j,i);AH表示初级概率矩阵,定义为,
Figure GDA00035429331300000716
其中,MD为疾病-疾病网络中的概率转移矩阵,它通过将疾病-疾病网络的邻接矩阵AD作列归一化得到,计算公式为
Figure GDA00035429331300000717
DD为对角矩阵,矩阵元素 DD(i,i)=∑jAD(j,i);
MGD表示从疾病到基因的跳转概率,计算方法为,
Figure GDA00035429331300000718
AGD表示基因-疾病关联矩阵,如果基因j是疾病i的致病基因,则AGD(j,i)=1否则等于 AGD(j,i)=0;DGD为对角矩阵,矩阵元素DGD(i,i)=∑jAGD(j,i);
MDG表示从基因到疾病的跳转概率,计算方法为
Figure GDA0003542933130000081
表示疾病-基因关联矩阵;DDG为对角矩阵,矩阵元素DDG(i,i)=∑jADG(j,i);
通过上述的迭代计算公式(即随机游走公式1或随机游走公式2)得到稳定的概率向量
Figure GDA0003542933130000082
通过概率向量sGRW的降序排列,计算基于网络随机游走的基因排位列表
Figure GDA0003542933130000083
计算基于多尺度模块结构的基因排位列表
Figure GDA0003542933130000084
和基于网络随机游走的基因排位列表
Figure GDA0003542933130000085
的最终的综合的基因计分列表,计算公式为,
Figure GDA0003542933130000086
其中,
Figure GDA0003542933130000087
表示基因g在基因排位列表
Figure GDA0003542933130000088
中的值;
Figure GDA0003542933130000089
表示基因g在基因排位列表
Figure GDA00035429331300000810
中的值;g=1,2,……,N;N表示基因个数。
最后,通过计算基因综合得分
Figure GDA00035429331300000811
的降序排列来识别致病基因。
五、实验测试
为了验证本发明方法的有效性,将已知的致病基因关联数据作为测试平台,对本发明方法的性能进行综合评估;
(1)测试数据:疾病基因数据、基因-基因关联数据和疾病-疾病关联数据来自公开的数据集(doi.org/10.1038/ncomms5212;doi.org/10.1126/science.1257601;doi.org/10.1371/journal.pcbi.1004120);外部数据集来自公开的DisGeNet数据库;
(2)评价方法:采用五折交叉验证,对每个疾病,将其已知疾病基因集合随机拆分成5份,其中的每一份依次作为阳性测试集,其它作为训练集;将 AUROC和AURecall指标作为预测性能的评估指标;AUROC,又称为AUC,是接收着工作特性曲线(ROC)下的面积,已被广泛用于全面衡量预测算法的全局性能,其中ROC曲线是以真阳性率(又称召回率、敏感性)为纵坐标,以假阳性率为横坐标的性能曲线;AURecall(k=100)是top-k召回率曲线下的面积,其中该曲线以召回率为纵坐标,以k为横坐标;AURecall针对预测列表的局部,称其为局部性能指标;
(3)评价结果
从图2和图3可以看出(柱状图上的数字表示本发明方法相比于该基准算法的性能指标提升比率),在交叉验证中,本发明方法HyMM优于基准算法,尤其是在局部性能指标上本方法获得极大的性能提升;从图4和图5可以看出(柱状图上的数字表示本发明方法相比于该基准算法的性能指标提升比率),在外部数据集的测试中,本发明方法的综合性能同样优于基准算法,而且在局部性能指标上明显地优于基准算法。
由此可见,本发明方法HyMM通过有效利用网络多尺度结构的信息能够明显提升疾病致病基因的识别能力。

Claims (7)

1.一种融合多尺度模块结构信息的致病基因识别方法,其特征在于,包括以下步骤:
S1、通过模块度函数Q(γ)提取不同尺度下的基因网络模块划分;其中,模块度函数Q(γ)的表达式为:
Figure FDA0003542933120000011
γ为分辨率参数,M表示基因网络中的边数目,
Figure FDA0003542933120000012
表示模块s的内部度值,ks表示模块s的总度值;
S2、计算所述不同尺度下的网络模块划分的疾病相关性分值和基因的疾病相关性分值,并获得不同尺度下的基因排位列表;
S3、计算所述不同尺度下的基因排位列表的聚合分值列表,从而获得对应的融合多尺度模块结构信息的聚合的基因排位列表
Figure FDA0003542933120000013
计算基于网络随机游走的基因分值列表,通过所述基因分值列表的降序排列得到基于网络随机游走的基因排位列表
Figure FDA0003542933120000014
S4、融合步骤S3所得的融合多尺度模块结构信息的聚合的基因排位列表和基于网络随机游走的基因排位列表,得到最终的综合的基因计分列表,通过所述综合的基因计分列表计算基因的综合排位列表,识别致病基因。
2.根据权利要求1所述的融合多尺度模块结构信息的致病基因识别方法,其特征在于,所述分辨率参数γ的提取方法包括:通过指数抽样从区间[γminmax]获得一组分辨率参数值;其中抽样间隔为Δlogγ=0.01,γmin=10-20
Figure FDA0003542933120000015
kmin是基因-基因关联网络节点的最小度值。
3.根据权利要求1所述的融合多尺度模块结构信息的致病基因识别方法,其特征在于,步骤S2的具体实现过程包括:
1)定义一个向量
Figure FDA0003542933120000016
表示N个基因与某个疾病之间的关联性分值;在基因网络中,如果第i个基因是疾病的致病基因,则li=1,否则li=0;RN×1为大小为N×1的实数矩阵;T表示矩阵转置;对每个网络模块划分,定义一个划分矩阵B(h)来表示该网络模块划分;对于每个网络模块,定义一个对角矩阵
Figure FDA0003542933120000021
其中
Figure FDA0003542933120000022
2)在第h个网络模块划分中,所有网络模块的疾病相关性分值
Figure FDA0003542933120000023
的计算公式为:
Figure FDA0003542933120000024
所有基因的疾病相关性分值
Figure FDA0003542933120000025
的计算公式为:
Figure FDA0003542933120000026
3)构建基因排位矩阵
Figure FDA0003542933120000027
其中,
Figure FDA0003542933120000028
Figure FDA0003542933120000029
表示对应第h个模块划分的基因排位列表;h=1,2,……,H;H为基因排位列表的数量,即网络模块划分的数量,也即抽样的分辨率值的数量;所述基因排位矩阵即H个纵向的基因排位列表沿着横向依次排布构成的矩阵。
4.根据权利要求1所述的融合多尺度模块结构信息的致病基因识别方法,其特征在于,步骤S3中,融合多尺度模块结构信息的聚合的基因排位列表
Figure FDA00035429331200000210
函数generank()通过
Figure FDA00035429331200000211
中基因分值的降序排列获得基因的排位列表,其中融合多尺度模块结构信息的基因分值列表
Figure FDA00035429331200000212
的计算公式如下:
Figure FDA00035429331200000213
Figure FDA00035429331200000214
表示基因排位矩阵的第h列中对应基因g的元素的值,即基因g在第h个网络模块划分中对应的基因排位值;g=1,2,……,N;N表示基因个数;H为基因排位列表的数量,即网络模块划分的数量,也即抽样的分辨率值的数量;βh表示对应第h个网络模块划分的权重参数,其默认值βh=1。
5.根据权利要求1所述的融合多尺度模块结构信息的致病基因识别方法,其特征在于,步骤S3中,基于网络随机游走的基因排位列表
Figure FDA00035429331200000215
在基因网络中
Figure FDA00035429331200000216
Figure FDA00035429331200000217
MG为基因网络中的概率转移矩阵;α表示随机游走的重启概率;
Figure FDA00035429331200000218
表示起始分值向量;
Figure FDA00035429331200000219
表示第t步随机游走时游走粒子处于各个基因节点的概率;在疾病-基因异构网络中,sGRW的计算公式为
Figure FDA0003542933120000031
Figure FDA0003542933120000032
表示第t步随机游走时游走粒子处于各个疾病节点的概率;
Figure FDA0003542933120000033
表示疾病网络的起始分值向量,即疾病网络的起始概率向量;
Figure FDA0003542933120000034
中对应被研究的疾病的元素值等于1,其它元素值等于0;MH为异构网络的概率转移矩阵。
6.根据权利要求1所述的融合多尺度模块结构信息的致病基因识别方法,其特征在于,步骤S4中,所述综合的基因计分列表计算基因综合得分
Figure FDA0003542933120000035
其中,
Figure FDA0003542933120000036
表示基因g在基因排位列表
Figure FDA0003542933120000037
中的值;
Figure FDA0003542933120000038
表示基因g在基因排位列表
Figure FDA0003542933120000039
中的值;g=1,2,……,N;N表示基因个数;RN×1表示N维的实向量。
7.一种融合多尺度模块结构信息的致病基因识别系统,其特征在于,包括计算机设备;所述计算机设备被配置或编程为用于执行权利要求1~6之一所述方法的步骤。
CN202110496456.1A 2021-05-07 2021-05-07 融合多尺度模块结构信息的致病基因识别方法及系统 Active CN113192562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110496456.1A CN113192562B (zh) 2021-05-07 2021-05-07 融合多尺度模块结构信息的致病基因识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110496456.1A CN113192562B (zh) 2021-05-07 2021-05-07 融合多尺度模块结构信息的致病基因识别方法及系统

Publications (2)

Publication Number Publication Date
CN113192562A CN113192562A (zh) 2021-07-30
CN113192562B true CN113192562B (zh) 2022-05-13

Family

ID=76984102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110496456.1A Active CN113192562B (zh) 2021-05-07 2021-05-07 融合多尺度模块结构信息的致病基因识别方法及系统

Country Status (1)

Country Link
CN (1) CN113192562B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114504298B (zh) * 2022-01-21 2024-02-13 南京航空航天大学 基于多源健康感知数据融合的生理特征判别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874706A (zh) * 2017-01-18 2017-06-20 湖南大学 一种基于功能模块的疾病关联因子识别方法及系统
CN107887023A (zh) * 2017-12-08 2018-04-06 中南大学 一种基于相似性和双随机游走的微生物‑疾病关系预测方法
CN110070909A (zh) * 2019-03-21 2019-07-30 中南大学 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN111540405A (zh) * 2020-04-29 2020-08-14 新疆大学 一种基于快速网络嵌入的疾病基因预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10325686B2 (en) * 2012-07-05 2019-06-18 Siemens Healthcare Gmbh System and methods for integrated and predictive analysis of molecular, imaging, and clinical data for patient-specific management of diseases
US9195941B2 (en) * 2013-04-23 2015-11-24 International Business Machines Corporation Predictive and descriptive analysis on relations graphs with heterogeneous entities

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874706A (zh) * 2017-01-18 2017-06-20 湖南大学 一种基于功能模块的疾病关联因子识别方法及系统
CN107887023A (zh) * 2017-12-08 2018-04-06 中南大学 一种基于相似性和双随机游走的微生物‑疾病关系预测方法
CN110070909A (zh) * 2019-03-21 2019-07-30 中南大学 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN111540405A (zh) * 2020-04-29 2020-08-14 新疆大学 一种基于快速网络嵌入的疾病基因预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A dual ranking algorithm based on the multiplex network for heterogeneous complex disease analysis;Xingyi Li等;《IEEE/ACM Transactions on Computational Biology and Bioinformatics》;20210221;1-11 *
基于图像和基因数据整合分析的大脑功能特异性基因特征识别;王天杰;《电脑知识与技术》;20181005(第28期);206-211 *

Also Published As

Publication number Publication date
CN113192562A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
US20190304568A1 (en) System and methods for machine learning for drug design and discovery
Maraziotis A semi-supervised fuzzy clustering algorithm applied to gene expression data
CN115171779B (zh) 基于图注意力网络和多组学融合的癌症驱动基因预测装置
CN107545151B (zh) 一种基于低秩矩阵填充的药物重定位方法
Lin et al. Clustering methods in protein-protein interaction network
CN114255886B (zh) 基于多组学相似度引导的药物敏感性预测方法和装置
CN110136779B (zh) 一种生物网络关键差异节点的样本特征提取及预测方法
CN114927162A (zh) 基于超图表征与狄利克雷分布的多组学关联表型预测方法
Yu et al. RPI-MDLStack: Predicting RNA–protein interactions through deep learning with stacking strategy and LASSO
Yu et al. Predicting protein complex in protein interaction network-a supervised learning based method
Ressom et al. Adaptive double self-organizing maps for clustering gene expression profiles
CN112420126A (zh) 一种基于多源数据融合和网络结构扰动的药物靶标预测方法
CN116580848A (zh) 一种基于多头注意力机制的分析癌症多组学数据方法
CN113192562B (zh) 融合多尺度模块结构信息的致病基因识别方法及系统
CN117422704A (zh) 一种基于多模态数据的癌症预测方法、系统及设备
Thakur et al. Machine learning techniques with ANOVA for the prediction of breast cancer
CN110400605A (zh) 一种gpcr药物靶标的配体生物活性预测方法及其应用
CN115985503B (zh) 基于集成学习的癌症预测系统
Iqbal et al. A distance-based feature-encoding technique for protein sequence classification in bioinformatics
CN116543832A (zh) 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用
Wang et al. Feature selection methods in the framework of mrmr
Chiu et al. Ap-based consensus clustering for gene expression time series
Pan et al. Multi-Head Attention Mechanism Learning for Cancer New Subtypes and Treatment Based on Cancer Multi-Omics Data
Iraji et al. Druggable protein prediction using a multi-canal deep convolutional neural network based on autocovariance method
CN113421614A (zh) 一种基于张量分解的lncRNA-疾病关联预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant