CN111192639A - 一种基于复杂网络的肿瘤转移关键基因检索方法 - Google Patents
一种基于复杂网络的肿瘤转移关键基因检索方法 Download PDFInfo
- Publication number
- CN111192639A CN111192639A CN202010004969.1A CN202010004969A CN111192639A CN 111192639 A CN111192639 A CN 111192639A CN 202010004969 A CN202010004969 A CN 202010004969A CN 111192639 A CN111192639 A CN 111192639A
- Authority
- CN
- China
- Prior art keywords
- genes
- gene
- network
- nodes
- tumor metastasis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Physiology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明结合随机游走重启算法和最短路径算法,提出一种基于复杂网络的肿瘤转移关键基因检索方法,来检索与筛选导致肿瘤转移的关键基因集。其中,通过在PPI网络上运行随机游走重启算法并利用置换检验方法排除网络结构对结果的影响,得到了肿瘤转移候选基因。然后,通过在构建的局部PPI网络上运行最短路径算法得到了肿瘤转移关键基因。最后对肿瘤转移关键基因进行富集分析及文献挖掘,可以验证结果的准确性和方法的有效性,从基因层面揭示肿瘤转移的病理机制。
Description
技术领域
本发明属于生物信息学技术领域,具体涉及到一种基于复杂网络的肿瘤转移关键基因检索方法。
背景技术
恶性肿瘤是危害人类健康的全球公共卫生问题之一,其中转移是恶性肿瘤发生和演变过程中最危险的阶段。肿瘤转移是一个多步骤、多阶段、多途径、涉及多基因变化的复杂过程。临床上,60%以上的恶性肿瘤患者在被确诊时已经发生转移,它是导致癌症患者死亡的主要原因之一。
生物学研究证明,特定的遗传背景对肿瘤转移有着重要的影响。近年来,从基因组水平筛选与转移表型相关的功能基因已经成为肿瘤转移研究领域的热点,它可以为转移的诊疗提供分子标志和靶点,有利于在基因水平揭示肿瘤转移的本质,为改进肿瘤的诊断方法和治疗手段提供依据。
目前,肿瘤转移相关基因的鉴定和验证主要依赖于临床医学及生物实验,需要花费大量的时间和经济成本,限制了发现的能力。随着生物信息学的发展,一些计算方法被应用于致病基因的发现,相对于临床医学与生物实验,计算方法具有高效、低成本的特点。
发明内容
针对上述问题,本发明提出一种基于复杂网络的肿瘤转移关键基因检索方法,来发现导致肿瘤转移的关键基因集。
本发明的具体步骤如下:
S1,通过从STRING等在线数据库中获取蛋白质相互作用数据,构建PPI(protein-protein interaction)网络;
S2,根据已知的肿瘤转移类型(肿瘤A向肿瘤B转移),从不同数据库中分别收集和整理肿瘤A和肿瘤B的相关基因数据,其集合定义为Sa和Sb,并对基因数据进行预处理,使其对应在PPI网络中;
S3,将S2中得到的基因整合作为种子节点,在PPI网络上运行随机游走重启算法,得到网络中每个基因的概率得分,选择概率得分大于10-5的基因,称为RWR基因;
S4,通过置换检验删除p-value值大于0.1的基因,得到的基因称为候选基因;
S5,在PPI网络中选取S4中候选基因之间的相互作用,构建一个局部PPI网络,表示候选基因间的相互关系,并改变该网络的权重;
S6,在S5中的局部PPI网络上搜索Sa中所有基因到Sb中所有基因的最短路径;
S7,根据S6的结果,计算除种子节点外每个节点的介数中心性,选择介数中心性大于0.01的节点对应的基因,这些基因称为肿瘤转移关键基因;
S8,对S7中得到的肿瘤转移关键基因进行富集分析及文献挖掘验证。
本发明的技术方案特征和改进为:
对于步骤S1,PPI(蛋白质-蛋白质相互作用)是指两个蛋白质分子通过非共价键形成蛋白质复合体的过程,PPI在细胞内和细胞间生化过程中起着重要作用,可用于遗传疾病的研究,蛋白质相互作用信息包含了蛋白质之间的物理和功能联系,可以更广泛地表达蛋白质之间的关系,研究证明,PPI中的两种蛋白更有可能具有类似的功能,因此,利用蛋白质相互作用信息构建PPI网络可以检索与肿瘤转移有关的关键基因,PPI网络中节点表示蛋白质,当两个蛋白质之间存在相互作用时,其对应节点之间存在一条连边,边权表示蛋白质之间的置信得分。
对于步骤S2,将Sa和Sb中的基因整合并删去重复的基因,得到n个独特的基因作为随机游走算法的种子节点。
对于步骤S3,随机游走重启算法是一种经典的排序算法,它从一些种子节点开始,模拟网络中节点的随机游走和重启,在算法的每一步中,节点都以相等的概率移动到其邻居节点,并以一定的概率返回种子节点,经过多次迭代后,算法的结果趋于稳定,根据概率得分对节点进行排名,随机游走重启算法的迭代公式如下:
Pi+1=(1-r)APi+rP0 (1)
其中P0为初始概率得分列向量,其种子节点对应的值的设置为1/n,其它节点对应值设置为0,其中Pi表示执行第i步后得到的概率得分列向量,A表示PPI网络的列归一化邻接矩阵,r为重启概率,以表示种子节点的重要程度,当‖Pi+1-Pi‖L1<10-6时,迭代结果趋于稳定,算法停止,并且输出Pi+1,算法的最终结果表示种子节点在网络中随机游走到其他节点的概率,体现了其他节点与种子节点的相关性,选择概率得分大于10-5的基因,称为RWR基因。
对于步骤S4,利用随机游走重启算法得到的基因可能会受到PPI网络的结构的影响,从而存在很多与结果无关的基因,为了尽可能排除这些基因,提出了置换检验(Permutation Test)规则,通过随机构造1000组种子节点在PPI网络上执行随机游走重启算法,得到1000组随机概率得分结果,对于每个RWR基因g,计算其p-value值:
其中θ表示对于基因g,1000组随机概率得分结果大于S3中结果的数目,具有较高p-value值的基因很可能与结果无关,因此,删除p-value值大于0.1的基因,得到的基因称为候选基因。
对于步骤S5,在PPI网络中选取S4中候选基因之间的相互作用,构建一个局部PPI网络,表示候选基因间的相互关系,对于节点na和nb(对应蛋白质pa和pb)之间的边e,当pa和pb之间存在相互作用时,改变其权值为:
其中S(pa,pb)表示蛋白质pa和pb之间的置信得分,可见在该局部PPI网络中,蛋白质之间的相互关系与边的权重反相关。
对于步骤S7,根据S6的结果,对于每个候选基因g(除种子节点外),计算其介数中心性:
其中B(g)表示在S6中所有最短路径中经过基因g的数目,选择介数中心性大于0.01的节点对应的基因,这些基因更有可能是导致肿瘤转移的基因,称为肿瘤转移关键基因。
对于步骤S8,对S7中得到的肿瘤转移关键基因进行富集分析及文献挖掘,可以验证该方法的有效性,从基因层面揭示肿瘤转移的病理机制。
本发明的有益效果:
(1)本发明将复杂网络方法应用到肿瘤转移关键基因的检索中,大大降低了肿瘤转移相关基因鉴定的成本,缩短了发现的时间,对癌症患者临床的诊断和治疗具有重要的意义。
(2)本发明拓展了复杂网络在挖掘复杂疾病遗传因素中的应用,有利于生物信息学的发展。
附图说明
图1是本发明一种基于复杂网络的肿瘤转移关键基因检索方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提出一种基于复杂网络的肿瘤转移关键基因检索方法,该方法包含:
对于步骤S1,通过从STRING等在线数据库中获取蛋白质相互作用数据,构建PPI网络。其中蛋白质相互作用信息包含了蛋白质之间的物理和功能联系,可以更广泛地表达蛋白质之间的关系。PPI网络中节点表示蛋白质;当两个蛋白质之间存在相互作用时,其对应节点之间存在一条连边;边权表示蛋白质之间的置信得分。
对于步骤S2,将Sa和Sb中的基因整合并删去重复的基因,得到n个独特的基因作为随机游走算法的种子节点。
对于步骤S3,随机游走重启算法是一种经典的排序算法,它从一些种子节点开始,模拟网络中节点的随机游走和重启。在算法的每一步中,节点都以相等的概率移动到其邻居节点,并以一定的概率返回种子节点。经过多次迭代后,算法的结果趋于稳定,根据概率得分对节点进行排名。随机游走重启算法的迭代公式如下:
Pi+1=(1-r)APi+rP0 (5)
其中P0为初始概率得分列向量,其种子节点对应的值的设置为1/n,其它节点对应值设置为0。其中Pi表示执行第i步后得到的概率得分列向量;A表示PPI网络的列归一化邻接矩阵;r为重启概率,以表示种子节点的重要程度。当‖Pi+1-Pi‖L1<10-6时,迭代结果趋于稳定,算法停止,并且输出Pi+1。算法的最终结果表示种子节点在网络中随机游走到其他节点的概率,体现了其他节点与种子节点的相关性。选择概率得分大于10-5的基因,称为RWR基因。
对于步骤S4,利用随机游走重启算法得到的基因可能会受到PPI网络的结构的影响,从而存在很多与结果无关的基因,为了尽可能排除这些基因,提出了置换检验(Permutation Test)规则。通过随机构造1000组种子节点在PPI网络上执行随机游走重启算法,得到1000组随机概率得分结果。对于每个RWR基因g,计算其p-value值:
其中θ表示对于基因g,1000组随机概率得分结果大于S3中结果的数目,具有较高p-value值的基因很可能与结果无关。因此,删除p-value值大于0.1的基因,得到的基因称为候选基因。
对于步骤S5,在PPI网络中选取S4中候选基因之间的相互作用,构建一个局部PPI网络,表示候选基因间的相互关系。对于节点na和nb(对应蛋白质pa和pb)之间的边e,当pa和pb之间存在相互作用时,改变其权值为:
其中S(pa,pb)表示蛋白质pa和pb之间的置信得分。可见在该局部PPI网络中,蛋白质之间的相互关系与边的权重反相关。
对于步骤S6,在S5中的局部PPI网络上搜索Sa中所有基因到Sb中所有基因的最短路径。
对于步骤S7,根据S6的结果,对于每个候选基因g(除种子节点外),计算其介数中心性:
其中B(g)表示在S6中所有最短路径中经过基因g的数目。选择介数中心性大于0.01的节点对应的基因,这些基因更有可能是导致肿瘤转移的基因,称为肿瘤转移关键基因;
对于步骤S8,对S7中得到的肿瘤转移关键基因进行富集分析及文献挖掘,可以验证该方法的有效性,从基因层面揭示肿瘤转移的病理机制。
本发明结合随机游走重启算法和最短路径算法,提出一种基于复杂网络的肿瘤转移关键基因检索方法,来检索与筛选导致肿瘤转移的关键基因集。其中,通过在PPI网络上运行随机游走重启算法并利用置换检验方法排除网络结构对结果的影响,得到了肿瘤转移候选基因。然后,通过在构建的局部PPI网络上运行最短路径算法得到了肿瘤转移关键基因。最后对肿瘤转移关键基因进行富集分析及文献挖掘,可以验证结果的准确性和方法的有效性,从基因层面揭示肿瘤转移的病理机制。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于复杂网络的肿瘤转移关键基因检索方法,其特征即具体步骤如下:
S1,通过从STRING等在线数据库中获取蛋白质相互作用数据,构建PPI(protein-protein interaction)网络;
S2,根据已知的肿瘤转移类型(肿瘤A向肿瘤B转移),从不同数据库中分别收集和整理肿瘤A和肿瘤B的相关基因数据,其集合定义为Sa和Sb,并对基因数据进行预处理,使其对应在PPI网络中;
S3,将S2中得到的基因整合作为种子节点,在PPI网络上运行随机游走重启算法,得到网络中每个基因的概率得分,选择概率得分大于10-5的基因,称为RWR基因;
S4,通过置换检验删除p-value值大于0.1的基因,得到的基因称为候选基因;
S5,在PPI网络中选取S4中候选基因之间的相互作用,构建一个局部PPI网络,表示候选基因间的相互关系,并改变该网络的权重;
S6,在S5中的局部PPI网络上搜索Sa中所有基因到Sb中所有基因的最短路径;
S7,根据S6的结果,计算除种子节点外每个节点的介数中心性,选择介数中心性大于0.01的节点对应的基因,这些基因称为肿瘤转移关键基因;
S8,对S7中得到的肿瘤转移关键基因进行富集分析及文献挖掘验证。
2.根据权利要求1所述的一种结合随机游走重启算法和最短路径的计算方法,其特征在于,对于步骤S1,PPI(蛋白质-蛋白质相互作用)是指两个蛋白质分子通过非共价键形成蛋白质复合体的过程,PPI在细胞内和细胞间生化过程中起着重要作用,可用于遗传疾病的研究,其中蛋白质相互作用信息包含了蛋白质之间的物理和功能联系,可以更广泛地表达蛋白质之间的关系,研究证明,PPI中的两种蛋白更有可能具有类似的功能,因此,利用蛋白质相互作用信息构建PPI网络可以检索与肿瘤转移有关的关键基因,PPI网络中节点表示蛋白质,当两个蛋白质之间存在相互作用时,其对应节点之间存在一条连边,边权表示蛋白质之间的置信得分。
3.根据权利要求1所述的一种结合随机游走重启算法和最短路径的计算方法,其特征在于,对于步骤S2,将Sa和Sb中的基因整合并删去重复的基因,得到n个独特的基因作为随机游走算法的种子节点。
4.根据权利要求1所述的一种结合随机游走重启算法和最短路径的计算方法,其特征在于,对于步骤S3,随机游走重启算法是一种经典的排序算法,它从一些种子节点开始,模拟网络中节点的随机游走和重启,在算法的每一步中,节点都以相等的概率移动到其邻居节点,并以一定的概率返回种子节点,经过多次迭代后,算法的结果趋于稳定,根据概率得分对节点进行排名,随机游走重启算法的迭代公式如下:
Pi+1=(1-r)APi+rP0 (1)
其中P0为初始概率得分列向量,其种子节点对应的值的设置为1/n,其它节点对应值设置为0,其中Pi表示执行第i步后得到的概率得分列向量,A表示PPI网络的列归一化邻接矩阵,r为重启概率,以表示种子节点的重要程度,当‖Pi+1-Pi‖L1<10-6时,迭代结果趋于稳定,算法停止,并且输出Pi+1,算法的最终结果表示种子节点在网络中随机游走到其他节点的概率,体现了其他节点与种子节点的相关性,选择概率得分大于10-5的基因,称为RWR基因。
5.根据权利要求1所述的一种结合随机游走重启算法和最短路径的计算方法,其特征在于,对于步骤S4,利用随机游走重启算法得到的基因可能会受到PPI网络的结构的影响,从而存在很多与结果无关的基因,为了尽可能排除这些基因,提出了置换检验(Permutation Test)规则,通过随机构造1000组种子节点在PPI网络上执行随机游走重启算法,得到1000组随机概率得分结果,对于每个RWR基因g,计算其p-value值:
其中θ表示对于基因g,1000组随机概率得分结果大于S3中结果的数目,具有较高p-value值的基因很可能与结果无关,因此,删除p-value值大于0.1的基因,得到的基因称为候选基因。
8.根据权利要求1所述的一种结合随机游走重启算法和最短路径的计算方法,其特征在于,对于步骤S8,对S7中得到的肿瘤转移关键基因进行富集分析及文献挖掘,可以验证该方法的有效性,并从基因层面揭示肿瘤转移的病理机制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010004969.1A CN111192639A (zh) | 2020-01-03 | 2020-01-03 | 一种基于复杂网络的肿瘤转移关键基因检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010004969.1A CN111192639A (zh) | 2020-01-03 | 2020-01-03 | 一种基于复杂网络的肿瘤转移关键基因检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111192639A true CN111192639A (zh) | 2020-05-22 |
Family
ID=70709739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010004969.1A Pending CN111192639A (zh) | 2020-01-03 | 2020-01-03 | 一种基于复杂网络的肿瘤转移关键基因检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111192639A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112086187A (zh) * | 2020-09-16 | 2020-12-15 | 电子科技大学 | 一种基于复杂网络的疾病进展路径挖掘方法 |
-
2020
- 2020-01-03 CN CN202010004969.1A patent/CN111192639A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112086187A (zh) * | 2020-09-16 | 2020-12-15 | 电子科技大学 | 一种基于复杂网络的疾病进展路径挖掘方法 |
CN112086187B (zh) * | 2020-09-16 | 2022-04-19 | 电子科技大学 | 一种基于复杂网络的疾病进展路径挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107506608B (zh) | 一种改进的基于协同过滤的miRNA-疾病关联预测方法 | |
CN103778349B (zh) | 一种基于功能模块的生物分子网络分析的方法 | |
CN113299338B (zh) | 基于知识图谱的合成致死基因对预测方法、系统、终端及介质 | |
CN112837753B (zh) | 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法 | |
Dai et al. | Predicting miRNA-disease associations using an ensemble learning framework with resampling method | |
CN109637579B (zh) | 一种基于张量随机游走的关键蛋白质识别方法 | |
US20180211719A1 (en) | Systematic pharmacological method for personalized medicine | |
Zheng et al. | CGMDA: an approach to predict and validate MicroRNA-disease associations by utilizing chaos game representation and LightGBM | |
CN111599406B (zh) | 结合网络聚类方法的全局多网络比对方法 | |
CN110428899B (zh) | 基于双随机游走重启动的多数据整合环状rna与疾病相关性预测方法 | |
CN109727637B (zh) | 基于混合蛙跳算法识别关键蛋白质的方法 | |
CN113488104A (zh) | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 | |
Zaki et al. | Identifying protein complexes in protein-protein interaction data using graph convolutional network | |
CN110782948A (zh) | 基于约束概率矩阵分解方法预测miRNA与疾病的潜在关联 | |
Xu et al. | Reconstruction of the protein-protein interaction network for protein complexes identification by walking on the protein pair fingerprints similarity network | |
Liu et al. | Pathogenic gene prediction based on network embedding | |
Tran et al. | An extensive examination of discovering 5-Methylcytosine Sites in Genome-Wide DNA Promoters using machine learning based approaches | |
Wu et al. | An ensemble learning framework for potential miRNA-disease association prediction with positive-unlabeled data | |
CN111192639A (zh) | 一种基于复杂网络的肿瘤转移关键基因检索方法 | |
CN117611974A (zh) | 基于多种群交替进化神经结构搜索的图像识别方法及系统 | |
Wang et al. | KS-CMI: a circRNA-miRNA interaction prediction method based on the signed graph neural network and denoising autoencoder | |
Sharma et al. | Prediction models based on miRNA-disease relationship: Diagnostic relevance to multiple diseases including COVID-19 | |
Jindal et al. | A machine learning method for predicting disease-associated microRNA connections using network internal topology data | |
CN116543832A (zh) | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 | |
Su et al. | Prediction of LncRNA-disease associations based on network representation learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200522 |