CN112259163A - 基于生物网络和亚细胞定位数据识别癌症驱动模块方法 - Google Patents

基于生物网络和亚细胞定位数据识别癌症驱动模块方法 Download PDF

Info

Publication number
CN112259163A
CN112259163A CN202011172944.9A CN202011172944A CN112259163A CN 112259163 A CN112259163 A CN 112259163A CN 202011172944 A CN202011172944 A CN 202011172944A CN 112259163 A CN112259163 A CN 112259163A
Authority
CN
China
Prior art keywords
individual
gene
genes
network
mutation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011172944.9A
Other languages
English (en)
Other versions
CN112259163B (zh
Inventor
杨冀帆
吴璟莉
李高仕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Normal University
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN202011172944.9A priority Critical patent/CN112259163B/zh
Publication of CN112259163A publication Critical patent/CN112259163A/zh
Application granted granted Critical
Publication of CN112259163B publication Critical patent/CN112259163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Physiology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于生物网络和亚细胞定位数据识别癌症驱动模块方法,包括如下步骤:1)输入数据;2)重建无向边缘加权PPI网络;3)识别驱动程序模块;4)初始化;5)记录最佳个体;6)进入;7)使用五个突变算子产生;8)选择;9)完成驱动模块识别。这种方法克服了传统PPI网络中的假阳性或假阴性的不足,提高了在PPI网络上识别癌症的驱动模块的准确性。

Description

基于生物网络和亚细胞定位数据识别癌症驱动模块方法
技术领域
本发明涉及生物信息技术与智能优化算法领域,具体是一种基于生物网络和亚细胞定位数据识别癌症驱动模块方法。
背景技术
随着深度测序技术的飞速发展,诸如癌症基因组图谱(TCGA)和国际癌症基因组联合会(ICGC)等大规模的癌症基因组计划已经产生了大量的癌症基因组数据。所积累的大量数据使得通过使用计算方法来系统地检测引起癌症的体细胞突变,即驾驶员突变成为现实。
在识别驱动程序突变的早期研究中,设计了计算方法来识别单个驱动程序基因。已经注意到,不同基因座处的突变可能导致相同的疾病,即使基因组突变起源于同一癌症,它们之间的重叠也很少。这种突变异质性可能表达了一种基本的分子机制,致癌相关基因(即驱动基因)通常参与相同的细胞信号传导或调控途径。当途径中的任何一种驱动基因发生突变时,就会发生癌变。因此,驱动路径或驱动模块的识别已成为近年来有吸引力的研究课题。
驱动模块识别的方法可以分为两类,分别是从头识别和基于先验知识的识别方法。从头识别方法通常只是采用遗传数据来揭示新的遗传相互作用和致癌途径或功能模块。因为存在大量突变基因的组合,所以这种方法通常通过使用基于突变频率的预过滤来降低固有的计算复杂性,并且可能会忽略某些包含稀有突变的途径。现有的基于知识的方法除了利用基因组数据外,还利用了诸如基因/蛋白质之间的相互作用或已知途径等知识。本文中的方法属于基于先验知识的识别方法。
近年来,已有许多基于知识的现有方法,可以将其大致分为两个子类别。第一个子类别方法使用现有路径和网络中的固有拓扑结构,如Hotnet,Hotnet2,HierarchicalHotnet,Mutex和MEXCOwalk等等的方法。Hotnet,Hotnet2和Hierarchical Hotnet方法使用绝缘的热扩散过程,该过程考虑了单个基因的突变频率以及相应蛋白质之间相互作用的已知拓扑,从而获得了可确定驱动路径的扩散矩阵。Mutex方法目标是搜索在大型基因网络中具有共同下游目标的相互排斥的基因组,该网络的相互作用是从三个数据库中收集的。MEXCOwalk方法通过使用体细胞突变谱将蛋白质-蛋白质相互作用(Protein-proteininteraction network,简称PPI)网络转换为顶点加权图和边缘加权图,并采用基于随机游走的方法来提取癌症的驱动程序模块。第二个子类别方法尝试重建或调整现有路径和网络中的拓扑结构。MEMo方法从交互网络或功能关系图创建相似度图,并检查从相似度图中提取的最大团的互斥性。MEMCover方法重建功能交互网络,以便其交互属于给定的互斥类,它利用相互排斥的原理来识别跨多种癌症类型失调的子网。
尽管现有的通路和网络可以为识别驱动通路或模块提供一些重要信息,但是由于高通量实验的局限性,它们之间仍然存在许多假阳性或假阴性相互作用。大量的噪声数据可能会对识别产生负面影响。因此,需要一种克服蛋白质相互作用网络中的假阳性或假阴性,以便更准确的在蛋白质相互作用网络中识别癌症的驱动模块的新方法,解决现有方法无法满足本要求的不足。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于生物网络和亚细胞定位数据识别癌症驱动模块方法。这种方法克服了传统PPI网络中的假阳性或假阴性的不足,提高了在PPI网络上识别癌症的驱动模块的准确性。
实现本发明目的的技术方案是:
基于生物网络和亚细胞定位数据识别癌症驱动模块方法,包括如下步骤:
1)输入数据:输入体细胞突变数据矩阵Am×n,一个PPI网络P=(V,E)和亚细胞定位数据L=(L1,L2,…,L|V|);输入数据的格式和含义如下:体细胞突变数据矩阵Am×n中,行代表一组癌症样本S={si|i=1,2,…,m},列代表一组基因G={gj|j=1,2,...,n},矩阵内的每个格子aij(i=1,2,...,m,j=1,2,...,n)的值为1或0,aij的值表示基因gj是否在样本si中发生突变;PPI网络P=(V,E),对于网络中的每个顶点ui∈V代表一个基因gi在网络中相应的蛋白质,网络中的每个无向边(ui,uj)∈E表示基因gi和gj对应的蛋白质之间的相互作用;亚细胞定位数据L=(L1,L2,…,L|V|),其中Lj表示PPI网络P=(V,E)中基因gj(j=1,2,…,|V|)对应的亚细胞定位位点列表;
2)重建无向边缘加权PPI网络:对于PPI网络P=(V,E),使用步骤1)中的体细胞突变数据矩阵Am×n和亚细胞定位数据L=(L1,L2,…,L|V|)重建一个新的无向边缘加权PPI网络Pl=(Vl,El,Wl),重建过程为:先让
Figure BDA0002747864310000039
检查每个边缘eij∈E(eij=(gi,gj),gi,gj∈Vl),El由以下公式生成:
Figure BDA0002747864310000031
然后对于每个eij∈El(eij=(gi,gj),gi,gj∈Vl)计算Wl,Wl是eij的边权值,边权值为
Figure BDA0002747864310000032
该边权值反映基因组
Figure BDA0002747864310000033
的覆盖率和相互排斥之间的关系,其中
Figure BDA0002747864310000034
表示
Figure BDA0002747864310000035
的覆盖率,
Figure BDA0002747864310000036
表示
Figure BDA0002747864310000037
的互斥度;
3)识别驱动程序模块:根据步骤2)中构建的无向边缘加权PPI网络Pl=(Vl,El,Wl),将参数K,λ,N,mg,mt和步骤2)中构建的无向边缘加权PPI网络Pl=(Vl,El,Wl)输入到重新设计的单亲遗传算法中,输入算法中的参数的功能如下:参数K是控制输出的模块规模大小,参数λ是控制输出模块内基因的相互作用的强弱,参数N是设置单亲遗传算法生成的种群规模大小,参数mg是设置单亲遗传算法的最大迭代次数,参数mt是算法中提前跳出迭代的阈值;然后使用重新设计的单亲遗传算法来识别大小为K的驱动程序模块
Figure BDA0002747864310000038
4)初始化:首先根据个体的表示生成初始的种群,初始染色体X={x1,x2,…,xK|xi∈Vl}由如下生成:首先初始化X={x1},其中x1表示从集合Vl中随机选择的基因;然后在集合X和Vl\X之间搜索边缘集合δ(X),其中δ(X)={eij|eij∈El,xi∈X,xj∈Vl\X};最后随机选择三种更新X方法的任意一种去更新X,其中这三种方法分别为:(a)对与染色体中基因相连的基因进行检测,选择边权值最大的相连基因加入到染色体中,直到染色体内的基因数与K值相同;(b)对与染色体中基因相连的基因进行检测,选取在无向边缘加权PPI网络Pl=(Vl,El,Wl)中最大出入度的相连邻居加入到染色体中,直到染色体内的基因数与K值相同;(c)采用完全随机的方式生成个体,从相连的邻居中随机选择一个加入到个体中,不考虑其他因素,直到生成了N个个体,种群初始化完成;
5)记录最佳个体:迭代变量gen和t设置为零,让best记录最佳个体,即适应值函数得分最高的个体,
Figure BDA0002747864310000041
适应值函数为
Figure BDA0002747864310000042
Figure BDA0002747864310000043
其中
Figure BDA0002747864310000044
其中N1计算模块
Figure BDA0002747864310000045
中直接相邻基因大于或等于1的基因数,N2计算满足以下两个条件的顶点对的数量:(a)一对顶点之间的最短路径超过了给定的路径长度限制λ;(b)一对顶点之间没有路径;
6)进入:gen=gen+1,将best个体放入popgen,并使用轮盘赌选择算子从popgen-1中选择N-1个个体进入popgen
7)使用五个突变算子产生:对于popgen中的每个
Figure BDA0002747864310000046
(i=1,2,…,N)inpopgen进行如下操作:如果
Figure BDA0002747864310000047
则通过在
Figure BDA0002747864310000048
上随机实现五个突变算子之一来产生
Figure BDA0002747864310000049
否则依次对
Figure BDA00027478643100000410
进行5个突变算子,将获得的适应度最大的新个体保留为
Figure BDA00027478643100000411
8)选择:如果
Figure BDA00027478643100000412
Figure BDA00027478643100000413
t=0;若
Figure BDA00027478643100000414
则t=t+1;
9)完成驱动模块识别:重复步骤6)至步骤8),直到gen==mg或t==mt,则终止迭代,输出最优模块
Figure BDA00027478643100000415
完成了在基于亚细胞定位数据降噪后的PPI网络中对大小规模为K的癌症驱动模块的识别。
步骤7)中所述的五个突变算子分别为:
a.单点突变算子:对于个体Xi,随机删除个体中的一个基因,从个体Xi中剩余的基因的邻居的集合中,选取与个体Xi连接边数最多的邻居加入到个体中,形成一个新的个体并返回到种群中;
b.两点突变算子:和上一个单点突变算子类似,唯一改变的就是从个体中删除的基因数变为2,新加入的连接边数最多的邻居数也为2;
c.度-权重突变算子:是本方法自己设计的突变算子,首先将个体Xi中度数最小的基因(在PPI网络G中)从个体中删除,然后从与个体Xi中的基因相连的邻居基因中选取一个边权值最大的基因加入到个体中,形成一个新的个体返回;
d.度-度突变算子:先将个体中度数最小的基因(在PPI网络G中)从个体中删除,然后从与个体Xi中剩余基因相连的邻居中选取一个与个体Xi连接度最高的邻居基因加入到个体中,形成新的个体返回;
e.权重-权重突变算子:先将个体Xi中与个体内其他基因的边权和最小的基因从个体中删除,从与个体内剩余基因相连的网络节点且不在个体中的节点中选取一个边权和最大的节点加入到个体中,形成新的个体并返回。
本技术方案方法具有以下优点:
(1)结合了亚细胞定位数据,用于提高PPI网络中边的可信度,去除网络中的噪声,提高识别出来模块内基因间互作性的准确度
(2)提出了一种改进的数学模型,用于提取泛癌数据在PPI网络中的驱动通路模块(体现在单亲遗传算法的适应值函数上)。该模型引入了跳数和不连通的惩罚因子,极大的避免了识别出来模块内的基因出现不连通和基因间的互相作用不强的情况,并通过引入连通因子,通过模型去让识别出来的模块尽可能是连通的。
(3)通过引入五种新的突变算子,提出了求解该模型的遗传算法,更有效率的识别癌症驱动模块。
这种方法克服了传统PPI网络中的假阳性或假阴性的不足,提高了在PPI网络上识别癌症的驱动模块的准确性。
附图说明
图1为实施例2中设置两个控制模块大小参数Kmin和Kmax的输出结果模块图;
图2为实施例2中设置参数Kmin和Kmax的输出结果基因列表图。
具体实施方式
下面结合附图和实施例对本发明做进一步阐述,但不是对本发明的限定。
实施例:
基于生物网络和亚细胞定位数据识别癌症驱动模块方法,包括如下步骤:
1)输入数据:输入体细胞突变数据矩阵Am×n,一个PPI网络P=(V,E)和亚细胞定位数据L=(L1,L2,...,L|V|);输入数据的格式和含义如下:体细胞突变数据矩阵Am×n中,行代表一组癌症样本S={si|i=1,2,...,m},列代表一组基因G={gj|j=1,2,...,n},矩阵内的每个格子aij(i=1,2,...,m,j=1,2,...,n)的值为1或0,aij的值表示基因gj是否在样本si中发生突变;PPI网络P=(V,E),对于网络中的每个顶点ui∈V代表一个基因gi在网络中相应的蛋白质,网络中的每个无向边(ui,uj)∈E表示基因gi和gj对应的蛋白质之间的相互作用;亚细胞定位数据L=(L1,L2,...,L|V|),其中Lj表示PPI网络P=(V,E)中基因gj(j=1,2,...,|V|)对应的亚细胞定位位点列表;
2)重建无向边缘加权PPI网络:对于PPI网络P=(V,E),使用步骤1)中的体细胞突变数据矩阵Am×n和亚细胞定位数据L=(L1,L2,...,L|V|)重建一个新的无向边缘加权PPI网络Pl=(Vl,El,Wl),重建过程为:先让
Figure BDA0002747864310000069
检查每个边缘eij∈E(eij=(gi,gj),gi,gj∈Vl),El由以下公式生成:
Figure BDA0002747864310000061
然后对于每个eij∈El(eij=(gi,gj),gi,gj∈Vl)计算Wl,Wl是eij的边权值,边权值为
Figure BDA0002747864310000062
该边权值反映基因组
Figure BDA0002747864310000063
的覆盖率和相互排斥之间的关系,其中
Figure BDA0002747864310000064
表示
Figure BDA0002747864310000065
的覆盖率,
Figure BDA0002747864310000066
表示
Figure BDA0002747864310000067
的互斥度;
3)识别驱动程序模块:根据步骤2)中构建的无向边缘加权PPI网络Pl=(Vl,El,Wl),将参数K,λ,N,mg,mt和步骤2)中构建的无向边缘加权PPI网络Pl=(Vl,El,Wl)输入到重新设计的单亲遗传算法中,输入算法中的参数的功能如下:参数K是控制输出的模块规模大小,参数λ是控制输出模块内基因的相互作用的强弱,参数N是设置单亲遗传算法生成的种群规模大小,参数mg是设置单亲遗传算法的最大迭代次数,参数mt是算法中提前跳出迭代的阈值;然后使用重新设计的单亲遗传算法来识别大小为K的驱动程序模块
Figure BDA0002747864310000068
4)初始化:首先根据个体的表示生成初始的种群,初始染色体X={x1,x2,...,xK|xi∈Vl}由如下生成:首先初始化X={x1},其中x1表示从集合Vl中随机选择的基因;然后在集合X和Vl\X之间搜索边缘集合δ(X),其中δ(X)={eij|eij∈El,xi∈X,xj∈Vl\X};最后随机选择三种更新X方法的任意一种去更新X,其中这三种方法分别为:(a)对与染色体中基因相连的基因进行检测,选择边权值最大的相连基因加入到染色体中,直到染色体内的基因数与K值相同;(b)对与染色体中基因相连的基因进行检测,选取在无向边缘加权PPI网络Pl=(Vl,El,Wl)中最大出入度的相连邻居加入到染色体中,直到染色体内的基因数与K值相同;(c)采用完全随机的方式生成个体,从相连的邻居中随机选择一个加入到个体中,不考虑其他因素,直到生成了N个个体,种群初始化完成;
5)记录最佳个体:迭代变量gen和t设置为零,让best记录最佳个体,即适应值函数得分最高的个体,
Figure BDA0002747864310000071
适应值函数为
Figure BDA0002747864310000072
Figure BDA0002747864310000073
其中
Figure BDA0002747864310000074
其中N1计算模块
Figure BDA0002747864310000075
中直接相邻基因大于或等于1的基因数,N2计算满足以下两个条件的顶点对的数量:(a)一对顶点之间的最短路径超过了给定的路径长度限制λ;(b)一对顶点之间没有路径;
6)进入:gen=gen+1,将best个体放入popgen,并使用轮盘赌选择算子从popgen-1中选择N-1个个体进入popgen
7)使用五个突变算子产生:对于popgen中的每个
Figure BDA0002747864310000076
(i=1,2,…,N)in popgen进行如下操作:如果
Figure BDA0002747864310000077
则通过在
Figure BDA0002747864310000078
上随机实现五个突变算子之一来产生
Figure BDA0002747864310000079
否则依次对
Figure BDA00027478643100000710
进行5个突变算子,将获得的适应度最大的新个体保留为
Figure BDA00027478643100000711
8)选择:如果
Figure BDA00027478643100000712
t=0;若
Figure BDA00027478643100000713
则t=t+1;
9)完成驱动模块识别:重复步骤6)至步骤8),直到gen==mg或t==mt,则终止迭代,输出最优模块
Figure BDA0002747864310000081
完成了在基于亚细胞定位数据降噪后的PPI网络中对大小规模为K的癌症驱动模块的识别。
步骤7)中所述的五个突变算子分别为:
a.单点突变算子:对于个体Xi,随机删除个体中的一个基因,从个体Xi中剩余的基因的邻居的集合中,选取与个体Xi连接边数最多的邻居加入到个体中,形成一个新的个体并返回到种群中;
b.两点突变算子:和上一个单点突变算子类似,唯一改变的就是从个体中删除的基因数变为2,新加入的连接边数最多的邻居数也为2;
c.度-权重突变算子:是本方法自己设计的突变算子,首先将个体Xi中度数最小的基因(在PPI网络G中)从个体中删除,然后从与个体Xi中的基因相连的邻居基因中选取一个边权值最大的基因加入到个体中,形成一个新的个体返回;
d.度-度突变算子:先将个体中度数最小的基因(在PPI网络G中)从个体中删除,然后从与个体Xi中剩余基因相连的邻居中选取一个与个体Xi连接度最高的邻居基因加入到个体中,形成新的个体返回;
e.权重-权重突变算子:先将个体Xi中与个体内其他基因的边权和最小的基因从个体中删除,从与个体内剩余基因相连的网络节点且不在个体中的节点中选取一个边权和最大的节点加入到个体中,形成新的个体并返回。
具体的:
实施例1:
步骤1)中输入的PPI网络为HINT+HI2012,包含了12个癌症的体细胞突变数据;亚细胞定位数据中参数K=14,λ=2,N=100,mt=30,mg=200;
步骤3)使用单亲遗传算法提取一个大小为K=14的癌症驱动模块;
步骤4)输出的基因模块为:TP53,PTEN,ATM,MDM4,E2F1,ITCH,MTA2,MAPK1,HDAC1,MDM2,HIF1A,UBC,TP73,CDKN1A;
其余同上述操作步骤。
实施例2:
步骤1)中输入的PPI网络为HINT+HI2012,包含了12个癌症的体细胞突变数据;亚细胞定位数据中参数Kmax=14,Kmin=3,λ=2,N=100,mt=30,mg=200;
步骤3)中单亲遗传算法Kmax-Kmin+1次,并在第i次(i=1,2,…,Kmax-Kmin+1)识别大小为Kmax-i+1的驱动程序模块,然后提取的基因总数为
Figure BDA0002747864310000091
步骤4)输出的驱动程序模块的结果图如图1所示,输出的模块基因列表如图2所示。
其余步骤同实施例1。

Claims (2)

1.基于生物网络和亚细胞定位数据识别癌症驱动模块方法,其特征在于,包括如下步骤:
1)输入数据:输入体细胞突变数据矩阵Am×n,一个PPI网络P=(V,E)和亚细胞定位数据L=(L1,L2,...,L|V|);输入数据的格式和含义如下:体细胞突变数据矩阵Am×n中,行代表一组癌症样本S={si|i=1,2,...,m},列代表一组基因G={gj|j=1,2,...,n},矩阵内的每个格子aij(i=1,2,...,m,j=1,2,...,n)的值为1或0,aij的值表示基因gj是否在样本si中发生突变;PPI网络P=(V,E),对于网络中的每个顶点ui∈V代表一个基因gi在网络中相应的蛋白质,网络中的每个无向边(ui,uj)∈E表示基因gi和gj对应的蛋白质之间的相互作用;亚细胞定位数据L=(L1,L2,...,L|V|),其中Lj表示PPI网络P=(V,E)中基因gj(j=1,2,...,|V|)对应的亚细胞定位位点列表;
2)重建无向边缘加权PPI网络:对于PPI网络P=(V,E),使用步骤1)中的体细胞突变数据矩阵Am×n和亚细胞定位数据L=(L1,L2,...,L|V|)重建一个新的无向边缘加权PPI网络Pl=(Vl,El,Wl),重建过程为:先让Vl=V,
Figure FDA0002747864300000018
检查每个边缘eij∈E(eij=(gi,gj),gi,gj∈Vl),El由以下公式生成:
Figure FDA0002747864300000011
然后对于每个eij∈El(eij=(gi,gj),gi,gj∈Vl)计算Wl,Wl是eij的边权值,边权值为
Figure FDA0002747864300000012
该边权值反映基因组
Figure FDA0002747864300000013
的覆盖率和相互排斥之间的关系,其中
Figure FDA0002747864300000014
表示
Figure FDA0002747864300000015
的覆盖率,
Figure FDA0002747864300000016
表示
Figure FDA0002747864300000017
的互斥度;
3)识别驱动程序模块:根据步骤2)中构建的无向边缘加权PPI网络Pl=(Vl,El,Wl),将参数K,λ,N,mg,mt和步骤2)中构建的无向边缘加权PPI网络Pl=(Vl,El,Wl)输入到重新设计的单亲遗传算法中,输入算法中的参数的功能如下:参数K是控制输出的模块规模大小,参数λ是控制输出模块内基因的相互作用的强弱,参数N是设置单亲遗传算法生成的种群规模大小,参数mg是设置单亲遗传算法的最大迭代次数,参数mt是算法中提前跳出迭代的阈值;然后使用重新设计的单亲遗传算法来识别大小为K的驱动程序模块
Figure FDA0002747864300000021
4)初始化:首先根据个体的表示生成初始的种群,初始染色体X={x1,x2,...,xK|xi∈Vl}由如下生成:首先初始化X={x1},其中x1表示从集合Vl中随机选择的基因;然后在集合X和Vl\X之间搜索边缘集合δ(X),其中δ(X)={eij|eij∈El,xi∈X,xj∈Vl\X};最后随机选择三种更新X方法的任意一种去更新X,其中这三种方法分别为:(a)对与染色体中基因相连的基因进行检测,选择边权值最大的相连基因加入到染色体中,直到染色体内的基因数与K值相同;(b)对与染色体中基因相连的基因进行检测,选取在构建的无向边缘加权PPI网络Pl=(Vl,El,Wl)中最大出入度的相连邻居加入到染色体中,直到染色体内的基因数与K值相同;(c)采用完全随机的方式生成个体,从相连的邻居中随机选择一个加入到个体中,不考虑其他因素,直到生成了N个个体,种群初始化完成;
5)记录最佳个体:迭代变量gen和t设置为零,让best记录最佳个体,即适应值函数得分最高的个体,
Figure FDA0002747864300000022
适应值函数为
Figure FDA0002747864300000023
Figure FDA0002747864300000024
其中
Figure FDA0002747864300000025
其中N1计算模块
Figure FDA0002747864300000026
中直接相邻基因大于或等于1的基因数,N2计算满足以下两个条件的顶点对的数量:(a)一对顶点之间的最短路径超过了给定的路径长度限制λ;(b)一对顶点之间没有路径;
6)进入:gen=gen+1,将best个体放入popgen,并使用轮盘赌选择算子从popgen-1中选择N-1个个体进入popgen
7)使用五个突变算子产生:对于popgen中的每个
Figure FDA0002747864300000027
inpopgen进行如下操作:如果
Figure FDA0002747864300000028
则通过在
Figure FDA0002747864300000029
上随机实现五个突变算子之一来产生X′i gen;否则依次对
Figure FDA00027478643000000210
进行5个突变算子,将获得的适应度最大的新个体保留为X′i gen
8)选择:如果
Figure FDA0002747864300000031
Figure FDA0002747864300000032
Figure FDA0002747864300000033
则t=t+1;
9)完成驱动模块识别:重复步骤6)至步骤8),直到gen==mg或t==mt,则终止迭代,输出最优模块
Figure FDA0002747864300000034
即完成了在基于亚细胞定位数据降噪后的PPI网络中对大小规模为K的癌症驱动模块的识别。
2.根据权利要求1所述的基于生物网络和亚细胞定位数据识别癌症驱动模块方法,其特征在于,步骤7)中所述的五个突变算子分别为:
a.单点突变算子:对于个体Xi,随机删除个体中的一个基因,从个体Xi中剩余的基因的邻居的集合中,选取与个体Xi连接边数最多的邻居加入到个体中,形成一个新的个体并返回到种群中;
b.两点突变算子:和上一个单点突变算子类似,唯一改变的就是从个体中删除的基因数变为2,新加入的连接边数最多的邻居数也为2;
c.度-权重突变算子:是本方法自己设计的突变算子,首先将个体Xi中度数最小的基因,在PPI网络G中从个体中删除,然后从与个体Xi中的基因相连的邻居基因中选取一个边权值最大的基因加入到个体中,形成一个新的个体返回;
d.度-度突变算子:先将个体中度数最小的基因,在PPI网络G中从个体中删除,然后从与个体Xi中剩余基因相连的邻居中选取一个与个体Xi连接度最高的邻居基因加入到个体中,形成新的个体返回;
e.权重-权重突变算子:先将个体Xi中与个体内其他基因的边权和最小的基因从个体中删除,从与个体内剩余基因相连的网络节点且不在个体中的节点中选取一个边权和最大的节点加入到个体中,形成新的个体并返回。
CN202011172944.9A 2020-10-28 2020-10-28 基于生物网络和亚细胞定位数据识别癌症驱动模块方法 Active CN112259163B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011172944.9A CN112259163B (zh) 2020-10-28 2020-10-28 基于生物网络和亚细胞定位数据识别癌症驱动模块方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011172944.9A CN112259163B (zh) 2020-10-28 2020-10-28 基于生物网络和亚细胞定位数据识别癌症驱动模块方法

Publications (2)

Publication Number Publication Date
CN112259163A true CN112259163A (zh) 2021-01-22
CN112259163B CN112259163B (zh) 2022-04-22

Family

ID=74261431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011172944.9A Active CN112259163B (zh) 2020-10-28 2020-10-28 基于生物网络和亚细胞定位数据识别癌症驱动模块方法

Country Status (1)

Country Link
CN (1) CN112259163B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270952A (zh) * 2020-10-30 2021-01-26 广西师范大学 一种识别癌症驱动通路的方法
CN113113083A (zh) * 2021-04-09 2021-07-13 山东大学 集体细胞突变数据和蛋白质网络的肿瘤驱动通路预测系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186717A (zh) * 2013-01-18 2013-07-03 中国科学院合肥物质科学研究院 一种基于启发式宽度优先搜索肿瘤相关基因的方法
CN104732116A (zh) * 2015-03-13 2015-06-24 西安交通大学 一种基于生物网络的癌症驱动基因的筛选方法
US20170017749A1 (en) * 2015-07-15 2017-01-19 International Business Machines Corporation System and method for identifying cancer driver genes
KR20170017284A (ko) * 2015-08-06 2017-02-15 광주과학기술원 부분 공분산 선택 기반의 암 유발 유전자의 식별방법
CN106709278A (zh) * 2017-01-10 2017-05-24 河南省医药科学研究院 一种非小细胞肺癌驱动基因筛选与功能分析的方法
CN106980763A (zh) * 2017-03-30 2017-07-25 大连理工大学 一种基于基因突变频率的癌症驱动基因的筛选方法
WO2017181134A2 (en) * 2016-04-15 2017-10-19 F. Hoffman-La Roche Ag Detecting cancer driver genes and pathways
CN108090328A (zh) * 2017-12-31 2018-05-29 浙江大学 一种基于机器学习和多种统计学原理的癌症驱动基因鉴定方法
CN108426886A (zh) * 2018-06-15 2018-08-21 中国科学技术大学 一种循环肿瘤细胞的检测识别方法和系统
CN109346127A (zh) * 2018-08-09 2019-02-15 中山大学 一种用于检测潜在癌症驱动基因的统计分析方法
WO2019084559A1 (en) * 2017-10-27 2019-05-02 Apostle, Inc. SOMATIC MUTATION CANCER PATHOGENIC IMPACT PREDICTION USING DEEP LEARNING BASED METHODS
CN110400599A (zh) * 2019-07-22 2019-11-01 陕西师范大学 基于鸽群优化算法识别关键蛋白质的方法
CN110444291A (zh) * 2019-07-27 2019-11-12 南京理工大学 基于改进的pso-bp神经网络和贝叶斯法的疾病因素提取方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186717A (zh) * 2013-01-18 2013-07-03 中国科学院合肥物质科学研究院 一种基于启发式宽度优先搜索肿瘤相关基因的方法
CN104732116A (zh) * 2015-03-13 2015-06-24 西安交通大学 一种基于生物网络的癌症驱动基因的筛选方法
US20170017749A1 (en) * 2015-07-15 2017-01-19 International Business Machines Corporation System and method for identifying cancer driver genes
KR20170017284A (ko) * 2015-08-06 2017-02-15 광주과학기술원 부분 공분산 선택 기반의 암 유발 유전자의 식별방법
WO2017181134A2 (en) * 2016-04-15 2017-10-19 F. Hoffman-La Roche Ag Detecting cancer driver genes and pathways
CN106709278A (zh) * 2017-01-10 2017-05-24 河南省医药科学研究院 一种非小细胞肺癌驱动基因筛选与功能分析的方法
CN106980763A (zh) * 2017-03-30 2017-07-25 大连理工大学 一种基于基因突变频率的癌症驱动基因的筛选方法
WO2019084559A1 (en) * 2017-10-27 2019-05-02 Apostle, Inc. SOMATIC MUTATION CANCER PATHOGENIC IMPACT PREDICTION USING DEEP LEARNING BASED METHODS
CN108090328A (zh) * 2017-12-31 2018-05-29 浙江大学 一种基于机器学习和多种统计学原理的癌症驱动基因鉴定方法
CN108426886A (zh) * 2018-06-15 2018-08-21 中国科学技术大学 一种循环肿瘤细胞的检测识别方法和系统
CN109346127A (zh) * 2018-08-09 2019-02-15 中山大学 一种用于检测潜在癌症驱动基因的统计分析方法
CN110400599A (zh) * 2019-07-22 2019-11-01 陕西师范大学 基于鸽群优化算法识别关键蛋白质的方法
CN110444291A (zh) * 2019-07-27 2019-11-12 南京理工大学 基于改进的pso-bp神经网络和贝叶斯法的疾病因素提取方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
AISHARJYA SARKAR 等: "An Efficient Algorithm for Identifying Mutated Subnetworks Associated with Survival in Cancer", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 *
BO GAO 等: "Identification of driver modules in pan-cancer via coordinating coverage and exclusivity", 《ONCOTARGET》 *
FABIO VANDIN 等: "De novo discovery of mutated driver pathways in cancer", 《GENOME RESEARCH》 *
FENG LI 等: "Identifying Cancer Specific Driver Modules Using a Network-Based Method", 《MOLECULES》 *
JUNRONG SONG 等: "A random walk-based method to identify driver genes by integrating the subcellular localization and variation frequency into bipartite graph", 《BMC BIOINFORMATICS》 *
乔善平 等: "蛋白质亚细胞定位预测研究综述", 《计算机应用研究》 *
李文婷 等: "基于多组学数据关于癌症发展中核心模块靶标的研究", 《第五届全国生物信息学与系统生物学学术大会论文集》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270952A (zh) * 2020-10-30 2021-01-26 广西师范大学 一种识别癌症驱动通路的方法
CN112270952B (zh) * 2020-10-30 2022-04-05 广西师范大学 一种识别癌症驱动通路的方法
CN113113083A (zh) * 2021-04-09 2021-07-13 山东大学 集体细胞突变数据和蛋白质网络的肿瘤驱动通路预测系统

Also Published As

Publication number Publication date
CN112259163B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
Shrikumar et al. Technical note on transcription factor motif discovery from importance scores (TF-MoDISco) version 0.5. 6.5
CN110832597A (zh) 基于深度神经网络的变体分类器
CN112750502B (zh) 二维分布结构判定的单细胞转录组测序数据聚类推荐方法
CN112259163B (zh) 基于生物网络和亚细胞定位数据识别癌症驱动模块方法
CN111462823B (zh) 一种基于dna测序数据的同源重组缺陷判定方法
CN114496092B (zh) 基于图卷积网络的miRNA和疾病关联关系预测方法
CN110692101A (zh) 用于比对靶向的核酸测序数据的方法
CN110892484A (zh) 用于识别引起序列特异性错误(sse)的序列图案的基于深度学习的框架
CN112466404A (zh) 一种宏基因组重叠群无监督聚类方法及系统
CN114927213A (zh) 多癌种早筛模型构建方法以及检测装置
CN115019883A (zh) 一种基于多网络图卷积的癌症驱动基因识别方法
Su et al. A multi-objective optimization method for identification of module biomarkers for disease diagnosis
US20190108311A1 (en) Site-specific noise model for targeted sequencing
CN115394348A (zh) 基于图卷积网络的lncRNA亚细胞定位预测方法、设备及介质
WO2021208993A1 (zh) 一种用于预测药物靶标的信息处理方法及装置
Cheng et al. Extracting the abstraction pyramid from complex networks
Hu et al. Learning deep representations in large integrated network for graph clustering
Zhao et al. Ensemble classification based signature discovery for cancer diagnosis in RNA expression profiles across different platforms
Khalsan et al. Fuzzy Gene Selection and Cancer Classification Based on Deep Learning Model
CN116168761B (zh) 核酸序列特征区域确定方法、装置、电子设备及存储介质
Ye et al. SVision: A deep learning approach to resolve complex structural variants
Wang et al. Cnvabnn: an adaBoost algorithm and neural networks-based detection of copy number variations from NGS data
US20240177806A1 (en) Deep learning based method for diagnosing and predicting cancer type using characteristics of cell-free nucleic acid
Villuendas-Rey et al. Ant-based feature and instance selection for multiclass imbalanced data
CN117334252A (zh) 一种基于异亲图信息最大化的癌症驱动基因识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant