CN112712851A - 一种基于递归社区检测的癌症驱动模块预测方法 - Google Patents
一种基于递归社区检测的癌症驱动模块预测方法 Download PDFInfo
- Publication number
- CN112712851A CN112712851A CN202110051412.8A CN202110051412A CN112712851A CN 112712851 A CN112712851 A CN 112712851A CN 202110051412 A CN202110051412 A CN 202110051412A CN 112712851 A CN112712851 A CN 112712851A
- Authority
- CN
- China
- Prior art keywords
- module
- cancer
- network
- gene
- modules
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明生物信息学领域,公开了一种基于递归社区检测的癌症驱动模块预测方法,通过过滤和筛选处理突变数据,结合数据构建网络,在目标网络进行加权方案的设定和计算。接着采取递归社区检测的方法进行癌症驱动模块的初步划分。然后对划分后的网络重新构建,基于大小和连通性标准划分种子叶子模块对子网络进行拆分扩展,最终获得癌症驱动模块的集合。本发明实现了对癌症驱动模块的有效预测,具有十分重要的推广应用价值。
Description
技术领域
本发明涉及一种基于递归社区检测的癌症驱动模块预测方法,属于生物信息学领域。
背景技术
癌症是一种基因组疾病,随着高通量测序技术的迅速发展,对肿瘤的体细胞突变进行大 规模测量成为了可能,产生了大量的癌症基因组数据。破译这些数据给生物信息学带来了巨 大的机遇和挑战。其中一个关键挑战是区分驱动突变、基因以及乘客的通路。癌症基因组学 研究的目标是识别所有与癌症相关的基因,并对其在癌症发生和发展中的作用进行可靠的解 释。同时,泛癌数据的收集为阐明不同癌症类型的共同特征创造了机会。生物学通路和网络 信息,促进了癌症驱动突变通路的检测。
目前生物信息学识别癌症驱动模块的方法主要有三类:一是使用公共数据库中已知癌症 通路的方法,由于该类方法是基于已知的癌症通路而进行的,因此不能用来预测新的癌症通 路,并且忽略了不同通路之间的串联的扰动,基本运用于解释和评估基因列表。二是基于网 络的方法,该类方法通过整合不同类型相互作用的大型生物网络来分析整个网络中的相互作 用。然而,这种方法会破坏特定的肿瘤表型,导致很难在不同的癌症特征中分离出组织特异 性特征。最后一类方法结合了网络分析和突变的融合方法,可以在不使用任何先验知识的情 况下以无偏见的方式筛选出候选癌症基因和通路。因此,有必要发明一种将多个数据源结合 起来,可以改进对癌症基因组数据的预测和解释的识别癌症驱动模块的方法,即基于递归社 区检测来预测癌症的驱动模块的方法,该方法既结合了多种形式的连接信息,又考虑到网络 连通性和疾病驱动模块的互斥与覆盖特性,来识别癌症驱动模块,提高正常和肿瘤病例分类 的准确性。
发明内容
针对上述问题,本发明提供一种基于递归社区检测的癌症驱动模块预测方法。
为了实现上述目的,本发明的解决方案是:
第一步、数据的预处理:可用样本的体细胞突变数据和PPI网络数据作为输入数据。首 先,对体细胞突变数据进行预处理,去除所有肿瘤类型中高突变和低表达的基因,然后,计 算基因gi的突变频率,计算方法是对于基因gi至少有一个单核苷酸变异或拷贝数变异的样本 数除以所有样本的数目。
第二步、用输入数据构造网络:设Si为突变基因gi的样本集,对于PPI网络G=(V,E), 其中每个顶点ui(ui∈V)表示一个基因gi产生的相应蛋白质,每个无向边=(ui,uj)∈E表示与 基因gi、gj相对应的蛋白质之间的相互作用。定义集合表示包含一组基因的模块, 结合互斥性和覆盖性,M的相互分数覆盖分数
第三步、构造加权的目标网络:构造有向加权图Gw,包含顶点和边的权值。对每个顶点 gi(gi∈V)分配权重,权重对应基因的突变频率,对于每条边,(gi,gj)表示为无向边,在两个方 向生成有向边,分别为[gi,gj]和[gj,gi]。定义W′(gi,gj)为无向边(gi,gj)的权重,有向边[gi,gj] 的权重为W[gi,gj]。先在顶点邻域内计算互斥性分数,N(gi)表示gi的闭邻域, 互斥性对权重的影响分数MEXn(gi,gj)取MEX(N(gi))和MEX(N(gj))的 平均数。计算无向边(gi,gj)的权重,w’(gi,gj)=MEXn(gi,gj)×CO({gi})×CO({gj}),互斥 性对权重的影响分数作为一个乘积计算,以减少单个基因在较大覆盖范围内影响入射边权重 的机会,并且计算gi上所有入射边的权重,得到
第四步、癌症驱动模块的预测:对于构造好的网络Gw,运用递归的Louvain社区检测算 法。递归的Louvain社区检测算法RL(Recursive Louvain)用python社区检测的Louvain 方法作为基本模块,先在Gw上调用Louvain社区检测,然后对子社区进行判断,如果子社区 包含10个以上的节点,就把该子社区作为原始网络的子图再次调用Louvain社区检测。直到 所有的子社区都被分解成10个或10个以下的基因,或者在三个以上的社区中发现了同一个 基因,获得Gd。然后进行精确的癌症驱动模块的预测,把Gd中的强连接组件(SCCs)作为基础 元件。创建一组初始的候选模块,迭代地从Gd中删除最小权值边,将Gd的SCCs添加到初始 模块集P中,从P中删除所有小于min_size的模块,直到P中的基因总数减少到total_genes。 把导出子图中的任意顶点的最大输出度定义为split_size,对大于split_size的初始候选 模块Mq都进行拆分,输出度小于min_size的组件为叶子模块,而在这两种大小之间的其他 组件作为种子模块。提取满足大小和连通性标准的种子模块,用小叶子模块扩展它们。在扩 展阶段,取叶子模块与种子模块合并,使得种子模块在Gd(Mq)中具有最大的连接数,获得模 块集合P,即癌症驱动模块的集合。
本发明的有益效果是:提供了一种癌症驱动模块的预测方法,有效提出了基于递归社区 检测的癌症驱动模块预测方法,运用了社区检测并结合互斥性与覆盖性和网络连接性来识别 癌症驱动模块,并且在恢复已知癌症基因(包括罕见突变的基因)、富集特定癌症类型的方面 表现优异。本发明借助基于拓扑结构的模块检测方法,有效减少了复杂生物网络内未知关联 对癌症驱动模块识别工作的干扰和影响。
附图说明
图1为本发明“一种基于递归社区检测的癌症驱动模块预测方法”的整体框架示意图。
具体实施方式
本发明提供一种基于递归社区检测的癌症驱动模块方法,如图1所示,样本突变数据和PPI 网络数据作为输入,通过数据处理,构造癌症驱动基因网络,预测癌症驱动模块,获得癌症 驱动模块的集合。
下面结合实例描述本发明的具体实施步骤:
1、原始突变数据处理:
首先,对TCGA中的体细胞突变数据进行预处理,去除所有肿瘤类型中高表达和 低表达的基因,筛选后的数据集中包含了3110份样本中11565个基因的体细胞突变 数据。然后,用在基因gi上至少有一个单核苷酸变异或拷贝数变异的样本数除以所有 样本的数目,计算出基因gi的突变频率,用于构造网络:
2、构造癌症驱动基因网络:
对PPI网络G=(V,E),每个顶点ui∈V表示一个基因gi在网络中产生相应的蛋白质,每个无向边(ui,uj)∈E表示对应于基因gi、gj的蛋白质之间的相互作用,设Si是突 变基因gi的样本集合。构造一个有向加权图Gw,包含顶点和边的权值。给每个顶点gi∈V分配权重,w(gi)=CO({gi}),权重对应基因的突变频率,对于每条边(gi,gj)表示为 无向边,在两个方向生成有向边,分别为[gi,gj]和[gj,gi]。边[gi,gj]的权重表示为 W[gi,gj],反映有向边[gi,gj]的权重。
然后,在顶点邻域内计算互斥性分数,N(gi)表示gi的闭邻域,即 表示包含一组基因的模块,定义M的相互分数 覆盖分数互斥排他性对权重的贡献MEXn(gi,gj)取 MEX(N(gi))和MEX(N(gj))的平均数。计算无向边(gi,gj)的权重,w’(gi,gj)= MEXn(gi,gj)×CO({gi})×CO({gj}),其中互斥性对权重的贡献作为一个乘积计算, 以减少单个基因在较大覆盖范围内影响入射边权重的机会。计算gi上所有入射边的权 重,得到
3、预测癌症驱动模块:
首先,初步的癌症模块预测,运用递归的Louvain社区检测算法,先对构造好的 网络Gw运行Louvain社区检测,对获得的子社区进行判断,对于未达到目标大小的子 社区继续调用Louvain社区检测。如果子社区包含10个以上的节点,就提取相应的 网络作为原始网络的子图将其添加到网络列表中,对列表中的子图递归的调用 Louvain社区检测,直到所有的社区都被分解成包含10个或更少基因的社区,或在 三个以上的社区中发现同一个基因,从而获得Gd。
然后,进行进一步的癌症驱动模块的预测,把Gd中的强连接组件(SCCs)作为基础元件。创建一组初始的候选模块,迭代地从Gd中删除最小权值边,将Gd的SCCs添加 到初始模块集P中,从P中删除所有小于min_size的模块,直到P中的基因总数减 少到total_genes。把导出子图中的任意顶点的最大输出度定义为split_size,对输 出度大于split_size的初始候选模块Mq进行拆分和扩展,输出度小于min_size的 组件作为叶子模块,而位于这两种大小之间的其他组件作为种子模块。提取满足大小 和连通性标准的种子模块,用叶子模块扩展它们。在扩展阶段,叶模块与种子模块合 并,使得种子模块在Gd(Mq)中具有最大的连接数,获得模块输出集P,即癌症驱动模 块的集合。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围 的限制。参照该实施例的说明,本领域的普通技术人员应该可以理解并对本发明的技术方案 进行相关的修改或替换,而不脱离本发明的实质和范围。
Claims (4)
1.一种基于递归社区检测的癌症驱动模块预测方法,其特征在于:
(1)对可用样本的突变数据和PPI网络数据进行预处理,预处理包括去除所有肿瘤类型中高突变和低表达的基因和计算基因gi的突变频率;
(2)对突变数据和PPI网络数据预处理后,构造癌症驱动基因网络,结合互斥性和覆盖性构造有向加权网络;
(3)对构造好癌症突变基因网络调用递归的Louvain社区检测算法,初步预测癌症驱动模块,然后用连通性原理,对预测模块利进行拆分和扩展,获得癌症驱动模块的预测结果;
2.根据权利要求1所述的基于递归社区检测的癌症驱动模块预测方法,其特征在于,本方法在数据预处理阶段:
(1)对体细胞突变数据进行预处理,去除所有肿瘤类型中高突变和低表达的基因,获得筛选后的数据;
(2)计算基因突变频率,对于基因gi,用在基因gi上至少有一个单核苷酸变异或拷贝数变异的样本数除以所有样本的数目;
3.根据权利要求1所述的基于递归社区检测的癌症驱动模块预测方法,其特征在于本方法在构造目标网络阶段:
(1)对PPI网络G=(V,E),设Si是突变基因gi的样本集,每个顶点ui∈V表示一个基因gi在网络中产生相应的蛋白质,每个无向边(ui,uj)∈E表示对应于基因gi、gj的蛋白质之间的相互作用;
4.根据权利要求1所述的基于递归社区检测的癌症驱动模块预测方法,其特征在于本方法在预测癌症驱动模块阶段:
(1)对构造好癌症突变基因网络运用递归的Louvain社区检测算法,具体的,先对构造好的网络Gw调用Louvain社区检测,然后对获得的子社区进行判断,对于未达到目标大小的子社区,提取它作为原始网络的子图并将其添加到网络列表中,对列表中的子图递归的再次调用Louvain,直到所有的社区都被分解成10个或更少的基因,或者在三个以上的社区中发现了同一个基因,从而获得Gd;
(2)进行进一步癌症驱动模块的预测,把Gd中的强连接组件(SCCs)作为基础元件,创建一组初始的候选模块,迭代地从Gd中删除最小权值边,将Gd的SCCs添加到初始模块集P中,从P中删除所有小于min_size的模块,直到P中的基因总数减少到total_genes;把导出的任意子图中任意顶点的最大输出度定义为split_size,任何输出度大于split_size的初始候选模块Mq都进行拆分;模块规模小于min_size的组件作为叶子模块,而位于这两种大小之间的其他组件为种子模块;提取满足一定大小和连通性标准的种子模块,用小叶子模块扩展它们;在扩展阶段,取每个叶模块与种子模块合并,使得种子模块在Gd(Mq)中具有最大的连接数,获得最终的模块集合P,即癌症驱动模块的集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110051412.8A CN112712851A (zh) | 2021-01-15 | 2021-01-15 | 一种基于递归社区检测的癌症驱动模块预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110051412.8A CN112712851A (zh) | 2021-01-15 | 2021-01-15 | 一种基于递归社区检测的癌症驱动模块预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112712851A true CN112712851A (zh) | 2021-04-27 |
Family
ID=75549061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110051412.8A Pending CN112712851A (zh) | 2021-01-15 | 2021-01-15 | 一种基于递归社区检测的癌症驱动模块预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112712851A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170017749A1 (en) * | 2015-07-15 | 2017-01-19 | International Business Machines Corporation | System and method for identifying cancer driver genes |
CN107924384A (zh) * | 2015-03-11 | 2018-04-17 | 阿雅斯迪公司 | 用于使用预测学习模型预测结果的系统和方法 |
-
2021
- 2021-01-15 CN CN202110051412.8A patent/CN112712851A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107924384A (zh) * | 2015-03-11 | 2018-04-17 | 阿雅斯迪公司 | 用于使用预测学习模型预测结果的系统和方法 |
US20170017749A1 (en) * | 2015-07-15 | 2017-01-19 | International Business Machines Corporation | System and method for identifying cancer driver genes |
Non-Patent Citations (3)
Title |
---|
MATTHEW H. BAILEY ET AL.: "Comprehensive Characterization of Cancer Driver Genes and Mutations", 《ELSEVIER》 * |
郭炳等: "一种基于突变基因网络的癌症驱动通路识别算法", 《计算机科学》 * |
陈恺等: "系统生物学在癌症预测、预防和个体化治疗中的潜在应用价值", 《解放军预防医学杂志》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Unsupervised embedding of single-cell Hi-C data | |
Bu et al. | Topological structure analysis of the protein–protein interaction network in budding yeast | |
Zhang et al. | Identification of functional modules in a PPI network by clique percolation clustering | |
Chan et al. | Using growing self-organising maps to improve the binning process in environmental whole-genome shotgun sequencing | |
Mourad et al. | A hierarchical Bayesian network approach for linkage disequilibrium modeling and data-dimensionality reduction prior to genome-wide association studies | |
Jeong et al. | PRIME: a probabilistic imputation method to reduce dropout effects in single-cell RNA sequencing | |
CN113178230A (zh) | 三维基因组Hi-C数据中TAD嵌套结构检测方法及系统 | |
Liu et al. | The impact of protein interaction networks’ characteristics on computational complex detection methods | |
Tran et al. | Omics-based deep learning approaches for lung cancer decision-making and therapeutics development | |
Kavran et al. | Denoising large-scale biological data using network filters | |
CN112259163B (zh) | 基于生物网络和亚细胞定位数据识别癌症驱动模块方法 | |
CN113808669A (zh) | 一种宏基因组序列组装方法 | |
Yuan et al. | Self-organizing maps for cellular in silico staining and cell substate classification | |
Pfeifer et al. | Network module detection from multi-modal node features with a greedy decision forest for actionable explainable AI | |
CN112712851A (zh) | 一种基于递归社区检测的癌症驱动模块预测方法 | |
CN115410642A (zh) | 一种生物关系网络信息建模方法与系统 | |
Zhang et al. | A hybrid graph-theoretic method for mining overlapping functional modules in large sparse protein interaction networks | |
Lian et al. | Decomposing protein interactome networks by graph entropy | |
Curtis et al. | Estimation of recent ancestral origins of individuals on a large scale | |
Arasteh et al. | Community detection in complex networks using a new agglomerative approach | |
Roper et al. | Vis-SPLIT: Interactive Hierarchical Modeling for mRNA Expression Classification | |
Nafar et al. | Data mining methods for protein-protein interactions | |
Peng et al. | Inferring single-molecule chromatin interactions via online convex network dictionary learning | |
Tallman et al. | Whole genomes from Angola and Mozambique inform about the origins and dispersals of major African migrations | |
Tanevski et al. | Learning tissue representation by identification of persistent local patterns in spatial omics data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210427 |
|
WD01 | Invention patent application deemed withdrawn after publication |