CN112270952B

CN112270952B - 一种识别癌症驱动通路的方法

Info

Publication number: CN112270952B
Application number: CN202011185104.6A
Authority: CN
Inventors: 朱凯; 吴璟莉; 李高仕
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-04-05
Anticipated expiration: 2040-10-30
Also published as: CN112270952A

Abstract

本发明公开了一种识别癌症驱动通路的方法，包括如下步骤：1）构造加权的非二进制突变矩阵；2）设定识别模型；3）设定适应度函数；4）设定交叉算子；5）设定变异算子；6）设定合作策略；7）设定参数；8）构造初始种群；9）执行迭代操作。这种方法可以提供更多有用信息，扩展性强，速率高，求解速度快，包含富集在重要驱动通路上的基因多。

Description

一种识别癌症驱动通路的方法

技术领域

本发明涉及癌症驱动通路识别领域，具体是一种识别癌症驱动通路的方法。

背景技术

随着深度测序技术的快速发展，近年来，癌症基因组图谱计划(The CancerGenome Atlas，简称TCGA)、国际肿瘤基因组协作组(the International Cancer GenomeConsortium，简称ICGC)等大规模的癌症工程，提供了大量癌症多组学数据。在过去的数项研究中，设计有效的计算方法来识别癌症发生过程中的“驱动突变”成为热点。然而，大多数方法都无法确定基因突变的异质性，即来自同一癌症的不同样本之间，得到的突变基因也可能不同。研究人员发现，不同的突变基因靶向同一生物通路几率很高，并且发现癌症的发展实质上是由生物通路控制。于是，有必要将观点从基因水平转移到通路水平，这对于捕获癌症中的异质现象至关重要。因此识别驱动通路的问题逐渐成为热点，该问题主要分为：单驱动通路识别、合作驱动通路识别以及泛癌驱动通路识别。

目前基于先验生物通路知识和从头识别方法识别癌症驱动通路是两种主要研究方法。由于当前可利用的先验知识不完备，并且存在生物数据噪声。因此，在不依赖任何现有背景知识的识别方法是不可或缺的，从头识别方法应运而生，本文主要针对该方法进行研究。在癌症突变的大多数组合模式下，研究人员发现两个基本特性。其一，突变驱动通路中的基因应覆盖大量癌症患者样本，即“高覆盖性”。其二，同一驱动通路中不同基因在同一样本以低概率共同突变，即“高互斥性”。基于以上两种特性。在2012年，首先基于这两个属性提出了一个权重函数，并将其最大化定义为最大权子矩阵问题，并用马尔可夫链蒙特卡洛MCMC方法来解决这个问题。同年，又提出了二进制线性规划算法和遗传算法GA，与MCMC相比GA更加具有时间上的优势，GA算法也很容易应用于解决他们提出的整合了基因表达谱的整合模型。2013年，通过整合体细胞突变，拷贝数变异和基因表达，提出了一种基于网络的方法iMCMC。2016年，设计了一种多目标优化算法MOGA，高覆盖范围和高互斥性之间的权衡使MOGA表现出更可靠的性能。在2019年，重新构造了最大权重子矩阵问题模型，通过使用路径中基因的平均权重来调节覆盖范围和互斥性。然后设计了单亲遗传算法PGA-MWS对该模型进行求解。在上述方法中，大多数方法都试图借助其他组学数据减轻突变数据中噪声的负面影响，并基于驱动程序路径的两个特征生成识别模型。尽管如此，在覆盖率和排他性的计算中通常只考虑突变数据，而其他组学数据则用于计算基因的权重以表明它们是否重要，这是很常见的。

因此需要一种新的组学整合方法对各个数据进行融合，而不是在计算驱动通路权重时将其分开计算，设计合理的计算模型对驱动通路进行权重计算，并且以往的算法在数据规模较大的情况下，效率并不是很高，因此设计一种更高效的算法对计算模型进行求解，以解决现有方法的不足。

发明内容

本发明的目的在于克服现有技术的不足，提供一种识别癌症驱动通路的方法。这种方法可以提供更多有用信息，扩展性强，速率高，求解速度快，包含富集在重要驱动通路上的基因多。

实现本发明目的的技术方案是：

一种识别癌症驱动通路的方法，包括如下步骤：

1)构造加权的非二进制突变矩阵：

现有某个癌症的体细胞突变矩阵

拷贝数变异矩阵

和基因表达矩阵

在体细胞突变矩阵

拷贝数变异矩阵

和基因表达矩阵

三个矩阵中行表示一种癌症的相同样本集p，列分别表示基因集G_S、G_C和G_E，在矩阵

中，s_ij∈{0,1}(i＝1,2,…,|p|,j＝1,2,…,|G_S|)，i样本中j基因突变，s_ij值为1，反之值为0；矩阵

中每个元素c_ij∈{-2,-1,0,1,2}(i＝1,2,…,|p|,j＝1,2,…,|G_C|)，表示i样本中j基因拷贝数变异值；在矩阵

中e_ij∈R(i＝1,2,…,|p|,j＝1,2,…,|G_E|)，表示i样本中j基因表达量；令矩阵

中的基因集G_A＝G_S∪G_C，样本集为p，令

a_ij∈{0,1}(i＝1,2,…,|p|,j＝1,2,…,|G_A|)，其中

为突变矩阵，当s_ij取值为1或i样本中j基因处于统计显著变异区域时，a_ij值为1，反之值为0，为了进一步整合突变矩阵

和表达矩阵

在突变矩阵

和基因表达矩阵

中取基因集G＝G_A∩G_E，重新得到两个矩阵A_|p|×|G|和E_|p|×|G|，对于基因表达数据，存在正常样本表达矩阵N_|n|×|G|，n表示正常样本，在矩阵N_|n|×|G|中，n_ij∈R(i＝1,2,…,|p|,j＝1,2,…,|G|)，表示i样本中j基因表达量，令差异倍数矩阵D_|p|×|G|，d_ij∈R(i＝1,2,…,|p|,j＝1,2,×,|G|)，表示i样本中j基因表达量相比j基因在正常样本中表达量的差异倍数用

表示，其中

则d_ij值为

否则d_ij值为0，处理好差异倍数矩阵D_|p|×|G|，进一步对突变矩阵A_|p|×|G|进行加权处理，整合成加权突变矩阵，对于A_|p|×|G|，如果a_ij＝1，并且d_ij≥λ₁，则a_ij＝1.5，如果a_ij＝0，并且d_ij≥λ₂，则a_ij＝(2·l)^-1·d_ij，其中λ₁和λ₂是截取差异倍数的阈值，l是j基因对应所有样本中差异倍数的最大值，针对突变基因，λ₁取较低值，使a_ij∈{1,1.5}，以提高该突变基因的突变可信值；针对不突变基因，λ₂取较高值，使a_ij∈[0,0.5]，以提高该不突变基因的突变可信值，使其可能成为潜在基因，经过加权重新得到加权突变矩阵A_|p|×|G|，a_ij∈[0,1.5](i＝1,2,…,|p|,j＝1,2,…,|G|)；

2)设定识别模型：

针对加权突变矩阵A_|p|×|G|，基于高覆盖和高互斥两个特性，重新构建新的整合模型，假设M_|p|×k为矩阵A_|p|×|G|的任一子矩阵，令Γ(m)＝{m_i|m_i＝max{a_im|m∈M},i＝1,2,…,|p|}记录矩阵M_|p|×k每行中最大权值，令矩阵M的覆盖度

对于矩阵M_|p|×k中一行的互斥度，考虑这一行的离散程度，用变异系数计算每行的互斥度，每行互斥度之和为整个M_|p|×k的互斥度，具体表示如公式(1)所示：

其中

当

趋近于0值时，对于变异系数值影响很大，如果矩阵M_|p|×k中一行的最大权值m_i≤0.5，则令该行的互斥度为

放缩该行互斥度，避免该行互斥度过高对通路识别造成影响，根据

和公式(1)，对整合数据后的最大权重子矩阵问题重新定义模型：给定突变加权矩阵A_|p|×|G|和正整数k(k＜|G|)，在矩阵A_|p|×|G|中确定矩阵M_|p|×k，使函数值W(M)最大，如公式(2)所示：

W(M)＝α(M)+ω(M) (2)，

其中α(M)表示矩阵M_|p|×k的覆盖度，α(M)由M_|p|×k中每行最大突变权值相加得到，α(M)越大表示覆盖样本越多，并且突变可信值也越大；ω(M)表示矩阵M_|p|×k的互斥度，ω(M)由矩阵M_|p|×k中每行变异系数值相加得到，变异系数越大，则离散程度越高，其互斥度就越大；

3)设定适应度函数：

每个染色体对应一个问题解，因此需要对该解进行评估，给定染色体X_i(i＝1，2，…P)，P为种群大小，适应度函数Fitness(X_i)的定义如公式(3)所示：

其中，

表示染色体X_i对应的子矩阵；

4)设定交叉算子：

交叉算子，决定了GA算法的全局搜索能力，因此保证种群多样性，能有效提高搜索能力，本技术方案方法按照染色体适应度从大到小，给染色体X_i一个排名R_i，则每个染色体被选中的概率如公式(4)所示：

为了保证染色体的可行性，采用轮盘赌随机从父种群选取两条染色体，重复基因分别给子代的两条染色体，剩余基因放在一个集合，采用均匀交叉的方式，对于剩余基因集合中连续的每对基因，随机生成一个二值数据，如果该二值数据为1，则这对基因的第一个基因放入第一条子染色体，第二个基因放入第二条子染色体，反之，第一个基因放入第二条子染色体，第二个基因放入第一条子染色体，经过一次交叉，生成两个子染色体；

5)设定变异算子：

给定一条子染色体X＝{x₁，x₂，…，x_k}(x_i＝1，2，…，|G|)，确定候选基因集合

从子染色体中随机删除一个基因，得到基因集X′，将H_X中基因顺序打乱，遍历前

个基因，选出基因g，使适应值Fitness(M_X′∪{g})最大，对应于子矩阵M_X′∪{g}的基因集X′∪{g}为新子染色体，即X＝X′∪{g}；

6)设定合作策略：

采用种群间相互合作策略，在种群交叉、变异和选择操作后，比较两个种群适应度最好的染色体和对方适应度最差的染色体，如果最好适应度高于对方最差适应度，则将该条染色体替换对方适应度最差的染色体；

7)设定参数：

输入加权的非二进制突变矩阵A_|p|×|G|，公式(2)中的模型，参数k用于限制找到的驱动通路大小，然后输入CGA-MWS相关参数：种群规模P、变异概率P_m、最大演化代数maxstep、最优值保持恒定的阈值maxt；

8)构造初始种群：

染色体编码采用十进制编码方式，一个解为k个基因构成的集合，即X＝{x₁，x₂，…，x_k}(x_i＝1，2，…，|G|)，将|G|个基因顺序随机打乱，然后取前k个基因构成初始染色体，生成两个初始种群pop₀和pop₁，每个种群大小为P/2，计算两个种群各自染色体的适应值，将pop₀和pop₁中各自最优的染色体相比较，保存最好的个体到变量best中，初始迭代次数step＝0，最优值保持恒定的代数t＝0；

9)执行迭代操作：

(1)若step＞max step或t＞maxt，转入步骤9)的(4)，得到大小为k的驱动通路，否则转入步骤9)的(2)；

(2)种群pop₀和pop₁各自通过基于排名的概率，采用轮盘赌随机选两条父代染色体，通过交叉算子进行交叉，生成两条子染色体，并各自放入子种群pop₀′和pop₁′中，重复P/4次，针对子种群pop₀′和pop₁′，对每条染色体随机一个突变概率P_m′，如果P_m′＜P_m，则对该条染色体进行变异操作，将变异操作中得到的适应值最高的染色体替换该条染色体，将pop₀和pop₀′里所有染色体按适应值从高到低排序，取前P/2条染色体放入下一代种群pop_step+1中，pop₁和pop₁′进行相同操作得到下一代种群pop_step+2；

(3)对种群pop_step+1和pop_step+2进行合作策略操作，比较两个种群的最优适应值，取两者中适应值最高的染色体，若该染色体适应值大于best染色体的适应值，则更新best染色体，t＝0；否则t＝t+1，step＝step+1，返回步骤9)的(1)；

(4)将best染色体转换为基因集，由此得到子矩阵M，并子矩阵M其输出，输出的子矩阵M即为大小为k的驱动通路。

本技术方案具有以下优点：

(1)新的多组学数据融合方法，整合了组学数据之间的特点，可提供更多有用信息。

(2)新的模型可针对非二元矩阵进行模型求解，更具有扩展性。

(3)新的识别算法，对大规模数据，有更高效的速率，可更快对模型进行求解。

(4)整个方法找出的单癌种驱动通路，包含更多富集在同一个通路的基因。

这种方法可以提供更多有用信息，扩展性强，速率高，求解速度快，富集在重要驱动通路上的基因多。

附图说明

图1为实施例1中胶质母细胞瘤GBM，驱动通路规模为3时运行图；

图2为实施例2中胶质母细胞瘤GBM，驱动通路规模为10时运行图；

具体实施方式

下面结合附图和实施例对本发明做进一步阐述，但不是对本发明的限定。

本例针对单驱动通路识别问题进行阐述。

实施例1：

一种识别癌症驱动通路的方法，包括如下步骤：

1)构造加权的非二进制突变矩阵：

现有胶质母细胞瘤GBM体细胞突变矩阵

拷贝数变异矩阵

和基因表达矩阵

中突变矩阵

拷贝数变异矩阵

和基因表达矩阵

中行表示一种癌症的相同样本集p，列分别表示基因集G_S、G_C和G_E，在矩阵

中，s_ij∈{0，1}(i＝1，2，…，|p|，j＝1，2，…，|G_S|)，i样本中j基因突变，s_ij值为1，反之值为0；矩阵

中每个元素c_ij∈{-2，-1，0，1，2}(i＝1，2，…，|p|，j＝1，2，…，|G_C|)，表示i样本中j基因拷贝数变异值；在矩阵

中e_ij∈R(i＝1，2，…，|p|，j＝1，2，…，|G_E|)，表示i样本中j基因表达量；令矩阵

中的基因集G_A＝G_S∪G_C，样本集为p，令

a_ij∈{0，1}(i＝1，2，…，|p|，j＝1，2，…，|G_A|)，其中

和表达矩阵

中突变矩阵

和表达矩阵

中取基因集G＝G_A∩G_E，重新得到两个矩阵A_|p|×|G|和E_|p|×|G|，对于基因表达数据，存在正常样本表达矩阵N_|n|×|G|，n表示正常样本，在矩阵N_|n|×|G|中，n_ij∈R(i＝1，2，…，|p|，j＝1，2，…，|G|)，表示i样本中j基因表达量，令差异倍数矩阵D_|p|×|G|，d_ij∈R(i＝1，2，…，|p|，j＝1，2，…，|G|)，表示i样本中j基因表达量相比j基因在正常样本中表达量的差异倍数用

表示，其中

则d_ij值为

否则d_ij值为0，处理好差异倍数矩阵D_|p|×|G|，进一步对突变矩阵A_|p|×|G|进行加权处理，整合成加权突变矩阵，对于A_|p|×|G|，如果α_ij＝1，并且d_ij≥λ₁，此时λ₁＝3，则a_ij＝1.5，如果a_ij＝0，并且d_ij≥λ₂，此时λ₂＝7，则a_ij＝(2·l)^-1·d_ij，其中λ₁和λ₂是截取差异倍数的阈值，l是j基因对应所有样本中差异倍数的最大值，针对突变基因，λ₁取较低值，使a_ij∈{1，1.5}，以提高该突变基因的突变可信值；针对不突变基因，λ₂取较高值，使a_ij∈[0，0.5]，以提高该不突变基因的突变可信值，使其可能成为潜在基因，经过加权重新得到加权突变矩阵A_|p|×|G|，a_ij∈[0，1.5](i＝1，2，…，|p|，j＝1，2，…，|G|)，其中|p|＝90，|G|＝920；

2)设定识别模型：

针对加权突变矩阵A_|p|×|G|，基于高覆盖和高互斥两个特性，重新构建新的整合模型，假设M_|p|×k为矩阵A_|p|×|G|的任一子矩阵，令Γ(m)＝{m_i|m_i＝max{a_im|m∈M}，i＝1，2，…，|p|}记录矩阵M_|p|×k每行中最大权值，令矩阵M的覆盖度

其中

当

放缩该行互斥度，避免该行互斥度过高对通路识别造成影响，根据的

W(M)＝α(M)+ω(M) (2)，

其中α(M)表示矩阵M_|p|×k的覆盖度，α(M)由M_|p|×k中每行最大突变权值相加所得，α(M)越大表示覆盖样本越多，并且突变可信值也越大；ω(M)表示矩阵M_|p|×k的互斥度，ω(M)由矩阵M_|p|×k中每行变异系数值相加所得，变异系数越大，则离散程度越高，其互斥度就越大；

3)设定适应度函数：

其中，

表示染色体X_i对应的子矩阵；

4)设定交叉算子：

交叉算子，决定了GA算法的全局搜索能力，因此保证种群多样性，能有效提高搜索能力，本例方法按照染色体适应度从大到小，给染色体X_i一个排名R_i，则每个染色体被选中的概率如公式(4)所示：

为了保证染色体的可行性，采用轮盘赌随机从父种群选取两条染色体，重复基因分别给子代的两条染色体，剩余基因放在一个集合，采用均匀交叉的方式，对于剩余基因集合中连续的每对基因，随机生成一个二值数据，如果该二值数据值为1，则这对基因的第一个基因放入第一条子染色体，第二个基因放入第二条子染色体，反之，第一个基因放入第二条子染色体，第二个基因放入第一条子染色体，经过一次交叉，生成两个子染色体；

5)设定变异算子：

6)设定合作策略：

7)设定参数：

输入加权的非二进制突变矩阵A_|p|×|G|，其中|p|＝90，|G|＝920，公式(2)中的模型，参数k＝3用于限制找到的驱动通路大小，然后输入CGA-MWS相关参数：种群规模P＝460、变异概率P_m＝0.3、最大演化代数maxstep＝1000、最优值保持恒定的阈值maxt＝10；

8)构造初始种群：

染色体编码采用十进制编码方式，一个解为k＝3个基因构成的集合，即X＝{x₁，x₂，…，x_k}(x_i＝1，2，…，|G|)，将|G|＝920个基因顺序随机打乱，然后取前k＝3个基因构成初始染色体，生成两个初始种群pop₀和pop₁，每个种群大小为230，计算两个种群各自染色体的适应值，将pop₀和pop₁中各自最优的染色体相比较，保存最好的个体到变量best中，初始迭代次数step＝0，最优值保持恒定的代数t＝0；

9)执行迭代操作：

(1)若step＞max step或t＞maxt，转入步骤9)的(4)，得到大小为k＝3的驱动通路，否则转入步骤9)的(2)；

(4)将best染色体转换为基因集，由此得到子矩阵M，并子矩阵M其输出，输出的子矩阵M即为大小为k＝3的驱动通路，运行图如图1所示。

实施例2：

本例步骤1)中设定λ₁＝3和λ₂＝7，构造加权非二进制突变矩阵A_|p|×|G|，其中|p|＝90，|G|＝920；

本例步骤7)输入加权的非二进制突变矩阵A_|p|×|G|，其中|p|＝90，|G|＝920，公式(2)中的模型，需要寻找的驱动通路大小k＝10，CGA-MWS相关参数，设置种群规模P＝460、变异概率P_m＝0.3、最大演化代数maxstep＝1000、最优值保持恒定的阈值maxt＝10；

本例步骤9)得到大小为k＝10的驱动通路，运行图如图2所示。

其余步骤同实施例1。

Claims

1.一种识别癌症驱动通路的方法，其特征在于，包括如下步骤：

1)构造加权的非二进制突变矩阵：

现有某个癌症的体细胞突变矩阵

拷贝数变异矩阵

和基因表达矩阵

在体细胞突变矩阵

拷贝数变异矩阵

和基因表达矩阵

三个矩阵中行表示该癌症的相同样本集p，列分别表示基因集G_S、G_C和G_E，在矩阵

中的基因集为G_A＝G_S∪G_C，样本集为p，令

a_ij∈{0,1}(i＝1,2,…,|p|,j＝1,2,…,|G_A|)，其中

和表达矩阵

在突变矩阵

和表达矩阵

中取基因集G＝G_A∩G_E，重新得到两个矩阵A_|p|×|G|和E_|p|×|G|，对于基因表达数据，存在正常样本表达矩阵N_|n|×|G|，n表示正常样本，在矩阵N_|n|×|G|中，n_ij∈R(i＝1,2,…,|p|,j＝1,2,…,|G|)，表示i样本中j基因表达量，令差异倍数矩阵D_|p|×|G|，d_ij∈R(i＝1,2,…,|p|,j＝1,2,…,|G|)，表示i样本中j基因表达量相比j基因在正常样本中表达量的差异倍数用

表示，其中

则d_ij值为

2)设定识别模型：

针对加权突变矩阵A_|p|×|G|，基于高覆盖和高互斥两个特性，重新构建新的整合模型，假设M_|p|×k为矩阵A_|p|×|G|的任一子矩阵，令Γ(m)＝{m_i|m_i＝max{a_im|m∈M},i＝1,2,…,|p|}记录矩阵M_|p|×k每行中最大权值，令矩阵M_|p|×k的覆盖度

其中

当

趋近于0值时，对于变异系数值影响很大，所以如果M_|p|×k中一行的最大权值m_i≤0.5，则令该行的互斥度为

W(M)＝α(M)+ω(M) (2)，

其中α(M)表示矩阵M_|p|×k的覆盖度，α(M)由矩阵M_|p|×k中每行最大突变权值相加所得，α(M)越大表示覆盖样本越多，并且突变可信值也越大；ω(M)表示矩阵M_|p|×k的互斥度，ω(M)由M中每行变异系数值相加所得，变异系数越大，则离散程度越高，其互斥度就越大；

3)设定适应度函数：

每个染色体对应一个问题解，因此需要对该解进行评估，给定染色体X_i(i＝1,2,…P)，P为种群大小，适应度函数Fitness(X_i)的定义如公式(3)所示：

其中，

表示染色体X_i对应的子矩阵；

4)设定交叉算子：

按照染色体适应度从大到小，给染色体X_i一个排名R_i，则每个染色体被选中的概率如公式(4)所示：

为了保证染色体的可行性，采用轮盘赌随机从父种群选取两条染色体，重复基因分别给子代的两条染色体，剩余基因放在一个集合，采用均匀交叉的方式，对于剩余基因的集合中连续的每对基因，随机生成一个二值数据，如果该二值数据为1，则这对基因的第一个基因放入第一条子染色体，第二个基因放入第二条子染色体，反之，第一个基因放入第二条子染色体，第二个基因放入第一条子染色体，经过一次交叉，生成两个子染色体；

5)设定变异算子：

给定一条子染色体X＝{x₁,x₂,…,x_k}(x_i＝1,2,…,|G|)，确定候选基因集合

6)设定合作策略：

7)设定参数：

输入加权的非二进制突变矩阵A_|p|×|G|和公式(2)中的模型，参数k用于限制找到的驱动通路大小，然后输入CGA-MWS相关参数：种群规模P、变异概率P_m、最大演化代数maxstep、最优值保持恒定的阈值maxt；

8)构造初始种群：

染色体编码采用十进制编码方式，一个解为k个基因构成的集合，即X＝{x₁,x₂,…,x_k}(x_i＝1,2,…,|G|)，将|G|个基因顺序随机打乱，然后取前k个基因构成初始染色体，生成两个初始种群pop₀和pop₁，每个种群大小为P/2，计算两个种群各自染色体的适应值，将pop₀和pop₁中各自最优的染色体相比较，保存最好的个体到变量best中，初始迭代次数step＝0，最优值保持恒定的代数t＝0；

9)执行迭代操作：

(1)若step＞maxstep或t＞maxt，转入步骤9)的(4)，得到大小为k的驱动通路，否则转入步骤9)的(2)；