CN114566211A

CN114566211A - 基于生物网络与机器学习的合成致死基因组合预测系统

Info

Publication number: CN114566211A
Application number: CN202210246301.7A
Authority: CN
Inventors: 刘闯; 舒胜利; 詹秀秀; 张子柯
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-05-31
Anticipated expiration: 2042-03-14
Also published as: CN114566211B

Abstract

本发明公开了基于生物网络与机器学习的合成致死基因组合预测系统。本发明包括数据采集和预处理模块、特征工程模块、模型算法设计模块、结果评估模块。数据采集和预处理模块包括数据采集、构建基因网络和数据预处理三个子任务，为后续预测任务提供数据基础。特征工程模块提取的特征包基因对网络特征和生物特征；特征提取后，对特征进行相应的统计学分析。模型算法设计模块包括构造训练样本、预测模型设计。结果评估模块是通过绘制ROC曲线和PR曲线，验证模型的预测效果。本发明从数据挖掘的角度研究合成致死基因组合，通过特征整合与处理等方法实现合成致死基因组合的预测。本发明对潜在合成致死基因组合进行预测，加深了对癌症靶向药物的认识。

Description

基于生物网络与机器学习的合成致死基因组合预测系统

技术领域

本发明属于数据分析领域，具体是肿瘤数据研究领域，涉及一种基于生物网络与机器学习的合成致死基因组合预测系统。

背景技术

根据世界卫生组织下属的国际癌症研究机构发布的《2020年全球癌症负担状况估计报告》可知，随着全球人口的快速增长和人口老龄化的进一步加剧，全球癌症发病率和死亡率正在快速上升，癌症成为全球的重大公共卫生问题。癌症防治形势变得不容乐观，癌症的诊治方案和相关药物的研发也变得越发紧迫。

合成致死，指的是两个非必要基因的双突变造成细胞死亡，而两基因分别突变却不会对细胞生长有影响的生物学现象。在癌症的临床救治中，常用的治疗方法(如放疗和化疗等)对于人体体细胞毫无选择性，杀死癌细胞的同时也会对正常组织造成严重损害。在这样的情况下，利用合成致死现象的抗癌策略被提出来：如果一个基因的蛋白质产物与一个经常发生肿瘤特异性突变的基因具有合成致死作用，那么该蛋白质将是一个很好的抗癌药物靶点。事实上，基于合成致死的靶向治疗在临床上已经有了非常成功的案例，如基于BRCA1/2和PARP的合成致死作用而设计的奥拉帕利、尼拉帕利、帕米帕利等药物已经成功通过批准并成为乳腺癌治疗的特效药。由此可见，“利用合成致死原理设计靶向药从而治疗癌症”的观点成为药物研发和癌症治疗领域的一个重要突破，为癌症的新型治疗带来了曙光。

生物分子大多通过交互作用形成复杂的生物网络结构来发挥生物功能，借助复杂网络的背景可以为合成致死基因组合的识别提供一种全局的视角和全新的思路。肿瘤的形成来源于基因的突变带来的异常表达，基因网络能够很好的反映基因-基因之间的复杂关系；同时网络中以节点形式表示的基因有着不同细胞系背景下的特异性表达水平和表达模式，因此，将基因表达和基因突变信息融入到基因-基因网络中可以更好的揭示合成致死基因组合在整个基因网络中的特点。在再现合成致死基因组合在网络中的拓扑结构和表达属性的基础上，挖掘其背后的复杂作用机理及其功能信息，能够更好的完成合成致死基因组合的识别任务。

发明内容

本发明的目的在于消除生物实验的低效率，提供一种基于生物网络与机器学习的合成致死基因组合预测系统，整合基因网络数据、基因功能数据、基因突变和表达数据，在考虑不同类型肿瘤产生的生物学背景的情况下，引入节点对在网络中的结构性指标、节点对在网络中的表达模式属性，借助机器学习预测算法，发现合成致死基因组合。

本发明包括数据采集和预处理模块、特征工程模块、模型算法设计模块、结果评估模块，具体如下：

(1)数据采集和预处理模块包括数据采集、构建基因网络和数据预处理三个子任务，其中：

(1-1)数据采集：采集蛋白质相互作用关系数据、基因功能注释数据、不同癌症背景下的基因表达数据、基因突变数据、合成致死基因组合数据；

(1-2)构建基因网络：根据采集的蛋白质相互作用关系数据，构建基因网络G＝(V,E)；V表示节点集，节点代表编码蛋白的基因；E表示边集，边代表两个基因所编码蛋白质之间的相互作用关系；将得到的最大连通子图作为后续分析的基础，记为基因网络G′。

(1-3)数据预处理：对于采集的基因表达数据、基因突变数据和基因功能注释数据进行筛选，保留所有在基因网络G′中出现的基因信息；同时对采集的合成致死基因组合数据进行筛选，剔除所有不在基因网络G′中的合成致死基因组合，并且将同时标记为正负样本的基因组合剔除，剩下来的合成致死基因组合作为后续预测的样本来源。

(2)特征工程模块：提取的特征包括两类，分别是基因对网络特征和基因对生物特征；特征提取后，对特征进行相应的统计学分析；

(2-1)基因对网络特征包括共同的一阶、二阶及三阶邻居数目，最短路径，平均度中心性，平均接近中心性，平均介数中心性，平均特征向量中心性，以及关于节点连接关系的两个指标，分别是内聚指标cohesion和附着指标adhesion；

a.共同邻居数目：任意两个基因在网络G′中共有的邻居数目；

b.最短路径：任意两个基因在网络G′中从一个节点走到另一个节点所需要经历的最少连边数；

c.内聚指标cohesion：使得任意两个基因在网络G′中处于两个独立子图所需要去除的最小的边数目；

d.附着指标adhesion：使得任意两个基因在网络G′中处于两个独立子图所需要去除的最小的节点数目；

e.平均度中心性：任意两个基因在网络G′中的度中心性的平均值；节点i的度中心性

i≠j；∑_j∈Na_ij，表示节点i和节点j直接相连的数量，N表示节点个数；网络G′的邻接矩阵A＝(a_ij)，如果节点i和节点j直接相连，则a_ij＝1，否则a_ij＝0；

f.平均接近中心性：任意两个基因在网络G′中的接近中心性的平均值；节点i的接近中心性

i≠j；d_ij表示节点i和节点j的距离；

g.平均介数中心性：任意两个基因在网络G′中的介数中心性的平均值；节点i的介数中心性

s′≠t′≠i；σ_s′t′表示节点s′与节点t′之间最短路径条数，σ_s′t′(i)表示表示节点s′与节点t′之间通过节点i的最短路径条数；

h.平均特征向量中心性：任意两个基因在网络G′中的特征向量中心性的平均值；EC＝[EC(1),EC(2),…,EC(N)]^T是网络G′的邻接矩阵A的最大特征值λ对应的特征向量，T表示转置，节点i的特征向量中心性

i≠j；计算过程是通过给定初值EC(0)，然后采用迭代算法计算：

直到EC(t″)＝EC(t″-1)，t″＝1,2,…。

(2-2)基因对生物特征包括基因对突变覆盖率、基因对共突变率、基因对表达差异得分、基因对共享的基因功能数目；

A.基因对突变覆盖率：为一对基因中至少一个基因有突变的样本占总样本的比例，基因组合(g₁,g₂)的基因对突变覆盖率

a和b分别表示在所有肿瘤样本中观测到基因g₁和基因g₂发生突变的样本数目，c表示在所有肿瘤样本中观测到基因g₁和基因g₂同时发生突变的样本数目，n表示所有观测的肿瘤样本数目；

B.基因对共突变率：为一对基因中两个基因同时突变的样本占总样本的比例，基因组合(g₁,g₂)的基因对共突变率

C.基因对表达差异得分：基因组合(g₁,g₂)的基因对表达差异得分

和

分别表示对基因g₁和基因g₂在正常样本和肿瘤样本的表达量做t检验后得到的相应p值，t检验的t值

其中mean(Normal)表示所有正常样本的平均表达量，mean(Tumor)表示所有肿瘤样本的平均表达量；std(Normal)表示所有正常样本的表达量的标准差，std(Tumor)表示所有肿瘤样本的表达量的标准差；m表示正常样本的总数目；

和

分别表示基因g₁和基因g₂在正常样本和肿瘤样本中的表达差异倍数，

D.基因对共享的基因功能数目：包括基因执行的分子功能方面的基因对共享的基因功能数目shared_mf、基因所处的细胞组分方面的基因对共享的基因功能数目shared_cc、基因参与的生物学过程方面的基因对共享的基因功能数目shared_bp。

(2-3)特征的统计学分析：对于所有提取到的基因对特征进行假设检验，具体如下：

Ⅰ.抽取total对合成致死基因组合作为正样本，根据各正样本在网络G′中的共现情况，构造相同数量的负样本和随机样本：如果正样本中基因对的连接关系在网络G′中出现，则将满足此条件的基因对的数量记为overlap；如果正样本中基因对的连接关系不在网络G′中出现，则将满足此条件的基因对的数量记为cross；构建负样本时，满足

对基因组合在G′中具有连接关系，

对基因组合在G′中没有连接关系，而在构造随机样本时只从网络G′中随机抽取基因并组合为total对基因组合作为随机样本；

Ⅱ.计算特征：分别对正样本、负样本和随机样本计算网络特征和生物特征；

Ⅲ.特征差异检验：对以上三类样本的不同特征分别做两两样本类型之间的曼惠特尼u检验，检验过程为：

①建立原假设：认为特定特征f在参与检验的A类样本和B类样本中无差别；

②样本排序：将样本容量分别为n_A、n_B的参与检验的A、B类样本的特定特征f的特征值合并为一个序列，并按由小到大的顺序对这些值进行排列，n_A+n_B个特征值分别获得一个按照值的大小排名的位置序号，若存在相同的特征值，则用它们位序的平均值；

③分别对来自A、B类样本的特征值的位序求和计算R值，得到R_A和R_B；

④分别对来自A、B类样本的特征值计算检验统计量U值，

⑤选择U_A和U_B中小的U值U_AorB与曼惠特尼u检验的临界值表中的临界值U′进行比较，如果U_AorB＞U′，则拒绝原假设，表明特征f在A、B类样本中呈现出差异，保留特征f用于后续预测任务，否则丢弃该特征。

(3)模型算法设计模块：包括构造训练样本、预测模型设计。

(3-1)构造训练样本：正样本来自于收集到的合成致死基因组合；负样本的构造来自于网络G′中任意两个基因的随机组合，该组合不包含出现在正样本中的基因对；训练样本由同等数量的正负样本共同组成，将所有数据作为后续五折交叉验证的输入，即将所有数据按照原来正负样本的比例划分为五份，五份中的四份用于模型的训练，一份用于测试模型的预测效果。

(3-2)预测模型设计：采用随机森林，以决策树作为基学习器构造随机森林：

从划分好的用于训练的样本中随机采样m′个样本，其中每个样本的特征属性根据特征工程模块的过程进行构造，m′个样本训练一个决策树模型，训练过程中以信息增益为准则选取特征属性划分决策树的节点：当前样本集合D中特定特征a′的信息增益

当前样本集合D的信息熵Ent(D)＝-∑_k＝1,2p_klog₂p_k，p_k表示第k类样本所占的比例，V表示特定特征a′的可能的取值数目，可能的取值为{a¹,a²,…,a^Q}，D^q表示第q个分支节点包含了D中所有在特征a′上的取值为a^q的样本，q＝1,2,…,Q；重复进行W次采样，训练得到W棵决策树。

将生成的W棵决策树组成随机森林，然后将划分好的用于测试的样本放入训练好的随机森林模型中进行预测，根据所有决策树的分类结果投票决定最终的预测结果，投票规则为：

w＝1,2,…,W；H(x)表示基因组合x的最终预测类别，0表示非合成致死基因组合，1表示合成致死基因组合；h_w(x)表示基因组合x在决策树h_w下的预测类别：当x在h_w下的预测类别为合成致死基因组合时，

当x在h_w下的预测类别为非合成致死基因组合时，

(4)结果评估模块：绘制ROC曲线和PR曲线，验证模型的预测效果；

ROC曲线的横坐标为假阳性率FPR，纵坐标为真阳性率TPR，

PR曲线的横坐标为召回率recall，纵坐标为精确率precision，

TP表示将测试集中的合成致死基因组合预测为合成致死基因组合的个数；FP表示将测试集中的非合成致死基因组合预测为合成致死基因组合的个数；FN表示将测试集中的合成致死基因组合预测为非合成致死基因组合的个数；TN表示将测试集中的非合成致死基因组合预测为非合成致死基因组合的个数。

根据模型算法设计模块的预测结果绘制ROC曲线和PR曲线；ROC曲线下的面积AUC越大，表示模型的预测性能越好；PR曲线下的面积AUPR越大，表示模型的预测性能越好；在最优预测模型下，完成所有未知基因组合是合成致死基因组合或不是合成致死基因组合的分类预测任务。

本发明从数据挖掘的角度研究合成致死基因组合，通过数据整理和特征提取，结合基因对在基因网络中拓扑特征以及基因对在基因表达和基因突变下的异常模式，借助机器学习实现合成致死基因组合的预测。因此，本发明能有效分析肿瘤数据，预测合成致死基因组合，为生物学筛选缩小鉴定范围，为药物设计和临床治疗提供一定的参考，从一定程度上促进肿瘤治疗工作上的发展。

附图说明

图1是本发明系统示意图。

具体实施方式

以下结合附图和具体实施方案，对本发明做进一步说明。

现有15471个蛋白质形成的170631条蛋白质相互作用数据、合成致死基因组合数据、基因功能注释数据以及包括乳腺癌在内的33种癌症患者的基因突变和基因表达数据。

如图1所示，一种基于生物网络与机器学习的合成致死基因组合预测系统，包括数据采集和预处理模块、特征工程模块、模型算法设计模块、结果评估模块。

(2)特征工程模块：提取的特征包括两类，分别是基因对网络特征和基因对生物特征；特征提取后，为了证明提取特征的合理性，对特征进行相应的统计学分析；

e.平均度中心性：任意两个基因在网络G′中的度中心性的平均值；度中心性反映节点在网络中重要程度的最直接指标，节点i的度中心性

f.平均接近中心性：任意两个基因在网络G′中的接近中心性的平均值；接近中心性反映节点在网络中与其他节点的邻近程度，节点i的接近中心性

i≠j；d_ij表示节点i和节点j的距离；

g.平均介数中心性：任意两个基因在网络G′中的介数中心性的平均值；介数中心性反映节点在网络中对其他节点的控制能力，节点i的介数中心性

h.平均特征向量中心性：任意两个基因在网络G′中的特征向量中心性的平均值；特征向量中心性反映节点在网络中与连接良好的节点的连接程度；

EC＝[EC(1),EC(2),…,EC(N)]^T是网络G′的邻接矩阵A的最大特征值λ对应的特征向量，T表示转置，节点i的特征向量中心性

直到EC(t″)＝EC(t″-1)，t″＝1,2,…。

A.基因对突变覆盖率：突变对于肿瘤的发生和进一步恶化起着至关重要的作用，同时，基因对突变覆盖率在鉴别合成致死基因组合方面的作用已有证明。基因对突变覆盖率为一对基因中至少一个基因有突变的样本占总样本的比例，基因组合(g₁,g₂)的基因对突变覆盖率

B.基因对共突变率：根据合成致死的定义可以认识到两个基因同时突变可以看作是合成致死现象发生的必要条件，对于鉴别合成致死基因对有着重要的参考作用。基因对共突变率为一对基因中两个基因同时突变的样本占总样本的比例，基因组合(g₁,g₂)的基因对共突变率

C.基因对表达差异得分：肿瘤发生的根源来源于突变，突变导致基因的不正常表达，出于这样的连锁反应，通过观察异常表达的基因可以大致锁定与这些基因相对应的蛋白质产物，它们作为药物靶标的可能性相对于正常表达的蛋白质产物来说更高，因此，基因的表达水平及表达模式对于合成致死基因组合的识别有着一定的参考作用。基因组合(g₁,g₂)的基因对表达差异得分

和

和

D.基因对共享的基因功能数目：根据基因表达产物参与的代谢过程的不同，可以对基因的功能进行相应的分类。包括基因执行的分子功能方面的基因对共享的基因功能数目shared_mf、基因所处的细胞组分方面的基因对共享的基因功能数目shared_cc、基因参与的生物学过程方面的基因对共享的基因功能数目shared_bp。

(2-3)特征的统计学分析：对于所有提取到的基因对特征进行假设检验，以检查提取特征是否在合成致死基因对和非合成致死基因对中显示出一定的差异性，从而保证特征的可用性和有效性；具体如下：

对基因组合在G′中具有连接关系，

对基因组合在G′中没有连接关系，而在构造随机样本时不需要考虑这一情况，只需从网络G′中随机抽取基因并组合为total对基因组合作为随机样本即可；

④分别对来自A、B类样本的特征值计算检验统计量U值，

(3)模型算法设计模块：包括构造训练样本、预测模型设计。

(3-1)构造训练样本：正样本来自于收集到的合成致死基因组合；对于负样本而言，并没有公开的数据平台提供负样本，故负样本的构造来自于网络G′中任意两个基因的随机组合，该组合不包含出现在正样本中的基因对；训练样本由同等数量的正负样本共同组成，将所有数据作为后续五折交叉验证的输入，即将所有数据按照原来正负样本的比例划分为五份，五份中的四份用于模型的训练，一份用于测试模型的预测效果。

(3-2)预测模型设计：采用随机森林，以决策树作为基学习器构造随机森林，过程如下：

当x在h_w下的预测类别为非合成致死基因组合时，

(4)结果评估模块：绘制ROC曲线和PR曲线验证模型的预测效果；

ROC曲线的横坐标为假阳性率FPR，纵坐标为真阳性率TPR，

PR曲线的横坐标为召回率recall，纵坐标为精确率precision，

Claims

1.基于生物网络与机器学习的合成致死基因组合预测系统，包括数据采集和预处理模块、特征工程模块、模型算法设计模块、结果评估模块，其特征在于：

(1-2)构建基因网络：根据采集的蛋白质相互作用关系数据，构建基因网络G＝(V,E)；V表示节点集，节点代表编码蛋白的基因；E表示边集，边代表两个基因所编码蛋白质之间的相互作用关系；将得到的最大连通子图作为后续分析的基础，记为基因网络G′；

(1-3)数据预处理：对于采集的基因表达数据、基因突变数据和基因功能注释数据进行筛选，保留所有在基因网络G′中出现的基因信息；同时对采集的合成致死基因组合数据进行筛选，剔除所有不在基因网络G′中的合成致死基因组合，并且将同时标记为正负样本的基因组合剔除，剩下来的合成致死基因组合作为后续预测的样本来源；

e.平均度中心性：任意两个基因在网络G′中的度中心性的平均值；

f.平均接近中心性：任意两个基因在网络G′中的接近中心性的平均值；

g.平均介数中心性：任意两个基因在网络G′中的介数中心性的平均值；

h.平均特征向量中心性：任意两个基因在网络G′中的特征向量中心性的平均值；

所述的基因对突变覆盖率为一对基因中至少一个基因有突变的样本占总样本的比例；

所述的基因对共突变率为一对基因中两个基因同时突变的样本占总样本的比例；

所述的基因对共享的基因功能数目包括基因执行的分子功能方面的基因对共享的基因功能数目shared_mf、基因所处的细胞组分方面的基因对共享的基因功能数目shared_cc、基因参与的生物学过程方面的基因对共享的基因功能数目shared_bp；

对基因组合在G′中具有连接关系，

Ⅲ.特征差异检验：对以上三类样本的不同特征分别做两两样本类型之间的曼惠特尼u检验，选取用于后续预测任务的保留特征；

(3)模型算法设计模块：包括构造训练样本、预测模型设计；

(3-1)构造训练样本：正样本来自于收集到的合成致死基因组合；负样本的构造来自于网络G′中任意两个基因的随机组合，该组合不包含出现在正样本中的基因对；训练样本由同等数量的正负样本共同组成，将所有数据作为后续五折交叉验证的输入，即将所有数据按照原来正负样本的比例划分为五份，五份中的四份用于模型的训练，一份用于测试模型的预测效果；

当前样本集合D的信息熵Ent(D)＝-∑_k＝1,2p_klog₂p_k，p_k表示第k类样本所占的比例，V表示特定特征a′的可能的取值数目，可能的取值为{a¹,a²,…,a^Q}，D^q表示第q个分支节点包含了D中所有在特征a′上的取值为a^q的样本，q＝1,2,…,Q；重复进行W次采样，训练得到W棵决策树；