CN114566211A - 基于生物网络与机器学习的合成致死基因组合预测系统 - Google Patents

基于生物网络与机器学习的合成致死基因组合预测系统 Download PDF

Info

Publication number
CN114566211A
CN114566211A CN202210246301.7A CN202210246301A CN114566211A CN 114566211 A CN114566211 A CN 114566211A CN 202210246301 A CN202210246301 A CN 202210246301A CN 114566211 A CN114566211 A CN 114566211A
Authority
CN
China
Prior art keywords
gene
network
samples
synthetic lethal
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210246301.7A
Other languages
English (en)
Other versions
CN114566211B (zh
Inventor
刘闯
舒胜利
詹秀秀
张子柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Normal University
Original Assignee
Hangzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Normal University filed Critical Hangzhou Normal University
Priority to CN202210246301.7A priority Critical patent/CN114566211B/zh
Publication of CN114566211A publication Critical patent/CN114566211A/zh
Application granted granted Critical
Publication of CN114566211B publication Critical patent/CN114566211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于生物网络与机器学习的合成致死基因组合预测系统。本发明包括数据采集和预处理模块、特征工程模块、模型算法设计模块、结果评估模块。数据采集和预处理模块包括数据采集、构建基因网络和数据预处理三个子任务,为后续预测任务提供数据基础。特征工程模块提取的特征包基因对网络特征和生物特征;特征提取后,对特征进行相应的统计学分析。模型算法设计模块包括构造训练样本、预测模型设计。结果评估模块是通过绘制ROC曲线和PR曲线,验证模型的预测效果。本发明从数据挖掘的角度研究合成致死基因组合,通过特征整合与处理等方法实现合成致死基因组合的预测。本发明对潜在合成致死基因组合进行预测,加深了对癌症靶向药物的认识。

Description

基于生物网络与机器学习的合成致死基因组合预测系统
技术领域
本发明属于数据分析领域,具体是肿瘤数据研究领域,涉及一种基于生物网络与机器学习的合成致死基因组合预测系统。
背景技术
根据世界卫生组织下属的国际癌症研究机构发布的《2020年全球癌症负担状况估计报告》可知,随着全球人口的快速增长和人口老龄化的进一步加剧,全球癌症发病率和死亡率正在快速上升,癌症成为全球的重大公共卫生问题。癌症防治形势变得不容乐观,癌症的诊治方案和相关药物的研发也变得越发紧迫。
合成致死,指的是两个非必要基因的双突变造成细胞死亡,而两基因分别突变却不会对细胞生长有影响的生物学现象。在癌症的临床救治中,常用的治疗方法(如放疗和化疗等)对于人体体细胞毫无选择性,杀死癌细胞的同时也会对正常组织造成严重损害。在这样的情况下,利用合成致死现象的抗癌策略被提出来:如果一个基因的蛋白质产物与一个经常发生肿瘤特异性突变的基因具有合成致死作用,那么该蛋白质将是一个很好的抗癌药物靶点。事实上,基于合成致死的靶向治疗在临床上已经有了非常成功的案例,如基于BRCA1/2和PARP的合成致死作用而设计的奥拉帕利、尼拉帕利、帕米帕利等药物已经成功通过批准并成为乳腺癌治疗的特效药。由此可见,“利用合成致死原理设计靶向药从而治疗癌症”的观点成为药物研发和癌症治疗领域的一个重要突破,为癌症的新型治疗带来了曙光。
生物分子大多通过交互作用形成复杂的生物网络结构来发挥生物功能,借助复杂网络的背景可以为合成致死基因组合的识别提供一种全局的视角和全新的思路。肿瘤的形成来源于基因的突变带来的异常表达,基因网络能够很好的反映基因-基因之间的复杂关系;同时网络中以节点形式表示的基因有着不同细胞系背景下的特异性表达水平和表达模式,因此,将基因表达和基因突变信息融入到基因-基因网络中可以更好的揭示合成致死基因组合在整个基因网络中的特点。在再现合成致死基因组合在网络中的拓扑结构和表达属性的基础上,挖掘其背后的复杂作用机理及其功能信息,能够更好的完成合成致死基因组合的识别任务。
发明内容
本发明的目的在于消除生物实验的低效率,提供一种基于生物网络与机器学习的合成致死基因组合预测系统,整合基因网络数据、基因功能数据、基因突变和表达数据,在考虑不同类型肿瘤产生的生物学背景的情况下,引入节点对在网络中的结构性指标、节点对在网络中的表达模式属性,借助机器学习预测算法,发现合成致死基因组合。
本发明包括数据采集和预处理模块、特征工程模块、模型算法设计模块、结果评估模块,具体如下:
(1)数据采集和预处理模块包括数据采集、构建基因网络和数据预处理三个子任务,其中:
(1-1)数据采集:采集蛋白质相互作用关系数据、基因功能注释数据、不同癌症背景下的基因表达数据、基因突变数据、合成致死基因组合数据;
(1-2)构建基因网络:根据采集的蛋白质相互作用关系数据,构建基因网络G=(V,E);V表示节点集,节点代表编码蛋白的基因;E表示边集,边代表两个基因所编码蛋白质之间的相互作用关系;将得到的最大连通子图作为后续分析的基础,记为基因网络G′。
(1-3)数据预处理:对于采集的基因表达数据、基因突变数据和基因功能注释数据进行筛选,保留所有在基因网络G′中出现的基因信息;同时对采集的合成致死基因组合数据进行筛选,剔除所有不在基因网络G′中的合成致死基因组合,并且将同时标记为正负样本的基因组合剔除,剩下来的合成致死基因组合作为后续预测的样本来源。
(2)特征工程模块:提取的特征包括两类,分别是基因对网络特征和基因对生物特征;特征提取后,对特征进行相应的统计学分析;
(2-1)基因对网络特征包括共同的一阶、二阶及三阶邻居数目,最短路径,平均度中心性,平均接近中心性,平均介数中心性,平均特征向量中心性,以及关于节点连接关系的两个指标,分别是内聚指标cohesion和附着指标adhesion;
a.共同邻居数目:任意两个基因在网络G′中共有的邻居数目;
b.最短路径:任意两个基因在网络G′中从一个节点走到另一个节点所需要经历的最少连边数;
c.内聚指标cohesion:使得任意两个基因在网络G′中处于两个独立子图所需要去除的最小的边数目;
d.附着指标adhesion:使得任意两个基因在网络G′中处于两个独立子图所需要去除的最小的节点数目;
e.平均度中心性:任意两个基因在网络G′中的度中心性的平均值;节点i的度中心性
Figure BDA0003545218130000031
i≠j;∑j∈Naij,表示节点i和节点j直接相连的数量,N表示节点个数;网络G′的邻接矩阵A=(aij),如果节点i和节点j直接相连,则aij=1,否则aij=0;
f.平均接近中心性:任意两个基因在网络G′中的接近中心性的平均值;节点i的接近中心性
Figure BDA0003545218130000032
i≠j;dij表示节点i和节点j的距离;
g.平均介数中心性:任意两个基因在网络G′中的介数中心性的平均值;节点i的介数中心性
Figure BDA0003545218130000033
s′≠t′≠i;σs′t′表示节点s′与节点t′之间最短路径条数,σs′t′(i)表示表示节点s′与节点t′之间通过节点i的最短路径条数;
h.平均特征向量中心性:任意两个基因在网络G′中的特征向量中心性的平均值;EC=[EC(1),EC(2),…,EC(N)]T是网络G′的邻接矩阵A的最大特征值λ对应的特征向量,T表示转置,节点i的特征向量中心性
Figure BDA0003545218130000034
i≠j;计算过程是通过给定初值EC(0),然后采用迭代算法计算:
Figure BDA0003545218130000035
直到EC(t″)=EC(t″-1),t″=1,2,…。
(2-2)基因对生物特征包括基因对突变覆盖率、基因对共突变率、基因对表达差异得分、基因对共享的基因功能数目;
A.基因对突变覆盖率:为一对基因中至少一个基因有突变的样本占总样本的比例,基因组合(g1,g2)的基因对突变覆盖率
Figure BDA0003545218130000036
a和b分别表示在所有肿瘤样本中观测到基因g1和基因g2发生突变的样本数目,c表示在所有肿瘤样本中观测到基因g1和基因g2同时发生突变的样本数目,n表示所有观测的肿瘤样本数目;
B.基因对共突变率:为一对基因中两个基因同时突变的样本占总样本的比例,基因组合(g1,g2)的基因对共突变率
Figure BDA0003545218130000037
C.基因对表达差异得分:基因组合(g1,g2)的基因对表达差异得分
Figure BDA0003545218130000041
Figure BDA0003545218130000042
Figure BDA0003545218130000043
分别表示对基因g1和基因g2在正常样本和肿瘤样本的表达量做t检验后得到的相应p值,t检验的t值
Figure BDA0003545218130000044
其中mean(Normal)表示所有正常样本的平均表达量,mean(Tumor)表示所有肿瘤样本的平均表达量;std(Normal)表示所有正常样本的表达量的标准差,std(Tumor)表示所有肿瘤样本的表达量的标准差;m表示正常样本的总数目;
Figure BDA0003545218130000045
Figure BDA0003545218130000046
分别表示基因g1和基因g2在正常样本和肿瘤样本中的表达差异倍数,
Figure BDA0003545218130000047
D.基因对共享的基因功能数目:包括基因执行的分子功能方面的基因对共享的基因功能数目shared_mf、基因所处的细胞组分方面的基因对共享的基因功能数目shared_cc、基因参与的生物学过程方面的基因对共享的基因功能数目shared_bp。
(2-3)特征的统计学分析:对于所有提取到的基因对特征进行假设检验,具体如下:
Ⅰ.抽取total对合成致死基因组合作为正样本,根据各正样本在网络G′中的共现情况,构造相同数量的负样本和随机样本:如果正样本中基因对的连接关系在网络G′中出现,则将满足此条件的基因对的数量记为overlap;如果正样本中基因对的连接关系不在网络G′中出现,则将满足此条件的基因对的数量记为cross;构建负样本时,满足
Figure BDA0003545218130000048
对基因组合在G′中具有连接关系,
Figure BDA0003545218130000049
对基因组合在G′中没有连接关系,而在构造随机样本时只从网络G′中随机抽取基因并组合为total对基因组合作为随机样本;
Ⅱ.计算特征:分别对正样本、负样本和随机样本计算网络特征和生物特征;
Ⅲ.特征差异检验:对以上三类样本的不同特征分别做两两样本类型之间的曼惠特尼u检验,检验过程为:
①建立原假设:认为特定特征f在参与检验的A类样本和B类样本中无差别;
②样本排序:将样本容量分别为nA、nB的参与检验的A、B类样本的特定特征f的特征值合并为一个序列,并按由小到大的顺序对这些值进行排列,nA+nB个特征值分别获得一个按照值的大小排名的位置序号,若存在相同的特征值,则用它们位序的平均值;
③分别对来自A、B类样本的特征值的位序求和计算R值,得到RA和RB
④分别对来自A、B类样本的特征值计算检验统计量U值,
Figure BDA0003545218130000051
Figure BDA0003545218130000052
⑤选择UA和UB中小的U值UAorB与曼惠特尼u检验的临界值表中的临界值U′进行比较,如果UAorB>U′,则拒绝原假设,表明特征f在A、B类样本中呈现出差异,保留特征f用于后续预测任务,否则丢弃该特征。
(3)模型算法设计模块:包括构造训练样本、预测模型设计。
(3-1)构造训练样本:正样本来自于收集到的合成致死基因组合;负样本的构造来自于网络G′中任意两个基因的随机组合,该组合不包含出现在正样本中的基因对;训练样本由同等数量的正负样本共同组成,将所有数据作为后续五折交叉验证的输入,即将所有数据按照原来正负样本的比例划分为五份,五份中的四份用于模型的训练,一份用于测试模型的预测效果。
(3-2)预测模型设计:采用随机森林,以决策树作为基学习器构造随机森林:
从划分好的用于训练的样本中随机采样m′个样本,其中每个样本的特征属性根据特征工程模块的过程进行构造,m′个样本训练一个决策树模型,训练过程中以信息增益为准则选取特征属性划分决策树的节点:当前样本集合D中特定特征a′的信息增益
Figure BDA0003545218130000053
当前样本集合D的信息熵Ent(D)=-∑k=1,2pklog2pk,pk表示第k类样本所占的比例,V表示特定特征a′的可能的取值数目,可能的取值为{a1,a2,…,aQ},Dq表示第q个分支节点包含了D中所有在特征a′上的取值为aq的样本,q=1,2,…,Q;重复进行W次采样,训练得到W棵决策树。
将生成的W棵决策树组成随机森林,然后将划分好的用于测试的样本放入训练好的随机森林模型中进行预测,根据所有决策树的分类结果投票决定最终的预测结果,投票规则为:
Figure BDA0003545218130000061
w=1,2,…,W;H(x)表示基因组合x的最终预测类别,0表示非合成致死基因组合,1表示合成致死基因组合;hw(x)表示基因组合x在决策树hw下的预测类别:当x在hw下的预测类别为合成致死基因组合时,
Figure BDA0003545218130000062
当x在hw下的预测类别为非合成致死基因组合时,
Figure BDA0003545218130000063
(4)结果评估模块:绘制ROC曲线和PR曲线,验证模型的预测效果;
ROC曲线的横坐标为假阳性率FPR,纵坐标为真阳性率TPR,
Figure BDA0003545218130000064
Figure BDA0003545218130000065
PR曲线的横坐标为召回率recall,纵坐标为精确率precision,
Figure BDA0003545218130000066
Figure BDA0003545218130000067
TP表示将测试集中的合成致死基因组合预测为合成致死基因组合的个数;FP表示将测试集中的非合成致死基因组合预测为合成致死基因组合的个数;FN表示将测试集中的合成致死基因组合预测为非合成致死基因组合的个数;TN表示将测试集中的非合成致死基因组合预测为非合成致死基因组合的个数。
根据模型算法设计模块的预测结果绘制ROC曲线和PR曲线;ROC曲线下的面积AUC越大,表示模型的预测性能越好;PR曲线下的面积AUPR越大,表示模型的预测性能越好;在最优预测模型下,完成所有未知基因组合是合成致死基因组合或不是合成致死基因组合的分类预测任务。
本发明从数据挖掘的角度研究合成致死基因组合,通过数据整理和特征提取,结合基因对在基因网络中拓扑特征以及基因对在基因表达和基因突变下的异常模式,借助机器学习实现合成致死基因组合的预测。因此,本发明能有效分析肿瘤数据,预测合成致死基因组合,为生物学筛选缩小鉴定范围,为药物设计和临床治疗提供一定的参考,从一定程度上促进肿瘤治疗工作上的发展。
附图说明
图1是本发明系统示意图。
具体实施方式
以下结合附图和具体实施方案,对本发明做进一步说明。
现有15471个蛋白质形成的170631条蛋白质相互作用数据、合成致死基因组合数据、基因功能注释数据以及包括乳腺癌在内的33种癌症患者的基因突变和基因表达数据。
如图1所示,一种基于生物网络与机器学习的合成致死基因组合预测系统,包括数据采集和预处理模块、特征工程模块、模型算法设计模块、结果评估模块。
(1)数据采集和预处理模块包括数据采集、构建基因网络和数据预处理三个子任务,其中:
(1-1)数据采集:采集蛋白质相互作用关系数据、基因功能注释数据、不同癌症背景下的基因表达数据、基因突变数据、合成致死基因组合数据;
(1-2)构建基因网络:根据采集的蛋白质相互作用关系数据,构建基因网络G=(V,E);V表示节点集,节点代表编码蛋白的基因;E表示边集,边代表两个基因所编码蛋白质之间的相互作用关系;将得到的最大连通子图作为后续分析的基础,记为基因网络G′。
(1-3)数据预处理:对于采集的基因表达数据、基因突变数据和基因功能注释数据进行筛选,保留所有在基因网络G′中出现的基因信息;同时对采集的合成致死基因组合数据进行筛选,剔除所有不在基因网络G′中的合成致死基因组合,并且将同时标记为正负样本的基因组合剔除,剩下来的合成致死基因组合作为后续预测的样本来源。
(2)特征工程模块:提取的特征包括两类,分别是基因对网络特征和基因对生物特征;特征提取后,为了证明提取特征的合理性,对特征进行相应的统计学分析;
(2-1)基因对网络特征包括共同的一阶、二阶及三阶邻居数目,最短路径,平均度中心性,平均接近中心性,平均介数中心性,平均特征向量中心性,以及关于节点连接关系的两个指标,分别是内聚指标cohesion和附着指标adhesion;
a.共同邻居数目:任意两个基因在网络G′中共有的邻居数目;
b.最短路径:任意两个基因在网络G′中从一个节点走到另一个节点所需要经历的最少连边数;
c.内聚指标cohesion:使得任意两个基因在网络G′中处于两个独立子图所需要去除的最小的边数目;
d.附着指标adhesion:使得任意两个基因在网络G′中处于两个独立子图所需要去除的最小的节点数目;
e.平均度中心性:任意两个基因在网络G′中的度中心性的平均值;度中心性反映节点在网络中重要程度的最直接指标,节点i的度中心性
Figure BDA0003545218130000081
i≠j;∑j∈Naij,表示节点i和节点j直接相连的数量,N表示节点个数;网络G′的邻接矩阵A=(aij),如果节点i和节点j直接相连,则aij=1,否则aij=0;
f.平均接近中心性:任意两个基因在网络G′中的接近中心性的平均值;接近中心性反映节点在网络中与其他节点的邻近程度,节点i的接近中心性
Figure BDA0003545218130000082
i≠j;dij表示节点i和节点j的距离;
g.平均介数中心性:任意两个基因在网络G′中的介数中心性的平均值;介数中心性反映节点在网络中对其他节点的控制能力,节点i的介数中心性
Figure BDA0003545218130000083
s′≠t′≠i;σs′t′表示节点s′与节点t′之间最短路径条数,σs′t′(i)表示表示节点s′与节点t′之间通过节点i的最短路径条数;
h.平均特征向量中心性:任意两个基因在网络G′中的特征向量中心性的平均值;特征向量中心性反映节点在网络中与连接良好的节点的连接程度;
EC=[EC(1),EC(2),…,EC(N)]T是网络G′的邻接矩阵A的最大特征值λ对应的特征向量,T表示转置,节点i的特征向量中心性
Figure BDA0003545218130000084
i≠j;计算过程是通过给定初值EC(0),然后采用迭代算法计算:
Figure BDA0003545218130000085
直到EC(t″)=EC(t″-1),t″=1,2,…。
(2-2)基因对生物特征包括基因对突变覆盖率、基因对共突变率、基因对表达差异得分、基因对共享的基因功能数目;
A.基因对突变覆盖率:突变对于肿瘤的发生和进一步恶化起着至关重要的作用,同时,基因对突变覆盖率在鉴别合成致死基因组合方面的作用已有证明。基因对突变覆盖率为一对基因中至少一个基因有突变的样本占总样本的比例,基因组合(g1,g2)的基因对突变覆盖率
Figure BDA0003545218130000086
a和b分别表示在所有肿瘤样本中观测到基因g1和基因g2发生突变的样本数目,c表示在所有肿瘤样本中观测到基因g1和基因g2同时发生突变的样本数目,n表示所有观测的肿瘤样本数目;
B.基因对共突变率:根据合成致死的定义可以认识到两个基因同时突变可以看作是合成致死现象发生的必要条件,对于鉴别合成致死基因对有着重要的参考作用。基因对共突变率为一对基因中两个基因同时突变的样本占总样本的比例,基因组合(g1,g2)的基因对共突变率
Figure BDA0003545218130000091
C.基因对表达差异得分:肿瘤发生的根源来源于突变,突变导致基因的不正常表达,出于这样的连锁反应,通过观察异常表达的基因可以大致锁定与这些基因相对应的蛋白质产物,它们作为药物靶标的可能性相对于正常表达的蛋白质产物来说更高,因此,基因的表达水平及表达模式对于合成致死基因组合的识别有着一定的参考作用。基因组合(g1,g2)的基因对表达差异得分
Figure BDA0003545218130000092
Figure BDA0003545218130000093
Figure BDA0003545218130000094
分别表示对基因g1和基因g2在正常样本和肿瘤样本的表达量做t检验后得到的相应p值,t检验的t值
Figure BDA0003545218130000095
其中mean(Normal)表示所有正常样本的平均表达量,mean(Tumor)表示所有肿瘤样本的平均表达量;std(Normal)表示所有正常样本的表达量的标准差,std(Tumor)表示所有肿瘤样本的表达量的标准差;m表示正常样本的总数目;
Figure BDA0003545218130000096
Figure BDA0003545218130000097
分别表示基因g1和基因g2在正常样本和肿瘤样本中的表达差异倍数,
Figure BDA0003545218130000098
D.基因对共享的基因功能数目:根据基因表达产物参与的代谢过程的不同,可以对基因的功能进行相应的分类。包括基因执行的分子功能方面的基因对共享的基因功能数目shared_mf、基因所处的细胞组分方面的基因对共享的基因功能数目shared_cc、基因参与的生物学过程方面的基因对共享的基因功能数目shared_bp。
(2-3)特征的统计学分析:对于所有提取到的基因对特征进行假设检验,以检查提取特征是否在合成致死基因对和非合成致死基因对中显示出一定的差异性,从而保证特征的可用性和有效性;具体如下:
Ⅰ.抽取total对合成致死基因组合作为正样本,根据各正样本在网络G′中的共现情况,构造相同数量的负样本和随机样本:如果正样本中基因对的连接关系在网络G′中出现,则将满足此条件的基因对的数量记为overlap;如果正样本中基因对的连接关系不在网络G′中出现,则将满足此条件的基因对的数量记为cross;构建负样本时,满足
Figure BDA0003545218130000101
对基因组合在G′中具有连接关系,
Figure BDA0003545218130000102
对基因组合在G′中没有连接关系,而在构造随机样本时不需要考虑这一情况,只需从网络G′中随机抽取基因并组合为total对基因组合作为随机样本即可;
Ⅱ.计算特征:分别对正样本、负样本和随机样本计算网络特征和生物特征;
Ⅲ.特征差异检验:对以上三类样本的不同特征分别做两两样本类型之间的曼惠特尼u检验,检验过程为:
①建立原假设:认为特定特征f在参与检验的A类样本和B类样本中无差别;
②样本排序:将样本容量分别为nA、nB的参与检验的A、B类样本的特定特征f的特征值合并为一个序列,并按由小到大的顺序对这些值进行排列,nA+nB个特征值分别获得一个按照值的大小排名的位置序号,若存在相同的特征值,则用它们位序的平均值;
③分别对来自A、B类样本的特征值的位序求和计算R值,得到RA和RB
④分别对来自A、B类样本的特征值计算检验统计量U值,
Figure BDA0003545218130000103
Figure BDA0003545218130000104
⑤选择UA和UB中小的U值UAorB与曼惠特尼u检验的临界值表中的临界值U′进行比较,如果UAorB>U′,则拒绝原假设,表明特征f在A、B类样本中呈现出差异,保留特征f用于后续预测任务,否则丢弃该特征。
(3)模型算法设计模块:包括构造训练样本、预测模型设计。
(3-1)构造训练样本:正样本来自于收集到的合成致死基因组合;对于负样本而言,并没有公开的数据平台提供负样本,故负样本的构造来自于网络G′中任意两个基因的随机组合,该组合不包含出现在正样本中的基因对;训练样本由同等数量的正负样本共同组成,将所有数据作为后续五折交叉验证的输入,即将所有数据按照原来正负样本的比例划分为五份,五份中的四份用于模型的训练,一份用于测试模型的预测效果。
(3-2)预测模型设计:采用随机森林,以决策树作为基学习器构造随机森林,过程如下:
从划分好的用于训练的样本中随机采样m′个样本,其中每个样本的特征属性根据特征工程模块的过程进行构造,m′个样本训练一个决策树模型,训练过程中以信息增益为准则选取特征属性划分决策树的节点:当前样本集合D中特定特征a′的信息增益
Figure BDA0003545218130000111
当前样本集合D的信息熵Ent(D)=-∑k=1,2pklog2pk,pk表示第k类样本所占的比例,V表示特定特征a′的可能的取值数目,可能的取值为{a1,a2,…,aQ},Dq表示第q个分支节点包含了D中所有在特征a′上的取值为aq的样本,q=1,2,…,Q;重复进行W次采样,训练得到W棵决策树。
将生成的W棵决策树组成随机森林,然后将划分好的用于测试的样本放入训练好的随机森林模型中进行预测,根据所有决策树的分类结果投票决定最终的预测结果,投票规则为:
Figure BDA0003545218130000112
w=1,2,…,W;H(x)表示基因组合x的最终预测类别,0表示非合成致死基因组合,1表示合成致死基因组合;hw(x)表示基因组合x在决策树hw下的预测类别:当x在hw下的预测类别为合成致死基因组合时,
Figure BDA0003545218130000113
当x在hw下的预测类别为非合成致死基因组合时,
Figure BDA0003545218130000114
(4)结果评估模块:绘制ROC曲线和PR曲线验证模型的预测效果;
ROC曲线的横坐标为假阳性率FPR,纵坐标为真阳性率TPR,
Figure BDA0003545218130000115
Figure BDA0003545218130000116
PR曲线的横坐标为召回率recall,纵坐标为精确率precision,
Figure BDA0003545218130000117
Figure BDA0003545218130000121
TP表示将测试集中的合成致死基因组合预测为合成致死基因组合的个数;FP表示将测试集中的非合成致死基因组合预测为合成致死基因组合的个数;FN表示将测试集中的合成致死基因组合预测为非合成致死基因组合的个数;TN表示将测试集中的非合成致死基因组合预测为非合成致死基因组合的个数。
根据模型算法设计模块的预测结果绘制ROC曲线和PR曲线;ROC曲线下的面积AUC越大,表示模型的预测性能越好;PR曲线下的面积AUPR越大,表示模型的预测性能越好;在最优预测模型下,完成所有未知基因组合是合成致死基因组合或不是合成致死基因组合的分类预测任务。

Claims (4)

1.基于生物网络与机器学习的合成致死基因组合预测系统,包括数据采集和预处理模块、特征工程模块、模型算法设计模块、结果评估模块,其特征在于:
(1)数据采集和预处理模块包括数据采集、构建基因网络和数据预处理三个子任务,其中:
(1-1)数据采集:采集蛋白质相互作用关系数据、基因功能注释数据、不同癌症背景下的基因表达数据、基因突变数据、合成致死基因组合数据;
(1-2)构建基因网络:根据采集的蛋白质相互作用关系数据,构建基因网络G=(V,E);V表示节点集,节点代表编码蛋白的基因;E表示边集,边代表两个基因所编码蛋白质之间的相互作用关系;将得到的最大连通子图作为后续分析的基础,记为基因网络G′;
(1-3)数据预处理:对于采集的基因表达数据、基因突变数据和基因功能注释数据进行筛选,保留所有在基因网络G′中出现的基因信息;同时对采集的合成致死基因组合数据进行筛选,剔除所有不在基因网络G′中的合成致死基因组合,并且将同时标记为正负样本的基因组合剔除,剩下来的合成致死基因组合作为后续预测的样本来源;
(2)特征工程模块:提取的特征包括两类,分别是基因对网络特征和基因对生物特征;特征提取后,对特征进行相应的统计学分析;
(2-1)基因对网络特征包括共同的一阶、二阶及三阶邻居数目,最短路径,平均度中心性,平均接近中心性,平均介数中心性,平均特征向量中心性,以及关于节点连接关系的两个指标,分别是内聚指标cohesion和附着指标adhesion;
a.共同邻居数目:任意两个基因在网络G′中共有的邻居数目;
b.最短路径:任意两个基因在网络G′中从一个节点走到另一个节点所需要经历的最少连边数;
c.内聚指标cohesion:使得任意两个基因在网络G′中处于两个独立子图所需要去除的最小的边数目;
d.附着指标adhesion:使得任意两个基因在网络G′中处于两个独立子图所需要去除的最小的节点数目;
e.平均度中心性:任意两个基因在网络G′中的度中心性的平均值;
f.平均接近中心性:任意两个基因在网络G′中的接近中心性的平均值;
g.平均介数中心性:任意两个基因在网络G′中的介数中心性的平均值;
h.平均特征向量中心性:任意两个基因在网络G′中的特征向量中心性的平均值;
(2-2)基因对生物特征包括基因对突变覆盖率、基因对共突变率、基因对表达差异得分、基因对共享的基因功能数目;
所述的基因对突变覆盖率为一对基因中至少一个基因有突变的样本占总样本的比例;
所述的基因对共突变率为一对基因中两个基因同时突变的样本占总样本的比例;
所述的基因对共享的基因功能数目包括基因执行的分子功能方面的基因对共享的基因功能数目shared_mf、基因所处的细胞组分方面的基因对共享的基因功能数目shared_cc、基因参与的生物学过程方面的基因对共享的基因功能数目shared_bp;
(2-3)特征的统计学分析:对于所有提取到的基因对特征进行假设检验,具体如下:
Ⅰ.抽取total对合成致死基因组合作为正样本,根据各正样本在网络G′中的共现情况,构造相同数量的负样本和随机样本:如果正样本中基因对的连接关系在网络G′中出现,则将满足此条件的基因对的数量记为overlap;如果正样本中基因对的连接关系不在网络G′中出现,则将满足此条件的基因对的数量记为cross;构建负样本时,满足
Figure FDA0003545218120000021
对基因组合在G′中具有连接关系,
Figure FDA0003545218120000022
对基因组合在G′中没有连接关系,而在构造随机样本时只从网络G′中随机抽取基因并组合为total对基因组合作为随机样本;
Ⅱ.计算特征:分别对正样本、负样本和随机样本计算网络特征和生物特征;
Ⅲ.特征差异检验:对以上三类样本的不同特征分别做两两样本类型之间的曼惠特尼u检验,选取用于后续预测任务的保留特征;
(3)模型算法设计模块:包括构造训练样本、预测模型设计;
(3-1)构造训练样本:正样本来自于收集到的合成致死基因组合;负样本的构造来自于网络G′中任意两个基因的随机组合,该组合不包含出现在正样本中的基因对;训练样本由同等数量的正负样本共同组成,将所有数据作为后续五折交叉验证的输入,即将所有数据按照原来正负样本的比例划分为五份,五份中的四份用于模型的训练,一份用于测试模型的预测效果;
(3-2)预测模型设计:采用随机森林,以决策树作为基学习器构造随机森林:
从划分好的用于训练的样本中随机采样m′个样本,其中每个样本的特征属性根据特征工程模块的过程进行构造,m′个样本训练一个决策树模型,训练过程中以信息增益为准则选取特征属性划分决策树的节点:当前样本集合D中特定特征a′的信息增益
Figure FDA0003545218120000031
当前样本集合D的信息熵Ent(D)=-∑k=1,2pklog2pk,pk表示第k类样本所占的比例,V表示特定特征a′的可能的取值数目,可能的取值为{a1,a2,…,aQ},Dq表示第q个分支节点包含了D中所有在特征a′上的取值为aq的样本,q=1,2,…,Q;重复进行W次采样,训练得到W棵决策树;
将生成的W棵决策树组成随机森林,然后将划分好的用于测试的样本放入训练好的随机森林模型中进行预测,根据所有决策树的分类结果投票决定最终的预测结果,投票规则为:
Figure FDA0003545218120000032
H(x)表示基因组合x的最终预测类别,0表示非合成致死基因组合,1表示合成致死基因组合;hw(x)表示基因组合x在决策树hw下的预测类别:当x在hw下的预测类别为合成致死基因组合时,
Figure FDA0003545218120000033
当x在hw下的预测类别为非合成致死基因组合时,
Figure FDA0003545218120000034
(4)结果评估模块:绘制ROC曲线和PR曲线,验证模型的预测效果;
ROC曲线的横坐标为假阳性率FPR,纵坐标为真阳性率TPR,
Figure FDA0003545218120000035
Figure FDA0003545218120000036
PR曲线的横坐标为召回率recall,纵坐标为精确率precision,
Figure FDA0003545218120000037
Figure FDA0003545218120000038
TP表示将测试集中的合成致死基因组合预测为合成致死基因组合的个数;FP表示将测试集中的非合成致死基因组合预测为合成致死基因组合的个数;FN表示将测试集中的合成致死基因组合预测为非合成致死基因组合的个数;TN表示将测试集中的非合成致死基因组合预测为非合成致死基因组合的个数;
根据模型算法设计模块的预测结果绘制ROC曲线和PR曲线;ROC曲线下的面积AUC越大,表示模型的预测性能越好;PR曲线下的面积AUPR越大,表示模型的预测性能越好;在最优预测模型下,完成所有未知基因组合是合成致死基因组合或不是合成致死基因组合的分类预测任务。
2.如权利要求1所述的基于生物网络与机器学习的合成致死基因组合预测系统,其特征在于:节点i的度中心性
Figure FDA0003545218120000041
j∈Naij,表示节点i和节点j直接相连的数量,N表示节点个数;网络G′的邻接矩阵A=(aij),如果节点i和节点j直接相连,则aij=1,否则aij=0;
节点i的接近中心性
Figure FDA0003545218120000042
dij表示节点i和节点j的距离;
节点i的介数中心性
Figure FDA0003545218120000043
σs′t′表示节点s′与节点t′之间最短路径条数,σs′t′(i)表示表示节点s′与节点t′之间通过节点i的最短路径条数;
EC=[EC(1),EC(2),…,EC(N)]T是网络G′的邻接矩阵A的最大特征值λ对应的特征向量,T表示转置,节点i的特征向量中心性
Figure FDA0003545218120000044
计算过程是通过给定初值EC(0),然后采用迭代算法计算:
Figure FDA0003545218120000045
直到EC(t″)=EC(t″-1),t″=1,2,…。
3.如权利要求1所述的基于生物网络与机器学习的合成致死基因组合预测系统,其特征在于:
基因组合(g1,g2)的基因对突变覆盖率
Figure FDA0003545218120000046
a和b分别表示在所有肿瘤样本中观测到基因g1和基因g2发生突变的样本数目,c表示在所有肿瘤样本中观测到基因g1和基因g2同时发生突变的样本数目,n表示所有观测的肿瘤样本数目;
基因组合(g1,g2)的基因对共突变率
Figure FDA0003545218120000047
基因组合(g1,g2)的基因对表达差异得分
Figure FDA0003545218120000048
Figure FDA00035452181200000411
Figure FDA00035452181200000410
分别表示对基因g1和基因g2在正常样本和肿瘤样本的表达量做t检验后得到的相应p值,t检验的t值
Figure FDA0003545218120000049
其中mean(Normal)表示所有正常样本的平均表达量,mean(Tumor)表示所有肿瘤样本的平均表达量;std(Normal)表示所有正常样本的表达量的标准差,std(Tumor)表示所有肿瘤样本的表达量的标准差;m表示正常样本的总数目;
Figure FDA0003545218120000051
Figure FDA0003545218120000052
分别表示基因g1和基因g2在正常样本和肿瘤样本中的表达差异倍数,
Figure FDA0003545218120000053
4.如权利要求1所述的基于生物网络与机器学习的合成致死基因组合预测系统,其特征在于,(2-3)中特征差异检验过程为:
①建立原假设:认为特定特征f在参与检验的A类样本和B类样本中无差别;
②样本排序:将样本容量分别为nA、nB的参与检验的A、B类样本的特定特征f的特征值合并为一个序列,并按由小到大的顺序对这些值进行排列,nA+nB个特征值分别获得一个按照值的大小排名的位置序号,若存在相同的特征值,则用它们位序的平均值;
③分别对来自A、B类样本的特征值的位序求和计算R值,得到RA和RB
④分别对来自A、B类样本的特征值计算检验统计量U值,
Figure FDA0003545218120000054
Figure FDA0003545218120000055
⑤选择UA和UB中小的U值UAorB与曼惠特尼u检验的临界值表中的临界值U′进行比较,如果UAorB>U′,则拒绝原假设,表明特征f在A、B类样本中呈现出差异,保留特征f用于后续预测任务,否则丢弃该特征。
CN202210246301.7A 2022-03-14 2022-03-14 基于生物网络与机器学习的合成致死基因组合预测系统 Active CN114566211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210246301.7A CN114566211B (zh) 2022-03-14 2022-03-14 基于生物网络与机器学习的合成致死基因组合预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210246301.7A CN114566211B (zh) 2022-03-14 2022-03-14 基于生物网络与机器学习的合成致死基因组合预测系统

Publications (2)

Publication Number Publication Date
CN114566211A true CN114566211A (zh) 2022-05-31
CN114566211B CN114566211B (zh) 2024-05-14

Family

ID=81720125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210246301.7A Active CN114566211B (zh) 2022-03-14 2022-03-14 基于生物网络与机器学习的合成致死基因组合预测系统

Country Status (1)

Country Link
CN (1) CN114566211B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114822698A (zh) * 2022-06-21 2022-07-29 华中农业大学 一种基于知识推理的生物学大样本数据集分析方法及系统
CN115240778A (zh) * 2022-08-10 2022-10-25 上海科技大学 基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质
CN115240777A (zh) * 2022-08-10 2022-10-25 上海科技大学 基于图神经网络的合成致死基因预测方法、装置、终端及介质
CN117912570A (zh) * 2024-03-19 2024-04-19 北京科技大学 一种基于基因共表达网络的分类特征确定方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017083716A2 (en) * 2015-11-13 2017-05-18 The Board Of Trustees Of The Leland Stanford Junior University Determination of synthetic lethal partners of cancer-specific alterations and methods of use thereof
US20170154163A1 (en) * 2015-12-01 2017-06-01 Ramot At Tel-Aviv University Ltd. Clinically relevant synthetic lethality based method and system for cancer prognosis and therapy
CN109994151A (zh) * 2019-01-23 2019-07-09 杭州师范大学 基于复杂网络与机器学习方法的肿瘤驱动基因预测系统
CN113299338A (zh) * 2021-06-08 2021-08-24 上海科技大学 基于知识图谱的合成致死基因对预测方法、系统、终端及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017083716A2 (en) * 2015-11-13 2017-05-18 The Board Of Trustees Of The Leland Stanford Junior University Determination of synthetic lethal partners of cancer-specific alterations and methods of use thereof
US20170154163A1 (en) * 2015-12-01 2017-06-01 Ramot At Tel-Aviv University Ltd. Clinically relevant synthetic lethality based method and system for cancer prognosis and therapy
CN109994151A (zh) * 2019-01-23 2019-07-09 杭州师范大学 基于复杂网络与机器学习方法的肿瘤驱动基因预测系统
CN113299338A (zh) * 2021-06-08 2021-08-24 上海科技大学 基于知识图谱的合成致死基因对预测方法、系统、终端及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁莉: "面向合成致死的基因对预测算法研究", 《硕士电子期刊》, 31 August 2021 (2021-08-31), pages 1 - 72 *
舒胜利: "基于网络分析的合成致死预测研究", 《硕士电子期刊》, 31 December 2022 (2022-12-31), pages 1 - 69 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114822698A (zh) * 2022-06-21 2022-07-29 华中农业大学 一种基于知识推理的生物学大样本数据集分析方法及系统
CN114822698B (zh) * 2022-06-21 2022-09-13 华中农业大学 一种基于知识推理的生物学大样本数据集分析方法及系统
CN115240778A (zh) * 2022-08-10 2022-10-25 上海科技大学 基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质
CN115240777A (zh) * 2022-08-10 2022-10-25 上海科技大学 基于图神经网络的合成致死基因预测方法、装置、终端及介质
CN115240777B (zh) * 2022-08-10 2024-02-02 上海科技大学 基于图神经网络的合成致死基因预测方法、装置、终端及介质
CN115240778B (zh) * 2022-08-10 2024-03-26 上海科技大学 基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质
CN117912570A (zh) * 2024-03-19 2024-04-19 北京科技大学 一种基于基因共表达网络的分类特征确定方法及系统
CN117912570B (zh) * 2024-03-19 2024-05-14 北京科技大学 一种基于基因共表达网络的分类特征确定方法及系统

Also Published As

Publication number Publication date
CN114566211B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN114566211A (zh) 基于生物网络与机器学习的合成致死基因组合预测系统
CN104762402B (zh) 超快速检测人类基因组单碱基突变和微插入缺失的方法
Su et al. Interaction trees with censored survival data
CN109994151B (zh) 基于复杂网络与机器学习方法的肿瘤驱动基因预测系统
CN109411015A (zh) 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
CN105653846A (zh) 基于集成的相似性度量和双向随机游走的药物重定位方法
CN108351917A (zh) 用于高精度识别变体的系统和方法
Talbi et al. Comparison of population based metaheuristics for feature selection: Application to microarray data classification
CN108038352B (zh) 结合差异化分析和关联规则挖掘全基因组关键基因的方法
EP4150639A1 (en) Clinical predictor based on multiple machine learning models
KR20180071243A (ko) 세포 라인 유전체학으로부터 약물 반응의 환자-특정 예측을 위한 시스템 및 방법
Golugula et al. Evaluating feature selection strategies for high dimensional, small sample size datasets
CN115620812B (zh) 基于重采样的特征选择方法、装置、电子设备和存储介质
CN116364179A (zh) 结直肠癌预后标志物筛选系统及方法、结直肠癌预后风险评估系统
CN116864011A (zh) 基于多组学数据的结直肠癌分子标志物识别方法及系统
Tan et al. A hierarchical graph convolution network for representation learning of gene expression data
CN106874705A (zh) 基于转录组数据确定肿瘤标记物的方法
Tai et al. Bayice: a Bayesian hierarchical model for semireference-based deconvolution of bulk transcriptomic data
US20240194294A1 (en) Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same
Devaux et al. Random survival forests for competing risks with multivariate longitudinal endogenous covariates
El Rahman et al. Machine learning model for breast cancer prediction
WO2021243401A9 (en) Methods of predicting cancer progression
CN108733683A (zh) 一种基于数据摸排探索事件线索的方法及装置
Marinos et al. A Survey of Survival Analysis Techniques.
CN112435133A (zh) 基于图分析的医保联合欺诈检测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant