CN114566211A - 基于生物网络与机器学习的合成致死基因组合预测系统 - Google Patents
基于生物网络与机器学习的合成致死基因组合预测系统 Download PDFInfo
- Publication number
- CN114566211A CN114566211A CN202210246301.7A CN202210246301A CN114566211A CN 114566211 A CN114566211 A CN 114566211A CN 202210246301 A CN202210246301 A CN 202210246301A CN 114566211 A CN114566211 A CN 114566211A
- Authority
- CN
- China
- Prior art keywords
- gene
- network
- samples
- synthetic lethal
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108700005090 Lethal Genes Proteins 0.000 title claims abstract description 83
- 238000010801 machine learning Methods 0.000 title claims abstract description 12
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 258
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 201000011510 cancer Diseases 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000013461 design Methods 0.000 claims abstract description 14
- 238000010276 construction Methods 0.000 claims abstract description 10
- 230000000694 effects Effects 0.000 claims abstract description 8
- 238000011156 evaluation Methods 0.000 claims abstract description 8
- 238000007619 statistical method Methods 0.000 claims abstract description 7
- 230000014509 gene expression Effects 0.000 claims description 45
- 238000012360 testing method Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 25
- 230000035772 mutation Effects 0.000 claims description 24
- 238000003066 decision tree Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 12
- 206010064571 Gene mutation Diseases 0.000 claims description 11
- 102000004169 proteins and genes Human genes 0.000 claims description 11
- 238000007637 random forest analysis Methods 0.000 claims description 11
- 230000001665 lethal effect Effects 0.000 claims description 7
- 230000006916 protein interaction Effects 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 231100000518 lethal Toxicity 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012353 t test Methods 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000031018 biological processes and functions Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 230000004879 molecular function Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 210000003850 cellular structure Anatomy 0.000 claims description 2
- 238000010998 test method Methods 0.000 claims 1
- 229940079593 drug Drugs 0.000 abstract description 6
- 239000003814 drug Substances 0.000 abstract description 6
- 238000011160 research Methods 0.000 abstract description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract 1
- 230000010354 integration Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 abstract 1
- 231100000225 lethality Toxicity 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 108091007743 BRCA1/2 Proteins 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 108700039887 Essential Genes Proteins 0.000 description 1
- 229920000776 Poly(Adenosine diphosphate-ribose) polymerase Polymers 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000001093 anti-cancer Effects 0.000 description 1
- 239000002246 antineoplastic agent Substances 0.000 description 1
- 229940041181 antineoplastic drug Drugs 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000030833 cell death Effects 0.000 description 1
- 230000010261 cell growth Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- YQGOJNYOYNNSMM-UHFFFAOYSA-N eosin Chemical compound [Na+].OC(=O)C1=CC=CC=C1C1=C2C=C(Br)C(=O)C(Br)=C2OC2=C(Br)C(O)=C(Br)C=C21 YQGOJNYOYNNSMM-UHFFFAOYSA-N 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- 230000005748 tumor development Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Genetics & Genomics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于生物网络与机器学习的合成致死基因组合预测系统。本发明包括数据采集和预处理模块、特征工程模块、模型算法设计模块、结果评估模块。数据采集和预处理模块包括数据采集、构建基因网络和数据预处理三个子任务,为后续预测任务提供数据基础。特征工程模块提取的特征包基因对网络特征和生物特征;特征提取后,对特征进行相应的统计学分析。模型算法设计模块包括构造训练样本、预测模型设计。结果评估模块是通过绘制ROC曲线和PR曲线,验证模型的预测效果。本发明从数据挖掘的角度研究合成致死基因组合,通过特征整合与处理等方法实现合成致死基因组合的预测。本发明对潜在合成致死基因组合进行预测,加深了对癌症靶向药物的认识。
Description
技术领域
本发明属于数据分析领域,具体是肿瘤数据研究领域,涉及一种基于生物网络与机器学习的合成致死基因组合预测系统。
背景技术
根据世界卫生组织下属的国际癌症研究机构发布的《2020年全球癌症负担状况估计报告》可知,随着全球人口的快速增长和人口老龄化的进一步加剧,全球癌症发病率和死亡率正在快速上升,癌症成为全球的重大公共卫生问题。癌症防治形势变得不容乐观,癌症的诊治方案和相关药物的研发也变得越发紧迫。
合成致死,指的是两个非必要基因的双突变造成细胞死亡,而两基因分别突变却不会对细胞生长有影响的生物学现象。在癌症的临床救治中,常用的治疗方法(如放疗和化疗等)对于人体体细胞毫无选择性,杀死癌细胞的同时也会对正常组织造成严重损害。在这样的情况下,利用合成致死现象的抗癌策略被提出来:如果一个基因的蛋白质产物与一个经常发生肿瘤特异性突变的基因具有合成致死作用,那么该蛋白质将是一个很好的抗癌药物靶点。事实上,基于合成致死的靶向治疗在临床上已经有了非常成功的案例,如基于BRCA1/2和PARP的合成致死作用而设计的奥拉帕利、尼拉帕利、帕米帕利等药物已经成功通过批准并成为乳腺癌治疗的特效药。由此可见,“利用合成致死原理设计靶向药从而治疗癌症”的观点成为药物研发和癌症治疗领域的一个重要突破,为癌症的新型治疗带来了曙光。
生物分子大多通过交互作用形成复杂的生物网络结构来发挥生物功能,借助复杂网络的背景可以为合成致死基因组合的识别提供一种全局的视角和全新的思路。肿瘤的形成来源于基因的突变带来的异常表达,基因网络能够很好的反映基因-基因之间的复杂关系;同时网络中以节点形式表示的基因有着不同细胞系背景下的特异性表达水平和表达模式,因此,将基因表达和基因突变信息融入到基因-基因网络中可以更好的揭示合成致死基因组合在整个基因网络中的特点。在再现合成致死基因组合在网络中的拓扑结构和表达属性的基础上,挖掘其背后的复杂作用机理及其功能信息,能够更好的完成合成致死基因组合的识别任务。
发明内容
本发明的目的在于消除生物实验的低效率,提供一种基于生物网络与机器学习的合成致死基因组合预测系统,整合基因网络数据、基因功能数据、基因突变和表达数据,在考虑不同类型肿瘤产生的生物学背景的情况下,引入节点对在网络中的结构性指标、节点对在网络中的表达模式属性,借助机器学习预测算法,发现合成致死基因组合。
本发明包括数据采集和预处理模块、特征工程模块、模型算法设计模块、结果评估模块,具体如下:
(1)数据采集和预处理模块包括数据采集、构建基因网络和数据预处理三个子任务,其中:
(1-1)数据采集:采集蛋白质相互作用关系数据、基因功能注释数据、不同癌症背景下的基因表达数据、基因突变数据、合成致死基因组合数据;
(1-2)构建基因网络:根据采集的蛋白质相互作用关系数据,构建基因网络G=(V,E);V表示节点集,节点代表编码蛋白的基因;E表示边集,边代表两个基因所编码蛋白质之间的相互作用关系;将得到的最大连通子图作为后续分析的基础,记为基因网络G′。
(1-3)数据预处理:对于采集的基因表达数据、基因突变数据和基因功能注释数据进行筛选,保留所有在基因网络G′中出现的基因信息;同时对采集的合成致死基因组合数据进行筛选,剔除所有不在基因网络G′中的合成致死基因组合,并且将同时标记为正负样本的基因组合剔除,剩下来的合成致死基因组合作为后续预测的样本来源。
(2)特征工程模块:提取的特征包括两类,分别是基因对网络特征和基因对生物特征;特征提取后,对特征进行相应的统计学分析;
(2-1)基因对网络特征包括共同的一阶、二阶及三阶邻居数目,最短路径,平均度中心性,平均接近中心性,平均介数中心性,平均特征向量中心性,以及关于节点连接关系的两个指标,分别是内聚指标cohesion和附着指标adhesion;
a.共同邻居数目:任意两个基因在网络G′中共有的邻居数目;
b.最短路径:任意两个基因在网络G′中从一个节点走到另一个节点所需要经历的最少连边数;
c.内聚指标cohesion:使得任意两个基因在网络G′中处于两个独立子图所需要去除的最小的边数目;
d.附着指标adhesion:使得任意两个基因在网络G′中处于两个独立子图所需要去除的最小的节点数目;
e.平均度中心性:任意两个基因在网络G′中的度中心性的平均值;节点i的度中心性i≠j;∑j∈Naij,表示节点i和节点j直接相连的数量,N表示节点个数;网络G′的邻接矩阵A=(aij),如果节点i和节点j直接相连,则aij=1,否则aij=0;
g.平均介数中心性:任意两个基因在网络G′中的介数中心性的平均值;节点i的介数中心性s′≠t′≠i;σs′t′表示节点s′与节点t′之间最短路径条数,σs′t′(i)表示表示节点s′与节点t′之间通过节点i的最短路径条数;
h.平均特征向量中心性:任意两个基因在网络G′中的特征向量中心性的平均值;EC=[EC(1),EC(2),…,EC(N)]T是网络G′的邻接矩阵A的最大特征值λ对应的特征向量,T表示转置,节点i的特征向量中心性i≠j;计算过程是通过给定初值EC(0),然后采用迭代算法计算:直到EC(t″)=EC(t″-1),t″=1,2,…。
(2-2)基因对生物特征包括基因对突变覆盖率、基因对共突变率、基因对表达差异得分、基因对共享的基因功能数目;
A.基因对突变覆盖率:为一对基因中至少一个基因有突变的样本占总样本的比例,基因组合(g1,g2)的基因对突变覆盖率a和b分别表示在所有肿瘤样本中观测到基因g1和基因g2发生突变的样本数目,c表示在所有肿瘤样本中观测到基因g1和基因g2同时发生突变的样本数目,n表示所有观测的肿瘤样本数目;
C.基因对表达差异得分:基因组合(g1,g2)的基因对表达差异得分 和分别表示对基因g1和基因g2在正常样本和肿瘤样本的表达量做t检验后得到的相应p值,t检验的t值其中mean(Normal)表示所有正常样本的平均表达量,mean(Tumor)表示所有肿瘤样本的平均表达量;std(Normal)表示所有正常样本的表达量的标准差,std(Tumor)表示所有肿瘤样本的表达量的标准差;m表示正常样本的总数目;和分别表示基因g1和基因g2在正常样本和肿瘤样本中的表达差异倍数,
D.基因对共享的基因功能数目:包括基因执行的分子功能方面的基因对共享的基因功能数目shared_mf、基因所处的细胞组分方面的基因对共享的基因功能数目shared_cc、基因参与的生物学过程方面的基因对共享的基因功能数目shared_bp。
(2-3)特征的统计学分析:对于所有提取到的基因对特征进行假设检验,具体如下:
Ⅰ.抽取total对合成致死基因组合作为正样本,根据各正样本在网络G′中的共现情况,构造相同数量的负样本和随机样本:如果正样本中基因对的连接关系在网络G′中出现,则将满足此条件的基因对的数量记为overlap;如果正样本中基因对的连接关系不在网络G′中出现,则将满足此条件的基因对的数量记为cross;构建负样本时,满足对基因组合在G′中具有连接关系,对基因组合在G′中没有连接关系,而在构造随机样本时只从网络G′中随机抽取基因并组合为total对基因组合作为随机样本;
Ⅱ.计算特征:分别对正样本、负样本和随机样本计算网络特征和生物特征;
Ⅲ.特征差异检验:对以上三类样本的不同特征分别做两两样本类型之间的曼惠特尼u检验,检验过程为:
①建立原假设:认为特定特征f在参与检验的A类样本和B类样本中无差别;
②样本排序:将样本容量分别为nA、nB的参与检验的A、B类样本的特定特征f的特征值合并为一个序列,并按由小到大的顺序对这些值进行排列,nA+nB个特征值分别获得一个按照值的大小排名的位置序号,若存在相同的特征值,则用它们位序的平均值;
③分别对来自A、B类样本的特征值的位序求和计算R值,得到RA和RB;
⑤选择UA和UB中小的U值UAorB与曼惠特尼u检验的临界值表中的临界值U′进行比较,如果UAorB>U′,则拒绝原假设,表明特征f在A、B类样本中呈现出差异,保留特征f用于后续预测任务,否则丢弃该特征。
(3)模型算法设计模块:包括构造训练样本、预测模型设计。
(3-1)构造训练样本:正样本来自于收集到的合成致死基因组合;负样本的构造来自于网络G′中任意两个基因的随机组合,该组合不包含出现在正样本中的基因对;训练样本由同等数量的正负样本共同组成,将所有数据作为后续五折交叉验证的输入,即将所有数据按照原来正负样本的比例划分为五份,五份中的四份用于模型的训练,一份用于测试模型的预测效果。
(3-2)预测模型设计:采用随机森林,以决策树作为基学习器构造随机森林:
从划分好的用于训练的样本中随机采样m′个样本,其中每个样本的特征属性根据特征工程模块的过程进行构造,m′个样本训练一个决策树模型,训练过程中以信息增益为准则选取特征属性划分决策树的节点:当前样本集合D中特定特征a′的信息增益当前样本集合D的信息熵Ent(D)=-∑k=1,2pklog2pk,pk表示第k类样本所占的比例,V表示特定特征a′的可能的取值数目,可能的取值为{a1,a2,…,aQ},Dq表示第q个分支节点包含了D中所有在特征a′上的取值为aq的样本,q=1,2,…,Q;重复进行W次采样,训练得到W棵决策树。
将生成的W棵决策树组成随机森林,然后将划分好的用于测试的样本放入训练好的随机森林模型中进行预测,根据所有决策树的分类结果投票决定最终的预测结果,投票规则为:w=1,2,…,W;H(x)表示基因组合x的最终预测类别,0表示非合成致死基因组合,1表示合成致死基因组合;hw(x)表示基因组合x在决策树hw下的预测类别:当x在hw下的预测类别为合成致死基因组合时,当x在hw下的预测类别为非合成致死基因组合时,
(4)结果评估模块:绘制ROC曲线和PR曲线,验证模型的预测效果;
TP表示将测试集中的合成致死基因组合预测为合成致死基因组合的个数;FP表示将测试集中的非合成致死基因组合预测为合成致死基因组合的个数;FN表示将测试集中的合成致死基因组合预测为非合成致死基因组合的个数;TN表示将测试集中的非合成致死基因组合预测为非合成致死基因组合的个数。
根据模型算法设计模块的预测结果绘制ROC曲线和PR曲线;ROC曲线下的面积AUC越大,表示模型的预测性能越好;PR曲线下的面积AUPR越大,表示模型的预测性能越好;在最优预测模型下,完成所有未知基因组合是合成致死基因组合或不是合成致死基因组合的分类预测任务。
本发明从数据挖掘的角度研究合成致死基因组合,通过数据整理和特征提取,结合基因对在基因网络中拓扑特征以及基因对在基因表达和基因突变下的异常模式,借助机器学习实现合成致死基因组合的预测。因此,本发明能有效分析肿瘤数据,预测合成致死基因组合,为生物学筛选缩小鉴定范围,为药物设计和临床治疗提供一定的参考,从一定程度上促进肿瘤治疗工作上的发展。
附图说明
图1是本发明系统示意图。
具体实施方式
以下结合附图和具体实施方案,对本发明做进一步说明。
现有15471个蛋白质形成的170631条蛋白质相互作用数据、合成致死基因组合数据、基因功能注释数据以及包括乳腺癌在内的33种癌症患者的基因突变和基因表达数据。
如图1所示,一种基于生物网络与机器学习的合成致死基因组合预测系统,包括数据采集和预处理模块、特征工程模块、模型算法设计模块、结果评估模块。
(1)数据采集和预处理模块包括数据采集、构建基因网络和数据预处理三个子任务,其中:
(1-1)数据采集:采集蛋白质相互作用关系数据、基因功能注释数据、不同癌症背景下的基因表达数据、基因突变数据、合成致死基因组合数据;
(1-2)构建基因网络:根据采集的蛋白质相互作用关系数据,构建基因网络G=(V,E);V表示节点集,节点代表编码蛋白的基因;E表示边集,边代表两个基因所编码蛋白质之间的相互作用关系;将得到的最大连通子图作为后续分析的基础,记为基因网络G′。
(1-3)数据预处理:对于采集的基因表达数据、基因突变数据和基因功能注释数据进行筛选,保留所有在基因网络G′中出现的基因信息;同时对采集的合成致死基因组合数据进行筛选,剔除所有不在基因网络G′中的合成致死基因组合,并且将同时标记为正负样本的基因组合剔除,剩下来的合成致死基因组合作为后续预测的样本来源。
(2)特征工程模块:提取的特征包括两类,分别是基因对网络特征和基因对生物特征;特征提取后,为了证明提取特征的合理性,对特征进行相应的统计学分析;
(2-1)基因对网络特征包括共同的一阶、二阶及三阶邻居数目,最短路径,平均度中心性,平均接近中心性,平均介数中心性,平均特征向量中心性,以及关于节点连接关系的两个指标,分别是内聚指标cohesion和附着指标adhesion;
a.共同邻居数目:任意两个基因在网络G′中共有的邻居数目;
b.最短路径:任意两个基因在网络G′中从一个节点走到另一个节点所需要经历的最少连边数;
c.内聚指标cohesion:使得任意两个基因在网络G′中处于两个独立子图所需要去除的最小的边数目;
d.附着指标adhesion:使得任意两个基因在网络G′中处于两个独立子图所需要去除的最小的节点数目;
e.平均度中心性:任意两个基因在网络G′中的度中心性的平均值;度中心性反映节点在网络中重要程度的最直接指标,节点i的度中心性i≠j;∑j∈Naij,表示节点i和节点j直接相连的数量,N表示节点个数;网络G′的邻接矩阵A=(aij),如果节点i和节点j直接相连,则aij=1,否则aij=0;
g.平均介数中心性:任意两个基因在网络G′中的介数中心性的平均值;介数中心性反映节点在网络中对其他节点的控制能力,节点i的介数中心性s′≠t′≠i;σs′t′表示节点s′与节点t′之间最短路径条数,σs′t′(i)表示表示节点s′与节点t′之间通过节点i的最短路径条数;
h.平均特征向量中心性:任意两个基因在网络G′中的特征向量中心性的平均值;特征向量中心性反映节点在网络中与连接良好的节点的连接程度;
EC=[EC(1),EC(2),…,EC(N)]T是网络G′的邻接矩阵A的最大特征值λ对应的特征向量,T表示转置,节点i的特征向量中心性i≠j;计算过程是通过给定初值EC(0),然后采用迭代算法计算:直到EC(t″)=EC(t″-1),t″=1,2,…。
(2-2)基因对生物特征包括基因对突变覆盖率、基因对共突变率、基因对表达差异得分、基因对共享的基因功能数目;
A.基因对突变覆盖率:突变对于肿瘤的发生和进一步恶化起着至关重要的作用,同时,基因对突变覆盖率在鉴别合成致死基因组合方面的作用已有证明。基因对突变覆盖率为一对基因中至少一个基因有突变的样本占总样本的比例,基因组合(g1,g2)的基因对突变覆盖率a和b分别表示在所有肿瘤样本中观测到基因g1和基因g2发生突变的样本数目,c表示在所有肿瘤样本中观测到基因g1和基因g2同时发生突变的样本数目,n表示所有观测的肿瘤样本数目;
B.基因对共突变率:根据合成致死的定义可以认识到两个基因同时突变可以看作是合成致死现象发生的必要条件,对于鉴别合成致死基因对有着重要的参考作用。基因对共突变率为一对基因中两个基因同时突变的样本占总样本的比例,基因组合(g1,g2)的基因对共突变率
C.基因对表达差异得分:肿瘤发生的根源来源于突变,突变导致基因的不正常表达,出于这样的连锁反应,通过观察异常表达的基因可以大致锁定与这些基因相对应的蛋白质产物,它们作为药物靶标的可能性相对于正常表达的蛋白质产物来说更高,因此,基因的表达水平及表达模式对于合成致死基因组合的识别有着一定的参考作用。基因组合(g1,g2)的基因对表达差异得分 和分别表示对基因g1和基因g2在正常样本和肿瘤样本的表达量做t检验后得到的相应p值,t检验的t值其中mean(Normal)表示所有正常样本的平均表达量,mean(Tumor)表示所有肿瘤样本的平均表达量;std(Normal)表示所有正常样本的表达量的标准差,std(Tumor)表示所有肿瘤样本的表达量的标准差;m表示正常样本的总数目;和分别表示基因g1和基因g2在正常样本和肿瘤样本中的表达差异倍数,
D.基因对共享的基因功能数目:根据基因表达产物参与的代谢过程的不同,可以对基因的功能进行相应的分类。包括基因执行的分子功能方面的基因对共享的基因功能数目shared_mf、基因所处的细胞组分方面的基因对共享的基因功能数目shared_cc、基因参与的生物学过程方面的基因对共享的基因功能数目shared_bp。
(2-3)特征的统计学分析:对于所有提取到的基因对特征进行假设检验,以检查提取特征是否在合成致死基因对和非合成致死基因对中显示出一定的差异性,从而保证特征的可用性和有效性;具体如下:
Ⅰ.抽取total对合成致死基因组合作为正样本,根据各正样本在网络G′中的共现情况,构造相同数量的负样本和随机样本:如果正样本中基因对的连接关系在网络G′中出现,则将满足此条件的基因对的数量记为overlap;如果正样本中基因对的连接关系不在网络G′中出现,则将满足此条件的基因对的数量记为cross;构建负样本时,满足对基因组合在G′中具有连接关系,对基因组合在G′中没有连接关系,而在构造随机样本时不需要考虑这一情况,只需从网络G′中随机抽取基因并组合为total对基因组合作为随机样本即可;
Ⅱ.计算特征:分别对正样本、负样本和随机样本计算网络特征和生物特征;
Ⅲ.特征差异检验:对以上三类样本的不同特征分别做两两样本类型之间的曼惠特尼u检验,检验过程为:
①建立原假设:认为特定特征f在参与检验的A类样本和B类样本中无差别;
②样本排序:将样本容量分别为nA、nB的参与检验的A、B类样本的特定特征f的特征值合并为一个序列,并按由小到大的顺序对这些值进行排列,nA+nB个特征值分别获得一个按照值的大小排名的位置序号,若存在相同的特征值,则用它们位序的平均值;
③分别对来自A、B类样本的特征值的位序求和计算R值,得到RA和RB;
⑤选择UA和UB中小的U值UAorB与曼惠特尼u检验的临界值表中的临界值U′进行比较,如果UAorB>U′,则拒绝原假设,表明特征f在A、B类样本中呈现出差异,保留特征f用于后续预测任务,否则丢弃该特征。
(3)模型算法设计模块:包括构造训练样本、预测模型设计。
(3-1)构造训练样本:正样本来自于收集到的合成致死基因组合;对于负样本而言,并没有公开的数据平台提供负样本,故负样本的构造来自于网络G′中任意两个基因的随机组合,该组合不包含出现在正样本中的基因对;训练样本由同等数量的正负样本共同组成,将所有数据作为后续五折交叉验证的输入,即将所有数据按照原来正负样本的比例划分为五份,五份中的四份用于模型的训练,一份用于测试模型的预测效果。
(3-2)预测模型设计:采用随机森林,以决策树作为基学习器构造随机森林,过程如下:
从划分好的用于训练的样本中随机采样m′个样本,其中每个样本的特征属性根据特征工程模块的过程进行构造,m′个样本训练一个决策树模型,训练过程中以信息增益为准则选取特征属性划分决策树的节点:当前样本集合D中特定特征a′的信息增益当前样本集合D的信息熵Ent(D)=-∑k=1,2pklog2pk,pk表示第k类样本所占的比例,V表示特定特征a′的可能的取值数目,可能的取值为{a1,a2,…,aQ},Dq表示第q个分支节点包含了D中所有在特征a′上的取值为aq的样本,q=1,2,…,Q;重复进行W次采样,训练得到W棵决策树。
将生成的W棵决策树组成随机森林,然后将划分好的用于测试的样本放入训练好的随机森林模型中进行预测,根据所有决策树的分类结果投票决定最终的预测结果,投票规则为:w=1,2,…,W;H(x)表示基因组合x的最终预测类别,0表示非合成致死基因组合,1表示合成致死基因组合;hw(x)表示基因组合x在决策树hw下的预测类别:当x在hw下的预测类别为合成致死基因组合时,当x在hw下的预测类别为非合成致死基因组合时,
(4)结果评估模块:绘制ROC曲线和PR曲线验证模型的预测效果;
TP表示将测试集中的合成致死基因组合预测为合成致死基因组合的个数;FP表示将测试集中的非合成致死基因组合预测为合成致死基因组合的个数;FN表示将测试集中的合成致死基因组合预测为非合成致死基因组合的个数;TN表示将测试集中的非合成致死基因组合预测为非合成致死基因组合的个数。
根据模型算法设计模块的预测结果绘制ROC曲线和PR曲线;ROC曲线下的面积AUC越大,表示模型的预测性能越好;PR曲线下的面积AUPR越大,表示模型的预测性能越好;在最优预测模型下,完成所有未知基因组合是合成致死基因组合或不是合成致死基因组合的分类预测任务。
Claims (4)
1.基于生物网络与机器学习的合成致死基因组合预测系统,包括数据采集和预处理模块、特征工程模块、模型算法设计模块、结果评估模块,其特征在于:
(1)数据采集和预处理模块包括数据采集、构建基因网络和数据预处理三个子任务,其中:
(1-1)数据采集:采集蛋白质相互作用关系数据、基因功能注释数据、不同癌症背景下的基因表达数据、基因突变数据、合成致死基因组合数据;
(1-2)构建基因网络:根据采集的蛋白质相互作用关系数据,构建基因网络G=(V,E);V表示节点集,节点代表编码蛋白的基因;E表示边集,边代表两个基因所编码蛋白质之间的相互作用关系;将得到的最大连通子图作为后续分析的基础,记为基因网络G′;
(1-3)数据预处理:对于采集的基因表达数据、基因突变数据和基因功能注释数据进行筛选,保留所有在基因网络G′中出现的基因信息;同时对采集的合成致死基因组合数据进行筛选,剔除所有不在基因网络G′中的合成致死基因组合,并且将同时标记为正负样本的基因组合剔除,剩下来的合成致死基因组合作为后续预测的样本来源;
(2)特征工程模块:提取的特征包括两类,分别是基因对网络特征和基因对生物特征;特征提取后,对特征进行相应的统计学分析;
(2-1)基因对网络特征包括共同的一阶、二阶及三阶邻居数目,最短路径,平均度中心性,平均接近中心性,平均介数中心性,平均特征向量中心性,以及关于节点连接关系的两个指标,分别是内聚指标cohesion和附着指标adhesion;
a.共同邻居数目:任意两个基因在网络G′中共有的邻居数目;
b.最短路径:任意两个基因在网络G′中从一个节点走到另一个节点所需要经历的最少连边数;
c.内聚指标cohesion:使得任意两个基因在网络G′中处于两个独立子图所需要去除的最小的边数目;
d.附着指标adhesion:使得任意两个基因在网络G′中处于两个独立子图所需要去除的最小的节点数目;
e.平均度中心性:任意两个基因在网络G′中的度中心性的平均值;
f.平均接近中心性:任意两个基因在网络G′中的接近中心性的平均值;
g.平均介数中心性:任意两个基因在网络G′中的介数中心性的平均值;
h.平均特征向量中心性:任意两个基因在网络G′中的特征向量中心性的平均值;
(2-2)基因对生物特征包括基因对突变覆盖率、基因对共突变率、基因对表达差异得分、基因对共享的基因功能数目;
所述的基因对突变覆盖率为一对基因中至少一个基因有突变的样本占总样本的比例;
所述的基因对共突变率为一对基因中两个基因同时突变的样本占总样本的比例;
所述的基因对共享的基因功能数目包括基因执行的分子功能方面的基因对共享的基因功能数目shared_mf、基因所处的细胞组分方面的基因对共享的基因功能数目shared_cc、基因参与的生物学过程方面的基因对共享的基因功能数目shared_bp;
(2-3)特征的统计学分析:对于所有提取到的基因对特征进行假设检验,具体如下:
Ⅰ.抽取total对合成致死基因组合作为正样本,根据各正样本在网络G′中的共现情况,构造相同数量的负样本和随机样本:如果正样本中基因对的连接关系在网络G′中出现,则将满足此条件的基因对的数量记为overlap;如果正样本中基因对的连接关系不在网络G′中出现,则将满足此条件的基因对的数量记为cross;构建负样本时,满足对基因组合在G′中具有连接关系,对基因组合在G′中没有连接关系,而在构造随机样本时只从网络G′中随机抽取基因并组合为total对基因组合作为随机样本;
Ⅱ.计算特征:分别对正样本、负样本和随机样本计算网络特征和生物特征;
Ⅲ.特征差异检验:对以上三类样本的不同特征分别做两两样本类型之间的曼惠特尼u检验,选取用于后续预测任务的保留特征;
(3)模型算法设计模块:包括构造训练样本、预测模型设计;
(3-1)构造训练样本:正样本来自于收集到的合成致死基因组合;负样本的构造来自于网络G′中任意两个基因的随机组合,该组合不包含出现在正样本中的基因对;训练样本由同等数量的正负样本共同组成,将所有数据作为后续五折交叉验证的输入,即将所有数据按照原来正负样本的比例划分为五份,五份中的四份用于模型的训练,一份用于测试模型的预测效果;
(3-2)预测模型设计:采用随机森林,以决策树作为基学习器构造随机森林:
从划分好的用于训练的样本中随机采样m′个样本,其中每个样本的特征属性根据特征工程模块的过程进行构造,m′个样本训练一个决策树模型,训练过程中以信息增益为准则选取特征属性划分决策树的节点:当前样本集合D中特定特征a′的信息增益当前样本集合D的信息熵Ent(D)=-∑k=1,2pklog2pk,pk表示第k类样本所占的比例,V表示特定特征a′的可能的取值数目,可能的取值为{a1,a2,…,aQ},Dq表示第q个分支节点包含了D中所有在特征a′上的取值为aq的样本,q=1,2,…,Q;重复进行W次采样,训练得到W棵决策树;
将生成的W棵决策树组成随机森林,然后将划分好的用于测试的样本放入训练好的随机森林模型中进行预测,根据所有决策树的分类结果投票决定最终的预测结果,投票规则为:H(x)表示基因组合x的最终预测类别,0表示非合成致死基因组合,1表示合成致死基因组合;hw(x)表示基因组合x在决策树hw下的预测类别:当x在hw下的预测类别为合成致死基因组合时,当x在hw下的预测类别为非合成致死基因组合时,
(4)结果评估模块:绘制ROC曲线和PR曲线,验证模型的预测效果;
TP表示将测试集中的合成致死基因组合预测为合成致死基因组合的个数;FP表示将测试集中的非合成致死基因组合预测为合成致死基因组合的个数;FN表示将测试集中的合成致死基因组合预测为非合成致死基因组合的个数;TN表示将测试集中的非合成致死基因组合预测为非合成致死基因组合的个数;
根据模型算法设计模块的预测结果绘制ROC曲线和PR曲线;ROC曲线下的面积AUC越大,表示模型的预测性能越好;PR曲线下的面积AUPR越大,表示模型的预测性能越好;在最优预测模型下,完成所有未知基因组合是合成致死基因组合或不是合成致死基因组合的分类预测任务。
2.如权利要求1所述的基于生物网络与机器学习的合成致死基因组合预测系统,其特征在于:节点i的度中心性∑j∈Naij,表示节点i和节点j直接相连的数量,N表示节点个数;网络G′的邻接矩阵A=(aij),如果节点i和节点j直接相连,则aij=1,否则aij=0;
3.如权利要求1所述的基于生物网络与机器学习的合成致死基因组合预测系统,其特征在于:
基因组合(g1,g2)的基因对突变覆盖率a和b分别表示在所有肿瘤样本中观测到基因g1和基因g2发生突变的样本数目,c表示在所有肿瘤样本中观测到基因g1和基因g2同时发生突变的样本数目,n表示所有观测的肿瘤样本数目;
4.如权利要求1所述的基于生物网络与机器学习的合成致死基因组合预测系统,其特征在于,(2-3)中特征差异检验过程为:
①建立原假设:认为特定特征f在参与检验的A类样本和B类样本中无差别;
②样本排序:将样本容量分别为nA、nB的参与检验的A、B类样本的特定特征f的特征值合并为一个序列,并按由小到大的顺序对这些值进行排列,nA+nB个特征值分别获得一个按照值的大小排名的位置序号,若存在相同的特征值,则用它们位序的平均值;
③分别对来自A、B类样本的特征值的位序求和计算R值,得到RA和RB;
⑤选择UA和UB中小的U值UAorB与曼惠特尼u检验的临界值表中的临界值U′进行比较,如果UAorB>U′,则拒绝原假设,表明特征f在A、B类样本中呈现出差异,保留特征f用于后续预测任务,否则丢弃该特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210246301.7A CN114566211B (zh) | 2022-03-14 | 2022-03-14 | 基于生物网络与机器学习的合成致死基因组合预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210246301.7A CN114566211B (zh) | 2022-03-14 | 2022-03-14 | 基于生物网络与机器学习的合成致死基因组合预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114566211A true CN114566211A (zh) | 2022-05-31 |
CN114566211B CN114566211B (zh) | 2024-05-14 |
Family
ID=81720125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210246301.7A Active CN114566211B (zh) | 2022-03-14 | 2022-03-14 | 基于生物网络与机器学习的合成致死基因组合预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114566211B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114822698A (zh) * | 2022-06-21 | 2022-07-29 | 华中农业大学 | 一种基于知识推理的生物学大样本数据集分析方法及系统 |
CN115240778A (zh) * | 2022-08-10 | 2022-10-25 | 上海科技大学 | 基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质 |
CN115240777A (zh) * | 2022-08-10 | 2022-10-25 | 上海科技大学 | 基于图神经网络的合成致死基因预测方法、装置、终端及介质 |
CN117912570A (zh) * | 2024-03-19 | 2024-04-19 | 北京科技大学 | 一种基于基因共表达网络的分类特征确定方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017083716A2 (en) * | 2015-11-13 | 2017-05-18 | The Board Of Trustees Of The Leland Stanford Junior University | Determination of synthetic lethal partners of cancer-specific alterations and methods of use thereof |
US20170154163A1 (en) * | 2015-12-01 | 2017-06-01 | Ramot At Tel-Aviv University Ltd. | Clinically relevant synthetic lethality based method and system for cancer prognosis and therapy |
CN109994151A (zh) * | 2019-01-23 | 2019-07-09 | 杭州师范大学 | 基于复杂网络与机器学习方法的肿瘤驱动基因预测系统 |
CN113299338A (zh) * | 2021-06-08 | 2021-08-24 | 上海科技大学 | 基于知识图谱的合成致死基因对预测方法、系统、终端及介质 |
-
2022
- 2022-03-14 CN CN202210246301.7A patent/CN114566211B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017083716A2 (en) * | 2015-11-13 | 2017-05-18 | The Board Of Trustees Of The Leland Stanford Junior University | Determination of synthetic lethal partners of cancer-specific alterations and methods of use thereof |
US20170154163A1 (en) * | 2015-12-01 | 2017-06-01 | Ramot At Tel-Aviv University Ltd. | Clinically relevant synthetic lethality based method and system for cancer prognosis and therapy |
CN109994151A (zh) * | 2019-01-23 | 2019-07-09 | 杭州师范大学 | 基于复杂网络与机器学习方法的肿瘤驱动基因预测系统 |
CN113299338A (zh) * | 2021-06-08 | 2021-08-24 | 上海科技大学 | 基于知识图谱的合成致死基因对预测方法、系统、终端及介质 |
Non-Patent Citations (2)
Title |
---|
丁莉: "面向合成致死的基因对预测算法研究", 《硕士电子期刊》, 31 August 2021 (2021-08-31), pages 1 - 72 * |
舒胜利: "基于网络分析的合成致死预测研究", 《硕士电子期刊》, 31 December 2022 (2022-12-31), pages 1 - 69 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114822698A (zh) * | 2022-06-21 | 2022-07-29 | 华中农业大学 | 一种基于知识推理的生物学大样本数据集分析方法及系统 |
CN114822698B (zh) * | 2022-06-21 | 2022-09-13 | 华中农业大学 | 一种基于知识推理的生物学大样本数据集分析方法及系统 |
CN115240778A (zh) * | 2022-08-10 | 2022-10-25 | 上海科技大学 | 基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质 |
CN115240777A (zh) * | 2022-08-10 | 2022-10-25 | 上海科技大学 | 基于图神经网络的合成致死基因预测方法、装置、终端及介质 |
CN115240777B (zh) * | 2022-08-10 | 2024-02-02 | 上海科技大学 | 基于图神经网络的合成致死基因预测方法、装置、终端及介质 |
CN115240778B (zh) * | 2022-08-10 | 2024-03-26 | 上海科技大学 | 基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质 |
CN117912570A (zh) * | 2024-03-19 | 2024-04-19 | 北京科技大学 | 一种基于基因共表达网络的分类特征确定方法及系统 |
CN117912570B (zh) * | 2024-03-19 | 2024-05-14 | 北京科技大学 | 一种基于基因共表达网络的分类特征确定方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114566211B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114566211A (zh) | 基于生物网络与机器学习的合成致死基因组合预测系统 | |
CN104762402B (zh) | 超快速检测人类基因组单碱基突变和微插入缺失的方法 | |
Su et al. | Interaction trees with censored survival data | |
CN109994151B (zh) | 基于复杂网络与机器学习方法的肿瘤驱动基因预测系统 | |
CN109411015A (zh) | 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质 | |
CN105653846A (zh) | 基于集成的相似性度量和双向随机游走的药物重定位方法 | |
CN108351917A (zh) | 用于高精度识别变体的系统和方法 | |
Talbi et al. | Comparison of population based metaheuristics for feature selection: Application to microarray data classification | |
CN108038352B (zh) | 结合差异化分析和关联规则挖掘全基因组关键基因的方法 | |
EP4150639A1 (en) | Clinical predictor based on multiple machine learning models | |
KR20180071243A (ko) | 세포 라인 유전체학으로부터 약물 반응의 환자-특정 예측을 위한 시스템 및 방법 | |
Golugula et al. | Evaluating feature selection strategies for high dimensional, small sample size datasets | |
CN115620812B (zh) | 基于重采样的特征选择方法、装置、电子设备和存储介质 | |
CN116364179A (zh) | 结直肠癌预后标志物筛选系统及方法、结直肠癌预后风险评估系统 | |
CN116864011A (zh) | 基于多组学数据的结直肠癌分子标志物识别方法及系统 | |
Tan et al. | A hierarchical graph convolution network for representation learning of gene expression data | |
CN106874705A (zh) | 基于转录组数据确定肿瘤标记物的方法 | |
Tai et al. | Bayice: a Bayesian hierarchical model for semireference-based deconvolution of bulk transcriptomic data | |
US20240194294A1 (en) | Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same | |
Devaux et al. | Random survival forests for competing risks with multivariate longitudinal endogenous covariates | |
El Rahman et al. | Machine learning model for breast cancer prediction | |
WO2021243401A9 (en) | Methods of predicting cancer progression | |
CN108733683A (zh) | 一种基于数据摸排探索事件线索的方法及装置 | |
Marinos et al. | A Survey of Survival Analysis Techniques. | |
CN112435133A (zh) | 基于图分析的医保联合欺诈检测方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |