CN113362894A - 一种对协同致死的癌症驱动基因进行预测的方法 - Google Patents

一种对协同致死的癌症驱动基因进行预测的方法 Download PDF

Info

Publication number
CN113362894A
CN113362894A CN202110661881.1A CN202110661881A CN113362894A CN 113362894 A CN113362894 A CN 113362894A CN 202110661881 A CN202110661881 A CN 202110661881A CN 113362894 A CN113362894 A CN 113362894A
Authority
CN
China
Prior art keywords
gene
pairs
mutation
pair
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110661881.1A
Other languages
English (en)
Inventor
韦嘉
吴金波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jixukang Biotechnology Co ltd
Original Assignee
Shanghai Jixukang Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jixukang Biotechnology Co ltd filed Critical Shanghai Jixukang Biotechnology Co ltd
Priority to CN202110661881.1A priority Critical patent/CN113362894A/zh
Publication of CN113362894A publication Critical patent/CN113362894A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种对协同致死的癌症驱动基因进行预测的方法,包括以下步骤:S1:从COSMIC和MetaCore中收集癌症生物标记,将其用作筛选原始癌症相关SL对的筛选器;S2:从酵母SL对中产生阳性SL对,然后进行同源基因转化;S3:基于候选基因和癌症网络内的基因组成原始候选SL对;S4:进行卡方检验用来评估两个基因的突变是否是每个原始候选SL对中的独立事件;S5:对候选SL对和阳性SL对的三个特征进行了计算和归一化。该方法通过设计一个基于学习的管道,根据已知的SL基因对以及其他未知基因对新的SL基因对进行排序,通过挖掘累积的TCGA突变和基因表达数据,以及蛋白质‑蛋白质相互作用网络中的基因特性,将传统策略整合。

Description

一种对协同致死的癌症驱动基因进行预测的方法
技术领域
本发明涉及医学研究技术领域,特别涉及一种对协同致死的癌症驱动基因进行预测的方法。
背景技术
协同致死性(SL)描述了两个单独的非致死性突变的组合导致致死性的遗传相互作用,这种现象最早由加尔文·布里奇斯(Calvin Bridges)在1922年描述,他注意到有机体果蝇(Drosophila melanogaster)中的某些突变组合具有致命性,通常,位于平行通路中的两个基因(导致细胞存活或共同的必需产物)的互相抵抗是引起协同致死性(SL)的重要模式之一。
从根本上说,癌症是一种遗传疾病,涉及许多基因突变,这些基因突变中的一些可以充当癌症中的生物标记,有些癌症治疗方面已取得显着进展,例如发现赫赛汀可治疗具有HER2扩增的乳腺癌患者,发现易瑞沙可治疗具有EGFR突变的非小细胞肺癌患者,然而,开发选择性杀死癌细胞而不损害正常细胞的药物仍然是肿瘤治疗中的一大挑战,鉴于遗传突变是癌细胞与健康细胞之间差异的基础,Hartwell第一个提出将化学和基因合成致死性筛选用于癌症治疗的建议,此后,这种做法引起癌症生物学家高度重视,因为它为肿瘤学药物提供了一个有希望的前景,例如,在患有肿瘤BRCA1/2突变的卵巢癌患者中使用奥拉帕尼靶向PARP-1酶在该领域取得了里程碑式的成功,现在siRNA和CRISPR筛选是检测SL基因对的最可靠方法。
然而,与模型生物遗传系统(例如酵母或果蝇)相比,人类细胞系统在全基因组siRNA或CRISPR筛选方面面临更大的挑战,由于这个原因,已经提出了几种计算方法来促进系统地检测癌症中的SL基因对,简而言之,这些方法根据其目标数据资源可分为三类:
(i)从酵母SL基因推导人类直系同源基因对;
(ii)使用鲁棒性功能评估基因对在癌症PPI网络中的重要性;
(iii)使用统计模型根据基因突变/转录表达数据计算互斥性。
同时,Livnat等人提出DAISY来鉴定SL基因对,这种方法结合了体细胞拷贝数改变,siRNA筛选以及细胞存活和基因共表达信息,此方法在数据驱动的SL基因对识别中取得了可喜的表现,然而,综合比较已有的几个的方法发现,在这些不同方法中,预测的SL基因对结果一致性极低,这种不一致性可能表明对于SL基因对的计算预测方法还很不成熟,此外,以前的方法都不是基于机器学习的,也就是说,SL基因对的鉴定是基于某些标准的筛选,而不是训练和预测,由于现在已经积累了一部分已知的SL基因对,对这些SL基因对的特征进行的研究有望获得重要的特征,这些特征可以定量地描述SL的常见机制。
故此,提出一种对协同致死的癌症驱动基因进行预测的方法以解决上述问题。
发明内容
本发明针对现有技术中存在的技术问题,提供一种对协同致死的癌症驱动基因进行预测的方法,该对协同致死的癌症驱动基因进行预测的方法通过设计一个基于学习的管道,根据已知的SL基因对以及其他未知基因对新的SL基因对进行排序,通过挖掘累积的TCGA突变和基因表达数据,以及蛋白质-蛋白质相互作用网络中的基因特性,将传统策略整合,列出了潜在的SL基因对列表。
本发明解决上述技术问题的技术方案如下:一种对协同致死的癌症驱动基因进行预测的方法,包括以下步骤:
S1:从COSMIC和MetaCore中收集癌症生物标记,将其用作筛选原始癌症相关SL对的筛选器;
S2:从酵母SL对中产生阳性SL对,然后进行同源基因转化,癌症生物标志物过滤以及证据在从文献挖掘中获得的人类细胞系中的应用;
S3:基于候选基因和癌症网络内的基因组成原始候选SL对,其中,候选基因选自TCGA突变数据;
S4:进行卡方检验用来评估两个基因的突变是否是每个原始候选SL对中的独立事件,此外,还计算突变排他性,其定义为携带SL基因对中一个突变基因之一的样品的百分比,仅选择那些具有高突变排他性的独立基因突变作为候选SL对,以进行进一步的计算;
S5:在导出到学习模型之前,对候选SL对和阳性SL对的三个特征进行了计算和归一化;
S6:使用交叉验证中获得的优化参数来检测新型SL对。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述TCGA突变和表达数据处理的流程为:
1)从UCSC癌症基因组浏览器(https://genome-cancer.ucsc.edu)下载TCGA突变和表达谱数据,该数据提供了TCGA基因组,表型和临床数据的注解和交互式可视化结果;
2)从中获得两个矩阵,矩阵的每一行代表一个基因,每一列代表一个样本,细胞中的值分别代表基因表达矩阵和基因突变矩阵中的表达和突变状态。
进一步,所述阳性协同致死基因对的处理流程为:
1)从BioGRID获得基于高通量遗传筛选的酵母SL(协同致死)基因的集体数据,其中,从酵母到人类基因的系统发育推断可从Ensemble数据库(http://useast.ensembl.org/)获得;
2)通过MetaCore(https://portal.genego.com/)中的癌症生物标记和COSMIC中的驱动基因过滤同源人类SL基因对,仅保留具有癌症生物标志物或驱动基因所覆盖的两个基因的同源人类SL基因对,用于下游分析。
进一步,所述癌症网络为使用蛋白质-蛋白质相互作用所呈现的边缘以及蛋白质所显示的节点来构建癌症网络。
进一步,所述候选SL基因对生成的流程为:
1)在TCGA突变数据中计算了样本中每个基因的突变率;
2)将1%用作选择候选基因的截止阈值,通过从癌症网络中选择候选基因以及其他基因来生成每个原始候选SL基因对;
3)基于突变数据测试基因A突变和基因B突变是否是独立事件,详细地,无效假设是基因A突变和基因B突变彼此独立,在2×2列联表上执行卡方检验,如下表:
Figure BDA0003115398790000041
其中,M代表同时携带基因A和基因B突变的样本数,N代表携带基因A突变而没有基因B突变的样品的数量,X代表携带基因B突变而没有基因A突变的样品数,Y是同时包含野生型基因A和野生型基因B的样本数,+表示突变型,-表示野生型;
卡方检验p值<=0.05的原始候选SL基因对意味着基因A和基因B的突变不是独立的,基因A和基因B的突变之间可能存在某些关系,此外,基因A和基因B的突变排他性可以计算为(X+N)/(M+N+X),较高的突变排他性表明基因A和基因B更有可能是互斥的突变,在此,仅选择卡方检验P值≤0.05且突变排他性≥0.8的候选SL对进行下游处理。
进一步,所述特征计算包括基因对突变覆盖率、驱动突变概率、网络信息中心和半监督排名模型。
进一步,所述基因对突变覆盖率为该基因对中至少包含一个基因突变的样品的百分比,所述驱动突变概率为使用R包DriverNet基于突变与基因表达的变化关系来评估基因的驱动程序突变概率,DriverNet的输入数据来自两个矩阵,即突变矩阵及其对应的基因表达矩阵,两个矩阵的每一列都是一个样本,而每一行则代表样本中基因的突变状态或表达水平,DriverNet的输出是每个基因的P值,表示是基因突变的驱动因素的可能性,SL对中两个基因的较小的P值转化为负log10(P值),表示该对驱动突变的强度。
进一步,所述网络信息中心为如果G指提到的癌症网络,并且G’指去除基因A和基因B后的癌症网络,那么基因A和B基因的网络信息中心性可以定义为:
Figure BDA0003115398790000051
其中,E(G)是网络的效率,可以在以下公式中计算:
Figure BDA0003115398790000052
如果在网络中,基因i跟基因j有边连接,dij表示在网络中从基因i到基因j的最短路径长度,否则,dij等同于D(G)+1,D(G)代表癌症网络的直径,其定义为癌症网络中所有最短路径的最大距离,最后对上述三个特征进行归一化转换成0-1之间数值,归一化转换公式如下:
Figure BDA0003115398790000053
其中,x为特征原始值,x’为特征转化值。
进一步,所述半监督排名模型为在两个数据集中,一个真实的样本组和一个未知的样本组(背景),根据未知样本组中样本与真实样本组中的相关性进行排名,具体的:
输入为一系列代表SL对的点X=(X1…Xq,Xq+1…Xn),前q个点为真实的SL对,其他q个为候选对,初始分数y定义为(1…1,0…0)(真实的SL对值为1,候补对为0),定义f0=y,α为算法的一个参数;
输出为X的排序列表,在列表里排行越靠前的越可能是SL基因,如下:
A、定义相似性矩阵Wij=1-cos(i,j),Wii=0;
B、计算L=D-1/2WD-1/2,D为对角矩阵
Figure BDA0003115398790000061
C、迭代方程直至收敛ft+1=aLf+(1-α)y,α取值为[0,1);
D、令f*为收敛函数ft,并将X中所有点按其f*值的降序排列,故公式为:
f*=(1-α)(I-αL)(-1)y
进一步,所述交叉验证为对于每种情况,阳性SL对被分为五个部分。其中四个被用作训练集,而其余部分则被用于评估,接下来,将阳性SL对改组10次,总体性能由这10个改组事件的平均结果确定,所述归一化用于计算预测结果的排序准确性,公式如下:
Figure BDA0003115398790000062
其中,Z是归一化常数,i是候选SL对的排名,reli是候选SL对的相关性值,如果候选SL对属于正SL对,则将reli设置为1,否则将reli设置为0,p是最大位置,此外,前n名排名中的SL对的正富集也用于评估预测性能,同时,利用了超几何测试,公式如下:
Figure BDA0003115398790000063
其中,k为前n个排名结果中包含的阳性SL对的数量,N为候选SL对数量,M为阳性SL对数量。
与现有技术相比,本申请的技术方案具有以下有益技术效果:
该对协同致死的癌症驱动基因进行预测的方法,通过设计一个基于学习的管道,根据已知的SL基因对以及其他未知基因对新的SL基因对进行排序,通过挖掘累积的TCGA突变和基因表达数据,以及蛋白质-蛋白质相互作用网络中的基因特性,将传统策略整合,列出了潜在的SL基因对列表。
附图说明
图1为本发明一种对协同致死的癌症驱动基因进行预测的方法的流程示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定发明的范围。
请参阅图1,本实施例中的一种对协同致死的癌症驱动基因进行预测的方法,包括以下步骤:
S1:从COSMIC和MetaCore中收集癌症生物标记,将其用作筛选原始癌症相关SL对的筛选器;
S2:从酵母SL对中产生阳性SL对,然后进行同源基因转化,癌症生物标志物过滤以及证据在从文献挖掘中获得的人类细胞系中的应用;
S3:基于候选基因和癌症网络内的基因组成原始候选SL对,其中,候选基因选自TCGA突变数据;
S4:进行卡方检验用来评估两个基因的突变是否是每个原始候选SL对中的独立事件,此外,还计算突变排他性,其定义为携带SL基因对中一个突变基因之一的样品的百分比,仅选择那些具有高突变排他性的独立基因突变作为候选SL对,以进行进一步的计算;
S5:在导出到学习模型之前,对候选SL对和阳性SL对的三个特征进行了计算和归一化;
S6:使用交叉验证中获得的优化参数来检测新型SL对。
其中,TCGA突变和表达数据处理方式为从UCSC癌症基因组浏览器(https://genome-cancer.ucsc.edu)下载了TCGA突变和表达谱数据,该数据提供了TCGA基因组,表型和临床数据的注解和交互式可视化结果,从中获得了两个矩阵,矩阵的每一行代表一个基因,每一列代表一个样本,细胞中的值分别代表基因表达矩阵和基因突变矩阵中的表达和突变状态,最后,在本方法中使用了来自11个癌症的数据,其中包含基因表达矩阵和相应的基因突变矩阵。
阳性协同致死基因对为从BioGRID获得基于高通量遗传筛选的酵母SL(协同致死)基因的集体数据,从酵母到人类基因的系统发育推断可从Ensemble数据库(http://useast.ensembl.org/)获得,然后,通过MetaCore(https://portal.genego.com/)中的癌症生物标记和COSMIC中的驱动基因过滤同源人类SL基因对,仅保留具有癌症生物标志物或驱动基因所覆盖的两个基因的同源人类SL基因对,用于下游分析,为了尽可能降低假阳性率,对于每个同源人类SL基因对,检查了PubMed文献中提供的证据,最后,在人类细胞系或动物模型文献中鉴定出399对阳性SL对具有协同致死性的证据。
癌症网络为从HPRD下载了307,066个蛋白质-蛋白质相互作用对,然后,使用MetaCore和COSMIC中的癌症生物标记物对其进行过滤,在MetaCore中搜索了关键词“癌症,肿瘤,癌症”,并检索了4,296个与癌症相关的生物标记,同时还从COSMIC网站癌症基因普查项目中下载了收集到的507个驱动程序突变基因,该项目中的所有这些基因突变均已被证明与癌症有因果关系,然后,对于每种蛋白质-蛋白质相互作用,只保留两种蛋白质都包含在MetaCore癌症生物标记或COSMIC癌症基因普查项目中的蛋白质对,最后,获得了11,925个蛋白质-蛋白质相互作用对,对应于2,869个单独的蛋白质,可以使用蛋白质-蛋白质相互作用所呈现的边缘以及蛋白质所显示的节点来构建癌症网络。
候选SL基因对生成为在TCGA突变数据中计算了样本中每个基因的突变率,在此,将1%用作选择候选基因的截止阈值,通过从癌症网络中选择候选基因以及其他基因来生成每个原始候选SL基因对,随后,基于突变数据测试了基因A突变和基因B突变是否是独立事件,详细地,无效假设是基因A突变和基因B突变彼此独立,在2×2列联表上执行卡方检验,如下表:
Figure BDA0003115398790000081
其中,M代表同时携带基因A和基因B突变的样本数,N代表携带基因A突变而没有基因B突变的样品的数量,X代表携带基因B突变而没有基因A突变的样品数,Y是同时包含野生型基因A和野生型基因B的样本数,+表示突变型,-表示野生型。
卡方检验p值<=0.05的原始候选SL基因对意味着基因A和基因B的突变不是独立的,基因A和基因B的突变之间可能存在某些关系,此外,基因A和基因B的突变排他性可以计算为(X+N)/(M+N+X),较高的突变排他性表明基因A和基因B更有可能是互斥的突变,在此,仅选择卡方检验P值≤0.05且突变排他性≥0.8的候选SL对进行下游处理。
特征计算包括基因对突变覆盖率、驱动突变概率、网络信息中心和半监督排名模型。
其中,基因对突变覆盖率为定义为该基因对中至少包含一个基因突变的样品的百分比。
驱动突变概率为使用R包DriverNet基于突变与基因表达的变化关系来评估基因的驱动程序突变概率,DriverNet的输入数据来自两个矩阵,即突变矩阵及其对应的基因表达矩阵,两个矩阵的每一列都是一个样本,而每一行则代表样本中基因的突变状态或表达水平,DriverNet的输出是每个基因的P值,表示是基因突变的驱动因素的可能性,SL对中两个基因的较小的P值转化为负log10(P值),表示该对驱动突变的强度。
网络信息中心为如果G指上文提到的癌症网络,并且G’指去除基因A和基因B后的癌症网络,那么基因A和B基因的网络信息中心性可以定义为:
Figure BDA0003115398790000091
其中E(G)是网络的效率,可以在以下公式中计算:
Figure BDA0003115398790000092
如果在网络中,基因i跟基因j有边连接,dij表示在网络中从基因i到基因j的最短路径长度(由python包’networkx’中的“shortest_path_length”方法计算得出),否则,dij等同于D(G)+1,D(G)代表癌症网络的直径,其定义为癌症网络中所有最短路径的最大距离(由python包’networkx’中的“diameter”方法计算得出),最后对上述三个特征进行归一化转换成0-1之间数值,归一化转换公式如下:
Figure BDA0003115398790000101
其中,x为特征原始值,x’为特征转化值。
半监督排名模型为在本方法中使用了一种被称之为流形排名的算法:即在两个数据集中,一个真实的样本组和一个未知的样本组(背景),根据未知样本组中样本与真实样本组中的相关性进行排名。
输入为一系列代表SL对的点X=(X1…Xq,Xq+1…Xn),前q个点为真实的SL对,其他q个为候选对,初始分数y定义为(1…1,0…0)(真实的SL对值为1,候补对为0),定义f0=y,α为算法的一个参数;
输出为X的排序列表,在列表里排行越靠前的越可能是SL基因,如下:
A、定义相似性矩阵Wij=1-cos(i,j),Wii=0;
B、计算L=D-1/2WD-1/2,D为对角矩阵
Figure BDA0003115398790000102
C、迭代方程直至收敛ft+1=aLft+(1-α)y,α取值为[0,1);
D、令f*为收敛函数ft,并将X中所有点按其f*值的降序排列,故公式为:
f*=(1-α)(f-aL)(-1)y
五组交叉十次验证:对于每种情况,阳性SL对被分为五个部分,其中四个被用作训练集,而其余部分则被用于评估,接下来,将阳性SL对改组10次,总体性能由这10个改组事件的平均结果确定。
排序结果评估:归一化折现累计收益(Normalized discounted cumulativegain,NDCG)原本用于信息检索领域网络搜索引擎算法的评估,计算文档在结果列表里面的有用程度,在本技术中将其用于计算预测结果的排序准确性,公式如下:
Figure BDA0003115398790000111
其中,Z是归一化常数,i是候选SL对的排名,reli是候选SL对的相关性值,如果候选SL对属于正SL对,则将reli设置为1,否则将reli设置为0,p是最大位置,此外,前n名排名中的SL对的正富集也用于评估预测性能,同时,利用了超几何测试,公式如下:
Figure BDA0003115398790000112
其中,k为前n个排名结果中包含的阳性SL对的数量,N为候选SL对数量,M为阳性SL对数量。
本发明创造与现有技术相比,所具有的优点和积极效果:
本方法从涵盖11种癌症的前10个结果中预测了107个潜在的SL新基因对,使用癌细胞系数据库CCLE或NCI60中的药物敏感性信息来验证4个SL对:mTOR-TP53;VEGFR2-TP53;EGFR-TP53;ATM-PRKCA,此外,siRNA敲低实验的结果表明,在野生型TP53和突变型TP53的癌细胞之间,mTOR或EGFR siRNA敲低的细胞生长存在显着差异,TP53突变可作为靶向mTOR或EGFR的药物用于癌症治疗的生物标志物,更有希望的是,最近的一项研究已经提出TP53作为生物标志物,可用于预测接受厄洛替尼(EGFR抑制剂)治疗的胰腺癌患者的无进展生存期(PFS)显示了本预测方法的潜力。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,包括以下步骤:
S1:从COSMIC和MetaCore中收集癌症生物标记,将其用作筛选原始癌症相关SL对的筛选器;
S2:从酵母SL对中产生阳性SL对,然后进行同源基因转化,癌症生物标志物过滤以及证据在从文献挖掘中获得的人类细胞系中的应用;
S3:基于候选基因和癌症网络内的基因组成原始候选SL对,其中,候选基因选自TCGA突变数据;
S4:进行卡方检验用来评估两个基因的突变是否是每个原始候选SL对中的独立事件,此外,还计算突变排他性,其定义为携带SL基因对中一个突变基因之一的样品的百分比,仅选择那些具有高突变排他性的独立基因突变作为候选SL对,以进行进一步的计算;
S5:在导出到学习模型之前,对候选SL对和阳性SL对的三个特征进行了计算和归一化;
S6:使用交叉验证中获得的优化参数来检测新型SL对。
2.根据权利要求1所述的一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,所述TCGA突变和表达数据处理的流程为:
1)从UCSC癌症基因组浏览器(https://genome-cancer.ucsc.edu)下载TCGA突变和表达谱数据,该数据提供了TCGA基因组,表型和临床数据的注解和交互式可视化结果;
2)从中获得两个矩阵,矩阵的每一行代表一个基因,每一列代表一个样本,细胞中的值分别代表基因表达矩阵和基因突变矩阵中的表达和突变状态。
3.根据权利要求2所述的一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,所述阳性协同致死基因对的处理流程为:
1)从BioGRID获得基于高通量遗传筛选的酵母SL(协同致死)基因的集体数据,其中,从酵母到人类基因的系统发育推断可从Ensemble数据库(http://useast.ensembl.org/)获得;
2)通过MetaCore(https://portal.genego.com/)中的癌症生物标记和COSMIC中的驱动基因过滤同源人类SL基因对,仅保留具有癌症生物标志物或驱动基因所覆盖的两个基因的同源人类SL基因对,用于下游分析。
4.根据权利要求3所述的一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,所述癌症网络为使用蛋白质-蛋白质相互作用所呈现的边缘以及蛋白质所显示的节点来构建癌症网络。
5.根据权利要求4所述的一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,所述候选SL基因对生成的流程为:
1)在TCGA突变数据中计算了样本中每个基因的突变率;
2)将1%用作选择候选基因的截止阈值,通过从癌症网络中选择候选基因以及其他基因来生成每个原始候选SL基因对;
3)基于突变数据测试基因A突变和基因B突变是否是独立事件,详细地,无效假设是基因A突变和基因B突变彼此独立,在2×2列联表上执行卡方检验,如下表:
Figure FDA0003115398780000021
其中,M代表同时携带基因A和基因B突变的样本数,N代表携带基因A突变而没有基因B突变的样品的数量,X代表携带基因B突变而没有基因A突变的样品数,Y是同时包含野生型基因A和野生型基因B的样本数,+表示突变型,-表示野生型;
卡方检验p值<=0.05的原始候选SL基因对意味着基因A和基因B的突变不是独立的,基因A和基因B的突变之间可能存在某些关系,此外,基因A和基因B的突变排他性可以计算为(X+N)/(M+N+X),较高的突变排他性表明基因A和基因B更有可能是互斥的突变,在此,仅选择卡方检验P值≤0.05且突变排他性≥0.8的候选SL对进行下游处理。
6.根据权利要求5所述的一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,所述特征计算包括基因对突变覆盖率、驱动突变概率、网络信息中心和半监督排名模型。
7.根据权利要求6所述的一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,所述基因对突变覆盖率为该基因对中至少包含一个基因突变的样品的百分比,所述驱动突变概率为使用R包DriverNet基于突变与基因表达的变化关系来评估基因的驱动程序突变概率,DriverNet的输入数据来自两个矩阵,即突变矩阵及其对应的基因表达矩阵,两个矩阵的每一列都是一个样本,而每一行则代表样本中基因的突变状态或表达水平,DriverNet的输出是每个基因的P值,表示是基因突变的驱动因素的可能性,SL对中两个基因的较小的P值转化为负log10(P值),表示该对驱动突变的强度。
8.根据权利要求7所述的一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,所述网络信息中心为如果G指提到的癌症网络,并且G’指去除基因A和基因B后的癌症网络,那么基因A和B基因的网络信息中心性可以定义为:
Figure FDA0003115398780000031
其中,E(G)是网络的效率,可以在以下公式中计算:
Figure FDA0003115398780000032
如果在网络中,基因i跟基因j有边连接,dij表示在网络中从基因i到基因j的最短路径长度,否则,dij等同于D(G)+1,D(G)代表癌症网络的直径,其定义为癌症网络中所有最短路径的最大距离,最后对上述三个特征进行归一化转换成0-1之间数值,归一化转换公式如下:
Figure FDA0003115398780000041
其中,x为特征原始值,x’为特征转化值。
9.根据权利要求8所述的一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,所述半监督排名模型为在两个数据集中,一个真实的样本组和一个未知的样本组(背景),根据未知样本组中样本与真实样本组中的相关性进行排名,具体的:
输入为一系列代表SL对的点X=(X1…Xq,Xq+1…Xn),前q个点为真实的SL对,其他q个为候选对,初始分数y定义为(1…1,0…0)(真实的SL对值为1,候补对为0),定义f0=y,α为算法的一个参数;
输出为X的排序列表,在列表里排行越靠前的越可能是SL基因,如下:
A、定义相似性矩阵Wij=1-cos(i,j),Wii=0;
B、计算L=D-1/2WD-1/2,D为对角矩阵
Figure FDA0003115398780000042
C、迭代方程直至收敛ft+1=aLft+(1-α)y,α取值为[0,1);
D、令f*为收敛函数ft,并将X中所有点按其f*值的降序排列,故公式为:
f*=(1-a)(I-αL)(-1)y。
10.根据权利要求9所述的一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,所述交叉验证为对于每种情况,阳性SL对被分为五个部分,其中四个被用作训练集,而其余部分则被用于评估,接下来,将阳性SL对改组10次,总体性能由这10个改组事件的平均结果确定,所述归一化用于计算预测结果的排序准确性,公式如下:
Figure FDA0003115398780000043
其中,Z是归一化常数,i是候选SL对的排名,reli是候选SL对的相关性值,如果候选SL对属于正SL对,则将reli设置为1,否则将reli设置为0,p是最大位置,此外,前n名排名中的SL对的正富集也用于评估预测性能,同时,利用了超几何测试,公式如下:
Figure FDA0003115398780000051
其中,k为前n个排名结果中包含的阳性SL对的数量,N为候选SL对数量,M为阳性SL对数量。
CN202110661881.1A 2021-06-15 2021-06-15 一种对协同致死的癌症驱动基因进行预测的方法 Pending CN113362894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110661881.1A CN113362894A (zh) 2021-06-15 2021-06-15 一种对协同致死的癌症驱动基因进行预测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110661881.1A CN113362894A (zh) 2021-06-15 2021-06-15 一种对协同致死的癌症驱动基因进行预测的方法

Publications (1)

Publication Number Publication Date
CN113362894A true CN113362894A (zh) 2021-09-07

Family

ID=77534220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110661881.1A Pending CN113362894A (zh) 2021-06-15 2021-06-15 一种对协同致死的癌症驱动基因进行预测的方法

Country Status (1)

Country Link
CN (1) CN113362894A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019891A (zh) * 2022-06-08 2022-09-06 郑州大学 一种基于半监督图神经网络的个体驱动基因预测方法
CN115240778A (zh) * 2022-08-10 2022-10-25 上海科技大学 基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质
CN116805513A (zh) * 2023-08-23 2023-09-26 成都信息工程大学 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0005584D0 (en) * 2000-03-08 2000-05-03 Advanced Risc Mach Ltd A system method and computer program for decoding an encoded data stream
US20030180953A1 (en) * 2000-12-29 2003-09-25 Elitra Pharmaceuticals, Inc. Gene disruption methodologies for drug target discovery
US20150331992A1 (en) * 2014-05-15 2015-11-19 Ramot At Tel-Aviv University Ltd. Cancer prognosis and therapy based on syntheic lethality
US20160283650A1 (en) * 2015-02-26 2016-09-29 The Trustees Of Columbia University In The City Of New York Method for identifying synthetic lethality
WO2017083716A2 (en) * 2015-11-13 2017-05-18 The Board Of Trustees Of The Leland Stanford Junior University Determination of synthetic lethal partners of cancer-specific alterations and methods of use thereof
CN110349622A (zh) * 2019-07-09 2019-10-18 南京邮电大学 基于决策树与线性回归模型预测癌症合成致死基因对的方法
CN110473592A (zh) * 2019-07-31 2019-11-19 广东工业大学 基于图卷积网络的有监督的多视角人类协同致死基因预测方法
US20210043275A1 (en) * 2018-02-27 2021-02-11 Cornell University Ultra-sensitive detection of circulating tumor dna through genome-wide integration

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0005584D0 (en) * 2000-03-08 2000-05-03 Advanced Risc Mach Ltd A system method and computer program for decoding an encoded data stream
US20030180953A1 (en) * 2000-12-29 2003-09-25 Elitra Pharmaceuticals, Inc. Gene disruption methodologies for drug target discovery
US20150331992A1 (en) * 2014-05-15 2015-11-19 Ramot At Tel-Aviv University Ltd. Cancer prognosis and therapy based on syntheic lethality
US20160283650A1 (en) * 2015-02-26 2016-09-29 The Trustees Of Columbia University In The City Of New York Method for identifying synthetic lethality
WO2017083716A2 (en) * 2015-11-13 2017-05-18 The Board Of Trustees Of The Leland Stanford Junior University Determination of synthetic lethal partners of cancer-specific alterations and methods of use thereof
US20210043275A1 (en) * 2018-02-27 2021-02-11 Cornell University Ultra-sensitive detection of circulating tumor dna through genome-wide integration
CN110349622A (zh) * 2019-07-09 2019-10-18 南京邮电大学 基于决策树与线性回归模型预测癌症合成致死基因对的方法
CN110473592A (zh) * 2019-07-31 2019-11-19 广东工业大学 基于图卷积网络的有监督的多视角人类协同致死基因预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAO YE等: "Ranking novel cancer driving synthetic lethal gene pairs using TCGA data", ONCOTARGET, vol. 7, no. 34, pages 55352 - 55366 *
JOO SANG LEE等: "Harnessing synthetic lethality to predict the response to cancer treatment", NATURE COMMUNICATIONS, vol. 9, pages 1 - 12 *
孙成功: "基于PDX模型的miR-509-3对高级别卵巢浆液性癌的PARP抑制剂增敏作用研究", 中国博士学位论文全文数据库医药卫生科技辑, no. 8, pages 068 - 12 *
殷子博: "基于决策树算法的癌症合成致死基因组合的预测及预后分析", 中国优秀硕士学位论文全文数据库基础科学辑, no. 2, pages 006 - 590 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019891A (zh) * 2022-06-08 2022-09-06 郑州大学 一种基于半监督图神经网络的个体驱动基因预测方法
CN115019891B (zh) * 2022-06-08 2023-07-07 郑州大学 一种基于半监督图神经网络的个体驱动基因预测方法
CN115240778A (zh) * 2022-08-10 2022-10-25 上海科技大学 基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质
CN115240778B (zh) * 2022-08-10 2024-03-26 上海科技大学 基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质
CN116805513A (zh) * 2023-08-23 2023-09-26 成都信息工程大学 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法
CN116805513B (zh) * 2023-08-23 2023-10-31 成都信息工程大学 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法

Similar Documents

Publication Publication Date Title
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
JP7487163B2 (ja) がんの進化の検出および診断
US11164655B2 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
CN113362894A (zh) 一种对协同致死的癌症驱动基因进行预测的方法
CN112086129B (zh) 预测肿瘤组织cfDNA的方法及系统
WO2022170909A1 (zh) 药物敏感预测方法、电子设备及计算机可读存储介质
Huang et al. Identification of Smoking-Associated Transcriptome Aberration in Blood with Machine Learning Methods
US20210090686A1 (en) Single cell rna-seq data processing
Rau et al. Individualized multi-omic pathway deviation scores using multiple factor analysis
CN110942808A (zh) 一种基于基因大数据的预后预测方法及预测系统
CN116312800A (zh) 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质
Sobhan et al. Explainable machine learning to identify patient-specific biomarkers for lung cancer
Sha et al. Feature selection for polygenic risk scores using genetic algorithm and network science
Rikhari et al. Advances in Genomic Profiling of Colorectal Cancer Using Nature-Inspired Computing Techniques
Kannan et al. CAISC: A software to integrate copy number variations and single nucleotide mutations for genetic heterogeneity profiling and subclone detection by single-cell RNA sequencing
Lin et al. An integrated brain-specific network identifies genes associated with neuropathologic and clinical traits of Alzheimer’s disease
CN113257354B (zh) 基于高通量实验数据挖掘进行关键rna功能挖掘的方法
CN115612743B (zh) Hpv整合基因组合及其在预测宫颈癌复发和转移中的用途
Alves et al. Multi-omic data integration applied to molecular tumor classification
CN117594118A (zh) 卷积神经网络结合网络医学方法预测肿瘤基因组生物标志物的方法
Sibilio et al. Correlation-based network integration of lung RNA sequencing and DNA methylation data in chronic obstructive pulmonary disease
Menand Machine learning based novel biomarkers discovery for therapeutic use in" pan-gyn" cancers
Bakr et al. Hybrid Machine Learning Classification for Tipple Negative Breast Cancer
Bundi Regression Model For Predicting Breast Cancer Patients Using Integrated Genomic Data In Kenya: A Case Of Kenyatta National Hospital
Vineetha et al. Reconstruction of Gene Regulatory Network from Expression Profile of Plasma RNA Data of Colorectal Cancer Patients using Soft Computing Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination