CN113611363A

CN113611363A - 一种利用共识性预测结果识别癌症驱动基因的方法

Info

Publication number: CN113611363A
Application number: CN202110910593.5A
Authority: CN
Inventors: 韦嘉; 叶翔赟; 吴金波
Original assignee: Shanghai Jixukang Biotechnology Co ltd
Current assignee: Shanghai Jixukang Biotechnology Co ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-11-05
Anticipated expiration: 2041-08-09
Also published as: CN113611363B

Abstract

本发明公开了一种利用共识性预测结果识别癌症驱动基因的方法，包括以下步骤：S1、接受突变注释格式(MAF)文件作为输入；S2、处理所有预处理的输入突变数据，以分别获得每种策略的候选驱动基因列表；S3、基于每个差异驱动基因列表，使用秩集成方法RobustRankAggreg来获得共有驱动基因列表；S4、使用Top‑N‑Precision和Top‑N‑nDCG评估结果性能，对共有驱动基因进行了KEGG途径和基因本体分析；S5、利用RAA算法获得共识驱动基因列表；S6、应用SuperExactTest和Circos来组织可视化结果。该方法在驱动基因预测中具有一定的优越性，尽管不同的驱动基因识别策略之间存在高度差异，但是通过各个单独策略进行结果的交叉分析不仅可以识别最可靠的驱动基因，而且还有助于发现潜在的，特征不明确的新型驱动基因。

Description

一种利用共识性预测结果识别癌症驱动基因的方法

技术领域

本发明涉及癌症驱动基因识别技术领域，具体为一种利用共识性预测结果识别癌症驱动基因的方法。

背景技术

下一代测序技术已鉴定出人类癌细胞中数百万个体细胞突变，然而，解释癌症基因组的主要挑战之一是如何有效地将驱动突变与客体突变区分开，在体内特定的微环境条件下，驱动突变与癌基因有因果关系，并沿着癌症发展沿袭而被积极选择，而客体突变不会赋予克隆生长优势，因此与肿瘤的发展无关，为了解决这个问题，已经提出了多种基于独特的假设和策略来鉴定驱动基因的方法。

据报道，已有几项研究使用源自个体模型的共识性癌症驱动基因对这些方法进行了基准测试，Collin等提出了一个评估框架，以基于包括精度，一致性和平均对数倍数变化(MLFC)在内的几种测量基准来对几种现有模型进行基准测试，Matan等也通过使用诸如精确度和召回率之类的衡量标准对可用方法进行了基准测试，Edward等以亚基因分辨率将驱动基因调用方法分为四种亚型，Denis等人提供了21种驱动基因预测方法的最全面基准，并提出了一种基于Borda的整合方法ConsensusDriver，但在现有的鉴定驱动基因的方法中集成结果的可靠性还有待提高，故而提出一种利用共识性预测结果识别癌症驱动基因的方法以解决上述问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种利用共识性预测结果识别癌症驱动基因的方法，该方法设计了一个基于Web服务器的共识癌症驱动基因调用程序平台，以得出共识突变调用结果，使用六个最新技术和互补的预测策略，并提供了一种有效的集成策略，以通过“稳健秩次汇总”(RRA)和基于统计模型的交叉点可视化来得出共识结果，并通过Circos图可视化共有突变调用结果。

(二)技术方案

为实现上述可靠性高的目的，本发明提供如下技术方案：一种利用共识性预测结果识别癌症驱动基因的方法，包括以下步骤：一种利用共识性预测结果识别癌症驱动基因的方法，包括以下步骤：

S1、接受突变注释格式(MAF)文件作为输入；

S2、处理所有预处理的输入突变数据，以分别获得每种策略的候选驱动基因列表；

S3、基于每个差异驱动基因列表，使用秩集成方法RobustRankAggreg来获得共有驱动基因列表；

S4、使用Top-N-Precision和Top-N-nDCG评估结果性能，最后，还对共有驱动基因进行了KEGG途径和基因本体分析，以进行全面注释；

S5、利用RAA算法获得共识驱动基因列表，该列表汇总了各个工具预测的排名驱动基因；

S6、应用SuperExactTest和Circos来组织可视化结果。

优选的，所述MAF文件是从变量调用格式(VCF)文件进行批注的，可以通过使用变量调用工具(如Mutect)在NGS数据上获取该文件。

优选的，在步骤S2中，使用SuperExactTest模型来评估使用所有蛋白质编码基因作为整个背景基因集的单个调用结果的交集的统计显着性。

优选的，在步骤S3中使用了四个数据库，其分别为：

A、癌症基因普查(CGC)；

B、整合癌基因组学(IntOGen)；

C、癌症基因网络(NCG)；

D、在线人类孟德尔遗传(OMIM)用于注释所预测的驱动基因。

优选的，所述Top-N-Precision是基于CGC癌症数据库的前100个基因，根据方程式(1)评估了先前策略获得的结果中的精确性，方程式(1)如下：

同时，SUM(精确度)代表27种癌症类型各自的精确度得分之和，见方程式(2)：

此外，使用IntOGen作为驱动基因参考数据集，利用归一化折现累积收益(nDCG)这一参数来衡量排序结果的质量，其次，获得Top-N-nDCG的结果通过以下步骤：

1)首先下载IntOGen癌症驱动基因数据集；

2)利用公式(3)根据参考基因的比例和驱动突变的数量为其分配权重；

3)根据公式(4)得到与基准IntOGen数据集重叠的预测驱动基因的权重；

4)在基准IntOGen数据集上不存在的预测基因的权重设置为0，可以通过等式(4)、(5)、(6)和(7)来计算Top-N-nDCG；

公式(3)、(4)、(5)、(6)和(7)如下：

CG_n＝SUM(前n个预测基因权重) (5)

IDCG_n＝DCG_{n(IntOcen中排序)} (7)

其中，n表示前n个排名最高的预测基因，i表示预测基因的排名，CG_n表示前n个预测基因的累积权重，DCG_n表示CG_n与折扣因子1/log₂i(i>1)的乘积，IDCG_n表示理想条件下的DCG_n，即预测排名与参考数据集排名一致，Top-N-nDCG代表标准化的DCG_n，并测量预测基因的排名表现。

优选的，所述SuperExactTest是可扩展的可视化工具，用于说明Venn图之外的多组之间的高阶关系，它评估了每种工具的重叠部分，并给出了一个圆形图，说明了使用，统计方法的所有可能的交点，所述Circos直观地可视化了预测的驱动基因组。

(三)有益效果

与现有技术相比，本发明提供了一种利用共识性预测结果识别癌症驱动基因的方法，具备以下有益效果：

该利用共识性预测结果识别癌症驱动基因的方法，通过比较每个替代方案的共识结果的性能，本应用程序的集成结果优于其他使用Top-n-Precision和Top-n-nDCG评估的方法，显示了其在驱动基因预测中的优越性，尽管不同的驱动基因识别策略之间存在高度差异，但是通过各个单独策略进行结果的交叉分析不仅可以识别最可靠的驱动基因，而且还有助于发现潜在的，特征不明确的新型驱动基因。

附图说明

图1为本发明提出的一种利用共识性预测结果识别癌症驱动基因的方法示意图。

具体实施方式

下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明设计了一个基于Web服务器的共识癌症驱动基因调用程序平台，以得出共识突变调用结果，使用六个最新技术和互补的预测策略，并提供了一种有效的集成策略，以通过“稳健秩次汇总”(RRA)和基于统计模型的交叉点可视化来得出共识结果，并通过Circos图可视化共有突变调用结果。

具体的，该利用共识性预测结果识别癌症驱动基因的方法示意图如图1所示，包括以下步骤：

S1、接受突变注释格式(MAF)文件作为输入；

S6、应用SuperExactTest和Circos来组织可视化结果。

其中，所述MAF文件是从变量调用格式(VCF)文件进行批注的，可以通过使用变量调用工具(如Mutect)在NGS数据上获取该文件。

此外，本发明使用SuperExactTest模型来评估使用所有蛋白质编码基因作为整个背景基因集的单个调用结果的交集的统计显着性。

另外，使用了四个数据库，其分别为：

A、癌症基因普查(CGC)；

B、整合癌基因组学(IntOGen)；

C、癌症基因网络(NCG)；

D、在线人类孟德尔遗传(OMIM)用于注释所预测的驱动基因。

在步骤S4中，所述Top-N-Precision是基于CGC癌症数据库的前100个基因，根据方程式(1)评估了先前策略获得的结果中的精确性，方程式(1)如下：

平均精度可以衡量泛癌队列样本中各个方法的一般预测能力，我们计算27种癌症类型中每种类型的精确度得分。

1)首先下载IntOGen癌症驱动基因数据集(URL：https：//www.intogen.org/)；

2)利用公式(3)根据参考基因的比例和驱动突变的数量为其分配权重，该数据集中基因总数为459；

公式(3)、(4)、(5)、(6)和(7)如下：

CG_n＝SUM(前n个预测基因权重) (5)

IDCG_n＝DCG_{n(IntOGen中排序)} (7)

其中，n表示前n个排名最高的预测基因，i表示预测基因的排名，CG_n表示前n个预测基因的累积权重，DCG_n表示CG_n与折扣因子1/log₂i(i＞1)的乘积，IDCG_n表示理想条件下的DCG_n，即预测排名与参考数据集排名一致，Top-N-nDCG代表标准化的DCG_n，并测量预测基因的排名表现。

在步骤S5中，与原始的RankAggreg算法相比，RRA算法具有三个优点：

(1)处理不完整的排名，这在实践中很常见；

(2)数据噪声的耐受性；

(3)可以快速集成以进行交互式数据分析。

在步骤S6中，前者是可扩展的可视化工具，用于说明Venn图之外的多组之间的高阶关系，它评估了每种工具的重叠部分，并给出了一个圆形图，说明了使用，统计方法的所有可能的交点，后者直观地可视化了预测的驱动基因组。

本发明的有益效果是：比较了每个替代方案的共识结果的性能，本应用程序的集成结果优于其他使用Top-n-Preci s ion和Top-n-nDCG评估的方法，显示了其在驱动基因预测中的优越性，尽管不同的驱动基因识别策略之间存在高度差异，但是通过各个单独策略进行结果的交叉分析不仅可以识别最可靠的驱动基因，而且还有助于发现潜在的，特征不明确的新型驱动基因。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种利用共识性预测结果识别癌症驱动基因的方法，其特征在于，包括以下步骤：

S1、接受突变注释格式(MAF)文件作为输入；

S6、应用SuperExactTest和Circos来组织可视化结果。

2.根据权利要求1所述的一种利用共识性预测结果识别癌症驱动基因的方法，其特征在于，所述MAF文件是从变量调用格式(VCF)文件进行批注的，可以通过使用变量调用工具(如Mutect)在NGS数据上获取该文件。

3.根据权利要求1所述的一种利用共识性预测结果识别癌症驱动基因的方法，其特征在于，在步骤S2中，使用SuperExactTest模型来评估使用所有蛋白质编码基因作为整个背景基因集的单个调用结果的交集的统计显着性。

4.根据权利要求1所述的一种利用共识性预测结果识别癌症驱动基因的方法，其特征在于，在步骤S3中使用了四个数据库，其分别为：

A、癌症基因普查(CGC)；

B、整合癌基因组学(IntOGen)；

C、癌症基因网络(NCG)；

D、在线人类孟德尔遗传(OMIM)用于注释所预测的驱动基因。

5.根据权利要求4所述的一种利用共识性预测结果识别癌症驱动基因的方法，其特征在于，所述Top-N-Precision是基于CGC癌症数据库的前100个基因，根据方程式(1)评估了先前策略获得的结果中的精确性，方程式(1)如下：

1)首先下载IntOGen癌症驱动基因数据集；

公式(3)、(4)、(5)、(6)和(7)如下：

CG_n＝SUM(前n个预测基因权重) (5)

IDCG_n＝DCG_{n(IntOGen中排序)} (7)

6.根据权利要求5所述的一种利用共识性预测结果识别癌症驱动基因的方法，其特征在于，所述SuperExactTest是可扩展的可视化工具，用于说明Venn图之外的多组之间的高阶关系，它评估了每种工具的重叠部分，并给出了一个圆形图，说明了使用，统计方法的所有可能的交点，所述Circos直观地可视化了预测的驱动基因组。