CN117497047A

CN117497047A - 基于外显子测序筛选肿瘤基因标志物的方法、设备和介质

Info

Publication number: CN117497047A
Application number: CN202311534650.XA
Authority: CN
Inventors: 张典典; 龙正标; 张振兴; 郭欣
Original assignee: Hangzhou Lianchuan Biotechnology Co ltd
Current assignee: Hangzhou Lianchuan Biotechnology Co ltd
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-02-02

Abstract

本发明公开了一种基于外显子测序筛选肿瘤基因标志物的方法、设备和介质，属于肿瘤基因标志物检测技术领域。所述方法基于肿瘤外显子测序数据获得基因的综合变异分数，从而确定候选基因。具体地，首先对外显子测序数据进行预处理，再比对基因组，接着进行体细胞突变突变分析和拷贝数变异分析，进而基于突变频率和拷贝数变异频率，计算综合变异分数，最后选取综合变异分数大于预设阈值的基因作为肿瘤基因标志物的候选基因。利用本发明的方法，能够丰富肿瘤的基因标志物，并且获得的基因标志物对肿瘤鉴定的敏感性和特异性都得到较大的提升，具有十分重要的临床价值。

Description

基于外显子测序筛选肿瘤基因标志物的方法、设备和介质

技术领域

本发明属于肿瘤基因标志物检测技术领域，具体地，涉及一种基于外显子测序筛选肿瘤基因标志物的方法、设备和介质。

背景技术

外显子组测序(Exome Sequencing)是一种高通量测序技术，旨在对生物体基因组中的外显子区域进行测序。在人类基因组中，外显子约占据了整个基因组的1～2％，尽管外显子区域的比例较小，但它们是编码蛋白质的关键部分，承担着许多生物学功能。外显子组测序的主要目的是鉴定生物体外显子区域的遗传变异，可以提供关于肿瘤细胞中存在的基因突变、突变频率、潜在的致病突变以及可能的治疗靶点等信息。这些遗传变异可能对蛋白质的结构、功能以及与疾病的关联性产生影响。

肿瘤外显子组测序数据分析的两个主要内容包括基因突变位点检测和拷贝数变异。突变位点对比对后的测序数据进行变异检测，鉴定肿瘤中存在的基因突变，包括单核苷酸多态性(Single Nucleotide Polymorphisms，SNPs)、插入/缺失变异(Insertion/Deletion，Indels)。常用的变异检测工具有GATK、MuTect、VarScan等。肿瘤细胞中的基因拷贝数变异(copy number variation，CNV)包括拷贝数增加(Copy Number Gain)和拷贝数减少(Copy Number Loss)。拷贝数增加表示某个基因的拷贝数在肿瘤细胞中增加，拷贝数增加可能导致基因过度表达，促进肿瘤细胞的生长和增殖。而拷贝数减少是某个基因的拷贝数在肿瘤细胞中减少，拷贝数减少可能导致基因表达的下调或丧失，影响肿瘤细胞的正常功能和调控。

目前肿瘤基因组的研究中，一些常用的工具和算法用于检测基因突变位点和拷贝数变化。例如，GATK(Genome Analysis Toolkit)中的MuTect和VarScan是常用的基因突变位点检测工具，可以识别单核苷酸变异(SNV)、插入/缺失变异(Indels)和结构变异。ADTEx(Allelic Depth from Tumor-Exome)和CNVkit是用于分析肿瘤外显子组测序数据的工具，它基于读段覆盖度和测序深度信息，利用统计模型推断拷贝数和基因突变的状态等，这些工具最主要的功能是通过分析获得基因突变和拷贝数变异的信息。

肿瘤内基因研究仅通过对肿瘤内基因体细胞突变进行频谱分析需要有大量样本的支持，往往特定类型的样本在很难在短期内获得。但对于队列样本的研究中，仅通过突变基因的功能变化这一单一信息进行功能验证，往往与预期不符，浪费了许多人力、算力和时间。

发明内容

为了解决上述技术问题，本发明基于肿瘤外显子测序数据获得基因的综合变异分数，从而确定候选基因。具体地，首先对外显子测序数据进行预处理，再比对基因组，接着进行体细胞突变突变分析和拷贝数变异分析，之后基于突变频率和拷贝数变异频率计算综合变异分数，最后选取综合变异分数大于预设阈值的基因作为肿瘤基因标志物的候选基因。为此，本发明采用的技术方案如下：

本发明第一方面提供一种基于外显子测序筛选肿瘤基因标志物的方法，包括以下步骤：

S1，获得多个肿瘤配对样本的外显子测序数据；

S2，对外显子测序数据进行突变位点检测，确定突变信息，并基于多个肿瘤配对样本的突变信息确定每个基因的突变频率P_m；

S3，计算每个基因的拷贝数，确定拷贝数变异信息，并确定每个基因的拷贝数变异频率P_c；

S4，基于突变频率P_m和拷贝数变异频率P_c，计算综合变异频率P：

P＝P_m+P_c

对每个基因综合变异频率P进行归一化处理，计算基因的综合变异分数G_score：

其中，P_max为所有基因的综合变异频率的最大值，P_min为所有基因的综合变异频率的最小值，

S5，选取综合变异分数G_score大于预设阈值的基因作为肿瘤基因标志物的候选基因。

在本发明中，所述肿瘤基因标志物是指能够用于肿瘤诊断、预后和治疗响应预测的基因。

在本发明中，所述外显子测序数据可以是自行测序得到的，也可以来源于公众数据库，利用TCGA或cBioPortal，只要能够用于突变位点检和拷贝数分析即可。

在本发明的一些实施方案中，步骤S1中，所述外显子测序数据是原始下机数据经质量控制和预处理后得到的，所述质量控制和预处理包括：

(1)过滤接头reads；

(2)过滤含有N的比例大于5％的reads；

(3)过滤质量值Q≤10的碱基数占整个read的20％以上)的reads。

在本发明的一些实施方案中，步骤S2中，利用包括但不限于MuTect2、VarScan、Strelka进行突变位点检测。

本发明的一些实施方案中，步骤S2中，确定突变信息后，进一步去除已知与肿瘤无关的变异和无功能变异。

本发明的目的筛选肿瘤基因标志物，因此，对于一些已知的公认的与肿瘤无关的变异可以先行去除，避免进入下一步分析。显而易见地，无功能变异或称无义突变也不会是潜在的肿瘤基因标志物，可以去除。

在本发明的一些实施方案中，所述突变包括单核苷酸变异和插入/缺失变异。

在本发明的一些实施方案中，步骤S2中，针对某个特定基因，突变频率P_m的计算公式如下：

其中，N_mgene指全部样本中所述特定基因发生体细胞突变的数量，N_m指所有样本中发生体细胞突变的数量。

在本发明的一些实施方案中，步骤S3中，利用包括但不限于CNVkit、control-FREEC和ExomeCNV进行突变位点检测。

在本发明的一些实施方案中，针对某个特定基因，拷贝数变异频率P_c的计算公式如下：

其中，N_cgene指全部样本中所述特定基因发生拷贝数变异的数量，N_c指所有样本中发生拷贝数变异的数量。

在本发明的一些实施方案中，所述预设阈值为0.65，即选取综合变异分数大于0.65的基因作为肿瘤基因标志物的候选基因。

本发明第二方面提供基因标志物的检测试剂在制备用于诊断肿瘤的试剂盒中的应用，所述基因标志物是利用本发明第一方面所述的一种基于外显子测序筛选肿瘤基因标志物的方法筛选得到的。

在本发明的一些实施方案中，所述基因标志物包括NBPF10、PDE4DIP、COL6A1、CNTNAP3和FAM210A中的一种或多种。

在本发明的一些实施方案中，所述检测试剂为引物或探针，可以基于qPCR、捕获测序等方法进行检测。

本发明还提供一种预测受试者是否患有癌症或者是否具有患癌症的风险或预测癌症患者预后风险高低的系统，包括以下模块：

数据输入模块，用于输入受试者基因标志物的表达水平；

预测模块，与所述数据输入模块连接，用于根据所述基因标志物的表达水平判断受试者是否患有癌症或者是否具有患癌症的风险或者预后风险高低。

在本发明的一些实施方案中，所述预测模块中的利用机器学习模型进行判断。

进一步，所述机器学习模型采用以下任意一项算法训练得到：随机森林算法、支持向量机算法、线性回归算法、逻辑回归算法、贝叶斯分类器和神经网络算法。

本发明第三方面提供一种计算机设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如本发明第一方面所述的一种基于外显子测序筛选肿瘤基因标志物的方法的步骤。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面所述的一种基于外显子测序筛选肿瘤基因标志物的方法的步骤。

本发明的有益效果

相对于现有技术，本发明具有以下有益效果：

本发明的方法采用基于拷贝数变异来综合确定基因突变位点的策略，得到准确的驱动基因进行突变标记物鉴定，进一步缩小了候选基因的选择范围，提高了驱动基因挖掘的准确性。通过筛选出在肿瘤中高频发生的突变位点或基因，可以开发用于诊断、预后和治疗响应预测的标记物，从而丰富肿瘤的基因标志物。

利用本发明的方法获得的基因标志物对肿瘤鉴定的敏感性和特异性都得到较大的提升，具有十分重要的临床价值。

附图说明

图1示出了本发明实施例2中NBPF10、PDE4DIP、COL6A1、CNTNAP3和FAM210A在肿瘤样本和正常样本中的表达情况。

图2示出了本发明实施例2中NBPF10、PDE4DIP、COL6A1、CNTNAP3和FAM210A异常表达对肺癌患者预后生存期的影响。

具体实施方式

除非另有说明、从上下文暗示或属于现有技术的惯例，否则本申请中所有的份数和百分比都基于重量，且所用的测试和表征方法都是与本申请的提交日期同步的。在适用的情况下，本申请中涉及的任何专利、专利申请或公开的内容全部结合于此作为参考，且其等价的同族专利也引入作为参考，特别这些文献所披露的关于本领域中的相关术语的定义。如果现有技术中披露的具体术语的定义与本申请中提供的任何定义不一致，则以本申请中提供的术语定义为准。

本申请中的数字范围是近似值，因此除非另有说明，否则其可包括范围以外的数值。数值范围包括以1个单位增加的从下限值到上限值的所有数值，条件是在任意较低值与任意较高值之间存在至少2个单位的间隔。对于包含小于1的数值或者包含大于1的分数(例如1.1，1.5等)的范围，则适当地将1个单位看作0.0001，0.001，0.01或者0.1。对于包含小于10(例如1到5)的个位数的范围，通常将1个单位看作0.1。这些仅仅是想要表达的内容的具体示例，并且所列举的最低值与最高值之间的数值的所有可能的组合都被认为清楚记载在本申请中。

术语“包含”，“包括”，“具有”以及它们的派生词不排除任何其它的组分、步骤或过程的存在，且与这些其它的组分、步骤或过程是否在本申请中披露无关。为消除任何疑问，除非明确说明，否则本申请中所有使用术语“包含”，“包括”，或“具有”的组合物可以包含任何附加的添加剂、辅料或化合物。相反，出来对操作性能所必要的那些，术语“基本上由……组成”将任何其他组分、步骤或过程排除在任何该术语下文叙述的范围之外。术语“由……组成”不包括未具体描述或列出的任何组分、步骤或过程。除非明确说明，否则术语“或”指列出的单独成员或其任何组合。

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。

实施例

以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白，下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术，因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白，这里所公开的特定实施例可以做很多修改，仍然能得到相同的或者类似的结果，而非背离本发明的精神或范围。

除非另有定义，所有在此使用的技术和科学的术语，和本发明所属领域内的技术人员所通常理解的意思相同，在此公开引用及他们引用的材料都将以引用的方式被并入。

那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。

下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的仪器设备，如无特殊说明，均为实验室常规仪器设备；下述实施例中所用的试验材料，如无特殊说明，均为自常规生化试剂商店购买得到的。

实施例1肿瘤配对样本的外显子组测序数据分析

本实施例来源于20对肺癌样本的外显子测序数据进行肿瘤突变基因的综合变异分数分析。

1.测序数据预处理和比对基因组

(1)过滤接头(Adaptor)的reads；

(2)过滤含有N(N表示无法确定碱基信息)的比例大于5％的reads；

(3)过滤低质量(质量值Q≤10的碱基数占整个read的20％以上)的reads。

预处理后得到高质量外显子测序数据(clean data)。

使用BWA软件将clean data与参考基因组进行比对，并去除重复reads，获得去重后的bam文件，下一步进行突变位点检测和拷贝数分析。

2.体细胞突变分析

对比对参考基因组后的结果文件，使用MuTect2进行每一个样本的体细胞突变的分析，得到vcf格式的结果文件，再使用annovar工具对检测到的突变文件进行基因组数据库的注释。基于突变注释的结果，去除已知与肿瘤无关的突变和无功能变异，保留非同义突变(non-synonymous mutation)，共存在1997个体细胞突变基因。

计算每个基因的突变频率P_m，计算公式如下：

其中，N_mgene指全部样本中特定基因发生体细胞突变的数量(频数)，N_m指所有样本中发生体细胞突变的数量(在本实施例中，N_m＝38)。

表1示出了按突变频率从大到小排列位于前30的基因。

表1体细胞突变基因(突变频率前30)

3.拷贝数变异分析

发明人利用CNVkit对20对肿瘤样本的比对结果进行拷贝数变异分析。对拷贝数估计结果进行统计分析，识别潜在的CNVs区域。之后，经gistic工具整理之后获得基因的拷贝数变异数量共1844个，最后计算每个基因的拷贝数变异频率P_c，计算公式如下：

其中，B_cgene指全部样本中特定基因发生拷贝数变异的数量，N_c指所有样本中发生拷贝数变异的数量(在本实施例中，N_c＝34)。

拷贝数变异频率如表2所示：

表2样本拷贝数变异结果(前30个基因)

4.综合变异分数计算

基于突变频率P_m和拷贝数变异频率P_c，计算综合变异频率P。

P＝P_m+P_c

对每个基因综合变异频率P进行归一化处理，计算基因的综合变异分数G_score，计算公式如下：

其中，P_max为所有基因综合变异频率的最大值(在本实施例中为0.8483)；P_min为所有基因综合变异频率的最小值(在本实施例中为0.0264)。

综合变异分数G_score结果见表3。

表3综合变异分数G_score结果(仅展示G_score前30)

由表3可知，NBPF10、PDE4DIP、COL6A1、CNTNAP3和FAM210A等基因具有相对较高的综合变异分数(G_score>0.65)，说明这些存在体细胞突变的基因具有表达水平上改变的潜能，能够作为肿瘤诊断或识别的标志物。

实施例2筛选得到的基因的应用

为了研究NBPF10、PDE4DIP、COL6A1、CNTNAP3和FAM210A基因在人类肺癌中的临床意义，验证实施例1法综合变异分数的应用价值，本实施例收集来自TCGA网站的肺癌相关样本1154例，正常样本110例，肺癌样本1054例，使用高通量数据进行差异分析。结果发现组间重复性不高，经过主成分分析剔除离群样本，最终保留肿瘤样本(tumor)952例，正常样本(normol)102例。以上5个基因在肿瘤样本和正常样本中的表达水平如图1所示。

由图1可知，COL6A1、FAM210A和NBPF10、PDE4DIP、CNTNAP3基因在肺癌与正常样本之间的表达均存在显著差异，COL6A1、FAM210A两个基因在肿瘤样本中相较于正常样本表达上调，而NBPF10、PDE4DIP、CNTNAP3表达下调，说明使用综合变异分数(G_score)可以反映基因的表达水平。

进一步，发明人分析NBPF10、PDE4DIP、COL6A1、CNTNAP3和FAM210A基因表达水平与肺癌预后的关系：对952例患者的临床资料整理去除无有效临床信息样本，剩余371个肿瘤样本用于Kaplan-Meier生存分析，如图2所示。

由图2可知，CNTNAP3、PDE4DIP和NBPF10高表达的肿瘤患者(中位生存期为30个月)与较低表达的肿瘤患者(中位生存期为48个月)相比中均显著缩短生存期(Log-rank，P＜0.001)。而FAM210A基因在低表达的肿瘤患者(中位生存期42个月)与高表达的肿瘤患者(中位生存期48)显著缩短生存期(Log-rank，P＜0.05)。但是COL6A1基因的表达对肿瘤患者的生存期未有明显的影响。

综上所述，本发明提供的NBPF10、PDE4DIP、CNTNAP3和FAM210A的异常表达与肺癌的预后风险高度相关，并能够用于肺癌的诊断、疗效评估以监控，其诊断结果可用于临床症状的辅助判断。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种基于外显子测序筛选肿瘤基因标志物的方法，其特征在于，包括以下步骤：

S1，获得多个肿瘤配对样本的外显子测序数据；

P＝P_m+P_c

2.根据权利要求1所述的一种基于外显子测序筛选肿瘤基因标志物的方法，其特征在于，步骤S1中，所述外显子测序数据是原始下机数据经质量控制和预处理后得到的，所述质量控制和预处理包括：

(1)过滤接头reads；

(2)过滤含有N的比例大于5％的reads；

(3)过滤质量值Q≤10的碱基数占整个read的20％以上的reads。

3.根据权利要求1所述的一种基于外显子测序筛选肿瘤基因标志物的方法，其特征在于，步骤S2中，确定突变信息后，进一步去除已知与肿瘤无关的变异和无功能变异。

4.根据权利要求1所述的一种基于外显子测序筛选肿瘤基因标志物的方法，其特征在于，所述突变包括单核苷酸变异和插入/缺失变异。

5.根据权利要求1-4任一所述的一种基于外显子测序筛选肿瘤基因标志物的方法，其特征在于，步骤S2中，针对某个特定基因，突变频率P_m的计算公式如下：

其中，N_mgene指全部样本中所述特定基因发生体细胞突变位点的数量，N_m指所有样本中发生体细胞突变的数量。

6.根据权利要求1-4任一所述的一种基于外显子测序筛选肿瘤基因标志物的方法，其特征在于，针对某个特定基因，拷贝数变异频率P_c的计算公式如下：

7.基因标志物的检测试剂在制备用于诊断肿瘤的试剂盒中的应用，其特征在于，所述基因标志物是利用权利要求1-6任一所述的一种基于外显子测序筛选肿瘤基因标志物的方法筛选得到的。

8.根据权利要求7所述的应用，其特征在于，所述基因标志物包括NBPF10、PDE4DIP、COL6A1、CNTNAP3和FAM210A中的一种或多种。

9.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1-6任一所述的一种基于外显子测序筛选肿瘤基因标志物的方法的步骤。

10.一种计算机可读存储介质，其特征在于，

所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6任一所述的一种基于外显子测序筛选肿瘤基因标志物的方法的步骤。