CN116646006B

CN116646006B - 一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置

Info

Publication number: CN116646006B
Application number: CN202310927931.5A
Authority: CN
Inventors: 张家兵; 李�杰; 苏艳芳; 周童; 白洪海
Original assignee: Shanghai Huace Aipu Medical Laboratory Co ltd; Centre Testing International Group Co ltd
Current assignee: Shanghai Huace Aipu Medical Laboratory Co ltd; Centre Testing International Group Co ltd
Priority date: 2023-07-27
Filing date: 2023-07-27
Publication date: 2023-11-14
Anticipated expiration: 2043-07-27
Also published as: CN116646006A

Abstract

本发明公开了一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置。本发明在进行体系突变检测时，基于高通量测序数据，通过引入高斯混合模型（Gaussian Mixture Model，GMM）对初始的突变位点进行聚类分类，并结合特定数据库对突变位点进行分析，能够区分体系、胚系突变，大幅降低突变结果的假阳性，提升检测结果的特异性和灵敏性。

Description

一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置

技术领域

本发明属于生信分析技术领域，涉及一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置。

背景技术

肿瘤样本的下一代测序（Next Generation Sequencing , NGS）被广泛用于发现生物学上重要的突变，并指导临床进行靶向治疗和用药。这些突变分为体细突变（Somaticmutation）和胚系突变（Germline mutation），体细胞突变一般仅存在于肿瘤细胞中，不遗传给后代，而种系突变发生在受精卵中，同时存在于肿瘤细胞和正常细胞中，可以遗传给后代。

通过对肿瘤组织、血液、胸腹水等类型样本进行目标基因的获取和测序，再经过生物信息分析，可以进行基因突变检测，依据突变检测结果可以进行肿瘤的发现、治疗、预后指导等临床应用。基因检测产品包括单基因突变检测、多基因联合检测，常采用定量即时聚合酶链式反应（quantitative real-time polymerase chain reaction，qPCR）的技术检测，针对的是已知突变类型的位点进行检测，低频突变检测能力和通量有限。另一类是基于NGS的肿瘤基因检测，包括全外显子测序和靶向测序的基因检测，靶向测序由于捕获的主要是肿瘤相关基因，通常是几百个基因，相比全外显子测序，同样的测序数据量可以实现对单个基因位点的超高深度测序，进而实现对更低频突变的检出，对基因低频突变的检出在临床上具有重要意义，且在通量上具有优势。

基因突变的类型包括单核苷酸变异（Single Nucleotide Variation，SNV)、短插入缺失（Short Insertions or Deletions，InDels）、拷贝数变异（Copy NumberVariations，CNVs）、结构变异（Larger Structural Variations，SVs）。体系突变检测可以通过生物信息流程来分析NGS靶向测序的数据来实现，主要是运用计算机通过特定的程序组合特定的算法来分析这些NGS数据，并最终汇报分析结果。

体系突变分析时，可以使用突变分析软件将质控合格的数据比对到参考基因组上，来汇报突变信息；胚系突变区分可以在检测肿瘤（Tumor）样本时，结合正常（Normal）样本的突变检测结果做参照进行胚系突变过滤；在没有Normal样本进行参照的情况下，则需要通过算法进行区分，在划分为体系突变的位点中，通常也会存在大量的假阳性（FalsePostive，FP）位点，假阳性位点并非样本中真实存在的基因突变，其变异的频率通常较低，可能来源于实验、测序环节，这类低频假阳性位点会干扰真实存在的低频突变的识别。因此，需要对这些非体系突变位点进行算法处理，来提高对低频突变的检测特异性和灵敏度。传统的算法处理是对突变位点进行注释，获取详细的位点信息，包括变异位点所属区域、变异分类、突变率等，然后根据生物学和医学背景知识进行条件规则过滤，最后符合过滤规则的被作为检出的阳性体系突变位点。

综上所述，开发新的生物信息学方法在肿瘤样本中高灵敏度和精确度判别体系突变，对于肿瘤检测领域具有重要意义。

发明内容

针对现有技术的不足和实际需求，本发明提供一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置，通过引入高斯混合模型（Gaussian MixtureModel，GMM）对初始的突变位点进行聚类分类，并结合特定数据库对突变位点进行分析，能够区分体系、胚系突变，大幅降低突变结果的假阳性，从而提升检测结果的特异性和灵敏性。

为达上述目的，本发明采用以下技术方案：

第一方面，本发明提供一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法，所述方法包括：

数据获取：

对待测样本进行DNA提取和酶切打断，构建文库，对构建的文库进行靶向区域捕获，捕获后进行PCR扩增，再进行上机测序，获得源数据（Raw Data）；

数据处理：

对测序源数据进行评估，去除低质量的测序读序列，获得干净读序列（cleanreads），对比到参考基因组后，进行唯一分子标签（Unique Molecular Identifier，UMI)一致性分析处理，获得一致性序列（Consensus sequence）；

变异检测：

进行变异发现，通过高斯混合模型对原始变异位点进行分类，依据突变位点的突变丰度在人群公共数据库的分布，进行分类注释，再结合高斯混合模型的分类结果区分体系突变和胚系突变，然后进行转录本注释，根据特定转录本的转录信息进行变异类型筛选，得到体系突变的检测结果。

本发明中，设计体系突变检测的分类算法和整套突变分析流程（示意图如图1所示），引入高斯混合模型对突变位点进行分类，并结合公共的人群突变频率数据库注释和数值统计，在不需要对照样本的情况下可以进行体系和胚系突变的区分，并在体系突变检测时降低假阳性，从而提升检测结果的特异性和灵敏性。

优选地，所述构建文库的方法包括：

将酶切打断后的DNA添加分子标签，再和引物混合进行PCR扩增。

优选地，所述数据处理具体包括：

通过fastqc软件对测序数据进行评估，使用fastp软件去除低质量的测序读序列，获得干净读序列；使用picard、fgbio和samtools软件进行唯一分子标签一致性分析处理，获得一致性序列。

优选地，所述唯一分子标签一致性分析处理：包括唯一分子标签提取、干净读序列比对参考基因组和唯一分子标签校正。

优选地，所述低质量的测序读序列的判断标准为fastp默认参数过滤标准。

优选地，所述变异检测具体包括：

通过VarDict2软件进行变异发现，变异检出的等位基因频率限为0.01或0.001，通过高斯混合模型对原始变异位点进行分类，再通过annovar软件依据突变位点的突变丰度在人群公共数据库的分布，进行分类注释，结合高斯混合模型分类结果区分体系突变和胚系突变，然后进行转录本注释，根据特定转录本的转录信息，进行变异类型筛选，得到体系突变的检测结果。

优选地，所述高斯混合模型分类中参数K为3或4，选择的特征包括每个突变位点的测序总深度DP、变异深度VD、等位基因频率AF、所有变异序列到最近的5’或3’端的平均距离PMEAN、信噪比SN、链偏好Fisher P值SBF和针对InDel基于局部重比对调整后的等位基因频率ADJAF。

优选地，所述区分体系突变和胚系突变的方法包括：

对VarDict2软件分析出的原始突变位点进行高斯混合模型分类，对SNV的分类设K为3或4，标记每个SNV类型的突变位点为0或1或2或3；对InDel的分类设K为2，标记每个InDel类型的突变位点为0或1；

划归VarDict2软件分析的Complex类型的位点到InDel类型中，对SNV类型的位点进行体系突变和胚系突变区分：根据annovar软件的三个项目公共数据库1000K、ExAC和ESP6500的注释结果，对每个突变位点标记为High或Median或Low，若某突变位点在这所述项目公共数据中的人群频率均大于0.05，则此突变的分组标记为High，若均小于0.0001，则此突变的分组标记为Low，其它则标记为Median；若某个突变位点在项目公共数据中对应的人群突变频率分别为1000K=0、esp6500=0和ExAC=8.258e-06，则根据划定的分组规则将其标记为人群等位基因频率低，字母标识为PopAF=Low；

对于SNV类的突变，在高斯混合模型分类的0、1、2、3组分别对应着标记为Low、Median和High的突变，计算高斯混合模型分类中各类的PopAF=Low的占比，占比最高的类可判断为体系突变，则将分类号标记为Somatic，高斯混合模型分类中PopAF=High占比最高的类判断为胚系突变，其它类则判断为假突变；

对于InDel类的突变，将高斯混合模型分类的各组分别与SNV类中标记为Somatic的组进行AF分布的相似性比较，相似性最高的判断为体系突变，其它的判断为非体系突变。

本发明中，使用UMI、测序数据质控、GMM模型分类、体系突变区分、规则过滤组合方法对于基于NGS的肿瘤基因体系突变检测（适用SNV、InDels）在特异性和灵敏性上的提升上效果显著。

第二方面，本发明提供一种肿瘤相关基因体系突变检测装置，所述检测装置用于执行第一方面所述的基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法中的步骤，所述装置包括数据获取单元、数据处理单元和变异检测单元。

所述数据获取单元用于执行包括：

对待测样本进行DNA提取和酶切打断，构建文库，对构建的文库进行靶向区域捕获，捕获后进行PCR扩增，再进行上机测序。

所述数据处理单元用于执行包括：

对测序数据进行评估，去除低质量的测序读序列，获得干净读序列，并进行唯一分子标签一致性分析处理，获得一致性序列。

所述变异检测单元用于执行包括：

优选地，所述变异检测具体包括：

优选地，所述区分体系突变和胚系突变的方法包括：

划归VarDict2软件分析的Complex类型的位点到InDel类型中，对SNV类型的位点进行体系突变和胚系突变区分：根据annovar软件的三个项目公共数据库1000K、ExAC和ESP6500的注释结果，对每个突变位点标记为High或Median或Low，若某突变位点在项目公共数据中的人群频率均大于0.05，则此突变的分组标记为High，若均小于0.0001，则此突变的分组标记为Low，其它则标记为Median；若某个突变位点在项目公共数据中对应的人群突变频率分别为1000K=0、esp6500=0和ExAC=8.258e-06，则根据划定的分组规则将其标记为人群等位基因频率低，字母标识为PopAF=Low；

第三方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序/指令，所述计算机程序/指令被处理器执行时实现第一方面所述基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法的步骤。

第四方面，本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现第一方面所述基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明设计肿瘤体系突变检测的分类算法和整套突变分析流程，引入高斯混合模型对突变位点进行分类，并结合公共的人群突变频率数据库注释和数值统计，在不需要对照样本的情况下可以进行体系和胚系突变的区分，并在体系突变检测时降低假阳性，从而提升检测结果的特异性和灵敏性。

附图说明

图1为分析流程图。

具体实施方式

为进一步阐述本发明所采取的技术手段及其效果，以下结合实施例和附图对本发明作进一步地说明。可以理解的是，此处所描述的具体实施方式仅仅用于解释本发明，而非对本发明的限定。

实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件，或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可通过正规渠道购买获得的常规产品。

实施例1

对于肺癌某类型肿瘤组织参考样本NS202211的体系突变分析过程如下。

数据获取

该样本在实验环节进行DNA提取、DNA片段化，添加分子标签标记后，经过PCR扩增及靶向捕获富集纯化等步骤后，进行NGS测序，获取下机源数据NS202211_R1.fastq.gz和NS202211_R2.fastq.gz，该样本数据为双端测序数据。

数据处理

使用fastqc软件对源数据进行分析，2个测序数据的质量评估参数Q30分别为89.47%和89.77%。经过fastp软件的数据质控后，获得干净读序列：

NS202211_R1.fp.fastq.gz；

NS202211_R2.fp.fastq.gz。

接下来进行分子标签一致性处理，使用picard软件先将上述2个fastq文件转成1个ubam文件，即为NS202211.ubam；再依据实验时使用的分子标签信息使用fgbio软件进行参数设置来提取ubam文件的UMI信息，生成NS202211.umi.ubam，再使用samtools软件的fastq命令对其进行转化，并通过bwa软件使用mem算法将其比对到人类参考基因组上（hg19），得到1个bam格式的比对文件，为NS202211.umi.bam。

再对该bam文件使用samtool软件的sort命令进行排序，使用samtools软件的index命令建立文件索引信息，经过picard软件对bam文件进行合并（merge），使用fgbio软件对前述步骤生成的结果进行UMI的校正、分组和生成一致性序列比对结果（Consensussequence）。

再使用bwa软件的mem算法将经UMI校正的一致性比对序列结果和人类参考基因组进行再次比对，并过滤掉不一致的序列。最终获得目的文件：

NS202211.consensus.mapped.filtered.clipped.bam和

NS202211.consensus.mapped.filtered.clipped.bai；

这两个结果文件可以用于后续的变异发现。

使用bamdst软件结合靶向捕获的探针信息bed文件对最终的consensus.mapped.filtered.clipped.bam文件进行统计，结果显示≥100X的在靶覆盖度平均为88.78.%，靶区平均测序深度为1199。

变异发现

使用Vardict2软件对上述经UMI进行过一致性处理比对的最终bam文件NS202211.consensus.mapped.filtered.clipped.bam进行突变位点识别。使用hg19版本的人类参考基因组，设置最小AF发现限（min_af)为0.01，最终获得初始的突变位点vcf文件，为NS202211.vcf.gz。

使用自编程的python脚本引入设置好特征类别的GMM模型，对初始突变位点文件进行组别划分，然后使用annovar软件对添加了模型分组标记的突变位点进行三个公共数据库（1000K、ExAc、ESP6500）注释，然后根据设定的阈值对不同突变位点进行人群突变频率组划分，即标注PopAF为High、Low或Median。经过验证分析，对初步判定为体系突变的位点标注为Somatic，对判定不是体系突变的位点标注为False。

再使用SnpSift软件对各位点进行转录本注释，然后按照转录本注释的结果再次进行过滤。最后过滤掉标记为False的位点，剩余的位点可以作为可信的体系突变分析结果。

结果文件为NS202211.final.vcf。

经比较，该样本的体系突变结果与参考样品的正确突变结果一致。该样本最终被检出的其中1个体系突变的位点为KRAS基因的p.G12S变异，变异的丰度AF=10.36%。

如下为该样本NS202211的KRAS p.G12S突变的vcf信息。

chr12 25398285.C T 247 PASS SAMPLE=NS202211;TYPE=SNV;DP=1187; VD=123;AF=0.1036;BIAS=2:2;REFBIAS=522:538;VARBIAS=48:75;PMEAN=29.3;PSTD=1;QUAL=35.6;QSTD=1;SBF=0.03583;ODDRATIO=1.51549;MQ=60;SN=246;HIAF=0.1038;ADJAF=0;SHIFT3=1;MSI=2;MSILEN=3;NM=1.8;HICNT=123;HICOV=1185;LSEQ=GGCACTCTTGCCTACGCCAC;RSEQ=AGCTCCAACTACCACAAGTT;DUPRATE=0;SPLITREAD=0;SPANPAIR=0;ML=Somatic;1000K=0;esp6500=0;ExAC=0;PopAF=Low;ANN=T|missense_variant|MODERATE|KRAS|KRAS|transcript|NM_033360.4|protein_coding|2/6|c.34G>A|p.G12S|224/5430|34/570|12/189|| GT:DP:VD:AD:AF:RD:ALD 0/1:1187:123:1060,123:0.1036:522, 538:48,75。

综上所述，本发明设计肿瘤体系突变检测的分类算法和整套突变分析流程，引入高斯混合模型对突变位点进行分类，并结合公共的人群突变频率数据库注释和数值统计，在不需要对照样本的情况下可以进行体系和胚系突变的区分，并在体系突变检测时降低假阳性，从而提升检测结果的特异性和灵敏性。

申请人声明，本发明通过上述实施例来说明本发明的详细方法，但本发明并不局限于上述详细方法，即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了，对本发明的任何改进，对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等，均落在本发明的保护范围和公开范围之内。

Claims

1.一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法，其特征在于，所述方法包括：

数据获取：

对待测样本进行DNA提取和酶切打断，构建文库，对构建的文库进行靶向区域捕获，捕获后进行PCR扩增，再进行上机测序，获得源数据；

数据处理：

对测序源数据进行评估，去除低质量的测序读序列，获得干净读序列，比对到参考基因组后，进行唯一分子标签一致性分析处理，获得一致性序列；

变异检测：

进行变异发现，通过高斯混合模型对原始变异位点进行分类，依据突变位点的突变丰度在人群公共数据库的分布，进行分类注释，再结合高斯混合模型的分类结果区分体系突变和胚系突变，然后进行转录本注释，根据特定转录本的转录信息进行变异类型筛选，得到体系突变的检测结果；

所述变异检测具体包括：

通过VarDict2软件进行变异发现，变异检出的等位基因频率限为0.01或0.001，通过高斯混合模型对原始变异位点进行分类，再通过annovar软件依据突变位点的突变丰度在人群公共数据库的分布，进行分类注释，结合高斯混合模型分类结果区分体系突变和胚系突变，然后进行转录本注释，根据特定转录本的转录信息，进行变异类型筛选，得到体系突变的检测结果；

所述区分体系突变和胚系突变的方法包括：

2.根据权利要求1所述的基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法，其特征在于，所述构建文库的方法包括：

3.根据权利要求1所述的基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法，其特征在于，所述数据处理具体包括：

通过fastqc软件对测序数据进行评估，使用fastp软件去除低质量的测序读序列，获得干净读序列；使用picard、fgbio和samtools软件进行唯一分子标签一致性分析处理，获得一致性序列；

所述唯一分子标签一致性分析处理：包括唯一分子标签提取、干净读序列比对参考基因组和唯一分子标签校正；

所述低质量的测序读序列的判断标准为fastp默认参数过滤标准。

4.根据权利要求1所述的基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法，其特征在于，所述高斯混合模型分类中参数K为3或4，选择的特征包括每个突变位点的测序总深度DP、变异深度VD、等位基因频率AF、所有变异序列到最近的5’或3’端的平均距离PMEAN、信噪比SN、链偏好Fisher P值SBF和针对InDel基于局部重比对调整后的等位基因频率ADJAF。

5.一种肿瘤相关基因体系突变检测装置，其特征在于，所述检测装置用于执行权利要求1-4任一项所述的基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法中的步骤，所述装置包括数据获取单元、数据处理单元和变异检测单元；

所述数据获取单元用于执行包括：

对待测样本进行DNA提取和酶切打断，构建文库，对构建的文库进行靶向区域捕获，捕获后进行PCR扩增，再进行上机测序；

所述数据处理单元用于执行包括：

对测序数据进行评估，去除低质量的测序读序列，获得干净读序列，并进行唯一分子标签一致性分析处理，获得一致性序列；

所述变异检测单元用于执行包括：

6.根据权利要求5所述的肿瘤相关基因体系突变检测装置，其特征在于，所述变异检测具体包括：

所述高斯混合模型分类中参数K为3或4，选择的特征包括每个突变位点的测序总深度DP、变异深度VD、等位基因频率AF、所有变异序列到最近的5’或3’端的平均距离PMEAN、信噪比SN、链偏好Fisher P值SBF和针对InDel基于局部重比对调整后的等位基因频率ADJAF；

所述区分体系突变和胚系突变的方法包括：

7.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1-4任一项所述基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法的步骤。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1-4任一所述基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法的步骤。