CN115565606B

CN115565606B - 一种自动筛选突变子集的检测方法、设备和计算机可读存储介质

Info

Publication number: CN115565606B
Application number: CN202211140199.9A
Authority: CN
Inventors: 许明炎; 陈亚如; 周衍庆; 陈实富
Original assignee: Haplox Biotechnology Shenzhen Co ltd
Current assignee: Haplox Biotechnology Shenzhen Co ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2024-02-06
Anticipated expiration: 2042-09-19
Also published as: CN115565606A

Abstract

本发明公开了一种自动筛选突变子集的检测方法，包括：获取离体细胞突变样品的测序信息，并基于所述测序信息，获取所述离体细胞突变样品对应的总突变位点；对所述总突变位点进行分类，以得到点突变位点、插入缺失突变位点和结构变异突变位点；基于预设驱动基因列表，将所述总突变位点与所述预设驱动基因列表的突变位点对比，获取落入所述预设驱动基因列表的驱动基因突变位点；基于预设突变位点数量，从所述总突变位点中筛选出目标突变位点；基于所述目标突变位点，形成突变子集。本发明还公开了一种自动筛选突变子集的检测设备和计算机可读存储介质。本发明的技术方案可以筛选出有代表性的突变位点。

Description

一种自动筛选突变子集的检测方法、设备和计算机可读存储介质

技术领域

本发明涉及肿瘤技术领域，特别涉及一种自动筛选突变子集的检测方法。

背景技术

随着循环肿瘤DNA(ctDNA)技术的飞速发展，应用ctDNA检测肿瘤微小残留病灶(minimal residual disease简称MRD)已经成为当前的热点。目前MRD的检测要求对≥0.02％的样本检测灵敏度达到95％以上，换算成测序深度则需要100000X的测序。在定制化监测MRD方面，首要且重要的就是选取有代表性的突变子集，可以在后续的监测中快速预知肿瘤是否复发。

发明内容

本发明的主要目的是提供一种自动筛选突变子集的检测方法、设备和计算机可读存储介质，旨在筛选出有代表性的突变位点。

为实现上述目的，本发明提出的自动筛选突变子集的检测方法，包括以下步骤：

获取离体细胞突变样品的测序信息，并基于所述测序信息，获取所述离体细胞突变样品对应的总突变位点；

对所述总突变位点进行分类，以得到点突变位点、插入缺失突变位点和结构变异突变位点；

基于预设驱动基因列表，将所述总突变位点与所述预设驱动基因列表的突变位点对比，获取落入所述预设驱动基因列表的驱动基因突变位点，所述预设驱动基因列表包含现有已确定突变的突变位点和/或基因；

基于预设突变位点数量，从所述总突变位点中筛选出目标突变位点，筛选所述总突变位点的优先级依次为：驱动基因结构变异突变位点、驱动基因插入缺失突变位点、驱动基因点突变位点、非驱动基因结构变异突变位点、非驱动基因插入缺失突变位点、非驱动基因点突变位点；

基于所述目标突变位点，形成突变子集。

在一实施例中，所述基于预设突变位点数量，从所述总突变位点中筛选出目标突变位点的步骤包括：

将总突变位点进行划分，确定驱动基因突变位点和非驱动基因突变位点；

将驱动基因突变位点的数量X与预设突变位点的数量N进行比对；

若所述驱动基因突变位点的数量X等于所述预设突变位点的数量N，则将所述驱动基因突变位点设为目标突变位点；

若所述驱动基因突变位点的数量X大于所述预设突变位点的数量N，按照所述优先级，获取所述驱动基因突变位点中的前N个突变位点，并设为目标突变位点；

若所述驱动基因突变位点的数量X小于所述预设突变位点的数量N，按照所述优先级，获取所述非驱动基因突变位点中的前(N-X)个突变位点，并将X个所述驱动基因突变位点以及所述非驱动基因突变位点中的前(N-X)个突变位点设为目标突变位点。

在一实施例中，所述若所述驱动基因突变位点的数量X大于所述预设突变位点的数量N，按照所述优先级，获取所述驱动基因突变位点中的前N个突变位点，并设为目标突变位点的步骤包括：

基于突变分类信息，所述驱动基因突变位点的数量X包括驱动基因点突变位点的数量X1、驱动基因插入缺失突变位点的数量X2和驱动基因结构变异突变位点的数量X3；

若所述驱动基因结构变异突变位点的数量X3等于所述预设突变位点的数量N，则将所述驱动基因结构变异突变位点X3设为目标突变位点；

若所述驱动基因结构变异突变位点的数量X3小于所述预设突变位点的数量N，且所述驱动基因结构变异突变位点的数量X3与驱动基因插入缺失突变位点的数量X2之和大于所述预设突变位点的数量N，按照所述优先级，获取所述驱动基因插入缺失突变位点中的前(N-X3)个突变位点，并将X3个所述驱动基因结构变异突变位点以及所述驱动基因插入缺失突变位点中的前(N-X3)个突变位点设为目标突变位点。

若所述驱动基因结构变异突变位点的数量X3与驱动基因插入缺失突变位点的数量X2之和小于所述预设突变位点的数量N，且所述驱动基因结构变异突变位点的数量X3、驱动基因插入缺失突变位点的数量X2、驱动基因点突变位点的数量X1之和大于所述预设突变位点的数量N，按照所述优先级，获取所述驱动基因点突变位点中的前(N-X3-X2)个突变位点，并将X3个所述驱动基因结构变异突变位点、X2个所述驱动基因插入缺失突变位点以及所述驱动基因点突变位点中的前(N-X3-X2)个突变位点设为目标突变位点。

在一实施例中，所述若所述驱动基因突变位点的数量X小于所述预设突变位点的数量N，按照所述优先级，获取所述非驱动基因突变位点中的前(N-X)个突变位点，并将X个所述驱动基因突变位点以及所述非驱动基因突变位点中的前(N-X)个突变位点设为目标突变位点的步骤包括：

基于突变分类信息，所述非驱动基因突变位点的数量Y包括非驱动基因点突变位点的数量Y1、非驱动基因插入缺失突变位点的数量Y2和非驱动基因结构变异突变位点的数量Y3；

若所述驱动基因突变位点的数量X小于所述预设突变位点的数量N，且所述驱动基因突变位点的数量X与所述非驱动基因结构变异突变位点的数量Y3之和等于所述预设突变位点的数量N，则将X个所述驱动基因突变位点以及Y3个所述非驱动基因结构变异突变位点设为目标突变位点；

若所述驱动基因突变位点的数量X与所述非驱动基因结构变异突变位点的数量Y3之和小于所述预设突变位点的数量N，且所述驱动基因突变位点的数量X、非驱动基因结构变异突变位点的数量Y3与非驱动基因插入缺失突变位点的数量Y2之和大于所述预设突变位点的数量N，按照所述优先级，获取所述非驱动基因插入缺失突变位点中的前(N-X-Y3)个突变位点，并将X个所述驱动基因突变位点、Y3个所述非驱动基因结构变异突变位点以及所述非驱动基因插入缺失突变位点中的前(N-X-Y3)个突变位点设为目标突变位点。

若所述驱动基因突变位点的数量X、非驱动基因结构变异突变位点的数量Y3与非驱动基因插入缺失突变位点的数量Y2之和小于所述预设突变位点的数量N，且所述驱动基因突变位点的数量X、非驱动基因结构变异突变位点的数量Y3、非驱动基因插入缺失突变位点的数量Y2以及非驱动基因点突变位点的数量Y1之和大于所述预设突变位点的数量N，按照所述优先级，获取所述非驱动基因点突变位点中的前(N-X-Y3-Y2)个突变位点，并将X个所述驱动基因突变位点、Y3个所述非驱动基因结构变异突变位点、Y2个所述非驱动基因插入缺失突变位点以及所述非驱动基因点突变位点中的前(N-X-Y3-Y2)个突变位点设为目标突变位点。

在一实施例中，所述基于预设突变位点数量，从所述总突变位点中筛选出目标突变位点的步骤还包括：

对所述点突变位点分析克隆进化结构，获取对应类别的多个子组，确定设为目标突变位点的类别均包括每个子组的突变位点；和/或，

所述基于预设突变位点数量，从所述总突变位点中筛选出目标突变位点的步骤之前，还包括：

在所述总突变位点中，确定噪声形成的噪声突变位点；

剔除所述噪声突变位点；和/或，

在所述总突变位点中，确定重复区域形成的重复突变位点；

剔除所述重复突变位点。

在一实施例中，所述对所述点突变位点分析克隆进化结构，获取对应类别的多个子组，确定设为目标突变位点的类别均包括每个子组的突变位点的步骤包括：

基于克隆结构突变频率范围不同，将每一类别划分为不同突变频率的子组；

基于每一类别不同突变频率的子组的突变位点数量和该类别的突变位点数量，确定每一类别不同突变频率的子组的突变位点数量在该类别的突变位点数量的占比，获取设为目标突变位点的该类别子组的突变位点数量。

本发明还提出一种自动筛选突变子集的检测设备，所述自动筛选突变子集的检测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的自动筛选突变子集的检测程序，所述自动筛选突变子集的检测程序被所述处理器执行时实现如上所述的自动筛选突变子集的检测方法的步骤。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有自动筛选突变子集的检测程序，所述自动筛选突变子集的检测程序被处理器执行时实现如上所述的自动筛选突变子集的检测方法的步骤。

本发明技术方案获取离体细胞突变样品的测序信息，从而获取到该离体细胞突变样品对应的总突变位点，为后续的筛选做好准备。而后对总突变位点进行分类，使得总突变位点包括点突变位点、插入缺失突变位点和结构变异突变位点；并且，根据预设驱动基因列表，将总突变位点与预设驱动基因列表的突变位点进行比对，获取总突变位点中落入该预设驱动基因列表的驱动基因突变位点。根据预设突变位点的数量，从总突变位点中筛选出目标突变位点，从而形成有代表性的突变子集。后续可以采集患者的DNA样品信息，检测是否含有突变子集的目标突变位点，进而可以准确且快速预知肿瘤是否复发，以便及时做出诊断和相应的治疗方案，提高患者的存活率。

附图说明

图1为本发明自动筛选突变子集的检测方法第一实施例的流程示意图；

图2为本发明自动筛选突变子集的检测方法第二实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的目标突变位点是总突变位点中落入预定驱动基因列表的驱动基因突变位点，该预设驱动基因列表包含现有的、临床上已确定的基因突变位点。但是，由于个性化程度的多样化，虽然同一肿瘤类型，在不同患者身上表现不同的突变位点，有些患者对应的突变位点可能均落入预设驱动基因列表，有些患者仅部分的突变位点落入预设驱动基因列表，或者有些患者全部的突变位点均没有预设驱动基因列表。

对此，本发明提出一种自动筛选突变子集的检测方法。

在本发明实施例中，请参照图1，该自动筛选突变子集的检测方法包括以下步骤：

S1、获取离体细胞突变样品的测序信息，并基于所述测序信息，获取所述离体细胞突变样品对应的总突变位点；

S2、对所述总突变位点进行分类，以得到点突变位点、插入缺失突变位点和结构变异突变位点；

S3、基于预设驱动基因列表，将所述总突变位点与所述预设驱动基因列表的突变位点对比，获取落入所述预设驱动基因列表的驱动基因突变位点，所述预设驱动基因列表包含现有已确定突变的突变位点和/或基因；

S4、基于预设突变位点数量，从所述总突变位点中筛选出目标突变位点，筛选所述总突变位点的优先级依次为：驱动基因突变位点、结构变异突变位点、插入缺失突变位点、点突变位点；

S5、基于所述目标突变位点，形成突变子集。

具体而言，在步骤S1中，离体细胞突变样品可以是肿瘤细胞样品，该肿瘤可以是实体瘤，实体瘤可以是恶性肿瘤，也可以是良性肿瘤，如肉瘤、乳腺癌、肺癌、结直肠癌、前列腺癌、卵巢癌、食道癌、腺癌、鳞状细胞癌、非小细胞肺癌等。在治疗的过程中，可以通过手术切除的方式将肿瘤细胞全部切除，或者将肿瘤细胞部分切除的方式，获取离体细胞突变样品。通过高通量测序的方式，得到离体细胞突变样品的测序信息。

通过该离体细胞突变样品的测序信息，获取离体细胞突变样品的突变位点。具体的，该通过该离体细胞突变样品的测序信息，获取离体细胞突变样品的突变位点的步骤，可以是同一患者的正常细胞(如白细胞，或者对应肿瘤组件旁的正常细胞)进行测序，得到正常细胞的测序信息，然后将正常细胞的测序信息和离体细胞突变样品的测序信息分别与人参考基因组序列(此处人参考基因组版本选用的是UCSC数据库的hg19版本)进行比对，去除正常细胞DNA的基因突变位点，得到离体细胞突变样品的体细胞总突变位点，从而剔除干扰信息，提高目标突变位点的准确性。

获取离体细胞突变样品的总突变位点数量因人而异，几十到几千不等。该离体细胞突变样品的测序信息可以手动输入检测程序，也可以是检测程序直接读取离体细胞突变样品的测序信息，如记载有离体细胞突变样品的测序信息的csv文件。

获取到离体细胞突变样品对应的总突变位点后，对该总突变位点进行分类，按照突变类型的不同，可以将总突变位点分为点突变、插入缺失突变和结构变异突变，得到点突变位点、插入缺失突变位点和结构变异突变位点，并对不同类型的突变位点进行标记。可以理解的是，该点突变(SNV)是基因位点中的碱基发生改变，如由G变成T、C变成T；插入缺失突变(INDEL)是碱基发生插入或缺失，即增加了碱基数量或减少了碱基数量，如某几个位点碱基是GCCC，但缺失了；结构变异突变(FUSION)是基因融合，两个基因的全部或一部分的序列相互融合为一个新的基因。

除了对总突变位点分类，还可以获取该总突变位点中落入预设驱动基因列表的驱动基因突变位点，并进行标记。癌症的主要特征是由基因突变引起的非正常和不受控制的细胞生长，这些基因突变因其驱动肿瘤发生的能力而被称为驱动基因。根据临床经验积累，不同的肿瘤细胞通过检测获取到相应的多个驱动基因，并形成预设驱动基因列表。一般而言，对于某种肿瘤，该预设驱动基因列表包含了该肿瘤现有已经确定的突变位点。可以直接将预设驱动基因列表的突变位点与总突变位点进行比对，也可以将预设驱动基因列表的突变基因与总突变位点(相应的基因)进行比对，从而获取总突变位点落入预设驱动基因列表的驱动基因突变位点。

需要说明的是，该自动筛选突变子集的检测方法可以先进行步骤S2分类，再进行步骤S3获取驱动基因突变位点；也可以先进行步骤S3获取驱动基因突变位点，再进行步骤S2分类。可以理解的是，一个突变位点可以是点突变位点，同时也是驱动基因突变位点，即总突变位点包括驱动基因突变位点和非驱动基因突变位点，不管是否是驱动基因突变位点，均包括点突变位点、插入缺失突变位点和结构变异突变位点。

进行分类及获取驱动基因突变位点后，执行步骤S4。根据预设突变位点数量，从总突变位点中筛选出目标突变位点，然后基于目标突变位点，形成突变子集。该预设突变位点数量可以是大于等于16个，即输出的目标突变位点数量大于等于16个，也可以是16-50个，具体数量可以根据实际需要进行设置。进一步地，在一实施例中，预设突变位点数量是20个。

该总突变位点包括驱动基因突变位点和非驱动基因突变位点，驱动基因突变位点包括驱动基因结构变异突变位点、驱动基因插入缺失突变位点、驱动基因点突变位点，非驱动基因突变位点包括非驱动基因结构变异突变位点、非驱动基因插入缺失突变位点、非驱动基因点突变位点。在步骤S4中，筛选总突变位点的优先级依次为：驱动基因结构变异突变位点、驱动基因插入缺失突变位点、驱动基因点突变位点、非驱动基因结构变异突变位点、非驱动基因插入缺失突变位点、非驱动基因点突变位点。也就是说，驱动基因突变位点比非驱动基因突变位点优先输出。如果驱动基因突变位点数量大于预设突变位点数量，则在驱动基因突变位点筛选，从而得到目标突变基因；如果驱动基因突变位点数量小于预设突变位点数量，由非驱动基因突变位点补足。首先可以从非驱动基因结构变异突变位点补充，若非驱动基因结构变异突变位点不够，再从非驱动基因插入缺失突变位点补充，若非驱动基因插入缺失突变位点不够，再从非驱动基因点突变位点补充，保证得到的目标突变位点数量为预设突变位点数量。

本发明技术方案获取离体细胞突变样品的测序信息，从而获取到该离体细胞突变样品对应的总突变位点，为后续的筛选做好准备。而后对总突变位点进行分类，使得总突变位点包括点突变位点、插入缺失突变位点和结构变异突变位点；并且，根据预设驱动基因列表，将总突变位点与预设驱动基因列表的突变位点进行比对，获取总突变位点中落入该预设驱动基因列表的驱动基因突变位点。根据预设突变位点的数量，从总突变位点中筛选出目标突变位点，从而形成有代表性的突变子集。后续可以采集患者的DNA样品信息，如获取ctDNA，检测是否含有突变子集的目标突变位点，进而可以准确且快速预知肿瘤是否复发，以便及时做出诊断和相应的治疗方案，提高患者的存活率。

请参照图1至图2，在一实施例中，所述基于预设突变位点数量，从所述总突变位点中筛选出目标突变位点的步骤包括：

S41、将总突变位点进行划分，确定驱动基因突变位点和非驱动基因突变位点；

S42、将驱动基因突变位点的数量X与预设突变位点的数量N进行比对；

在步骤S41中，该总突变位点包括驱动基因突变位点和非驱动基因突变位点，驱动基因突变位点数量与非驱动基因突变位点数量之和等于总突变位点，定义驱动基因突变位点的数量X、非驱动基因突变位点数量Y、总突变位点的数量M，M＝X+Y。

在步骤S42中，通过驱动基因突变位点数量X与预设突变位点数量N比对，筛选出目标突变位点。如果驱动基因突变位点数量X等于预设突变位点数量N，则将该驱动基因突变位点设为目标突变位点，从而形成突变子集。

如果驱动基因突变位点数量X大于预设突变位点数量N，按照上述优先级，对驱动基因突变位点依照结构变异突变位点优先于插入缺失突变位点、插入缺失突变位点优先于点突变位点进行排序，获取驱动基因突变位点中的前N个突变位点，并将该N个驱动基因突变位点设为目标突变位点。在该情况下，由于驱动基因突变位点数量X大于预设突变位点数量N，设为目标突变位点的位点均为驱动基因突变位点。

如果驱动基因突变位点数量X小于预设突变位点数量N，表示驱动基因突变位点的数量不满足输出的预设突变位点数量，需要从非驱动基因突变位点补充。按照上述优先级，非驱动基因突变位点包括点突变位点、插入缺失突变位点和结构变异突变位点，其中，非驱动基因结构变异突变位点优先于非驱动基因插入缺失突变位点、非驱动基因插入缺失突变位点优先于非驱动基因点突变位点。通过获取非驱动基因突变位点中的前(N-X)个突变位点，并将X个驱动基因突变位点和非驱动基因突变位点中的前(N-X)个突变位点设为目标突变位点。

进一步地，在一实施例中，所述若所述驱动基因突变位点的数量X大于所述预设突变位点的数量N，按照所述优先级，获取所述驱动基因突变位点中的前N个突变位点，并设为目标突变位点的步骤(步骤S42)包括：

具体的，驱动基因突变位点的数量X等于驱动基因点突变位点的数量X1、驱动基因插入缺失突变位点的数量X2和驱动基因结构变异突变位点的数量X3之和，即X＝X1+X2+X3。

如果驱动基因结构变异突变位点数量X3等于预设突变位点的数量N，即X3＝N，则将驱动基因结构变异突变位点设为目标突变位点。

如果驱动基因结构变异突变位点数量X3小于预设突变位点数量N，且驱动基因结构变异突变位点数量X3与驱动基因插入缺失突变位点数量X2之和大于预设突变位点数量N，即(X3+X2)＞N＞X3，按照上述优先级，在驱动基因插入缺失突变位点数量X2中获取前(N-X3)个突变位点，并将X3个驱动基因结构变异突变位点以及驱动基因插入缺失突变位点中的前(N-X3)个突变位点设为目标突变位点。即，目标突变位点为X3个驱动基因结构变异突变位点、驱动基因插入缺失突变位点的前(N-X3)个，X2大于等于(N-X3)。

进一步地，在一实施例中，所述若所述驱动基因突变位点的数量X大于所述预设突变位点的数量N，按照所述优先级，获取所述驱动基因突变位点中的前N个突变位点，并设为目标突变位点的步骤包括：

如果驱动基因结构变异突变位点数量X3与驱动基因插入缺失突变位点数量X2之和小于预设突变位点数量N，且驱动基因结构变异突变位点数量X3、驱动基因插入缺失突变位点数量X2、驱动基因点突变位点数量X1之和大于预设突变位点数量N，即(X3+X2+X1)＞N＞(X3+X2)，按照上述优先级，在驱动基因点突变位点数量X1中获取前(N-X3-X2)个突变位点，并将X3个驱动基因结构变异突变位点、X2驱动基因插入缺失突变位点、驱动基因点突变位点数量X1中的前(N-X3-X2)个突变位点设为目标突变位点。即，目标突变位点为X3个驱动基因结构变异突变位点、X2个驱动基因插入缺失突变位点、驱动基因点突变位点的前(N-X3-X2)个，X1大于等于(N-X3-X2)。

该驱动基因突变位点的数量X可以大于预设突变位点的数量N，也可以小于预设突变位点的数量N。在一实施例中，所述若所述驱动基因突变位点的数量X小于所述预设突变位点的数量N，按照所述优先级，获取所述非驱动基因突变位点中的前(N-X)个突变位点，并将X个所述驱动基因突变位点以及所述非驱动基因突变位点中的前(N-X)个突变位点设为目标突变位点的步骤包括：

同样的，非驱动基因突变位点的数量Y等于非驱动基因点突变位点的数量Y1、非驱动基因插入缺失突变位点的数量Y2和非驱动基因结构变异突变位点的数量Y3之和，即Y＝Y1+Y2+Y3。

如果驱动基因突变位点的数量X小于预设突变位点的数量N，且驱动基因突变位点的数量X与非驱动基因结构变异突变位点数量Y3之和等于预设突变位点的数量N，即X＜N＝X+Y3，则将X个驱动基因突变位点和Y3个非驱动基因结构变异突变位点设为目标突变位点。

如果驱动基因突变位点的数量X与非驱动基因结构变异突变位点数量Y3之和小于预设突变位点数量N，且驱动基因突变位点的数量X、非驱动基因结构变异突变位点数量Y3与非驱动基因插入缺失突变位点数量Y2之和大于预设突变位点数量N，即(X+Y3+Y2)＞N＞(X+Y3)，按照上述优先级，在非驱动基因插入缺失突变位点数量Y2中获取前(N-X-Y3)个突变位点，并将X个驱动基因突变位点、Y3个非驱动基因结构变异突变位点以及非驱动基因插入缺失突变位点中的前(N-X-Y3)个突变位点设为目标突变位点。即，目标突变位点为X个驱动基因突变位点、Y3个非驱动基因结构变异突变位点、非驱动基因插入缺失突变位点的前(N-X-Y3)个，Y2大于等于(N-X-Y3)。

进一步地，在一实施例中，所述若所述驱动基因突变位点的数量X小于所述预设突变位点的数量N，按照所述优先级，获取所述非驱动基因突变位点中的前(N-X)个突变位点，并将X个所述驱动基因突变位点以及所述非驱动基因突变位点中的前(N-X)个突变位点设为目标突变位点的步骤包括：

如果驱动基因突变位点的数量X、非驱动基因结构变异突变位点数量Y3与非驱动基因插入缺失突变位点数量Y2之和小于预设突变位点数量N，且驱动基因突变位点的数量X、非驱动基因结构变异突变位点数量Y3、非驱动基因插入缺失突变位点数量Y2、非驱动基因点突变位点数量Y1之和大于预设突变位点数量N，即(X+Y3+Y2+Y1)＞N＞(X+Y3+Y2)，按照上述优先级，在非驱动基因点突变位点数量Y1中获取前(N-X-Y3-Y2)个突变位点，并将X个驱动基因突变位点、Y3个非驱动基因结构变异突变位点、Y2非驱动基因插入缺失突变位点、非驱动基因点突变位点数量Y1中的前(N-X-Y3-Y2)个突变位点设为目标突变位点。即，目标突变位点为X个驱动基因突变位点、Y3个非驱动基因结构变异突变位点、Y2个非驱动基因插入缺失突变位点、非驱动基因点突变位点的前(N-X-Y3-Y2)个，Y1大于等于(N-X-Y3-Y2)。

在一实施例中，所述基于预设突变位点数量，从所述总突变位点中筛选出目标突变位点的步骤，还包括：

将总突变位点数量M与预设突变位点N数量进行比对，获取目标突变位点；

若总突变位点数量M小于预设突变位点数量N，则将总突变位点设为目标突变位点。

在该步骤中，由于得到的总突变位点数量M小于需要输出的预设突变位点数量N，即M＜N，直接将该总突变位点设为目标突变位点，从而获得目标突变位点，形成突变子集。

对所述点突变位点分析克隆进化结构，获取对应类别的多个子组，确定设为目标突变位点的类别均包括每个子组的突变位点。

对点突变位点(驱动基因点突变位点或非驱动基因点突变位点)进行分析克隆进化结构，获取点突变位点的多个点子组，每个点子组含有一个或多个突变位点。基于每个点子组含有一个或多个突变位点，确定设为目标突变位点的点突变位点包括每个点子组的突变位点。也就是说，确保设为目标突变位点的点突变位点均含有每个点子组的突变位点，以免设为目标突变位点的点突变位点集中在一个或两个点子组内，使得目标突变位点的代表性更强。

进一步地，在一实施例中，所述对所述点突变位点分析克隆进化结构，获取对应类别的多个子组，确定设为目标突变位点的类别均包括每个子组的突变位点的步骤包括：

在该步骤中，根据克隆结构突变频率范围不同，进行排序，突变频率高的优先于突变频率低的。将点突变位点分为多个不同突变频率的点子组，如突变频率为60-70％可以为一个点子组、突变频率为50-60％可以为一个点子组、突变频率为40-50％可以为一个点子组、突变频率为30-40％可以为一个点子组、突变频率30％以下可以为一个点子组。

根据每个点子组的突变位点数量以及点突变位点数量，确定每个点子组的突变位点数量在点突变位点数量的占比，按照相应的比例，基于设为目标突变基因的点突变位点数量，获取每个点子组的突变位点数量，从而使设为目标突变基因的点突变位点包括每个点子组的突变位点。

在一实施例中，设为目标突变位点的非驱动基因突变位点的突变频率大于等于10％。当不存在驱动基因突变位点时，非驱动基因点突变位点数量Y1、非驱动基因插入缺失突变位点数量Y2和非驱动基因结构变异突变位点数量Y3之和小于等于目标突变基因数量N，即Y1+Y2+Y3≤N，则将该非驱动基因点突变位点、非驱动基因插入缺失突变位点和非驱动基因结构变异突变位点设为目标突变基因。

在一实施例中，当不存在驱动基因突变位点时，筛选总突变位点的优先级依次为：非驱动基因结构变异突变位点、非驱动基因插入缺失突变位点和非驱动基因点突变位点，但是非驱动基因突变位点的突变频率大于等于10％的原则优先于该等级排序。比如，非驱动基因结构变异突变位点3个、非驱动基因插入缺失突变位点10个和非驱动基因点突变位点40个，其中，突变频率大于等于10％的非驱动基因结构变异突变位点、非驱动基因插入缺失突变位点和非驱动基因点突变位点分别为3个、7个和39个，若预设突变位点数量为20个，则直接输出3个非驱动基因结构变异突变位点、7个突变频率大于等于10％的非驱动基因插入缺失突变位点，余下10个从39个突变频率大于等于10％的非驱动基因点突变位点中得出。

需要说明的是，除了根据突变频率，也可以通过随机数原则，得出设为目标突变基因的非驱动基因结构变异突变位点、非驱动基因插入缺失突变位点和非驱动基因点突变位点。

在一实施例中，所述基于预设突变位点数量，从所述总突变位点中筛选出目标突变位点的步骤之前，还包括：

S61、所述总突变位点中，确定噪声形成的噪声突变位点；

S62、剔除所述噪声突变位点。

该步骤S61和S62可以是在步骤S2分类、S3获取驱动基因突变位点之前，也可以是步骤S2、S3之后。在检测的过程中，由于背景噪音的存在，离体细胞突变样品的测序信息包括有噪声形成的噪声突变位点，通过剔除掉该噪声突变位点，可以得到准确性高、具有代表性的目标突变基因。

进一步地，在一实施例中，所述在所述总突变位点中，确定噪声形成的噪声突变位点的步骤包括：

基于背景噪声数据库，将所述总突变位点与背景噪声数据库中高于预设值的噪声位点比对，确定所述噪声突变位点。

该背景噪声数据库可以根据检测仪器的积累形成，根据噪声的高低，分为不同噪声值的噪声位点。当总突变位点存在的突变位点高于预设值的噪声位点时，获取该噪声突变位点，然后进行剔除。

S71、在所述总突变位点中，确定重复区域形成的重复突变位点；

S72、剔除所述重复突变位点。

该步骤S71和S72可以是在步骤S2分类、S3获取驱动基因突变位点之前，也可以是步骤S2、S3之后。由于离体细胞突变样品可能存在重复区域，从而得到重复突变位点，为了降低工作量，得到准确性高、具有代表性的目标突变基因，通过剔除掉该重复突变位点，减少获取的总突变位点数量。

本发明还提出一种自动筛选突变子集的检测设备，该自动筛选突变子集的检测设备可以包括处理器，例如CPU，网络接口，用户接口，存储器，通信总线。其中，通信总线用于实现这些组件之间的连接通信。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器可选的还可以是独立于前述处理器的存储装置。

本领域技术人员可以理解，上述的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

作为一种计算机存储介质的存储器中可以包括操作系统、网络通信模块、用户接口模块以及原创文本甄别程序。

其中，操作系统是管理和控制自动筛选突变子集的检测设备与软件资源的程序，支持网络通信模块、用户接口模块、自动筛选突变子集的检测程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口；用户接口模块用于管理和控制用户接口。

自动筛选突变子集的检测设备中，通过处理器调用存储器中存储的自动筛选突变子集的检测程序，并执行上述自动筛选突变子集的检测方法各个实施例中的操作。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有自动筛选突变子集的检测程序，所述自动筛选突变子集的检测程序被处理器执行时实现如上所述的自动筛选突变子集的检测方法的步骤。

其中，在所述处理器上运行的自动筛选突变子集的检测程序被执行时所实现的方法可参照本发明原创文本甄别方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

下面将结合具体实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限制本发明的范围。

实施例1

一种自动筛选突变子集的检测方法，包括以下步骤：

S2、对所述总突变位点进行分类，以得到点突变位点SNV、插入缺失突变位点INDEL和结构变异突变位点Fusion；

S3、基于预设驱动基因列表，将所述总突变位点与所述预设驱动基因列表的突变位点对比，获取落入所述预设驱动基因列表的驱动基因突变位点D；

S61、所述总突变位点中，确定噪声形成的噪声突变位点N。

得到159个总突变位点，将159个总突变位点进行分类，其结果见表1和表2：

表1点突变位点SNV、插入缺失突变位点INDEL汇总表

/>

表2结构变异突变位点Fusion

Chr_1

Gene1

Breakpoint1

Chr_2

Gene2

Breakpoint2

VAF(％)

Annotation

Type

chr22

BCR

23524427

chr9

JAK2

5081723

18

BCR-JAK2 Fusion

Fusion

将表1中158个总突变位点进行驱动基因突变位点D标记、噪声突变位点N标记以及分析克隆进化结构，结果见表3：

表3标记后的点突变位点SNV、插入缺失突变位点INDEL汇总表

/>

根据表3可知，158个总突变基因中，有噪声突变位点N为21个，驱动基因突变位点D为26个，且没有驱动基因突变位点D同时为噪声突变位点N。158个总突变基因剔除21个噪声突变位点N后，有137个总突变基因。

基于预设突变位点数量20，从总突变位点138(包括1个结构变异突变位点)中筛选出目标突变位点，筛选所述总突变位点的优先级依次为：驱动基因突变位点、结构变异突变位点、插入缺失突变位点、点突变位点；得到有27个驱动基因突变位点D，见表4。

表4 27个驱动基因突变位点汇总表

/>

根据表4，得到27个驱动基因突变位点，基于优先等级依次为驱动基因结构变异突变位点、驱动基因插入缺失突变位点、驱动基因点突变位点，得到目标突变位点，见表5，形成突变子集。

表5目标突变位点汇总表

/>

从表5可知，20个目标突变位点中，有1个结构变异突变位点Fusion、2个插入缺失突变位点INDEL和17个点突变位点SNV，形成该突变子集。

实施例2

一种自动筛选突变子集的检测方法，包括以下步骤：

S2、对所述总突变位点进行分类，以得到点突变位点SNV、插入缺失突变位点INDEL和结构变异突变位点Fusion；同时，对点突变位点分析克隆进化结构，获得不同突变频率的插入缺失突变位点、点突变位点；

S61、所述总突变位点中，确定噪声形成的噪声突变位点N。

得到94个总突变位点，将94个总突变位点进行分类，其结果见表6：

表6标记后的总突变位点汇总表

/>

根据表6可知，94个总突变基因中，有噪声突变位点N为11个，驱动基因突变位点D为8个，其中，94个总突变基因剔除11个噪声突变位点N后，有83个总突变基因，其中有8个驱动基因突变位点D。该8个驱动基因突变位点D，见表7。

表7 25个驱动基因突变位点汇总表

该83个总突变基因中，基于预设突变位点数量20，从总突变位点83(全部为插入缺失突变位点、点突变位点)中筛选出目标突变位点，筛选所述总突变位点的优先级依次为：驱动基因结构变异突变位点、驱动基因插入缺失突变位点、驱动基因点突变位点、非驱动基因结构变异突变位点、非驱动基因插入缺失突变位点、非驱动基因点突变位点；得到有20个目标突变位点，见表8。

表8目标突变位点汇总表

/>

从表8可知，20个目标突变位点中，有8个插入缺失突变位点INDEL和12个点突变位点SNV，形成该突变子集。

根据实施例1的表5和实施例2的表8，本申请自动筛选突变子集的检测方法优先考虑驱动基因突变位点，再考虑非驱动基因突变位点，若驱动基因突变位点数量不够，从非驱动基因突变位点中选取补足。通过本申请自动筛选突变子集的检测方法对总突变位点进行筛选，得到有代表性的目标突变位点，进而形成相应的突变子集，在后续的监测中快速预知肿瘤是否复发。

以上所述仅为本发明的可选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种自动筛选突变子集的检测方法，其特征在于，包括以下步骤：

基于预设突变位点数量，从所述总突变位点中筛选出目标突变位点，筛选所述总突变位点的优先级依次为：驱动基因突变位点、结构变异突变位点、插入缺失突变位点、点突变位点；

基于所述目标突变位点，形成突变子集；

其中，所述基于预设突变位点数量，从所述总突变位点中筛选出目标突变位点的步骤包括：

若所述驱动基因突变位点的数量X小于所述预设突变位点的数量N，按照所述优先级，获取所述非驱动基因突变位点中的前N-X个突变位点，并将X个所述驱动基因突变位点以及所述非驱动基因突变位点中的前N-X个突变位点设为目标突变位点。

2.如权利要求1所述的自动筛选突变子集的检测方法，其特征在于，所述若所述驱动基因突变位点的数量X大于所述预设突变位点的数量N，按照所述优先级，获取所述驱动基因突变位点中的前N个突变位点，并设为目标突变位点的步骤包括：

若所述驱动基因结构变异突变位点的数量X3小于所述预设突变位点的数量N，且所述驱动基因结构变异突变位点的数量X3与驱动基因插入缺失突变位点的数量X2之和大于所述预设突变位点的数量N，按照所述优先级，获取所述驱动基因插入缺失突变位点中的前N-X3个突变位点，并将X3个所述驱动基因结构变异突变位点以及所述驱动基因插入缺失突变位点中的前N-X3个突变位点设为目标突变位点。

3.如权利要求2所述的自动筛选突变子集的检测方法，其特征在于，所述若所述驱动基因突变位点的数量X大于所述预设突变位点的数量N，按照所述优先级，获取所述驱动基因突变位点中的前N个突变位点，并设为目标突变位点的步骤包括：

若所述驱动基因结构变异突变位点的数量X3与驱动基因插入缺失突变位点的数量X2之和小于所述预设突变位点的数量N，且所述驱动基因结构变异突变位点的数量X3、驱动基因插入缺失突变位点的数量X2、驱动基因点突变位点的数量X1之和大于所述预设突变位点的数量N，按照所述优先级，获取所述驱动基因点突变位点中的前N-X3-X2个突变位点，并将X3个所述驱动基因结构变异突变位点、X2个所述驱动基因插入缺失突变位点以及所述驱动基因点突变位点中的前N-X3-X2个突变位点设为目标突变位点。

4.如权利要求1所述的自动筛选突变子集的检测方法，其特征在于，所述若所述驱动基因突变位点的数量X小于所述预设突变位点的数量N，按照所述优先级，获取所述非驱动基因突变位点中的前N-X个突变位点，并将X个所述驱动基因突变位点以及所述非驱动基因突变位点中的前N-X个突变位点设为目标突变位点的步骤包括：

若所述驱动基因突变位点的数量X与所述非驱动基因结构变异突变位点的数量Y3之和小于所述预设突变位点的数量N，且所述驱动基因突变位点的数量X、非驱动基因结构变异突变位点的数量Y3与非驱动基因插入缺失突变位点的数量Y2之和大于所述预设突变位点的数量N，按照所述优先级，获取所述非驱动基因插入缺失突变位点中的前N-X-Y3个突变位点，并将X个所述驱动基因突变位点、Y3个所述非驱动基因结构变异突变位点以及所述非驱动基因插入缺失突变位点中的前N-X-Y3个突变位点设为目标突变位点。

5.如权利要求4所述的自动筛选突变子集的检测方法，其特征在于，所述若所述驱动基因突变位点的数量X小于所述预设突变位点的数量N，按照所述优先级，获取所述非驱动基因突变位点中的前N-X个突变位点，并将X个所述驱动基因突变位点以及所述非驱动基因突变位点中的前N-X个突变位点设为目标突变位点的步骤包括：

若所述驱动基因突变位点的数量X、非驱动基因结构变异突变位点的数量Y3与非驱动基因插入缺失突变位点的数量Y2之和小于所述预设突变位点的数量N，且所述驱动基因突变位点的数量X、非驱动基因结构变异突变位点的数量Y3、非驱动基因插入缺失突变位点的数量Y2以及非驱动基因点突变位点的数量Y1之和大于所述预设突变位点的数量N，按照所述优先级，获取所述非驱动基因点突变位点中的前N-X-Y3-Y2个突变位点，并将X个所述驱动基因突变位点、Y3个所述非驱动基因结构变异突变位点、Y2个所述非驱动基因插入缺失突变位点以及所述非驱动基因点突变位点中的前N-X-Y3-Y2个突变位点设为目标突变位点。

6.如权利要求1至5任意一项所述的自动筛选突变子集的检测方法，其特征在于，所述基于预设突变位点数量，从所述总突变位点中筛选出目标突变位点的步骤，还包括：

在所述总突变位点中，确定噪声形成的噪声突变位点；

剔除所述噪声突变位点；和/或，

在所述总突变位点中，确定重复区域形成的重复突变位点；

剔除所述重复突变位点。

7.如权利要求6所述的自动筛选突变子集的检测方法，其特征在于，所述对所述点突变位点分析克隆进化结构，获取对应类别的多个子组，确定设为目标突变位点的类别均包括每个子组的突变位点的步骤包括：

8.一种自动筛选突变子集的检测设备，其特征在于，所述自动筛选突变子集的检测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的自动筛选突变子集的检测程序，所述自动筛选突变子集的检测程序被所述处理器执行时实现如权利要求1至7中任一项所述的自动筛选突变子集的检测方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有自动筛选突变子集的检测程序，所述自动筛选突变子集的检测程序被处理器执行时实现如权利要求1至7中任一项所述的自动筛选突变子集的检测方法的步骤。