CN114517223B

CN114517223B - 一种用于筛选snp位点的方法及其应用

Info

Publication number: CN114517223B
Application number: CN202011312696.3A
Authority: CN
Inventors: 王瑞如; 王寅; 白健; 屈紫薇; 吴�琳
Original assignee: Beijing Herui Precision Medical Device Technology Co ltd; Fujian Herui Gene Technology Co ltd
Current assignee: Beijing Herui Precision Medical Device Technology Co ltd; Fujian Herui Gene Technology Co ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2023-09-12
Anticipated expiration: 2040-11-20
Also published as: CN114517223A

Abstract

本发明公开了一种用于筛选SNP位点的方法及其应用，涉及基因工程技术领域，该方法包括根据获取的N例样本基因组中的SNP候选位点的突变频率信息，将满足筛选标准的位点作为多用途SNP位点，对满足筛选标准的多用途SNP位点进行判断，使单一染色体上相邻多用途SNP位点之间的距离＞250kb～350kb。该方法能快速筛选出一批均匀分布于基因组中并且性能稳定的杂合性位点的合集，该合集具有多种广泛的用途，如应用于样本污染水平的检测、基因杂合性缺失的检测以及肿瘤基因组倍性检测中，具有检测成本更低，检测时间快且检测有效性更高等优点。

Description

一种用于筛选SNP位点的方法及其应用

技术领域

本发明涉及基因工程技术领域，具体而言，涉及一种用于筛选SNP位点的方法及其应用。

背景技术

癌症是世界上严重危害人类健康三大疾病之一，2018年最新的全球肿瘤统计结果显示，全球估计有1819万癌症新增病例以及960万癌症死亡病例。肺癌是最常被诊断的癌症(占总病例数的11.6％)，并且是癌症死亡的主要原因(占癌症总死亡人数的18.4％)。余下发病率较高的分别为乳腺癌(11.6％)，结直肠癌(10.2％)，前列腺癌(7.1％)和胃癌(5.7％)。

众所周知，肿瘤的发生源于一系列基因变化的积累，进而导致信号通路、细胞分裂周期出现错误，过程中涉及多个关键细胞因子和受体蛋白质，这些细胞因子和受体蛋白质既是导致肿瘤发生和进展的关键要素，也是治疗肿瘤的可能靶点，而免疫逃逸助长了肿瘤的发展，但是患者个体的基因异变存在特异性，并可能随病程进展而改变，呈现出不稳定性。

因此，临床需要在诊疗全程就患者个体情况与可选药物、疗法匹配度进行诊断，也就是伴随诊断(companion diagnostic，CD)，通过检测人体内特定的基因变异，提供患者针对某种药物、疗法的反应信息，从而协助临床确定最佳的用药和治疗方式，还能够提示治疗的脱靶效应，预测与药物相关的毒副作用，实现精准治疗。

目前，免疫治疗已经逐渐证明了它在治疗肿瘤上的价值，旨在激活人体免疫系统，依靠自身免疫机能杀灭癌细胞和肿瘤组织。免疫应答过程需要人体内的HLA分子将肿瘤细胞内的新生抗原呈递到细胞表面从而被免疫细胞识别。人体内表达HLA的种类影响着可被呈递到细胞表面的新抗原的数量。HLA的多样性很高，如果病人本身的HLA所在区域发生杂合性缺失(LOH)，则病人免疫治疗的效果将降低。LOH也是伴随诊断的一个重要生物特征。目前检测LOH的算法也需要一批均匀分布在基因组范围的杂合性位点作为评估信号。

现在已经有越来越多的人基于基因测序来进行伴随诊断。基因测序检测体细胞突变需要用病人本身的正常细胞做为对照来排除胚系突变。如果取到的肿瘤样本混入其它人的DNA造成污染，将导致突变检测结果混有其他人的体细胞突变和胚系突变，造成肿瘤突变负荷(TMB)等指标偏高。而检测人源污染也可通过杂合性位点进行评估。

综上，筛选出一批均匀分布在基因组中并且性能稳定的杂合性位点将非常重要。目前基于全基因组或全外显子组的方法进行基因检测，可先用正常样本进行胚系突变检测，从而获得杂合突变位点。此种方法虽然天然的可以获得数量较多，针对性很强的杂合性位点，但由于采用全基因组和全外显子组测序，价格昂贵，患者受益有限，并且目前的全基因组或全外显子组测序的测序深度均较低，无法稳定突变频率，导致后续分析产生较大误差。目前肿瘤基因检测广泛采用目标捕获测序，通过筛选更有意义的基因区域，在控制成本的条件下能使病人获得较大的收益。然而目标捕获测序的目标范围普遍较小，且在基因组中的分布不够均匀，无法得到足够数量且均匀的杂合性位点。

鉴于此，特提出本发明。

发明内容

本发明的目的在于提供一种用于筛选多用途SNP位点的方法及其应用。

本发明是这样实现的：

第一方面，实施例提供了一种用于筛选多用途SNP位点的方法，其包括：基于获取的N例样本基因组中的SNP候选位点的突变频率信息，将满足筛选标准的位点作为多用途SNP位点，N≥3；

所述筛选标准包括：N例样本基因组中的杂合突变型在位点处的平均突变丰度为40％～60％，N例样本基因组中的纯合突变型在位点处的平均突变丰度大于90％；N例样本基因组中的野生型在位点处的平均突变丰度小于5％；

对满足所述筛选标准的多用途SNP位点进行判断，若单一染色体上相邻多用途SNP位点之间的距离≤预设距离，则去除其中任意1个，以使得每条染色体上任意相邻的两个多用途SNP位点之间的距离>所述预设距离，所述预设距离为250kb～350kb。

第二方面，实施例提供了一种用于筛选多用途SNP位点的装置，其包括：

获取模块，用于获取的N例样本基因组中的SNP候选位点的突变频率信息，N≥3；

筛选模块，用于根据获取的突变频率信息，将满足筛选标准的位点作为多用途SNP位点；并对满足所述筛选标准的多用途SNP位点进行判断，若单一染色体上相邻多用途SNP位点之间的距离≤预设距离，则去除其中任意1个，以使得每条染色体上任意相邻的两个多用途SNP位点之间的距离>所述预设距离，所述预设距离为250kb～350kb；

其中，所述筛选标准包括：N例样本基因组中的杂合突变型在位点处的平均突变丰度为40％～60％，N例样本基因组中的纯合突变型在位点处的平均突变丰度大于90％；N例样本基因组中的野生型在位点处的平均突变丰度小于5％。

第三方面，实施例提供了一种电子设备，其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如前述实施例所述的用于筛选多用途SNP位点的方法。

第四方面，实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如前述实施例所述的用于筛选多用途SNP位点的方法。

第五方面，实施例提供了一种试剂盒，其包括用于检测如前述实施例所述的用于筛选多用途SNP位点的方法筛选得到的多用途SNP位点的试剂。

第六方面，实施例提供了如前述实施例所述的用于筛选多用途SNP位点的方法或如前述实施例所述的试剂盒或前述实施例所述的用于筛选多用途SNP位点的装置或前述实施例所述的电子设备或前述实施例所述的计算机可读存储介质在样本污染水平检测中的应用。

优选地，所述应用不以疾病的诊断或治疗为目的。

第七方面，实施例提供了如前述实施例所述的用于筛选多用途SNP位点的方法或如前述实施例所述的试剂盒或前述实施例所述的用于筛选多用途SNP位点的装置或前述实施例所述的电子设备或前述实施例所述的计算机可读存储介质在基因杂合性缺失LOH检测中的应用。

优选地，所述应用不以疾病的诊断或治疗为目的。

本发明具有以下有益效果：

本发明实施例提供了一种用于筛选SNP位点的方法及其应用，该方法包括根据获取的N例样本基因组中的SNP候选位点的突变频率信息，将满足筛选标准的位点作为多用途SNP位点，对满足上述筛选标准的多用途SNP位点进行判断，若单一染色体上相邻多用途SNP位点之间的距离＞预设距离，则去除其中任意1个，以使得每条染色体上任意相邻的两个多用途SNP位点之间的距离>所述预设距离，所述预设距离为250kb～350kb。

该方法基于已知存在于群体基因组中的单核苷酸多态性(SNP)信息，筛选出一批均匀分布于基因组中并且性能稳定的杂合性位点的合集。目前全基因组检测或全外显子组检测的方法价格昂贵，且测序深度较低，无法稳定突变频率，可能导致一些检测的后续分析产生较大误差。本发明筛选出的位点合集更有针对性，能够应用于很多免疫治疗相关的检测中，如样本污染水平的检测、基因杂合性缺失的检测以及肿瘤基因组倍性检测，具有检测成本更低，检测时间快且检测有效性更高等优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为实施例2中36个样本的所有杂合突变位点突变丰度标准差在SNP panel和全基因组测序中的差异结果图；

图2为实施例2中SNP panel和传统Gene panel中突变位点的分布图；

图3为实施例3中对有污染的样本的两组评估结果和真实结果的相关性分析结果图；

图4为实施例3中无污染样本的两组评估结果图；

图5为实施例4中两组肿瘤纯度的相关性结果；

图6为实施例4中两组肿瘤倍性的相关性结果；

图7为实施例4中两组肿瘤大片段杂合性缺失数量的相关性结果。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

名词定义

本文中的“SNP”指单核苷酸多态性，主要指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性，为人类可以遗传的变异中最常见的一种。

本文中的“突变丰度”的英文为VAF，Variant allele fraction，也称为Variantallel frequency(变异等位基因频率)，可以指测序过程中突变reads(读长)占总reads的比例，即计算公式可以为：

VAF＝Allele Depth/Total Depth。其中，Allele Depth为基因组每个位点支持突变基因型的reads(读段)覆盖深度，Total Depth为这个位点总reads覆盖深度。

本文中的“杂合突变型”可以指一对等位基因中，其中一个基因发生了突变，另一个未发生突变；“纯合突变型”可以指：一对等位基因均发生了突变；“野生型”可以指未突变的基因型。

本文中的“读段”指高通量测序中的reads。

本文中的“测序深度”可以指：测序得到的碱基总量(bp)与基因组大小的比值。

本文中的“串联重复区”，又称串联重复序列，是指以相对恒定的短序列为重复单位，首尾相接，串联连接形成的重复序列；又称卫星DNA(satellite DNA)。在人类基因组中，串联重复序列约占10％，主要分布在非编码区，少数位于编码区。

技术方案

首先，实施例提供了一种用于筛选多用途SNP位点的方法，其包括：基于获取的N例样本基因组中的SNP候选位点的突变频率信息，将满足筛选标准的位点作为多用途SNP位点，N≥3；

所述筛选标准包括：N例样本基因组中的杂合突变型在位点处的平均突变丰度为40％～60％，N例样本基因组中的纯合突变型在位点处的平均突变丰度大于90％；N例样本基因组中的野生型在位点处的平均突变丰度小于5％。基于该筛选标准筛选出的位点，稳定性高，其检测的结果相对于其他排除的位点，更具有代表性。具体地，“N例样本基因组中的杂合突变型在位点处的平均突变丰度为40％～60％”是指N例样本基因组中，在位点处为杂合突变型的样本基因组，在该位点的平均突变丰度为40％～60％，纯合突变型和野生型的情况依此类推。

对满足所述筛选标准的多用途SNP位点进行判断，若单一染色体上相邻多用途SNP位点之间的距离≤预设距离，则去除其中任意1个，以使得每条染色体上任意相邻的两个多用途SNP位点之间的距离>所述预设距离，所述预设距离为250kb～350kb。该预设距离是发明人经一系列创造性劳动得出的，在有效缩小SNP位点的数量的情况下，保持检测有效性的距离。具体地，预设距离可以选自250kb、260kb、270kb、280kb、290kb、300kb、310kb、320kb、330kb、340kb和350kb中的任意一个数值。

本申请的发明人经研究，发明了上述用于筛选多用途SNP位点的方法，该方法基于SNP候选位点的突变频率信息，针对性地筛选出一批均匀分布于基因组中并且性能稳定的杂合性位点的合集，为现有的免疫治疗提供了一种新的、更有效的检测或辅助检查的手段，相对于全基因组测序和全外显子测序而言，检测成本更低，检测时间更快。

在一些优选的实施方式中，若单一染色体上相邻的多用途SNP位点之间的距离≤预设距离，则去除其中1个位点，以使得每条染色体上任意相邻的两个多用途SNP位点之间的距离>上述预设距离。具体地，该去除的标准包括：(1)若这两个多用途SNP位点分别与其另一端相邻位点的距离≤或≥预设距离，则任意去除其中一个；需要说明的是，当这两个多用途SNP位点或其中之一为端点时，即其另一端并不存在相邻位点，则视为其与另一端相邻位点的距离≥预设距离；(2)若这两个多用途SNP位点中的其中一个位点与另一端相邻位点的距离＞预设距离，另一个位点与另一端相邻位点的距离＜预设距离，则去除与另一端相邻位点的距离＜预设距离的位点。

在一些优选的实施方式中，所述筛选标准还包括：含SNP候选位点的读段在N例样本基因组中的比对位置有且只有一个。

在一些优选的实施方式中，所述方法还包括对满足所述预设距离的多用途SNP位点再次判断：

若单一染色体上相邻多用途SNP位点之间的距离＞2Mb的区域，则将该区域划分为多个第一选择区域，并在每个所述第一选择区域内，任意挑选1个位点作为多用途SNP位点；所述第一选择区域的长度为80kb～120kb；

若单一染色体上存在相邻候选位点之间的距离为1.5Mb～2Mb的区域，则将该区域划分为多个第二选择区域，并在每个所述第二选择区域内，任意挑选1个位点作为多用途SNP位点；所述第二选择区域的长度为250kb～350kb。

再次判断的目的在于防止基因组上存在一些空缺SNP候选位点的区域，从而导致该区域内无对应的检测信号。第一选择区域内和第二选择区域的长度是特定的，在该两区中选择加入位点的数量及其间隔也是发明人经一系列创造性劳动得出的，从而使得选择得到的最终的多用于SNP位点的检测稳定性更高，检测结果有效。

具体地，所述第一选择区域的长度可以选自80kb、90kb、100kb、110kb和120kb中的任意一个数值。第二选择区域的长度可以选自250kb、260kb、270kb、280kb、290kb、300kb、310kb、320kb、330kb、340kb和350kb中的任意一个数值。

优选地，在所述第一选择区域或所述第二选择区域内挑选位点的标准为：选取GC含量在35％～75％之间的位点，并排除位于连续5～8bp串联重复区的位点。

在一些优选的实施方式中，所述SNP候选位点为N例样本中等位基因频率为40％～60％的位点。

N例样本基因组可以指现有的基因数据库，如千人基因组、ExAc、gnomAD和rmsk等数据库；本发明对N的数值不作限制，可以根据实际情况，选择性设置。优选地，N≥100；优选地，N≥300；优选地，N≥1000。

其次，本发明实施例提供了一种用于筛选多用途SNP位点的装置，其包括：

具体地，该实施例中的位点的筛选标准同上述任意实施方式所述，不再赘述。

本发明实施例还提供了一种电子设备，其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如前述任意实施方式所述的用于筛选多用途SNP位点的方法。

具体地，该电子设备可以包括存储器、处理器、总线和通信接口，该存储器、处理器和通信接口相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条总线或信号线实现电性连接。处理器可以处理与目标识别有关的信息和/或数据，以执行本申请中描述的一个或多个功能。

存储器可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

该电子设备中的各组件可以采用硬件、软件或其组合实现。在实际应用中，该电子设备可以是服务器、云平台、手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、手持计算机、上网本、个人数字助理(personaldigital assistant，PDA)、可穿戴电子设备、虚拟现实设备等设备，因此本申请实施例对电子设备的种类不做限制。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如前述任意实施方式所述的用于筛选多用途SNP位点的方法。

需要说明的是，本实施例中的计算机可读存储介质与前述实施例中的存储器相互等同。

本发明实施例提供了一种试剂盒，其包括用于检测如前述任意实施方式所述的用于筛选多用途SNP位点的方法筛选得到的多用途SNP位点的试剂。

优选地，试剂可以为探针和/或引物。

本发明实施例还提供了如前述任意实施方式所述的用于筛选多用途SNP位点的方法或如前述任意实施方式所述的试剂盒或前述实施例所述的用于筛选多用途SNP位点的装置或前述实施例所述的电子设备或前述实施例所述的计算机可读存储介质在样本污染水平检测中的应用。

本发明实施例还提供了如前述任意实施方式所述的用于筛选多用途SNP位点的方法或如前述任意实施方式所述的试剂盒或前述实施例所述的用于筛选多用途SNP位点的装置或前述实施例所述的电子设备或前述实施例所述的计算机可读存储介质在基因杂合性缺失LOH检测中的应用。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

一种用于筛选多用途SNP位点的方法，其包括以下步骤。

(1)获得SNP候选位点：

选取千人基因组、ExAC和gnomAD等数据库中高频出现的位点，即选取等位基因频率(AF)为40％～60％的点作为候选位点，以使所选的位点能在不同人中实现较大利用率且稳定(即在人群病例中有较多的位点呈现杂合状态并且不同人间波动较小)。

然后，根据人类rmsk数据库记录的重复序列信息，去除掉位于重复序列内的突变位点以构成SNP候选位点的预集合。

(2)制定初选panel：根据上述SNP候选位点前后60bp的序列信息设计120nt的探针，去掉能够在人类基因组上比对到两个位置以上的探针序列，合成测试探针pool panel。

(3)制定位点性能测试数据集：利用上述探针pool panel对测试人群样本进行建库测序。收集临床患者白细胞样本(本实施例中为36例)，使用以上设计的探针pool进行捕获建库，建库流程简述如下：

3.1将样本进行打断及末端修复。

3.2.将上述修复后的DNA进行接头连接。

3.3.将上述接头连接后的产物进行PCR扩增，得到足量带接头的DNA片段，即为预文库。

3.4.对上述预文库进行磁珠纯化并进行浓度测定和片段质检。

3.5.对预文库进行探针杂交。

3.6.使用链霉亲合素磁珠对探针结合的样品进行捕获。

3.7.将磁珠捕获到的DNA片段进行PCR扩增，得到足量的加上标签的DNA片段，即为终文库。

3.8.对上述终文库进行磁珠纯化并进行浓度测定和片段质检，利用qPCR进行定量。

3.9.用于panel分析建库测序。panel建库测序方法为探针捕获建库，使用基因测序仪(NovaSeq 6000)，按照仪器标准操作规程进行150bp Pair-End模式测序(Read1:151，Read2:151；Index1:8，Index2:8)，最终得到fastq格式二代测序数据作为原始数据(rawdata)。

(4)测试数据处理：使用第三方软件fastp软件对测序下机数据进行数据过滤，包括减去测序接头序列，去除测序读长小于50bp的DNA片段，去除测序质量较低的DNA片段，去除含未知碱基数较多的DNA片段；使用第三方软件BWA将过滤后的数据与hg19参考基因组进行比对，得到每个DNA片段基因组上对应的具体位置信息及详细比对情况。使用第三方软件sambamba去除比对结果中的冗余序列，即双端比对后起始终止比对位置相同的DNA片段对只保留一对。使用内部自建软件mutationInfo搜索上述SNP位点的突变频率信息。

(5)筛选：基于获取的N例样本基因组中的SNP候选位点的突变频率信息，将满足筛选标准的位点作为多用途SNP位点，N为36；

所述筛选标准包括：N例样本基因组中的杂合突变型在位点处的平均突变丰度为0.4～0.6(40％～60％)，且标准差小于0.1，N例样本基因组中的纯合突变型在位点处的平均突变丰度大于0.99，且标准差小于0.1；N例样本基因组中的野生型在位点处的平均突变丰度小于0.01，且标准差小于0.1；以及含SNP候选位点的读段在N例样本基因组中的比对位置有且只有一个。

对满足所述筛选标准的多用途SNP位点进行判断，对单一染色体上第一个多用途SNP位点开始判断，若其与后续相邻的多用途SNP位点≤预设距离，去除后一位点，保留第一个多用途SNP位点，直至满足第一个多用途SNP位点与保留的第二个位点之间的距离＞预设距离；然后以保留的第二个位点作为基准，判断其与后续相邻的位点(第三个位点)之间的距离，直至满足第二个位点与第三个位点之间的距离＞预设距离；后续位点的选择依此类推，以单一方向判断的方式对单一染色体上存在的多个多用途SNP位点进行判断筛选，以使得每条染色体上任意相邻的两个多用途SNP位点之间的距离>所述预设距离，所述预设距离为300kb。

(6)最终确定：所述方法还包括对满足所述预设距离的多用途SNP位点再次判断：若单一染色体上相邻多用途SNP位点之间的距离＞2Mb的区域，则将该区域划分为多个第一选择区域，并在每个所述第一选择区域内，任意挑选1个位点作为多用途SNP位点；所述第一选择区域的长度为100kb；

若单一染色体上存在相邻候选位点之间的距离为1.5Mb～2Mb的区域，则将该区域划分为多个第二选择区域，并在每个所述第二选择区域内，任意挑选1个位点作为多用途SNP位点；所述第二选择区域的长度为200kb；

其中，在所述第一选择区域或所述第二选择区域内挑选位点的标准为：选取GC含量在35％～75％之间的位点，并排除位于连续5～8bp串联重复区的位点。

基于上述方法，得到最终的多用途SNP位点合集(SNP panel)，共为3905个，SNPpanel大小468.6Kb，位点的部分具体信息如表1所示。

表1多用途SNP位点

/>

与全基因组测序(3Gb)和全外显子组测序(大约40Mb～60Mb不等)相比较，目标测序区域大小减小6402倍和85倍多，可以显著降低成本，提高患者受益率。

目前全基因组测序深度普遍采用30X深度，全外显子组一般是200X，而利用SNPpanel在节省测序成本的情况下可提高测序深度至1000X以上，深度增高可显著增加突变频率计算的稳定性，使结果更加准确。

实施例2

检测36个样本中所有杂合突变位点突变丰度标准差在SNP panel和全基因组测序中的差异，结果如图1所示。

本发明测试本发明筛选出的SNP panel，杂合突变频率的标准差为0.05957，一般panel基因区为0.1247，WGS数据为0.0710。结合图1可知，本发明筛选的SNP panel的突变频率标准差显著低于全基因组测序，反应出用SNP panel的方法可以使突变位点的突变频率更加稳定。

图2为SNP panel和传统Gene panel中突变位点的分布情况，其中，图2中A为SNPpanel的结果，图2中B为传统Gene panel的结果。从图2可以看出SNP panel的位点明显比一般gene panel的位点更密集更均匀。

实施例3

使用第三方软件Conpair(Bergmann E A,Bo-Juen C,Kanika A,et al.Conpair:concordance and contamination estimator for matched tumor–normal pairs[J].Bioinformatics(20):3196-3198.)进行污染评估，评估样本为88个污染程度从0.6％到27％的有污染的样本和95个无污染的样本，所有样本数据均为包含我们SNP panel位点的目标捕获测序数据。

使用conpair软件对这些样本进行污染检测，设定markers参数为默认或本发明实施例1提供的SNP panel产生两组评估结果。

图3是对有污染的样本的两组评估结果和真实结果的相关性分析，其中，图3中A为Conpair的相关性分析结果，图3中B为SNP panel的相关性分析结果。结果显示使用本发明提供的SNP panel位点的结果与真实值的相关性更好。

图4是无污染样本的两组评估结果，可以看出使用SNP panel评估的污染数值明显小于使用conpair软件默认位点的结果。

实施例4

使用78个WGS测序样本进行评估使用实施例1筛选得到的SNP panel位点检测肿瘤纯度、倍性、大片段杂合性缺失的性能。

利用第三方检测软件Purple(Priestley P,Baber J,Lolkema M,et al.Pan-cancer whole genome analyses of metastatic solid tumors[J].Nature.)进行检测。Purple检测流程采用默认参数，在amber步骤的输入SNP位点参数-loci分别提供默认使用的1344545个位点和本发明SNPpanel的3905个位点来得到两组检测结果。

图5、图6和图7分别是两组肿瘤纯度、倍性、大片段杂合性缺失数量的相关性结果。从图中可以看出，本发明仅使用3905个SNP位点即可得到与使用1344545个位点相关性很高的结果，证明本发明的SNP panel可为检测肿瘤纯度、倍性、大片段杂合性缺失提供良好的检测信号。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于筛选多用途SNP位点的方法，其特征在于，其包括：基于获取的N例样本基因组中的SNP候选位点的突变频率信息，将满足筛选标准的位点作为多用途SNP位点，N≥3；

所述筛选标准包括：N例样本基因组中的杂合突变型在位点处的平均突变丰度为40%~60%，N例样本基因组中的纯合突变型在位点处的平均突变丰度大于90%；N例样本基因组中的野生型在位点处的平均突变丰度小于5%；

对满足所述筛选标准的多用途SNP位点进行判断，若单一染色体上相邻多用途SNP位点之间的距离≤预设距离，则去除其中任意1个，以使得每条染色体上任意相邻的两个多用途SNP位点之间的距离>所述预设距离，所述预设距离为250kb~350kb；

所述筛选标准还包括：含SNP候选位点的读段在N例样本基因组中的比对位置有且只有一个；

所述方法还包括对满足所述预设距离的多用途SNP位点再次判断：

若单一染色体上相邻多用途SNP位点之间的距离＞2Mb的区域，则将该区域划分为多个第一选择区域，并在每个所述第一选择区域内，任意挑选1个位点作为多用途SNP位点；所述第一选择区域的长度为80kb~120kb；

若单一染色体上存在相邻候选位点之间的距离为1.5Mb~2Mb的区域，则将该区域划分为多个第二选择区域，并在每个所述第二选择区域内，任意挑选1个位点作为多用途SNP位点；所述第二选择区域的长度为250kb~350kb；

在所述第一选择区域或所述第二选择区域内挑选位点的标准为：选取GC含量在35%~75%之间的位点，并排除位于连续5~8bp串联重复区的位点；

所述SNP候选位点为N例样本中等位基因频率为40%～60%的位点。

2.根据权利要求1所述的用于筛选多用途SNP位点的方法，其特征在于，N≥100。

3.根据权利要求2所述的用于筛选多用途SNP位点的方法，其特征在于，N≥300。

4.一种电子设备，其特征在于，其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1～3任一项所述的用于筛选多用途SNP位点的方法。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1～3任一项所述的用于筛选多用途SNP位点的方法。

6.一种试剂盒，其特征在于，其包括用于检测如权利要求1～3任一项所述的用于筛选多用途SNP位点的方法筛选得到的多用途SNP位点的试剂。

7.如权利要求1～3任一项所述的用于筛选多用途SNP位点的方法或如权利要求4所述的电子设备或如权利要求5所述的计算机可读存储介质或如权利要求6所述的试剂盒在样本污染水平检测中的应用。

8.如权利要求1～3任一项所述的用于筛选多用途SNP位点的方法或如权利要求4所述的电子设备或如权利要求5所述的计算机可读存储介质或如权利要求6所述的试剂盒在非疾病诊断的基因杂合性缺失LOH检测中的应用。