CN112746097A

CN112746097A - 一种检测样本交叉污染的方法以及预测交叉污染源的方法

Info

Publication number: CN112746097A
Application number: CN202110129917.1A
Authority: CN
Inventors: 高志博; 李淼; 吴东方; 廖信辉; 王鹏; 朱德英; 王光杓
Original assignee: Shenzhen Yukang Medical Laboratory
Current assignee: Shenzhen Yukang Medical Laboratory
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-05-04

Abstract

一种检测样本交叉污染的方法以及预测交叉污染源的方法，检测样本交叉污染的方法包括：分析比对到参考基因组的待测样本测序数据中每个单核苷酸多态性位点的碱基型，根据所述碱基型预测是否存在交叉污染。通过分析待测样本中每个单核苷酸多态性位点的碱基型，可识别肿瘤样本是否存在交叉污染，还可进一步定位污染源，有利于排查污染原因，提高检测结果的准确性。

Description

一种检测样本交叉污染的方法以及预测交叉污染源的方法

技术领域

本发明涉及生物技术领域，具体涉及一种检测样本交叉污染的方法以及预测交叉污染源的方法。

背景技术

肿瘤是由基因组变异引起的疾病。肿瘤的治疗包括手术、放疗、化疗、分子靶向治疗、免疫治疗等多种手段，其中靶向治疗及免疫治疗均需要根据临床分子标志物的状态制定相应治疗策略。高通量测序技术可以同时检测多种临床分子标志物状态，是肿瘤伴随诊断和辅助诊断的有利工具。

高通量测序技术由于其灵敏度高、检测范围广的特点，对肿瘤样本的洁净度有较高要求。临床上常见的肿瘤样本保存方法为福尔马林固定石蜡包埋处理(Formalin-Fixedand Parrffin-Embedded,FFPE)，样本包埋、切片等工具往往非一次性使用，存在不同患者样本核酸交叉污染的可能。此类污染对传统病理学检测无显著影响，但对于高通量测序影响较大，可能导致样本检出属于另一患者的变异，造成假阳性；此外高通量测序实验操作步骤较多，也可能引入交叉污染。由于污染物与被污染物均为人类核酸，难以通过简单方法进行识别，亟需一种方法进行鉴定。

现有技术中，有部分研究试图解决污染鉴定问题，例如ContEst软件基于人群突变频率信息，利用贝叶斯方法计算后验概率的污染水平。但此方法假设样本基因组为二倍体且不存在拷贝数变异，未考虑肿瘤样本基因组的复杂变化，不适用于肿瘤样本的检测。

发明内容

根据第一方面，在一些实施例中，提供一种检测样本交叉污染的方法，包括：

分析比对到参考基因组的待测样本测序数据中每个单核苷酸多态性位点的碱基型，根据所述碱基型预测是否存在交叉污染。

在一些实施例中，根据每个单核苷酸多态性位点的碱基型，预测该位点是否为交叉污染位点，然后统计交叉污染位点的碱基突变频率，即为待测样本的污染比例，根据所述污染比例预测待测样本是否为交叉污染样本。

根据第二方面，在一些实施例中，提供一种预测样本交叉污染源的方法，包括：

根据第一方面所述方法，获得交叉污染样本，根据比对到参考基因组的交叉污染样本测序数据中被污染位点的信息、与交叉污染样本来源于同一生物体且比对到参考基因组的正常对照样本测序数据中相应位点的信息，对比对到参考基因组的嫌疑污染源样本测序数据的相应位点的信息进行分析，预测所述嫌疑污染源样本是否为污染源。

根据第三方面，在一些实施例中，提供一种用于检测样本交叉污染的系统，包括：交叉污染预测装置，用于分析比对到参考基因组的待测样本测序数据中每个单核苷酸多态性位点的碱基型，根据所述碱基型预测是否存在交叉污染。

根据第四方面，在一些实施例中，提供一种预测样本交叉污染源的系统，包括：

交叉污染预测装置，用于分析比对到参考基因组的待测样本测序数据中每个单核苷酸多态性位点的碱基型，根据所述碱基型预测是否存在交叉污染；

样本交叉污染源预测装置，用于获得交叉污染样本，根据比对到参考基因组的交叉污染样本测序数据中被污染位点的信息、与交叉污染样本来源于同一生物体且比对到参考基因组的正常对照样本测序数据中相应位点的信息，对比对到参考基因组的嫌疑污染源样本测序数据的相应位点的信息进行分析，预测所述嫌疑污染源样本是否为污染源。

根据第五方面，在一些实施例中，提供一种装置，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如第一方面或第二方面所述的方法。

根据第六方面，在一些实施例中，提供一种计算机可读存储介质，其特征在于，其上存储有程序，所述程序能够被处理器执行以实现如第一方面或第二方面所述的方法。

根据第七方面，在一些实施例中，提供一种探针库，或固定有所述探针库的基因芯片，或包含所述探针库的试剂盒在样本交叉污染检测和/或交叉污染源检测中的用途，所述探针库的捕获位点包括如下位点中的至少一种：rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290。

依据上述实施例的检测交叉污染的方法及试剂盒，通过分析待测样本中每个单核苷酸多态性位点的碱基型，可识别肿瘤样本是否存在交叉污染，还可进一步定位污染源，有利于排查污染原因，提高检测结果的准确性。

附图说明

图1为实施例1的肿瘤样本污染检测流程图；

图2为实施例1的样本污染模拟测试结果图；

图3为实施例1的污染样本预测算法模拟测试结果图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

术语“SNP”是指单核苷酸多态性，英文全称为single nucleotide polymorphism。单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种，占所有已知多态性的90％以上。SNP所表现的多态性只涉及到单个碱基的变异，这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起，也可由碱基的插入或缺失所致。

“突变频率”是指：某位点的某种碱基型数量在该位点所有碱基型数量中所占的百分比。

交叉污染是指不同患者样本核酸混合造成的污染。造成交叉污染的原因包括不限于样本制备步骤的工具混用、高通量测序步骤操作不当等等。例如，福尔马林固定石蜡包埋处理(Formalin-Fixed and Parrffin-Embedded,FFPE)样本时，样本包埋、切片等工具往往非一次性使用，存在不同患者样本核酸交叉污染的可能。再例如，高通量测序实验操作步骤较多，也可能引入交叉污染。

在一些实施例中，预测每个单核苷酸多态性位点是否为交叉污染位点的方法如下：

如果所检测的待测样本中的位点只包含1种碱基型，则预测该位点为纯合位点，且无交叉污染；具体是对每个位点单独判断；

如果所检测的待测样本中的位点包含2种碱基型，且其中一种碱基型的突变频率＞A，另一种碱基型的突变频率＜B，A＞B，A+B＝100％，则预测该位点为纯合位点，且无交叉污染；

如果所检测的待测样本中的位点包含2种碱基型，且两种碱基型的频率均位于B-A(包括边界值B、A)之间，则继续检测相应的比对到参考基因组的对照样本测序数据中该位点的碱基型，如果相应的正常对照样本中对应的位点为纯合位点，则预测待测样本中所检测的位点为纯合位点，且有交叉污染；如果对照样本中对应位点为杂合位点，则无法判断待测样本中对应位点是否存在交叉污染，记为未知污染状况的位点。

关于突变频率范围B-A，该频率范围取决于对污染的定义。例如，若将1％以上的样本混杂定义为污染，则将突变频率下限值B设定为1％，对应地，将突变频率上限值A设定为99％。

在一些实施例中，A可以为99％-99.5％，B可以为0.5％-1％。A可以包括但不限于99％、99.1％、99.2％、99.3％、99.4％、99.5％等等。B可以包括但不限于0.5％、0.6％、0.7％、0.8％、0.9％、1％等等。并且，A+B＝100％。

在一些实施例中，统计得到待测样本中有交叉污染的位点的碱基突变频率平均值，即为该样本的污染比例。

在一些实施例中，所述相应的正常对照样本是指与待测样本来自于同一个体的正常对照样本。

在一些实施例中，所述正常对照样本包括但不限于外周血白细胞、口腔上皮细胞、癌旁组织等等中的至少一种。

在一些实施例中，如果污染比例≥C，则预测所述待测样本为交叉污染样本；如果污染比例＜C，则预测所述待测样本为非交叉污染样本。

在一些实施例中，C可以为1％-5％，包括但不限于1％、1.5％、2％、2.5％、3％、3.5％、4％、4.5％、5％等等。

在一些实施例中，所述单核苷酸多态性位点包括但不限于如下位点中的至少一种：rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290。此处仅仅是示例性列举，也可以是其他位点，通常是根据人群中突变频率在40％-60％区间的位点，根据PCR验证成功率排序，选择成功率较高的位点。例如，对于中国人群，则根据人群中突变频率在0.4-0.6区间的位点，根据PCR验证成功率排序，选择成功率较高的位点。上述28个位点即为根据前述规则选出的位点。

在一些实施例中，所述单核苷酸多态性位点包括如下位点：rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290。

在一些实施例中，所述待测样本包括但不限于肿瘤组织、循环肿瘤细胞、肿瘤游离DNA等等中的至少一种。

在一些实施例中，所述待测样本来自于人体或动物体，通常为人体。

在一些实施例中，嫌疑污染源样本与交叉污染样本不属于同一个体来源。

在一些实施例中，可以通过分析样本取样记录、检测记录等信息进行初步筛查得到嫌疑污染源样本。

在一些实施例中，所述比对到参考基因组的交叉污染样本测序数据中被污染位点的信息是指被污染位点的碱基型。

在一些实施例中，与交叉污染样本来源于同一生物体且比对到参考基因组的正常对照样本测序数据中相应位点的信息是指相应位点的碱基型、突变频率。

在一些实施例中，比对到参考基因组的嫌疑污染源样本测序数据的相应位点的信息是指相应位点的碱基型、突变频率。

在一些实施例中，位点的碱基型包括纯合位点、杂合位点。

在一些实施例中，根据比对到参考基因组的交叉污染样本测序数据中被污染位点的信息、与交叉污染样本来源于同一生物体且比对到参考基因组的正常对照样本测序数据中相应位点的信息，对比对到参考基因组的嫌疑污染源样本测序数据的相应位点的信息进行分析的方法具体是打分，汇总根据嫌疑污染源样本测序数据中每个被检测的单核苷酸多态性位点所预测的嫌疑污染源样本得分，得到总得分，根据所述总得分，预测所述嫌疑污染源样本是否为污染源。

在一些实施例中，按照以下规则进行打分：

当与交叉污染样本来源于同一生物体的正常对照样本测序数据中相应位点为纯合位点，且交叉污染样本测序数据中相应位点的突变频率为D-E时，D＜E，如果嫌疑污染源样本测序数据中相应位点存在此碱基型(即嫌疑污染源样本测序数据中相应位点也为纯合位点)，且相应位点的突变频率≥F，那么，嫌疑污染源样本的得分+G；如果相应位点的突变频率＜F，嫌疑污染源样本的得分-G；

对于嫌疑污染源样本测序数据中的纯合位点，如果交叉污染样本测序数据中无此碱基型，嫌疑污染源样本的得分-H；对于嫌疑污染源样本测序数据中的杂合位点，如果交叉污染样本测序数据中无此碱基型，嫌疑污染源样本的得分-J。

在一些实施例中，D可以为0.5％-1％，E可以为25％-35％，F可以为25％-35％。

在一些实施例中，D可以包括但不限于0.5％、0.6％、0.7％、0.8％、0.9％、1％等等。

在一些实施例中，E可以包括但不限于25％、26％、27％、28％、29％、30％、31％、32％、33％、34％、35％等等。

在一些实施例中，F可以包括但不限于25％、26％、27％、28％、29％、30％、31％、32％、33％、34％、35％等等。

在一些实施例中，G、H、J同为正数或同为负数。在一实施例中，G、H、J可以同为正数，在另一实施例中，G、H、J可以同为负数。

在一些实施例中，G、H、J之间数值关系为G：H：J＝1：2：1。在一实施例中，G可以为0.5，H可以为1，I可以为0.5；在另一实施例中，G可以为1，H可以为2，J可以为1；在另一实施例中，G可以为2，H可以为4，J可以为2；G可以为3，H可以为6，J可以为3；在另一实施例中，G可以为-0.5，H可以为-1，J可以为-0.5；在另一实施例中，G可以为-1，H可以为-2，J可以为-1；在另一实施例中，G可以为-2，H可以为-4，J可以为-2；G可以为-3，H可以为-6，J可以为-3。G、H、J可以为整数，也可以为小数，满足前述比值关系即可。此处仅仅是示例性列举，按照前述比值关系放大、缩小的G、H、J数值均在本发明的保护范围之内。

在一些实施例中，如果嫌疑污染源样本的总得分＞K，则预测所述嫌疑污染源样本为疑似污染源，如果所述嫌疑污染源样本的总得分≤K，则预测所述嫌疑污染源样本为非污染源。

在一些实施例中，K为0。该数值有助于直观判断(亦称预测)嫌疑污染源样本是否为污染源。K也可以为其它数值。

在一些实施例中，对于疑似污染源的样本，根据所述疑似污染源的样本测序数据中的碱基型与所述交叉污染样本测序数据中的碱基型(具体可以是前文提及的28个位点的碱基型)相似程度，预测所述疑似污染源的样本是否为污染源。

在一些实施例中，所述疑似污染源的样本测序数据中的碱基型与所述交叉污染样本测序数据中的碱基型相似程度是指一致率(具体可以是疑似污染源与交叉污染样本在前文提及的28个位点上碱基型相同的比例)。

在一些实施例中，如果一致率＞L，则预测所述疑似污染源的样本为污染源；如果一致率≤L，则预测所述疑似污染源的样本为非污染源。确定污染源后，可分析样本取样、检测记录，找出样本污染的原因，并采取措施避免交叉污染。

在一些实施例中，L可以为75％-100％，包括但不限于75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、100％等等。

关于阈值L，通常情况下，阈值越高，结果可信度越高，但无法得到有效结果的概率也越高。

在一些实施例中，所述嫌疑污染源样本包括但不限于肿瘤组织、循环肿瘤细胞、肿瘤游离DNA等等中的至少一种。

在一些实施例中，交叉污染样本包括但不限于肿瘤组织、循环肿瘤细胞、肿瘤游离DNA等等中的至少一种。

在一些实施例中，与交叉污染样本来源于同一生物体的正常对照样本包括但不限于外周血白细胞、口腔上皮细胞、癌旁组织等等中的至少一种。

需要说明的是，本发明涉及的检测样本交叉污染的方法、预测样本交叉污染源的方法所针对的对象均为离体样本的测序数据，不是以有生命的人体或动物体为对象；并且，所得到的结果是是否存在交叉污染，或者嫌疑污染源样本是否为污染源，根据前述两种结果均不能直接得到疾病诊断结果或健康状况，不属于疾病的诊断方法，更不属于疾病的治疗方法。

根据第五方面，在一些实施例中，提供一种装置，包括：

存储器，用于存储程序；

根据第七方面，在一些实施例中，提供一种用于样本交叉污染检测和/或交叉污染源检测的探针库，所述探针库的捕获位点包括但不限于如下位点中的至少一种：rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290。此处仅仅是示例性列举，也可以是其他位点，通常是根据人群中突变频率在40％-60％区间的位点，根据PCR验证成功率排序，选择成功率较高的位点。例如，对于中国人群，则根据人群中突变频率在0.4-0.6区间的位点，根据PCR验证成功率排序，选择成功率较高的位点。上述28个位点即为根据前述规则选出的位点。

在一些实施例中，所述探针库的捕获位点包括：rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290。

在一些实施例中，所述样本包括但不限于肿瘤组织、循环肿瘤细胞、肿瘤游离DNA等等中的至少一种。

根据第八方面，在一些实施例中，提供一种基因芯片，所述基因芯片上固定有第四方面所述探针库。

根据第九方面，在一些实施例中，提供一种试剂盒，所述试剂盒包括第七方面所述探针库，和/或第八方面所述基因芯片。

根据第十方面，在一些实施例中，提供第七方面所述探针库，或第八方面所述基因芯片，或第九方面所述试剂盒在样本交叉污染检测和/或交叉污染源检测中的用途。

在一些实施例中，所述样本可以是肿瘤样本。

在一些实施例中，所述样本包括但不限于肿瘤组织、循环肿瘤细胞、肿瘤游离DNA中的至少一种。

在一些实施例中，本发明实现了一种基于高通量测序的样本交叉污染鉴定方法，可识别肿瘤样本是否存在交叉污染，并定位污染源，有利于排查污染原因，提高检测结果的准确性。

在一些实施例中，本发明提供一种基于高通量测序的样本交叉污染鉴定方法。

在一些实施例中，本发明提供一种包含污染鉴定探针的检测试剂盒。

在一些实施例中，本发明提供一种用于污染鉴定的数据分析计算方法。

在一些实施例中，提供一种适用于高通量目标区域捕获测序的靶向捕获探针，其中包含28个单核苷酸多态性位点的捕获区域。该捕获探针的特点包括：与常见肿瘤相关基因检测区域不冲突，可加入现有肿瘤基因检测探针中，用于污染鉴定。

在一些实施例中，提供一种用于污染鉴定的生物信息分析方法。该分析方法的主要特点包括：可以根据上述捕获探针获取的测序数据进行分析，确定样本是否存在交叉污染，并判断潜在的污染源。

在一些实施例中，本发明主要应用于高通量测序领域，具体用于肿瘤基因检测过程质量控制。

实施例1

如图1所示为本实施例的流程图。

本实施例中，靶向捕获芯片的设计过程如下：

根据Cell Lines Project数据库设计的用于质控的SNP位点，选择其中中国人群中突变频率在0.4-0.6区间的位点，根据PCR验证成功率排序，选择最高的28个SNP位点，具体如下：rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290。该捕获探针的特点是与常见肿瘤相关基因检测区域不冲突，既可独立使用，也可加入现有肿瘤基因检测探针中，用于污染鉴定。现有技术中，上述28个SNP位点被用于对样本进行质控，本实施例首次将其用于肿瘤样本污染检测。

本实施例的测序数据是由MGISEQ-2000测序仪测序得到。

本实施例的信息分析方法包括下机数据处理、数据过滤、序列比对、污染质控、污染源预测等步骤。其中下机数据处理、数据过滤、序列比对为高通量测序数据分析的常规分析环节，主要包括如下步骤：

a)下机数据处理：测序仪产生的通常为专用格式数据，需首先转化为通用的fastq文件格式。此外，一张测序芯片上会混合多个样本，需要在分析之前将属于各个样本的数据拆分开来。本实施例中使用MGI测序仪，仪器直接产出可用数据量(Clean data)，软件根据标签(index)序列匹配筛选各样本数据。数据处理完毕后经过质控程序质控，判断数据产出及质量是否出现异常，无异常则进入下一步骤。

b)数据过滤：测序仪产出的数据除包含有效数据外，还包括测序接头序列、低质量序列及N碱基组成的序列，这些序列会干扰后续分析，需要去除。本实施例使用cutadapt软件进行上述操作。过滤后的数据使用质控软件进行质控，无异常则进入下一步骤。

c)序列比对：序列比对采用BWA-MEM算法进行，使用的参考基因组为GRCh37.73。比对结果直接进行去重合排序处理，不需生成临时文件，达到节省时间及空间的目的。

以下详细介绍关于污染质控的原理及实现方法：

污染质控的基本原理如下：对捕获芯片上设计的28个多态性位点进行分型。对于无污染的样本，每个位点的碱基型可能为特定碱基的纯合型(碱基频率100％)或2种碱基的杂合型(碱基频率各50％)。对于有污染的样本，除该样本对应患者本人的碱基型外，还混入了污染源患者的碱基型，因此位点表现出多种碱基型，根据这种现象即可判定污染。对于难以判断的位点，还可参考对照样本的碱基型辅助判断。

具体实施过程如下：

1.分析待测样本中每个多态性位点的基因型及突变频率，可能出现以下情况：

若该位点只包含1种碱基型，则认为该位点为纯合位点，且无交叉污染。

若该位点包含2种碱基型，且其中一种碱基型的频率＞99％，另一种碱基型的频率＜1％，同样认为该位点为纯合位点，且无交叉污染。

若该位点包含2种碱基型，且两种碱基型的突变频率均位于1％-99％之间(包括边界值1％、99％)，则继续检查对照样本该位点的碱基型。若对照样本为纯合型，则该位点为纯合位点，且有交叉污染；若对照样本为杂合型，该位点无法判断。对照样本为白细胞，与待测样本来源于同一个体。突变频率是指：某位点的某种碱基型数量在该位点所有碱基型数量中所占的百分比。

2.统计该样本28个多态性位点中有交叉污染位点的碱基突变频率平均值，即为该样本的污染比例。污染比例超过1％的样本认为是有交叉污染的样本。根据目前NGS检测方法，可认为1％以下的污染对检测结果没有影响。

上述方法可以确定样本是否存在交叉污染，且对于有污染的样本，根据上述信息可以进一步定位污染源，具体方法是对与该样本同一批次取样或检测的样本逐个排查，排查方法如下：

污染样本中被污染位点的被污染碱基型已经可以根据上述方法得出，对嫌疑污染源样本(简称嫌疑样本，本实施例中的嫌疑样本为：与被污染样本同批次送检的其他样本，同批次可以包括但不限于同一建库批次、同一采样批次、同一送样批次等等)相同位点碱基型进行分析，按照以下打分规则进行打分：

对于对照样本中纯合且被污染的肿瘤样本中突变频率为0.5％-35％的位点，若嫌疑样本无此碱基型，得分-2；若有此碱基型且频率≥25％，得分+1；若频率＜25％，得分-1。

对于嫌疑样本中的纯合位点，若被污染的肿瘤样本中无此碱基型，得分-2；嫌疑样本中的杂合位点，若肿瘤样本中无此碱基型，得分-1。

对所有多态性位点打分后汇总，若总得分＞0，说明该样本为疑似污染源；若总得分≤0，说明该样本非污染源。

对于疑似污染源的样本，进一步分析该样本多态性位点碱基型与被污染样本碱基型的相似程度，如果一致率＞75％，则确定该样本为污染源。

确定污染源后，可分析样本取样、检测记录，找出样本污染的原因，并采取措施避免交叉污染。

对上述方法的验证如下：

人为模拟污染样本(即将来源于一患者的核酸样本按不同比例混入另一患者核酸样本，模拟污染情况)，并将该样本按照正常样本相同检测方式与某批次样本共同进行检测。使用30组肿瘤组织样本数据模拟(混合2例样本测序数据)测试，分别模拟0.5％-50％比例污染。

以其中1组样本为例，模拟方案展示如下：

表1

序号	待测样本编号	模拟污染源样本编号	模拟污染比例
				1	DN1901459AZZAA16	DN1901008FZZAA16	0.5％
2	DN1901459AZZAA16	DN1901008FZZAA16	1.0％
				3	DN1901459AZZAA16	DN1901008FZZAA16	2.0％
4	DN1901459AZZAA16	DN1901008FZZAA16	4.0％
				5	DN1901459AZZAA16	DN1901008FZZAA16	8.0％
6	DN1901459AZZAA16	DN1901008FZZAA16	16.0％
				7	DN1901459AZZAA16	DN1901008FZZAA16	32.0％
8	DN1901459AZZAA16	DN1901008FZZAA16	50.0％

其中DN1901459AZZAA16及DN1901008FZZAA16为2例不同来源的肿瘤组织样本，本组测试模拟DN1901008FZZAA16样本不同程度污染了DN1901459AZZAA16样本的情况。

表1中，污染比例是指质量百分比，也相当于DNA分子数量百分比。

对每组模拟数据进行检测，得到28个SNP位点的碱基型频率分布情况。以模拟2％污染比例的情况为例，碱基型分布情况如下：

表2

根据上述数据进行计算，得到污染比例预测结果：

肿瘤样本污染水平(Tumor sample contamination level)：2.154％。

可见，计算出的污染比例(2.154％)接近理论值(2％)。

图2所示为样本污染模拟测试结果，图2中，右侧数值是指理论污染比例，上侧数值是指实际污染比例，可见，各组样本均能成功计算污染比例，误差范围0.43(即对于理论1％的污染，实际预测结果在0.57％-1.43％之间)。证明该方法能可靠检出样本污染。

同样使用上述30组模拟数据测试，分别模拟0.5％-50％比例污染，计算对污染源的预测效果。以上述DN1901459AZZAA16样本为例，污染源预测结果如下：

表3

疑似污染源样本编号	预测得分
		DN1904373FZZAA05	-0.14
DN1902767SLZAA05	0.43
		DN1901008FZZAA16	1
DN1904096SLZAA05	-0.71
		DN1904173SLZAA05	0.29
DN1903478FZZAA16	0.57
		DN1901761AZZAA01	0.29
DN1904678SLZAA16	0.29
		DN1904780FZZAA01	0.14
CT1900101XYZAA05	-0.57
		DN1903502AZZAA15	-0.71
CT1904783XYZAA05	-0.57
		DN1903780SLZBA01	-0.57
DN1904463SLZAA01	-0.43
		CT1902593XYZCB01	-0.71
DN1904685SLZAA01	0.71
		CT1904384XYZAA15	-0.43
CT1902596XYZBA15	-0.43
		CT1904210XYZAA15	0.57
DN1904098SLZAA05	-0.43
		DN1904463SLZAA01	-0.43
DN1901761AZZAA01	0.29

可见，只有DN1901008FZZAA16样本得分超过0.75，而该样本正是模拟的污染源样本，说明该计算方法可正确找出污染源。

图3所示为污染样本预测算法模拟测试结果，图3中的灵敏度、特异性的定义如下：

灵敏度：能正确找到污染源样本的概率。

特异性：1-将其他样本误判成污染源的概率。

从图3的结果可见，对于2％及以上比例的污染，该检测方法的灵敏度及特异性均能够达到90％以上。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种检测样本交叉污染的方法，其特征在于，包括：分析比对到参考基因组的待测样本测序数据中每个单核苷酸多态性位点的碱基型，根据所述碱基型预测是否存在交叉污染。

2.如权利要求1所述方法，其特征在于，根据每个单核苷酸多态性位点的碱基型，预测该位点是否为交叉污染位点，然后统计交叉污染位点的碱基突变频率，即为待测样本的污染比例，根据所述污染比例预测待测样本是否为交叉污染样本；

和/或，预测每个单核苷酸多态性位点是否为交叉污染位点的方法如下：

如果所检测的待测样本中的位点只包含1种碱基型，则预测该位点为纯合位点，且无交叉污染；

如果所检测的待测样本中的位点包含2种碱基型，且两种碱基型的突变频率均位于B-A(包括边界值B、A)之间，则继续检测相应的比对到参考基因组的对照样本测序数据中该位点的碱基型，如果相应的正常对照样本中对应的位点为纯合位点，则预测待测样本中所检测的位点为纯合位点，且有交叉污染；如果对照样本中对应位点为为杂合位点，则无法判断待测样本中对应位点是否存在交叉污染，记为未知污染状况的位点；

和/或，A为99％-99.5％，B为0.5％-1％；

和/或，统计得到待测样本中有交叉污染的位点的碱基突变频率平均值，即为该样本的污染比例；

和/或，所述相应的正常对照样本是指与待测样本来自于同一个体的正常对照样本；

和/或，所述正常对照样本选自外周血白细胞、口腔上皮细胞、癌旁组织中的至少一种；

和/或，如果污染比例≥C，则预测所述待测样本为交叉污染样本；如果污染比例＜C，则预测所述待测样本为非交叉污染样本；

和/或，C为1％-5％；

和/或，所述单核苷酸多态性位点包括如下位点中的至少一种：rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290；

和/或，所述单核苷酸多态性位点包括如下位点：rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290；

和/或，所述待测样本选自肿瘤组织、循环肿瘤细胞、肿瘤游离DNA中的至少一种；

和/或，所述待测样本来自于人体或动物体。

3.一种预测样本交叉污染源的方法，其特征在于，包括：

根据权利要求1-2任意一项所述方法，获得交叉污染样本，根据比对到参考基因组的交叉污染样本测序数据中被污染位点的信息、与交叉污染样本来源于同一生物体且比对到参考基因组的正常对照样本测序数据中相应位点的信息，对比对到参考基因组的嫌疑污染源样本测序数据的相应位点的信息进行分析，预测所述嫌疑污染源样本是否为污染源。

4.如权利要求3所述的方法，其特征在于，嫌疑污染源样本与交叉污染样本不属于同一个体来源；

和/或，所述比对到参考基因组的交叉污染样本测序数据中被污染位点的信息是指被污染位点的碱基型；

和/或，与交叉污染样本来源于同一生物体且比对到参考基因组的正常对照样本测序数据中相应位点的信息是指相应位点的碱基型、突变频率；

和/或，比对到参考基因组的嫌疑污染源样本测序数据的相应位点的信息是指相应位点的碱基型、突变频率；

和/或，位点的碱基型包括纯合位点、杂合位点；

和/或，根据比对到参考基因组的交叉污染样本测序数据中被污染位点的信息、与交叉污染样本来源于同一生物体且比对到参考基因组的正常对照样本测序数据中相应位点的信息，对比对到参考基因组的嫌疑污染源样本测序数据的相应位点的信息进行分析的方法具体是打分，汇总根据嫌疑污染源样本测序数据中每个被检测的单核苷酸多态性位点所预测的嫌疑污染源样本得分，得到总得分，根据所述总得分，预测所述嫌疑污染源样本是否为污染源；

和/或，按照以下规则进行打分：

当与交叉污染样本来源于同一生物体的正常对照样本测序数据中相应位点为纯合位点，且交叉污染样本测序数据中相应位点的突变频率为D-E时，D＜E，如果嫌疑污染源样本测序数据中相应位点存在此碱基型，且相应位点的突变频率≥F，那么，嫌疑污染源样本的得分+G；如果相应位点的突变频率＜F，嫌疑污染源样本的得分-G；

对于嫌疑污染源样本测序数据中的纯合位点，如果交叉污染样本测序数据中无此碱基型，嫌疑污染源样本的得分-H；对于嫌疑污染源样本测序数据中的杂合位点，如果交叉污染样本测序数据中无此碱基型，嫌疑污染源样本的得分-J；

和/或，D为0.5％-1％，E为25％-35％，F为25％-35％；

和/或，G、H、J同为正数或同为负数；

和/或，G、H、J之间数值关系为G：H：J＝1：2：1；

和/或，如果嫌疑污染源样本的总得分＞K，则预测所述嫌疑污染源样本为疑似污染源，如果所述嫌疑污染源样本的总得分≤K，则预测所述嫌疑污染源样本为非污染源；

和/或，K为0；

和/或，对于疑似污染源的样本，根据所述疑似污染源的样本测序数据中的碱基型与所述交叉污染样本测序数据中的碱基型相似程度，预测所述疑似污染源的样本是否为污染源；

和/或，所述疑似污染源的样本测序数据中的碱基型与所述交叉污染样本测序数据中的碱基型相似程度是指一致率；

和/或，如果一致率＞L，则预测所述疑似污染源的样本为污染源；如果一致率≤L，则预测所述疑似污染源的样本为非污染源；

和/或，L为75％-100％；

和/或，所述嫌疑污染源样本选自肿瘤组织、循环肿瘤细胞、肿瘤游离DNA中的至少一种；

和/或，交叉污染样本选自肿瘤组织样本、循环肿瘤细胞、肿瘤游离DNA中的至少一种；

和/或，与交叉污染样本来源于同一生物体的正常对照样本选自外周血白细胞、口腔上皮细胞、癌旁组织中的至少一种。

5.一种用于检测样本交叉污染的系统，其特征在于，包括：

交叉污染预测装置，用于分析比对到参考基因组的待测样本测序数据中每个单核苷酸多态性位点的碱基型，根据所述碱基型预测是否存在交叉污染。

6.一种预测样本交叉污染源的系统，其特征在于，包括：

7.一种装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1-2或权利要求3-4所述的方法。

8.一种计算机可读存储介质，其特征在于，其上存储有程序，所述程序能够被处理器执行以实现如权利要求1-2或权利要求3-4所述的方法。

9.一种探针库，或固定有所述探针库的基因芯片，或包含所述探针库的试剂盒在样本交叉污染检测和/或交叉污染源检测中的用途，其特征在于，所述探针库的捕获位点包括如下位点中的至少一种：rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290。

10.如权利要求9所述的用途，其特征在于，所述样本为肿瘤样本；

和/或，所述样本选自肿瘤组织、循环肿瘤细胞、肿瘤游离DNA中的至少一种。