CN109628568A

CN109628568A - 一种用于判别和校准高通量测序污染的内标及其应用

Info

Publication number: CN109628568A
Application number: CN201910024114.2A
Authority: CN
Inventors: 雷向东; 邓丽盈
Original assignee: Shanghai Elephant Biological Technology Co Ltd
Current assignee: Shanghai Elephant Biological Technology Co Ltd
Priority date: 2019-01-10
Filing date: 2019-01-10
Publication date: 2019-04-16

Abstract

本发明提供了一种用于判别和校准高通量测序污染的内标以及使用该内标判别和校准高通量测序污染的方法。本发明的内标是长度在几十到几百个碱基或碱基对的DNA或RNA片段，每一个样本对应不同的内标。本发明的内标不仅能精确而可靠的判别和校准高通量测序中的污染，还可以用作测序时的碱基平衡以及用于跟踪PCR及测序过程中的错误率。

Description

一种用于判别和校准高通量测序污染的内标及其应用

技术领域

本发明属于高通量测序领域，具体地，属于体外诊断技术领域，涉及一种用于判别和校准高通量测序污染的内标以及使用该内标判别和校准高通量测序污染的方法，以及其他各种用途。

背景技术

高通量测序(NGS)能一次并行对几十万到几百万条DNA分子进行序列测定，可逆末端终止测序，半导体测序，焦磷酸测序等都属于高通量测序。

高通量测序的基础是构建样本的测序文库。根据测序的对象，分为DNA文库和RNA文库，DNA文库包括但不限于全基因组文库、全外显子组文库、靶向DNA文库；RNA的cDNA文库包括但不限于总RNA文库、全转录组文库、小RNA文库、非编码RNA文库、靶向RNA文库。根据文库构建方法，分成扩增法构建文库如PCR文库制备，连接法构建文库如truseq法文库构建，转座子法构建文库如nextera法文库制备，浓缩法构建文库如Enrichment法文库制备等；无论是那种测序对象、哪种文库构建方法，在构建测序文库时都需要用到测序接头(adapter，负责将需要测序的序列连接在测序芯片上。其一端与测序芯片上锚定的序列互补，另一端根据需要设计，如与引物、index互补)、引物(负责扩增样本，构建测序文库)；多样本混合测序时则都需要用到样本标签(barcode或index，index专指6-8个碱基的样本身份识别序列，本文统一使用index)。测序接头(adapter)起到桥接作用，其序列的一头通过碱基识别被固定在测序芯片上，另一头则根据需要及实验步骤接上了index、引物和目标序列；引物则根据不同文库的需要设计，如全基因组文库通用引物，全外显子组文库通用引物，RNA转化成cDNA文库后的通用引物，靶向测序引物等等；样本标签的作用是多个样本混合在一个反应池中测序时，区分每个样本。

由于高通量测序的单位成本比较高，如果每个样本要测的序列比较少，通常将多个样本混合成一个“测序样本”，大大节约测序成本。这就需要用到样本标签(index)来区分每个样本。每个样本都含有至少1个特异性的样本标签，如果样本太多标签不够，也可以采用样本片段两头各1个标签的组合来决定标签的唯一性。

然而，在大量样本混合测序的实际应用的过程中，本发明发现，样本和样本之间、标签和标签之间可能形成相互污染，例如：在样本核酸提取过程中造成的样本相互污染，在标签合成、纯化、使用过程中造成的标签相互污染。根据近几年高通量测序业务实际测试情况来看，样本核酸提取过程中的污染率达到0-50％；标签合成和纯化过程中的污染率达到1-2％，使用过程中的污染率达到0-20％。以上高通量测序业务均在条件合格的GMP实验室进行，科研环境中污染可能更甚。

问题造成的后果：

在把样本混合进行测序时，样本或标签相互污染可能造成样本检测结果的误读。通常污染的量占单个样本的总量比较小，如果用于胚系基因测序，基本没有影响；然而，当将高通量测序技术应用于体细胞突变、罕见低频突变，如肿瘤突变检测、病毒诱导的体细胞突变时，就变得非常棘手：一是在突变早期，突变的细胞只占机体正常细胞的极少数，这时候就无法区分是突变还是样本或标签之间的污染造成的样本误读；二是病理组织本身，特别是肿瘤组织本身就在不断形成新的突变，每种突变占到病理组织细胞总量的极少数，如果样本或标签之间相互污染，也给突变的解读造成了无法排除的干扰。

随着医学的发展，采用高通量测序来检测肿瘤的突变，根据突变结果制定治疗方案和用药建议，已经成为主流趋势，目前我国已陆续有多个肿瘤突变高通量测序试剂盒获批。高通量测序的污染问题正亟待控制和规范。

发明内容

本发明旨在解决高通量测序中的污染问题，为解决该问题，本发明在每个样本或标签中引入一个内标(Inner Control)来校正污染。具体地，本发明通过如下技术方案克服了高通量测序中的污染问题。

在一个方面，本发明提供一种用于判别和校准高通量测序污染的内标，其特征在于：

该内标为一段DNA或RNA片段，长度在几十到几千个碱基或碱基对；

优选地，所述内标长度在几十到几百个碱基或碱基对；

同批次每一个样本对应一个或多个不同的内标，优选地，同批次每一个不同的样本对应一个不同的内标；

可选地，所述内标为单链，或可选地，所述内标为双链；

可选地，所述内标为人工合成，或可选地，所述内标为外源物种序列，或可选地，所述内标为样本本身的一段序列；

可选地，所述内标需被引物识别，或可选地，所述内标不需要被引物识别；

应该理解，该内标为DNA或RNA，可由实际情况而定，都在本发明的保护范围之内；

应该理解，内标的长度实际情况而定，本发明并不限于特定的长度；

应该理解，同批次每一个样本对应不同的多个内标，或同批次每一个不同的样本对应一个不同的内标，可由实际情况而定，都在本发明的保护范围之内；

应该理解，所述内标为单链或双链，可由实际情况而定，都在本发明的保护范围之内；

应该理解，所述内标人工合成，或为外源物种序列，或为样本本身的一段序列，可由实际情况而定，都在本发明的保护范围之内；

应该理解，所述内标是否需被引物识别，可由实际情况而定，都在本发明的保护范围之内；

应该理解，内标添加量可以为不影响检测和分析的合适范围，可由实际情况而定，并不限定于特定的浓度，优选添加量小于样本的10％，更优选添加量为样本的1％-2％。

在一个实施方式中，本发明提供一种用于判别和校准高通量测序污染的内标如下：

该内标为一段单链DNA片段，长度在几十到几百个碱基；

该内标为人工合成或外源物种PCR产物；

同批次每一个样本对应不同的内标。

在又一个方面，本发明提供一种用于判别和校准高通量测序污染的内标引物如下：

一对或数对引物，专门针对单个样本中某一段或几段DNA或RNA片段，本文称之为内标引物；

针对的片段长度最短不短于引物长度，最长不超过高通量测序仪读长；

同批次每一个样本使用不同的内标引物，在文库构建过程中扩增出各样本不同的片段，成为内标，所述内标具有上面内标所有的特征。

在又一个方面，本发明提供了一种判别和校准高通量测序污染的方法，所述方法包括在高通量测序过程中引入本发明所述的内标。

在一个实施方式中，本发明的判别和校准高通量测序污染的方法包括如下步骤：

(1)加入本发明的内标或内标引物；

(2)在文库构建过程中用样本标签标记样本，在拿到高通量测序原始数据后，进行样本分离时，将具有相同样本标签的数据划分到同一个子集中；

(3)识别该子集的内标，有且仅有与某一个样本对应的内标的，被判定为正常，具有与该样本不同的一个或多个其他内标的，被判定为污染。

在上述步骤(1)中，将内标或内标引物添加到文库构建开始之前的反应体系中，添加方式选自如下：

A.文库构建之前，根据文库构建的步骤需要，如果是先进行一些操作步骤后加样本标签的文库构建方法，则将内标或内标引物加入样本或文库构建引物中；

B.如果是先加样本标签后进行文库构建操作步骤的方法，则可以将内标或内标引物加入样本中，或标签中，或文库构建引物中，或上述材料的各种组合混合物中。

在步骤(2)中，应该理解，可以按照常规方法测试并获得高通量测序原始数据，本发明并不限于具体的测序方法。

在又一个实施方式中，本发明的判别和校准高通量测序污染的方法包括如下步骤：

(1)加入本发明的内标或内标引物；

(2)在文库构建过程中用样本标签标记样本，在拿到高通量测序原始数据后，进行样本分离时，先抽取一个内标的测序数据，将具有相同内标的数据划分到同一个子集中；

(3)识别该子集的样本标签index，有且仅有该内标对应的index或index组合的，被判定为正常，具有与该内标不同的一个或多个index或index组合的，被判定为污染。

在上述步骤(1)中，将内标添加到文库构建开始之前的反应体系中，添加方式选自如下：

在再一个实施方式中，本发明的判别和校准高通量测序污染的方法包括如下步骤：

(1)样本核酸提取前或提取后，在每个样本中加入不同的内标；

(2)使用经上述判别后没有被污染的样本标签，进行文库建构；在拿到高通量测序原始数据后，进行样本分离时，将具有相同样本标签或组合的数据划分到同一个子集中；

(3)识别该子集的内标，有且仅有与某一个样本对应的内标的，被判定为正常，具有与该样本不同的一个或多个内标的，被判定为样本污染。

如上，应该理解，可以按照常规方法测试并获得高通量测序原始数据，本发明并不限于具体的测序方法。

在又一个方面，本发明还提供了一种判别和校准高通量测序污染的试剂盒，所述试剂盒包括本发明的内标或内标引物。

应该理解，试剂盒中还可以包含判别和校准高通量测序污染所用的其他材料和物质。

在又一个方面，本发明还提供了一种判别和校准高通量测序污染的分析流程，所述流程包括用所述内标判别和校准高通量测序过程中的污染的步骤。

在一个实施方式中，用内标判别和校准高通量测序过程中的污染的分析流程步骤如下：

(1)在一个样本的测序数据中，根据样本对应内标数据量和不对应内标的数据量，质控污染程度，得到污染率；

(2)样本分析结束后，进入质控流程：一个样本的数据量中，突变率＞污染率的，被认定为突变，突变率≤污染率的，不能被认定为突变；

(3)被判定为污染的数据，在确定样本没有相互污染时，也可以等比例地被校准到对应内标的样本中去。

应该理解，本领域技术人员例如可以通过公式：污染率＝不对应内标数据量/同一个样本的总内标数据量，获得污染率，本发明不限于具体的污染率计算公式。

进一步的，上述步骤可以根据统计学算法进一步优化。

在又一个方面，本发明提供了本发明的人工合成或外源物种片段的内标用作测序时的碱基平衡的用途。

在又一个方面，本发明提供了本发明的人工合成或外源物种片段的内标用于跟踪PCR及测序过程中的错误率的用途。

本发明的内标的设计要点是：

1.长度在几十到几百个碱基或碱基对的DNA或RNA片段，根据文库类型设计单链或双链。

2.如果是人工合成或外源物种序列，直接添加到反应体系中成为内标；如果是内标引物，通过扩增样本目标片段成为内标。

3.人工合成或外源物种序列，采用PCR构建文库的，需要被引物识别，采用连接反应构建文库的，则不需要被引物识别；内标引物，可以在文库构建过程中的PCR环节直接扩增出内标。

4.每一个样本对应一个或若干个内标。

5.将内标或内标引物添加到文库构建开始之前的反应体系中，具体是：如果是先进行一些操作步骤后加样本标签，则将内标或内标引物加入样本中或是文库构建引物中，如果是先加样本标签后进行文库构建操作，则可以将内标或内标引物加入样本中，或标签中，或文库构建引物中，或上述材料的各种组合的混合物中。

6.内标添加量主要考量不容易与样本竞争测序资源；内标引物添加量最简便的用法是与PCR文库构建引物同步添加，浓度相同。

本发明的显著技术效果：

本发明的内标能够精确而可靠的判别出以及校准高通量测序中的污染。

此外，由于人工合成的内标长度和可设计性合适，还可以有更多用途：

1.可以用作测序时的碱基平衡：高通量测序时，如果每一轮测序碱基不平衡，会影响测序信号接收，影响测序的准确性。加入碱基复杂度高的内标，可以起到碱基平衡的作用。

2.跟踪PCR和测序过程的错误：合成的内标，理论上具有完全相同的序列；如果在PCR过程中产生错配或在测序过程中出现差错，而出现不同的测序结果，可以根据出错序列的种类和数量统计错误率。

综上所述，本发明取得了显著的技术效果，克服了本领域中的重大问题。

附图说明

图1为使用本发明内标判别高通量测序污染的一个方法和分析流程；

图2为使用本发明内标判别高通量测序污染的另一个方法和分析流程。

具体实施方式

下面结合实施例，以详细说明本发明的技术方案。实施例中所用的试剂、仪器、设备均可公开获得。

本发明内标使用方法一

用于判别和校准标签污染，内标的一个使用方法参见图1，具体步骤如下：

1.文库构建之前，将内标(内标或内标引物)添加到反应体系中；根据文库构建的步骤需要，如果是先进行一些操作步骤后加样本标签的文库构建方法，则将内标或内标引物加入样本中或是文库构建引物中，如果是先加样本标签后进行文库构建操作步骤的方法，则可以将内标加入样本中，或标签中，或文库构建引物中，或上述材料的各种组合的混合物中；

2.在文库构建过程中用样本标签标记样本，例如，按照常规方法测序，在拿到高通量测序原始数据后，利用生物信息学工具进行样本分离时，将具有相同样本标签1(index1或index组合1)的数据划分到同一个子集中，称为子集1；

3.识别该子集1的内标，有且仅有与某一个样本对应的内标1的，被判定为正常，具有与该样本不同的一个或多个内标XYZ的，被判定为污染(但不能区分样本污染还是标签污染，理想情况下，假设样本没有被污染)；

4.去掉Index1内标1，index1内标XYZ和index1的序列，进入样本1分析流程；

5.质控：根据内标1的数据量和内标XYZ的数据量，质控污染程度，得到一个污染率常数A＝内标1/(内标1+内标XYZ)；

6.样本分析结束后，进入质控流程：样本1的数据量中，突变率＞A的，被认定为突变，突变率≤A的，不能认定为突变。步骤5,6的算法可以根据统计学算法进一步优化；

7.被判定为污染的数据，在确定样本没有相互污染时，也可以等比例地被校准到对应内标XYZ的样本XYZ中去。理论计算基础为:内标X/(内标1+内标XYZ)＝样本X/(样本1分析结束后，质控前的总数据)，以此类推。

本发明内标使用方法二

用于判别和校准标签污染，内标的另一个使用方法见图2，比上述方法所需要分类的数据量更小：

2.在文库构建过程中用样本标签标记样本，例如，按照常规方法测序，在拿到高通量测序原始数据后，利用生物信息学工具进行样本分离时，先抽取内标2的测序数据，将具有相同内标2的数据划分到同一个子集中，称为子集2’(区分于上述子集123，子集2’不含任何样本数据)；

3.识别该子集2’的index，有且仅有内标2对应的index2或index组合2的，被判定为正常，具有与该内标2不同的一个或多个index或index组合XYZ的，被判定为污染(但不能区分样本污染还是标签污染，理想情况下，假设样本没有被污染)；

4.根据index2寻找对应的样本2测序数据子集2，去掉Index2内标2，index2内标XYZ和index2的序列，进入样本2分析流程；

5.质控：根据内标2的数据量和内标XYZ的数据量，质控污染程度，得到一个污染率常数B＝内标XYZ/(内标2+内标XYZ)；

6.样本分析结束后，进入质控流程：样本2的数据量中，突变率＞B的，被认定为突变，突变率≤B的，不能认定为突变。步骤5，6的算法可以根据统计学算法进一步优化；

7.被判定为污染的数据，在确定样本没有相互污染时，也可以等比例地被校准到对应内标的样本中去。理论计算基础为:内标X/(内标1+内标XYZ)＝样本X/(样本1分析结束后，质控前的总数据)，以此类推。

本发明内标使用方法三

以上方法还不能判别样本污染的情况，用于判别和校准内标加入之后的样本污染，内标的再一个使用方法参考图1：

1.样本核酸提取前或提取后，在每个样本中加入不同的内标；

2.使用利用上述方法判别后没有被污染的标签，进行文库建构；按照常规方法测序，在拿到高通量测序原始数据后，利用生物信息学工具进行样本分离时，将具有相同样本标签1(index1或index组合1)的数据划分到同一个子集中，称为子集1；

3.识别该子集1的内标，有且仅有与某一个样本对应的内标1的，被判定为正常，具有与该样本不同的一个或多个内标XYZ的，被判定为样本污染；

5.质控：根据内标1的数据量和内标XYZ的数据量，质控样本污染程度，得到一个样本污染率常数A＝内标XYZ/(内标1+内标XYZ)；

6.样本分析结束后，进入质控流程：样本1的数据量中，突变率＞A的，被认定为突变，突变率≤A的，不能认定为突变。步骤5，6的算法可以根据统计学算法进一步优化；

7.被判定为污染的数据，也可以等比例地被校准到对应内标XYZ的样本XYZ中去。理论计算基础为:内标X/(内标1+内标XYZ)＝样本X/(样本1分析结束后，质控前的总数据)，以此类推。

实施例

下面结合附图和实施例对本发明的技术方案进行详细描述，但并不因此将本发明限制在所述的实施例范围之中。

下列实施例中未注明具体条件的实验方法，按照常规方法和条件，或按照商品说明书选择。本发明所用试剂和原料均市售可得。

1.检测出厂或制备过程的index污染

检测方案：96例人实体瘤组织和正常组织样本的高通量测序，样本为独立采集，密封包装，独立提取，最大限度避免了样本之间的相互污染。

(1)TrueSeq文库构建

在每个样本或index中添加4％的不同内标，按照市售illumina公司TrueSeq DNA文库构建步骤构建测序文库。

(2)测序和数据分析

下表给出典型的3个样本的index污染率：

质控数据：

SEQ ID NO.1-3给出了本实验使用的3个内标序列：

1.gatctggtacctgtcaacagacgccacttcgagtatgtatcaacagaactgttcaggctcattctccatgcggccattcatggatgtccgagggttggaatattagtcatacggcatgagcc(SEQ ID NO.1，人工合成，随机序列)；

2.gatctggtacctgtcaacagaacttatacagatcctataaactggagtccactgagtcgttagaccgtcgagcccctgcgcgaaaaggggctctattcgtagcattttgcggtacgttagtcatacggcatgagcc(SEQ IDNO.2，人工合成，随机序列)；

3.gatctggtacctgtcaacaggaattttgaactgtttaatgtccctgcggggtaagggatgccccgggctaatcactcttcaaaaccttagtcatacggcatgagcc(SEQ ID NO.3，人工合成，随机序列)；

2.确定index无污染的情况下，用内标检测样本污染

检测方案：96例人HPV病毒感染宫颈粘液和正常宫颈粘液提取DNA的高通量测序，样本为批量采集，开放式存放，集中提取，有相互污染的可能性。

(1)PCR文库构建

在每个样本中添加1％的不同内标，按照常规的PCR文库构建步骤构建测序文库；构建完成后，选用经上述实施实例筛选后无污染的index进行样本标记。

(2)测序和数据分析

下表给出典型的3个样本的污染率：

质控数据：

SEQ ID NO.4-6给出了本实验使用的3个内标序列：

1.tctaatttactgaggcgctcgcatgcatcttggccctgggtctcatatggccgaatcggtacgtaaaggcctactggcatcagactcgtatggataggaataacccgaatac(SEQ ID NO.4，人工合成，随机序列)；

2.atcgttggagaaatatcgtgactcgtctgcattgtcgttagcttcatctggccaccgaaatgatgcgaacacgtatccagtgatgccttccctcgcaaatgggaatg(SEQ ID NO.5，人工合成，随机序列)；

3.tacttctaacgtgtgactggatctcaatgggctgcgcagggacacactcatttgctgcaaccatacatttccctactagtgtgtctccccataatggctgtagacggggggtctacgatacgatcgaagaattacgttagcga(SEQ ID NO.6，人工合成，随机序列)；

3.使用内标引物扩增内标，检测靶向高通量测序index污染

检测方案：3例人实体瘤穿刺样本高通量测序，样本为独立采集，密封包装，独立提取，最大限度避免了样本之间的相互污染。

(1)靶向PCR文库构建

按照多重PCR靶向文库构建步骤构建测序文库，内标引物按照多重PCR引物的相同标准加入到文库构建反应液中。3例样本各设计了10个内标，随机抽取2个内标引物及其对应的内标情况分别如下：

(2)测序和数据分析

下表给出3个样本的index污染率：

说明：污染率取了2个内标的平均值；因内标引物添加量等于其它引物添加量，不必要进行内标添加量质控。

SEQ ID NO.7-18给出了本实验的内标引物序列：

7.230780661人，AGCTGATTTCTGTCTGAGAATCT(SEQ ID NO.7)；

8.230780739人，TGGGATTCTGGAAGCTGTTCC(SEQ ID NO.8)；

9.1638892人，TCTCTGAAGTCATTTGTCCCAGA(SEQ ID NO.9)；

10.1638971人，AGACAGGGGGAACATCTCAG(SEQ ID NO.10)；

11.54219346人，ACAAGCAGTCGTGCAACATG(SEQ ID NO.11)；

12.54219414人，TGAGCCTCAGTTTGTGCATCT(SEQ ID NO.12)；

13.85267243人，GGGGTTATAAACAAGCAATTATTTCTAAAA(SEQ ID NO.13)；

14.85267320人，ACAATGACTTCCATGTAAACTTCAT(SEQ ID NO.14)；

15.87933138人，GGAAAGGGACGAACTGGTGTA(SEQ ID NO.15)；

16.87933213人，GGGCCTCTTGTGCCTTTAAAAA(SEQ ID NO.16)；

17.90839066人，cGCGAGTACGAGCGAAG(SEQ ID NO.17)；

18.90839137人，ACATTATTAAAAATATTATGGCGACAACT(SEQ ID NO.18)。

上述技术方案仅体现了本发明技术方案的优选技术方案，本技术领域的技术人员对其中某些部分所可能做出的一些变动均体现了本发明的原理，属于本发明的保护范围。

序列表

<110> 上海境象生物科技有限公司

<120> 一种用于判别和校准高通量测序污染的内标及其应用

<130> L18110193F

<160> 18

<170> SIPOSequenceListing 1.0

<210> 1

<211> 122

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

gatctggtac ctgtcaacag acgccacttc gagtatgtat caacagaact gttcaggctc 60

attctccatg cggccattca tggatgtccg agggttggaa tattagtcat acggcatgag 120

cc 122

<210> 2

<211> 136

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

gatctggtac ctgtcaacag aacttataca gatcctataa actggagtcc actgagtcgt 60

tagaccgtcg agcccctgcg cgaaaagggg ctctattcgt agcattttgc ggtacgttag 120

tcatacggca tgagcc 136

<210> 3

<211> 106

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

gatctggtac ctgtcaacag gaattttgaa ctgtttaatg tccctgcggg gtaagggatg 60

ccccgggcta atcactcttc aaaaccttag tcatacggca tgagcc 106

<210> 4

<211> 112

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

tctaatttac tgaggcgctc gcatgcatct tggccctggg tctcatatgg ccgaatcggt 60

acgtaaaggc ctactggcat cagactcgta tggataggaa taacccgaat ac 112

<210> 5

<211> 107

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

atcgttggag aaatatcgtg actcgtctgc attgtcgtta gcttcatctg gccaccgaaa 60

tgatgcgaac acgtatccag tgatgccttc cctcgcaaat gggaatg 107

<210> 6

<211> 143

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

tacttctaac gtgtgactgg atctcaatgg gctgcgcagg gacacactca tttgctgcaa 60

ccatacattt ccctactagt gtgtctcccc ataatggctg tagacggggg gtctacgata 120

cgatcgaaga attacgttag cga 143

<210> 7

<211> 23

<212> DNA

<213> 人(Human)

<400> 7

agctgatttc tgtctgagaa tct 23

<210> 8

<211> 21

<212> DNA

<213> 人(Human)

<400> 8

tgggattctg gaagctgttc c 21

<210> 9

<211> 23

<212> DNA

<213> 人(Human)

<400> 9

tctctgaagt catttgtccc aga 23

<210> 10

<211> 20

<212> DNA

<213> 人(Human)

<400> 10

agacaggggg aacatctcag 20

<210> 11

<211> 20

<212> DNA

<213> 人(Human)

<400> 11

acaagcagtc gtgcaacatg 20

<210> 12

<211> 21

<212> DNA

<213> 人(Human)

<400> 12

tgagcctcag tttgtgcatc t 21

<210> 13

<211> 30

<212> DNA

<213> 人(Human)

<400> 13

ggggttataa acaagcaatt atttctaaaa 30

<210> 14

<211> 25

<212> DNA

<213> 人(Human)

<400> 14

acaatgactt ccatgtaaac ttcat 25

<210> 15

<211> 21

<212> DNA

<213> 人(Human)

<400> 15

ggaaagggac gaactggtgt a 21

<210> 16

<211> 22

<212> DNA

<213> 人(Human)

<400> 16

gggcctcttg tgcctttaaa aa 22

<210> 17

<211> 17

<212> DNA

<213> 人(Human)

<400> 17

cgcgagtacg agcgaag 17

<210> 18

<211> 29

<212> DNA

<213> 人(Human)

<400> 18

acattattaa aaatattatg gcgacaact 29

Claims

1.一种用于判别和校准高通量测序污染的内标，其特征在于：

所述内标为DNA或者RNA片段；

所述内标长度在几十到几千个碱基或碱基对；

所述内标为单链或者双链；

所述内标选自人工合成、外源物种序列、样本本身的一段序列；

所述内标需被引物识别，或者所述内标不需要被引物识别；

同批次每一个样本对应不同的内标，或者同批次每一个不同的样本对应一个不同的内标。

2.根据权利要求1所述的用于判别和校准高通量测序污染的内标，其特征在于：

所述内标的长度在几十到几百个碱基；

所述内标为人工合成或外源物种PCR产物；

同批次每一个样本对应不同的内标。

3.一种用于判别和校准高通量测序污染的内标引物，其特征在于：

所述内标引物专门针对单个样本中某一段或几段DNA或RNA片段；

所述内标引物针对的片段长度最短不短于引物长度，最长不超过高通量测序仪读长；

同批次每一个样本使用不同的内标引物，在文库构建过程中扩增出各样本不同的片段，成为内标，所述内标如权利要求1所述的内标。

4.一种判别和校准高通量测序污染的方法，其特征在于，所述方法包括在每个样本或标签中引入如权利要求1-3中任一项所述的内标或内标引物。

5.根据权利要求4所述的判别和校准高通量测序污染的方法，其特征在于，所述方法包括如下步骤：

(1)加入如权利要求1-3中任一项所述的内标或内标引物；

(2)在文库构建过程中用样本标签标记样本，获得高通量测序原始数据，进行样本分离，将具有相同样本标签的数据划分到同一个子集中；

6.根据权利要求4所述的判别和校准高通量测序污染的方法，其特征在于，所述方法包括如下步骤：

(1)加入如权利要求1-3中任一项所述的内标或内标引物；

(2)在文库构建过程中用样本标签标记样本，获得高通量测序原始数据，进行样本分离，先抽取一个内标的测序数据，将具有相同内标或内标引物的数据划分到同一个子集中；

(3)识别该子集的样本标签，有且仅有该内标对应的样本标签或样本标签组合的，被判定为正常，具有与该内标不同的一个或多个样本标签或样本标签组合的，被判定为污染。

7.根据权利要求5或6所述的判别和校准高通量测序污染的方法，其特征在于，在所述步骤(1)中，将所述内标或内标引物添加到文库构建开始之前的反应体系中。

8.根据权利要求4所述的判别和校准高通量测序污染的方法，其特征在于，所述方法包括如下步骤：

(2)使用没有被污染的样本标签，进行文库建构；获得高通量测序原始数据，进行样本分离时，将具有相同样本标签或组合的数据划分到同一个子集中；

9.一种高通量测序试剂盒，其特征在于：所述试剂盒含有权利要求1或2所述的内标或权利要求3所述的内标引物。

10.一种高通量测序分析流程，其特征在于：包括利用如权利要求1-3中任一项所述的内标或内标引物判别或校正高通量测序中的污染的分析步骤。

11.一种高通量测序分析流程，其特征在于，包括如下步骤：

12.根据权利要求11所述高通量测序分析流程，其特征在于，上述步骤可以根据统计学算法进一步优化。

13.权利要求1-3中任一项所述的内标用作测序时的碱基平衡的用途。

14.权利要求1-3中任一项所述的内标用于跟踪PCR和测序过程中的错误的用途。