CN113957123A - 一种构建和检测含有独特双端文库标签组合的gDNA文库的方法 - Google Patents
一种构建和检测含有独特双端文库标签组合的gDNA文库的方法 Download PDFInfo
- Publication number
- CN113957123A CN113957123A CN202111090137.7A CN202111090137A CN113957123A CN 113957123 A CN113957123 A CN 113957123A CN 202111090137 A CN202111090137 A CN 202111090137A CN 113957123 A CN113957123 A CN 113957123A
- Authority
- CN
- China
- Prior art keywords
- library
- group
- sequences
- contamination
- gdna
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B50/00—Methods of creating libraries, e.g. combinatorial synthesis
- C40B50/06—Biochemical methods, e.g. using enzymes or whole viable microorganisms
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biochemistry (AREA)
- Zoology (AREA)
- Engineering & Computer Science (AREA)
- Wood Science & Technology (AREA)
- Analytical Chemistry (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种构建和检测含有独特双端文库标签组合的gDNA文库的方法,属于生物检测技术领域,该gDNA文库的构建方法包括以下步骤:(1)将gDNA标准品稀释后进行gDNA片段化;(2)将片段化的gDNA进行末端修复;(3)将末端修复的gDNA的片段的两端分别与预制接头连接,并将连接产物纯化;(4)对纯化后的连接产物进行文库扩增,并对扩增后的文库进行纯化,构建得到带有独特文库标签组合的gDNA文库。本发明构建的gDNA文库含有独特双端文库标签,能够有效避免由于标签引物之间的交叉污染而导致样本间错误分配,更适合文库准确测序的需求。
Description
本申请是申请日为2018年11月09日、申请号为201811337895.2、名称为“一种用于检测独特双端文库标签组合的质控方法及应用”的中国发明专利申请的分案。
技术领域
本发明属于生物检测技术领域,尤其涉及一种构建和检测含有独特双端文库标签组合的gDNA文库的方法。
背景技术
随着高通量技术的迅速发展,测序仪的通量越来越大,早先利用物理隔断方法例如分道(Lane)式流动槽(Flow Cell)区分不同测序文库的方法已经不适用。多重文库测序(Multiplex Sequencing)被广泛应用于二代测序的各个领域。多重文库测序的关键则是文库标签(Index)。文库标签是在NGS(Next Generation Sequecing)文库制备中,对每个样本进行特殊序列标记,用于区分不同来源DNA的特异序列,一般长度为4~12碱基长度。在高通量测序过程中,被不同已知标签序列标记的文库经混合后进行测序反应,文库的插入片段以及标签被顺序读出并转换为碱基。在接下来的分析过程中,软件利用预期的标签序列对测序结果进行分类,将测序结果拆分进不同的样本。
在多重测序过程中,如果发生了文库序列错误分配,原本不属于某文库的序列就会被错误的归类。这类错误分配的发生对于某些应用将带来错误的分析结果。举例来说,当取自癌症患者的组织样本的文库与取自良性肿瘤患者的组织样本的文库共同进行测序,如果有部分癌症组织样本的序列被错分到良性肿瘤组织样本中,导致良性肿瘤患者的检测报告显示为恶性肿瘤,导致诊断错误。
有很多原因可以导致文库序列被错误分配。常见的包括以下几种:1)文库制备过程中的交叉污染,2)标签引物生产过程中的交叉污染,3)多重文库在流动槽进行成簇反应时发生的交叉反应,以及4)由于簇密度过大等原因导致的光学偏差等。
适用于二代测序文库标签引物往往长度为50~70碱基,一般而言需要纯化以保证全长引物的纯度。然而,纯化本身由于需要切胶回收或者过柱,往往会导致更多的交叉污染。以HPLC(高效液相色谱)而言,纯化柱对标签引物的吸附以及重复使用会不可避免的带来交叉污染。虽然这类污染可以通过在两个不同标签引物过柱纯化间进行空样洗脱或者无关样本洗脱来减少残余污染,这仍然不能完全避免交叉污染。根据经验,前后两次纯化会残留0.5%~5%的前一个标签引物到后一个标签引物中。
由于NGS的高通量所带来的高敏感性,标签引物的质检需要非常灵敏的方法以用于检测低至千分之一甚至万分之一的可能污染。另外由于标签引物之间的序列非常相似,常规的方法例如qPCR无论从灵敏度还是特异性上都不适合用于检测污染。一般常规的方法仍然是使用NGS平台进行质检,但常规的方法对于每条Lane最多只能检测一条目标标签引物,这样而言使质检成本变得高不可攀。
因此,有必要设计出一种新型的独特双端文库标签组合的质控方法,以提检测效率。
发明内容
本发明目的在于克服现有技术存在的不足,而提供一种用于检测独特双端Index组合的质控方法及应用,其能提高文库标签的检测效率,更适合文库准确测序的需求。
为实现上述目的,本发明采取的技术方案为:一种用于检测独特双端文库标签组合的质控方法,其包括以下步骤:
S1)以文库标签标准品与gDNA标准品为原料,构建带有独特双端文库标签组合的gDNA文库,将构建好的文库进行上机测序,并读取文库标签序列;
S2)对文库标签序列进行第一次质控分析,质控分析的指标包括以下几项:最大的单侧标签污染占比≤2.5%,最大的标签组合污染占比≤0.01%,每组标签样本序列条数≥5000条,所有标签组合混合占比方差系数≤0.5,综合序列通过率≥97%,每组标签样本序列占比≥0.2/文库标签组合对数,单侧大于1%污染的标签占比应≤10%;
S3)若步骤S2)质控分析显示指标不符合,则重新合成不符合质控要求的文库标签;按照步骤S1)方法,以重新合成的文库标签、第一次质控分析符合要求的文库标签和gDNA为原料,构建带有独特双端文库标签组合的gDNA文库,将构建好的文库重新进行上机测序,并读取文库标签序列;
S4)对文库标签序列进行第二次质控分析,直至所有文库标签符合质控分析的指标;
在质控分析的参数中,所述独特双端文库标签组合均由上游文库标签和下游文库标签组成,所述上游文库标签统称为IG5,IG5包含为A和B;所述下游文库标签统称为IG7,IG7包含a和b;匹配且正确的独特双端文库标签组合为A-a以及B-b;不匹配的独特双端文库标签组合为A-b,以及B-a;每个测序反应后通过分析可以得到以上组合各自的序列条数;
所述单侧标签污染占比为组内标签之间发生的交叉污染比例,且污染只可能发生在组内,即IG5组内或/和IG7组内发生污染;
当IG7的a在生产过程中未发生任何交叉污染,对IG5的A而言,其中含有B的污染占比=含有B-a的序列条数/所有含有a的序列条数,
当IG5的A在生产过程中未发生任何交叉污染,对IG7的a而言,其中含有b的污染占比=含有A-b序列条数/所有含有A的序列条数;
当B污染A且b污染a,则B-b标签组合污染占比=(含有B-a的序列条数/所有含有a的序列条数)×(含有A-b序列条数/所有含有A的序列条数);
当IG7的b在生产过程中未发生任何交叉污染,对IG5的B而言,其中含有A的污染占比=含有A-b的序列条数/所有含有b的序列条数,
当IG5的B在生产过程中未发生任何交叉污染,对IG7的b而言,其中含有a的污染占比=含有B-a序列条数/所有含有B的序列条数;
当A污染B且a污染b,则A-a标签组合污染占比=(含有A-b的序列条数/所有含有b的序列条数)×(含有B-a序列条数/所有含有B的序列条数);
所述每组标签样本序列条数为通过系统过滤后的每组正确配对序列条数,即含有A-a的序列条数或含有B-b的序列条数;
所述所有标签组合混合占比方差系数为通过系统过滤后的每组正确配对序列条数在通过系统过滤后的总配对正确序列条数中比例的方差系数;
所述综合序列通过率为测序反应后通过系统过滤后的正确配对且有效序列的总条数占通过系统过滤后所有序列总条数的比例;
所述每组标签样本序列占比为通过系统过滤后的每组正确配对的序列条数占通过系统过滤后总序列的比例;
所述单侧大于1%污染的标签占比为:上游文库标签内,污染比例大于1%的文库标签数占总文库标签数的比例;以及,下游文库标签内,污染比例大于1%文库标签数占总文库标签数的比例。
作为上述技术方案的改进,所述步骤S1)依次包括以下步骤:gDNA标准品准备,gDNA片段化,末端修复,接头连接,接头连接产物纯化,文库扩增,扩增文库的纯化,纯化文库的质检,纯化文库片段大小的检测和文库上机测序。
作为上述技术方案的改进,所述独特双端文库标签组合由IG5组和IG7组组成,IG5和IG7各自组内的文库标签的汉明距离≥3,IG5和IG7组间的文库标签的序列汉明距离≥2。
作为上述技术方案的进一步改进,文库标签通过高效液相色谱法进行纯化以及通过质谱分析确认分子量,要求纯度≥85%。
作为上述技术方案的改进,所述独特双端文库标签组合由96对文库标签组成,即IG5组内有96个上游文库标签,IG7组内有96个下游文库标签,一一对应;每组标签样本序列占比则相应调整为≥0.2%。
作为上述技术方案的改进,所述独特双端文库标签组合由48对文库标签组成,即IG5组内有48个上游文库标签,IG7组内有48个下游文库标签,一一对应;每组标签样本序列占比则相应调整为≥0.4%。
作为上述技术方案的改进,当独特双端文库标签组合由192对文库标签组成,即IG5组内有192个上游文库标签,IG7组内有192下游文库标签,一一对应,每组标签样本序列占比则相应调整为≥0.1%。
作为上述技术方案的改进,当独特双端文库标签组合由288对文库标签组成,即IG5组内有288个上游文库标签,IG7组内有288下游文库标签,一一对应,每组标签样本序列占比则相应调整为≥0.07%。
作为上述技术方案的改进,当独特双端文库标签组合由384对文库标签组成,即IG5组内有384个上游文库标签,IG7组内有384下游文库标签,一一对应,每组标签样本序列占比则相应调整为≥0.05%。
另外,本发明还提供所述的质控方法在样本序列测定中应用。
本发明的有益效果在于:本发明提供一种用于检测独特双端文库标签组合的质控方法及应用,该质控方法能高效检测出文库标签的交叉污染,且成本相对较低,更能适合样本序列的高通量测定。
附图说明
图1显示实施例1中第一次模拟的质控结果;
图2显示实施例1中第二次模拟的质控结果;
图3显示实施例2的IG5端第一次质控分析的结果;
图4为实施例2的IG7端第一次质控分析的污染占比热点图,图4中有96对标签引物,横坐标从左至右依次为IG5A01~IG5A12、IG5B01~IG5B12、IG5C01~IG5C12直至IG5H01~IG5H12,纵坐标从上至下依次为IG7A01~IG7A12、IG7B01~IG7B12、IG7C01~IG7C12直至IG7H01~IG7H12;图中椭圆圈出的点表示为不符合要求的标签引物;以下类似;
图5为实施例2的IG5端第一次质控分析的污染占比热点图;
图6为实施例2的IG7和IG5端第一次质控分析的污染占比的分布图;
图7显示实施例2中IG7端的两次质控分析的稳定性对比结果;
图8显示实施例2中IG5端的两次质控分析的稳定性对比结果;
图9显示实施例3的IG5端第一次质控分析的结果;
图10为实施例3的IG7端第一次质控分析的污染占比热点图;
图11为实施例3的IG5端第一次质控分析的污染占比热点图;
图12为实施例3的IG7和IG5端第一次质控分析的污染占比的分布图。
具体实施方式
为更好地说明本发明的目的、技术方案和优点,下面将结合具体实施例和附图对本发明作进一步说明。
另外,需要说明的是在本申发明说明书中,Index、文库标签和标签引物表示同一个意思;在每组标签样本序列占比的计算中,0.2/文库标签组合对数的结果保留一个非零的数字(并四舍五入)。
独特双端文库标签在防交叉污染导致样本污染的原理
在NGS领域,为了区分同一个测序反应下的不同样本,在建库过程中给不同样品加上特定的“标签”(Index),以便在后续数据分析时可以将不同样品数据分开。随着测序仪通量的不断提高,更多的样本被拼凑到同一个流动槽道(Lane)中测序,对Index的数量和区分度提出更高的要求。另外,Illumina HiSeqX/4000和NovaSeq都采用了不同于其他Illumina测序仪的成簇方法,文献报道其有更高的Index交叉污染风险。传统单端Index引物只依据一端进行数据拆分,发生污染时很容易将数据错分。采用独特双端Index引物可以最大程度避免由于Index交叉污染带来的样本污染风险,保证产品的稳定可靠性。独特双端Index引物由于依靠独特的双端配对Index进行数据拆分,为测序序列增加了“双保险”,发生污染的大部分序列会被丢弃。表1则比较了单端,组合双端以及独特双端Index策略对Index交叉污染的容忍度。
表1
通过NGS方法对独特双端Index引物进行高通量污染质检原理
由于使用了独特双端Index,每个样本都被Index标记2次,这样一来对单端标记的引物间交叉污染容忍度大大上升。举例而言,如果2对Index单侧污染的比例均为1%,实际导致的样本错分污染风险为1%×1%=0.01%。这种容忍度也大大减轻了Index引物合成与纯化的压力,使制造成本进一步得到控制。
利用独特双端Index的优势,本发明提供了一种简单可行的利用NGS检测标签引物交叉污染的质控方法。其基本原理基于观测非期望的双端Index组合在整个测序结果中的占比从而估计出可能发生的最大交叉污染可能性以及涉及到的Index,从而避免由于Index引物之间的交叉污染而导致的样本间错误分配。
举例说明,四个文库被分别标记为A+a,B+b,C+c,D+d。因此在进行序列分析时,只有上述4种组合被认为是合法组合。以组合A+b为例,因为理论上只有A会和a配对,如果观测到了A+b组合有两种可能性:1)标签引物b进入了引物a,这里定义S为含该种Index的序列个数,估算污染比例为S(A+b)/SA;2)引物A进入了引物B,估算污染比例为S(A+b)/Sb。需要指出的是,该计算方法的前提在于同类别Index比如A/B/C/D内不含有任何非同类别的Index例如a/b/c/d。另外估算模型只考虑了简单的一对一污染模式,而不是多重污染等复杂情况。另外该计算方法只是预估了最大的污染可能性并且没有能力判断污染的方向性,事实上任何一种单向的污染事件发生后,例如“A进入B”的事件,都会被检测成“A进入B”或者“b进入a”两种可能性。根据该计算模型,我们可以估计出独特组合双端Index文库A+a在多重测序内的被其他引物的最大组合污染风险为:
然而由于我们期望的组合只有A+a,B+b,C+c,D+d四种,实际上的有效最大污染风险可以计算为:
在实际应用例子里,我们对48对或96对Index引物分别进行PCR操作标记Index到文库,然后混合在一起进行常规MiSeq测序。测序后分析直接调用分析脚本对96×6=9216种序列组合进行分析,寻找非正常组合的比例以及计算各自的污染占比。
Index上机测序
1、gDNA标准品制备
1)48plex Index进行质检需要500ng gDNA标准品,96plex Index进行质检需要1000ng gDNA标准品;
2)取50μl 1×IDTE Buffer,加入到新的1.5ml Eppendorf LoBind管中,再向管中加入对应体积的gDNA标准品:48plex Index板检测,gDNA标准品加入体积为2μl;96plexIndex板检测,gDNA标准品加入体积为4μl;后涡旋混匀10~15s,后短暂离心使溶液回到管底;
3)将标准品稀释品转移至Covaris MicroTΜBE管中,补充1×IDTE Buffer至50μl,后进行后续的DNA片段化操作。
2、gDNA片段化
使用Covaris M220仪器将DNA打断到170~200bp的片段,打断完成后,将CovarisMicroTube管取出,离心使液体回到管底。
3、末端修复,3’端加A
1)试剂准备:打开KAPA Hyper Prep 96reaction Kit,取出以下2管置于冰上融化;
2)在新的1.5ml Eppendorf LoBind管中,冰上配制末端修复和加A反应体系混匀液,手指轻弹3~5次,上下颠倒混匀2~3次,离心机离心1~3s;反应体系的配置如表2所示;
3)吸取60μl混匀液分装入4个(48plex Index板)或8个(96plex Index板)0.2ml平盖PCR管中,离心机短暂离心1~3s;
4)放入PCR仪中,进行以下操作:85℃热盖,20℃30min,65℃30min,4℃保存,2h内进入下一步。
表2
4、接头连接,将加完A的DNA双链片段两端与预制接头(含有T粘性末端)连接
1)在新1.5ml Eppendorf LoBind管中,冰上配制接头连接反应体系混匀液,手指轻弹3~5次,上下颠倒混匀2~3次,离心机离心1~3秒;反应体系的配置如表3示;
2)吸取50μl混匀液加入上述0.2ml管中(48plex Index板共4管,96plex Index板共8管),移液器上下吹打5次混匀,离心1~3s;
3)在PCR仪运行以下程序:20℃15min,70℃10min,4℃保存(85℃热盖)。
表3
5、连接产物的纯化,去除接头二聚体和未连接接头等其他成分
1)上下颠倒2~3次,涡旋混匀5~10s回复室温的SPB磁珠,使其均一化;取1.5ml离心管,按连接反应体系和磁珠体积1:0.8比例,先后加入均一化的磁珠和加接头产物;具体策略如下:磁珠为352μl、接头产物为440μl,4管合并为1管纯化,共1管;磁珠为2×352μl、接头产物为2×440μl,4管合并为1管纯化,共2管(96plex Index);加入后涡旋混匀,旋转孵育5min,短暂离心;
2)将离心管置于磁力架,等待溶液澄清;将离心管置于磁力架上不动,打开管盖,小心吸走澄清上清,避免碰到磁珠;
3)管仍置于磁力架上,每管加入500μL新鲜配制的75%乙醇,等待1min使磁珠充分沉淀,期间沿水平方向缓慢旋转离心管1圈,吸走乙醇;复此步骤1次;
4)离心1~3s,将离心管重新放回磁力架静置30s,使用移液器除净残留乙醇,保持管盖开启;室温3min使磁珠干燥,每管中加入500μl EB溶液,充分吹打混匀,室温孵育2min;将离心管置于磁力架2min直至溶液澄清,使用移液器移取490μl上清,转移至新的Eppendorf LoBind 1.5ml离心管中(96plex Index板,两管在洗脱后合并为1管),冰上备用。
6、文库扩增,扩增已经连接完接头的文库
1)在5ml Eppendorf LoBind管(或者15ml离心管)中准备相应体积反应体系混匀液(冰上配制),手指轻弹3~5次,上下颠倒混匀2~3次,竖直静置0.5~1min;反应体系的配置如表4所示;
2)将配制好的反应体系混合液平均分配到8连管中,每次均分体积为138μl(96Index pair Plate(refer part2#)检测,需要进行两次平均分配:142μl+132μl);
3)将反应体系混合液分装入新的48孔板(48plex Index)或者96PCR板(96plexIndex),分装体积为22.5μl/孔;
4)从IDP板中取出2.5μl Index(加入到上述分装好的反应体系混合液48孔板或者96孔PCR板中,反复吹打混匀2~3次,并封膜;甩板机离心1000rpm,1min(反应体积25μl);置于PCR仪上运行,运行程序如表5所示。
表4
表5
7、扩增的文库纯化,去除引物二聚体及反应体系
1)将SPB磁珠上下颠倒2~3次,在VORTEX最大转速下混匀5~10s,使其均一化;
2)吸取相应的SPB磁珠到加样槽中,每个样本加入20μl SPB磁珠(样本:磁珠=1:0.8):48个样本则在加样槽中加入1440μl左右磁珠,96个样本则在加样槽中加入2880μL左右磁珠;
3)从PCR仪上取出48孔板,1000rpm 3s,小心撕去贴膜;从加样槽中吸取20μl SPB磁珠加入到48孔板/96孔PCR板中,上下吹打10次;
4)48孔板/96孔PCR板贴膜,短暂离心1000rpm 3s,置于室温5min;48孔板/96孔PCR板置于96孔磁力架上,待溶液澄清;弃膜,吸取上清45μl,丢弃;
5)48孔板/96孔PCR板仍置于磁力架上,在样本孔中加入200μl新鲜配制的75%乙醇;在磁力架上静置48孔板/96孔PCR板使磁珠充分浸洗,待1min,弃乙醇;重复此步骤1次;
6)将48孔板/96孔PCR板静置在磁力架上30s,并除净残留乙醇;将48孔板/96孔PCR板从磁力架上取下,置于PCR板架上室温2min,使磁珠干燥;在48孔板/96孔PCR板中加入14μl EB,盖上八连管盖,涡旋5s左右,短暂离心1000rpm 3s;
7)将48孔板置于室温孵育2min,弃膜,将48孔板置于磁力架2min,直至溶液澄清;移取上清8μL至新的48孔板/96孔PCR板中,勿吸磁珠;
8)将每一列文库转移到同一新的0.2ml 8连管中,再将0.2ml 8连管中文库转移至同一新的1.5ml Eppendorf LoBind管,合并为pooling文库,Vortex混匀并离心;将混匀后的纯化文库取出20μl至一新的1.5ml Eppendorf LoBind管,再加入180μl EB,反复吹打5~6次,将文库预先稀释10倍为后续检测做准备。
8、纯化文库的质检
使用dsDNA HS(High Sensitivity)Assay Kit(Thermo Fisher)测量稀释后的文库浓度,并换算回预文库浓度;文库浓度界于9~60ng/μl之间,且Labchip结果正常,则文库构建部分合格,可进行后续的Miseq上机;若不能达到要求则需要重新进行文库制备。
9、纯化的文库片段大小检测(Library QC)
使用The LabChip DNA High Sensitivity Reagent kit(Perkin Elmer)对稀释后的文库进行检测;合格的文库片段主峰在350~500bp,无明显小片段在10~150bp区间。
10、文库上机策略(Miseq Run)
1)将纯化好的文库根据QC的检测浓度稀释到4nM,将1N NaOH使用无核酸酶水稀释到0.2N;
2)文库变性:取稀释为4nM的文库5μl加入新的1.5ml Eppendorf LoBind管,然后再加入5μl 0.2N NaOH,吹打混匀15~20次,室温孵育5min;
3)文库稀释至13pM;
4)后续操作参考Illumina Miseq操作指南,使用Read1=12循环,Index1=8循环,Index2=8循环的相应设定对文库进行测序。
11、测序数据分析(QC Analysis)
利用Illumina bcl2fastq软件配合相应参数输出所有index1和index2的序列(Fastq格式),使用相应脚本对序列进行统计分析,得出各个指标。
11、文库测序结果判定标准
Miseq下机指标:测序数据质量01:Q30>90%,测序数据质量02:PF>97%,测序数据质量03:Phasing及Prephasing均小于0.30。
实施例1质控方法的模拟
1)第一次模拟单向污染:第一次检测出1个交叉污染,给出2种推测污染方向,最大污染比率(即最大的单侧标签污染占比)4%;模拟数据生成96对标准配对序列,出现污染的正常配对IG7F01+IG5F01 48000条,IG7F01+IG5E01 2000条;其余每对正常配对均为50000条。将模拟的文库数据进行数据分析,实际测试结果如表6所示,根据表6的参数进行质控分析,得到质控分析结果如图1所示;其中,最大配对污染占比乘积(即最大的标签组合污染占比)=4%×0=0,正确配序列条数为48000,且正确配对且有效序列条数为48000,序列通过率为100%,单侧大于1%污染的标签数为1种,大于1%污染index占比(即单侧大于1%污染的标签占比)=1/96=1.04%。
表6
2)第二次模拟能造成样本错分的双向污染:第二次检测出2个交叉污染,并且该2个交叉污染是可以造成样本错分的,最大污染比率2%,最大配对污染乘积0.04%;模拟数据生成标准配对序列均为50000条,出现污染的正常配对IG7F01+IG5F01 48000条,错误配对IG7F01+IG5E01 1000条,IG7E01+IG5F01 1000条。将模拟的文库样本进行数据分析,实际测试结果如表7所示,根据表7的参数进行质控分析,得到质控分析结果如图2所示。
表7
由此可见,本次模拟测试测试结果与预期一致。
实施例2
本实施例以96对文库标签进行质检,第一次质控分析报结果如表8和表9所示,表8和表9仅列出污染的情况。
表8针对IG7端Index的测序结果
Query | 期望组合对象 | 期望组合 | 非期望组合 | 非期望组合对象 | 总序列条数 | 非期望组合序列条数 | 污染源 | 被污染 | 污染占比 |
IG7A01 | IG5A01 | IG7A01-IG5A01 | IG7A01-IG5B01 | IG5B01 | 96 | 45 | IG5B01 | IG5A01 | 46.88% |
IG7A01 | IG5A01 | IG7A01-IG5A01 | IG7A01-IG5A02 | IG5A02 | 96 | 51 | IG5A02 | IG5A01 | 53.13% |
IG7A08 | IG5A08 | IG7A08-IG5A08 | IG7A08-IG5H07 | IG5H07 | 53249 | 88 | IG5H07 | IG5A08 | 0.17% |
IG7B02 | IG5B02 | IG7B02-IG5B02 | IG7B02-IG5A03 | IG5A03 | 40825 | 43 | IG5A03 | IG5B02 | 0.11% |
IG7B10 | IG5B10 | IG7B10-IG5B10 | IG7B10-IG5D08 | IG5D08 | 46021 | 70 | IG5D08 | IG5B10 | 0.15% |
IG7B11 | IG5B11 | IG7B11-IG5B11 | IG7B11-IG5C11 | IG5C11 | 47969 | 68 | IG5C11 | IG5B11 | 0.14% |
IG7C01 | IG5C01 | IG7C01-IG5C01 | IG7C01-IG5G12 | IG5G12 | 39518 | 64 | IG5G12 | IG5C01 | 0.16% |
IG7C06 | IG5C06 | IG7C06-IG5C06 | IG7C06-IG5C07 | IG5C07 | 60810 | 637 | IG5C07 | IG5C06 | 1.05% |
IG7C08 | IG5C08 | IG7C08-IG5C08 | IG7C08-IG5B08 | IG5B08 | 67961 | 119 | IG5B08 | IG5C08 | 0.18% |
IG7D03 | IG5D03 | IG7D03-IG5D03 | IG7D03-IG5E03 | IG5E03 | 44222 | 48 | IG5E03 | IG5D03 | 0.11% |
IG7D03 | IG5D03 | IG7D03-IG5D03 | IG7D03-IG5C03 | IG5C03 | 44222 | 56 | IG5C03 | IG5D03 | 0.13% |
IG7D04 | IG5D04 | IG7D04-IG5D04 | IG7D04-IG5D03 | IG5D03 | 40521 | 41 | IG5D03 | IG5D04 | 0.10% |
IG7D07 | IG5D07 | IG7D07-IG5D07 | IG7D07-IG5E08 | IG5E08 | 39029 | 281 | IG5E08 | IG5D07 | 0.72% |
IG7D08 | IG5D08 | IG7D08-IG5D08 | IG7D08-IG5C08 | IG5C08 | 53581 | 85 | IG5C08 | IG5D08 | 0.16% |
IG7D09 | IG5D09 | IG7D09-IG5D09 | IG7D09-IG5E09 | IG5E09 | 54786 | 70 | IG5E09 | IG5D09 | 0.13% |
IG7E03 | IG5E03 | IG7E03-IG5E03 | IG7E03-IG5F03 | IG5F03 | 60714 | 78 | IG5F03 | IG5E03 | 0.13% |
IG7E07 | IG5E07 | IG7E07-IG5E07 | IG7E07-IG5D07 | IG5D07 | 57285 | 88 | IG5D07 | IG5E07 | 0.15% |
IG7F04 | IG5F04 | IG7F04-IG5F04 | IG7F04-IE5D04* | IE5D04* | 49814 | 54 | IE5D04* | IG5F04 | 0.11% |
IG7F07 | IG5F07 | IG7F07-IG5F07 | IG7F07-IG5E07 | IG5E07 | 55273 | 63 | IG5E07 | IG5F07 | 0.11% |
IG7G08 | IG5G08 | IG7G08-IG5G08 | IG7G08-IG5F08 | IG5F08 | 43769 | 167 | IG5F08 | IG5G08 | 0.38% |
IG7G10 | IG5G10 | IG7G10-IG5G10 | IG7G10-IG5F06 | IG5F06 | 57227 | 60 | IG5F06 | IG5G10 | 0.10% |
IG7H02 | IG5H02 | IG7H02-IG5H02 | IG7H02-IG5H03 | IG5H03 | 38360 | 58 | IG5H03 | IG5H02 | 0.15% |
IG7H07 | IG5H07 | IG7H07-IG5H07 | IG7H07-IG5G07 | IG5G07 | 36388 | 42 | IG5G07 | IG5H07 | 0.12% |
表9针对IG5端Index的测序结果
Query | 期望组合对象 | 期望组合 | 非期望组合 | 非期望组合对象 | 总序列条数 | 非期望组合序列条数 | 污染源 | 被污染 | 污染占比 |
IG5A01 | IG7A01 | IG5A01-IG7A01 | IG5A01-IG7B01 | IG7B01 | 26 | 26 | IG7B01 | IG7A01 | 100.00% |
IG5A02 | IG7A02 | IG5A02-IG7A02 | IG5A02-IG7A01 | IG7A01 | 49928 | 51 | IG7A01 | IG7A02 | 0.10% |
IG5A03 | IG7A03 | IG5A03-IG7A03 | IG5A03-IG7B02 | IG7B02 | 33067 | 43 | IG7B02 | IG7A03 | 0.13% |
IG5A08 | IG7A08 | IG5A08-IG7A08 | IG5A08-IG7B08 | IG7B08 | 53201 | 60 | IG7B08 | IG7A08 | 0.11% |
IG5B08 | IG7B08 | IG5B08-IG7B08 | IG5B08-IG7C08 | IG7C08 | 61974 | 119 | IG7C08 | IG7B08 | 0.19% |
IG5B11 | IG7B11 | IG5B11-IG7B11 | IG5B11-IG7A11 | IG7A11 | 47967 | 51 | IG7A11 | IG7B11 | 0.11% |
IG5C03 | IG7C03 | IG5C03-IG7C03 | IG5C03-IG7D03 | IG7D03 | 49273 | 56 | IG7D03 | IG7C03 | 0.11% |
IG5C07 | IG7C07 | IG5C07-IG7C07 | IG5C07-IG7C06 | IG7C06 | 45027 | 637 | IG7C06 | IG7C07 | 1.41% |
IG5C08 | IG7C08 | IG5C08-IG7C08 | IG5C08-IG7D08 | IG7D08 | 67868 | 85 | IG7D08 | IG7C08 | 0.13% |
IG5C11 | IG7C11 | IG5C11-IG7C11 | IG5C11-IG7B11 | IG7B11 | 57807 | 68 | IG7B11 | IG7C11 | 0.12% |
IG5D07 | IG7D07 | IG5D07-IG7D07 | IG5D07-IG7E07 | IG7E07 | 38866 | 88 | IG7E07 | IG7D07 | 0.23% |
IG5D07 | IG7D07 | IG5D07-IG7D07 | IG5D07-IG7C08 | IG7C08 | 38866 | 49 | IG7C08 | IG7D07 | 0.13% |
IG5D08 | IG7D08 | IG5D08-IG7D08 | IG5D08-IG7B10 | IG7B10 | 53619 | 70 | IG7B10 | IG7D08 | 0.13% |
IG5D08 | IG7D08 | IG5D08-IG7D08 | IG5D08-IG7E08 | IG7E08 | 53619 | 65 | IG7E08 | IG7D08 | 0.12% |
IG5E07 | IG7E07 | IG5E07-IG7E07 | IG5E07-IG7F07 | IG7F07 | 57203 | 63 | IG7F07 | IG7E07 | 0.11% |
IG5E08 | IG7E08 | IG5E08-IG7E08 | IG5E08-IG7D07 | IG7D07 | 72767 | 281 | IG7D07 | IG7E08 | 0.39% |
IG5E09 | IG7E09 | IG5E09-IG7E09 | IG5E09-IG7D09 | IG7D09 | 58757 | 70 | IG7D09 | IG7E09 | 0.12% |
IG5F03 | IG7F03 | IG5F03-IG7F03 | IG5F03-IG7E03 | IG7E03 | 54811 | 78 | IG7E03 | IG7F03 | 0.14% |
IG5F06 | IG7F06 | IG5F06-IG7F06 | IG5F06-IG7G10 | IG7G10 | 50348 | 60 | IG7G10 | IG7F06 | 0.12% |
IG5F08 | IG7F08 | IG5F08-IG7F08 | IG5F08-IG7G08 | IG7G08 | 67091 | 167 | IG7G08 | IG7F08 | 0.25% |
IG5G12 | IG7G12 | IG5G12-IG7G12 | IG5G12-IG7C01 | IG7C01 | 40234 | 64 | IG7C01 | IG7G12 | 0.16% |
IG5H03 | IG7H03 | IG5H03-IG7H03 | IG5H03-IG7H02 | IG7H02 | 48832 | 58 | IG7H02 | IG7H03 | 0.12% |
IG5H06 | IG7H06 | IG5H06-IG7H06 | IG5H06-IG7A11 | IG7A11 | 42784 | 62 | IG7A11 | IG7H06 | 0.14% |
IG5H07 | IG7H07 | IG5H07-IG7H07 | IG5H07-IG7A08 | IG7A08 | 36410 | 88 | IG7A08 | IG7H07 | 0.24% |
IG5H11 | IG7H11 | IG5H11-IG7H11 | IG5H11-IG7E11 | IG7E11 | 32519 | 50 | IG7E11 | IG7H11 | 0.15% |
对表8和表9数据进行第一次质检结果进行统计分析,可以获取IG7A01-IG5A01的相关信息,如表10和图3所示;另外,对96对标签引物进行统计分析,可以得到IG7和IG5的污染占比热点图(图4和图5),以及IG7和IG的污染占比的分布图(图6);汇总得到得出的结论为:1)IG7A01-IG5A01这个组合测得的序列极少,含IG7A01的序列只有96条,含IG5A01的序列也只有26条,远远低于质检需要的至少5000条以及占比>0.2%的要求;2)由于以上组合的序列极少,唯一测得的组合又是非法组合,所以污染比例非常高;3)综合看来,对应于IG7A01-IG5A01这个孔是有问题的,无论从有效序列数还是从被污染可能性而言都是需要替换。
表10
由于IG7A01-IG5A01这个孔是有问题,重新单独合成IG7A01以及IG5A01这2条标签引物溶解重新合成的引物到规定浓度,按比例放入新的深孔板的对应孔内,除去原先IG7A01-IG5A01对应的孔,将质检失败的原始母板内剩余所有液体转移到一块新的深孔板内的相应位置,重新分子板进行污染质控检测;第二次质控分析报结果如表11和表12所示,表11和表12仅列出污染的情况。
表11针对IG7端Index的测序结果
表12针对IG5端Index的测序结果
Query | 期望组合对象 | 期望组合 | 非期望组合 | 非期望组合对象 | 总序列条数 | 非期望组合序列条数 | 污染源 | 被污染 | 污染占比 |
IG5A02 | IG7A02 | IG5A02-IG7A02 | IG5A02-IG7A01 | IG7A01 | 329005 | 349 | IG7A01 | IG7A02 | 0.11% |
IG5A03 | IG7A03 | IG5A03-IG7A03 | IG5A03-IG7B02 | IG7B02 | 204279 | 358 | IG7B02 | IG7A03 | 0.18% |
IG5A08 | IG7A08 | IG5A08-IG7A08 | IG5A08-IG7B08 | IG7B08 | 244880 | 246 | IG7B08 | IG7A08 | 0.10% |
IG5B01 | IG7B01 | IG5B01-IG7B01 | IG5B01-IG7A01 | IG7A01 | 405468 | 579 | IG7A01 | IG7B01 | 0.14% |
IG5B08 | IG7B08 | IG5B08-IG7B08 | IG5B08-IG7C08 | IG7C08 | 291485 | 460 | IG7C08 | IG7B08 | 0.16% |
IG5B11 | IG7B11 | IG5B11-IG7B11 | IG5B11-IG7A11 | IG7A11 | 336412 | 580 | IG7A11 | IG7B11 | 0.17% |
IG5C01 | IG7C01 | IG5C01-IG7C01 | IG5C01-IG7D01 | IG7D01 | 285446 | 313 | IG7D01 | IG7C01 | 0.11% |
IG5C05 | IG7C05 | IG5C05-IG7C05 | IG5C05-IG7B05 | IG7B05 | 342900 | 393 | IG7B05 | IG7C05 | 0.11% |
IG5C07 | IG7C07 | IG5C07-IG7C07 | IG5C07-IG7C06 | IG7C06 | 252462 | 4253 | IG7C06 | IG7C07 | 1.68% |
IG5C07 | IG7C07 | IG5C07-IG7C07 | IG5C07-IG7D07 | IG7D07 | 252462 | 255 | IG7D07 | IG7C07 | 0.10% |
IG5C08 | IG7C08 | IG5C08-IG7C08 | IG5C08-IG7D08 | IG7D08 | 306576 | 448 | IG7D08 | IG7C08 | 0.15% |
IG5C11 | IG7C11 | IG5C11-IG7C11 | IG5C11-IG7B11 | IG7B11 | 343767 | 664 | IG7B11 | IG7C11 | 0.19% |
IG5D03 | IG7D03 | IG5D03-IG7D03 | IG5D03-IG7D04 | IG7D04 | 230782 | 336 | IG7D04 | IG7D03 | 0.15% |
IG5D07 | IG7D07 | IG5D07-IG7D07 | IG5D07-IG7E07 | IG7E07 | 242178 | 468 | IG7E07 | IG7D07 | 0.19% |
IG5D08 | IG7D08 | IG5D08-IG7D08 | IG5D08-IG7E08 | IG7E08 | 316707 | 328 | IG7E08 | IG7D08 | 0.10% |
IG5D08 | IG7D08 | IG5D08-IG7D08 | IG5D08-IG7B10 | IG7B10 | 316707 | 435 | IG7B10 | IG7D08 | 0.14% |
IG5D11 | IG7D11 | IG5D11-IG7D11 | IG5D11-IG7C11 | IG7C11 | 392842 | 744 | IG7C11 | IG7D11 | 0.19% |
IG5E08 | IG7E08 | IG5E08-IG7E08 | IG5E08-IG7D07 | IG7D07 | 313472 | 1585 | IG7D07 | IG7E08 | 0.51% |
IG5E09 | IG7E09 | IG5E09-IG7E09 | IG5E09-IG7D09 | IG7D09 | 436613 | 672 | IG7D09 | IG7E09 | 0.15% |
IG5F01 | IG7F01 | IG5F01-IG7F01 | IG5F01-IG7G01 | IG7G01 | 314675 | 362 | IG7G01 | IG7F01 | 0.12% |
IG5F06 | IG7F06 | IG5F06-IG7F06 | IG5F06-IG7G10 | IG7G10 | 252235 | 533 | IG7G10 | IG7F06 | 0.21% |
IG5F08 | IG7F08 | IG5F08-IG7F08 | IG5F08-IG7G08 | IG7G08 | 359668 | 733 | IG7G08 | IG7F08 | 0.20% |
IG5F10 | IG7F10 | IG5F10-IG7F10 | IG5F10-IG7G10 | IG7G10 | 289803 | 510 | IG7G10 | IG7F10 | 0.18% |
IG5G07 | IG7G07 | IG5G07-IG7G07 | IG5G07-IG7H07 | IG7H07 | 345835 | 355 | IG7H07 | IG7G07 | 0.10% |
IG5H03 | IG7H03 | IG5H03-IG7H03 | IG5H03-IG7H02 | IG7H02 | 286014 | 294 | IG7H02 | IG7H03 | 0.10% |
IG5H07 | IG7H07 | IG5H07-IG7H07 | IG5H07-IG7A08 | IG7A08 | 240240 | 300 | IG7A08 | IG7H07 | 0.12% |
IG5H08 | IG7H08 | IG5H08-IG7H08 | IG5H08-IG7G08 | IG7G08 | 121432 | 134 | IG7G08 | IG7H08 | 0.11% |
IG5H09 | IG7H09 | IG5H09-IG7H09 | IG5H09-IG7G09 | IG7G09 | 250324 | 317 | IG7G09 | IG7H09 | 0.13% |
经过引物替换操作后,IG7A01-IG5A01不存在交叉污染,96对标签引物各项指标都符合质检标准。
另外,本实施例还对第一次质控分析和第二次质控分析进行比对,结果如表13、图7(对IG7标签引物进行比较分析)和图8(对IG5标签引物进行比较分析)所示所示,可以看出两次质控分析的重现性还是不错的,可见本发明质控方法的稳定较好。
表13
实施例3
本实施例以96对文库标签进行质检,对第一次质检结果进行统计分析,可以获取其中一对标签引物的相关信息,如图9所示;另外,对96对标签引物进行统计分析,可以得到IG7和IG5的污染占比热点图(图10和图11),以及IG7和IG的污染占比的分布图(图12);汇总得出的结论:该对标签引物经第一次质控分析,96对标签引物均符合指标。
最后所应当说明的是,以上实施例用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者同等替换,而不脱离本发明技术方案的实质和范围。
Claims (10)
1.一种构建含有独特双端文库标签组合的gDNA文库的方法,其特征在于,包括以下步骤:
(1)将gDNA标准品稀释后进行gDNA片段化;
(2)将片段化的gDNA进行末端修复;
(3)将末端修复的gDNA片段的两端分别与预制接头连接获得连接产物,并将连接产物纯化;
(4)对纯化后的连接产物进行文库扩增,并对扩增后的文库进行纯化,构建得到带有独特文库标签组合的gDNA文库。
2.根据权利要求1所述方法,其特征在于,所述方法还包括如下步骤:
对纯化的文库的浓度和/或文库的片段大小进行检测,判断构建的gDNA文库是否合格。
3.根据权利要求1或2所述方法,其特征在于,步骤(1)将gDNA标准品稀释后进行gDNA片段化的过程如下:将gDNA标准品经1×IDTE Buffer稀释后,将gDNA打断至长度为170~200bp的片段。
4.根据权利要求1所述方法,其特征在于,步骤(2)将片段化的gDNA进行末端修复是指于gDNA片段的3’端加上A碱基;
优选地,所述预制接头中含有T粘性末端;
优选地,所述步骤(3)将末端修复的gDNA片段的两端分别与预制接头连接的过程如下:
将预制接头连接反应体系中各组分混匀,并与末端修复的gDNA片段混合,经PCR扩增,将末端修复的gDNA片段的两端分别与预制件接头连接。
5.根据权利要求1所述方法,其特征在于,所述连接产物纯化的过程如下:
将连接产物与SPB磁珠于离心管中混合,将离心管置于磁力架,吸取离心管内上层澄清液,并向离心管内加入75%的乙醇对连接产物清洗纯化,随后去除乙醇并使SPB磁珠干燥,再向离心管中加入EB溶液,混匀、室温孵育,将离心管置于磁力架直至溶液澄清,所述澄清溶液即为纯化后的连接产物。
6.根据权利要求1所述方法,其特征在于,对纯化后的连接产物进行文库扩增的具体方法如下:
向含有纯化后的连接产物的反应体系中加入Index,置于PCR仪上进行文库扩增,PCR设定的扩增程序为:98℃、45s;98℃、15s;60℃、30s;72℃、30s;72℃、2min;4℃保存。
7.根据权利要求1所述方法,其特征在于,对扩增后的文库进行纯化的具体方法如下:
将扩增后的文库与磁珠混合并置于磁力架,弃去澄清液,利用75%的乙醇对扩增文库进行洗涤纯化,去除乙醇并干燥磁珠,向磁珠与扩增文库混合物中加入EB溶液,混匀,室温孵育后置于磁力架,直至溶液澄清,所述澄清溶液即为纯化的文库。
8.根据权利要求2所述方法,其特征在于,对纯化的文库的浓度和/或文库的片段大小进行检测,判断构建的gDNA文库是否合格的具体过程如下:
S1)对纯化的文库的浓度进行检测,判断文库是否合格的方法如下:
利用EB对纯化文库进行稀释,测量稀释后文库的文库浓度,并换算回预文库浓度,文库浓度界于9~60ng/μl之间,且Labchip结果正常,则文库构建合格,否则需重新进行文库制备;
S2)对纯化的文库的片段大小进行检测,判断构建的gDNA文库是否合格的具体过程如下:
利用EB对纯化文库进行稀释,并对稀释后的文库的片段大小进行检测,若文库片段主峰在350~500bp,无明显小片段在10~150bp区间,则表明文库合格,否则需重新进行文库制备。
9.一种用于检测权利要求1~8任意一项所述方法构建得到的含有独特双端文库标签组合的gDNA文库中污染的方法,其特征在于,将构建好的所述gDNA文库进行上机测序,并读取文库标签序列,当测序结果不符合以下几项中的任意一项时,认定该文库受到污染:最大的单侧标签污染占比≤2.5%,最大的标签组合污染占比≤0.01%,每组标签样本序列条数≥5000条,所有标签组合混合占比方差系数≤0.5,综合序列通过率≥97%,每组标签样本序列占比≥0.2/文库标签组合对数,单侧大于1%污染的标签占比应≤10%;
优选地,所述独特双端文库标签组合均由上游文库标签和下游文库标签组成,所述上游文库标签统称为IG5,IG5包含A和B;所述下游文库标签统称为IG7,IG7包含a和b;匹配且正确的独特双端文库标签组合为A-a以及B-b;不匹配的独特双端文库标签组合为A-b,以及B-a;每个测序反应后通过分析可以得到以上组合各自的序列条数;
所述单侧标签污染占比为组内标签之间发生的交叉污染比例,且污染只可能发生在组内,即IG5组内或/和IG7组内发生污染;
当IG7的a在生产过程中未发生任何交叉污染,对IG5的A而言,其中含有B的污染占比=含有B-a的序列条数/所有含有a的序列条数,
当IG5的A在生产过程中未发生任何交叉污染,对IG7的a而言,其中含有b的污染占比=含有A-b序列条数/所有含有A的序列条数;
当B污染A且b污染a,则B-b标签组合污染占比=(含有B-a的序列条数/所有含有a的序列条数)×(含有A-b序列条数/所有含有A的序列条数);
当IG7的b在生产过程中未发生任何交叉污染,对IG5的B而言,其中含有A的污染占比=含有A-b的序列条数/所有含有b的序列条数,
当IG5的B在生产过程中未发生任何交叉污染,对IG7的b而言,其中含有a的污染占比=含有B-a序列条数/所有含有B的序列条数;
当A污染B且a污染b,则A-a标签组合污染占比=(含有A-b的序列条数/所有含有b的序列条数)×(含有B-a序列条数/所有含有B的序列条数);
所述每组标签样本序列条数为通过系统过滤后的每组正确配对序列条数,即含有A-a的序列条数或含有B-b的序列条数;
所述所有标签组合混合占比方差系数为通过系统过滤后的每组正确配对序列条数在通过系统过滤后的总配对正确序列条数中比例的方差系数;
所述综合序列通过率为测序反应后通过系统过滤后的正确配对且有效序列的总条数占通过系统过滤后所有序列总条数的比例;
所述每组标签样本序列占比为通过系统过滤后的每组正确配对的序列条数占通过系统过滤后总序列的比例;
所述单侧大于1%污染的标签占比为:上游文库标签内,污染比例大于1%的文库标签数占总文库标签数的比例;以及,下游文库标签内,污染比例大于1%文库标签数占总文库标签数的比例;
优选地,所述独特双端文库标签组合由96对文库标签组成,即IG5组内有96个上游文库标签,IG7组内有96个下游文库标签,一一对应;每组标签样本序列占比则相应调整为≥0.2%;
或者优选地,所述独特双端文库标签组合由48对文库标签组成,即IG5组内有48个上游文库标签,IG7组内有48个下游文库标签,一一对应;每组标签样本序列占比则相应调整为≥0.4%。
10.一种用于检测独特双端文库标签交叉污染的方法,其特征在于,包括如下步骤:构建带有独特双端文库标签组合的gDNA文库,将构建好的所述gDNA文库进行上机测序,并读取文库标签序列,当测序结果不符合以下几项条件中的任意一项时,认定该文库受到污染:最大的单侧标签污染占比≤2.5%,最大的标签组合污染占比≤0.01%,每组标签样本序列条数≥5000条,所有标签组合混合占比方差系数≤0.5,综合序列通过率≥97%,每组标签样本序列占比≥0.2/文库标签组合对数,单侧大于1%污染的标签占比应≤10%;
优选地,所述独特双端文库标签组合均由上游文库标签和下游文库标签组成,所述上游文库标签统称为IG5,IG5包含A和B;所述下游文库标签统称为IG7,IG7包含a和b;匹配且正确的独特双端文库标签组合为A-a以及B-b;不匹配的独特双端文库标签组合为A-b,以及B-a;每个测序反应后通过分析可以得到以上组合各自的序列条数;
所述单侧标签污染占比为组内标签之间发生的交叉污染比例,且污染只可能发生在组内,即IG5组内或/和IG7组内发生污染;
当IG7的a在生产过程中未发生任何交叉污染,对IG5的A而言,其中含有B的污染占比=含有B-a的序列条数/所有含有a的序列条数,
当IG5的A在生产过程中未发生任何交叉污染,对IG7的a而言,其中含有b的污染占比=含有A-b序列条数/所有含有A的序列条数;
当B污染A且b污染a,则B-b标签组合污染占比=(含有B-a的序列条数/所有含有a的序列条数)×(含有A-b序列条数/所有含有A的序列条数);
当IG7的b在生产过程中未发生任何交叉污染,对IG5的B而言,其中含有A的污染占比=含有A-b的序列条数/所有含有b的序列条数,
当IG5的B在生产过程中未发生任何交叉污染,对IG7的b而言,其中含有a的污染占比=含有B-a序列条数/所有含有B的序列条数;
当A污染B且a污染b,则A-a标签组合污染占比=(含有A-b的序列条数/所有含有b的序列条数)×(含有B-a序列条数/所有含有B的序列条数);
所述每组标签样本序列条数为通过系统过滤后的每组正确配对序列条数,即含有A-a的序列条数或含有B-b的序列条数;
所述所有标签组合混合占比方差系数为通过系统过滤后的每组正确配对序列条数在通过系统过滤后的总配对正确序列条数中比例的方差系数;
所述综合序列通过率为测序反应后通过系统过滤后的正确配对且有效序列的总条数占通过系统过滤后所有序列总条数的比例;
所述每组标签样本序列占比为通过系统过滤后的每组正确配对的序列条数占通过系统过滤后总序列的比例;
所述单侧大于1%污染的标签占比为:上游文库标签内,污染比例大于1%的文库标签数占总文库标签数的比例;以及,下游文库标签内,污染比例大于1%文库标签数占总文库标签数的比例;
优选地,所述独特双端文库标签组合由96对文库标签组成,即IG5组内有96个上游文库标签,IG7组内有96个下游文库标签,一一对应;每组标签样本序列占比则相应调整为≥0.2%;
或者优选地,所述独特双端文库标签组合由48对文库标签组成,即IG5组内有48个上游文库标签,IG7组内有48个下游文库标签,一一对应;每组标签样本序列占比则相应调整为≥0.4%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111090137.7A CN113957123A (zh) | 2018-11-09 | 2018-11-09 | 一种构建和检测含有独特双端文库标签组合的gDNA文库的方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111090137.7A CN113957123A (zh) | 2018-11-09 | 2018-11-09 | 一种构建和检测含有独特双端文库标签组合的gDNA文库的方法 |
CN201811337895.2A CN109517882B (zh) | 2018-11-09 | 2018-11-09 | 一种用于检测独特双端文库标签组合的质控方法及应用 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811337895.2A Division CN109517882B (zh) | 2018-11-09 | 2018-11-09 | 一种用于检测独特双端文库标签组合的质控方法及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113957123A true CN113957123A (zh) | 2022-01-21 |
Family
ID=65773575
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811337895.2A Active CN109517882B (zh) | 2018-11-09 | 2018-11-09 | 一种用于检测独特双端文库标签组合的质控方法及应用 |
CN202111090137.7A Pending CN113957123A (zh) | 2018-11-09 | 2018-11-09 | 一种构建和检测含有独特双端文库标签组合的gDNA文库的方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811337895.2A Active CN109517882B (zh) | 2018-11-09 | 2018-11-09 | 一种用于检测独特双端文库标签组合的质控方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN109517882B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115197999A (zh) * | 2022-07-15 | 2022-10-18 | 纳昂达(南京)生物科技有限公司 | 质控双端唯一标签接头合成串扰的方法及装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110970091B (zh) * | 2019-12-20 | 2023-05-23 | 北京优迅医学检验实验室有限公司 | 标签质控的方法及装置 |
CN111910258B (zh) * | 2020-08-19 | 2021-06-15 | 纳昂达(南京)生物科技有限公司 | 双端文库标签组合物及其在mgi测序平台中的应用 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104099666A (zh) * | 2013-04-15 | 2014-10-15 | 江苏基谱生物科技发展有限公司 | 二代测序文库构建方法 |
CN105671644A (zh) * | 2016-02-26 | 2016-06-15 | 武汉冰港生物科技有限公司 | 一种基因组混样测序文库的制备方法 |
CN105734048A (zh) * | 2016-02-26 | 2016-07-06 | 武汉冰港生物科技有限公司 | 一种基因组DNA的PCR-free测序文库制备方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104293783A (zh) * | 2014-09-30 | 2015-01-21 | 天津诺禾致源生物信息科技有限公司 | 适用于扩增子测序文库构建的引物、构建方法、扩增子文库及包含其的试剂盒 |
CN104561294B (zh) * | 2014-12-26 | 2018-03-30 | 北京诺禾致源科技股份有限公司 | 基因分型测序文库的构建方法和测序方法 |
WO2016109981A1 (zh) * | 2015-01-09 | 2016-07-14 | 深圳华大基因研究院 | 一种dna合成产物的高通量检测方法 |
CA3059840C (en) * | 2017-04-23 | 2022-04-26 | Illumina Cambridge Limited | Compositions and methods for improving sample identification in indexed nucleic acid libraries |
-
2018
- 2018-11-09 CN CN201811337895.2A patent/CN109517882B/zh active Active
- 2018-11-09 CN CN202111090137.7A patent/CN113957123A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104099666A (zh) * | 2013-04-15 | 2014-10-15 | 江苏基谱生物科技发展有限公司 | 二代测序文库构建方法 |
CN105671644A (zh) * | 2016-02-26 | 2016-06-15 | 武汉冰港生物科技有限公司 | 一种基因组混样测序文库的制备方法 |
CN105734048A (zh) * | 2016-02-26 | 2016-07-06 | 武汉冰港生物科技有限公司 | 一种基因组DNA的PCR-free测序文库制备方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115197999A (zh) * | 2022-07-15 | 2022-10-18 | 纳昂达(南京)生物科技有限公司 | 质控双端唯一标签接头合成串扰的方法及装置 |
CN115197999B (zh) * | 2022-07-15 | 2024-01-23 | 纳昂达(南京)生物科技有限公司 | 质控双端唯一标签接头合成串扰的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109517882A (zh) | 2019-03-26 |
CN109517882B (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108893466B (zh) | 测序接头、测序接头组和超低频突变的检测方法 | |
CN109517882B (zh) | 一种用于检测独特双端文库标签组合的质控方法及应用 | |
CN112967753B (zh) | 一种基于纳米孔测序的病原微生物检测系统和方法 | |
CN108220479B (zh) | 能检测多种猪猝死症病原的多重连接探针扩增鉴别试剂盒 | |
CN108517567B (zh) | 用于cfDNA建库的接头、引物组、试剂盒和建库方法 | |
CN105567681B (zh) | 一种基于高通量基因测序无创活检病毒的方法及标签接头 | |
CN111052249B (zh) | 确定预定染色体保守区域的方法、确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质 | |
WO2023284768A1 (zh) | 融合引物直扩法人类线粒体全基因组高通量测序试剂盒 | |
CN111304288A (zh) | 特异性分子标签umi组及其应用 | |
CN105779649A (zh) | 一种检测禽白血病病毒的免疫pcr试剂盒 | |
CN113136422A (zh) | 通过成组snp位点检测高通量测序样本污染的方法 | |
CN111748637A (zh) | 一种用于亲缘关系分析鉴定的snp分子标记组合、多重复合扩增引物组、试剂盒及方法 | |
CN116287357A (zh) | 一种基于靶向扩增子测序的呼吸道病原菌检测试剂盒 | |
WO2016045105A1 (zh) | Pf快速建库方法及其应用 | |
CN107077538B (zh) | 测序数据处理装置和方法 | |
CN108611408A (zh) | 检测胎儿染色体非整倍性的方法和装置 | |
CN103210093A (zh) | 一种检测消化道病原体的方法 | |
CN116064818A (zh) | 检测igh基因重排及超突变的引物组、方法和系统 | |
WO2006073449A2 (en) | Multiplex systems, methods, and kits for detecting and identifying nucleic acids | |
CN115725784A (zh) | 检测呼吸道感染相关的病原体的试剂盒及方法 | |
CN112885407B (zh) | 一种基于二代测序的微单倍型检测分型系统和方法 | |
CN113373207A (zh) | 确定胞嘧啶修饰的方法 | |
CN207512174U (zh) | 一种核酸检测卡 | |
CN110144345A (zh) | 一种从卵泡液中提取cfDNA的方法 | |
CN115044703B (zh) | 一种人冠状病毒HCoV-OC43的MNP标记位点、引物组合物、试剂盒及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |