CN116287161A - 一种寡核苷酸序列一致性的检测方法 - Google Patents

一种寡核苷酸序列一致性的检测方法 Download PDF

Info

Publication number
CN116287161A
CN116287161A CN202211733841.4A CN202211733841A CN116287161A CN 116287161 A CN116287161 A CN 116287161A CN 202211733841 A CN202211733841 A CN 202211733841A CN 116287161 A CN116287161 A CN 116287161A
Authority
CN
China
Prior art keywords
sequence
sequencing
primer
oligonucleotide
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211733841.4A
Other languages
English (en)
Inventor
姜锋
张介中
杜洋
王娟
李志民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Annoroad Gene Technology Beijing Co ltd
Original Assignee
Annoroad Gene Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Annoroad Gene Technology Beijing Co ltd filed Critical Annoroad Gene Technology Beijing Co ltd
Publication of CN116287161A publication Critical patent/CN116287161A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种寡核苷酸序列一致性的检测方法,所述方法包括:采用带有待检寡核苷酸序列的引物对对已知DNA序列片段进行扩增,得到扩增产物,对扩增产物直接进行测序,根据测序结果确认待检寡核苷酸的序列一致性。其中,待检额的寡核苷酸序列同时存在于所述的引物对的正/反两条引物序列中,通过已知DNA序列进行测序数据的单链拆分,可以准确、高通量的批量定性分析不同寡核苷酸序列的交叉污染情况和/或合成错误情况。

Description

一种寡核苷酸序列一致性的检测方法
技术领域
本发明属于高通量基因测序领域,涉及一种质检寡核苷酸序列的方法。
背景技术
高通量测序技术(High-throughput sequencing)又称″下一代″测序技术("Next-generation"sequencing technology),以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。高通量测序技术可以对数百万个DNA分子同时进行测序,一次平行检测几百甚至上千个样本。在高通量测序中,需要采用大量的标签序来标记不同样本文库,以方便在高通量测序结果中区分不同样本序列。
在二代测序中,往往采用标签引物用于测序数据拆分的标签。每一个文库对应唯一的一个标签序列,才能保证拆分获得的测序数据中,文库间不存在交叉污染。但实际使用过程中发现,不同引物间,存在交叉污染(A引物中混入B引物),导致不同文库数据间出现交叉污染;另外标签引物合成方法本身的局限性,导致标签引物中存在合成错误现象。若标签引物间存在高比例交叉污染,则可能会导致测序结果准确性下降,出现假阳性、假阴性数据结果报出,影响测序结果准确性。若标签引物中存在高比例合成错误,则会导致下机数据中,未拆分数据比例上升,导致测序成本的高比例上升。
对于NGS标签引物而言,现有技术中,引物合成公司多通过严格工艺流程来控制,将不同批次隔离生产的方式来降低引物间交叉污染的可能性。在质控方面多采用nanodrop浓度检测、毛细管电泳或质谱检测核苷酸数量的质量控制手段。但是其质控手段,不能有效的对NGS标签引物序列准确度进行标定,难以满足下游实验的实际质控和测序测序需求。
发明内容
针对现有技术的不足和实际生产实验需求,本发明提供了一种质检寡核苷酸序列的方法,采用一端与待测寡核苷酸互补的已知寡核苷酸序列作为质控品与待测寡核苷酸发生PCR扩增反应,扩增产物进行二代测序,通过质控品进行数据拆分,分析不同寡核苷酸序列的交叉污染情况和/或合成错误情况。
具体的,本发明采用如下技术方案:
1.一种寡核苷酸序列一致性的检测方法,其特征在于,所述方法包括:
采用带有待检寡核苷酸序列的引物对,对已知序列DNA片段的进行PCR扩增;
将得到的扩增产物作为测序文库上机进行测序,获得测序数据;
根据测序数据确认待检寡核苷酸的序列一致性;
其中,所述引物对包括正向引物序列和反向引物序列;
所述的两条引物序列的3′端序列分别带有与所述已知序列DNA片段的3′端特异性结合的互补序列,5′端序列分别带有与测序平台互补配对的接头序列。
所述正向引物序列和反向引物序列中均含有待测寡核苷酸序列,其位于所述5′端序列与3′端序列之间;
其中,一对带有待检寡核苷酸序列的引物对应一条已知序列DNA片段,不同引物对见使用不同序列已知序列DNA片段。
2.根据项1所述的方法,其特征在于,所述已知序列DNA片段包含一段序列已知的非天然寡核苷酸片段,其特征在于所述非天然寡核苷酸片段与现有任一已知物种基因组上任意位置序列完全不同源。
3.根据项1所述的方法,其特征在于,根据测序数据确认待检寡核苷酸的序列一致性前还存在将测序数据拆分为正链数据集合反链数据集。
4.根据项1所述的方法,其特征在于,所述根据测序数据确认待检寡核苷酸的序列一致性是指通过已知序列DNA片段的序列数据拆分原始测序数据,将含有相同已知序列DNA片段的数据拆分到同一数据集,并确认数据集内待检寡核苷酸的序列一致性。
5.根据项4或5中所述的方法,其特征在于,所述待检寡核苷酸的序列一致性包括待检核苷酸的交叉污率和合成错误率;
优选地,所述交叉污率和合成错误率,为通过统计原始测序数据测序读长中标签序列的种类和数量,计算寡核苷酸序列的交叉污染率和/或合成错误率。
6.根据项1所述的方法,其特征在于,所述的已知序列DNA片段的长度为50~1000bp,优选为150bp~500bp。
7.根据项1所述的方法,其特征在于,所述的寡核苷酸序列的长度为6~20bp,优选为6~12bp。
8.根据项1所述的方法,其特征在于,所述正向引物序列为SEQ ID NO:2所示核酸序列;所述反向引物序列为SEQ ID NO:1所示核苷酸序列。
9.根据项1-8任一项所述的方法,其特征在于,所述PCR扩增条件为92~98℃预变性1~5min,92~98℃变性10~30s、55~65℃退火10~30s、70~75℃延伸10~30s,10~30个循环,70~75℃延伸5~15min,0~4℃保存。
10.一种二代测序标签引物质控方法,其特征在于采用项1中所述方法在对二代测序中的标签引物进行质控;
优选地,对所述标签引物的交叉污率况和合成错误率进行质控。
发明效果
本项目方法依托二代测序技术,建立了一套完整的标签引物(寡核苷酸序列)序列质检实验、信息分析方法,通过检测已知序列上携带的标签序列,检测待检标签引物的序列准确性。使用人工合成的已知序列作为标签引物检验过程的质控品,与现有物种已知基因组均不相同,检验过程不会被同批次测序的其他文库污染。
与现有技术相比,本发明依托二代测序技术,可以准确的分析出寡核苷酸测序结果,高通量的完成质检过程。且可以同时分析正反项标签引物序列,对于双端测序可实现大规模连续平行检测。通过具体序列分析其交叉污染情况和合成错误情况,同时提供符合实际试验应用的高通量的质检方法。
附图说明
1、图1为寡核苷酸序列一致性的检测方法原理
具体实施方式
下面将对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在说明书及项当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解,技术人员可能会用不同名词来称呼同一个组件。本说明书及项并不以名词的差异作为区分组件的方式,而是以组件在功能上的差异作为区分的准则。如在通篇说明书及项当中所提及的“包含”或“包括”为开放式用语,故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式,然而所述描述乃以说明书的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附项所界定者为准。
本发明具体包括,
一种寡核苷酸序列一致性的检测方法,其特征在于,所述方法包括:
采用带有待检寡核苷酸序列的引物对,对已知序列DNA片段的进行PCR扩增;
将得到的扩增产物作为测序文库上机进行测序,获得测序数据;
根据测序数据确认待检寡核苷酸的序列一致性;
其中,所述引物对包括正向引物序列和反向引物序列;
所述的两条引物序列的3′端序列分别带有与所述已知序列DNA片段的3′端特异性结合的互补序列,5′端序列分别带有与测序平台互补配对的接头序列。
所述正向引物序列和反向引物序列中均含有待测寡核苷酸序列,其位于所述5′端序列与3′端序列之间;
其中,一对带有待检寡核苷酸序列的引物对应一条已知序列DNA片段,不同引物对见使用不同序列已知序列DNA片段。
在一具体实施例中,所述的正链引物5′端带测序接头序列为P7互补序列,所述反链引物3′端带测序接头序列为P5互补序列。
进一步,所述已知DNA序列包含一段已知序列的非天然序列,其特征在于所述非天然序列与现有任一已知物种基因组上任意位置序列完全不同源。
在一具体实施例中,所述的寡核苷酸序列为带有标签的标签引物。
本文中术语″寡核苷酸″,是指2~10核苷酸残基以磷酸二酯键连接而成的线性多核苷酸片段,但在使用这一术语时,对核苷酸残基的数目并无严格规定,在不少文献中,把含有30甚至更多核苷酸残基的多核苷酸分子也称作寡核苷酸。寡核苷酸可由仪器自动合成,它可作为DNA合成的引物(Primer)、基因探针(Probe)等。
本文中术语″引物”,是指在核苷酸聚合作用起始时,刺激合成的,一种具有特定核苷酸序列的大分子,与反应物以氢键形式连接,这样的分子称为引物。引物通常是人工合成的两段寡核苷酸序列,即引物对,一个引物与靶区域一端的一条DNA模板链互补,另一个引物与靶区域另一端的另一条DNA模板链互补,其功能是作为核苷酸聚合作用的起始点,核酸聚合酶可由其3端开始合成新的核酸链。
本文中术语″扩增”,是指基因扩增,即某一个特定基因的拷贝数选择性地增加而其它基因的拷贝数并未按比例增加的过程。
天然基因扩增,也称为染色体复制,或基因复制,是生物分子进化过程中产生新遗传物质的主要机制。它指的是任何含有基因的DNA片段的复制。
基因扩增也可以通过以下人工方式进行:
聚合酶链反应(PCR):通过聚合核苷酸,重复复制靶标DNA片段的方法。
连接酶链反应(LCR):一种扩增核酸获得探针的基因扩增方法。对于两条DNA链中的每一条,连接酶连接两个部分探针成实际的一条。因此,LCR使用两种酶:DNA聚合酶(用于初始模板扩增)和热稳定的DNA连接酶。
转录介导的扩增:一种等温的基因扩增方法,利用两种酶即RNA聚合酶和逆转录酶,快速扩增靶标RNA/DNA。
本发明中对于扩增的方式没有特殊规定,优选的,采用聚合酶链反应,即PCR扩增方式。
本文中术语“测序”,是指基因测序,是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列,预测罹患多种疾病的可能性,个体的行为特征及行为合理。基因测序技术能锁定个人病变基因,提前预防和治疗。现有的基因测序技术可以根据其技术特征划分为3代,主要有,一代测序也称Sanger测序、毛细管测序;二代测序(NGS)也称高通量测序、大规模平行测序;三代测序也称单分子测序,三代测序包括Heliscope测序技术,SMRT(Single Molecule Real Time,单分子实时测序)离子半导体测序技术(Ion Torrent)等技术。较为成熟的是SMRT测序技术。
本发明对测序的方法没有限制,优选的,采用二代测序(NGS)。
正链即有义链,也称编码链,一般位于双链DNA上端,方向从左到右为5‘—3′,碱基序列和该基因mRNA基本相同;与该链结合的引物为反向引物;其是沿着正链进行延长的。
负链即无义链,也称非编码链,和正链互补,与该链结合的引物为正向引物,其是沿着负链进行不间断延长的,处于DNA双链上游的引物。
本文中术语“5′端”是指DNA在连接时,上一个核苷酸的磷酸基团和下一个核苷酸的羟基形成磷酸二酯键,在核苷酸链的两端多出一个磷酸基团的磷酸端,本文中术语“3′端”是指在核苷酸链的两端多出一个羟基的羟基端。
本文中术语“测序平台”是指基因测序所使用的仪器或设备或软件,包括但不限于Sanger、2.454、Solid、HiSeq2000、Helicos、DNANanoball array、The PacBio RS system、PGM、MiSeq、illuminate等,本发明对测序平台的种类没有限制,优选的,采用illuminate公司的二代测序平台Nextseq550/500平台。
本文中术语″互补配对”即碱基互补配对,是指核酸分子中各核苷酸残基的碱基按A与T、A与U和G与C的对应关系互相以氢键相连的现象。
进一步,所述已知DNA序列包含一段已知序列的非天然序列,其特征在于所述非天然序列与现有任一已知物种基因组上任意位置序列完全不同源。这里非天然序列可以是任一方法获得的,例如人工合成。
已知DNA序列的度50~1000bp,优选150bp~500bp,例如可以是150bp、200bp、250bp、300bp、350bp、400bp、450bp或500bp。
所述的寡核苷酸序列的长度为6~20bp,优选为6~12bp,例如可以是6bp、7bp、8bp、9bp、10bp、11bp、或12bp。
所述根据测序结果确认待检寡核苷酸的序列一致性,为根据已知DNA序列片段拆分测序数据。
所述测序数据确认待检寡核苷酸的序列一致性前还存在将测序数据拆分为正链数据集合反链数据集。
所述根据测序数据确认待检寡核苷酸的序列一致性是指通过已知序列DNA片段的序列数据拆分原始测序数据,将含有相同已知序列DNA片段的数据拆分到同一数据集,并确认数据集内待检寡核苷酸的序列一致性。
所述待检寡核苷酸的序列一致性包括待检核苷酸的交叉污率况和合成错误率。
优选地,所述交叉污率和合成错误率,为通过统计原始测序数据测序读长中标签序列的种类和数量,计算寡核苷酸序列的交叉污染率和/或合成错误率。
在一具体实施例中,所述的反向引物序列为:
SEQ ID NO:1
5’-CAAGCAGAAGACGGCATACGAGATNNNN…NNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’
正向引物序列为:
SEQ ID NO:2
5’-AATGATACGGCGACCACCGAGATCTNNNN…NNNNACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’
在一具体实施例中,所述的待检测引物对具体为标签引物.所述扩增产物为双端带有寡核苷酸的测序文库。
所述的寡核苷酸序列一致性包括寡核苷酸序列的交叉污染率和/或合成错误率。
所述的交叉污染率为,正链测序数据集或反链测序数据集中,单一已知DNA序列对应的拆分数据中,非特异性序列reads读数占总单一已知DNA序列对应的正链测序数据集或反链测序数据集的reads读数的比例。
所述的合成错误为正链测序数据集或反链测序数据集中,单一已知DNA序列对应的拆分数据中,无特异性数据产出。
进一步,本发明还可以根据测序结果进一步分析同批次中具体哪些寡核苷酸间出现了交叉污染。
在进行PCR扩增时,其条件为92~98℃预变性1~5min,92~98℃变性10~30s、55~65℃退火10~30s、70~75℃延伸10~30s,10~30个循环,70~75℃延伸5~15min,0~4℃保存。
本发明还包括一种二代测序标签引物质控方法,其特征在于采用项1中所述方法在对二代测序中的标签引物进行质控;
优选地,对所述标签引物的交叉污率况和合成错误率进行质控。
实施例1
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径购买得到。
25条已知DNA序列:(SEQ ID NO:3~SEQ ID NO:27)
Figure BDA0004032445150000082
Figure BDA0004032445150000091
Figure BDA0004032445150000101
25条正链引物中待检测的寡核苷酸序列(SEQ ID NO:1中的N)
1 CATTGCTT 6 CCTAACGT 11 CTATAACT 16 ATTCTAAT 21 TTAACCGG
2 TTCGGATT 7 CACGTAGT 12 CTAGTTAT 17 TAATGTTG 22 CTAAGTCG
3 TCATCATT 8 TACCTTCT 13 TCTTATAT 18 ATTCACTG 23 TATTCGCG
4 CAACAGGT 9 CCAGCGCT 14 AATAAGAT 19 ATCATATG 24 CCTGTGAG
5 TTCAAGGT 10 ACCAGACT 15 TATGCCAT 20 CTTGATGG 25 CAACTAAG
25条反链引物中待检测的寡核苷酸序列(SEQ ID NO:2中的N)
1 ATAGGAAG 6 TAAGGCGC 11 TAATTACC 16 CAAGTCTA 21 CTTATAGA
2 ACTACAAG 7 AATAGAGC 12 ATAACACC 17 ACAACCTA 22 CCATGAGA
3 CCACATTC 8 ACTGTTCC 13 CTCTCGAC 18 CTACCATA 23 TCACCTCA
4 TCTTGGTC 9 CTTCCTCC 14 CTACGCAC 19 TACTATGA 24 ACCTTGCA
5 CACTAATC 10 TACAGGCC 15 CTCAATTA 20 ATCGCCGA 25 ATACTCCA
1.质检用已知DNA序列(已知序列)制备
(1)人工合成25条带PCR接头的已知DNA序列
(2)25条已知序列可使用接头引物进行扩增,可持续稳定的获得大量可用已知序列;
接头引物1 GACTGGAGTTCAGACGTGTGCTCTTCCGATCT
接头引物2 ACACTCTTTCCCTACACGACGCTCTTCCGATCT
(3)人工合成已知序列稀释:使用qubit HS检测人工合成已知DNA序列浓度,使用elution buffer稀释到1ng/ul;
(4)PCR扩增体系
序号 总体系50μL×1管 单个使用量(μL)
1 已知DNA序列 1
2 HiFi Mix 25
3 接头引物1(10pmol/μL) 4
4 接头引物2(10pmol/μL) 4
5 ddH2O 16
(5)PCR扩增程序94℃2min;(94℃15s,62℃30s,72℃30s)17cycles;72℃10min;4℃forever;
(6)磁珠纯化:扩增完成后使用1.5倍磁珠纯化,50ul elution buffer洗脱
2.待检标签引物制备
(1)引物溶解
将待检的标签引物干粉溶解成工作液。溶解方法:将标签引物干粉置于高速离心机上12000rpm离心5min。用灭菌纯化水稀释引物干粉至10pmol/μL,灭菌纯化水的加入体积为引物nmol数的100倍,加入灭菌纯化水后,振荡混匀,置于掌上离心机短暂离心;静置5min后重复一次振荡混匀,置于掌上离心机短暂离心。
注:标签引物工作液有效期为14个月,储存温度为-15℃以下。
3.PCR反应
(1)取出已知DNA序列,置于室温条件下融化,震荡混匀,瞬时离心,置于冰盒上。用荧光定量仪和
Figure BDA0004032445150000122
dsDNA HS Assay Kit检测解冻后的已知DNA序列模板浓度,样本检测量1μL。取1μL已知DNA序列,用灭菌纯化水稀释已知DNA序列模板至1ng/μL。
(2)取出KAPA HiFi Hotstart Ready Mix、反链引物,置于室温条件下融化,震荡混匀,瞬时离心,置于冰盒上。根据PCR反应体系配制预混液,配制过程需在冰盒上操作,预混液体系见下表。将配制好的PCR反应预混液振荡混匀,瞬时离心。
试剂名称 单反应量(μL)
KAPA HiFi Hotstart Ready Mix 25
反链引物(10 pmol/μL) 4
灭菌纯化水 16
(3)分别吸取45μL PCR反应预混液,加到96孔PCR板的23个孔(或PCR管)。
(4)分别吸取4μL待测标签引物加入到装有PCR反应预混液的PCR板(或PCR管),振荡混匀,瞬时离心。
(5)分别吸取1μL 1)中稀释后的已知DNA序列,按照下表,对应加到4)中的96孔PCR板(或PCR管)。振荡混匀,瞬时离心。
(6)置于PCR基因扩增仪上,PCR反应条件见下表。
Figure BDA0004032445150000121
Figure BDA0004032445150000131
注:PCR仪热盖温度105℃,体积55μL。
4.PCR反应产物纯化
0.9×磁珠纯化,使用50ul elution buffer洗脱
扩增纯化产物
使用荧光定量仪和
Figure BDA0004032445150000133
dsDNA HS Assay Kit检测扩增纯化产物的浓度,样本检测量1μL。
按照下表,分别计算扩增纯化产物取样量(体积),按照取样量(体积),吸取23个扩增纯化产物加入到1个新的1.5ml离心管中,混合为一管文库。
5.文库质量检测
用荧光定量PCR分析仪测定pooling文库浓度。
6.上机测序
将检测合格的文库进行Illumina测序,并对测序读长进行分析。
将文库进行上机测序,测序类型:SE40+8,8M reads,75cycles。
7.信息分析
对下机后的数据进行分析,查看每个待检标签引物是否“无数据产出”以及交叉污染率。针对不同reads序列拆分数据集内每条文库都含有一段已知序列源DNA片段,根据不同已知序列源DNA片段序列对测序数据拆分;对每个样本的原始测序文件进行质控去接头,读取文件中的每一条寡核苷酸读长(read),根据读长中存在的标签序列的类型和数量,统计每个样本中含有各条标签序列的读长数量,并计算占比,最终获得统计结果。
正链拆分数据集统计结果
Figure BDA0004032445150000132
Figure BDA0004032445150000141
反链拆分数据集统计结果
序号 已知DNA序列 序列 一致性
26 indexCHKseq_01 CCTGCGCT 0.00%
27 indexCHKseq_02 TTAAGCGG 0.00%
28 indexCHKseq_03 TCAACCGG 0.00%
29 indexCHKseq_04 CCTGTTCC 0.00%
30 indexCHKseq_05 TTCGCCGA 0.00%
31 indexCHKseq_06 TCCACCGT 0.00%
32 indexCHKseq_07 TTGACCGG 0.00%
33 indexCHKseq_08 ATCATCAT 0.00%
34 indexCHKseq_09 CTCGTGAT 0.00%
35 indexCHKseq_10 CCCACTGT 0.00%
36 indexCHKseq_11 ACACGCTG 0.00%
37 indexCHKseq_12 CCGCTATC 0.00%
38 indexCHKseq_13 AGCGGATC 0.00%
39 indexCHKseq_14 TCTGTTCC 0.37%
40 indexCHKseq_15 ATCGAATC 0.00%
41 indexCHKseq_16 TCCACTGC 0.00%
42 indexCHKseq_17 CCAGCGCG 0.00%
43 indexCHKseq_18 TCGACTGT 0.00%
44 indexCHKseq_19 CTCGTATC 0.00%
45 indexCHKseq_20 TCCGCTGT 0.00%
46 indexCHKseq_21 CTCCACTG 0.00%
47 indexCHKseq_22 TCCAGTAT 0.00%
48 indexCHKseq_23 ACTGGTCC 0.00%
49 indexCHKseq_24 ATCGGAAT -
50 indexCHKseq_25 TTCCACTG 0.00%
分析结论:
25对检测的待测寡核苷酸中(即为标签引物序列),
根据数据分析可得:
(1)25对标签引物序列中,第4对、12对、18对标签引物的反向引物序列中存在交叉污染,污染率分别为0.36%、0.42%和0.38%;
(2)第23对标签引物的反向引物序列中存在合成错误;
(3)第39对标签引物的正向引物序列中存在交叉污染,污染率为0.37%;
(4)第49对标签引物的反向引物序列中存在合成错误。

Claims (10)

1.一种寡核苷酸序列一致性的检测方法,其特征在于,所述方法包括:
采用带有待检寡核苷酸序列的引物对,对已知序列DNA片段的进行PCR扩增;
将得到的扩增产物作为测序文库上机进行测序,获得测序数据;
根据测序数据确认待检寡核苷酸的序列一致性;
其中,所述引物对包括正向引物序列和反向引物序列;
所述的两条引物序列的3’端序列分别带有与所述已知序列DNA
片段的3’端特异性结合的互补序列,5’端序列分别带有与测序平台互补配对的接头序列。
所述正向引物序列和反向引物序列中均含有待测寡核苷酸序列,其位于所述5’端序列与3’端序列之间;
其中,一对带有待检寡核苷酸序列的引物对应一条已知序列DNA
片段,不同引物对见使用不同序列已知序列DNA片段。
2.根据权利要求1所述的方法,其特征在于,所述已知序列DNA片段包含一段序列已知的非天然寡核苷酸片段,其特征在于所述非天然寡核苷酸片段与现有任一已知物种基因组上任意位置序列完全不同源。
3.根据权利要求1所述的方法,其特征在于,根据测序数据确认待检寡核苷酸的序列一致性前还存在将测序数据拆分为正链数据集合反链数据集。
4.根据权利要求1所述的方法,其特征在于,所述根据测序数据确认待检寡核苷酸的序列一致性是指通过已知序列DNA片段的序列数据拆分原始测序数据,将含有相同已知序列DNA片段的数据拆分到同一数据集,并确认数据集内待检寡核苷酸的序列一致性。
5.根据权利要求4或5中所述的方法,其特征在于,所述待检寡核苷酸的序列一致性包括待检核苷酸的交叉污率和合成错误率;
优选地,所述交叉污率和合成错误率,为通过统计原始测序数据测序读长中标签序列的种类和数量,计算寡核苷酸序列的交叉污染率和/或合成错误率。
6.根据权利要求1所述的方法,其特征在于,所述的已知序列DNA片段的长度为50~1000bp,优选为150bp~500bp。
7.根据权利要求1所述的方法,其特征在于,所述的寡核苷酸序列的长度为6~20bp,优选为6~12bp。
8.根据权利要求1所述的方法,其特征在于,所述正向引物序列为SEQ
ID NO:2所示核酸序列;所述反向引物序列为SEQ ID NO:1所示核苷酸序列。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述PCR扩增条件为92~98℃预变性1~5min,92~98℃变性10~30s、55~65℃退火10~30s、70~75℃延伸10~30s,10~30个循环,70~75℃延伸5~
15min,0~4℃保存。
10.一种二代测序标签引物质控方法,其特征在于采用权利要求1中所述方法在对二代测序中的标签引物进行质控;
优选地,对所述标签引物的交叉污率况和合成错误率进行质控。
CN202211733841.4A 2021-12-31 2022-12-30 一种寡核苷酸序列一致性的检测方法 Pending CN116287161A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021116762791 2021-12-31
CN202111676279 2021-12-31

Publications (1)

Publication Number Publication Date
CN116287161A true CN116287161A (zh) 2023-06-23

Family

ID=86787694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211733841.4A Pending CN116287161A (zh) 2021-12-31 2022-12-30 一种寡核苷酸序列一致性的检测方法

Country Status (1)

Country Link
CN (1) CN116287161A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201302900D0 (en) * 2013-02-19 2013-04-03 Genome Res Ltd Nucleic acid marker molecules for identifying and detecting cross contaminationof nucleic acid samples
WO2020118596A1 (zh) * 2018-12-13 2020-06-18 深圳华大生命科学研究院 标签序列的检测方法
CN112359101A (zh) * 2020-11-13 2021-02-12 苏州金唯智生物科技有限公司 一种质检寡核苷酸交叉污染的方法
CN113621609A (zh) * 2021-09-15 2021-11-09 深圳泛因医学有限公司 文库构建引物组及其在高通量检测中的应用
CN113981056A (zh) * 2021-11-26 2022-01-28 广州达安基因股份有限公司 基于已知标签的内参进行高通量测序的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201302900D0 (en) * 2013-02-19 2013-04-03 Genome Res Ltd Nucleic acid marker molecules for identifying and detecting cross contaminationof nucleic acid samples
WO2020118596A1 (zh) * 2018-12-13 2020-06-18 深圳华大生命科学研究院 标签序列的检测方法
CN113168889A (zh) * 2018-12-13 2021-07-23 深圳华大生命科学研究院 标签序列的检测方法
CN112359101A (zh) * 2020-11-13 2021-02-12 苏州金唯智生物科技有限公司 一种质检寡核苷酸交叉污染的方法
CN113621609A (zh) * 2021-09-15 2021-11-09 深圳泛因医学有限公司 文库构建引物组及其在高通量检测中的应用
CN113981056A (zh) * 2021-11-26 2022-01-28 广州达安基因股份有限公司 基于已知标签的内参进行高通量测序的方法

Similar Documents

Publication Publication Date Title
US20210380974A1 (en) Combinatorial sets of nucleic acid barcodes for analysis of nucleic acids associated with single cells
EP3559274A1 (en) Reagents and methods for the analysis of linked nucleic acids
CN111808854B (zh) 带有分子条码的平衡接头及快速构建转录组文库的方法
CN108138175B (zh) 用于分子条形码编码的试剂、试剂盒和方法
CA2697640A1 (en) Tools and methods for genetic tests using next generation sequencing
JP5128941B2 (ja) 標的特異的コンポマー及び使用法
CN113168889B (zh) 标签序列的检测方法
WO2012037881A1 (zh) 核酸标签及其应用
WO2022099794A1 (zh) 一种质检寡核苷酸交叉污染的方法
CN113308526A (zh) 融合引物直扩法人类线粒体全基因组高通量测序试剂盒
WO2022247555A1 (zh) 测序方法
CN116287161A (zh) 一种寡核苷酸序列一致性的检测方法
US20220235397A1 (en) Barcoded molecular standards
CN116377046A (zh) 用于平行检测标签引物序列的质控品及试剂盒
CN115667545A (zh) 一种核酸序列分析方法
CN111793623A (zh) 62个多等位snp-ngs的分型遗传标记组合物、试剂盒、鉴定体系以及分型方法
CN116515977B (zh) 基于单端接头转座酶的单细胞基因组测序试剂盒和方法
CN116103383B (zh) 识别NGS接头oligo错误碱基的方法及其文库
US20230399679A1 (en) System and method for ligand-limited normalizing polymerase chain reaction (lln-pcr)
EP4332235A1 (en) Highly sensitive methods for accurate parallel quantification of variant nucleic acids
AU2017381296B2 (en) Reagents and methods for the analysis of linked nucleic acids
Flood Novel Fragmentation Method for Automated Next Generation Sequencing Exome Library Preparation
KR20220122095A (ko) 분자 바코딩 효율을 향상시키기 위한 조성물 및 이의 용도
CN113490677A (zh) 用于测序的多聚体和用于制备并且分析所述多聚体的方法
CN117384999A (zh) 一种高通量基因测序文库的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination