CN109477141A - 样品鉴定方法 - Google Patents

样品鉴定方法 Download PDF

Info

Publication number
CN109477141A
CN109477141A CN201780040677.XA CN201780040677A CN109477141A CN 109477141 A CN109477141 A CN 109477141A CN 201780040677 A CN201780040677 A CN 201780040677A CN 109477141 A CN109477141 A CN 109477141A
Authority
CN
China
Prior art keywords
sequence
bar code
nucleotide
barcodes
nucleic acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780040677.XA
Other languages
English (en)
Other versions
CN109477141B (zh
Inventor
H·库蓬斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
D Name-It Co Ltd
Original Assignee
D Name-It Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP16169997.0A external-priority patent/EP3246412A1/en
Priority claimed from GBGB1701908.4A external-priority patent/GB201701908D0/en
Application filed by D Name-It Co Ltd filed Critical D Name-It Co Ltd
Publication of CN109477141A publication Critical patent/CN109477141A/zh
Application granted granted Critical
Publication of CN109477141B publication Critical patent/CN109477141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L3/00Containers or dishes for laboratory use, e.g. laboratory glassware; Droppers
    • B01L3/54Labware with identification means
    • B01L3/545Labware with identification means for laboratory containers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2300/00Additional constructional details
    • B01L2300/02Identification, exchange or storage of information
    • B01L2300/021Identification, e.g. bar codes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/179Modifications characterised by incorporating arbitrary or random nucleotide sequences
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2545/00Reactions characterised by their quantitative nature
    • C12Q2545/10Reactions characterised by their quantitative nature the purpose being quantitative analysis
    • C12Q2545/101Reactions characterised by their quantitative nature the purpose being quantitative analysis with an internal standard/control
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/179Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/185Nucleic acid dedicated to use as a hidden marker/bar code, e.g. inclusion of nucleic acids to mark art objects or animals

Abstract

本发明描述关于用于标记物品的核酸的方法,运载体和载体,其中各运载体在样品核酸之外还包含至少2个标记用核苷酸条码核酸,其中各核苷酸条码核酸包含至少4个核苷酸长度的不同最小核苷酸条码序列,其中所述不同核苷酸条码核酸中的至少2个具有长度相同的最小核苷酸条码序列,其中所述这些不同核苷酸条码核酸的组合产生可转移的分子鉴定条码,由此各该可转移的分子鉴定条码对于收集体中的各运载体而不同。

Description

样品鉴定方法
【发明领域】
本发明涉及产生大量的独特可转移的分子鉴定条码的方法和它们在物品鉴定,诸如生物学样品中的用途,和/或它们的处理。本发明涉及监测问题的方式,诸如样品切换和样品的交叉-混杂,样品的可追踪性,提供过程的内部控制。
【发明背景】
通过DNA分子的添加来进行样品的内部鉴定的想法已久矣。例如,专利US5776737描述样品的内部鉴定的方法和组合物。
US5776737识别使用DNA分子的混合物的能力,以用经济的方式获得独特DNA编码。为表征DNA编码,使用基于Sanger测序的Pharmacia ALF自动测序仪。
US6030657描述标记/标记技术,其利用包裹的DNA作为生物标志物,被红外线(IR)标志物进一步标记,以标记产物(用于对抗产物转移和产物伪造)。实际DNA生物标志物序列是安全的次要考虑。
EP1488039识别多个不同单链DNA序列的使用。在本文中,DNA条码用作现金运输箱的安全标志物。但是,DNA序列的不同单链类型在生产期间自初现起不混合。仅一种类型的DNA寡核苷酸选自可利用的不同类型的寡核苷酸,并插入仅一个盒的墨贮器。
US20120115154描述了方法,其中参照标志物包含不知存在于基因组中并添加到生物学样品中的一种或多种寡核苷酸。添加的参照标志物是单序列或不同序列的混合物。但是,不同序列的混合物的使用目的用于提供甚至更高特异性和/或安全水平,由此不用于以经济的方式产生大量的独特参照标志物。
US20120135413在安全标记中使用寡核苷酸或条码的混合物。在本文中,使用混合物的目的仅是允许使用较短寡核苷酸,以当使用单的更大合成寡核苷酸时产生与可获得的独特编码数相当的大足够的数的独特编码。
US6312911使用DNA片段来加密秘密消息,其中每3个DNA碱基表示字母或符号。秘密DNA然后在掩饰DNA的混合物中掩饰。由于秘密DNA编码侧接引物序列,其可通过扩增和测序从复合掩饰混合物特别访问。编码的消息然后通过对安全标志物中的DNA片段进行测序、并使用加密参照表用于解码来解码。
US8785130描述使用基于核苷酸序列的编码来监测遗传物质的检测和鉴定方法。利用不同DNA序列,但它们全部定位在单个更大DNA分子上。该方法由此不具有为了DNA编码的经济的产生而使用DNA序列的混合物的益处。
WO2014005184描述了使用不同核酸的混合物鉴定或标记的方法。但是,为了表征,它们产生多个具有不同尺寸的扩增产物,其为不同核酸标签序列之间区别(而非测序)的基础。
US20100285985描述用于多个安全标志物的产生及其检测的方法和系统。各安全标志物用作在DNA模板上的引物的寡核苷酸的混合物。因此,寡核苷酸被称为rtDNA(逆转模板DNA)寡核苷酸。
EP2201143识别使用不同DNA分子的混合物,而非单个DNA分子作为可转移的分子鉴定条码的基础的效力。
【发明概述】
整个工业围绕包含多样的产物和服务的标记物建造。在零售业中,多数产品用1D(线)或2D条码标记标记,辅助零售公司中的产品储藏管理和付款台管理。在快件递送服务中,包装用条码标记标记,从而包装向全世界的运输可自动化,且可甚至由客户实时跟踪包装位置。而且,在测试实验室中,待研究的样品管用条码标记来标记。
但是,全部这些物品(产物,包装,样品管,等)在物品外部标记。一旦,将该物品打开,并将物品内容取出,条码与物品内容的关联就丢失。对于食品物品和航运包装而言,对物品解包装通常(几乎)是物品的生命周期中的最终步骤,从而与外部条码的关联丢失不是问题。但是,对于特定物品,诸如含有生物学样品的样品管而言,实际处理仅刚开始。
在本文中,我们提供这样的方案,其中将物品的外部和内容用条码标记。物品的外部部分用物理宏观条码标记(例如视觉条码纸或RFID)标记,而物品内容用可转移的分子鉴定条码标记物标记。物理和可转移的分子鉴定条码标记物均为独特的,且具有一一关系。当条码标记中的任何一个被知道时,基于此一一关联,另一条码也被知道。当条码标记中的任一个(例如物理条码标记)甚至与第3条码标记关联时,其他条码(在此例中是可转移的分子鉴定条码标记物)也与此第3条码标记关联。与物理条码标记相反,可转移的分子鉴定条码标记物转移到物品内容的完全下游处理链,且可在处理末端读取,且再次与全部其他关联的条码标记关联。
多数过程倾向于产生误差,尤其在有转移步骤的时刻。此也应用于诊断测试,其起始于在受者中来自患者的生物学样品的分离,诸如管中的血样品。使用打印的GS1条码标记和条码扫描仪可最小化误差,但不总是防止误差。的确,一些物品不能用打印的条码标记来标记。例如,当从生物学样品分离的DNA需要由聚合酶链反应(PCR)扩增时,将DNA转移到小PCR管。打印的条码标记具有对于附接于该小管上而言太大的尺寸,和/或可不利地影响PCR处理。的确,将纸标记固定在PCR管壁外会阻止通过PCR管壁的有效热转移,这可不利地影响PCR,和甚至阻碍PCR扩增。然后将PCR管用铅笔简单标记。但甚至在那之后,PCR管上用于书写的可利用的地方有限,从而难以是可书写在管上的独特编码。有时在处理期间,铅笔编码从铅笔标记的管消失。许多实验室使用标准作业程序(SOP),且利用LIMS(实验室信息管理系统)。这些在测试的不同步骤期间描述和详细追踪待实施的动作,其的确减少误差的机会,但它们不总是保证这些书写的动作被正确地执行,且该样品被正确地操作,且未切换。当样品被切换时,错误测试结果最终被报道给给定的患者。尤其在诊断学中,这些误差是不能被耐受的。该样品混合有时发生在医院和实验室。在研究报道了在来自18955个怀孕的女性的血样品中非-侵袭性出生前测试的发现,384个血样品(2%)具有血-收集或标记误差(Norton et al.,(2015)N.Engl.J.Med 372:1589-1597)。由于这些样品未被进一步测试,它们无法导致错误测试结果。但是,在该情况中,当仍需要测试结果时,需要求新血样品,这进一步耗时,且延迟测试结果,且其最终可甚至超过时间,之后可取基于测试结果的作用。如果无需新血样品,根本无法给测试结果。但甚至在测试过程的下游,在实验室中,当实际实施测试时,发生误差。直接面对消费者的测试公司报道了实验室混乱导致96个客户看到不是他们自身的遗传数据。人的误差导致混乱,其中在样品处理期间单个96-孔板被不正确地放置(http://blog.23andme.com/23andme-and-you/update-from-23andme/)。
除了样品切换之外,样品,或其处理的样品衍生物,可与另一生物学样品或其处理的样品衍生物混杂,其可再次导致错误测试结果。例如,当在遗传测试中,就给定的座位的给定的突变纯合的给定的样品变得与就给定的座位的野生型等位基因的纯合,或甚至杂合的样品混杂时,该给定的座位的突变的杂合状态可被错误地总结和报道。在分析母源血中的循环胚胎DNA的测试中,胚胎级分是至少4%-10%,且需在此级分中相对总和DNA背景检测DNA异常。由此,甚至总样品的小混杂可阻碍测试或甚至导致错误测试结果。同样应用于分析血样品或其他生物学样品中的循环肿瘤DNA的测试。在所述研究中,对217个完全基因组进行测序,7个样品(3.2%)被发现含有混杂DNA(Taylor等人,2015)。由此也明显需求样品的混杂或混合的可追踪性。
在商业和安全领域也高度关注标记和/或追踪物品。例如,将许多产品用允许鉴定或测定产品来源的标签标记。在其他环境中,用标签手段来标记产品来允许产品跟踪。该标记和追踪系统也可用于随着对象从一个位置移动到另一位置而追踪其途径和/或时机。
标记系统也可用于鉴定真正的产品,并将它们与伪造的产品区别,或鉴定平行贸易的情况。
还有必需鉴定产品来源的环境,诸如可发生在物质混杂另一产品的情况或环境,诸如在食品工业中。
在本发明中,分子的混合物用于物品的独特内部可溶性标记,这允许这些物品的明确的鉴定,和/或它们的处理,满足下列标准中的一项或多项。
在DNA分子的混合物用于内部标记的情况中。
●DNA分子的混合物,而非单个DNA分子,用于允许独特DNA编码的经济的产生,其在本文中被称为可转移的分子鉴定条码。以此方式,仅有限数量的DNA分子,允许优先使用仅一次的大量的独特DNA编码的经济的产生。
●由于该可转移的分子鉴定条码用于物品或样品的独特鉴定,重要的是它们本身在最严格质量条件下产生。产生的可转移的分子鉴定条码,或含有该可转移的分子鉴定条码的收集器的质量控制导致该可转移的分子鉴定条码/收集器的破坏,从而其不能再使用。在仍使用的情况中,其会被实际上使用两次,或甚至更多次,从而可转移的分子鉴定条码不是被唯一地使用。由此,单个独特DNA分子作为可转移的分子鉴定条码不,允许产生之后的质量控制。当可转移的分子鉴定条码混合物起始于有限数量的DNA分子产生时,在产生后仅牺牲少数可转移的分子鉴定条码管用于质量控制。当在这些牺牲的可转移的分子鉴定条码中发现预期的序列时,其他非-牺牲的可转移的分子鉴定条码中的序列也可被总结为正确。
●数对DNA分子用于产生可转移的分子鉴定条码。当DNA分子的混合物用于起始于少数的DNA分子而产生独特可转移的分子鉴定条码时,一些可转移的分子鉴定条码会共同携带特定DNA分子。的确,可转移的分子鉴定条码可共享全部但一个DNA分子,以便仍为独特混合物。当处理可转移的分子鉴定条码期间,混合物的一个或多个DNA分子未能被处理,且因此未被检测,可转移的分子鉴定条码不能与共享被处理的DNA分子的全部其他可转移的分子鉴定条码区别。通过使用DNA分子对,或甚至DNA分子三联体,或更多来防止此问题。
●将可转移的分子鉴定条码,及可能与其他靶核酸一起由并行方法处理和表征,从而,一组DNA在处理期间绝不完全分离或分开。如果不,处理期间紧接着起始独立转移步骤,其倾向于切换,且当紧挨着起始的各步骤的结果再次组合成一个结果时可因此导致可转移的分子鉴定条码和/或样品的错误表征。如果使用测序,需使用并行测序方法。
●各可转移的分子鉴定条码中的全部DNA分子应在序列上足够不同。的确,当使用高度并行测序方法时,测序误差在单个读长水平变动于1-15%。如果混合物含有2个或多个仅一个核苷酸不同的DNA分子,扩增和/或测序误差会错误地将可转移的分子鉴定条码误判为另一可转移的分子鉴定条码。
本发明的一方面涉及鉴定多个包含核酸的生物学样品的同一性的方法,包括下列步骤:
●提供各含有包含核酸的生物学样品的多个运载体,其中各运载体含有用于标记所述运载体的至少2个核酸,其中各核酸至少包含至少4个核苷酸长度的不同核苷酸条码序列,其中这些不同核苷酸条码序列的组合产生可转移的分子鉴定条码,由此各可转移的分子鉴定条码对于收集体中的各运载体而不同,其特征在于,核苷酸条码序列在一侧或两侧侧接一个或多个允许所述核苷酸条码序列的鉴定的核苷酸条码序列标识符序列,且
其中各运载体含有对应于应用在所述运载体上的可转移的分子鉴定条码的条码标记。
●对样品的核酸序列中的一个或多个靶序列进行测序,并对包含核苷酸条码序列的核酸的部分进行测序,
●从测序的核酸中的核苷酸条码序列确定各运载体的可转移的分子鉴定条码,包括在序列数据内选择含有核苷酸条码序列的那些序列的步骤,其中所述选择步骤包括基于以定义的距离侧接核苷酸条码序列的恒定序列鉴定包含核苷酸条码序列预先定义的长度的序列的存在,并在选择的序列数据内测定核苷酸条码序列,
●将测定的可转移的分子鉴定条码与随运载体提供的条码标记比较,由此鉴定样品的同一性。
在该实施方式中,包含核酸的样品包含循环DNA,诸如胚胎或肿瘤DNA。
该方法的实施方式包括将衔接子连接到样品中的靶序列或其片段,并连接到包含核苷酸条码序列的核酸的步骤,且包括使用连接的衔接子作为测序模板而对靶序列和核苷酸条码序列进行测序的步骤。
该方法的实施方式包括实施所述核酸样品中的靶序列的富集步骤,并实施条码序列的富集步骤。
本方法包括多重测定。
该方法的实施方式包括下列步骤:向样品的靶序列附接样品特异性标签,任选地也在所述添加的样品中将相同的样品特异性标签附接到包含核苷酸条码序列的核酸。
在该方法的实施方式中,富集的核苷酸条码序列和富集的靶序列的测序通过并行测序方法实施。
在该方法的实施方式中,并行测序方法之前是合并来自不同样品的富集的核苷酸条码序列和富集的靶序列。
在该方法的实施方式中,在方法的随后步骤将定义进一步不同可转移的分子鉴定条码的进一步不同组的核苷酸条码序列添加到多核苷酸样品。
在该方法的实施方式中,用于富集靶序列的寡核苷酸相比用于富集条码扩增的可转移的分子鉴定条码寡核苷酸过量,或
在该方法的实施方式中用于富集条码扩增的可转移的分子鉴定条码寡核苷酸相比用于富集靶序列的寡核苷酸过量。
在该方法的实施方式中,包含核苷酸条码序列的核酸具有与待测序的靶DNA类似的长度。
在该方法的实施方式中,运载体的使用者在它们的测序之前不知运载体中的核苷酸条码序列,且其中所述将测定的可转移的分子鉴定条码与提供的条码标记进行比较的步骤通过谘询含有可转移的分子鉴定条码与条码标记之间的关系的数据库来实施。
本发明的另一方面涉及包含用于在物品标记的核酸的运载体的收集体,其中各运载体含有至少2个标记用核酸,其中各核酸包含至少4个核苷酸长度的不同核苷酸条码序列,其中所述这些不同核苷酸条码序列的组合产生可转移的分子鉴定条码,由此各可转移的分子鉴定条码对于收集体中的各运载体而不同,其特征在于,核苷酸条码序列在一侧或两侧侧接一个或多个允许所述核苷酸条码序列的鉴定的核苷酸条码序列标识符序列,且
其中各运载体含有对应于应用在所述运载体上的可转移的分子鉴定条码的条码标记。
在特定实施方式中,运载体的收集体适合于将生物学样品,诸如含有DNA的样品应用于所述运载体上或中。
在该实施方式中,运载体含有下列中的一种或多种:稳定剂,防腐剂,去污剂,中和剂,核酸酶抑制剂,还原剂,或猝灭剂。
在特定实施方式中,各运载体含有所述核酸中的至少3个。
在特定实施方式中,核苷酸条码序列侧接用于通过捕获或扩增富集核苷酸条码序列的寡核苷酸序列。
在特定实施方式中,用于富集核苷酸条码序列的寡核苷酸序列用于选自下列的方法:1-步骤PCR,诸如引物延伸之后连接,或2-步骤PCR诸如引物延伸之后PCR,基于环化的扩增和纳米孔测序。
在特定实施方式中,核苷酸条码序列在一侧或两侧侧接一个或多个寡核苷酸结合序列,允许核苷酸条码序列中一个或两个寡核苷酸结合序列的基于杂交的序列捕获。
在特定实施方式中,核苷酸条码序列侧接PCR引物的引物结合序列,允许所述条码的扩增和测序。
在特定实施方式中,核苷酸条码序列侧接用于对所述条码进行测序的引物结合序列。
在特定实施方式中,包含条码序列的核酸包含在克隆载体的片段中,例如通过所述载体的片段化或消化获得的。
在典型实施方式中,运载体用于接收生物学样品的容器。
在典型实施方式中,运载体是用于应用和/或固定生物学样品的基体。
以上所述的运载体的收集体包含100至1百万个运载体,至1千万个运载体,至1亿个运载体,至多于1亿个运载体。
另一方面涉及制备包含可转移的分子鉴定条码的运载体的收集体的方法,包括下列步骤:
(a)提供不同核酸的第1收集体,其包含具有条码序列在所述收集体中的核酸之间不同的至少4个核苷酸长度且具有一个或多个核苷酸条码序列标识符序列的核苷酸条码序列,允许核酸中核苷酸条码序列的存在的鉴定,
(b)向各运载体添加步骤(a)的核酸中的至少2个的组合,以获得各具有由核苷酸条码序列中的差异定义的独特可转移的分子鉴定条码的运载体的收集体,
(c)将各运载体用对应于由不同核苷酸条码序列定义的可转移的分子鉴定条码的标记物进行标记,
(d)存储标记物和可转移的分子鉴定条码中核苷酸条码序列的序列之间的关系。
在这些方法的实施方式中,实施步骤(c)中的标记和步骤(d)中的存储,使得运载体的随后使用者不能推导标记物和可转移的分子鉴定条码之间的关系,直到已确定不同核苷酸条码序列。
在这些方法的实施方式中,在步骤(b)之前通过定义多个具有不同核苷酸条码序列的核酸来制造核酸的第2收集体,且其中在步骤(b)中,将至少3个多个核酸的独特组合添加到各运载体。
在这些方法的实施方式中,通过一起添加多个核酸来制备第2收集体。
在这些方法的实施方式中,多个是一对2个核酸。
本发明的另一方面涉及制备具有包含可转移的分子鉴定条码的载体的宿主的收集体的方法,包括下列步骤:
(a)在宿主中提供核酸载体的第1收集体,其中所述载体包含在收集体中核酸载体之间不同的具有至少4个核苷酸长度的核苷酸条码序列,且在核苷酸条码序列的一侧或两侧包含一个或多个允许所述条码的鉴定的核苷酸条码序列标识符序列,
(b)提供宿主的个体集落,并对多个集落的核酸载体中的条码进行测序,以获得分离的集落的第2收集体,其中各集落包含具有不同核苷酸条码序列的核酸载体。
本发明的另一方面涉及制备包含可转移的分子鉴定条码的运载体的收集体的方法,所述方法包括下列步骤:
(a)如之前权利要求定义提供宿主的收集体,
(b)为集落的选择而从所述集落分离载体,
(c)向运载体的收集体中的各运载体添加具有不同核苷酸条码序列的至少2个步骤(b)的核酸载体的组合,以获得各具有由运载体之间的核苷酸条码序列中的差异定义的独特可转移的分子鉴定条码的运载体的收集体,
(d)将各运载体用对应于由不同核苷酸条码序列定义的可转移的分子鉴定条码的标记物进行标记,
(e)存储标记物和可转移的分子鉴定条码中的核苷酸条码序列的序列之间的关系。
在这些方法的实施方式中,在步骤(c)之后,将载体由限制酶片段化。
在这些方法的实施方式中,实施步骤(d)中的标记和步骤(e)中的存储,使得运载体的随后使用者无法推导标记物和可转移的分子鉴定条码之间的关系,直到已确定不同核苷酸条码序列。
在这些方法的实施方式中,,在步骤(c)之前,通过定义多个分离的核酸载体来从步骤(b)的收集体制备载体的进一步收集体,其中在所述多个中,各载体具有不同核苷酸条码序列。
本发明还包含下列实施方式:
1.鉴定多个包含核酸的生物学样品的同一性的方法,所述方法包括下列步骤:
●提供多个作为基体或容器的运载体,各含有包含核酸的生物学样品,
其中各运载体除了包含核酸的样品之外还包含至少2个用于对所述运载体进行标记的核苷酸条码核酸,其中这至少2个核苷酸条码核酸中的每一个包含至少4个核苷酸长度的不同最小核苷酸条码序列,其中所述这些不同核苷酸条码核酸的组合产生可转移的分子鉴定条码,由此各可转移的分子鉴定条码对于各运载体而不同,其特征在于,所述至少2个核苷酸条码核酸中的最小核苷酸条码序列在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌核苷酸条码序列标识符序列,及在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌提取序列,允许所述最小核苷酸条码序列的鉴定,且
其中各运载体含有对应于应用在所述运载体上的可转移的分子鉴定条码的宏观条码标记,
●对生物学样品的核酸中的一个或多个靶序列进行测序,且对包含最小核苷酸条码序列的核苷酸条码核酸中的靶序列进行测序,其中所述生物学样品的核酸中的靶序列的测序和包含最小核苷酸条码序列的核苷酸条码核酸的靶序列的测序通过并行测序方法实施,其中任选地在所述并行测序方法之前合并生物学样品的核酸中的靶序列和来自不同样品的包含最小核苷酸条码序列的核苷酸条码核酸的靶序列,
●从获得的序列数据确定和选择来源于核苷酸条码核酸的序列,包括从获得的序列数据选择那些来源于核苷酸条码核酸的序列的步骤,其中所述选择步骤包括具有一个或多个与最小核苷酸条码序列相邻的核苷酸条码序列标识符序列的序列的鉴定;
●在分离的具有核苷酸条码序列标识符序列的序列内确定和选择最小核苷酸条码序列,包括下列步骤:选择存在于2个定义的长度的提取序列之间的序列,或选择与1个定义的长度的提取序列相邻存在的序列,及将这些选择的序列确定为最小核苷酸条码序列,
●基于随运载体提供的宏观条码标记来比较测定的最小核苷酸条码序列与预期的最小核苷酸条码序列,由此鉴定样品的同一性和/或混杂。
2.实施方式1的方法,包括将衔接子连接于样品中的靶核酸和包含核苷酸条码序列的核酸的步骤,且包括使用连接的产物作为测序模板而对靶序列和核苷酸条码序列进行测序的步骤。
3.实施方式1或2的方法,包括下列步骤:实施所述核酸样品中的靶序列的富集步骤,及实施核苷酸条码序列的富集步骤。
4.实施方式1~3之任一项的方法,包括下列步骤:向样品的靶序列附接样品特异性合并条码,任选地也将相同的样品合并条码附接到所述样品中的包含核苷酸条码序列的核酸。
5.实施方式1~4之任一项的方法,其中所述核苷酸条码序列具有类似于待测序的靶核酸或富集的靶核苷酸序列的长度。
6.实施方式1~5之任一项的方法,所述方法包括收集样品的步骤和从所述样品分离核酸的步骤,其中将第1组的至少2个标记用核苷酸条码核酸添加到收集的样品中,且其中将第2组的至少2个标记用核苷酸条码核酸添加到分离的核酸中。
7.作为基体或容器的运载体的收集体,包含用于标记物品的核酸,其中各运载体在样品核酸之外还包含至少2个标记用核苷酸条码核酸,其中各核苷酸条码核酸包含至少4个核苷酸长度的不同最小核苷酸条码序列,其中所述不同核苷酸条码核酸中的至少2个具有长度相同的最小核苷酸条码序列,其中所述这些不同核苷酸条码核酸的组合产生可转移的分子鉴定条码,由此各该可转移的分子鉴定条码对于收集体中的各运载体而不同,
其特征在于,所述至少2个核苷酸条码核酸中的最小核苷酸条码序列在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌核苷酸条码序列标识符序列,和/或在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌提取序列,允许所述核苷酸条码序列的鉴定,且其中各运载体含有对应于应用于所述运载体的可转移的分子鉴定条码的宏观条码标记。
8.实施方式7的收集体,其中所述标记用核苷酸条码核酸不包含将核酸转录为RNA的序列。
9.实施方式7或8的运载体的收集体,其中所述运载体适合于将生物学样品应用于所述运载体上或中。
10.实施方式7~9之任一项的运载体的收集体,其中所述样品是含有DNA的样品。
11.实施方式7~9之任一项的运载体的收集体,其中所述样品是含有RNA的样品。
12.实施方式7~11之任一项的运载体的收集体,
其中最小核苷酸条码序列侧接用于通过扩增富集最小核苷酸条码序列的寡核苷酸序列,或
其中最小核苷酸条码序列在一侧或两侧侧接一个或多个寡核苷酸结合序列,允许核苷酸条码序列中一个或两个寡核苷酸结合序列上基于杂交的序列捕获。
13.实施方式12的收集体,其中所述所述至少2个核苷酸条码核酸中的最小核苷酸条码序列在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌核苷酸条码序列标识符序列,和/或在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌提取序列,
14.实施方式7~13之任一项的运载体的收集体,其中所述扩增选自:1-步骤PCR,2-步骤PCR,引物延伸之后连接和PCR,基于环化的扩增和纳米孔测序,
15.实施方式7~14之任一项的运载体的收集体,其中所述最小核苷酸条码序列侧接PCR引物的引物结合序列,所述引物结合序列允许所述最小核苷酸条码序列的扩增和测序,且任选地,允许核苷酸条码序列标识符和提取序列的扩增和测序。
16.实施方式7~15之任一项的运载体的收集体,其中所述核苷酸条码核酸包含在克隆载体的片段中。
17.实施方式7~16之任一项的运载体的收集体,其中所述核苷酸条码核酸是通过所述载体的片段化或消化而获得的片段。
18.实施方式16或17的运载体的收集体,其中所述载体或载体片段包含选自SEQID NO:1~SEQ ID NO:20的序列。
19.实施方式16或17的运载体的收集体,其中所述载体或载体片段包含SEQ IDNO:1和SEQ ID NO:11的序列。
20.实施方式7~19之任一项的运载体的收集体,还包含一种或多种引物,其用于捕获包含所述核苷酸条码序列的核酸。
21.实施方式7~20之任一项的运载体的收集体,还包含一种或多种引物,其用于扩增包含所述核苷酸条码序列的核酸。
22.制备作为基体或容器的运载体的收集体的方法,所述运载体包含可转移的分子鉴定条码,所述方法包括下列步骤:
(a)提供不同核苷酸条码核酸的第1收集体,包含至少4个核苷酸的最小核苷酸条码序列,其中所述不同核苷酸条码核酸中的至少2个具有长度相同的最小核苷酸条码序列,其中最小核苷酸条码序列在所述收集体中的核苷酸条码核酸之间不同,且一个或多个非-病毒和非-细菌核苷酸条码序列标识符序列和/或一个或多个非-病毒和非-细菌提取序列,允许核苷酸条码核酸中最小核苷酸条码序列的鉴定,
(b)向各运载体添加步骤(a)的核苷酸条码核酸中的至少2个的组合,以获得各具有由最小核苷酸条码序列的混合物中的差异定义的独特可转移的分子鉴定条码的运载体的收集体,
(c)用对应于由最小核苷酸条码序列的不同混合物定义的可转移的分子鉴定条码的宏观条码标记对各运载体进行标记,
(d)存储宏观标记和可转移的分子鉴定条码中的最小核苷酸条码序列的混合物之间的关系。
23.实施方式22的方法,其中所述所述至少2个核苷酸条码核酸中的最小核苷酸条码序列在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌核苷酸条码序列标识符序列,和/或在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌提取序列。
24.实施方式22或23的方法,其中所述不同核酸的第1收集体不包含将核酸转录为RNA的序列。
25.实施方式22~24之任一项的方法,其中核苷酸条码核酸包含选自SEQ ID NO:1~SEQ ID NO:20的序列。
26.实施方式22~25之任一项的方法,其中所述核苷酸条码核酸包含SEQ ID NO:1和SEQ ID NO:11的序列。
27.实施方式22~26之任一项的方法,其中实施步骤(c)中的标记和步骤(d)中的存储,使得运载体的随后使用者不能推导宏观条码标记和可转移的分子鉴定条码之间的关系,直到已确定不同核苷酸条码序列。
28.制备具有包含核苷酸条码序列的载体的宿主的收集体的方法,所述方法包括下列步骤:
(a)提供宿主中的核酸载体的第1收集体,其中所述载体包含在收集体中的核苷酸条码核酸载体之间不同的具有至少4个核苷酸长度的最小核苷酸条码序列的核苷酸条码序列,其中所述不同核苷酸条码序列中的至少2个具有长度相同的最小核苷酸条码序列,且在最小核苷酸条码序列的一侧或两侧包含一个或多个非-病毒和非-细菌核苷酸条码序列标识符序列和/或一个或多个非-病毒和非-细菌提取序列,允许所述最小核苷酸条码序列的鉴定,
(b)提供宿主的个体集落且对多个集落的核酸载体中的核苷酸条码序列进行测序,以获得分离的集落的第2收集体,其中各集落包含具有不同核苷酸条码序列的核酸载体。
29.实施方式28的方法,其中所述核酸载体不包含将核酸转录为RNA的序列。
30.实施方式28或29的方法,其中所述载体包含选自SEQ ID NO:1~SEQ ID NO:20的序列。
31.实施方式28或29的方法,其中所述载体包含SEQ ID NO:1和SEQ ID NO:11的序列。
32.制备作为基体或容器的运载体的收集体的方法,所述运载体包含可转移的分子鉴定条码,所述方法包括下列步骤:
(a)提供实施方式28中定义的宿主的收集体,
(b)为集落的选择而从所述集落分离载体,
(c)向运载体的收集体中的各运载体添加具有不同核苷酸条码序列的至少2个核酸载体的组合,其中所述步骤(b)的核酸载体的至少2种具有长度相同的最小核苷酸条码序列,以获得各具有由运载体中的最小核苷酸条码序列的混合物之间的差异定义的独特可转移的分子鉴定条码的运载体的收集体,及任选地由限制酶对载体进行片段化,
(d)用对应于由不同最小核苷酸条码序列的混合物定义的可转移的分子鉴定条码的宏观条码标记对各运载体进行标记,
(e)存储宏观条码标记和可转移的分子鉴定条码中的最小核苷酸条码序列的序列之间的关系。
33.追踪一组运载体中的核苷酸条码核酸的方法方法包括下列步骤:
●提供多个无基因组DNA或RNA的运载体,其包含至少2个用于对所述运载体进行标记的核苷酸条码核酸,其中这至少2个核苷酸条码核酸中的每一个包含至少4个核苷酸长度的不同最小核苷酸条码序列,其中所述这些不同核苷酸条码核酸的组合产生可转移的分子鉴定条码,由此各可转移的分子鉴定条码对于各运载体而不同,其特征在于,所述至少2个核苷酸条码核酸中的最小核苷酸条码序列在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌核苷酸条码序列标识符序列,及在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌提取序列,允许所述最小核苷酸条码序列的鉴定,且
其中各运载体含有对应于应用在所述运载体上的可转移的分子鉴定条码的宏观条码标记,
●由并行测序方法对包含最小核苷酸条码序列的核苷酸条码核酸中的靶序列进行测序,其中任选地在所述并行测序方法之前合并包含最小核苷酸条码序列的核苷酸条码核酸的靶序列,
●从获得的序列数据确定和选择来源于核苷酸条码核酸的序列,包括从获得的序列数据选择那些来源于核苷酸条码核酸的序列的步骤,其中所述选择步骤包括具有一个或多个与最小核苷酸条码序列相邻的核苷酸条码序列标识符序列的序列的鉴定;
●在分离的具有核苷酸条码序列标识符序列的序列内确定和选择最小核苷酸条码序列,包括下列步骤:选择存在于2个定义的长度的提取序列之间的序列,或选择与1个定义的长度的提取序列相邻存在的序列,及将这些选择的序列确定为最小核苷酸条码序列,
●基于随运载体提供的宏观条码标记来比较测定的最小核苷酸条码序列与预期的最小核苷酸条码序列。
34.鉴定多个包含核酸的生物学样品的同一性的方法,所述方法包括下列步骤:
●提供多个作为基体或容器的运载体,各含有包含核酸的生物学样品,
其中各运载体在包含核酸的样品之外还包含至少2个用于对所述运载体进行标记的核苷酸条码核酸,其中这至少2个核苷酸条码核酸中的每一个包含至少4个核苷酸长度的不同最小核苷酸条码序列,其中所述这些不同核苷酸条码核酸的组合产生可转移的分子鉴定条码,由此各可转移的分子鉴定条码对于各运载体而不同,其特征在于,所述至少2个核苷酸条码核酸中的最小核苷酸条码序列在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌提取序列,且
其中各运载体含有对应于应用在所述运载体上的可转移的分子鉴定条码的宏观条码标记,
●对生物学样品的核酸中的一个或多个靶序列进行测序,且对包含最小核苷酸条码序列的核苷酸条码核酸中的靶序列进行测序,其中所述生物学样品的核酸中的靶序列的测序和包含最小核苷酸条码序列的核苷酸条码核酸的靶序列的测序通过并行测序方法实施,其中任选地在所述并行测序方法之前合并富集的生物学样品的核酸中的靶序列和来自不同样品的包含最小核苷酸条码序列的核苷酸条码核酸的靶序列,
●从获得的序列数据确定和选择最小核苷酸条码序列,包括下列步骤:选择存在于2个定义的长度的提取序列之间的序列,或选择与1个定义的长度的提取序列相邻存在的序列,及将这些选择的序列确定为最小核苷酸条码序列,
●基于随运载体提供的宏观条码标记来比较测定的最小核苷酸条码序列与预期的最小核苷酸条码序列,由此鉴定样品的同一性和/或样品is无混杂。
【发明详述】
【附图简述】
图1.NGS测序中待表征的单链核苷酸条码寡核苷酸的制备。
图2.从单链寡核苷酸制备双链核苷酸条码。
图3.单链或双链核苷酸条码序列的例
图4.核苷酸条码质粒和其线性化。
图5.为了高度并行测序而从线性化的核苷酸条码质粒制备测序模板:(A)在2-步骤PCR流程中;(B)在引物-延伸-连接/PCR流程中;(C)在片段化的DNA连接方法中,之后通过条码核苷酸序列的杂交来捕获。
图6.使用分开的多重反应的测定中可转移的核苷酸条码的使用。在此例中,实施2个分开的多重反应。添加到各多重PCR反应的针对核苷酸条码序列的2个引物中的至少1个在侧翼序列中具有不同引物结合位点至最小条码序列。各多重反应中获得的核苷酸条码扩增子具有不同长度,和/或一个或两个侧翼序列中的侧翼序列组成至最小条码区,从而可确定它们的来源。当在测定结束时观察到预期的条码,且观察到正确长度和/或侧翼序列组成的两个扩增子时,在样品之间和分开的反应之间未发生样品切换。当完全未观察到预期的条码时,在与另一样品的2个多联体切换时二者多联。当在预期的条码之外,观察到另一条码,但在具有预期的长度和/或侧翼序列组成的仅一个多联体的扩增子中观察到预期的条码,但在具有正确长度和/或侧翼序列组成的仅第2多联体的扩增子中观察到非-预期的条码时,仅第2多联体与另一样品的第2多联体切换。
图7.使用用于调查中的靶区的富集的2-步骤PCR流程的NGS测定中可转移的分子鉴定条码的使用;(7A)无样品切换,无混杂,(7B)样品切换,7C.样品混杂。
图8显示遗传测试中的可能的流程图,起始于含有可转移的分子鉴定条码的血收集器管直到最终有效遗传测试报道。平行实施测序的来源于核苷酸条码序列的序列和测序的来源于调查中的靶核酸的序列二者的生物信息学处理。
图9显示遗传测试中的可能的流程图,起始于含有可转移的分子鉴定条码的微型管,该管被转移到生物学样品,直到最终有效遗传测试报道。
图10显示遗传测试中的可能的流程图,起始于含有可转移的分子鉴定条码的血收集器管,直到最终有效遗传测试报道,但其中,首先实施测序的来源于核苷酸条码序列的序列的生物信息学处理,及测序的来源于仅依赖于来源于核苷酸条码的序列读长的结果分析起始的调查中的靶核酸的序列的生物信息学处理,即,是否无样品切换或混杂。
图11显示遗传测试中的可能的流程图,其中生物学样品,或其衍生物随总测试处理中的2个不同步骤的不同可转移的分子鉴定条码添加两次,以便总过程的质量控制子过程。
【定义】
除非另外特定,本申请(包括说明书和权利要求)中使用的术语如下定义。为清楚起见,特别定义这些术语,但全部定义与本领域技术人员对这些术语的理解一致。
需注意,除非情景明显另外决定,单数形式“a”,“an”,和“the”包括复数个指示物。
当指称变量时,术语“本文所用的”,“本文定义的那些”,及“以上定义的那些”通过引用合并变量的广定义以及优选的,更优选的和最优选的定义(如果存在)。
如本文所用,术语“核酸”指称由核苷酸,例如脱氧核糖核苷酸或核糖核苷酸组成的聚合物。其也包括合成产生的化合物,但其具有变体糖-磷酸主链(聚酰胺,例如肽核酸(PNA),连接的核酸(LNA),聚吗啉代聚合物),和/或一个或多个碱基的变体,但其仍可与天然存在的核酸以序列特定方式杂交,与2个天然存在的核酸类似,即,参与杂交反应,通过Pi电子堆叠和氢键,诸如Watson-Crick碱基配对相互作用,摆动相互作用等合作性相互作用。它们可为单链或双链,或甚至三联体DNA或更复杂结构。术语“核酸”可为特定的核酸或包含为所述核酸的补体的核苷酸序列的核酸,包含与特定的核酸具有大于50%,55%,60%,65%,70%,75%,80%,85%,90%或95%序列同一性的核苷酸序列的核酸,或包含与特定的核酸的补体具有大于50%,55%,60%,65%,70%,75%,80%,85%,90%或95%序列同一性的核苷酸序列的核酸。
核酸可为天然存在的核酸,基因组来源的核酸,线粒体核酸,cDNA来源的核酸(来源于mRNA),来源于细菌,病毒,真菌的核酸,合成来源的核酸,非-天然存在的核酸,DNA和/或RNA的类似物,和/或衍生物,和/或上述任何的组合。核酸修饰可包括合并另外的电荷,极化率,氢键合,静电相互作用,及对个体核酸碱基或对作为全体的核酸的官能性的化学基团的添加。该修饰可包括在5'和/或3'端的阻断基团,例如以改善稳定性,碱基修饰诸如2'-位置糖修饰,5-位置嘧啶修饰,8-位置嘌呤修饰,在胞嘧啶环外胺的修饰,5-溴-尿嘧啶的取代,主链修饰,罕见的碱基配对组合诸如异碱基异胞苷和异胍,甲基化,等。涵盖其他类型的核酸。
核酸可为来源于完全化学合成过程,诸如固相-介导的化学合成,来自生物学源,诸如通过从产生核酸的任何物种分离,或来自涉及由分子生物学工具(诸如DNA复制,连接,PCR扩增,反转录,或那些过程的组合)的核酸操作的过程,或其组合。
核酸修饰可直接或间接由另一分子(其他分子可进而结合于其)辅助分离和/或检测。该修饰可为可与链霉亲和素相互作用的一个或多个生物素组。其他用于该目的的相互作用分子可为生物素/亲和素,生物素/生物素-结合-分子(例如NEUTRAVIDINT修饰的亲和素(Pierce Chemicals Rockford,IL),谷胱甘肽S-转移酶(GST)/谷胱甘肽,抗体/抗原,抗体/抗体-结合-分子,地高辛配基/抗-地高辛配基,DNP(2,4-二硝基苯基)/抗-DNP抗体,麦芽糖-结合-蛋白/麦芽糖,鳌合(例如(Co2+,Ni2+)/聚组氨酸,普流尼克偶联技术。
如本文所用,本文所用的术语“脱氧核糖核酸”和“DNA”表示由脱氧核糖核苷酸组成的聚合物。
如本文所用,本文所用的术语“核糖核酸”和“RNA”表示由核糖核苷酸组成的聚合物。
如本文所用,术语“寡核苷酸”指称相对短,通常短于200个核苷酸,更具体而言,短于100个核苷酸,最特别,短于50个核苷酸,但长度通常长于5个核苷酸的核酸。一般而言,寡核苷酸是单链DNA分子。该寡核苷酸可携带修饰,诸如,例如被生物素化的,5'磷酸化的。‘寡核苷酸’的同义术语是‘寡聚物’。
如本文所用,术语“靶核酸”是会被表征的存在于物品,诸如生物学样品中的核酸或其部分。在多数实例中,此核酸的部分是表征过程的靶。
如本文所用,术语“靶核苷酸序列”指称包括靶核酸,诸如,例如,通过扩增靶核酸获得的扩增产物,通过测序靶核酸获得的测序产物,RNA靶核酸的反转录后产生的cDNA的核苷酸序列的分子。
如本文所用,术语“核苷酸条码”指称具有特定序列的靶核酸,或其部分,即,用作条码或鉴定手段。不同核苷酸条码具有不同条码序列,其被称为不同类型的核苷酸条码。如果核苷酸条码由DNA建造,其被称为“DNA-型核苷酸条码”,如果核苷酸条码由RNA建造,其被称为“RNA-型核苷酸条码”。实际条码序列,如本文所用,术语“最小核苷酸条码”可侧接在给定的类型的核苷酸条码中同一的恒定序列。这些侧翼恒定序列不在任何天然存在的基因组,细菌或病毒DNA中编码(并且,由此不见于克隆载体,或更特别克隆载体主链),或具有与在任何天然存在的基因组,病毒,细菌DNA中编码的序列小于1%,小于2%,小于3%,小于4%,小于5%,小于10%,小于15%,小于20%,小于25%,小于30%,小于40%,小于50%同源的序列。
如本文所用,术语“可转移的分子鉴定条码”指称单种类型的核苷酸条码,或不同类型的核苷酸条码的混合物。在由不同类型的核苷酸条码的混合物建造的可转移的分子鉴定条码中,可转移的分子鉴定条码可携带全部,但一个与其他可转移的分子鉴定条码共同的核苷酸条码,以便仍是独特可转移的分子鉴定条码。条码的同义术语可为索引,标签,MID(分子标识符)。术语‘可转移的分子鉴定条码’也指称在给定的时刻在不溶性相中,但在处理期间变得(再次)可溶的一个或多个核苷酸条码。如果可转移的分子鉴定条码由DNA建造,其被称为“DNA-型可转移的分子鉴定条码”,如果可转移的分子鉴定条码由RNA建造,其被称为“RNA-型可转移的分子鉴定条码”。
如本文所用,术语“宏观条码标记’指称打印的条码纸标记(例如视觉1D(线)或2D条码纸标记物)或RFID(射频鉴定条码)条码标记。
用于物品(例如受者支架)标记。该标记可由不同手段实施,诸如在受者支架的壁外附接独特纸条码。当受者支架含有独特可转移的分子鉴定条码时,独特宏观条码标记可明确地关联于且连接于对应可转移的分子鉴定条码。
如本文所用,术语“互补”指称2个核苷酸之间精确的配对能力。如果在核酸的给定的位置的核苷酸能与另一核酸的核苷酸氢键合,则2个核酸被认为在该位置彼此互补。2个单链核酸分子之间的互补性可为“部分”,其中核苷酸中的仅一些结合,或当单链分子之间存在总互补性时,其可为完全。核酸链之间的互补性程度对核酸链之间杂交的效率和强度具有显著影响。
如本文所用,术语“特异性杂交”指称在定义的严格度条件下不与存在于杂交混合物中的其他核酸或核苷酸序列实质性结合的情况下核酸与靶核酸或靶核苷酸序列结合。本领域技术人员认可,降低杂交条件的严格度允许待耐受的序列错配。杂交在严格杂交条件下进行。短语“严格杂交条件”通常指称在定义的离子强度和pH下约5℃~约20℃或特定序列的熔解温度(Tm)以下25℃的范围的温度。如本文所用,Tm是一群双-链化的核酸分子变得半-解离为单链的温度。计算核酸的Tm的方法为本领域熟知(实验室手册,由Sambrook andRussel,第3版,冷泉港实验室出版社,2001)。杂交体的熔解温度(并且,由此,用于严格杂交的条件)受各种因素影响,诸如存在于溶液中或固定的引物或探针的长度和性质(DNA,RNA,碱基组成)和靶核酸的性质(DNA,RNA,碱基组成)等,以及盐和其他组分(例如,甲酰胺,硫酸葡聚糖,聚乙二醇的存在或缺失)的浓度。
如本文所用,术语“引物”指称能在适当的条件下(即,在4种不同的三磷酸核苷和聚合用试剂,诸如DNA或RNA聚合酶或反转录酶的存在下),在适当的缓冲液中和在适合的温度与核酸杂交(而且,称为“退火”)并充当核苷酸(DNA或RNA)聚合的起始位点的寡核苷酸。
如本文所用,术语“引物结合位点”或“引物位点”指称引物杂交而引发核苷酸合成的靶核酸或靶核苷酸序列段。可转移的分子鉴定条码中的引物结合位点在任何天然存在的基因组,细菌或病毒DNA(并且,由此不见于克隆载体,或更特别克隆载体主链)中不编码,或具有与在任何天然存在的基因组,病毒,细菌DNA中编码的序列小于1%,小于2%,小于3%,小于4%,小于5%,小于10%,小于15%,小于20%,小于25%,小于30%,小于40%,小于50%同源的序列。引物结合的靶核酸或靶核苷酸序列段在本文也可被称为寡核苷酸结合序列。引物结合位点一般至少5个核苷酸长且更一般10~30个核苷酸范围,或甚至更长。较短引物结合位点通常需要更低温度,以在引物和模板之间形成足够稳定的杂交复合体。引物无需反映模板的确切的序列,但必须足够互补,以与模板杂交。引物被认为与另一核酸退火,如果引物,或其部分,与核酸内的核苷酸序列杂交。引物与特定核苷酸序列杂交的说法不旨在暗示引物完全或唯独与该核苷酸序列杂交。
如本文所用,术语“引物对”指称一组引物包括与待扩增的DNA序列的5'端的补体杂交的5'“上游引物”和与待扩增的序列的3'端杂交的3'“下游引物”。与核苷酸条码序列杂交的引物具有在任何天然存在的基因组,细菌或病毒DNA中不编码的序列(并且,由此不见于克隆载体,或更特别克隆载体主链),或具有与在任何天然存在的基因组,病毒,细菌DNA中编码的序列小于1%,小于2%,小于3%,小于4%,小于5%,小于10%,小于15%,小于20%,小于25%,小于30%,小于40%,小于50%同源的序列。
本领域技术人员会认可,术语“上游”和“下游”不旨在限制,但更提供例证性方向。同义术语是正向和反向引物,左和右引物,+(正)和-(负)引物,5'和3'引物。一个引物在靶核酸的正DNA链中具有引物结合位点,而第2引物在负DNA链中具有引物结合位点的“引物对”可引发PCR反应。“引物对”也可指称一对引物,其中两个引物在靶核酸的相同的DNA链(±DNA链)中具有引物结合位点,诸如在连接链反应测定或引物-延伸-连接测定中使用的引物对。
引物选择为扩增后检测的大多数扩增子具有它们来自在靶核酸的各端在预期的位点引发的“预期的长度”,与来自靶核酸内引发的扩增子(产生与预期的长度不同长度的扩增子)相反。在各种实施方式中,引物选择为所获得的扩增子的至少50%,至少55%,至少60%,至少65%,至少70%,至少75%,至少80%,至少85%,至少90%,至少95%,至少96%,至少97%,至少98%,或至少99%具有预期的长度。
如本文所用,术语“适配体”指称具有添加到靶核苷酸序列,由此可甚至成为靶核苷酸序列的部分的一个或多个预定的功能的预定的核苷酸序列。适配体可添加在靶核酸或靶核苷酸序列的一端,或两端。当适配体添加在两端时,它们可相对序列同一或不同。在两个位点侧接适配体的靶核苷酸序列可具有线性或环化的形式。添加的适配体可具有一种或多种特定类型的预定的功能。如本文所用,术语“适配体”因此可指称一个适配体或多个适配体。当包括多于一个功能时,功能可为相同的类型或不同类型。不同类型的适配体可在总体适配体中在任何位置合并。适配体的同义术语,例如是核苷酸适配体,通用适配体,标签,核苷酸标签,通用标签。
预定的适配体或适配体功能的类型的例,虽不限制,可为引物序列,用于DNA合成的引发结合或退火位点,测序用引发结合或退火位点,寡核苷酸杂交位点,一种或多种限制酶的识别位点,条码序列,固定序列,用于纳米孔测序的发动机蛋白的前导序列-适配体(Oxford Nanopore Technologies),或对于随后处理有用的其他识别或结合序列,以上描述的连接一个或多个适配体的接头或间隔物功能。而且,如本文所用,参照特定适配体序列也指称与任何该序列的互补体,使得在互补复制后,会获得特定描述的序列。
当不同适配体存在于总体适配体中时,建造该不同适配体的核苷酸序列单元可定位为非-重叠不同相邻序列单元和/或重叠序列单元。例如,会用作DNA合成反应的引物结合位点的20个核苷酸长适配体功能和用于给定目标核苷酸序列的捕获/分离的20个核苷酸长适配体功能可重叠,且共同具有例如10个核苷酸序列,从而两个适配体的组合的序列是30个核苷酸长,而非40个核苷酸。
如本文所用,术语‘连接适配体’指称完全或部分双链DNA分子。一般而言,它们用于它们的连接于其他DNA分子。它们通常从2个可能部分,互补杂交寡核苷酸的混合物制备。部分双链连接适配体可具有发夹适配体。发夹适配体的功能是要防止DNA分子在连接后不在它们的5'端杂交,例如防止连接。另一发夹功能是发夹-蛋白结合而辅助纳米孔测序(Oxford Nanopore Technologies)的的发夹-适配体,连接适配体也可从专利US7803550中描述的包含倒置的重复子和环的单茎-环寡核苷酸产生。全部这些连接适配体可在实际连接位点具有1个或更多非-互补核苷酸,其可辅助和/或允许定向连接。例如,连接适配体可具有可与双链靶核苷酸序列的3'A-悬伸杂交的3'T悬伸而辅助连接。
如本文所用,术语‘合并条码‘指称为了不同处理的DNA样品的更有效(欠耗时)和/或经济的合并而标记靶核苷酸序列的条码。通常它们存在于连接适配体或用于DNA合成或扩增的引物中。合并条码由此向靶核苷酸序列添加适配体功能,其然后编码关于产生的靶核苷酸序列的信息。例如,不同合并条码(具有不同条码序列)可用于从来自不同个体的各许多不同样品扩增一种或多种靶核酸。例如,不同合并条码(具有不同条码序列)可用于从来自生物学样品的各许多不同个体细胞扩增一种或多种靶核酸。合并条码核苷酸序列由此分别指示得到的靶核苷酸序列的样品或细胞来源。此允许在下游过程中来自不同样品的不同类型的合并-标条码的靶核苷酸序列的组合。一旦已实施合并,此将各样品的流程的总数简化为全部合并的样品的单个流程。一个应用会是由高度并行测序对不同靶核苷酸序列进行测序。高度并行测序方法和设备的测序输出是巨大的,且对于单样品而言对于许多应用太高。全容量的高度并行测序设备可通过组合来自不同样品/个体的不同合并-标条码的靶核苷酸序列来以最经济的方式使用。在测序后,从靶核苷酸序列获得的不同序列可根据存在的合并-条码序列分组,由此分配给原样品,且在下游流程中再次进一步独立地处理和分析。这些合并条码不同于作为本发明的基础的“可转移的分子鉴定条码”。条码的同义术语可为索引,标签,核苷酸标签,MID(分子标识符)。
合并条码可像这样添加到任何靶核酸或靶核苷酸序列,包括可转移的分子鉴定条码,或与其他靶核酸或靶核苷酸序列诸如(来自)个体基因组DNA组合。来源于可转移的分子鉴定条码的靶核苷酸序列会然后具有2个条码序列,来源于可转移的分子鉴定条码序列的最小条码序列和来源于合并条码序列的条码序列。合并条码可为在一端侧接靶核苷酸序列的一个条码,或可为在各端侧接靶核苷酸序列的2个分开的条码。对于后者而言,2个分开的条码可为同一或不同(双指标)。对于后者而言,2个条码端确定组合的一个合并条码,且组合是独特的。
如本文所用,术语“扩增”指称一般以模板-依赖性方式再现至少一部分至少一个靶核酸的任何手段(例如线性地,指数地,等温地,热循环),包括无限制地,用于扩增核酸序列的广普技术。实施扩增步骤的例证性手段包括DNA聚合酶反应,引物延伸,反转录,PCR,连接酶链反应(LCR),寡核苷酸连接检定(OLA),连接酶检测反应(LDR),连接之后Q-复制酶扩增,基于环化的DNA合成或扩增(HaloPlexTM),分子逆转探查(MIP)DNA合成,链位移扩增(SDA),超分支的链位移扩增,多位移扩增(MDA),滚环扩增(RCA),环介导的等温扩增(LAMP),智能扩增处理(SMAP),等温线和嵌合引物-起始的核酸扩增基于核酸链的扩增(NASBA),转录-介导的扩增(TMA),等,包括多重版本和其组合,例如但不限于,PCR/PCR(2-步骤PCR),引物延伸/OLA,引物延伸/OLA/PCR,OLA/PCR,MIP/PCR,LDR/PCR,PCR/PCR/PCR(例如PCR/(槽式-)PCR/(合并-)PCR),PCR/PCR/LDR,PCR/LDR,LCR/PCR,PCR/LCR(而且,知道为组合的链反应--CCR)等。该技术的描述可尤其见于Ausbel等人;PCR引物:实验室手册,Diffenbach,Ed.,冷泉港出版社(1995);The Nucleic Acid Protocols Handbook,R.Rapley,ed.,Humana Press,Totowa,N.J.(2002);Innis et al.,PCR Protocols:AGuide to Methods and Applications,Academic Press(1990)。
虽不限于此,可用于扩增和处理DNA或RNA的DNA聚合酶,DNA连接酶,反转录酶,及其突变体和变体的例是:DNA聚合酶I,DNA聚合酶I大Klenow片段,T4DNA聚合酶,T7DNA聚合酶,末端脱氧核苷酰转移酶,T4DNA连接酶,Taq DNA聚合酶,AmpliTaqTaq DNA聚合酶High保真度,Tfl DNA聚合酶,Tli DNA聚合酶,Tth DNA聚合酶,DNA聚合酶,phi29DNA聚合酶,Bst DNA聚合酶,Taq DNA连接酶,Pfu DNA连接酶,AMV反转录酶,MMLV反转录酶。
如本文所用,术语“扩增子”指称通过由核酸扩增技术,诸如例如PCR扩增特异性核酸序列而获得的靶核苷酸序列或其收集体(群)。术语“扩增子”广泛地包括由任何扩增方法产生的分子的任何收集体。
如本文所用,术语“测序模板制备”指称为测序制备靶核酸,或靶核苷酸序列的方法和反应。一般而言,在该制备的结尾,获得侧接一个或多个适配体的线性或环状靶核苷酸序列。仅为测序模板的制备而需要一些适配体,而仅实际测序需要其他适配体,或其组合。在此时刻,最高度并行测序技术需要特定相应适配体序列,以便在它们的相应测序平台上实施测序。
该适配体可通过扩增方法在给定的步骤添加。例如,通过PCR,其中至少一个引物包含位于靶向-特异性部分的5'端的靶向-特异性结合位点和适配体,第2引物包含仅靶向-特异性部分,或位于靶向-特异性部分的5'端的靶向-特异性部分和适配体。如本文所用,参照引物部分,术语“靶向-特异性”核苷酸序列指称可在适合的退火条件下与靶核酸或靶核苷酸序列中的引物结合位点特异性退火的序列。
或者,一种或多种适配体也可,例如,由连接适配体在靶核酸或靶核苷酸序列的一端或两端的连接反应添加。在多数应用中,将靶核酸首先例如由物理手段(例如超声处理,温度),由酶促手段,通过标签化来片段化。
用于制备测序模板的适配体甚至可具有用于制备环状靶核苷酸序列模板的大5'和3'悬伸。在HaloPlexTM测定中,更大5'和3'悬伸与靶向的DNA限制片段的两端杂交,由此引导靶向的片段形成环状DNA分子。适配体可含有一个或多个其他适配体功能,其在进一步处理和制备测序模板和/或实施实际测序中需要,其在环化后侧接靶核苷酸序列。
不同测序模板制备方法(测定,panel,试剂盒)例如但不限于:DNA样品制备(Illumina),DNA样品制备(Illumina),由引物-延伸-连接的TruSeq扩增子制备(Illumina),TruSeq链化的mRNA库制备(Illumina),TruSeq RNA Access库制备(Illumina),TruSeq靶向的RNA表达(Illumina),Ion XpressTM加片段库制备(Ion Torrent,Thermo Fisher Scientific),Ion AmpliSeqTM DNA和RNA库制备(Ion Torrent,ThermoFisher Scientific),固体TM片段库制备(Thermo Fisher Scientific),Titanimum库制备(454Life Sciences,Roche),DNA纳米球(DNB)库制备(Complete Genomics,BGI),SMRTbell模板制备(Pacific Biosciences),MinION库制备(Oxford Nanopore Technologies),GeneRead库制备(Qiagen),GeneRead DNAseq基因库制备(Qiagen),SureSelectXT库制备(Agilent Technologies),寡核苷酸-选择性测序(OS-SeqTM;Blueprint遗传学),库制备(New England BioLabs),Access阵列TM靶向的库富集(Fluidigm),SmartChipTM库制备(Wafergen Biosystems),为再测序而特定靶的多重扩增(MASTR)(Multiplicom),Devyser多重PCR NGS检定(Devyser),热-Seq靶富集(Roche),KAPA库制备(并且,Hyper制备物和Hyper Plus)(Kapabiosystems),PicoPLEXTM库制备(Rubicon基因组学),Accel-NGS DNA库制备(SwiftBiosciences),Accel-扩增子TM panel制备(Swift Biosciences),Archer FusionPlexTM和VariantPlexTM库制备(Archerdx),和Clonoseq库制备(适应性生物技术),由单引物富集技术(SPET)的库制备(NuGEN),QuantSeq-Flex靶向的RNA制备(Lexogen)。
为测序模板制备,可转移的分子鉴定条码可如为靶核酸,或与来自个体或患者,动物,植物,细菌,病毒或真菌的其他靶核酸诸如DNA或RNA混合。任何本领域技术人员会认可,可转移的分子鉴定条码返现在可从靶核酸制备测序模板的任何方法,测定或试剂盒中应用。
如本文所用,术语“探针”指称能通过一种或多种类型的化学键,通常通过互补碱基配对,通常通过氢键形成与互补序列的靶核酸结合,由此形成双联结构的核酸。探针与探针结合位点结合或杂交。探针可用可检测的标记来标记,以允许探针的轻易的检测,特别一旦探针已与其互补靶杂交。或者,探针可未标记,但可通过与被直接或间接标记的配体特异性结合来检测。探针可在尺寸上显著变化。一般而言,探针是至少7~15个核苷酸长度。其他探针是至少20,30,或40个核苷酸长。尚且,其他探针或许更长,是至少50,60,70,80,或90个核苷酸长。其他探针可还更长,是至少100,150,200或更多核苷酸长。探针也可为受以上任何值束缚的任何范围内的任何长度(例如,15-20核苷酸长度)。
探针可与靶核酸序列完美互补或可欠完美互补。在特定实施方式中,引物在至少7个核苷酸的序列上,更一般在10-30个核苷酸范围内的序列上,常常在至少14-25核苷酸的序列上与靶核酸序列的补体具有至少50%同一性,更常具有至少65%同一性,至少75%同一性,至少85%同一性,至少90%同一性,或至少95%,96%,97%。98%,或99%同一性。须知,特定碱基(例如,引物的3'碱基)通常期望与靶核酸序列的对应碱基完美互补。引物和探针一般在严格杂交条件下与靶序列退火。
如本文所用,术语“捕获寡核苷酸”指称一种或多种与会仅从核酸的更复杂混合物处理的靶核酸或靶核苷酸序列的目标特定靶杂交的寡核苷酸或探针。捕获寡核苷酸结合的靶的特定序列在本文也可称之为寡核苷酸结合序列。
以此方式,仅目标基因组区会被处理的,诸如通过用捕获寡核苷酸的基于杂交的序列捕获来分离目标基因组的DNA区来进行测序。靶核酸中的寡核苷酸结合位点被称为‘捕获序列’。核苷酸条码序列中的捕获序列是在任何天然存在的基因组,细菌或病毒DNA(并且,由此不见于克隆载体,或更特别克隆载体主链)中不编码的序列,或具有与在任何天然存在的基因组,病毒,细菌DNA中编码的序列小于1%,小于2%,小于3%,小于4%,小于5%,小于10%,小于15%,小于20%,小于25%,小于30%,小于40%,小于50%同源的序列。
捕获探针可含有修饰以辅助分离。在多数情况中,这些探针被生物素化。例如,目标核酸的靶可为一个或多个基因的外显子序列,或甚至是作为外显子组知道的基因组的全部基因的大多数的外显子序列。靶核苷酸序列已可由测序模板库制备方法制备的,其中靶核苷酸序列表示,例如,小于1-3%的总核苷酸序列。如果会测序总测序模板库,仅小于1-3%的获得的序列会是目标并被使用。来自总库的目标靶核苷酸序列可在测序之前使用针对目标区的这些核苷酸序列的捕获寡核苷酸由特异性杂交选择性地富集。捕获可在溶液中或在物理支持体(阵列)上实施。当捕获寡核苷酸被生物素化时,杂交的目标片段可通过使用链霉亲和素-包被的珠而容易与不是目标的非-杂交的片段分离。特异性核酸靶也可为来自可转移的分子鉴定条码的核苷酸条码,可设计和制备针对可转移的分子鉴定条码中的恒定序列区的单捕获寡核苷酸,从而全部类型的核苷酸条码可分离和表征,不考虑存在的不同最小条码序列。可转移的分子鉴定条码可如此捕获,如果可转移的分子鉴定条码与其他核酸靶,诸如个体或患者的DNA混合,则组合其他靶核酸,。
如本文所用,术语DNA混合物的特定区的‘富集’(例如基因组,与可转移的分子鉴定条码混合的基因组)指称通过扩增或(基于杂交的序列)捕获从核酸中的靶核酸产生和/或分离靶核苷酸序列。
不同捕获方法,测定,试剂盒是例如,但不限于:TruSight测序组合(Illumina),Nextera快速捕获试剂盒(Illumina),TargetSeqTM外显子组富集(Thermo FisherScientific),HaloPlexTM富集(Agilent Technologies),SureSelect靶富集(AgilentTechnologies),SeqCap EZ富集(Roche NimbleGen),靶捕获(Integrated DNATechnologies)。
如本文所用,术语“均衡寡核苷酸”指称与见于特定,或全部,靶核苷酸序列的恒定序列特异性杂交的寡核苷酸或探针。靶核酸中均衡寡核苷酸可结合的序列被称为‘均衡序列’。均衡序列是不在任何天然存在的基因组,细菌或病毒DNA(并且,由此不见于克隆载体,或更特别克隆载体主链)中编码的序列,或具有与在任何天然存在的基因组,病毒,细菌DNA中编码的序列小于1%,小于2%,小于3%,小于4%,小于5%,小于10%,小于15%,小于20%,小于25%,小于30%,小于40%,小于50%同源的序列。
均衡寡核苷酸用于在不同处理的样品中标准化靶核苷酸序列至更等同水平。可转移的分子鉴定条码中的核苷酸条码序列可如此为均衡的,或如果可转移的分子鉴定条码与其他核酸靶,诸如个体或患者的DNA混合,就与其他靶核苷酸序列均衡。核苷酸条码序列可甚至例如通过存在于核苷酸条码序列中的恒定序列区中的均衡序列而包含不存在于来自其他添加的核酸的核苷酸序列的第2均衡序列,以允许来自其他靶核苷酸序列的核苷酸条码序列的不同均衡,是来自其他核苷酸序列进一步精细调至核苷酸条码序列的均衡。均衡寡核苷酸可被生物素化而辅助容易进一步处理,诸如通过链霉亲和素-包被的珠分离。
如本文所用,术语“高度并行测序”指称使用大规模并行处理的概念的DNA测序的高-通量方法。许多高度并行测序平台在加工构型和测序化学上不同。它们通常共享经流动池中经空间上分离的,克隆扩增的DNA模板或单个DNA分子的大量并行测序的技术范例。使用同义术语是,例如,下一代测序(NGS),第2代测序,第3代测序,大量并行测序,大规模并行测序。
不同高度并行测序化学和平台例如是,但不限于:焦磷酸测序,GS FLX(454LifeSciences,Roche);通过合成测序,可反转的染色终结,HiSeq,MiSeq(Illumina);寡核苷酸chained连接,固体((Thermo Fisher Scientific),基于质子检测的Ion半导体测序,IonPGMTM,Ion质子TM,Ion S5TM(Ion Torrent,Thermo Fisher Scientific)和GenapSys,基于由光电二极管的荧光检测的Ion半导体测序,Firefly(Illumina),寡核苷酸未连化的连接(Complete Genomics,BGI),可反转的染色终结,Heliscope(Helicos Biosciences),磷酸连接的荧光核苷酸,实时DNA测序,Pacbio RS,(Pacific Biosciences),纳米孔测序,MinIONTM,PromethIONTM,GridIONTM,(Oxford Nanopores Technologies),基于NanoTag纳米孔的测序(Genia Technologies/Roche),通过Xpansion的测序(SBX,StratosGenomics)。任何本领域技术人员会认可,可转移的分子鉴定条码可应用于任何核酸的并行测序方法,其中核酸,或其副产物的检测基于任何物理,化学,和/或酶学地处理或其性质。
如本文所用,术语‘核苷酸条码序列标识符序列’,也缩写为‘标识符序列’,指称一个或两个侧接核苷酸条码序列的恒定序列中的一个或多个适配体序列,以将DNA分子,或其测序的序列鉴定为核苷酸条码序列。核苷酸条码序列标识符序列是不在任何天然存在的基因组,细菌或病毒DNA(并且,由此不见于克隆载体,或更特别克隆载体主链)中编码的序列,或具有与在任何天然存在的基因组,病毒,细菌DNA中编码的序列小于1%,小于2%,小于3%,小于4%,小于5%,小于10%,小于15%,小于20%,小于25%,小于30%,小于40%,小于50%同源的序列。不同批的可转移的分子鉴定条码可具有不同核苷酸条码序列标识符序列,且在不同应用中,和/或在相同的应用的不同步骤中分别使用,从而核苷酸条码序列标识符序列鉴定不同批,由此应用和/或应用中的步骤。
如本文所用,术语‘提取序列’指称一个或两个侧翼序列中的一个或多个适配体序列至核苷酸条码序列中的最小条码序列,以提取实际最小条码序列。提取序列是不在任何天然存在的基因组,细菌或病毒DNA(并且,由此不见于克隆载体,或更特别克隆载体主链)中编码的序列,或具有与在任何天然存在的基因组,病毒,细菌DNA中编码的序列小于1%,小于2%,小于3%,小于4%,小于5%,小于10%,小于15%,小于20%,小于25%,小于30%,小于40%,小于50%同源的序列。
提取序列可与核苷酸条码序列标识符序列同一,或重叠。一般而言,测序的核苷酸条码序列的生物信息学分析,需要2个步骤,或甚至2个信息学流程或程序。第1程序通过核苷酸条码序列标识符序列分离测序的核苷酸条码序列与全部测序的序列,第2程序通过提取序列来提取这些测序的核苷酸条码序列中的最小核苷酸条码序列。在提取序列在可转移的分子鉴定条码的不同批之间同一,但在核苷酸条码序列标识符序列中不同的情况中,不同第1生物信息学程序(程序中的不同设置)需依赖于标识符序列而用于可转移的分子鉴定条码的各批,但相同的第2信息学程序(程序中的相同的设置)可用于从不同批的可转移的分子鉴定条码(具有不同核苷酸条码序列标识符序列提取全部最小核苷酸条码序列)。
如本文所用,术语“运载体”指称含有可转移的分子鉴定条码的基体和容器。运载体可用于收集生物学样品。运载体可用于转移其内容至收集生物学样品的另一运载体。
本发明的部分利用遗传密码(A,C,T,G,U的序列分别表示存在于核酸中的碱基,即,腺嘌呤,胞嘧啶,酪氨酸,鸟嘌呤和尿嘧啶)来创建独特编码,其在本文被称为核苷酸条码。这些可用于特定种类,来源,加工或处理的物品的标识符,诸如人,动物,植物,细菌,病毒或真菌来源的生物学样品,且用作可转移的分子鉴定条码。该生物学样品可从任何适合的位置,包括从来自任何生物,组织,细胞,或环境的生物,全体细胞,单细胞,细胞制备物和无细胞组合物获得。生物学样品也可为无细胞的,诸如血中的循环核酸(例如DNA,RNA),诸如循环肿瘤DNA,或怀孕的女性的血中的循环胚胎DNA。生物学样品可从环境活组织检查,抽吸物,福尔马林固定的包埋的组织,空气,农业样品,土壤样品,石油样品,水样品,或粉样品获得。在一些实例中,样品可从体液获得,所述体液可包括血,尿,粪便,血清,淋巴,唾液,粘膜分泌物,汗,中枢神经系统流体,阴道分泌物,或精液。样品也可从生产的产品,诸如化妆品,食品(诸如肉,乳,葡萄酒,橄榄油),个人护理产物等获得。样品可为实验操作的产物,包括重组体克隆,多核苷酸扩增,聚合酶链反应(PCR)扩增,纯化方法(诸如基因组DNA或RNA的纯化),及合成反应。
短DNA分子或寡核苷酸可制造为具有任何期望的遗传密码的“字母”的序列,且DNA分子的那些字母的特定组合可指定为具有特定含义。
产生小寡核苷酸的一种优选的方式是通过使用构件(天然或化学修饰的核苷或更少程度非-核苷化合物的被保护的亚磷酰胺)化学合成。在以3'-至5'-端的方向合成期间通过如下常规过程进行寡核苷酸链组装被称为合成循环。单合成循环的完成导致向生长链添加一个核苷酸残基。各合成步骤的小于100%产率和副反应的发生成为处理效率的实际限制,从而合成寡核苷酸的最大长度难以超过200个核苷酸残基。以此过程,寡核苷酸逐个产生。
寡核苷酸也可使用各种技术而在微阵列上并行产生,所述技术诸如使用预制的掩罩的光刻,使用动态微镜装置的光刻,喷墨打印,在微电极阵列上的电化学。
可合成的不同寡核苷酸的数是巨大的。例如,当产生5个核苷酸长的寡核苷酸时,可产生总共1,024(45)种不同寡核苷酸。当产生10个核苷酸长的寡核苷酸时,可产生多于1百万(410)种不同寡核苷酸(表1)。
表1.依赖于DNA序列长度的不同核苷酸序列数。
长度 不同核苷酸序列数
1 4
2 16
3 64
4 256
5 1024
6 4096
7 16384
8 65536
9 262144
10 1048576
15 1073741824
20 1099511627776
25 1125899906842620
各该核苷酸条码序列可用作用于标记一个单物品,诸如生物学样品的可转移的分子鉴定条码。但是,该高数量的核苷酸条码的合成需要相当长的时间且昂贵。
更经济有利的方式将是使用多于一个DNA分子来组成可用于标记样品或物品的可转移的分子鉴定条码。当每个可转移的分子鉴定条码使用3个核苷酸条码时,30个不同核苷酸条码,允许产生1,000个不同独特可转移的分子鉴定条码。当每个可转移的分子鉴定条码使用6个核苷酸条码时,60个不同核苷酸条码允许产生1百万个不同独特可转移的分子鉴定条码等(表2).
表2.可以每个可转移的分子鉴定条码使用的核苷酸条码数的函数制备的不同可转移的分子鉴定条码的数。
(a)使用10个核苷酸条码的组;对于各核苷酸条码,可在10个核苷酸条码之间选择
使用用于产生可转移的分子鉴定条码的核苷酸条码的混合物由此是最经济的。每个可转移的分子鉴定条码使用越多核苷酸条码,就越是经济的过程。为了产生许多各由6个核苷酸条码组成的可转移的分子鉴定条码,由6个核苷酸条码的全部组合建造的1百万个不同可转移的分子鉴定条码的产生仅需要60个不同核苷酸条码。此与仅由3个DNA分子建造的1百万个不同可转移的分子鉴定条码的构建需要30,000个不同核苷酸条码成对比(表3)。
表3.依赖于可转移的分子鉴定条码中核苷酸条码数的产生给定的百万个可转移的分子鉴定条码需要的不同可转移的分子鉴定条码数。
(a)使用10个核苷酸条码的组;对于各核苷酸条码,可在10个核苷酸条码之间选择
制备和使用独特可转移的分子鉴定条码的技术和经济可行性由此取决于不同核苷酸条码的组合效应。只要核苷酸条码的组合的混合物是独特的,一个可转移的分子鉴定条码则是不同核苷酸条码的混合物。可转移的分子鉴定条码是独特的。当可转移的分子鉴定条码由x个核苷酸条码建造时,2个可转移的分子鉴定条码可仍为独特的,当它们共同具有x-1个核苷酸条码,但第x个核苷酸条码不同时。
为了利用可转移的分子鉴定条码,应该在末尾检测,鉴定和/或表征可转移的分子鉴定条码中的核苷酸条码。当如此使用可转移的分子鉴定条码时,仅需表征核苷酸条码。当在更复杂应用,诸如在遗传测试中使用可转移的分子鉴定条码时,需表征两个核苷酸条码和调查中的其他核酸靶。此可由本领域技术人员知道的且描述于下列文献中的分子技术进行:分子克隆:实验室手册,由Sambrook and Russel,第3版,冷泉港实验室出版社,2001(其公开内容通过引用并入本文),诸如DNA合成,聚合,连接,PCR,RT-PCR,测序。
表征目的的单链寡核苷酸条码的处理在一些阶段需要将它们的转变为双链DNA分子。如图1中描述的一个优选的方式是将2个,至少部分,连接双链连接适配体。双链适配体可携带用于特定下游处理的其他适配体序列。部分双链也可携带其他特征,诸如发夹结构和环结构。核苷酸条码首先被磷酸化。或者,将已磷酸化的核苷酸条码用于制备可转移的分子鉴定条码。一个双链适配体具有可结合于单链核苷酸条码的一端的5'核苷酸悬伸,而第2双链适配体具有可结合于核苷酸条码的另一端的3'核苷酸悬伸。在前者的双链适配体中,具有5'核苷酸悬伸的DNA链在其5'端被磷酸化。在后者的具有3'悬伸的双链适配体中,无3'悬伸的相反链在其5'端被磷酸化。在这些双链适配体与单链核苷酸条码序列杂交后,新互补DNA链可用DNA聚合酶合成,其中在3'悬伸适配体中具有3'核苷酸悬伸的DNA链被延伸,使用结合的核苷酸条码作为模板,直到其在另一端达到适配体的5”核苷酸悬伸。然后使用DNA连接酶来连接3个开放切口,从而获得完全双链核苷酸条码。在两个双链适配体中的悬伸可为1个或多个核苷酸长。两个适配体的悬伸的长度可在长度上同一或不同。当使用具有仅1个核苷酸悬伸的双链连接适配体时,需要4个不同适配体,即,1个具有A悬伸的,1个具有C悬伸的,1个具有G悬伸的和1个具有T悬伸的。它们当然可混合。当5'和3'悬伸双链连接适配体具有1-核苷酸悬伸时,由此需8个不同适配体的混合物,以便制造具有任何双链序列的任何核苷酸条码。
不同于使用用于产生可转移的分子鉴定条码的单链核苷酸条码,起初使用双链核苷酸条码来产生可转移的分子鉴定条码。它们可携带用于特定下游处理功能和应用的适配体序列。优势是,用于它们的处理,表征和/或鉴定的一些或全部必需特征然后已存在于核苷酸条码分子中,而非通过然后在它们的表征用处理期间连接附接这些特征。
图2描述构建双链核苷酸条码的3个优选的方式。在第1策略(图2a)中,使用携带不同独特最小核苷酸条码序列Nx(N是任何核苷酸,x是核苷酸数)的更长单链寡核苷酸,其侧接各寡核苷酸共同的恒定序列。在各寡核苷酸中,在末端的独特序列会是最小核苷酸条码序列。恒定序列,或其部分,可具有用于特定下游处理功能的其他适配体功能。这些寡核苷酸可然后由DNA合成反应使用,在Nx序列3'侧的侧翼恒定序列区具有引物结合位点的引物而被双链化,从而在Nx序列上合成新互补DNA链,直到其他第2恒定序列区结束。当引物结合恰好在3'恒定序列区的完全末端时,获得完全双链DNA分子,另外获得的双链核苷酸条码分子会在一端是粘性的。在第2策略(图2b)中,使用携带对于各类型的寡核苷酸特征性的不同独特最小核苷酸条码序列Nx,之后恒定序列的单链寡核苷酸,从而最小条码序列区仅在一个(3’)位点侧接恒定序列区。再次,恒定序列,或其部分,可具有用于特定下游处理功能的其他适配体功能。这些寡核苷酸可然后由DNA合成反应,使用在最小条码序列的3'侧的侧翼恒定序列区具有引物结合位点的引物而被双链化,从而在最小条码序列单独和该末端合成新互补DNA链。当引物恰好在3'恒定序列区的完全末端结合时,获得完全双链DNA分子,另外获得的双链核苷酸条码分子会在一端是粘性的。非常可能的是,该双链DNA分子会仍需要下游处理,诸如与双链连接适配体的连接步骤,从而也在末端添加所述位点的恒定序列(原本不存在的恒定序列区)。第3策略(图2c)是第1策略的替代策略,其中再次使用携带不同独特最小核苷酸条码序列Nx的更长单链寡核苷酸(侧接对于各寡核苷酸共同的恒定序列)。在各寡核苷酸中,独特序列Nx会是最小核苷酸条码序列。3'恒定序列可相比5'恒定序列具有对于与另一寡核苷酸杂交足够的更小或更大尺寸。组合第2单链寡核苷酸,其在其3'端携带与恒定序列区,或其部分互补的序列(在第1单链寡核苷酸的最小条码序列区的3'侧),但其携带另外的5'恒定序列。再次,单链寡核苷酸,或其部分中的恒定序列可具有用于特定下游处理的其他适配体功能。在两种类型的单链寡核苷酸在它们的互补共享的恒定3'序列区杂交后,合成从各寡核苷酸延伸的新DNA链,其中将其他杂交寡核苷酸用作模板,从而获得完全双链核苷酸条码。任选地,一个或多个另外的轮的DNA合成反应可由另外的寡核苷酸,用可携带用于特定下游处理的适配体功能的恒定序列实施,其在其3'端携带与位于之前轮产生的DNA分子中的3'侧的恒定序列区互补的序列。以此方式,核苷酸条码可用可超过单寡核苷酸的典型长度的长恒定适配体区产生。不同于在系列新反应中添加各新寡核苷酸,全部该寡核苷酸也可在一个单反应中混合,可为许多循环,用热稳定的DNA聚合酶实施DNA合成。含有最小条码序列和完全侧翼序列的双链条码也可使用在合成生物学中使用的方法在一轮中合成,诸如Gene Fragments(Integrated DNA Technologies)。
虽不限于此,以此方式获得的具有不同适配体功能的单链或双链核苷酸条码的例显示于图3。
一个或两个侧接恒定序列是未天然发现的人工序列(不见于人,动物,植物,细菌,病毒,真菌,甚至不见于分子生物学流程和工具中使用的克隆载体(载体主链)。当在测序应用中发现与恒定侧翼序列或其部分同一的核苷酸序列时,可总结其来源于核苷酸条码序列,和可以此方式鉴定核苷酸条码序列。尤其当将可转移的分子鉴定条码与其他靶核酸混合时,可鉴定来源于核苷酸条码序列的序列读长。的确,从核苷酸条码获得的序列读长可然后被不同处理,例如由不同生物-信息学流程(例如用于核苷酸条码的鉴定和定量的流程,用于来源于其他靶核酸的序列读长的标位和变体判定的流程)。恒定侧翼序列优先具有小GC%含量变异,优先以35-65%范围。例如,此侧翼序列的X个核苷酸(X个核苷酸是18,19,20,21,22,23,24,25,30,35,40,45和/或50个)的任何连续序列具有35-60%之间,40-60%之间,45-60%之间,50-60%之间,55-65%之间的优先GC-含量。例如,此侧翼序列的X个核苷酸(X个核苷酸是18,19,20,21,22,23,24,25,30,35,40,45和/或50个)的任何连续序列具有50℃和75℃之间,55℃和75℃之间,60℃和75℃之间,60℃和70℃之间的优先Tm。以此方式,任何期望的寡核苷酸结合位点(例如对于引物,用于扩增或捕获的)可以最柔性的和有效方式设计。的确,使用不同技术许多类型的遗传NGS测试(来自不同公司)是可利用的,其中目标基因组的靶区为测序富集,例如通过多重PCR,引物-延伸-连接,等。各类型的测试使用它们的特定测试条件。例如,一种类型的测试可使用多重扩增,其中全部引物具有给定的约相同的Tm,而另一供应商使用具有另一Tm的引物。而且,测试中获得的扩增子可具有给定的特定尺寸范围,从而全部扩增子多数等同扩增,且选择的尺寸可在不同测试之间变化。的确,更小扩增子一般比更大扩增子更有效扩增,从而获得的扩增子的长度也保持在可为给定的测试的特定特征的特定范围。如果这些测试想要利用可转移的分子鉴定条码用于质量控制,需添加引物或包括在它们的富集核苷酸条码序列的测定中。用于在它们的给定的测定中的核苷酸条码的富集的引物应然后优先与在它们的测定中的其他引物具有相同的特征,诸如Tm。通过在恒定侧翼区具有更连续GC含量范围,允许富集可转移的分子鉴定条码的引物的选择和添加最容易整合进任何测试中。如果有具有非常低(<20%)或非常高(>70%)的GC标准的序列段,发现具有给定的Tm(其通常在30-55℃范围)和位置的引物结合位点的标准,从而获得给定的特定尺寸范围的扩增子,可难以获得,或甚至对于一些测试是不可能的。
起始于限制酶识别位点RE1、并在最小核苷酸条码序列之前结束的例如图3和4中所示的分离的上游恒定侧翼序列的例是序列[SEQ ID NO:1],[SEQ ID NO:2],[SEQ ID NO:3],[SEQ ID NO:4],[SEQ ID NO:5],[SEQ ID NO:6],[SEQ ID NO:7],[SEQ ID NO:8],[SEQID NO:9],[SEQ ID NO:10]。
在最小核苷酸条码序列之后起始、在限制酶识别位点RE2结束的例如图3和4中所示的分离的下游恒定侧翼序列的例是序列[SEQ ID NO:11],[SEQ ID NO:12],[SEQ ID NO:13],[SEQ ID NO:14],[SEQ ID NO:15],[SEQ ID NO:16],[SEQ ID NO:17],[SEQ ID NO:18],[SEQ ID NO:19],[SEQ ID NO:20]
序列[SEQ ID NO:1]至[SEQ ID NO:20]的变体依赖于载体中的克隆位点而具有替代性的限制性位点识别序列。
或者,[SEQ ID NO:1]至[SEQ ID NO:10]是下游恒定侧翼序列,[SEQ ID NO:11]至[SEQ ID NO:20]是上游恒定侧翼序列。
或者,[SEQ ID NO:1]至[SEQ ID NO:20]序列中的一个或多个可为相应[SEQ IDNO:1]至[SEQ ID NO:20]序列的反向互补体序列。
或者,上游和/或下游恒定侧翼序列是序列[SEQ ID NO:1]至[SEQ ID NO:20],是与相应序列[SEQ ID NO:1]至[SEQ ID NO:20]显示大于70%,大于80%,大于90%,大于95%,大于97%或大于99%序列同一性的序列。序列同一性中的差异可例如从添加或删除用于限制酶的识别位点得到。
仍替代性地,上游和/或下游恒定侧翼序列包含序列[SEQ ID NO:1]至[SEQ IDNO:20],其中在指示的限制酶识别序列和恒定序列之间和/或在恒定序列和最小核苷酸条码序列之间存在另外的核苷酸序列。
仍替代性地,上游和/或下游恒定侧翼序列包含序列[SEQ ID NO:1]至[SEQ IDNO:20]的片段,即至少200个核苷酸,至少300个核苷酸,至少350个核苷酸,至少375个核苷酸,或至少390个核苷酸的片段,或由这些片段组成。
这些双链DNA分子也可在质粒中或在其他复制性构建体中进一步克隆。包含这些双链DNA分子的恒定侧翼序列中的限制酶的识别位点的适配体可辅助质粒中这些双链DNA分子的克隆。例如,两种恒定侧翼序列可包含相同的限制酶或2种不同限制酶的识别位点。优选在消化后产生粘性DNA末端的各侧接位点中2种不同限制酶的识别位点,由于它们会允许质粒中双链DNA分子的有效定向克隆。
使用质粒产生可转移的分子鉴定条码具有巨大量的可转移的分子鉴定条码可起始于仅一个单寡核苷酸或一个合成DNA片段的优势。的确,当具有给定的独特核苷酸条码序列的单寡核苷酸或用于构建具有给定的核苷酸条码序列的双链核苷酸条码分子的寡核苷酸侧接相同的恒定序列时,需逐个合成这些不同寡核苷酸。当在复制性分子,诸如质粒中使用可转移的分子鉴定条码时,这可避免,且会更经济。则需要仅一个单寡核苷酸合成反应。在寡核苷酸合成反应期间,在合成步骤中的给定的循环期间可添加多于一个核苷酸,或甚至全部4个可能的核苷酸,并合并进寡核苷酸中。当经连续数的循环添加全部4个构件(N)时,会合成等于这些循环数的长度(x)的全部可能的序列,由此,在单合成反应中获得具有该长度Nx的全部可能的随机序列的寡核苷酸。当添加单核苷酸并所述循环的在前和随后循环期间合并时,当添加多于一个核苷酸时,会在具有随机核苷酸条码序列(Nx)(全部侧接相同的恒定序列)的单管中获得寡核苷酸的混合物。类似地,可产生合成DNA片段的完全混合物,其含有不同最小条码序列和相同的完全侧翼序列,诸如Gene Fragments(Integrated DNA Technologies)。
实际最小核苷酸条码的长度可为任何适合的长度,依赖于应用。当在10个循环的延伸物上允许全部可能的核苷酸时,可在单寡核苷酸合成反应中合成410(1,048,576)不同核苷酸条码序列。当在25个循环的延伸物上允许全部可能的核苷酸时,可在单寡核苷酸合成反应中合成425(1,125,899,906,842,620)个不同核苷酸条码序列(表1)。在一些情况中,实际最小条码序列可为约2~约500个核苷酸长度,约2~约100个核苷酸长度,约2~约50个核苷酸长度,约2~约25个核苷酸长度,约6~约25个核苷酸长度,或约4~25个核苷酸长度。在一些情况中,最小条码序列是大于约10,20,100,500,750,1000,5000或10000个核苷酸长度。
如上所述,位于恒定侧翼序列区至单链寡核苷酸的该混合物的最小条码Nx序列的同一适配体允许它们在有限数量的反应,或甚至单反应中转变为双链DNA分子。从此具有理论上全部可能的最小条码Nx序列的双链DNA分子的混合物或库,可如上所述制备含有全部这些可能的最小条码Nx序列的质粒库。该携带含有全部这些可能的最小条码Nx序列的质粒库可然后用于转化细菌细胞,从而获得携带具有全部这些可能的最小条码Nx序列的这些不同质粒的细菌库。从该细菌库,可产生用于未来使用的甘油浓储物。用本领域技术人员知道的和描述于下列文献的直接方法,在用于终身使用的单管中以各水平获得,即,具有任何可能的最小条码Nx序列的寡核苷酸,其双链DNA分子,其质粒,其细菌培养物:分子克隆:实验室手册,由Sambrook and Russel,第3版,冷泉港实验室出版社,2001。各核苷酸条码组合物形式可用于产生可转移的分子鉴定条码。甚至携带核苷酸条码的细菌细胞可用于产生可转移的分子鉴定条码且如此在应用中使用。本文描述了用质粒转化的细菌,但可使用任何复制性构建体和用于复制性构建体的宿主。
携带全部可利用的Nx随机序列的一个给定的最小核苷酸条码序列的个体质粒可在琼脂板培养后无论何时只要需要从该细菌培养物容易获得,由此,然后可挑选个体集落,并为使用本领域技术人员知道的方法收获足够的量的携带给定的最小核苷酸条码序列的质粒而进一步生长。仅应挑选,分离和增长60个细菌集落,并制备质粒用于产生1百万个不同可转移的分子鉴定条码,如果各可转移的分子鉴定条码由6个不同核苷酸条码质粒建造(见表2)。
在可转移的分子鉴定条码的应用中,需在末尾表征和鉴定核苷酸条序列。高度并行测序可为这些序列的表征方法。最小条码序列会可由其恒定侧翼序列之间的位置鉴定。由当前通常使用商业高度并行测序技术获得的典型序列读长是100-150个核苷酸,或甚至更长。而且,应对最小条码序列区的侧翼序列的至少一些部分进行测序,以便鉴定和处理核苷酸条码序列,尤其如果它们存在于含有其他测序用靶核酸的混合物中。可能地,也应对合并条码序列进行测序。在减去一般100-150个核苷酸长的序列读长中的这些序列之后,此仍允许50-100个核苷酸长的最小核苷酸条码序列,即,允许达450-4100个独特核苷酸条码序列。出于实践原因,旨在使用具有相对较低长度范围的最小核苷酸条码序列。首先,可已用25个核苷酸长的最小核苷酸条码序列获得的不同独特核苷酸条码序列数已超过从来需要的核苷酸条码序列数。其次,特定高度并行测序应用会甚至不需要100-150核苷酸长序列读长。例如,在高度并行测序转录组研究中,仅可需要25-35核苷酸长的短序列读长来允许转录物鉴定。尽管在该应用中通过简单忽略核苷酸第25-35位之外获得的核苷酸条码序列而仍可使用更长最小核苷酸条码序列,由于最小核苷酸条码序列的头25个核苷酸会非常可能已独特,该数据的分析可为更复杂,且会需要另外的(生物-)信息学处理工具。假定可已用25个核苷酸的最小核苷酸条码序列获得的已足够数的不同核苷酸条码,另外的(生物-)信息学处理则不必要另外的努力。
不同于简单鉴定哪个核苷酸序列来源于核苷酸条码,例如通过位于一个或两个恒定侧翼序列的核苷酸条码序列标识符序列,可需要鉴定实际最小条码序列,诸如为定性(鉴定)和/或定量(数)目的。诸如在其中为质量控制而可转移的DNA条码与待分析突变的其他核酸混合的遗传测试中。
最小核苷酸条码序列可由位于两个恒定侧翼序列的提取序列中/之间的位置,或开始于或结束于位于一个恒定侧翼序列的提取序列鉴定。
可使用恒定侧翼序列中的任何序列,但是,最有效的一个是直接侧接最小核苷酸条码序列的核苷酸。例如,当最小条码序列是25个核苷酸序列长时,在前7个核苷酸可用作第1提取序列,随后7个核苷酸可用作第2提取序列。更特别是,就2个提取序列被25个核苷酸分开确证全部序列读长,之后,提取25个核苷酸的序列,并将其确定为最小条码序列。当然,来源于混合的靶核酸的一些其他靶核苷酸序列也可满足这些标准,从而提取错误最小条码序列。7个核苷酸长的2个给定的提取序列被25个核苷酸分开的几率是1/16807(表4)。
表4.发现当在一侧或两侧侧接最小条码序列时,基于其长度,给定的提取序列的概率。
长度提取序列 在一个位点的提取序列的概率 在两个位点的提取序列的概率
1 1 1
2 16 32
3 81 243
4 256 1024
5 625 3125
6 1296 7776
7 2401 16807
8 4096 32768
9 6561 59049
10 10000 100000
15 50625 759375
20 160000 3200000
25 390625 9765625
30 810000 24300000
35 1500625 52521875
40 2560000 102400000
45 4100625 184528125
50 6250000 312500000
具有这些假阳性的概率通过增加提取序列的长度而降低。为了防止该假阳性,优选更长提取序列(表4);最佳的是完全恒定侧翼序列。
假最小条码序列的发现随着与其他混合的靶核酸的复合且随着降低提取序列的尺寸而增加。混合的靶核酸越复杂(例如当可转移的分子鉴定条码与片段化的完全基因组混合对比一个或少数基因的靶富集时),特定片段可满足提取序列的标准的几率越高。当然,在核苷酸条码序列和其他靶核苷酸序列的混合物中,来源于核苷酸条码序列的靶核苷酸序列可首先通过核苷酸条码序列标识符序列(可与提取序列同一)分离,在第2阶段,仅表征/处理分离的核苷酸条码序列中的实际最小条码序列。以此方式可甚至当使用更小提取序列时防止假最小条码序列的提取。
由于最小条码序列的提取可基于提取序列的确切的序列,导入恒定侧接测序,更特别是导入提取序列区的DNA合成,扩增和测序误差会导致无完全匹配,从而最小条码序列可因此未被提取。在本文中,提取序列的长度越短,提取序列的区中会发生扩增和/或测序误差的几率越低。序列中的测序的碱基的质量在片段的末端降低,从而,在测序的片段的末端,具有低信号的核苷酸会被截去。当添加到样品的调查中的基因组DNA,由此也核苷酸条码会被片段化而用于制备测序库(例如通过适配体的连接)时,来源于核苷酸条码序列的测序片段的相对起始和末端变动。当末端位于最小条码序列时,最小条码序列不被完全测序,由此可甚至不被测定。当序列的末端位于最小条码序列的仅少数核苷酸之后,仅小部分的恒定侧翼序列会被测定。当提取序列的长度大于在末尾获得的序列时,最小核苷酸条码序列,尽管被完全测序,由于提取序列不被识别而也无法测定最小条码序列。这也表示,提取序列最好紧挨着最小条码序列,即,紧挨在最小条码序列之前和之后。
由此,太长提取序列可错过最小条码序列的鉴定,因为测序的核苷酸的扩增和测序误差,和/或不良质量。太短提取序列可导致发现假阳性最小条码序列。在末尾,需在两个缺陷,及由此待使用的提取核苷酸序列的长度之间找平衡。
不同于由其左和右恒定提取序列中/之间的位置确定最小核苷酸条码序列,也可使用仅一个恒定提取序列。当使用上游提取序列时,给定的长度下游,将此提取序列用于测定最小核苷酸条码序列,当使用下游提取序列时,给定的长度上游,将此提取序列用于测定最小核苷酸条码序列。的确,在以上7个核苷酸长上游和7个核苷酸长下游提取序列至最小核苷酸条码序列的例中,测序的来源于核苷酸条码序列的序列的特异性分析对比测序的来自调查中的样品中的其他核酸的序列的特异性分析的相同的严格度/精确度,当使用仅一个14个核苷酸长的(上游或下游)提取序列(1/414=1/268435456)时,获得最小核苷酸条码序列的确定。
甚至当使用相同的量/浓度的可转移的分子鉴定条码时,实施线性化的位置也可为在给定的测序实验中回收更多最小核苷酸条码序列的手段。例如,DNA片段的末端欠倾向于通过超声处理然后内部片段而片段化。当通过捕获制备靶测序模板,且捕获寡聚体位于片段内部时,在捕获寡聚体导向的核苷酸及其侧翼序列的读取深度会具有高斯分布。当通过捕获制备靶测序模板,且捕获寡聚体位于该片段的末端(例如因为由限制酶线性化)时,捕获寡聚体导向的核苷酸及其侧翼序列的读取深度,会无高斯分布。起始于线性化点而会由此获得更高得多的读取深度,且如果最小核苷酸条码序列位置接近于此起点,对于相同的量的核苷酸条码,由此相同的量的可转移的分子鉴定条码而会获得更高数的最小核苷酸序列。
优先,可转移的分子鉴定条码中的不同最小核苷酸条码序列具有相同的长度(例如25个核苷酸长)。当全部最小核苷酸条码序列具有相同的长度时,它们的下游(生物)-信息学处理是更简单的。但是,可转移的分子鉴定条码中的最小核苷酸条码序列可具有不同长度,允许更复杂应用,但也更复杂的下游处理。如果可转移的分子鉴定条码含有具有不同长度的最小核苷酸条码序列,但如果它们中最小的对于允许产生无限的数的不同最小分子条码鉴定仍足够长,欠复合(生物-)信息学处理仍可通过不顾更长最小分子条码中的核苷酸而使用。例如,如果可转移的分子鉴定条码含有25nt和30nt长的最小核苷酸条码,可仅分析25个核苷酸(由此25nt最小核苷酸条码序列中的全部核苷酸和30nt最小核苷酸条码序列中的仅头25个核苷酸)。在使用具有相同和不同长度的最小核苷酸条码序列的核苷酸条码的混合物的情况中,其中更长最小核苷酸条码序列的长度通过(生物)信息手段被截去;自最小核苷酸条码序列中的仅至少2个具有相同的长度的时刻,(并行)测序可用于区别和鉴定具有相同的长度的最小核苷酸条码序列。
当仅在一个核苷酸位置的核苷酸不同时,用于产生可转移的分子鉴定条码的2个不同最小核苷酸条码序列理论上是不同的序列。但是,用于表征DNA序列的多数DNA合成,扩增和测序技术容易出错。高度并行测序技术具有达0.1%-15%的测序出错率。如果从核苷酸条码建造给定的多个可转移的分子鉴定条码,其中例如2个最小核苷酸条码序列仅在一个核苷酸位置的核苷酸不同,则这些核苷酸条码序列之一可被错误地分型为其他核苷酸条码序列,因为在所述2个最小核苷酸条码序列不同的核苷酸位置的测序误差,从而其他最小核苷酸条码序列的序列被错误地总结。
用于产生给定的多数可转移的分子鉴定条码的不同核苷酸条码因此需在它们的最小核苷酸条码序列上足够不同,从而一个核苷酸条码序列因为扩增和/或测序误差而转变为另一核苷酸条码序列非常不可能。如果如上所述使用单链寡核苷酸,或其双链构建体,该远不相关的序列应在各寡核苷酸的实际合成之前自始正确设计。当例如使用核苷酸条码质粒时,具有足够远不相关的序列的核苷酸条码质粒应选自携带全部可能的核苷酸条码序列的质粒库。
因此,当例如,产生许多1百万个可转移的分子鉴定条码需要60个核苷酸条码质粒时,实际会需要多于60个质粒,以便能选择可选择的具有足够不同序列的最佳的60个质粒。
可例如通过种系发生分析(De Bruyn等人,2014)获得最不同的序列的选择。系统树是基于它们的物理或遗传特征的相似性和差异显示一组序列之间的推知的关系的分支图或树。从该系统树可选择具有最多遗传变化或具有最高遗传距离的序列。
除了选择足够不同的核苷酸条码序列之外,可选择来自扩增和/或测序误差的误差可被校正的序列。此可通过使用误差校正算法和编码达到。2个大众的套的误差-校正编码是汉明码(Hamady等人,2008)和Levenshtein码(Buschmann and Bystrykh,2013)。
核苷酸条码序列可由此通过高度并行测序鉴定。如果可转移的分子鉴定条码由6个核苷酸条码序列建造,测序应揭示那6个核苷酸条码序列,以及从这6个核苷酸条码序列因为扩增和/或测序误差而偏离的其他序列。当确定各序列被发现的次数(例如在直方图中)时,会以比具有测序误差的序列显著更高频度发现真正6个核苷酸条码序列。频度的阈值水平可设为保留或去除核苷酸条码序列。具有测序误差的序列会以阈值水平以下的更低频度被发现,从而它们从用于确定核苷酸条码,由此可转移的分子鉴定条码(实际上存在)的进一步分析被忽略和去除而仅被会总结。
在可利用的序列中,小部分的序列因为携带扩增和/或测序误差而在分析中丢失。但是,来自高度并行测序的序列读长数的输出是巨大的,从而仍会获得足够的无扩增和测序误差的序列读长,从而实际仍可确定核苷酸和可转移的分子鉴定条码。
当选择用于产生许多可被误差-校正的可转移的分子鉴定条码的核苷酸条码序列时,具有测序误差的序列可为可能通过误差-校正算法校正的,从而序列仅有因为扩增和/或测序误差导致的小损失。
但即便未用会允许误差修正的方法选择用于产生给定的大量的可转移的分子鉴定条码的核苷酸条码序列,仍可在分析中回收具有扩增和/或测序误差的序列。例如,如果以低计数观察到序列,但以高计数具有相邻序列,最可能是通过具有高计数的序列的扩增和/或测序误差,基于估计的突变速度出现了低计数序列,然后欠丰富的序列的计数可归因,转变和计数为更高丰富的相邻序列(Akmaev and Wang,2004)。
用于产生给定的份可转移的分子鉴定条码的核苷酸条码质粒在产生后任选地线性化,并在实践应用中以线性化的形式使用。以此方式,防止质粒的意外复制。而且,由线性核苷酸条码序列建造的可转移的分子鉴定条码的使用可在样品条码的应用中比环化的,可能超螺旋的核苷酸条码序列更有效。相比由然后产生的核苷酸条码混合物组成的线性化巨大的数的可转移的分子鉴定条码,将它们混合到可转移的分子鉴定条码之前将有限数的核苷酸条码质粒线性化是更经济的。可通过用一种或多种在质粒中的一个或多个位点,但在最小核苷酸条码序列和其(部分)侧接核苷酸之外切割的限制酶消化获得核苷酸条码质粒的线性化(图4)。如果质粒会仅被一种仅在质粒中的一个位点切割的限制酶切割,未被切割的质粒踪迹保持环状和存在。这通过使用一种或多种限制酶,从而质粒中的多于一个位点被切割来防止。单质粒中全部位点未能被切割的几率则是高度不可能的。优先限制酶在消化后被热-灭活。的确,当将可转移的分子鉴定条码在遗传测试中使用并与基因组DNA混合时,仍有活性的限制酶仍可消化基因组DNA。当核苷酸条码质粒在多于一个位点切割时,会获得不同线性片段,其中仅一个片段实际含有最小核苷酸条码序列。核苷酸条码质粒的全部消化片段可为如此在应用中使用。或者,仅可分离消化的含有最小核苷酸条码序列的片段并在应用中使用。在消化之前或之后确定核苷酸条码分子的优先DNA浓度,从而核苷酸条码可被标准化为相同的浓度,从而产生可转移的分子鉴定条码,其中不同核苷酸条码以更等摩尔水平被发现。限制酶可选择为在核苷酸条码质粒的消化后实际最小核苷酸条码位于大,中或小尺寸的片段。例如,当可转移的分子鉴定条码会被用于标记待在遗传测试中使用的会分离基因组DNA的血样品时,实际最小核苷酸条码序列可优选位于更大DNA片段中。的确,该生物学样品的基因组会呈现在可用基因组DNA提取试剂盒更有效提取的更大基因组DNA片段中。更小片段无法用该基因组DNA提取试剂盒有效保留,由于较短片段被认为是在DNA提取流程中被消除的片段化的DNA。当使用产生更长序列读长的高度并行测序技术,诸如通过实时DNA测序和纳米孔测序时,最小条码序列优先也位于更长线性化的片段中,从而其与这些相应DNA序列模板制备物更相容。当为非-侵袭性出生前测试(NIPT),例如为三体性21而将可转移的分子鉴定条码用于标记从怀孕的母亲获得的血样品时,会分离胚胎循环DNA。由于游离的循环DNA是来自胎儿的小尺寸的片段化的DNA,最小核苷酸条码序列可优先位于小消化产物,从而它们可随胚胎DNA一起提取。对于分析循环肿瘤DNA的测试需要相同的考虑。而且,从福尔马林固定的石蜡包埋的组织(FFPE)获得的DNA含有有点小可扩增的尺寸的DNA片段,从而在本申请中,最小核苷酸条码序列也可优先位于小消化产物,从而它们可随FFPE DNA一起提取。用来产生可转移的分子鉴定条码的核苷酸条码质粒可由此基于应用区别消化,从而为给定的应用组,甚至仅一种给定的应用产生给定的份可转移的分子鉴定条码。图5显示为NGS测序而分子核苷酸序列如何被制备为模板的例。
可转移的分子鉴定条码的重要应用由此是会实施遗传测试的生物学样品的标记。样品可来自一种或多种生物学物质的或为一种或多种生物学物质的初始形式,例如血,血浆,血清,尿,唾液,痰,粪便,粘膜排泄物,泪,滑液,脑脊液,腹膜液或其他流体。样品可包括细胞,或可为无细胞。可转移的分子鉴定条码,允许遗传测试的绝对质量保证,以防止样品切换和混杂。更特别是,不防止样品切换和混杂,但如果它们发生,可转移的分子鉴定条码致使它们被检测到。优选地,尽可能早期将可转移的分子鉴定条码添加到遗传测试处理。可转移的分子鉴定条码序列应在完全过程末尾被发现,且其保证质量保证。以此方式,全体过程自添加可转移的分子鉴定条码的时刻被质量保证。最早的可能的时刻会是收集分析用样本时,例如可转移的分子鉴定条码已存在于收集器管(例如血样品的收集管)中。除了质量-保证之外,该可转移的分子鉴定条码,允许实验室和报道流程的自动化。的确,当含有可转移的分子鉴定条码的物品上的物理条码与存储样品的全部信息的LIMS系统连接时,测序设备不仅读取调查中的靶核苷酸酸中的突变,也读取携带此突变的患者的名称至添加的和关联的可转移的分子鉴定条码至样品。
方法可包括这样的步骤,运输样品,并使其接触来自将生物学样品取到会发生样品分析的临床实验室(例如,位于离取生物学样品的位点至少100m,1000m,10,000m,100,000m)的位点的可转移的分子鉴定条码。以此方式,实际测试可外包给无任何问题的集中的实验室,由于客户仍保持该样品的获得的数据的全控制。当客户接收该集中的实验室的测序数据时,客户知道哪个核苷酸条码序列应存在于该样品的测序数据中,从而客户确信其从发送给外包的或集中的实验室的该样品接收数据。任何其他核苷酸条码序列的发现会总结测序数据不来自该样品,和/或测序数据与来自另一样品的序列混杂。
甚至在DNA样品移动到测序之前,其可已被来自另一样品的DNA混杂。在对217个完全基因组进行测序的研究中,7个样品(3.2%)被发现含有混杂DNA(Taylor等人,2015)。在仅在总DNA,诸如循环胚胎或肿瘤DNA的DNA的给定的级分中寻找突变的测试中,该混杂可负面地干扰测试结果,和甚至导致错误测试结果。在自动化的系统,诸如ChemagicTM仪器(PerkinElmer),QIAcube仪器(Qiagen)中常常实施DNA提取。在DNA提取期间,样品和/或处理管在特定时刻开放,或甚至在整个完全过程在该DNA提取系统中开放。溶液在这些管之间转移,在这些管中搅拌,并可产生可在样品之间混杂的气溶胶。全部这些过程限于从环境分离的系统的小室,甚至在不使用时。当该系统利用离心机时,气溶胶甚至在有限的室中扩展。给定的有限的室体积,混杂气溶胶的级分可由此变得显著高于开放实验室。这些仪器经年连续使用可由此导致有限的室中混杂DNA的逐渐积累,其可混杂新处理的样品。可转移的分子鉴定条码的使用可由此,允许提取的DNA样品的定量和质量评分。尤其在分析靶DNA,诸如循环胚胎或肿瘤DNA的小级分的测试中,可转移的分子鉴定条码可由此在末尾提供测试的DNA的质量分值,由此总测试的质量分值。
在质量控制或保证应用中使用的可转移的分子鉴定条码需要可转移的分子鉴定条码本身在最佳质量保证的条件下产生。假定需要仅小数的核苷酸条码序列来产生达1百万,或更多的,独特可转移的分子鉴定条码,仅小数的含有这些需操作的核苷酸条码分子的管和/或板。而且,它们可在产生期间容易用宏观纸1D或2D条码标记标记,可在产生期间通过扫描鉴定的。管或任何受者容器的制备,从此小数的含有核苷酸条码的管和/或板制备的含可转移的分子鉴定条码可用有点基本的机器人系统实施。当此完全产生过程也与LIMS系统连接时,可转移的分子鉴定条码的不同受者管或容器可用误差非常低风险产生。
例如,从有限数量的60个核苷酸条码产生具有不同可转移的分子鉴定条码的1百万个不同受者的事实甚至允许产生后可转移的分子鉴定条码的质量测试。的确,如果在各大量的1百万个可转移的分子鉴定条码中,1百万个可转移的分子鉴定条码的全部组合的产生在固定的定购的预定的过程中实施,可选择完全大量或批的特定管,以便确证是否预期的核苷酸条码存在于选择的管中,其后可总结为全部60个核苷酸条码个别结束于各预期的1百万个不同管或受者容器。
如果单核苷酸条码序列用作可转移的分子鉴定条码,该产生后的质量控制不会可能,由于产生后的质量控制会然后表示应测试含有单核苷酸条码序列的每管,以便保证存在正确核苷酸条码序列,其进而会表示需牺牲的且可因此不再使用的各可转移的分子鉴定条码容器;如果使用,则可转移的分子鉴定条码不会使用一次。通过使用核苷酸条码的混合物来从有限数量的核苷酸条码产生可转移的分子鉴定条码,由此,为质量控制仅需牺牲最小数的可转移的分子鉴定条码管或受者容器。当60个核苷酸条码用于产生1百万个不同可溶性条码时,甚至需牺牲少于60个可转移的分子鉴定条码管或受者容器,由于各容器含有6个核苷酸条码序列,从而牺牲1个可转移的分子鉴定条码容器已提供6个核苷酸条码序列的信息。在实践中,不会一次,但以更小数,例如每产生轮10.000个管产生许多1百万个可转移的分子鉴定条码管或受者容器。给定的数的可转移的分子鉴定条码容器会因此可能从各产生轮测试,从而对于组合的全部产生轮的测试的可转移的分子鉴定条码的总数在实践中会超过60的数,由此进一步增加冗余,由此产生的可转移的分子鉴定条码的更佳质量控制测试。当为产生1百万个可转移的分子鉴定条码管或受者时,产生总共100个更小量的100×100可转移的分子鉴定条码,并在产生后确证对于各更小量的40个可转移的分子鉴定条码,然后在产生完全大量的1百万个可转移的分子鉴定条码后确证4000个可转移的分子鉴定条码。这仍仅是在产生后确证的和牺牲的总量的小部分的全部可转移的分子鉴定条码,以便获得大量的1百万个可转移的分子鉴定条码的产生过程的非常完全和冗余质量控制过程。
在此例中,一组60个核苷酸条码由此允许产生各由6个核苷酸条码建造的1百万个可转移的分子鉴定条码。这也暗示,各60个核苷酸条码会见于100个可转移的分子鉴定条码。这也暗示,5个给定的核苷酸条码的任何组合会见于100个可转移的分子鉴定条码,但各后者的100个可转移的分子鉴定条码会就第6核苷酸条码不同。当需表征可转移的分子鉴定条码(需要扩增诸如例如PCR)时,可转移的分子鉴定条码中的给定的核苷酸条码可不扩增,从而来源于该核苷酸条码的对应靶核苷酸序列(扩增子)会不被发现;被称为扩增子退出的现象。如果在以上所述的例中,第6核苷酸条码未能被扩增和/或测序,从而仅5个核苷酸条码序列可被表征,无法能确定可能的100个可转移的分子鉴定条码中的哪一个存在。此潜在问题应用于每个核苷酸条码,即,当特定核苷酸条码因为扩增子退出而未能被检测时,有100个可转移的分子鉴定条码实际上存在但不能被总结的潜在的可转移的分子鉴定条码。以上描述的扩增和/或测序误差容忍,诸如使用误差校正工具,不能校正扩增子-退出。
因为扩增子-退出而未能表征和鉴定确切的可转移的分子鉴定条码可通过代替单核苷酸条码而用核苷酸条码对工作而产生可转移的分子鉴定条码混合物,使系统更冗余来防止。当一对核苷酸条码的一个核苷酸条码未能被扩增和/或测序,该给定的对的另一个核苷酸条码仍可被表征和鉴定。发现给定的核苷酸条码对的任一个核苷酸条码,或该给定的核苷酸条码对的两个核苷酸条码,允许明确地确定核苷酸条码对中的哪个存在。为产生1百万个独特样品条码(其各由6个核苷酸条码对(总共12个核苷酸条码)建造),需120个核苷酸条码来建造完全大量的1百万个不同独特可转移的分子鉴定条码(见表5)。为产生1百万个可转移的分子鉴定条码,相比需制备60个核苷酸条码需要的努力,使用和制备120个核苷酸条码(即,质粒制备物)难以是显著另外的努力。
表5.可以每个可转移的分子鉴定条码使用的核苷酸条码对数的函数制备的不同可转移的分子鉴定条码数。
(a)使用10个核苷酸条码对的组;对于各核苷酸条码对,可在10个核苷酸条码对之间选择
使用核苷酸条码序列对的另外的优势是可以显著更高至甚至完全的确定度总结混杂。的确,当存在和发现非常低的混杂时,核苷酸条码序列对的两个最小核苷酸条码序列的发现在检测混杂中彼此确认。
由于样品切换会导致高比例的预料不到的核苷酸条码(并且,应以更高比例存在的预期的核苷酸条码的消失),且混杂一般导致比预期的核苷酸条码显著更小比例的预料不到的核苷酸条码,可将信息学流程编程为以非-配对模式分析以高比例发现的核苷酸条码,从而可检测扩增子退出,同时以配对-模式分析以低比例发现的核苷酸条码,从而需检测核苷酸条码对的两个最小核苷酸条码序列而总结混杂。
不同于用核苷酸条码对工作,甚至可使用核苷酸条码序列的三重,四重组合,或更多组合,以便使系统甚至更冗余和稳健。
当从Nx随机库使用核苷酸条码质粒制备物时,核苷酸条码需首先测序,以便鉴定最小核苷酸条码序列。个体核苷酸条码的扩增和测序步骤实际上会已是获得适合的用于产生可转移的分子鉴定条码的核苷酸条码(相比当在应用中表征可转移的分子鉴定条码时可难以被扩增和/或测序且可导致扩增子退出的核苷酸条码)的第1选择步骤。
对于过此选择标准的核苷酸条码的而言,甚至可使用进一步选择标准。例如,为进一步产生可转移的分子鉴定条码,可不包括被挑选和表征为具有高GC和/或AT含量的核苷酸条码序列。的确,已知,该序列难,或未能被扩增,且可导致扩增子退出和/或未能被测序。而给定的核苷酸条码已可在以上描述的第1标准期间已经过了扩增和/或测序控制步骤,其可仅如此行,因为其存在于仅以高浓度含有一种核苷酸条码的均质DNA制备物中,当实际上在与其他核苷酸条码组合和/或以更低浓度使用的应用中使用时,其不再是情况。在其后者真正应用环境中,给定的核苷酸条码可仍未能被扩增和/或测序。
用于产生可转移的分子鉴定条码的针对特定核苷酸条码序列的其他选择标准可为同一核苷酸的携带序列的延伸物,诸如,例如,同一核苷酸的行(6,7,或更多;或甚至5,4,3或2)。的确,可用于表征可转移的分子鉴定条码中的核苷酸条码的特定高度并行测序技术,诸如焦磷酸测序和离子半导体测序,同一核苷酸的延伸物中核苷酸的确切的数不能总是被正确地测定。尽管该序列可产生多于1种类型的序列,即,具有测序误差的序列,其可如上所述校正,为产生可转移的分子鉴定条码,可优选不包括许多该核苷酸条码,如果此通过挑选产生一组核苷酸条码的一些另外的核苷酸条码来从中选择最核苷酸条码以最小努力可行。
为标记物品或样品而任何可转移的分子鉴定条码会仅使用一次,从而各物品或样品被唯一地标记,以便获得水密性质量保证的标记系统。一旦已产生1,000,000可转移的分子鉴定条码管或受者容器,仅以最小努力选择和制备120个用于产生下一份可转移的分子鉴定条码的新核苷酸条码质粒制备物。
每个可转移的分子鉴定条码也需得到会存储于数据库的会在下游处理中使用的鉴定名称或编码。此数据库任选地位于中心位置,且可基于云访问。当给定的量含有1,000,000个可转移的分子鉴定条码时,此数据库会含有1百万个不同行并会由此有点大。非常可能,软件程序(诸如算法)会在下游处理中使用。实际核苷酸条码序列或可转移的分子鉴定条码然后需用这些软件程序处理和/或与这些数据库连接。为此目的,例如,对于各批数,可产生列了120个核苷酸条码的名称和最小核苷酸条码序列的文件(诸如txt.文件,csv.文件)。由于会以相同的固定的预定的顺序产生给定的量的全部1,000,000个可转移的分子鉴定条码,可由软件算法,使用在该文件名中带该给定的批数且列120个用于产生该批数的可转移的分子鉴定条码的核苷酸条码的名称和最小核苷酸条码序列的此小文件,以相同的预定的顺序推导任何可转移的分子鉴定条码中的12个核苷酸条码序列。该具有120行的更小数据库组合可推导存在于各1,000,000个可转移的分子鉴定条码中的实际最小核苷酸条码序列的算法,会比产生和为各份使用各行描述各1百万个可转移的分子鉴定条码中的12个分子核苷酸条码的1百万行的表更实际。与每份使用一个表相比,可使用列在全部批数中使用的全部最小核苷酸条码序列的一个单表(诸如txt.文件,csv.文件)。除了描述使用各最小核苷酸条码序列的相应批数的列了名称和相应最小核苷酸条码序列的列之外,该单表需要然后第3列。甚至可添加另外的列,诸如恒定侧翼序列中的适配体信息(例如核苷酸条码序列标识符序列,提取序列)。甚至当在单表中组合批数的信息(表中产生额外行和额外列)和可能附加信息(在表中产生额外列)时,此单表仍比列了全部可转移的分子鉴定条码和它们的关联的最小核苷酸条码序列的表显著更小。
如果需选择,例如,具有最不同最小核苷酸条码序列、由此最不相关的序列的120个核苷酸条码,需从更大量的核苷酸条码选择。可选择的最小核苷酸条码序列数越大,可选择的最佳不相关的序列越完美。但是,当更多序列被添加到用于选择的最小核苷酸条码序列库时,选择最不相关的序列的所得降低。基于Manhattan距离,m-medoid聚集的模拟分析,在序列上尽可能不同的25个核苷酸长的用于选择120个最小核苷酸条码序列(用于产生各由12个核苷酸条码建造的给定的大量的1百万个可转移的分子鉴定条码)总结,会实际上需要约400个用于选择的核苷酸条码。向用于选择的池添加另外的最小核苷酸条码序列导致难以在获得最最佳不相关的序列中任何进一步改善。
400个核苷酸条码,而非120个核苷酸条码的制备仍是用于产生约1百万个独特可转移的分子鉴定条码的有限的努力,尤其由于此额外努力仅在用于产生非常第1份的1百万个可转移的分子鉴定条码中需要。的确,如果已产生了1百万个可转移的分子鉴定条码,需产生下一份的1百万个可转移的分子鉴定条码。可为第2份1百万个样品条码产生用于产生第1生产份的相同的120个核苷酸条码。但是,由于同一可转移的分子鉴定条码会然后跨不同份产生并使用多于一次,这是不优选的。即便为产生第2份而会产生相同的核苷酸条码,用于在之前份中产生的它们的制备物最可能被耗竭,从而需以任何方式制备新质粒制备物。为产生新份可转移的分子鉴定条码,优选120个新核苷酸条码。实施细菌甘油浓储物的平板集落和集落挑选的另外的努力由此最小。而且,为了用新核苷酸条码产生新份可转移的分子鉴定条码,会不需要400个新核苷酸条码。会需要会添加到未为产生之前份的核苷酸条码而选择的280个核苷酸条码质粒的仅120个新核苷酸条码。为产生新份可转移的分子鉴定条码等,从这280+120个核苷酸条码,再次会选择120个通常不相关的核苷酸条码。
可能与其他靶核酸组合的可转移的分子鉴定条码的并行测序处理方法是条件性的,以便获得绝对质量控制。此与仅对一种类型的序列进行测序的Sanger测序成对比。各核苷酸条码及可能(各)其他靶核酸诸如一个或多个基因的一个或多个外显子的Sanger测序会需要分开的测序反应。分开不同单Sanger测序不保证正确地实施,尤其如果同时处理许多可转移的分子鉴定条码和/或样品。的确,在末尾,不同分开的Sanger测序过程,或其获得的表征的数据,需组合的再次。由于各Sanger测序反应也需测序模板的富集,诸如PCR,分开的处理的起始已在完全过程中比实际测序显著早先时刻起始,从而各分开的处理中涉及甚至许多更多步骤(可发生切换和混杂误差)。如果处理中的分开未被正确地实施,则会获得错误重组的过程和/或结果。
在我们的1百万个不同可转移的分子鉴定条码由60个不同核苷酸条码建造的例中,每核苷酸条码序列会见于该份的100个可转移的分子鉴定条码。当非-并行测序方法用于表征这些可转移的分子鉴定条码时,分开的处理之间的切换可在末尾,在组合不同分开的测序反应的结果之后,导致核苷酸条码序列,由此有效可转移的分子鉴定条码的有效组合,但不正确的可转移的分子鉴定条码。
另一方面,本文描述并在平行测序处理方法中使用的可转移的分子鉴定条码仍允许总体过程中特定处理的分开,并仍获得绝对质量控制。但是,分开的处理,需进而具有(相同的)并行处理特征(例如多重形式)并具有一个共同的特征(最小条码序列)。例如,IonAmpliSeqTM外显子组检定(ThermoFisher Scientific)使用跨12个引物池的约300,000个引物对。几种GeneRead DNAseq靶向的检定(Qiagen)使用跨4个引物库的多于2,000个引物对。各这些分开的库仍是复合的多重扩增,且由此仍具有并行性质。当为富集核苷酸条码而向各这些池添加2种引物时,且当由6个核苷酸条码建造的可转移的分子鉴定条码存在于原生物学样品中时,如果在末尾发现仅全部预期的6个核苷酸条码序列,则测试结果有效。当给定的组的测定用多重反应中的一个或多个多重反应在被处理的不同生物学样品之间切换时,会发现多于6个预期的核苷酸条码序列,从而,测试可被标记为不有效。如果在使用一组4个多重扩增的测定中,一个多重在它们的可转移的分子鉴定条码中不共享任何核苷酸条码的不同生物学样品之间切换时,预期的6个核苷酸条码会表示约75%的全部获得的核苷酸条码序列,而达6个另外的核苷酸条码会表示约25%的全部获得的核苷酸条码序列。在扩增富集步骤之后(测序之前),达预期的6个核苷酸条码序列会不见于该切换的库中,但达非-预期的6个核苷酸条码序列会在该切换的库中表示100%。由于在测序之前全部4个库被等同混合,其中在3个非-切换的库中预期的6个核苷酸条码各以100%级分存在,总体达非-预期的6个核苷酸条码会在末尾表示约25%。该单库的切换不能与总样品的更总体混杂,诸如一个样品的约25%与另一样品的DNA混杂区别。在该情况中,在全部4个扩增富集池中,达非-预期的6个核苷酸条码会表示约25%,因此当全部4个扩增富集库在测序之前组合时也在约25%。当NGS检定仅使用2种库时,在它们的可转移的分子鉴定条码中不共享任何核苷酸条码的2个生物学样品之间的单池切换,预期的和非-预期的核苷酸条码二者会表示约50%的全部核苷酸条码序列读长。在给定的总体测定中使用的库越多,混杂检测变得越欠敏感,可能至分子核苷酸条码不再保证关于混杂检测的绝对质量控制的的程度。此可通过成比例的更高富集克服,由此超过其他核酸靶序列的核苷酸条码的相对更深测序。
当对于使用不同的靶富集用库的测定,为核苷酸条码的富集而向各库添加不相同的2种引物时,此也可克服。实际最小核苷酸条码序列侧接恒定序列。在多重扩增测定中,通过使添加到给定的池的一个或两个引物靶向侧接恒定序列中的不同结合位点,来源于各库的各核苷酸条码序列会具有其给定的特征、侧翼序列的给定的不同长度,和/或序列情景(图6)。当在使用4个引物富集库的NGS测试的末尾,发现给定的6个核苷酸条码序列时,且当全部预期的4种类型的侧翼序列见于全部这些核苷酸条码序列时,其可总结为预期的6个核苷酸条码的确存在于各4个分开的库中,从而也可排除不同样品之间的单池切换。
给定的库中使用的2种引物之一可甚至在不同库之间共享。引物的给定的组合会确定会在可与其他库区别给定的池中富集的组合的侧翼序列的程度。
此形式不仅会允许使用靶富集用引物库的NGS测定中更敏感混杂检测,也允许区别仅不同样品之间的分开的测试过程中一个或多个池的切换与总DNA样品中的总体混杂。
可转移的分子鉴定条码可被添加到固体基体或容器,诸如医疗和法院应用中用于样品收集的试剂盒的收集基体。或者,甚至更佳,可转移的分子鉴定条码已在该收集容器中产生。可转移的分子鉴定条码可直接添加到试剂盒的适合于接收核酸序列的组分中。此组分通常与也会接收未知的待分析的DNA样品的组分相同或类似。可转移的分子鉴定条码可作为水溶液,粉剂,凝胶,树脂,层压剂,喷雾剂或以诸如胶囊形式,捕获到沸石中,或以任何其他适合的形式应用。当然,当不作为水溶液应用时,核苷酸条码在给定的时刻不是可溶性的。但是,它们在处理期间再次成为可溶性的和可转移。可转移的分子鉴定条码也可被包被或点斑在收集容器的壁上,或浸渍到拭子或试剂盒的其他组分中。例如,可转移的分子鉴定条码可被添加到血管诸如用于血收集的(Becton Dickinson),微型管,微孔板的孔中。可转移的分子鉴定条码也可被点斑在卡,诸如Whatman PLC生产的FTATM典型卡上。此类型的试剂盒包括可在生产期间或随后添加可转移的分子鉴定条码的FTATM纸,当用于样品收集时。类似地,其可被点斑在Guthrie卡上。此段落提及的基体和容器被称为“运载体”
可转移的分子鉴定条码可与样品制备,存储或处理中使用的试剂或方法,诸如含有稳定剂,防腐剂,去污剂,中和剂,抑制剂,还原剂,猝灭剂,或其组合的溶液组合。这些组分可通过与与生物学样品,诸如其核酸,或与作为此主要相互作用的结果的次要产物直接(主要)相互作用,或甚至与更下游相互作用,诸如因为二级或三级相互作用产生的组分具有它们的影响。
例如,该化合物可为防止全血细胞(被认为减少DNA从白细胞群释放)凝集的选自下列的抗凝剂:肝素,乙二胺四乙酸(EDTA),柠檬酸盐,草酸盐,肝素和其任何组合。
例如,该化合物可为选自下列的核酸酶抑制物:焦碳酸二乙酯,乙醇,金精三羧酸(ATA),甲酰胺,氧钒根-核糖核苷复合物,Macaloid,2-氨基-2-羟甲基-丙烷-1,3-二元醇(TRIS),乙二胺四乙酸(EDTA),蛋白酶K,肝素,羟胺-氧-铜酸离子,膨润土,硫酸铵,二硫苏糖醇(DTT),β-巯基乙醇,半胱氨酸,二硫代赤藓糖醇,三(2-羧乙基)磷杂环戊二烯盐酸盐,二价阳离子诸如Mg+2,Mn+2,Zn+2,Fe+2,Ca+2,Cu+2,及其任何组合。
例如,该化合物可可使用诸如选自下列的甲醛释放剂防腐剂:脲醛,咪唑烷基脲,二羟甲基-5,5-二甲基乙内酰脲,二羟甲基脲,2-溴-2.-硝基丙烷-1,3-二元醇,噁唑烷,钠甘氨酸羟甲酯,5-羟基甲氧基甲基-1-1氮杂-3,7-二氧杂双环[3.3.0]辛烷,5-羟甲基-1-1氮杂-3,7-二氧杂双环[3.3.0]辛烷,5-羟基聚[亚甲基氧基]甲基-1-1氮杂-3,7二氧杂双环[3.3.0]辛烷,四级金刚烷及其任何组合(US5459073)。甲醛常常用于稳定化细胞膜,且其使用可因此减少细胞裂解。甲醛也被认为抑制DNA酶和RNA酶,由此增加无细胞核酸的保存和稳定性。
例如,猝灭化合物可为包括至少一种能与甲醛的电子缺陷官能团反应的官能团的化合物(例如,与甲醛反应而形成羟甲基和/或亚胺Schiff碱的胺化合物,或与甲醛反应而形成环状乙缩醛的顺式-二元醇化合物)。该猝灭化合物可为选自氨基酸,烷基胺,聚胺,主要胺,次要胺,铵盐,或其组合的成分。更特别是,选自甘氨酸,赖氨酸,亚乙基二胺,精氨酸,脲,腺嘌呤,鸟嘌呤,胞嘧啶,胸腺嘧啶,亚精胺,或其任何组合。该猝灭化合物在去除任何游离的甲醛中有用。
可转移的分子鉴定条码可添加到防腐剂,抗凝剂,和猝灭化合物的组合中。
再次,可转移的分子鉴定条码可已在含有稳定化溶液的收集容器中产生。例如,可转移的分子鉴定条码可在用于收集血样品的无细胞DNA血收集管中产生,其中样品的有核的血细胞被稳定化,且其用于分析循环胚胎或肿瘤DNA的测试(Streck或CFGenome),PAXgene血ccfDNA管(PreAnalytiX),PAXgene血RNA收集管(PreAnalytiX),其中RNA被稳定化,Oragene-DNA唾液收集系统,其中唾液的DNA被稳定化(DNA Genotek Inc.)等。
总之,随可转移的分子鉴定条码而可存在用于检测样品切换和/或混杂之外的质量目的的其他分子。含有可转移的分子鉴定条码的运载体也可含有,例如用于在NIPT测试中测试三体性的三体性控制(例如来自CFGenome的Trizo21),例如用于RNA测试(Lexogen)的Spike-in RNA变体(SIRV)控制。
含有可转移的分子鉴定条码的容器或受者优先具有附接有与实际可转移的分子鉴定条码,由此也其核苷酸条码序列一一连接的编码的独特视觉宏观1D或2D条码纸标记物。为实践原因,例如,12个25-核苷酸长序列的实际序列不能被打印在更小纸标记物上。除了此实践原因之外,还有一个原因可为处理样品的人,至少在过程的特定阶段期间盲于此信息,从而以无差别的过程使用可转移的分子鉴定条码。该形式为样品操作及其方法留出足够的空间。仅在处理的非常末尾,核苷酸条码的实际序列需要解析,该处理的验证。
附接的视觉宏观条码标记可具有不同形式。标记物可为,例如,穿孔的,可为可去除的,可为打印在2个(部分)相同的部分而其中一部分可去除的。在使用仍不含有可转移的分子鉴定条码的样品容器的情况中,可去除的标记物可然后在收集样品的时间放置在患者的样品容器或受者上。
可考虑将可转移的分子鉴定条码的实际序列信息从产生位点转移到应用(客户)位点的不同流程。可能的方式是,客户应在一些时刻通过最可能位于也产生可转移的分子鉴定条码的实体的云接触服务器。优先,可转移的分子鉴定条码,由此关联的核苷酸条码序列保存在云上和在数据转移期间,例如根据OWASP(Open Web应用安全协议)建议。可能地,它们也应遵守提供用于保护医疗信息的数据私密性和安全供应的HIPAA(HealthInsurance Portability and Accountability Act)法规。但是,应注意的是,考虑到以上描述的可转移的分子鉴定条码系统的性质,由于可转移的分子鉴定条码服务器不需求任何患者信息或局部客户(例如医院)编码或信息,患者私密性信息已被保证。例如,仅在客户位点获得的获得的核苷酸条码序列以及客户接收的纸鉴定编码从客户位点转移到在中心核苷酸条码数据库中的可转移的分子鉴定条码产生和/或管理位点或验证公司,之后,如果在纸编码和获得的核苷酸序列读长之间有,或无匹配,可转移的分子鉴定条码产生和/或管理位点将信息返回给客户。或者,将获得的纸鉴定编码由客户发给可转移的分子鉴定条码产生和/或管理位点或公司,之后,产生位点将例如,与该纸鉴定编码关联的实际最小核苷酸条码序列发送给客户,其中在客户位点实施存在匹配与否的确定。由此,在客户位点的患者信息,患者代码,及与可转移的分子鉴定条码的关联唯独保持在客户位点,诸如医院。
从云服务器获得该信息可为自由的或局限的。管上的视觉宏观条码标记为服务器提供足够的信息而提供正确可转移的分子鉴定条码序列。此编码可对于访问该云服务器而言已足够。但是,用于每个可转移的分子鉴定条码的另外的编码(再次独特编码),可给予客户和要求以便访问,从而用于获得可转移的分子鉴定条码的实际序列的另外的安全水平就位。的确,由于每份可转移的分子鉴定条码由对于各份在相同的固定的预定的流程中产生和编码的有限数量的核苷酸条码序列建造,当使用给定的数的可转移的分子鉴定条码和来自所述份的关联的编码名称时,由此给定的客户知道确定该给定的份的任何可转移的分子鉴定条码的序列会是可能的。用该另外的编码,客户要求可如给定的宏观条码标记和可转移的分子鉴定条码(组合)的持有人和所有者要求而被实际鉴定。
不同于逐个获得列表上要求的可转移的分子鉴定条码的核苷酸条码的序列的信息,另一选项是从云服务器获得用于产生可转移的分子鉴定条码所来源的给定的份的核苷酸条码和它们的关联的名称的全部不同序列。的确,考虑到各份可转移的分子鉴定条码以固定的预定的流程、以固定的顺序从少数的个体核苷酸条码分子建造,也可向使用者提供包括含有各可转移的分子鉴定条码的容器的命名,算法,定制的到此预定的流程(可能在软件包中,或软件包的部分)。此算法,组合给定的份的含有核苷酸条码的序列和它们的连接的名称的文件(例如csv或txt文件)可然后被客户使用,以获得给定的可转移的分子鉴定条码的核苷酸条码的实际序列。但是,客户则也能推导该相同的份的全部可转移的分子鉴定条码的核苷酸条码的序列。当然,提供不用于该样品的另外的核苷酸条码或可转移的分子鉴定条码的序列提供欠稳固的形式平台,由于任何本领域技术人员可然后容易基于附接于该可转移的分子鉴定条码容器的视觉宏观条码标记推导存在于含有可转移的分子鉴定条码的给定的容器中的序列。
可由此开发作为待被客户使用的单独的工具的用于使用可转移的分子鉴定条码的不同软件工具,其为云服务器工具的部分,其中仅获得单可转移的分子鉴定条码的信息,获得给定的可转移的分子鉴定条码份的一些或全部可转移的分子鉴定条码的信息,或甚至获得全部份可转移的分子鉴定条码的全部可转移的分子鉴定条码的信息。具有实际上在给定的样品中不使用的可转移的分子鉴定条码的信息可的确在特定应用中为目标。该应用的一例是混杂的检测。当使用由12个条码序列建造的可转移的分子鉴定条码编码时,另外的条码序列的鉴定会允许软件工具检测和报道混杂。当样品混杂有另一样品时,其例如不共享12个核苷酸条码序列中的任何一个,且如果混杂小于或大于50%,可确定属于各可转移的分子鉴定条码的另外的条码。例如,如果相比其他核苷酸条码而以约1%的频度发现另外的条码,这些会非常可能属于混杂的可转移的分子鉴定条码。观察到核苷酸条码的比例由此提供关于混杂程度的附加信息。在实践中,2个不同可转移的分子鉴定条码可共享一些核苷酸条码。的确,如果共享全部仅一个最小条码序列,2个不同可转移的分子鉴定条码是独特和不同的。混杂然后仅通过非-共享的最小条码序列检测。客户可由此对混杂的源感兴趣,以便改善它们的样品的处理和检定,从而该混杂未来不再发生。另一软件工具可提供关于混杂的序列的信息,即便序列被观察为不同份的部分。为此目的,客户应能获得不用于该相应样品,或或许不在该客户的任何样品中使用的可转移的分子鉴定条码的序列,由此涉及混杂的外部源。
当物品或生物学样品容器仅用样品外部的标记物,例如,用用于法院分析目的的血收集器管或用于掺杂分析目的的尿收集容器上的纸标记,在收集器容器的外壁标记,标记物可容易被操作,诸如去除标记物,或甚至用另一标记物取代。此导致了对提供样品的那些部分的关注,误差或恶意意图可导致它们的样品被误操作,由此它们牵涉欺诈或犯罪活动。无论方式和当获得样品时,甚至生物学样品中的DNA为法院分析充当供体的个体鉴定。该‘内部’-标记会在法院极其有价值,亲子关系,掺杂测试等,之后标记物的操作显著更难或甚至不再可能。‘内部’-标记甚至无需在测试本身的时间测定,诸如在掺杂测试是实际掺杂测试,与检测‘内部’-标记物的测试是不同测试,‘内部’-标记物仅在有怀疑的情况中测定。当怀疑样品测试结果的情况中,甚至显著晚于实际测试实施,诸如计数之前,关于方式和/或当取样品和运输时,可返回测试,鉴定‘内部标记’。
可添加任选的2个不同分子鉴定条码,甚至在相同的时刻,甚至提供进一步安全量度。例如,使用存在于受者中的分子鉴定条码,及表示部分分离的样品,及表示在受者中提供生物学样品的人的额外分子鉴定条码。当分子鉴定条码被添加到用于掺杂测试的样品中时可高度感兴趣,其中男运动员/女运动员也拥有在提供其的时刻添加到其分离的生物学样品的分子鉴定条码(例如作为管中的溶液)。以此方式,可转移的分子鉴定条码被用作(分子)签名工具,其中男运动员/女运动员签名其取含其签名的生物学样品,由此批准,是分子鉴定条码的形式的签名。
可被可转移的分子鉴定条码分配不同类型的信息,或不同类型的信息的组合:例如,个人信息,患者,医生,客户,医院,提供者;电话号,电子邮件地址,空间信息(将可转移的分子鉴定条码添加到物品的位置),时间(将可转移的分子鉴定条码添加到物品的时间),样品类型(血,唾液,尿,粪便),定购的测试,鉴定测试。
可转移的分子鉴定条码也可分配给待用于分析靶核酸的处理流程,诸如用于基于DNA或RNA的测试的生物信息学处理流程,并引发甚至自动(生物-信息学)流程。全基因组的生物-信息学分析,甚至用高容量硬件,每样品数小时的CPU时间,且由此非常耗时。随着更小更快的测序系统的开发,有许多不分析全基因组,而仅分析靶区诸如单基因或基因的组的应用。更小靶区的生物-信息学分析欠需求。但是,在典型真核生物基因组中,有至少20.000个不同基因。因此需特定应分析哪个基因获得的测序读长。当可转移的分子鉴定条码被分配给各这些基因时,生物-信息学流程变得甚至更自动化,因为系统会然后也读取靶DNA(诸如需分析的基因或基因的组)的信息。本质上,DNA可转移的分子鉴定条码成为然后可呼叫测序硬件和软件之外需要的DNAware什么。尤其当NGS测序仪变得更小型化且最终成为需粘附到笔记本或智能手机以便实施测序的小硬件时,任何添加的层诸如DNAware使得测序检定更自动化且可接近。
不同可转移的分子鉴定条码可具有不同功能,其可在单检定中使用由此组合。例如,标记样品以便检测样品切换和混杂的可转移的分子鉴定条码,及提供可组合待在测定中使用的生物-信息学流程的信息的另一类型的可转移的分子鉴定条码。
如果用于建造代替一个最小条码序列而含有2个或更多最小条码序列的可转移的分子鉴定条码的核苷酸条码分子,可获得用于获得建造可转移的分子鉴定条码的序列的更稳固形式。这2个最小条码序列可为相同的长度或不同长度。该核苷酸条码具有可彼此相邻,被接头分开,或可为重叠的2个独特序列。具有一个最小核苷酸条码序列的核苷酸条码通常在两个位点侧接恒定适配体和序列。这些适配体在末尾在核苷酸条码的扩增和/或测序所需要。全部不同核苷酸条码由此携带相同的适配体。具有这些适配体的任何核苷酸条码的实际最小条码序列可然后容易被本领域技术人员测定。此可通过在核苷酸条码中使用2个独特条码序列来防止。一个条码序列可用作用于扩增和/或测序引物的结合位点来表征和鉴定第2条码序列。为制备给定的可转移的分子鉴定条码,不同核苷酸条码携带相同的第1条码序列,而第2条码就携带仅一个条码的核苷酸条码不恒定和相当于以上所述的最小条码序列。使用者然后需知道待用作用于扩增和/或测序的引物结合位点的第1条码序列的确切的序列,以便知道(第2)最小条码序列的表征需要的引物。当第1条码序列的序列知道时,其可仅被测定。第1条码序列(在此情况中是引物序列)的信息可然后局限和稳固到特定人和/或应用。当在质粒中构建该具有2个最小条码序列的构建体,本领域技术人员可仍通过诸如在质粒载体主链中构建用于扩增和/或测序的引物(也侧接第1条码序列区)来不弄清楚实际第1条码序列。当该具有给定的稳固的第1条码序列和不同可能的第2条码序列的核苷酸条码在第1和第2条码区具有随机序列的质粒的混合物中被掩饰,第1条码可难以被弄清楚,甚至不被本领域技术人员弄清楚,尤其如果这些构建体随随机第1序列以各不同质粒的浓度存在。
使用具有2个独特最小条码序列核苷酸条码序列的另一应用会是第1给定的独特序列用于给定的应用,而另一给定的第1序列用于另一应用的应用。
可转移的分子鉴定条码可在具有这些不同水平的应用中的任一个,可接近性和/或安全性的应用中产生,提供和使用。的确,当产生不同份时,不同应用,可接近性和/或安全性水平可分配给给定的份。
物品,样品和/或方法自添加可转移的分子鉴定条码的时刻有完全质量-保证。在方法中越早添加可转移的分子鉴定条码,方法越早由此有更多完全质量-保证。如果在方法的末尾发现另一可转移的分子鉴定条码,或可转移的分子鉴定条码的混合物,在总方法的某处总结样品切换和/或混杂。但是,不会知道方法中发生样品切换和/或混杂的确切的位置。可通过在不同时间点再次随可转移的分子鉴定条码添加处理的物品或样品来缩小搜索方法中发生样品切换和/或混杂的的确切的位置。因此可在2个或甚至更多时间点在总过程中向物品/样品,及其方法添加可转移的分子鉴定条码。例如,当可转移的分子鉴定条码在开始被添加到物品或样品,且另一可转移的分子鉴定条码在过程中间被添加到该处理的物品或样品时,且在方法的末尾发现正确的第2可转移的分子鉴定条码,而非第1可转移的分子鉴定条码,这可被总结为在方法的第2阶段无切换发生。典型遗传测试由几个亚-过程建造,各进而一般由不同步骤建造。在第1过程中,从生物学样品诸如血中提取DNA,在第2阶段,通过富集靶区和测序实施DNA突变的搜索。常常在实验室中,或甚至在相同的学会/公司的不同实验室中,或甚至在不同学会/公司的不同实验室中的不同位置实施DNA提取和测序。在各不同实验室中,涉及不同人,且具有它们的职责。在方法的不同步骤添加可转移的分子鉴定条码,诸如当(处理的)样品到达不同实验室,允许跟踪样品切换或混杂到给定的亚-过程和实验室。以此方式,会对于在哪出现误差无讨论,而该该实验室负责,且需例如负责做新测试。此会对于许多实验室外包它们的测序的NGS序列核心设备/公司极其有价值。
在由6个核苷酸条码对建造可转移的分子鉴定条码的情况中,各12个核苷酸条码具有约8.3%的级分(如果不存在混杂)。如果在不共享任何核苷酸条码序列的给定的过程中添加2个可转移的分子鉴定条码,仅会在约4.15%的级分发现各24个核苷酸条码。当在给定的过程中添加更多可转移的分子鉴定条码时,各核苷酸条码的级分甚至变得更小。在方法的末尾发现各核苷酸条码的更小级分,成为欠敏感的混杂检测。使用来自不同批产生的可转移的分子鉴定条码,其中一个或两个恒定侧翼序列,部分或完全,在批之间不同,诸如每批存在不同核苷酸条码序列标识符序列,在完全过程中的相应不同步骤添加会克服此问题。在该情况中,对于在过程中在给定的时间点添加的各可转移的分子鉴定条码,各核苷酸条码的级分会在方法的末尾保持在8.3%。
在给定过程中的不同步骤中使用具有不同恒定侧翼序列的不同的可转移分子鉴定条码,而不是在样品中的相同点处添加具有不同恒定侧翼序列的这种不同的可转移分子鉴定条码。例如,采用的血液样本可以使用具有不同恒定侧翼序列的不同可转移分子识别条码用于不同的测试中。这些测试中的每一个都可以使用给定的可转移的分子识别条码和给定的恒定侧翼序列。在那种情况下,将使用具有不同恒定侧翼序列的可转移分子鉴定条码的混合物。例如,下一代测序实验室可能对他们想要检测的混杂水平有不同的愿景,工作流程和协议。例如,在医生采集血样时可能不知道该信息。例如,在提取样品的DNA并且质量已知之前,可能不知道该信息。在这种情况下,可转移的分子鉴定条码具有给定的恒定侧翼测序,其中大量的核苷酸条码允许非常敏感的混杂检测,以及可转移的分子鉴定条码与其他给定的恒定侧翼序列,其中使用少量的核苷酸条码允许较不敏感的混杂检测,添加到血液样本中。另一个例子可能是血液样本用于DNA和RNA分析。在这种情况下,可以将DNA型可转移分子识别条码和RNA型可转移分子识别条码的混合物添加到生物样品,例如血液中。
如果将可转移的分子鉴定条码添加到样品中,则核苷酸条码不应超过该(加工的)样品中正在研究的其他靶核酸。实际上,人们希望获得靶核酸的最高序列读数,以便以最低的成本获得最高的突变检测灵敏度。另一方面,可转移分子识别条码中每个核苷酸条码的数量太少将不允许人们检测或推断出正确的可转移分子识别条码,因为每个核苷酸条码应优先以与靶核酸等摩尔量存在。(s)正在调查中。来自真核生物的生物样品是二倍体(2N)。如果使用由6对核苷酸条码构成的可转移的分子鉴定条码,它们实际上应该以6N存在,以便与靶核酸等摩尔。如果将血液样本放入管中,则采集的血液量不总是10ml。更重要的是,当以每毫升细胞测量时,作为血液样品中DNA来源的白细胞数量在个体之间变化。因此,即使在个体之间采集完全相同体积的血液,最终可用DNA和提取的DNA的量也可在很大程度上在样品之间变化。因此,一个固定量的可转移分子识别条码对于所有样品而言不是最佳量。例如,血液样品中血浆中循环DNA的量远低于来自该血液样品的白细胞中DNA的量。因此,优选地,较低量的可转移分子识别条码被添加至用于收集cfDNA的载体,而不是用于收集基因组DNA的载体。
用于样品测序的大多数模板制剂需要通过捕获寡核苷酸或通过使用寡核苷酸的扩增技术捕获靶核酸来富集。然后,需要富集核苷酸条码,分别通过针对核苷酸条码的捕获寡核苷酸或针对扩增核苷酸条码的引物进行富集。富集的核苷酸条码的数量可以通过这些捕获寡核苷酸或引物标准化至最佳量,或更具体地通过这些捕获寡核苷酸或引物的浓度标准化至最佳量。在例如捕获寡核苷酸以低于其核苷酸条码靶的浓度存在的情况下,一旦所有这些寡核苷酸都发现了核苷酸条码,未捕获并洗掉未反应的核苷酸条码。以这种方式,可以去除相对于其他靶核酸的过量的核苷酸条码序列。类似地,相对于针对扩增其他靶核酸的引物,限制扩增富集方案中用于扩增核苷酸条码序列的引物的量将导致不是所有(即过量)靶核苷酸条码都能找到它们的引物和不会参与放大。以这种方式,针对核苷酸条码的固定浓度的寡核苷酸将撇去过量的核苷酸条码。
在实践中,在标准捕获或扩增方案中,寡核苷酸的浓度已经远高于它们捕获或扩增所需的靶标浓度。实际上,寡核苷酸和它们各自的DNA靶标不存在于一对一的分子关系中。为了撇去过量的核苷酸条码,相对于针对其他靶核苷酸的寡核苷酸的浓度,针对捕获或扩增的针对这些核苷酸条码序列的寡核苷酸浓度随后降低。然后,通过限制参与富集的靶核苷酸条码的数量,但通过使核苷酸条码序列的发现在动力学上不太有利,不能实现核苷酸条码序列与其它靶核苷酸序列的相对均等化。
在核苷酸条码序列以低于其他靶核苷酸序列的浓度存在的情况下,具有在测序后不能获得足够的核苷酸条码序列以推断存在的可转移分子识别条码的风险,最佳核苷酸条码序列与靶核酸比率可以通过相对增加用于富集核苷酸条码序列的寡核苷酸(捕获寡核苷酸或扩增引物)的浓度来获得。
如果想要开发对检测混杂非常敏感的测序方案,可以通过增加寡核苷酸的浓度来实现,通过捕获或扩增来富集核苷酸条码序列,而不增加可转移的分子识别条码浓度的量,例如,使用其他样品容器用于含有较高量(浓度)的可转移分子识别条码的生物样品。
在对全基因组进行测序的情况下,例如在全基因组测序和非侵入性产前测试中,测试环状肿瘤DNA,不添加寡核苷酸用于通过捕获或扩增进行富集。然而,针对核苷酸条码序列的捕获寡核苷酸可用于相对于全基因组序列撇去可能过量的核苷酸条码序列。
可转移的分子鉴定条码甚至可以用于高度平行的测序应用,而无需在NGS模板制备测定中制备它们。当通过高度平行测序进行扩增和/或测序的所有引物结合位点已经存在于可转移分子鉴定条码的恒定侧翼序列中并因此在NGS模板制备期间不需要附着时,这可以实现。然后,可以仅进行最小模板制备测定,例如在单个实验中结合用于分析不同样品的合并指数。
在许多应用中,特别是在靶向测序中,在单个测序实验中汇集不同的样品/文库。在这样的汇集库中,库到库的可变性应该尽可能低。如果一个文库以较低的浓度存在,那么将获得较低量的测序数据(在最坏的情况下导致读取深度不足),以便这样的样品/文库,从而可能在该样品中遗漏突变,以便该样品可能需要再次测序以获得额外的测序读数,以获得所需的读取深度。这也将增加该样品的测序成本。如果对于一个样品/文库,获得的测序数据太多(因此读取深度太高),则测试更加昂贵,因为将获得更多测序序列并在不需要时付费。因此,应对合并的样本/库进行均衡。这可以通过确定浓度来完成,并因此当考虑待测序的DNA片段的分子量时,或者对每个文库估计DNA分子的数量。如果不同的文库具有不同的靶核酸(因此很可能不同大小的DNA片段将被测序),则需要针对目标大小校正分子的数量。每个文库的这些浓度测量,计算和随后的稀释实验以及随后相应地混合文库是非常耗时的。
通过均衡寡核苷酸也可以实现使待合并的不同测序文库均等化。这是一种简单而无缝的基于珠子的解决方案,可替代图书馆定量化和文库稀释的需要,以满足任何下一代测序工作流程所需的文库归一化,并最大限度地减少库到库的可变性。均衡寡核苷酸可以与所有靶核苷酸序列结合。在大多数应用中,通过扩增在靶核酸富集期间掺入这种用于均衡探针的结合位点,其中引物携带具有用于均衡寡核苷酸的这种结合位点的衔接子,或在通过片段化制备测序文库期间。和衔接子的连接,其中衔接子携带用于均衡寡核苷酸的结合位点。均衡结合位点可以与扩增和/或测序引物的结合位点相同。当均衡序列存在于引物或连接接头中时,需要首先除去未反应的引物或连接接头,以便仅使真正的测序模板均衡。当样品含有衍生自可转移的分子鉴定条码和其他靶核酸的靶核苷酸序列时,可以通过指向核苷酸条码的恒定侧翼序列的均衡寡核苷酸实现单独衍生自可转移的分子鉴定条码的靶核苷酸序列的均衡。均衡寡核苷酸,针对核苷酸条码序列中的恒定序列的第一均衡寡核苷酸和针对通过引物扩增期间或通过连接接头连接期间掺入的序列的第二均衡寡核苷酸的组合可以允许进一步细化-调整衍生自核苷酸条码序列的靶核苷酸序列与来自其他研究中的靶核酸的其他靶核苷酸序列的相对比例。当均衡寡核苷酸被生物素化时,可以通过向每个测序文库中添加相同数量的这种均衡寡核苷酸来实现基于珠子的简单溶液以获得具有最小化的文库间可变性的测序文库,以防万一如果这个均衡寡核苷酸的数量低于可以获得的靶核苷酸序列的数量,则每个测序文库中过量的测序模板分子将被撇去,并且以这种方式,在测序实验中合并的不同测序文库将被平衡。以更优化的方式。
此外,如牛津纳米孔测序中所应用的实时读直至测序将是获得核苷酸条码序列与其他靶核苷酸序列的序列读数的最佳比率的另一种方式。在Read Until测序中,它会监测每个孔中的测序内容,从而为用户提供是否继续和完成测序的选项。由于每个纳米孔通道可单独寻址,因此可以简单地停止每个孔中的测序反应,以便新的DNA链可以进入该孔用于测序。由于每个最小条码序列的侧翼是恒定侧翼衔接子序列,因此Read Until测序可以监测核苷酸条码序列的恒定衔接子序列的存在或不存在,以跟踪测序的核苷酸条码序列的数量。
通过调整用于在文库制备方案中捕获或扩增核苷酸条码序列的寡核苷酸浓度,或通过选择性测序,可能不需要产生太多用于收集生物样品的容器,每个容器具有不同量的可转移分子鉴定针对特定应用或技术优化的条码。如果需要生产具有不同浓度的可转移分子识别条码用于特定下游加工的仍然容器的情况,则预期该数量限于两种(高或低)或三种(高,中,低)浓度类型。
因此,可转移的分子鉴定条码可以以不同的量制备和使用,这取决于需要检测的混杂水平。实际上,人们想要检测的混杂水平越小,所需的NGS测序越深,因此应该添加到物品或样品中的核苷酸条码的量越高。
当可转移的分子鉴定条码检测基因测试中的混杂时,混杂可源自测试中使用的任何物质。实际上,除了生物样品(血液样品,DNA样品或其在测试过程中的加工产品)之间的混杂之外,混杂还可以源自该测试中使用的任何产品(DNA提取,NGS模板制备和/或测序反应)。例如,当通过使用汇集条码在单个测序实验中组合不同的样品时,汇集条码也可能彼此混杂。可以通过使用寡核苷酸引物将合并条码合并到测序模板中。如果产生一系列不同的合并条码引物,则合成中的前合并条码寡核苷酸的任何轻微残余物在下面的合并条码寡核苷酸中溶解,导致混杂的合并条码引物(例如合并条码引物2被汇集条码引物混杂)1)。当在一个实验中处理和测序两个不同的样品时,使用用于样品1的汇集条码引物1和用于样品2的汇集条码引物2,并且汇集条码引物2被汇集条码引物1混杂。在测序后不同的测序序列根据生物信息过程中的相应汇集条码对两个样品中的每一个进行分组和处理,样品2的一些读数将显示在包含样品1的读数的文件中,因为它们与混杂的汇集条码1相关联。因此,在分析之后,样品1在加工过程中会被样品2混杂,但很可能两个样品在技术人员的准备过程中都得到了正确的处理,并且样品之间没有发生混杂,而实际上汇集的条码是混杂。因此,可转移的分子鉴定条码也可以被DNA提取试剂盒,NGS模板制备试剂盒,寡核苷酸的制造公司用于质量控制其生产过程和最终产品。在不对总生物样品进行DNA提取的方案中,非常可能需要用于核苷酸条码序列的捕获寡核苷酸。这里,将分析任何DNA,即存在于生物样品细胞中的基因组DNA以及添加的DNA核苷酸条码。当小型化测定时,例如在(微流体)系统上,可能不对总生物样品进行DNA分离。例如,DNA提取可以仅对分离的细胞,病原体(细菌,病毒)进行。当可转移的分子鉴定条码存在于此类生物样品中时,它们可能不会在细胞分离步骤中保留。针对核苷酸条码并因此捕获核苷酸条码的捕获寡核苷酸可以与病原体或细胞大小的珠子(结构)结合,从而也保留核苷酸条码。例如,在通过与磁珠结合的多克隆抗体捕获此类细胞,细菌或病毒的情况下,这些珠子可以容易地与磁珠混合,其中捕获针对核苷酸条码的寡核苷酸被结合,使得方案或测定几乎不需要为了允许在这种测定中使用可转移的分子鉴定条码而进行修饰。
从RNA转化为cDNA的那一刻起,DNA型可转移的分子鉴定条码也可用于RNA测试。实际上,来自生物样品的许多RNA提取方案破坏(残留)DNA,例如,使用DNase,当存在于生物样品中时,DNA型可转移的分子鉴定条码将被破坏,因此只有当RNA转化为cDNA时才能加入它们。为了确保RNA测试中RNA转换为cDNA之前的上游加工步骤,应使用由RNA型核苷酸条码混合构成的RNA型可转移分子鉴定条码。
如果DNA型核苷酸条码中最小核苷酸条码区的上游恒定侧翼序列含有引发RNA合成的启动子,则甚至可以由DNA型核苷酸条码制备RNA型核苷酸条码。这种衔接子可以是例如T7启动子。如果RNA型核苷酸条码中最小核苷酸条码区域的下游恒定侧翼序列也含有一段A残基(例如20、25、50、75、100、150、200或更多A残基),则RNA RNA型可转移分子鉴定条码的核苷酸条码也可以在需要mRNA分离的RNA试验中加工,以便在mRNA分离步骤中也用mRNA分离RNA型核苷酸条码。
除了在诊断测试中的应用外,可转移的分子识别条码也可用于研究测试。例如,使用生物样品(例如细胞系)的研究项目,其用表达载体转染并通过高度平行的测序分析进行研究。这是侧翼常数序列不应编码在细菌或病毒DNA中(因此未在克隆载体中发现,或更具体地克隆载体骨架)或具有小于1%,小于2%的序列的另一个原因,小于3%,小于4%,小于5%,小于10%,小于15%,小于20%,小于25%,小于30%,小于40%,小于50%与在任何天然存在的基因组,细菌或病毒DNA中编码的序列同源。否则它们会干扰高度平行的测序,并且还会进行测序,从而从表达载体中产生测序序列,这些序列不需要以人们想要分析的序列和金钱为代价,因为需要更多的测序来获得数量人们想要的有序序列
除了它们在基因组和/或转录组水平的测试中的应用之外,可转移的分子鉴定条码也可以在任何物种的测试中找到应用。一个例子是确定食品质量和成分的测试,甚至是完整的生产链,关于他们的肉类,植物,细菌,真菌含量。例如,这将允许检测其中存在另一种动物的肉,与食品上指示的给定动物的肉混合的欺诈。这可以在分子水平上通过序列分析基因组和/或线粒体DNA区域来完成,所述基因组和/或线粒体DNA区域在物种之间高度不同,因此允许区分物种并因此检测物种。同样在这里,当采集食物样品进行这样的分子测序测试时,可以通过使用(添加)可转移的分子识别条码来类似地防止/监测食物样品之间的食物样品切换和/或混杂。
可转移的分子识别条码也可用于标记工业产品,艺术品,古物,证券和环境混杂物,工业生产过程的质量控制等。使用较高浓度的可转移分子鉴定条码甚至可以消除对扩增的需要,因此可转移的分子鉴定条码可以在单分子测序装置上直接测序,因此几乎不需要测序模板制备。这种形式在便携式和手持式单分子测序装置中可能变得非常有吸引力这种可转移的分子鉴定条码可具有促进易于分离和/或纯化的附加性质,例如生物素基团的附着,使得可转移的分子鉴定条码可容易地从(复杂的)混合物中分离。
分子鉴定DNA条码也可用于蛋白质测定,当有适合检测被研究蛋白质的适体时。
【实施例】
【实施例1.NGS中可转移的分子鉴定条码的使用】
图7以例证方式显示在使用使调查中的核酸的靶区富集的2-步骤PCR流程的NGS测定中可转移的分子鉴定条码的使用会如何检测样品切换或混杂。
将可转移的分子鉴定条码添加的到患者样品中,其中2靶核酸区A和B是目标。通过2-步骤多重PCR流程,2个靶核酸区和可转移的分子鉴定条码的最小核苷酸条码和其侧翼序列被扩增。为此目的,将针对侧接全部3个靶核酸区的引物结合位点的扩增子-特异性引物扩增。全部扩增子-特异性引物携带5'通用适配体序列(对于正向引物是一种类型的通用适配体序列,对于反向引物是另一类型的通用适配体序列)。在第2PCR步骤中,将合并条码合并进第1PCR步骤中获得的全部扩增子。每个样品仅使用一对不同合并条码引物。合并条码引物具有在第1PCR步骤之后合并进3种类型的扩增子的通用适配体序列中的引物结合位点,指标序列,及为了NGS测序而样品的进一步处理所需要的5'适配体序列。对于各样品,使用不同合并条码。在全部3种扩增子(来源于2个调查中的靶核酸和可转移的分子鉴定条码)中,将相同的指标合并进给定的样品。然后将全部不同样品混合和测序,以便测序芯片和试剂的充分经济的使用。在测序之后,在一个或少数大文件中获得全部测序的序列。通过(生物)信息手段,根据合并条码序列将全部测序的序列分开在不同文件中。由此对具有相同的合并条码序列的全部序列(特异于各患者样品)分组,并保存在分开的文件中和个别进一步处理。对于各指标/患者文件,如果要看是否无样品切换和混杂,会表征最小核苷酸条码序列。如果未发现样品切换和/或混杂,遗传测试,即,该样品中见于2个靶核苷酸序列的突变是有效的。
显示了4个患者样品。向第1样品添加可转移的分子鉴定条码I,且使用合并条码1;向第2样品添加可转移的分子鉴定条码II,且使用合并条码2;向第3样品添加可转移的分子鉴定条码III,且使用合并条码3;且向第4样品添加可转移的分子鉴定条码IV,且使用合并条码4。在图7A中,未观察到样品切换或混杂,在图7B中,在第1和第4样品之间的处理期间发生样品切换,在图7C中,处理期间第4样品混杂有第1样品。
【实施例2.遗传测试流程图】
图8显示遗传测试中的流程图,起始于含有可转移的分子鉴定条码的血收集器管至最终有效遗传测试报道。
血收集器管含有独特可转移的分子鉴定条码和一一连接的视觉宏观条码标记。独特分子鉴定条码和视觉条码,及它们的一一关联,存储于可通过云访问的数据库。从患者将血收集进此血收集器管中。向此血收集器管附接来自患者的另一(第2)视觉条码纸标记(例如由医院产生的),从而现在血收集器管附接了2个视觉条码纸标记物。当将患者视觉条码标记连接到LIMS系统,且当扫描两个视觉条码纸标记物时,第1视觉条码标记的信息也变得连接于LIMS,且导致其与可转移的分子鉴定条码及可转移的分子鉴定条码的一一连接。可转移的分子鉴定条码中的最小条码序列由此是患者的名称的可转移的别名。然后将此样品为测序而处理,更特别是,实施DNA提取,富集目标靶核酸区(调查中的基因组的DNA区和核苷酸条码序列),将富集的序列制备为测序模板。当实施全基因组测序或环状DNA测序时,不实施富集。在制备各样品的序列模板期间,将合并条码合并。然后将全部测序模板合并和测序。在测序后,将具有相同的合并条码的全部序列分组到单个文件中,且进一步分析。来源于可转移的分子鉴定条码的序列读长可通过核苷酸条码序列标识符序列的存在来鉴定。可对这些序列读长进行亚分组,且可例如通过它们的‘提取’序列表征最小核苷酸条码序列。通过标位和变体判定表征来源于调查中的靶核酸的其他序列的突变,从而获得遗传测试结果。然后通过呈表原第1视觉条码标记纸编码来接触云数据库,之后云服务器向客户实验室发送关联的最小核苷酸条码序列。这些发送的最小核苷酸条码序列会用获得的来自序列读长的最小条码序列确证。如果在序列读长中发现预期的最小条码序列,且未发现另外的最小条码序列,样品处理期间不发生样品切换或混杂,从而遗传测试结果是有效的。需知,无患者信息,甚至不是医院产生的患者视觉纸标记编码转移到实验室/医院外,仅是附接于收集了患者血的原血收集器管的视觉条码纸标记编码。
图9显示遗传测试中的流程图,起始于含有可转移的分子鉴定条码的微型管至最终有效遗传测试报道。
微型管含有独特可转移的分子鉴定条码和一一连接的视觉宏观条码标记。在标准真空采血管中取血样品。然后立即或当真空采血管到达遗传实验室时,将微型管的可转移的分子鉴定条码溶液和关联的宏观条码标记转移到含血样品的真空采血管。替代性地,不转移关联的宏观条码标记,但立即扫描。然后与图8中描述的类似地进行测试。
图10显示图8中描述的类似流程图,但其中测序的序列的处理不同。不如图8和9中描述地平行分析测序的来源于核苷酸条码的序列和测序的靶样品核酸的序列。仅而且完全在云上且仅当未检测到样品切换时分析核苷酸条码的测序的序列,测序的起始靶样品核酸的序列的生物信息学分析。而且,当检测到混杂时,测序的起始靶样品核酸的序列的生物信息学分析,且检测和分析结果,但在检测的混杂水平的情景中解析。清楚的是,可在不同系列和/或并行步骤(算法)中定购生物-信息学流程,且可部分或完全在提供最小核苷酸条码序列的学会的云上,或在客户位点(例如医院)实施。
【实施例3.在具有可转移的分子鉴定条码的不同子过程添加样品测试过程】
图11显示2个当取血时用可转移的分子鉴定条码标记的样品。血样品1用可转移的分子鉴定条码1标记,血样品2用可转移的分子鉴定条码2标记,在DNA提取设备中提取二者样品的DNA。然后,将提取的DNA样品再次用可转移的分子鉴定条码标记。将DNA样品1用可转移的分子鉴定条码A标记,将DNA样品2用可转移的分子鉴定条码B标记。然后将DNA样品发送到下一代测序设备。由可区别它们的分别具有不同核苷酸条码序列标识符序列的核苷酸条码建造分别用于标记血或DNA的可转移的分子鉴定条码。如果发生样品切换和/或混杂,子过程(和实验室)是现在可追踪的发生的样品切换和/或混杂。
当样品1和2中/之间不发生样品切换或混杂时,会在样品1中发现最小核苷酸条码序列1和A,会在样品2中发现最小核苷酸条码序列2和B,
当在DNA提取期间将样品1与样品2混杂时,会在样品1中发现最小核苷酸条码序列1,2和A。
当在NGS模板制备和测序期间将样品1与样品2混杂时,会在样品1中发现最小核苷酸条码序列1,2,A和B。
【实施例4.上游和下游恒定序列】
本实施例显示本申请中描述的且例如图3和4中描绘的分离的上游和下游恒定序列的实施方式。
以下参照图4所示的上游恒定“序列1”[SEQ ID NO:1]显示位于从限制性位点RE1(加下划线的)直到黑色表示的最小条码序列的序列。
以下参照图4所示的下游“序列2”[SEQ ID NO:11]显示位于从黑色表示的最小条码序列直到限制性位点RE2(加下划线的)的序列。
SEQ ID NO:2和12是无聚A尾的变体。
其变体依赖于载体中的克隆位点而具有替代性的限制性位点识别序列。
或者,“序列1”是下游序列,“序列2”是上游序列。
或者,一个或两个下游序列可为以下所示的序列的反向互补体序列。
在替代性的实施方式中,描绘的下游和/或上游序列是显示大于70%,大于80%,大于90%,大于95%,大于97%或大于99%序列同一性的序列。序列同一性的差异可为例如来自添加或删除限制酶用识别位点的结果的结果。
仍替代性的实施方式是通过在指示的限制性位点和恒定序列之间和/或在恒定序列和最小条码序列之间存在另外的核苷酸序列而包含以下所示的序列的恒定序列。
仍其他实施方式是包含“序列1”和“序列2”所示的片段,即至少200个核苷酸的片段,至少300个核苷酸的片段,至少350个核苷酸的片段,至少375个核苷酸的片段,或至少390个核苷酸的片段或由这些片段组成的恒定序列。
这些序列和替代性的序列的非限制性组如SEQ ID NO:1~20所示。对于“序列1”和“序列2”[SEQ ID NO:1和1]的以上说明等同可应用于其他所示的序列。
[SEQ ID NO:1]
aagctttgtggatgtacaagtccacaccatgtacactagacgcagcctgtacagatatccatccagtgtactcactgtcgacacggatccaatgcccgggttctgatagacgaacgacgagatgtgcagtgacttcgaggatcccagatgtgcacgtagtgcaggtagcttgaatgactactacgcctgtagcatcatcacgtagactcgtacagctacatgacggtagctagattgacgactcaagcatgctagtgtcgttactgacctgatgacacagtcgatgcgaccttaatacgactcactatagggtcaacaagaccctgcagatcccgggatccgcctcttaagctgcgcaggccaggaattgcacgtcagagcactaaggccgccaccatggc
[SEQ ID NO:2]
aagctttgtggatgtacaagtccacaccatgtacactagacgcagcctgtacagatatccatccagtgtactcactgtcgacacggatccaatgcccgggttctgatagacgaacgacgagatgtgcagtgacttcgaggatcccagatgtgcacgtagtgcaggtagcttgaatgactactacgcctgtagcatcatcacgtagactcgtacagctacatgacggtagctagattgacgactcaagcatgctagtgtcgttactgacctgatgacacagtcgatgcgaccttaaatgctgagagattagggtcaacaagaccctgcagatcccgggatccgcctcttaagctgcgcaggccaggaattgcacgtcagagcactaaggccgccaccatggc
[SEQ ID NO:3]
aagcttctctcgccagctatttaaagtacgagtcgggaggccttagcacgaactgatttttccagcctgagtgctgttcttgcatgtaccttctatctaacgacgtccgtaataggaagtataccaggtcgaactaacgactcctttgccgtagcgagtgtttcgccaaaagtgtctgggtctactggccaccgtccagcatttctatgcccgtaccaggacccttcgtgtaatcccccatggattttcaagaattgaggaaaagtcacgtctccaaggccctacagggccagcggatactttgaaagcgacgataatatggtcgcttatttcatccaagccccgcgctaaacatggattttgggatgctatcccgaaagtacgacttggctccaaaggcc
[SEQ ID NO:4]
aagcttaacttcagctgaagacccgttttcgatccgcggcgagcccggagtgtaaaacgatagacgtgatgcttcggtcttctcaccccttcgaggtcataacatttttgtcatgattgccgtagtgctgatagtcctgagtctaaggcattcaatacaacgtacctcaggtcaattagactgtccatgactcatcttccgaagcgcagaatgatacgcagttctcactagttgggacctgctcgacgtccggttaaggcggatttaactaagcatagggtaccgtcacctgggcaactgaaaatggcctctgtgacgcaagatgcatgttcggtcagctcgttcaaagacggtatgaaatagagtagacatcagtacatcactcggacaggagcacctat
[SEQID NO:5]
aagcttgcgcaactttgacgaaatgttggccaatagcatacccgaacaccgcagggttaatgcctacagctagtgttagtcgttccggtagacatctgttaaagccggaagctcgcccgactgtacgaaatcacatctaactatacaactgcgccactttgcaaatcgagtcacgacgacctgtcccttacggtgcccatttgcgctgtaatgccgatcacttcacacaaacaaggcgcttgagagctcgaacttaggcgatgagggacaagtggtacccaagctccaatagtagaatgtgtaccatagggccgcggcgagccgcctttgtatcctgaaaaaattctcatcggcagcgcagtttattatttagttggaagcattagtgaacataacagcgc
[SEQ ID NO:6]
aagcttccgtggtgggcagaagagcctagcttactctttatttaaaaacgccagtagaatttggtcgggaggatacgatccactgtccaacataaataacccgctgtagcctttacacattcacgggttaagtgtagtgcgtgttctgtgtttctggtttgaataactgttcccactgtcttgaggatcgattctggccaaaatgtatgaccctctacataggatgtacccctggggtaggacggaatcgattacgacccctgatgataatgaccaatcgtgacggtcggtgtctactgacttcgcctacatccgacgatcctggctaggcgggttgagaacatcacggtattggggatcgggatgcgcgatcgcgataatgtggacttcgcaggtagtag
[SEQ ID NO:7]
aagcttggtggagcgcaaattctatttctgagttgcggcgtcagttgccattgaagtgcccgagctgcatagtctcacggtgagtcctcttgtacgaccactagatgcaatgaagcgtgcatggagcgccactctgcaataaaagccgaaacgctctgtaaacaagattaatgtctcgtgatgctctgaaaccgtttacctaacacgaacgataagacgcaacatcttccagagatgattacccgacacgctaatgaccgttatcactccccgcacatctgagcgtactttttgaagtcccgaggattgtcacggactaaatacctcgaatatcctgaactacctttgccaatggagggaaggacagggacacgctgtcggtactttgtaggcatttgggt
[SEQ ID NO:8]
aagcttagctcgacgcacaatccaacaagtagcactgctgtctactaagcaacgtaatgatccattcagacgagtttggaatgatctgcctcacccaaagcattaggcagccccctagctttctataggagaccgaaagagcatgagagagaactccctgatgacttactgactgcgtgatggttggctccgggacgcgcaacgcaacactttgtgtggcacgtaacttgtcgcacatatgtaatagcttcaaacccgcctcgtcttctggtgtgcgctcgttcatttaatcgaatagattcctctctctactgctggtcaagggcgtattggaaataacaagcaagctcctccgagctgagctacgagtcgatccgcccatgttccctcattatcgtctg
[SEQ ID NO:9]
aagcttgacctgtagcaccgcaaataatcattgctaatacgattcaagaatcgccctcgttatttgtattcacaggtgacccttggcttctactctaacacctaaggctgatccaactcagacttaagcggcgcagccgcaaatgtaatatgttcactgagagagagacgacggctccgtaggtcgaacattcaggtagctggagagatcattgcttagcatggcgctcgcggatctgttactgcaaatggcaacagactagaaaacaggcctaatatgatctcggaattttcgcctaacacgctcctttgactggctgtgaggcctaagcgattctggcagcgctgtgacttatcaagacacgcatgtcactacttgaccggcatcgtgccactctacgc
[SEQ ID NO:10]
aagcttttctctgcaacaggcgactatcggggccgggtgccaatctttcaaaagtgtgtaaacgtgcgaccgccagatgtcatgattcaatgtcttacctcgggctatcgtcataataagtttctaccgtaaggcacgccctaaggacgttccgaataaacacgcacccccccgtcgtttcagaaatctcattaccggctgacatgcctttagatacctcagagaaatctaaccacgtgtgttacgactgacgtctcaaagagacgagctgctcctagctttcctattggagtatctgtgcctcttgtgtcgggatttagtggatcaatatgctcccctacgataggtaagatttacccgttcgtcaattagagagccgggttttattattcggtcggcag
[SEQ ID NO:11]
catcatcaccatcaccattgatctcccagctgtgacacaaataagctagcccggggcagcatggaggttaaaattgtgcatccgaccggccaggatacgtaatattaatgcgcaccgcgcactgaagaatatgatcgaggctcgctgtagcagcactcagaaaaaaaaaaaaaaaaaaaaaaaaagagtgaataacactcagatctcgggggcgtgaatgctaaacatacacagagcacgcggtgatgtataccgctatgtcggtcatgtgctacctacagaagagctaggagtggatgagcactacacggtttcgggctaagaccatactctcacacgtgtggatgactcgagacagcagtgtcagagcatgtagctctagagatgacacgatgaattc
[SEQ ID NO:12]
catcatcaccatcaccattgatctcccagctgtgacacaaataagctagcccggggcagcatggaggttaaaattgtgcatccgaccggccaggatacgtaatattaatgcgcaccgcgcactgaagaatatgatcgaggctcgctgtagcagcactcagaaccgtaataggaagtataccaaaagagtgaataacactcagatctcgggggcgtgaatgctaaacatacacagagcacgcggtgatgtataccgctatgtcggtcatgtgctacctacagaagagctaggagtggatgagcactacacggtttcgggctaagaccatactctcacacgtgtggatgactcgagacagcagtgtcagagcatgtagctctagagatgacacgatgaattc
[SEQ ID NO:13]
cctctacggctccgtatcttaagacaaatgcgttctcgtaggtttgcttctacgtgatcatccggggtggtaatccgccctcgatctcctaaggatgaaaagggttagttgggccgaatttagttgatcgataagctgacggaaatctttactagcggataagctcatcccttcctgggtcaagatgcgagctagtacggccgcgtcgctaatctcaatgaccattaactttgcgtagccatgtgtgctgctgcggagcgatactattaattgccctttcagttctggttccattgcactctgaaggatctccagtttgtcggaatatcacgtaagaacgcttggcagaaaaagtctctatgctgtaacgcctcgacgtgaaactcgacaatgtgaattc
[SEQ ID NO:14]
cgtgaggggcacggcgagggagatcacaatatactgtcgtcgtttgatttcggaacagagccaacgggttcgggtgtcttgtgtgcttcactacatgacctcggtaaccagcagatttggtccaccgggtttgtgctggatttaggacaaggcgaaatatcatgatatacacagcatcgctttgccgttacatttttggcagccaaatggatcagaggctggtggggattacaccaccttgcccttacattggctaacgttttcaacacgtgttcctaaaatgtcagtcatgtccccccacacactatagcgctgagtcgatggagatcaaatgaggaatcgaccggaaaccttggtgtcactgcctatgcgccggcaatgaacaaaccgaagtgaattc
[SEQ ID NO:15]
aagctggtagcatatggatagctggcatgttcagataattgctatctggtatccccacggatgctgatggctgatctttaaggtaaatgacattcgttgtctttacgcgccacagtgttgggccaagcagtctagtcatccagggtcatgctgagtctgcctcgtagcttaaactgttctaccattacgcggtcacgagccgtgacatctcctatttacctggcacggttgcggtggcttgtaccgctccagatattataggagtcaagtctaatgtcttatttatgcgagcgtcataggaccttgtccaataaattgaaaggatacgcccgagctgtggtagctgttagtgacggcatattgccgagggagccatcgaatgcaatgttgattcgaattc
[SEQ ID NO:16]
gtgctgttttgttcctcagttcgatacgacctaggaactgatggcgggctacccggatgatctcgatttgttctctcatgatagcaacggcgtcaagcgtcagtcttgtctcgatggagggtcgagtagatttggcttggatctttctcgtgtaaagtaaatccctgccagaggaccgagctggacggcgaagaagtttttttatctctgcacttcgaacgataagcgtcgtctccctggtcgcaaacatgggcccaaattggcttgcgattgttaaactaccggagtttttaatcgcctaaaccgcggagttaatccatgcaaccaagccagtaggatgaagaagtgcgtccagtcgatcgttagtgcctggaatttctcttatcggcatcaagaattc
[SEQ ID NO:17]
tgtccgctctctagcagaagttgtaagttttaactcagtaggctgctactgaggggattgaacgcatgttatttgggttagtggtaataaatgactgtctcaggcgccatgctagagaacaattttgctggtttgcttacatggagacactagtctggtaccgcaccactcatggaatcaagcgtggtaggcccattgtttacgtacgagccggctgcatgagggcacatagcatctggataaggcccgagagacagaggtctgccgagttttacgataccatagctgttgcgccttgcattgctatcggttttacctgtcgtctccggcagacggtttattcctcactcaattaattggctagtgcggctggttatccaacaagcgcattagtgaattc
[SEQ ID NO:18]
ccggtaacttgctcctgggacgcttaaatggcaattttaaaggaggcgaccgacccccctaacctaaggatggtacttggtgaatactatcaaccacctccgtgacggcggccaattcaatcctgtaacgcgtgtcgtaaaagttcagtttgtcgcagggtcgagttacccgtaatcctgggaacgcccccccaatccgcttcagggctatatgccacacttgaaatcggaagtatcttggcttgagtatagtctggcgtggtaccacacatctacagtgaggtgaaaggcgcttctggcaaggtacgttctgcctgacagaattattcgcattagtggatgcgtccctggagtgcgtaaagcacactcggcagatgagtgctcggagcggactgaattc
[SEQ ID NO:19]
tagatgttgtacctgacaaccttctccctgcaaagcgggtgcctaaagatgttgttacatactccaggcctcgatatggtccaatcaaaatcccatcggaccagcgttggaaagtagcacataagcgtgagacctcaggagatccgtgtataagtgaatactggcattgggggtagttactagtgccgttcaatcggggaatgactcgggacataacgtctctaatctatatgagggtaccatattcaccgtaaaagactagagtccaatttggcctttcctcttagggaagagagtacaaaccgaaaacctggcgatcacgcctgcacagcagaatcttgcctcgtttgtgtatcattgtggcagaggagcctttaagacatgcgaatagatcgaattc
[SEQ ID NO:20]
gattttgtcgtaaaacgatcatcatgagatcaagttcgtagaagccctgtcatatttaggagtttgatgatcggcgcgagtgtaagtagcacaccgtattccaccgtgtttacctaacgcgactgcacagtactggcaggtaacgtacaaactcatacaagggtttccacctctggcatgcttcttcggtatctcgttcgatgtcgcattaatgcgttgaggaatggggttcatctggtcagggtctgaccgtttgtaaactaggtgacgagcctgcggacctgatgtttaatctagcgccctttatggaaatctgttacgcgcagccagatgtgttgtatcgagggatgtctaggtcctacacgcgacgatgaaacgggttcgtgtcggataggaattc
【参考文献】
之前引用的全部专利和出版物通过引用以它们的整体并入本文。
23andMe.http://blog.23andme.com/23andme-and-you/update-from-23andme/
Akmaev VR,Wang CJ.(2004)Bioinformatics 20:1254-1263.
De Bruyn A,Martin DP,Lefeuvre P.(2014)Methods Mol.Biol.1115:257-277.
Hamady M,Walker JJ,Harris JK,Gold NJ,Knight R.(2008)Nat Methods 5:235-237.
Buschmann T,Bystrykh LV.(2013)BMC Bioinformatics 14:272.
Sambrook and Russel:‘Molecular Cloning:A Laboratory Manual’,3rdEdition,2001,Cold Spring Harbor Laboratory Press.
Norton et al.,(2015)N.Engl.J.Med 372:1589-1597.
Taylor et al.(2015)Nat.Genetics 47:717-726.
序列表
<110> DName-iT NV
Cuppens, Harry
<120> 样品鉴定方法
<130> DNA3713PCT
<150> GB1701908.4
<151> 2017-02-06
<150> EP16169997.0
<151> 2016-05-17
<160> 20
<170> PatentIn version 3.5
<210> 1
<211> 401
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 1
aagctttgtg gatgtacaag tccacaccat gtacactaga cgcagcctgt acagatatcc 60
atccagtgta ctcactgtcg acacggatcc aatgcccggg ttctgataga cgaacgacga 120
gatgtgcagt gacttcgagg atcccagatg tgcacgtagt gcaggtagct tgaatgacta 180
ctacgcctgt agcatcatca cgtagactcg tacagctaca tgacggtagc tagattgacg 240
actcaagcat gctagtgtcg ttactgacct gatgacacag tcgatgcgac cttaatacga 300
ctcactatag ggtcaacaag accctgcaga tcccgggatc cgcctcttaa gctgcgcagg 360
ccaggaattg cacgtcagag cactaaggcc gccaccatgg c 401
<210> 2
<211> 401
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 2
aagctttgtg gatgtacaag tccacaccat gtacactaga cgcagcctgt acagatatcc 60
atccagtgta ctcactgtcg acacggatcc aatgcccggg ttctgataga cgaacgacga 120
gatgtgcagt gacttcgagg atcccagatg tgcacgtagt gcaggtagct tgaatgacta 180
ctacgcctgt agcatcatca cgtagactcg tacagctaca tgacggtagc tagattgacg 240
actcaagcat gctagtgtcg ttactgacct gatgacacag tcgatgcgac cttaaatgct 300
gagagattag ggtcaacaag accctgcaga tcccgggatc cgcctcttaa gctgcgcagg 360
ccaggaattg cacgtcagag cactaaggcc gccaccatgg c 401
<210> 3
<211> 401
<212> DNA
<213> 人工序列
<220>
<223> 恒定序列
<400> 3
aagcttctct cgccagctat ttaaagtacg agtcgggagg ccttagcacg aactgatttt 60
tccagcctga gtgctgttct tgcatgtacc ttctatctaa cgacgtccgt aataggaagt 120
ataccaggtc gaactaacga ctcctttgcc gtagcgagtg tttcgccaaa agtgtctggg 180
tctactggcc accgtccagc atttctatgc ccgtaccagg acccttcgtg taatccccca 240
tggattttca agaattgagg aaaagtcacg tctccaaggc cctacagggc cagcggatac 300
tttgaaagcg acgataatat ggtcgcttat ttcatccaag ccccgcgcta aacatggatt 360
ttgggatgct atcccgaaag tacgacttgg ctccaaaggc c 401
<210> 4
<211> 401
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 4
aagcttaact tcagctgaag acccgttttc gatccgcggc gagcccggag tgtaaaacga 60
tagacgtgat gcttcggtct tctcacccct tcgaggtcat aacatttttg tcatgattgc 120
cgtagtgctg atagtcctga gtctaaggca ttcaatacaa cgtacctcag gtcaattaga 180
ctgtccatga ctcatcttcc gaagcgcaga atgatacgca gttctcacta gttgggacct 240
gctcgacgtc cggttaaggc ggatttaact aagcataggg taccgtcacc tgggcaactg 300
aaaatggcct ctgtgacgca agatgcatgt tcggtcagct cgttcaaaga cggtatgaaa 360
tagagtagac atcagtacat cactcggaca ggagcaccta t 401
<210> 5
<211> 401
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 5
aagcttgcgc aactttgacg aaatgttggc caatagcata cccgaacacc gcagggttaa 60
tgcctacagc tagtgttagt cgttccggta gacatctgtt aaagccggaa gctcgcccga 120
ctgtacgaaa tcacatctaa ctatacaact gcgccacttt gcaaatcgag tcacgacgac 180
ctgtccctta cggtgcccat ttgcgctgta atgccgatca cttcacacaa acaaggcgct 240
tgagagctcg aacttaggcg atgagggaca agtggtaccc aagctccaat agtagaatgt 300
gtaccatagg gccgcggcga gccgcctttg tatcctgaaa aaattctcat cggcagcgca 360
gtttattatt tagttggaag cattagtgaa cataacagcg c 401
<210> 6
<211> 401
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 6
aagcttccgt ggtgggcaga agagcctagc ttactcttta tttaaaaacg ccagtagaat 60
ttggtcggga ggatacgatc cactgtccaa cataaataac ccgctgtagc ctttacacat 120
tcacgggtta agtgtagtgc gtgttctgtg tttctggttt gaataactgt tcccactgtc 180
ttgaggatcg attctggcca aaatgtatga ccctctacat aggatgtacc cctggggtag 240
gacggaatcg attacgaccc ctgatgataa tgaccaatcg tgacggtcgg tgtctactga 300
cttcgcctac atccgacgat cctggctagg cgggttgaga acatcacggt attggggatc 360
gggatgcgcg atcgcgataa tgtggacttc gcaggtagta g 401
<210> 7
<211> 401
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 7
aagcttggtg gagcgcaaat tctatttctg agttgcggcg tcagttgcca ttgaagtgcc 60
cgagctgcat agtctcacgg tgagtcctct tgtacgacca ctagatgcaa tgaagcgtgc 120
atggagcgcc actctgcaat aaaagccgaa acgctctgta aacaagatta atgtctcgtg 180
atgctctgaa accgtttacc taacacgaac gataagacgc aacatcttcc agagatgatt 240
acccgacacg ctaatgaccg ttatcactcc ccgcacatct gagcgtactt tttgaagtcc 300
cgaggattgt cacggactaa atacctcgaa tatcctgaac tacctttgcc aatggaggga 360
aggacaggga cacgctgtcg gtactttgta ggcatttggg t 401
<210> 8
<211> 401
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 8
aagcttagct cgacgcacaa tccaacaagt agcactgctg tctactaagc aacgtaatga 60
tccattcaga cgagtttgga atgatctgcc tcacccaaag cattaggcag ccccctagct 120
ttctatagga gaccgaaaga gcatgagaga gaactccctg atgacttact gactgcgtga 180
tggttggctc cgggacgcgc aacgcaacac tttgtgtggc acgtaacttg tcgcacatat 240
gtaatagctt caaacccgcc tcgtcttctg gtgtgcgctc gttcatttaa tcgaatagat 300
tcctctctct actgctggtc aagggcgtat tggaaataac aagcaagctc ctccgagctg 360
agctacgagt cgatccgccc atgttccctc attatcgtct g 401
<210> 9
<211> 401
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 9
aagcttgacc tgtagcaccg caaataatca ttgctaatac gattcaagaa tcgccctcgt 60
tatttgtatt cacaggtgac ccttggcttc tactctaaca cctaaggctg atccaactca 120
gacttaagcg gcgcagccgc aaatgtaata tgttcactga gagagagacg acggctccgt 180
aggtcgaaca ttcaggtagc tggagagatc attgcttagc atggcgctcg cggatctgtt 240
actgcaaatg gcaacagact agaaaacagg cctaatatga tctcggaatt ttcgcctaac 300
acgctccttt gactggctgt gaggcctaag cgattctggc agcgctgtga cttatcaaga 360
cacgcatgtc actacttgac cggcatcgtg ccactctacg c 401
<210> 10
<211> 401
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 10
aagcttttct ctgcaacagg cgactatcgg ggccgggtgc caatctttca aaagtgtgta 60
aacgtgcgac cgccagatgt catgattcaa tgtcttacct cgggctatcg tcataataag 120
tttctaccgt aaggcacgcc ctaaggacgt tccgaataaa cacgcacccc cccgtcgttt 180
cagaaatctc attaccggct gacatgcctt tagatacctc agagaaatct aaccacgtgt 240
gttacgactg acgtctcaaa gagacgagct gctcctagct ttcctattgg agtatctgtg 300
cctcttgtgt cgggatttag tggatcaata tgctccccta cgataggtaa gatttacccg 360
ttcgtcaatt agagagccgg gttttattat tcggtcggca g 401
<210> 11
<211> 400
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 11
catcatcacc atcaccattg atctcccagc tgtgacacaa ataagctagc ccggggcagc 60
atggaggtta aaattgtgca tccgaccggc caggatacgt aatattaatg cgcaccgcgc 120
actgaagaat atgatcgagg ctcgctgtag cagcactcag aaaaaaaaaa aaaaaaaaaa 180
aaaaagagtg aataacactc agatctcggg ggcgtgaatg ctaaacatac acagagcacg 240
cggtgatgta taccgctatg tcggtcatgt gctacctaca gaagagctag gagtggatga 300
gcactacacg gtttcgggct aagaccatac tctcacacgt gtggatgact cgagacagca 360
gtgtcagagc atgtagctct agagatgaca cgatgaattc 400
<210> 12
<211> 400
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 12
catcatcacc atcaccattg atctcccagc tgtgacacaa ataagctagc ccggggcagc 60
atggaggtta aaattgtgca tccgaccggc caggatacgt aatattaatg cgcaccgcgc 120
actgaagaat atgatcgagg ctcgctgtag cagcactcag aaccgtaata ggaagtatac 180
caaaagagtg aataacactc agatctcggg ggcgtgaatg ctaaacatac acagagcacg 240
cggtgatgta taccgctatg tcggtcatgt gctacctaca gaagagctag gagtggatga 300
gcactacacg gtttcgggct aagaccatac tctcacacgt gtggatgact cgagacagca 360
gtgtcagagc atgtagctct agagatgaca cgatgaattc 400
<210> 13
<211> 400
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 13
cctctacggc tccgtatctt aagacaaatg cgttctcgta ggtttgcttc tacgtgatca 60
tccggggtgg taatccgccc tcgatctcct aaggatgaaa agggttagtt gggccgaatt 120
tagttgatcg ataagctgac ggaaatcttt actagcggat aagctcatcc cttcctgggt 180
caagatgcga gctagtacgg ccgcgtcgct aatctcaatg accattaact ttgcgtagcc 240
atgtgtgctg ctgcggagcg atactattaa ttgccctttc agttctggtt ccattgcact 300
ctgaaggatc tccagtttgt cggaatatca cgtaagaacg cttggcagaa aaagtctcta 360
tgctgtaacg cctcgacgtg aaactcgaca atgtgaattc 400
<210> 14
<211> 400
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 14
cgtgaggggc acggcgaggg agatcacaat atactgtcgt cgtttgattt cggaacagag 60
ccaacgggtt cgggtgtctt gtgtgcttca ctacatgacc tcggtaacca gcagatttgg 120
tccaccgggt ttgtgctgga tttaggacaa ggcgaaatat catgatatac acagcatcgc 180
tttgccgtta catttttggc agccaaatgg atcagaggct ggtggggatt acaccacctt 240
gcccttacat tggctaacgt tttcaacacg tgttcctaaa atgtcagtca tgtcccccca 300
cacactatag cgctgagtcg atggagatca aatgaggaat cgaccggaaa ccttggtgtc 360
actgcctatg cgccggcaat gaacaaaccg aagtgaattc 400
<210> 15
<211> 400
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 15
aagctggtag catatggata gctggcatgt tcagataatt gctatctggt atccccacgg 60
atgctgatgg ctgatcttta aggtaaatga cattcgttgt ctttacgcgc cacagtgttg 120
ggccaagcag tctagtcatc cagggtcatg ctgagtctgc ctcgtagctt aaactgttct 180
accattacgc ggtcacgagc cgtgacatct cctatttacc tggcacggtt gcggtggctt 240
gtaccgctcc agatattata ggagtcaagt ctaatgtctt atttatgcga gcgtcatagg 300
accttgtcca ataaattgaa aggatacgcc cgagctgtgg tagctgttag tgacggcata 360
ttgccgaggg agccatcgaa tgcaatgttg attcgaattc 400
<210> 16
<211> 400
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 16
gtgctgtttt gttcctcagt tcgatacgac ctaggaactg atggcgggct acccggatga 60
tctcgatttg ttctctcatg atagcaacgg cgtcaagcgt cagtcttgtc tcgatggagg 120
gtcgagtaga tttggcttgg atctttctcg tgtaaagtaa atccctgcca gaggaccgag 180
ctggacggcg aagaagtttt tttatctctg cacttcgaac gataagcgtc gtctccctgg 240
tcgcaaacat gggcccaaat tggcttgcga ttgttaaact accggagttt ttaatcgcct 300
aaaccgcgga gttaatccat gcaaccaagc cagtaggatg aagaagtgcg tccagtcgat 360
cgttagtgcc tggaatttct cttatcggca tcaagaattc 400
<210> 17
<211> 400
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 17
tgtccgctct ctagcagaag ttgtaagttt taactcagta ggctgctact gaggggattg 60
aacgcatgtt atttgggtta gtggtaataa atgactgtct caggcgccat gctagagaac 120
aattttgctg gtttgcttac atggagacac tagtctggta ccgcaccact catggaatca 180
agcgtggtag gcccattgtt tacgtacgag ccggctgcat gagggcacat agcatctgga 240
taaggcccga gagacagagg tctgccgagt tttacgatac catagctgtt gcgccttgca 300
ttgctatcgg ttttacctgt cgtctccggc agacggttta ttcctcactc aattaattgg 360
ctagtgcggc tggttatcca acaagcgcat tagtgaattc 400
<210> 18
<211> 400
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 18
ccggtaactt gctcctggga cgcttaaatg gcaattttaa aggaggcgac cgacccccct 60
aacctaagga tggtacttgg tgaatactat caaccacctc cgtgacggcg gccaattcaa 120
tcctgtaacg cgtgtcgtaa aagttcagtt tgtcgcaggg tcgagttacc cgtaatcctg 180
ggaacgcccc cccaatccgc ttcagggcta tatgccacac ttgaaatcgg aagtatcttg 240
gcttgagtat agtctggcgt ggtaccacac atctacagtg aggtgaaagg cgcttctggc 300
aaggtacgtt ctgcctgaca gaattattcg cattagtgga tgcgtccctg gagtgcgtaa 360
agcacactcg gcagatgagt gctcggagcg gactgaattc 400
<210> 19
<211> 400
<212> DNA
<213> 人工序列
<220>
<223> 条码侧翼区
<400> 19
tagatgttgt acctgacaac cttctccctg caaagcgggt gcctaaagat gttgttacat 60
actccaggcc tcgatatggt ccaatcaaaa tcccatcgga ccagcgttgg aaagtagcac 120
ataagcgtga gacctcagga gatccgtgta taagtgaata ctggcattgg gggtagttac 180
tagtgccgtt caatcgggga atgactcggg acataacgtc tctaatctat atgagggtac 240
catattcacc gtaaaagact agagtccaat ttggcctttc ctcttaggga agagagtaca 300
aaccgaaaac ctggcgatca cgcctgcaca gcagaatctt gcctcgtttg tgtatcattg 360
tggcagagga gcctttaaga catgcgaata gatcgaattc 400
<210> 20
<211> 400
<212> DNA
<213> 人工序列
<220>
<223> 恒定序列
<400> 20
gattttgtcg taaaacgatc atcatgagat caagttcgta gaagccctgt catatttagg 60
agtttgatga tcggcgcgag tgtaagtagc acaccgtatt ccaccgtgtt tacctaacgc 120
gactgcacag tactggcagg taacgtacaa actcatacaa gggtttccac ctctggcatg 180
cttcttcggt atctcgttcg atgtcgcatt aatgcgttga ggaatggggt tcatctggtc 240
agggtctgac cgtttgtaaa ctaggtgacg agcctgcgga cctgatgttt aatctagcgc 300
cctttatgga aatctgttac gcgcagccag atgtgttgta tcgagggatg tctaggtcct 360
acacgcgacg atgaaacggg ttcgtgtcgg ataggaattc 400

Claims (33)

1.鉴定多个包含核酸的生物学样品的同一性的方法,所述方法包括下列步骤:
·提供多个作为基体或容器的运载体,各含有包含核酸的生物学样品,
其中各运载体除了包含核酸的样品之外还包含,至少2个用于对所述运载体进行标记的核苷酸条码核酸,
其中这至少2个核苷酸条码核酸中的每一个包含至少4个核苷酸长度的不同最小核苷酸条码序列,其中所述这些不同核苷酸条码核酸的组合产生可转移的分子鉴定条码,由此各可转移的分子鉴定条码对于各运载体而不同,
其特征在于,所述至少2个核苷酸条码核酸中的最小核苷酸条码序列在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌核苷酸条码序列标识符序列,及在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌提取序列,允许所述最小核苷酸条码序列的鉴定,且
其中各运载体含有对应于应用在所述运载体上的可转移的分子鉴定条码的宏观条码标记,
·对生物学样品的核酸中的一个或多个靶序列进行测序,且对包含最小核苷酸条码序列的核苷酸条码核酸中的靶序列进行测序,
其中生物学样品的核酸中的靶序列的测序和包含最小核苷酸条码序列的核苷酸条码核酸的靶序列的测序通过并行测序方法实施,
其中任选地在所述并行测序方法之前合并生物学样品的核酸中的靶序列和来自不同样品的包含最小核苷酸条码序列的核苷酸条码核酸的靶序列,
·从获得的序列数据确定和选择来源于核苷酸条码核酸的序列,包括从获得的序列数据选择那些来源于核苷酸条码核酸的序列的步骤,其中所述选择步骤包括具有一个或多个与最小核苷酸条码序列相邻的核苷酸条码序列标识符序列的序列的鉴定;
·在分离的具有核苷酸条码序列标识符序列的序列内确定和选择最小核苷酸条码序列,包括下列步骤:
选择存在于2个定义的长度的提取序列之间的序列,或选择与1个定义的长度的提取序列相邻存在的序列,及
将这些选择的序列确定为最小核苷酸条码序列,
·基于随运载体提供的宏观条码标记来比较确定的最小核苷酸条码序列与预期的最小核苷酸条码序列,由此鉴定样品的同一性和/或混杂。
2.权利要求1的方法,
包括将衔接子连接于样品中的靶核酸和包含核苷酸条码序列的核酸的步骤,且
包括使用连接的产物作为测序模板而对靶序列和核苷酸条码序列进行测序的步骤。
3.权利要求1或2的方法,包括下列步骤:
实施所述核酸样品中的靶序列的富集步骤,及
实施核苷酸条码序列的富集步骤。
4.权利要求1~3之任一项的方法,包括下列步骤:
向样品的靶序列附接样品特异性合并条码,
任选地也将相同的样品合并条码附接到所述样品中的包含核苷酸条码序列的核酸。
5.权利要求1~4之任一项的方法,其中所述核苷酸条码序列具有类似于待测序的靶核酸或富集的靶核苷酸序列的长度。
6.权利要求1~5之任一项的方法,所述方法包括收集样品的步骤和从所述样品分离核酸的步骤,
其中将第1组至少2个标记用核苷酸条码核酸添加到收集的样品中,且
其中将第2组至少2个标记用核苷酸条码核酸添加到分离的核酸中。
7.作为基体或容器的运载体的收集体,其包含用于标记物品的核酸
其中各运载体在样品核酸之外还包含至少2个标记用核苷酸条码核酸,
其中各核苷酸条码核酸包含至少4个核苷酸长度的不同最小核苷酸条码序列,
其中所述不同核苷酸条码核酸中的至少2个具有长度相同的最小核苷酸条码序列,
其中所述这些不同核苷酸条码核酸的组合产生可转移的分子鉴定条码,
由此各该可转移的分子鉴定条码对于收集体中的各运载体而不同,
其特征在于,所述至少2个核苷酸条码核酸中的最小核苷酸条码序列
在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌核苷酸条码序列标识符序列,和/或
在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌提取序列,允许所述核苷酸条码序列的鉴定,且
其中各运载体含有对应于应用于所述运载体的可转移的分子鉴定条码的宏观条码标记。
8.权利要求7的收集体,其中所述标记用核苷酸条码核酸不包含将核酸转录为RNA的序列。
9.权利要求7或8的运载体的收集体,其中所述运载体适合于将生物学样品应用于所述运载体上或中。
10.权利要求7~9之任一项的运载体的收集体,其中所述样品是含有DNA的样品。
11.权利要求7~9之任一项的运载体的收集体,其中所述样品是含有RNA的样品。
12.权利要求7~11之任一项的运载体的收集体,
其中所述最小核苷酸条码序列侧接用于通过扩增富集最小核苷酸条码序列的寡核苷酸序列,或
其中所述最小核苷酸条码序列在一侧或两侧侧接一个或多个寡核苷酸结合序列,所述寡核苷酸结合序列允许在核苷酸条码序列中的一个或两个寡核苷酸结合序列上的基于杂交的序列捕获。
13.权利要求12的收集体,其中在所述至少2个核苷酸条码核酸中的最小核苷酸条码序列
在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌核苷酸条码序列标识符序列,和/或
在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌提取序列。
14.权利要求7~13之任一项的运载体的收集体,其中所述扩增选自:1-步骤PCR,2-步骤PCR,引物延伸之后连接和PCR,基于环化的扩增和纳米孔测序。
15.权利要求7~14之任一项的运载体的收集体,其中所述最小核苷酸条码序列侧接PCR引物的引物结合序列,所述引物结合序列允许所述最小核苷酸条码序列的扩增和测序,且任选地允许核苷酸条码序列标识符和提取序列的扩增和测序。
16.权利要求7~15之任一项的运载体的收集体,其中所述核苷酸条码核酸包含在克隆载体的片段中。
17.权利要求7~16之任一项的运载体的收集体,其中所述核苷酸条码核酸是通过所述载体的片段化或消化而获得的片段。
18.权利要求16或17的运载体的收集体,其中所述载体或载体片段包含选自SEQ IDNO:1~SEQ ID NO:20的序列。
19.权利要求16或17的运载体的收集体,其中所述载体或载体片段包含SEQ ID NO:1和SEQ ID NO:11的序列。
20.权利要求7~19之任一项的运载体的收集体,还包含一种或多种引物,其用于捕获包含所述核苷酸条码序列的核酸。
21.权利要求7~20之任一项的运载体的收集体,还包含一种或多种引物,其用于扩增包含所述核苷酸条码序列的核酸。
22.制备作为基体或容器的运载体的收集体的方法,所述运载体包含可转移的分子鉴定条码,所述方法包括下列步骤:
(a)提供不同核苷酸条码核酸的第1收集体,包含至少4个核苷酸的最小核苷酸条码序列,
其中所述不同核苷酸条码核酸中的至少2个具有长度相同的最小核苷酸条码序列,
其中最小核苷酸条码序列在所述收集体中的核苷酸条码核酸之间不同,且一个或多个非-病毒和非-细菌核苷酸条码序列标识符序列和/或一个或多个非-病毒和非-细菌提取序列允许核苷酸条码核酸中最小核苷酸条码序列的鉴定,
(b)向各运载体添加步骤(a)的核苷酸条码核酸中的至少2个的组合,以获得各具有由最小核苷酸条码序列的混合物中的差异定义的独特可转移的分子鉴定条码的运载体的收集体,
(c)用对应于由最小核苷酸条码序列的不同混合物定义的可转移的分子鉴定条码的宏观条码标记对各运载体进行标记,
(d)存储宏观标记和可转移的分子鉴定条码中的最小核苷酸条码序列的混合物之间的关系。
23.权利要求22的方法,其中在所述至少2个核苷酸条码核酸中的最小核苷酸条码序列
在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌核苷酸条码序列标识符序列,和/或
在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌提取序列。
24.权利要求22或23的方法,其中所述不同核酸的第1收集体不包含将核酸转录为RNA的序列。
25.权利要求22~24之任一项的方法,其中核苷酸条码核酸包含选自SEQ ID NO:1~SEQ ID NO:20的序列。
26.权利要求22~25之任一项的方法,其中所述核苷酸条码核酸包含SEQ ID NO:1和SEQ ID NO:11的序列。
27.权利要求22~26之任一项的方法,其中实施步骤(c)中的标记和步骤(d)中的存储,使得运载体的随后使用者不能推导宏观条码标记和可转移的分子鉴定条码之间的关系,直到已确定不同核苷酸条码序列。
28.制备具有包含核苷酸条码序列的载体的宿主的收集体的方法,方法包括下列步骤:
(a)在宿主中提供核酸载体的第1收集体,
其中所述载体包含在收集体中的核苷酸条码核酸载体之间不同的具有至少4个核苷酸长度的最小核苷酸条码序列的核苷酸条码序列,
其中所述不同核苷酸条码序列中的至少2个具有长度相同的最小核苷酸条码序列,且在最小核苷酸条码序列的一侧或两侧包含
一个或多个非-病毒和非-细菌核苷酸条码序列标识符序列、和/或
一个或多个非-病毒和非-细菌提取序列允许所述最小核苷酸条码序列的鉴定,
(b)提供宿主的个体集落且对多个集落的核酸载体中的核苷酸条码序列进行测序,以获得分离的集落的第2收集体,其中各集落包含具有不同核苷酸条码序列的核酸载体。
29.权利要求28的方法,其中所述核酸载体不包含将核酸转录为RNA的序列。
30.权利要求28或29的方法,其中所述载体包含选自SEQ ID NO:1~SEQ ID NO:20的序列。
31.权利要求28或29的方法,其中所述载体包含SEQ ID NO:1和SEQ ID NO:11的序列。
32.制备作为基体或容器的运载体的收集体的方法,所述运载体包含可转移的分子鉴定条码,所述方法包括下列步骤:
(a)提供权利要求28中定义的宿主的收集体,
(b)为集落的选择而从所述集落分离载体,
(c)向运载体的收集体中的各运载体添加具有不同核苷酸条码序列的至少2个核酸载体的组合,其中所述步骤(b)的核酸载体的至少2个具有长度相同的最小核苷酸条码序列,以获得各具有由运载体中的最小核苷酸条码序列的混合物之间的差异定义的独特可转移的分子鉴定条码的运载体的收集体,及任选地由限制酶对载体进行片段化,
(d)用对应于由不同最小核苷酸条码序列的混合物定义的可转移的分子鉴定条码的宏观条码标记对各运载体进行标记,
(e)存储宏观条码标记和可转移的分子鉴定条码中的最小核苷酸条码序列的序列之间的关系。
33.追踪一组运载体中的核苷酸条码核酸的方法,所述方法包括下列步骤:
·提供多个无基因组DNA或RNA的运载体,其包含至少2个用于对所述运载体进行标记的核苷酸条码核酸,
其中这至少2个核苷酸条码核酸中的每一个包含至少4个核苷酸长度的不同最小核苷酸条码序列,
其中所述这些不同核苷酸条码核酸的组合产生可转移的分子鉴定条码,由此各可转移的分子鉴定条码对于各运载体而不同,
其特征在于,所述至少2个核苷酸条码核酸中的最小核苷酸条码序列
在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌核苷酸条码序列标识符序列,及
在一侧或两侧侧接在全部核苷酸条码核酸中同一的非-病毒和非-细菌提取序列,允许所述最小核苷酸条码序列的鉴定,及
其中各运载体含有对应于应用在所述运载体上的可转移的分子鉴定条码的宏观条码标记,
·由并行测序方法对包含最小核苷酸条码序列的核苷酸条码核酸中的靶序列进行测序,其中任选地在所述并行测序方法之前合并包含最小核苷酸条码序列的核苷酸条码核酸的靶序列,
·从获得的序列数据确定和选择来源于核苷酸条码核酸的序列,包括从获得的序列数据选择那些来源于核苷酸条码核酸的序列的步骤,其中所述选择步骤包括具有一个或多个与最小核苷酸条码序列相邻的核苷酸条码序列标识符序列的序列的鉴定;
·在分离的具有核苷酸条码序列标识符序列的序列内确定和选择最小核苷酸条码序列,包括下列步骤:
选择存在于2个定义的长度的提取序列之间的序列,或选择与1个定义的长度的提取序列相邻存在的序列,及
将这些选择的序列确定为最小核苷酸条码序列,
·基于随运载体提供的宏观条码标记来比较确定的最小核苷酸条码序列与预期的最小核苷酸条码序列。
CN201780040677.XA 2016-05-17 2017-05-17 样品鉴定方法 Active CN109477141B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP16169997.0 2016-05-17
EP16169997.0A EP3246412A1 (en) 2016-05-17 2016-05-17 Methods for identification of samples
GBGB1701908.4A GB201701908D0 (en) 2017-02-06 2017-02-06 Methods for identification of samples
GB1701908.4 2017-02-06
PCT/EP2017/061902 WO2017198742A1 (en) 2016-05-17 2017-05-17 Methods for identification of samples

Publications (2)

Publication Number Publication Date
CN109477141A true CN109477141A (zh) 2019-03-15
CN109477141B CN109477141B (zh) 2022-07-12

Family

ID=58992806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780040677.XA Active CN109477141B (zh) 2016-05-17 2017-05-17 样品鉴定方法

Country Status (8)

Country Link
US (1) US20190300948A1 (zh)
EP (1) EP3458606A1 (zh)
JP (1) JP7071341B2 (zh)
KR (2) KR20190037203A (zh)
CN (1) CN109477141B (zh)
AU (2) AU2017266299A1 (zh)
CA (1) CA3024355A1 (zh)
WO (1) WO2017198742A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT201600103909A1 (it) * 2016-10-17 2018-04-17 Marco Flavio Michele Vismara Sistema e metodo di acquisizione, trasmissione ed elaborazione di dati ematochimici
US11702653B2 (en) 2018-05-21 2023-07-18 Battelle Memorial Institute Control compositions and methods for sequencing
EP3894553A4 (en) * 2018-12-13 2022-06-29 Battelle Memorial Institute Methods and control compositions for a quantitative polymerase chain reaction
EP4226379A1 (en) * 2020-10-06 2023-08-16 Nucleotrace Pty. Ltd. Oligonucleotides representing digital data
CA3211616A1 (en) * 2021-03-10 2022-09-15 Katie Leigh Zobeck Cell barcoding compositions and methods
GB202108684D0 (en) * 2021-06-17 2021-08-04 Salmotrace As Method of tagging fish and other animals

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003052101A1 (en) * 2001-12-14 2003-06-26 Rosetta Inpharmatics, Inc. Sample tracking using molecular barcodes
US20080101666A1 (en) * 2006-10-30 2008-05-01 Cytyc Corporation Automated imaging system with slide marking
CN101479750A (zh) * 2006-05-11 2009-07-08 奇异编号有限公司 识别目标物的方法,识别标签,适于被识别的目标物以及相关装置和系统
AU2007254626A1 (en) * 2007-12-21 2009-07-09 Canon Kabushiki Kaisha Data encoding and decoding using circular configurations of marks
US20090298049A1 (en) * 2003-02-10 2009-12-03 Handylab, Inc. Methods for sample tracking
EP2201143A2 (en) * 2007-09-21 2010-06-30 Katholieke Universiteit Leuven Tools and methods for genetic tests using next generation sequencing
WO2012019765A1 (en) * 2010-08-10 2012-02-16 European Molecular Biology Laboratory (Embl) Methods and systems for tracking samples and sample combinations
US20120115154A1 (en) * 2004-12-23 2012-05-10 Greg Hampikian Reference markers for biological samples
CN103459038A (zh) * 2011-01-06 2013-12-18 艾皮斯托姆有限公司 用于热循环的方法和系统
CN103582887A (zh) * 2011-06-07 2014-02-12 皇家飞利浦有限公司 提供核苷酸序列数据
CN104603287A (zh) * 2012-05-10 2015-05-06 通用医疗公司 用于测定核苷酸序列的方法
CN104736722A (zh) * 2012-05-21 2015-06-24 斯克利普斯研究所 样品制备方法
US20150322508A1 (en) * 2012-12-28 2015-11-12 Fleury S.A. Method for complete tracking of a set of biological samples containing dna or rna through molecular barcode identification during laboratorial workflow and kit for collecting biological samples containing dna or rna
CN105200530A (zh) * 2015-10-13 2015-12-30 北京百迈客生物科技有限公司 一种适用于高通量全基因组测序的多样品混合文库的构建方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5459073A (en) 1991-05-08 1995-10-17 Streck Laboratories, Inc. Method and composition for preserving antigens and process for utilizing cytological material produced by same
US6030657A (en) 1994-11-01 2000-02-29 Dna Technologies, Inc. Labeling technique for countering product diversion and product counterfeiting
US5776737A (en) 1994-12-22 1998-07-07 Visible Genetics Inc. Method and composition for internal identification of samples
DE60032259D1 (de) 1999-05-06 2007-01-18 Sinai School Medicine Steganographie auf DNA basis
EP1237327A3 (en) * 2001-03-01 2003-07-02 NTT Data Technology Corporation Method and system for individual authentication and digital signature utilizing article having DNA based ID information mark
GB2390055B (en) 2002-03-22 2005-09-07 Cypher Science Internat Ltd A marking apparatus
US20100285985A1 (en) 2003-04-15 2010-11-11 Applied Dna Sciences, Inc. Methods and Systems for the Generation of Plurality of Security Markers and the Detection Therof
WO2005093641A1 (en) * 2004-03-26 2005-10-06 Universite Libre De Bruxelles Biological samples localisation, identification and tracking, system and method using electronic tag
US20150141264A1 (en) * 2005-05-20 2015-05-21 Apdn (B.V.I.) Inc. In-field dna extraction, detection and authentication methods and systems therefor
US8785130B2 (en) 2005-07-07 2014-07-22 Bio-Id Diagnostic Inc. Use of markers including nucleotide sequence based codes to monitor methods of detection and identification of genetic material
EP1924704B1 (en) 2005-08-02 2011-05-25 Rubicon Genomics, Inc. Compositions and methods for processing and amplification of dna, including using multiple enzymes in a single reaction
GB2472371B (en) 2009-04-24 2011-10-26 Selectamark Security Systems Plc Synthetic nucleotide containing compositions for use in security marking of property and/or for marking a thief or attacker
US10144950B2 (en) * 2011-01-31 2018-12-04 Roche Sequencing Solutions, Inc. Methods of identifying multiple epitopes in cells
EP2847712A4 (en) * 2012-05-09 2015-12-30 Apdn Bvi Inc REVIEW OF PHYSICAL ENDURANCE TAGGANTS USING DIGITAL REPRESENTATIVES AND AUTHENTICATIONS THEREOF
US20150167054A1 (en) 2012-07-06 2015-06-18 Geneworks Technologies Pty Ltd a corporation Method of identification using nucleic acid tags
US9428792B2 (en) * 2013-03-14 2016-08-30 Certirx Corporation Nucleic acid-based authentication and identification codes
US20150141257A1 (en) * 2013-08-02 2015-05-21 Roche Nimblegen, Inc. Sequence capture method using specialized capture probes (heatseq)

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003052101A1 (en) * 2001-12-14 2003-06-26 Rosetta Inpharmatics, Inc. Sample tracking using molecular barcodes
US20090298049A1 (en) * 2003-02-10 2009-12-03 Handylab, Inc. Methods for sample tracking
US20120115154A1 (en) * 2004-12-23 2012-05-10 Greg Hampikian Reference markers for biological samples
CN101479750A (zh) * 2006-05-11 2009-07-08 奇异编号有限公司 识别目标物的方法,识别标签,适于被识别的目标物以及相关装置和系统
US20080101666A1 (en) * 2006-10-30 2008-05-01 Cytyc Corporation Automated imaging system with slide marking
EP2201143A2 (en) * 2007-09-21 2010-06-30 Katholieke Universiteit Leuven Tools and methods for genetic tests using next generation sequencing
AU2007254626A1 (en) * 2007-12-21 2009-07-09 Canon Kabushiki Kaisha Data encoding and decoding using circular configurations of marks
WO2012019765A1 (en) * 2010-08-10 2012-02-16 European Molecular Biology Laboratory (Embl) Methods and systems for tracking samples and sample combinations
CN103459038A (zh) * 2011-01-06 2013-12-18 艾皮斯托姆有限公司 用于热循环的方法和系统
CN103582887A (zh) * 2011-06-07 2014-02-12 皇家飞利浦有限公司 提供核苷酸序列数据
CN104603287A (zh) * 2012-05-10 2015-05-06 通用医疗公司 用于测定核苷酸序列的方法
CN104736722A (zh) * 2012-05-21 2015-06-24 斯克利普斯研究所 样品制备方法
US20150322508A1 (en) * 2012-12-28 2015-11-12 Fleury S.A. Method for complete tracking of a set of biological samples containing dna or rna through molecular barcode identification during laboratorial workflow and kit for collecting biological samples containing dna or rna
CN105200530A (zh) * 2015-10-13 2015-12-30 北京百迈客生物科技有限公司 一种适用于高通量全基因组测序的多样品混合文库的构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NIALL J LENNON等: "A scalable, fully automated process for construction of sequence-ready barcoded libraries for 454", 《GENOME BIOLOGY》 *

Also Published As

Publication number Publication date
KR20230065357A (ko) 2023-05-11
JP2019523652A (ja) 2019-08-29
WO2017198742A1 (en) 2017-11-23
CA3024355A1 (en) 2017-11-23
JP7071341B2 (ja) 2022-05-18
US20190300948A1 (en) 2019-10-03
AU2017266299A1 (en) 2018-12-20
AU2023229558A1 (en) 2023-09-28
EP3458606A1 (en) 2019-03-27
KR20190037203A (ko) 2019-04-05
CN109477141B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN109477141A (zh) 样品鉴定方法
AU2016348439B2 (en) Combinatorial sets of nucleic acid barcodes for analysis of nucleic acids associated with single cells
EP3327123B1 (en) Methods of sequencing the immune repertoire
CN104862383B (zh) 用于核酸测序的组合物和方法
CN103781918B (zh) 用于组织样本中核酸的局部或空间检测的方法和产品
CN107109485A (zh) 用于多重捕获反应的通用阻断寡聚物系统和改进的杂交捕获的方法
US8574832B2 (en) Methods for preparing sequencing libraries
CN115516109A (zh) 条码化核酸用于检测和测序的方法
CN107075581A (zh) 由靶向测序进行数字测量
CN110177886A (zh) 基于胃癌生物学特征的集群分类及预后预测系统
CN103582887B (zh) 提供核苷酸序列数据的方法和测序装置
CN108456717A (zh) 检测遗传变异的系统和方法
CN114174530A (zh) 用于分析核酸的方法和组合物
US20220033805A1 (en) High-throughput single-nuclei and single-cell libraries and methods of making and of using
EP3246412A1 (en) Methods for identification of samples
CN107075566A (zh) 用于制备核酸的等温方法及相关组合物
CN108138228A (zh) 用于下一代测序的高分子量dna样品追踪标签
CN109055486A (zh) 一种高降解dna测序文库的构建方法及其应用
CN110869515A (zh) 用于基因组重排检测的测序方法
CN110312825A (zh) 隐藏核酸内存在的信息
WO2019113563A1 (en) Methods for nucleic acid library creation
Carrara et al. A Molecular Toolbox to Identify and Quantify Grape Varieties: On the Trace of “Glera”
Zheng et al. Multiplex chromatin interaction analysis with single-molecule precision
US20220403371A1 (en) Chromosome conformation capture from tissue samples
Smith Genetic and Epigenetic Identity of Centromeres

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant