CN112703256A - 用于测定聚合物序列的方法 - Google Patents

用于测定聚合物序列的方法 Download PDF

Info

Publication number
CN112703256A
CN112703256A CN201980057581.3A CN201980057581A CN112703256A CN 112703256 A CN112703256 A CN 112703256A CN 201980057581 A CN201980057581 A CN 201980057581A CN 112703256 A CN112703256 A CN 112703256A
Authority
CN
China
Prior art keywords
polymer
atypical
bases
measurements
polymer units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980057581.3A
Other languages
English (en)
Inventor
卡莱夫·G·布朗
蒂莫西·L·马辛厄姆
斯图尔特·W·瑞德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oxford Nanopore Technologies PLC
Original Assignee
Oxford Nanopore Technologies PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oxford Nanopore Technologies PLC filed Critical Oxford Nanopore Technologies PLC
Publication of CN112703256A publication Critical patent/CN112703256A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/02Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating impedance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/60Detection means characterised by use of a special device
    • C12Q2565/631Detection means characterised by use of a special device being a biochannel or pore

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Signal Processing (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Electrochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种测定靶聚合物或其部分的序列的方法,所述靶聚合物或其部分包括聚合物单元,所述聚合物单元包括典型聚合物单元和非典型聚合物单元。所述方法包括获取与所述靶聚合物相关的信号的一系列测量结果,其中所述信号的测量结果取决于多个聚合物单元,并且其中所述靶聚合物的所述聚合物单元调制所述信号,并且其中非典型聚合物单元与对应典型聚合物单元不同地调制所述信号。使用机器学习技术分析所述一系列测量结果,所述机器学习技术将非典型聚合物单元的测量结果归属于相应的对应典型聚合物单元的测量结果。根据经过分析的一系列测量结果测定所述靶聚合物或其部分的序列。可以另外地或可替代地测定从所述分析中鉴定的非典型聚合物单元。可以使用两种或更多种类型的非典型聚合物单元,所述两种或更多种类型的非典型聚合物单元与两种或更多种类型的典型聚合物单元相对应。多核苷酸可以是DNA。

Description

用于测定聚合物序列的方法
本发明涉及测定聚合物序列的方法,并且涉及在聚合物相对于纳米孔易位期间对从一种或多种聚合物,例如但不限于多核苷酸中的聚合物单元获取的测量结果的分析。本发明的各个方面涉及用于此类方法的聚合物的制备,以及共有序列的测定。
用于估计聚合物中的聚合物单元的靶序列的一种类型的测量系统使用纳米孔,并且聚合物相对于纳米孔易位。所述系统的一些性质取决于纳米孔中的聚合物单元,并且对所述性质进行测量。这种使用纳米孔的测量系统已经显示出是高度有效的,特别是在对如DNA或RNA等多核苷酸进行测序的领域中,并且已经成为最近发展的主题。最近,这种使用纳米孔的测量系统已经显示出是高度有效的,特别是在对如蛋白质等肽聚合物进行测序的领域中(Nivala等人,2013《自然生物技术(Nat.Biotech.)》)。
这种纳米孔测量系统可以提供对范围为从数百到数十万(并且可能更多)个核苷酸的多核苷酸的长时间连续读取。以此方式收集的数据包括测量结果,如离子电流的测量结果,其中序列相对于纳米孔的敏感部分的每次易位可能导致所测得性质的变化。
在多核苷酸相对于纳米孔移动(例如,聚合物通过纳米孔易位)期间测量的信号已经显示取决于多个核苷酸并且是复杂的。根据在多核苷酸与纳米孔相互作用期间获取的测量结果估计聚合物序列的分析技术包含使用隐马尔可夫模型(HMM),如在PCT/GB2012/052343中公开的。还可以采用如递归神经网络等机器学习技术,并且机器学习技术对于测定远程信息特别有用。在PCT/GB2018/051208中公开了这种技术,所述文献特此通过引用整体并入。
包括使用机器学习技术分析所述一系列测量结果的方法是已知的。此类方法包含导出与相应测量结果或相应测量结果组相对应的一系列后验概率矩阵,每个后验概率矩阵表示:就聚合物单元的与相应测量结果之前或之后的测量结果相对应的不同相应历史序列而言,聚合物单元的所述相应历史序列的多个不同变化的后验概率产生新的聚合物单元序列。
提高已经易位通过纳米孔的聚合物的分析的准确性,特别是在聚合物的长读段上,通常具有很高的计算费用。
已经描述了用于测定多核苷酸序列的多种方法,其中基于模板多核苷酸序列产生经过修饰的多核苷酸。
通过引用整体并入本文的WO 2015/124935描述了用于使用聚合酶表征模板多核苷酸以制备随后被表征的经过修饰的多核苷酸的方法。制备经过修饰的多核苷酸,使得当形成经过修饰的多核苷酸时,聚合酶用不同的核苷酸种类替代模板多核苷酸中的一个或多个核苷酸物种。WO 2015/124935还描述了一种通过使用聚合酶形成经过修饰的多核苷酸来表征同聚核苷酸的方法,其中当形成经过修饰的多核苷酸时,聚合酶用不同的核苷酸物种随机地替代与同聚核苷酸中的核苷酸物种互补的核苷酸物种的实例中的一些实例。
本发明总体上涉及一种测定靶聚合物或其部分的序列的方法,所述靶聚合物或其部分包括不同类型的聚合物单元。所述方法涉及获取与所述靶聚合物相关的信号的一系列测量结果。这些测量结果可以通过使靶聚合物链通过纳米孔来获得或检索或导出。所测得信号取决于多个聚合物单元。例如,关于多个聚合物单元通过纳米孔的移动而测量的信号。靶聚合物的聚合物单元调制信号。
聚合物可以包括典型聚合物单元和非典型聚合物单元。非典型聚合物单元通常与对应典型聚合物单元不同地调制信号。举例来说,在核酸的情况下,这些对应典型聚合物单元可以是匹配的聚合物单元,例如经过修饰的C可以与典型C相对应或者通用核苷酸(例如如本文所述的通用核苷酸)的鉴定可以与典型值C、A、G或T中的任何一个相对应。
例如,靶聚合物的信号可以归属于聚合物单元“CcAGT”,其中“c”是经过修饰的“C”,并且在其它方面相同的聚合物单元仅是典型的组分,即CCAGT。信号可以包含和测量非典型单元,并且在分析期间或在分析之后,非典型单元可以被解释或识别为典型单元。换言之,如非典型碱基等替代性碱基可以被标记为典型碱基。
聚合物可以包括典型聚合物单元和非典型聚合物单元。非典型聚合物单元通常与对应典型聚合物单元不同地调制信号。举例来说,在多肽中,这些对应典型聚合物单元可以是匹配的聚合物单元,即经过修饰的Lys可以与典型Lys相对应。
例如,靶聚合物的信号可以归属于聚合物单元“Gly-Lys*-Arg-Phe-Thr”,其中“Lys*”是经过修饰的“Lys”,并且在其它方面相同的聚合物单元仅是典型的组分。信号可以包含和测量非典型单元,并且在分析期间或在分析之后,非典型单元可以被解释或识别为典型单元。换言之,如非典型氨基酸等替代性氨基酸可以被标记为典型氨基酸。
在一些实施例中,包括一个或多个非典型氨基酸的多肽可以通过将一个或多个典型氨基酸化学转化为对应非典型氨基酸来制备。举例来说,包括典型氨基酸的多肽可以与能够将一种或多种类型的典型氨基酸转化为对应非典型氨基酸类型的化学品接触。此类化学品的实例包含胺反应性基团(如NHS酯)和硫醇反应性基团(如马来酰亚胺)。
在一些实施例中,包括一个或多个非典型氨基酸的多肽可以通过将一个或多个典型氨基酸酶转化为对应非典型氨基酸来制备。举例来说,包括典型氨基酸的多肽可以与能够将一种或多种类型的典型氨基酸转化为对应非典型氨基酸类型的酶接触。此类酶的实例包含激酶、磷酸酶、转移酶和连接酶,其向氨基酸侧链添加官能团、蛋白质、脂质或糖或从氨基酸侧链去除官能团、蛋白质、脂质或糖。
分析所述一系列测量结果的方法使用了机器学习技术。机器学习技术可以包含训练。机器学习技术将一种类型的聚合物单元的测量结果归属于不同类型的聚合物单元的测量结果。例如,非典型“c”可以被识别为典型“C”。
所述方法进一步根据经过分析的一系列测量结果测定靶聚合物或其部分的序列,其中所述序列表示为减少数量的不同类型的聚合物单元。
具体地,本发明的方法可以集中于靶聚合物的部分或子区域。这些子区域可以是感兴趣的区域和/或可以经受更深层次的分析。这种部分或子区域可以包含均聚物区域。原始聚合物的均聚物区域和其它此类感兴趣的区域倾向于具有低水平的复杂性或变化,这倾向于导致由其导出的信号的低变化。在靶聚合物中具有非典型单元增加了由其导出的信号的复杂性或变化水平。
所述方法可以进行分析以鉴定非典型聚合物单元并且使用典型信息和非典型信息的组合来提高所测定的序列的准确性。如果所述方法将非典型聚合物单元的测量结果归属于一种类型的聚合物单元或聚合物单元的选择之一,则由于测量结果输出仅基于典型聚合物单元,因此提高了由靶聚合物测定的测序的准确性,这进而降低了产生单端测序碱基调用(single-read base-call)和/或比对和/或共有区所需的计算能力。
在特定方面中,机器学习技术方法可以将非典型聚合物单元的测量结果归属于对应典型聚合物单元的测量结果。因此,非典型碱基被碱基调用(base-called)为其对应典型碱基。与其中机器学习技术被训练为识别和碱基调用典型碱基和非典型碱基两者相比,这具有较低的计算要求。与机器学习技术被训练为仅识别和碱基调用典型碱基的情况相比,将非典型聚合物单元的测量结果归属于对应典型聚合物单元的测量结果也可以导致测序准确性的总体增加。在后一种情况下,非典型碱基的测量结果可能导致测序错误,因为其不被碱基调用者识别。
根据本发明的一方面,提供了一种测定靶聚合物的序列的方法,所述靶聚合物包括聚合物单元,所述聚合物单元包括典型碱基和非典型聚合物单元。
所述典型碱基可以例如是DNA的A、G、C、T。可以使用多个非典型聚合物单元。可以使用多种类型的非典型聚合物单元。
所述靶聚合物可以由原始的天然存在的聚合物合成。所述靶聚合物可以源自原始聚合物,在所述原始聚合物中,一定比例的典型聚合物单元已经以非测定性方式被替代性聚合物单元取代。可替代地,所述靶聚合物可以是具有天然存在的非典型聚合物单元或碱基的天然存在的聚合物。
所述方法包括(i)获取与所述靶聚合物相关的信号的一系列测量结果,其中可以是所测得信号的所述信号的测量结果取决于多个聚合物单元,,并且其中所述靶聚合物的所述聚合物单元调制所述信号,并且其中非典型聚合物单元与对应典型聚合物单元不同地调制所述信号;(ii)使用机器学习技术分析所述一系列测量结果,所述机器学习技术优选地已被训练,所述机器学习技术将非典型聚合物单元的测量结果归属于相应的对应典型聚合物单元的测量结果;以及(iii)根据经过分析的一系列测量结果测定所述靶聚合物的序列。
举例来说,非典型聚合物单元或替代性碱基可以包含甲基化核苷酸、肌苷、桥接的核苷酸和人工碱基。
对应典型聚合物单元可以是匹配的聚合物单元,即c到C,或者可以是一组聚合物单元之一,其中例如,肌苷可以与典型碱基C、A、G或T中的任何一个相对应。
例如,当分析测量结果时,非典型“c”可以被识别为这样的和/或被识别为典型“C”。
当非典型“c”可以被识别为典型“C”时,本发明可以提供通过还测量替代性碱基来提供具有更多信息的信号而无需对那些替代性碱基进行碱基调用,因此使其在计算上比测定所有非典型碱基的情况下更便宜的方式。碱基调用者无法测定特定碱基本质上是典型的还是非典型的。
所述方法还可以容纳具有非天然对应典型碱基的靶聚合物—例如X表示为C或TT二聚体表示为T。
从所述分析中鉴定的非典型聚合物单元可以另外地或可替代地保留非典型聚合物单元的测量结果作为相应的对应典型聚合物单元的测量结果。可以保留或存储关于非典型聚合物的同一性和序列位置的此类信息以用于在序列的后续分析或测定期间的评分或加权。
测定靶聚合物的序列可能涉及碱基调用的不同变化。例如,如果靶聚合物具有四个典型碱基A、C、G和T以及四个对应非典型碱基a、c、g和t,则碱基调用者可以仅调用典型碱基,即来自八(8)个中的四(4)个碱基。
例如,如果靶聚合物具有四个典型碱基A、C、G和T以及四个对应非典型碱基a、c、g和t,其中“c”是甲基化-C,则碱基调用者可以调用五(5)个碱基作为典型碱基和甲基化-C,即来自八(8)个中的五(4)个碱基。
所述靶聚合物可以包括两种或更多种类型的非典型聚合物单元,所述两种或更多种类型的非典型聚合物单元与两种或更多种类型的典型聚合物单元相对应。例如,靶聚合物具有四个典型碱基A、C、G和T以及两个或更多个替代性碱基。
可以测定非典型聚合物单元的同一性和序列位置。也就是说,在调用非典型碱基的情况下,例如8个中的5个。
靶聚合物可以是多核苷酸。
所述靶聚合物可以包括与每种类型的典型聚合物单元相对应的非典型聚合物单元。例如,除了四个对应非典型碱基a、c、g和t之外,四个典型碱基A、C、G和T。
可替代地,机器学习技术无法测定聚合物单元是否是非典型的。分析和序列可以产生仅典型碱基。
所述靶聚合物可以包括针对存在的所述一种或多种类型的非典型聚合物单元中的每一个的多个非典型聚合物单元。例如,靶聚合物具有四个典型碱基A、C、G和T以及八个对应非典型碱基a、a'、c、c'、g、g'、t和t'。碱基调用者可以调用典型碱基,即来自十二(12)个中的四(4)个碱基。
非典型聚合物单元可以与多于一个典型聚合物单元相对应。例如,肌苷可以与多于一个典型碱基进行碱基配对—非特异性结合。
靶聚合物可以包括1个单元到大约50%的非典型聚合物单元。50%提供了经过修饰的碱基破坏的最大量。
非典型聚合物单元可以是经过修饰的典型聚合物单元,例如甲基化C。
非典型聚合物单元可以是天然修饰的。例如,其在体内天然存在并且尚未特异性引入。
所述一系列测量结果可以是在所述靶聚合物相对于纳米孔移动期间获取的。
所述测量结果可以是在所述靶聚合物易位期间指示流过所述纳米孔的离子电流的测量结果或所述纳米孔两端的电压的测量结果。
所述机器学习技术可以能够通过包括以下步骤的方法来训练:提供包括非典型单元的多种靶聚合物,例如训练链,所述非典型单元已经在所述靶聚合物中的不同序列位置处取代等同的典型单元;获取与所述靶聚合物相关的信号的一系列测量结果;使用所述机器学习技术分析所述一系列测量结果;以及估计聚合物训练链的对应典型聚合物单元,其可以是基础序列。
机器学习技术可以并入以下中的至少一个:递归神经网络、卷积神经网络、变换器网络、关注机制、随机森林、支持向量机、受限玻尔兹曼机、隐马尔可夫模型、马尔可夫随机场、条件随机场或其组合。
聚合物可以选自多核苷酸、多肽或多糖。具体地,所述聚合物是多核苷酸,并且所述聚合物单元可以是核苷酸碱基。
所述一种或多种非典型碱基可以通过酶进行修饰。
所述方法可以进一步包括修饰典型聚合物以提供包括一种或多种不同类型的一种或多种非典型碱基的所述靶聚合物的步骤。
根据前述权利要求中任一项所述的方法,其中包括一种或多种不同类型的一种或多种非典型碱基的所述多核苷酸是通过使用聚合酶和一定比例的非典型碱基由所述多核苷酸的补体产生的。
所述多核苷酸可以是DNA。所述多核苷酸相对于所述纳米孔的所述移动可以由酶控制。所述酶可以是解旋酶。靶聚合物训练链可以包括多于一种类型的非典型聚合物单元。
根据本发明的另一方面,提供了一种测定靶聚合物的共有序列的方法,所述方法包括:提供多种聚合物,其中所述聚合物包括典型聚合物单元和非典型聚合物单元,并且所述聚合物中的每种聚合物包括与所述靶聚合物的区域相对应的聚合物单元的区域;分析与所述多种聚合物相关的信号的测量结果,其中测量结果取决于多个聚合物单元,并且其中所述靶聚合物的所述聚合物单元调制所述信号,并且其中非典型聚合物单元与对应典型聚合物单元不同地调制所述信号;以及根据所述多种聚合物的经过分析的一系列测量结果测定共有序列。
聚合物(例如,多核苷酸)可以包括与另一种聚合物的区域(例如,靶聚合物(例如靶多核苷酸)的区域)相对应的聚合物单元的区域(例如,核苷酸的区域)。
与另一种聚合物的区域“相对应”的聚合物单元的区域可以具有与对应区域的序列相同或与对应区域的序列互补的序列,考虑到非典型聚合物单元的存在,使得非典型聚合物单元的存在被认为表示对应典型聚合物单元。因此,包括典型聚合物单元的聚合物区域可以与包括一个或多个对应非典型聚合物单元的聚合物区域相对应。举例来说,技术人员将认为具有特定序列的典型聚合物单元的聚合物区域与其中一个或多个典型聚合物单元被对应非典型聚合物单元替代的在其它方面相同的聚合物区域相对应。
与另一种聚合物的区域“相对应”的聚合物单元的区域可以具有可以与对应区域的序列进行比对的序列。用于比对聚合物序列的方法(例如,比对多核苷酸序列)在本领域中是熟知的,例如序列比对程序,并且将是技术人员熟悉的。区域可以与对应区域直接比对,或者区域可以与对应区域的互补序列(例如,互补多核苷酸序列)进行比对。技术人员将容易理解的是,典型聚合物单元和对应非典型聚合物单元的性质意味着包括典型聚合物单元的聚合物区域可以与包括一个或多个对应非典型单元的对应聚合物区域进行比对。
聚合物(例如,多核苷酸)的彼此相对应的两个区域可以是同源的。
分析所述一系列测量结果可以包括机器学习技术,所述机器学习技术将非典型聚合物单元的测量结果归属于相应的对应典型聚合物单元的测量结果。
从所述分析中鉴定的非典型聚合物单元可以另外地或可替代地保留非典型聚合物单元的测量结果作为相应的对应的规范聚合物单元的测量结果。
所述非典型核苷酸可以被引入到所述多核苷酸以代替对应典型碱基。
所述多核苷酸链中的一个或多个多核苷酸链可以包括四种或更多种不同类型的非典型碱基。
所述方法可以进一步包括将所述非典型碱基引入到所述多核苷酸链中的步骤。
可以使用机器学习技术分析所述一系列测量结果,所述机器学习技术已经优选地被训练成将与核苷酸区域中的一种或多种非典型碱基的存在相关的测量结果归属于等同区域的测量结果,除了其中所述一种或多种类型的非典型碱基已经被相应的一种或多种对应典型碱基替代并且其中提供所述共有序列的估计,其中所述一种或多种类型的非典型碱基被测定为其对应的一种或多种类型的典型碱基之外。
两种或更多种类型的非典型聚合物单元可以被引入到所述多核苷酸链中的一个或多个多核苷酸链中。
所述多核苷酸链中的每个多核苷酸链可以包括介于30%与80%之间的非典型聚合物单元。
所述一系列测量结果可以是在所述聚合物单元相对于纳米孔移动期间获取的。
在一些实施例中,给定类型的非典型聚合物单元的测量结果不归属于相应的对应典型聚合物单元类型的测量结果。因此,在一些实施例中,可以对给定的非典型碱基类型进行碱基调用。例如,机器学习技术可以被训练成碱基调用在体内频繁出现的一个或多个非典型碱基,例如5-甲基-胞嘧啶或6-甲基-腺嘌呤。
如在本文中关于聚合物单元所使用的,聚合物单元“类型”可以指给定的聚合物单元化学物种。
以最简单的形式,聚合物可以包括单一聚合物单元类型的多个聚合物单元(例如,“N-N-N-N-N-N”,其中“N”表示给定的聚合物单元类型)。聚合物可以包括多于一种类型,例如至少两种类型(例如,“X-Y-X-Y-X-Y”,其中“X”和“Y”表示不同的聚合物单元类型)、至少三种类型(例如,“X-Y-Z-X-Y-Z”,其中“X”、“Y”和“Z”表示不同的聚合物单元类型)或至少四种类型(“A-B-C-D-A-B-C-D”,其中“A”、“B”、“C”和“D”表示不同的聚合物单元类型)的聚合物单元。聚合物单元可以以任何顺序和任何比例的聚合物单元类型存在于聚合物中。
举例来说,DNA多核苷酸通常可以包括四种不同典型类型的聚合物单元(碱基):A、G、C和T。RNA多核苷酸通常可以包括四种不同典型类型的聚合物单元(碱基):A、G、C和U。
聚合物(例如,多核苷酸)可以包括一种或多种类型的非典型聚合物单元。如本文所述,在此上下文中,非典型聚合物单元类型可以指给定的非典型聚合物单元化学物种。
因此,关于多核苷酸,聚合物单元可以指多核苷酸内的核苷酸。
举例来说,聚合物(例如,多核苷酸)可以包括至少一种、至少两种、至少三种或至少四种或更多种(例如,至少1种、2种、3种、4种、5种、6种、7种或8种)类型的非典型聚合物单元。
聚合物(例如,当聚合物是多核苷酸时,多核苷酸)可以包括至少两种、至少三种、至少四种或更多种(例如,至少2种、3种、4种、5种、6种、7种或8种)类型的非典型聚合物单元(例如,当聚合物是多核苷酸时,非典型碱基)。
每种非典型聚合物单元类型可以与不同的典型聚合物单元类型相对应。
聚合物(例如,多核苷酸)可以包括至少两种、至少三种或至少四种非典型聚合物单元类型,其中每种类型的非典型聚合物单元与不同的典型聚合物单元相对应。
在一个实施例中,聚合物是多核苷酸。在一个实施例中,多核苷酸包括至少四种类型的典型碱基和至少四种类型的非典型碱基,其中每种非典型碱基类型与不同的典型碱基类型相对应。
举例来说,多核苷酸可以包括典型碱基类型A、G、C和T(或A、G、C和U)以及四种非典型碱基类型,其中每种非典型碱基类型与不同的典型碱基类型相对应。因此,多核苷酸可以包括至少八种类型的碱基:至少四种类型的典型碱基和至少四种对应类型的非典型碱基。
非典型聚合物单元类型可以与多于一种典型聚合物单元类型相对应。
聚合物可以包括与同一典型聚合物单元类型相对应的多于一种非典型聚合物单元类型。
在一个实施例中,多核苷酸包括至少两种(例如,至少2种、3种、4种、5种、6种、7种或8种)类型的非典型碱基,其中所述至少两种非典型碱基类型中的至少两种与同一典型碱基相对应。
在一个实施例中,多核苷酸包括至少四种类型的典型碱基和至少五种类型的非典型碱基,其中至少两种类型的非典型碱基与同一类型的典型碱基相对应。
聚合物中的非典型聚合物单元的比例可以变化。举例来说,聚合物可以包括非典型聚合物单元,其中当认为是聚合物中的聚合物单元总数的百分比时,非典型聚合物单元包括聚合物的至少约10%、至少约20%、至少约30%、至少约40%、至少约50%、至少约60%、至少约70%、至少约80%或至少约90%。
聚合物中的典型聚合物单元类型和对应非典型聚合物单元类型的比例可以变化,使得对于给定的聚合物单元类型,所述聚合物单元类型的至少约10%、至少约20%、至少约30%、至少约40%、至少约50%、至少约60%、至少约70%、至少约80%或至少约90%的实例由对应非典型聚合物单元类型表示。
如本文所述,在本发明的一方面,提供了多种聚合物。
在一个实施例中,聚合物(例如,多核苷酸)包括至少两种、至少三种或至少四种类型的非典型聚合物单元(例如,非典型碱基)。在一个实施例中,每种类型的非典型聚合物单元(例如,非典型碱基)与不同类型的典型聚合物单元(例如,典型碱基)相对应。
在一个实施例中,聚合物是多核苷酸。
在一个实施例中,多核苷酸包括典型碱基类型A、G、C和T以及至少四种不同的非典型碱基类型,其中每种非典型碱基类型与不同的典型碱基类型相对应。因此,多核苷酸包括与A相对应的非典型碱基、与G相对应的非典型碱基、与C相对应的非典型碱基和与T相对应的非典型碱基。
在一个实施例中,多核苷酸包括典型碱基类型A、G、C和U以及至少四种不同的非典型碱基类型,其中每种非典型碱基类型与不同的典型碱基类型相对应。因此,多核苷酸包括与A相对应的非典型碱基、与G相对应的非典型碱基、与C相对应的非典型碱基和与U相对应的非典型碱基。
在一个实施例中,多核苷酸包括典型碱基类型A、G、C和T以及至少五种不同的非典型碱基类型(例如,至少5种、6种、7种或8种),其中所述不同的非典型碱基类型中的至少两种与同一典型碱基类型相对应。因此,多核苷酸包括与A相对应的非典型碱基、与G相对应的非典型碱基、与C相对应的非典型碱基和与T相对应的非典型碱基,并且进一步包括与A、G、C和T之一相对应的至少一个另外的非典型碱基。
在一个实施例中,多核苷酸包括典型碱基类型A、G、C和U以及至少五种不同的非典型碱基类型(例如,至少5种、6种、7种或8种),其中所述不同的非典型碱基类型中的至少两种与同一典型碱基类型相对应。因此,多核苷酸包括与A相对应的非典型碱基、与G相对应的非典型碱基、与C相对应的非典型碱基和与U相对应的非典型碱基,并且进一步包括与A、G、C和U之一相对应的至少一个另外的非典型碱基。
所述多种聚合物(例如,所述多个多核苷酸)可以通过本领域已知的用于制备包括非典型聚合物单元(例如,非典型碱基)的聚合物(例如,多核苷酸)的任何方法产生。举例来说,根据本发明的多个多核苷酸可以通过用于制备包括如本文所述的非典型碱基的多核苷酸的方法产生。
聚合物中的非典型聚合物单元的分布是非测定性的。因此,所述多种聚合物可以包括其中一定比例(例如,至少约10%、20%、30%、40%、50%、60%、70%、80%或90%)的典型聚合物单元以非测定性方式被对应非典型聚合物单元取代的聚合物。
举例来说,可以提供多个多核苷酸,其中所述多个多核苷酸已经参照靶多核苷酸序列产生。所述多核苷酸中的每个多核苷酸包括与靶多核苷酸的区域相对应的核苷酸的区域。每个多核苷酸中的一定比例的核苷酸位置以非测定性方式被非典型碱基取代。考虑到取代的非测定性性质,不同的多核苷酸通常具有被取代的一组不同的核苷酸位置。在其中存在与特定典型碱基相对应的多于一个非典型碱基的一些实施例中,不同的链可以在给定的核苷酸位置处具有不同的取代。考虑到取代的非测定性性质,一些链也可以具有被同一非典型碱基取代的同一位置。
由于取代的非测定性性质,与所述多个多核苷酸中的每个多核苷酸相关的信号可能不同。一个结果是,信号分析中存在的任何错误都将是非系统性的,从而导致测定共有序列的改进。
在给定的非典型碱基类型与多于一个典型碱基类型(例如,其中非典型碱基是通用碱基)相对应的实施例中,这种非典型碱基的存在可以表示特定链中相对于对应典型碱基的信息丢失,但是因为非典型碱基(例如,通用碱基)的并入是非测定性的,所以一定比例的同源链保留对应典型碱基并且因此使其同一性能够通过共有区建立。
在又另一方面,本发明提供了一种经过修饰的多核苷酸,其中所述经过修饰的多核苷酸包括至少四种类型的典型碱基和至少四种对应类型的非典型碱基,其中所述经过修饰的多核苷酸包括约40到约60%非典型碱基,任选地约45到约55%非典型碱基,任选地约50%非典型碱基。在又另一方面,所述方法提供了一种测定靶聚合物的序列的方法,所述靶聚合物包括不同类型的聚合物单元。
a.获取与所述靶聚合物相关的信号的一系列测量结果,
其中所述信号的测量结果取决于多个聚合物单元,并且
其中所述靶聚合物的所述聚合物单元调制所述信号,并且其中所述不同类型的聚合物单元彼此不同地调制所述信号;
b.使用机器学习技术分析所述一系列测量结果,所述机器学习技术将一种类型的聚合物单元的测量结果归属于不同类型的聚合物单元的测量结果;
c.根据经过分析的一系列测量结果测定靶聚合物的序列,其中所述序列表示为减少数量的不同类型的聚合物单元。
聚合物可以包括两种或更多种不同类型的聚合物单元,如四种或更多种不同类型。聚合物可以完全由以下组成:典型聚合物单元、非典型聚合物单元或者典型单元或非典型单元的组合。典型单元的测量结果可以归属于另一个典型单元的测量结果。例如,其中聚合物是多核苷酸,序列可以表示为包括嘌呤和/或嘧啶。因此,腺嘌呤的测量结果可以归属于鸟嘌呤的测量结果或反之亦然。类似地,胞嘧啶、胸腺嘧啶和尿嘧啶的测量结果可以表示为嘧啶。
根据本发明的第一实例,提供了一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的一系列测量结果进行分析的方法,所述聚合物包括一系列聚合物单元,所述方法包括使用机器学习技术分析所述一系列测量结果并且导出与相应测量结果或相应测量结果组相对应的一系列后验概率矩阵,每个后验概率矩阵表示:就聚合物单元的与相应测量结果之前或之后的测量结果相对应的不同的相应历史序列而言,聚合物单元的所述相应历史序列的多个不同变化的后验概率产生新的聚合物单元序列。
表示后验概率的所述一系列后验概率矩阵提供了关于所述一系列聚合物单元的改进信息,测量结果从所述一系列聚合物单元中获取并且可以用于多种应用中。所述一系列后验概率矩阵可以用于导出关于至少一个参考系列聚合物单元的得分,所述得分表示所述聚合物的所述一系列聚合物单元是所述参考系列聚合物单元的概率。因此,所述一系列后验概率矩阵能够实现例如以下多种应用。
许多应用涉及从所述一系列后验概率矩阵导出所述一系列聚合物单元的估计值。这可以是所述一系列聚合物单元整体上的估计值。这可以通过从所有可能的系列中找到得分最高的此类系列来完成。例如,这可以通过估计通过所述一系列后验概率矩阵的最可能路径来执行。
可替代地,可以通过选择最可能与所述一系列后验概率矩阵相对应的一组多个参考系列聚合物单元之一来找到所述一系列聚合物单元的估计值,例如基于得分。
通过估计所述聚合物的所述一系列聚合物单元与参考系列聚合物单元之间的差异,可以找到所述一系列聚合物单元的另一种类型的估计值。这可以通过对所述参考系列的变化进行评分来完成。
可替代地,所述估计值可以是对所述一系列聚合物单元的部分的估计值。例如,可以估计所述一系列聚合物单元的部分是否为参考系列聚合物单元。这可以通过针对所述一系列后验概率矩阵的部分对所述参考序列进行评分来完成。
这种方法提供了优于比较方法的优势,所述比较方法导出表示多个不同聚合物单元序列的后验概率的一系列后验概率向量。具体地,所述一系列后验概率矩阵为这种后验概率向量提供另外的信息,从而允许以更准确的方式对所述一系列聚合物单元进行估计。举例来说,这一技术允许更好地估计重复序列的区域,包含重复一个或多个聚合物单元的短序列的区域。对均聚物进行更好的估计是重复区域中的优势的特定实例。换言之,靶聚合物中重复的区域中的复杂性或变化以及原始聚合物中的低复杂性的增加改进了序列的测定。
为了获得为什么存在这种优势的直觉,考虑预测包裹将在哪一天被递送的问题。每个包裹的到达类似于将预测的聚合物序列扩展一个单元。预测状态的模型(例如,
Figure BDA0002959309280000161
等人,《DeepNano:用于微纳孔读段中的碱基调用的深度递归神经网络(DeepNano:DeepRecurrent Neural Networks for Base Calling in Minion Nanopore Reads)》,康奈尔大学网站,2016年3月)将产生在未来每一天递送包裹的概率。如果交付日期存在很大的不测定性,那么在任何特定日期交付包裹的概率可能低于50%,在这种情况下,根据模型,最可能的事件序列是包裹永远不会递送。另一方面,预测相对于历史状态的变化的模型可能针对每一天产生2个概率:1)如果包裹尚未递送,则递送的概率随着更多天数过去而增加,以及2)如果包裹已经递送,则递送的概率将始终为0。与之前的模型不同,这一模型始终预测包裹最终会递送。
类似地,与预测相对于历史的变化的模型相比,基于状态的模型往往会低估重复聚合物序列的长度。这为均聚物序列提供了特别的优势,因为由均聚物产生的一系列测量结果往往非常类似,从而使得难以将测量结果分配给每个另外的聚合物单元。
在纳米孔测序的上下文中测定均聚物区域是特别具有挑战性的,所述纳米孔测序涉及以逐步方式通过纳米孔将聚合物链(例如多核苷酸链)易位,例如通过酶分子马达的方式。在易位期间测量的电流通常取决于多个核苷酸并且可以近似于特定数量的核苷酸。当在酶控制下易位时,所述多核苷酸链通常一次移动通过纳米孔一个碱基。因此,对于均聚物长度长于产生电流信号的近似核苷酸数的多核苷酸链,可能难以测定均聚物区域中聚合物单元的数量。本发明的一个实例旨在改进对均聚物区域的测定。
机器学习技术可以采用递归神经网络,其可以任选地是双向递归神经网络和/或包括多个层。
后验概率表示的变化具有例如以下各种不同的可能性。
所述变化可以包含以下变化:从聚合物单元的历史序列的起点或末端移除单个聚合物单元,以及将单个聚合物单元添加到聚合物单元的历史序列的末端或起点。
所述变化可以包含以下变化:从聚合物单元的历史序列的起点或末端移除两个或更多个聚合物单元,以及将两个或更多个聚合物单元添加到聚合物单元的历史序列的末端或起点。
所述变化可以包含空变化。
所述方法可以采用事件调用并将机器学习技术应用于从每个事件导出的量。例如,所述方法可以包括:将所述一系列测量结果中的连续测量结果组鉴定为属于共同事件;从每个经过鉴定的测量结果组中导出一个或多个量;以及使用所述机器学习技术对从每个经过鉴定的测量结果组中导出的一个或多个量进行操作。所述方法可以对所述量的窗口进行操作。所述方法可以导出与相应经过鉴定的测量结果组(其通常含有先验未知且可以是可变的多个测量结果)相对应的后验概率矩阵,因此所述后验概率矩阵与所述测结果量之间的关系取决于经过鉴定的组中的测量结果的数量。
所述方法可以可替代地将所述机器学习技术应用于所述测量结果本身。在这种情况下,所述方法可以导出与相应测量结果或相应预定数量的测量结果组相对应的后验概率矩阵,因此预先测定所述后验概率矩阵与所述测量结果之间的关系。
例如,对所述一系列测量结果进行的分析可以包括:在所述一系列测量结果的连续窗口中对连续测量结果执行卷积,以导出关于每个窗口的特征向量;以及使用所述机器学习技术对所述特征向量进行操作。所述窗口可以是重叠的窗口。可以通过使用经过训练的特征检测器(例如,卷积神经网络)对所述一系列测量结果进行操作来执行所述卷积。
根据本发明的第二实例,提供了一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的一系列测量结果进行分析的方法,所述聚合物包括一系列聚合物单元,所述方法包括使用输出关于所述一系列聚合物单元的连续聚合物单元的同一性的决策的递归神经网络分析所述一系列测量结果,其中所述决策被反馈到所述递归神经网络中以便通知随后的输出决策。
与导出表示多个不同聚合物单元序列的后验概率的后验概率向量并且然后从后验概率向量估计所述一系列聚合物单元的比较方法相比,本发明方法提供了优势,因为其有效地将估计值并入所述递归神经网络中。因此,本发明方法提供了可能更准确的连续聚合物单元的同一性的估计值。
所述决策可以单向反馈到所述递归神经网络中。
所述递归神经网络可以是双向递归神经网络和/或包括多个层。
所述方法可以采用事件调用并将机器学习技术应用于从每个事件导出的量。例如,所述方法可以包括:将所述一系列测量结果中的连续测量结果组鉴定为属于共同事件;从每个经过鉴定的测量结果组中导出一个或多个量;以及使用所述递归神经网络对从每个经过鉴定的测量结果组中导出的所述一个或多个量进行操作。所述方法可以对所述量的窗口进行操作。所述方法可以导出与相应经过鉴定的测量结果组(其通常含有先验未知且可以是可变的多个测量结果)相对应的关于连续聚合物单元的同一性的决策,因此所述关于连续聚合物单元的同一性的决策与所述测量结果之间的关系取决于经过鉴定的组中的测量结果的数量。
所述方法可以可替代地将所述机器学习技术应用于所述测量结果本身。在这种情况下,所述方法可以导出与相应测量结果或相应预定数量的测量结果组相对应的关于连续聚合物单元的同一性的决策,因此预先测定所述关于连续聚合物单元的同一性的决策与所述测量结果之间的关系。
例如,对所述一系列测量结果进行的分析可以包括:在所述一系列测量结果的连续窗口中对连续测量结果执行卷积,以导出关于每个窗口的特征向量;以及使用所述机器学习技术对所述特征向量进行操作。所述窗口可以是重叠的窗口。可以通过使用经过训练的特征检测器(例如,卷积神经网络)对所述一系列测量结果进行操作来执行所述卷积。
根据本发明的第三实例,提供了一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的一系列测量结果进行分析的方法,所述聚合物包括一系列聚合物单元,所述方法包括:在所述一系列测量结果的连续窗口中对连续测量结果执行卷积,以导出关于每个窗口的特征向量;以及使用递归神经网络对所述特征向量进行操作以导出关于所述一系列聚合物单元的信息。
这种方法提供了优于比较方法的优势,所述比较方法应用事件调用并使用递归神经网络来对针对每个事件导出的量或特征向量进行操作。具体地,本发明方法提供更高的准确性,具体地在所述一系列测量结果未表现出容易区分的事件时,例如在以相对高的测序速率获取测量结果的情况下。
所述窗口可以是重叠的窗口。可以通过使用经过训练的特征检测器(例如,卷积神经网络)对所述一系列测量结果进行操作来执行所述卷积。
所述递归神经网络可以是双向递归神经网络和/或可以包括多个层。
本发明的第三实例可以与本发明的第一实例或第二实例组合应用。
以下叙述适用于本发明的所有实例。
本发明方法以允许关于以相对高的测序速率获取的一系列测量结果执行分析的方式提高了准确性。例如,所述方法可以应用于以至少10个聚合物单元每秒(优选地100个聚合物单元每秒,更优选地500个聚合物单元每秒或更优选地1000个聚合物单元每秒)的速率获取的一系列测量结果。
所述纳米孔可以是生物孔。
所述聚合物可以是多核苷酸,其中所述聚合物单元是核苷酸。
所述测量结果可以包括以下中的一个或多个:电流测量结果、阻抗测量结果、隧穿测量结果、FET测量结果和光学测量结果。
所述方法可以进一步包括获取所述一系列测量结果。
靶聚合物可以源自原始聚合物的模板或补体。靶聚合物的所述模板或补体可以具有与聚合酶填充的3'或5'连接。所述连接可以是衔接子。其中靶聚合物的模板、补体或聚合酶填充中的至少一个可以包括典型聚合物单元和非典型聚合物单元。
非典型碱可以非测定性地并入靶聚合物中。
多核苷酸可以包括一种或多种不同类型的一种或多种非典型碱基,所述多核苷酸是通过使用聚合酶和一定比例的非典型碱基由所述多核苷酸的模板或补体产生的。
所产生的多核苷酸可以通过两个发夹衔接子共价连接到所述对应的模板或补体,并且所得构建体是环状的。
所述两个发夹衔接子可以是不对称的。
所述聚合物可以是多核苷酸。聚合物单元可以是核苷酸碱基,并且靶多核苷酸可以包括通过使用聚合酶和一定比例的非典型碱基由环状构建体产生的模板多核苷酸链的重复序列区段。
所述靶多核苷酸可以包括模板多核苷酸链和补体多核苷酸的重复序列交替区段。
所述靶多核苷酸可以是通过使用聚合酶和一定比例的非典型碱基由所述环状构建体产生的。
所述补体可以通过以下中的至少一种制备:将衔接子共价连接到双链多核苷酸的相对端;以及分离所述双链多核苷酸以提供补体链,所述补体链各自包括在一端处的衔接子或在任一端处的衔接子。
所述方法可以与用于改进碱基调用和/或测定靶聚合物或其部分的共有区的其它技术协同地组合。靶聚合物可以源自原始聚合物的模板或补体。靶聚合物的模板和/或补体可以具有与其反向补体的3'或5'连接。靶聚合物的模板、补体或反向补体中的至少一个可以包括典型聚合物单元和非典型聚合物单元。非典型聚合物单元可以通过取代来提供。可以在聚合酶填充期间提供非典型聚合物单元。非典型碱基可以非测定性地并入靶聚合物中。
除了获取所述一系列测量结果的步骤之外,所述方法可以在计算机设备中执行。
根据本发明的另外的实例,可以提供一种分析系统,所述分析系统被布置成执行根据第一实例到第三实例中任一项所述的方法。可以在计算机设备中实施这种分析系统。
根据本发明的又另外的实例,可以提供这种分析系统与测量系统的组合,所述测量系统被布置成在聚合物相对于纳米孔易位期间从聚合物获取一系列测量结果。
在又另一个实例中,提供了一种类型的测量系统,所述测量系统用于估计聚合物(如核酸)中的聚合物单元的靶序列。所述系统使用聚合酶、经过标记的核苷酸和检测器。系统的性质取决于经过标记的核苷酸的检测,因为所述经过标记的核苷酸被并入核酸模板的拷贝中。举例来说,合适类型的检测器是零模波导(Eid等人,2009《科学(Science)》)和纳米孔(Fuller等人,2016《美国国家科学院院刊(PNAS)》)。
单分子测序中的错误来源可能由同一碱基的两次感测而发生。在合成测序中,这可以包含对于一个并入事件两次检测核苷酸上的标记。然而,如果存在同源和非同源经过标记的核苷酸的混合物,则可以减轻这种错误来源。例如,模板核酸中的下一个核苷酸的序列可以是AC或AAC。由于以下中的至少一种,所以可能难以测定正确的序列:(I)在真实序列是AC的情况下,检测与A相对并入的T碱基的标记,一次将导致测定正确的序列;(II)在真实序列是AC的情况下,如果T碱基的标记被检测两次,则这将导致测定不正确的序列,以产生插入错误(AAC);以及(III)在真实序列是AAC的情况下,检测并入的两个独立T碱基的标记将导致测定正确的序列。
因此,不可能容易地测定序列,因为无法容易地测定(II)或(III)是否已经发生。然而,如果核苷酸库含有具有同源和非同源标记的互补碱基的混合物,则可以使这种错误来源最小化。例如:(I)在真实序列是AC的情况下,如果T碱基的标记被检测两次,则这将导致测定不正确的序列,以产生插入错误(AAC);(II)在真实序列是AAC的情况下,检测来自并入的两个独立T碱基的两个不同标记的标记将导致测定正确的序列;以及(III)如果检测到T-T*或T*-T,则序列是AAC的测定性更高。然而,如果检测到T-T或T*-T*,则可以分配序列是AAC的不同概率,因为序列可以是AC并且已经观察到插入事件。这然后可以进一步用于与分子间或分子内的序列读段进行比较或组合,以获得更准确的共有区。
为了更好地理解,现在将参考附图通过非限制性实例的方式描述本发明的实施例,在附图中:
图1是纳米孔测量系统和分析系统的示意图;
图2是用于找到输入到分析系统中的事件的边界的分割过程的表示;
图3是展示了与作为经过鉴定的事件的概括统计量的实例量的关系的原始信号的图;
图4是展示了由递归神经网络实施的分析系统的结构的示意图;
图5是展示了采用HMM(隐马尔可夫模型)架构的分析系统的比较实例的结构的示意图;
图6到9是神经网络中的层的示意图,其示出了层的单元如何对输入特征的时序性系列进行操作,图6示出了非递归层,图7示出了单向层,图8示出了结合“前向”递归层和“后向”递归层的双向递归层,并且图9示出了以交替的方式将“前向”递归层和“后向”递归层组合在一起的替代性双向递归层;
图10展示了对图4的分析系统的修改,以便对测量结果(原始数据)进行操作;
图11展示了对图4的分析系统的修改;
图12示出了具有图11的修改的分析系统的样品输出;
图13示出了一些样品案例,其中基本方法导致对所述一系列聚合物单元的模糊估计值,而图11的修改中的移动状态的序列片段不是模糊的;
图14展示了对图4的分析系统的修改,其中解码已被推回到最低的双向递归层中;
图15通过比较展示了图4的分析系统的最终层及其解码器;并且
图16和17展示了对图14的分析系统的两种替代性修改,以便能够通过困惑度进行训练;
图17展示了对图4的分析系统的修改,以便能够通过困惑度进行训练,包含添加回到网络中的arg max单元,使得将其输出被反馈回来;
图18a展示了一种已知技术,而图18b到18k展示了添加用于分析的非典型碱基的步骤和指示所鉴定的对应非典型碱基的典型碱基调用输出的表格;
图19示出了三种可能的标记路径;
图20展示了在图2中图示地示出的计算的进度。
图21示出了使用100%dGTAC三磷酸酯经受1x循环扩增的3.6kb链的叠加—蓝色是在聚合酶不存在的情况下并且红色是在聚合酶存在的情况下—在3-4kb处的红色迹线中峰的存在指示成功扩增;注意此处在蓝色迹线中不存在峰;
图22示出了使用聚合酶和75%7-脱氮dG、75%2-氨基dA、25%dG、25%dA和100%dTC三磷酸酯对3.6kb链进行1x循环扩增—在3-4kb处的红色迹线中峰的存在指示成功扩增;
图23示出了使用聚合酶和50%7-脱氮dG、50%2-氨基dA、50%dG、50%dA和100%dTC三磷酸酯对3.6kb链进行1x循环扩增—在3-4kb处的红色迹线中峰的存在指示成功扩增;
图24示出了使用聚合酶和75%5-丙炔基dU、75%5-丙炔基dC、25%dT、25%dC和100%dGA三磷酸酯对3.6kb链进行1x循环扩增,其中在约5-6kb处的红色迹线中峰的存在指示成功扩增—注意5-丙炔基的存在增加了峰的大小,这可能是由于额外的大小;
图25示出了使用聚合酶和50%5-丙炔基dU、50%5-丙炔基dC、50%dT、50%dC和100%dGA三磷酸酯对3.6kb链进行1x循环扩增—在约5kb处的红色迹线中峰的存在指示成功扩增;
图26示出了使用聚合酶和75%7-脱氮dG、75%5-丙炔基dU、75%2-氨基dA、75%5-丙炔基dC和25%dGTAC三磷酸酯对3.6kb链进行1x循环扩增—在约5-6kb处的红色迹线中峰的存在指示成功扩增;
图27示出了使用聚合酶和50%7-脱氮dG、50%5-丙炔基dU、50%2-氨基dA、50%5-丙炔基dC和50%dGTAC三磷酸酯对3.6kb链进行1x循环扩增—在约5kb处的红色迹线中峰的存在指示成功扩增;
图28示出了使用100%dGTAC三磷酸酯经受1x循环扩增的大肠杆菌(E.Coli)文库的叠加—蓝色是在聚合酶不存在的情况下并且红色是在聚合酶存在的情况下—在4-10kb处的红色迹线中模糊峰的存在指示成功扩增;注意此处在蓝色迹线中不存在峰;
图29示出了使用75%7-脱氮dG、75%5-丙炔基dU、75%2-氨基dA、75%5-丙炔基dC以及25%dGTAC三磷酸酯经受1x循环扩增的大肠杆菌文库的叠加—蓝色是在聚合酶不存在的情况下并且红色是在聚合酶存在的情况下—在6-20kb处的红色迹线中模糊峰的存在指示成功扩增,注意此处在蓝色迹线中不存在峰;
图30示出了使用50%7-脱氮dG、50%5-丙炔基dU、50%2-氨基dA、50%5-丙炔基dC以及50%dGTAC三磷酸酯经受1x循环扩增的大肠杆菌文库的叠加—蓝色是在聚合酶不存在的情况下并且红色是在聚合酶存在的情况下—在6-20kb处的红色迹线中模糊峰的存在指示成功扩增,注意此处在蓝色迹线中不存在峰;并且
图31示出了从图21中所示的未经过修饰的3.6kb产物获得的示例电流迹线。每条迹线的中心部分(约887.69-887.79秒)对应于与孔相互作用的序列TTTTTTTTTTTGGAATTTTTTTTTTGGAATTTTTTTTTT。设计此序列以给出散布有两个低电流水平k聚体的平坦均聚物信号;并且
图32示出了从图26中所示的75%经过修饰的碱基3.6kb产物获得的示例电流迹线。可以看到上文与图31之间与同一靶序列相对应的电流迹线的差异。
图33示出了从图27中所示的50%经过修饰的碱基3.6kb产物获得的示例电流迹线。可以看到上文与图31之间与同一靶序列相对应的电流迹线的差异。
图1展示了纳米孔测量和包括测量系统2和分析系统3的分析系统1。测量系统2在聚合物相对于纳米孔易位期间从所述聚合物获取一系列测量结果,所述聚合物包括一系列聚合物单元。分析系统3执行分析所述一系列测量结果的方法以获得关于聚合物的进一步信息,例如所述一系列聚合物单元的估计值。通常,聚合物可以是任何类型,例如多核苷酸(或核酸)、如蛋白质等多肽或多糖。聚合物可以是天然的或合成的。多核苷酸可以包括均聚物区域。均聚物区域可以包括5到15个核苷酸。
在多核苷酸或核酸的情况下,聚合物单元可以是核苷酸。核酸通常是脱氧核糖核酸(DNA)、核糖核酸(RNA)、cDNA或本领域已知的合成核酸,如肽核酸(PNA)、甘油核酸(GNA)、苏糖核酸(TNA)、锁核酸(LNA)或具有核苷酸侧链的其它合成聚合物。PNA主链由通过肽键连接的重复N-(2-氨基乙基)-甘氨酸单元构成。GNA主链由通过磷酸二酯键连接的重复二醇单元构成。TNA主链由通过磷酸二酯键连接在一起的重复苏糖构成。LNA由上文所讨论的具有将核糖部分中的2'氧与4'碳连接的额外桥的核糖核苷酸形成。核酸可以是单链的、双链的或包括单链区域和双链区域两者。核酸可以包括与一条DNA链杂交的一条RNA链。通常,cDNA、RNA、GNA、TNA或LNA是单链的。
聚合物单元可以是任何类型的核苷酸。核苷酸可以是天然存在的或人工的。例如,所述方法可以用于验证制造的寡核苷酸的序列。核苷酸通常含有核碱基、糖和至少一个磷酸基。核碱基和糖形成核苷。核碱基通常是杂环的。合适的核碱基包含嘌呤和嘧啶,以及更具体地,腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、尿嘧啶(U)和胞嘧啶(C)。糖通常是戊糖。合适的糖包含但不限于核糖和脱氧核糖。核苷酸通常是核糖核苷酸或脱氧核糖核苷酸。核苷酸通常含有单磷酸、二磷酸或三磷酸。核苷酸可以包括多于三个磷酸,如4个或5个磷酸。磷酸可以连接在核苷酸的5'或3'侧上。核苷酸包含但不限于单磷酸腺苷(AMP)、单磷酸鸟苷(GMP)、单磷酸胸苷(TMP)、单磷酸尿苷(UMP)、单磷酸5-甲基胞苷、单磷酸5-羟基甲基胞苷、单磷酸胞苷(CMP)、单磷酸环腺苷(cAMP)、单磷酸环鸟苷(cGMP)、单磷酸脱氧腺苷(dAMP)、单磷酸脱氧鸟苷(dGMP)、单磷酸脱氧胸苷(dTMP)、单磷酸脱氧尿苷(dUMP)、单磷酸脱氧胞苷(dCMP)和单磷酸脱氧甲基胞苷。
核苷酸可以无碱基的(即缺乏核碱基)。核苷酸还可以缺乏核碱基和糖(即,是C3间隔子)。
多核苷酸中的核苷酸可以以任何方式彼此连接。核苷酸通常通过其糖和磷酸基连接,如在核酸中那样。核苷酸可以通过其核碱基连接,如在嘧啶二聚体中那样。
如本文所使用的,典型聚合物单元是通常在特定类别的聚合物中发现的类型的聚合物单元。举例来说,相对于多核苷酸的典型聚合物单元类型通常是核碱基(和对应的核苷和核苷酸)、腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、尿嘧啶(U)和胞嘧啶(C)。
如本文所使用的,非典型聚合物单元是与对于所述类别的聚合物的任何典型聚合物单元类型不同(例如,具有不同的分子结构)的类型的聚合物单元。举例来说,关于多核苷酸的非典型聚合物单元类型可以是除了如上所述的A、G、T、U和C之外的任何核碱基(和对应的核苷和核苷酸)。
非典型聚合物单元可以与典型聚合物单元相对应。举例来说,非典型聚合物单元可以源自对应典型聚合物单元或与对应典型聚合物单元具有结构类似性。
在如本文所述的本发明方法中,组成聚合物的聚合物单元可以调制与聚合物相关的信号。非典型聚合物单元可以与对应的聚合物单元不同地调制信号,因此使得能够区分典型聚合物单元和非典型聚合物单元。
如本文所使用的,术语“典型碱基”通常是指核碱基腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、尿嘧啶(U)和胞嘧啶(C)。典型碱基可以形成典型核苷和典型核苷酸的一部分。因此,如本文所使用的,术语“典型碱基”可以包含典型核苷和典型核苷酸。
如本文所使用的,术语“非典型碱基”通常是指不同于如上所述的典型碱基腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、尿嘧啶(U)和胞嘧啶(C)的核碱基。非典型碱基可以形成非典型核苷和非典型核苷酸的一部分。因此,如本文所使用的,术语“非典型碱基”可以包含非典型核苷和非典型核苷酸。
非典型碱基可以与典型碱基相对应。举例来说,给定的非典型碱基可以具有与给定的典型碱基基本上相同的互补结合特性,并且因此非典型碱基可以被认为与典型碱基相对应。非典型碱基可以源自典型碱基或与典型碱基具有结构类似性,使得非典型碱基具有与对应典型碱基基本上相同的互补结合特性。因此,非典型碱基可以是经过修饰的典型碱基。
非典型碱基可以能够特异性杂交或特异性结合(即,互补)与非典型碱基所对应的典型碱基互补的典型碱基。举例来说,与腺嘌呤相对应的非典型碱基可以能够与胸腺嘧啶特异性杂交或特异性结合。通常,非典型碱基与不互补于非典型碱基所对应典型碱基的那些典型碱基杂交或较不强烈地结合。
非典型碱基可以与多于一个典型碱基相对应。因此,非典型碱基可以能够与多于一个典型碱基特异性杂交或特异性结合(即,互补)。与多于一个典型碱基相对应的非典型碱基的实例是如本文所述的通用碱基(例如,肌苷)。
许多不同的非典型碱基是本领域已知的。技术人员将会意识到多个不同类型的非典型碱基,其中“类型”可以指给定的非典型碱基化学物种。
可商购获得的非典型核苷包含但不限于2,6-二氨基嘌呤-2'-脱氧核苷、2-氨基嘌呤-2'-脱氧核苷、2,6-二氨基嘌呤-核糖苷、2-氨基嘌呤-核糖苷、假尿苷、嘌呤霉素、2,6-二氨基嘌呤-2'-O-甲基核糖苷、2-氨基嘌呤-2'-O-甲基核糖苷和阿糖胞苷。由于尿嘧啶通常不存在于DNA中,因此在此上下文中,2'-脱氧尿苷可以被认为是非典型核苷。
非典型碱基可以是通用碱基或核苷酸。通用核苷酸是在某种程度上与模板多核苷酸中的所有碱基杂交或结合的核苷酸。通用核苷酸优选地是在某种程度上与包括核苷腺苷(A)、胸腺嘧啶(T)、尿嘧啶(U)、鸟嘌呤(G)和胞嘧啶(C)的核苷酸杂交或结合的核苷酸。通用核苷酸可以比与其它核苷酸相比更强地与一些核苷酸杂交或结合。例如,包括核苷、2'-脱氧肌苷的通用核苷酸(I)将显示I-C>I-A>I-G大约=I-T的优先配对顺序。
通用核苷酸优选地包括以下核碱基之一:次黄嘌呤、4-硝基吲哚、5-硝基吲哚、6-硝基吲哚、甲酰基吲哚、3-硝基吡咯、硝基咪唑、4-硝基吡唑、4-硝基苯并咪唑、5-硝基吲唑、4-氨基苯并咪唑或苯基(C6-芳香环)。通用核苷酸更优选地包括以下核苷之一:2'-脱氧肌苷、肌苷、7-脱氮-2'-脱氧肌苷、7-脱氮-肌苷、2-氮杂-脱氧肌苷、2-氮杂-肌苷、2-O'-甲基肌苷、4-硝基吲哚2'-脱氧核糖核苷、4-硝基吲哚核糖核苷、5-硝基吲哚2'-脱氧核糖核苷、5-硝基吲哚核糖核苷、6-硝基吲哚2'脱氧核糖核苷、6-硝基吲哚核糖核苷、3-硝基吡咯2'-脱氧核糖核苷、3-硝基吡咯核糖核苷、次黄嘌呤的非环糖类似物、硝基咪唑2'-脱氧核糖核苷、硝基咪唑核糖核苷、4-硝基吡唑2'-脱氧核糖核苷、4-硝基吡唑核糖核苷、4-硝基苯并咪唑2'-脱氧核糖核苷、4-硝基苯并咪唑核糖核苷、5-硝基吲唑2'-脱氧核糖核苷、5-硝基吲唑核糖核苷、4-氨基苯并咪唑2'-脱氧核糖核苷、4-氨基苯并咪唑核糖核苷、苯基C-核糖核苷、苯基C-2'-脱氧核糖基核苷、2'-脱氧烟云杯伞素、2'-脱氧异鸟苷、K-2'-脱氧核糖、P-2'-脱氧核糖和吡咯烷。通用核苷酸可以包括2'-脱氧肌苷。通用核苷酸可以是IMP或dIMP。通用核苷酸可以是dPMP(2'-脱氧-P-核苷单磷酸)或dKMP(N6-甲氧基-2,6-二氨基嘌呤单磷酸)。
非典型碱基可以包括相关典型碱基中不存在的化学原子或基团。化学基团可以是丙炔基、硫基、氧代基、甲基、羟甲基、甲酰基、羧基、羰基、苄基、炔丙基或炔丙胺基。化学基团或原子可以是或可以包括荧光分子、生物素、地高辛(digoxigenin)、DNP(二硝基苯酚)、光不稳定基团、炔烃、DBCO、叠氮化物、游离氨基、氧化还原染料、汞原子或硒原子。
可商购获得的包括在典型核苷中不存在的化学基团的非典型核苷包含但不限于6-硫代-2'-脱氧鸟苷、7-脱氮-2'-脱氧腺苷、7-脱氮-2'-脱氧鸟苷、7-脱氮-2'-黄嘌呤核苷、7-脱氮-8-氮-2'-脱氧腺苷、8-5'(5'S)-环-2'-脱氧腺苷、8-氨基-2'-脱氧腺苷、8-氨基-2'-脱氧鸟苷、8-氘代-2'-脱氧鸟苷、8-氧代-2'-脱氧腺苷、8-氧代-2'-脱氧鸟苷、亚乙烯基-2'-脱氧腺苷、N6-甲基-2'-脱氧腺苷、O6-甲基-2'-脱氧鸟苷、O6-苯基-2'-脱氧肌苷、2'-脱氧假尿苷、2-硫代胸苷、4-硫代-2'-脱氧尿苷、4-硫代胸苷、5'-氨基胸苷、5-(1-芘基乙炔基)-2'-脱氧尿苷、5-(C2-EDTA)-2'-脱氧尿苷、5-(羧基)乙烯基-2'-脱氧尿苷、5,6-二氢-2'-脱氧尿苷、5.6-二氢胸苷、5-溴-2'-脱氧胞苷、5-溴-2'-脱氧尿苷、5-羧基-2'-脱氧胞苷、5-氟-2'-脱氧尿苷、5-甲酰-2'-脱氧胞苷、5-羟基-2'-脱氧胞苷、5-羟基-2'-脱氧尿苷、5-羟甲基-2'-脱氧胞苷、5-羟甲基-2'-脱氧尿苷、5-碘-2'-脱氧胞苷、5-碘-2'-脱氧尿苷、5-甲基-2'-脱氧胞苷、5-甲基-2'-脱氧异胞苷、5-丙炔基-2'-脱氧胞苷、5-丙炔基-2'-脱氧尿苷、6-O-(TMP)-5-F-2'-脱氧尿苷、C4-(1,2,4-三唑-1-基)-2'-脱氧尿苷、C8-炔烃-胸苷、dT-二茂铁、N4-乙基-2'-脱氧胞苷、O4-甲基胸苷、吡咯-2'-脱氧胞苷、胸苷乙二醇、4-硫尿苷、5-甲基胞苷、5-甲基尿苷、吡咯环胞苷、3-脱氮-5-氮杂-2'-O-甲基胞苷、5-氟-2'-O-甲基尿苷、5-氟-4-O-TMP-2'-O-甲基尿苷、5-甲基-2'-O-甲基胞苷、5-甲基-2'-O-甲基胸苷、2',3'-二脱氧腺苷、2',3'-二脱氧胞苷、2',3'-双脱氧鸟苷、2',3'-双脱氧胸苷、3'-脱氧腺苷、3'-脱氧胞苷、3'-脱氧鸟苷、3'-脱氧胸苷和5'-O-甲基胸苷。
非典型碱基可能缺乏相关的典型碱中不存在的化学基团或原子。
与相关的典型碱基相比,非典型碱基可以具有改变的电负性。具有改变的电负性的非典型碱基可以包括卤素原子。卤素原子可以连接到非典型碱基、核苷或核苷酸(如核碱基和/或糖)上的任何位置。卤素原子优选地是氟(F)、氯(C l)、溴(Br)或碘(I)。卤素原子最优选是F或I。
可商购获得的包括卤素的非典型核苷包含但不限于8-溴-2'-脱氧腺苷、8-溴-2'-脱氧鸟苷、5-溴尿苷、5-碘尿苷、5-溴尿苷、5-碘尿苷、5'-碘胸苷和5-溴-2'-O-甲基尿苷。
非典型碱基可以是天然存在的或非天然存在的。
天然存在的非典型碱基可以在体内多核苷酸中发现。天然存在的非典型碱基的实例是天然存在的甲基化碱基,例如5-甲基-胞嘧啶或6-甲基-腺嘌呤。
用于制备包括非典型碱基的多核苷酸的多种方法是本领域已知的。
举例来说,包括一个或多个非典型碱基的多核苷酸可以通过在聚合酶使用模板多核苷酸作为模板形成经过修饰的多核苷酸的条件下使模板多核苷酸与聚合酶接触来制备。合适的聚合酶的实例包含Klenow或9o North。此类条件是本领域已知的。例如,多核苷酸通常与可商购获得的聚合酶缓冲液(如来自New England Biol
Figure BDA0002959309280000301
的缓冲液)中的聚合酶接触。对于Klenow,温度优选地是20到37℃,或对于9o North,温度是60到75℃。引物或3'发夹通常用作聚合酶延伸的成核点。发夹从WO2013/014451已知,所述文献通过引用整体并入本文。
模板多核苷酸可以与游离核苷酸群体接触。聚合酶使用游离核苷酸来形成基于模板多核苷酸的经过修饰的多核苷酸。群体中的游离核苷酸的同一性决定了经过修饰的多核苷酸的组成。群体中的每个游离核苷酸能够与模板多核苷酸中的一个或多个核苷酸物种杂交或结合。群体中的每个游离核苷酸通常能够与模板多核苷酸中的一个或多个核苷酸物种特异性杂交或特异性结合(即互补)。核苷酸与模板多核苷酸中的核苷酸特异性杂交或特异性结合(即补体),如果其与核苷酸杂交或结合比与模板核苷酸中的其它核苷酸更强的话。这允许聚合酶使用互补性(即,碱基配对)以使用模板多核苷酸形成经过修饰的多核苷酸。通常,每个游离核苷酸与模板多核苷酸中的核苷酸之一特异性杂交或特异性结合(即补体)。
通过另外的实例的方式,包括一个或多个非典型碱基的多核苷酸可以通过在聚合酶使用模板多核苷酸作为模板形成经过修饰的多核苷酸的条件下使模板多核苷酸与连接酶接触来制备。合适的连接酶的实例包含Taq或大肠杆菌和T4。此类条件是本领域已知的。例如,多核苷酸通常与可商购获得的聚合酶缓冲液(如来自New England BiolabsTM的缓冲液)中的连接酶接触。对于大肠杆菌和T4,温度优选地是12到37℃,或对于Taq,温度是45到75℃。引物或3'发夹通常用作连接延伸的成核点。
模板多核苷酸可以与游离寡核苷酸群体接触。连接酶使用游离寡核苷酸形成基于模板多核苷酸的经过修饰的多核苷酸。群体中的游离寡核苷酸的同一性决定了经过修饰的多核苷酸的组成。群体中的每个游离寡核苷酸能够与模板多核苷酸中的四个或更多个核苷酸物种杂交或结合。群体中的每个游离核苷酸通常能够与模板多核苷酸中的四个或更多个核苷酸物种特异性杂交或特异性结合(即互补)。核苷酸与模板多核苷酸中的核苷酸特异性杂交或特异性结合(即补体),如果其与核苷酸杂交或结合比与模板核苷酸中的其它核苷酸更强的话。这允许连接酶使用互补性(即,碱基配对)以使用模板多核苷酸形成经过修饰的多核苷酸。通常,每个游离寡核苷酸与模板多核苷酸中的六个核苷酸特异性杂交或特异性结合(即补体)。
模板多核苷酸可以是靶多核苷酸。模板多核苷酸可以是靶多核苷酸的补体。模板多核苷酸可以部分地或全部地与靶多核苷酸相对应。模板多核苷酸可以是靶多核苷酸的部分或全部的补体。
在一些实施例中,包括一个或多个非典型碱基的多核苷酸可以通过将一个或多个典型碱基酶转化为对应非典型碱基来制备。举例来说,包括典型碱基的多核苷酸可以与能够将一种或多种类型的典型碱基转化为对应非典型碱基类型的酶接触。此类酶的实例包含DNA-和RNA-甲基转移酶。在一些实施例中,包括一个或多个非典型碱基的多核苷酸可以通过将一个或多个典型碱基化学转化为对应非典型碱基来制备。举例来说,包括典型碱基的多核苷酸可以与能够将一种或多种类型的典型碱基转化为对应非典型碱基类型的化学品接触。此类化学品的实例包含甲酸、肼、硫酸二甲酯、四氧化锇和一些钒酸盐化合物。
非典型碱基还可以包括嘧啶二聚体,例如胸腺嘧啶二聚体。这种二聚体可以通过紫外光的作用引入到多核苷酸中。也可以修饰模板依赖性合成的产物。可以使用典型碱基群体形成产物,并且然后将产物修饰为含有非典型碱基。可以使用典型碱基和非典型碱基群体形成产物,并且然后将产物进一步修饰为含有更多的相同或不同的非典型碱基。
通过分析包括典型聚合物单元和非典型聚合物单元的聚合物或链,可以提高纳米孔测序的准确性。用于分析的聚合物被称为靶聚合物或靶链。这些靶聚合物源自具有共同的典型序列的原始聚合物或链,无论是通过起源还是设计。这种原始聚合物可以称为同源链。为了清楚,原始聚合物源于待分析的样品,如来自人的脸颊内部的拭子。
原始聚合物被拷贝多次并且将非典型聚合物单元添加到这些拷贝中以产生靶聚合物。测量信号是可通过使靶聚合物穿过测序装置(如由牛津纳米孔技术公司(OxfordNanopore Technologies)生产的那些测序装置)获得的,并且可以处理从所述装置读取或处理的信号以提供序列。序列的估计值可以提供碱基调用。
对测量结果进行分析以测定序列可以使用如下所述的机器学习。
从具有共同的典型序列的原始聚合物或链产生靶聚合物是可通过用可以是非典型的替代性碱基取代典型碱基,即A、C、G和T中的一个或多个实现的。当穿过纳米孔时,这些替代性碱基与对应典型碱基相比会产生不同的信号。提供靶聚合物的替代性碱基并且随后以非测定性方式定位。
可以使用具有非特异性结合的替代性碱基。替代性碱基可以含有具有例如不同核磁共振的修饰、荧光团基团或原子,其允许对其的存在和位置进行测量,例如正交测量。另外地或可替代地,可以对聚合物进行其它改变,以产生与所描述的那些类似的效果,而不是用替代性碱基取代典型碱基。例如,故意通过暴露于UV光诱导嘧啶二聚体的形成,或作为另外的实例,切除核碱基以留下唯一的主链。
碱基的取代水平的比例可以介于约1%与约99%之间、但优选地介于约30%与约70%之间、但仍优选地约50%。对于每个取代的碱基和/或取代的类型,取代的比例可以大约相同。对于每个取代的碱基和/或取代的类型,取代的比例可以不同。
由于取代的非测定性性质,不同的靶聚合物或靶链具有相对于原始聚合物中的原始碱基位于不同位置的替代性碱基,如非典型碱基,所述原始聚合物被拷贝以供分析。
通过为给定的典型碱基提供多个替代性碱基,然后不同的靶聚合物可以在给定位置处具有不同的取代。鉴于取代的非测定性性质,一些靶聚合物将具有被同一替代方案取代的同一位置,即不同链的所述一组位置不相互排斥。
通过获取与靶聚合物相关的信号的一系列测量结果来测定包括聚合物单元的靶聚合物的序列涉及依赖于多个聚合物单元的信号的测量结果,所述信号可以从使替代性聚合物链穿过纳米孔而导出。
靶聚合物调制信号,并且因为靶聚合物中的非典型聚合物单元与对应典型聚合物单元不同地调制信号,因此提高了准确性。为了说明这种差异,源自碱基CcAGT的靶聚合物的信号不同于具有碱基CCAGT的原始聚合物中的在其它方面相同的碱基。在替代性碱基取代典型碱基的情况下,所测量的信号拾取或鉴定替代性或非典型单元。举例来说,替代性碱基“c”取代典型碱基“C”。通过另一个实例的方式,典型碱基可以用肌苷替代,所述肌苷不与碱基C、A、G或T中的任何一个相对应,但是被如此识别,并且随后的分析可以将非典型碱基归属于“非典型”或A、C、G或T中的任何一个。
信号是使用知道替代性碱基的分析方法来处理的。分析方法包括碱基调用方法、共同法(consensus method)和导出结果所需的任何辅助处理。
碱基调用方法的优选实例是其中碱基调用方法已经被训练成将替代性碱基对信号的影响归属于典型碱基。
在对多个靶聚合物或链进行测序时,应当理解,通过在不同链中不同的所述一组取代,针对不同链以不同的方式调制信号。虽然许多替代性碱基的存在可能使单个碱基调用不太准确,但还应当理解,任何碱基调差错误将不太系统性并且因此共有序列将更加准确。
当所使用的替代性碱基具有非特异性结合时,也可以应用所述方法。非特异性表示在每个链中关于典型序列的信息丢失,但是因为替代性碱基的并入是非测定性的,因此一些比例的同源链保留典型碱基并且因此其的同一性可以通过共有区建立。
虽然靶聚合物中的替代性碱基可以产生一系列测量结果,可以分析所述一系列测量结果以识别这些替代性碱基,但是可以优选地使用机器学习技术分析替代性碱基,以将替代性碱基(如非典型聚合物单元)的测量结果归属于相应的对应典型聚合物单元的测量结果。
由于将典型碱基和替代性碱基非测定性并入靶聚合物中,因此碱基的基础序列是未知的并且将在链到链的基础上变化,即使所述链是同一原始聚合物或模板的拷贝或者是基因组的同一区域的生物重复。即使每个链含有替代性碱基,但是仍然存在相关的典型序列—如果在样品制剂中不存在替代性碱基,则将是什么—并且感兴趣的是直接调用这而不是尝试推断任何替代方案的类型和位置。换言之,尽管在靶聚合物中存在5个或更多个碱基,但分析仅将典型值归属于信号,使得所测定的序列由来自A、C、G和T的组的碱基组成。
机器学习技术优选地被训练并且使用模型。可以使用经过训练的机器学习技术来估计来自一个或多个读段的典型序列。在应用这种技术之前,必须对具有相关的典型序列的一组代表性读段进行训练。下文描述了如何获得这样的一组,现在描述在给定这种问题的独特特征的情况下可以如何执行训练。
所述方法可以使用涉及神经网络、递归神经网络、随机森林或支持向量机等此类的机器学习方法,其通常以受监督的方式进行训练,其中训练集由输入信号与输出标记之间的显式关系或配准组成。输入信号源自靶聚合物,其包含典型碱基和替代性碱基的混合物。机器学习方法归属于序列的输出标记或碱基的同一性可以是典型碱基和替代性碱基的混合物或仅典型碱基。
具有碱基混合物的输出可以提供一组详细的数据,以用于随后的测序靶聚合物的比对和共有区的形成的目的。
共同法是本领域熟知的并且可以容易地应用。在碱基调用者将非典型碱基的影响归属于典型碱基的情况下,所得碱基调用包括典型序列,并且可以在几乎不修改的情况下应用方法。在碱基调用中存在非典型碱基的情况下,可以修改共同法,使得非典型碱基与其典型配偶体进行比对。在使用非特异性非典型碱基的情况下,可以修改共同法,使得非特异性非典型碱基非特异性比对。这种比对可以例如通过使用定制的取代矩阵或评分系统来实现。
然而,这样的一组详细的数据可以增加比对靶聚合物的序列和形成共有区所需的计算资源或成本。因此,分析测量结果以仅输出典型碱基具有以下效果:(i)使用机器学习技术合并详细的测量结果,这提高了准确性和/或(i i)简化了比对和共有区的形成,因为所述方法仅基于四个典型碱基,虽然已经准确地测定了四个碱基,因为靶聚合物包括典型聚合物单元和替代性聚合物单元的混合物。
举例来说,图18a到18k支持对待读取的靶聚合物中的非典型碱基的整合的解释。
图18a表示已知的内容,以供参考。将包括仅典型聚合物单元的双链DNA分子分开,使得原始聚合物的模板或补体之一穿过纳米孔,以鉴定原始聚合物的单独聚合物单元。在图18a中,模板穿过孔。可以对模板进行碱基调用。可以对另外的模板进行碱基调用,并且可以对碱基调用进行比对并且用于测定共有区。
图18b是本发明的一个实例,其中使作为原始聚合物的双链DNA分子变性并扩增,使得进行取代并且用来自非典型碱基供应的非典型碱基取代典型碱基,以产生靶聚合物。这种取代是非测定性的。在图18b的实例中,原始聚合物的模板经受取代,使得靶聚合物具有四个典型碱基A、C、G和T以及四个对应非典型碱基a、c、g和t,即典型碱基和非典型碱基的混合物。在穿过孔之后,碱基调用者可以仅调用典型碱基,即来自八(8)个中的四(4)个碱基或其变体。处理来自孔的原始信号的方式可以变化。具有典型碱基和非典型碱基的混合物的模板成为靶聚合物,可以对所述靶聚合物进行碱基调用。另外的模板可以成为另外的靶聚合物,并且也可以对那些靶聚合物进行碱基调用。可以对碱基调用进行比对并且用于测定共有区。
所述方法利用随机分布的非典型碱基的存在的方式可以变化。在本文提供的实例中,靶聚合物被碱基调用。另外地或可替代地,在使模板聚合物从其中穿过之后从孔接收到的原始信号可以用于测定靶聚合物的序列,这种原始信号分析使用了在WO13/041878中所公开的技术,所述文献通过引用整体并入本文。然而,总体上,可以通过最终碱基调用或测定仅具有典型碱基的共有区来提高计算效率,和/或可以通过非典型碱基的随机分布来减少系统性错误。
图18c是示出了由碱基调用者鉴定的“输入”的表,其包含可从靶聚合物鉴定的典型碱基和非典型碱基。对应的“输出”被合并到典型碱基。将输入合并为仅典型输出可以在单独的碱基调用水平进行。也可以在测定来自含有典型单元和非典型单元的混合物的多个碱基调用的共有区中执行将输入合并为仅典型输出。当形成共有区时,可以将非典型碱基与其典型配偶体进行比对。通过非典型碱基的非测定性位置和随后的合并,可以减少系统性错误。
在图18d中,举例来说,示出了两个替代性输入-输出表。其展示了碱基调用者可以将非典型碱基的影响归属于一个或多个典型碱基。实例包含:非特异性非典型碱基“X”被鉴定为任何典型碱基;甲基化“C”被鉴定为典型“C”;以及“TT二聚体”被鉴定为典型“T”。本文中的表仅用于说明性目的,并且合并可以使用定制取代矩阵或评分系统来实施。
虽然来自碱基调用或共有区测定的最终输出是典型碱基的鉴定,但是中间处理可以使用从分析靶聚合物的传感器读取的原始信号。典型输入和非典型输入中的每一个将以其自己的方式影响原始信号生成。对机器学习技术而言,分析原始信号以便测定碱基调用和/或共识水平的输出可能是有益的。
本发明可以协同地应用于改进碱基调用和测定共有区的已知技术。举例来说,靶聚合物可以具有彼此反向补体的第一区域和第二区域—这个模板和补体可以与发夹连接。靶聚合物可以源自原始聚合物的模板或补体,其中靶聚合物的所述模板或补体具有与使用聚合酶填充形成的对应反向补体的3'或5'连接(衔接子)。
如关于图18b所述,为了产生靶聚合物而进行的取代可以以多种方式应用于通过发夹连接而连接的模板、补体和/或反向补体。
在图18e和18f中,实线表示双链DNA分子的原始部分,即模板或源自其的补体,其是原始聚合物的部分。图18e和18f中的阶段是使用聚合酶和核苷酸进行的。短虚线表示引物,而较长的虚线表示与来自聚合酶的延伸产物组合的引物。
图18e展示了5个阶段,其中具有4个转换(由下箭头指示),所述阶段证明了可以如何通过扩增(如聚合酶链反应(PCR))来制备经过修饰的多核苷酸。所述方法包含聚合酶、模板核酸以及典型核苷酸和非典型核苷酸的库。这些根据标准PCR技术进行循环。
图18e的第一阶段开始于双链DNA分子,其被变性并且添加引物以在第二阶段产生单独的模板和补体,每个模板和补体具有在一端连接的相应引物,并且每个模板和补体包括仅典型碱基。然后使第二阶段的产物经受聚合酶填充,所述填充使用库,所述库含有典型核苷酸或碱基和非典型核苷酸或碱基。第二阶段被转化以在第三阶段产生(i)仅具有通过引物连接到具有典型碱基和非典型碱基的混合物的补体的典型碱基的模板,以及(ii)仅具有通过引物连接到具有典型碱基和非典型碱基的混合物的模板的典型碱基的补体。
使第三阶段的产物变性并且添加引物以在第四阶段产生四个单元,所述四个单元各自具有所连接的引物。这四个单元是(i)具有核苷酸或碱基的混合物的模板;(ii)仅具有典型碱基的模板;(iii)具有碱基的混合物的补体;以及(iv)仅具有典型碱基的补体模板。使第四阶段的产物,即第四阶段的每个单元经受聚合酶填充,所述填充使用典型核苷酸和非典型核苷酸的库。这在第五阶段产生(i)具有通过引物连接到具有碱基的混合物的补体的碱基的混合物的模板;(ii)仅具有通过引物连接到具有碱基的混合物的补体的典型碱基的模板;(iii)具有通过引物连接到具有碱基的混合物的模板的碱基的混合物的补体;以及(iv)仅具有通过引物连接到具有碱基的混合物的模板的典型碱基的补体模板。可以重复变性、添加引物和填充的循环。
图18f具有图18e的前三个阶段。作为靶聚合物的经过修饰的多核苷酸,其中一条链是由典型核苷酸组成的原始链,并且另一条链是由典型核苷酸和非典型核苷酸的混合物组成的合成产物。使一条链仅具有典型单元并且使另一条链源自典型单元(即,补体或反向补体)允许碱基的测定包含原始典型碱基与随机定位的非典型碱基之间的比较。
可替代地,合成可以使用连接酶和与靶核酸模板杂交的随机寡核苷酸进行。具有4个阶段的这个替代方案示出于图18g中,其中具有3个转换,其证明了可以如何使用经过修饰的连接和寡核苷酸来产生用于分析的靶聚合物。图18g的第一阶段开始于双链DNA分子,其被变性,并且添加寡核苷酸。在图18g中,实线表示双链DNA分子的原始部分,其是原始聚合物—在第二阶段中仅一个显示为“acgt”。短虚线表示寡核苷酸。在第二阶段与第三阶段之间添加另外的寡核苷酸。在第四阶段,寡核苷酸通过连接酶共价键合。寡核苷酸可以由非典型碱基或者典型碱基和非典型碱基的混合物组成。
进一步可替代地,合成可以通过多种技术,如衔接子连接或并入到5'引物中,使用添加到模板核酸的3'末端的发夹-3'发夹来进行。在图18h中,示出了4个阶段,其中具有3个转换,其证明如何可以使用发夹来启动合成。发夹由钩形线指示,在第二阶段中,所述钩形线是短虚线,因为所述钩形线包括典型碱基和非典型碱基的混合物—其充当引物。图18h的第一阶段开始于双链DNA分子,并且向模板和补体的末端添加发夹。在图18h中,实线表示双链DNA分子的原始部分,其是原始聚合物。在第2阶段与第3阶段之间,使DNA分子变性以产生各自带有发夹的单独原始模板和原始补体。使第三阶段的产物,即第三阶段的每个单元经受聚合酶填充,所述填充使用库,所述库包括典型核苷酸和非典型核苷酸的混合物。
由发夹的延伸或向引物启动的合成反应的产物中添加发夹允许来自原始模板核酸的信息与合成产物链进行比较或组合。
还可以制备含有典型核苷酸和非典型核苷酸的合成产物的多联体。这可以用单链或双链DNA作为起始模板核酸进行。举例来说,在图18i、18j和18k中示出了多联体形成的三种最常见技术。
在图18i中,第一阶段开始于仅具有典型聚合物单元的模板。然后通过连接酶连接其末端。添加充当引物的夹板。使用链置换合成和使用典型核苷酸和非典型核苷酸的库的聚合酶填充,重复地产生反向补体。这种反向补体具有核苷酸的混合物。这种反向补体可以在其产生期间直接进行分析。可替代地,这种反向补体可以在其产生之后进行分析。举例来说,可以通过使反向补体穿过纳米孔来对其进行分析。
在图18j中,4个阶段中的第一阶段开始于双链DNA分子。添加发夹以连接模板和补体的末端。向第二阶段中添加退火引物,并且此后链置换聚合酶产生模板和补体的重复序列的链,所述链使用典型核苷酸和非典型核苷酸的库进行填充。这个链可以在其产生期间直接进行分析。可替代地,这个链可以在其产生之后进行分析。举例来说,所述链可以通过使其穿过纳米孔来进行分析。
在图18k中,6个阶段的第一阶段开始于双链DNA分子。向模板添加一个发夹并且向补体添加一个发夹,但是分子的末端未连接。在第二和第三阶段之间,发夹被拷贝,并且拷贝包括典型核苷酸和非典型核苷酸的混合物。然后,使双链DNA分子变性,并且使用典型核苷酸和非典型核苷酸的库填充仅具有典型碱基的原始模板和补体。在第4阶段与第5阶段之间添加另外的成核点和发夹,其中发生PCT填充。使第5阶段处的产物经受随后的填充,以产生具有链的靶聚合物,所述链具有仅具有典型单元的第一部分(模板)并且然后具有交替补体和模板的序列,所述重复序列具有如所展示的典型核苷酸和非典型核苷酸的混合物。
在18b到18k的实例中的每个实例中,靶聚合物中的非典型单元的存在增加了由其导出的信号的复杂性或变化水平。这可能增加靶聚合物的所有区域中的变化的复杂性水平。具体地,源自原始聚合物的重复区域(如均聚物区域)的信号的范围在靶聚合物的对应区域中增加。
为了滚动线性扩增,将原始模板核酸并入到测序产物中。这提供了将含有仅典型碱基的链与含有典型碱基和非典型碱基的混合物的一系列产物进行比较的能力。
上述所有方法的输出可以使用包含以下的技术进行分析:从头测序、使用参考基因组测序、1-维测序(其中补体遵循模板通过孔)或2-维测序。
举例来说,靶聚合物的制备可以使用各种方法,如在以下文献中所公开的那些技术:US6087099;WO2015/124935;或PCT/GB2019/051314,所有所述文献通过引用整体并入本文。
另外地或可替代地,本文中的所有方法均可以用于产生仅具有典型碱基的核苷酸链,然后可以在合成反应之后酶促地或化学地修饰所述核苷酸链,以便在靶聚合物中提供典型碱基和非典型碱基的混合物。
由于PCR填充或寡核苷酸匹配的非测定性性质,与所述多个多核苷酸中的每个多核苷酸相关的信号可能不同。一个结果是,信号分析中存在的任何错误都将是非系统性的,从而导致测定共有序列的改进。
由于将典型碱基和替代性碱基非测定性并入靶聚合物中,因此碱基的基础序列是未知的并且将在链到链的基础上变化,即使所述链是同一原始聚合物或模板的拷贝或者是基因组的同一区域的生物重复。即使每个链含有替代性碱基,但是仍然存在相关的典型序列—如果在样品制剂中不存在替代性碱基,则将是什么—并且感兴趣的是直接调用这而不是尝试推断任何替代方案的类型和位置。换言之,尽管在靶聚合物中存在5个或更多个碱基,但分析仅将典型值归属于信号,使得所测定的序列由来自A、C、G和T的组的碱基组成。
举例来说,提供了上述方法以证明待测序的靶聚合物的制备—所述靶聚合物具有典型聚合物单元和非典型聚合物单元。在对靶聚合物的测量结果进行分析期间—通常使用机器学习技术—所述方法将非典型聚合物单元的测量结果归属于相应的对应典型聚合物单元的测量结果。可以在碱基调用水平下和/或在共有区形成期间应用这种归属。然后可以根据经过分析的一系列测量结果测定靶聚合物的序列。
在源自原始聚合物的模板或补体的靶聚合物的制备中,进行与例如PCR填充或连接的寡核苷酸的连接。在靶聚合物中,模板、补体或填充中的至少一个包括典型聚合物单元和非典型聚合物单元。非典型碱基非测定性地并入到靶聚合物中。
虽然本文中的实例可以应用于所有靶聚合物的分析,但是所述分析可以另外地或可替代地选择性地应用于靶聚合物的特异性区域。举例来说,靶聚合物序列的测定可以集中于具有以下中的至少一个的特异性区域:(i)测定为感兴趣的信号的特定间隔;(ii)与鉴定为感兴趣的聚合物(例如,均聚物)区域相对应的特定间隔;(iii)聚合物单元的简单重复模式;以及(iv)具有特别偏倚的聚合物单元组成的区域。
序列的测定可以在多于一个阶段中执行。通过非限制性实例的方式,所述测定可以集中于一个重复单元的鉴定,然后多个重复序列的鉴定上。
可以通过考虑多个一系列测量结果来进行完整靶聚合物或其部分的序列的测定,所述多个一系列测量结果各自被鉴定为来自在感兴趣的区域中具有同一典型序列的靶聚合物。所述鉴定可以使用如在WO13/121224中描述的那些技术的技术来执行,所述文献通过引用整体并入本文。所述鉴定可以通过针对每一系列测量结果进行聚合物单元序列的初始测定来进行。
使用机器学习技术分析靶聚合物的所述一系列测量结果可能需要训练,这需要考虑在机器学习领域中训练碱基调用者,所述碱基调用者适应(i)每个链的地面真值序列的不完整知识,以及(ii)输入信号与输出标记之间的未知配准。
每个链的地面真值序列的不完整知识是当靶聚合物由原始聚合物合成时在所述靶聚合物中形成的替代性碱基的非测定性存在和位置的结果。甚至在两条链是由同一原始分子合成的补体的情况下,所述两条链在其典型碱基和替代性碱基的模式上仍然不同,并且在训练时,不存在“地面真值”序列来使用。为了解决训练中靶聚合物之间的差异,针对典型序列训练机器学习技术,即由其合成靶聚合物的原始聚合物。在共同模板链(即原始聚合物)中的典型碱基的序列允许训练碱基调用方法并且仍然产生可以在与传统DNA测序技术相同的应用中使用的有用输出。
与输入信号与输出标记之间的未知配准相关的问题可以被称为“无配准(registration-free)”,并且此类无配准训练方法可以提供优于常规标记策略的益处,因为不需要指定信号到序列的精确映射。在未使用无配准方法进行训练的情况下,必须获得信号与标记之间的配准的估计值,并且然后假设这个配准是正确的,尽管存在错误;然后,此类错误将被训练到机加工学习方法中并且导致碱基调用准确性损失。
获得配准的估计值可能涉及假设配准以规律的方式进行,或通过与由先前获得的模型产生的标记达成一致,所述模型已经被约束为调用正确的标记序列。进一步地,此类估计值可以使用关于系统的另外知识(如信号的独特模式或其它标记物)来进一步约束。
所述方法可以使用无配准的训练方法,而不是利用所描述的与其相关的错误和问题,由配准的估计值训练模型。训练可以通过使目标函数最小化或大约最小化来进行。
给定机器学习方法如何良好地预测靶聚合物的每个读段的序列(优选地是靶聚合物的典型序列)的分数,可以通过组合所述分数来创建适当的目标函数,并且这种组合可以通过应用一些函数来影响。量度中心趋势的功能是优选的。此类函数的实例包含:平均分数、所有分数的总和、中位数分数、调整平均数分数、加权平均数分数、分数分位数的加权总和(L-估计量)、位置的M-估计量。
在读段与典型序列之间的配准是已知的情况下,可以创建与读段长度相同的标记的增强序列,所述增强序列由当要发射新标记时的标记组成,或者以其它方式由“空白”状态组成。将这种增强的标记序列称为读段的“标记”。这种标记的分数可以使用本领域中的许多标准技术之一来计算。
举例来说,“读段”可以通过将与典型序列一致的所有可能标记的分数组合成单个分数来进行评分。在已知或假定已知配准的情况下进行的训练等同于作为特异性标记的单独分数的目标函数。
可以对每个单独分数对组合分数的贡献进行加权,并且在权重为零的情况下,不需要执行单独分数的计算,并且因此总体计算比完全计算的情况需要更少的计算资源。如何可以有效地分配权重的实例是仅使用非零权重用于这些标记分配,其中信号与典型序列之间的配准完全保持在限定区域内。
可替代地,可以使用权重以有利于标记的分配,所述标记的分配的度量与系统应该如何表现的预期一致,例如链通过孔的总易位速率或马达力学的局部性质。
对于组合的若干方法,可以使用动态编程技术以有效的方式计算读段的分数,而无需显式计算每个可能标记的单独分数。这种动态编程的一个这种应用的实例是在用于未分段序列标记的连接时序分类(CTC)方法中的神经网络的训练中[https://www.cs.toronto.edu/~graves/icml_2006.pdf],并且这种方法已经通过凯龙星碱基调用软件(Chiron base calling software)直接应用于纳米孔测序[https://academic.oup.com/gigascience/article/7/5/giy037/4966989]。
对所有标记进行求和的有效方式的实例可以包含机器学习技术,所述机器学习技术预测读段r的每个位置处的权重Wr(s,t)或用于在处于状态s时发射空白的Wr(s,-),所述权重在所述位置与下一个位置之间存在从状态s到状态t的转换。对权重进行归一化,使得所有可能标记上的组合(无论典型序列如何)都是恒定值。
为了组合与典型序列一致的所有标记的分数,所述方法可以通过网格执行动态编程,其中读段在一个轴上而典型序列在另一个轴上。每个可能标记等同于通过此网格的单调路径(严格地单调通过读段轴,沿着序列轴不递减)。
图19示出了在简单的情况下三种这样的路径如何产生。使用严格连续前进通过读段位置的前沿来累积所有标记的分数。从读段中的一个位置的累积具有两个分量:移动到典型序列中的下一个位置,具有相关的权重,或者停留在同一位置,具有与“空白”相关的权重。假定cs是与典型序列的位置s相关的标记,可以使用两个算子(oplus)和(otimes)如下递归地计算组合分数:
Figure BDA0002959309280000441
图20图示地示出了计算的进程。
在这个框架中,特定标记l1,…,ln的分数S(l)可以通过将适当的权重组合在一起计算为:
Figure BDA0002959309280000442
使用运算子oplus和otimes分别是logsumexp和普通求和,其中logsumexp被定义为:
Figure BDA0002959309280000443
可替代地,用于组合的运算可以是最大值和求和;可替代地,运算子可以是求和和乘法;可替代地,logsumexp操作可以并入锐化因子:
Figure BDA0002959309280000444
优选的是进行数值上更稳定但在其它方面等同的计算:
Figure BDA0002959309280000445
当有效的计算方法不可用时,目标函数可以通过数值技术或通过使用蒙特卡罗技术(Monte Carlo techniques)或低偏差序列的模拟来近似。
为了训练机器学习技术,需要将典型序列与来自代表性集合的每个读段相关。可以在训练过程中采用若干方法来鉴定碱基的基础典型序列。在大多数情况下,可以通过使用另外的信息(如与参考基因组的比较)来强化典型序列的鉴定。
例如,网络最初可以使用由小数量的独特DNA片段制备的链的读段来训练,对于所述片段来说典型序列是已知的,并且每个读段的起源可以由基本度量,例如总读段长度来推断。
可替代地,可以使用1D2测序方法使链与典型序列相关,其中互补链含有仅典型碱基、通过建立的方法对其进行碱基调用并且然后用于推断含有替代性碱基的链的典型序列。
可替代地,给定基本的碱基调用者,其功能足够好使得可以例如通过与参考基因组进行比对来鉴定链的序列,这些方法可以被“自举(boot strapped)”以在更多样化的训练集上训练更准确的碱基调用者。
可替代地,可以使用包括较低比例的替代性碱基(例如,较低百分比的每种碱基,和/或较少的所取代碱基)的链,使得其可以用不知道修饰的碱基调用者鉴定。然后可以使用所得经过训练的碱基调用者鉴定来自含有更高比例的替代性碱基的链的读段的典型序列,由此可以对另外的碱基调用者进行训练。这个过程可以随着增加替代性碱基的比例而重复,直到达到所期望的组成。
在已知替代性碱基的位置具有良好地面真值的情况下,出于公开的方法的目的,所述替代性碱基可以被视为典型碱基。在替代性碱基的取代在链到链的基础上变化的情况下,定制的典型序列可以用于训练集中的每个读段。
作为训练机器学习方法来估计典型序列的替代方案,可以训练机器学习方法来估计典型序列的编码。可替代地,可以训练碱基调用方法来估计相关序列,例如将从mRNA链获得的蛋白质产物的氨基酸序列。
所述方法可以包含测定原始聚合物或天然聚合物的序列,并且其中不调用天然修饰。所述方法的这一方面在待测序的链中存在碱基修饰但所期望的结果是典型碱基序列的情况下可能是有用的。
其中所述方法是有利的实例是用于组装大基因组的长链测序和在复杂重复区域上的解析。天然DNA含有不是典型碱基的碱基修饰,例如5-甲基-胞嘧啶或6-甲基-腺嘌呤,并且这些修饰的存在和位置可以因个体而异,并且实际上在同一个体内因细胞而异。目前,不可能使用如PCR等技术复制DNA的长片段,其合成了含有仅典型碱基的互补链,因此长片段的测序需要天然DNA作为输入。天然DNA含有许多替代性碱基,包含科学尚不知道其存在的碱基的可能性,因此所提出的技术对于改进所产生的典型序列的估计值是令人期望。
另外的实例将是用于表达研究的目的的RNA测序。虽然产生含有仅典型碱基的重复链是可能的,但是用于实现这一点的方法具有改变样品组成并且因此影响研究质量的偏倚。直接调用天然链的碱基是避免偏倚所期望的。
根据所使用的训练集的组成,经过训练的碱基调用方法隐含地并入关于可以存在于天然样品中的替代性碱基的类型及其可能出现的背景的知识,并且这个隐含的知识用于改进所作出的典型序列的估计值。隐含知识的效果可以通过训练集的性质来强化:例如,可以针对已知是可预测的修饰模式(例如,脊椎动物中的CpG的甲基化)的生物组来训练特异性碱基调用者。
用经过训练的碱基调用者(例如,神经网络中的激活模式)对中间计算的检查可以揭示网络正在哪里使用其关于替代性碱基的隐含知识并且因此用于推断其存在和位置。
如上所述,通过分析包括典型聚合物单元和非典型聚合物单元的聚合物或链,可以提高纳米孔测序的准确性。如下所述,使用机器学习改进碱基调用可以在进一步通过分析具有如所描述和所要求保护的典型聚合物单元和非典型聚合物单元的聚合物而改进。
在多肽的情况下,聚合物单元可以是天然存在的或合成的氨基酸。
在多糖的情况下,聚合物单元可以是单糖。
特别是在测量系统2包括纳米孔且聚合物包括多核苷酸的情况下,多核苷酸可以是长的,例如至少5kB(千碱基),即至少5,000个核苷酸;或至少30kB(千碱基),即至少30,000个核苷酸;或至少100kB(千碱基),即至少100,000个核苷酸。
测量系统2的性质和所得测量结果如下。
测量系统2是包括一个或多个纳米孔的纳米孔系统。在简化类型中,测量系统2仅具有单个纳米孔,但是更实际的测量系统2通常在阵列中采用许多纳米孔,以提供并行的信息收集。
通常通过纳米孔可以在聚合物相对于纳米孔易位期间获取测量结果。因此,连续测量结果源自聚合物的连续部分。
纳米孔是通常具有纳米级大小的孔,其可以允许聚合物通过其中。
可以测量取决于相对于孔易位的聚合物单元的性质。所述性质可能与聚合物和孔之间的相互作用相关。这种相互作用可以发生在孔的收缩区域。
纳米孔可以是生物孔或固态孔。孔的尺寸可以使得一次仅有一种聚合物可以使孔易位。
孔可以是DNA折纸孔,如在WO2013/083983中所描述。
在纳米孔是生物孔的情况下,其可以具有以下性质。
生物孔可以是跨膜蛋白孔。根据本发明使用的跨膜蛋白孔可以源自β-桶孔或α-螺旋束孔。β-桶孔包括由β-链形成的桶或通道。合适的β-桶孔包含但不限于β-毒素,如α-溶血素、炭疽毒素和杀白细胞素;以及细菌的外膜蛋白/孔蛋白,如耻垢分枝杆菌孔蛋白(Msp),例如MspA、MspB、MspC或MspD、胞溶素、外膜孔蛋白F(OmpF)、外膜孔蛋白G(OmpG)、外膜磷脂酶A和奈瑟氏球菌自转运蛋白(NalP)。α-螺旋束孔包括由α-螺旋形成的桶或通道。合适的α-螺旋束孔包含但不限于内膜蛋白和α外膜蛋白,如WZA和ClyA毒素。跨膜孔可以源自Msp或来自α-溶血素(α-HL)。跨膜孔可以源自胞溶素。WO2013/153359中公开了源自胞溶素的合适的孔。WO-2012/107778中公开了源自MspA的合适的孔。孔可以源自如WO-2016/034591中所公开的CsgG。
生物孔可以是天然存在的孔或可以是突变孔。以下文献中描述了典型的孔:WO-2010/109197;Stoddart D等人,《美国国家科学院院刊(Proc Natl Acad Sci)》,12;106(19):7702-7;Stoddart D等人,《德国应用化学英文版(Angew Chem Int Ed Engl.)》2010;49(3):556-9;Stoddart D等人,《纳米快报(Nano Lett.)》2010年9月8日;10(9):3633-7;Butler TZ等人,《美国国家科学院院刊》2008;105(52):20647-52;和WO-2012/107778。
生物孔可以是WO-2015/140535中描述的一种类型的生物孔,并且可以具有其中所公开的序列。
可以将生物孔插入到如生物膜等两亲层中,例如脂质双层。两亲层是由如磷脂等两亲分子形成的层,其具有亲水性和亲脂性两者。两亲层可以是单层或双层。两亲层可以是Gonzalez-Perez等人,《朗缪尔(Langmuir)》,2009,25,10447-10450或WO2014/064444中所公开的共嵌段聚合物。可替代地,可以将生物孔插入到例如WO2012/005857中所公开的固态层中。
WO-2014/064443中公开了用于提供纳米孔阵列的合适的设备。纳米孔可以跨相应的孔提供,其中电极设置在每个相应的孔中,与ASIC电连接,以便测量流过每个纳米孔的电流。合适的电流测量设备可以包括如PCT专利申请第PCT/GB2016/051319号中所公开的电流感测电路。
纳米孔可以包括形成在固态层中的孔,其可以被称为固态孔。孔可以是固态层中提供的阱、间隙、通道、沟槽或狭缝,分析物可以通过或进入所述固态层。这种固态层不是生物来源的。换言之,固态层不是从生物环境(如生物体或细胞)或合成制造形式的生物学可用结构中产生的,也不是从其中分离出来的。固态层可以由有机材料和无机材料形成,所述材料包含但不限于:微电子材料、如Si3N4、A1203和SiO等绝缘材料、如聚酰胺等有机聚合物和无机聚合物、如Tefl
Figure BDA0002959309280000481
等塑料或如二组分加成固化的硅橡胶等弹性体、以及玻璃。固态层可以由石墨烯形成。WO-2009/035647、WO-2011/046706或WO-2012/138357中公开了合适的石墨烯层。WO-2016/187519中公开了制备一排固态孔的合适方法。
这种固态孔通常是固态层中的孔。可以通过化学方法或其它方式对孔进行改性,以增强其作为纳米孔的性质。固态孔可以与提供聚合物的替代性或另外的测量结果的另外的组分结合使用,如通道电极(Ivanov AP等人,《纳米快报》2011年1月12日;11(1):279-85),或场效应晶体管(FET)装置(如在WO-2005/124888中所公开的)。可以通过已知方法形成固态孔,所述已知方法包含例如WO-00/79257中描述的方法。
在一种类型的测量系统2中,可以使用流过纳米孔的离子电流的测量结果。这些或其它电测量可以使用标准单通道记录设备来进行,如下所述:Stoddart D等人,《美国国家科学院院刊》,12;106(19):7702-7;Lieberman KR等人,《美国化学会志(J Am Chem Soc.)》2010;132(50):17961-72,以及WO-2000/28312。可替代地,电测量可以使用例如如WO-2009/077734、WO-2011/067559或WO-2014/064443中所描述的多通道系统来进行。
可以在膜或固态层的任一侧提供离子溶液,所述离子溶液可以存在于相应的隔室中。可以向膜的一侧添加含有感兴趣的聚合物分析物的样品并允许其相对于纳米孔移动,例如在电势差或化学梯度下。测量结果可以是在聚合物相对于孔移动期间获取的,例如在聚合物通过纳米孔易位期间获取的测量结果。聚合物可以部分地使纳米孔易位。
为了在聚合物易位通过纳米孔时进行测量,可以通过聚合物结合部分控制易位速率。通常,所述部分可以使聚合物与施加的场一起或相对于施加的场移动通过纳米孔。所述部分可以是分子马达,在所述部分是酶的情况下,所述分子马达使用例如酶活性或作为分子刹车。在聚合物是多核苷酸的情况下,提出了许多用于控制易位速率的方法,包含使用多核苷酸结合酶。用于控制多核苷酸易位速率的合适的酶包含但不限于聚合酶、解旋酶、外切核酸酶、单链和双链结合蛋白以及拓扑异构酶(如旋转酶)。对于其它聚合物类型,可以使用与所述聚合物类型相互作用的部分。聚合物相互作用部分可以是以下文献中所公开的任何:WO-2010/086603、WO-2012/107778和Lieberman KR等人,《美国化学会志》2010;132(50):17961-72,并且用于电压门控方案(Luan B等人,《物理评论快报(Phys Rev Lett.)》2010;104(23):238103)。
可以以多种方式使用聚合物结合部分来控制聚合物运动。所述部分可以使聚合物与施加的场一起或相对于施加的场移动通过纳米孔。所述部分可以用作分子马达,在所述部分是酶的情况下,所述分子马达使用例如酶活性或作为分子刹车。可以通过控制聚合物通过孔的移动的分子制动器来控制聚合物的易位。分子制动器可以是聚合物结合蛋白。对于多核苷酸,多核苷酸结合蛋白优选地是多核苷酸处理酶。多核苷酸处理酶是能够与多核苷酸相互作用并且修饰其的至少一个性质的多肽。酶可以通过切割多核苷酸以形成单独的核苷酸或较短核苷酸链(如二核苷酸或三核苷酸)来修饰多核苷酸。所述酶可以通过将多核苷酸朝向或使其移动到特定位置来修饰多核苷酸。多核苷酸操作酶并不需要显示酶活性,只要其能够结合靶多核苷酸并且控制其移动通过孔即可。例如,可以对酶进行修饰以移除其酶活性或可以在防止其充当酶的条件下使用。下文更详细地论述了这种条件。
优选的多核苷酸处理酶是聚合酶、外切核酸酶、解旋酶和拓扑异构酶(如旋转酶)。核苷酸处理酶可以是例如WO-2015/140535或WO-2010/086603中描述的一种类型的多核苷酸处理酶。
聚合物通过纳米孔的易位可以按以下方式发生:顺式到反式或反式到顺式,与施加的电势一起或相对于施加的电势。可以在施加的电势下发生易位,所述施加的电势可以控制易位。
在双链DNA上逐渐或逐步起作用的外切核酸酶可以在孔的顺式侧使用,以在施加的电势下供给剩余的单链或在反向电势下供给反式侧。同样,使双链DNA解旋的解旋酶还可以以类似的方式使用。还存在需要抵抗所施加的电势的链易位的测序应用的可能性,但是DNA必须首先在相反或无电势下由酶“捕获”。随着电势随后在结合后转回,链将以顺式到反式的方式穿过孔并且通过电流保持处于延长的构型。单链DNA外切核酸酶或单链DNA依赖性聚合酶可以充当分子马达,所述分子马达将最近易位的单链以逐步受控方式(反式到顺式,相对于施加的电势)牵拉回孔中。可替代地,单链DNA依赖性聚合酶可以充当减慢多核苷酸通过孔的移动的分子刹车。可以使用WO-2012/107778或WO-2012/033524中描述的任何部分、技术或酶来控制聚合物运动。
然而,测量系统2可以是包括一个或多个纳米孔的替代性类型。
类似地,测量可以是除了离子电流测量之外的类型。替代性类型的测量的一些实例包含但不限于:电测量和光学测量。《美国化学会志》2009,1311652-1653中公开了涉及荧光测量的合适的光学方法。可能的电测量包含:电流测量、阻抗测量、隧穿测量(例如,如Ivanov AP等人,《纳米快报》2011年1月12日;11(1):279-85中所公开的)和FET测量(如在WO2005/124888中所公开的)。光学测量可以与电测量组合(Soni GV等人,《科学仪器综述(Rev Sci Instrum.)》2010年1月;81(1):014301)。测量结果可以是跨膜电流测量结果,如流过纳米孔的离子电流的测量结果。离子电流通常可以是DC离子电流,但是原则上替代方案使用AC电流(即,在施加AC电压下流动的AC电流的大小)。
在本文中,术语“k聚体”指代一组k聚合物单元,其中k是正的复数整数。在许多测量系统中,测量结果可以取决于聚合物的比单个聚合物单元长的部分,例如k聚体,但是测量所依赖的k聚体的长度可能是未知的。在许多情况下,由k聚体或具有不同同一性的聚合物部分产生的测量结果是不可分辨的。
在许多类型的测量系统2中,所述一系列测量结果可以被表征为包括来自一系列事件的测量结果,其中每个事件提供一组测量结果。来自每个事件的测量结果组具有类似的水平,但是存在一些差异。这可以被认为是噪声步波,其中每个步与事件相对应。
事件可以具有生物化学意义,例如由测量系统2的给定状态或相互作用引起。例如,在一些情况下,事件可以与聚合物的特定部分或k-聚体与纳米孔的相互作用相对应,在这种情况下,测量结果组取决于所述聚合物或k聚体的同一部分。在某些情况下,这可能是由于以制动方式发生的聚合物通过纳米孔的易位引起的。
在测量结果的采样率和信号上的噪声的限制内,状态之间的转换可以被视为是瞬时的,因此可以通过理想化的步轨迹来近似信号。然而,当易位率接近测量采样率(例如,以聚合物单元的易位率的1倍、2倍、5倍或10倍的速率获取测量结果)时,这种近似可能不如其用于更慢的测序速度或更快的采样率时那样适用。
另外,通常不存在组中测量结果的数量的先验知识,所述数量不可预测地变化。
这两个方差因素和缺乏对测量结果数量的了解可能使得难以区分一些组,例如在组是短的和/或两个连续组的测量结果水平彼此接近的情况下。
与每个事件相对应的测量结果组通常具有在事件的时间尺度上一致的水平,但是对于大多数类型的测量系统2将在短时间尺度上发生变化。
这种变化可能由测量噪声引起,例如由电路和信号处理产生,特别是在电生理学的特定情况下来自于放大器。由于测量小幅度的性质,这种测量噪声是不可避免的。
这种变化还可能由测量系统2的基础物理或生物系统中的固有变化或扩散引起,例如可能由聚合物的构型变化引起的相互作用的变化。
大多数类型的测量系统2将在更大或更小的程度上经历这种固有的变化。对于任何给定类型的测量系统2,两种变化源都可能有所贡献,或者这些噪声源中的一个可能占主导地位。
随着测序速率(即聚合物单元相对于纳米孔易位的速率)的增加,那么事件可能变得不那么明显,并因此更难鉴定或可能消失。因此,随着测序速率的增加,依赖于事件检测的分析方法可能变得更低效。
增加测量采样率可以补偿测量转换的困难性,但是这种更快的采样通常会带来信-噪-比的损失。
下文描述的方法即使在相对高的测序速率下也是有效的,所述相对高的测序速率包含:在所述测序速率下,所述一系列测量结果是以至少10个聚合物单元每秒(优选地100个聚合物单元每秒,更优选地500个聚合物单元每秒或更优选1000个聚合物单元每秒)的速率获取的一系列测量结果。
现在将考虑分析系统3。
在本文中,参考表示不同聚合物单元序列或聚合物单元序列不同变化的“后验概率”的后验概率向量和矩阵。后验概率向量和矩阵的值可以是实际概率(即,总和为一的值)或者可以是权重或加权因子,所述权重或加权因子不是实际概率但仍然表示后验概率。通常,在后验概率向量和矩阵的值表示为权重或加权因子的情况下,考虑到权重或加权因子的归一化,原则上可以从二者中测定概率。这种测定可以考虑多个时间步长。通过非限制性实例的方式,下文描述了被称为局部归一化和全局归一化的两种方法。
类似地,参考表示作为参考系列聚合物单元而被测量的所述一系列聚合物单元的概率的分数。以相同的方式,分数的值可以是实际概率或者可以是权重,所述权重不是实际概率但是仍然表示作为参考系列聚合物单元而被测量的所述一系列聚合物单元的概率。
分析系统3可以与测量系统2物理相关,并且还可以向测量系统2提供控制信号。在所述情况下,可以如WO-2008/102210、WO-2009/07734、WO-2010/122293、WO-2011/067559或WO2014/04443中任一个所公开的布置纳米孔测量和包括测量系统2和分析系统3的分析系统1。
可替代地,可以在单独的设备中实施分析系统3,在这种情况下,通过任何合适的装置(通常是数据网络)将所述一系列测量结果从测量系统2传送到分析系统3。例如,一种方便的基于云的实施方案是将分析系统3作为服务器,通过互联网向其提供输入信号11。
分析系统3可以由执行计算机程序的计算机设备实施,或者可以由专用硬件装置或其任何组合实施。在任一种情况下,所述方法使用的数据储存在分析系统3的存储器中。
在计算机设备执行计算机程序的情况下,计算机设备可以是任何类型的计算机系统,但通常是常规结构。可以用任何合适的编程语言编写计算机程序。计算机程序可以储存在任何类型的计算机可读存储介质上,例如:可插入到计算系统的驱动器中并且可以磁性地、光学地或光磁地储存信息的记录介质;计算机系统的固定记录介质,如硬盘驱动器;或计算机存储器。
在计算机设备由专用硬件装置实施的情况下,可以使用任何合适类型的装置,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
如下执行使用纳米孔测量和分析系统1的方法。
首先,使用测量系统2获取所述一系列测量结果。例如,使聚合物相对于孔(例如,通过孔)易位,并且在聚合物易位期间获取所述一系列测量结果。可以通过提供允许聚合物易位的条件使聚合物相对于孔易位,因此易位可以自发发生。
其次,分析系统3执行分析所述一系列测量结果的方法,现在将对其进行描述。首先将描述基本方法,并且然后对基本方法进行一些修改。
基本方法使用机器学习技术分析所述一系列测量结果,在此实例中,所述机器学习技术是递归神经网络。递归神经网络的参数在下文进一步描述的训练期间取值,并且因此递归神经网络不依赖于具有任何特定形式的测量结果或具有任何特定性质的测量系统2。例如,递归神经网络不依赖于取决于k-聚体的测量结果。
基本方法使用如下事件检测。
基本方法将输入处理为已经从根据自测量系统2的测量结果(原始信号)测定的一系列事件。因此,所述方法包括以下初始步骤:将所述一系列测量结果中的连续测量结果组鉴定为属于共同事件,并且从每个经过鉴定的测量结果组导出包括一个或多个特征量的特征向量,如下。
使用与WO 2015/140535中描述的方法相同的方法将原始样品分割成事件,但是不认为基本方法对确切的分割方法敏感。
然而,为了完整起见,下面参考图2描述可以应用的分割过程的概要。图2示出了包括所述一系列测量结果的原始信号20的曲线图,其具有步状“事件”行为、滑动的一对窗口22、示出局部峰值的根据原始信号20计算的一系列成对t统计量23、和阈值24(虚线)以及与峰相对应的事件边界集25。
连续测量结果组被鉴定为属于如下的共同事件。连续的一对窗口21在原始信号20上滑动,并且在每个位置处计算一个窗口21中的样品(测量结果)是否具有彼此不同的平均值的成对t统计量,从而给出一系列统计量23。利用针对阈值24的阈值化技术,对一系列统计量23中与初始原始信号20水平中的显著差异相对应的峰值23进行定位,所述显著差异被认为是事件边界25,然后利用标准峰值查找程序测定峰值23的位置,由此鉴定原始信号20的一系列测量结果中的事件。
通过从每个经过鉴定的测量结果组中导出描述其基本性质的一个或多个特征量集来总结每个事件。.可以使用的三个特征量的实例如下,并且在图3中示意性地示出:
·等级L:衡量事件平均电流的指标,通常是平均值,但可以是中位数或相关统计数据。
·变化V:样品远离中心水平的距离,通常是事件的标准偏差或方差。其它替代方案包含中位数绝对偏差或与中位数的平均偏差。
·长度(或停留)D:事件的持续时间,其可以是样品的数量,也可以是秒。
通常,可以导出并使用任何一个或多个特征量。一个或多个特征量包括特征向量。
与对噪声过程的任何分析一样,分割可能会出错。可能会遗漏事件边界,从而导致产生含有多个水平的事件,或者可能在不存在任何边界的情况下创建另外的边界。已经发现,过度分割、选择增加错误的边界而不是丢失真实的边界会导致更好的碱基调用。
通过如下递归神经网络对包括一个或多个特征量的特征向量进行操作。
基本方法的基本输入是与在分割期间发现的事件相对应的时序性特征向量集。大多数机器学习程序的标准做法是将输入特征归一化以帮助稳定和加速训练过程,但基本方法具有两个明显的差异:首先,由于存在重大异常事件,使用斯图登化(以平均数为中心且以标准偏差为刻度)而不是更常见的线性函数归一化(min-max scaling);第二个更重要的变化是,在每次读取的基础上进行所述缩放,而不是在所有训练数据上计算缩放参数然后进行修复。
也可以应用针对强化极值而设计的线性函数归一化的其它替代方案。这种方法的实例是线性函数归一化,在修剪完最低和最高x%的值后,或在基于中位数和中位数的绝对偏差进行缩放后,测定其参数。
偏离标准训练方案的原因是为了帮助将网络一般化为现场将遇到的装置之间的变化。虽然可以训练的读数量非常大,但时间和成本考虑意味着它们来自少量装置,并且因此训练运行条件表示外部可能遇到的一小部分。每次读取归一化有助于网络一般化,但是可能会降低准确性。
源自其它特征的第四个“增量(delta)”特征也用作基本方法的输入,其旨在表示相邻事件彼此之间的差异,并且因此指示是否存在真正的水平变化或者分割是否不正确。增量特征的确切描述在基本方法的不同实施方案之间有所不同并且下文列出了一些实施方案,但所述特征的意图保持不变。
·水平的绝对差,然后是归一化。
·水平的平方差,然后是归一化。
·水平的差异,然后是部分归一化(缩放但不居中)。
基本方法使用由具有子采样的多个双向递归层组成的深度神经网络。可以在分析系统3中实施的递归神经网络30的架构的概述在图4中示出并且如下布置,其突出了与使用HMM执行的分析不同的许多特征。
总的来说,递归神经网络30包括:窗口层32,其对输入事件执行窗口化;双向递归层34,其在前向和后向两个方向上迭代地处理其输入;前馈层35,其可以被配置为子采样层以减少递归神经网络30的维数;以及softmax层36,其使用softmax处理执行归一化以产生可解释为符号上的概率分布的输出。分析系统3进一步包含解码器37,递归神经网络30的输出被馈送到所述解码器并且其执行随后的解码步骤。
具体地,递归神经网络30接收输入特征向量31并将其传递通过窗口层32,所述窗口层对输入特征向量31进行窗口化以导出窗口化的特征向量33。窗口化的特征向量33被提供给多个双向递归层34的堆栈。因此,每个输入事件的影响在递归神经网络30中表示的模型的所有步中传播至少两次,其中第二次通过由第一次通知。这种双双向架构允许递归神经网络30以对HMM不可用的方式累积并传播信息。这样的一个结果是,递归神经网络30不需要迭代过程来将模型缩放到读段。
本实例中展示了两个双向递归层34(区分为34-1和34-2),并且每个都跟随有前馈层35(区分为35-1和35-2),但是通常可以存在任意多个双向递归层34和随后的前馈层35。
最终的前馈层35-2的输出被提供给产生表示后验概率的输出的softmax层36,所述后验概率被提供给解码器37。下文更详细地描述了这些后验概率的性质和解码器37的处理。
通过比较,可以以类似于神经网络的形式描述HMM 50,如图5所示。HMM 50包含输入单个事件,没有窗口和增量特征,并且包括:前向-后向层54,特征向量51被馈送到所述前向-后向层中并且其用紧密耦合的参数执行网络的前向和后向传递;添加组合层55,前向-后向层54的输出被馈送到所述添加组合层中,并且其通过对前向和后向通过的输出进行逐个元素的添加来执行子采样;归一化层56,其执行归一化以产生可解释为符号上的概率分布的输出;以及执行后续解码步骤的解码器57。
由于他们假设HMM 50的发射完全由隐藏状态描述,HMM 50不能接受加窗输入,也不能接受类似增量的特征,因为假设任意一个事件的输入与另一个给定的隐藏状态知识统计上独立(尽管任选地,可以通过使用如自回归HMM等扩展来放宽这种假设)。用于纳米孔序列估计问题的HMM不直接应用维特比算法来解码最可能的状态序列,而是通过前向-后向层52中的经典前向/后向算法来进行,以针对每个事件计算每个隐藏标记的后验概率,然后解码器57中的加法类似维特比的解码步骤测定隐藏状态。这一方法在文献中被称为后维特比并且往往会产生估计的序列,与维特比相比,所述方法正确分配更大比例的状态,但仍然形成一致的路径。
表1总结了在这一方法和基本方法中如何使用可比较层之间的关键差异,以提供HMM 50架构中的类似层类型与基本方法的比较,由此突出显示由基本方法中使用的神经网络层所给出的灵活性的增加。
表1:
Figure BDA0002959309280000581
虽然存在与事件相同数量的列输出,但假设用网络输入中的单个事件鉴定每列是不正确的,因为由于双向层的存在,每列的内容可能由整个输入事件集通知。输入事件与输出列之间的任何对应关系都是通过用训练集中的符号标记它们来实现的。
递归神经网络30的双向递归层34可以使用几种类型的神经网络单元,如下所述。单元类型分为两大类,取决于其是否是“递归的”。虽然非-递归单元独立地处理序列中的每个步,但是递归单元被设计成在序列中使用并且将状态向量从一个步传递到下一个步。为了示意性地示出非递归单元与递归单元之间的差异,图6示出了非递归单元61的非递归层60并且图7到9示出了相应非递归单元64到66的三个不同层62到64。在图6到9的每个图中,箭头示出了向量通过的连接,被分割的箭头是复制的向量并且被组合的箭头是串联的向量。
在图6的非递归层60中,非递归单元61具有不进行分割或串联的单独的输入和输出。
图7的递归层62是单向递归层,其中递归单元65的输出向量被分割并单向传递到递归层中的下一个递归单元65。
虽然图8和图9的双向递归层63和64本身不是分立单元,但其各自具有分别由更简单的递归单元66和67制成的重复单元状结构。
在图8的双向递归层中,双向递归层63由递归单元66的两个子层68和69组成,它们是具有与图7的单向递归层62相同的结构的前向子层68和具有与图7的单向递归层62相反的结构的后向子层69,好像时间被反转,从而将状态向量从一个单元66传递到前一单元66。前向子层68和后向子层69二者均接收相同的输入,并且其来自于对应单元66的输出被串联在一起以形成双向递归层63的输出。注意,前向子层68内的任何单元66与后向子层69内的任何单元之间不存在串联。
类似地,图9的替代性双向递归层64由递归单元67的两个子层70和71组成,它们是具有与图7的单向递归层62相同的结构的前向子层68和具有与图7的单向递归层62相反的结构的后向子层69,好像时间被反转。再次,前向子层68和后向子层69接收相同的输入。然而,与图8的双向递归层相反,前向子层68的输出是后向子层69的输入并且后向子层69的输出形成双向递归层64的输出(前向子层68和后向子层69可以反转)。
图9中所示的双向递归层的一般化将是由多个“前向”和“后向”递归子层组成的递归层的堆栈,其中每层的输出是下一层的输入。
图3的双向递归层34可以采用图8和9的双向递归层63和64中的任一个的形式。通常,图3的双向递归层34可以由非递归层(例如图6的非递归层60)或由单向递归层(例如图7的递归层62)代替,但通过使用双向递归层34实现了改善的性能。
现在将描述前馈层35。
前馈层35包括处理相应向量的前馈单元38。前馈单元38是经典神经网络中的标准单元,所述经典神经网络将仿射变换应用于输入向量并且然后逐元素地应用非线性函数。前馈层35均使用非线性函数的双曲正切,但是可以使用许多其它的,而在网络的整体精度上几乎没有变化。
如果步t处的输入向量是It,并且仿射变换的权重矩阵和偏差分别为A和b,则输出向量Ot为:
yt=AIt+b仿射变换
Ot=tanh(yt)非线性
最终前馈层35的输出被馈送到包括处理相应向量的softmax单元39的softmax层36。
softmax单元39的目的是将输入向量转换为可解释为输出符号上的概率分布的东西,与输出向量和符号的元素存在1:1的关联。将仿射变换应用于输入向量,然后逐个元素地对其取幂并进行归一化,使得其所有元素的总和为一。取幂保证所有条目都是正的,并且因此归一化产生了有效的概率分布。
如果步t处的输入向量是It,并且仿射变换的权重矩阵和偏差分别为A和b,则输出向量Ot为:
yt=AIt+b仿射变换
Figure BDA0002959309280000611
取幂
Ot=zt/1′zt归一化
其中1′是元素全部等于单位值的向量的转置,因此1′x只是所有元素x的(标量)和。
使用softmax层36在每个时间步长局部地使网络的输出归一化。可替代地,可以跨所有时间步长对递归神经网络30进行全局归一化,使得所有可能的输出序列的总和为一。全局归一化严格意义上比局部归一化更具表达性,并且避免了本领域中称为“标记偏差问题”的问题。
使用全局归一化优于局部归一化的优点类似于条件随机场(Lafferty等人,《条件随机场:分段和标记序列数据的概率模型(Conditional Random Fields:ProbabilisticModels for Segmenting and Labeling Sequence Data)》,《国际机器学习会议论文集(Proceedings of the International Conference on Machine Learning)》,2001年6月)具有优于最大熵马尔可夫模型(McCallum等人,《用于信息提取和分割的最大熵马尔可夫模型(Maximum Entropy Markov Models for Information Extraction andSegmentation)》,《ICML会议论文集(Proceedings of ICML)》,2000,591–598.斯坦福,加利福尼亚州,2000)的优点。标记偏差问题影响状态之间允许稀疏的转换矩阵的模型,如聚合物序列的扩展。
通过局部归一化,每个源状态的转换概率将被归一化为一,这导致具有最少可行转换的状态获得高分,即使它们与数据不匹配。这产生了选择具有少量可行转换的状态的偏差。
全局归一化通过在整个序列上进行归一化来缓解这个问题,从而允许不同时间处的转换相互交换。全局归一化对于避免均聚物和其它低复杂性序列的偏差估计特别有利,因为与其它序列相比,这些序列可具有不同数量的允许的转换(取决于模型,其可以更多或更少)。
非递归单元62和递归单元65到67独立地处理每个事件,但是可以由具有现在将描述的形式的长短期记忆单元代替。
长短期记忆(LSTM)单元在以下文献中被引入:Hochreiter和Schmidhuber,《长短期记忆(Long short-term memory)》,《神经计算(Neural Computation)》,9(8):1735–1780,1997。LSTM单元是一个递归单元,并且因此将状态向量从序列中的一步传递到下一步。LSTM基于单元是存储器单元的符号:将含有存储器内容的隐藏状态从一步传递到下一步,并通过一系列控制存储器更新的门来对所述隐藏状态进行操作。一个门控制是否擦除(遗忘)存储器的每个元素,另一个门控制是否由新值替换,并且最终门测定是否从存储器读取和输出。概念计算机存储器单元的二进制开/关逻辑门由S形函数产生的概念概率代替并且存储器单元的内容代表预期值,这使得存储器单元是可微分的。
首先描述了LSTM的标准实施方案,并且然后描述基本方法中实际使用的“窥视孔”修改。
标准LSTM如下。
与对LSTM单元的不同操作相关联的概率由以下方程组定义。将It设置为步t的输入向量,Ot为输出向量,并将由x指数化的仿射变换设置为具有偏差bx和分别用于输入和前一个输出的偏置矩阵WxI和WxO;_是非线性S形变换。
ft=_(WfIIt+WfOOt-1+bf)遗忘概率
ut=_(WuIIt+WuOOt-1+bu)更新概率
ot=_(WoIIt+WoOOt-1+bo)输出概率
给定上文定义的更新向量并设置运算符_表示逐元素(Hadamard)乘法,更新内部状态St和测定新输出的等式是:
vt=tanh(WvIIt+WvOOt-1+bv)用以下更新的值
St=St-1_ft+vt_ut更新存储器单元
Ot=tanh(st)_ot从存储器单元读取
窥视孔修改如下。
“窥视孔”修改(Gers和Schmidhuber,2000)为LSTM架构添加了一些另外的连接,所述架构允许遗忘概率、更新概率和输出概率“窥视”存储器单元的隐藏状态(或由其通知)。网络的更新等式如上所述,但将Px设置为长度等于隐藏状态的“窥”向量,概率向量的三个等式变为:
ft=_(WfIIt+WfOOt-1+bf+Pf_St-1)遗忘概率
ut=_(WuIIt+WuOOt-1+bu+Pu_St-1)更新概率
ot=_(WoIIt+WoOOt-1+bo+Po_St)输出概率
非递归单元62和递归单元65到67可以可替代地由具有如下形式的门控递归单元代替。
已经发现门控递归单元(GRU)运行起来更快,但最初发现其产生较差的精度。GRU的架构不像省去隐藏状态与输出之间的分离并且还结合“遗忘”和“输入门”的LSTM那样直观。
ot=_(WoIIt+WoSSt-1+bo)输出概率
ut=St-1_(WuIIt+WuSSt-1+bu)根据状态更新
vt=tanh(WvIIt+WvRut+bv)用以下更新的值
St=(1-ot)_St-1+ot_vt更新状态
HMM可以如下描述为神经单元。
尽管未在基本方法中使用,但为了完整性,本文描述了如何使用递归神经网络框架来描述前向(后向)HMM算法。显示了输出处于对数空间中的表单。HMM由其转换矩阵T和由_参数化的对数密度函数_描述。对数密度函数获取输入特征,并返回以隐藏状态为条件的那些特征的对数概率向量,函数的确切形式由参数_指定。
ot=_(It;_)长密度函数
et=exp_(St-1)指数化
ft=T′et转换
St=ot+log ft更新状态
如上所述,递归神经网络30产生表示提供给解码器37的后验概率的输出。在基本方法中,输出是多个后验概率向量,各自表示多个不同聚合物单元序列的后验概率。每个复数后验概率向量与相应经过鉴定的测量结果(事件)组相对应。
解码器37从后验概率向量导出一系列聚合物单元的估计值,如下所述。
复数后验概率向量可以被视为具有每个步的列的矩阵,每列是表示预定长度的k聚体的符号集上的概率分布并且任选地是表示不良数据的另外的符号(参见下文“如下所述处理不良事件”)。由于相邻步的k聚体将重叠,一个简单的解码过程(如“argmax”)在每步处选择具有最大概率的k聚体并连接结果将导致对基础模板DNA序列的较差估计值。存在用于找到使总得分最大化的状态的序列的好方法(例如维特比算法),所述总得分受限于可能发生的状态间转换的类型。
如果多个后验概率向量是矩阵,其中在步t处分配给状态j的概率是ptj并且存在用于从状态i移动到状态j的转换权重集_i_j,则维特比算法找到使得分最大化的状态的序列。
Figure BDA0002959309280000641
维特比算法首先从网络输出的开始到结束以迭代方式进行。取决于步i结束于状态j中,前向矩阵的元素fij表示状态的最佳序列的得分;如果步i处于状态j中,则后向矩阵的元素bij储存先前的状态。
f0s=0
Figure BDA0002959309280000642
bis=argmaxj_j_s+fi-1,j
可以通过找到前向矩阵的最后一列T的最大元素来测定最佳总得分;从网络输出的结束到开始迭代地进行寻找实现该分数的状态的序列。
sT=argmaxsfTs
Figure BDA0002959309280000643
转换权重定义允许的状态间转换,负无穷大的权重完全不允许转换并且负值可解释为抑制所述转换的惩罚。先前描述的“argmax”解码相当于将所有转换权重设置为零。在存在许多不允许的转换的情况下,通过以稀疏方式执行计算可以实质上改善运行时间,因此仅考虑允许的转换。
应用维特比算法后,用表示k聚体的状态标记网络的每个列输出(后验概率向量),并且这一状态集是一致的。通过符号表示的k聚体的序列的最大重叠形成模板DNA序列的估计值,转换权重确保重叠是一致的。最大重叠足以测定估计的DNA序列的片段,但是存在例如均聚物或重复二聚体的情况,其中重叠是模糊的并且必须使用先验信息来消除可能性的歧义。对于本纳米孔装置,将事件检测参数化以过度分割输入,并且因此在模糊情况下最可能的重叠是最完整的。
按如下方式处理不良事件。
在含有另外的符号的字母表上发出基本方法,所述符号经过训练以标记被认为对基础调用无有用信息的不良事件。使用如测定“不良”符号是否是分配给它的概率最高的符号等过程,或者通过分配的概率的阈值将事件被标记为不良并且从输出中移除相应的列。从其余列中移除不良符号,并然后将所述不良符号单独地重新归一化,以便在剩余符号上形成概率分布。然后如上所述进行解码。
使用本身常规的技术并使用已知聚合物的一系列测量结果形式的训练数据来训练递归神经网络以用于特定类型的测量系统2。
现在将描述对基本方法的一些修改。
第一种修改涉及省略事件调用。必须将信号显式地分段为事件会导致基础调用出现许多问题:由于不正确的分段而导致事件被遗漏或过度调用,可检测的事件边界类型取决于已指定的过滤器,用于表示每个事件的汇总统计量的形式是预先指定的,并且关于事件调用的不测定性的信息不会传播到网络中。随着测序速度的增加,具有单个水平的事件的概念变得不健全,由于使用积分放大器,信号变得模糊,许多样品跨越多个水平,因此可以使用不同的方法来根据原始信号寻找替代性信息性特征。
因此,第一种修改是省略事件调用,并相反在一系列测量结果的连续窗口中对连续测量结果执行卷积以导出关于每个窗口的特征向量,不论在一系列测量结果中可能明显的任何事件。然后,递归神经网络使用所述机器学习技术对特征向量进行操作。
因此,固定长度的测量结果窗口(可能重叠)被处理成包括多个特征量的特征向量,然后通过递归神经网络和相关联的解码器将所述多个特征量进行组合以产生聚合物序列的估计值。因此,与相应测量结果或相应预定数量测量结果的组相对应的输出后验概率矩阵取决于网络中的下采样的程度。
图10示出了第一种修改的实例。具体地,图10示出了包括一系列测量结果的原始信号20的曲线图以及可以布置在上述递归神经网络30前面的输入级80。
输入级80将重叠窗口81中的测量结果馈送到特征检测器单元82中。因此,由特征检测器单元82在固定长度窗口中处理原始信号20,以产生针对每个窗口的特征的特征向量,所述特征采用与上述形式相同的形式。每个窗口使用相同的特征检测单元。将产生的一系列特征向量顺序地馈送到如上所述布置的递归神经网络30中以产生序列估计值。
特征检测器单元82与递归神经网络30一起进行训练。
在特征检测器单元82中实施的特征检测器的实例是单层卷积神经网络,所述单层卷积神经网络由具有权重W和偏差b的仿射变换以及激活函数g定义。在本文中,It-j:t+k表示包括含有t-j到t+k测量结果的原始信号20的测量结果窗口,并且Ot是输出特征向量。
yt=AIt-j:t+k+b仿射变换
Ot=g(yt)激活
双曲正切是合适的激活函数,但是本领域已知更多的替代方案,包含但不限于:整流线性单元(ReLU)、指数线性单元(ELU)、softplus单元和S形单元。多层神经网络也可以用作特征检测器。
如上所述,直接卷积网络的缺点在于,原始信号中检测到的特征的确切位置存在依赖性,并且这也意味着对特征之间的间隔的依赖性。通过将由第一个卷积产生的特征向量的输出序列用作对输入的阶统计量起作用的第二个“合并”网络中的输入,可以减轻依赖性。
举例来说,在合并网络是单层神经网络的情况下,以下等式描述了输出如何与输入向量相关。将f设置为输入特征的指数,所以Af是特征f的权重矩阵,并且将S设置为返回其输入的部分或全部阶统计量的函数:
Figure BDA0002959309280000671
Ot=g(yt) 激活
这种层的一个有用的且计算上有效的实例是返回特征向量,所述特征向量与输入特征的数量相同,其元素是针对每个相应特征获得的最大值。将仿函数SM设置为仅返回最后阶统计量,作为其输入中获得的最大值,并且将Uf设置为完全由零而不是由其(f,1)元素处的单位值组成的(单列)矩阵:
Figure BDA0002959309280000672
Ot=yt 未应用激活
由于矩阵Uf非常稀疏,出于计算效率的原因,可以隐式地执行矩阵乘法:在本文中,∑fUfxf的作用是将输出特征向量的元素f设置为xf
可以仅针对每第n个位置(n的步幅)计算它们的输出并且因此对它们的输出进行下采样来执行卷积和/或合并。从计算角度来看,下采样可能是有利的,因为网络的其余部分必须处理更少的块(更快的计算)以实现类似的准确度。
添加卷积层的堆栈解决了上述许多问题:通过卷积学习的特征检测既可以作为纳米孔特有的特征检测器,也可以作为汇总统计,而无需对系统做任何另外的假设;特征不测定性通过不同特征的相对权重传递到网络的其余部分,并且因此进一步处理可以将这一信息考虑在内,从而导致更精确的预测和对不测定性的量化。
第二种修改涉及递归神经网络30的输出,并且可以任选地与第一种修改组合。
对在递归神经网络30中实施的基本方法的输出进行解码的可能问题是,一旦测定了通过k聚体的最高得分路径,聚合物序列的估计值仍然由重叠测定,并且这一过程可能是模糊的。
为了突出问题,考虑历史进程正在移动通过均聚物区域的情况:两个k聚体之间的所有重叠都是可能的,并且有几个重叠是可行的,例如,与长度为零个、一个或两个碱基的另外的序列片段相对应。依赖于k聚体的策略仅部分地解决了序列估计问题。
因此,第二种修改是修改表示提供给解码器37的后验概率的递归神经网络30的输出。具体地,通过放弃将解码假设为k聚体并且因此不输出表示多个不同聚合物单元序列的后验概率的后验概率向量,来解决模糊性。相反,存在输出后验概率矩阵,每个后验概率矩阵表示:就聚合物单元的与相应测量结果之前或之后的测量结果相对应的不同相应历史序列而言,聚合物单元的所述相应历史序列的多个不同变化的后验概率产生新的聚合物单元序列,如现在将描述的。
聚合物单元的历史序列是对于当前正在估计的序列具有历史意义的序列的可能同一性,并且新的聚合物单元序列是当前针对历史序列的不同可能变化估计的序列的可能同一性。导出了来自不同历史序列的不同变化的后验概率,并且因此形成了矩阵,空间中的一个维度代表历史序列的所有可能同一性而空间中的另一个维度代表所有可能的变化。
尽管使用术语“历史”,但是聚合物单元的历史序列与相应测量结果之前或之后的测量结果相对应,因为所述处理是有效可逆的并且可以沿着聚合物的任一方向进行。
可能考虑的可能变化是:
·从聚合物单元的历史序列的起点或末端移除单个聚合物单元,以及将单个聚合物单元添加到聚合物单元的历史序列的末端或起点。
·从聚合物单元的历史序列的起点移除两个或更多个聚合物单元,以及将两个或更多个聚合物单元添加到聚合物单元的历史序列的末端。
·空变化。
现在将更详细地考虑这一点。
第二种修改在本文中将被称为在递归神经网络30的输出级处实施“换能器”。一般而言,在每个步处对换能器的输入是含有表示后验概率的值的后验概率矩阵,其中位数可以是权重,每个权重与使用特定移动状态从特定历史状态移动相关联。第二预定矩阵指定给定源历史状态和移动状态的目的地历史状态。因此,在解码器37中实施的换能器的解码可以找到使权重最大化的每个步(历史状态,移动状态)的赋值,其取决于历史状态是一致的路径,一致性由允许移动的矩阵定义。
通过说明的方式,图11示出了如何以来自输入到递归神经网络30的特征向量31的后验概率矩阵40的形式生成输入到解码器36的递归神经网络的输出。图12展示了当历史状态的空间是3聚体并且移动状态42的空间是序列片段时,解码成历史状态41和移动状态42的元组的结果的实例。具体地,图12展示了四个连续的历史状态41和移动状态42,并且可以看出历史状态41如何根据由移动状态42表示的变化而变化。
第二种修改提供了超过基本方法的益处,因为在某些情况下历史状态41(在基本方法中被认为是单独的)对于一系列聚合物单元是模糊的,而移动状态42不是模糊的。通过说明的方式,图13示出了一些样品情况,其中仅考虑最高评分路径上的状态之间的重叠(类似于基本方法)导致对一系列聚合物单元的模糊估计值,而在第二种修改中使用的移动状态42的序列片段并不含糊。
可以用于解码的维特比算法的修改在下文中,但是为了清楚起见,我们首先考虑如何在softmax层56的输出处使用换能器以及它们的历史状态组41和移动状态42的可能样子的一些具体实例。
在换能器的一种用途中,所述历史状态集41是固定长度的短序列片段,并且移动状态是直到可能的不同固定长度的所有序列片段,例如,长度为三的片段和最多为二的片段分别表示每步的解码输入是大小为43v(1+4+42)的权重矩阵。历史状态41是{AAA,AAC,…TTT}并且移动状态42是{-,A,C,G,T,AA,…TT},其中“-”表示空序列片段。定义给定历史状态和移动状态对的目的地历史状态的矩阵可能如下所示:
Figure BDA0002959309280000701
注意,从特定历史状态41,可能存在给出相同目的地历史状态的若干个移动状态42。这是模糊性的表达,即移动状态42的知识解析换能器并将换能器与仅在历史状态集41上定义的或者在(源-历史-状态,目的地-历史-状态)的元组上定义的东西区分开来,其分别是有限状态机用语中的摩尔机器和粉状机器。不要求可以发射的最长可能序列片段的长度短于历史状态41的长度。
输入解码器37的后验概率矩阵可以通过较小的参数集测定,从而允许历史状态41的大小对于相同数量的参数而言相对较大,同时仍允许灵活发射组装最终调用的序列片段。
已证明有用的一个实例是:用单个权重表示使用与空序列片段相对应的移动的所有转换,并且所有其它转换具有仅取决于目的地历史状态的权重。对于长度为k且允许输出最多两个碱基的片段的历史状态空间,这需要4k+1参数而不是上文定义的完整显式传感器的4Kv21。注意,换能器的这种形式仅部分地解决了换能器被设计移除的模糊性,在某些情况下仍然需要做出最大但不完全重叠的假设,因为分数是相同的;当在很少使用与长于一的序列片段相对应的移动状态时,在实践中出现的这种限制通常是足够的。
换能器的历史状态不必超过k聚体,并且可能超过其它符号集。一个实例可能是:区分特定碱基、嘌呤(A或G)或嘧啶(C或T)的信息是非常局部的,并且考虑不能区分某些碱基的较长历史可能是有利的。对于相同数量的历史状态,使用仅含有嘌呤和嘧啶的字母表的换能器可以具有两倍长的弦,因为4^k=2^2k。如果P表示嘌呤Y嘧啶,则定义给定历史状态和移动状态对的目的地历史状态的矩阵可能如下所示:
Figure BDA0002959309280000711
换能器的历史状态41不必用历史序列的一个或多个片段来鉴定,并且有利的是让循环神经网络30在训练期间学习其自己的表示。给定指数化的历史状态集{S1,S2,…,SH}和序列片段集,移动状态是历史状态和序列片段的所有可能对。举例来说,序列片段的集合可以是{-,A,C,G,T,AA,…TT},并且因此移动状态的集合是{S1-,S1A,…,S1TT,S2-,S2A,…,SHTT}。如前所述,递归神经网络30在这些历史状态和移动状态上发射后验概率矩阵,每个条目表示通过发射特定序列片段从一个历史状态移动到另一个历史状态的后验概率。
在第二种修改中由解码器37执行的解码可以如下执行。在第一应用中,解码器可以从后验概率矩阵导出一系列聚合物单元的估计值,例如通过估计通过后验概率矩阵的最可能路径。估计值可以是一系列聚合物单元整体上的估计值。解码的细节如下。
可以一般地使用本领域中已知的任何方法,但是使用维特比算法的修改来将换能器的权重序列解码成最终序列是有利的。与标准的维特比解码方法一样,在前向传递期间建立回溯矩阵,并且这用于计算得到可能的最高分所采用的路径(将历史状态赋值给每个步),但传感器修改还需要一个另外的矩阵来记录实际用于沿着最高得分路径从一个历史状态转换到另一个历史状态的移动状态。
如果递归神经网络30在步i处输出的用于从历史状态g经由移动状态s的移动的权重是张量_ihs并且矩阵Tgs储存目的地历史状态,则维特比算法的前向迭代变为
f0h=0 初始化
Figure BDA0002959309280000721
Figure BDA0002959309280000722
Figure BDA0002959309280000723
经过修改的维特比的向后“解码”迭代从末端开始逐步进行。首先,根据最终得分向量测定最高得分路径的最后历史状态,然后使用回溯信息测定所述路径上的所有历史状态。一旦测定了步t处的历史状态Ht,就可以测定移动状态Mt
HT=argmaxhfTh
Figure BDA0002959309280000724
Mt=et,Ht
由于每个移动状态具有作为序列片段的解释,因此可以通过连接这些片段来测定聚合物序列的估计值。由于只有移动状态对于解码是必需的,因此不需要显式地测定历史状态的序列。
在这种方法中,最可能路径的估计是利用后验概率矩阵,有效地从所有可能的系列中估计出得分最高的系列,其表示聚合物的聚合物单元系列作为聚合物单元的参考系列的概率。这在概念上可以被认为是将所有可能的系列作为参考进行评分,尽管在实践中维特比算法避免实际上对每一个进行评分。更一般地,解码器37被布置成执行其它类型的分析,所述分析类似地涉及利用后验概率矩阵关于聚合物单元的一个或多个参考系列产生得分,其中得分表示聚合物的聚合物单元的系列作为聚合物单元的参考系列的概率。这种评分能够实现几种其它应用,例如如下。在以下应用中,聚合物单元的参考系列可以储存在存储器中。其可以是已知聚合物的聚合物单元的系列和/或源自文库或通过实验获得。
在第一替代方案中,解码器36可以通过选择最可能对应于所述一系列后验概率矩阵的一组多个参考系列聚合物单元中的一个来总体上导出所述一系列聚合物单元的估计值,例如基于对参考系列的后验概率矩阵的评分。
在第二替代方案中,解码器36可以导出聚合物的聚合物单元的系列与聚合物单元的参考系列之间的差异的估计值。这可以通过对所述参考系列的变化进行评分来完成。这有效地估计了通过估计与参考的差异的位置和同一性来获取测量结果的聚合物的系列。这种类型的应用可以用于例如鉴定已知类型的聚合物中的突变。
在第三替代方案中,估计值可以是所述一系列聚合物单元的部分的估计值。例如,可以估计所述一系列聚合物单元的部分是否为参考系列聚合物单元。这可以通过针对所述一系列后验概率矩阵的部分对参考系列进行评分来完成,例如使用合适的搜索算法。这种类型的应用可以用于例如检测聚合物中的标记物。
第三种修改也涉及递归神经网络30的输出,并且可以任选地与第一种修改组合。
在如上所述的分析系统3中实施的基本方法的一个局限是:依赖于递归神经网络30外部的解码器36将符号分配给递归神经网络30的输出的每列并然后从符号序列估计聚合物单元的系列。由于解码器36本身不是递归神经网络30的一部分,因此必须预先指定解码器,并且在不采用复杂策略的情况下,任何参数不能与网络的其余部分一起训练。另外,在基本方法中使用的维特比式解码器的结构规定了如何表示当前调用的历史并且约束了递归神经网络30自身的输出。
第三种修改解决了这些限制,并涉及将递归神经网络30的输出改变为自身输出关于聚合物单元的系列的连续聚合物单元的同一性的决策。在所述情况下,决策单向反馈到所述递归神经网络30中,优选地是单向的。由于决策被反馈到递归神经网络,其通知随后的输出决策。
这一修改允许将解码从解码器36移动到递归神经网络30中,从而使解码过程能够与递归神经网络30的所有其它参数一起被训练,并且因此被优化以使用纳米孔感测从测量结果中调用。所述第三种修改的另外的优点是,在训练期间学习由递归神经网络30使用的历史的表示,并因此适应于估计一系列测量结果的问题。通过将决策反馈到递归神经网络30,递归神经网络30可以使用过去的决策来改进对未来聚合物单元的预测。
若干种已知的搜索方法可以与所述方法结合使用,以便纠正稍后显示为不良的过去的决策。这种方法的一个实例是回溯,其中响应于递归神经网络30做出低评分决策,所述过程倒退几个步骤并尝试替代性选择。另一种这样的方法是波束搜索,其中保持高得分历史状态的列表,并且在每个步处使用递归神经网络30预测最佳聚合物单元的下一个聚合物单元。
为了说明如何执行解码,图14示出了在递归神经网络30的最终层中的第三种修改的实施,并且可以与图15进行比较,所述图示出了在实施如图4所示的基本方法时的递归神经网络30的最终层。图14和15中的每一个示出了最终双向递归层34,通过非限制性实例的方式,其具有图8中所示的递归单元66的结构。为简洁起见,在图14和15中未示出将递归单元66的输出与其隐藏状态在传递到下一个递归单元66之前组合在一起的线。
然而,图4中所示的递归神经网络30的最终前馈层35和softmax层36由决策层45代替,所述决策层输出关于聚合物单元的系列的连续聚合物单元的同一性的决策。决策层45可以由argmax单元46实施,其各自输出相应的决策。
决策的输出(即通过argmax单元46)按顺序地进行,并且通过在每步处附加新的片段来构建聚合物单元的系列的最终输出估计值。
与每个决策被反馈到递归神经网络30中的基本方法不同,在该示例中其被反馈到最终双向递归层34,具体地,进入前向子层68中(尽管其可以可替代地是向后子层69)。这允许通过已经产生的实际决策来通知前向子层68的内部表示。反馈的动机是:可能存在与输入特征兼容的几个序列并且对递归神经网络30的输出的直接后验解码产生这些序列的平均值,所述平均值可能不一致并因此通常更糟糕的是有助于其的任何个体。反馈机制允许递归神经网络30在正在进行的实际调用时调节其内部状态,并因此以更像维特比解码的方式挑选一致的单独系列。
所述处理是有效可逆的,并且可以沿聚合物的任一方向进行,并因此沿着递归神经网络30的任一方向进行。
可以通过将每个决策(被称为符号)传递到发射特定于每个符号的向量的嵌入单元47来执行反馈。
在每一步处,最低双向递归层34的输出被投影到输出空间中,所述输出空间的每个维度与一系列测量结果的片段相关联,然后在相应的argmax单元46中使用argmax解码来选择输出决策(关于片段的同一性)。然后通过嵌入单元47将决策沿着双向反馈到下一个重复单元66。每个可能的决策与嵌入空间中的向量相关联,并且与刚刚做出的决策相对应的向量与当前的递归单元66在输入到下一个递归单元66之前所产生的隐藏状态相结合。
通过将决策反馈到递归神经网络30中,递归神经网络30的内部表示由估计的序列片段的历史和测量结果两者来通知。反馈的不同公式将是使用单独的单向递归神经网络表示估计的序列片段的历史的情况,步处对所述递归神经网络的输入是决策的嵌入并且输出是每个决策的权重。然后在做出关于下一个序列片段的argmax决策之前,将这些权重与来自处理递归神经网络中的测量结果的权重组合。以这种方式使用单独的递归神经网络与以下文献中公开中的“序列转导”方法具有相似性:Graves,《递归神经网络的转导(SequenceTransduction with Recurrent Neural Networks)》,国际机器学习会议:表示学习研讨会(In International Conference on Machine Learning:Representation LearningWorkshop),2012,并且是第三种修改的特例。
对其中反馈决策嵌入的递归单元66的参数进行约束,使得其状态被分解为两个部分,所述两个部分的更新仅依赖于在最终双向递归层34之前的递归神经网络30上层的输出或嵌入的决策。
可以如下执行第三种修改的训练。
为了使递归神经网络30的输出与使用困惑度(或其它基于概率或基于熵的目标函数)的训练兼容,图14中所示的递归神经网络30可以通过添加softmax单元48来适应图16或17任一个所示的训练目的。softmax单元48将softmax仿函数应用于最终双向递归层34的输出(softmax单元如前所述,但不应用仿射变换)。然后通过元素49所示的困惑度对softmax单元48的输出进行训练。在图16的实例中,softmax单元48代替argmax单元46并且由softmax单元48输出的训练标记被反馈,而在图17的实例中,softmax单元48与argmax单元46平行布置并且由argmax单元46输出的决策被反馈。
softmax单元48不产生关于由argmax单元46制造的聚合物系列的片段的硬决策,而是产生可以被解释为聚合物系列的片段上的概率分布的输出,并因此可以通过困惑来训练所述输出。由于在softmax单元48中实施的softmax仿函数保持其输入级,因此所述单元的argmax与未被添加到递归神经网络30时所获得argmax的相同。即使训练了递归神经网络30,将softmax单元留在递归神经网络30中也是有利的,因为其提供了对决策的置信度。
递归神经网络30对其输出直到给定步的依赖性引起训练问题,因为导致任何步的输出决策改变的参数变化需要越过不可微分的边界并且优化可能是困难的。避免不可微分性问题的一种方法是:使用困惑度目标来训练递归神经网络30但假设调用在这一点之前是完美的,从而将训练标记馈送到嵌入单元47而不是本来可以做出的决策。如果序列片段调用正确,则以这种方式进行训练会产生一个表现良好的网络,但由于其没有经过从不良调用中恢复的训练,因此可能对错误非常敏感。
可以采用两阶段方法进行训练。首先,将训练标记被反馈到如上所述并在图16中示出的递归神经网络30中。其次,将所做出的实际调用反馈回来但仍然通过softmax单元48计算困惑度,如图17所示。这个两阶段过程的动机是:第一阶段为第二阶段找到良好的起始参数,由此减少由于上述不可微分性而导致训练陷入不良参数区域的可能性。
现在将通过以下非限制性实例进一步描述本发明。
实例
PCA连接的方案:
在从PCR测序试剂盒(SQK-PSK004)连接到PCA之前,对1000ng的靶DNA进行末端修复和dA加尾。
根据制造商的说明书进行所有反应和纯化;NEB用于末端修复和dA加尾并且ONT用于连接。
1x循环扩增的方案:
50ul反应由以下组成:250ng PCA连接的靶DNA、1x ThermoPol缓冲液(NEB)、200nM引物、400uM dNTP、0.1单位ul-1 9oNm聚合酶。
所使用的引物是牛津纳米孔的PCR测序试剂盒(SQK-PSK004)的WGP。
相应地循环;95℃持续45秒,56℃持续45秒,68℃持续35分钟。
扩增后,添加10单位的外切核酸酶I(NEB),并且然后将样品在37℃下温育另外的15分钟。
使用Beckman Coulters AgencourtAMPure XP珠粒(0.4x)纯化样品并且洗脱到30ul的TE中。
测序衔接子连接的方案:
将回收的扩增靶DNA在加载到R9.4.1流动池(FLO-MIN106)上之前与RAP、LLB和SQB进行混合。
按照制造商的说明书,使用牛津纳米孔的PCR测序试剂盒(SQK-PSK004)进行所有步骤。
实例1:
使用以上方案产生并扩增长度为大约3.6kb并且包括仅典型碱基或典型碱基和非典型碱基的混合物的多核苷酸链。
产生了仅由典型碱基G、T、A和C构成的对照链;参见图1和所附图例。产生了具有不同比例的非典型碱基的另外的测试链;参见图2-7和所附图例。
使对照链和测试链经受纳米孔测序。基于所获得的电流迹线,可以将经过修饰的链与对照链区分开;参见图11和12以及所附图例。
实例2:
使大肠杆菌文库经受两次单独的扩增:使用典型碱基G、T、A和C的一次扩增;以及使用非典型碱基的一次扩增。参见图9-10和所附图例。扩增在两种情况下都是成功的,这证明了使用非典型碱基扩增文库的能力。

Claims (42)

1.一种测定靶聚合物或其部分的序列的方法,所述靶聚合物或其部分包括聚合物单元,所述聚合物单元包括典型聚合物单元和非典型聚合物单元,所述方法包括:
获取与所述靶聚合物相关的信号的一系列测量结果,其中所述信号的测量结果取决于多个聚合物单元,并且其中所述靶聚合物的所述聚合物单元调制所述信号,并且其中非典型聚合物单元与对应典型聚合物单元不同地调制所述信号;
使用机器学习技术分析所述一系列测量结果,所述机器学习技术将非典型聚合物单元的测量结果归属于相应的对应典型聚合物单元的测量结果;以及
根据经过分析的一系列测量结果测定所述靶聚合物或其部分的序列。
2.根据权利要求1所述的方法,其中另外地或可替代地测定从所述分析中鉴定的非典型聚合物单元。
3.根据权利要求1或2所述的方法,其中所述靶聚合物包括两种或更多种类型的非典型聚合物单元,所述两种或更多种类型的非典型聚合物单元与两种或更多种类型的典型聚合物单元相对应。
4.根据前述权利要求中任一项所述的方法,其中测定非典型聚合物单元的同一性和序列位置。
5.根据前述权利要求中任一项所述的方法,其中所述靶聚合物包括与每种类型的典型聚合物单元相对应的非典型聚合物单元。
6.根据前述权利要求中任一项所述的方法,其中所述机器学习技术不测定聚合物单元是非典型聚合物单元还是对应典型聚合物单元。
7.根据权利要求1所述的方法,其中所述靶聚合物包括针对存在的一种或多种类型的非典型聚合物单元中的每一个的多个非典型聚合物单元。
8.根据权利要求1所述的方法,其中非典型聚合物单元可以与多于一个典型聚合物单元相对应。
9.根据前述权利要求中任一项所述的方法,其中所述靶聚合物包括大约50%的非典型聚合物单元。
10.根据权利要求1所述的方法,其中非典型聚合物单元是经过修饰的典型聚合物单元。
11.根据权利要求1所述的方法,其中所述非典型聚合物单元是天然修饰的。
12.根据前述权利要求中任一项所述的方法,其中所述一系列测量结果是在所述靶聚合物相对于纳米孔移动期间获取的。
13.根据前述权利要求中任一项所述的方法,其中所述测量结果是在所述靶聚合物易位期间指示流过所述纳米孔的离子电流的测量结果或所述纳米孔两端的电压的测量结果。
14.根据前述权利要求中任一项所述的方法,其中所述机器学习技术能够通过包括以下步骤的方法来训练:
提供包括非典型单元的多种靶聚合物,所述非典型单元已经在所述靶聚合物中的不同序列位置处取代等同的典型单元;
获取与所述靶聚合物相关的信号的一系列测量结果;
使用所述机器学习技术分析所述一系列测量结果;以及
估计聚合物训练链的对应典型聚合物单元。
15.根据前述权利要求中任一项所述的方法,其中所述机器学习技术是递归神经网络。
16.根据前述权利要求中任一项所述的方法,其中所述聚合物是多核苷酸,并且所述聚合物单元是核苷酸碱基。
17.根据前述权利要求中任一项所述的方法,其中所述一种或多种非典型碱基已经通过酶进行修饰。
18.根据权利要求1所述的方法,其进一步包括修饰典型聚合物以提供包括一种或多种不同类型的一种或多种非典型碱基的所述靶聚合物的步骤。
19.根据前述权利要求中任一项所述的方法,其中包括一种或多种不同类型的一种或多种非典型碱基的所述多核苷酸是通过使用聚合酶和一定比例的非典型碱基由所述多核苷酸的补体产生的。
20.根据前述权利要求中任一项所述的方法,其中所述多核苷酸是DNA。
21.根据前述权利要求中任一项所述的方法,其中所述多核苷酸相对于所述纳米孔的所述移动由酶控制。
22.根据权利要求21所述的方法,其中所述酶是解旋酶。
23.根据权利要求14所述的方法,其中多核苷酸训练链包括多于一种类型的非典型聚合物单元。
24.一种测定靶聚合物或其部分的共有序列的方法:
提供多种聚合物,其中所述聚合物包括典型聚合物单元和非典型聚合物单元,并且所述聚合物中的每种聚合物包括与所述靶聚合物的区域相对应的聚合物单元的区域;
分析与所述多种聚合物相关的信号的测量结果,其中测量结果取决于多个聚合物单元,并且其中所述靶聚合物的所述聚合物单元调制所述信号,并且其中非典型聚合物单元与对应典型聚合物单元不同地调制所述信号;以及
根据所述多种聚合物的经过分析的一系列测量结果测定共有序列。
25.根据权利要求24所述的方法,其中分析所述一系列测量结果包括机器学习技术,所述机器学习技术将非典型聚合物单元的测量结果归属于相应的对应典型聚合物单元的测量结果。
26.根据权利要求24所述的方法,其中从所述分析中鉴定的非典型聚合物单元另外地或可替代地保留非典型聚合物单元的测量结果作为相应的对应典型聚合物单元的测量结果。
27.根据权利要求24到26中任一项所述的方法,其中所述非典型核苷酸已经被引入到所述多核苷酸中以代替对应典型碱基。
28.根据权利要求24到26中任一项所述的方法,其中多核苷酸链中的一个或多个多核苷酸链各自包括四种或更多种不同类型的非典型碱基。
29.根据权利要求24到26中任一项所述的方法,其进一步包括将所述非典型碱基引入到所述多核苷酸链中的步骤。
30.根据权利要求25到29中任一项所述的方法,其中所述一系列测量结果是使用机器学习技术进行分析的,所述机器学习技术已经被训练成将与核苷酸区域中的一种或多种非典型碱基的存在相关的测量结果归属于等同区域的测量结果,除了其中所述一种或多种类型的非典型碱基已经被相应的一种或多种对应典型碱基替代并且其中提供所述共有序列的估计,其中所述一种或多种类型的非典型碱基被测定为其对应的一种或多种类型的典型碱基之外。
31.根据权利要求24到30中任一项所述的方法,其中将两种或更多种类型的非典型聚合物单元引入到所述多核苷酸链中的一个或多个多核苷酸链中。
32.根据权利要求24到31中任一项所述的方法,其中所述多核苷酸链中的每个多核苷酸链包括介于30%与80%之间的非典型聚合物单元。
33.根据权利要求24到31中任一项所述的方法,其中所述一系列测量结果是在所述聚合物单元相对于纳米孔移动期间获取的。
34.根据前述权利要求中任一项所述的方法,其中所述靶聚合物源自原始聚合物的模板或补体,并且所述靶聚合物的所述模板或所述补体具有与聚合酶填充的3'或5'连接,其中所述靶聚合物的所述模板、所述补体或所述聚合酶填充中的至少一个包括典型聚合物单元和非典型聚合物单元。
35.根据权利要求34所述的方法,其中根据前述权利要求中任一项所述的方法,其中所述非典型碱基非测定性地并入到靶聚合物中。
36.根据前述权利要求中任一项所述的方法,其中包括一种或多种不同类型的一种或多种非典型碱基的所述多核苷酸是通过使用聚合酶和一定比例的非典型碱基由所述多核苷酸的模板或补体产生的。
37.根据权利要求36所述的方法,其中所产生的多核苷酸通过两个发夹衔接子共价连接到所述对应的模板或补体,并且所得构建体是环状的。
38.根据权利要求37所述的方法,其中所述两个发夹衔接子是不对称的。
39.根据前述权利要求中任一项所述的方法,其中所述聚合物是多核苷酸,并且所述聚合物单元是核苷酸碱基,并且所述靶多核苷酸包括通过使用聚合酶和一定比例的非典型碱基由环状构建体产生的模板多核苷酸链的重复序列区段。
40.根据权利要求39所述的方法,其中所述靶多核苷酸包括模板多核苷酸链和补体多核苷酸的重复序列交替区段。
41.根据权利要求37所述的方法,其中所述靶多核苷酸是通过使用聚合酶和一定比例的非典型碱基由所述环状构建体产生的。
42.根据权利要求19所述的方法,其中所述补体通过以下中的至少一种制备:将衔接子共价连接到双链多核苷酸的相对端;以及分离所述双链多核苷酸以提供补体链,所述补体链各自包括在一端处的衔接子或在任一端处的衔接子。
CN201980057581.3A 2018-09-04 2019-09-04 用于测定聚合物序列的方法 Pending CN112703256A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1814369.3 2018-09-04
GBGB1814369.3A GB201814369D0 (en) 2018-09-04 2018-09-04 Method for determining a polymersequence
PCT/GB2019/052456 WO2020049293A1 (en) 2018-09-04 2019-09-04 Method for determining a polymer sequence

Publications (1)

Publication Number Publication Date
CN112703256A true CN112703256A (zh) 2021-04-23

Family

ID=63921006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980057581.3A Pending CN112703256A (zh) 2018-09-04 2019-09-04 用于测定聚合物序列的方法

Country Status (7)

Country Link
US (1) US20220213541A1 (zh)
EP (1) EP3847278A1 (zh)
JP (1) JP7408665B2 (zh)
KR (1) KR20210055690A (zh)
CN (1) CN112703256A (zh)
GB (1) GB201814369D0 (zh)
WO (1) WO2020049293A1 (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101680873A (zh) * 2007-04-04 2010-03-24 加利福尼亚大学董事会 使用纳米孔的组合物、设备、系统和方法
US20130327644A1 (en) * 2012-06-08 2013-12-12 Pacific Biosciences Of California, Inc. Modified base detection with nanopore sequencing
CN104321441A (zh) * 2012-02-16 2015-01-28 牛津楠路珀尔科技有限公司 聚合物的测量的分析

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6087099A (en) 1997-09-08 2000-07-11 Myriad Genetics, Inc. Method for sequencing both strands of a double stranded DNA in a single sequencing reaction
US6267872B1 (en) 1998-11-06 2001-07-31 The Regents Of The University Of California Miniature support for thin films containing single channels or nanopores and methods for using same
WO2000078668A1 (en) 1999-06-22 2000-12-28 President And Fellows Of Harvard College Control of solid state dimensional features
WO2005124888A1 (en) 2004-06-08 2005-12-29 President And Fellows Of Harvard College Suspended carbon nanotube field effect transistor
US20080113833A1 (en) 2006-11-15 2008-05-15 Francisco Fernandez Methods of playing soccer games
GB0713402D0 (en) 2007-07-11 2007-08-22 Cardiff & Vale Nhs Trust A method of diagnosing a condition using a neural network
EP2195648B1 (en) 2007-09-12 2019-05-08 President and Fellows of Harvard College High-resolution molecular graphene sensor comprising an aperture in the graphene layer
GB0724736D0 (en) 2007-12-19 2008-01-30 Oxford Nanolabs Ltd Formation of layers of amphiphilic molecules
JP2012516145A (ja) 2009-01-30 2012-07-19 オックスフォード ナノポア テクノロジーズ リミテッド ハイブリダイゼーションリンカー
GB0905140D0 (en) 2009-03-25 2009-05-06 Isis Innovation Method
CN102405410B (zh) 2009-04-20 2014-06-25 牛津楠路珀尔科技有限公司 脂质双层传感器阵列
BR112012005888B1 (pt) 2009-09-18 2019-10-22 Harvard College sensores de nanoporo de grafeno e método para avaliar uma molécula de polímero
KR101814056B1 (ko) 2009-12-01 2018-01-02 옥스포드 나노포어 테크놀로지즈 리미티드 생화학적 분석 기구
EP2580588B1 (en) 2010-06-08 2014-09-24 President and Fellows of Harvard College Nanopore device with graphene supported artificial lipid membrane
CN103392008B (zh) 2010-09-07 2017-10-20 加利福尼亚大学董事会 通过持续性酶以一个核苷酸的精度控制dna在纳米孔中的移动
KR101939420B1 (ko) 2011-02-11 2019-01-16 옥스포드 나노포어 테크놀로지즈 리미티드 돌연변이체 세공
EP3825687B1 (en) 2011-04-04 2024-06-05 President and Fellows of Harvard College Multi-nanopore sensor system and transduction elements for measurement of local electrical potential at the nanopores
IN2014DN00221A (zh) 2011-07-25 2015-06-05 Oxford Nanopore Tech Ltd
WO2013041878A1 (en) 2011-09-23 2013-03-28 Oxford Nanopore Technologies Limited Analysis of a polymer comprising polymer units
GB201120910D0 (en) 2011-12-06 2012-01-18 Cambridge Entpr Ltd Nanopore functionality control
CN112646019B (zh) 2012-04-10 2022-08-16 牛津纳米孔科技公开有限公司 突变胞溶素孔
US20140006308A1 (en) 2012-06-28 2014-01-02 Google Inc. Portion-by-portion feedback for electronic books
GB201313121D0 (en) 2013-07-23 2013-09-04 Oxford Nanopore Tech Ltd Array of volumes of polar medium
CN104936682B (zh) 2012-10-26 2017-12-15 牛津纳米孔技术公司 微滴界面
GB201403096D0 (en) 2014-02-21 2014-04-09 Oxford Nanopore Tech Ltd Sample preparation method
CN106255767A (zh) 2014-03-21 2016-12-21 牛津楠路珀尔科技有限公司 由多维测量分析聚合物
EP4053150A1 (en) 2014-09-01 2022-09-07 Vib Vzw Mutant csgg pores
GB201508669D0 (en) 2015-05-20 2015-07-01 Oxford Nanopore Tech Ltd Methods and apparatus for forming apertures in a solid state membrane using dielectric breakdown

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101680873A (zh) * 2007-04-04 2010-03-24 加利福尼亚大学董事会 使用纳米孔的组合物、设备、系统和方法
CN104321441A (zh) * 2012-02-16 2015-01-28 牛津楠路珀尔科技有限公司 聚合物的测量的分析
US20150057948A1 (en) * 2012-02-16 2015-02-26 Oxford Nanopore Technologies Limited Analysis of measurements of a polymer
US20130327644A1 (en) * 2012-06-08 2013-12-12 Pacific Biosciences Of California, Inc. Modified base detection with nanopore sequencing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JARED T SIMPSON,ET AL: ""D etecting DNADNADNA cytosine methylation using nanopore sequencing"", 《NATURE METHODS》, vol. 14, pages 409 *
JARED T SIMPSON,ET AL: "D etecting DNADNADNA cytosine methylation using nanopore sequencing", 《NATURE METHODS》, vol. 14, pages 409 *

Also Published As

Publication number Publication date
JP7408665B2 (ja) 2024-01-05
JP2021534831A (ja) 2021-12-16
GB201814369D0 (en) 2018-10-17
WO2020049293A1 (en) 2020-03-12
US20220213541A1 (en) 2022-07-07
EP3847278A1 (en) 2021-07-14
KR20210055690A (ko) 2021-05-17

Similar Documents

Publication Publication Date Title
CN110546655A (zh) 纳米孔测量结果的机器学习分析
US11959906B2 (en) Analysis of measurements of a polymer
JP2023126856A (ja) 機械学習技術を使用するナノ細孔シグナルの分析
CN111373051A (zh) 用于无扩增dna数据存储的方法、装置和系统
US9051609B2 (en) Biopolymer Sequencing By Hybridization of probes to form ternary complexes and variable range alignment
US20170096703A1 (en) Analysis of a polymer from multi-dimensional measurements
KR20190116297A (ko) Dna 데이터 저장을 위한 방법들 및 시스템들
CN110268474B (zh) 用于所存储的多核苷酸的取回的引物设计
US20180211001A1 (en) Trace reconstruction from noisy polynucleotide sequencer reads
CN110914911B (zh) 压缩分子标记的核酸序列数据的方法
CN110088840B (zh) 校正核酸序列读数的重复区域中的碱基调用的方法、系统和计算机可读媒体
WO2023094806A1 (en) Nanopore measurement signal analysis
CN112703256A (zh) 用于测定聚合物序列的方法
US20090171640A1 (en) Population sequencing using short read technologies
CN118120017A (zh) 纳米孔测量信号分析
Noakes Improving the Accuracy and Application of Nanopore DNA Sequencing
Horák Určování DNA sekvencí z Nanopore dat
Rand Methods for Analysis of Nanopore DNA Sequencing Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Cambridge County, England

Applicant after: Oxford nanopore Technology Public Co.,Ltd.

Address before: Oxford City, England

Applicant before: Oxford nanopore technology Co.

CB02 Change of applicant information