CN107109483B - 一种修饰模板双链多核苷酸的方法 - Google Patents

一种修饰模板双链多核苷酸的方法 Download PDF

Info

Publication number
CN107109483B
CN107109483B CN201580062575.9A CN201580062575A CN107109483B CN 107109483 B CN107109483 B CN 107109483B CN 201580062575 A CN201580062575 A CN 201580062575A CN 107109483 B CN107109483 B CN 107109483B
Authority
CN
China
Prior art keywords
leu
ala
gly
glu
val
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580062575.9A
Other languages
English (en)
Other versions
CN107109483A (zh
Inventor
詹姆斯·怀特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oxford Nanopore Technologies PLC
Original Assignee
Oxford Nanopore Technologies PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oxford Nanopore Technologies PLC filed Critical Oxford Nanopore Technologies PLC
Publication of CN107109483A publication Critical patent/CN107109483A/zh
Application granted granted Critical
Publication of CN107109483B publication Critical patent/CN107109483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/487Physical analysis of biological material of liquid biological material
    • G01N33/48707Physical analysis of biological material of liquid biological material by electrical means
    • G01N33/48721Investigating individual macromolecules, e.g. by translocation through nanopores
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/30Oligonucleotides characterised by their secondary structure
    • C12Q2525/301Hairpin oligonucleotides
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/60Detection means characterised by use of a special device
    • C12Q2565/607Detection means characterised by use of a special device being a sensor, e.g. electrode

Abstract

本发明涉及一种修饰模板双链多核苷酸的方法,特别是使用纳米孔测序进行表征的方法。该方法从模板产生多个经修饰的双链多核苷酸。然后可以表征这些经修饰的多核苷酸。

Description

一种修饰模板双链多核苷酸的方法
技术领域
本发明涉及一种修饰模板双链多核苷酸的方法,特别是使用纳米孔测序进行表征的方法。该方法从模板产生多个经修饰的双链多核苷酸。然后可以表征这些经修饰的多核苷酸。
背景技术
存在许多需要制备核酸库的商业情况。这通常使用转座酶来实现。根据用于制备所述库的转座酶,在能够使用所述库之前,例如在测序中,可能需要在体外修复转座事件。
目前需要在广泛的应用中快速且便宜的多核苷酸(例如DNA或RNA)测序和鉴定技术。现有技术是缓慢且昂贵的,主要是因为它们依赖于扩增技术来生产大量的多核苷酸,并且需要大量专门的荧光化学品用于信号检测。
跨膜孔(纳米孔)具有作为聚合物和各种小分子的直接电生物传感器的巨大潜力。特别是,最近已经重点将纳米孔作为潜在的DNA测序技术。
当跨纳米孔施加电位时,当诸如核苷酸等的分析物瞬间驻留在桶中达一段时间时,存在电流的变化。核苷酸的纳米孔检测给出了已知识别标识(signature)和持续时间的当前的变化。在链测序方法中,单个多核苷酸链通过孔,得到核苷酸的身份。链测序可涉及使用多核苷酸结合蛋白质来控制多核苷酸通过孔的运动。
发明内容
发明人惊奇地证明可以修饰模板双链多核苷酸以产生多个更短的经修饰的双链多核苷酸。经修饰的双链多核苷酸可以包括例如发夹环或单链前导序列。这些修饰可以被设计成使得经修饰的双链多核苷酸各自比原始模板多核苷酸更容易表征,例如通过链测序。经修饰的多核苷酸的随后的表征允许更容易确定模板多核苷酸的特征。
本发明的修饰方法使用MuA转座酶、MuA底物群和聚合酶,并总结在图1中。MuA底物包含相对链上的突出端和发夹环。MuA转座酶能够使模板多核苷酸片段化,并在两端产生具有突出端的片段。MuA转座酶还能够将底物在双链片段的一端或两端连接到突出端。没有突出端的底物的链通常用突出端连接到片段的链上。这在所得双链构建体中留下单链间隙。双链构建体还具有在与间隙相对的链上的发夹环。
该聚合酶能够使用包含发夹环的链作为模板并且移位含有单链间隙的链。所得的双链构建体含有包含模板多核苷酸的片段的两条互补链。该构建体中的两条链可以分离,并优选同时用作模板,以产生包含模板多核苷酸的片段的两个双链构建体,其中两条链通过发夹环连接。
因此,本发明提供了一种修饰模板双链多核苷酸的方法,其包括:
(a)使模板多核苷酸与MuA转座酶和双链MuA底物群接触,双链MuA底物群中的每个包括(i)至少一个突出端和(ii)与包括至少一个突出端的链相对的链中的至少一个发夹环,使得转座酶将所述模板多核苷酸片段化并将底物连接到双链片段的一端或两端,并且从而产生多个片段/底物构建体;
(b)使所述片段/底物构建体与聚合酶接触,使得所述聚合酶置换包括突出端的链,并用与包括发夹环的链互补的链替换它们,从而产生多个双链构建体,每个所述双链构建体包括模板多核苷酸的双链片段;和
(c)分离双链构建体的两条链,并使用所述链作为模板以形成多个经修饰的双链多核苷酸,每个所述经修饰的双链多核苷酸包括由至少一个发夹环连接的两条互补链。
本发明还提供:
-使用本发明的方法制备的多个经修饰的双链多核苷酸;
-一种用于修饰模板多核苷酸的双链多核苷酸MuA底物群,其中所述底物如以上定义;
-一种表征使用本发明的方法修饰的至少一种多核苷酸的方法,其包括:
a)使经修饰的多核苷酸与跨膜孔接触,使得多核苷酸的至少一条链移动通过孔;和
b)当至少一条链相对于孔移动时获取一个或多个测量值,其中所述测量值指示所述至少一条链的一个或多个特征,并从而表征所述经修饰的多核苷酸;
-一种表征模板多核苷酸的方法,包括:
a)使用本发明的方法修饰模板多核苷酸,以产生多个经修饰的多核苷酸;
b)使每个经修饰的多核苷酸与跨膜孔接触,使得每个多核苷酸的至少一条链移动通过孔;和
c)当每个多核苷酸相对于孔移动时获取一个或多个测量值,其中所述测量值指示每个多核苷酸的一个或多个特征,从而表征模板多核苷酸;以及
-一种用于修饰模板双链多核苷酸的试剂盒,其包括(a)如以上定义的MuA底物群,(b)MuA转座酶和(c)聚合酶。
附图说明
图1示出了修饰模板双链多核苷酸(标记为a)的方法的卡通表示。步骤1涉及使模板双链多核苷酸与MuA转座酶(标记为b)以及双链MuA底物群(标记为c,双链MuA底物均含有5′发夹环)接触,使得MuA转座酶将模板双链多核苷酸片段化,并将MuA底物在分裂点的每一侧插入。步骤2涉及用聚合酶(标记为e)和dNTP处理模板链,dNTP替换标记为d的DNA片段并产生与DNA 5′发夹环互补的链。步骤3涉及对标记为f的双链DNA构建体的热处理,使得所述链变性成单链DNA(标记为g)。最后,步骤4涉及形成互补链的 DNA聚合酶。
图2示出了修饰实施例1中概述的模板双链多核苷酸(标记为a)的方法的卡通表示。步骤1涉及使模板双链多核苷酸与MuA转座酶(标记为b)以及双链MuA底物群(标记为 c,双链MuA底物均含有5′发夹环)接触,使得MuA转座酶将模板双链多核苷酸片段化,并将MuA底物在分裂点的每一侧插入。步骤2涉及用聚合酶(标记为e)和dNTP处理模板链,dNTP替换标记为d的DNA片段并产生对于DNA 5′发夹环的互补链。步骤3涉及标记为f的双链DNA构建体的热处理,使得所述链变性成单链DNA(标记为g)。步骤4涉及用形成互补链的DNA聚合酶进行的第二次处理。最后,步骤5涉及步骤4中产生的双链DNA 构建体的dA-拖尾(dA-tailing)、具有酶(标记为h)预先结合的适配器的连接,以及含有胆固醇系链(标记为j)的DNA链(标记为i)的杂交。这产生了在实施例1中描述的纳米孔系统中被测试的最终DNA构建体。
图3示出了当解旋酶(T4Dda-E94C/C109A/C136A/A360C(SEQ ID NO:24具有突变E94C/C109A/C136A/A360C))控制DNA样品6通过MspA纳米孔易位时的示例性电流迹线 (y轴坐标=电流(pA),x轴坐标=时间(s))。
图4示出了Agilent 12,000DNA芯片迹线。标记为1的线是未处理的MuA片段化DNA输入材料,标记为2的线是具有68℃培育步骤(在实施例1的1.2中)的分析物,并且随后经历了实施例1的步骤1.3的全部,标记为3的线在实施例1的步骤1.2中没有68℃培育但是经历了实施例1的步骤1.3的全部。区域X对应于双链DNA库,区域Y对应于Agilent 12,000 的上标记并且区域Z对应于Agilent 12,000芯片的下标记。
图5示出了修饰模板双链多核苷酸(标记为a)的优选方法的卡通表示。除了每个底物包含通过间隔基(spacer)(xxx;标记为h)与发夹环分离的前导序列(标记为i)之外,图5与图1相同。引导序列不用作模板,因为聚合酶(标记为e)不能移动通过间隔基。
图6示出了当解旋酶(T4Dda-E94C/C109A/C136A/A360C)控制DNA样品7通过MspA纳米孔易位时的示例性电流迹线(y轴坐标=电流(pA),x轴坐标=时间(s))。
图7示出了修饰模板双链多核苷酸(标记为a)的方法的卡通表示。步骤1涉及使模板双链多核苷酸与MuA转座酶(标记为b)以及双链MuA底物群(标记为C,其中双链MuA 底物均含有5′发夹环,其在替换G/C’s的发夹(标记为h并且显示为黑色圆圈)中含有I/Z′s) 接触,使得MuA转座酶将模板双链多核苷酸片段化,并将MuA底物在分裂点的每一侧插入。步骤2涉及用聚合酶(标记为e)和dNTP处理模板链,dNTP替换标记为d的DNA片段并产生对于DNA5′发夹环的互补链(产生的dsDNA标记为f)。由聚合酶形成的双链区域(标记为1X)由均能够形成发夹环的两条链组成。由链F2形成的发夹环具有比双链区域1X的 Tm更高的Tm,这是因为链F2的发夹环由C/T/A/G组成,并且双链区域1X是链f2杂交至链f1,其中链F1由Z/T/A/I组成(并且Z和I仅形成两个氢键,而C/G形成3个氢键)。因此,F2形成发夹环(标记为f2h),并且F1形成发夹环(标记为f1h),由链F1形成的发夹环具有比由链F2形成的发夹环更高的Tm。然后DNA聚合酶能够产生以虚线/点线显示的互补链(标记为i1和i2的整个dsDNA构建体)。因此,聚合酶能够形成互补链(如虚线/ 点线所示),而不需要加热在步骤2中产生的dsDNA(并且标记为f1,其与f2杂交)。
图8示出了本发明的优选方法的卡通表示。步骤1至4与图1中相同。步骤5涉及向图1中形成的构建体添加发夹环。步骤6涉及修饰的双链多核苷酸的热处理,使得所述链变性成单链构建体。最后,步骤7涉及形成互补链的DNA聚合酶。
序列表说明
SEQ ID NO:1示出了对MS-B1突变体MspA单体进行编码的密码子优化的多核苷酸序列。该突变体缺乏信号序列并且包括以下突变:D90N,D91N,D93N,D118R,D134R和 E139K。
SEQ ID NO:2示出了MspA单体的MS-B1突变体的成熟形式的氨基酸序列。该突变体缺乏信号序列并且包括以下突变:D90N,D91N,D93N,D118R,D134R和E139K。
SEQ ID NO:3示出了对α-溶血素-E111N/K147N(α-HL-NN;Stoddart等人,PNAS,2009; 106(19):7702-7707)的1种单体进行编码的多核苷酸序列。
SEQ ID NO:4示出了α-HL-NN的1种单体的氨基酸序列。
SEQ ID NO:5至7示出了MspB,C和D的氨基酸序列。
SEQ ID NO:8示出了对Phi29DNA聚合酶进行编码的多核苷酸序列。
SEQ ID NO:9示出了Phi29DNA聚合酶的氨基酸序列。
SEQ ID NO:10示出了由来自大肠杆菌的sbcB基因得到的密码子优化的多核苷酸序列。它编码来自大肠杆菌的核酸外切酶I酶(EcoExo I)。
SEQ ID NO:11示出了来自大肠杆菌的核酸外切酶I酶(EcoExo I)的氨基酸序列。
SEQ ID NO:12示出了由来自大肠杆菌的xthA基因得到的密码子优化的多核苷酸序列。它编码来自大肠杆菌的核酸外切酶III酶。
SEQ ID NO:13示出了来自大肠杆菌的核酸外切酶III酶的氨基酸序列。该酶在3′-5′方向上从双链DNA(dsDNA)的一条链进行5′单磷酸核苷的分布消化。链上的酶引发需要约4个核苷酸的5′突出端。
SEQ ID NO:14示出了由来自嗜热栖热菌(T.thermophilus)的recJ基因衍生的密码子优化的多核苷酸序列。它编码来自嗜热栖热菌的RecJ酶(TthRecJ-cd)。
SEQ ID NO:15示出了来自嗜热栖热菌的RecJ酶(TthReeJ-cd)的氨基酸序列。该酶在 5′-3′方向上从ssDNA进行5′单磷酸核苷的进行性消化(processive digestion)。链上的酶引发需要至少4个核苷酸。
SEQ ID NO:16示出了由噬菌体λexo(redX)基因衍生的密码子优化的多核苷酸序列。它编码细菌噬菌体λ核酸外切酶。
SEQ ID NO:17示出了细菌噬菌体λ核酸外切酶的氨基酸序列。所述序列是组装成三聚体的三个相同的亚基之一。该酶在5′-3′方向从dsDNA的一条链进行核苷酸的高度进行性消化(http://www.neb.com/nebecomm/products/productM0262.asp)。链上的酶引发优选需要约4 个具有5′磷酸的核苷酸的5′突出端。
SEQ ID NO:18示出了Hel308Mbu的氨基酸序列。
SEQ ID NO:19示出了He1308 Csy的氨基酸序列。
SEQ ID NO:20示出了He1308Tga的氨基酸序列。
SEQ ID NO:21示出了He1308Mhu的氨基酸序列。
SEQ ID NO:22示出了TraI Eco的氨基酸序列。
SEQ ID NO:23示出了XPD Mbu的氨基酸序列。
SEQ ID NO:24示出了Dda 1993的氨基酸序列。
SEQ ID NO:25示出了Trwc Cba的氨基酸序列。
SEQ ID NO:26至28示出了本发明优选的MuA底物的序列。
SEQ ID NO:29示出了实施例1中使用的多核苷酸序列。
SEQ ID NO:30示出了实施例1中使用的多核苷酸序列。该序列在其5′末端连接有下列多核苷酸序列——GATCU。
SEQ ID NO:31示出了实施例1中使用的肠杆菌噬菌体λ的多核苷酸序列。该序列包含连接在模板链5′末端的另外的12碱基突出端。此处示出的序列仅为模板链的序列(模板互补体未示出)。
SEQ ID NO:32示出了实施例1中使用的多核苷酸序列。
SEQ ID NO:33示出了实施例1中使用的多核苷酸序列。
SEQ ID NO:34示出了实施例1中使用的多核苷酸序列。
SEQ ID NO:35示出了实施例1中使用的多核苷酸序列。
SEQ ID NO:36示出了实施例2中使用的多核苷酸序列。
SEQ ID NO:37示出了实施例2中使用的多核苷酸序列。
具体实施方式
应当理解,所公开的产品和方法的不同应用可以根据本领域的具体需要进行调整。还应当理解,本文使用的术语仅用于描述本发明的具体实施方案的目的,而不是限制性的。
此外,除非另有明确规定,在本说明书和所附权利要求书中使用的单数形式“一个”,“一种”和“该”包括复数指示物。因此,例如,提及“一个多核苷酸”时包括“多个多核苷酸”,提及“一个底物”时包括两个或更多个这样的底物,提及“一个跨膜蛋白孔”时包括两个或更多个这样的孔,等。
本文引用的所有出版物、专利和专利申请,无论是上文还是下文中,均通过整体引用并入本文。
本发明的修饰方法
本发明提供了修饰模板多核苷酸的方法。可以为任何目的修饰模板。该方法优选用于修饰用于表征例如用于链测序的模板多核苷酸。模板多核苷酸通常是根据本发明最终将被表征或测序的多核苷酸。这将在下面更详细地讨论。
该方法涉及形成多个修饰的双链多核苷酸。这些修饰的双链多核苷酸通常比模板多核苷酸更容易表征,特别是使用链测序进行表征。所述多个修饰的双链多核苷酸自身可以被表征,以便于表征模板多核苷酸。例如,可以通过测序每个修饰的双链多核苷酸来确定模板多核苷酸的序列。
修饰的双链多核苷酸通常比模板多核苷酸短,因此使用链测序来表征它们是更容易的。修饰的双链多核苷酸还包括如下所述的信息量的两倍。
可以通过将标记包含在MuA底物中来选择性地标记修饰的双链多核苷酸。合适的标记包括但不限于校准序列,偶联部分和适配器结合的酶。
在一些实施方案中,该方法引入双链多核苷酸修饰中,这有助于使用链测序对其进行表征。众所周知,将多核苷酸偶联到含有纳米孔的膜中使得多核苷酸的量——允许其表征或测序所需的量——降低了几个数量级。这在申请号为PCT/GB2012/051191(公开为WO2012/164270)的国际申请中进行了讨论。本发明的方法允许生产多个双链多核苷酸,每个双链多核苷酸包括将多核苷酸偶联到膜上的装置。这将在下面更详细地讨论。
使用纳米孔表征双链多核苷酸通常需要存在设计成优先螺旋进入纳米孔的前导序列。本发明的方法允许生产多个双链多核苷酸,每个双链多核苷酸包括单链前导序列。这将在下面更详细地讨论。
还已经确定的是,通过诸如发夹环的桥接部分连接双链多核苷酸的两条链使得所述多核苷酸的两条链通过纳米孔进行表征或测序。这是有利的,因为它使得从单个双链多核苷酸获得的信息量加倍。此外,由于模板互补链中的序列必然与模板链的序列正交,所以来自两条链的信息可以进行信息组合。因此,该机制提供了正交校验能力,提供更高置信度观察结果。这在申请号为PCT/GB2012/051786(公开为WO 2013/014451)的国际申请中进行了讨论。本发明的方法允许产生多个修饰的双链多核苷酸,其中每个多核苷酸的两条链使用发夹环连接。
模板多核苷酸
本发明的方法修饰模板双链多核苷酸,优选用于表征。模板多核苷酸通常是根据本发明最终将被表征或测序的多核苷酸。它也可以称为目标双链多核苷酸或感兴趣的双链多核苷酸。
多核苷酸,例如核酸,是包含两个或多个核苷酸的大分子。多核苷酸或核酸可以包含任何核苷酸的任何组合。核苷酸可以是天然存在的或人造的。多核苷酸中的一个或多个核苷酸可被氧化或甲基化。多核苷酸中的一个或多个核苷酸可被损坏。例如,多核苷酸可以包含嘧啶二聚体。这种二聚体通常与紫外线的损伤相关,并且是皮肤黑色素瘤的主要原因。可以修饰多核苷酸中的一个或多个核苷酸,例如用标记或标签进行修饰。合适的标记如下所述。多核苷酸可以包含一个或多个间隔基。
核苷酸通常含有核碱基、糖和至少一个磷酸基团。核碱基和糖形成核苷。
核碱基通常是杂环的。核碱基包括但不限于嘌呤和嘧啶,并且更具体地包括腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、尿嘧啶(U)和胞嘧啶(C)。
糖通常是戊糖。核苷酸糖包括但不限于核糖和脱氧核糖。糖优选为脱氧核糖。
多核苷酸优选包含以下核苷:脱氧腺苷(dA)、脱氧尿苷(dU)和/或胸苷(dT),脱氧鸟苷(dG)和脱氧胞苷(dC)。
核苷酸通常是核糖核苷酸或脱氧核糖核苷酸。核苷酸通常含有一磷酸盐、二磷酸盐或三磷酸盐。核苷酸可以包含多于三个的磷酸盐,例如4或5个磷酸盐。磷酸盐可以连接在核苷酸的5′或3′侧上。核苷酸包括但不限于腺苷单磷酸(AMP)、鸟苷单磷酸(GMP)、胸苷单磷酸(TMP)、尿苷单磷酸(UMP)、5-甲基胞苷单磷酸,5-羟甲基胞苷单磷酸、胞苷单磷酸(CMP)、环状腺苷单磷酸(cAMP)、环状鸟苷单磷酸(cGMP)、脱氧腺苷单磷酸(dAMP)、脱氧鸟苷单磷酸(dGMP)、脱氧胸苷单磷酸(dTMP)、脱氧尿苷单磷酸(dUMP)、脱氧胞苷单磷酸(dCMP)和脱氧甲基胞苷单磷酸。核苷酸优选地选自AMP,TMP,GMP,CMP, UMP,dAMP,dTMP,dGMP,dCMP和dUMP。
核苷酸可以是脱碱基的(即缺少核碱基)。核苷酸也可以缺少核碱基和糖(即C3间隔基)。
多核苷酸中的核苷酸可以以任何方式彼此连接。核苷酸通常通过其糖和磷酸酯基团连接,如核酸中一样。核苷酸可以通过其核碱基连接,如嘧啶二聚体中一样。
多核苷酸是双链的。多核苷酸的至少一部分优选是双链的。
多核苷酸可以是核酸,例如脱氧核糖核酸(DNA)或核糖核酸(RNA)。多核苷酸可以包含与DNA的一条链杂交的一条RNA链。多核苷酸可以是本领域已知的任何合成核酸,例如肽核酸(PNA)、甘油核酸(GNA)、苏糖核酸(TNA)、锁定核酸(LNA)或具有核苷酸侧链的其他合成聚合物。PNA骨架由通过肽键连接的重复的N-(2-氨基乙基)-甘氨酸单元组成。GNA骨架由通过磷酸二酯键连接的重复的二醇单元组成。TNA骨架由通过磷酸二酯键连接在一起的重复的苏糖组成。LNA由如上所述的核糖核苷酸形成,所述核糖核苷酸具有连接核糖部分中的2′氧和4′碳的额外的桥。
多核苷酸最优选为核糖核酸(RNA)或脱氧核糖核酸(DNA)。
多核苷酸可以是任何长度。例如,多核苷酸的长度可以是至少10个、至少50个、至少 100个、至少150个、至少200个、至少250个、至少300个、至少400个或至少500个核苷酸或核苷酸对。多核苷酸的长度可以是1000个或更多个核苷酸或核苷酸对、5000个或更多个核苷酸或核苷酸对或者100000个或更多个核苷酸或核苷酸对。
可以使用本发明研究任何数目的多核苷酸。例如,本发明可能涉及表征 2,3,4,5,6,7,8,9,10,20,30,51,100或更多个多核苷酸。如果两个或更多个多核苷酸被表征,它们可以是不同的多核苷酸或同一种多核苷酸的两个实例。
多核苷酸可以是天然存在的或人造的。例如,该方法可以用于验证制造的寡核苷酸的序列。该方法通常在体外进行。
模板多核苷酸通常存在于任何合适的样品中。本发明通常针对已知含有或怀疑含有模板多核苷酸的样品进行。或者,本发明可以针对样品进行,以确认一种或多种已知或预期在样品中存在的模板多核苷酸的身份。
样品可以是生物样品。本发明可以针对从任何生物体或微生物获得或提取的样品在体外进行。生物体或微生物通常是古菌、原核或真核的,并且通常属于五界之一:植物界,动物界,真菌界,原核生物界和原生生物界。本发明可以对从任何病毒获得或从提取的样品在体外进行。样品优选为流体样品。样品通常包括患者的体液。样品可以是尿液、淋巴、唾液、粘液或羊水,但优选为血液、血浆或血清。通常,样品是来源于人的,但是也可以来自另一种哺乳动物,例如来自商业养殖的动物如马、牛、绵羊或猪,或者还可以是宠物如猫或狗。或者,植物来源的样品通常从商业作物获得,例如谷物、豆类、水果或蔬菜,如小麦、大麦、燕麦、油菜、玉米、大豆、稻、香蕉、苹果、西红柿、土豆、葡萄、烟草、菜豆、扁豆、甘蔗、可可、棉花。
样品可以是非生物样品。非生物样品优选为流体样品。非生物样品的实例包括手术液,水如饮用水、海水或河水,以及实验室试验用试剂。
样品通常在用于本发明之前进行处理,例如通过离心,或通过穿过膜过滤掉不需要的分子或细胞例如红细胞。取样后可以立即测量样品。样品通常也可以在测定之前储存,优选低于-70℃。
MuA和条件
模板多核苷酸与MuA转座酶接触。这种接触在允许转座酶起作用的条件下进行,所述起作用即,将模板多核苷酸片段化并将MuA底物连接到片段的一端或两端。MuA转座酶可从例如Thermo Scientific(目录号F-750C,20μL(1.1μg/μL))购得。MuA转座酶将起作用的条件是本领域已知的。合适的条件在实施例中描述。
底物群
使模板多核苷酸与双链MuA底物群接触。双链底物是多核苷酸底物,并且可以由上述任何核苷酸或核酸形成。底物通常由与模板多核苷酸相同的核苷酸形成。
底物群通常是同源的(即通常含有多个相同的底物)。底物群可能是异源的(即可能包含多个不同的底物)。
用于MuA转座酶的合适底物是本领域已知的(Saariaho和Savilahti,NucleicAcids Research,2006;34(10):3139-3149和Lee和Harshey,J.Mol.Biol.,2001;314:433-444)。
每个底物通常包含提供其作为MuA转座酶底物的活性的双链部分。双链部分在每个底物中通常是相同的。底物群可以包括不同的双链部分。
每个底物中的双链部分通常长度为至少50个核苷酸对,例如至少55个,至少60个或至少65个核苷酸对。每个底物中的双链部分优选包含在每条链的3′端含有脱氧胞苷(dC)和脱氧腺苷(dA)的二核苷酸。dC和dA通常在双链部分的两条链中具有不同的取向,即在从5′到3′进行读取时,在3′端,一条链具有dC/dA,而另一条链具有dA/dC。
双链部分的一条链优选包含SEQ ID NO:26中所示的序列,双链部分的另一条链优选包含SEQ ID NO:27中所示的序列。
5′-GTTTTCGCATTTATCGTGAAACGCTTTCGCGTTTTTCGTGCGCCGCTTCA-3′(SEQ 26)
3′-CAAAAGCGTAAATAGCACTTTGCGAAAGCGCAAAAAGCACGCGGCGAAGT-5′(SEQ 27)
每个底物包括至少一个突出端。突出端通常是核苷酸突出端。在每个底物的一端或两端可能有突出端。如果每个底物中的双链部分包含与SEQ ID NO:27所示的序列杂交的SEQ ID NO:26所示的序列,则至少一个突出端优选在SEQ ID NO:27所示的序列的5′端。
每个底物可以包括两个突出端,即每个底物两端各一个。如果在底物的两端都存在突出端,则每个突出端通常在双链多核苷酸部分的不同链上。优选地,突出端位于双链部分的一条链的5′端。
每个底物优选包括仅一个突出端。该仅一个突出优选在双链部分的一条链的5′端。
突出端长度可以是至少3个、至少4个、至少5个、至少6个或至少7个核苷酸。突出端长度优选为5个核苷酸。
在优选的实施例中,底物的一条链包含SEQ ID NO:26中所示的序列,底物的另一条链包含SEQ ID NO:28中所示的序列(见下文)。
5′-GTTTTCGCATTTATCGTGAAACGCTTTCGCGTTTTTCGTGCGCCGCTTCA-3′(SEQ26)
3′-CAAAAGCGTAAATAGCACTTTGCGAAAGCGCAAAAAGCACGCGGCGAAGTCTAG-5′(SEQ 28)
所述底物群中的底物可以具有申请号为PCT/GB2014/052505的国际申请中公开的任何结构。
每个底物在与包含至少一个突出端的链相对的链中包含至少一个发夹环。发夹环通常不连接底物的两条链。发夹环可以是内部发夹环,即不在与包含至少一个突出端的链相对的链的末端。内部发夹环优选与间隔基相邻,在本发明的方法中使用的任何聚合酶不能移动经过该间隔基。间隔基可以位于发夹环的任一侧。可以使用以下讨论的任何间隔基,例如一个或多个iSpC3基团(即缺少糖和碱基的核苷酸)、一个或多个间隔基9(iSp9)基团或一个或多个间隔基18(iSp18)基团。内部发夹环优选与诸如硝基吲哚等的非天然核苷酸相邻,本发明方法中使用的任何聚合酶不能移动经过该核苷酸。可以使用以下讨论的任何不同的核苷酸种类。
发夹环优选位于与包含至少一个突出端的链的相对的链的端部处或该端部附近。如果距离与包含至少一个突出端的链相对的链的末端20个核苷酸或更少、15个核苷酸或更少、10 个核苷酸或更少或5个核苷酸或更少,则发夹环在与含至少一个突出端的链相对的链的端部附近。如果在形成链末端的干部分(杂交部分)的最后核苷酸之间存在20个或更少的核苷酸,则发夹环距离该链末端20个核苷酸或更少。发夹环优选在与包含至少一个突出端的链相对的链的末端。在每个底物的一端或两端可能存在发夹环。发夹环优选位于与至少一个突出端相对的底物末端。
发夹环通常是核苷酸发夹环。如果每个底物中的双链部分包含与SEQ ID NO:27中所示的序列杂交的SEQ ID NO:26中所示的序列,则至少一个发夹环优选在SEQ ID NO:26中所示序列的5′端。
每个底物可以包含两个发夹环,即每个底物的两条链中各一个或在每个底物两端各一个。如果在底物的两端存在发夹环,则每个发夹环通常位于双链多核苷酸部分的不同链上。发夹环优选位于双链部分的链的5′端。
每个底物优选包含仅一个发夹环。该仅一个发夹环优选在与包含至少一个突出端的链相对的链中。该仅一个发夹环优选位于与至少一个突出端相对的底物末端,并且在与包含至少一个突出端的链相对的链中。该仅一个发夹环优选在双链部分的一条链的5′端并且在与包含至少一个突出端的链相对的链中。
在一个优选的实施例中,每个底物包含在双链部分的一条链的5′端处的一个突出端和在双链部分的另一条链的5′端处的发夹环。在最优选的实施例中,底物的一条链包含SEQ ID NO:26中所示的序列,底物的另一条链包含SEQ ID NO:28中所示的序列(见上文),并且发夹环位于SEQ ID NO:26中所示序列的5′端。
可以使用本领域已知的方法设计合适的发夹环。发夹环可以是任何长度。发夹环的长度通常为110个或更少的核苷酸,例如100个或更少的核苷酸、90个或更少的核苷酸、80个或更少的核苷酸、70个或更少的核苷酸、60个或更少的核苷酸、50个或更少的核苷酸、40个或更少的核苷酸、30个或更少的核苷酸核苷酸、20个或更少的核苷酸或10个或更少的核苷酸。发夹环的长度优选为约1至110,2至100,5至80或6至50个核苷酸。
发夹环可以由任何上述的核苷酸形成。发夹环可以由与双链部分相同的核苷酸形成。发夹环优选由导致发夹环具有比双链部分更低的熔化温度(Tm)的核苷酸形成。可以使用常规技术测量熔化温度。如果双链部分包含RNA,则发夹优选由含有腺苷(A)、尿苷(U)、肌苷(I)和zebularine(Z)的核苷酸形成。如果双链部分包含DNA,则发夹优选由含有脱氧腺苷(dA)、胸苷(dT)、脱氧肌苷(dI)和脱氧zebularine(dZ)的核苷酸形成。用肌苷(I)/脱氧肌苷(dI)代替鸟苷(G)/脱氧鸟苷(dG)以及用zebularine(Z)/脱氧zebularine (dZ)取代胞苷(C)/脱氧胞苷(dC))相比于双链部分降低了发夹的Tm。I/dI和Z/dZ仅形成两个氢键,而G/dG和C/dC形成三个氢键。在本发明的方法中,聚合物用与包含发夹环的链互补的新链取代突出链。具有较低Tm的发夹环可用于形成具有较高Tm的互补的发夹,即由具有较高Tm的核苷酸形成的发夹。聚合酶可以用与包含发夹环的链互补的新链取代突出链,其中新链包含具有比模板链中发夹环更高的Tm的发夹环。例如,由含有腺苷(A)/ 脱氧腺苷(dA)、尿苷(U)/胸苷(dT)、肌苷(I)/脱氧肌苷(dI)和zebularine(Z)/ 脱氧zebularine(dZ)的核苷酸形成的发夹环可以用于形成互补的RNA或DNA发夹环。两个发夹之间的Tm差异意味着它们作为个体发夹比杂交在一起时更稳定。这意味着两个发夹环形成它们各自的环,而不是杂交在一起。这有助于所述方法的最后一步,其中双链构建体的两条链分离并用作模板以形成多个修饰的双链多核苷酸,每个修饰的双链多核苷酸包含由至少一个发夹环连接的两条互补链。例如,分离可以在室温下进行。
每个底物可以包含可选择的结合部分。如果存在,可选择的结合部分优选在发夹环中。可选择的结合部分是可以基于其结合性质而选择的部分。因此,可选择的结合部分优选是特异性结合至表面的部分。如果可选择的结合部分以比在本发明中使用的任何其它部分以大得多的程度结合到表面,则可选择的结合部分特异性地结合到表面。在优选的实施方案中,该部分结合到没有其它本发明中使用的部分结合的表面。
合适的选择性结合部分是本领域已知的。优选的选择性结合部分包括但不限于生物素、核酸序列、抗体、抗体片段,例如Fab和ScSv、抗原、核酸结合蛋白、多组氨酸尾部和GST标签。最优选的选择性结合部分是生物素和可选择的核酸序列。生物素特异性结合到包被有抗生物素蛋白的表面。可选择的核酸序列特异性结合(即杂交)到包被有同源序列的表面。或者,可选择的核酸序列特异性结合包被有核酸结合蛋白的表面。
每个底物可以包含前导序列。前导序列通常与至少一个发夹环在同一条链上。前导序列通常位于与发夹环相同的底物末端。前导序列通常位于包含至少一个发夹环的链末端(即,发夹环位于末端前导序列和底物的其余部分之间)。前导序列通常通过间隔基与发夹环分离,在本发明的方法中使用的任何聚合酶不能移动通过该间隔基。可以使用以下任何间隔基,例如一个或多个iSpC3基团(即缺少糖和碱基的核苷酸)、一个或多个间隔基9(iSp9)基团或一个或多个间隔基18(iSp18)基团。间隔基意味着前导序列在步骤(b)和(c)中不用作模板,因此在方法结束时保持单链。这允许前导序列执行其功能。这样的一个例子在图5 中示出。
前导序列优先旋入孔中。前导序列有助于本发明的表征方法。前导序列被设计成优先旋入孔中,从而有助于多核苷酸通过孔的运动。前导序列也可以用于将多核苷酸连接到一个或多个锚,如下所述。前导序列通常包含聚合物。聚合物优选是带负电荷的。聚合物优选为多核苷酸,例如DNA或RNA,经修饰的多核苷酸(例如脱碱基DNA),PNA,LNA,聚乙二醇(PEG)或多肽。前导序列优选包含多核苷酸,更优选包含单链多核苷酸。前导序列可以包含任何上述的多核苷酸。单链前导序列最优选包含单链DNA,例如聚dT区段。前导序列优选包含一个或多个间隔基。
前导序列可以是任何长度,但是长度通常为10至150个核苷酸,例如长度为20至150 个核苷酸。前导序列的长度通常取决于方法中使用的跨膜孔。
片段化
转座酶将模板双链多核苷酸片段化,形成多个双链片段。转座酶还将底物连接到双链片段的一端或两端,从而产生多个片段/底物构建体。转座酶优选将底物连接到双链片段的两端,从而产生多个片段/底物构建体,其各自在两端具有发夹环。这样的一个例子可以在图1中看到。
聚合酶
由转座酶产生的片段/底物构建体与聚合酶接触。可以使用以下讨论的任何聚合酶。聚合酶优选为Klenow或9°North。聚合酶更优选为
Figure BDA0001297751970000111
Taq DNA聚合酶(可以从New England
Figure BDA0001297751970000112
Inc.购得),
Figure BDA0001297751970000113
High-Fidelity DNA聚合酶(可以从New EnglandBiolabs Inc.购得)或KAPAHiFi(可以从KAPABiosystems购得)。
在聚合酶可以置换突出的链并形成互补的多核苷酸的条件下,使构建体与聚合酶接触。这些条件是本领域已知的。例如,通常将这些构建体与可购得的聚合酶缓冲液(例如来自 New England Biolabs或KAPA Biosystems的缓冲液)中的聚合酶接触。对于Klenow,温度优选为20至37℃,对于9°North,
Figure BDA0001297751970000114
Taq DNA聚合酶,
Figure BDA0001297751970000115
High-FidelityDNA 聚合酶或KAPA HiFi,温度优选为60至75℃。
聚合酶置换包含来自片段/底物构建体的突出端的链。聚合酶用与包含发夹环的链互补的新链取代突出链。这产生多个双链构建体,每个双链构建体包含模板多核苷酸的双链片段。由聚合酶形成的部分新链通常与发夹环互补。这意味着发夹环通常在构建体中形成双链多核苷酸的一部分。这样的一个例子可以在图1中看到。
聚合酶可以形成包含上文和下文所讨论的任何核苷酸的新链。聚合酶具有与包含发夹环的链中的核苷酸互补的游离核苷酸群。聚合酶可以使用游离核苷酸形成新的链。
分离/复制
分离双链构建体的两条链,并且将该链用作模板以形成多个修饰的双链多核苷酸,每个双链多核苷酸包含由至少一个发夹环连接的两条互补链。一个例子如图1所示。
在将两条链用作模板之前,可以将所述两条链完全分离。两条链可以分离并在同一时间被用作模板(即同时)。换句话说,两条链不需要完全分离,或者两条链在用作模板之前可被部分分离。
两条链可以以任何方式分离。该方法优选包括通过增加pH、温度和离子强度中的一种或多种来分离双链构建体的两条链。优选升高的温度。该方法优选包括将温度升高至95℃。该方法优选包括将温度升高至95℃,然后将温度降至55℃。该方法优选包括将温度升高至 95℃,将温度降低至55℃,然后将温度升高至68℃。该方法最优选包括在95℃下培育双链构建体2分钟,在55℃下培育30秒,然后在68℃下培育30分钟。可以使用甲酰胺或氢氧化钠(NaOH)来实现pH的增加。酶,例如解旋酶或消化模板链的酶(例如,如果该链具有 dU而不是dT,则为USER)也可用于分离链。下面讨论的任何解旋酶都可以使用。
如下面更详细讨论的,可以使用聚合酶分离两条链。聚合酶可以是上面或下面讨论的那些。
可以使用任何方法来形成使用分离的链作为模板的新的多核苷酸。该方法优选包括使链与聚合酶接触,使得聚合酶使用链作为模板形成多个修饰的双链多核苷酸。可以使用上述或下面讨论的任何聚合酶。
或者,该方法可以包括(i)使多个链与一群核苷酸寡聚体接触,核苷酸寡聚体包括在寡聚体能够杂交到链的条件下与链中所有核苷酸互补的核苷酸的每一种可能组合,和(ii)将那些与链杂交的寡聚体连接在一起以形成多个经修饰的双链多核苷酸。允许杂交的条件是本领域已知的(例如,Sambrook等人,2001,Molecular Cloning:a laboratorymanual,第3版, Cold Spring Harbor Laboratory Press;和Current Protocols inMolecular Biology,第2章,Ausubel et al.,Eds.,Greene Publishing and Wiley-Interscience,New York(1995))。杂交可以在低严格条件下进行,例如在37℃下在30-35%甲酰胺、1M NaCl和1%SDS(十二烷基硫酸钠)的缓冲溶液存在下进行,然后在50℃下在从1X(0.1650MNa+)到2X(0.33MNa+)的SSC(标准柠檬酸钠)中洗涤。杂交可以在中度严格条件下进行,例如在37℃下在40至45%甲酰胺、 1M NaCl和1%SDS的缓冲溶液的存在下进行,然后在55℃下在从0.5X(0.0825M Na+)到 1X(0.1650MNa+)的SSC中洗涤。杂交可以在高严格条件下进行,例如在37℃下在50%甲酰胺、1M NaCl、1%SDS的缓冲溶液存在下进行,然后在60℃下在0.1X(0.0165M Na+) 的SSC中洗涤。优选的条件优选为10mM Tris-HCl,50mM NaCl,pH7中的10uM寡聚体,并加热至98℃,然后以2℃/分钟冷却至18℃。
群中的寡聚体通常具有2至16个核苷酸。群中的所有寡聚体可具有 2,3,4,5,6,7,8,9,10,11,12,13,14,15或16个核苷酸。群中的寡聚体可以具有不同的长度。群中的所有寡聚体优选具有相同的长度。寡聚体可以包含任何上述核苷酸。核苷酸与和寡聚体杂交的链中的核苷酸互补。对于本领域技术人员来说,识别与那些核苷酸互补的核苷酸是较容易的。如果核苷酸通过碱基配对(优选Watson和Crick碱基配对)与另一个核苷酸杂交,则所述核苷酸与所述另一个核苷酸互补。互补的核苷酸可以与不与其互补的其他核苷酸杂交,但是比其杂交到与其互补的核苷酸的程度小。N优选包含核碱基腺嘌呤(A)、尿嘧啶(U)、鸟嘌呤(G)或胞嘧啶(C)。或者,N优选包含核碱基A、胸腺嘧啶(T)、G或C。A与 T或U互补,反之亦然。G与C互补,反之亦然。
所述群包括与链中所有核苷酸互补的核苷酸的每种可能组合。这意味着寡聚体将与绝大多数(如果不是全部)的链杂交,无论其序列如何。例如,如果N包含核碱基腺嘌呤(A)、尿嘧啶(U)、鸟嘌呤(G)或胞嘧啶(C),则所述群包括A、U、G和C的每一种可能的组合。类似地,如果N包含核碱基A、胸腺嘧啶(T)、G或C,则所述群包含A、T、G和 C的每一种可能的组合。
设计和获得具有所需组合的寡聚体群是较为简单的。例如,如果群中所有的寡聚体都包含或由NN组成,并且N是A、T、G或C,则所述群包含AT,AG,AC,TA,TG,TC, GA,GT,GC,CA,CT和CG。类似地,如果群中所有寡聚体包含或由NNN组成,并且 N是A、T、G或C,则所述群包含ATG,ATC,AGT,AGC,ACT,ACG,TAG,TAC, TGA,TGC,TCA,TCG,GAT,GAC,GTA,GTC,GCA,GCT,CAT,CAG,CTA, CTG,CGA和CGT。一旦设计了通用公式,例如NN或NNN,则包含N的所有可能组合的群可购得,例如购自Intergrated DNA Technologies(IDT),Sigma和Invitrogen。
寡聚体能够根据本发明连接在一起。群中的所有寡聚体优选在5′端具有磷酸基团或腺苷酸基团。
杂交的寡聚体可以使用本领域已知的任何方法连接在一起。寡聚体优选使用连接酶连接,例如T4DNA连接酶,大肠杆菌DNA连接酶,Taq DNA连接酶,Tma DNA连接酶和 9°NDNA连接酶。
如果反应性基团存在于寡聚体的末端,则寡聚体也可以化学连接。在这样的实施方案中,需要采取步骤以防止寡聚体在溶液中彼此结合。通常使用链上的发夹作为引物来引发连接反应。
在优选的实施方案中,该方法优选包括使多个双链构建体与聚合酶接触,使得聚合酶同时分离双链构建体的两条链,并将该链用作模板以形成多个修饰的双链多核苷酸。可以使用上面或下面讨论的任何聚合酶。聚合酶可以形成包含上面或下面讨论的任何核苷酸的新链。聚合酶具有与模板链中的核苷酸互补的游离核苷酸群。聚合酶可以使用游离核苷酸形成新的链。
经修饰的多核苷酸
如果聚合酶使用链作为模板以形成多个修饰的双链多核苷酸,则该方法可以包括在聚合酶使用链作为模板以形成多个修饰的双链多核苷酸的条件下使链与聚合酶以及游离核苷酸群接触,其中当形成修饰的双链多核苷酸时,所述聚合酶用不同的核苷酸种类代替链中的一个或多个核苷酸种类。如上所述,聚合酶可以用于同时分离各链。在申请号为1403096.9的英国申请中描述了这种类型的修饰。可以使用上面或下面讨论的任何聚合酶。聚合酶优选为 Klenow或9°North。以上讨论了合适的条件。
使用跨膜孔进行的多核苷酸的表征例如测序通常涉及分析由k个核苷酸组成的聚合物单元,其中k是正整数(即′k聚体′)。这在申请号为PCT/GB2012/052343(公开为WO2013/041878)的国际申请中进行了讨论。尽管希望在不同k聚体的电流测量值之间有明确的分离,但是这些测量值中的一些通常是重叠的。特别是在k聚体中具有高数量的聚合物单元,即高的k值时,可能变得难以分辨由不同的k聚体产生的测量值,从而不利于得到关于多核苷酸的信息,例如对多核苷酸的潜在序列的估计。
通过用修饰的双链多核苷酸的新链(即使用聚合酶产生的链)中的不同核苷酸种类替换链中的一个或多个核苷酸种类,新链含有不同于那些在模板链中的k聚体。新链中的不同的 k聚体能够从模板链中的k聚体产生不同的电流测量值,因此新的链提供与模板链不同的信息。来自新链的额外信息可以使得更容易表征修饰的双链多核苷酸以及模板多核苷酸。在一些情况下,修饰的双链多核苷酸本身可能更易于表征。例如,修饰的双链多核苷酸可以被设计成包括具有在其电流测量值之间的增加的分离或清晰的分离的k聚体或具有降低的噪声的 k聚体。
当形成修饰的双链多核苷酸时,聚合酶优选用不同核苷酸种类取代模板链中的两个或更多个核苷酸种类。聚合酶可以用不同的核苷酸种类代替模板链中的两个或更多个核苷酸种类中的每一个。聚合酶可以用相同的核苷酸种类代替模板链中的两个或更多个核苷酸种类中的每一个。
如果模板链是DNA,则不同的核苷酸种类通常包含不同于腺嘌呤,鸟嘌呤,胸腺嘧啶,胞嘧啶或甲基胞嘧啶的核碱基和/或包含与脱氧腺苷,脱氧鸟苷,胸苷,脱氧胞苷或脱氧甲基胞苷不同的核苷。如果模板链是RNA,则经修饰的多核苷酸中的不同核苷酸种类通常包含不同于腺嘌呤,鸟嘌呤,尿嘧啶,胞嘧啶或甲基胞嘧啶的核碱基和/或包含不同于腺苷,鸟苷,尿苷,胞苷或甲基胞苷的核苷。
不同的核苷酸种类可以是通用核苷酸。通用核苷酸是在某种程度上与模板链中的所有核苷酸杂交或结合的核苷酸。通用核苷酸优选是一定程度上与包含核苷腺苷(A),胸腺嘧啶 (T),尿嘧啶(U),鸟嘌呤(G)和胞嘧啶(C)的核苷酸杂交或结合的核苷酸。通用核苷酸可以比其他核苷酸更强地杂交或结合某些核苷酸。例如,包含核苷,2′-脱氧肌苷的通用核苷酸(I)将显示I-C>I-A>I-G约=I-T的配对的优先顺序。如果通用核苷酸替代了群中的核苷酸种类,则聚合酶将用通用核苷酸替代核苷酸种类。例如,如果与一群游离dAMP,dTMP,dCMP和通用核苷酸接触,聚合酶将以通用核苷酸取代dGMP。
通用核苷酸优选包含以下核碱基之一:次黄嘌呤,4-硝基吲哚,5-硝基吲哚,6-硝基吲哚,甲酰基吲哚,3-硝基吡咯,硝基咪唑,4-硝基吡唑,4-硝基苯并咪唑,5-硝基吲唑,4-氨基苯并咪唑或苯基(C6-芳环)。通用核苷酸更优选包含以下核苷之一:2′-脱氧肌苷,肌苷,7-脱氮-2′-脱氧肌苷,7-脱氮肌苷,2-氮杂-脱氧肌苷,2-氮杂-肌苷,2-O′-甲基肌苷,4-硝基吲哚2′-脱氧核糖核苷,4-硝基吲哚核糖核苷,5-硝基吲哚2′-脱氧核糖核苷,5-硝基吲哚核糖核苷,6-硝基吲哚2′-脱氧核糖核苷,6-硝基吲哚核糖核苷,3-硝基吡咯2′-脱氧核糖核苷, 3-硝基吡咯核糖核苷,次黄嘌呤的无环糖类似物,硝基咪唑2′-脱氧核糖核苷,硝基咪唑核糖核苷,4-硝基吡唑2′-脱氧核糖核苷,4-硝基吡唑核糖核苷,4-硝基苯并咪唑2′-脱氧核糖核苷, 4-硝基苯并咪唑核糖核苷,5-硝基吲唑2′-脱氧核糖核苷,5-硝基吲唑核糖核苷,4-氨基苯并咪唑2′-脱氧核糖核苷,4-氨基苯并咪唑核糖核苷,苯基C-核糖核苷,苯基C-2′-脱氧核糖基核苷,2′-脱氧水粉蕈素,2′-脱氧异鸟苷,K-2′-脱氧核糖,P-2′-脱氧核糖和吡咯烷。通用核苷酸更优选包含2′-脱氧肌苷。通用核苷酸更优选为IMP或dIMP。通用核苷酸最优选为dPMP (2′-脱氧-P-核苷单磷酸)或dKMP(N6-甲氧基-2,6-二氨基嘌呤单磷酸酯)。
不同的核苷酸种类优选包含其所取代的核苷酸种类中不存在的化学原子或基团。化学基团优选为丙炔基,硫基,氧代基,甲基,羟甲基,甲酰基,羧基,羰基,苄基,炔丙基或炔丙胺基。化学基团或原子可以是或可以包含荧光分子,生物素,地高辛,DNP(二硝基苯酚),光不稳定基团,炔烃,DBCO,叠氮化物,游离氨基,氧化还原染料,汞原子或硒原子。
包含不存在于天然存在的核苷中的化学基团的市售核苷包括但不限于6-硫代-2′-脱氧鸟苷,7-脱氮-2′-脱氧腺苷,7-脱氮-2′-脱氧鸟苷,7-脱氮-2′-脱氧腺苷,7-脱氮-8-氮杂-2′-脱氧腺苷,8-5′(5′S)-环-2′-脱氧腺苷,8-氨基-2′-脱氧腺苷,8-氨基-2′脱氧鸟苷,8-氘代-2′-脱氧鸟苷,8-氧-2′-脱氧腺苷,8-氧-2′-脱氧鸟苷,亚乙烯基-2′-脱氧腺苷,N6-甲基-2′-脱氧腺苷,O6- 甲基-2′-脱氧鸟苷,O6-苯基-2′脱氧肌苷,2′-脱氧假尿苷,2-硫代胸苷,4-硫代-2′-脱氧尿苷, 4-硫代胸苷,5′氨基胸苷,5-(1-芘基乙炔基)-2′-脱氧尿苷,5-(C2-EDTA)-2′-脱氧尿苷, 5-(羧基)乙烯基-2′-脱氧尿苷,5,6-二氢-2′-脱氧尿苷,5.6-二氢胸苷,5-溴-2′-脱氧胞苷,5- 溴-2′-脱氧尿苷,5-羧基-2′-脱氧胞苷,5-氟-2′-脱氧尿苷,5-甲酰基-2′-脱氧胞苷,5-羟基-2′-脱氧胞苷,5-羟基-2′-脱氧尿苷,5-羟甲基-2′-脱氧胞苷,5-羟甲基-2′-脱氧尿苷,5-碘-2′-脱氧胞苷,5-碘-2′-脱氧尿苷,5-甲基-2′-脱氧胞苷,5-甲基-2′-脱氧异胞苷,5-丙炔基-2′-脱氧胞苷, 5-丙炔基-2′-脱氧尿苷,6-O-(TMP)-5-F-2′-脱氧尿苷,C4-(1,2,4-三唑-1-基)-2′-脱氧尿苷, C8-炔-胸苷,dT-二茂铁,N4-乙基-2′-脱氧胞苷,O4-甲基胸苷,吡咯-2′-脱氧胞苷,胸苷乙二醇,4-硫尿苷,5-甲基胞苷,5-甲基尿苷,吡咯基胞苷,3-脱氮-5-氮杂-2′-O-甲基胞苷,5-氟 -2′-O-甲基尿苷,5-氟-4-O-TMP-2′-O-甲基尿苷,5-甲基-2′-O-甲基胞苷,5-甲基-2′-O-甲基胸苷,2′,3′-脱氧腺苷,2′,3′-二脱氧胞苷2′,3′-二脱氧鸟苷,2′,3′-二脱氧胸苷,3′-脱氧腺苷,3′-脱氧胞苷,3′-脱氧鸟苷,3′-脱氧胸苷和5′-O-甲基胸苷。不同的核苷酸种类可以包含任何这些核苷。
或者,不同的核苷酸种类优选缺乏其所替代的核苷酸种类中存在的化学基团或原子。
与被替换的一个或多个核苷酸相比,所述不同的核苷酸种类优选具有改变的电负性。具有改变的电负性的不同核苷酸种类优选包含卤素原子。卤素原子可以连接到不同核苷酸种类上的任何位置,例如核碱基和/或糖。卤素原子优选为氟(F),氯(Cl),溴(Br)或碘(I)。卤素原子最优选为F或I。
包含卤素的市售核苷包括但不限于8-溴-2′-脱氧腺苷,8-溴-2′-脱氧鸟苷,5-溴尿苷,5- 碘尿苷,5′-碘胸苷和5-溴-2′-O-甲基尿苷。不同的核苷酸种类可以包含任何这些核苷。
该方法优选还包括选择性地从修饰的双链多核苷酸中的一个或多个不同核苷酸种类中去除核碱基。这导致修饰的双链多核苷酸中的脱碱基核苷酸。脱碱基核苷酸是缺乏核碱基的核苷酸。脱碱基核苷酸通常含有糖和至少一个磷酸基。糖通常是戊糖,如核糖和脱氧核糖。脱碱基核苷酸通常是脱碱基核糖核苷酸或脱碱基脱氧核糖核苷酸。脱碱基核苷酸通常含有一磷酸盐,二磷酸盐或三磷酸盐。磷酸盐可以连接在无碱基核苷酸的5′或3′侧。
可以使用本领域已知的任何方法选择性地除去核碱基。例如,某些DNA修复蛋白(例如人烷基腺嘌呤DNA糖基化酶(hAAG))能够从核苷酸中选择性地除去3-甲基腺嘌呤,7-甲基鸟嘌呤,1,N6-乙烯基腺嘌呤和次黄嘌呤。此外,可以使用尿嘧啶DNA糖基化酶选择性除去dUMP。
附咖聚合酶步骤
在另一个优选的实施方案中,将修饰的双链多核苷酸中的信息量加倍以利于模板多核苷酸的表征。该方法的一个示例在图8中示出。该方法优选包含(d)将修饰的双链多核苷酸的两条链分离并使用该链作为模板以形成多个适应的双链多核苷酸,每个双链多核苷酸包含由至少一个发夹环连接的两个互补链,其中每个互补链包含两个互补序列。每个互补链中的两个互补序列之一衍生自模板双链多核苷酸。步骤(d)通常包括,在分离之前将发夹环在修饰的双链多核苷酸的远离连接互补链的所述至少一个发夹环的另一端连接到修饰的双链多核苷酸。该发夹环优选不连接经修饰的双链多核苷酸的链。发夹可以形成聚合酶的成核点。当修饰的双链多核苷酸的分离的链用作模板时,连接的发夹环也用作模板并连接适应的双链多核苷酸的两个互补链,即,连接来自修饰的双链多核苷酸的模板链与由模板形成的新链。
步骤(d)可以以上述任何方式进行。例如,步骤(d)可以包括通过增加pH,温度和离子强度中的一个或多个来分离修饰的双链多核苷酸的两条链。步骤(d)可以包括使分离的链与聚合酶接触,使得聚合酶使用链作为模板来形成多个适应的双链多核苷酸。步骤(d)可以包括(i)使多个分离的链与一群核苷酸寡聚体接触,所述一群核苷酸寡聚体包括在寡聚体能够杂交到链的条件下与链中所有核苷酸互补的核苷酸的每种可能组合,和(ii)将那些与所述链杂交的寡聚体连接在一起以形成多个适应的双链多核苷酸。步骤(d)可以包括使多个修饰的双链多核苷酸与聚合酶接触,使得聚合酶同时分离修饰的双链多核苷酸的两条链,并将该链用作多个适应的双链多核苷酸的模板。上述任何实施例可以应用于步骤(d)。例如,步骤(d)可以包括用新链中的不同核苷酸种类替换模板链中的一个或多个核苷酸种类。
Y适配器
如果每个底物不包含前导序列,则该方法优选还包括在发夹环的相对端将Y适配器连接到多个修饰的双链多核苷酸。Y适配器通常是多核苷酸适配器。它们可以由任何上述的多核苷酸形成。Y适配器通常包含(a)双链区域和(b)单链区域或在另一端不互补的区域。如果Y适配器包括单链区域,则Y适配器可以被描述为具有突出端。Y适配器中非互补区域的存在使其具有Y形状,因为与双链部分不同,这两条链通常不彼此杂交。Y适配器可以包括一个或多个锚,如下面更详细地讨论的。
Y适配器可以连接到修饰的双链多核苷酸。可以使用本领域已知的任何方法进行连接。例如,可以使用连接酶例如T4 DNA连接酶,大肠杆菌DNA连接酶,Taq DNA连接酶,TmaDNA连接酶和9°N DNA连接酶连接Y适配器。
本发明的产品
本发明还提供了用于修饰模板多核苷酸的双链MuA底物群,其中每个底物包含通用核苷酸的至少一个突出端。本发明还提供了用于修饰模板多核苷酸的双链MuA底物群,其中每个底物包含(i)至少一个突出端和(ii)在与包含所述至少一个突出端的链相对的链中的至少一个发夹环。底物可以是上述那些中的任一种。底物优选包含如上所定义的双链部分。双链部分优选包含如上所述的SEQ ID NO:26和27。双链部分更优选包含如上所述的SEQID NO:26和28。本发明的优选的群是其中每个底物包含在一端的突出端和在另一端的发夹环的那些群。
本发明还提供了使用本发明的方法修饰的多个多核苷酸。所述多个多核苷酸可以是上述任何形式。修饰的双链多核苷酸包含两个互补链,其包含通过发夹环连接的模板多核苷酸的双链片段。
群或多个多核苷酸可以是分离的,基本上分离的,纯化的或基本上纯化的。如果群或多个多核苷酸完全不含任何其它组分,例如模板多核苷酸,脂质或孔,则群或多个多核苷酸是分离的或纯化的。如果与不妨碍其预期用途的载体或稀释剂混合,则群或多个多核苷酸基本上是分离的。例如,如果群或多个多核苷酸以包含小于10%,小于5%,小于2%或小于1%的其它成分(例如脂质或孔)的形式存在,则群或多个多核苷酸基本上是分离的或基本上是纯化的。
表征方法
本发明还提供了表征使用本发明的方法修饰的至少一种多核苷酸的方法。经修饰的多核苷酸与跨膜孔接触,使得多核苷酸的至少一条链移动通过所述孔。随着至少一条链相对于孔移动,获取一个或多个测量值。所述测量值指示所述至少一条链的一个或多个特征,并且这允许表征经修饰的多核苷酸。
本发明还提供了表征模板多核苷酸的方法。使用本发明修饰模板多核苷酸以产生多个经修饰的多核苷酸。每个经修饰的多核苷酸与跨膜孔接触,使得每个多核苷酸的至少一条链移动通过孔。随着每个多核苷酸相对于孔移动,获取一个或多个测量值。所述测量值指示每个多核苷酸的一个或多个特征,这允许对模板多核苷酸进行表征。
在优选的实施方案中,经修饰的多核苷酸的两条链/每个经修饰的多核苷酸移动通过孔。如果两条链都移动穿过孔,则两条链通常是分离的。可以使用本领域已知的任何方法分离两条链。例如,它们可以被多核苷酸结合蛋白分离,或者使用有利于脱杂交的条件(有利于脱杂交的条件的实例包括但不限于高温、高pH和添加可以破坏氢键或碱基配对的试剂,如甲酰胺和脲)而分离。
跨膜孔
跨膜孔是在一定程度上穿过膜的结构。它允许由施加电势驱动的水合离子流过膜或在膜内流动。跨膜孔通常穿过整个膜,使得水合离子可以从膜的一侧流到膜的另一侧。然而,跨膜孔不必跨过膜。它可能在一端被封闭。例如,孔可以是水合离子可以沿其流动或流入其中的膜内的阱、间隙、通道、沟槽或狭缝。
一个或多个选择性扩增探针或一个或多个扩增产物优选通过下述进行表征:(i)使探针或扩增产物与跨膜孔接触,使得探针或扩增产物移动通过孔,并且(ii)随着探针或扩增产物相对于孔移动获取一个或多个测量值,其中所述测量值指示探针或扩增产物的一个或多个特征,从而表征探针或扩增产物。
任何跨膜孔可用于本发明。孔可以是生物的或人造的。合适的孔包括但不限于蛋白质孔,多核苷酸孔和固态孔。孔可以是DNA折纸孔(Langecker等人,Science,2012;338:932-936)。
跨膜孔优选为跨膜蛋白孔。
根据本发明使用的跨膜蛋白孔可以衍生自β-桶状孔或α-螺旋束孔。β-桶状孔包括由β- 链形成的桶状体或通道。合适的β-桶状孔包括但不限于,形成毒素的β孔,例如α-溶血素,炭疽毒素和杀白细胞素,和细菌的外膜蛋白/孔蛋白,例如耻垢分枝杆菌(Mycobacterium smegmatis)孔蛋白(Msp),如MspA,MspB,MspC或MspD,外膜孔蛋白F(OmpF),外膜孔蛋白G(OmpG),外膜磷脂酶A和奈瑟氏菌(Neisseria)自体转运脂蛋白(NalP)以及其他孔,如lysenin。α-螺旋束孔包括由α-螺旋形成的桶状体或通道。合适的α-螺旋束孔包括但不限于内膜蛋白和α外膜蛋白,例如WZA和ClyA毒素。跨膜孔可以衍生自lysenin。衍生自lysenin的合适的孔在申请号为PCT/GB2013/050667(公开为WO 2013/153359)的国际申请中公开。跨膜孔可以衍生自Msp,如MspA,或衍生自α-溶血素(α-HL)。野生型α-HL 孔由七个相同的单体或亚基形成(即其为七聚体)。α-溶血素-NN的一个单体或亚基的序列在SEQ ID NO:4中示出。
跨膜蛋白孔优选衍生自Msp,优选来自MspA。这样的孔将是低聚的,并且通常包含衍生自Msp的7,8,9或10个单体。孔可以是衍生自包含相同单体的Msp的同源寡聚孔。或者,孔可以是衍生自包含至少一种与其它单体不同的单体的Msp的异源寡聚孔。优选地,孔衍生自MspA或其同源物或旁系同源物。
衍生自Msp的单体通常包含SEQ ID NO:2或其变体中所示的序列。SEQ ID NO:2是MspA单体的MS-(B1)8突变体。它包括以下突变:D90N,D91N,D93N,D118R,D134R 和E139K。SEQ ID NO:2的变体是具有下述氨基酸序列的多肽:从SEQ ID NO:2的氨基酸序列变化而来并保留其形成孔的能力。合适的变体在申请号为PCT/GB2012/050301(公开为WO 2012/107778)的国际申请和申请号为1407809.1(ONT IP 057)的英国申请中公开。 SEQ ID NO:2的优选变体包含N93D。可以使用本领域已知的任何方法测定变体形成孔的能力。例如,可以将变体与其他合适的亚基一起插入两亲层,并且可以确定其低聚以形成孔的能力。本领域已知用于将亚基插入诸如两亲层的膜中的方法。例如,亚基可以在含有三嵌段共聚物膜的溶液中以纯化的形式悬浮,使得其扩散到膜并通过结合到膜上并组装成功能状态而插入。或者,亚基可以使用M.A.Holden,H.Bayley.J.Am.Chem.Soc.2005,127,6502-6503 和申请号为PCT/GB2006/001057(公开为WO 2006/100484)的国际申请中所述的“摘取和放置(pickand place)”方法直接插入膜中。
在SEQ ID NO:2的氨基酸序列的整个长度上,基于氨基酸同一性,变体将优选与该序列至少50%同源。更优选地,基于氨基酸同一性,变体可以与SEQ ID NO:2的氨基酸序列在整个长度上至少55%,至少60%,至少65%,至少70%,至少75%,至少80%,至少 85%,至少90%,和更优选地至少95%,97%或99%同源。在100个或更多个,例如125,150,175 或200个或更多个连续氨基酸的片段上可以具有至少80%,例如至少85%,90%或95%的氨基酸同一性(“严格同源性(hard homology)”)。
本文所述的任何蛋白质,例如跨膜蛋白孔,可以通过合成而制备或通过重组方法制备。例如,孔可以通过体外翻译和转录(IVTT)合成。孔的氨基酸序列可以被修饰为包括非天然存在的氨基酸或增加蛋白质的稳定性。当通过合成方法产生蛋白质时,可以在生产过程中引入这些氨基酸。在合成或重组生产之后,孔也可以改变。
表征
该方法可以涉及测量经修饰多核苷酸或模板多核苷酸的两个,三个,四个或五个或更多个特征。一个或多个特征优选选自(i)多核苷酸的长度,(ii)多核苷酸的同一性,(iii) 多核苷酸的序列,(iv)多核苷酸的二级结构,以及(v)多核苷酸是否被修饰。(i)至(v) 的任何组合可以根据本发明进行测量,例如{i},{ii},{iii},{iv},{v},{i,ii},{i,iii}, {i,iv},{i,v},{ii,iii},{ii,iv},{ii,v},{iii,iv},{iii,v},{iv,v},{i,ii,iii}, {i,ii,iv},{i,ii,v},{i,iii,iv},{i,iii,v},{i,iv,v}ii,iii,iv},{ii,iii,v},{ii, iv,v},{iii,iv,v},{i,ii,iii,iv},{i,ii,iii,v},{i,ii,iv,v},{i,iii,iv,v},{ii, iii,iv,v}或{i,ii,iii,iv,v}。相比于第二多核苷酸,可以对第一多核苷酸测量(i)至(v) 的不同组合,包括上述任何一种组合。
对于(i),可以例如通过确定多核苷酸和孔之间的相互作用的次数或多核苷酸和孔之间的相互作用持续时间来测量多核苷酸的长度。
对于(ii),可以以多种方式测量多核苷酸的同一性。多核苷酸的同一性可以结合多核苷酸序列的测量或不结合多核苷酸的序列的测量来测量。前者较简单;对多核苷酸进行测序并鉴定。后者可以通过几种方式完成。例如,可以测量多核苷酸中特定基序的存在(不测量多核苷酸的剩余序列)。或者,该方法中特定电和/或光信号的测量可以鉴定出来自特定来源的多核苷酸。
对于(iii),可以如先前所述测定多核苷酸的序列。在Stoddart D等人,Proc NatlAcad Sci, 12;106(19):7702-7,Lieberman KR等人,J Am Chem Soc.2010;132(50):17961-72和申请号为 WO 2000/28312的国际申请中描述了合适的测序方法,特别是使用电测量的测序方法。
对于(iv),二级结构可以以多种方式测量。例如,如果该方法涉及电测量,则可以使用驻留时间的变化或流过孔的电流的变化来测量二级结构。这允许区分单链和双链多核苷酸的区域。
对于(v),可以测量是否存在任何修饰。该方法优选包括,确定多核苷酸是否通过甲基化,氧化,损伤、用一种或多种蛋白质或用一种或多种标记、标签或间隔基,进行了修饰。特定的修饰将导致与孔的特异性相互作用,其可以使用下述方法测量。例如,可基于在与每个核苷酸相互作用期间流过孔的电流,将甲基胞嘧啶与胞嘧啶进行区分。
多核苷酸与跨膜孔接触。孔通常存在于膜中。下面讨论合适的膜。该方法可以使用任何适合于研究膜中存在孔的膜/孔系统的设备进行。该方法可以使用适用于跨膜孔感测的任何设备来进行。例如,该设备包括一个包含水性溶液的腔室和一个将腔室分成两个部分的屏障。屏障通常具有形成包含孔的膜的孔洞。或者,屏障形成其中存在孔的膜。
该方法可以使用申请号为PCT/GB08/000562(WO 2008/102120)的国际申请中描述的设备进行。
可以进行多种不同类型的测量。这包括但不限于:电测量和光测量。可能的电测量包括:电流测量,阻抗测量,隧道测量(tunnelling measurement)(Ivanov AP等人,NanoLett.2011 Jan 12;11(1):279-85)和FET测量(申请号为WO 2005/124888的国际申请)。光测量可以与电测量结合(Soni GV等人,Rev Sci Instrum.2010Jan;81(1):014301)。测量可以是跨膜电流测量,例如流过孔的离子电流的测量。
可以使用Stoddart D等人,Proc Natl Acad Sci,12;106(19):7702-7,LiebermanKR等人,J Am Chem Soc.2010;132(50):17961-72,和申请号为WO 2000/28312的国际申请中描述的标准单通道记录装置进行电测量。或者,可以使用如国际申请WO 2009/077734和国际申请WO 201I/067559中所述的多通道系统进行电测量。
该方法优选以跨膜施加的电势进行。所施加的电势可以是电压电势。或者,施加的电势可以是化学电势。其一个例子是使用跨膜的盐梯度,所述膜例如两亲层。在Holden等人,J Am Chem Soc.2007Jul 11;129(27):8650-5中公开了盐梯度。在一些情况下,随着多核苷酸相对于孔的移动,使用通过孔的电流来估计或确定多核苷酸的序列。这就是链测序。
该方法可以涉及测量随着多核苷酸相对于孔的移动通过孔的电流。因此,该方法中使用的设备还可以包括能够在膜和孔上施加电势并测量电信号的电路。该方法可以使用膜片钳或电压钳进行。所述方法优选地涉及使用电压钳。
本发明的方法可以涉及测量随着多核苷酸相对于孔的移动通过孔的电流。测量通过跨膜蛋白孔的离子电流的合适条件是本领域已知的并且在实施例中公开。该方法通常通过施加在膜和孔上的电压进行。所使用的电压通常为+5V至-5V,例如从+4V至-4V,+3V至-3V或+2V 至-2V。所使用的电压通常为-600mV至+600mV或-400mV至+400mV。所使用的电压优选在具有选自-400mV,-300mV,-200mV,-150mV,-100mV,-50mV,-20mV和0mV的下限和独立地选自+10mV,+20mV,+50mV,+100mV,+150mV,+200mV,+300mV和 +400mV的上限的范围内。所使用的电压更优选在100mV至240mV的范围内,最优选在 120mV至220mV的范围内。通过使用增加的施加电势,可以由孔增加不同核苷酸之间的区别。
该方法通常在任何电荷载体存在下进行,例如金属盐,例如碱金属盐,卤化物盐,例如氯化物盐,如碱金属氯化物盐。电荷载体可以包括离子液体或有机盐,例如四甲基氯化铵,三甲基苯基氯化铵,苯基三甲基氯化铵或1-乙基-3-甲基咪唑鎓氯化物。在上述示例性设备中,盐存在于腔室中的水性溶液中。通常使用氯化钾(KCl),氯化钠(NaCl),氯化铯(CsCl) 或亚铁氰化钾和铁氰化钾的混合物。KCl,NaCl和亚铁氰化钾和铁氰化钾的混合物是优选的。电荷载体在膜上可能是不对称的。例如,电荷载体的类型和/或浓度在膜的每一侧可以是不同的。
盐浓度可以是饱和的。盐浓度可以是3M或更低,通常为0.1至2.5M,0.3至1.9M,0.5至1.8M,0.7至1.7M,0.9至1.6M或1M至1.4M。盐浓度优选为150mM至1M。该方法优选使用至少为0.3M,例如至少0.4M,至少0.5M,至少0.6M,至少0.8M,在至少1.0M,至少1.5M,至少2.0M,至少2.5M或至少3.0M的盐浓度进行。高盐浓度提供高信噪比,并允许电流指示正常电流波动背景下待鉴定的核苷酸的存在。
该方法通常在存在缓冲液的情况下进行。在上述示例性设备中,缓冲液存在于腔室中的水性溶液中。任何缓冲液可用于本发明的方法。通常,缓冲液是磷酸盐缓冲液。其他合适的缓冲液是HEPES和三羟甲基氨基甲烷盐酸盐(Tris-HCl)缓冲液。该方法通常在4.0至12.0, 4.5至10.0,5.0至9.0,5.5至8.8,6.0至8.7或7.0至8.8或7.5至8.5的pH下进行。所用的pH优选为约7.5。
该方法可以在0℃至100℃,15℃至95℃,16℃至90℃,17℃至85℃,18℃至80℃,19℃至70℃或在20℃至60℃进行。所述方法通常在室温下进行。所述方法任选地在支持酶功能的温度下进行,例如约37℃。
多核苷酸结合蛋白
该方法优选包括使所述/每个多核苷酸与多核苷酸结合蛋白接触,使得所述蛋白控制所述 /每个多核苷酸的至少一条链通过孔的运动。
更优选地,该方法包括(a)使所述/每个多核苷酸与孔以及多核苷酸结合蛋白接触,使得所述蛋白控制所述/每个多核苷酸的至少一条链通过孔的运动,和(b)随着所述/每个多核苷酸相对于孔移动,获取一个或多个测量值,其中测量值指示所述/每个多核苷酸的一个或多个特征,从而表征修饰的多核苷酸或模板多核苷酸。
多核苷酸结合蛋白可以是能够结合到多核苷酸并控制其通过孔的运动的任何蛋白质。确定蛋白质是否与多核苷酸结合在本领域是较简单的。蛋白质通常与多核苷酸相互作用并修饰多核苷酸的至少一种特性。蛋白质可以通过将多核苷酸裂解以形成单个核苷酸或核苷酸短链,例如二核苷酸或三核苷酸,来修饰多核苷酸。蛋白质可以通过使其定向到特定位置或将其移动到特定位置,即控制其运动,来修饰多核苷酸。
多核苷酸结合蛋白优选衍生自多核苷酸处理酶。多核苷酸处理酶是能够与多核苷酸相互作用并修饰多核苷酸的至少一种性质的多肽。酶可以通过将多核苷酸裂解以形成单个核苷酸或核苷酸短链,例如二核苷酸或三核苷酸,来修饰多核苷酸。酶可以通过使其定向到特定位置或将其移动到特定位置来修饰多核苷酸。多核苷酸处理酶不需要显示酶活性,只要其能够结合多核苷酸并控制其通过孔的移动即可。例如,酶可以被修饰以去除其酶活性,或者可以在防止其用作酶的条件下使用。以下更详细地讨论这些条件。
多核苷酸处理酶优选衍生自溶核酶(nucleolytic enzyme)。酶的构建体中使用的多核苷酸处理酶更优选衍生自酶分类(EC)组3.1.11,3.1.13,3.1.14,3.1.15,3.1.16,3.1.21,3.1.22, 3.1.25,3.1.26,3.1.27,3.1.30和3.1.31中任一成员。酶可以是申请号为PCT/GB10/000133 (公开为WO 2010/086603)的国际申请中公开的那些酶中的任一种。
优选的酶是聚合酶、核酸外切酶、解旋酶和拓扑异构酶,如促旋酶。合适的酶包括但不限于来自大肠杆菌的核酸外切酶I(SEQ ID NO:11),来自大肠杆菌的核酸外切酶III(SEQ ID NO:13),来自嗜热栖热菌的RecJ(SEQ ID NO:15),以及细菌噬菌体λ核酸外切酶(SEQ ID NO:17),TatD核酸外切酶及其变体。包含SEQ ID NO:15或其变体中所示序列的三个亚基相互作用以形成三聚体核酸外切酶。聚合酶可以是
Figure BDA0001297751970000211
3173 DNA聚合酶(可从
Figure BDA0001297751970000212
Corporation购得),SD聚合酶(可从
Figure BDA0001297751970000213
购得)或其变体。酶优选为Phi29DNA聚合酶(SEQ ID NO:9)或其变体。拓扑异构酶优选为酶分类(EC)组5.99.1.2 和5.99.1.3中的任何成员。
该酶最优选衍生自解旋酶,例如He1308Mbu(SEQ ID NO:18),He1308Csy(SEQ IDNO: 19),He1308Tga(SEQ ID NO:20),He1308Mhu(SEQ ID NO:21),TraI Eco(SEQ ID NO:22),XPD Mbu(SEQ ID NO:23)或其变体。在本发明中可以使用任何解旋酶。解旋酶可以是或来自He1308解旋酶,RecD解旋酶,例如TraI解旋酶或TrwC解旋酶,XPD解旋酶或Dda解旋酶。解旋酶可以是申请号为PCT/GB2012/052579(公开为WO 2013/057495), PCT/GB2012/053274(公开为WO 2013/098562),PCT/GB2012/053273(公开为 WO2013098561),PCT/GB2013/051925(公开为WO 2014/013260),PCT/GB2013/051924 (公开为WO 2014/013259),PCT/GB2013/051928(公开为WO 2014/013262)和 PCT/GB2014/052736的国际申请中公开的任何解旋酶,修饰的解旋酶或解旋酶构建体。
解旋酶优选包含SEQ ID NO:25(Trwc Cba)或其变体中所示的序列,SEQ ID NO:18(He1308Mbu)或其变体中所示的序列,或者SEQ ID NO:24(Dda)或其变体中所示的序列。变体可不同于以下以任何方式讨论的跨膜孔的天然序列。SEQ ID NO:24的优选变体包括(a)E94C和A360C或(b)E94C,A360C,C109A和C136A,然后可选地(ΔM1)G1G2 (即M1缺失,然后添加G1和G2)。
在链测序中,多核苷酸顺着或逆着施加的电势被移位穿过孔。在双链多核苷酸上逐渐或进行性地起作用的核酸外切酶可以用在孔的顺式侧以使剩余的单链在施加电势下通过或在反式测在反向电势下使其通过。同样地,解开双链DNA的解旋酶也可以以类似的方式使用。也可以使用聚合酶。对于测序应用还有可能需要逆着施加的电势的链移位,但DNA必须首先在反向电势或无电势的条件下被酶“捕获”。然后随着电势在结合后切换回来,链将沿顺式到反式通过所述孔并通过电流保持为扩展的构象。单链DNA核酸外切酶或单链DNA依赖性聚合酶可以作为分子马达,以将最近移位的的单链逆着施加的电势按反式到顺式以受控的逐步方式穿过细孔拉回。
任何解旋酶可用于该方法中。解旋酶可以相对于孔以两种模式工作。首先,该方法优选使用解旋酶进行,使得其利用由施加的电压产生的场使多核苷酸移动通过孔。在该模式下,首先将多核苷酸的5′端捕获在孔中,然后解旋酶将多核苷酸移动到孔中,使得其利用场通过孔,直到其最终移位到膜的反式侧。或者,优选进行该方法,使得解旋酶逆着由施加的电压产生的场将多核苷酸移动通过孔。在该模式中,首先将多核苷酸的3′端捕获在孔中,然后解旋酶将多核苷酸移动通过孔,使得其逆着施加的场被从孔中拉出,直到最终被驱逐回膜的顺式侧。
(一种或多种)解旋酶和(一种或多种)分子制动器
在优选的实施例中,该方法包括:
(i)向所述/每个多核苷酸提供一个或多个解旋酶和连接到所述/每个多核苷酸的一个或多个分子制动器;
(b)使所述/每个多核苷酸与跨膜孔接触并且跨孔施加电势,使得一个或多个解旋酶和一个或多个分子制动器被聚集在一起,并且两者都控制所述/每个多核苷酸的至少一条链通过孔的运动;
(c)随着所述/每个多核苷酸相对于孔移动,获取一个或多个测量值,其中所述测量值指示多核苷酸的一个或多个特征,从而表征经修饰的多核苷酸或模板多核苷酸。
这种类型的方法在国际申请PCT/GB2014/052737中有详细讨论。
间隔基
如申请号为PCT/GB2014/050175(公开为WO2014/135838)的国际申请中所述,一个或多个解旋酶可以停滞在一个或多个间隔基处。在本发明中可以使用该国际申请中公开的一个或多个解旋酶和一个或多个间隔基的任何构象。
当多核苷酸的一部分进入孔并沿着由施加的电势产生的场移动通过孔时,随着多核苷酸移动通过孔,一个或多个解旋酶通过孔被移动通过间隔基。这是因为多核苷酸(包括一个或多个间隔基)移动通过孔并且一个或多个解旋酶保留在孔的顶部。
一个或多个间隔基优选是多核苷酸的一部分,例如它们中断所述多核苷酸的序列。一个或多个间隔基优选不是与多核苷酸杂交的一个或多个阻断分子(例如减速带(speed bump)) 的一部分。
多核苷酸中可以存在任何数目的间隔基,例如1,2,3,4,5,6,7,8,9,10或更多个间隔基。多核苷酸中优选有两个,四个或六个间隔基。一个或多个间隔基优选地在Y适配器或前导序列中。多核苷酸的不同区域中可以有一个或多个间隔基,例如Y适配器和/或发夹环适配器中的一个或多个间隔基。
一个或多个间隔基各自提供一个或多个解旋器即使在活动模式下也不能克服的能量屏障。一个或多个间隔基可以通过减少解旋酶的牵引力(例如通过从多核苷酸中的核苷酸中去除碱基)或物理阻断一个或多个解旋酶的运动(例如使用庞大的化学基团)来使一个或多个解旋酶停滞。
一个或多个间隔基可以包含使一个或多个解旋酶停滞的任何分子或分子的组合。一个或多个间隔基可以包含阻止一个或多个解旋酶沿多核苷酸移动的任何分子或分子的组合。在不存在跨膜孔和施加的电势的情况下,确定一个或多个解旋酶是否停滞在一个或多个间隔基处是较为容易的。例如,通过PAGE可以测量解旋酶移动通过间隔基并置换DNA的互补链的能力。
一个或多个间隔基通常包含直链分子,例如聚合物。一个或多个间隔基通常具有与多核苷酸不同的结构。例如,如果多核苷酸是DNA,则一个或多个间隔基通常不是DNA。特别地,如果多核苷酸是脱氧核糖核酸(DNA)或核糖核酸(RNA),则一个或多个间隔基优选包含肽核酸(PNA),甘油核酸(GNA),苏糖核酸(TNA),锁定核酸(LNA)或具有核苷酸侧链的合成聚合物。一个或多个间隔基可以包含与多核苷酸方向相反的一个或多个核苷酸。例如,当多核苷酸处于5′至3′方向时,一个或多个间隔基可以包含3′至5′方向的一个或多个核苷酸。核苷酸可以是上面讨论的任何核苷酸。
一个或多个解旋酶可被每个线性分子间隔基停滞(即停滞在间隔基前面)或被停滞在每个线性分子间隔基上。如果使用直链分子间隔基,则多核苷酸优选具有与每个间隔基的末端相邻的多核苷酸的双链区域,其中一个或多个解旋酶将被移动通过每个间隔基。如果使用线性分子间隔基,则多核苷酸优选在每个间隔基的与一个或多个解旋酶将被移动通过的末端相对末端设置有阻断分子。这可以帮助确保一个或多个解旋酶保持停滞在每个间隔基上。在它/它们在溶液中扩散开的情况下,还可以帮助将一个或多个解旋酶保持在多核苷酸上。阻断分子可以是物理上导致一个或多个解旋酶停滞的下述任何化学基团。阻断分子可以是多核苷酸的双链区域。阻断分子可以是BNA。
该方法可能涉及将两个或更多个解旋酶移动通过间隔基。在这种情况下,间隔基的长度通常被增加,以防止尾部解旋酶在没有孔和施加电势的情况下推动先导解旋酶经过间隔基。如果该方法涉及移动两个或更多个解旋酶经过一个或多个间隔基,则上述间隔基长度可以增加至少1.5倍,例如2倍,2.5倍或3倍。例如,如果该方法涉及移动两个或多个解旋酶经过一个或多个间隔基,则间隔基长度可以增加1.5倍,2倍,2.5倍或3倍。
本发明中使用的孔可以存在于膜中。在本发明的方法中,多核苷酸通常与膜中的孔接触。根据本发明,可以使用任何膜。合适的膜是本领域公知的。膜优选为两亲层。两亲层是由具有亲水性和亲油性的两亲分子形成的层,例如磷脂。两亲分子可以是合成的或天然存在的。非天然存在的两亲物和形成单层的两亲物是本领域已知的,并且包含例如嵌段共聚物 (Gonzalez-Perez等人,Langmuir,2009,25,10447-10450)。嵌段共聚物是两个或更多个单体子单元聚合在一起形成单个聚合物链的聚合材料。嵌段共聚物通常具有由每个单体子单元贡献的性质。然而,嵌段共聚物可以具有从各个子单元形成的聚合物不具有的独特性质。嵌段共聚物可以被改造成使得单体子单元之一是疏水的(即亲油的),而其他(一个或多个)子单元在水性介质中是亲水的。在这种情况下,嵌段共聚物可以具有两亲性质并且可以形成能模拟生物膜的结构。嵌段共聚物可以是二嵌段(由两个单体子单元组成),但也可以由多于两个的单体子单元构成,以形成表现为两亲体的更为复杂的布置。共聚物可以是三嵌段,四嵌段或五嵌段共聚物。膜优选为三嵌段共聚物膜。
膜最优选是国际申请PCT/GB2013/052766或PCT/GB2013/052767中公开的膜之一。
两亲性分子可以被化学修饰或功能化以促进多核苷酸的偶联。
偶联
所述/每个经修饰的多核苷酸优选与包含孔的膜偶联。该方法可以包括将所述/每个多核苷酸偶联到包含孔的膜。优选使用一个或多个锚将多核苷酸与膜偶联。多核苷酸可以使用任何已知的方法与膜偶联。
每个锚包含与多核苷酸偶联(或结合)的基团和与膜偶联(或结合)的基团。每个锚可以与多核苷酸和/或膜共价偶联(或结合)。优选使用Y适配器或前导序列和/或发夹环将多核苷酸偶联到膜上。
多核苷酸可以使用任何数量的锚,例如2,3,4或更多个锚偶联到膜上。例如,多核苷酸可以使用两个锚偶联到膜上,两个锚中的每个单独地既与多核苷酸偶联(或结合)也与膜偶联(或结合)。
一个或多个锚可以包含一个或多个解旋酶和/或一个或多个分子制动器。
如果膜是两亲层,例如共聚物膜或脂双层,则一个或多个锚优选包含存在于膜中的多肽锚和/或存在于膜中的疏水性锚。疏水性锚优选为脂质,脂肪酸,固醇,碳纳米管,多肽,蛋白质或氨基酸,例如胆固醇,棕榈酸酯或生育酚。在优选实施例中,一个或多个锚不是孔。
膜的组分,例如两亲分子、共聚物或脂质,可以被化学修饰或功能化以形成一个或多个锚。以下将更详细地讨论合适的化学修饰和将膜的组分功能化的合适方式的示例。任何比例的膜组分可以被功能化,例如至少0.01%,至少0.1%,至少1%,至少10%,至少25%,至少50%或100%。
多核苷酸可以被直接偶联到膜。用于将多核苷酸偶联到膜上的一个或多个锚优选包含连接体。一个或多个锚可以包括一个或多个,例如2,3,4或更多个连接体。一个连接体可用于将多于一个,例如2,3,4或更多个多核苷酸偶联到膜上。
优选的连接体包括但不限于聚合物,例如多核苷酸,聚乙二醇(PEG),多糖和多肽。这些连接体可以是直链,支链或环状的。例如,连接体可以是环状多核苷酸。多核苷酸可以与环状多核苷酸连接体上的互补序列杂交。
在以下讨论的测序实施例中优选使用连接体。如果多核苷酸直接永久地偶联到膜上,在这种意义上,当与孔相互作用时不进行解偶联(即在步骤(b)或(e))中不进行解偶联),则某些序列数据将丢失,因为由于膜与孔之间的距离测序不能继续到多核苷酸的末端。如果使用连接体,则多多核苷酸可以进行到完成为止。
偶联可以是永久的或稳定的。换句话说,偶联可以是这样的:当多核苷酸与孔相互作用时,多核苷酸保持与膜偶联。
偶联可能是瞬态的。换句话说,偶联是这样的:当多核苷酸与孔相互作用时,多核苷酸可以与膜解偶联。
在申请号为PCT/GB12/051191(公开为WO 2012/164270)的国际申请和申请号为1406155.0的英国申请中公开了合适的偶联方法。
解偶联
本发明的方法可以包括表征多个修饰的双链多核苷酸和解偶联至少第一修饰的双链多核苷酸。
在优选的实施方案中,本发明涉及表征两个或更多个修饰的双链多核苷酸。该方法包括:
(a)在第一样品中提供第一经修饰的双链多核苷酸;
(b)在第二样品中提供第二经修饰的双链多核苷酸;
(c)使用一个或更多锚将第一样品中的第一多核苷酸与膜偶联;
(d)使第一多核苷酸与跨膜孔接触,使得第一多核苷酸的至少一条链移动穿过孔;
(e)随着第一多核苷酸相对于孔移动获取一个或多个测量值,其中所述测量值指示第一多核苷酸的一个或多个特征,从而表征第一个多核苷酸;
(f)将第一个多核苷酸从膜上解偶联;
(g)使用一个或多个锚将第二样品中的第二多核苷酸偶联到膜上;
(h)使第二多核苷酸与孔接触,使得第二多核苷酸的至少一条链移动穿过孔;和
(i)随着第二多核苷酸相对于孔移动而获取一个或多个测量值,其中所述测量值指示第二多核苷酸的一个或多个特征,从而表征第二多核苷酸。
这种类型的方法在申请号为1406155.0的英国申请中有详细讨论。
其他表征方法
在另一个实施例中,所述/每个经修饰的双链多核苷酸通过下述进行表征:检测当聚合酶将核苷酸并入多核苷酸中时释放的标记物种。聚合酶使用多核苷酸作为模板。每个标记物种对于每个核苷酸是特异性的。所述/每个多核苷酸与跨膜孔、聚合酶和标记的核苷酸接触,使得当通过聚合酶将核苷酸加入到多核苷酸时,磷酸盐标记的物种依次释放,其中磷酸盐物种含有对每个核苷酸特异的标记。聚合酶可以是上面讨论的任何聚合酶。使用孔检测磷酸盐标记的物种,从而表征多核苷酸。这种方法在申请号为13187149.3(公布为EP2682460)的欧洲申请中公开。以上讨论的任何实施例同样适用于该方法。
试剂盒
本发明还提供了用于修饰模板多核苷酸的试剂盒。试剂盒包含(a)本发明的MuA底物群和(b)MuA转座酶以及(c)聚合酶。上文参照本发明的方法和产品讨论的任何实施方案同样适用于试剂盒。
试剂盒还可以包含膜的组分,例如两亲层或脂质双层的组分。试剂盒还可以包含跨膜孔或跨膜孔的组分。试剂盒还可以包含多核苷酸结合蛋白。上面讨论了合适的膜、孔和多核苷酸结合蛋白。
本发明的试剂盒可以另外包含一种或多种使上述任何实施例能够进行的其它试剂或仪器。这样的试剂或仪器包括以下一种或多种:合适的缓冲液(一种或多种)(水性溶液),从受试者获得样品的设备(例如容器或包含针的仪器),用于扩增和/或表达多核苷酸的设备,如上所定义的膜,或者电压或膜片钳装置。试剂可能以干燥状态存在于试剂盒中,使得流体样品使该试剂重悬。试剂盒还可以任选地包括使试剂盒能够用于本发明方法或关于该方法可用于哪些患者的细节的说明。试剂盒可以任选地包含核苷酸。
以下实施例说明了本发明。
实施例1
该实施例描述了用于修饰模板双链多核苷酸的方法,特别是使用纳米孔测序进行表征的方法。该实施例示出了MuA转座酶能够含有发夹环的MuA底物插入。然后使用聚合酶填充构建体中的间隙,然后加热双链构建体以熔化双链DNA。这得到具有发夹的单链DNA,聚合酶从该发夹产生互补体。然后将该构建体连接到具有预结合的酶的适配器,并最终与系链杂交。然后,该DNA构建体显示出,解旋酶控制DNA运动通过纳米孔。
材料和方法
1.1-使用MuA转座酶将DNA模板片段化
在该实施例中使用的MuA适配器X具有5′21bp发夹(在图2中适配器标记为c,上链= SEQ ID NO:29,下链=SEQ ID NO:30,下链的5′端连接到序列GATCU的3′端)。适配器的上链和下链在10uM下,从95℃,以2℃min-1,在10mM Tris pH 7.5,50mM NaCl中退火。
MuA片段化反应(10μL)如下表1中所述进行设置,并在30℃温育1小时。然后通过在75℃加热15分钟将MuA酶进行热灭活。最后将得到的DNA进行1.5×SPRI纯化并在无核酸酶的水(42uL,样品1)中洗脱。
Figure BDA0001297751970000261
表1
1.2-用DNA聚合酶培育DNA模板
在MuA片段化过程之后,然后将纯化的DNA用DNA聚合酶培育以复制上链发夹。
DNA聚合酶反应(50uL)如下表2所述设置,并在68℃下培育10分钟。最后,将所得的DNA进行1.5×SPRI纯化并在无核酸酶的水(42uL,样品2)中洗脱。
Figure BDA0001297751970000262
表2
1.3-热变性和聚合酶填充
在发夹复制阶段后,将样品2处理,以进行单一变性步骤和聚合酶填充。对于聚合酶填充反应,对聚合酶提供有dCTP/dGTP/dATP,但用不同的核苷酸种类5-丙炔基-dU代替标准 dTTP。反应(50μ)如下表3所述进行设置,并在95℃培育2分钟,55℃培育30秒,68℃培育30分钟。最后,将所得DNA进行1.5×SPRI纯化并在无核酸酶的水(45μL,样品3) 中洗脱。
Figure BDA0001297751970000263
表3
1.4-dA拖尾反应
然后将样品3如下表4所述进行dA拖尾,并在37℃下培育30分钟。将所得DNA进行1.5×SPRI纯化并在无核酸酶的水(20uL,样品4)中洗脱。
试剂 组分
样品3 42μl
10x NEB dA-拖尾缓冲液 5μl
Klenow exo<sup>-</sup> 3μL
表4
1.5-用预加载的酶连接适配器
然后将样品4用预加载的酶(T4Dda-E94C/A360C/C109A/C136A(具有突变E94C/A360C/C114A/C171A/C421D以及(ΔM1)G1G2)的SEQ ID NO:24)连接到Y适配器1(上链=在3′端连接到SEQ ID NO:32的20个iSpC3间隔基,SEQ ID NO:32的3′端连接到4个iSp18间隔基,iSp18间隔基3′端连接到SEQ ID NO:33,底部链=连接有5’磷酸盐的SEQ ID NO:34),如下表5所述,并在室温下培育20分钟。将所得的DNA进行0.4×SPRI 纯化,并用缓冲液(200μL的750mM NaCl,10%PEG 8000,50mM Tris.HCl pH8)洗涤,并在缓冲液(20uL的40mMCAPSpH10,40mMKC1样品5)中洗脱。
试剂 组分
样品4 20ul
Y-适配器1 5μl
NEB Blunt TA MM(2x) 25μL
表5
1.6-系链的退火
然后将存在于样品5中的DNA分析物退火至系链。将样品5用DNA系链(AACAACCT序列其5′端连接到三个iSp18间隔基,两个胸腺嘧啶和5′胆固醇TEG,并且序列AACAACCT其3′端连接到三个3′端连接到SEQ ID NO:35的iSp18间隔基),500nM,5μL)在室温下培育10分钟。所得样品称为样品6。
1.7-电生理检测
在设置实验之前,将DNA样品6(样品6的总体积的四分之一)加入到缓冲液(25mM磷酸钾缓冲液(pH7.5),500mM KC1),MgCl2(1mM)和ATP(2mM),所得总体积为 150μL。
在缓冲液(25mM K磷酸盐缓冲液,150mM亚铁氰化钾(II))和150mM铁氰化钾(III),pH8.0)中从插入嵌段共聚物中的单个MspA纳米孔获得电测量值。在实现单孔插入嵌段共聚物中之后,将缓冲液(2mL,25mM K磷酸盐缓冲液,150mM亚铁氰化钾(II),150mM 铁氰化钾(III),pH 8.0)流过系统以去除任何过量MspA纳米孔。然后将酶(T4 Dda-E94C/C109A/C136A/A360C,10nM最终浓度),DNA样品6和燃料(MgCl2 2m最终浓度,ATP 2mM最终浓度)预混合物(总共150μL)流入单纳米孔实验系统中。实验在120mV 下进行,并且监测解旋酶控制的DNA运动6小时。
结果
观察到,样品制备过程(样品6)结束时产生的DNA的解旋酶控制的DNA运动。图3 显示了解旋酶控制DNA运动的示例。
还使用Agilent 12,000DNA芯片迹线分析样品制备过程。如果没有在68℃下的预培育,则在步骤1.2(其中5′发夹被转录)之前,随后在链离解(热变性步骤1.3)之后,没有制得合成的互补体(在图2的步骤4之后以虚线/点线示出),因为链缺少聚合酶引发所必需的3′发夹。这在图4所示的Agilent 12,000DNA芯片迹线中被观察到,其中标记为1的线是未处理的MuA片段化的DNA输入材料,标记为2的线是具有68℃培育步骤(在以上的1.2中) 且随后经历了所有1.3步骤的分析物,并且标记为3的线在步骤1.2中没有68℃培育,但经历了所有1.3步骤。因此,对于线3,没有制得dsDNA,因此在Agilent迹线上观察到平坦的线(区域标记为X),因为在95℃下链离解之前没有被复制的发夹。然而,对于线2,发夹被转录并且因此在链离解时,聚合酶从新的3′发夹引发填充。这意味着线2示出了在区域X 中的峰,其对应于由复制的发夹制成的dsDNA产物。
然而,如上所述,在步骤1.3中重复上述过程,向聚合酶提供标准DNA dNTP′s-dCTP/dATP/dGTP/dTTP,而不是产生DNA样品7的5-丙炔基-dU。图6示出了DNA 样品7(其在步骤1.3中使用标准DNA dNTP′s制备)的示例性的解旋酶控制的DNA移动。该样品制备过程是成功的,并且观察到该样品的解旋酶控制的DNA运动。
实施例2
该实施例描述了用于修饰模板双链多核苷酸的方法,特别是使用纳米孔测序进行表征的方法。图7示出了下面步骤2.1和2.2中描述的样品制备步骤的卡通表示。该实施例示出了 MuA转座酶能够将含有发夹环(该发夹环含有dG和dC的类似物)的MuA底物插入MuA 适配器的发夹环(dG被脱氧肌苷取代并且dC被脱氧zebularine取代)。然后使用聚合酶填充构建体中的间隙,所述聚合酶用与包含发夹环的链互补的新链取代突出链。与包含发夹环的链互补的新链也能够形成发夹环。新链的发夹环具有比双链区更高的Tm,该双链区在互补链和由A/T/Z/I(在图7中标记为1X)制成的发夹环之间形成。因此,形成了新链中的发夹(图7中标记为f2h)并且也形成了由A/T/Z/I制成的发夹环(在图7中标记为f1h)。然后聚合酶将发夹环用作引物以制备互补链。因此,不需要额外的加热步骤来分离在图7的步骤2之后产生的dsDNA构建体。
2.1-使用MuA转座酶片段化DNA模板
在该实施例中使用的MuA适配器具有5′7bp发夹,dG被替换为dInosine,dC被替换为 dZebularine。适配器P的上链(经修饰的多核苷酸序列IZITAZ(其中I是脱氧肌苷,Z是脱氧zebularrine)被连接到未经修饰的多核苷酸序列TTTTTA的5′端,TTTTTA的3′端与连接到SEQ ID NO:39的5′端的经修饰的多核苷酸序列ITAZIZ(其中I是脱氧肌苷,Z是脱氧zebularine)连接)和下链(SEQ ID NO:38)在10uM,95℃,以2℃min-1,在10mM Tris pH 7.5,50mM NaCl中退火。
如上表1所述,MuA片段化反应(10μL)使用适配器P而不是适配器X设置,并在30℃下培育1小时。然后通过在75℃加热15分钟将MuA酶进行热灭活。最后,将所得的DNA 进行1.5×SPRI纯化并在无核酸酶的水(42μL)中洗脱。
2.2-用DNA聚合酶培育DNA模板
在MuA片段化过程之后,将纯化的DNA用DNA聚合酶培育以复制上链发夹(其G/C 用I/Z替换)。
在此步骤期间,与包含发夹环的链互补的新链形成发夹环。这是由于由新链形成的发夹环比在互补链和含有dZ和dI的类似物的发夹环之间形成的双链区具有更高的Tm。因此,不需要加热双链DNA,来将其分离成ssDNA,因为具有较高Tm的发夹环优先形成,然后聚合酶使用该发夹环作为引物来制得互补链。
DNA聚合酶反应(50uL)如下表所述设置,并在37℃培育30分钟。最后,将所得的DNA进行1.5×SPRI纯化并在无核酸酶的水(42uL)中洗脱。
Figure BDA0001297751970000291
表6
该链可以通过dA拖尾进一步修饰,将适配器与预加载的酶连接并与系链杂交(如实施例1.4-1.6中所述),从而产生可以使用纳米孔系统表征的链(如实施例1.7中所述)。
序列表
<110> 牛津纳米孔技术公司
<120> 方法
<130> N404112WO
<140> GB1418159.8
<141> 2014-10-14
<160> 37
<170> PatentIn version 3.5
<210> 1
<211> 558
<212> DNA
<213> 人工序列
<220>
<223> 耻垢分枝杆菌(Mycobacterium smegmatis)孔蛋白A突变体
(D90N/D91N/D93N/D118R/D134R/E193K)
<400> 1
atgggtctgg ataatgaact gagcctggtg gacggtcaag atcgtaccct gacggtgcaa 60
caatgggata cctttctgaa tggcgttttt ccgctggatc gtaatcgcct gacccgtgaa 120
tggtttcatt ccggtcgcgc aaaatatatc gtcgcaggcc cgggtgctga cgaattcgaa 180
ggcacgctgg aactgggtta tcagattggc tttccgtggt cactgggcgt tggtatcaac 240
ttctcgtaca ccacgccgaa tattctgatc aacaatggta acattaccgc accgccgttt 300
ggcctgaaca gcgtgattac gccgaacctg tttccgggtg ttagcatctc tgcccgtctg 360
ggcaatggtc cgggcattca agaagtggca acctttagtg tgcgcgtttc cggcgctaaa 420
ggcggtgtcg cggtgtctaa cgcccacggt accgttacgg gcgcggccgg cggtgtcctg 480
ctgcgtccgt tcgcgcgcct gattgcctct accggcgaca gcgttacgac ctatggcgaa 540
ccgtggaata tgaactaa 558
<210> 2
<211> 184
<212> PRT
<213> 人工序列
<220>
<223> 耻垢分枝杆菌孔蛋白A突变体
(D90N/D91N/D93N/D118R/D134R/E139K)
<400> 2
Gly Leu Asp Asn Glu Leu Ser Leu Val Asp Gly Gln Asp Arg Thr Leu
1 5 10 15
Thr Val Gln Gln Trp Asp Thr Phe Leu Asn Gly Val Phe Pro Leu Asp
20 25 30
Arg Asn Arg Leu Thr Arg Glu Trp Phe His Ser Gly Arg Ala Lys Tyr
35 40 45
Ile Val Ala Gly Pro Gly Ala Asp Glu Phe Glu Gly Thr Leu Glu Leu
50 55 60
Gly Tyr Gln Ile Gly Phe Pro Trp Ser Leu Gly Val Gly Ile Asn Phe
65 70 75 80
Ser Tyr Thr Thr Pro Asn Ile Leu Ile Asn Asn Gly Asn Ile Thr Ala
85 90 95
Pro Pro Phe Gly Leu Asn Ser Val Ile Thr Pro Asn Leu Phe Pro Gly
100 105 110
Val Ser Ile Ser Ala Arg Leu Gly Asn Gly Pro Gly Ile Gln Glu Val
115 120 125
Ala Thr Phe Ser Val Arg Val Ser Gly Ala Lys Gly Gly Val Ala Val
130 135 140
Ser Asn Ala His Gly Thr Val Thr Gly Ala Ala Gly Gly Val Leu Leu
145 150 155 160
Arg Pro Phe Ala Arg Leu Ile Ala Ser Thr Gly Asp Ser Val Thr Thr
165 170 175
Tyr Gly Glu Pro Trp Asn Met Asn
180
<210> 3
<211> 885
<212> DNA
<213> 人工序列
<220>
<223> α-溶血素突变体(E111N/K147N)
<400> 3
atggcagatt ctgatattaa tattaaaacc ggtactacag atattggaag caatactaca 60
gtaaaaacag gtgatttagt cacttatgat aaagaaaatg gcatgcacaa aaaagtattt 120
tatagtttta tcgatgataa aaatcacaat aaaaaactgc tagttattag aacaaaaggt 180
accattgctg gtcaatatag agtttatagc gaagaaggtg ctaacaaaag tggtttagcc 240
tggccttcag cctttaaggt acagttgcaa ctacctgata atgaagtagc tcaaatatct 300
gattactatc caagaaattc gattgataca aaaaactata tgagtacttt aacttatgga 360
ttcaacggta atgttactgg tgatgataca ggaaaaattg gcggccttat tggtgcaaat 420
gtttcgattg gtcatacact gaactatgtt caacctgatt tcaaaacaat tttagagagc 480
ccaactgata aaaaagtagg ctggaaagtg atatttaaca atatggtgaa tcaaaattgg 540
ggaccatacg atcgagattc ttggaacccg gtatatggca atcaactttt catgaaaact 600
agaaatggtt ctatgaaagc agcagataac ttccttgatc ctaacaaagc aagttctcta 660
ttatcttcag ggttttcacc agacttcgct acagttatta ctatggatag aaaagcatcc 720
aaacaacaaa caaatataga tgtaatatac gaacgagttc gtgatgatta ccaattgcat 780
tggacttcaa caaattggaa aggtaccaat actaaagata aatggacaga tcgttcttca 840
gaaagatata aaatcgattg ggaaaaagaa gaaatgacaa attaa 885
<210> 4
<211> 293
<212> PRT
<213> 人工序列
<220>
<223> α-溶血素突变体(E111N/K147N)
<400> 4
Ala Asp Ser Asp Ile Asn Ile Lys Thr Gly Thr Thr Asp Ile Gly Ser
1 5 10 15
Asn Thr Thr Val Lys Thr Gly Asp Leu Val Thr Tyr Asp Lys Glu Asn
20 25 30
Gly Met His Lys Lys Val Phe Tyr Ser Phe Ile Asp Asp Lys Asn His
35 40 45
Asn Lys Lys Leu Leu Val Ile Arg Thr Lys Gly Thr Ile Ala Gly Gln
50 55 60
Tyr Arg Val Tyr Ser Glu Glu Gly Ala Asn Lys Ser Gly Leu Ala Trp
65 70 75 80
Pro Ser Ala Phe Lys Val Gln Leu Gln Leu Pro Asp Asn Glu Val Ala
85 90 95
Gln Ile Ser Asp Tyr Tyr Pro Arg Asn Ser Ile Asp Thr Lys Asn Tyr
100 105 110
Met Ser Thr Leu Thr Tyr Gly Phe Asn Gly Asn Val Thr Gly Asp Asp
115 120 125
Thr Gly Lys Ile Gly Gly Leu Ile Gly Ala Asn Val Ser Ile Gly His
130 135 140
Thr Leu Asn Tyr Val Gln Pro Asp Phe Lys Thr Ile Leu Glu Ser Pro
145 150 155 160
Thr Asp Lys Lys Val Gly Trp Lys Val Ile Phe Asn Asn Met Val Asn
165 170 175
Gln Asn Trp Gly Pro Tyr Asp Arg Asp Ser Trp Asn Pro Val Tyr Gly
180 185 190
Asn Gln Leu Phe Met Lys Thr Arg Asn Gly Ser Met Lys Ala Ala Asp
195 200 205
Asn Phe Leu Asp Pro Asn Lys Ala Ser Ser Leu Leu Ser Ser Gly Phe
210 215 220
Ser Pro Asp Phe Ala Thr Val Ile Thr Met Asp Arg Lys Ala Ser Lys
225 230 235 240
Gln Gln Thr Asn Ile Asp Val Ile Tyr Glu Arg Val Arg Asp Asp Tyr
245 250 255
Gln Leu His Trp Thr Ser Thr Asn Trp Lys Gly Thr Asn Thr Lys Asp
260 265 270
Lys Trp Thr Asp Arg Ser Ser Glu Arg Tyr Lys Ile Asp Trp Glu Lys
275 280 285
Glu Glu Met Thr Asn
290
<210> 5
<211> 184
<212> PRT
<213> 耻垢分枝杆菌
<400> 5
Gly Leu Asp Asn Glu Leu Ser Leu Val Asp Gly Gln Asp Arg Thr Leu
1 5 10 15
Thr Val Gln Gln Trp Asp Thr Phe Leu Asn Gly Val Phe Pro Leu Asp
20 25 30
Arg Asn Arg Leu Thr Arg Glu Trp Phe His Ser Gly Arg Ala Lys Tyr
35 40 45
Ile Val Ala Gly Pro Gly Ala Asp Glu Phe Glu Gly Thr Leu Glu Leu
50 55 60
Gly Tyr Gln Ile Gly Phe Pro Trp Ser Leu Gly Val Gly Ile Asn Phe
65 70 75 80
Ser Tyr Thr Thr Pro Asn Ile Leu Ile Asp Asp Gly Asp Ile Thr Ala
85 90 95
Pro Pro Phe Gly Leu Asn Ser Val Ile Thr Pro Asn Leu Phe Pro Gly
100 105 110
Val Ser Ile Ser Ala Asp Leu Gly Asn Gly Pro Gly Ile Gln Glu Val
115 120 125
Ala Thr Phe Ser Val Asp Val Ser Gly Pro Ala Gly Gly Val Ala Val
130 135 140
Ser Asn Ala His Gly Thr Val Thr Gly Ala Ala Gly Gly Val Leu Leu
145 150 155 160
Arg Pro Phe Ala Arg Leu Ile Ala Ser Thr Gly Asp Ser Val Thr Thr
165 170 175
Tyr Gly Glu Pro Trp Asn Met Asn
180
<210> 6
<211> 184
<212> PRT
<213> 耻垢分枝杆菌
<400> 6
Gly Leu Asp Asn Glu Leu Ser Leu Val Asp Gly Gln Asp Arg Thr Leu
1 5 10 15
Thr Val Gln Gln Trp Asp Thr Phe Leu Asn Gly Val Phe Pro Leu Asp
20 25 30
Arg Asn Arg Leu Thr Arg Glu Trp Phe His Ser Gly Arg Ala Lys Tyr
35 40 45
Ile Val Ala Gly Pro Gly Ala Asp Glu Phe Glu Gly Thr Leu Glu Leu
50 55 60
Gly Tyr Gln Ile Gly Phe Pro Trp Ser Leu Gly Val Gly Ile Asn Phe
65 70 75 80
Ser Tyr Thr Thr Pro Asn Ile Leu Ile Asp Asp Gly Asp Ile Thr Gly
85 90 95
Pro Pro Phe Gly Leu Glu Ser Val Ile Thr Pro Asn Leu Phe Pro Gly
100 105 110
Val Ser Ile Ser Ala Asp Leu Gly Asn Gly Pro Gly Ile Gln Glu Val
115 120 125
Ala Thr Phe Ser Val Asp Val Ser Gly Pro Ala Gly Gly Val Ala Val
130 135 140
Ser Asn Ala His Gly Thr Val Thr Gly Ala Ala Gly Gly Val Leu Leu
145 150 155 160
Arg Pro Phe Ala Arg Leu Ile Ala Ser Thr Gly Asp Ser Val Thr Thr
165 170 175
Tyr Gly Glu Pro Trp Asn Met Asn
180
<210> 7
<211> 183
<212> PRT
<213> 耻垢分枝杆菌
<400> 7
Val Asp Asn Gln Leu Ser Val Val Asp Gly Gln Gly Arg Thr Leu Thr
1 5 10 15
Val Gln Gln Ala Glu Thr Phe Leu Asn Gly Val Phe Pro Leu Asp Arg
20 25 30
Asn Arg Leu Thr Arg Glu Trp Phe His Ser Gly Arg Ala Thr Tyr His
35 40 45
Val Ala Gly Pro Gly Ala Asp Glu Phe Glu Gly Thr Leu Glu Leu Gly
50 55 60
Tyr Gln Val Gly Phe Pro Trp Ser Leu Gly Val Gly Ile Asn Phe Ser
65 70 75 80
Tyr Thr Thr Pro Asn Ile Leu Ile Asp Gly Gly Asp Ile Thr Gln Pro
85 90 95
Pro Phe Gly Leu Asp Thr Ile Ile Thr Pro Asn Leu Phe Pro Gly Val
100 105 110
Ser Ile Ser Ala Asp Leu Gly Asn Gly Pro Gly Ile Gln Glu Val Ala
115 120 125
Thr Phe Ser Val Asp Val Lys Gly Ala Lys Gly Ala Val Ala Val Ser
130 135 140
Asn Ala His Gly Thr Val Thr Gly Ala Ala Gly Gly Val Leu Leu Arg
145 150 155 160
Pro Phe Ala Arg Leu Ile Ala Ser Thr Gly Asp Ser Val Thr Thr Tyr
165 170 175
Gly Glu Pro Trp Asn Met Asn
180
<210> 8
<211> 1830
<212> DNA
<213> 枯草芽孢杆菌噬菌体(Bacillus subtilis phage)phi29
<400> 8
atgaaacaca tgccgcgtaa aatgtatagc tgcgcgtttg aaaccacgac caaagtggaa 60
gattgtcgcg tttgggccta tggctacatg aacatcgaag atcattctga atacaaaatc 120
ggtaacagtc tggatgaatt tatggcatgg gtgctgaaag ttcaggcgga tctgtacttc 180
cacaacctga aatttgatgg cgcattcatt atcaactggc tggaacgtaa tggctttaaa 240
tggagcgcgg atggtctgcc gaacacgtat aataccatta tctctcgtat gggccagtgg 300
tatatgattg atatctgcct gggctacaaa ggtaaacgca aaattcatac cgtgatctat 360
gatagcctga aaaaactgcc gtttccggtg aagaaaattg cgaaagattt caaactgacg 420
gttctgaaag gcgatattga ttatcacaaa gaacgtccgg ttggttacaa aatcaccccg 480
gaagaatacg catacatcaa aaacgatatc cagatcatcg cagaagcgct gctgattcag 540
tttaaacagg gcctggatcg catgaccgcg ggcagtgata gcctgaaagg tttcaaagat 600
atcatcacga ccaaaaaatt caaaaaagtg ttcccgacgc tgagcctggg tctggataaa 660
gaagttcgtt atgcctaccg cggcggtttt acctggctga acgatcgttt caaagaaaaa 720
gaaattggcg agggtatggt gtttgatgtt aatagtctgt atccggcaca gatgtacagc 780
cgcctgctgc cgtatggcga accgatcgtg ttcgagggta aatatgtttg ggatgaagat 840
tacccgctgc atattcagca catccgttgt gaatttgaac tgaaagaagg ctatattccg 900
accattcaga tcaaacgtag tcgcttctat aagggtaacg aatacctgaa aagctctggc 960
ggtgaaatcg cggatctgtg gctgagtaac gtggatctgg aactgatgaa agaacactac 1020
gatctgtaca acgttgaata catcagcggc ctgaaattta aagccacgac cggtctgttc 1080
aaagatttca tcgataaatg gacctacatc aaaacgacct ctgaaggcgc gattaaacag 1140
ctggccaaac tgatgctgaa cagcctgtat ggcaaattcg cctctaatcc ggatgtgacc 1200
ggtaaagttc cgtacctgaa agaaaatggc gcactgggtt ttcgcctggg cgaagaagaa 1260
acgaaagatc cggtgtatac cccgatgggt gttttcatta cggcctgggc acgttacacg 1320
accatcaccg cggcccaggc atgctatgat cgcattatct actgtgatac cgattctatt 1380
catctgacgg gcaccgaaat cccggatgtg attaaagata tcgttgatcc gaaaaaactg 1440
ggttattggg cccacgaaag tacgtttaaa cgtgcaaaat acctgcgcca gaaaacctac 1500
atccaggata tctacatgaa agaagtggat ggcaaactgg ttgaaggttc tccggatgat 1560
tacaccgata tcaaattcag tgtgaaatgc gccggcatga cggataaaat caaaaaagaa 1620
gtgaccttcg aaaacttcaa agttggtttc agccgcaaaa tgaaaccgaa accggtgcag 1680
gttccgggcg gtgtggttct ggtggatgat acgtttacca ttaaatctgg cggtagtgcg 1740
tggagccatc cgcagttcga aaaaggcggt ggctctggtg gcggttctgg cggtagtgcc 1800
tggagccacc cgcagtttga aaaataataa 1830
<210> 9
<211> 608
<212> PRT
<213> 枯草芽孢杆菌噬菌体phi29
<400> 9
Met Lys His Met Pro Arg Lys Met Tyr Ser Cys Ala Phe Glu Thr Thr
1 5 10 15
Thr Lys Val Glu Asp Cys Arg Val Trp Ala Tyr Gly Tyr Met Asn Ile
20 25 30
Glu Asp His Ser Glu Tyr Lys Ile Gly Asn Ser Leu Asp Glu Phe Met
35 40 45
Ala Trp Val Leu Lys Val Gln Ala Asp Leu Tyr Phe His Asn Leu Lys
50 55 60
Phe Asp Gly Ala Phe Ile Ile Asn Trp Leu Glu Arg Asn Gly Phe Lys
65 70 75 80
Trp Ser Ala Asp Gly Leu Pro Asn Thr Tyr Asn Thr Ile Ile Ser Arg
85 90 95
Met Gly Gln Trp Tyr Met Ile Asp Ile Cys Leu Gly Tyr Lys Gly Lys
100 105 110
Arg Lys Ile His Thr Val Ile Tyr Asp Ser Leu Lys Lys Leu Pro Phe
115 120 125
Pro Val Lys Lys Ile Ala Lys Asp Phe Lys Leu Thr Val Leu Lys Gly
130 135 140
Asp Ile Asp Tyr His Lys Glu Arg Pro Val Gly Tyr Lys Ile Thr Pro
145 150 155 160
Glu Glu Tyr Ala Tyr Ile Lys Asn Asp Ile Gln Ile Ile Ala Glu Ala
165 170 175
Leu Leu Ile Gln Phe Lys Gln Gly Leu Asp Arg Met Thr Ala Gly Ser
180 185 190
Asp Ser Leu Lys Gly Phe Lys Asp Ile Ile Thr Thr Lys Lys Phe Lys
195 200 205
Lys Val Phe Pro Thr Leu Ser Leu Gly Leu Asp Lys Glu Val Arg Tyr
210 215 220
Ala Tyr Arg Gly Gly Phe Thr Trp Leu Asn Asp Arg Phe Lys Glu Lys
225 230 235 240
Glu Ile Gly Glu Gly Met Val Phe Asp Val Asn Ser Leu Tyr Pro Ala
245 250 255
Gln Met Tyr Ser Arg Leu Leu Pro Tyr Gly Glu Pro Ile Val Phe Glu
260 265 270
Gly Lys Tyr Val Trp Asp Glu Asp Tyr Pro Leu His Ile Gln His Ile
275 280 285
Arg Cys Glu Phe Glu Leu Lys Glu Gly Tyr Ile Pro Thr Ile Gln Ile
290 295 300
Lys Arg Ser Arg Phe Tyr Lys Gly Asn Glu Tyr Leu Lys Ser Ser Gly
305 310 315 320
Gly Glu Ile Ala Asp Leu Trp Leu Ser Asn Val Asp Leu Glu Leu Met
325 330 335
Lys Glu His Tyr Asp Leu Tyr Asn Val Glu Tyr Ile Ser Gly Leu Lys
340 345 350
Phe Lys Ala Thr Thr Gly Leu Phe Lys Asp Phe Ile Asp Lys Trp Thr
355 360 365
Tyr Ile Lys Thr Thr Ser Glu Gly Ala Ile Lys Gln Leu Ala Lys Leu
370 375 380
Met Leu Asn Ser Leu Tyr Gly Lys Phe Ala Ser Asn Pro Asp Val Thr
385 390 395 400
Gly Lys Val Pro Tyr Leu Lys Glu Asn Gly Ala Leu Gly Phe Arg Leu
405 410 415
Gly Glu Glu Glu Thr Lys Asp Pro Val Tyr Thr Pro Met Gly Val Phe
420 425 430
Ile Thr Ala Trp Ala Arg Tyr Thr Thr Ile Thr Ala Ala Gln Ala Cys
435 440 445
Tyr Asp Arg Ile Ile Tyr Cys Asp Thr Asp Ser Ile His Leu Thr Gly
450 455 460
Thr Glu Ile Pro Asp Val Ile Lys Asp Ile Val Asp Pro Lys Lys Leu
465 470 475 480
Gly Tyr Trp Ala His Glu Ser Thr Phe Lys Arg Ala Lys Tyr Leu Arg
485 490 495
Gln Lys Thr Tyr Ile Gln Asp Ile Tyr Met Lys Glu Val Asp Gly Lys
500 505 510
Leu Val Glu Gly Ser Pro Asp Asp Tyr Thr Asp Ile Lys Phe Ser Val
515 520 525
Lys Cys Ala Gly Met Thr Asp Lys Ile Lys Lys Glu Val Thr Phe Glu
530 535 540
Asn Phe Lys Val Gly Phe Ser Arg Lys Met Lys Pro Lys Pro Val Gln
545 550 555 560
Val Pro Gly Gly Val Val Leu Val Asp Asp Thr Phe Thr Ile Lys Ser
565 570 575
Gly Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser
580 585 590
Gly Gly Gly Ser Gly Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys
595 600 605
<210> 10
<211> 1390
<212> DNA
<213> 大肠杆菌(Escherichia coli)
<400> 10
atgatgaacg atggcaaaca gcagagcacc ttcctgtttc atgattatga aaccttcggt 60
acccatccgg ccctggatcg tccggcgcag tttgcggcca ttcgcaccga tagcgaattc 120
aatgtgattg gcgaaccgga agtgttttat tgcaaaccgg ccgatgatta tctgccgcag 180
ccgggtgcgg tgctgattac cggtattacc ccgcaggaag cgcgcgcgaa aggtgaaaac 240
gaagcggcgt ttgccgcgcg cattcatagc ctgtttaccg tgccgaaaac ctgcattctg 300
ggctataaca atgtgcgctt cgatgatgaa gttacccgta atatctttta tcgtaacttt 360
tatgatccgt atgcgtggag ctggcagcat gataacagcc gttgggatct gctggatgtg 420
atgcgcgcgt gctatgcgct gcgcccggaa ggcattaatt ggccggaaaa cgatgatggc 480
ctgccgagct ttcgtctgga acatctgacc aaagccaacg gcattgaaca tagcaatgcc 540
catgatgcga tggccgatgt ttatgcgacc attgcgatgg cgaaactggt taaaacccgt 600
cagccgcgcc tgtttgatta tctgtttacc caccgtaaca aacacaaact gatggcgctg 660
attgatgttc cgcagatgaa accgctggtg catgtgagcg gcatgtttgg cgcctggcgc 720
ggcaacacca gctgggtggc cccgctggcc tggcacccgg aaaatcgtaa cgccgtgatt 780
atggttgatc tggccggtga tattagcccg ctgctggaac tggatagcga taccctgcgt 840
gaacgcctgt ataccgccaa aaccgatctg ggcgataatg ccgccgtgcc ggtgaaactg 900
gttcacatta acaaatgccc ggtgctggcc caggcgaaca ccctgcgccc ggaagatgcg 960
gatcgtctgg gtattaatcg ccagcattgt ctggataatc tgaaaatcct gcgtgaaaac 1020
ccgcaggtgc gtgaaaaagt ggtggcgatc ttcgcggaag cggaaccgtt caccccgagc 1080
gataacgtgg atgcgcagct gtataacggc ttctttagcg atgccgatcg cgcggcgatg 1140
aaaatcgttc tggaaaccga accgcgcaat ctgccggcgc tggatattac ctttgttgat 1200
aaacgtattg aaaaactgct gtttaattat cgtgcgcgca attttccggg taccctggat 1260
tatgccgaac agcagcgttg gctggaacat cgtcgtcagg ttttcacccc ggaatttctg 1320
cagggttatg cggatgaact gcagatgctg gttcagcagt atgccgatga taaagaaaaa 1380
gtggcgctgc 1390
<210> 11
<211> 485
<212> PRT
<213> 大肠杆菌
<400> 11
Met Met Asn Asp Gly Lys Gln Gln Ser Thr Phe Leu Phe His Asp Tyr
1 5 10 15
Glu Thr Phe Gly Thr His Pro Ala Leu Asp Arg Pro Ala Gln Phe Ala
20 25 30
Ala Ile Arg Thr Asp Ser Glu Phe Asn Val Ile Gly Glu Pro Glu Val
35 40 45
Phe Tyr Cys Lys Pro Ala Asp Asp Tyr Leu Pro Gln Pro Gly Ala Val
50 55 60
Leu Ile Thr Gly Ile Thr Pro Gln Glu Ala Arg Ala Lys Gly Glu Asn
65 70 75 80
Glu Ala Ala Phe Ala Ala Arg Ile His Ser Leu Phe Thr Val Pro Lys
85 90 95
Thr Cys Ile Leu Gly Tyr Asn Asn Val Arg Phe Asp Asp Glu Val Thr
100 105 110
Arg Asn Ile Phe Tyr Arg Asn Phe Tyr Asp Pro Tyr Ala Trp Ser Trp
115 120 125
Gln His Asp Asn Ser Arg Trp Asp Leu Leu Asp Val Met Arg Ala Cys
130 135 140
Tyr Ala Leu Arg Pro Glu Gly Ile Asn Trp Pro Glu Asn Asp Asp Gly
145 150 155 160
Leu Pro Ser Phe Arg Leu Glu His Leu Thr Lys Ala Asn Gly Ile Glu
165 170 175
His Ser Asn Ala His Asp Ala Met Ala Asp Val Tyr Ala Thr Ile Ala
180 185 190
Met Ala Lys Leu Val Lys Thr Arg Gln Pro Arg Leu Phe Asp Tyr Leu
195 200 205
Phe Thr His Arg Asn Lys His Lys Leu Met Ala Leu Ile Asp Val Pro
210 215 220
Gln Met Lys Pro Leu Val His Val Ser Gly Met Phe Gly Ala Trp Arg
225 230 235 240
Gly Asn Thr Ser Trp Val Ala Pro Leu Ala Trp His Pro Glu Asn Arg
245 250 255
Asn Ala Val Ile Met Val Asp Leu Ala Gly Asp Ile Ser Pro Leu Leu
260 265 270
Glu Leu Asp Ser Asp Thr Leu Arg Glu Arg Leu Tyr Thr Ala Lys Thr
275 280 285
Asp Leu Gly Asp Asn Ala Ala Val Pro Val Lys Leu Val His Ile Asn
290 295 300
Lys Cys Pro Val Leu Ala Gln Ala Asn Thr Leu Arg Pro Glu Asp Ala
305 310 315 320
Asp Arg Leu Gly Ile Asn Arg Gln His Cys Leu Asp Asn Leu Lys Ile
325 330 335
Leu Arg Glu Asn Pro Gln Val Arg Glu Lys Val Val Ala Ile Phe Ala
340 345 350
Glu Ala Glu Pro Phe Thr Pro Ser Asp Asn Val Asp Ala Gln Leu Tyr
355 360 365
Asn Gly Phe Phe Ser Asp Ala Asp Arg Ala Ala Met Lys Ile Val Leu
370 375 380
Glu Thr Glu Pro Arg Asn Leu Pro Ala Leu Asp Ile Thr Phe Val Asp
385 390 395 400
Lys Arg Ile Glu Lys Leu Leu Phe Asn Tyr Arg Ala Arg Asn Phe Pro
405 410 415
Gly Thr Leu Asp Tyr Ala Glu Gln Gln Arg Trp Leu Glu His Arg Arg
420 425 430
Gln Val Phe Thr Pro Glu Phe Leu Gln Gly Tyr Ala Asp Glu Leu Gln
435 440 445
Met Leu Val Gln Gln Tyr Ala Asp Asp Lys Glu Lys Val Ala Leu Leu
450 455 460
Lys Ala Leu Trp Gln Tyr Ala Glu Glu Ile Val Ser Gly Ser Gly His
465 470 475 480
His His His His His
485
<210> 12
<211> 804
<212> DNA
<213> 大肠杆菌
<400> 12
atgaaatttg tctcttttaa tatcaacggc ctgcgcgcca gacctcacca gcttgaagcc 60
atcgtcgaaa agcaccaacc ggatgtgatt ggcctgcagg agacaaaagt tcatgacgat 120
atgtttccgc tcgaagaggt ggcgaagctc ggctacaacg tgttttatca cgggcagaaa 180
ggccattatg gcgtggcgct gctgaccaaa gagacgccga ttgccgtgcg tcgcggcttt 240
cccggtgacg acgaagaggc gcagcggcgg attattatgg cggaaatccc ctcactgctg 300
ggtaatgtca ccgtgatcaa cggttacttc ccgcagggtg aaagccgcga ccatccgata 360
aaattcccgg caaaagcgca gttttatcag aatctgcaaa actacctgga aaccgaactc 420
aaacgtgata atccggtact gattatgggc gatatgaata tcagccctac agatctggat 480
atcggcattg gcgaagaaaa ccgtaagcgc tggctgcgta ccggtaaatg ctctttcctg 540
ccggaagagc gcgaatggat ggacaggctg atgagctggg ggttggtcga taccttccgc 600
catgcgaatc cgcaaacagc agatcgtttc tcatggtttg attaccgctc aaaaggtttt 660
gacgataacc gtggtctgcg catcgacctg ctgctcgcca gccaaccgct ggcagaatgt 720
tgcgtagaaa ccggcatcga ctatgaaatc cgcagcatgg aaaaaccgtc cgatcacgcc 780
cccgtctggg cgaccttccg ccgc 804
<210> 13
<211> 268
<212> PRT
<213> 大肠杆菌
<400> 13
Met Lys Phe Val Ser Phe Asn Ile Asn Gly Leu Arg Ala Arg Pro His
1 5 10 15
Gln Leu Glu Ala Ile Val Glu Lys His Gln Pro Asp Val Ile Gly Leu
20 25 30
Gln Glu Thr Lys Val His Asp Asp Met Phe Pro Leu Glu Glu Val Ala
35 40 45
Lys Leu Gly Tyr Asn Val Phe Tyr His Gly Gln Lys Gly His Tyr Gly
50 55 60
Val Ala Leu Leu Thr Lys Glu Thr Pro Ile Ala Val Arg Arg Gly Phe
65 70 75 80
Pro Gly Asp Asp Glu Glu Ala Gln Arg Arg Ile Ile Met Ala Glu Ile
85 90 95
Pro Ser Leu Leu Gly Asn Val Thr Val Ile Asn Gly Tyr Phe Pro Gln
100 105 110
Gly Glu Ser Arg Asp His Pro Ile Lys Phe Pro Ala Lys Ala Gln Phe
115 120 125
Tyr Gln Asn Leu Gln Asn Tyr Leu Glu Thr Glu Leu Lys Arg Asp Asn
130 135 140
Pro Val Leu Ile Met Gly Asp Met Asn Ile Ser Pro Thr Asp Leu Asp
145 150 155 160
Ile Gly Ile Gly Glu Glu Asn Arg Lys Arg Trp Leu Arg Thr Gly Lys
165 170 175
Cys Ser Phe Leu Pro Glu Glu Arg Glu Trp Met Asp Arg Leu Met Ser
180 185 190
Trp Gly Leu Val Asp Thr Phe Arg His Ala Asn Pro Gln Thr Ala Asp
195 200 205
Arg Phe Ser Trp Phe Asp Tyr Arg Ser Lys Gly Phe Asp Asp Asn Arg
210 215 220
Gly Leu Arg Ile Asp Leu Leu Leu Ala Ser Gln Pro Leu Ala Glu Cys
225 230 235 240
Cys Val Glu Thr Gly Ile Asp Tyr Glu Ile Arg Ser Met Glu Lys Pro
245 250 255
Ser Asp His Ala Pro Val Trp Ala Thr Phe Arg Arg
260 265
<210> 14
<211> 1275
<212> DNA
<213> 嗜热栖热菌(Thermus thermophilus)
<400> 14
atgtttcgtc gtaaagaaga tctggatccg ccgctggcac tgctgccgct gaaaggcctg 60
cgcgaagccg ccgcactgct ggaagaagcg ctgcgtcaag gtaaacgcat tcgtgttcac 120
ggcgactatg atgcggatgg cctgaccggc accgcgatcc tggttcgtgg tctggccgcc 180
ctgggtgcgg atgttcatcc gtttatcccg caccgcctgg aagaaggcta tggtgtcctg 240
atggaacgcg tcccggaaca tctggaagcc tcggacctgt ttctgaccgt tgactgcggc 300
attaccaacc atgcggaact gcgcgaactg ctggaaaatg gcgtggaagt cattgttacc 360
gatcatcata cgccgggcaa aacgccgccg ccgggtctgg tcgtgcatcc ggcgctgacg 420
ccggatctga aagaaaaacc gaccggcgca ggcgtggcgt ttctgctgct gtgggcactg 480
catgaacgcc tgggcctgcc gccgccgctg gaatacgcgg acctggcagc cgttggcacc 540
attgccgacg ttgccccgct gtggggttgg aatcgtgcac tggtgaaaga aggtctggca 600
cgcatcccgg cttcatcttg ggtgggcctg cgtctgctgg ctgaagccgt gggctatacc 660
ggcaaagcgg tcgaagtcgc tttccgcatc gcgccgcgca tcaatgcggc ttcccgcctg 720
ggcgaagcgg aaaaagccct gcgcctgctg ctgacggatg atgcggcaga agctcaggcg 780
ctggtcggcg aactgcaccg tctgaacgcc cgtcgtcaga ccctggaaga agcgatgctg 840
cgcaaactgc tgccgcaggc cgacccggaa gcgaaagcca tcgttctgct ggacccggaa 900
ggccatccgg gtgttatggg tattgtggcc tctcgcatcc tggaagcgac cctgcgcccg 960
gtctttctgg tggcccaggg caaaggcacc gtgcgttcgc tggctccgat ttccgccgtc 1020
gaagcactgc gcagcgcgga agatctgctg ctgcgttatg gtggtcataa agaagcggcg 1080
ggtttcgcaa tggatgaagc gctgtttccg gcgttcaaag cacgcgttga agcgtatgcc 1140
gcacgtttcc cggatccggt tcgtgaagtg gcactgctgg atctgctgcc ggaaccgggc 1200
ctgctgccgc aggtgttccg tgaactggca ctgctggaac cgtatggtga aggtaacccg 1260
gaaccgctgt tcctg 1275
<210> 15
<211> 425
<212> PRT
<213> 嗜热栖热菌
<400> 15
Met Phe Arg Arg Lys Glu Asp Leu Asp Pro Pro Leu Ala Leu Leu Pro
1 5 10 15
Leu Lys Gly Leu Arg Glu Ala Ala Ala Leu Leu Glu Glu Ala Leu Arg
20 25 30
Gln Gly Lys Arg Ile Arg Val His Gly Asp Tyr Asp Ala Asp Gly Leu
35 40 45
Thr Gly Thr Ala Ile Leu Val Arg Gly Leu Ala Ala Leu Gly Ala Asp
50 55 60
Val His Pro Phe Ile Pro His Arg Leu Glu Glu Gly Tyr Gly Val Leu
65 70 75 80
Met Glu Arg Val Pro Glu His Leu Glu Ala Ser Asp Leu Phe Leu Thr
85 90 95
Val Asp Cys Gly Ile Thr Asn His Ala Glu Leu Arg Glu Leu Leu Glu
100 105 110
Asn Gly Val Glu Val Ile Val Thr Asp His His Thr Pro Gly Lys Thr
115 120 125
Pro Pro Pro Gly Leu Val Val His Pro Ala Leu Thr Pro Asp Leu Lys
130 135 140
Glu Lys Pro Thr Gly Ala Gly Val Ala Phe Leu Leu Leu Trp Ala Leu
145 150 155 160
His Glu Arg Leu Gly Leu Pro Pro Pro Leu Glu Tyr Ala Asp Leu Ala
165 170 175
Ala Val Gly Thr Ile Ala Asp Val Ala Pro Leu Trp Gly Trp Asn Arg
180 185 190
Ala Leu Val Lys Glu Gly Leu Ala Arg Ile Pro Ala Ser Ser Trp Val
195 200 205
Gly Leu Arg Leu Leu Ala Glu Ala Val Gly Tyr Thr Gly Lys Ala Val
210 215 220
Glu Val Ala Phe Arg Ile Ala Pro Arg Ile Asn Ala Ala Ser Arg Leu
225 230 235 240
Gly Glu Ala Glu Lys Ala Leu Arg Leu Leu Leu Thr Asp Asp Ala Ala
245 250 255
Glu Ala Gln Ala Leu Val Gly Glu Leu His Arg Leu Asn Ala Arg Arg
260 265 270
Gln Thr Leu Glu Glu Ala Met Leu Arg Lys Leu Leu Pro Gln Ala Asp
275 280 285
Pro Glu Ala Lys Ala Ile Val Leu Leu Asp Pro Glu Gly His Pro Gly
290 295 300
Val Met Gly Ile Val Ala Ser Arg Ile Leu Glu Ala Thr Leu Arg Pro
305 310 315 320
Val Phe Leu Val Ala Gln Gly Lys Gly Thr Val Arg Ser Leu Ala Pro
325 330 335
Ile Ser Ala Val Glu Ala Leu Arg Ser Ala Glu Asp Leu Leu Leu Arg
340 345 350
Tyr Gly Gly His Lys Glu Ala Ala Gly Phe Ala Met Asp Glu Ala Leu
355 360 365
Phe Pro Ala Phe Lys Ala Arg Val Glu Ala Tyr Ala Ala Arg Phe Pro
370 375 380
Asp Pro Val Arg Glu Val Ala Leu Leu Asp Leu Leu Pro Glu Pro Gly
385 390 395 400
Leu Leu Pro Gln Val Phe Arg Glu Leu Ala Leu Leu Glu Pro Tyr Gly
405 410 415
Glu Gly Asn Pro Glu Pro Leu Phe Leu
420 425
<210> 16
<211> 738
<212> DNA
<213> 细菌噬菌体λ(Bacteriophage lambda)
<400> 16
tccggaagcg gctctggtag tggttctggc atgacaccgg acattatcct gcagcgtacc 60
gggatcgatg tgagagctgt cgaacagggg gatgatgcgt ggcacaaatt acggctcggc 120
gtcatcaccg cttcagaagt tcacaacgtg atagcaaaac cccgctccgg aaagaagtgg 180
cctgacatga aaatgtccta cttccacacc ctgcttgctg aggtttgcac cggtgtggct 240
ccggaagtta acgctaaagc actggcctgg ggaaaacagt acgagaacga cgccagaacc 300
ctgtttgaat tcacttccgg cgtgaatgtt actgaatccc cgatcatcta tcgcgacgaa 360
agtatgcgta ccgcctgctc tcccgatggt ttatgcagtg acggcaacgg ccttgaactg 420
aaatgcccgt ttacctcccg ggatttcatg aagttccggc tcggtggttt cgaggccata 480
aagtcagctt acatggccca ggtgcagtac agcatgtggg tgacgcgaaa aaatgcctgg 540
tactttgcca actatgaccc gcgtatgaag cgtgaaggcc tgcattatgt cgtgattgag 600
cgggatgaaa agtacatggc gagttttgac gagatcgtgc cggagttcat cgaaaaaatg 660
gacgaggcac tggctgaaat tggttttgta tttggggagc aatggcgatc tggctctggt 720
tccggcagcg gttccgga 738
<210> 17
<211> 226
<212> PRT
<213> 细菌噬菌体λ
<400> 17
Met Thr Pro Asp Ile Ile Leu Gln Arg Thr Gly Ile Asp Val Arg Ala
1 5 10 15
Val Glu Gln Gly Asp Asp Ala Trp His Lys Leu Arg Leu Gly Val Ile
20 25 30
Thr Ala Ser Glu Val His Asn Val Ile Ala Lys Pro Arg Ser Gly Lys
35 40 45
Lys Trp Pro Asp Met Lys Met Ser Tyr Phe His Thr Leu Leu Ala Glu
50 55 60
Val Cys Thr Gly Val Ala Pro Glu Val Asn Ala Lys Ala Leu Ala Trp
65 70 75 80
Gly Lys Gln Tyr Glu Asn Asp Ala Arg Thr Leu Phe Glu Phe Thr Ser
85 90 95
Gly Val Asn Val Thr Glu Ser Pro Ile Ile Tyr Arg Asp Glu Ser Met
100 105 110
Arg Thr Ala Cys Ser Pro Asp Gly Leu Cys Ser Asp Gly Asn Gly Leu
115 120 125
Glu Leu Lys Cys Pro Phe Thr Ser Arg Asp Phe Met Lys Phe Arg Leu
130 135 140
Gly Gly Phe Glu Ala Ile Lys Ser Ala Tyr Met Ala Gln Val Gln Tyr
145 150 155 160
Ser Met Trp Val Thr Arg Lys Asn Ala Trp Tyr Phe Ala Asn Tyr Asp
165 170 175
Pro Arg Met Lys Arg Glu Gly Leu His Tyr Val Val Ile Glu Arg Asp
180 185 190
Glu Lys Tyr Met Ala Ser Phe Asp Glu Ile Val Pro Glu Phe Ile Glu
195 200 205
Lys Met Asp Glu Ala Leu Ala Glu Ile Gly Phe Val Phe Gly Glu Gln
210 215 220
Trp Arg
225
<210> 18
<211> 760
<212> PRT
<213> 伯顿拟甲烷球菌(Methanococcoides burtonii)
<400> 18
Met Met Ile Arg Glu Leu Asp Ile Pro Arg Asp Ile Ile Gly Phe Tyr
1 5 10 15
Glu Asp Ser Gly Ile Lys Glu Leu Tyr Pro Pro Gln Ala Glu Ala Ile
20 25 30
Glu Met Gly Leu Leu Glu Lys Lys Asn Leu Leu Ala Ala Ile Pro Thr
35 40 45
Ala Ser Gly Lys Thr Leu Leu Ala Glu Leu Ala Met Ile Lys Ala Ile
50 55 60
Arg Glu Gly Gly Lys Ala Leu Tyr Ile Val Pro Leu Arg Ala Leu Ala
65 70 75 80
Ser Glu Lys Phe Glu Arg Phe Lys Glu Leu Ala Pro Phe Gly Ile Lys
85 90 95
Val Gly Ile Ser Thr Gly Asp Leu Asp Ser Arg Ala Asp Trp Leu Gly
100 105 110
Val Asn Asp Ile Ile Val Ala Thr Ser Glu Lys Thr Asp Ser Leu Leu
115 120 125
Arg Asn Gly Thr Ser Trp Met Asp Glu Ile Thr Thr Val Val Val Asp
130 135 140
Glu Ile His Leu Leu Asp Ser Lys Asn Arg Gly Pro Thr Leu Glu Val
145 150 155 160
Thr Ile Thr Lys Leu Met Arg Leu Asn Pro Asp Val Gln Val Val Ala
165 170 175
Leu Ser Ala Thr Val Gly Asn Ala Arg Glu Met Ala Asp Trp Leu Gly
180 185 190
Ala Ala Leu Val Leu Ser Glu Trp Arg Pro Thr Asp Leu His Glu Gly
195 200 205
Val Leu Phe Gly Asp Ala Ile Asn Phe Pro Gly Ser Gln Lys Lys Ile
210 215 220
Asp Arg Leu Glu Lys Asp Asp Ala Val Asn Leu Val Leu Asp Thr Ile
225 230 235 240
Lys Ala Glu Gly Gln Cys Leu Val Phe Glu Ser Ser Arg Arg Asn Cys
245 250 255
Ala Gly Phe Ala Lys Thr Ala Ser Ser Lys Val Ala Lys Ile Leu Asp
260 265 270
Asn Asp Ile Met Ile Lys Leu Ala Gly Ile Ala Glu Glu Val Glu Ser
275 280 285
Thr Gly Glu Thr Asp Thr Ala Ile Val Leu Ala Asn Cys Ile Arg Lys
290 295 300
Gly Val Ala Phe His His Ala Gly Leu Asn Ser Asn His Arg Lys Leu
305 310 315 320
Val Glu Asn Gly Phe Arg Gln Asn Leu Ile Lys Val Ile Ser Ser Thr
325 330 335
Pro Thr Leu Ala Ala Gly Leu Asn Leu Pro Ala Arg Arg Val Ile Ile
340 345 350
Arg Ser Tyr Arg Arg Phe Asp Ser Asn Phe Gly Met Gln Pro Ile Pro
355 360 365
Val Leu Glu Tyr Lys Gln Met Ala Gly Arg Ala Gly Arg Pro His Leu
370 375 380
Asp Pro Tyr Gly Glu Ser Val Leu Leu Ala Lys Thr Tyr Asp Glu Phe
385 390 395 400
Ala Gln Leu Met Glu Asn Tyr Val Glu Ala Asp Ala Glu Asp Ile Trp
405 410 415
Ser Lys Leu Gly Thr Glu Asn Ala Leu Arg Thr His Val Leu Ser Thr
420 425 430
Ile Val Asn Gly Phe Ala Ser Thr Arg Gln Glu Leu Phe Asp Phe Phe
435 440 445
Gly Ala Thr Phe Phe Ala Tyr Gln Gln Asp Lys Trp Met Leu Glu Glu
450 455 460
Val Ile Asn Asp Cys Leu Glu Phe Leu Ile Asp Lys Ala Met Val Ser
465 470 475 480
Glu Thr Glu Asp Ile Glu Asp Ala Ser Lys Leu Phe Leu Arg Gly Thr
485 490 495
Arg Leu Gly Ser Leu Val Ser Met Leu Tyr Ile Asp Pro Leu Ser Gly
500 505 510
Ser Lys Ile Val Asp Gly Phe Lys Asp Ile Gly Lys Ser Thr Gly Gly
515 520 525
Asn Met Gly Ser Leu Glu Asp Asp Lys Gly Asp Asp Ile Thr Val Thr
530 535 540
Asp Met Thr Leu Leu His Leu Val Cys Ser Thr Pro Asp Met Arg Gln
545 550 555 560
Leu Tyr Leu Arg Asn Thr Asp Tyr Thr Ile Val Asn Glu Tyr Ile Val
565 570 575
Ala His Ser Asp Glu Phe His Glu Ile Pro Asp Lys Leu Lys Glu Thr
580 585 590
Asp Tyr Glu Trp Phe Met Gly Glu Val Lys Thr Ala Met Leu Leu Glu
595 600 605
Glu Trp Val Thr Glu Val Ser Ala Glu Asp Ile Thr Arg His Phe Asn
610 615 620
Val Gly Glu Gly Asp Ile His Ala Leu Ala Asp Thr Ser Glu Trp Leu
625 630 635 640
Met His Ala Ala Ala Lys Leu Ala Glu Leu Leu Gly Val Glu Tyr Ser
645 650 655
Ser His Ala Tyr Ser Leu Glu Lys Arg Ile Arg Tyr Gly Ser Gly Leu
660 665 670
Asp Leu Met Glu Leu Val Gly Ile Arg Gly Val Gly Arg Val Arg Ala
675 680 685
Arg Lys Leu Tyr Asn Ala Gly Phe Val Ser Val Ala Lys Leu Lys Gly
690 695 700
Ala Asp Ile Ser Val Leu Ser Lys Leu Val Gly Pro Lys Val Ala Tyr
705 710 715 720
Asn Ile Leu Ser Gly Ile Gly Val Arg Val Asn Asp Lys His Phe Asn
725 730 735
Ser Ala Pro Ile Ser Ser Asn Thr Leu Asp Thr Leu Leu Asp Lys Asn
740 745 750
Gln Lys Thr Phe Asn Asp Phe Gln
755 760
<210> 19
<211> 707
<212> PRT
<213> 共生餐古菌(Cenarchaeum symbiosum)
<400> 19
Met Arg Ile Ser Glu Leu Asp Ile Pro Arg Pro Ala Ile Glu Phe Leu
1 5 10 15
Glu Gly Glu Gly Tyr Lys Lys Leu Tyr Pro Pro Gln Ala Ala Ala Ala
20 25 30
Lys Ala Gly Leu Thr Asp Gly Lys Ser Val Leu Val Ser Ala Pro Thr
35 40 45
Ala Ser Gly Lys Thr Leu Ile Ala Ala Ile Ala Met Ile Ser His Leu
50 55 60
Ser Arg Asn Arg Gly Lys Ala Val Tyr Leu Ser Pro Leu Arg Ala Leu
65 70 75 80
Ala Ala Glu Lys Phe Ala Glu Phe Gly Lys Ile Gly Gly Ile Pro Leu
85 90 95
Gly Arg Pro Val Arg Val Gly Val Ser Thr Gly Asp Phe Glu Lys Ala
100 105 110
Gly Arg Ser Leu Gly Asn Asn Asp Ile Leu Val Leu Thr Asn Glu Arg
115 120 125
Met Asp Ser Leu Ile Arg Arg Arg Pro Asp Trp Met Asp Glu Val Gly
130 135 140
Leu Val Ile Ala Asp Glu Ile His Leu Ile Gly Asp Arg Ser Arg Gly
145 150 155 160
Pro Thr Leu Glu Met Val Leu Thr Lys Leu Arg Gly Leu Arg Ser Ser
165 170 175
Pro Gln Val Val Ala Leu Ser Ala Thr Ile Ser Asn Ala Asp Glu Ile
180 185 190
Ala Gly Trp Leu Asp Cys Thr Leu Val His Ser Thr Trp Arg Pro Val
195 200 205
Pro Leu Ser Glu Gly Val Tyr Gln Asp Gly Glu Val Ala Met Gly Asp
210 215 220
Gly Ser Arg His Glu Val Ala Ala Thr Gly Gly Gly Pro Ala Val Asp
225 230 235 240
Leu Ala Ala Glu Ser Val Ala Glu Gly Gly Gln Ser Leu Ile Phe Ala
245 250 255
Asp Thr Arg Ala Arg Ser Ala Ser Leu Ala Ala Lys Ala Ser Ala Val
260 265 270
Ile Pro Glu Ala Lys Gly Ala Asp Ala Ala Lys Leu Ala Ala Ala Ala
275 280 285
Lys Lys Ile Ile Ser Ser Gly Gly Glu Thr Lys Leu Ala Lys Thr Leu
290 295 300
Ala Glu Leu Val Glu Lys Gly Ala Ala Phe His His Ala Gly Leu Asn
305 310 315 320
Gln Asp Cys Arg Ser Val Val Glu Glu Glu Phe Arg Ser Gly Arg Ile
325 330 335
Arg Leu Leu Ala Ser Thr Pro Thr Leu Ala Ala Gly Val Asn Leu Pro
340 345 350
Ala Arg Arg Val Val Ile Ser Ser Val Met Arg Tyr Asn Ser Ser Ser
355 360 365
Gly Met Ser Glu Pro Ile Ser Ile Leu Glu Tyr Lys Gln Leu Cys Gly
370 375 380
Arg Ala Gly Arg Pro Gln Tyr Asp Lys Ser Gly Glu Ala Ile Val Val
385 390 395 400
Gly Gly Val Asn Ala Asp Glu Ile Phe Asp Arg Tyr Ile Gly Gly Glu
405 410 415
Pro Glu Pro Ile Arg Ser Ala Met Val Asp Asp Arg Ala Leu Arg Ile
420 425 430
His Val Leu Ser Leu Val Thr Thr Ser Pro Gly Ile Lys Glu Asp Asp
435 440 445
Val Thr Glu Phe Phe Leu Gly Thr Leu Gly Gly Gln Gln Ser Gly Glu
450 455 460
Ser Thr Val Lys Phe Ser Val Ala Val Ala Leu Arg Phe Leu Gln Glu
465 470 475 480
Glu Gly Met Leu Gly Arg Arg Gly Gly Arg Leu Ala Ala Thr Lys Met
485 490 495
Gly Arg Leu Val Ser Arg Leu Tyr Met Asp Pro Met Thr Ala Val Thr
500 505 510
Leu Arg Asp Ala Val Gly Glu Ala Ser Pro Gly Arg Met His Thr Leu
515 520 525
Gly Phe Leu His Leu Val Ser Glu Cys Ser Glu Phe Met Pro Arg Phe
530 535 540
Ala Leu Arg Gln Lys Asp His Glu Val Ala Glu Met Met Leu Glu Ala
545 550 555 560
Gly Arg Gly Glu Leu Leu Arg Pro Val Tyr Ser Tyr Glu Cys Gly Arg
565 570 575
Gly Leu Leu Ala Leu His Arg Trp Ile Gly Glu Ser Pro Glu Ala Lys
580 585 590
Leu Ala Glu Asp Leu Lys Phe Glu Ser Gly Asp Val His Arg Met Val
595 600 605
Glu Ser Ser Gly Trp Leu Leu Arg Cys Ile Trp Glu Ile Ser Lys His
610 615 620
Gln Glu Arg Pro Asp Leu Leu Gly Glu Leu Asp Val Leu Arg Ser Arg
625 630 635 640
Val Ala Tyr Gly Ile Lys Ala Glu Leu Val Pro Leu Val Ser Ile Lys
645 650 655
Gly Ile Gly Arg Val Arg Ser Arg Arg Leu Phe Arg Gly Gly Ile Lys
660 665 670
Gly Pro Gly Asp Leu Ala Ala Val Pro Val Glu Arg Leu Ser Arg Val
675 680 685
Glu Gly Ile Gly Ala Thr Leu Ala Asn Asn Ile Lys Ser Gln Leu Arg
690 695 700
Lys Gly Gly
705
<210> 20
<211> 720
<212> PRT
<213> 抗辐射热球菌(Thermococcus gammatolerans)
<400> 20
Met Lys Val Asp Glu Leu Pro Val Asp Glu Arg Leu Lys Ala Val Leu
1 5 10 15
Lys Glu Arg Gly Ile Glu Glu Leu Tyr Pro Pro Gln Ala Glu Ala Leu
20 25 30
Lys Ser Gly Ala Leu Glu Gly Arg Asn Leu Val Leu Ala Ile Pro Thr
35 40 45
Ala Ser Gly Lys Thr Leu Val Ser Glu Ile Val Met Val Asn Lys Leu
50 55 60
Ile Gln Glu Gly Gly Lys Ala Val Tyr Leu Val Pro Leu Lys Ala Leu
65 70 75 80
Ala Glu Glu Lys Tyr Arg Glu Phe Lys Glu Trp Glu Lys Leu Gly Leu
85 90 95
Lys Val Ala Ala Thr Thr Gly Asp Tyr Asp Ser Thr Asp Asp Trp Leu
100 105 110
Gly Arg Tyr Asp Ile Ile Val Ala Thr Ala Glu Lys Phe Asp Ser Leu
115 120 125
Leu Arg His Gly Ala Arg Trp Ile Asn Asp Val Lys Leu Val Val Ala
130 135 140
Asp Glu Val His Leu Ile Gly Ser Tyr Asp Arg Gly Ala Thr Leu Glu
145 150 155 160
Met Ile Leu Thr His Met Leu Gly Arg Ala Gln Ile Leu Ala Leu Ser
165 170 175
Ala Thr Val Gly Asn Ala Glu Glu Leu Ala Glu Trp Leu Asp Ala Ser
180 185 190
Leu Val Val Ser Asp Trp Arg Pro Val Gln Leu Arg Arg Gly Val Phe
195 200 205
His Leu Gly Thr Leu Ile Trp Glu Asp Gly Lys Val Glu Ser Tyr Pro
210 215 220
Glu Asn Trp Tyr Ser Leu Val Val Asp Ala Val Lys Arg Gly Lys Gly
225 230 235 240
Ala Leu Val Phe Val Asn Thr Arg Arg Ser Ala Glu Lys Glu Ala Leu
245 250 255
Ala Leu Ser Lys Leu Val Ser Ser His Leu Thr Lys Pro Glu Lys Arg
260 265 270
Ala Leu Glu Ser Leu Ala Ser Gln Leu Glu Asp Asn Pro Thr Ser Glu
275 280 285
Lys Leu Lys Arg Ala Leu Arg Gly Gly Val Ala Phe His His Ala Gly
290 295 300
Leu Ser Arg Val Glu Arg Thr Leu Ile Glu Asp Ala Phe Arg Glu Gly
305 310 315 320
Leu Ile Lys Val Ile Thr Ala Thr Pro Thr Leu Ser Ala Gly Val Asn
325 330 335
Leu Pro Ser Phe Arg Val Ile Ile Arg Asp Thr Lys Arg Tyr Ala Gly
340 345 350
Phe Gly Trp Thr Asp Ile Pro Val Leu Glu Ile Gln Gln Met Met Gly
355 360 365
Arg Ala Gly Arg Pro Arg Tyr Asp Lys Tyr Gly Glu Ala Ile Ile Val
370 375 380
Ala Arg Thr Asp Glu Pro Gly Lys Leu Met Glu Arg Tyr Ile Arg Gly
385 390 395 400
Lys Pro Glu Lys Leu Phe Ser Met Leu Ala Asn Glu Gln Ala Phe Arg
405 410 415
Ser Gln Val Leu Ala Leu Ile Thr Asn Phe Gly Ile Arg Ser Phe Pro
420 425 430
Glu Leu Val Arg Phe Leu Glu Arg Thr Phe Tyr Ala His Gln Arg Lys
435 440 445
Asp Leu Ser Ser Leu Glu Tyr Lys Ala Lys Glu Val Val Tyr Phe Leu
450 455 460
Ile Glu Asn Glu Phe Ile Asp Leu Asp Leu Glu Asp Arg Phe Ile Pro
465 470 475 480
Leu Pro Phe Gly Lys Arg Thr Ser Gln Leu Tyr Ile Asp Pro Leu Thr
485 490 495
Ala Lys Lys Phe Lys Asp Ala Phe Pro Ala Ile Glu Arg Asn Pro Asn
500 505 510
Pro Phe Gly Ile Phe Gln Leu Ile Ala Ser Thr Pro Asp Met Ala Thr
515 520 525
Leu Thr Ala Arg Arg Arg Glu Met Glu Asp Tyr Leu Asp Leu Ala Tyr
530 535 540
Glu Leu Glu Asp Lys Leu Tyr Ala Ser Ile Pro Tyr Tyr Glu Asp Ser
545 550 555 560
Arg Phe Gln Gly Phe Leu Gly Gln Val Lys Thr Ala Lys Val Leu Leu
565 570 575
Asp Trp Ile Asn Glu Val Pro Glu Ala Arg Ile Tyr Glu Thr Tyr Ser
580 585 590
Ile Asp Pro Gly Asp Leu Tyr Arg Leu Leu Glu Leu Ala Asp Trp Leu
595 600 605
Met Tyr Ser Leu Ile Glu Leu Tyr Lys Leu Phe Glu Pro Lys Glu Glu
610 615 620
Ile Leu Asn Tyr Leu Arg Asp Leu His Leu Arg Leu Arg His Gly Val
625 630 635 640
Arg Glu Glu Leu Leu Glu Leu Val Arg Leu Pro Asn Ile Gly Arg Lys
645 650 655
Arg Ala Arg Ala Leu Tyr Asn Ala Gly Phe Arg Ser Val Glu Ala Ile
660 665 670
Ala Asn Ala Lys Pro Ala Glu Leu Leu Ala Val Glu Gly Ile Gly Ala
675 680 685
Lys Ile Leu Asp Gly Ile Tyr Arg His Leu Gly Ile Glu Lys Arg Val
690 695 700
Thr Glu Glu Lys Pro Lys Arg Lys Gly Thr Leu Glu Asp Phe Leu Arg
705 710 715 720
<210> 21
<211> 799
<212> PRT
<213> 亨氏甲烷螺旋菌(Methanospirillum hungatei)
<400> 21
Met Glu Ile Ala Ser Leu Pro Leu Pro Asp Ser Phe Ile Arg Ala Cys
1 5 10 15
His Ala Lys Gly Ile Arg Ser Leu Tyr Pro Pro Gln Ala Glu Cys Ile
20 25 30
Glu Lys Gly Leu Leu Glu Gly Lys Asn Leu Leu Ile Ser Ile Pro Thr
35 40 45
Ala Ser Gly Lys Thr Leu Leu Ala Glu Met Ala Met Trp Ser Arg Ile
50 55 60
Ala Ala Gly Gly Lys Cys Leu Tyr Ile Val Pro Leu Arg Ala Leu Ala
65 70 75 80
Ser Glu Lys Tyr Asp Glu Phe Ser Lys Lys Gly Val Ile Arg Val Gly
85 90 95
Ile Ala Thr Gly Asp Leu Asp Arg Thr Asp Ala Tyr Leu Gly Glu Asn
100 105 110
Asp Ile Ile Val Ala Thr Ser Glu Lys Thr Asp Ser Leu Leu Arg Asn
115 120 125
Arg Thr Pro Trp Leu Ser Gln Ile Thr Cys Ile Val Leu Asp Glu Val
130 135 140
His Leu Ile Gly Ser Glu Asn Arg Gly Ala Thr Leu Glu Met Val Ile
145 150 155 160
Thr Lys Leu Arg Tyr Thr Asn Pro Val Met Gln Ile Ile Gly Leu Ser
165 170 175
Ala Thr Ile Gly Asn Pro Ala Gln Leu Ala Glu Trp Leu Asp Ala Thr
180 185 190
Leu Ile Thr Ser Thr Trp Arg Pro Val Asp Leu Arg Gln Gly Val Tyr
195 200 205
Tyr Asn Gly Lys Ile Arg Phe Ser Asp Ser Glu Arg Pro Ile Gln Gly
210 215 220
Lys Thr Lys His Asp Asp Leu Asn Leu Cys Leu Asp Thr Ile Glu Glu
225 230 235 240
Gly Gly Gln Cys Leu Val Phe Val Ser Ser Arg Arg Asn Ala Glu Gly
245 250 255
Phe Ala Lys Lys Ala Ala Gly Ala Leu Lys Ala Gly Ser Pro Asp Ser
260 265 270
Lys Ala Leu Ala Gln Glu Leu Arg Arg Leu Arg Asp Arg Asp Glu Gly
275 280 285
Asn Val Leu Ala Asp Cys Val Glu Arg Gly Ala Ala Phe His His Ala
290 295 300
Gly Leu Ile Arg Gln Glu Arg Thr Ile Ile Glu Glu Gly Phe Arg Asn
305 310 315 320
Gly Tyr Ile Glu Val Ile Ala Ala Thr Pro Thr Leu Ala Ala Gly Leu
325 330 335
Asn Leu Pro Ala Arg Arg Val Ile Ile Arg Asp Tyr Asn Arg Phe Ala
340 345 350
Ser Gly Leu Gly Met Val Pro Ile Pro Val Gly Glu Tyr His Gln Met
355 360 365
Ala Gly Arg Ala Gly Arg Pro His Leu Asp Pro Tyr Gly Glu Ala Val
370 375 380
Leu Leu Ala Lys Asp Ala Pro Ser Val Glu Arg Leu Phe Glu Thr Phe
385 390 395 400
Ile Asp Ala Glu Ala Glu Arg Val Asp Ser Gln Cys Val Asp Asp Ala
405 410 415
Ser Leu Cys Ala His Ile Leu Ser Leu Ile Ala Thr Gly Phe Ala His
420 425 430
Asp Gln Glu Ala Leu Ser Ser Phe Met Glu Arg Thr Phe Tyr Phe Phe
435 440 445
Gln His Pro Lys Thr Arg Ser Leu Pro Arg Leu Val Ala Asp Ala Ile
450 455 460
Arg Phe Leu Thr Thr Ala Gly Met Val Glu Glu Arg Glu Asn Thr Leu
465 470 475 480
Ser Ala Thr Arg Leu Gly Ser Leu Val Ser Arg Leu Tyr Leu Asn Pro
485 490 495
Cys Thr Ala Arg Leu Ile Leu Asp Ser Leu Lys Ser Cys Lys Thr Pro
500 505 510
Thr Leu Ile Gly Leu Leu His Val Ile Cys Val Ser Pro Asp Met Gln
515 520 525
Arg Leu Tyr Leu Lys Ala Ala Asp Thr Gln Leu Leu Arg Thr Phe Leu
530 535 540
Phe Lys His Lys Asp Asp Leu Ile Leu Pro Leu Pro Phe Glu Gln Glu
545 550 555 560
Glu Glu Glu Leu Trp Leu Ser Gly Leu Lys Thr Ala Leu Val Leu Thr
565 570 575
Asp Trp Ala Asp Glu Phe Ser Glu Gly Met Ile Glu Glu Arg Tyr Gly
580 585 590
Ile Gly Ala Gly Asp Leu Tyr Asn Ile Val Asp Ser Gly Lys Trp Leu
595 600 605
Leu His Gly Thr Glu Arg Leu Val Ser Val Glu Met Pro Glu Met Ser
610 615 620
Gln Val Val Lys Thr Leu Ser Val Arg Val His His Gly Val Lys Ser
625 630 635 640
Glu Leu Leu Pro Leu Val Ala Leu Arg Asn Ile Gly Arg Val Arg Ala
645 650 655
Arg Thr Leu Tyr Asn Ala Gly Tyr Pro Asp Pro Glu Ala Val Ala Arg
660 665 670
Ala Gly Leu Ser Thr Ile Ala Arg Ile Ile Gly Glu Gly Ile Ala Arg
675 680 685
Gln Val Ile Asp Glu Ile Thr Gly Val Lys Arg Ser Gly Ile His Ser
690 695 700
Ser Asp Asp Asp Tyr Gln Gln Lys Thr Pro Glu Leu Leu Thr Asp Ile
705 710 715 720
Pro Gly Ile Gly Lys Lys Met Ala Glu Lys Leu Gln Asn Ala Gly Ile
725 730 735
Ile Thr Val Ser Asp Leu Leu Thr Ala Asp Glu Val Leu Leu Ser Asp
740 745 750
Val Leu Gly Ala Ala Arg Ala Arg Lys Val Leu Ala Phe Leu Ser Asn
755 760 765
Ser Glu Lys Glu Asn Ser Ser Ser Asp Lys Thr Glu Glu Ile Pro Asp
770 775 780
Thr Gln Lys Ile Arg Gly Gln Ser Ser Trp Glu Asp Phe Gly Cys
785 790 795
<210> 22
<211> 1756
<212> PRT
<213> 大肠杆菌
<400> 22
Met Met Ser Ile Ala Gln Val Arg Ser Ala Gly Ser Ala Gly Asn Tyr
1 5 10 15
Tyr Thr Asp Lys Asp Asn Tyr Tyr Val Leu Gly Ser Met Gly Glu Arg
20 25 30
Trp Ala Gly Lys Gly Ala Glu Gln Leu Gly Leu Gln Gly Ser Val Asp
35 40 45
Lys Asp Val Phe Thr Arg Leu Leu Glu Gly Arg Leu Pro Asp Gly Ala
50 55 60
Asp Leu Ser Arg Met Gln Asp Gly Ser Asn Lys His Arg Pro Gly Tyr
65 70 75 80
Asp Leu Thr Phe Ser Ala Pro Lys Ser Val Ser Met Met Ala Met Leu
85 90 95
Gly Gly Asp Lys Arg Leu Ile Asp Ala His Asn Gln Ala Val Asp Phe
100 105 110
Ala Val Arg Gln Val Glu Ala Leu Ala Ser Thr Arg Val Met Thr Asp
115 120 125
Gly Gln Ser Glu Thr Val Leu Thr Gly Asn Leu Val Met Ala Leu Phe
130 135 140
Asn His Asp Thr Ser Arg Asp Gln Glu Pro Gln Leu His Thr His Ala
145 150 155 160
Val Val Ala Asn Val Thr Gln His Asn Gly Glu Trp Lys Thr Leu Ser
165 170 175
Ser Asp Lys Val Gly Lys Thr Gly Phe Ile Glu Asn Val Tyr Ala Asn
180 185 190
Gln Ile Ala Phe Gly Arg Leu Tyr Arg Glu Lys Leu Lys Glu Gln Val
195 200 205
Glu Ala Leu Gly Tyr Glu Thr Glu Val Val Gly Lys His Gly Met Trp
210 215 220
Glu Met Pro Gly Val Pro Val Glu Ala Phe Ser Gly Arg Ser Gln Ala
225 230 235 240
Ile Arg Glu Ala Val Gly Glu Asp Ala Ser Leu Lys Ser Arg Asp Val
245 250 255
Ala Ala Leu Asp Thr Arg Lys Ser Lys Gln His Val Asp Pro Glu Ile
260 265 270
Arg Met Ala Glu Trp Met Gln Thr Leu Lys Glu Thr Gly Phe Asp Ile
275 280 285
Arg Ala Tyr Arg Asp Ala Ala Asp Gln Arg Thr Glu Ile Arg Thr Gln
290 295 300
Ala Pro Gly Pro Ala Ser Gln Asp Gly Pro Asp Val Gln Gln Ala Val
305 310 315 320
Thr Gln Ala Ile Ala Gly Leu Ser Glu Arg Lys Val Gln Phe Thr Tyr
325 330 335
Thr Asp Val Leu Ala Arg Thr Val Gly Ile Leu Pro Pro Glu Asn Gly
340 345 350
Val Ile Glu Arg Ala Arg Ala Gly Ile Asp Glu Ala Ile Ser Arg Glu
355 360 365
Gln Leu Ile Pro Leu Asp Arg Glu Lys Gly Leu Phe Thr Ser Gly Ile
370 375 380
His Val Leu Asp Glu Leu Ser Val Arg Ala Leu Ser Arg Asp Ile Met
385 390 395 400
Lys Gln Asn Arg Val Thr Val His Pro Glu Lys Ser Val Pro Arg Thr
405 410 415
Ala Gly Tyr Ser Asp Ala Val Ser Val Leu Ala Gln Asp Arg Pro Ser
420 425 430
Leu Ala Ile Val Ser Gly Gln Gly Gly Ala Ala Gly Gln Arg Glu Arg
435 440 445
Val Ala Glu Leu Val Met Met Ala Arg Glu Gln Gly Arg Glu Val Gln
450 455 460
Ile Ile Ala Ala Asp Arg Arg Ser Gln Met Asn Leu Lys Gln Asp Glu
465 470 475 480
Arg Leu Ser Gly Glu Leu Ile Thr Gly Arg Arg Gln Leu Leu Glu Gly
485 490 495
Met Ala Phe Thr Pro Gly Ser Thr Val Ile Val Asp Gln Gly Glu Lys
500 505 510
Leu Ser Leu Lys Glu Thr Leu Thr Leu Leu Asp Gly Ala Ala Arg His
515 520 525
Asn Val Gln Val Leu Ile Thr Asp Ser Gly Gln Arg Thr Gly Thr Gly
530 535 540
Ser Ala Leu Met Ala Met Lys Asp Ala Gly Val Asn Thr Tyr Arg Trp
545 550 555 560
Gln Gly Gly Glu Gln Arg Pro Ala Thr Ile Ile Ser Glu Pro Asp Arg
565 570 575
Asn Val Arg Tyr Ala Arg Leu Ala Gly Asp Phe Ala Ala Ser Val Lys
580 585 590
Ala Gly Glu Glu Ser Val Ala Gln Val Ser Gly Val Arg Glu Gln Ala
595 600 605
Ile Leu Thr Gln Ala Ile Arg Ser Glu Leu Lys Thr Gln Gly Val Leu
610 615 620
Gly His Pro Glu Val Thr Met Thr Ala Leu Ser Pro Val Trp Leu Asp
625 630 635 640
Ser Arg Ser Arg Tyr Leu Arg Asp Met Tyr Arg Pro Gly Met Val Met
645 650 655
Glu Gln Trp Asn Pro Glu Thr Arg Ser His Asp Arg Tyr Val Ile Asp
660 665 670
Arg Val Thr Ala Gln Ser His Ser Leu Thr Leu Arg Asp Ala Gln Gly
675 680 685
Glu Thr Gln Val Val Arg Ile Ser Ser Leu Asp Ser Ser Trp Ser Leu
690 695 700
Phe Arg Pro Glu Lys Met Pro Val Ala Asp Gly Glu Arg Leu Arg Val
705 710 715 720
Thr Gly Lys Ile Pro Gly Leu Arg Val Ser Gly Gly Asp Arg Leu Gln
725 730 735
Val Ala Ser Val Ser Glu Asp Ala Met Thr Val Val Val Pro Gly Arg
740 745 750
Ala Glu Pro Ala Ser Leu Pro Val Ser Asp Ser Pro Phe Thr Ala Leu
755 760 765
Lys Leu Glu Asn Gly Trp Val Glu Thr Pro Gly His Ser Val Ser Asp
770 775 780
Ser Ala Thr Val Phe Ala Ser Val Thr Gln Met Ala Met Asp Asn Ala
785 790 795 800
Thr Leu Asn Gly Leu Ala Arg Ser Gly Arg Asp Val Arg Leu Tyr Ser
805 810 815
Ser Leu Asp Glu Thr Arg Thr Ala Glu Lys Leu Ala Arg His Pro Ser
820 825 830
Phe Thr Val Val Ser Glu Gln Ile Lys Ala Arg Ala Gly Glu Thr Leu
835 840 845
Leu Glu Thr Ala Ile Ser Leu Gln Lys Ala Gly Leu His Thr Pro Ala
850 855 860
Gln Gln Ala Ile His Leu Ala Leu Pro Val Leu Glu Ser Lys Asn Leu
865 870 875 880
Ala Phe Ser Met Val Asp Leu Leu Thr Glu Ala Lys Ser Phe Ala Ala
885 890 895
Glu Gly Thr Gly Phe Thr Glu Leu Gly Gly Glu Ile Asn Ala Gln Ile
900 905 910
Lys Arg Gly Asp Leu Leu Tyr Val Asp Val Ala Lys Gly Tyr Gly Thr
915 920 925
Gly Leu Leu Val Ser Arg Ala Ser Tyr Glu Ala Glu Lys Ser Ile Leu
930 935 940
Arg His Ile Leu Glu Gly Lys Glu Ala Val Thr Pro Leu Met Glu Arg
945 950 955 960
Val Pro Gly Glu Leu Met Glu Thr Leu Thr Ser Gly Gln Arg Ala Ala
965 970 975
Thr Arg Met Ile Leu Glu Thr Ser Asp Arg Phe Thr Val Val Gln Gly
980 985 990
Tyr Ala Gly Val Gly Lys Thr Thr Gln Phe Arg Ala Val Met Ser Ala
995 1000 1005
Val Asn Met Leu Pro Ala Ser Glu Arg Pro Arg Val Val Gly Leu
1010 1015 1020
Gly Pro Thr His Arg Ala Val Gly Glu Met Arg Ser Ala Gly Val
1025 1030 1035
Asp Ala Gln Thr Leu Ala Ser Phe Leu His Asp Thr Gln Leu Gln
1040 1045 1050
Gln Arg Ser Gly Glu Thr Pro Asp Phe Ser Asn Thr Leu Phe Leu
1055 1060 1065
Leu Asp Glu Ser Ser Met Val Gly Asn Thr Glu Met Ala Arg Ala
1070 1075 1080
Tyr Ala Leu Ile Ala Ala Gly Gly Gly Arg Ala Val Ala Ser Gly
1085 1090 1095
Asp Thr Asp Gln Leu Gln Ala Ile Ala Pro Gly Gln Ser Phe Arg
1100 1105 1110
Leu Gln Gln Thr Arg Ser Ala Ala Asp Val Val Ile Met Lys Glu
1115 1120 1125
Ile Val Arg Gln Thr Pro Glu Leu Arg Glu Ala Val Tyr Ser Leu
1130 1135 1140
Ile Asn Arg Asp Val Glu Arg Ala Leu Ser Gly Leu Glu Ser Val
1145 1150 1155
Lys Pro Ser Gln Val Pro Arg Leu Glu Gly Ala Trp Ala Pro Glu
1160 1165 1170
His Ser Val Thr Glu Phe Ser His Ser Gln Glu Ala Lys Leu Ala
1175 1180 1185
Glu Ala Gln Gln Lys Ala Met Leu Lys Gly Glu Ala Phe Pro Asp
1190 1195 1200
Ile Pro Met Thr Leu Tyr Glu Ala Ile Val Arg Asp Tyr Thr Gly
1205 1210 1215
Arg Thr Pro Glu Ala Arg Glu Gln Thr Leu Ile Val Thr His Leu
1220 1225 1230
Asn Glu Asp Arg Arg Val Leu Asn Ser Met Ile His Asp Ala Arg
1235 1240 1245
Glu Lys Ala Gly Glu Leu Gly Lys Glu Gln Val Met Val Pro Val
1250 1255 1260
Leu Asn Thr Ala Asn Ile Arg Asp Gly Glu Leu Arg Arg Leu Ser
1265 1270 1275
Thr Trp Glu Lys Asn Pro Asp Ala Leu Ala Leu Val Asp Asn Val
1280 1285 1290
Tyr His Arg Ile Ala Gly Ile Ser Lys Asp Asp Gly Leu Ile Thr
1295 1300 1305
Leu Gln Asp Ala Glu Gly Asn Thr Arg Leu Ile Ser Pro Arg Glu
1310 1315 1320
Ala Val Ala Glu Gly Val Thr Leu Tyr Thr Pro Asp Lys Ile Arg
1325 1330 1335
Val Gly Thr Gly Asp Arg Met Arg Phe Thr Lys Ser Asp Arg Glu
1340 1345 1350
Arg Gly Tyr Val Ala Asn Ser Val Trp Thr Val Thr Ala Val Ser
1355 1360 1365
Gly Asp Ser Val Thr Leu Ser Asp Gly Gln Gln Thr Arg Val Ile
1370 1375 1380
Arg Pro Gly Gln Glu Arg Ala Glu Gln His Ile Asp Leu Ala Tyr
1385 1390 1395
Ala Ile Thr Ala His Gly Ala Gln Gly Ala Ser Glu Thr Phe Ala
1400 1405 1410
Ile Ala Leu Glu Gly Thr Glu Gly Asn Arg Lys Leu Met Ala Gly
1415 1420 1425
Phe Glu Ser Ala Tyr Val Ala Leu Ser Arg Met Lys Gln His Val
1430 1435 1440
Gln Val Tyr Thr Asp Asn Arg Gln Gly Trp Thr Asp Ala Ile Asn
1445 1450 1455
Asn Ala Val Gln Lys Gly Thr Ala His Asp Val Leu Glu Pro Lys
1460 1465 1470
Pro Asp Arg Glu Val Met Asn Ala Gln Arg Leu Phe Ser Thr Ala
1475 1480 1485
Arg Glu Leu Arg Asp Val Ala Ala Gly Arg Ala Val Leu Arg Gln
1490 1495 1500
Ala Gly Leu Ala Gly Gly Asp Ser Pro Ala Arg Phe Ile Ala Pro
1505 1510 1515
Gly Arg Lys Tyr Pro Gln Pro Tyr Val Ala Leu Pro Ala Phe Asp
1520 1525 1530
Arg Asn Gly Lys Ser Ala Gly Ile Trp Leu Asn Pro Leu Thr Thr
1535 1540 1545
Asp Asp Gly Asn Gly Leu Arg Gly Phe Ser Gly Glu Gly Arg Val
1550 1555 1560
Lys Gly Ser Gly Asp Ala Gln Phe Val Ala Leu Gln Gly Ser Arg
1565 1570 1575
Asn Gly Glu Ser Leu Leu Ala Asp Asn Met Gln Asp Gly Val Arg
1580 1585 1590
Ile Ala Arg Asp Asn Pro Asp Ser Gly Val Val Val Arg Ile Ala
1595 1600 1605
Gly Glu Gly Arg Pro Trp Asn Pro Gly Ala Ile Thr Gly Gly Arg
1610 1615 1620
Val Trp Gly Asp Ile Pro Asp Asn Ser Val Gln Pro Gly Ala Gly
1625 1630 1635
Asn Gly Glu Pro Val Thr Ala Glu Val Leu Ala Gln Arg Gln Ala
1640 1645 1650
Glu Glu Ala Ile Arg Arg Glu Thr Glu Arg Arg Ala Asp Glu Ile
1655 1660 1665
Val Arg Lys Met Ala Glu Asn Lys Pro Asp Leu Pro Asp Gly Lys
1670 1675 1680
Thr Glu Leu Ala Val Arg Asp Ile Ala Gly Gln Glu Arg Asp Arg
1685 1690 1695
Ser Ala Ile Ser Glu Arg Glu Thr Ala Leu Pro Glu Ser Val Leu
1700 1705 1710
Arg Glu Ser Gln Arg Glu Arg Glu Ala Val Arg Glu Val Ala Arg
1715 1720 1725
Glu Asn Leu Leu Gln Glu Arg Leu Gln Gln Met Glu Arg Asp Met
1730 1735 1740
Val Arg Asp Leu Gln Lys Glu Lys Thr Leu Gly Gly Asp
1745 1750 1755
<210> 23
<211> 726
<212> PRT
<213> 伯顿拟甲烷球菌
<400> 23
Met Ser Asp Lys Pro Ala Phe Met Lys Tyr Phe Thr Gln Ser Ser Cys
1 5 10 15
Tyr Pro Asn Gln Gln Glu Ala Met Asp Arg Ile His Ser Ala Leu Met
20 25 30
Gln Gln Gln Leu Val Leu Phe Glu Gly Ala Cys Gly Thr Gly Lys Thr
35 40 45
Leu Ser Ala Leu Val Pro Ala Leu His Val Gly Lys Met Leu Gly Lys
50 55 60
Thr Val Ile Ile Ala Thr Asn Val His Gln Gln Met Val Gln Phe Ile
65 70 75 80
Asn Glu Ala Arg Asp Ile Lys Lys Val Gln Asp Val Lys Val Ala Val
85 90 95
Ile Lys Gly Lys Thr Ala Met Cys Pro Gln Glu Ala Asp Tyr Glu Glu
100 105 110
Cys Ser Val Lys Arg Glu Asn Thr Phe Glu Leu Met Glu Thr Glu Arg
115 120 125
Glu Ile Tyr Leu Lys Arg Gln Glu Leu Asn Ser Ala Arg Asp Ser Tyr
130 135 140
Lys Lys Ser His Asp Pro Ala Phe Val Thr Leu Arg Asp Glu Leu Ser
145 150 155 160
Lys Glu Ile Asp Ala Val Glu Glu Lys Ala Arg Gly Leu Arg Asp Arg
165 170 175
Ala Cys Asn Asp Leu Tyr Glu Val Leu Arg Ser Asp Ser Glu Lys Phe
180 185 190
Arg Glu Trp Leu Tyr Lys Glu Val Arg Ser Pro Glu Glu Ile Asn Asp
195 200 205
His Ala Ile Lys Asp Gly Met Cys Gly Tyr Glu Leu Val Lys Arg Glu
210 215 220
Leu Lys His Ala Asp Leu Leu Ile Cys Asn Tyr His His Val Leu Asn
225 230 235 240
Pro Asp Ile Phe Ser Thr Val Leu Gly Trp Ile Glu Lys Glu Pro Gln
245 250 255
Glu Thr Ile Val Ile Phe Asp Glu Ala His Asn Leu Glu Ser Ala Ala
260 265 270
Arg Ser His Ser Ser Leu Ser Leu Thr Glu His Ser Ile Glu Lys Ala
275 280 285
Ile Thr Glu Leu Glu Ala Asn Leu Asp Leu Leu Ala Asp Asp Asn Ile
290 295 300
His Asn Leu Phe Asn Ile Phe Leu Glu Val Ile Ser Asp Thr Tyr Asn
305 310 315 320
Ser Arg Phe Lys Phe Gly Glu Arg Glu Arg Val Arg Lys Asn Trp Tyr
325 330 335
Asp Ile Arg Ile Ser Asp Pro Tyr Glu Arg Asn Asp Ile Val Arg Gly
340 345 350
Lys Phe Leu Arg Gln Ala Lys Gly Asp Phe Gly Glu Lys Asp Asp Ile
355 360 365
Gln Ile Leu Leu Ser Glu Ala Ser Glu Leu Gly Ala Lys Leu Asp Glu
370 375 380
Thr Tyr Arg Asp Gln Tyr Lys Lys Gly Leu Ser Ser Val Met Lys Arg
385 390 395 400
Ser His Ile Arg Tyr Val Ala Asp Phe Met Ser Ala Tyr Ile Glu Leu
405 410 415
Ser His Asn Leu Asn Tyr Tyr Pro Ile Leu Asn Val Arg Arg Asp Met
420 425 430
Asn Asp Glu Ile Tyr Gly Arg Val Glu Leu Phe Thr Cys Ile Pro Lys
435 440 445
Asn Val Thr Glu Pro Leu Phe Asn Ser Leu Phe Ser Val Ile Leu Met
450 455 460
Ser Ala Thr Leu His Pro Phe Glu Met Val Lys Lys Thr Leu Gly Ile
465 470 475 480
Thr Arg Asp Thr Cys Glu Met Ser Tyr Gly Thr Ser Phe Pro Glu Glu
485 490 495
Lys Arg Leu Ser Ile Ala Val Ser Ile Pro Pro Leu Phe Ala Lys Asn
500 505 510
Arg Asp Asp Arg His Val Thr Glu Leu Leu Glu Gln Val Leu Leu Asp
515 520 525
Ser Ile Glu Asn Ser Lys Gly Asn Val Ile Leu Phe Phe Gln Ser Ala
530 535 540
Phe Glu Ala Lys Arg Tyr Tyr Ser Lys Ile Glu Pro Leu Val Asn Val
545 550 555 560
Pro Val Phe Leu Asp Glu Val Gly Ile Ser Ser Gln Asp Val Arg Glu
565 570 575
Glu Phe Phe Ser Ile Gly Glu Glu Asn Gly Lys Ala Val Leu Leu Ser
580 585 590
Tyr Leu Trp Gly Thr Leu Ser Glu Gly Ile Asp Tyr Arg Asp Gly Arg
595 600 605
Gly Arg Thr Val Ile Ile Ile Gly Val Gly Tyr Pro Ala Leu Asn Asp
610 615 620
Arg Met Asn Ala Val Glu Ser Ala Tyr Asp His Val Phe Gly Tyr Gly
625 630 635 640
Ala Gly Trp Glu Phe Ala Ile Gln Val Pro Thr Ile Arg Lys Ile Arg
645 650 655
Gln Ala Met Gly Arg Val Val Arg Ser Pro Thr Asp Tyr Gly Ala Arg
660 665 670
Ile Leu Leu Asp Gly Arg Phe Leu Thr Asp Ser Lys Lys Arg Phe Gly
675 680 685
Lys Phe Ser Val Phe Glu Val Phe Pro Pro Ala Glu Arg Ser Glu Phe
690 695 700
Val Asp Val Asp Pro Glu Lys Val Lys Tyr Ser Leu Met Asn Phe Phe
705 710 715 720
Met Asp Asn Asp Glu Gln
725
<210> 24
<211> 439
<212> PRT
<213> 肠杆菌噬菌体(Enterobacteria phage)T4
<400> 24
Met Thr Phe Asp Asp Leu Thr Glu Gly Gln Lys Asn Ala Phe Asn Ile
1 5 10 15
Val Met Lys Ala Ile Lys Glu Lys Lys His His Val Thr Ile Asn Gly
20 25 30
Pro Ala Gly Thr Gly Lys Thr Thr Leu Thr Lys Phe Ile Ile Glu Ala
35 40 45
Leu Ile Ser Thr Gly Glu Thr Gly Ile Ile Leu Ala Ala Pro Thr His
50 55 60
Ala Ala Lys Lys Ile Leu Ser Lys Leu Ser Gly Lys Glu Ala Ser Thr
65 70 75 80
Ile His Ser Ile Leu Lys Ile Asn Pro Val Thr Tyr Glu Glu Asn Val
85 90 95
Leu Phe Glu Gln Lys Glu Val Pro Asp Leu Ala Lys Cys Arg Val Leu
100 105 110
Ile Cys Asp Glu Val Ser Met Tyr Asp Arg Lys Leu Phe Lys Ile Leu
115 120 125
Leu Ser Thr Ile Pro Pro Trp Cys Thr Ile Ile Gly Ile Gly Asp Asn
130 135 140
Lys Gln Ile Arg Pro Val Asp Pro Gly Glu Asn Thr Ala Tyr Ile Ser
145 150 155 160
Pro Phe Phe Thr His Lys Asp Phe Tyr Gln Cys Glu Leu Thr Glu Val
165 170 175
Lys Arg Ser Asn Ala Pro Ile Ile Asp Val Ala Thr Asp Val Arg Asn
180 185 190
Gly Lys Trp Ile Tyr Asp Lys Val Val Asp Gly His Gly Val Arg Gly
195 200 205
Phe Thr Gly Asp Thr Ala Leu Arg Asp Phe Met Val Asn Tyr Phe Ser
210 215 220
Ile Val Lys Ser Leu Asp Asp Leu Phe Glu Asn Arg Val Met Ala Phe
225 230 235 240
Thr Asn Lys Ser Val Asp Lys Leu Asn Ser Ile Ile Arg Lys Lys Ile
245 250 255
Phe Glu Thr Asp Lys Asp Phe Ile Val Gly Glu Ile Ile Val Met Gln
260 265 270
Glu Pro Leu Phe Lys Thr Tyr Lys Ile Asp Gly Lys Pro Val Ser Glu
275 280 285
Ile Ile Phe Asn Asn Gly Gln Leu Val Arg Ile Ile Glu Ala Glu Tyr
290 295 300
Thr Ser Thr Phe Val Lys Ala Arg Gly Val Pro Gly Glu Tyr Leu Ile
305 310 315 320
Arg His Trp Asp Leu Thr Val Glu Thr Tyr Gly Asp Asp Glu Tyr Tyr
325 330 335
Arg Glu Lys Ile Lys Ile Ile Ser Ser Asp Glu Glu Leu Tyr Lys Phe
340 345 350
Asn Leu Phe Leu Gly Lys Thr Ala Glu Thr Tyr Lys Asn Trp Asn Lys
355 360 365
Gly Gly Lys Ala Pro Trp Ser Asp Phe Trp Asp Ala Lys Ser Gln Phe
370 375 380
Ser Lys Val Lys Ala Leu Pro Ala Ser Thr Phe His Lys Ala Gln Gly
385 390 395 400
Met Ser Val Asp Arg Ala Phe Ile Tyr Thr Pro Cys Ile His Tyr Ala
405 410 415
Asp Val Glu Leu Ala Gln Gln Leu Leu Tyr Val Gly Val Thr Arg Gly
420 425 430
Arg Tyr Asp Val Phe Tyr Val
435
<210> 25
<211> 970
<212> PRT
<213> 肉毒杆菌(Clostridium botulinum)
<400> 25
Met Leu Ser Val Ala Asn Val Arg Ser Pro Ser Ala Ala Ala Ser Tyr
1 5 10 15
Phe Ala Ser Asp Asn Tyr Tyr Ala Ser Ala Asp Ala Asp Arg Ser Gly
20 25 30
Gln Trp Ile Gly Asp Gly Ala Lys Arg Leu Gly Leu Glu Gly Lys Val
35 40 45
Glu Ala Arg Ala Phe Asp Ala Leu Leu Arg Gly Glu Leu Pro Asp Gly
50 55 60
Ser Ser Val Gly Asn Pro Gly Gln Ala His Arg Pro Gly Thr Asp Leu
65 70 75 80
Thr Phe Ser Val Pro Lys Ser Trp Ser Leu Leu Ala Leu Val Gly Lys
85 90 95
Asp Glu Arg Ile Ile Ala Ala Tyr Arg Glu Ala Val Val Glu Ala Leu
100 105 110
His Trp Ala Glu Lys Asn Ala Ala Glu Thr Arg Val Val Glu Lys Gly
115 120 125
Met Val Val Thr Gln Ala Thr Gly Asn Leu Ala Ile Gly Leu Phe Gln
130 135 140
His Asp Thr Asn Arg Asn Gln Glu Pro Asn Leu His Phe His Ala Val
145 150 155 160
Ile Ala Asn Val Thr Gln Gly Lys Asp Gly Lys Trp Arg Thr Leu Lys
165 170 175
Asn Asp Arg Leu Trp Gln Leu Asn Thr Thr Leu Asn Ser Ile Ala Met
180 185 190
Ala Arg Phe Arg Val Ala Val Glu Lys Leu Gly Tyr Glu Pro Gly Pro
195 200 205
Val Leu Lys His Gly Asn Phe Glu Ala Arg Gly Ile Ser Arg Glu Gln
210 215 220
Val Met Ala Phe Ser Thr Arg Arg Lys Glu Val Leu Glu Ala Arg Arg
225 230 235 240
Gly Pro Gly Leu Asp Ala Gly Arg Ile Ala Ala Leu Asp Thr Arg Ala
245 250 255
Ser Lys Glu Gly Ile Glu Asp Arg Ala Thr Leu Ser Lys Gln Trp Ser
260 265 270
Glu Ala Ala Gln Ser Ile Gly Leu Asp Leu Lys Pro Leu Val Asp Arg
275 280 285
Ala Arg Thr Lys Ala Leu Gly Gln Gly Met Glu Ala Thr Arg Ile Gly
290 295 300
Ser Leu Val Glu Arg Gly Arg Ala Trp Leu Ser Arg Phe Ala Ala His
305 310 315 320
Val Arg Gly Asp Pro Ala Asp Pro Leu Val Pro Pro Ser Val Leu Lys
325 330 335
Gln Asp Arg Gln Thr Ile Ala Ala Ala Gln Ala Val Ala Ser Ala Val
340 345 350
Arg His Leu Ser Gln Arg Glu Ala Ala Phe Glu Arg Thr Ala Leu Tyr
355 360 365
Lys Ala Ala Leu Asp Phe Gly Leu Pro Thr Thr Ile Ala Asp Val Glu
370 375 380
Lys Arg Thr Arg Ala Leu Val Arg Ser Gly Asp Leu Ile Ala Gly Lys
385 390 395 400
Gly Glu His Lys Gly Trp Leu Ala Ser Arg Asp Ala Val Val Thr Glu
405 410 415
Gln Arg Ile Leu Ser Glu Val Ala Ala Gly Lys Gly Asp Ser Ser Pro
420 425 430
Ala Ile Thr Pro Gln Lys Ala Ala Ala Ser Val Gln Ala Ala Ala Leu
435 440 445
Thr Gly Gln Gly Phe Arg Leu Asn Glu Gly Gln Leu Ala Ala Ala Arg
450 455 460
Leu Ile Leu Ile Ser Lys Asp Arg Thr Ile Ala Val Gln Gly Ile Ala
465 470 475 480
Gly Ala Gly Lys Ser Ser Val Leu Lys Pro Val Ala Glu Val Leu Arg
485 490 495
Asp Glu Gly His Pro Val Ile Gly Leu Ala Ile Gln Asn Thr Leu Val
500 505 510
Gln Met Leu Glu Arg Asp Thr Gly Ile Gly Ser Gln Thr Leu Ala Arg
515 520 525
Phe Leu Gly Gly Trp Asn Lys Leu Leu Asp Asp Pro Gly Asn Val Ala
530 535 540
Leu Arg Ala Glu Ala Gln Ala Ser Leu Lys Asp His Val Leu Val Leu
545 550 555 560
Asp Glu Ala Ser Met Val Ser Asn Glu Asp Lys Glu Lys Leu Val Arg
565 570 575
Leu Ala Asn Leu Ala Gly Val His Arg Leu Val Leu Ile Gly Asp Arg
580 585 590
Lys Gln Leu Gly Ala Val Asp Ala Gly Lys Pro Phe Ala Leu Leu Gln
595 600 605
Arg Ala Gly Ile Ala Arg Ala Glu Met Ala Thr Asn Leu Arg Ala Arg
610 615 620
Asp Pro Val Val Arg Glu Ala Gln Ala Ala Ala Gln Ala Gly Asp Val
625 630 635 640
Arg Lys Ala Leu Arg His Leu Lys Ser His Thr Val Glu Ala Arg Gly
645 650 655
Asp Gly Ala Gln Val Ala Ala Glu Thr Trp Leu Ala Leu Asp Lys Glu
660 665 670
Thr Arg Ala Arg Thr Ser Ile Tyr Ala Ser Gly Arg Ala Ile Arg Ser
675 680 685
Ala Val Asn Ala Ala Val Gln Gln Gly Leu Leu Ala Ser Arg Glu Ile
690 695 700
Gly Pro Ala Lys Met Lys Leu Glu Val Leu Asp Arg Val Asn Thr Thr
705 710 715 720
Arg Glu Glu Leu Arg His Leu Pro Ala Tyr Arg Ala Gly Arg Val Leu
725 730 735
Glu Val Ser Arg Lys Gln Gln Ala Leu Gly Leu Phe Ile Gly Glu Tyr
740 745 750
Arg Val Ile Gly Gln Asp Arg Lys Gly Lys Leu Val Glu Val Glu Asp
755 760 765
Lys Arg Gly Lys Arg Phe Arg Phe Asp Pro Ala Arg Ile Arg Ala Gly
770 775 780
Lys Gly Asp Asp Asn Leu Thr Leu Leu Glu Pro Arg Lys Leu Glu Ile
785 790 795 800
His Glu Gly Asp Arg Ile Arg Trp Thr Arg Asn Asp His Arg Arg Gly
805 810 815
Leu Phe Asn Ala Asp Gln Ala Arg Val Val Glu Ile Ala Asn Gly Lys
820 825 830
Val Thr Phe Glu Thr Ser Lys Gly Asp Leu Val Glu Leu Lys Lys Asp
835 840 845
Asp Pro Met Leu Lys Arg Ile Asp Leu Ala Tyr Ala Leu Asn Val His
850 855 860
Met Ala Gln Gly Leu Thr Ser Asp Arg Gly Ile Ala Val Met Asp Ser
865 870 875 880
Arg Glu Arg Asn Leu Ser Asn Gln Lys Thr Phe Leu Val Thr Val Thr
885 890 895
Arg Leu Arg Asp His Leu Thr Leu Val Val Asp Ser Ala Asp Lys Leu
900 905 910
Gly Ala Ala Val Ala Arg Asn Lys Gly Glu Lys Ala Ser Ala Ile Glu
915 920 925
Val Thr Gly Ser Val Lys Pro Thr Ala Thr Lys Gly Ser Gly Val Asp
930 935 940
Gln Pro Lys Ser Val Glu Ala Asn Lys Ala Glu Lys Glu Leu Thr Arg
945 950 955 960
Ser Lys Ser Lys Thr Leu Asp Phe Gly Ile
965 970
<210> 26
<211> 50
<212> DNA
<213> 人工序列
<220>
<223> 本发明的实施例MuA底物。
<400> 26
gttttcgcat ttatcgtgaa acgctttcgc gtttttcgtg cgccgcttca 50
<210> 27
<211> 50
<212> DNA
<213> 人工序列
<220>
<223> 本发明的实施例MuA底物。
<400> 27
caaaagcgta aatagcactt tgcgaaagcg caaaaagcac gcggcgaagt 50
<210> 28
<211> 54
<212> DNA
<213> 人工序列
<220>
<223> 本发明的实施例MuA底物。
<400> 28
caaaagcgta aatagcactt tgcgaaagcg caaaaagcac gcggcgaagt ctag 54
<210> 29
<211> 100
<212> DNA
<213> 人工序列
<220>
<223> 实施例1中使用的序列。
<400> 29
gcgttctgtt tcggatgtat gttttcatac atccgaaaca gaacgctttt gttttcgcat 60
ttatcgtgaa acgctttcgc gtttttcgtg cgccgcttca 100
<210> 30
<211> 48
<212> DNA
<213> 人工序列
<220>
<223> 实施例1中使用的序列。
<400> 30
gaagcggcgc acgaaaaacg cgaaagcgtt tcacgataat gcgaaaac 48
<210> 31
<211> 48502
<212> DNA
<213> 人工序列
<220>
<223> 实施例1中使用的序列。
<400> 31
gggcggcgac ctcgcgggtt ttcgctattt atgaaaattt tccggtttaa ggcgtttccg 60
ttcttcttcg tcataactta atgtttttat ttaaaatacc ctctgaaaag aaaggaaacg 120
acaggtgctg aaagcgaggc tttttggcct ctgtcgtttc ctttctctgt ttttgtccgt 180
ggaatgaaca atggaagtca acaaaaagca gctggctgac attttcggtg cgagtatccg 240
taccattcag aactggcagg aacagggaat gcccgttctg cgaggcggtg gcaagggtaa 300
tgaggtgctt tatgactctg ccgccgtcat aaaatggtat gccgaaaggg atgctgaaat 360
tgagaacgaa aagctgcgcc gggaggttga agaactgcgg caggccagcg aggcagatct 420
ccagccagga actattgagt acgaacgcca tcgacttacg cgtgcgcagg ccgacgcaca 480
ggaactgaag aatgccagag actccgctga agtggtggaa accgcattct gtactttcgt 540
gctgtcgcgg atcgcaggtg aaattgccag tattctcgac gggctccccc tgtcggtgca 600
gcggcgtttt ccggaactgg aaaaccgaca tgttgatttc ctgaaacggg atatcatcaa 660
agccatgaac aaagcagccg cgctggatga actgataccg gggttgctga gtgaatatat 720
cgaacagtca ggttaacagg ctgcggcatt ttgtccgcgc cgggcttcgc tcactgttca 780
ggccggagcc acagaccgcc gttgaatggg cggatgctaa ttactatctc ccgaaagaat 840
ccgcatacca ggaagggcgc tgggaaacac tgccctttca gcgggccatc atgaatgcga 900
tgggcagcga ctacatccgt gaggtgaatg tggtgaagtc tgcccgtgtc ggttattcca 960
aaatgctgct gggtgtttat gcctacttta tagagcataa gcagcgcaac acccttatct 1020
ggttgccgac ggatggtgat gccgagaact ttatgaaaac ccacgttgag ccgactattc 1080
gtgatattcc gtcgctgctg gcgctggccc cgtggtatgg caaaaagcac cgggataaca 1140
cgctcaccat gaagcgtttc actaatgggc gtggcttctg gtgcctgggc ggtaaagcgg 1200
caaaaaacta ccgtgaaaag tcggtggatg tggcgggtta tgatgaactt gctgcttttg 1260
atgatgatat tgaacaggaa ggctctccga cgttcctggg tgacaagcgt attgaaggct 1320
cggtctggcc aaagtccatc cgtggctcca cgccaaaagt gagaggcacc tgtcagattg 1380
agcgtgcagc cagtgaatcc ccgcatttta tgcgttttca tgttgcctgc ccgcattgcg 1440
gggaggagca gtatcttaaa tttggcgaca aagagacgcc gtttggcctc aaatggacgc 1500
cggatgaccc ctccagcgtg ttttatctct gcgagcataa tgcctgcgtc atccgccagc 1560
aggagctgga ctttactgat gcccgttata tctgcgaaaa gaccgggatc tggacccgtg 1620
atggcattct ctggttttcg tcatccggtg aagagattga gccacctgac agtgtgacct 1680
ttcacatctg gacagcgtac agcccgttca ccacctgggt gcagattgtc aaagactgga 1740
tgaaaacgaa aggggatacg ggaaaacgta aaaccttcgt aaacaccacg ctcggtgaga 1800
cgtgggaggc gaaaattggc gaacgtccgg atgctgaagt gatggcagag cggaaagagc 1860
attattcagc gcccgttcct gaccgtgtgg cttacctgac cgccggtatc gactcccagc 1920
tggaccgcta cgaaatgcgc gtatggggat gggggccggg tgaggaaagc tggctgattg 1980
accggcagat tattatgggc cgccacgacg atgaacagac gctgctgcgt gtggatgagg 2040
ccatcaataa aacctatacc cgccggaatg gtgcagaaat gtcgatatcc cgtatctgct 2100
gggatactgg cgggattgac ccgaccattg tgtatgaacg ctcgaaaaaa catgggctgt 2160
tccgggtgat ccccattaaa ggggcatccg tctacggaaa gccggtggcc agcatgccac 2220
gtaagcgaaa caaaaacggg gtttacctta ccgaaatcgg tacggatacc gcgaaagagc 2280
agatttataa ccgcttcaca ctgacgccgg aaggggatga accgcttccc ggtgccgttc 2340
acttcccgaa taacccggat atttttgatc tgaccgaagc gcagcagctg actgctgaag 2400
agcaggtcga aaaatgggtg gatggcagga aaaaaatact gtgggacagc aaaaagcgac 2460
gcaatgaggc actcgactgc ttcgtttatg cgctggcggc gctgcgcatc agtatttccc 2520
gctggcagct ggatctcagt gcgctgctgg cgagcctgca ggaagaggat ggtgcagcaa 2580
ccaacaagaa aacactggca gattacgccc gtgccttatc cggagaggat gaatgacgcg 2640
acaggaagaa cttgccgctg cccgtgcggc actgcatgac ctgatgacag gtaaacgggt 2700
ggcaacagta cagaaagacg gacgaagggt ggagtttacg gccacttccg tgtctgacct 2760
gaaaaaatat attgcagagc tggaagtgca gaccggcatg acacagcgac gcaggggacc 2820
tgcaggattt tatgtatgaa aacgcccacc attcccaccc ttctggggcc ggacggcatg 2880
acatcgctgc gcgaatatgc cggttatcac ggcggtggca gcggatttgg agggcagttg 2940
cggtcgtgga acccaccgag tgaaagtgtg gatgcagccc tgttgcccaa ctttacccgt 3000
ggcaatgccc gcgcagacga tctggtacgc aataacggct atgccgccaa cgccatccag 3060
ctgcatcagg atcatatcgt cgggtctttt ttccggctca gtcatcgccc aagctggcgc 3120
tatctgggca tcggggagga agaagcccgt gccttttccc gcgaggttga agcggcatgg 3180
aaagagtttg ccgaggatga ctgctgctgc attgacgttg agcgaaaacg cacgtttacc 3240
atgatgattc gggaaggtgt ggccatgcac gcctttaacg gtgaactgtt cgttcaggcc 3300
acctgggata ccagttcgtc gcggcttttc cggacacagt tccggatggt cagcccgaag 3360
cgcatcagca acccgaacaa taccggcgac agccggaact gccgtgccgg tgtgcagatt 3420
aatgacagcg gtgcggcgct gggatattac gtcagcgagg acgggtatcc tggctggatg 3480
ccgcagaaat ggacatggat accccgtgag ttacccggcg ggcgcgcctc gttcattcac 3540
gtttttgaac ccgtggagga cgggcagact cgcggtgcaa atgtgtttta cagcgtgatg 3600
gagcagatga agatgctcga cacgctgcag aacacgcagc tgcagagcgc cattgtgaag 3660
gcgatgtatg ccgccaccat tgagagtgag ctggatacgc agtcagcgat ggattttatt 3720
ctgggcgcga acagtcagga gcagcgggaa aggctgaccg gctggattgg tgaaattgcc 3780
gcgtattacg ccgcagcgcc ggtccggctg ggaggcgcaa aagtaccgca cctgatgccg 3840
ggtgactcac tgaacctgca gacggctcag gatacggata acggctactc cgtgtttgag 3900
cagtcactgc tgcggtatat cgctgccggg ctgggtgtct cgtatgagca gctttcccgg 3960
aattacgccc agatgagcta ctccacggca cgggccagtg cgaacgagtc gtgggcgtac 4020
tttatggggc ggcgaaaatt cgtcgcatcc cgtcaggcga gccagatgtt tctgtgctgg 4080
ctggaagagg ccatcgttcg ccgcgtggtg acgttacctt caaaagcgcg cttcagtttt 4140
caggaagccc gcagtgcctg ggggaactgc gactggatag gctccggtcg tatggccatc 4200
gatggtctga aagaagttca ggaagcggtg atgctgatag aagccggact gagtacctac 4260
gagaaagagt gcgcaaaacg cggtgacgac tatcaggaaa tttttgccca gcaggtccgt 4320
gaaacgatgg agcgccgtgc agccggtctt aaaccgcccg cctgggcggc tgcagcattt 4380
gaatccgggc tgcgacaatc aacagaggag gagaagagtg acagcagagc tgcgtaatct 4440
cccgcatatt gccagcatgg cctttaatga gccgctgatg cttgaacccg cctatgcgcg 4500
ggttttcttt tgtgcgcttg caggccagct tgggatcagc agcctgacgg atgcggtgtc 4560
cggcgacagc ctgactgccc aggaggcact cgcgacgctg gcattatccg gtgatgatga 4620
cggaccacga caggcccgca gttatcaggt catgaacggc atcgccgtgc tgccggtgtc 4680
cggcacgctg gtcagccgga cgcgggcgct gcagccgtac tcggggatga ccggttacaa 4740
cggcattatc gcccgtctgc aacaggctgc cagcgatccg atggtggacg gcattctgct 4800
cgatatggac acgcccggcg ggatggtggc gggggcattt gactgcgctg acatcatcgc 4860
ccgtgtgcgt gacataaaac cggtatgggc gcttgccaac gacatgaact gcagtgcagg 4920
tcagttgctt gccagtgccg cctcccggcg tctggtcacg cagaccgccc ggacaggctc 4980
catcggcgtc atgatggctc acagtaatta cggtgctgcg ctggagaaac agggtgtgga 5040
aatcacgctg atttacagcg gcagccataa ggtggatggc aacccctaca gccatcttcc 5100
ggatgacgtc cgggagacac tgcagtcccg gatggacgca acccgccaga tgtttgcgca 5160
gaaggtgtcg gcatataccg gcctgtccgt gcaggttgtg ctggataccg aggctgcagt 5220
gtacagcggt caggaggcca ttgatgccgg actggctgat gaacttgtta acagcaccga 5280
tgcgatcacc gtcatgcgtg atgcactgga tgcacgtaaa tcccgtctct caggagggcg 5340
aatgaccaaa gagactcaat caacaactgt ttcagccact gcttcgcagg ctgacgttac 5400
tgacgtggtg ccagcgacgg agggcgagaa cgccagcgcg gcgcagccgg acgtgaacgc 5460
gcagatcacc gcagcggttg cggcagaaaa cagccgcatt atggggatcc tcaactgtga 5520
ggaggctcac ggacgcgaag aacaggcacg cgtgctggca gaaacccccg gtatgaccgt 5580
gaaaacggcc cgccgcattc tggccgcagc accacagagt gcacaggcgc gcagtgacac 5640
tgcgctggat cgtctgatgc agggggcacc ggcaccgctg gctgcaggta acccggcatc 5700
tgatgccgtt aacgatttgc tgaacacacc agtgtaaggg atgtttatga cgagcaaaga 5760
aacctttacc cattaccagc cgcagggcaa cagtgacccg gctcataccg caaccgcgcc 5820
cggcggattg agtgcgaaag cgcctgcaat gaccccgctg atgctggaca cctccagccg 5880
taagctggtt gcgtgggatg gcaccaccga cggtgctgcc gttggcattc ttgcggttgc 5940
tgctgaccag accagcacca cgctgacgtt ctacaagtcc ggcacgttcc gttatgagga 6000
tgtgctctgg ccggaggctg ccagcgacga gacgaaaaaa cggaccgcgt ttgccggaac 6060
ggcaatcagc atcgtttaac tttacccttc atcactaaag gccgcctgtg cggctttttt 6120
tacgggattt ttttatgtcg atgtacacaa ccgcccaact gctggcggca aatgagcaga 6180
aatttaagtt tgatccgctg tttctgcgtc tctttttccg tgagagctat cccttcacca 6240
cggagaaagt ctatctctca caaattccgg gactggtaaa catggcgctg tacgtttcgc 6300
cgattgtttc cggtgaggtt atccgttccc gtggcggctc cacctctgaa tttacgccgg 6360
gatatgtcaa gccgaagcat gaagtgaatc cgcagatgac cctgcgtcgc ctgccggatg 6420
aagatccgca gaatctggcg gacccggctt accgccgccg tcgcatcatc atgcagaaca 6480
tgcgtgacga agagctggcc attgctcagg tcgaagagat gcaggcagtt tctgccgtgc 6540
ttaagggcaa atacaccatg accggtgaag ccttcgatcc ggttgaggtg gatatgggcc 6600
gcagtgagga gaataacatc acgcagtccg gcggcacgga gtggagcaag cgtgacaagt 6660
ccacgtatga cccgaccgac gatatcgaag cctacgcgct gaacgccagc ggtgtggtga 6720
atatcatcgt gttcgatccg aaaggctggg cgctgttccg ttccttcaaa gccgtcaagg 6780
agaagctgga tacccgtcgt ggctctaatt ccgagctgga gacagcggtg aaagacctgg 6840
gcaaagcggt gtcctataag gggatgtatg gcgatgtggc catcgtcgtg tattccggac 6900
agtacgtgga aaacggcgtc aaaaagaact tcctgccgga caacacgatg gtgctgggga 6960
acactcaggc acgcggtctg cgcacctatg gctgcattca ggatgcggac gcacagcgcg 7020
aaggcattaa cgcctctgcc cgttacccga aaaactgggt gaccaccggc gatccggcgc 7080
gtgagttcac catgattcag tcagcaccgc tgatgctgct ggctgaccct gatgagttcg 7140
tgtccgtaca actggcgtaa tcatggccct tcggggccat tgtttctctg tggaggagtc 7200
catgacgaaa gatgaactga ttgcccgtct ccgctcgctg ggtgaacaac tgaaccgtga 7260
tgtcagcctg acggggacga aagaagaact ggcgctccgt gtggcagagc tgaaagagga 7320
gcttgatgac acggatgaaa ctgccggtca ggacacccct ctcagccggg aaaatgtgct 7380
gaccggacat gaaaatgagg tgggatcagc gcagccggat accgtgattc tggatacgtc 7440
tgaactggtc acggtcgtgg cactggtgaa gctgcatact gatgcacttc acgccacgcg 7500
ggatgaacct gtggcatttg tgctgccggg aacggcgttt cgtgtctctg ccggtgtggc 7560
agccgaaatg acagagcgcg gcctggccag aatgcaataa cgggaggcgc tgtggctgat 7620
ttcgataacc tgttcgatgc tgccattgcc cgcgccgatg aaacgatacg cgggtacatg 7680
ggaacgtcag ccaccattac atccggtgag cagtcaggtg cggtgatacg tggtgttttt 7740
gatgaccctg aaaatatcag ctatgccgga cagggcgtgc gcgttgaagg ctccagcccg 7800
tccctgtttg tccggactga tgaggtgcgg cagctgcggc gtggagacac gctgaccatc 7860
ggtgaggaaa atttctgggt agatcgggtt tcgccggatg atggcggaag ttgtcatctc 7920
tggcttggac ggggcgtacc gcctgccgtt aaccgtcgcc gctgaaaggg ggatgtatgg 7980
ccataaaagg tcttgagcag gccgttgaaa acctcagccg tatcagcaaa acggcggtgc 8040
ctggtgccgc cgcaatggcc attaaccgcg ttgcttcatc cgcgatatcg cagtcggcgt 8100
cacaggttgc ccgtgagaca aaggtacgcc ggaaactggt aaaggaaagg gccaggctga 8160
aaagggccac ggtcaaaaat ccgcaggcca gaatcaaagt taaccggggg gatttgcccg 8220
taatcaagct gggtaatgcg cgggttgtcc tttcgcgccg caggcgtcgt aaaaaggggc 8280
agcgttcatc cctgaaaggt ggcggcagcg tgcttgtggt gggtaaccgt cgtattcccg 8340
gcgcgtttat tcagcaactg aaaaatggcc ggtggcatgt catgcagcgt gtggctggga 8400
aaaaccgtta ccccattgat gtggtgaaaa tcccgatggc ggtgccgctg accacggcgt 8460
ttaaacaaaa tattgagcgg atacggcgtg aacgtcttcc gaaagagctg ggctatgcgc 8520
tgcagcatca actgaggatg gtaataaagc gatgaaacat actgaactcc gtgcagccgt 8580
actggatgca ctggagaagc atgacaccgg ggcgacgttt tttgatggtc gccccgctgt 8640
ttttgatgag gcggattttc cggcagttgc cgtttatctc accggcgctg aatacacggg 8700
cgaagagctg gacagcgata cctggcaggc ggagctgcat atcgaagttt tcctgcctgc 8760
tcaggtgccg gattcagagc tggatgcgtg gatggagtcc cggatttatc cggtgatgag 8820
cgatatcccg gcactgtcag atttgatcac cagtatggtg gccagcggct atgactaccg 8880
gcgcgacgat gatgcgggct tgtggagttc agccgatctg acttatgtca ttacctatga 8940
aatgtgagga cgctatgcct gtaccaaatc ctacaatgcc ggtgaaaggt gccgggacca 9000
ccctgtgggt ttataagggg agcggtgacc cttacgcgaa tccgctttca gacgttgact 9060
ggtcgcgtct ggcaaaagtt aaagacctga cgcccggcga actgaccgct gagtcctatg 9120
acgacagcta tctcgatgat gaagatgcag actggactgc gaccgggcag gggcagaaat 9180
ctgccggaga taccagcttc acgctggcgt ggatgcccgg agagcagggg cagcaggcgc 9240
tgctggcgtg gtttaatgaa ggcgataccc gtgcctataa aatccgcttc ccgaacggca 9300
cggtcgatgt gttccgtggc tgggtcagca gtatcggtaa ggcggtgacg gcgaaggaag 9360
tgatcacccg cacggtgaaa gtcaccaatg tgggacgtcc gtcgatggca gaagatcgca 9420
gcacggtaac agcggcaacc ggcatgaccg tgacgcctgc cagcacctcg gtggtgaaag 9480
ggcagagcac cacgctgacc gtggccttcc agccggaggg cgtaaccgac aagagctttc 9540
gtgcggtgtc tgcggataaa acaaaagcca ccgtgtcggt cagtggtatg accatcaccg 9600
tgaacggcgt tgctgcaggc aaggtcaaca ttccggttgt atccggtaat ggtgagtttg 9660
ctgcggttgc agaaattacc gtcaccgcca gttaatccgg agagtcagcg atgttcctga 9720
aaaccgaatc atttgaacat aacggtgtga ccgtcacgct ttctgaactg tcagccctgc 9780
agcgcattga gcatctcgcc ctgatgaaac ggcaggcaga acaggcggag tcagacagca 9840
accggaagtt tactgtggaa gacgccatca gaaccggcgc gtttctggtg gcgatgtccc 9900
tgtggcataa ccatccgcag aagacgcaga tgccgtccat gaatgaagcc gttaaacaga 9960
ttgagcagga agtgcttacc acctggccca cggaggcaat ttctcatgct gaaaacgtgg 10020
tgtaccggct gtctggtatg tatgagtttg tggtgaataa tgcccctgaa cagacagagg 10080
acgccgggcc cgcagagcct gtttctgcgg gaaagtgttc gacggtgagc tgagttttgc 10140
cctgaaactg gcgcgtgaga tggggcgacc cgactggcgt gccatgcttg ccgggatgtc 10200
atccacggag tatgccgact ggcaccgctt ttacagtacc cattattttc atgatgttct 10260
gctggatatg cacttttccg ggctgacgta caccgtgctc agcctgtttt tcagcgatcc 10320
ggatatgcat ccgctggatt tcagtctgct gaaccggcgc gaggctgacg aagagcctga 10380
agatgatgtg ctgatgcaga aagcggcagg gcttgccgga ggtgtccgct ttggcccgga 10440
cgggaatgaa gttatccccg cttccccgga tgtggcggac atgacggagg atgacgtaat 10500
gctgatgaca gtatcagaag ggatcgcagg aggagtccgg tatggctgaa ccggtaggcg 10560
atctggtcgt tgatttgagt ctggatgcgg ccagatttga cgagcagatg gccagagtca 10620
ggcgtcattt ttctggtacg gaaagtgatg cgaaaaaaac agcggcagtc gttgaacagt 10680
cgctgagccg acaggcgctg gctgcacaga aagcggggat ttccgtcggg cagtataaag 10740
ccgccatgcg tatgctgcct gcacagttca ccgacgtggc cacgcagctt gcaggcgggc 10800
aaagtccgtg gctgatcctg ctgcaacagg gggggcaggt gaaggactcc ttcggcggga 10860
tgatccccat gttcaggggg cttgccggtg cgatcaccct gccgatggtg ggggccacct 10920
cgctggcggt ggcgaccggt gcgctggcgt atgcctggta tcagggcaac tcaaccctgt 10980
ccgatttcaa caaaacgctg gtcctttccg gcaatcaggc gggactgacg gcagatcgta 11040
tgctggtcct gtccagagcc gggcaggcgg cagggctgac gtttaaccag accagcgagt 11100
cactcagcgc actggttaag gcgggggtaa gcggtgaggc tcagattgcg tccatcagcc 11160
agagtgtggc gcgtttctcc tctgcatccg gcgtggaggt ggacaaggtc gctgaagcct 11220
tcgggaagct gaccacagac ccgacgtcgg ggctgacggc gatggctcgc cagttccata 11280
acgtgtcggc ggagcagatt gcgtatgttg ctcagttgca gcgttccggc gatgaagccg 11340
gggcattgca ggcggcgaac gaggccgcaa cgaaagggtt tgatgaccag acccgccgcc 11400
tgaaagagaa catgggcacg ctggagacct gggcagacag gactgcgcgg gcattcaaat 11460
ccatgtggga tgcggtgctg gatattggtc gtcctgatac cgcgcaggag atgctgatta 11520
aggcagaggc tgcgtataag aaagcagacg acatctggaa tctgcgcaag gatgattatt 11580
ttgttaacga tgaagcgcgg gcgcgttact gggatgatcg tgaaaaggcc cgtcttgcgc 11640
ttgaagccgc ccgaaagaag gctgagcagc agactcaaca ggacaaaaat gcgcagcagc 11700
agagcgatac cgaagcgtca cggctgaaat ataccgaaga ggcgcagaag gcttacgaac 11760
ggctgcagac gccgctggag aaatataccg cccgtcagga agaactgaac aaggcactga 11820
aagacgggaa aatcctgcag gcggattaca acacgctgat ggcggcggcg aaaaaggatt 11880
atgaagcgac gctgaaaaag ccgaaacagt ccagcgtgaa ggtgtctgcg ggcgatcgtc 11940
aggaagacag tgctcatgct gccctgctga cgcttcaggc agaactccgg acgctggaga 12000
agcatgccgg agcaaatgag aaaatcagcc agcagcgccg ggatttgtgg aaggcggaga 12060
gtcagttcgc ggtactggag gaggcggcgc aacgtcgcca gctgtctgca caggagaaat 12120
ccctgctggc gcataaagat gagacgctgg agtacaaacg ccagctggct gcacttggcg 12180
acaaggttac gtatcaggag cgcctgaacg cgctggcgca gcaggcggat aaattcgcac 12240
agcagcaacg ggcaaaacgg gccgccattg atgcgaaaag ccgggggctg actgaccggc 12300
aggcagaacg ggaagccacg gaacagcgcc tgaaggaaca gtatggcgat aatccgctgg 12360
cgctgaataa cgtcatgtca gagcagaaaa agacctgggc ggctgaagac cagcttcgcg 12420
ggaactggat ggcaggcctg aagtccggct ggagtgagtg ggaagagagc gccacggaca 12480
gtatgtcgca ggtaaaaagt gcagccacgc agacctttga tggtattgca cagaatatgg 12540
cggcgatgct gaccggcagt gagcagaact ggcgcagctt cacccgttcc gtgctgtcca 12600
tgatgacaga aattctgctt aagcaggcaa tggtggggat tgtcgggagt atcggcagcg 12660
ccattggcgg ggctgttggt ggcggcgcat ccgcgtcagg cggtacagcc attcaggccg 12720
ctgcggcgaa attccatttt gcaaccggag gatttacggg aaccggcggc aaatatgagc 12780
cagcggggat tgttcaccgt ggtgagtttg tcttcacgaa ggaggcaacc agccggattg 12840
gcgtggggaa tctttaccgg ctgatgcgcg gctatgccac cggcggttat gtcggtacac 12900
cgggcagcat ggcagacagc cggtcgcagg cgtccgggac gtttgagcag aataaccatg 12960
tggtgattaa caacgacggc acgaacgggc agataggtcc ggctgctctg aaggcggtgt 13020
atgacatggc ccgcaagggt gcccgtgatg aaattcagac acagatgcgt gatggtggcc 13080
tgttctccgg aggtggacga tgaagacctt ccgctggaaa gtgaaacccg gtatggatgt 13140
ggcttcggtc ccttctgtaa gaaaggtgcg ctttggtgat ggctattctc agcgagcgcc 13200
tgccgggctg aatgccaacc tgaaaacgta cagcgtgacg ctttctgtcc cccgtgagga 13260
ggccacggta ctggagtcgt ttctggaaga gcacgggggc tggaaatcct ttctgtggac 13320
gccgccttat gagtggcggc agataaaggt gacctgcgca aaatggtcgt cgcgggtcag 13380
tatgctgcgt gttgagttca gcgcagagtt tgaacaggtg gtgaactgat gcaggatatc 13440
cggcaggaaa cactgaatga atgcacccgt gcggagcagt cggccagcgt ggtgctctgg 13500
gaaatcgacc tgacagaggt cggtggagaa cgttattttt tctgtaatga gcagaacgaa 13560
aaaggtgagc cggtcacctg gcaggggcga cagtatcagc cgtatcccat tcaggggagc 13620
ggttttgaac tgaatggcaa aggcaccagt acgcgcccca cgctgacggt ttctaacctg 13680
tacggtatgg tcaccgggat ggcggaagat atgcagagtc tggtcggcgg aacggtggtc 13740
cggcgtaagg tttacgcccg ttttctggat gcggtgaact tcgtcaacgg aaacagttac 13800
gccgatccgg agcaggaggt gatcagccgc tggcgcattg agcagtgcag cgaactgagc 13860
gcggtgagtg cctcctttgt actgtccacg ccgacggaaa cggatggcgc tgtttttccg 13920
ggacgtatca tgctggccaa cacctgcacc tggacctatc gcggtgacga gtgcggttat 13980
agcggtccgg ctgtcgcgga tgaatatgac cagccaacgt ccgatatcac gaaggataaa 14040
tgcagcaaat gcctgagcgg ttgtaagttc cgcaataacg tcggcaactt tggcggcttc 14100
ctttccatta acaaactttc gcagtaaatc ccatgacaca gacagaatca gcgattctgg 14160
cgcacgcccg gcgatgtgcg ccagcggagt cgtgcggctt cgtggtaagc acgccggagg 14220
gggaaagata tttcccctgc gtgaatatct ccggtgagcc ggaggctatt tccgtatgtc 14280
gccggaagac tggctgcagg cagaaatgca gggtgagatt gtggcgctgg tccacagcca 14340
ccccggtggt ctgccctggc tgagtgaggc cgaccggcgg ctgcaggtgc agagtgattt 14400
gccgtggtgg ctggtctgcc gggggacgat tcataagttc cgctgtgtgc cgcatctcac 14460
cgggcggcgc tttgagcacg gtgtgacgga ctgttacaca ctgttccggg atgcttatca 14520
tctggcgggg attgagatgc cggactttca tcgtgaggat gactggtggc gtaacggcca 14580
gaatctctat ctggataatc tggaggcgac ggggctgtat caggtgccgt tgtcagcggc 14640
acagccgggc gatgtgctgc tgtgctgttt tggttcatca gtgccgaatc acgccgcaat 14700
ttactgcggc gacggcgagc tgctgcacca tattcctgaa caactgagca aacgagagag 14760
gtacaccgac aaatggcagc gacgcacaca ctccctctgg cgtcaccggg catggcgcgc 14820
atctgccttt acggggattt acaacgattt ggtcgccgca tcgaccttcg tgtgaaaacg 14880
ggggctgaag ccatccgggc actggccaca cagctcccgg cgtttcgtca gaaactgagc 14940
gacggctggt atcaggtacg gattgccggg cgggacgtca gcacgtccgg gttaacggcg 15000
cagttacatg agactctgcc tgatggcgct gtaattcata ttgttcccag agtcgccggg 15060
gccaagtcag gtggcgtatt ccagattgtc ctgggggctg ccgccattgc cggatcattc 15120
tttaccgccg gagccaccct tgcagcatgg ggggcagcca ttggggccgg tggtatgacc 15180
ggcatcctgt tttctctcgg tgccagtatg gtgctcggtg gtgtggcgca gatgctggca 15240
ccgaaagcca gaactccccg tatacagaca acggataacg gtaagcagaa cacctatttc 15300
tcctcactgg ataacatggt tgcccagggc aatgttctgc ctgttctgta cggggaaatg 15360
cgcgtggggt cacgcgtggt ttctcaggag atcagcacgg cagacgaagg ggacggtggt 15420
caggttgtgg tgattggtcg ctgatgcaaa atgttttatg tgaaaccgcc tgcgggcggt 15480
tttgtcattt atggagcgtg aggaatgggt aaaggaagca gtaaggggca taccccgcgc 15540
gaagcgaagg acaacctgaa gtccacgcag ttgctgagtg tgatcgatgc catcagcgaa 15600
gggccgattg aaggtccggt ggatggctta aaaagcgtgc tgctgaacag tacgccggtg 15660
ctggacactg aggggaatac caacatatcc ggtgtcacgg tggtgttccg ggctggtgag 15720
caggagcaga ctccgccgga gggatttgaa tcctccggct ccgagacggt gctgggtacg 15780
gaagtgaaat atgacacgcc gatcacccgc accattacgt ctgcaaacat cgaccgtctg 15840
cgctttacct tcggtgtaca ggcactggtg gaaaccacct caaagggtga caggaatccg 15900
tcggaagtcc gcctgctggt tcagatacaa cgtaacggtg gctgggtgac ggaaaaagac 15960
atcaccatta agggcaaaac cacctcgcag tatctggcct cggtggtgat gggtaacctg 16020
ccgccgcgcc cgtttaatat ccggatgcgc aggatgacgc cggacagcac cacagaccag 16080
ctgcagaaca aaacgctctg gtcgtcatac actgaaatca tcgatgtgaa acagtgctac 16140
ccgaacacgg cactggtcgg cgtgcaggtg gactcggagc agttcggcag ccagcaggtg 16200
agccgtaatt atcatctgcg cgggcgtatt ctgcaggtgc cgtcgaacta taacccgcag 16260
acgcggcaat acagcggtat ctgggacgga acgtttaaac cggcatacag caacaacatg 16320
gcctggtgtc tgtgggatat gctgacccat ccgcgctacg gcatggggaa acgtcttggt 16380
gcggcggatg tggataaatg ggcgctgtat gtcatcggcc agtactgcga ccagtcagtg 16440
ccggacggct ttggcggcac ggagccgcgc atcacctgta atgcgtacct gaccacacag 16500
cgtaaggcgt gggatgtgct cagcgatttc tgctcggcga tgcgctgtat gccggtatgg 16560
aacgggcaga cgctgacgtt cgtgcaggac cgaccgtcgg ataagacgtg gacctataac 16620
cgcagtaatg tggtgatgcc ggatgatggc gcgccgttcc gctacagctt cagcgccctg 16680
aaggaccgcc ataatgccgt tgaggtgaac tggattgacc cgaacaacgg ctgggagacg 16740
gcgacagagc ttgttgaaga tacgcaggcc attgcccgtt acggtcgtaa tgttacgaag 16800
atggatgcct ttggctgtac cagccggggg caggcacacc gcgccgggct gtggctgatt 16860
aaaacagaac tgctggaaac gcagaccgtg gatttcagcg tcggcgcaga agggcttcgc 16920
catgtaccgg gcgatgttat tgaaatctgc gatgatgact atgccggtat cagcaccggt 16980
ggtcgtgtgc tggcggtgaa cagccagacc cggacgctga cgctcgaccg tgaaatcacg 17040
ctgccatcct ccggtaccgc gctgataagc ctggttgacg gaagtggcaa tccggtcagc 17100
gtggaggttc agtccgtcac cgacggcgtg aaggtaaaag tgagccgtgt tcctgacggt 17160
gttgctgaat acagcgtatg ggagctgaag ctgccgacgc tgcgccagcg actgttccgc 17220
tgcgtgagta tccgtgagaa cgacgacggc acgtatgcca tcaccgccgt gcagcatgtg 17280
ccggaaaaag aggccatcgt ggataacggg gcgcactttg acggcgaaca gagtggcacg 17340
gtgaatggtg tcacgccgcc agcggtgcag cacctgaccg cagaagtcac tgcagacagc 17400
ggggaatatc aggtgctggc gcgatgggac acaccgaagg tggtgaaggg cgtgagtttc 17460
ctgctccgtc tgaccgtaac agcggacgac ggcagtgagc ggctggtcag cacggcccgg 17520
acgacggaaa ccacataccg cttcacgcaa ctggcgctgg ggaactacag gctgacagtc 17580
cgggcggtaa atgcgtgggg gcagcagggc gatccggcgt cggtatcgtt ccggattgcc 17640
gcaccggcag caccgtcgag gattgagctg acgccgggct attttcagat aaccgccacg 17700
ccgcatcttg ccgtttatga cccgacggta cagtttgagt tctggttctc ggaaaagcag 17760
attgcggata tcagacaggt tgaaaccagc acgcgttatc ttggtacggc gctgtactgg 17820
atagccgcca gtatcaatat caaaccgggc catgattatt acttttatat ccgcagtgtg 17880
aacaccgttg gcaaatcggc attcgtggag gccgtcggtc gggcgagcga tgatgcggaa 17940
ggttacctgg attttttcaa aggcaagata accgaatccc atctcggcaa ggagctgctg 18000
gaaaaagtcg agctgacgga ggataacgcc agcagactgg aggagttttc gaaagagtgg 18060
aaggatgcca gtgataagtg gaatgccatg tgggctgtca aaattgagca gaccaaagac 18120
ggcaaacatt atgtcgcggg tattggcctc agcatggagg acacggagga aggcaaactg 18180
agccagtttc tggttgccgc caatcgtatc gcatttattg acccggcaaa cgggaatgaa 18240
acgccgatgt ttgtggcgca gggcaaccag atattcatga acgacgtgtt cctgaagcgc 18300
ctgacggccc ccaccattac cagcggcggc aatcctccgg ccttttccct gacaccggac 18360
ggaaagctga ccgctaaaaa tgcggatatc agtggcagtg tgaatgcgaa ctccgggacg 18420
ctcagtaatg tgacgatagc tgaaaactgt acgataaacg gtacgctgag ggcggaaaaa 18480
atcgtcgggg acattgtaaa ggcggcgagc gcggcttttc cgcgccagcg tgaaagcagt 18540
gtggactggc cgtcaggtac ccgtactgtc accgtgaccg atgaccatcc ttttgatcgc 18600
cagatagtgg tgcttccgct gacgtttcgc ggaagtaagc gtactgtcag cggcaggaca 18660
acgtattcga tgtgttatct gaaagtactg atgaacggtg cggtgattta tgatggcgcg 18720
gcgaacgagg cggtacaggt gttctcccgt attgttgaca tgccagcggg tcggggaaac 18780
gtgatcctga cgttcacgct tacgtccaca cggcattcgg cagatattcc gccgtatacg 18840
tttgccagcg atgtgcaggt tatggtgatt aagaaacagg cgctgggcat cagcgtggtc 18900
tgagtgtgtt acagaggttc gtccgggaac gggcgtttta ttataaaaca gtgagaggtg 18960
aacgatgcgt aatgtgtgta ttgccgttgc tgtctttgcc gcacttgcgg tgacagtcac 19020
tccggcccgt gcggaaggtg gacatggtac gtttacggtg ggctattttc aagtgaaacc 19080
gggtacattg ccgtcgttgt cgggcgggga taccggtgtg agtcatctga aagggattaa 19140
cgtgaagtac cgttatgagc tgacggacag tgtgggggtg atggcttccc tggggttcgc 19200
cgcgtcgaaa aagagcagca cagtgatgac cggggaggat acgtttcact atgagagcct 19260
gcgtggacgt tatgtgagcg tgatggccgg accggtttta caaatcagta agcaggtcag 19320
tgcgtacgcc atggccggag tggctcacag tcggtggtcc ggcagtacaa tggattaccg 19380
taagacggaa atcactcccg ggtatatgaa agagacgacc actgccaggg acgaaagtgc 19440
aatgcggcat acctcagtgg cgtggagtgc aggtatacag attaatccgg cagcgtccgt 19500
cgttgttgat attgcttatg aaggctccgg cagtggcgac tggcgtactg acggattcat 19560
cgttggggtc ggttataaat tctgattagc caggtaacac agtgttatga cagcccgccg 19620
gaaccggtgg gcttttttgt ggggtgaata tggcagtaaa gatttcagga gtcctgaaag 19680
acggcacagg aaaaccggta cagaactgca ccattcagct gaaagccaga cgtaacagca 19740
ccacggtggt ggtgaacacg gtgggctcag agaatccgga tgaagccggg cgttacagca 19800
tggatgtgga gtacggtcag tacagtgtca tcctgcaggt tgacggtttt ccaccatcgc 19860
acgccgggac catcaccgtg tatgaagatt cacaaccggg gacgctgaat gattttctct 19920
gtgccatgac ggaggatgat gcccggccgg aggtgctgcg tcgtcttgaa ctgatggtgg 19980
aagaggtggc gcgtaacgcg tccgtggtgg cacagagtac ggcagacgcg aagaaatcag 20040
ccggcgatgc cagtgcatca gctgctcagg tcgcggccct tgtgactgat gcaactgact 20100
cagcacgcgc cgccagcacg tccgccggac aggctgcatc gtcagctcag gaagcgtcct 20160
ccggcgcaga agcggcatca gcaaaggcca ctgaagcgga aaaaagtgcc gcagccgcag 20220
agtcctcaaa aaacgcggcg gccaccagtg ccggtgcggc gaaaacgtca gaaacgaatg 20280
ctgcagcgtc acaacaatca gccgccacgt ctgcctccac cgcggccacg aaagcgtcag 20340
aggccgccac ttcagcacga gatgcggtgg cctcaaaaga ggcagcaaaa tcatcagaaa 20400
cgaacgcatc atcaagtgcc ggtcgtgcag cttcctcggc aacggcggca gaaaattctg 20460
ccagggcggc aaaaacgtcc gagacgaatg ccaggtcatc tgaaacagca gcggaacgga 20520
gcgcctctgc cgcggcagac gcaaaaacag cggcggcggg gagtgcgtca acggcatcca 20580
cgaaggcgac agaggctgcg ggaagtgcgg tatcagcatc gcagagcaaa agtgcggcag 20640
aagcggcggc aatacgtgca aaaaattcgg caaaacgtgc agaagatata gcttcagctg 20700
tcgcgcttga ggatgcggac acaacgagaa aggggatagt gcagctcagc agtgcaacca 20760
acagcacgtc tgaaacgctt gctgcaacgc caaaggcggt taaggtggta atggatgaaa 20820
cgaacagaaa agcccactgg acagtccggc actgaccgga acgccaacag caccaaccgc 20880
gctcagggga acaaacaata cccagattgc gaacaccgct tttgtactgg ccgcgattgc 20940
agatgttatc gacgcgtcac ctgacgcact gaatacgctg aatgaactgg ccgcagcgct 21000
cgggaatgat ccagattttg ctaccaccat gactaacgcg cttgcgggta aacaaccgaa 21060
gaatgcgaca ctgacggcgc tggcagggct ttccacggcg aaaaataaat taccgtattt 21120
tgcggaaaat gatgccgcca gcctgactga actgactcag gttggcaggg atattctggc 21180
aaaaaattcc gttgcagatg ttcttgaata ccttggggcc ggtgagaatt cggcctttcc 21240
ggcaggtgcg ccgatcccgt ggccatcaga tatcgttccg tctggctacg tcctgatgca 21300
ggggcaggcg tttgacaaat cagcctaccc aaaacttgct gtcgcgtatc catcgggtgt 21360
gcttcctgat atgcgaggct ggacaatcaa ggggaaaccc gccagcggtc gtgctgtatt 21420
gtctcaggaa caggatggaa ttaagtcgca cacccacagt gccagtgcat ccggtacgga 21480
tttggggacg aaaaccacat cgtcgtttga ttacgggacg aaaacaacag gcagtttcga 21540
ttacggcacc aaatcgacga ataacacggg ggctcatgct cacagtctga gcggttcaac 21600
aggggccgcg ggtgctcatg cccacacaag tggtttaagg atgaacagtt ctggctggag 21660
tcagtatgga acagcaacca ttacaggaag tttatccaca gttaaaggaa ccagcacaca 21720
gggtattgct tatttatcga aaacggacag tcagggcagc cacagtcact cattgtccgg 21780
tacagccgtg agtgccggtg cacatgcgca tacagttggt attggtgcgc accagcatcc 21840
ggttgttatc ggtgctcatg cccattcttt cagtattggt tcacacggac acaccatcac 21900
cgttaacgct gcgggtaacg cggaaaacac cgtcaaaaac attgcattta actatattgt 21960
gaggcttgca taatggcatt cagaatgagt gaacaaccac ggaccataaa aatttataat 22020
ctgctggccg gaactaatga atttattggt gaaggtgacg catatattcc gcctcatacc 22080
ggtctgcctg caaacagtac cgatattgca ccgccagata ttccggctgg ctttgtggct 22140
gttttcaaca gtgatgaggc atcgtggcat ctcgttgaag accatcgggg taaaaccgtc 22200
tatgacgtgg cttccggcga cgcgttattt atttctgaac tcggtccgtt accggaaaat 22260
tttacctggt tatcgccggg aggggaatat cagaagtgga acggcacagc ctgggtgaag 22320
gatacggaag cagaaaaact gttccggatc cgggaggcgg aagaaacaaa aaaaagcctg 22380
atgcaggtag ccagtgagca tattgcgccg cttcaggatg ctgcagatct ggaaattgca 22440
acgaaggaag aaacctcgtt gctggaagcc tggaagaagt atcgggtgtt gctgaaccgt 22500
gttgatacat caactgcacc tgatattgag tggcctgctg tccctgttat ggagtaatcg 22560
ttttgtgata tgccgcagaa acgttgtatg aaataacgtt ctgcggttag ttagtatatt 22620
gtaaagctga gtattggttt atttggcgat tattatcttc aggagaataa tggaagttct 22680
atgactcaat tgttcatagt gtttacatca ccgccaattg cttttaagac tgaacgcatg 22740
aaatatggtt tttcgtcatg ttttgagtct gctgttgata tttctaaagt cggttttttt 22800
tcttcgtttt ctctaactat tttccatgaa atacattttt gattattatt tgaatcaatt 22860
ccaattacct gaagtctttc atctataatt ggcattgtat gtattggttt attggagtag 22920
atgcttgctt ttctgagcca tagctctgat atccaaatga agccataggc atttgttatt 22980
ttggctctgt cagctgcata acgccaaaaa atatatttat ctgcttgatc ttcaaatgtt 23040
gtattgatta aatcaattgg atggaattgt ttatcataaa aaattaatgt ttgaatgtga 23100
taaccgtcct ttaaaaaagt cgtttctgca agcttggctg tatagtcaac taactcttct 23160
gtcgaagtga tatttttagg cttatctacc agttttagac gctctttaat atcttcagga 23220
attattttat tgtcatattg tatcatgcta aatgacaatt tgcttatgga gtaatctttt 23280
aattttaaat aagttattct cctggcttca tcaaataaag agtcgaatga tgttggcgaa 23340
atcacatcgt cacccattgg attgtttatt tgtatgccaa gagagttaca gcagttatac 23400
attctgccat agattatagc taaggcatgt aataattcgt aatcttttag cgtattagcg 23460
acccatcgtc tttctgattt aataatagat gattcagtta aatatgaagg taatttcttt 23520
tgtgcaagtc tgactaactt ttttatacca atgtttaaca tactttcatt tgtaataaac 23580
tcaatgtcat tttcttcaat gtaagatgaa ataagagtag cctttgcctc gctatacatt 23640
tctaaatcgc cttgtttttc tatcgtattg cgagaatttt tagcccaagc cattaatgga 23700
tcatttttcc atttttcaat aacattattg ttataccaaa tgtcatatcc tataatctgg 23760
tttttgtttt tttgaataat aaatgttact gttcttgcgg tttggaggaa ttgattcaaa 23820
ttcaagcgaa ataattcagg gtcaaaatat gtatcaatgc agcatttgag caagtgcgat 23880
aaatctttaa gtcttctttc ccatggtttt ttagtcataa aactctccat tttgataggt 23940
tgcatgctag atgctgatat attttagagg tgataaaatt aactgcttaa ctgtcaatgt 24000
aatacaagtt gtttgatctt tgcaatgatt cttatcagaa accatatagt aaattagtta 24060
cacaggaaat ttttaatatt attattatca ttcattatgt attaaaatta gagttgtggc 24120
ttggctctgc taacacgttg ctcataggag atatggtaga gccgcagaca cgtcgtatgc 24180
aggaacgtgc tgcggctggc tggtgaactt ccgatagtgc gggtgttgaa tgatttccag 24240
ttgctaccga ttttacatat tttttgcatg agagaatttg taccacctcc caccgaccat 24300
ctatgactgt acgccactgt ccctaggact gctatgtgcc ggagcggaca ttacaaacgt 24360
ccttctcggt gcatgccact gttgccaatg acctgcctag gaattggtta gcaagttact 24420
accggatttt gtaaaaacag ccctcctcat ataaaaagta ttcgttcact tccgataagc 24480
gtcgtaattt tctatctttc atcatattct agatccctct gaaaaaatct tccgagtttg 24540
ctaggcactg atacataact cttttccaat aattggggaa gtcattcaaa tctataatag 24600
gtttcagatt tgcttcaata aattctgact gtagctgctg aaacgttgcg gttgaactat 24660
atttccttat aacttttacg aaagagtttc tttgagtaat cacttcactc aagtgcttcc 24720
ctgcctccaa acgatacctg ttagcaatat ttaatagctt gaaatgatga agagctctgt 24780
gtttgtcttc ctgcctccag ttcgccgggc attcaacata aaaactgata gcacccggag 24840
ttccggaaac gaaatttgca tatacccatt gctcacgaaa aaaaatgtcc ttgtcgatat 24900
agggatgaat cgcttggtgt acctcatcta ctgcgaaaac ttgacctttc tctcccatat 24960
tgcagtcgcg gcacgatgga actaaattaa taggcatcac cgaaaattca ggataatgtg 25020
caataggaag aaaatgatct atattttttg tctgtcctat atcaccacaa aatggacatt 25080
tttcacctga tgaaacaagc atgtcatcgt aatatgttct agcgggtttg tttttatctc 25140
ggagattatt ttcataaagc ttttctaatt taacctttgt caggttacca actactaagg 25200
ttgtaggctc aagagggtgt gtcctgtcgt aggtaaataa ctgacctgtc gagcttaata 25260
ttctatattg ttgttctttc tgcaaaaaag tggggaagtg agtaatgaaa ttatttctaa 25320
catttatctg catcatacct tccgagcatt tattaagcat ttcgctataa gttctcgctg 25380
gaagaggtag ttttttcatt gtactttacc ttcatctctg ttcattatca tcgcttttaa 25440
aacggttcga ccttctaatc ctatctgacc attataattt tttagaatgg tttcataaga 25500
aagctctgaa tcaacggact gcgataataa gtggtggtat ccagaatttg tcacttcaag 25560
taaaaacacc tcacgagtta aaacacctaa gttctcaccg aatgtctcaa tatccggacg 25620
gataatattt attgcttctc ttgaccgtag gactttccac atgcaggatt ttggaacctc 25680
ttgcagtact actggggaat gagttgcaat tattgctaca ccattgcgtg catcgagtaa 25740
gtcgcttaat gttcgtaaaa aagcagagag caaaggtgga tgcagatgaa cctctggttc 25800
atcgaataaa actaatgact tttcgccaac gacatctact aatcttgtga tagtaaataa 25860
aacaattgca tgtccagagc tcattcgaag cagatatttc tggatattgt cataaaacaa 25920
tttagtgaat ttatcatcgt ccacttgaat ctgtggttca ttacgtctta actcttcata 25980
tttagaaatg aggctgatga gttccatatt tgaaaagttt tcatcactac ttagtttttt 26040
gatagcttca agccagagtt gtctttttct atctactctc atacaaccaa taaatgctga 26100
aatgaattct aagcggagat cgcctagtga ttttaaacta ttgctggcag cattcttgag 26160
tccaatataa aagtattgtg taccttttgc tgggtcaggt tgttctttag gaggagtaaa 26220
aggatcaaat gcactaaacg aaactgaaac aagcgatcga aaatatccct ttgggattct 26280
tgactcgata agtctattat tttcagagaa aaaatattca ttgttttctg ggttggtgat 26340
tgcaccaatc attccattca aaattgttgt tttaccacac ccattccgcc cgataaaagc 26400
atgaatgttc gtgctgggca tagaattaac cgtcacctca aaaggtatag ttaaatcact 26460
gaatccggga gcactttttc tattaaatga aaagtggaaa tctgacaatt ctggcaaacc 26520
atttaacaca cgtgcgaact gtccatgaat ttctgaaaga gttacccctc taagtaatga 26580
ggtgttaagg acgctttcat tttcaatgtc ggctaatcga tttggccata ctactaaatc 26640
ctgaatagct ttaagaaggt tatgtttaaa accatcgctt aatttgctga gattaacata 26700
gtagtcaatg ctttcaccta aggaaaaaaa catttcaggg agttgactga attttttatc 26760
tattaatgaa taagtgctta cttcttcttt ttgacctaca aaaccaattt taacatttcc 26820
gatatcgcat ttttcaccat gctcatcaaa gacagtaaga taaaacattg taacaaagga 26880
atagtcattc caaccatctg ctcgtaggaa tgccttattt ttttctactg caggaatata 26940
cccgcctctt tcaataacac taaactccaa catatagtaa cccttaattt tattaaaata 27000
accgcaattt atttggcggc aacacaggat ctctctttta agttactctc tattacatac 27060
gttttccatc taaaaattag tagtattgaa cttaacgggg catcgtattg tagttttcca 27120
tatttagctt tctgcttcct tttggataac ccactgttat tcatgttgca tggtgcactg 27180
tttataccaa cgatatagtc tattaatgca tatatagtat cgccgaacga ttagctcttc 27240
aggcttctga agaagcgttt caagtactaa taagccgata gatagccacg gacttcgtag 27300
ccatttttca taagtgttaa cttccgctcc tcgctcataa cagacattca ctacagttat 27360
ggcggaaagg tatgcatgct gggtgtgggg aagtcgtgaa agaaaagaag tcagctgcgt 27420
cgtttgacat cactgctatc ttcttactgg ttatgcaggt cgtagtgggt ggcacacaaa 27480
gctttgcact ggattgcgag gctttgtgct tctctggagt gcgacaggtt tgatgacaaa 27540
aaattagcgc aagaagacaa aaatcacctt gcgctaatgc tctgttacag gtcactaata 27600
ccatctaagt agttgattca tagtgactgc atatgttgtg ttttacagta ttatgtagtc 27660
tgttttttat gcaaaatcta atttaatata ttgatattta tatcatttta cgtttctcgt 27720
tcagcttttt tatactaagt tggcattata aaaaagcatt gcttatcaat ttgttgcaac 27780
gaacaggtca ctatcagtca aaataaaatc attatttgat ttcaattttg tcccactccc 27840
tgcctctgtc atcacgatac tgtgatgcca tggtgtccga cttatgcccg agaagatgtt 27900
gagcaaactt atcgcttatc tgcttctcat agagtcttgc agacaaactg cgcaactcgt 27960
gaaaggtagg cggatcccct tcgaaggaaa gacctgatgc ttttcgtgcg cgcataaaat 28020
accttgatac tgtgccggat gaaagcggtt cgcgacgagt agatgcaatt atggtttctc 28080
cgccaagaat ctctttgcat ttatcaagtg tttccttcat tgatattccg agagcatcaa 28140
tatgcaatgc tgttgggatg gcaattttta cgcctgtttt gctttgctcg acataaagat 28200
atccatctac gatatcagac cacttcattt cgcataaatc accaactcgt tgcccggtaa 28260
caacagccag ttccattgca agtctgagcc aacatggtga tgattctgct gcttgataaa 28320
ttttcaggta ttcgtcagcc gtaagtcttg atctccttac ctctgatttt gctgcgcgag 28380
tggcagcgac atggtttgtt gttatatggc cttcagctat tgcctctcgg aatgcatcgc 28440
tcagtgttga tctgattaac ttggctgacg ccgccttgcc ctcgtctatg tatccattga 28500
gcattgccgc aatttctttt gtggtgatgt cttcaagtgg agcatcaggc agacccctcc 28560
ttattgcttt aattttgctc atgtaattta tgagtgtctt ctgcttgatt cctctgctgg 28620
ccaggatttt ttcgtagcga tcaagccatg aatgtaacgt aacggaatta tcactgttga 28680
ttctcgctgt cagaggcttg tgtttgtgtc ctgaaaataa ctcaatgttg gcctgtatag 28740
cttcagtgat tgcgattcgc ctgtctctgc ctaatccaaa ctctttaccc gtccttgggt 28800
ccctgtagca gtaatatcca ttgtttctta tataaaggtt agggggtaaa tcccggcgct 28860
catgacttcg ccttcttccc atttctgatc ctcttcaaaa ggccacctgt tactggtcga 28920
tttaagtcaa cctttaccgc tgattcgtgg aacagatact ctcttccatc cttaaccgga 28980
ggtgggaata tcctgcattc ccgaacccat cgacgaactg tttcaaggct tcttggacgt 29040
cgctggcgtg cgttccactc ctgaagtgtc aagtacatcg caaagtctcc gcaattacac 29100
gcaagaaaaa accgccatca ggcggcttgg tgttctttca gttcttcaat tcgaatattg 29160
gttacgtctg catgtgctat ctgcgcccat atcatccagt ggtcgtagca gtcgttgatg 29220
ttctccgctt cgataactct gttgaatggc tctccattcc attctcctgt gactcggaag 29280
tgcatttatc atctccataa aacaaaaccc gccgtagcga gttcagataa aataaatccc 29340
cgcgagtgcg aggattgtta tgtaatattg ggtttaatca tctatatgtt ttgtacagag 29400
agggcaagta tcgtttccac cgtactcgtg ataataattt tgcacggtat cagtcatttc 29460
tcgcacattg cagaatgggg atttgtcttc attagactta taaaccttca tggaatattt 29520
gtatgccgac tctatatcta taccttcatc tacataaaca ccttcgtgat gtctgcatgg 29580
agacaagaca ccggatctgc acaacattga taacgcccaa tctttttgct cagactctaa 29640
ctcattgata ctcatttata aactccttgc aatgtatgtc gtttcagcta aacggtatca 29700
gcaatgttta tgtaaagaaa cagtaagata atactcaacc cgatgtttga gtacggtcat 29760
catctgacac tacagactct ggcatcgctg tgaagacgac gcgaaattca gcattttcac 29820
aagcgttatc ttttacaaaa ccgatctcac tctcctttga tgcgaatgcc agcgtcagac 29880
atcatatgca gatactcacc tgcatcctga acccattgac ctccaacccc gtaatagcga 29940
tgcgtaatga tgtcgatagt tactaacggg tcttgttcga ttaactgccg cagaaactct 30000
tccaggtcac cagtgcagtg cttgataaca ggagtcttcc caggatggcg aacaacaaga 30060
aactggtttc cgtcttcacg gacttcgttg ctttccagtt tagcaatacg cttactccca 30120
tccgagataa caccttcgta atactcacgc tgctcgttga gttttgattt tgctgtttca 30180
agctcaacac gcagtttccc tactgttagc gcaatatcct cgttctcctg gtcgcggcgt 30240
ttgatgtatt gctggtttct ttcccgttca tccagcagtt ccagcacaat cgatggtgtt 30300
accaattcat ggaaaaggtc tgcgtcaaat ccccagtcgt catgcattgc ctgctctgcc 30360
gcttcacgca gtgcctgaga gttaatttcg ctcacttcga acctctctgt ttactgataa 30420
gttccagatc ctcctggcaa cttgcacaag tccgacaacc ctgaacgacc aggcgtcttc 30480
gttcatctat cggatcgcca cactcacaac aatgagtggc agatatagcc tggtggttca 30540
ggcggcgcat ttttattgct gtgttgcgct gtaattcttc tatttctgat gctgaatcaa 30600
tgatgtctgc catctttcat taatccctga actgttggtt aatacgcttg agggtgaatg 30660
cgaataataa aaaaggagcc tgtagctccc tgatgatttt gcttttcatg ttcatcgttc 30720
cttaaagacg ccgtttaaca tgccgattgc caggcttaaa tgagtcggtg tgaatcccat 30780
cagcgttacc gtttcgcggt gcttcttcag tacgctacgg caaatgtcat cgacgttttt 30840
atccggaaac tgctgtctgg ctttttttga tttcagaatt agcctgacgg gcaatgctgc 30900
gaagggcgtt ttcctgctga ggtgtcattg aacaagtccc atgtcggcaa gcataagcac 30960
acagaatatg aagcccgctg ccagaaaaat gcattccgtg gttgtcatac ctggtttctc 31020
tcatctgctt ctgctttcgc caccatcatt tccagctttt gtgaaaggga tgcggctaac 31080
gtatgaaatt cttcgtctgt ttctactggt attggcacaa acctgattcc aatttgagca 31140
aggctatgtg ccatctcgat actcgttctt aactcaacag aagatgcttt gtgcatacag 31200
cccctcgttt attatttatc tcctcagcca gccgctgtgc tttcagtgga tttcggataa 31260
cagaaaggcc gggaaatacc cagcctcgct ttgtaacgga gtagacgaaa gtgattgcgc 31320
ctacccggat attatcgtga ggatgcgtca tcgccattgc tccccaaata caaaaccaat 31380
ttcagccagt gcctcgtcca ttttttcgat gaactccggc acgatctcgt caaaactcgc 31440
catgtacttt tcatcccgct caatcacgac ataatgcagg ccttcacgct tcatacgcgg 31500
gtcatagttg gcaaagtacc aggcattttt tcgcgtcacc cacatgctgt actgcacctg 31560
ggccatgtaa gctgacttta tggcctcgaa accaccgagc cggaacttca tgaaatcccg 31620
ggaggtaaac gggcatttca gttcaaggcc gttgccgtca ctgcataaac catcgggaga 31680
gcaggcggta cgcatacttt cgtcgcgata gatgatcggg gattcagtaa cattcacgcc 31740
ggaagtgaat tcaaacaggg ttctggcgtc gttctcgtac tgttttcccc aggccagtgc 31800
tttagcgtta acttccggag ccacaccggt gcaaacctca gcaagcaggg tgtggaagta 31860
ggacattttc atgtcaggcc acttctttcc ggagcggggt tttgctatca cgttgtgaac 31920
ttctgaagcg gtgatgacgc cgagccgtaa tttgtgccac gcatcatccc cctgttcgac 31980
agctctcaca tcgatcccgg tacgctgcag gataatgtcc ggtgtcatgc tgccaccttc 32040
tgctctgcgg ctttctgttt caggaatcca agagctttta ctgcttcggc ctgtgtcagt 32100
tctgacgatg cacgaatgtc gcggcgaaat atctgggaac agagcggcaa taagtcgtca 32160
tcccatgttt tatccagggc gatcagcaga gtgttaatct cctgcatggt ttcatcgtta 32220
accggagtga tgtcgcgttc cggctgacgt tctgcagtgt atgcagtatt ttcgacaatg 32280
cgctcggctt catccttgtc atagatacca gcaaatccga aggccagacg ggcacactga 32340
atcatggctt tatgacgtaa catccgtttg ggatgcgact gccacggccc cgtgatttct 32400
ctgccttcgc gagttttgaa tggttcgcgg cggcattcat ccatccattc ggtaacgcag 32460
atcggatgat tacggtcctt gcggtaaatc cggcatgtac aggattcatt gtcctgctca 32520
aagtccatgc catcaaactg ctggttttca ttgatgatgc gggaccagcc atcaacgccc 32580
accaccggaa cgatgccatt ctgcttatca ggaaaggcgt aaatttcttt cgtccacgga 32640
ttaaggccgt actggttggc aacgatcagt aatgcgatga actgcgcatc gctggcatca 32700
cctttaaatg ccgtctggcg aagagtggtg atcagttcct gtgggtcgac agaatccatg 32760
ccgacacgtt cagccagctt cccagccagc gttgcgagtg cagtactcat tcgttttata 32820
cctctgaatc aatatcaacc tggtggtgag caatggtttc aaccatgtac cggatgtgtt 32880
ctgccatgcg ctcctgaaac tcaacatcgt catcaaacgc acgggtaatg gattttttgc 32940
tggccccgtg gcgttgcaaa tgatcgatgc atagcgattc aaacaggtgc tggggcaggc 33000
ctttttccat gtcgtctgcc agttctgcct ctttctcttc acgggcgagc tgctggtagt 33060
gacgcgccca gctctgagcc tcaagacgat cctgaatgta ataagcgttc atggctgaac 33120
tcctgaaata gctgtgaaaa tatcgcccgc gaaatgccgg gctgattagg aaaacaggaa 33180
agggggttag tgaatgcttt tgcttgatct cagtttcagt attaatatcc attttttata 33240
agcgtcgacg gcttcacgaa acatcttttc atcgccaata aaagtggcga tagtgaattt 33300
agtctggata gccataagtg tttgatccat tctttgggac tcctggctga ttaagtatgt 33360
cgataaggcg tttccatccg tcacgtaatt tacgggtgat tcgttcaagt aaagattcgg 33420
aagggcagcc agcaacaggc caccctgcaa tggcatattg catggtgtgc tccttattta 33480
tacataacga aaaacgcctc gagtgaagcg ttattggtat gcggtaaaac cgcactcagg 33540
cggccttgat agtcatatca tctgaatcaa atattcctga tgtatcgata tcggtaattc 33600
ttattccttc gctaccatcc attggaggcc atccttcctg accatttcca tcattccagt 33660
cgaactcaca cacaacacca tatgcattta agtcgcttga aattgctata agcagagcat 33720
gttgcgccag catgattaat acagcattta atacagagcc gtgtttattg agtcggtatt 33780
cagagtctga ccagaaatta ttaatctggt gaagtttttc ctctgtcatt acgtcatggt 33840
cgatttcaat ttctattgat gctttccagt cgtaatcaat gatgtatttt ttgatgtttg 33900
acatctgttc atatcctcac agataaaaaa tcgccctcac actggagggc aaagaagatt 33960
tccaataatc agaacaagtc ggctcctgtt tagttacgag cgacattgct ccgtgtattc 34020
actcgttgga atgaatacac agtgcagtgt ttattctgtt atttatgcca aaaataaagg 34080
ccactatcag gcagctttgt tgttctgttt accaagttct ctggcaatca ttgccgtcgt 34140
tcgtattgcc catttatcga catatttccc atcttccatt acaggaaaca tttcttcagg 34200
cttaaccatg cattccgatt gcagcttgca tccattgcat cgcttgaatt gtccacacca 34260
ttgattttta tcaatagtcg tagtcatacg gatagtcctg gtattgttcc atcacatcct 34320
gaggatgctc ttcgaactct tcaaattctt cttccatata tcaccttaaa tagtggattg 34380
cggtagtaaa gattgtgcct gtcttttaac cacatcaggc tcggtggttc tcgtgtaccc 34440
ctacagcgag aaatcggata aactattaca acccctacag tttgatgagt atagaaatgg 34500
atccactcgt tattctcgga cgagtgttca gtaatgaacc tctggagaga accatgtata 34560
tgatcgttat ctgggttgga cttctgcttt taagcccaga taactggcct gaatatgtta 34620
atgagagaat cggtattcct catgtgtggc atgttttcgt ctttgctctt gcattttcgc 34680
tagcaattaa tgtgcatcga ttatcagcta ttgccagcgc cagatataag cgatttaagc 34740
taagaaaacg cattaagatg caaaacgata aagtgcgatc agtaattcaa aaccttacag 34800
aagagcaatc tatggttttg tgcgcagccc ttaatgaagg caggaagtat gtggttacat 34860
caaaacaatt cccatacatt agtgagttga ttgagcttgg tgtgttgaac aaaacttttt 34920
cccgatggaa tggaaagcat atattattcc ctattgagga tatttactgg actgaattag 34980
ttgccagcta tgatccatat aatattgaga taaagccaag gccaatatct aagtaactag 35040
ataagaggaa tcgattttcc cttaattttc tggcgtccac tgcatgttat gccgcgttcg 35100
ccaggcttgc tgtaccatgt gcgctgattc ttgcgctcaa tacgttgcag gttgctttca 35160
atctgtttgt ggtattcagc cagcactgta aggtctatcg gatttagtgc gctttctact 35220
cgtgatttcg gtttgcgatt cagcgagaga atagggcggt taactggttt tgcgcttacc 35280
ccaaccaaca ggggatttgc tgctttccat tgagcctgtt tctctgcgcg acgttcgcgg 35340
cggcgtgttt gtgcatccat ctggattctc ctgtcagtta gctttggtgg tgtgtggcag 35400
ttgtagtcct gaacgaaaac cccccgcgat tggcacattg gcagctaatc cggaatcgca 35460
cttacggcca atgcttcgtt tcgtatcaca caccccaaag ccttctgctt tgaatgctgc 35520
ccttcttcag ggcttaattt ttaagagcgt caccttcatg gtggtcagtg cgtcctgctg 35580
atgtgctcag tatcaccgcc agtggtattt atgtcaacac cgccagagat aatttatcac 35640
cgcagatggt tatctgtatg ttttttatat gaatttattt tttgcagggg ggcattgttt 35700
ggtaggtgag agatctgaat tgctatgttt agtgagttgt atctatttat ttttcaataa 35760
atacaattgg ttatgtgttt tgggggcgat cgtgaggcaa agaaaacccg gcgctgaggc 35820
cgggttattc ttgttctctg gtcaaattat atagttggaa aacaaggatg catatatgaa 35880
tgaacgatgc agaggcaatg ccgatggcga tagtgggtat catgtagccg cttatgctgg 35940
aaagaagcaa taacccgcag aaaaacaaag ctccaagctc aacaaaacta agggcataga 36000
caataactac cgatgtcata tacccatact ctctaatctt ggccagtcgg cgcgttctgc 36060
ttccgattag aaacgtcaag gcagcaatca ggattgcaat catggttcct gcatatgatg 36120
acaatgtcgc cccaagacca tctctatgag ctgaaaaaga aacaccagga atgtagtggc 36180
ggaaaaggag atagcaaatg cttacgataa cgtaaggaat tattactatg taaacaccag 36240
gcatgattct gttccgcata attactcctg ataattaatc cttaactttg cccacctgcc 36300
ttttaaaaca ttccagtata tcacttttca ttcttgcgta gcaatatgcc atctcttcag 36360
ctatctcagc attggtgacc ttgttcagag gcgctgagag atggcctttt tctgatagat 36420
aatgttctgt taaaatatct ccggcctcat cttttgcccg caggctaatg tctgaaaatt 36480
gaggtgacgg gttaaaaata atatccttgg caaccttttt tatatccctt ttaaattttg 36540
gcttaatgac tatatccaat gagtcaaaaa gctccccttc aatatctgtt gcccctaaga 36600
cctttaatat atcgccaaat acaggtagct tggcttctac cttcaccgtt gttcggccga 36660
tgaaatgcat atgcataaca tcgtctttgg tggttcccct catcagtggc tctatctgaa 36720
cgcgctctcc actgcttaat gacattcctt tcccgattaa aaaatctgtc agatcggatg 36780
tggtcggccc gaaaacagtt ctggcaaaac caatggtgtc gccttcaaca aacaaaaaag 36840
atgggaatcc caatgattcg tcatctgcga ggctgttctt aatatcttca actgaagctt 36900
tagagcgatt tatcttctga accagactct tgtcatttgt tttggtaaag agaaaagttt 36960
ttccatcgat tttatgaata tacaaataat tggagccaac ctgcaggtga tgattatcag 37020
ccagcagaga attaaggaaa acagacaggt ttattgagcg cttatctttc cctttatttt 37080
tgctgcggta agtcgcataa aaaccattct tcataattca atccatttac tatgttatgt 37140
tctgagggga gtgaaaattc ccctaattcg atgaagattc ttgctcaatt gttatcagct 37200
atgcgccgac cagaacacct tgccgatcag ccaaacgtct cttcaggcca ctgactagcg 37260
ataactttcc ccacaacgga acaactctca ttgcatggga tcattgggta ctgtgggttt 37320
agtggttgta aaaacacctg accgctatcc ctgatcagtt tcttgaaggt aaactcatca 37380
cccccaagtc tggctatgca gaaatcacct ggctcaacag cctgctcagg gtcaacgaga 37440
attaacattc cgtcaggaaa gcttggcttg gagcctgttg gtgcggtcat ggaattacct 37500
tcaacctcaa gccagaatgc agaatcactg gcttttttgg ttgtgcttac ccatctctcc 37560
gcatcacctt tggtaaaggt tctaagctta ggtgagaaca tccctgcctg aacatgagaa 37620
aaaacagggt actcatactc acttctaagt gacggctgca tactaaccgc ttcatacatc 37680
tcgtagattt ctctggcgat tgaagggcta aattcttcaa cgctaacttt gagaattttt 37740
gtaagcaatg cggcgttata agcatttaat gcattgatgc cattaaataa agcaccaacg 37800
cctgactgcc ccatccccat cttgtctgcg acagattcct gggataagcc aagttcattt 37860
ttcttttttt cataaattgc tttaaggcga cgtgcgtcct caagctgctc ttgtgttaat 37920
ggtttctttt ttgtgctcat acgttaaatc tatcaccgca agggataaat atctaacacc 37980
gtgcgtgttg actattttac ctctggcggt gataatggtt gcatgtacta aggaggttgt 38040
atggaacaac gcataaccct gaaagattat gcaatgcgct ttgggcaaac caagacagct 38100
aaagatctcg gcgtatatca aagcgcgatc aacaaggcca ttcatgcagg ccgaaagatt 38160
tttttaacta taaacgctga tggaagcgtt tatgcggaag aggtaaagcc cttcccgagt 38220
aacaaaaaaa caacagcata aataaccccg ctcttacaca ttccagccct gaaaaagggc 38280
atcaaattaa accacaccta tggtgtatgc atttatttgc atacattcaa tcaattgtta 38340
tctaaggaaa tacttacata tggttcgtgc aaacaaacgc aacgaggctc tacgaatcga 38400
gagtgcgttg cttaacaaaa tcgcaatgct tggaactgag aagacagcgg aagctgtggg 38460
cgttgataag tcgcagatca gcaggtggaa gagggactgg attccaaagt tctcaatgct 38520
gcttgctgtt cttgaatggg gggtcgttga cgacgacatg gctcgattgg cgcgacaagt 38580
tgctgcgatt ctcaccaata aaaaacgccc ggcggcaacc gagcgttctg aacaaatcca 38640
gatggagttc tgaggtcatt actggatcta tcaacaggag tcattatgac aaatacagca 38700
aaaatactca acttcggcag aggtaacttt gccggacagg agcgtaatgt ggcagatctc 38760
gatgatggtt acgccagact atcaaatatg ctgcttgagg cttattcggg cgcagatctg 38820
accaagcgac agtttaaagt gctgcttgcc attctgcgta aaacctatgg gtggaataaa 38880
ccaatggaca gaatcaccga ttctcaactt agcgagatta caaagttacc tgtcaaacgg 38940
tgcaatgaag ccaagttaga actcgtcaga atgaatatta tcaagcagca aggcggcatg 39000
tttggaccaa ataaaaacat ctcagaatgg tgcatccctc aaaacgaggg aaaatcccct 39060
aaaacgaggg ataaaacatc cctcaaattg ggggattgct atccctcaaa acagggggac 39120
acaaaagaca ctattacaaa agaaaaaaga aaagattatt cgtcagagaa ttctggcgaa 39180
tcctctgacc agccagaaaa cgacctttct gtggtgaaac cggatgctgc aattcagagc 39240
ggcagcaagt gggggacagc agaagacctg accgccgcag agtggatgtt tgacatggtg 39300
aagactatcg caccatcagc cagaaaaccg aattttgctg ggtgggctaa cgatatccgc 39360
ctgatgcgtg aacgtgacgg acgtaaccac cgcgacatgt gtgtgctgtt ccgctgggca 39420
tgccaggaca acttctggtc cggtaacgtg ctgagcccgg ccaaactccg cgataagtgg 39480
acccaactcg aaatcaaccg taacaagcaa caggcaggcg tgacagccag caaaccaaaa 39540
ctcgacctga caaacacaga ctggatttac ggggtggatc tatgaaaaac atcgccgcac 39600
agatggttaa ctttgaccgt gagcagatgc gtcggatcgc caacaacatg ccggaacagt 39660
acgacgaaaa gccgcaggta cagcaggtag cgcagatcat caacggtgtg ttcagccagt 39720
tactggcaac tttcccggcg agcctggcta accgtgacca gaacgaagtg aacgaaatcc 39780
gtcgccagtg ggttctggct tttcgggaaa acgggatcac cacgatggaa caggttaacg 39840
caggaatgcg cgtagcccgt cggcagaatc gaccatttct gccatcaccc gggcagtttg 39900
ttgcatggtg ccgggaagaa gcatccgtta ccgccggact gccaaacgtc agcgagctgg 39960
ttgatatggt ttacgagtat tgccggaagc gaggcctgta tccggatgcg gagtcttatc 40020
cgtggaaatc aaacgcgcac tactggctgg ttaccaacct gtatcagaac atgcgggcca 40080
atgcgcttac tgatgcggaa ttacgccgta aggccgcaga tgagcttgtc catatgactg 40140
cgagaattaa ccgtggtgag gcgatccctg aaccagtaaa acaacttcct gtcatgggcg 40200
gtagacctct aaatcgtgca caggctctgg cgaagatcgc agaaatcaaa gctaagttcg 40260
gactgaaagg agcaagtgta tgacgggcaa agaggcaatt attcattacc tggggacgca 40320
taatagcttc tgtgcgccgg acgttgccgc gctaacaggc gcaacagtaa ccagcataaa 40380
tcaggccgcg gctaaaatgg cacgggcagg tcttctggtt atcgaaggta aggtctggcg 40440
aacggtgtat taccggtttg ctaccaggga agaacgggaa ggaaagatga gcacgaacct 40500
ggtttttaag gagtgtcgcc agagtgccgc gatgaaacgg gtattggcgg tatatggagt 40560
taaaagatga ccatctacat tactgagcta ataacaggcc tgctggtaat cgcaggcctt 40620
tttatttggg ggagagggaa gtcatgaaaa aactaacctt tgaaattcga tctccagcac 40680
atcagcaaaa cgctattcac gcagtacagc aaatccttcc agacccaacc aaaccaatcg 40740
tagtaaccat tcaggaacgc aaccgcagct tagaccaaaa caggaagcta tgggcctgct 40800
taggtgacgt ctctcgtcag gttgaatggc atggtcgctg gctggatgca gaaagctgga 40860
agtgtgtgtt taccgcagca ttaaagcagc aggatgttgt tcctaacctt gccgggaatg 40920
gctttgtggt aataggccag tcaaccagca ggatgcgtgt aggcgaattt gcggagctat 40980
tagagcttat acaggcattc ggtacagagc gtggcgttaa gtggtcagac gaagcgagac 41040
tggctctgga gtggaaagcg agatggggag acagggctgc atgataaatg tcgttagttt 41100
ctccggtggc aggacgtcag catatttgct ctggctaatg gagcaaaagc gacgggcagg 41160
taaagacgtg cattacgttt tcatggatac aggttgtgaa catccaatga catatcggtt 41220
tgtcagggaa gttgtgaagt tctgggatat accgctcacc gtattgcagg ttgatatcaa 41280
cccggagctt ggacagccaa atggttatac ggtatgggaa ccaaaggata ttcagacgcg 41340
aatgcctgtt ctgaagccat ttatcgatat ggtaaagaaa tatggcactc catacgtcgg 41400
cggcgcgttc tgcactgaca gattaaaact cgttcccttc accaaatact gtgatgacca 41460
tttcgggcga gggaattaca ccacgtggat tggcatcaga gctgatgaac cgaagcggct 41520
aaagccaaag cctggaatca gatatcttgc tgaactgtca gactttgaga aggaagatat 41580
cctcgcatgg tggaagcaac aaccattcga tttgcaaata ccggaacatc tcggtaactg 41640
catattctgc attaaaaaat caacgcaaaa aatcggactt gcctgcaaag atgaggaggg 41700
attgcagcgt gtttttaatg aggtcatcac gggatcccat gtgcgtgacg gacatcggga 41760
aacgccaaag gagattatgt accgaggaag aatgtcgctg gacggtatcg cgaaaatgta 41820
ttcagaaaat gattatcaag ccctgtatca ggacatggta cgagctaaaa gattcgatac 41880
cggctcttgt tctgagtcat gcgaaatatt tggagggcag cttgatttcg acttcgggag 41940
ggaagctgca tgatgcgatg ttatcggtgc ggtgaatgca aagaagataa ccgcttccga 42000
ccaaatcaac cttactggaa tcgatggtgt ctccggtgtg aaagaacacc aacaggggtg 42060
ttaccactac cgcaggaaaa ggaggacgtg tggcgagaca gcgacgaagt atcaccgaca 42120
taatctgcga aaactgcaaa taccttccaa cgaaacgcac cagaaataaa cccaagccaa 42180
tcccaaaaga atctgacgta aaaaccttca actacacggc tcacctgtgg gatatccggt 42240
ggctaagacg tcgtgcgagg aaaacaaggt gattgaccaa aatcgaagtt acgaacaaga 42300
aagcgtcgag cgagctttaa cgtgcgctaa ctgcggtcag aagctgcatg tgctggaagt 42360
tcacgtgtgt gagcactgct gcgcagaact gatgagcgat ccgaatagct cgatgcacga 42420
ggaagaagat gatggctaaa ccagcgcgaa gacgatgtaa aaacgatgaa tgccgggaat 42480
ggtttcaccc tgcattcgct aatcagtggt ggtgctctcc agagtgtgga accaagatag 42540
cactcgaacg acgaagtaaa gaacgcgaaa aagcggaaaa agcagcagag aagaaacgac 42600
gacgagagga gcagaaacag aaagataaac ttaagattcg aaaactcgcc ttaaagcccc 42660
gcagttactg gattaaacaa gcccaacaag ccgtaaacgc cttcatcaga gaaagagacc 42720
gcgacttacc atgtatctcg tgcggaacgc tcacgtctgc tcagtgggat gccggacatt 42780
accggacaac tgctgcggca cctcaactcc gatttaatga acgcaatatt cacaagcaat 42840
gcgtggtgtg caaccagcac aaaagcggaa atctcgttcc gtatcgcgtc gaactgatta 42900
gccgcatcgg gcaggaagca gtagacgaaa tcgaatcaaa ccataaccgc catcgctgga 42960
ctatcgaaga gtgcaaggcg atcaaggcag agtaccaaca gaaactcaaa gacctgcgaa 43020
atagcagaag tgaggccgca tgacgttctc agtaaaaacc attccagaca tgctcgttga 43080
aacatacgga aatcagacag aagtagcacg cagactgaaa tgtagtcgcg gtacggtcag 43140
aaaatacgtt gatgataaag acgggaaaat gcacgccatc gtcaacgacg ttctcatggt 43200
tcatcgcgga tggagtgaaa gagatgcgct attacgaaaa aattgatggc agcaaatacc 43260
gaaatatttg ggtagttggc gatctgcacg gatgctacac gaacctgatg aacaaactgg 43320
atacgattgg attcgacaac aaaaaagacc tgcttatctc ggtgggcgat ttggttgatc 43380
gtggtgcaga gaacgttgaa tgcctggaat taatcacatt cccctggttc agagctgtac 43440
gtggaaacca tgagcaaatg atgattgatg gcttatcaga gcgtggaaac gttaatcact 43500
ggctgcttaa tggcggtggc tggttcttta atctcgatta cgacaaagaa attctggcta 43560
aagctcttgc ccataaagca gatgaacttc cgttaatcat cgaactggtg agcaaagata 43620
aaaaatatgt tatctgccac gccgattatc cctttgacga atacgagttt ggaaagccag 43680
ttgatcatca gcaggtaatc tggaaccgcg aacgaatcag caactcacaa aacgggatcg 43740
tgaaagaaat caaaggcgcg gacacgttca tctttggtca tacgccagca gtgaaaccac 43800
tcaagtttgc caaccaaatg tatatcgata ccggcgcagt gttctgcgga aacctaacat 43860
tgattcaggt acagggagaa ggcgcatgag actcgaaagc gtagctaaat ttcattcgcc 43920
aaaaagcccg atgatgagcg actcaccacg ggccacggct tctgactctc tttccggtac 43980
tgatgtgatg gctgctatgg ggatggcgca atcacaagcc ggattcggta tggctgcatt 44040
ctgcggtaag cacgaactca gccagaacga caaacaaaag gctatcaact atctgatgca 44100
atttgcacac aaggtatcgg ggaaataccg tggtgtggca aagcttgaag gaaatactaa 44160
ggcaaaggta ctgcaagtgc tcgcaacatt cgcttatgcg gattattgcc gtagtgccgc 44220
gacgccgggg gcaagatgca gagattgcca tggtacaggc cgtgcggttg atattgccaa 44280
aacagagctg tgggggagag ttgtcgagaa agagtgcgga agatgcaaag gcgtcggcta 44340
ttcaaggatg ccagcaagcg cagcatatcg cgctgtgacg atgctaatcc caaaccttac 44400
ccaacccacc tggtcacgca ctgttaagcc gctgtatgac gctctggtgg tgcaatgcca 44460
caaagaagag tcaatcgcag acaacatttt gaatgcggtc acacgttagc agcatgattg 44520
ccacggatgg caacatatta acggcatgat attgacttat tgaataaaat tgggtaaatt 44580
tgactcaacg atgggttaat tcgctcgttg tggtagtgag atgaaaagag gcggcgctta 44640
ctaccgattc cgcctagttg gtcacttcga cgtatcgtct ggaactccaa ccatcgcagg 44700
cagagaggtc tgcaaaatgc aatcccgaaa cagttcgcag gtaatagtta gagcctgcat 44760
aacggtttcg ggatttttta tatctgcaca acaggtaaga gcattgagtc gataatcgtg 44820
aagagtcggc gagcctggtt agccagtgct ctttccgttg tgctgaatta agcgaatacc 44880
ggaagcagaa ccggatcacc aaatgcgtac aggcgtcatc gccgcccagc aacagcacaa 44940
cccaaactga gccgtagcca ctgtctgtcc tgaattcatt agtaatagtt acgctgcggc 45000
cttttacaca tgaccttcgt gaaagcgggt ggcaggaggt cgcgctaaca acctcctgcc 45060
gttttgcccg tgcatatcgg tcacgaacaa atctgattac taaacacagt agcctggatt 45120
tgttctatca gtaatcgacc ttattcctaa ttaaatagag caaatcccct tattgggggt 45180
aagacatgaa gatgccagaa aaacatgacc tgttggccgc cattctcgcg gcaaaggaac 45240
aaggcatcgg ggcaatcctt gcgtttgcaa tggcgtacct tcgcggcaga tataatggcg 45300
gtgcgtttac aaaaacagta atcgacgcaa cgatgtgcgc cattatcgcc tagttcattc 45360
gtgaccttct cgacttcgcc ggactaagta gcaatctcgc ttatataacg agcgtgttta 45420
tcggctacat cggtactgac tcgattggtt cgcttatcaa acgcttcgct gctaaaaaag 45480
ccggagtaga agatggtaga aatcaataat caacgtaagg cgttcctcga tatgctggcg 45540
tggtcggagg gaactgataa cggacgtcag aaaaccagaa atcatggtta tgacgtcatt 45600
gtaggcggag agctatttac tgattactcc gatcaccctc gcaaacttgt cacgctaaac 45660
ccaaaactca aatcaacagg cgccggacgc taccagcttc tttcccgttg gtgggatgcc 45720
taccgcaagc agcttggcct gaaagacttc tctccgaaaa gtcaggacgc tgtggcattg 45780
cagcagatta aggagcgtgg cgctttacct atgattgatc gtggtgatat ccgtcaggca 45840
atcgaccgtt gcagcaatat ctgggcttca ctgccgggcg ctggttatgg tcagttcgag 45900
cataaggctg acagcctgat tgcaaaattc aaagaagcgg gcggaacggt cagagagatt 45960
gatgtatgag cagagtcacc gcgattatct ccgctctggt tatctgcatc atcgtctgcc 46020
tgtcatgggc tgttaatcat taccgtgata acgccattac ctacaaagcc cagcgcgaca 46080
aaaatgccag agaactgaag ctggcgaacg cggcaattac tgacatgcag atgcgtcagc 46140
gtgatgttgc tgcgctcgat gcaaaataca cgaaggagtt agctgatgct aaagctgaaa 46200
atgatgctct gcgtgatgat gttgccgctg gtcgtcgtcg gttgcacatc aaagcagtct 46260
gtcagtcagt gcgtgaagcc accaccgcct ccggcgtgga taatgcagcc tccccccgac 46320
tggcagacac cgctgaacgg gattatttca ccctcagaga gaggctgatc actatgcaaa 46380
aacaactgga aggaacccag aagtatatta atgagcagtg cagatagagt tgcccatatc 46440
gatgggcaac tcatgcaatt attgtgagca atacacacgc gcttccagcg gagtataaat 46500
gcctaaagta ataaaaccga gcaatccatt tacgaatgtt tgctgggttt ctgttttaac 46560
aacattttct gcgccgccac aaattttggc tgcatcgaca gttttcttct gcccaattcc 46620
agaaacgaag aaatgatggg tgatggtttc ctttggtgct actgctgccg gtttgttttg 46680
aacagtaaac gtctgttgag cacatcctgt aataagcagg gccagcgcag tagcgagtag 46740
catttttttc atggtgttat tcccgatgct ttttgaagtt cgcagaatcg tatgtgtaga 46800
aaattaaaca aaccctaaac aatgagttga aatttcatat tgttaatatt tattaatgta 46860
tgtcaggtgc gatgaatcgt cattgtattc ccggattaac tatgtccaca gccctgacgg 46920
ggaacttctc tgcgggagtg tccgggaata attaaaacga tgcacacagg gtttagcgcg 46980
tacacgtatt gcattatgcc aacgccccgg tgctgacacg gaagaaaccg gacgttatga 47040
tttagcgtgg aaagatttgt gtagtgttct gaatgctctc agtaaatagt aatgaattat 47100
caaaggtata gtaatatctt ttatgttcat ggatatttgt aacccatcgg aaaactcctg 47160
ctttagcaag attttccctg tattgctgaa atgtgatttc tcttgatttc aacctatcat 47220
aggacgtttc tataagatgc gtgtttcttg agaatttaac atttacaacc tttttaagtc 47280
cttttattaa cacggtgtta tcgttttcta acacgatgtg aatattatct gtggctagat 47340
agtaaatata atgtgagacg ttgtgacgtt ttagttcaga ataaaacaat tcacagtcta 47400
aatcttttcg cacttgatcg aatatttctt taaaaatggc aacctgagcc attggtaaaa 47460
ccttccatgt gatacgaggg cgcgtagttt gcattatcgt ttttatcgtt tcaatctggt 47520
ctgacctcct tgtgttttgt tgatgattta tgtcaaatat taggaatgtt ttcacttaat 47580
agtattggtt gcgtaacaaa gtgcggtcct gctggcattc tggagggaaa tacaaccgac 47640
agatgtatgt aaggccaacg tgctcaaatc ttcatacaga aagatttgaa gtaatatttt 47700
aaccgctaga tgaagagcaa gcgcatggag cgacaaaatg aataaagaac aatctgctga 47760
tgatccctcc gtggatctga ttcgtgtaaa aaatatgctt aatagcacca tttctatgag 47820
ttaccctgat gttgtaattg catgtataga acataaggtg tctctggaag cattcagagc 47880
aattgaggca gcgttggtga agcacgataa taatatgaag gattattccc tggtggttga 47940
ctgatcacca taactgctaa tcattcaaac tatttagtct gtgacagagc caacacgcag 48000
tctgtcactg tcaggaaagt ggtaaaactg caactcaatt actgcaatgc cctcgtaatt 48060
aagtgaattt acaatatcgt cctgttcgga gggaagaacg cgggatgttc attcttcatc 48120
acttttaatt gatgtatatg ctctcttttc tgacgttagt ctccgacggc aggcttcaat 48180
gacccaggct gagaaattcc cggacccttt ttgctcaaga gcgatgttaa tttgttcaat 48240
catttggtta ggaaagcgga tgttgcgggt tgttgttctg cgggttctgt tcttcgttga 48300
catgaggttg ccccgtattc agtgtcgctg atttgtattg tctgaagttg tttttacgtt 48360
aagttgatgc agatcaatta atacgatacc tgcgtcataa ttgattattt gacgtggttt 48420
gatggcctcc acgcacgttg tgatatgtag atgataatca ttatcacttt acgggtcctt 48480
tccggtgatc cgacaggtta cg 48502
<210> 32
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 实施例1中使用的序列。
<400> 32
tttttttttt tt 12
<210> 33
<211> 51
<212> DNA
<213> 人工序列
<220>
<223> 实施例1中使用的序列。
<400> 33
ggttgtttct gttggtgctg atattgcggc gtctgcttgg gtgtttaacc t 51
<210> 34
<211> 68
<212> DNA
<213> 人工序列
<220>
<223> 实施例1中使用的序列。
<400> 34
ggttaaacac ccaagcagac gccgcaatat cagcaccaac agaaacaacc tttgaggcga 60
gcggtcaa 68
<210> 35
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 实施例1中使用的序列。
<400> 35
ttgaccgctc gcctc 15
<210> 36
<211> 53
<212> DNA
<213> 人工序列
<220>
<223> 实施例2中使用的序列。
<400> 36
gatctgaagc ggcgcacgaa aaacgcgaaa gcgtttcacg ataatgcgaa aac 53
<210> 37
<211> 54
<212> DNA
<213> 人工序列
<220>
<223> 实施例2中使用的序列。
<400> 37
ttttgttttc gcatttatcg tgaaacgctt tcgcgttttt cgtgcgccgc ttca 54

Claims (20)

1.一种修饰模板双链多核苷酸的方法,包括:
(a)使模板多核苷酸与MuA转座酶以及一群双链MuA底物接触,每个双链MuA底物包括(i)至少一个突出端和(ii)与包括所述至少一个突出端的链相对的链中的至少一个发夹环,使得转座酶将所述模板多核苷酸片段化并将底物连接到双链片段的一端或两端,从而产生多个片段/底物构建体;
(b)使所述片段/底物构建体与聚合酶接触,使得所述聚合酶置换包括所述突出端的链,并用与包括发夹环的链互补的链替换它们,从而产生多个双链构建体,每个所述双链构建体包括模板多核苷酸的双链片段;和
(c)分离所述双链构建体的两条链,并使用所述链作为模板以形成多个经修饰的双链多核苷酸,每个所述经修饰的双链多核苷酸包括由至少一个发夹环连接的两条互补链。
2.根据权利要求1所述的方法,其中步骤(c)包括通过增加pH、温度和离子强度中的一个或多个来分离所述双链构建体的两条链。
3.根据权利要求1所述的方法,其中步骤(c)包括使分离的链与聚合酶接触,使得所述聚合酶使用所述链作为模板以形成所述多个经修饰的双链多核苷酸。
4.根据权利要求1所述的方法,其中步骤(c)包括(i)使多个分离的链与一群核苷酸寡聚体接触,所述一群核苷酸寡聚体包括在所述寡聚体能够与所述链杂交的条件下与所述链中所有核苷酸互补的核苷酸的每种可能组合,和(ii)将那些与所述链杂交的寡聚体连接在一起以形成所述多个经修饰的双链多核苷酸。
5.根据权利要求1所述的方法,其中步骤(c)包括使所述多个双链构建体与聚合酶接触,使得所述聚合酶同时分离所述双链构建体的两条链,并将所述链用作形成所述多个经修饰的双链多核苷酸的模板。
6.根据权利要求1所述的方法,其中所述至少一个发夹环不连接每个底物的两条链。
7.根据权利要求1所述的方法,其中所述至少一个突出端长度为4、5或6个核苷酸。
8.根据权利要求1所述的方法,其中每个底物包括设计为有助于多核苷酸通过孔的运动的前导序列。
9.根据权利要求1所述的方法,其中所述方法还包括(d)在发夹环的相对端将Y适配器连接到所述多个经修饰的双链多核苷酸。
10.根据权利要求9所述的方法,其中所述Y适配器包括设计为有助于多核苷酸通过孔的运动的前导序列。
11.根据权利要求1所述的方法,其中所述方法还包括将一个或多个多核苷酸结合蛋白与所述多个经修饰的双链多核苷酸结合。
12.一群用于修饰模板多核苷酸的双链多核苷酸MuA底物,其中所述底物如权利要求1,6和7中任一项所定义,并且其中所述至少一个发夹环不连接每个底物的两条链。
13.一种表征模板多核苷酸的方法,包括:
a)使用根据权利要求1所述的方法修饰模板多核苷酸,以产生多个经修饰的多核苷酸;
b)使每个经修饰的多核苷酸与跨膜孔接触,使得每个多核苷酸的至少一条链移动通过所述孔;和
c)当每个多核苷酸相对于孔移动时获取一个或多个测量值,其中所述测量值指示每个多核苷酸的一个或多个特征,从而表征所述模板多核苷酸。
14.根据权利要求13所述的方法,其中所述经修饰的多核苷酸/每个经修饰的多核苷酸的两条链移动通过所述孔。
15.根据权利要求13所述的方法,其中所述一个或多个特征选自(i)多核苷酸的长度,(ii)多核苷酸的同一性,(iii)多核苷酸的序列,(iv)多核苷酸的二级结构和(v)多核苷酸是否被修饰。
16.根据权利要求13所述的方法,其中接触步骤(a)或接触步骤(b)还包括使所述经修饰的多核苷酸/每个经修饰的多核苷酸与多核苷酸结合蛋白接触,使得所述蛋白控制所述多核苷酸/每个多核苷酸通过所述孔的移动。
17.根据权利要求16所述的方法,其中所述方法包括
(i)使所述经修饰的多核苷酸/每个经修饰的多核苷酸与跨膜孔以及一个或多个多核苷酸结合蛋白接触,使得所述多核苷酸/每个多核苷酸的至少一条链移动通过所述孔,并且所述一个或多个蛋白控制所述多核苷酸/每个多核苷酸通过孔的移动;和
(ii)当所述多核苷酸/每个多核苷酸相对于所述孔移动时,测量通过所述孔的电流,其中所述电流指示所述多核苷酸/每个多核苷酸的一个或多个特征,从而表征所述多核苷酸。
18.根据权利要求17所述的方法,其中所述一个或多个多核苷酸结合蛋白在其与所述跨膜孔接触之前与所述经修饰的多核苷酸/每个经修饰的多核苷酸结合。
19.根据权利要求17或18所述的方法,其中所述一个或多个多核苷酸结合蛋白衍生自解旋酶。
20.一种用于修饰模板双链多核苷酸的试剂盒,其包括(a)如权利要求1、6和7中任一项所定义的一群MuA底物,其中所述至少一个发夹环不连接每个底物的两条链,(b)MuA转座酶和(c)聚合酶。
CN201580062575.9A 2014-10-14 2015-02-18 一种修饰模板双链多核苷酸的方法 Active CN107109483B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB1418159.8A GB201418159D0 (en) 2014-10-14 2014-10-14 Method
GB1418159.8 2014-10-14
PCT/GB2015/050461 WO2016059363A1 (en) 2014-10-14 2015-02-18 Method

Publications (2)

Publication Number Publication Date
CN107109483A CN107109483A (zh) 2017-08-29
CN107109483B true CN107109483B (zh) 2021-07-20

Family

ID=52001384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580062575.9A Active CN107109483B (zh) 2014-10-14 2015-02-18 一种修饰模板双链多核苷酸的方法

Country Status (7)

Country Link
US (3) US10570440B2 (zh)
EP (1) EP3207152B1 (zh)
JP (1) JP6637040B2 (zh)
KR (1) KR102280161B1 (zh)
CN (1) CN107109483B (zh)
GB (1) GB201418159D0 (zh)
WO (1) WO2016059363A1 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102369298B (zh) 2009-01-30 2017-03-22 牛津纳米孔技术有限公司 跨膜测序中用于核酸构建体的衔接体
IN2014DN00221A (zh) 2011-07-25 2015-06-05 Oxford Nanopore Tech Ltd
EP2987870B1 (en) 2011-10-21 2020-02-19 Oxford Nanopore Technologies Limited Method of characterizing a target polynucleotide using a transmembrane pore and molecular motor
WO2013185137A1 (en) 2012-06-08 2013-12-12 Pacific Biosciences Of California, Inc. Modified base detection with nanopore sequencing
EP2875128B8 (en) 2012-07-19 2020-06-24 Oxford Nanopore Technologies Limited Modified helicases
EP2875154B1 (en) 2012-07-19 2017-08-23 Oxford Nanopore Technologies Limited SSB method for characterising a nucleic acid
GB201314695D0 (en) 2013-08-16 2013-10-02 Oxford Nanopore Tech Ltd Method
EP2964779B1 (en) 2013-03-08 2018-08-29 Oxford Nanopore Technologies Limited Use of spacer elements in a nucleic acid to control movement of a helicase
CN105899678A (zh) 2013-10-18 2016-08-24 牛津纳米孔技术公司 经修饰的酶
GB201403096D0 (en) 2014-02-21 2014-04-09 Oxford Nanopore Tech Ltd Sample preparation method
GB201417712D0 (en) 2014-10-07 2014-11-19 Oxford Nanopore Tech Ltd Method
GB201418159D0 (en) 2014-10-14 2014-11-26 Oxford Nanopore Tech Ltd Method
WO2017013005A1 (en) * 2015-07-17 2017-01-26 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Cloning of single-stranded nucleic acid
US11514289B1 (en) * 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
GB201609220D0 (en) * 2016-05-25 2016-07-06 Oxford Nanopore Tech Ltd Method
GB201609221D0 (en) 2016-05-25 2016-07-06 Oxford Nanopore Tech Ltd Method
WO2017203268A1 (en) * 2016-05-25 2017-11-30 Oxford Nanopore Technologies Limited Method
CN107488656B (zh) 2016-06-13 2020-07-17 陆欣华 一种核酸等温自扩增方法
US10370701B2 (en) 2016-06-17 2019-08-06 Pacific Biosciences Of California, Inc. Methods and compositions for generating asymmetrically-tagged nucleic acid fragments
GB201616590D0 (en) 2016-09-29 2016-11-16 Oxford Nanopore Technologies Limited Method
GB201620450D0 (en) 2016-12-01 2017-01-18 Oxford Nanopore Tech Ltd Method
GB201707140D0 (en) 2017-05-04 2017-06-21 Oxford Nanopore Tech Ltd Method
WO2019018294A1 (en) 2017-07-18 2019-01-24 Pacific Biociences Of California, Inc. METHODS AND COMPOSITIONS FOR INSULATING ASYMMETRIC NUCLEIC ACID COMPLEXES
GB2589159B (en) 2017-12-29 2023-04-05 Clear Labs Inc Nucleic acid sequencing apparatus
GB2569977A (en) * 2018-01-05 2019-07-10 Oxford Nanopore Tech Ltd Method
GB201807793D0 (en) 2018-05-14 2018-06-27 Oxford Nanopore Tech Ltd Method
GB201809323D0 (en) 2018-06-06 2018-07-25 Oxford Nanopore Tech Ltd Method
EP4341433A1 (en) 2021-05-19 2024-03-27 Oxford Nanopore Technologies PLC Methods for complement strand sequencing
WO2023223033A1 (en) 2022-05-18 2023-11-23 Oxford Nanopore Technologies Plc Compositions and methods for nucleic acid extraction and purification

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102245760A (zh) * 2008-07-07 2011-11-16 牛津纳米孔技术有限公司 酶-孔构建体
CN102369298A (zh) * 2009-01-30 2012-03-07 牛津纳米孔技术有限公司 跨膜测序中用于核酸构建体的衔接体
WO2013014451A1 (en) * 2011-07-25 2013-01-31 Oxford Nanopore Technologies Limited Hairpin loop method for double strand polynucleotide sequencing using transmembrane pores
WO2013185137A1 (en) * 2012-06-08 2013-12-12 Pacific Biosciences Of California, Inc. Modified base detection with nanopore sequencing
CN105705656A (zh) * 2013-08-16 2016-06-22 牛津纳米孔技术公司 方法

Family Cites Families (161)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IE56026B1 (en) 1982-10-19 1991-03-27 Cetus Corp Cysteine-depleted muteins of biologically active proteins
GB8924338D0 (en) 1989-10-28 1989-12-13 Atomic Energy Authority Uk Electrodes
US5215899A (en) * 1989-11-09 1993-06-01 Miles Inc. Nucleic acid amplification employing ligatable hairpin probe and transcription
US5424413A (en) * 1992-01-22 1995-06-13 Gen-Probe Incorporated Branched nucleic acid probes
FR2703693B1 (fr) 1993-04-06 1995-07-13 Pasteur Institut Procédé rapide de détermination d'une séquence d'ADN et application au séquençage et au diagnostic.
CA2160909A1 (en) 1993-04-28 1994-11-10 Hagan Bayley Cell-targeted lytic pore-forming agents
US5777078A (en) 1993-04-28 1998-07-07 Worcester Foundation For Experimental Biology Triggered pore-forming agents
DE4320201A1 (de) 1993-06-18 1995-01-12 Asta Medica Ag Verwendung von Cetrorelix und weiteren Nona- und Dekapeptiden zur Herstellung eines Arzneimittels zur Bekämpfung von Aids und zur Wachstumsstimulation
US5561043A (en) 1994-01-31 1996-10-01 Trustees Of Boston University Self-assembling multimeric nucleic acid constructs
US7569341B2 (en) 1994-01-31 2009-08-04 Trustees Of Boston University Nucleic acid directed immobilization arrays and methods of assembly
US6362002B1 (en) 1995-03-17 2002-03-26 President And Fellows Of Harvard College Characterization of individual polymer molecules based on monomer-interface interactions
US5795782A (en) 1995-03-17 1998-08-18 President & Fellows Of Harvard College Characterization of individual polymer molecules based on monomer-interface interactions
US5866336A (en) * 1996-07-16 1999-02-02 Oncor, Inc. Nucleic acid amplification oligonucleotides with molecular energy transfer labels and methods based thereon
DE19648625A1 (de) * 1996-11-13 1998-05-14 Soft Gene Gmbh Mikroprojektil für das Einbringen von Substanzen in Zellen durch ballistischen Transfer
WO1999005167A1 (en) 1997-07-25 1999-02-04 University Of Massachusetts Designed protein pores as components for biosensors
US6087099A (en) 1997-09-08 2000-07-11 Myriad Genetics, Inc. Method for sequencing both strands of a double stranded DNA in a single sequencing reaction
US6127166A (en) 1997-11-03 2000-10-03 Bayley; Hagan Molluscan ligament polypeptides and genes encoding them
JPH11137260A (ja) 1997-11-06 1999-05-25 Soyaku Gijutsu Kenkyusho:Kk 抗インフルエンザウイルス環状ダンベル型rna−dnaキメラ化合物及び抗インフルエンザウイルス剤
US6123819A (en) 1997-11-12 2000-09-26 Protiveris, Inc. Nanoelectrode arrays
DE19826758C1 (de) 1998-06-15 1999-10-21 Soft Gene Gmbh Darstellung von linearen kovalent geschlossenen DNA-Molekülen als Expressionskonstrukte
US6743605B1 (en) 1998-06-24 2004-06-01 Enzo Life Sciences, Inc. Linear amplification of specific nucleic acid sequences
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US6267872B1 (en) 1998-11-06 2001-07-31 The Regents Of The University Of California Miniature support for thin films containing single channels or nanopores and methods for using same
US6426231B1 (en) 1998-11-18 2002-07-30 The Texas A&M University System Analyte sensing mediated by adapter/carrier molecules
NO986133D0 (no) 1998-12-23 1998-12-23 Preben Lexow FremgangsmÕte for DNA-sekvensering
US7056661B2 (en) 1999-05-19 2006-06-06 Cornell Research Foundation, Inc. Method for sequencing nucleic acid molecules
AU5763000A (en) 1999-06-22 2001-01-09 President And Fellows Of Harvard College Molecular and atomic scale evaluation of biopolymers
US7087729B1 (en) 1999-06-29 2006-08-08 University Health Network Peptide conjugates for the stabilization of membrane proteins and interactions with biological membranes
US6682649B1 (en) 1999-10-01 2004-01-27 Sophion Bioscience A/S Substrate and a method for determining and/or monitoring electrophysiological properties of ion channels
EP1238105A2 (en) 1999-12-02 2002-09-11 Molecular Staging Inc. Generation of single-strand circular dna from linear self-annealing segments
EP1255772A2 (en) 2000-02-11 2002-11-13 The Texas A &amp; M University System Biosensor compositions and methods of use
CA2403804A1 (en) 2000-03-21 2001-09-27 Curagen Corporation Vegf-modulated genes and methods employing them
ES2298226T3 (es) 2000-03-22 2008-05-16 Curagen Corporation Polipeptidos relacionados con wnt-1, y acidos nucleicos que los codifican.
US6596488B2 (en) 2000-03-30 2003-07-22 City Of Hope Tumor suppressor gene
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
AU2002239284A1 (en) 2000-11-27 2002-06-03 The Regents Of The University Of California Methods and devices for characterizing duplex nucleic acid molecules
US20020197618A1 (en) 2001-01-20 2002-12-26 Sampson Jeffrey R. Synthesis and amplification of unstructured nucleic acids for rapid sequencing
US20030087232A1 (en) 2001-01-25 2003-05-08 Fred Christians Methods for screening polypeptides
US7807408B2 (en) 2001-03-19 2010-10-05 President & Fellows Of Harvard College Directed evolution of proteins
US6863833B1 (en) 2001-06-29 2005-03-08 The Board Of Trustees Of The Leland Stanford Junior University Microfabricated apertures for supporting bilayer lipid membranes
WO2003004992A2 (en) 2001-07-03 2003-01-16 The Regents Of The University Of California Mammalian sweet and amino acid heterodimeric taste receptors
US6852492B2 (en) 2001-09-24 2005-02-08 Intel Corporation Nucleic acid sequencing by raman monitoring of uptake of precursors during molecular replication
WO2003078625A2 (en) 2002-03-15 2003-09-25 Nuevolution A/S An improved method for synthesising templated molecules
WO2003095669A1 (en) 2002-05-10 2003-11-20 The Texas A & M University System Stochastic sensing through covalent interactions
WO2004065582A2 (en) 2003-01-15 2004-08-05 Dana-Farber Cancer Institute, Inc. Amplification of dna in a hairpin structure, and applications
CA2515938A1 (en) 2003-02-12 2004-08-26 Genizon Svenska Ab Methods and means for nucleic acid sequencing
WO2004092331A2 (en) 2003-04-08 2004-10-28 Li-Cor, Inc. Composition and method for nucleic acid sequencing
US7163658B2 (en) 2003-04-23 2007-01-16 Rouvain Bension Rapid sequencing of polymers
US7344882B2 (en) 2003-05-12 2008-03-18 Bristol-Myers Squibb Company Polynucleotides encoding variants of the TRP channel family member, LTRPC3
WO2005056750A2 (en) 2003-12-11 2005-06-23 Quark Biotech, Inc. Inversion-duplication of nucleic acids and libraries prepared thereby
WO2006028508A2 (en) 2004-03-23 2006-03-16 President And Fellows Of Harvard College Methods and apparatus for characterizing polynucleotides
GB2413796B (en) 2004-03-25 2006-03-29 Global Genomics Ab Methods and means for nucleic acid sequencing
US20050227239A1 (en) 2004-04-08 2005-10-13 Joyce Timothy H Microarray based affinity purification and analysis device coupled with solid state nanopore electrodes
US7618778B2 (en) 2004-06-02 2009-11-17 Kaufman Joseph C Producing, cataloging and classifying sequence tags
WO2005124888A1 (en) 2004-06-08 2005-12-29 President And Fellows Of Harvard College Suspended carbon nanotube field effect transistor
CA2577079C (en) 2004-08-13 2014-05-20 President And Fellows Of Harvard College An ultra high-throughput opti-nanopore dna readout platform
US20060086626A1 (en) 2004-10-22 2006-04-27 Joyce Timothy H Nanostructure resonant tunneling with a gate voltage source
EP1842061A4 (en) 2004-12-21 2009-05-13 Texas A & M Univ Sys HIGH-TEMPERATURE ION CHANNELS AND ION PORES
US7890268B2 (en) 2004-12-28 2011-02-15 Roche Molecular Systems, Inc. De-novo sequencing of nucleic acids
GB0505971D0 (en) 2005-03-23 2005-04-27 Isis Innovation Delivery of molecules to a lipid bilayer
US7507575B2 (en) 2005-04-01 2009-03-24 3M Innovative Properties Company Multiplex fluorescence detection device having removable optical modules
US7601499B2 (en) 2005-06-06 2009-10-13 454 Life Sciences Corporation Paired end sequencing
US20070031857A1 (en) * 2005-08-02 2007-02-08 Rubicon Genomics, Inc. Compositions and methods for processing and amplification of DNA, including using multiple enzymes in a single reaction
WO2007024997A2 (en) 2005-08-22 2007-03-01 Fermalogic, Inc. Methods of increasing production of secondary metabolites
GB0523282D0 (en) 2005-11-15 2005-12-21 Isis Innovation Methods using pores
US8936926B2 (en) 2005-12-22 2015-01-20 Pacific Biosciences Of California Active surface coupled polymerases
US7932029B1 (en) 2006-01-04 2011-04-26 Si Lok Methods for nucleic acid mapping and identification of fine-structural-variations in nucleic acids and utilities
CA2642854A1 (en) 2006-02-18 2007-08-30 Michael Strathmann Massively multiplexed sequencing
US8673567B2 (en) 2006-03-08 2014-03-18 Atila Biosystems, Inc. Method and kit for nucleic acid sequence detection
ES2545264T3 (es) 2006-04-04 2015-09-09 Keygene N.V. Detección de alto rendimiento de marcadores moleculares basada en fragmentos de restricción
WO2007146158A1 (en) 2006-06-07 2007-12-21 The Trustees Of Columbia University In The City Of New York Dna sequencing by nanopore using modified nucleotides
JP4876766B2 (ja) 2006-08-10 2012-02-15 トヨタ自動車株式会社 燃料電池
CA2663047A1 (en) 2006-09-06 2008-03-13 Phase Bioscience, Inc. Therapeutic elastin-like polypeptide (elp) fusion proteins
WO2008045575A2 (en) 2006-10-13 2008-04-17 J. Craig Venter Institute, Inc. Sequencing method
US8343746B2 (en) 2006-10-23 2013-01-01 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
GB2445016B (en) 2006-12-19 2012-03-07 Microsaic Systems Plc Microengineered ionisation device
EP2122344B8 (en) 2007-02-20 2019-08-21 Oxford Nanopore Technologies Limited Lipid bilayer sensor system
AU2008236694B2 (en) 2007-04-04 2014-01-23 The Regents Of The University Of California Compositions, devices, systems, and methods for using a nanopore
EP2195648B1 (en) 2007-09-12 2019-05-08 President and Fellows of Harvard College High-resolution molecular graphene sensor comprising an aperture in the graphene layer
GB2453377A (en) 2007-10-05 2009-04-08 Isis Innovation Transmembrane protein pores and molecular adapters therefore.
GB0724736D0 (en) 2007-12-19 2008-01-30 Oxford Nanolabs Ltd Formation of layers of amphiphilic molecules
WO2009084721A1 (en) 2007-12-31 2009-07-09 Fujirebio Inc. Clusters of microresonators for cavity mode optical sensing
US8852864B2 (en) 2008-01-17 2014-10-07 Sequenom Inc. Methods and compositions for the analysis of nucleic acids
US8231969B2 (en) 2008-03-26 2012-07-31 University Of Utah Research Foundation Asymmetrically functionalized nanoparticles
WO2009120374A2 (en) 2008-03-28 2009-10-01 Pacific Biosciences Of California, Inc. Methods and compositions for nucleic acid sample preparation
US8628940B2 (en) 2008-09-24 2014-01-14 Pacific Biosciences Of California, Inc. Intermittent detection during analytical reactions
US8143030B2 (en) 2008-09-24 2012-03-27 Pacific Biosciences Of California, Inc. Intermittent detection during analytical reactions
CN104862383B (zh) 2008-03-28 2019-05-28 加利福尼亚太平洋生物科学股份有限公司 用于核酸测序的组合物和方法
JP2012500620A (ja) 2008-04-24 2012-01-12 ザ トラスティーズ オブ コロンビア ユニバーシティー イン ザ シティー オブ ニューヨーク Dna分子組織化のための幾何学的パターンおよび脂質二重層、ならびにその使用
CN102144037A (zh) 2008-07-07 2011-08-03 牛津纳米孔技术有限公司 检测碱基的孔
US20100092960A1 (en) 2008-07-25 2010-04-15 Pacific Biosciences Of California, Inc. Helicase-assisted sequencing with molecular beacons
CN102216783B (zh) 2008-09-22 2015-04-01 华盛顿大学 Msp纳米微孔和相关方法
US8383369B2 (en) 2008-09-24 2013-02-26 Pacific Biosciences Of California, Inc. Intermittent detection during analytical reactions
ES2403756T3 (es) * 2008-10-24 2013-05-21 Epicentre Technologies Corporation Composiciones de extremo del transposón y métodos para modificar ácidos nucleicos
US9080211B2 (en) 2008-10-24 2015-07-14 Epicentre Technologies Corporation Transposon end compositions and methods for modifying nucleic acids
US8486630B2 (en) 2008-11-07 2013-07-16 Industrial Technology Research Institute Methods for accurate sequence data and modified base position determination
GB0820927D0 (en) 2008-11-14 2008-12-24 Isis Innovation Method
CN102317473A (zh) 2008-12-11 2012-01-11 加利福尼亚太平洋生物科学股份有限公司 核酸模板的分类
WO2010086603A1 (en) 2009-01-30 2010-08-05 Oxford Nanopore Technologies Limited Enzyme mutant
DK2396430T3 (da) 2009-02-16 2013-07-15 Epict Technologies Corp Template-uafhængig ligering af enkelt-strenget dna
EP2398494A4 (en) 2009-02-23 2015-10-28 Cytomx Therapeutics Inc Proproteins and their methods of use
GB0905140D0 (en) 2009-03-25 2009-05-06 Isis Innovation Method
FR2943656A1 (fr) 2009-03-25 2010-10-01 Air Liquide Procede et installation de production d'hydrogene mettant en oeuvre un compresseur thermocinetique
US8986928B2 (en) 2009-04-10 2015-03-24 Pacific Biosciences Of California, Inc. Nanopore sequencing devices and methods
DK2422198T3 (da) 2009-04-20 2014-01-06 Oxford Nanopore Tech Ltd Lipiddobbeltlag-sensorgruppe
JP5873023B2 (ja) 2009-12-01 2016-03-01 オックスフォード ナノポール テクノロジーズ リミテッド 生化学分析機器
WO2011090556A1 (en) 2010-01-19 2011-07-28 Verinata Health, Inc. Methods for determining fraction of fetal nucleic acid in maternal samples
FR2955773B1 (fr) 2010-02-01 2017-05-26 Commissariat A L'energie Atomique Complexe moleculaire de ciblage des antigenes vers les cellules presentatrices d'antigene et ses applications pour la vaccination
KR20110100963A (ko) 2010-03-05 2011-09-15 삼성전자주식회사 미세 유동 장치 및 이를 이용한 표적 핵산의 염기 서열 결정 방법
WO2011112718A1 (en) 2010-03-10 2011-09-15 Ibis Biosciences, Inc. Production of single-stranded circular nucleic acid
US8652779B2 (en) 2010-04-09 2014-02-18 Pacific Biosciences Of California, Inc. Nanopore sequencing using charge blockade labels
CN103392008B (zh) 2010-09-07 2017-10-20 加利福尼亚大学董事会 通过持续性酶以一个核苷酸的精度控制dna在纳米孔中的移动
AU2011323107B2 (en) 2010-11-05 2015-09-10 Illumina, Inc. Linking sequence reads using paired code tags
ES2641871T3 (es) 2010-12-17 2017-11-14 The Trustees Of Columbia University In The City Of New York Secuenciación de ADN mediante síntesis usando nucleótidos modificados y detección con nanoporos
WO2012098561A2 (en) 2011-01-18 2012-07-26 Swamy R K A multipupurpose instrument for triangle solutions, measurements and geometrical applications called triometer
WO2012098562A2 (en) 2011-01-19 2012-07-26 Panacea Biotec Limited Liquid oral compositions of lanthanum salts
CA2821559C (en) 2011-01-28 2017-01-31 Illumina, Inc. Oligonucleotide replacement for di-tagged and directional libraries
US9751915B2 (en) 2011-02-11 2017-09-05 Oxford Nanopore Technologies Ltd. Mutant pores
AU2012264497B2 (en) 2011-05-27 2017-06-15 Oxford Nanopore Technologies Limited Coupling method
US20130017978A1 (en) 2011-07-11 2013-01-17 Finnzymes Oy Methods and transposon nucleic acids for generating a dna library
US9145623B2 (en) 2011-07-20 2015-09-29 Thermo Fisher Scientific Oy Transposon nucleic acids comprising a calibration sequence for DNA sequencing
US9632102B2 (en) 2011-09-25 2017-04-25 Theranos, Inc. Systems and methods for multi-purpose analysis
US20160162634A1 (en) 2011-09-23 2016-06-09 Oxford Nanopore Technologies Limited Analysis of a polymer comprising polymer units
US20140308661A1 (en) 2011-09-25 2014-10-16 Theranos, Inc. Systems and methods for multi-analysis
US9810704B2 (en) 2013-02-18 2017-11-07 Theranos, Inc. Systems and methods for multi-analysis
EP2987870B1 (en) 2011-10-21 2020-02-19 Oxford Nanopore Technologies Limited Method of characterizing a target polynucleotide using a transmembrane pore and molecular motor
US9404147B2 (en) * 2011-12-19 2016-08-02 Gen-Probe Incorporated Closed nucleic acid structures
CN104136631B (zh) 2011-12-29 2017-03-01 牛津纳米孔技术公司 使用xpd解旋酶表征多核苷酸的方法
WO2013098562A2 (en) 2011-12-29 2013-07-04 Oxford Nanopore Technologies Limited Enzyme method
NO2694769T3 (zh) 2012-03-06 2018-03-03
EP2836506B1 (en) 2012-04-10 2017-04-19 Oxford Nanopore Technologies Limited Mutant lysenin pores
TWI655213B (zh) 2012-07-13 2019-04-01 目立康股份有限公司 自我組織化肽衍生物的製造方法
EP2875154B1 (en) 2012-07-19 2017-08-23 Oxford Nanopore Technologies Limited SSB method for characterising a nucleic acid
EP2875128B8 (en) 2012-07-19 2020-06-24 Oxford Nanopore Technologies Limited Modified helicases
US9797009B2 (en) 2012-07-19 2017-10-24 Oxford Nanopore Technologies Limited Enzyme construct
US9551023B2 (en) 2012-09-14 2017-01-24 Oxford Nanopore Technologies Ltd. Sample preparation method
GB201313121D0 (en) 2013-07-23 2013-09-04 Oxford Nanopore Tech Ltd Array of volumes of polar medium
CN104936682B (zh) 2012-10-26 2017-12-15 牛津纳米孔技术公司 微滴界面
WO2014074922A1 (en) 2012-11-09 2014-05-15 Stratos Genomics, Inc. Concentrating a target molecule for sensing by a nanopore
US9683230B2 (en) 2013-01-09 2017-06-20 Illumina Cambridge Limited Sample preparation on a solid support
US20140206842A1 (en) 2013-01-22 2014-07-24 Muhammed Majeed Peptides Modified with Triterpenoids and Small Organic Molecules: Synthesis and use in Cosmeceutical
GB201318465D0 (en) 2013-10-18 2013-12-04 Oxford Nanopore Tech Ltd Method
EP2964779B1 (en) 2013-03-08 2018-08-29 Oxford Nanopore Technologies Limited Use of spacer elements in a nucleic acid to control movement of a helicase
EP2976435B1 (en) * 2013-03-19 2017-10-25 Directed Genomics, LLC Enrichment of target sequences
CN105992634B (zh) 2013-08-30 2019-06-14 华盛顿大学商业中心 选择性修饰聚合物亚单位以改进基于纳米孔的分析
CN105899678A (zh) 2013-10-18 2016-08-24 牛津纳米孔技术公司 经修饰的酶
GB201406151D0 (en) 2014-04-04 2014-05-21 Oxford Nanopore Tech Ltd Method
GB201321123D0 (en) * 2013-11-29 2014-01-15 Linea Ab Q Amplification of circular molecules
WO2015110813A1 (en) 2014-01-22 2015-07-30 Oxford Nanopore Technologies Limited Method for attaching one or more polynucleotide binding proteins to a target polynucleotide
GB201403096D0 (en) 2014-02-21 2014-04-09 Oxford Nanopore Tech Ltd Sample preparation method
US10131944B2 (en) 2014-03-24 2018-11-20 The Regents Of The University Of California Molecular adapter for capture and manipulation of transfer RNA
EP3155125A1 (en) 2014-06-13 2017-04-19 Illumina Cambridge Limited Methods and compositions for preparing sequencing libraries
US10017759B2 (en) 2014-06-26 2018-07-10 Illumina, Inc. Library preparation of tagged nucleic acid
AU2015284464B2 (en) 2014-06-30 2021-06-17 Illumina, Inc. Methods and compositions using one-sided transposition
WO2016022557A1 (en) 2014-08-05 2016-02-11 Twist Bioscience Corporation Cell free cloning of nucleic acids
EP3633047B1 (en) 2014-08-19 2022-12-28 Pacific Biosciences of California, Inc. Method of sequencing nucleic acids based on an enrichment of nucleic acids
GB201418159D0 (en) 2014-10-14 2014-11-26 Oxford Nanopore Tech Ltd Method
DE112016000293T5 (de) 2015-02-26 2017-09-21 Hitachi High-Technologies Corporation Verfahren zum konstruieren eines nucleinsäure-moleküls
GB201609220D0 (en) 2016-05-25 2016-07-06 Oxford Nanopore Tech Ltd Method
CN107488656B (zh) 2016-06-13 2020-07-17 陆欣华 一种核酸等温自扩增方法
GB201807793D0 (en) 2018-05-14 2018-06-27 Oxford Nanopore Tech Ltd Method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102245760A (zh) * 2008-07-07 2011-11-16 牛津纳米孔技术有限公司 酶-孔构建体
CN102369298A (zh) * 2009-01-30 2012-03-07 牛津纳米孔技术有限公司 跨膜测序中用于核酸构建体的衔接体
WO2013014451A1 (en) * 2011-07-25 2013-01-31 Oxford Nanopore Technologies Limited Hairpin loop method for double strand polynucleotide sequencing using transmembrane pores
CN103827320A (zh) * 2011-07-25 2014-05-28 牛津纳米孔技术有限公司 使用跨膜孔进行双链多核苷酸测序的发夹环方法
WO2013185137A1 (en) * 2012-06-08 2013-12-12 Pacific Biosciences Of California, Inc. Modified base detection with nanopore sequencing
CN105705656A (zh) * 2013-08-16 2016-06-22 牛津纳米孔技术公司 方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
In vitro double transposition for DNA identification;Nicholas J. Heredia et al.;《Analytical Biochemistry》;20091126;第399卷;第78–83页 *

Also Published As

Publication number Publication date
CN107109483A (zh) 2017-08-29
JP6637040B2 (ja) 2020-01-29
KR102280161B1 (ko) 2021-07-20
GB201418159D0 (en) 2014-11-26
US11390904B2 (en) 2022-07-19
US20200291452A1 (en) 2020-09-17
WO2016059363A1 (en) 2016-04-21
EP3207152A1 (en) 2017-08-23
US10570440B2 (en) 2020-02-25
KR20170068540A (ko) 2017-06-19
JP2017530714A (ja) 2017-10-19
US20170240955A1 (en) 2017-08-24
US20230046363A1 (en) 2023-02-16
EP3207152B1 (en) 2018-11-28

Similar Documents

Publication Publication Date Title
CN107109483B (zh) 一种修饰模板双链多核苷酸的方法
US11542551B2 (en) Sample preparation method
US20220186274A1 (en) Polynucleotide modification methods
US11560589B2 (en) Enzyme stalling method
EP2895618B1 (en) Sample preparation method
CN106460061B (zh) 在双链核酸分子的两端使用纳米孔和锚分子来表征所述双链核酸的方法
EP3097204B1 (en) Method for controlling the movement of a polynucleotide through a transmembrane pore

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant