CN109072258A

CN109072258A - 复制型转座子系统

Info

Publication number: CN109072258A
Application number: CN201780023206.8A
Authority: CN
Inventors: 蒂尔曼·布尔克斯图默尔; 弗拉基米尔·维亚切斯拉沃维奇·卡皮托诺夫; 伊凡娜·格拉本季亚; 佐尔坦·伊维西
Original assignee: Institute Of Genetic Information; Marx - Helmholtz - Ladbrok Center For Molecular Medicine Association; Horizon Exploration Ltd
Current assignee: Institute Of Genetic Information; Marx - Helmholtz - Ladbrok Center For Molecular Medicine Association; Horizon Exploration Ltd
Priority date: 2016-02-11
Filing date: 2017-02-10
Publication date: 2018-12-21
Also published as: GB201814775D0; EP3414333B1; GB201602473D0; JP2019504646A; US20190323037A1; WO2017137768A1; EP3414333A1; US11396664B2; GB2564296A; BR112018016443A2; KR20180127339A; AU2017218651A1; CA3011886A1; SG11201806400XA

Abstract

本发明涉及用于将DNA导入细胞的系统和方法。具体地，本发明涉及用于将单个或多个拷贝的感兴趣的DNA序列或基因导入细胞的方法，所述方法包括提供：a)“复制和粘贴”转座酶；和b)构建体，所述构建体包含侧接“复制和粘贴”转座子末端序列(诸如LTS或RTS)的感兴趣的DNA序列或基因。Helitron家族的新颖的“复制和粘贴”转座子与用于在用来将DNA导入细胞的方法中使用相应的转座酶的系统一起描述，例如以生成用于在蛋白产生、细胞和基因治疗中使用的细胞系或作为参考标准品。

Description

复制型转座子系统

发明领域

本发明涉及用于将DNA导入细胞的系统和方法。本发明涉及用于在细胞中生成单个或多个拷贝的DNA序列的系统。系统包括使用Helitron转座酶和具有被转座酶识别的RTS和LTS序列的DNA序列。

发明背景

已经描述了转座子系统用于基因和细胞工程的用途(例如在Ivics和Izsvák,Mobile DNA 2010,1:25doi:10.1186/1759-8753-1-25中概述)。这些系统使用转座子诸如睡美人(sleeping beauty)(SB)(参见例如US6,489,459)和PiggyBac，其使用剪切/粘贴机制用于基因复制和表达。这些系统的缺点是，插入到宿主基因组后，它们不能扩增它们所递送的货物的拷贝数。

相应地，存在对新的基于转座子系统的需求。

在真核生物界中广泛分布并被命名为Helitron的一组新的DNA转座子通过计算机模拟基因组序列分析发现(在Kapitonov VV,Jurka J.Helitrons on a roll:eukaryoticrolling-circle transposons.Trends Genet 23,521-529(2007)和Thomas J,PrithamEJ.Helitrons,the Eukaryotic Rolling-circle Transposable Elements.Microbiologyspectrum 3,(2015)中概述)。

Helitron转座展示了对于DNA转座子不同寻常的多个特征，诸如缺乏靶位点重复(TSD)(在Kapitonov等人.(2007)和Thomas等人.(2015)中概述。此外，推定的Helitron转座酶不包含RNA酶-H样催化结构域(Dyda F,Hickman AB,Jenkins TM,Engelman A,CraigieR,Davies DR.Crystal structure of the catalytic domain of HIV-1integrase:similarity to other polynucleotidyl transferases.Science 266,1981-1986(1994))但编码由复制起始子(Rep)和DNA解旋酶(Hel)结构域构成的“RepHel”基序(Kapitonov等人.(2007)；Thomas等人.(2015)和Kapitonov VV,Jurka J.Rolling-circle transposonsin eukaryotes.Proceedings of the National Academy of Sciences of the UnitedStates of America 98,8714-8719(2001)。Rep是属于参与用于内切核苷酸裂解、DNA转移和连接的催化反应的核酸酶的HUH超家族的核酸酶结构域(Ilyina TV,KooninEV.Conserved sequence motifs in the initiator proteins for rolling circle DNAreplication encoded by diverse replicons from eubacteria,eucaryotes andarchaebacteria.Nucleic Acids Res 20,3279-3285(1992)和Koonin EV,IlyinaTV.Computer-assisted dissection of rolling circle DNA replication.30,241-268(1993))。HUH核酸酶仅裂解ssDNA，并且在某些噬菌体诸如φX174(van Mansfeld AD,vanTeeffelen HA,Baas PD,Jansz HS.Two juxtaposed tyrosyl-OH groups participate inphi X174gene A protein catalysed cleavage and ligation of DNA.Nucleic AcidsRes 14,4229-4238(1986))、ssDNA病毒和细菌质粒(在Chandler M,de la Cruz F,Dyda F,Hickman AB,Moncalian G,Ton-Hoang B.Breaking and joining single-stranded DNA:the HUH endonuclease superfamily.Nature reviews Microbiology 11,525-538(2013)中概述)的“滚环复制”(RCR)的起始以及IS91家族细菌转座子的“滚环”(RC)转座(delPilar Garcillan-Barcia M,Bernales I,Mendiola MV,de la Cruz F.Single-strandedDNA intermediates in IS91rolling-circle transposition.Molecular microbiology39,494-501(2001)；Garcillan-Barcia MP,de la Cruz F.Distribution of IS91familyinsertion sequences in bacterial genomes:evolutionary implications.FEMSmicrobiology ecology 42,303-313(2002)和Mendiola MV,Bernales I,de la CruzF.Differential roles of the transposon termini inIS91transposition.Proceedings of the National Academy of Sciences of theUnited States of America 91,1922-1926(1994))中具有关键作用。

提出的RC转座机制(Mendiola MV,de la Cruz F.IS91transposase is relatedto the rolling-circle-type replication proteins of the pUB110family ofplasmids.Nucleic Acids Res 20,3521(1992))的关键元件涉及IS91的HUH转座酶的活性位点中的两个酪氨酸(Tyr)残基(del Pilar Garcillan-Barcia等人.(2001))。简而言之，模型提出了在转座子5'-端处的位点特异性切口，转座酶形成5'-磷酸酪氨酸中间体。切口处的3'-OH用于在一条转座子DNA链剥离(peel off)时起始DNA合成。可能由第二活性位点Tyr生成的靶DNA中的切口导致5'-磷酸酪氨酸的消除(resolution)。当整个转座子被复制后，转座酶通过切开转座子的3’-端并将其与靶位点的5’-端连接来催化第二链转移事件(Kapitonov等人.(2007)；Chandler等人.(2013)和(Mendiola等人.(1994))。

已经提出Helitron是第一种真核RC转座子(Kapitonov等人.(2001))，并且尽管Helitron转座子可以捕获并移动真核生物中的基因片段，关于它们的转座机制的确切信息仍然难以解释，因为缺少从任何物种分离的活性元件，即，之前没有人能够分离可以在细胞中活跃复制的Helitron转座子。反而，我们对于Helitron转座的全部知识来自功能失调的Helitron转座子或转座子片段的基因组序列残余的生物信息学分析。

在测序的哺乳动物基因组中发现的仅有的Helitron转座子来自蝙蝠科动物蝙蝠(Pritham EJ,Feschotte C.Massive amplification of rolling-circle transposonsin the lineage of the bat Myotis lucifugus.Proceedings of the NationalAcademy of Sciences of the United States of America 104,1895-1900(2007)；Thomas J,Phillips CD,Baker RJ,Pritham EJ.Rolling-circle transposons catalyzegenomic innovation in a Mammalian lineage.Genome biology and evolution 6,2595-2610(2014)和Thomas J,Sorourian M,Ray D,Baker RJ,Pritham EJ.The limiteddistribution of Helitrons to vesper bats supports horizontal transfer.Gene474,52-58(2011))。由蝙蝠Helitron编码的预测的转座酶包含典型的“RepHel”基序，元件的特征为5’-TC和不包含反向重复但具有位于3’-末端上游的短回文基序的CTRR-3’末端，以及在宿主AT靶位点处的5’-A和T-3’核苷酸之间准确发生的插入(Pritham等人.(2007))。尽管Helitron家族的绝大部分在它们的3’-末端中具有短回文序列(Kapitonov等人.(2001)；Coates BS,Hellmich RL,Grant DM,Abel CA.Mobilizing the genome ofLepidoptera through novel sequence gains and end creation by non-autonomousLep1Helitrons.DNA research:an international journal for rapid publication ofreports on genes and genomes 19,11-21(2012)；Du C,Fefelova N,Caronna J,He L,Dooner HK.The polychromatic Helitron landscape of the maizegenome.Proceedings of the National Academy of Sciences of the United Statesof America 106,19916-19921(2009)；Lal SK,Giroux MJ,Brendel V,Vallejos CE,Hannah LC.The maize genome contains a helitron insertion.The Plant cell 15,381-391(2003)；Xiong W,He L,Lai J,Dooner HK,Du C.HelitronScanner uncovers alarge overlooked cache of Helitron transposons in many plantgenomes.Proceedings of the National Academy of Sciences of the United Statesof America 111,10263-10268(2014))，尚不清楚这些序列在Helitron转座中的作用。

基因组数据表明，Helitron转座经常与宿主基因组片段的捕获和移动相关，导致基因组调节元件的扩散(Pritham等人.(2007)和Thomas等人.(2014))、基因片段复制(Morgante M,Brunner S,Pea G,Fengler K,Zuccolo A,Rafalski A.Gene duplicationand exon shuffling by helitron-like transposons generate intraspeciesdiversity in maize.Nature genetics 37,997-1002(2005))、嵌合转录物的生成(Thomas等人.(2014)和Morgante等人.(2005))以及推定的调节RNA的产生(Thomas等人.(2014)和Morgante等人.(2005))。已经提出了几种机制来解释Helitron基因捕获(Kapitonov等人.(2007)；Thomas等人.(2015)；Coates等人.(2012)；Dong Y,等人.Structuralcharacterization of helitrons and their stepwise capturing of gene fragmentsin the maize genome.BMC genomics 12,609(2011)；Toleman MA,Bennett PM,WalshTR.ISCR elements:novel gene-capturing systems of the 21st century？MicrobiolMol Biol Rev 70,296-316(2006)；Yassine H,等人.Experimental evidence forIS1294b-mediated transposition of the blaCMY-2cephalosporinase gene inEnterobacteriaceae.The Journal of antimicrobial chemotherapy 70,697-700(2015)；Brunner S,Pea G,Rafalski A.Origins,genetic organization andtranscription of a family of non-autonomous helitron elements in maize.ThePlant journal:for cell and molecular biology 43,799-810(2005)；Feschotte C,Wessler SR.Treasures in the attic:rolling circle transposons discovered ineukaryotic genomes.Proceedings of the National Academy of Sciences of theUnited States of America 98,8923-8924(2001)和Tempel S,Nicolas J,El Amrani A,Couee I.Model-based identification of Helitrons results in a newclassification of their families in Arabidopsis thaliana.Gene 403,18-28(2007))，但由于缺少可以在细胞中复制的活性Helitron转座子，Helitron转座的过程和调节仍是神秘的。迄今为止，关于Helitron生物学所了解的一切来自于计算机模拟或遗传学分析，因为之前没有分离出活性Helitron转座子，如通过与能够复制间插基因组组分的功能末端序列关联的活性转座酶所定义的。

发明概述

如本文中描述的，本发明涉及本文中被称为“Helraiser”的自发Helibat1转座子的活性拷贝的复苏以及它在体外和离体人类细胞中的转座的表征。

Helraiser，一种来自蝙蝠基因组的原始元件，已经被用作实验工具来揭示Helitron转座的机制。靠近转座子的3’-端的发夹充当转座终止子。但是，3’-端可以被转座酶绕过，导致侧接序列转导到新的基因组位置。Helraiser转座生成共价闭合的环状中间体，表明提供了在基因组中散布所捕获的转录调节信号的有力的工具的复制转座机制。描述了以实验方式和通过蝙蝠中的转录物组分析由Helitron启动子捕获的新的转录物的生成。这些结果提供了Helitron转座的机械洞察和它通过基因组混编对基因功能的多样化的影响，并提供了转座的分子要求、靶位点选择性质和在细胞培养物和蝙蝠体内的基因捕获的实验洞察。

重要的是，当与侧接适当序列的供体DNA一起使用时，Helraiser转座酶能够催化反式DNA转座。

此系统可以用于将单个或多个拷贝的供体DNA导入到细胞的基因组中。将Helraiser与其他转座子系统(例如睡美人(Sleeping Beauty)、PiggyBac)区分开来的是它使用复制/粘贴机制用于复制，而不是这些其他系统特征性的剪切/粘贴机制，这表明复制/重复的倍增作用可以使用存在少至单个拷贝的可移动元件开始而获得。这在工程化细胞系携带优选区域的多个拷贝中有所应用。它还允许通过额外轮次的转座而在受体细胞中逐步扩增DNA货物。

因此，在一个方面，提供了用于在分离的或培养的细胞中生成单个或多个拷贝的DNA序列的系统，所述系统包括复制/粘贴转座酶和被该转座酶识别的供体DNA。合适地，“DNA序列”是可以为“感兴趣的基因”(即编码感兴趣的蛋白)的感兴趣的DNA序列，其中所述术语还包括基因组区域(例如包含增强子、阻遏物、CpG岛等的基因组的区域)。如本文中使用的，术语“供体DNA”指的是在构建体例如表达载体中提供的感兴趣的基因或基因组区域，任选地布置有能够使转座酶介导的转座事件发生的合适的上游和/或下游末端序列。

在另一个方面，提供了用于将单个或多个拷贝的感兴趣的DNA序列或基因导入到细胞中的方法，所述方法包括提供：a)Helitron转座酶；和b)包含Helitron转座酶LTS序列的构建体。在一个实施方案中，b)中的构建体还包含侧接Helraiser LTS序列的感兴趣的DNA序列或基因。合适地，细胞可以是原核的或真核的。

在另一个方面，提供了用于将单个或多个拷贝的感兴趣的DNA序列或基因导入到真核细胞中的方法，所述方法包括提供：a)“复制和粘贴”转座酶；和b)构建体，所述构建体包含侧接“复制和粘贴”转座子末端序列(诸如LTS或RTS)的感兴趣的DNA序列或基因。合适地，“复制和粘贴”转座酶包括Helitron家族的转座酶，包括本文描述的Helraiser转座酶。合适的Helitron家族转座酶在例如Kapitonov和Jurka(2007)以及Thomas等人.(2015)中描述。合适的LTS和RTS是被鉴定为与特定拷贝互补并粘贴转座子诸如Helitron的那些。在本发明的任何方面的一个实施方案中，“复制和粘贴”转座酶是Helitron转座酶且LTS来源于Helitron转座子。合适地，感兴趣的DNA序列或基因被导入到细胞的基因组中。

有利的是，“复制/粘贴”转座酶是能够转座的活性元件。在一个实施方案中，“复制/粘贴”转座酶不是原核的(诸如细菌的)“复制/粘贴”转座子。合适地，“复制/粘贴”转座酶已经从真核基因组复苏。

在本发明的任何方案的一个实施方案中，转座子末端序列是包含SEQ ID NO:3中列出的核酸序列或与其具有至少80％同一性的序列的Helraiser LTS序列。

有利的是，插入单独的LTS序列允许简单生成转座子供体序列，其中下游基因组成分可以经历转座，如通过添加转座酶起始的。在依次导入LTS和RTS是繁杂的情况中，例如当人们的目标是扩增真核细胞的基因组成分且LTS和/或RTS必须通过传统基因组工程技术(诸如基于CRISPR/Cas、TALEN、Zn指核酸酶或兆核酸酶的那些技术)导入时，这是特别有利的。

在另一个实施方案中，感兴趣的基因还侧接包含SEQ ID NO:4中列出的核酸序列或与其具有至少80％同一性的序列的RTS序列。如本文中描述的(参见例如图3A)，单个LTS序列可以足以通过Helraiser转座酶引发下游DNA货物的转座，但如果期望的基因或基因组区域侧接LTS和RTS序列二者，转座率更高。有利的是，添加RTS帮助限定转座酶活性应当终止的地方，从而提供更受控的转座。在一个实施方案中，突变的RTS可以优选地被使用，使得感兴趣的基因可以被复制并整合，但不被转座酶移动。

合适地，供体DNA包含位于右侧和左侧末端序列(RTS和LTS序列)之间的DNA序列，诸如靶基因的DNA序列，例如其中靶基因编码感兴趣的蛋白。在一个实施方案中，RTS在3’端处具有包含CTAG的核酸序列，而LTS在5’端处具有包含TC的核酸序列。合适地，LTS包含或具有SEQ ID NO:3中列出的核酸序列或与其具有至少80％同一性的序列，而RTS具有SEQ IDNO:4中列出的核酸序列或与其具有至少80％同一性的序列。

在一个方面，提供了用于在分离的或培养的哺乳动物细胞中生成单个或多个拷贝的DNA序列的体外系统，所述体外系统包括真核来源(例如哺乳动物来源)的复制/粘贴转座酶和被该转座酶识别的供体DNA。

合适地，“复制/粘贴”转座酶是Helitron转座酶。Helitron(或滚环)转座子和转座酶在例如Kapitonov等人.(2007)中描述。在本发明的任何方面的一个实施方案中，转座酶是与Seq ID NO:1中列出的氨基酸序列具有至少80％序列同一性的氨基酸序列的Helitron转座酶(参见表6：SEQ ID NO的表格；SEQ ID NO:1是Helraiser转座酶的氨基酸序列)。在另一个实施方案中，Helitron转座酶是与SEQ ID NO:1中列出的氨基酸序列具有至少80％、85％、90％或95％同一性的转座酶。Helitron转座酶可以以DNA、RNA或蛋白形式提供。在一个实施方案中，转座酶是Helraiser转座酶。合适地，转座酶来源于或具有SEQ ID NO:1中列出的氨基酸序列。在一个实施方案中，Helraiser转座酶由SEQ ID NO:2中列出的核酸序列(参见表6:SEQ ID NO的表格；SEQ ID NO:2是编码Helraiser转座酶的核酸序列，还参见图8)或由其密码子优化版本诸如例如SEQ ID NO:6中列出的核酸序列编码。

在一个实施方案中，转座酶和包含感兴趣的基因的构建体作为两个单独的实体提供。合适地，实体可以是DNA构建体诸如表达载体或质粒，尽管还设想转座酶可以作为裸露DNA、mRNA或作为蛋白提供。在一个实施方案中，包含侧接Helraiser末端序列的感兴趣的基因或基因组区域的构建体可以被创建或存在于随后被编码转座酶的构建体转染的细胞系中。在另一个实施方案中，包含侧接Helraiser末端序列的感兴趣的基因的构建体可以是与编码转座酶的构建体共转染的单独的质粒的一部分。在另一个实施方案中，转座酶、感兴趣的基因和LTS作为单个构建体中的转座子提供。

在本发明的任何方面的一个实施方案中，转座酶可以由Helitron转座子编码。例如，转座酶可以由转座子核酸序列诸如SEQ ID NO:5中列出的Helraiser转座子核酸序列(参见表6:SEQ ID NO的表格；也参见图8)编码。根据本发明的一个方面，提供了Helitron转座子。因此，本发明提供了SEQ ID NO:5中列出的分离的核酸序列或与其具有至少80％同一性的序列。合适地，提供了与SEQ ID NO:5或其密码子优化版本至少80％、85％、90％或95％同一的核酸序列。在一个实施方案中，提供了具有SEQ ID NO:5中列出的序列的分离的核酸。

在一个实施方案中，感兴趣的靶基因/DNA序列可以是内源基因。在另一个实施方案中，靶DNA序列可以是感兴趣的基因组区域，诸如增强子、阻遏物、CpG岛或任何感兴趣的非编码元件。在这些实施方案二者中，本发明的方法可以用于生成多个拷贝的内源基因，以生成可以用作参考细胞系的细胞系。在另一个实施方案中，感兴趣的基因可以作为cDNA序列提供。

位于LTS和RTS之间的DNA序列优选地是提供感兴趣的DNA序列的DNA序列，诸如编码用于在细胞系统中表达的感兴趣的蛋白的DNA序列。

有利的是，使用Helitron转座酶系统诸如本文描述的Helraiser有助于供体DNA的复制和将其导入到基因组中的多个位点中。这样，根据本发明的方法或系统可以用于导入单个或多个拷贝的感兴趣的靶基因。

在一个实施方案中，用于在本发明的方法中使用的细胞或分离的细胞或培养的细胞是原核细胞诸如细菌。在另一个实施方案中，细胞可以是真核细胞诸如昆虫、酵母、植物或哺乳动物细胞。合适的培养的细胞是本领域技术人员熟悉的。在一个实施方案中，细胞是哺乳动物细胞诸如小鼠、大鼠或人类细胞，诸如CHO细胞、293T细胞、HEK293细胞、人类诱导的多能干细胞、人类或鼠胚胎干细胞、造血干细胞、T细胞或B细胞。在细胞是哺乳动物细胞或人类细胞的情况下，它可以是用于在治疗中使用的细胞。在另一个实施方案中，细胞可以是可用于生成参考细胞系，诸如肿瘤细胞系、HAP1或eHAP细胞、HCT116细胞、DLD-1细胞、HEK293细胞等等。在另一个实施方案中，细胞可以适用于蛋白产生。例如，细胞可以是HeLa、293T细胞、CHO细胞或其他合适的哺乳动物细胞系统。用于哺乳动物蛋白产生的合适的细胞系将是本领域技术人员已知的，并且包括例如CHO细胞、HEK293和293T细胞。

在一个实施方案中，本发明的方法可以用于生成细胞系。这样的细胞系可以是暂时的或稳定的。

用于Helraiser转座的一个合适的系统在本文中在实施例并参考图1B描述。

在另一个实施方案中，编码转座酶的核酸被整合到细胞的基因组中。在另一个实施方案中，供体DNA是质粒或重组病毒载体的一部分。在又一个实施方案中，供体DNA包含开放阅读框的至少一部分。在又另一个实施方案中，供体DNA至少包含基因的调节区，诸如可以选自由启动子、增强子、沉默子、基因座控制区和边缘元件(border element)组成的组的转录调节区。合适地，供体DNA包含可操作地连接至开放阅读框的至少一部分的启动子。

供体DNA和/或包含转座酶序列的构建体可以使用选自由以下组成的组的方法导入到细胞中：粒子轰击；电穿孔；显微注射；将核酸片段与含脂质的小泡或DNA浓缩试剂结合；和将核酸片段掺入到病毒载体中并使病毒载体与细胞接触。在本发明的任何方面的一个实施方案中，转座酶可以作为mRNA分子导入。

在另一个方面，提供了用于将多个拷贝的DNA序列导入到基因组中，藉此将Helitron转座酶和供体DNA导入到细胞中的方法。在一个实施方案中，转座酶和供体DNA分开提供。在另一个实施方案中，转座酶和供体DNA在同一DNA构建体中提供。有利的是，在转座酶在单独的构建体中提供的情况下，它可能仅在它存在于细胞中时才表达和有效。这可以能够限制转座事件，如果需要的话。在另一个实施方案中，转座酶以RNA或蛋白形式被导入。

在另一个方面，提供了用于将多个拷贝的DNA序列导入到基因组中，藉此首先将供体DNA导入到细胞的基因组中，随后导入Helitron转座酶的方法。

在另一个方面，提供了用于将多个拷贝的DNA序列导入到基因组中，藉此使RTS和LTS序列侧接内源基因的方法。本发明还提供了用于通过提供包含侧接Helraiser LTS序列的DNA序列的构建体来将单个或多个拷贝的感兴趣的DNA序列或基因导入到细胞中的方法。在一个实施方案中，RTS在3’端处具有包含CTAG的核酸序列，而LTS在5’端处具有包含TC的核酸序列。合适地，LTS具有SEQ ID NO:3中列出的核酸序列或与其具有至少80％同一性的序列，而RTS具有SEQ ID NO:4中列出的核酸序列或与其具有至少80％同一性的序列。合适地，方法包括修饰细胞基因组以用这样的方式导入RTS和LTS：它们位于感兴趣的内源细胞基因的任一侧，使得内源细胞基因被转座酶靶向用于倍增。在一个实施方案中，RTS和/或LTS序列使用基因组靶向或工程化方法导入。在一个实施方案中，基因组编辑方法诸如CRISPR、锌指核酸酶(ZFN)、兆核酸酶、转录激活物样效应物核酸酶(TALEN)(由例如Gaj等人.在Trends in Biotechnology,Volume 31,Issue 7,p397–405,July 2013中概述)、其他可编程核酸酶技术、或rAAV技术可以用于导入RTS和/或LTS。

在本发明的任何方面的一个实施方案中，方法包括以下步骤：

a)提供第一构建体，所述第一构建体包含侧接至少一个Helraiser末端序列的编码感兴趣的基因的核酸序列；

b)将所述第一构建体导入到细胞中；

c)提供第二构建体，所述第二构建体包含编码Helraiser转座酶的核酸序列；

d)将所述第二构建体导入到b)中获得的所述细胞中；

e)在转座酶活性的条件下孵育在d)中获得的所述细胞；和

f)检测多个拷贝的所述感兴趣的基因。

在另一个方面，提供了用于将多个拷贝的DNA序列导入到基因组中，藉此将DNA序列随机插入到侧接RTS和LTS的基因组中且随后导入Helitron转座酶的方法。在本发明的任何方面的一个实施方案中，Helitron转座酶是本文描述的Helraiser转座酶。在本发明的任何方面的一个实施方案中，靶基因的拷贝数可以通过多个轮次的转座酶转导来调节。

在本发明的任何方面的一个实施方案中，基因组由哺乳动物基因组组成，合适地由CHO基因组组成。在任何方面的另一个实施方案中，基因组是单倍体人类基因组。合适的单倍体基因组是在KBM-7细胞(例如由Kotecki等人.1999Nov 1；252(2):273-80描述的)或HAP1细胞(例如由Carette JE等人.Nature.2011August 24；477(7364):340–343描述的)中观察到的那些。

在另一个方面，提供了包含由本文描述的任何方面或实施方案中的系统导入的多个拷贝的DNA序列的细胞。合适地，细胞是哺乳动物细胞。

在另一个方面，提供了由根据本发明的方法产生的细胞系。有利的是，使用根据本发明的Helitron转座事件(或多个Helitron转座事件)产生的细胞系可以通过分析细胞系的基因组中Helraiser LTS和/或RTS DNA序列的存在而被容易地检测。用于检测的合适的方法包括PCR。在一个实施方案中，细胞系是CHO细胞系。

在一个实施方案中，这样的细胞系用于作为参考标准物使用。合适地，根据本发明的哺乳动物细胞可以用于提取充当DNA分子参考标准物的DNA。合适地，根据本发明的哺乳动物细胞还可以用于免疫组织化学法，以提供具有多种表达水平的靶基因/蛋白诸如ERBB2/Her2和CD274/PD-L1的参考物质。参考标准物的用途的描述可以在例如HorizonDiscovery Product Catalogue(www.horizondiscovery.com)中找到。此处，还描述了可能在这种应用中有用的基因序列的实例。

根据本发明的细胞系还可以用于在感兴趣的蛋白的产生中使用。因此，在另一个实施方案中，哺乳动物细胞可以用于产生由DNA序列编码的蛋白，即由感兴趣的基因编码的感兴趣的蛋白。因此，在一个实施方案中，提供了根据本发明的哺乳动物细胞，所述哺乳动物细胞是产生重组蛋白，例如单克隆抗体候选如生物治疗分子的稳定的宿主细胞。合适地，包含感兴趣的基因的多个构建体可以被导入到同一细胞中以生成生物治疗剂诸如抗体或包含抗体或其片段的组合物。用于生成这种生物治疗分子的合适的方法在本文中描述。

在另一个实施方案中，本发明提供了根据本发明的方法产生的细胞系，用于在治疗中使用。合适地，所述细胞系可以用于在基因治疗、细胞治疗、组织治疗或免疫治疗中使用。

在另一个方面，提供了从根据本发明的细胞分离的核酸。

还提供了包含位于RTS和LTS之间的核酸序列的核酸，其中RTS和LTS可以结合Helraiser转座酶蛋白，其中Helraiser转座酶蛋白包含与SEQ ID NO:1具有至少80％同一性的氨基酸序列、结合RTS和LTS并催化核酸整合到分离的细胞的DNA中。合适地，根据本发明的任何方面的核酸是质粒的一部分。

此外，本发明提供了编码Helraiser蛋白的核酸，其中Helraiser蛋白包含与SEQID NO:1具有至少80％同一性的氨基酸序列。在一个实施方案中，Helraiser转座酶蛋白具有SEQ ID NO:1中列出的氨基酸序列。合适地，Helraiser转座酶蛋白结合RTS和/或LTS并催化核酸整合到分离的细胞的DNA中。合适地，RTS具有SEQ ID NO:4中列出的核酸序列且LTS具有SEQ ID NO:3中列出的核酸序列。本发明还提供了包含核酸的载体和包含核酸或载体的细胞。

因此，在一个方面，本发明提供了分离的氨基酸序列，所述分离的氨基酸序列包含与SEQ ID NO:1中列出的氨基酸序列具有80％同一性的氨基酸序列，其中所述分离的氨基酸序列编码本文中被描述为“Helraiser”转座酶的Helitron转座酶。在一个实施方案中，Helraiser转座酶是与SEQ ID NO:1中列出的氨基酸序列具有至少80％、85％、90％或95％同一性的转座酶。在另一个实施方案中，氨基酸序列包含N-末端核定位序列、锌指样基序和RepHel酶促核心，所述RepHel酶促核心继而包含具有HUH基序的Rep核酸酶结构域和解旋酶结构域，如本文描述的。在另一个实施方案中，氨基酸序列包含SEQ ID NO:1中列出的氨基酸序列。

合适地，转座酶来源于或具有SEQ ID NO:1中列出的氨基酸序列。

在另一个方面，提供了分离的核酸序列，所述分离的核酸序列包含编码根据本发明的氨基酸序列的核酸。合适地，所述分离的核酸序列编码根据本发明的Helraiser转座酶。在一个实施方案中，核酸序列示出了与SEQ ID NO:2中列出的序列的一定水平的同源性。例如，SEQ ID NO:2中列出的序列可以被密码子优化，从而编码与SEQ ID NO:1中列出的氨基酸序列相同的氨基酸序列。在一个实施方案中，Helraiser转座酶由SEQ ID NO:2中列出的核酸序列(参见表6:SEQ ID NO的表格；SEQ ID NO:2是编码Helraiser转座酶的核酸序列，还参见图8)编码。在另一个实施方案中，Helraiser转座酶由SEQ ID NO:6中列出的核酸序列编码，该序列是密码子优化的序列的实例。

重要的是，当与侧接适当序列的供体DNA一起使用时，Helraiser转座酶能够催化反式DNA转座。用于确定此功能活性的合适的方法在本文中在例如实施例1中描述。

在另一个方面中，本发明提供了分离的核酸分子，所述分离的核酸分子包含用于用Helraiser转座子催化DNA转座的适当的序列。因此，本发明提供了分离的核酸序列，所述分离的核酸序列包含Helraiser左侧末端序列(LTS)。在一个实施方案中，LTS包含在5’端具有核苷酸TC的核酸序列。合适地，提供了包含SEQ ID NO:3中列出的核酸序列或与其具有至少80％同一性的序列的核酸。在另一个实施方案中，本发明提供了包含Helraiser右侧末端序列(RTS)的分离的核酸序列。在一个实施方案中，RTS具有在3’端包含CTAG的核酸序列。合适地，提供了包含SEQ ID NO:4中列出的核酸序列或与其具有至少80％同一性的序列的核酸。在一个实施方案中，根据本发明的LTS或RTS序列是与SEQ ID NO:3或SEQ ID NO:4中列出的氨基酸序列具有至少80％、85％、90％、或95％同一性并且当侧接感兴趣的基因时，保持能够与根据本发明的Helraiser转座子相互作用的功能活性的序列，使得所述感兴趣的基因的DNA转座被催化。

在本发明的另一个方面，提供了一种分离的核酸，所述分离的核酸包含至少侧接LTS Helraiser末端序列的感兴趣的基因的核酸序列，所述LTS Helraiser末端序列包含SEQ ID NO:3中列出的序列或与其具有80％同一性的序列。在一个实施方案中，分离的核酸还包含RTS Helraiser末端序列，所述RTS Helraiser末端序列包含SEQ ID NO:4中列出的序列或与其具有80％同一性的序列。这样的核酸还可以被称为供体DNA。

在另一个方面，提供了包含根据本发明的核酸序列的表达载体。因此，在一个实施方案中，本发明提供了分别包含LTS或/和RTS序列(SEQ ID NO:3或4中列出)的表达载体以及包含编码根据本发明的转座酶的序列的表达载体。

在一个实施方案中，表达载体还可以包含以下中的至少一种：

a)侧接LTS和RTS的通用gRNA识别位点，优选地Tia1L；

b)启动子序列，所述启动子序列被布置为使得感兴趣的基因处于启动子的控制下；

c)所述感兴趣的基因后的多腺苷酸化盒。

在另一个方面，本发明提供了一种重组宿主细胞，所述重组宿主细胞包含根据本发明的核酸序列或表达载体。合适的宿主细胞在本文中描述并且包括例如CHO细胞。

在另一个方面，本发明提供了产生感兴趣的蛋白的方法，所述方法包括在合适的培养基中培养根据本发明的方法产生的细胞或根据本发明的重组宿主细胞和从所述细胞或合适的培养基收获感兴趣的蛋白。

在另一个方面，提供了通过向有相应需要的受试者提供感兴趣的基因来治疗疾病的方法，所述方法包括：

a)分离适于在所述受试者中使用的细胞系；

b)将根据本发明的分离的核酸或表达载体导入所述细胞系中，其中所述核酸或所述表达载体包含对应于所述感兴趣的蛋白的感兴趣的基因；

c)将根据本发明的氨基酸序列、核酸序列或表达载体导入，使得Helraiser转座事件发生以生成包含所述感兴趣的基因的工程化细胞系；

d)在细胞培养中扩增所述工程化细胞系以提供工程化细胞的群体；和

e)将所述工程化细胞导入所述受试者中。

合适地，因此提供了在受试者中治疗疾病的离体方法。在这个实施方案中，感兴趣的基因可以编码在工程化细胞中表达的感兴趣的蛋白以向受试者或患者提供该蛋白。细胞系可以是例如T细胞、巨噬细胞、B细胞、树突状细胞、NK细胞、造血干细胞、骨髓-红系祖细胞(CMEP)或共同淋巴样祖细胞(CLP)。

在另一个方面，本发明提供了用于在有相应需要的受试者中治疗疾病的方法，所述方法包括：

a)提供第一表达载体，所述第一表达载体包含提供根据本发明的感兴趣的基因的分离的核酸；

b)提供第二表达载体，所述第二表达载体包含编码根据本发明的转座酶的核酸序列；

c)将所述第一表达载体和所述第二表达载体导入所述受试者中。

合适地，提供了在受试者中治疗疾病的体内方法。

在又一方面，本发明提供了一种药物组合物，所述药物组合物包含第一表达载体和转座酶，所述第一表达载体包含提供根据本发明的感兴趣的基因的分离的核酸。在一个实施方案中，转座酶可以在第二表达载体中提供，所述第二表达载体包含编码根据本发明的转座酶的核酸序列。在另一个实施方案中，转座酶可以作为mRNA或蛋白提供。

本发明提供了根据本发明的任何方面的细胞系，所述细胞系用于在治疗中使用。另外的方面包括根据本发明的细胞系在制造用于在疾病的治疗中使用的药物中的用途。

在另一个方面中，本发明提供了根据本发明的任何方面或实施方案的转座子或转座酶或方法在随机诱变中的用途。合适的方法在本文中描述。参见例如实施例8。具体地，提供了根据本发明的转座子、转座酶或方法在用于单倍体细胞背景的插入诱变的方法中的用途。通过这种技术获得的文库的用途在例如Carette等人.Nature Biotechnology,pages542-546；Vol.29(6),2011和Moriarity等人.Nature Genetics 2015,doi:10.1038/ng.3293中描述。

因此，本发明还提供了Helitron转座酶与编码侧接LTS和/或RTS的报告基因的供体一起生成包含所述报道子的各种基因组整合事件的细胞系的文库的用途。

在另一个方面，提供了用于检测来源于Helitron转座方法的细胞系的方法，所述方法包括分析所述细胞系中根据本发明的LTS和/或RTS序列的存在。

在又另一个方面中，本发明提供了用于生成细胞系的方法，所述方法包括：

a)提供包含Helitron LTS序列的构建体；和

b)将所述构建体导入细胞系。

合适地，部分a)中的所述构建体还包含Helitron RTS序列。在一个实施方案中，所述LTS和/或RTS靶向感兴趣的DNA序列。本发明还提供了由根据此方面的方法产生的细胞系。

在另一个方面中，提供了用于产生包含多个拷贝的感兴趣的DNA序列的细胞系的方法，包括：

a)获取包含根据本发明的Helitron LTS序列的细胞系；

b)在用于转座酶活性的条件下导入Helitron转座酶；

c)分离携带多个拷贝的所述DNA序列的克隆细胞系。

本发明还提供了由根据此方面的方法产生的分离的克隆细胞系。这样的细胞系可以是CHO细胞系、HAP1或eHAP细胞系。在本发明的另一个方面，提供了复制和粘贴转座子在真核生物中生成具有单个或多个拷贝的DNA序列的细胞的用途。在本发明的又另一个方面，提供了Helitron转座子在原核或真核细胞中生成具有单个或多个拷贝的DNA序列的用途。

附图

图1.人类HeLa细胞中Helraiser转座的特征。A)Helraiser转座子的示意性表示。LTS和RTS末端序列为大写，侧接的A和T宿主靶位点序列为小写。Helraiser转座酶中的保守氨基酸基序在下文示出。B)Helraiser集落形成效率。示出了包含染色的puro抗性的HeLa细胞集落的组织培养板。Helraiser供体(pHelR)和辅助(pFHelR)质粒。pHelR：白色矩形内RTS：表示发夹；pFHelR：黑色箭头：表示驱动转座酶表达的启动子，黑色圆圈：表示多聚A信号；这些标注在全部附图中一直使用。数据表示为平均值±SEM。C)Helraiser转座生成经典的插入。示出了10个独立的转座子插入的Helraiser LTS或RTS与基因组接合。Helraiser序列以大写示出，保守的5’-和3’-末端序列在黑色背景中，侧接的宿主基因组序列为小写。侧接的pHelR质粒序列(上面一行)为斜体。D)由HeLa细胞中的集落形成测量的Helraiser和睡美人(SB100X)的相对转座效率。数据表示为平均值±SEM。E)Helibat1和非自发亚家族HelibatN1、HelibatN2和HelibatN3的相对转座效率。数据表示为平均值±SEM。

图2.HUH核酸酶和SF1B解旋酶结构域的功能分析。A)Helraiser转座酶突变体在HeLa细胞中相对于设定为100％的HelR(WT)的转座活性。数据表示为平均值±SEM。B)单链DNA寡核苷酸在体外被Helraiser转座酶裂解。C)使用Helraiser转座酶及其点突变体和截短的衍生物的DNA结合测定。D)使用野生型(WT)和K1068Q突变体转座酶蛋白的比色ATP酶测定。数据表示为平均值±SD。对于每个处理(ATP+dsDNA、ATP+ssDNA或单独的ATP)，最左侧的条示出了0.02uM WT的数据，中间的条示出了0.08uM WT的数据，且最右侧的条示出了0.3uMK1068Q的数据。

图3.Helraiser转座中3’-末端序列和发夹结构的作用。A)pHelR、pHelRΔLTS、pHelRΔRTS和pHelRΔHP供体质粒的集落形成效率。数据表示为平均值±SD。对于每个供体质粒，展示了“供体+辅助”(左侧的条)和“供体+对照”(右侧的条)的数据。B)用平均集落数归一化的HelR、HelRΔRTS和HelRΔHP转座子的每克隆的平均转座子拷贝数和转座效率(插入图)。HelRΔRTS和HelRΔHP转座子的转座效率的差异不是统计学上显著的，*p＞0.05，非配对t检验。数据表示为平均值±SEM。C)HelR、HelRATH、HelRStemX和HelRLoopX发夹的M折叠(Zuker,2003)预测的结构。D)发夹突变体的相对集落形成活性。条(从左至右)分别表示HelR、DHP、ATH、StemX和LoopX。数据表示为平均值±SEM。

图4.Helitron环状物。A)Helitron环状物供体质粒(pHelRCD)和Helraiser转座酶生成的Helitron环状物(pHelRC)。白色箭头表示Amp/SV40启动子；白色圆圈表示多聚A信号。B)从pHelRCD(图的左侧)或pHelRC(图的右侧)生成的Helitron环状物的转座，由形成的集落数测量。对于每个供体质粒，展示了供体+辅助(左侧的条)和供体+对照(右侧的条)的数据。C)用HelR、HelRMut和HelRΔHP转座子生成的Helitron环状物的PCR检测。HelRMut，其中回文序列的最后9nt被缺失的转座子缺失版本；H₂O，无模板对照。D)pHelRCpuro(图的左侧)和pHelRCΔHPpuro(图的右侧)的相对转座效率。对于每个供体质粒，展示了供体+辅助(左侧的条)和供体+对照(右侧的条)的数据。数据表示为平均值±SEM。pHelRCpuro和pHelRCΔHPpuro质粒的示意图在图下方展示。

图5.人类基因组中从头Helraiser插入的基因组范围分析。A)序列标志(logo)用WebLogo(http://weblogo.berkeley.edu)创建。转座子整合在位置-1和1之间。下图示出了二核苷酸在整合位点处的分布。B)与随机基因组位点(每对的前方的条)和模拟Helraiser整合位点的碱基组成特征的对照位点(每对的后方的条)相比的相对整合频率的倍数富集(fold enrichment)。靠前的基因是具有最高表达水平的500个基因。向沉默基因的启动子区域和H3K9me3区域中的整合频率与对照没有显著差异；所有其他差异是统计学上显著的(Fisher精确检验p-值＜＝0.05)。C)与随机基因组位点(每对的前方的条)和模拟Helraiser整合位点的碱基组成特征的对照位点(每对的后方的条)相比的每染色体的相对整合频率的倍数富集。D)133个Helraiser再转座事件的染色体分布(染色体上方的箭头)。染色体8、20和21下方的箭头表示原始染色体供体位点的位置。

图6.Helraiser基因捕获的机制。A)由pHelRΔRTS和pHelRΔHP转座生成的新的3’-末端序列的鉴定。因此指出了pHelR、pHelRΔHP和pHelRΔRTS转座中生成的经典和从头3’-端的相对位置：pHelR RTS(经典RTS)的末端处的箭头、pHelRΔHP和pHelRΔRTS(截短)上puro^r和多聚A信号之间的箭头以及pHelRΔHP和pHelRΔRTS(连读)上LTS上游的箭头。表示新转座子3’-末端与基因组接合的序列在右侧示出。B)通过新霉素抗性盒的转导测量的HelR和HelRΔHP转座子的基因捕获效率。对于每个质粒，左侧的条示出了仅使用嘌呤霉素产生的数据，右侧的条示出了使用嘌呤霉素和新霉素产生的数据。数据表示为平均值±SEM。C)通过HelibatN3转座的新的转录物的从头形成。[i]HelibatN3转座子包含NUBPL基因的片段，所述NUBPL基因的片段包含启动子和一小段编码区，随后是转座子的左侧和右侧末端序列(LTS和RTS)之间的剪接供体(SD)。[ii]用嘌呤霉素抗性可选择标记物加标签的HelibatN3转座子。T2A自裂解肽序列允许加工一级融合蛋白以允许更可靠的puro表达。两个实例示出了通过强加的剪接的非编码RNA的外显子化(exonization)和mRNA的截短。MED27，介导复合物亚基27基因；GREB1L，乳腺癌样基因中的雌激素的生长调节。

图7.提出的Helraiser转座的模型。A)Helraiser转座酶(oval)结合LTS并在ssDNA供体位点切口，生成HUH核酸酶活性位点中的酪氨酸残基与转座子末端之间的5’-磷酸酪氨酸中间体。B)供体位点处的游离3’-OH基团引起一些类型的期外DNA合成(unscheduled DNAsynthesis)，而解旋酶结构域以5’至3’方向解开dsDNA螺旋。C)[图的左半边]RTS中的发夹结构引起由HUH结构域的第二个酪氨酸识别和将RTS处的CTAG-3’四聚体切口所需的解旋酶暂停。这在转座子RTS处生成了游离3’-OH基团，其攻击第一个5’-磷酸酪氨酸连键，生成游离的ssDNA环状物。ssDNA环状物可能转化成dsDNA环状物，用于另外轮次的转座。[图的右半边]可选择地，转座酶通读RTS并移动宿主侧接序列，从而生成可选择的从头3’-端。经典转座子和包含捕获的宿主序列的转座子的转座的另外的步骤是相同的。D)核酸酶活性位点中的2个酪氨酸残基催化ss靶DNA和Helitron环状物的裂解，介导链转移反应。E)[图的左半边]在细胞周期的DNA合成期期间，与靶共价结合的ss转座子DNA被被动地复制并转换成ds形式，导致宿主基因组中转座子数量的扩增和宿主基因组序列的转导。[图的右半边]如果从头3’端被生成，转座的可选择的结果(参见图7D，右侧)。

图8.DNA序列。在转座子供体构建体中使用的共有Helibat1(Helraiser)转座子的完整DNA序列、和自发和非自发转座子的共有的左侧末端和右侧末端序列。5’-TC和CTAG-3’末端序列以粗体打印。

图9.蛋白序列比对和结构域映射。A)来自小棕蝠(M.lucifugus)的Helraiser与来自秀丽线虫(C.elegans)、赤拟谷盗(T.castaneum)、马铃薯疫霉(P.infestans)、伞状毛霉(L.corymbifera)、拟南芥(A.thaliana)和稻(O.sativa)的Helitron转座酶序列的整体蛋白序列比对。由胰蛋白酶消化确定的结构域表示为序列下方着色的条。预测的核定位信号和锌指基序分别由序列下方的橙色和紫色条指示。B)由递增量的胰蛋白酶消化的纯化的Helraiser的SDS-PAGE分析。N-末端测序鉴定了包括氨基酸811-1496的解旋酶片段、包含氨基酸491-745的HUH核酸酶片段和跨氨基酸251至481的N-末端片段。

图10.Helraiser转座酶结构域的结构和功能性质。Helraiser解旋酶结构域与SF1B亚家族群体成员比对并与Pif1解旋酶密切相关，Pif1解旋酶是参与同源重组和分辨失速的复制叉的解旋酶的家族(Sabouri N,McDonald KR,Webb CJ,Cristea IM,ZakianVA.DNA replication through hard-to-replicate sites,including both highlytranscribed RNA Pol II and Pol IIIgenes,requires the S.pombePfh1helicase.Genes&development 26,581-593(2012)；Steinacher R,Osman F,DalgaardJZ,Lorenz A,Whitby MC.The DNA helicase Pfh1 promotes fork merging atreplication termination sites to ensure genome stability.Genes&development26,594-602(2012)；Wilson MA等人.Pif1helicase and Poldelta promoterecombination-coupled DNA synthesis via bubble migration.Nature 502,393-396(2013))，Helitron的之前被注意到的特征(Pritham等人.(2007)).Nature 502,393-396(2013))(Pritham等人.(2007))A)解旋酶序列比对。二级结构特征以箭头示出了β链并以螺旋形示出螺旋。上图：来自大肠杆菌(E.coli)的RecD解旋酶、Helitron解旋酶和来自嗜热脂肪地芽孢杆菌(G.stearothermophilus)的PcrA解旋酶的飘带模型(ribbon model)分别在左、中、和右侧示出。每个解旋酶的4个结构域被标记。下图：来自小棕蝠(Helraiser)、拟南芥和稻的Helitron解旋酶与在左侧的SF1B解旋酶[(Pif1(酿酒酵母(S.cerevisiae))、Dna2(酿酒酵母)、Dda(大肠杆菌噬菌体T4(E.phage T4))、TraI(大肠杆菌)和RecD(大肠杆菌)]，和在右侧的SF1A解旋酶[Rep(大肠杆菌)、UvrD(枯草芽孢杆菌枯草属种(B.subtilisssp.subtilis)菌株168)和PcrA(嗜热脂肪地芽孢杆菌)]的整体蛋白序列比对。保守的SF1解旋酶基序被高亮。B)上部链和下部链的5’-或3’-末端的ssDNA的体外裂解。由Helraiser转座酶裂解5’FAM标记的寡核苷酸的15％TBE-尿素凝胶。右侧的DNA的示意图描绘了4种ssDNA底物，5’-和3’-末端序列为粗体，侧接序列为正常印刷，且3’-发夹加下划线。箭头示出了裂解位点，且数字示出了测序的ssDNA片段。

图11.鼠耳蝠(Myotis)基因组中Helitron的3’-端的多样化的实例。A)获得新颖的Helitron末端。与具有截短的5’-端的Helitron相邻的Helitron拷贝插入可以导致获得新的3’-端。B)紧邻彼此的Helitron的插入。在宿主的5’-A和Helitron的T-3’之间的Helitron插入可以导致其中一个Helitron的3’-端邻接另一个Helitron的5’-端的插入。C)从头末端的生成，可能是通过截短3’-端。D)带有Helitron插入的宿主序列(从A-C描述)和直系同源空(无插入)位点的比较。第一条线是侧接Helitron插入的宿主序列。第二条线是直系同源空位点。左侧和右侧末端上的序列表示宿主序列，而垂直线之间的序列表示Helitron序列。示出了登陆号和坐标。E)通过末端绕过生成从头末端。[i]上部的图片示出了HelibatN542共有序列的结构。共有序列的末端序列相邻于图片示出。末端内的回文序列以灰色示出，并且包含回文序列的茎部的序列加下划线。[ii]缺乏回文序列、产生不同的3’-端的HelibatN542拷贝的结构的图片表示。新的3’-端的序列在图片旁示出。[iii]基因组中两种HelibatN542拷贝的位置。一个拷贝的转座(以虚线示出)导致末端绕过CTAG-3’末端和在之后为短回文序列的随机序列处终止。然后该拷贝插入到基因组的不同位置()。包括回文序列的新的末端序列在图片旁示出。[iv]第一条线是具有Helitron插入和新的末端的宿主序列。第二条线是带有Helitron和新的末端的旁系同源拷贝(paralogous copy)。左侧和右侧末端上的序列表示侧接的宿主序列，而垂直线之间的序列表示Helitron和捕获的宿主序列。示出了登陆号和坐标。

图12.RINT1、ARMC9和RNF10基因座布氏鼠耳蝠(M.brandtii)。A)RINT1基因座。B)ARMC9基因座。C)RNF10基因座。在每个图的上方示出了由我们的转录组组装确定的全基因模型的IGV基因组浏览器快照(只示出了FPKM＞0.5的转录物组装)。扩大的版本表示包含NUBPL驱动的转录物的基因模型的区域。在扩大的版本中，上方的轨迹表示RNA-seq读段对基因模型的总覆盖率，下方的轨迹示出了与区域比对的读段的子集。第三条轨迹表示重复和可转座元件(深灰色条)的位置，以及NUBPL片段的位置(浅灰色条)。底部的轨迹包含转录物组装(FPKM＞0.5)，包括感兴趣的转录物(RINT1的asmbl_702530、ARMC9的asmbl_111852和RNF10的asmbl_680940)。

图13.Turbo GFP供体被HelRaiser转座整合到HEK293细胞的AAVS1基因座：(A)Turbo GFP供体和在AAVS1基因座处的CRISPR介导的插入的示意性描绘。HelRaiser LTS和RTS序列侧接TurboGFP盒，TurboGFP盒还包含EF1A启动子和多腺苷酸化信号。为了使得能够在AAVS1基因座处进行CRISPR/Cas9介导的整合，供体序列还侧接在共表达tia1L特异性gRNA后触发整合的tia1L识别位点。(B)在代表性靶向克隆中的插入位点的DNA测序，证明TurboGFP供体在AAVS1基因座中在预测的gRNA切割位点的正确插入。

图14.HelRaiser转座酶增加了整合的TurboGFP供体的拷贝数。(A)使包含单个拷贝的图13中描述的TurboGFP加标签盒的HEK293细胞经历Helraiser转座。单独的克隆通过有限稀释分离并用数字液滴PCR(ddPCR)分析进行分析，以定量用转座酶质粒转染之前(-)和之后(+)TurboGPF拷贝数。(B)用HelRaiser转座酶表达质粒转染之前(实心的柱状图)和之后(空心柱状图)，携带HelRaiser TurboGFP供体的HEK293克隆中TurboGFP表达的流式细胞术分析。

图15：使用HelRaiser转座酶产生携带多个稳定整合拷贝的感兴趣的基因的细胞系。将HEK293细胞用HelRaiser转座酶和含有包括嘌呤霉素抗性(PuroR)基因的转座子末端序列(LTS和RTS)的供体质粒转染。在转染和将PuroR基因整合到HEK293中之后，通过应用1μg/ml嘌呤霉素持续1周来选择细胞。单个克隆通过有限稀释获得并扩增。来自选择的克隆的基因组DNA通过数字液滴PCR(ddPCR)分析，对PuroR基因的拷贝数进行定量。作为阳性对照((+)对照)，包括了携带两个拷贝的PuroR基因的参考细胞系。作为阴性对照((-)对照)，包括了亲本HEK293细胞。

表格

表1.布氏鼠耳蝠中TSS周围+/-1kb区域中Helitron富集分析的偶发事件计数表。

*Helitron与TSS周围+/-1kb区域重叠的次数

不与Helitron重叠的TSS周围+/-1kb区域的个数

不与TSS周围+/-1kb区域重叠的Helitron的个数

+既不与Helitron重叠也不与TSS周围+/-1kb区域重叠的区域的个数(估计的)

°左侧p-值表示Helitron在TSS周围+/-1kb区域被消耗的概率。右侧p-值表明富集的概率，且双尾表明Helitron与偶然预期的不同的概率。

表2.鼠耳蝠基因组中近期活跃的Helitron的3’-端的分析。

表3.候选的NUBPL驱动的转录物。此表格列出了每个候选NUBPL驱动的转录物的信息，包括其ID、它所属于的基因的名称、转录物的支架和坐标、以及其组织特异性表达，如果有的话。关于特异性NUBPL启动子插入的信息在表格的右侧列出，并且包括供体Helitron元件、元件与TSS的距离(基于我们的转录物组组装注释；正数表示它与TSS重叠)、以及它大约的年龄，如方法中所述地确定的。用绿色标记的转录物是它们的TSS由包含NUBPL启动子的插入提供的那些。数字1和2指示转录物的方向。用1标注的转录物由NUBPL启动子以经典方向驱动，而用2标注的转录物以反向方向驱动。许多(11)这些插入物存在于其他三种测序的蝙蝠科蝙蝠(小棕蝠、大卫鼠耳蝠(M.davidii)、大棕蝠(Eptesicus fuscus))的基因组中，但存在几种(12)谱系特异性插入，包括对布氏鼠耳蝠特异性的FOXJ2和STX10基因中的那些，与蝙蝠科(vesper bat)的多样化的Helibat活性一致(Thomas等人.(2014))。9个插入表现出以经典方向驱动它们的转录物，而8个插入以反向方向驱动转录物，表明捕获的NUBPL启动子是双向的。这由捕获的启动子序列的两条链上的许多特征性启动子序列特征(TATA、CAAT、和GC盒以及预测的TF结合位点/重复出现位点)的存在进一步支持(数据未示出)。虽然集合很小，这些基因丰富了几个GO术语：蛋白泛素化(GO:0016567；p＝1.295e-02)、参与有丝分裂G2DNA损伤检查点的信号转导的调节(GO:1902504；p＝1.481e-02)、小蛋白接合的蛋白修饰(GO:0032446；p＝1.66e-02)、小蛋白接合或去除的蛋白修饰(GO:0070647；p＝3.104e-02)、细胞器组织(GO:0006996；p＝3.312e-02)、细胞周期(GO:0007049；p＝4.082e-02)和肌动蛋白聚合依赖的细胞运动(GO:0070358；p＝4.439e-02)。

表4.引物的列表。对于其中反向引物是正向引物序列的反向互补物的引物对，仅示出了正向引物序列。

表5示出了携带实施例2中描述的Tia1L-LTS-EF1A-TurboGFP-RTS-Tia1L的加标签盒。

表6示出了序列的列表及其对应的SEQ ID NO。

发明详述

如本文中描述的，本发明提供了用于将单个或多个拷贝的DNA序列导入到细胞中的方法、系统和分子。DNA序列可以包含感兴趣的基因或者可以是期望的基因组序列或更短的核酸序列。感兴趣的基因可以编码感兴趣的蛋白。

用于将核酸导入到细胞的DNA中的基于转座子的系统在例如US 6,489,458中描述。

本文提及的术语“构建体”包括表达构建体，诸如可以是质粒或可以是用于包装到病毒载体(逆转录病毒载体、腺病毒载体诸如例如rAAV)的序列的表达载体。用于在本发明的方法中使用的合适的构建体将是本领域技术人员熟悉的并且包括本文中例证的那些。本领域技术人员还将认识到，额外的组分诸如启动子序列可以被掺入。合适的启动子可以使得能够进行组成型表达或可以使得能够进行诱导型表达。

根据本发明的DNA分子、构建体、表达载体、质粒等可以通过任何数量的手段导入到细胞中，包括例如通过电穿孔、显微注射、与阳离子脂质小泡、DNA浓缩试剂、DNA纳米粒或沉淀技术结合和掺入到病毒载体中。

合适地，转座酶，如表达转座酶的辅助质粒和包含加标签的转座子(包含侧接LTS和RTS的感兴趣的基因)的相应的构建体，在包含加标签的转座子和表达转座酶的辅助质粒的双组分转座系统中提供。可选择地，可以提供单组分的系统，例如存在于LTS/RTS侧接的转座子上的转座酶。虽然单组分的系统可以更容易地递送，从安全角度而言，双组分系统可以是优选的，因为转座酶和转座酶底物是空间上分离的。因此，用双组分系统，当转座酶质粒已经消失并且转座子不再存在于细胞中时，转座反应就结束。这可以避免可能以其他方式以不受控方式发生的持续的转座。

Helraiser转座子的用途

在一个实施方案中，编码Helitron转座酶的质粒被导入到哺乳动物细胞中，导致转座酶蛋白的表达。包含编码DNA(单个或多个拷贝的所述DNA在基因组内是期望的)的区域的DNA序列的供体DNA也被加入，或者已经存在，该供体DNA侧接RTS和LTS序列。导入转座酶后，供体DNA被复制并导入到基因组内的多个位点中。因此，在一个方面，本发明提供了包含DNA区域(单个或多个拷贝的所述DNA是必需的)的供体DNA，其中所述供体DNA侧接LTS序列。在一个实施方案中，供体DNA侧接LTS和RTS序列。

参考标准物

供体DNA可以用于生成可用于生成参考标准物的细胞系。因此，本发明提供了生成包含多个拷贝的感兴趣的基因的细胞系的方法，其中，首先生成具有单个拷贝的感兴趣的基因的细胞系，其中感兴趣的基因至少侧接LTS Helraiser末端序列(且任选地还侧接RTSHelraiser末端序列)。在一个实施方案中，感兴趣的基因可以是侧接的LTS和RTS已经通过基因编辑技术导入的内源基因。在另一个实施方案中，感兴趣的基因可以是导入的基因或非内源基因。合适地，“感兴趣的基因”可以是基因或其被发现复制它自身的部分。因此，在另一个实施方案中，供体DNA代表被发现在某些疾病诸如癌症中复制其自身并且其存在可以用于帮助提供对疾病的诊断的DNA的区域。可以用作参考标准物的基因的实例包括ERBB2/Her2、MET、CDK4或CD274/PD-L1。

为了生成参考标准物，根据本发明的方法可以优选地包括选择具有已知拷贝数的克隆和/或以获得确定的拷贝数的方式生成细胞。可以用于生成参考标准物的细胞系包括例如CHO细胞、HAP1或eHAP细胞系。

蛋白产生

生物药学药物发现依赖于重组蛋白在基于哺乳动物细胞的制造平台中的表达。这些稳定表达的宿主细胞的生成是复杂的，并且需要繁重的筛选方法。之前的技术依赖重组转基因盒在靶哺乳动物细胞的基因组中的随机插入。构建的细胞具有宽范围的表达、生长和稳定性特征。为了获得商业上可存活的生产宿主细胞，筛选了成百个克隆。另外，扩增转基因的方法可以通过增加相关的抗性基因例如谷氨酰胺合酶、二氢叶酸还原酶的选择压力来进行。此方法在转基因盒的扩增期间易于不准确，引起转基因表达中的不稳定性。中国仓鼠卵巢(CHO)细胞仍然是用于制造治疗性生物制品的默认表达宿主，虽然许多其他合适的细胞系将是本领域技术人员所熟悉的并且包括NS0鼠骨髓瘤、幼仓鼠肾、人胚胎肾(HEK293)、鸡胚成纤维细胞、马-达二氏牛肾(Madin Darby bovine kidney)、马-达二氏犬肾(Madin Darby canine kidney)和VERO细胞。

Helraiser转座酶蛋白提供了相对于之前的系统的优势：高效地生成细胞的减少的组用于筛选。在单个步骤中，多个拷贝的侧接RTS和/或LTS的转基因可以以高频率掺入到靶细胞的基因组中。掺入可以靶向到靶细胞的基因组内的已知热点。Helraiser转座酶蛋白的复制和粘贴活性可以用于进一步扩增之前掺入到基因组中的序列。这可以来自单个整合位点或多个位点，不需要化学处理例如甲硫氨酸亚砜或氨甲喋呤。消除繁重的筛选步骤允许更快速地鉴定具有期望的生长和稳定性特征的更高生产细胞(higher-producingcells)。在一个实例中，该系统可以用于在建立的生物生产线中扩增已有的转基因。

因此，在另一个实施方案中，供体DNA可以编码治疗蛋白，如由携带多个拷贝的被转座酶整合的编码蛋白的基因的细胞产生的抗体。通过侧接包含具有RTS和LTS序列的抗体的表达盒并将其导入到具有转座酶的合适的细胞类型(例如CHO)中，盒的大量拷贝被插入基因组中，导致与单插入事件相比更高水平的表达。

细胞和基因治疗

在一个实施方案中，本发明提供了将感兴趣的核酸或基因导入需要该核酸的受试者中的系统。合适地，受试者可以是任何真核细胞诸如植物、哺乳动物、人类细胞等。

在受试者诸如人类患者具有与失去功能的突变相关的病理时，基因治疗具有恢复健康的潜力。基因治疗包括将表达构建体导入到患者的细胞中。这可以离体地或在体内进行，离体的应用更安全且更直接。

在适当的转座酶的存在下，侧接LTS和RTS序列的、来自Helraiser转座子的序列被高效地整合到染色体DNA中(如图1中示出的)。Helraiser转座子的复制和粘贴性质导致高比例的转导细胞具有多个拷贝的导入的基因序列(如图3和15中示出的)。

因此，本发明描述了可以用于生成工程化细胞的系统和方法，当被重新导入到患者中后，所述工程化细胞可以用比现有技术中要求的更低比例的编辑的细胞实现被治疗的病理的失去的功能的恢复。因此，本发明可以用于生成工程化细胞，所述工程化细胞可以治疗由失去的分泌蛋白驱动的病理，无论该蛋白是酶、激素、生长因子、细胞因子还是凝血因子。

此外，在细胞信号传导被破坏的情况中，导入治疗抗体可以是有益的。工程化细胞可以用于在患者中的适当位置分泌治疗抗体，且Helitron系统的多拷贝整合的趋势提供了比之前报道的系统更高的表达水平。

用于在根据本发明的方法中使用的合适的细胞取决于对靶(即，靶细胞)有益的细胞的类型，继而可取决于待治疗的疾病。合适的人类靶细胞包括肝细胞、胰腺细胞、骨骼肌细胞、成纤维细胞、视网膜细胞、滑膜关节细胞、参与听觉过程的细胞、肺细胞、T细胞、B细胞、巨噬细胞、NK细胞、神经元、神经胶质细胞、干细胞、内皮细胞和癌细胞。因此，对分离适用于在受试者中使用的细胞系的指代可以指从外部来源选择可用的合适的细胞系或从需要治疗的受试者生成细胞系。

在一个实施方案中，本发明的方法可以应用于生成治疗细胞诸如CART细胞。

合适的干细胞包括哺乳动物诸如人类干细胞，包括造血干细胞、神经干细胞、胚胎干细胞、诱导多能干细胞(iPS)、间充质干细胞、中胚层干细胞、肝脏干细胞、胰腺干细胞、肌肉干细胞、视网膜干细胞等。还包括合适的哺乳动物干细胞诸如小鼠干细胞，包括小鼠胚胎干细胞。

本发明还提供了使得能够将感兴趣的基因导入受试者诸如人类患者的系统，并因此提供了用于治疗疾病的方法和药物组合物。有利的是，Helitron系统可以代替病毒、对制造而言更便宜、免疫原性更低且更易于表观遗传沉默。

其他用途

如本文中描述的包含复制和粘贴转座子的转座子系统或方法还可以用作诱变技术的工具。

本发明的方面和实施方案还在以下项目中列出：

1.用于在分离的或培养的细胞中生成多个拷贝的DNA序列的系统，所述系统包括复制/粘贴转座酶和被该转座酶识别的供体DNA。

2.如项目1所述的系统，其中所述转座酶由Helitron转座子编码。

3.如项目1或项目2所述的系统，其中所述转座酶是与Seq ID NO:1具有至少80％序列同一性的Helitron转座酶。

4.如任一项前述项目所述的系统，其中所述供体DNA侧接SEQ ID NO:3中列出的LTS核酸序列和SEQ ID NO:4中列出的RTS核酸序列。

5.如任一项前述项目所述的方法，其中所述转座酶是具有SEQ ID NO:1中列出的氨基酸序列的Helraiser转座酶。

6.用于将多个拷贝的DNA序列导入到基因组中，藉此将Helitron转座酶和供体DNA导入到细胞中的方法。

7.如项目6所述的方法，其中所述转座酶和供体DNA分开提供。

8.如项目6所述的方法，其中所述转座酶和供体DNA在同一DNA构建体上提供。

9.如项目6所述的方法，其中所述转座酶以RNA或蛋白形式导入。

10.一种将多个拷贝的DNA序列导入到基因组中，藉此首先将供体DNA导入到细胞的基因组中，随后导入Helitron转座酶的方法。

11.一种将多个拷贝的DNA序列导入到基因组中，藉此使RTS和LTS序列侧接内源基因的方法。

12.如项目11所述的方法，藉此使用基因组靶向方法将RTS序列导入。

13.如项目11所述的方法，其中所述方法使用CRISPR、ZFN、TALEN或rAAV技术来导入RTS。

14.如项目11所述的方法，藉此使用基因组靶向方法将LTS序列导入。

15.如项目14所述的方法，其中所述方法使用CRISPR、ZFN、TALEN或rAAV技术来导入LTS。

16.一种用于将多个拷贝的偏好DNA导入到基因组中，藉此将偏好DNA随机插入到侧接RTS和LTS的基因组中且随后导入Helitron转座酶的方法。

17.如项目6至16中任一项所述的方法，其中所述基因组由哺乳动物基因组组成。

18.如项目17所述的方法，其中所述基因组是CHO基因组。

19.如项目6至16中任一项所述的方法，其中所述基因组是单倍体基因组。

20.一种哺乳动物细胞，所述哺乳动物细胞包含通过项目1至5中任一项所述的系统或项目6至19中任一项所述的方法导入的多个拷贝的偏好DNA。

21.如项目20所述的哺乳动物细胞，用作DNA或RNA分子参考标准物。

22.如项目20所述的哺乳动物细胞，用作IHC参考标准物。

23.如项目20所述的哺乳动物细胞，用于产生由所述偏好DNA编码的蛋白。

24.一种核酸，所述核酸从项目20所述的细胞分离。

鉴于本公开内容，本发明的各种其他方面和实施方案对于本领域技术人员而言将是明显的。

本说明书中提及的所有文件通过引用以其整体并入本文。

在本文中使用的“和/或”被认为是两个指定的特征或组分中的每一个与或不与另一个的具体公开。例如“A和/或B”被认为是(i)A、(ii)B和(iii)A和B中的每一个的具体公开，如同每一个在本文中单独列出一样。

除非上下文另有指示，否则上文列出的特征的描述和定义不限于本发明的任何特定方面或实施方案，并且同样适用于所描述的所有方面和实施方案。

现在将通过示例并参考上文描述的附图和下文描述的表格来说明本发明的某些方面和实施方案。

实施例

实施例1–Helraiser表征

方法

构建体和PCR

转座子和转座酶表达载体的详细克隆程序以及用于PCR的引物序列在下文提供：

转座酶载体。Helraiser转座酶的编码区通过GenScript按照人类密码子优化合成，并用SpeI/XhoI克隆到表达载体FV4a中(Liu ZJ,Moav B,Faras AJ,Guise KS,Kapuscinski AR,Hackett PB.Development of expression vectors for transgenicfish.Bio/technology 8,1268-1272(1990))以获得转座酶辅助质粒pFHelR。将N-末端2XHA标签作为编码MYPYDVPDYAYPYDVPDYA的合成的双链寡核苷酸插入到pFHelR的SpeI位点以获得pF-HA-HelR。CMV启动子驱动的转座酶表达质粒pCHelR通过将pFHelR的SpeI/XhoI片段插入到pcDNA3.1(-)(Invitrogen)的NheI/XhoI位点生成。为了创建pCHelRGFP质粒，将pMSCV20Ires-GFP(来自B.Schroeder,MDC)的XhoI/NotI片段插入到pCHelR的XhoI/NotI位点。转座酶催化突变体表达质粒通过使用pCHelR作为模板的诱变PCR生成。用于昆虫细胞中的Helraiser蛋白表达的转座酶载体通过使用NcoI和XhoI限制位点将由GENEART(Invitrogen)合成的Helraiser转座酶编码序列亚克隆到pFastBac HT-A(Invitrogen)中生成。

转座子载体。

将SV40-puro或SV40-neo选择盒克隆到由GeneScript合成的Helibat1(pHelR)、HelibatN1、HelibatN2和HelibatN3的共有LTS和RTS序列之间(图8)。转座子供体载体pHelRΔHP、pHelRMut、pHelRATH、pHelRStemX和pHelRLoopX通过消除或替换转座子3’端的回文序列生成。pHelRMut和pHelRΔHP载体分别通过使用以下引物对的消除PCR创建：Hel-Mutfwd/Hel-Mut rev，以及HelRDelH fwd和HelRDelH rev。为了生成pHelRATH和pHelRLoopX供体质粒，4种寡核苷酸ATH1、ATH2、ATH3、ATH4分别与LX1、LX2、LX3、LX4以等摩尔比退火(每种寡核苷酸0.8μM，0.2mM dNTP混合物和1μl PfuUltra II融合热起点DNA聚合酶(Agilenttechnologies)/50μl反应物)。寡核苷酸退火反应的温度曲线为在95℃持续20s、在72℃持续10s的10个循环。1μl的退火反应物用于分别使用ATH5/ATH6和LX5/LX6引物对的ATH或LX片段的PCR扩增。在最后的步骤中，ATH和LX PCR片段用SpeI和BamHI消化并克隆到pHelR的SpeI/BamHI位点中。为了生成pHelRStemX转座子供体质粒，在诱变PCR中使用pHelRATH作为模板以及引物SX fwd和SX rev。PCR反应后，线性片段的末端被连接到一起，从而生成pHelRStemX。为了创建pHelRΔRTS，将pHelR用SpeI/BamHI限制酶消化。限制位点用Klenow(Fermentas)平端化并重新连接。pHelRΔLTS供体质粒通过Hel1C主链的NdeI和EcoRI消化，然后通过限制位点的Klenow处理和载体主链重新连接来生成。pHelRPN和pHelRΔHPN供体质粒通过将来自pUC19SBneo(Grabundzija I等人.Comparative analysis oftransposable element vector systems in human cells.Mol Ther 18,1200-1209(2010))的SpeI片段分别插入到pHelR和pHelRΔHP载体中的SpeI位点生成。为了生成Helitron环状供体质粒pHelRCD，首先通过将pWAS-EGFP的NotI/BamHI片段克隆到pGFP-N1质粒(Clontech)的NotI/BamHI位点来构建pIRES-EGFP-N1载体。然后，将pIRES-EGFP-N1质粒的EcoRI/BamHI片段克隆到pHelR质粒的EcoRI/BamHI位点中，从而创建pHelRCD。pHelRCneo载体通过将来自pHC质粒(通过来自HeLa细胞中的pHelRCD供体质粒的Helraiser转座生成)的BamHI/EcoRI片段插入到pcDNA3.1(-)的BamHI/MfeI位点创建。下一步中，使用AvrII/BamHI限制位点将pHelRCneo中的neo编码序列与来自pHel1C质粒的puro编码序列交换，从而生成pHelRCpuro载体。消除了转座子3’末端的回文序列的Helitron环状载体pHelRCΔHPpuro经由使用pHelRCpuro作为模板和Hel-Mut fwd/Hel-Mut rev引物对的定点诱变PCR生成。通过PCR生成的全部编码区和转座子构建体的完整性通过DNA测序验证。

细胞和转染

在转染前一天，将2×10⁵HeLa细胞接种到6孔板上。2μl的jetPRIME转染试剂(Polyplus Transfection)和200μl的jetPRIME缓冲液用于转染1μg的DNA(每个转染反应包含500ng转座子供体和500ng转座酶辅助载体或pBluescript载体(Stratagene))。转染后48小时，将转染的细胞的一部分(10％或20％)重新铺板于100mm培养皿上并选择用于转座子整合(2μg/ml puro或2μg/ml puro和1.4mg/ml G418)。选择2-3周后，将克隆挑取或在磷酸盐缓冲的盐水(PBS)中的4％多聚甲醛中固定，并用PBS中的亚甲蓝染色用于集落计数和分析。

通过splinkerette PCR的插入位点和拷贝数分析

转座子拷贝数通过splinkerette PCR如下地确定：

使HeLa细胞克隆在6孔板上生长直到融合，用PBS洗涤并在裂解缓冲液(100mMTris pH 8.0、5mM EDTA、0.2％SDS、200mM NaCl和100μg/μl蛋白酶K)中在55℃用振荡孵育过夜。HeLa基因组DNA(gDNA)用标准苯酚/氯仿提取从裂解的细胞中分离。5μg的gDNA用FspBI消化4小时，之后是乙醇沉淀。在下一个步骤中，在20μl反应物中将样品(300ng)连接到BfaI splinkerette衔接子(100pmol)。使用3微升的连接反应物用于使用引物Linker引物和Hel1的第一次PCR。第一个PCR轮次的温度曲线为：94℃持续3min的1个循环，然后是94℃持续30s、70℃持续30s和72℃持续30s的15个循环；94℃持续30s、63℃持续30s和72℃持续2s的5个循环，每个循环增加2s；94℃持续30s、62℃持续30s和72℃持续12s的5个循环，每个循环增加2s；94℃持续30s、61℃持续30s和72℃持续22s的5个循环，每个循环增加2s；和94℃持续30s、60℃持续30s和72℃持续30s的5个循环。巢式PCR用引物Nested和Hel2进行，且每50μl反应物使用1μl的第一次PCR的1:100稀释液。巢式PCR的温度曲线以94℃3min的1个循环开始，随后是94℃持续30s、65℃持续30s和72℃持续30s的10个循环和94℃持续30s、55℃持续30s和72℃持续2min的20个循环。最后的延伸在72℃持续5min进行。

为了分析用pHelR、pHelRΔHP和pHelRΔRTS转座子生成的Helraiser插入的3’末端处的转座子-基因组接合位点，首先用从HeLa克隆分离的gDNA进行左端splinkerettePCR，以确定转座子插入的基因组位置。在下一个步骤中，设计与位于每个转座子插入下游的50bp和100bp之间的基因组序列互补的特定引物(WT6a、WT6b、WT6c、WT6d、DelH2、DelH14、DelH19、DelRTS2、DelRTS15a)，并将引物和与Helraiser转座子的5’-末端处的序列互补的HelCD1引物一起在基因组PCR中使用。PCR的温度曲线为：95℃2min，随后是95℃20s、57℃20s、72℃90s的40个循环。最后的延伸步骤在72℃进行5min。将在基因组PCR中获得的PCR产物测序和分析。

环状物检测测定

低分子量DNA从转染的HeLa细胞分离并在改良的反向PCR方案中使用以检测Helitron环状物。

Helraiser环状物在HeLa细胞中的形成通过环状物检测PCR确认。首先，在转染前一天，将2×10⁵HeLa细胞接种到6孔板上。转染后48小时，在细胞裂解步骤中，使用改良的Qiagen QIAprep Spin Miniprep方案使用补充有50μg蛋白酶K的300μl 1.2％SDS代替P2缓冲液将质粒从细胞分离。其他的质粒分离程序根据制造商的方案进行。将150ng的分离的质粒用于使用引物Hel1和Hel5的PCR。PCR的温度曲线为：98℃持续2min，随后是98℃持续10s、59℃持续15s、72℃持续10s的34个循环。最后的延伸在72℃持续5min进行。

Helraiser在HeLa细胞中的再转座

表达Helraiser转座酶的细胞通过以下富集：用pCHelRGFP辅助质粒重复转染包含4个映射的Helraiser插入的HeLa衍生的转座子供体H1细胞系和分选GFP+细胞。然后，我们使富集的细胞群体的汇集的DNA经历转座子插入位点的高通量测序。

对于再转座测定，使H1细胞在100-mm板(2μg/ml嘌呤霉素)上生长直到融合。转染前1天，将2×10⁶细胞接种到新的100-mm板上。使用20μl的jetPRIME转染试剂和500μl的jetPRIME缓冲液将3.5μg的pCHelRGFP质粒转染至细胞。转染后48小时，FACS分选细胞的GFP表达，并将5x 10⁵GFP阳性细胞铺板于150-mm板上(2μg/ml嘌呤霉素)并静置生长1周。将程序再重复2次，各循环之间间隔7天，每次使用前一周FACS分选为转染的那些细胞。在细胞被转染并进行第三次FACS分选后，将它们在150-mm板(2μg/ml嘌呤霉素)上生长直到融合，并汇集用于基因组DNA分离和插入位点分析。

基因组范围的插入位点分析

将HeLa细胞如之前描述地用pCHelR和pHelR转染。转染后3周，汇集puro抗性集落并分离gDNA。侧接转座子末端的DNA序列使用Bowtie(Langmead B,Trapnell C,Pop M,Salzberg SL.Ultrafast and memory-efficient alignment of short DNA sequencesto the human genome.Genome biology 10,R25(2009))针对人类基因组(hg19)映射，允许最高达1个错配。只保留无错误地匹配基因组的独特映射的读段。将映射到相同基因组位置的冗余的读段合并到一起。我们丢弃了匹配转座子末端的最后4个碱基的在基因组位置的全部整合，因为这些位点也可能是误触发伪像(mispriming artifact)。进一步细节在下文提供。

整合位点和融合转录物文库构建

插入位点和融合转录物文库的生成基于计算辅助的半特异性PCR方案。PCR测定依靠使用在它们的3’-端仅携带4个特定核苷酸(4聚体)、然后是随机序列和特定单链突出端的半特异性引物(Ewing AD,Kazazian HH,Jr.High-throughput sequencing revealsextensive variation in human-specific L1 content in individual human genomes.(Genome research 20,1262-1270(2010))。这些引物将分别与模板基因组DNA或cDNA的转座子-基因组或转座子-基因组转录物接合附近退火，以给这些基因座加标签用于巢式PCR扩增。半特异性引物的4聚体计算设计。将可能的4聚体用人类基因组或转录物组中它们的表示排序，排除可能在转座子序列或引物单链突出端上引起不想要的扩增子的那些。类似地，实施算法以预测那6种4聚体的组合，其导致人类基因组或转录物组的最复杂的文库和使用的转座子载体。接下来，进行多步PCR方案以获得排序的、Illimina-流通池相容的融合转录物组或组学之组学(integrome)文库。

Helitron转座子在人类基因组中的整合位点的插入文库制备和高通量测序

将从嘌呤霉素抗性HeLa集落的汇集物分离的300ng的gDNA用作初始6个平行PCR反应的模板，每个PCR反应包含6种不同的半特异性引物，使用以下条件：对于5’Helitron转座子端：95℃1min，(94℃30s、65℃30s、72℃30s)的40个循环，(94℃30s、25℃1min，以0.2℃/s上升至72℃，72℃1min)的2个循环，用对5’-Helitron序列特异性的5pmol的Hel_Lft_1或用相同程序但具有62℃退火温度的3’-转座子端的5pmol的Hel_3P_1。第一个PCR反应用分别含有15pmol的用于5’-转座子端的Hel_Lft_2和用于3’-转座子端的Hel_3P_2的25μl的PCR主混合物补充。用于5’-端的PCR程序为：[(94℃30s、65℃30s、72℃40s)的3个循环、(94℃30s、60℃30s、72℃40s)的1个循环]的15个超循环。对于3’-端，对于3个循环，使用62℃退火温度。将PCR产物用柱纯化并将30μl洗脱物的2μl用于第一次指数PCR，分别地，对于5’-转座子端引物为PE_first和Hel_L_bc，对于3’-转座子端引物为Hel_3P_bc，使用以下循环条件：95℃30s，94℃30s、65℃30s、72℃1min的20个循环。对于3’-转座子端，退火温度为58℃。将1μl 10x稀释的第一次指数PCR产物用于使用Pfx聚合酶(Life Technologies)用这些循环条件将Illumina衔接子添加到扩增子：95℃30s，94℃15s、68℃1min的20个循环。将最终的PCR产物在琼脂糖凝胶上电泳并且将在200bp和500bp之间的扩增子切除和柱纯化(ZymocleanGel DNA Recovery Kit,Zymo Research)。所得文库的测序在Beckman Coulter GenomicsDanvers Massachusetts USA测序机构在Illumina HiSeq 2500仪器上进行。

如下地处理原始读段用于映射。修剪引物相关的序列、转座子相关的序列、和右侧Illumina衔接子相关的序列。通过省略了包含“N”碱基的读段和通过只要5个碱基中的2个具有编码小于phred得分20的质量就修剪读段来对所得的读段进行质量过滤。丢弃短于24个碱基的所有修剪的读段。剩余的序列用Bowtie(Langmead等人.(2009))相对于h19人类基因组组装映射。

蛋白表达和纯化

点突变使用QuikChange定点诱变方法(Agilent)进行。杆状病毒产生和蛋白表达由国家癌症研究所(the National Cancer Institute)的蛋白表达实验室(ProteinExpression Laboratory)如下地进行：

将细胞沉淀重新悬浮在镍亲和柱结合缓冲液中(20mM NaH₂PO₄pH7.4、500mM NaCl、50mM咪唑、1mM TCEP)。所有之后的步骤在4℃进行。裂解通过将细胞在冰上孵育30分钟然后用Misonix超声仪3000超声处理(5x在82瓦特20秒脉冲和3分钟暂停)进行。可溶的级分通过在20,000x g离心分离，加载到在镍亲和柱结合缓冲液中平衡的HiTrap CHeLating柱(GEHealthcare)上，并使用洗脱缓冲液(20mM NaH₂PO₄pH 7.4、500mM NaCl、250mM咪唑、1mMTCEP)的线性梯度洗脱。将洗脱的蛋白在20mM NaH₂PO₄pH 7.0、250mM NaCl、1mM DTT和以1:100蛋白酶与蛋白体积比添加的1mg/ml TEV蛋白酶透析过夜。将产物装载到用肝素柱接合缓冲液(20mM NaH₂PO₄pH 7.0、250mM NaCl、1mM TCEP)预平衡的HiTrap肝素HP柱(GEHealthcare)上，并用洗脱缓冲液(20mM NaH₂PO₄pH 7.0、2M NaCl、1mM TCEP)的线性梯度洗脱。将Helraiser转座酶装载在用50mM HEPES pH 7.5、150mM NaCl、0.5mM EDTA、1mM TCEP平衡的HiLoad 16/60Superdex 200分级柱(GE Healthcare)上，并将包含纯化蛋白的级分浓缩至10mg/ml。将所有点突变体用相同方式纯化，并与野生型转座酶的表达或纯化行为相比没有表现出变化(＞90％均一性)。相同的程序也用于纯化转座酶的截短的版本。

裂解测定和裂解产物的测序

DNA裂解使用6-FAM标记的寡核苷酸(BioTeZ Berlin-Buch GMBH)测量。反应通常由500nM DNA底物和500nM在具有或不具有5mM MnCl₂的缓冲液(50mM Tris pH 7.5、100mMNaCl、0.5mM ETDA、1mM TCEP)中的蛋白组成。进一步细节在下文提供：

裂解在37℃持续1小时进行，并通过添加2μl蛋白酶K(New England BioLabs)和2μl的0.5M EDTA猝灭。对于具有5mM MgCl₂的反应，反应在37℃过夜进行。蛋白酶K消化为在45℃持续30min，然后添加等体积的装载染料(80％甲酰胺、1mg/ml二甲苯蓝、1mg/ml溴酚蓝、10mM EDTA)，并将反应在22℃孵育15min，然后在95℃孵育5min，然后在15％Tris/硼酸盐/EDTA/尿素凝胶(Invitrogen)上凝胶装载。结果使用Typhoon Trio(GE Healthcare)可视化。

凝胶用SYBR Safe DNA凝胶染料(Invitrogen)染色、用蓝光可视化并切下每个条带。ssDNA提取通过将凝胶碾碎并在37℃在提取缓冲液(0.5N NH4Ac、10mM MgAc、1mM EDTA、0.1％SDS)中振荡过夜进行。为了去除任何残余的污染物，将溶液在4℃在14,000x g离心2min，并使用Illustra MicroSpin G-25柱(GE Healthcare)将上清液进一步除去盐。ssDNA使用ssDNA连接酶试剂盒(New England Biolabs)连接到以下寡核苷酸：

5'/5rApp/CAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTAAGCTTCCAGCG/3SpC3/-3'。然后，使用PCR和为5’端的序列的已知部分设计的引物和以上寡核苷酸的反向引物扩增片段。使用EcoRI和HindIII限制位点将所得的dsDNA克隆到pUC19中，并在FDA-FBR机构测序。

蛋白酶消化和N-末端测序

将Helraiser转座酶在20ml的消化缓冲液(50mM Hepes pH 7.5、150mM NaCl、5mMMgCl₂、1mM TCEP)中稀释至1mg/ml，并添加一系列胰蛋白酶稀释液至范围在0.1mg/ml-1mg/ml的终浓度。将样品在37℃孵育1小时，并将反应用NuPAGE装载染料(Novex)猝灭并在95℃煮沸5min。随后立即将样品装载在4％-12％NuPAGE双Tris凝胶(Novex)上。使用Invitrogen的iBlot试剂盒将条带转移到印记纸上，并由FDA-FBR机构确定每个N-末端序列的序列。

EMSA

Helraiser转座酶与各种DNA寡核苷酸的结合通过EMSA使用6％TBE凝胶(Invitrogen)测量。将15nM-150nM的纯化蛋白在室温在结合缓冲液(50mM Tris pH 7.5、100mM NaCl、10mM MgCl₂、0.5mM ETDA、1mM TCEP)中与50nM 6-FAM标记的寡核苷酸一起孵育30min。添加DNA凝胶装载溶液(Quality Biological,INC)后，将样品在6％TBE凝胶上电泳并可视化。

结果

复苏的Helraiser转座子的结构标志(hallmark)

为了建立自主Helibat元件的模型，对小棕蝠(M.lucifugus)基因组进行生物信息学分析(参见下文)。所得的5296-bp Helraiser共有序列(图8)包含如通过序列分析(在Kapitonov等人.(2007)和Thomas等人.(2015)中概述)鉴定的自主Helitron的全部已知标志。Helraiser转座酶的1496个氨基酸(aa)长的编码序列侧接分别被称为LTS和RTS的转座子的左侧和右侧末端序列，(图1A和图8)，左侧和右侧末端序列以Helibat1家族特征性的保守5’-TC/CTAG-3’基序终止(Pritham等人.(2007))。当呈单链时具有形成发夹结构的能力的19-bp长的回文序列位于RTS末端的上游11个核苷酸(图1A和图8)。

Helraiser转座酶包含假定的、N-末端细胞核定位信号(NLS)和锌指样基序，随后是RepHel酶促核心(Kapitonov等人.(2001)和Pritham等人.(2007))。RepHel由～300-aa长的Rep核酸酶结构域(其特征为保守的HUH基序和2个活性位点Tyr残基)和～600-aa解旋酶结构域(其包含DNA解旋酶的SF1超家族特征性的8个保守基序)组成(图1A、图9A和10A)。

Helraiser转座子的分子重新构建

使用对应于植物和多细胞动物中的多种已知Helitron编码的RepHel蛋白中存在的保守滚环复制起始子结构域(Rep)的一组～300-aa的蛋白序列，我们通过在针对GenBank小棕蝠组装的Censor(Jurka J,Klonowski P,Dagman V,Pelton P.CENSOR--a programfor identification and elimination of repetitive elements from DNAsequences.Computers&chemistry 20,119-121(1996))检索中使用它们作为查询鉴定了编码此结构域的所有蝙蝠序列。为了检查鉴定的DNA是否可能由不同的家族构成，我们用BLASTCLUST(独立的Blast,NCBI)进行了它们的聚类。基于聚类结果，我们得出结论，蝙蝠基因组仅包含自发样Helitron的一个主要家族。所有这些序列，甚至是被过早终止密码子和短得失位污染的那些序列，已经被用于衍生编码催化结构域的～900-bp Rep共有序列。在下一步中，与Rep共有序列的200-bp 5’-和3’-末端部分＞90％同一的基因组序列被分别扩增至末端上游和下游最高达2kb。对于扩增序列的两组多个比对，衍生了2个共有序列。这两个末端共有序列和Rep共有序列在一个长扩增共有序列中被组装到一起。该过程被迭代重复，直到蝙蝠自发样Helitron的两端被鉴定并建立了自发蝙蝠共有序列的第一个版本(Helitron-1_ML)。

接下来，通过使用Censor，我们收集了小棕蝠基因组中与Helitron-1_ML＞90％同一的所有拷贝。基于在两个方向、扩增1kb的收集的序列的逐对比对，我们去除了通过长片段复制(彼此＞90％同一)生成的与通过它们Helitron的转座倍增Helitron不直接相关的全部拷贝。结果是，我们收集了包括500个拷贝的Helitron-1_ML的最终集合。多次比对全部这些序列和Helitron-1_ML后，我们衍生了共有序列的第二个版本，编码1458-aa RepHel蛋白且与收集的500个拷贝～95％同一的5301-bpHelitron-1a_ML。

Helitron-1a_ML拷贝的共有分析揭示了，基因组只包含少量的自发样拷贝，而大多数拷贝实际上是两种非自发的Helitron-1N1_ML和Helitron-2N2_ML转座子的拷贝。2437-bp Helitron-1N1_ML和2144-bp Helitron-1N2_ML共有序列分别编码Helitron-1a_ML RepHel蛋白的610-aa N-末端和390-aa C-末端部分。假设，这些非自发的转座子由被一些自发的Helitron表达的RepHel转座酶转座。因此，我们得出结论，编码RepHel的残留物的非自发转座子中的区域可能包含可以破坏或损害从非自发元件的拷贝重新构建的蛋白的适当功能的突变。为了避免该问题，从“500-片段”集中排除了非自发转座子的拷贝。结果是，仅有据信为真正的自发Helitron的片段的46个序列保留在修改的集中。基于Helitron-1a_ML共有序列与这46个序列的重新比对，衍生了编码1494-aa RepHel蛋白的新的5295-bpHelitron-1b_ML共有序列(共有序列与46个序列之间～95％同一性)。

此时，Helitron-1b_ML和Helitron-1a_ML共有序列98.81％同一，并且由这些共有序列编码的RepHel蛋白以13个氨基酸置换和添加至Helitron-1b_ML编码序列的36-aa的C-尾而彼此不同。

由于原始的“500-片段”集中的序列不包含由其他可转座元件的插入和内部缺失生成的长自发Helitron的短片段，对于Helitron-1b_ML从其衍生的46个编码序列中的每一个，所有末端和另外的内部片段被人工添加，从而创建177个片段的集。基于Helitron-1b_ML共有序列和所有这些片段的重新比对，衍生了我们命名为Helraiser的5296-bp自发共有序列的最终版本(图8)。

人类细胞中的Helraiser转座

我们合成了转座子的功能组分(即转座酶以及LTS和RTS序列)，并生成了由嘌呤霉素基因(puro)加标签的转座子(被称为pHelR)和表达转座酶的辅助质粒(被称为pFHelR)组成的双组分转座系统(图1B)。如图1B中示出的，Helraiser系统向人类HeLa细胞中的转染生成平均～3400puro-抗性集落/板对缺乏转座酶的～100集落/板。因此，Helraiser转座子系统表现出包含人类细胞中的转座活性所需的全部决定子。

由splinkerette-PCR恢复的10个独立的Helraiser插入的序列分析(参见方法“通过splinkerette PCR的插入位点和拷贝数分析”)揭示了，在所有情况中，存在转座子LTS5’-TC基序与A核苷酸的直接经典接合和RTSCTAG-3’基序与T核苷酸的直接经典接合(图1C)。因此，Helitron向AT二核苷酸靶位点中的转座由Helraiser如实地重现。

为了评价Helraiser的相对转座效率，我们将它与睡美人的超活性变体(SB100X)(最活跃的脊椎动物复制和粘贴转座子之一)(Mates L等人.Molecular evolution of anovel hyperactive Sleeping Beauty transposase enables robust stable genetransfer in vertebrates.Nature genetics 41,753-761(2009))直接比较。Helraiser证明了在人类HeLa细胞中比SB100X仅低约2倍的集落形成活性(图1D)，表明甚至不经优化的相对高的转座活性。

为了测试Helraiser转座酶交叉移动非自发转座子HelibatN1、HelibatN2和HelibatN3的能力，合成了它们的共有LTS和RTS序列并用新霉素(neo)或puro抗生素抗性基因加标签，并如上描述地测定它们的转座活性。HelibatN1是最活跃的(野生型Helraiser转座子的活性的～28％)；HelibatN3显示出可检测的活性(～2％)，而HelibatN2在这些实验条件下明显无活性(图1E)。这些数据表明，Helraiser代表古老的Helibat1转座酶，其可能负责移动和传播小棕蝠基因组中最丰富的非自发Helitron亚家族中的至少一些。

HUH核酸酶和SF1B解旋酶结构域的功能分析

为了确定Helraiser转座酶的一些保守氨基酸的功能重要性，我们突变了HUH核酸酶结构域中的H593和H595二者以及推定的Y727和Y731催化残基(单独地和一起地二者)以及Walker A基序的K1068和位于解旋酶结构域的基序VI中的精氨酸指R1457残基(图2A)。这些突变中的每一个导致在HeLa细胞中失去转座活性(图2A)，表明核酸酶和解旋酶活性二者都是转座所需的。

使用纯化的Helraiser转座酶的体外测定证明了ssDNA的裂解(代表HelraiserLTS和RTS的40个碱基加侧接DNA的10个碱基)(图2B)，而非dsDNA的裂解(数据未示出)。对最突出的裂解产物进行的测序(标记1-4，图10B)揭示了上方LTS链的侧接DNA和Helraiser5’-TC二核苷酸之间的裂解(泳道2)、LTS的下方链的内部AT二核苷酸之间的裂解(泳道4)和在RTS的两条链上的转座子末端处的精确的裂解(泳道6和8)。这些结果表明，转座子末端的精确裂解的转座子序列决定子位于每个末端的末端40bp内。

如从HUH核酸酶预期的，裂解活性要求二价金属离子(比较泳道2和3，图2B)，并且用Mn²⁺比用Mg²⁺更高效[比较泳道3(在37℃ 1小时)和11(在37℃过夜)]。我们用HUH基序的His->Ala突变体(泳道4)或当两个Tyr残基被同时突变时(泳道5)未检测到LTS上方链上的ssDNA裂解。当两个Tyr残基被单独地突变时，我们观察到明显的区别：第一个Tyr的突变(Y727F)对裂解没有影响(泳道6)，而第二个Tyr的突变(Y731F)导致失去裂解活性(泳道7)。解旋酶结构域中的K1068Q突变对ssDNA裂解没有作用(泳道8)。总体上，这些结果示出了，HUH结构域的保守残基对ssDNA的裂解是重要的，以及活性位点的2个Tyr残基在Helitron转座中具有不同作用。

对纯化的Helraiser转座酶的有限的蛋白水解产生3个稳定的片段，对应于N-末端结构域、核酸酶结构域和解旋酶结构域(图9B)。我们使用这些实验确定的结构域界限来设计缺乏N-末端结构域且包括核酸酶(HelR_490-745)或核酸酶-解旋酶(HelR_490-1486)结构域的截短的转座酶。纯化的截短的转座酶片段都不能裂解DNA(图2B，泳道9和10)，表明N-末端结构域可能参与DNA结合。事实上，如图2C中示出的，虽然野生型Helraiser转座酶(泳道1-12)和全长His->Ala突变体(泳道13-14)二者可以结合裂解测定中使用的寡核苷酸，缺少N-末端489个氨基酸的截短的版本不结合DNA(泳道15-20)。这些数据表明，包含预测的锌指样基序(Pritham等人.(2007))的Helraiser转座酶的N-末端编码对其结合和裂解ssDNA的能力至关重要的DNA结合结构域。

与解旋酶活性一致，纯化的转座酶以46+/-3.3μM的K_m和6.8+/-0.11s^-1的k_cat水解ATP(图2D中的插图)。重要的是，ATP水解率通过添加dsDNA或ssDNA急剧刺激(图2D)，这种作用已经用其他SF1解旋酶观察到(Bird LE,Subramanya HS,Wigley DB.Helicases:aunifying structural theme？Curr Opin Struct Biol 8,14-18(1998))。Walker A基序K1068的突变丢失了ATP水解(图2D)。

ATP酶比色测定

ATP水解通过使用从Baykov等人.(Baykov AA,Evtushenko OA,Avaeva SM.Amalachite green procedure for orthophosphate determination and its use inalkaline phosphatase-based enzyme immunoassay.Anal Biochem 171,266-270(1988))改编的程序测量游离磷酸盐(Pi)的形成与时间的函数来分析。将Helraiser转座酶或突变蛋白在包含50mM HEPES pH 7.5、100mM NaCl、1mM DTT和2mM MgCl₂的缓冲液中稀释至0.3μM-1μM的终浓度，并随后加热至37℃持续10min。反应通过添加ATP(Jena biosciences)至1mM的终浓度或180μl的总体积中的0.0078mM和1mM之间的浓度范围引发。在各时间点去除样品(20μl)并立即在96孔板的孔中猝灭，每个孔包含5μl的0.5M EDTA。将1mM孔雀石绿储备溶液的等分试样(150μl)添加至每个孔，并使用Molecular Devices Spectramax M5酶标仪测量650nm处的吸光度。释放的磷酸盐的量通过与使用KH₂PO₄生成的标准曲线比较来计算。ATP水解的DNA刺激使用相同的缓冲液和蛋白浓度范围(0.3,0.08,0.02M)和ATP(1mM)测量，但在添加ATP之前添加1μM的50碱基长的ssDNA或50bp长的dsDNA。K_m和k_cat的计算在EXCEL(Microsoft)和KaleidaGraph 4.0中进行。

Helraiser转座中末端序列和3’-发夹结构的作用

为了检验Helraiser的末端序列对转座的重要性，我们通过缺失LTS或RTS序列创建了转座子载体的突变体pHelRΔLTS和pHelRΔRTS。LTS的存在是重要的，因为它的缺失失去了Helraiser转座(如通过在HeLa细胞中存在和不存在转座酶时难以区分的集落数判断的)。令人惊讶的是，RTS的存在是不重要的，尽管它的去除导致集落形成活性降低至完整转座子的～24％(图3A)。

为了进一步研究RTS的作用，我们创建了转座子载体pHelRΔHP，其中缺失了预测形成发夹(“HP”)结构的19-bp回文序列。如图3A中示出的，pHelRΔHP产生完整的转座子的集落形成活性的～35％。值得注意的是，这与用pHelRΔRTS(其中缺失了整个RTS)生成的集落的数目相当。来自用野生型Helraiser转座子获得的51个HeLa克隆的转座子插入位点的Splinkerette PCR分析表明平均拷贝数为4，范围在1和10个转座子插入/克隆之间(插图，图3B)。用pHelRΔHP生成的16个克隆和用pHelRΔRTS生成的15个克隆的相同分析揭示了生成两种突变的转座子，平均每克隆1个插入(图3B)。因此，HelRΔHP和HelRΔRTS转座子突变体的校正的转座效率分别为用野生型转座子获得的转座效率的8.8％和6％(插图，图3B)。

为了更深入地研究Helraiser的RTS发夹的作用，我们生成了三种修饰的转座子供体载体(pHelRATH、pHelRStemX、pHelRLoopX)，其中发夹序列用不同方式突变(图3C)。在pHelRATH中，Helraiser发夹序列用拟南芥(Arabidopsis thaliana)中的Helitron1转座子家族的发夹序列(Kapitonov等人.(2001))代替。pHelRStemX保留了Helraiser发夹环，而茎部序列用拟南芥发夹的茎部序列交换。在pHelRLoopX中，保留了Helraiser发夹的茎部序列，但环中的ATT核苷酸用CGG代替，且环的基部的Helraiser A-T bp变成A-A。

pHelRATH和pHelRLoopX二者示出了与其中缺失了完整的回文序列的pHelRΔHP相似的转座活性(图3D)。相比而言，pHelRStemX证实了野生型转座活性的～90％。这些结果表明，虽然RTS回文序列不是Helraiser转座绝对必需的，但该回文序列对于转座调节而言是重要的。

Helitron转座生成转座子环状物

在使用反向PCR的Helraiser插入位点分析期间，我们经常观察到突出的～150-bpPCR产物(数据未示出)。这些PCR扩增子的DNA测序揭示了Helraiser转座子末端的精确的首尾接合(LTS的5’-TC二核苷酸直接且精确地连接至RTS的CTAG-3’四核苷酸)(图4A)。这些数据表明Helraiser转座中的环状中间体的形成。

为了证实转座期间生成转座子环状物，我们构建了质粒救援Helraiser供体载体pHelRCD(“CD”：环状供体)，其中转座子LTS和RTS序列侧接质粒复制起点和kan/neo选择盒(图4A)。将HeLa细胞用pHelRCD和转座酶辅助质粒共转染后，将低分子量DNA分离并电穿孔到经受kan筛选的大肠杆菌细胞中。50个大肠杆菌菌落中的一个包含Helraiser衍生的Helitron环状物(被称为“pHelRC”)，其由完整的转座子序列和Helraiser LTS和RTS的完美的头尾接合组成(图4A)。Helitron环状物是转座活性的；pHelRC的转座生成平均～360个集落/板，构成了基于质粒的pHelRCD Helitron环状物供体载体的集落形成效率的～51％(图4B)。

Helraiser RTS中的回文序列不是Helitron环状物形成必需的，因为其中回文序列被完全或部分缺失的pHelRΔHP和pHelRMutH载体在Helraiser转座酶的存在下足以生成环状物(图4C)。有趣的是，缺失回文序列对Helitron环状物的转座不具有与质粒供体相同的有害作用，如在转座酶的存在下用pHelRCpuro和pHelRCDΔHPpuro获得的相似集落数证明的(图4D)。该结果表明，在具有接合末端的转座子环状物的背景中，在供体DNA中只需进行1个切口，并且因此不需要向转座子的3’-端传递信号。总之，结果表明生成转座子环状物作为Helraiser转座的中间体。

基因组范围的Helraiser插入的分析

虽然Helitron插入的模式已经在许多真核物种的基因组中广泛分析(Pritham等人.(2007)；Thomas等人.(2014)；Coates等人.(2012)；Du等人.(2009)；Morgante等人.(2005)；Dong Y等人.Structural characterization of helitrons and their stepwisecapturing of gene fragments in the maize genome.BMC genomics 12,609(2011)；HanMJ,Shen YH,Xu MS,Liang HY,Zhang HH,Zhang Z.Identification and evolution ofthe silkworm helitrons and their contribution to transcripts.DNA research:aninternational journal for rapid publication of reports on genes and genomes20,471-484(2013)；Yang L,Bennetzen JL.Structure-based discovery anddescription of plant and animal Helitrons.Proceedings of the National Academyof Sciences of the United States of America 106,12832-12837(2009)和Yang L,Bennetzen JL.Distribution,diversity,evolution,and survival of Helitrons inthe maize genome.Proceedings of the National Academy of Sciences of theUnited States of America 106,19922-19927(2009))，这些模式至少部分地通过宿主物种水平上的自然选择和遗传漂变而成形。相比而言，在培养的细胞中恢复的从头转座事件几乎不经历任何选择或漂变，并且因此更直接地反映了转座子的整合偏好。为了在人类基因组中表征从头Helraiser转座事件，我们生成、映射并生物信息地标注了在HeLa细胞中恢复的1751个Helraiser插入。靶向位点的序列标志分析确认了AT靶二核苷酸是用于整合的高度优选的位点(图5A)，如之前对于蝙蝠和其他真核基因组中的内源Helitron转座子观察到的(Kapitonov等人.(2007)；Thomas等人.(2015)；Kapitonov等人.(2001)和Pritham等人.(2007))。但是靶向AT二核苷酸用于插入不是绝对的：46个插入发生在其他序列中，TT、AC和AA是最突出的可选择的二核苷酸(图5A)。除了中心AT二核苷酸，我们观察到对实际整合位点周围～20bp内的富含AT的DNA序列的强烈偏好；这种偏好对于整合的转座子3'-端侧接的序列最为明显(图5A)。

接下来，我们分析了Helraiser插入到不同基因组特征相对于计算机生成的基因组位点的对照数据集的相对频率，所述基因组位点是随机选取的或通过考虑在转座子插入处观察到的碱基组成而建模的(参见下文)。图5B示出了与对照位点相比，分别进入启动子区域(即转录起始位点上游5kb和下游2kb之间)和基因体(没有其启动子区域的转录单元)的Helraiser整合的显著的、2.5倍和1.8倍富集，如GENCODE目录定义的(Harrow J等人.GENCODE:the reference human genome annotation for The ENCODE Project.Genomeresearch 22,1760-1774(2012))。对于二者而言，转录活性表现出与整合事件正相关，因为在HeLa细胞中高度表达的基因更频繁地被Helraiser插入靶向，如启动子中7.3倍富集和500个最高度表达的基因的主体中2.1倍富集证明的(图5B)。此外，Helraiser示出了在CpG岛中整合的强的、6.9倍富集(通过使用碱基组成校正的对照位点)、CpG岸(在侧接CpG岛的5-kb窗中相对于对照位点的2.6倍富集)、增强子区域(来源于CAGE峰(Andersson R等人.Anatlas of active enhancers across human cell types and tissues.Nature 507,455-461(2014))的7.1倍富集)、富集组蛋白修饰H3K27ac(增强子，5.6倍)、H3K4me1(增强子，3.8倍)、H3K4me3(活性启动子，3.4倍)、H3K36me3(转录的基因体，2.1倍)的染色体区域和如由DNA酶I足迹、FAIRE和ChIP-Seq实验定义的开放染色质区域(从UCSC Open Chrom Synthtrack获得的区域，14.2倍)。另一方面，对于转座到特征为异染色质标志H3K9me3或H3K27me3的染色体区域中，我们检测到明显缺乏偏好，和插入到核纤层相关的结构域的显著的、2.2倍代表性不足(Guelen L等人.Domain organization of human chromosomesrevealed by mapping of nuclear lamina interactions.Nature 453,948-951(2008))(图5B)。最后，在转座子插入位点富集和基因密度之间不存在相关性(图5C)。

为了测试当从基因组供体位点开始转座时Helraiser是否表现出向顺式连接的基因座中移动的偏好(通常用许多“剪切和粘贴”转座子观察到并被称为“本地跳跃(localhopping)”(Carlson CM,Dupuy AJ,Fritz S,Roberg-Perez KJ,Fletcher CF,LargaespadaDA.Transposon mutagenesis of the mouse germline.Genetics 165,243-256(2003)；Fischer SE,Wienholds E,Plasterk RH.Regulated transposition of a fishtransposon in the mouse germ line.Proceedings of the National Academy ofSciences of the United States of America 98,6759-6764(2001)；Luo G,Ivics Z,Izsvak Z,Bradley A.Chromosomal transposition of a Tc1/mariner-like element inmouse embryonic stem cells.Proceedings of the National Academy of Sciences ofthe United States of America 95,10769-10773(1998)和Tower J,Karpen GH,Craig N,Spradling AC.Preferential transposition of Drosophila P elements to nearbychromosomal sites.Genetics 133,347-359(1993))，我们采用包含4种鉴定的染色体Helraiser供体位点的转座子供体细胞系，并将这些细胞用驱动二级转座事件到新的染色体位点的转座酶辅助质粒重新转染。再转座插入位点的分析揭示了在原始供体位点周围没有新的转座子插入聚簇(图5D)。

Helraiser插入位点分析

我们鉴定了1751个独立整合事件。对于统计学分析，我们根据两种不同的背景模型创建了随机选择的基因组位点的集合。将模型(“随机”)相对于HeLa细胞的异常核型归一化。第二个模型(“对照”)也说明测序读段的可映射性并且模拟整合位点处的碱基组成。为了确定HeLa细胞的核型，我们使用由Broad/MGH ENCODE集团生成的ChIP-Seq输入数据集。由于这些数据集是未应用特异性结合抗体生成的，读段密度可以用作潜在基因组区域的相对拷贝数的估计值。HeLa细胞的两种生物复制物以及具有正常核型的12个其他细胞类型的映射的测序读段从UCSC基因组生物信息网站(http://genome.ucsc.edu/cgi-bin/hgFileUi？db＝hg19&g＝wgEncodeBroadHistone)下载。我们为HeLa细胞和正常细胞的每个数据集对计算了各自覆盖来自正常细胞数据集的1000个连续读段的滑动窗中读段计数的变化倍数。将所得的变化倍数乘以HeLa细胞的假定的平均倍性(即3)并除以正常细胞的倍性(即，对于非性染色体为2，且对于chrX和chrY根据对照细胞数据集的性别)，然后用窗口尺寸为30000的运行中值过滤器使其平滑，并最后四舍五入到最接近的整数值。然后，通过计算中位数加入来自HeLa细胞和正常细胞数据集的所有对的结果。在源自正常细胞的数据上测试，方法正确地预测了正常核型(数据未示出)。对于“随机”背景模型，我们取样了基因组中的500000个随机位置，其方式使得选择基因组位置的概率与其染色体片段的倍性成正比。“对照”背景模型如下地生成。首先，我们取样了1亿个随机基因组位置，其方式使得选择基因组位置的概率与其染色体片段的倍性成正比。从这些位置中，我们取样了与映射到转座子整合位点的真正测序读段具有相同长度分布的模拟测序读段。然后，如之前对测序读段描述地处理模拟读段。所得的模拟位点使用来源于整合位点处的碱基组成的位置特异性权重矩阵(PWM)评分(图5A)。我们从模拟位点取样了100,000个对照位点，其方式使得它们的PWM得分分布接近真实整合位点的PWM得分分布。关于基因表达水平、组蛋白修饰和染色质可接近性以及CpG岛的基因组位置和核纤层相关结构域的信息从UCSC(http://genome.ucsc.edu)下载。开放染色质区域来源于DNA酶I HS数据、FAIRE数据和ChIP数据，验证区域从UCSC Open Chrom Synth track，第2版(Feb 2012)获得。

通过Helraiser的基因捕获

在图3A中展示的我们的结果证明了，一些转座甚至可以在失去整个RTS的情况下发生。这产生了一个问题：哪些序列决定子定义了移动的DNA片段的3'-端。

由pHelR、pHelRΔHP和pHelRΔRTS生成的插入位点的DNA测序揭示了对于所有三种转座子，LTS 5’-TC序列与基因组靶位点处的A核苷酸的经典接合，表明这些整合物确实是Helraiser转座酶介导的产物。RTS-基因组接合的序列分析揭示了pHelR的侧接T核苷酸的经典CTAG-3’序列(图6A；插入“H1-2”)。相比而言，由以CTTG-3’四核苷酸结束的pHelRΔHP和pHelRΔRTS载体生成的一些插入(还参见玉米Helitron(Dong等人.(2011))在3个不同的基因组靶位点处紧邻着T核苷酸插入(图6A；以红色示出)。这些转座子插入代表原始转座子序列的截短，因为新的转座子末端位于内部，在SV40多聚A序列的开始处下游6bp。此外，由HelRΔHP和HelRΔRTS生成的2个插入分别以CTAC-3’和AATG-3’结尾(图6A；以绿色示出)。这些事件可以被认为是3’-转导事件，其中代表可选择的转座子RTS的独特的外部序列已经被用于转座。在两个情况中，转座子RTS中的最后2个核苷酸与基因组HeLa靶位点的开始2个核苷酸重叠(也用IS91元件的单末端转座观察到(Mendiola等人.((1994))，使得不可能准确地鉴定实际的RTS。代表新的RTS的5个序列在最后30bp中都不包含可鉴定的回文序列(数据未示出)，与之前的观察结果一致(Han等人.(2013))。

为了进一步研究在Helraiser转座期间生成的3’-转导事件的频率和范围，我们紧挨着pHelR和pHelRΔHP载体的转座子RTS的下游导入SV40-neo-多聚A选择盒(对于puro和neo，分别重新命名为“pHelRpn”和“pHelRΔHPpn”；图6B)。这样，可以定量捕获整个neo盒的连读事件。如在图6B中示出的，完整的Helraiser转座子可能在～11.7％的转座事件中捕获侧接的DNA序列。相比而言，虽然转座的整体频率较低，至少36％的由pHelRΔHPpn生成的转座事件导致转座子下游的整个1.6kb neo盒的转移。此实验设置可能低估了3’-转导的频率，因为它需要捕获整个1.6kb neo盒。

鼠耳蝠基因组中Helitron 3’-端的多样化

以上实验证明了，通过回文序列或RTS缺失生成的过早的截短和连读事件导致生成新的3'-端。为了研究这种事件是否也在体内发生，我们分析了近期活跃的HelibatN541、HelibatN542、和HelibatN580亚家族的395个拷贝(分别为26、339和30个拷贝)，并发现具有从头3’-端的39个样本(在共有序列的最后30bp上＞20％偏离)(表1)。这些样本可能通过以下生成：1)临近预先存在的5’-截短的Helitron插入(图11A)，2)紧邻着另一个Helitron插入，其中一个Helitron的5’-端紧挨着另一个的3’-端(图11B)，和3)3’-端的最后30bp内的缺失或突变(图11C)。空位点证据表明，这些确实是真实的插入事件(图11D)。最有趣的是，与pHelRΔHP转座子的插入#2类似(图6A)，我们鉴定了一个样本(图11E)，其中从头3’-端通过绕过缺乏回文序列的RTS中的CTAG-3’序列生成。因此，绕过3’-端和导致Helraiser转座子中从头转座子末端的出现(图6A、B)，如实地复制了天然过程。

鼠耳蝠基因组中近期活跃的Helitron的3’-端的分析

为了了解测序的基因组中由Helitron获得从头末端的模式，我们分析了鼠耳蝠谱系的3种Helibat样本(HelibatN541、HelibatN542和HelibatN580)的拷贝。这些拷贝是近期活跃的(与共有序列98％-99％同一)，其使如何解释序列特征的选择的影响最小化。HelibatN541拷贝是小棕蝠谱系特有的(Thomas等人.(2014))，HelibatN580拷贝是布氏鼠耳蝠谱系特有的且HelibatN542拷贝在两个谱系中发现。与共有序列98％-99％同一的Helibat样本(HelibatN541和HelibatN580)的拷贝从它们各自的基因组提取。与共有序列＞95％同一并且具有完整的5’-端的HelibatN542拷贝从小棕蝠基因组提取。由于HelibatN542拷贝相对较老，我们使用了不同的截止。使用MUSCLE(Edgar RC.MUSCLE:multiple sequence alignment with high accuracy and high throughput.NucleicAcids Res 32,1792-1797(2004))。将每个拷贝的最后30bp与它们各自的共有序列比对。使用基于同源性的工具(BLAST工具(Altschul SF,Gish W,Miller W,Myers EW,LipmanDJ.Basic local alignment search tool.J Mol Biol 215,403-410(1990))小心地分析具有与共有序列偏离＞20％或不对齐(从头)的末端的拷贝以获得对3’-端的起源和进化的洞察。我们还利用了使用其他蝙蝠全基因组序列的比较基因组学方法来排除假阳性。例如，如果一个蝙蝠基因组中的拷贝具有从头3’-端且直系同源拷贝具有与共有序列同源的末端，则那些变化被假设为在插入后发生。此外，空位点(无插入的位点)被用于确认元件的边界。

通过HelibatN3转座从头生成新的嵌合转录物

在小棕蝠基因组中，将来自15个不同基因的启动子序列捕获并由Helitron扩增至4690个拷贝(Thomas等人.(2014))。例如，HelibatN3亚家族从基因捕获事件进化，其中转座元件挑选包含启动子、NUBPL(核苷酸结合蛋白样)N-末端的6个氨基酸的编码序列和剪接供体(SD)序列的NUBPL基因的片段[图6C(i)](Pritham等人.(2007))。因此，如果HelibatN3元件要以正确方向跳跃到基因的内含子中，它将通过在转座子的SD序列和最接近的下游剪接受体(SA)之间的剪接具有异位表达该基因的N-末端截短的衍生物的能力(图6C)。

为了证明转录外显子捕获事件，我们在NUBPL启动子和SD之间插入了可选择的puro抗生素抗性基因[图6C(ii)]，并用Helraiser转座酶将此转座子移动到HeLa细胞基因组中。从puro抗性细胞制备的cDNA的序列分析揭示了存在于人类转录物中的包含转座子的SD和SA位点之间的剪接。这些数据表明转座子插入的下游的外显子序列的捕获(图6C)。此外，我们还回收了嵌合转录物，其中SD明显地剪接到非编码RNA中的隐蔽剪接位点，导致非编码遗传信息的外显子化(图6C)。

NUBPL驱动的转录物及其在布氏鼠耳蝠中的基因

以上数据表明，当实验地在HeLa细胞中移动时，HelibatN3元件充当有效的外显子陷阱。为了记录内源性Helitron转座在体内生成新的转录物的能力，我们注释了蝙蝠布氏鼠耳蝠(Myotis brandtii)中Helitron捕获的NUBPL启动子驱动的转录物。我们发现，对于23个注释的基因，Helitron捕获的NUBPL启动子插入存在于至少一个注释的转录起始位点(TSS)上游1kb内；预测这些插入驱动总计46个转录物[FPKM(每一百万个映射的片段的每一千碱基外显子的片段)＞0.5]，其中3个具有插入提供的TSS(表2)。预测46个转录物中的4个与它们的亲本基因不同，是编码的，且46个转录物中的35个在检查的组织中显示一些组织特异性(仅在该组织中FPKM＞0.5)(表2)。

那些预测的TSS与Helitron插入重叠的候选NUBPL驱动的转录物被认为是真实的NUBPL驱动的转录物。3个转录物符合此标准，并且涉及基因RINT1(图12A)、ARMC9(图12B)和RNF10(图12C)。其中，预测RINT1(肾)和RNF10(在所检查的组织中组成型表达)转录物是编码的(存在完整的开放阅读框)，且ARMC9(脑)是非编码的(表2)。总之，Helitron在转录水平影响遗传新颖性，且Helraiser可以如实地重现这一生物现象。

NUBPL启动子驱动的融合转录物的检测

将从puro抗性HeLa集落纯化的500ng的总RNA使用Maxima逆转录酶(ThermoScientific)和寡dT引物在50℃持续30min逆转录。热失活后，重复逆转录反应。将RNA用1/5体积的1N NaOH和0.5M EDTA在65℃水解持续15min。将cDNA用DNA Clean&ConcentratorKit(Zymo Research)纯化，并使用以下条件用2μl的洗脱液进行6个独立的PCR扩增：95℃1min，(94℃ 30s、65℃ 30s、72℃ 30s)的40个循环，(94℃ 30s、25℃ 1min、以0.2℃/s上升至72℃、72℃ 1min)的2个循环，使用对Helitron载体序列特异性的引物Puro1和为整个人类转录物组上高表示计算地预测的4聚体半特异性引物。第一个PCR反应补充有包含载体特异性寡Puro2的25μl的PCR主混合物，以用以下条件进行随后的不对称PCR反应：[(94℃30s、65℃ 30s、72℃ 40s)的3个循环、(94℃ 30s、60℃ 30s、72℃ 40s)的1个循环]的10个超循环。将PCR产物经柱纯化，且30μl洗脱液中的2μl被用于使用转座子特异性的寡T2a_SD_bc和对半特异性引物的单链突出端特异性的PE_first的第1次指数PCR。将PCR产物纯化、使用pGEM-T载体系统(Promega)进行TA克隆并测序。通过用UCSC基因组浏览器的BLAT工具比对Helitron转座子内的剪接供体位点后的序列确定融合转录物。

布氏鼠耳蝠基因组中Helitron的注释(坐标、近似的年龄和相对方向)

使用之前描述的鼠耳蝠特异性Helitron重复文库鉴定布氏鼠耳蝠基因组组装(KE161034-KE332376，来自美国国家生物技术信息中心(NCBI)的GenBank的171343个支架(Seim I等人.Genome analysis reveals insights into physiology and longevity ofthe Brandt's bat Myotis brandtii.Nature communications 4,2212(2013)))中的Helitron插入(RepeatMasker v.4.0.5http://www.repeatmasker.org)⁵。Helitron插入的保守性通过获取Helitron DNA序列加200bp侧接序列和进行NCBI wgs数据库的blastn查询确定，以确定插入是否在其他测序的蝙蝠科(Vespertilionidae)蝙蝠(大棕蝠、小棕蝠和大卫鼠耳蝠)中存在。如果在给定物种中存在与查询序列的完整长度的命中，则认为它存在于该物种中(保守的)。如果仅存在对Helitron的一个命中或无命中，则认为它不存在。通过将此信息与蝙蝠的已知分歧年代组合，我们获得了每个插入的大致年龄。为了确定插入到基因模型中的Helitron的方向是否存在偏倚，我们使用之前描述的管线(Kapusta A等人.Transposable elements are major contributors to the origin,diversification,and regulation of vertebrate long noncoding RNAs.PLoS genetics 9,e1003470(2013))来鉴定与内含子、外显子重叠或在注释的基因模型的上游或下游1kb的区域内的Helitron。以和它们的靶基因相同方向和相对方向插入的两个Helitron被定量，并使用双尾、双样品T检验比较，α＝0.05。

布氏鼠耳蝠转录物组组装、可变剪接分析、丰度估算和基因分配

布氏鼠耳蝠用于这些分析，因为具有高覆盖度的大量高质量定向RNA-seq是公开可得的，且基因组包含～2000个Helitron捕获的NUBPL插入。将来自布氏鼠耳蝠的肾、肝和脑组织的Ilumina RNA-seq读段(200bp，配对的)((SRA061140)(Seim等人.(2013))汇集，使用Trimmomatic(Lohse M等人.RobiNA:a user-friendly,integrated software solutionfor RNA-Seq-based transcriptomics.Nucleic Acids Res 40,W622-627(2012))进行质量修剪，并使用Trinity(r20140413(Grabherr MG等人.Full-length transcriptomeassembly from RNA-Seq data without a reference genome.Nature biotechnology29,644-652(2011)))组装(从头的和基因组指导的)并使用Trinity(r20140413(GrabherrMg等人.和Haas BJ等人.De novo transcript sequence reconstruction from RNA-sequsing the Trinity platform for reference generation and analysis.Natureprotocols 8,1494-1512(2013))组装(从头的和基因组指导的)。将来自两个分析的所得组装组合，并使用Program to Assemble Spliced Alignments(PASA_r20140417)(Haas BJ等人.Improving the Arabidopsis genome annotation using maximal transcriptalignment assemblies.Nucleic Acids Res 31,5654-5666(2003)和Campbell MA,HaasBJ,Hamilton JP,Mount SM,Buell CR.Comprehensive analysis of alternativesplicing in rice and comparative analyses with Arabidopsis.BMC genomics 7,327(2006)).进行可变剪接分析。每个转录物的相对丰度(FPKM)使用期望最大化的RNA-Seq(RNA-Seq by Expectation-Maximization)(RSEM；v.1.2.12)确定(Li B,Dewey CN.RSEM:accurate transcript quantification from RNA-Seq data with or without areference genome.BMC bioinformatics 12,323(2011))。从组装去除FPKM的丰度＜0.5、且总长度＜200bp、缺乏剪接信息(并因此缺乏定向信息)的转录物，产生最终的布氏鼠耳蝠转录物组组装。从组装去除FPKM的丰度＜0.5、且总长度＜200bp、缺乏剪接信息(并因此缺乏定向信息)的转录物，产生最终的布氏鼠耳蝠转录物组组装。通过交叉基因组坐标和当前的基因组注释(Bedtools；v.2.22.1(Quinlan AR,Hall IM.BEDTools:a flexible suiteof utilities for comparing genomic features.Bioinformatics(Oxford,England)26,841-842(2010))和通过使用BLAST验证与该基因的已知转录物的同源性来将转录物分配给基因。每个转录物的编码潜力被确定为具有＞100个氨基酸的预测的ORF(Haas等人.(2013))。还确定了每个转录物的组织特异性，并且如果转录物的FPKM值只在三种检测的组织中的一种或两种中＞0.5，则该转录物被认为是组织特异性的。

在布氏鼠耳蝠中鉴定Helitron捕获的NUBPL启动子(NUBPL-HCP)驱动的转录物

包含被捕获的NUBPL启动子的Helitron的基因组坐标与组装的转录物的坐标相交。我们使用严格标准以确保转录物是可被检测的(FPKM＞0.5)，确保它具有链特异性以及NUBPL启动子本身在TSS的上游1kb内(Andersson等人.(2014))。具有定位的包含NUBPL启动子的Helitron的转录物被分类为候选的NUBPL-HCP驱动的转录物。TSS被包含NUBPL启动子的Helitron提供的转录物被认为是真正的NUBPL-HCP驱动的转录物。具有推定地由Helitron驱动的至少一个转录物的那些基因被包括在GO项目分析富集分析中，并且如果项目的p-值小于0.05，则它们被认为是显著的(Mi H,Muruganujan A,Thomas PD.PANTHER in2013:modeling the evolution of gene function,and other gene attributes,in thecontext of phylogenetic trees.Nucleic Acids Res 41,D377-386(2013)和AshburnerM等人.Gene ontology:tool for the unification of biology.The Gene OntologyConsortium.Nature genetics 25,25-29(2000))。使用GPMiner(Lee TY,Chang WC,HsuJB,Chang TH,Shien DM.GPMiner:an integrated system for mining combinatorialcis-regulatory elements in mammalian gene group.BMC genomics 13Suppl 1,S3(2012))分析具有FPKM＞0.5的转录物的TSS的1kb内的每个NUBPL启动子的启动子基序诸如TATA、CAAT和GC盒和预测的转录因子(TF)结合位点。

确定布氏鼠耳蝠中Helitron在转录起始位点(TSS)的+/-1kb区域中的富集/消耗

为了获得对应于以布氏鼠耳蝠基因的TSS为中心的2-kb间隔的坐标，我们从我们的布氏鼠耳蝠基因组装提取了相对于TSS的-1kb和+1kb的坐标。然后，我们使用Bedtools将这些坐标与布氏鼠耳蝠中已知Helitron插入的那些坐标交叉(RepeatMasker，参见上文)，并经由Fisher精确检验确定富集或消耗(α＝0.05)(Quinlan等人.(2010))。如果双尾p-值＜0.05，则认为结果是显著的，并且显著性的方向(富集或消耗)由适当的单尾检验的p-值确定(2010))。

讨论

已经复苏了来自蝙蝠小棕蝠的基因组的活性Helitron转座子，并且这种新的转座子Helraiser已经被用于探索Helitron转座的机制和基因组影响。

与其他HUH核酸酶结构域的已知性质一致(Chandler等人.(2013))，在体外只在来源于Helraiser的LTS和RTS的ssDNA片段上检测到核酸酶活性。这可以表明，Helraiser依赖于一些细胞过程以使ssDNA可用于裂解。例如，一种编码HUH核酸酶的良好表征的原核生物转座酶IS608的转座依赖于滞后链DNA复制，以生成ssDNA(Ton-Hoang B,Guynet C,RonningDR,Cointin-Marty B,Dyda F,Chandler M.Transposition of ISHp608,member of anunusual family of bacterial insertion sequences.EMBO J 24,3325-3338(2005)和Ton-Hoang B等人.Single-stranded DNA transposition is coupled to hostreplication.Cell 142,398-408(2010))。可选择地，Helraiser转座的起始步骤所需的ssDNA可以通过被示出诱导富含AT的区域中的dsDNA的局部解链的负超螺旋变得可获得(Dayn A,Malkhosyan S,Mirkin SM.Transcriptionally driven cruciform formationin vivo.Nucleic Acids Res 20,5991-5997(1992)；Krasilnikov AS,Podtelezhnikov A,Vologodskii A,Mirkin SM.Large-scale effects of transcriptional DNAsupercoiling in vivo.J Mol Biol 292,1149-1160(1999)和Strick TR,Allemand JF,Bensimon D,Croquette V.Behavior of supercoiled DNA.Biophysical journal 74,2016-2028(1998))。在真核细胞中，DNA的负超螺旋在转录复合物的上游发生(Liu LF,WangJC.Supercoiling of the DNA template during transcription.Proceedings of theNational Academy of Sciences of the United States of America 84,7024-7027(1987)和Rahmouni AR,Wells RD.Direct evidence for the effect of transcriptionon local DNA supercoiling in vivo.J Mol Biol 223,131-144(1992)并且可以生成Helraiser转座所需的单链重组体(patch)(Parsa JY等人.Negative supercoilingcreates single-stranded patches of DNA that are substrates for AID-mediatedmutagenesis.PLoS genetics 8,e1002518(2012))。此外，由于富含AT的区域可以协助局部DNA解链，可能共有LTS包含靠近裂解位点的富含AT的区域不是巧合(图8)。Helraiser解旋酶结构域和Pif1之间的同源性(图10A)和用于转座的解旋酶功能的重要要求(图2)二者支持一种模型，其中解旋酶结构域的作用是在转座子末端处生成ssDNA后解开ssDNA-dsDNA接合处的DNA。

当与其他已知的真核生物DNA转座子相比时，表明Helraiser转座通过环状中间体进行的数据定义了关键的区别。Helitron转座在机械上与一些基于ssDNA的原核转座系统(del Pilar Garcillan-Barcia等人.(2001))或者与某些ssDNA病毒复制过程(Faurez F,Dory D,Grasland B,Jestin A.Replication of porcine circoviruses.Virologyjournal 6,60(2009))相关是可能的。当转座从基因组供体基因座起始时，缺少转座子插入的局部跳跃和随机分布(图5)强烈支持附加体转座中间体的观点。

以下观察结果与Helitron转座的修饰的滚环模型一致：1)Helraiser转座要求LTS，而RTS不是严格必需的(图3)，2)发夹显示为RTS最重要的组件，因为其缺失或完整RTS的缺失对转座具有相似作用(图3)，和3)转座子截短和临近RTS的序列的转导离体地发生，并且这些非经典转座事件的频率在发夹缺失时显著增加(图6)。总体上，数据表明，RTS中的发夹结构通过充当转座终止信号在Helraiser转座中起重要的调节作用。我们的观察结果支持捕获侧接转座子的DNA序列的“连读”模型：当发夹从RTS缺失或未被转座机制识别时，转座酶绕过转座子的3’-端并寻找更下游的另外的转座终止子序列，导致侧接宿主序列的转导(Feschotte等人.(图7))。

RTS的相对宽松的功能定义最可能是为什么Helitron可以高效转导下游宿主基因组序列的核心原因。基因捕获可以导致新的Helitron家族的出现和多样化以及生成新的细胞转录物。例如，当捕获的NUBPL基因片段被Helraiser转座酶移动到人类细胞的基因组中，通过施加的转录和剪接产生新的编码和非编码转录物(图6C)。鉴定了驱动细胞基因的转录的几种Helibat插入(表2)，并鉴定了在NUBPL插入内起始的转录物。全部这些真实的NUBPL驱动的转录物是N-末端截短的，并且具有外显子化的非编码序列，最经常导致新的5’-UTR(图12和表2)，如在体外用一些Helraiser催化的插入观察到的(图6C)。

数百万年来，TE已经塑造了基因组结构和功能，并且对它们的宿主的进化轨迹产生强烈的影响(在Feschotte C.Transposable elements and the evolution ofregulatory networks.Nature reviews Genetics 9,397-405(2008)中概述)。所记录的提供可选择的启动子、增强子元件、多腺苷酸化信号和剪接位点的最主要的剂是反转录转座子。此外，已经示出了，～1000个细胞基因片段已经被稻基因组中的复制和粘贴Pack-MULEDNA转座子捕获，表明这些转座子可能在植物的基因的进化中起重要作用(Jiang N,Bao Z,Zhang X,Eddy SR,Wessler SR.Pack-MULE transposable elements mediate geneevolution in plants.Nature 431,569-573(2004))。显示出Helitron也具有生成基因组变异的巨大潜力。事实上，发现约60％的玉米Helitron携带捕获的基因片段，构成由Helitron转座散布在玉米基因组中的基因片段的高达千分之十(Yang等人.Proceedingsof the National Academy of Sciences of the United States of America 106,19922-19927(2009))。尽管大多数捕获的基因片段明显地在玉米中经历随机漂移，它们的～4％被估算为处于纯化选择下，表明对宿主的有益作用。因此，复制和粘贴转座的捕获的基因片段或整个基因的3’-转导和随后的基因组范围的散布的分子机制独特地将Helitron定位为具有广泛生物学后果的强大的基因组重排剂。

实施例2：HelRaiser转座酶扩增基因组内容的用途

HelRaiser是使用复制和粘贴机制用于复制并且在真核细胞中可操作的第一个转座子。该转座子作为分子生物学工具的一个吸引人的应用是扩增基因组内容，使得生成包含多个拷贝的感兴趣的基因或基因组区域的细胞系。为了证明这一点，将携带侧接HelRaiser末端序列(LTS和RTS)的“模型基因”(TurboGFP)的定义的单拷贝整合的细胞系用作起点。然后，将这些细胞用HelRaiser转座酶转导，并评价TurboGFP是否通过复制和粘贴机制复制。

为了生成携带定义的拷贝数的LTS-EF1A-TurboGFP-RTS的细胞系，使用原位连接方法，其中供体(此处为LTS-TurboGFP-RTS)侧接被称为Tia1L的通用gRNA识别位点(gRNA序列：GGTATGTCGGGAACCTCTCC；gRNA识别位点：GGTATGTCGGGAACCTCTCCAGG，PAM序列加下划线)。近期已经公开了此方法的详细描述(Lackner,D.H.等人.A generic strategy forCRISPR-Cas9-mediated gene tagging.Nat.Commun.6:10237doi:10.1038/ncomms10237(2015))。加标签盒包含包括来自HelRaiser转座子的末端序列(LTS和RTS)的Tia1L位点。TurboGFP从EF1A启动子表达，并且随后是多腺苷酸化盒(图13A)。

HEK293细胞通过电穿孔用Cas9(一种靶向AAVS1安全港基因座(safe harborlocus)的gRNA(gRNA序列：GTCACCAATCCTGTCCCTAG))和上文描述的加标签盒转染。注意，此盒还从U6启动子表达Tia1L gRNA。AAVS1基因座的裂解将引起由加标签质粒的Tia1L裂解释放的加标签盒的插入。接下来，通过FACS分选获得表达TurboGFP的单细胞克隆。将克隆用双重策略进行基因分型，用基因组扩增盒的5’或3’接合：

5’接合PCR AAVS1-EF1A的引物对

正向：TATATTCCCAGGGCCGGTTA，反向：TCTCCACCTCAGTGATGACG

3’接合PCR TurboGFP-AAVS1的引物对

正向：AGGAGGATCACAGCAACACC，反向：ACAGGAGGTGGGGGTTAGAC

获得多个克隆细胞系，对于它们上文描述的两种基因分型PCR都是阳性的。这些的筛选也通过Sanger测序分析以明确地确认加标签的盒在AAVS1基因座处的整合(图13B)。

接下来，携带加标签盒的单个细胞克隆用数字液滴PCR(ddPCR)分析。ddPCR是确认细胞中给定基因座的拷贝数的强有力的方法。为此，将来自每个克隆的50ng的基因组DNA添加到Bio-Rad 2XddPCR主混合物(20μl总反应体积)以及对感兴趣的基因座特异的TaqMan引物(以900nM终浓度)和探针(以250nM终浓度)：

TurboGFP引物/探针序列

正向引物 5’-CTGCACGTGAGCTTCAGCTA-3’

反向引物 5’-AAGCCGGTGCCCATCA-3’

探针 FAM-CCGCGTGATCGGCGACTT-MGB

扩增子长度 74bp

为了能够将TurboGFP拷贝数与参考基因座相关联，包括了用于人类RnaseP基因的探针集(目录号4403326，来自ThermoFisher)。此测定检测染色体14上的核酸酶P RNA组件H1(H1RNA)：

测定位置：chr.14:20811565

版本：NCBI版本37

基因标志：RPPH1

探针修饰：VIC染料(5’)，TAMRA猝灭剂(3’)

扩增子长度：87bp

液滴使用DG8柱体和70μl油生成并转移到96孔PCR板中。接下来，使用以下条件对液滴进行PCR：

PCR反应后，然后将PCR板转移到QX100液滴读数器，其自动测量液滴并将它们分类到四个不同的群体中。然后使用Quantasoft软件分析数据。

对于未来的实验，选择表达TurboGFP至由FACS指示的可检测水平(图14B)的携带一个拷贝的TurboGFP盒的两个克隆(图14A)。为了移动和扩增TurboGFP盒，将HEK293细胞用从CMV启动子(来自pcDNA3.1(-)(Invitrogen))表达的HelRaiser转座酶基因(SEQ ID NO:6)转染。转染后，分离单细胞克隆并如上所述地使用ddPCR测定对TurboGFP的拷贝数进行定量。测定清楚地示出了此处示出的两个克隆中的拷贝数的增加(图14A中的克隆1和2)。在克隆2中，拷贝数从1n上升到4n，这是明显的并且表明HelRaiser转座酶的非常高的活性。在其他克隆中，没有观察到增加(数据未示出)。

接下来，评价拷贝数的增加是否转化成TurboGFP表达的增加。为此，通过FACS分析在转座酶转导之前和之后分析克隆。注意到，在转座酶转导后观察到TurboGFP表达的显著增加(图14B)。这表明，HelRaiser转座酶活性足以拷贝TurboGFP盒并将其粘贴到另一个基因组基因座。从之前的文献(Grabundzija等人.Nat Commun.2016Mar 2；7:10716.doi:10.1038/ncomms10716.)，推测出插入将在基因组内随机发生(对靶位点处的AT二核苷酸具有偏好)。

总之，此实验示出了，侧接HelRaiser末端序列的基因或基因组区域可以在添加HelRaiser转座酶后扩增。虽然此处只用模型基因扩增(TurboGFP，以单拷贝插入到AAVS1基因座中)，容易预测如果内源基因被LTS和RTS加标签，则可以观察到相似的扩增。因此，进行此方法来生成携带基因组扩增的细胞系。这样的细胞系在其中某些治疗基于靶基因(例如乳腺癌中的Her2)的扩增的程度分级且其中缺少适当的参考标准物的肿瘤学中可以是特别令人感兴趣的。

实施例3：两个内源人类基因座：CDK4和CD81的基因组扩增

为了测量当用于细胞中基因扩增时Helraiser转座子的效率，将Hap1细胞工程化以包含侧接感兴趣的内源基因的转座酶识别位点(LTS和RTS)。将这些细胞工程化后，转座酶在这些细胞中表达，并且观察基因基因座的拷贝数是否由于转座酶的复制-粘贴活性增加。选择两个基因用于此概念证明实验：周期蛋白依赖性激酶4(CDK4)和分化簇81(CD81)。

为了向基因组插入转座所需的左侧末端序列(LTS)和右侧末端序列(RTS)，使用已建立的非同源末端连接加标签法。构建包含侧接斑马鱼tia1LgRNA识别位点和驱动此斑马鱼tia1L gRNA的表达的U6启动子的LTS或RTS序列的质粒。在tia1L gRNA位点处的Cas9裂解后，LTS和RTS盒将从质粒释放。如果还提供了指明感兴趣的基因组基因座的gRNA，则LTS或RTS盒将在Cas9/gRNA裂解后插入到该位点。LTS在SEQ ID3中指明，且RTS在SEQ ID4中指明。

理想地，LTS侧接上游A且RTS侧接下游T，来反映天然Helraiser转座事件发生在AT二核苷酸处的事实，其中LTS-供体-RTS序列插入到A和T之间。

为了工程化细胞系(一个对于CDK4和一个对于CD81)，在CDK4和CD81基因组基因座的上游和下游设计gRNA。LTS盒必须插入到基因的上游(5’)且RTS盒必须插入到基因的下游(3’)。由于每个细胞系需要具有在2个不同基因座处(LTS上游和RTS下游)整合的盒，进行两个依序的工程化步骤。设计的gRNA在以下表中示出：

用于工程化的gRNA：

将Hap1细胞通过脂质体转染用表达Cas9的质粒、加标签的质粒(LTS或RTS)、对应的基因特异性gRNA质粒和赋予杀稻瘟素抗性的质粒转染。转染后，将细胞简短地用杀稻瘟素选择以富集转染的细胞。恢复3天后，将细胞单细胞稀释以分离克隆系。通过PCR和Sanger测序分析克隆，以鉴定整合了LTS或RTS盒的克隆。用于PCR和Sanger测序的引物在下表中示出：

用于基因分型的引物：

鉴定了在正确的基因座处包含LTS或RTS的克隆细胞系后，重新靶向这些细胞以插入其他序列(LTS或RTS)。重复对第一次靶向实验描述的相同程序，但确保包含LTS的细胞系被工程化以包含RTS，且反之亦然。现在，使用来自第二次靶向实验的在期望的位置具有LTS和RTS序列二者的正确编辑的克隆细胞系以测试转座酶的活性。

将CDK4LTS/RTS和CD81LTS/RTS细胞系用表达Helraiser转座酶的质粒电穿孔。该表达质粒包含在CMV启动子下的转座酶编码序列，这确保转座酶的高表达水平。转座酶的编码序列在SEQ ID NO:6中描述。工程化的CDK4LTS/RTS和CD81LTS/RTS Hap1细胞使用LonzaNucleofection系统用SE缓冲液和程序DS120用转座酶质粒电穿孔。为了允许发生许多转座事件，细胞经历5轮电穿孔，每轮之间具有4天的恢复。第五且最后一轮电穿孔后，将细胞系单细胞稀释以分离克隆细胞系。通过液滴数字PCR(ddPCR)分析克隆以使用商购可得的测定(例如PrimePCR^TM ddPCR^TM拷贝数测定：CDK4,人类；测定ID dHsaCP2500374，来自Bio-Rad)评估CDK4和CD81基因的拷贝数。对于其中检测到拷贝数增加的那些克隆细胞系，通过qPCR和蛋白印迹分析细胞系以确认存在增加的mRNA和蛋白表达水平。

实施例4：HelRaiser递送DNA货物和建立携带多个拷贝的靶基因的细胞系的用途。

转座子的一个潜在的应用是将DNA货物递送到靶细胞中，其中转座酶介导随机高拷贝数整合。这在其中可以在治疗背景中应用转座子来递送DNA货物的情形中是特别令人感兴趣的。此外，这与CHO细胞工程化有关，其中CHO细胞被用作产生抗体和其他生物制品的生物反应器。

我们的实验表明，HelRaiser在建立稳定包含感兴趣的转基因的细胞系方面非常高效(如在图1D中示出的)。事实上，如上文描述的，HelRaiser几乎与比天然存在的系统活跃100倍的睡美人的工程化版本(因此，它被称为SB100)一样活跃。但是，从这些实验中，尚未完全清楚人们可以预期每个细胞的多少转基因拷贝，因为这只能通过splinkerette PCR(图3)而不能通过数字液滴PCR定量。

为了解决这个问题，将HEK293细胞用HelRaiser供体转染，其中嘌呤霉素抗性基因从SV40启动子表达并侧接HelRaiser末端序列以允许从质粒向HEK293细胞的基因组的转座。转座通过共转染编码从CMV启动子表达的HelRaiser转座酶的质粒催化。转染后，通过应用1μg/ml嘌呤霉素选择细胞，以富集携带稳定整合的靶基因(PuroR)的细胞。接下来，将单细胞克隆通过有限稀释分离，并且扩增这些克隆以提取基因组DNA。

随后，通过ddPCR测定分析所选择的单细胞克隆，其中PuroR基因的拷贝数通过以下测定确定：

PuroR引物/探针序列

正向引物 5’-CACCAGGGCAAGGGTCTG-3’

反向引物 5’-GCTCGTAGAAGGGGAGGTTG-3’

探针 VIC-GCCTTCCTGGAGACCT-MGB

扩增子长度 118bp

为了能够将PuroR拷贝数与参考基因座相关联，包括了用于人类EGFR基因的探针集(目录号4400291，来自ThermoFisher)。此测定在染色体7上检测到EGF受体。

基本如实施例2中所述地进行ddPCR。图15示出了来自携带稳定PuroR整合的克隆的选择的ddPCR结果。注意，几个克隆包含高拷贝数的转基因(例如克隆5E11具有12的拷贝数；克隆5F10具有15的拷贝数；克隆10B1具有拷贝数14)。由于这些实验在抗生素选择后和有限稀释后进行，它们可能展示真实的基因组整合事件(而不是质粒携带)。

总之，此实验表明，HelRaiser是向受体细胞递送货物和建立携带高拷贝数的转基因的细胞系的有力工具。感兴趣的是，此处获得的拷贝数超过了睡美人的工程化版本报道的拷贝数(比较PMID 22402491的图6；Kacherovsky N等人,Combination of SleepingBeauty transposition and chemically induced dimerization selection for robustproduction of engineered cells.Nucleic Acids Research,2012,Vol.40,No.11e85doi:10.1093/nar/gks213)。这突出了HelRaiser作为基因递送媒介物的应用并强烈表明其对上文列出的目的的可应用性。

实施例5–Helraiser对生物加工应用的应用

为了评价本文描述的Helitron转座酶对生物加工应用的适用性，进行以下实验验证。

构建具有适当的选择盒的供体载体，包含编码工业上重要的重组蛋白例如抗HER2抗体的盒。用于验证技术的合适的载体包括编码以下的那些：

对照GFP载体—具有侧接RTS和LTS的嘌呤霉素^R选择盒的eGFP(载体(1))。

IgG1 HC供体—具有侧接RTS和LTS的谷氨酰胺合酶选择盒的抗HER2 IgG1重链(载体(2))。

IgG1 LC供体—具有侧接RTS和LTS的谷氨酰胺合酶选择盒的抗HER2 IgG1轻链(载体(3))。

多基因IgG1供体—具有侧接RTS和LTS的谷氨酰胺合酶选择盒的抗HER2 IgG1重链、抗HER2 IgG1轻链(载体(4))。

使用Helraiser掺入重组蛋白诸如GFP。

将Helraiser转座酶蛋白和供体对照GFP载体(上文的载体(1))使用LonzaNucleofector标准化CHO程序经由电穿孔递送到细胞中。72小时后，用流式细胞术分析细胞的阳性GFP细胞的数量，以确定转染的效率。将细胞接种到2个E125 Erlenmeyer烧瓶中(0.5x10⁶细胞/mL)。将第一个烧瓶(a)中的细胞置于嘌呤霉素选择下持续2周，而将第二个烧瓶(b)中的细胞伴随振荡传代持续2周(最大细胞密度4.0x10⁶细胞/mL)。2周后，从烧瓶(a)移除选择压力，并通过流式细胞术分析两个烧瓶中的细胞以确定具有GFP的稳定整合的细胞的百分比。烧瓶(a)中的细胞100％表达GFP，表明在选择下GFP基因整合到100％的细胞中。烧瓶(b)提供了在没有选择的情况中Helraiser转座酶整合盒的效率的度量。将烧瓶(a)中嘌呤霉素选择的细胞收获用于通过Cergentis的靶向基因座扩增(TLA)评估，以确定整合的数量和它们的位置。

使用FACS，将GFP阳性细胞以1细胞/孔接种到384孔板中。选择群体的分布来捕获具有一定范围整合频率的细胞，范围从单个整合至携带多个整合的细胞。将细胞继续生长持续2周，并确定GFP荧光的强度。挑取并培养低、中、高度荧光细胞用于进一步分析。使用ddPCR评价这些克隆的整合数。使用具有单个整合的克隆评价扩增方案。在示出最高信号的克隆中，用TLA确定整合的位置。将克隆用NGS测序，以确定由使用Helraiser转座酶引起的任何对基因组的不想要的修饰。此信息对管理批准是重要的，因为可能需要避免某些基因组Helraiser整合事件，因为它们影响细胞生长、增殖或稳定性。

将具有单个GFP整合的克隆暴露于Helraiser转座酶蛋白以确定扩增的效率。用流式细胞术分析细胞以确定荧光信号的变化。克隆细胞并用ddPCR确定整合数。将克隆分类为低(＜5拷贝)、中(10-20拷贝)和高(20-100拷贝)荧光。可转座元件的整合的评估使用TLA进行。优化方案以增加携带10-20拷贝的GFP盒的克隆的产量。

使用Helraiser的大的多基因盒(单克隆抗体重链和轻链)的整合。

设置两个转染来比较由单个基因供体(分开的IgG1 HC和IgG1 LC供体)比双基因供体(组合在一个盒中的多基因IgG1供体)递送多基因货物的效率。将Helraiser转座酶和供体使用Lonza Nucleofector标准化CHO程序经由电穿孔递送到细胞中。生成3个池：将池(a)用上文的单基因供体载体(2)和(3)转染，将池(b)用上文的双基因供体载体(4)转染，且池(c)是假对照，无供体。72小时后，根据Horizon的标准程序，在T烧瓶中在无L-谷氨酰胺条件下(under minus L-Glutamine conditions)选择细胞。选择10天后，在10天分批补料培养中评价来自池(a)和(b)的细胞的生产率。这确定了转座酶生成可以用于生成以克计的产物的高表达池的效率。同时，将来自池(a)和(b)的细胞接种到384孔板中以生成1000个克隆。将1000个克隆接种到96孔板上，并且在培养5天后从它们收获上清液以确定IgG1生产率。基于生长和IgG1的产生(低、中和高)选择克隆。通过培养细胞持续60个世代评估池和克隆的稳定性。在此阶段结束时，通过10天补料分批培养评估细胞的生产率。此信息对管理批准是重要的。

对于用于在生物加工应用中使用的转座酶的评估，应当考虑以下量度：

1)选择的池以大于2g/L产生重组蛋白

2)稳定细胞系的世代1和世代60之间的产物滴度不改变+/-30％。

实施例6：HelRaiser递送DNA货物进入离体人类细胞用于治疗目的的用途。

使用Helraiser转座子完成的离体基因治疗。

适合于靶向病理学的细胞类型和数量从患者、供体或来源于iPSC细胞的群体分离，所述iPSC细胞被适当地工程化以限制移植物抗宿主病并预防/减少被宿主排斥。组装含有LTS序列、在感兴趣的细胞中起作用的适当的启动子和/或增强子、任选地限制启动子/增强子也激活相邻基因的能力的绝缘序列(insulation sequence)、编码感兴趣的蛋白(或RNA)的cDNA、适当的转录终止序列和RTS序列的DNA载体。在适当的细胞培养基中培养(并在需要时扩增)细胞，直至获得所需数量的细胞。通过电穿孔或转染将上述载体(LTS-感兴趣的cDNA-RTS)导入到受体细胞中。可选择地，载体可以通过来源于设计为消除产生活性病毒的风险的包装系统的病毒颗粒导入。在另一个可选择方案中，将载体导入到具有适于与宿主细胞融合的性质的非病毒颗粒例如脂质体中。

在所有情况中，宿主细胞也必须在载体被导入细胞时/大约时间(至少短暂地)表达Helitron转座酶。Helitron转座酶可以作为DNA(作为游离质粒经由转染/电穿孔或经由病毒或非病毒颗粒的转导)、作为编码转座酶的mRNA或作为转座酶蛋白导入。

培养转导的细胞群体直到从系统中除去转座酶的来源。转座酶的存在/不存在可以通过使用针对转座子的核苷酸序列的引物的PCR确定。

检查工程化细胞的样品以观察它们如何有效地被转导、已整合的所需基因序列的数量、以及细胞之间拷贝数的变化程度。当工程化事件生成可以通过流式细胞术以保持细胞完整性的方式观察到的表型时，随后可以通过FACS分选富集具有期望行为的群体。然后将细胞在细胞培养中扩增，直至达到适当数量用于治疗。冷冻保存可用于储存群体用于后续治疗或创建现成的治疗产品。

通过注射到身体的适当组织或外周血液循环中将转染的细胞导入患者。在一些情况中，如果已经消融宿主组织(例如骨髓)从而增加工程化的导入细胞与存在于体内的野生型细胞的比，则将实现增加的治疗益处。评估患者的病理学表型以测量由导入工程化细胞引起的治疗益处。在一些情况中，一次性治疗可以是最佳的，在其他情况中，进一步导入工程化细胞将是有益的。

实施例7：HelRaiser递送DNA货物进入体内人类细胞用于治疗目的的用途。

体内基因治疗是将病理情况恢复到正常功能的另一种方法。对于本领域技术人员明显的是，通过采取以下步骤，可以将Helitron转座子用于体内基因治疗。

首先，组装含有LTS序列、在感兴趣的细胞系中起作用的适当的启动子和/或增强子、潜在地限制启动子/增强子激活相邻基因的能力的绝缘序列、编码感兴趣的蛋白(或RNA)的cDNA、适当的转录终止序列和RTS序列的DNA载体。

其次，制备治疗剂量的LTS-感兴趣的cDNA-RTS载体以及可以在体内将Helitron转座子导入细胞的系统。DNA载体可以制备成质粒，充分注意确保它们不含内毒素，或者它们可以包装在包装系统中产生的适当病毒颗粒中，以防止产生可以支持感染的活病毒，或者它们可以包装在围绕适当的脂质或聚合物颗粒构建的非病毒递送系统中。在一些情况下，Helitron转座酶可以以编码mRNA的形式或者可选地，具有适当纯度的重组蛋白的形式递送。

第三，通过注射到所需组织或器官中，将上文的LTS-感兴趣的cDNA-RTS载体和转座酶的转导系统导入患者体内。当用于临床前模型(可包括但不限于小鼠、大鼠和/或非人灵长类动物)时，所使用的剂量和方法将从具有可接受的安全性的产生治疗益处的那些中选择(并根据尺寸和生理学的差异进行适当调整)。

实施例8：Helitron生成突变体文库的用途

基因陷阱是经常用于各种物种以破坏感兴趣的基因的表达的合成的遗传元件(引用PMID 18370072；Floss T和Schnütgen F；Chromosomal Mutagenesis的第9章,HumanaPress,Eds.Davis GD和Kayser KJ(2008))。它们含有与报告基因诸如GFP、RFP、mCherry、PuroR或BlaR融合的强剪接受体，然后是强转录终止信号(引用PMID 19965467；Carette JE等人.(2009)Science Vol.326,Issue 5957,pp.1231-1235DOI:10.1126/science.1178955)。如果这样的基因陷阱盒插入到基因的表达部分内，它将通过其剪接受体的工具捕获转录物并产生将特异性地消除该基因的转录的融合转录物。这被用于在各种生物体中产生功能丧失(LOF)模型(例如小鼠、斑马鱼；引用PMID 15167922；InternationalGene Trap Consortium,Skarnes WC等人.(2004).Nature Genetics,36(6),543–544.http://doi.org/10.1038/ng0604-543)。

基因陷阱的大规模平行递送可以用作创建可以经受遗传筛选的突变体文库的方法。这已经在酵母和单倍体人细胞中得到很好的例证(Carette等人.(2009))，其包含单组染色体/基因，因此直接获得“纯合的”LOF突变。这在其他细胞和生物体中也是可能的(引用PMID 25961939；Moriarity BS等人.(2015).Nature Genetics,47(6),615–624.Http://doi.org/10.1038/ng.3293)，虽然以较低频率和可能以较低“转换率”(其中杂合的LOF突变体可能是最主要的)。

这种筛选要求高效地转导细胞和在大规模平行方法中同时失活数千个基因。从历史上看，这已经使用逆转录病毒、慢病毒或转座子(主要是PiggyBac、Tol2和睡美人)实现。虽然所有这些方法都是可行的，但逆转录病毒具有特别的缺点，因为它们的整合模式向基因和转录起始位点偏倚(引用PMID 16175173；Bushman F等人.(2005)Nat RevMicrobiol.Nov；3(11):848-58.)并且逆转录病毒整合位点被表观遗传机制沉默(引用PMID26022416；Tchasovnikarova IA等人.(2015)GENE SILENCING.Science.2015Jun 26；348(6242):1481-5.doi:10.1126/science.aaa7227.Epub 2015May 28)。慢病毒较少偏倚，但仍然被沉默。转座子代表了有吸引力的替代品并且更容易生产，但其中至少一些似乎倾向于“局部跳跃”，而不是整个基因组的无偏分布(引用PMID 19391106；Liang Q等人.(2009)Genesis.2009Jun；47(6):404-8.doi:10.1002/dvg.20508)。

Helraiser转座子系统是一种吸引人的工具，可以创建包含数万(至多百万)个独立的Helraiser整合事件的细胞的文库。将细胞用供体转导，其中由驱动嘌呤霉素抗性基因表达的剪接受体组成的基因陷阱盒侧接Helraiser末端序列LTS和RTS。共应用(例如通过转染)转座酶表达质粒移动来自质粒的基因陷阱，以创建包含许多不同的插入突变的细胞系的文库。这些文库的大小与使用的细胞数和转座活性成正比，从而产生其中每个单个人类基因被转座子插入失活的文库。转导后，含有Helraiser整合事件的细胞任选地通过嘌呤霉素选择富集。

接下来，使用本领域技术人员已知的方法对这些文库进行遗传筛选。为了确定细胞群体中存活的转座子突变体，转座子整合位点通过splinkerette PCR映射，如下所述：

将来自含有Helraiser转座子插入的细胞的5μg的基因组DNA用FspBI消化4小时，然后进行乙醇沉淀。在下一个步骤中，在20μl反应物中将样品(300ng)连接到BfaIsplinkerette衔接子(100pmol)。使用3微升的连接反应物用于用引物Linker引物和Hel1的第一次PCR(参见表4)。第一个PCR轮次的温度曲线为：94℃持续3min的1个循环，然后是94℃持续30s、70℃持续30s和72℃持续30s的15个循环；94℃持续30s、63℃持续30s和72℃持续2s的5个循环，每个循环增加2s；94℃持续30s、62℃持续30s和72℃持续12s的5个循环，每个循环增加2s；94℃持续30s、61℃持续30s和72℃持续22s的5个循环，每个循环增加2s；和94℃持续30s、60℃持续30s和72℃持续30s的5个循环。巢式PCR用引物Nested和Hel2(参见表4)进行，且每50μl反应物使用1μl的第一次PCR的1:100稀释液。巢式PCR的温度曲线以94℃3min的1个循环开始，随后是94℃持续30s、65℃持续30s和72℃持续30s的10个循环和94℃持续30s、55℃持续30s和72℃持续2min的20个循环。最后的延伸在72℃持续5min进行。

为了分析用pHelR、pHelRΔHP和pHelRΔRTS转座子生成的Helraiser插入的3’末端处的转座子-基因组接合位点，首先用从细胞分离的基因组DNA进行左端splinkerettePCR，以确定转座子插入的基因组位置。在下一个步骤中，与位于每个转座子插入下游的50bp和100bp之间的基因组序列互补的特定引物(WT6a、WT6b、WT6c、WT6d、DelH2、DelH14、DelH19、DelRTS2、DelRTS15a；参见表4)和与Helraiser转座子的5’-末端处的序列互补的HelCD1引物一起在基因组PCR中使用。PCR的温度曲线为：95℃ 2min，随后是95℃ 20s、57℃20s、72℃ 90s的40个循环。最后的延伸步骤在72℃进行5min。将在基因组PCR中获得的PCR产物测序和分析。

表1

表2

表3

表4(3个中的第1个)

表5

表6：SEQ ID NO的表格：

Claims

1.一种用于将单个或多个拷贝的感兴趣的基因导入细胞的方法，所述方法包括提供：

a)Helitron转座酶；和

b)构建体，所述构建体包含Helitron转座酶LTS序列。

2.如权利要求1所述的方法，其中b)中的所述构建体还包含侧接Helitron转座酶LTS序列的感兴趣的基因。

3.如权利要求1或权利要求2所述的方法，其中所述细胞是原核细胞或真核细胞。

4.一种用于将单个或多个拷贝的感兴趣的基因导入真核细胞的方法，所述方法包括提供：

a)“复制和粘贴”转座酶；和

b)构建体，所述构建体包含侧接“复制和粘贴”转座子LTS序列的感兴趣的基因。

5.如权利要求4所述的方法，其中所述真核细胞是植物细胞、酵母细胞或哺乳动物细胞。

6.如权利要求1至4中任一项所述的方法，其中所述细胞是人类细胞、大鼠细胞或小鼠细胞。

7.如权利要求4至6中所述的方法，其中所述“复制和粘贴”转座酶是Helitron转座酶且所述LTS来源于Helitron转座子。

8.如权利要求1至7中任一项所述的方法，其中所述LTS序列包含SEQ ID NO:3中列出的核酸序列或者与其具有至少80％同一性的序列。

9.如权利要求2至8中任一项所述的方法，其中所述感兴趣的基因还侧接RTS序列。

10.如权利要求9所述的方法，其中所述RTS序列包含SEQ ID NO:4中列出的核酸序列或者与其具有至少80％同一性的序列。

11.如前述权利要求中任一项所述的方法，其中所述转座酶是包含SEQ ID NO:1中列出的氨基酸序列或与其具有至少80％同一性的序列的Helraiser转座酶。

12.如权利要求2至11中任一项所述的方法，其中所述转座酶和所述包含感兴趣的基因的构建体作为两个单独的实体提供。

13.如权利要求2至11中任一项所述的方法，其中所述转座酶、所述感兴趣的基因和所述LTS作为单个构建体提供。

14.如权利要求2至13中任一项所述的方法，其中所述感兴趣的基因是内源基因且多个拷贝的该内源基因或cDNA序列被导入。

15.如权利要求2至13中任一项所述的方法，其中所述感兴趣的基因是非内源基因或cDNA序列。

16.如任一前述权利要求所述的方法，其中所述方法用于生成细胞系。

17.如权利要求16所述的方法，其中所述细胞系包含多个拷贝的感兴趣的基因。

18.如权利要求17所述的方法，所述方法包括步骤：

b)将所述第一构建体导入细胞；

d)将所述第二构建体导入到b)中获得的所述细胞；

e)在转座酶活性的条件下孵育在d)中获得的所述细胞；和

f)检测所述多个拷贝的感兴趣的基因。

19.如权利要求18所述的方法，其中所述第一构建体包含Helraiser LTS和RTS序列。

20.如权利要求18或权利要求19所述的方法，其中所述第一构建体通过基因组工程生成，优选使用可编程核酸酶技术诸如CRISPR/Cas9、TALEN、锌指核酸酶或兆核酸酶。

21.如权利要求18至20中任一项所述的方法，还包括选择具有已知拷贝数的克隆。

22.如权利要求2至21中任一项所述的方法，其中所述感兴趣的基因编码治疗蛋白。

23.一种通过权利要求1至22中任一项所述的方法产生的细胞系。

24.如权利要求23所述的细胞系，用于作为参考标准物使用。

25.如权利要求23所述的细胞系，用于在产生感兴趣的蛋白中使用。

26.如权利要求23所述的细胞系，用于在治疗中使用。

27.如权利要求23至26中任一项所述的细胞系，其中所述细胞系是CHO细胞系。

28.一种分离的氨基酸序列，所述分离的氨基酸序列包含与SEQ ID NO:1中列出的序列具有80％同一性的氨基酸序列，其中所述序列编码Helraiser转座酶。

29.如权利要求28所述的分离的氨基酸序列，所述分离的氨基酸序列具有SEQ ID NO:1中列出的氨基酸序列。

30.一种分离的核酸序列，所述分离的核酸序列包含编码权利要求28或权利要求29所述的氨基酸序列的核酸序列。

31.根据权利要求30所述的分离的核酸序列，其中所述序列包含SEQ ID NO:2或SEQ IDNO:6。

32.根据权利要求31所述的分离的核酸序列，其中所述序列是SEQ ID NO:2或SEQ IDNO:6中列出的核酸序列。

33.一种分离的核酸序列，所述分离的核酸序列包含SEQ ID NO:3中列出的核酸序列或与其具有至少80％同一性的序列。

34.一种分离的核酸序列，所述分离的核酸序列包含SEQ ID NO:4中列出的核酸序列或与其具有至少80％同一性的序列。

35.一种分离的核酸序列，所述分离的核酸序列包含SEQ ID NO:3中列出的核酸序列或与其具有至少80％同一性的序列，和SEQ ID NO:4中列出的核酸序列或与其具有至少80％同一性的序列。

36.一种分离的核酸序列，所述分离的核酸序列包含SEQ ID NO:5中列出的核酸序列或与其具有至少80％同一性的序列。

37.一种分离的核酸，所述分离的核酸包含至少侧接LTS HelRaiser末端序列的感兴趣的基因的核酸序列，所述LTS HelRaiser末端序列包含SEQ ID NO:3中列出的序列或与其具有80％同一性的序列。

38.如权利要求37所述的分离的核酸，还包含RTS HelRaiser末端序列，所述RTSHelRaiser末端序列包含SEQ ID NO:4中列出的序列或与其具有80％同一性的序列。

39.一种表达载体，所述表达载体包含权利要求30至38中任一项所述的核酸序列。

40.一种表达载体，包含权利要求37或权利要求38中所述的核酸序列，所述表达载体还包含以下中的至少一种：

a)侧接所述LTS和RTS的通用gRNA识别位点，优选Tia1L；

b)启动子序列，所述启动子序列被布置为使得所述感兴趣的基因处于启动子的控制下；

c)所述感兴趣的基因后的多腺苷酸化盒。

41.一种重组宿主细胞，所述重组宿主细胞包含权利要求30至38中任一项所述的核酸序列或权利要求39或40中所述的表达载体。

42.如权利要求41所述的重组宿主细胞，其中所述宿主细胞为CHO细胞。

43.一种产生感兴趣的蛋白的方法，所述方法包括在合适的培养基中培养权利要求25、权利要求41或权利要求42所述的细胞，和从所述细胞或所述合适的培养基收获所述感兴趣的蛋白。

44.一种通过向有相应需要的受试者提供感兴趣的基因来治疗疾病的方法，所述方法包括：

a)分离适于在所述受试者中使用的细胞系；

b)将权利要求33、37或38所述的分离的核酸或权利要求39或40所述的表达载体导入所述细胞系，其中所述核酸或所述表达载体包含对应于所述感兴趣的蛋白的感兴趣的基因；

c)将权利要求28或权利要求29所述的氨基酸序列、权利要求30、31或33所述的核酸序列或权利要求39或40所述的表达载体导入，使得Helraiser转座事件发生以生成包含所述感兴趣的基因的工程化细胞系；

e)将所述工程化细胞导入所述受试者中。

45.如权利要求44所述的方法，其中所述细胞系是T细胞、巨噬细胞、B细胞、树突状细胞、NK细胞、造血干细胞、骨髓-红系祖细胞(CMEP)或共同淋巴样祖细胞(CLP)。

46.一种在有相应需要的受试者中治疗疾病的方法，包括：

a)提供包含权利要求33、37或38所述的分离的核酸的第一表达载体；

b)提供包含权利要求30、31或33所述的核酸序列的第二表达载体；

47.一种药物组合物，所述药物组合物包含第一表达载体和第二表达载体，所述第一表达载体包含权利要求33、37或38所述的分离的核酸，所述第二表达载体包含权利要求30、31或33所述的核酸序列。

48.Helitron转座酶与编码侧接LTS和/或RTS的报告基因的供体一起生成包含所述报道子的各种基因组整合事件的细胞系的文库的用途。

49.一种用于检测来源于Helitron转座方法的细胞系的方法，包括分析所述细胞系中权利要求33或权利要求34所述的LTS和/或RTS序列的存在。

50.一种用于生成细胞系的方法，包括：

a)提供包含Helitron LTS序列的构建体；和

b)将所述构建体导入细胞系。

51.如权利要求50所述的方法，其中部分a)中的所述构建体还包含Helitron RTS序列。

52.如权利要求50或51所述的方法，其中所述LTS和/或RTS靶向感兴趣的DNA序列。

53.一种通过权利要求50至52所述的方法产生的细胞系。

54.一种用于产生包含多个拷贝的感兴趣的DNA序列的细胞系的方法，包括：

a)获取权利要求53所述的细胞系；

b)在用于转座酶活性的条件下导入Helitron转座酶；

c)分离携带多个拷贝的所述DNA序列的克隆细胞系。

55.一种通过权利要求54所述的方法产生的分离的克隆细胞系。

56.如权利要求55所述的分离的克隆细胞系，用于作为参考标准物使用。

57.如权利要求53、55或56中任一项所述的分离的细胞系，其中所述细胞系是CHO细胞系或HAP1或eHAP细胞系。

58.复制和粘贴转座子在真核细胞中生成具有单个或多个拷贝的DNA序列细胞的用途。

59.Helitron转座子在原核细胞或真核细胞中生成具有单个或多个拷贝的DNA序列的细胞的用途。