CN116284444B

CN116284444B - 一种基于ShCAST系统的定点基因插入工具及应用

Info

Publication number: CN116284444B
Application number: CN202310104432.6A
Authority: CN
Inventors: 肖易倍; 曾婷; 任科静; 尹捷; 刘子文; 陈美容; 陆美玲
Original assignee: China Pharmaceutical University
Current assignee: China Pharmaceutical University
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-12-22
Anticipated expiration: 2043-02-08
Also published as: CN116284444A

Abstract

本发明涉及一种基于ShCAST系统的定点基因插入工具及应用。该定点基因插入工具由融合TniQ的dCas9蛋白、TnsB蛋白、TnsC蛋白、sgRNA、供体DNA构成；表达sgRNA的DNA由scaffold序列和spacer序列组成；供体DNA由LE序列、目的基因序列、RE序列构成。其应用为在原核生物细胞中定点插入目的基因。本发明针对原核生物细胞，利用融合TniQ的dcas9蛋白能精准地将长片段目的基因定点插入靶标基因位点，尤其适用于改造菌株性能(如大肠杆菌)。

Description

一种基于ShCAST系统的定点基因插入工具及应用

技术领域

本发明涉及一种基于ShCAST系统的定点基因插入工具及应用，属于生物医药技术领域。

背景技术

基因插入技术是补偿基因缺失或失活而实现精准治疗的潜在治疗策略，同时也是改造菌株、植物等获得新功能的重要手段^[1-2]。目前常用的基因插入工具主要包括病毒、重组酶、转座酶、核酸酶等。然而，这些基因插入工具都存在一定的缺陷而限制了其应用。其中，病毒类工具插入位点随机，影响宿主正常代谢功能导致细胞坏死甚至诱发癌变^[3]；以Flp-FRT系统为代表的重组酶插入效率较低且受插入片段大小限制^[4]；CRISPR-Cas系统核酸酶、锌指核酸酶、转录激活子样效应因子核酸酶等介导的基因插入需要引入一段含有同源臂的供体DNA作为模板，并依赖于同源重组，受制于细胞分裂状态而效率较低，且由核酸酶导致的双链断裂可能会存在染色体大片段缺失的风险，导致基因组的不稳定^[5-7]。转座酶类工具插入效率高但绝大部分为随机插入，如睡美人转座子、Marina和Tn5^[8-10]等，而Tn7转座子虽能定点插入，但插入位点仅限于attTn7位点，不利于广泛应用^[11]。

近年来，涌现了一系列以融合dCas9为基础的分子工具，如融合转录激活因子或阻遏蛋白以实现CRISPRa或CRISPRi^[12-15]，融合去甲基化酶探究新的增强子元件在胚胎干细胞期对基因的调控作用^[16]，以及融合脱氨酶的单碱基编辑工具^[17]等，充分发挥了dCas9-sgRNA的定点作用，将效应蛋白的作用更加定点化。此外，基于同源重组原理的基因插入很大程度受制于插入基因的长度，人们尝试将dCas9和具有高效整合性的转座酶或整合酶进行融合，以期改善转座子的随机插入作用而发挥定点转座的活性。Himar1转座子属于Tc1/mariner-family转座子家族，以同源二聚体的形式发挥活性，不需要任何其他宿主因子即可将>7kb的片段在体外、细菌及真核细胞中进行转座，但其插入位置随机，位于TA双碱基区^[18-20]。实验发现，Himar1-dCas9融合蛋白在一对sgRNA的引导下能发生定点整合，两条sgRNA位置需间隔合适距离，太近会产生空间位阻而太远无法发挥转座酶活性。同时，转座效率也受融合蛋白、靶向DNA、供体DNA浓度影响。但该系统目前仅在大肠杆菌中进行验证，且插入TA位置的活性比单独的转座酶强300倍，相较而言仍具有较高的脱靶性，有待进一步优化。dcas9融合睡美人转座子虽能提高转座子的靶向性，但插入位点集中在TA双碱基位点，且位于Protospacer Adjacent Motif(PAM)下游300bp范围内，靶向性仍不高有待进一步优化^[21]。

利用RNA引导DNA定点并招募转座相关蛋白促使基因插入的CRISPR相关的转座系统(CRISPR-associated transposons,CAST)是极具开发潜力的基因插入工具^[22-23]。2019年张锋团队发现存在于蓝细菌Scytonema hofmanni中的type V-K CAST系统(ShCAST)含有TnsB、TnsC、TniQ三个转座相关蛋白及Cas12k，Cas12k能特异性识别5'-NGTN-3'的PAM序列，且跟经典的Ⅴ型CRISPR-Cas系统的Cas12核酸酶相比，不具有核酸酶活性。转座酶TnsB能特异性识别LE、RE上的末端重复序列，并在其他转座蛋白的协同作用下将LE、RE囊括的目的基因插入至PAM下游60-66bp，得到单方向转座产物，为PAM-LE-cargo gene-RE的产物形式(TLR)^[24-25](图1)。对于长达10kb的基因片段仍有近40％的插入效率，相比于Cas9通过同源重组介导的基因插入，效率大幅提高且不受制于细胞的分裂状态。同时，SamuelH.Sternberg^[26]团队发现存在于蓝细菌Vibrio cholerae中的typeⅠ-F CAST系统(VchCAST)同样能够在大肠杆菌中发挥定点转座活性，将目的基因高效插入至protospacer下游约49bp位置，得到TLR及TRL两种方向的转座产物。相较ShCAST系统而言，VchCAST系统几乎能保证近100％的在靶率。随后，通过生物信息学挖掘发现的typeⅠ-F CAST、typeⅠ-BCAST均具有定点整合的功能，但PAM偏好性、插入位置、能插入的基因长度、产物形式及效率等各异^[26-28]，说明CAST系统是一种极具开发潜力的、可编程的、有效的定点基因插入工具。

ShCAST系统相较于VchCAST系统具有组分较简单、插入效率高、能得到单方向整合产物等优势，值得进一步开发并激起了人们对于其分子机制研究的极大兴趣。近期，两个团队^[29-30]分别通过冷冻电镜解析了Cas12k-sgRNA-target DNA三元复合物的结构，发现Cas12k为双叶构象，N端由WED、REC1、PI三个结构域组成，负责PAM特异性识别；C端由RuvC及BH结构域组成，RuvC核酸酶结构域为典型的五条平行的β-sheet包裹一条α螺旋构象，但其中的酸性催化残基被丝氨酸及脯氨酸替代，且lid结构的两个α-螺旋比其他同类蛋白更长，迫使催化口袋处于关闭状态，不能发挥切割RNA引导的DNA切割活性；其265nt sgRNA由44nt的crRNA和218nt tracrRNA组成，同spyCas9的三元复合物^[31]比较，发现绝大部分的tracrRNA裸露在外，没有被Cas12k包裹。类似于已发现的IscB利用ωRNA中的部分构象替代蛋白功能以实现更小的蛋白尺寸，Cas12k相比于Cas9分子量减少近一半，但其sgRNA较大，且裸露的RNA对转座活性仍至关重要。但较大的sgRNA不利于递送^[32]。

此外，Martin Jinek团队^[33]解析了Cas12k-transposon复合物的结构，发现TniQ同Cas12k没有直接的相互作用，TniQ与E.coli核糖体蛋白S15通过和DNA及tracrRNA相互作用，进一步稳定整个复合物。TniQ作为中介，利用其C端锌指结构通过静电作用招募第一个TnsC，而N端通过疏水作用进一步招募第二个TnsC，各TnsC通过ATP连接并在DNA上形成单方向性的螺旋多聚体filament，继而将Cas12k的定位信息通过TniQ、TnsC传递给转座酶，进行定点基因插入。由此可见，Cas12k仅发挥定点的作用，TniQ是联系Cas12k和转座蛋白的桥梁。

CAST系统充分融合了Tn7转座子的高效整合作用以及CRISPR-Cas系统的靶向优势，利用Tn7转座子劫持CRISPR效应蛋白进行定点转座。目前CAST系统仅在大肠杆菌、铜绿假单胞杆菌^[34]、希瓦氏菌^[35]等细菌中进行基因操作及菌种改良，鉴于多组分元件的复杂性，目前未有将该系统应用到哺乳动物细胞中进行基因编辑的报道，应用于真核细胞还有待进一步的摸索。

上文涉及的参考文献如下：

[1]Chen K,Wang Y,Zhang R,et al.CRISPR/Cas genome editing andprecision plant breeding in agriculture[J].Annu.Rev.Plant Biol,2019,70(1):667-697.

[2]Li H,Yang Y,Hong W,et al.Applications of genome editing technologyin the targeted therapy of human diseases:mechanisms,advances and prospects[J].Signal transduction and targeted therapy,2020,5(1):1-23.

[3]Milone,M.C.,O’Doherty,U.Clinical use of lentiviral vectors[J].Leukemia,2018,32(7):1529-1541.

[4]Wang,H.H.,Isaacs,F.J.,Carr,P.A.et al.Programming cells bymultiplex genome engineering and accelerated evolution[J].Nature,2009,460(7257):894-898.

[5]Adikusuma,F.,Piltz,S.,Corbett,M.A.et al.Large deletions induced byCas9 cleavage[J].Nature,2018,560(7717):413-419.

[6]Cullot,G.,Boutin,J.,Toutain,J.et al.CRISPR-Cas9 genome editinginduces megabase-scale chromosomal truncations[J].Nature communications,2019,10(1):1136-1150.

[7]Zuo,E.,Huo,X.,Yao,X.et al.CRISPR/Cas9-mediated targeted chromosomeelimination[J].Genome Biology,2017,18(1):224-242.

[8]Ivics Z,Izsvák Z.Sleeping beauty transposition[J].Microbiologyspectrum,2015,3(2):3.2.08.

[9]Dornan,J.,Grey,H.,Richardson,J.M.Structural role of the flankingDNA in mariner transposon excision[J].Nucleic Acids Research,2015,43(4):2424-2432.

[10]Davies,D.R.,Goryshin,I.Y.,Reznikoff,W.S.et al.Three-dimensionalstructure of the Tn5synaptic complex transposition intermediate[J].Science,2000,289(5476):77-85.

[11]Peters J.E.,Craig N.L.Tn7:Smarter than we thought[J].NatureReviews Molecular Cell Biology,2001,2(11):806-814.

[12]Gilbert,L.A.,Horlbeck,M.A.,Adamson,B.et al.Genome-scale CRISPR-mediated control ofgene repression and activation[J].Cell,2014,159(3):647-661.

[13]Dominguez,A.A.,Lim,W.A.,Qi,L.S.Beyond editing:repurposing CRISPR-Cas9 forprecision genome regulation and interrogation[J].Nature ReviewsMolecular Cell Biology,2016,17(1):5-15.

[14]Horlbeck,M.A.,Gilbert,L.A.,Villalta,J.E.et al.Compact and highlyactive next-generationlibraries for CRISPR-mediated gene repression andactivation[J].Elife,2016,5:e19760.

[15]Schmidt,R.,Steinhart,Z.,Layeghi,M.et al.CRISPR activation andinterference screens decodestimulation responses in primary human T cells[J].Science,2022,375(6580):513-521.

[16]Kearns,N.A.,Pham,H.,Tabak,B.et al.Functional annotation of nativeenhancers with aCas9-histone demethylase fusion[J].Nature Methods,2015,12(5):401-403.

[17]Zhao,Y.,Tian,J.,Zheng,G.et al.Multiplex genome editing using adCas9-cytidine deaminasefusion in Streptomyces[J].Science China-LifeSciences,2020,63(7):1053-1062.

[18]Lampe,D.J.,Churchill,M.E.,Robertson,H.M.A purified marinertransposase is sufficient tomediate transposition in vitro[J].The EMBOjournal,1996,15(19):5470-5479.

[19]Lampe,D.J.,Grant,T.E.,Robertson,H.M.Factors affectingtransposition of the Himar1mariner transposon in vitro[J].Genetics,1998,149(1):179-187.

[20]Zhang,L.,Sankar,U.,Lampe,D.J.et al.The Himar1 mariner transposasecloned in arecombinant adenovirus vector is functional in mammalian cells[J].Nucleic Acids Research,1998,26(16):3687-3693.

[21]A.,Miskey,C.,Menzel,M.et al.RNA-guided retargeting ofSleeping Beautytransposition in human cells[J].Elife,2020,9:e53868.

[22]Chavez M.,Qi L.S.Site-programmable transposition:shifting theparadigm for CRISPR-Cassystems[J].Molecular Cell,2019,75(2):206-208.

[23]Peters J.E.Targeted transposition with Tn7 elements:safe sites,mobile plasmids,CRISPR/Casand beyond[J].Molecular microbiology,2019,112(6):1635-1644.

[24]Strecker J.,Ladha A.,Gardner Z.et al.RNA-guided DNA insertionwith CRISPR-associatedtransposases[J].Science,2019,365(6448):48-52.

[25]Tou C.J.,Orr B.,Kleinstiver B.P.Cut-and-paste DNA insertion withengineered type V-KCRISPR-associated transposases[J].bioRxiv,2022.

[26]Klompe,S.E.,Vo,P.L.,Halpin-Healy,T.S.et al.Transposon-encodedCRISPR-Cas systems direct RNA-guided DNAintegration[J].Nature,2019,571(7764):219-225.

[27]Rybarski,J.R.,Hu,K.,Hill,A.M.et al.Metagenomic discovery ofCRISPR-associated transposons[J].Proceedings of the National Academy ofSciences of the United States of America,2021,118(49):e2112279118.

[28]Saito,M.,Ladha,A.,Strecker,J.et al.Dual modes of CRISPR-associated transposon homing[J].Cell,2021,184(9):2441-2453.

[29]Querques,I.,Schmitz,M.,Oberli,S.et al.Target site selection andremodelling by type VCRISPR-transposon systems[J].Nature,2021,599(7885):497-502.

[30]Xiao,R.,Wang,S.,Han,R.et al.Structural basis of target DNArecognition by CRISPR-Cas12kfor RNA-guided DNA transposition[J].MolecularCell,2021,81(21):4457-4466.

[31]Nishimasu H.,Ran F.A.,Hsu P.D.et al.Crystal structure of Cas9 incomplex with guide RNA and target DNA[J].Cell,2014,156(5):935-949.

[32]Paunovska K,Loughrey D,Dahlman J E.Drug delivery systems forRNAtherapeutics[J].Nature Reviews Genetics,2022,23(5):265-280.

[33]Schmitz,M.,Querques,I.,Oberli,S.et al.Structural basis for RNA-mediated assembly of type V CRISPR-associated transposons[J].bioRxiv.2022.

[34]Rodríguez,L.T.,Ellington,A.J.,Reisch,C.R.Broad-host-rangemutagenesis with CRISPR-associated transposase[J].bioRxiv,2022.

[35]Cheng Z.H.,Wu J.,Liu J.Q.,et al.Repurposing CRISPR RNA-guidedintegrases system for one-step,efficient genomic integration of ultra-longDNA sequences[J].Nucleic Acids Research,2022,50(13):7739-7750.

发明内容

本发明的主要目的是：克服现有技术存在的问题，提出一种基于ShCAST系统的定点基因插入工具，采用融合TniQ的dCas9替代Cas12k，不仅能引导TnsB、TnsC发挥高效定点转座功能，还能以此拓宽ShCAST系统的应用范围，也为后续该系统各元件的优化奠定基础。同时还提出该工具的应用。

本发明解决其技术问题的技术方案如下：

一种基于ShCAST系统的定点基因插入工具，其特征是，由融合TniQ的dCas9蛋白、TnsB蛋白、TnsC蛋白、sgRNA、供体DNA构成；所述融合TniQ的dCas9蛋白由dCas9蛋白的N端经linker多肽与TniQ蛋白连接而成，所述dCas9蛋白的氨基酸序列如SEQ ID NO.2所示，所述TniQ蛋白的氨基酸序列如SEQ ID NO.4所示，所述linker多肽的氨基酸序列为SEQ IDNO.6、SEQ ID NO.12、SEQ ID NO.14之一；所述TnsB蛋白的氨基酸序列为SEQ ID NO.8；所述TnsC蛋白的氨基酸序列为SEQ ID NO.10；

表达sgRNA的DNA由scaffold序列和spacer序列组成，其中，scaffold序列为：5'-gt tttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgctttt-3'，spacer序列根据靶标基因设计而成；

所述供体DNA 由LE序列、目的基因序列、RE序列构成，其中，LE序列为5'-tt agacatctccacaaaaggcgtagtgtacagtgacaaattatctgtcgtcggtgacagattaatgtcattgtgactatttaattgtcgtcgtgaccc atcagcgttgcttaattaattgatgacaaattaaatgtcatcaatataatatgctctgcaattattatacaaagcaattaaaacaagcggataaaag gacttgctttcaacccacccctaagtttaatagttactga-3'，RE序列为5'-gcgacagtcaatttgtcattatgaaaatacacaaaa gctttttcctatcttgcaaagcgacagctaatttgtcacaatcacggacaacgacatctattttgtcactgcaaagaggttatgctaaaactgccaaagcgctataatctatactgtataaggattttactgatgacaataatttgtcacaacgacatataattagtcactgtacacgtagagacgtagcaatg ctacctc-3'，目的基因序列为待插入的基因序列。

该定点基因插入工具以N端融合TniQ的dCas9替代Cas12k，引导TnsB、TnsC发挥高效的定点转座功能；其中，融合TniQ的dCas9同sgRNA 形成的复合物锚定待插入位点，起到定位作用；TnsB起到特异性识别并切割转座子末端重复序列的功能；TnsC连接定位蛋白与转座酶，发挥桥梁的作用。

该定点基因插入工具在融合TniQ的dcas9蛋白引导下，能特异性地将目的基因插入至原核生物细胞的靶标基因位点(具体为：将转座基因特异性插入至dCas9识别的PAM下游60-80bp的位置)，实现精准的长片段定点基因插入，尤其适用于改造菌株性能(如大肠杆菌)。

优选地，所述表达sgRNA 的DNA的结构为5'-scaffold序列-spacer序列-3'；所述供体DNA的结构为5'-LE序列-目的基因序列-RE序列-3'。如此可进一步优化上述各DNA的结构。

优选地，所述linker的氨基酸序列为SEQ ID NO.6。如此可进一步优化linker的序列。

优选地，所述dCas9蛋白的编码基因序列为SEQ ID NO.1，所述TniQ蛋白的编码基因序列为SEQ ID NO.3，所述linker多肽的编码基因序列选自SEQ ID NO.5、SEQ ID NO.11、SEQ ID NO.13之一；所述TnsB蛋白的编码基因序列为SEQ ID NO.7；所述TnsC蛋白的编码基因序列为SEQ ID NO.9。如此可进一步明确各蛋白、多肽的编码基因序列。

采用以上优选方案，可进一步优化具体细节技术特征，使定点基因插入效果更好。

本发明还提出：

一种定点基因插入方法，其特征是，采用前文所述基于ShCAST系统的定点基因插入工具；

所述定点基因插入方法包括以下步骤：

第一步、针对靶标基因设计表达sgRNA的DNA 中的spacer序列；并确定供体DNA中的目的基因；

第二步、将融合TniQ的dCas9蛋白的编码基因序列、TnsB蛋白的编码基因序列、TnsC蛋白的编码基因序列、表达sgRNA 的DNA、供体DNA 分别构建入质粒；

第三步、将第二步所得质粒共转入E.coli原核表达细胞，利用含有抗生素的培养基的平板进行筛选，将筛选所得菌体进行诱导表达，促使基因发生定点转座，从而将目的基因插入靶标基因位点。

该方法能快速、高效地将供体DNA 上的目的基因定点转座至靶标基因位点。

优选地，第二步中，分别构建含有融合TniQ的dCas9蛋白的编码基因序列的第一质粒，含有TnsB蛋白的编码基因序列和TnsC蛋白的编码基因序列的第二质粒，含有表达sgRNA的DNA和供体DNA的第三质粒。如此可进一步优化具体构建的各个质粒；其中，将表达sgRNA的DNA和供体DNA构建于同一个质粒载体能进一步提高转座效率。

更优选地，第三步中，先将第二质粒、第三质粒以化学转化法共转入E.coli原核表达细胞中，以链霉素、氨苄青霉素双抗性平板进行筛选，次日挑取单克隆，制备CaCl₂化学感受态细胞；再将第一质粒以化学转化法转入该感受态细胞中，以链霉素、氨苄青霉素及卡那霉素三抗性平板进行筛选，之后进行诱导表达。如此可进一步优化将各质粒转入细胞的具体过程。

更优选地，所述第一质粒的载体为pRSF-Duet，所述第二质粒的载体为pCDF-Duet，所述第三质粒的载体为pUC19。如此可进一步优化各质粒载体。

优选地，第三步中，所述E.coli原核表达细胞为E.coli BL21(DE3)；采用IPTG进行诱导表达。如此可进一步优化E.coli原核表达细胞和诱导物。

采用以上优选方案，可进一步优化第二步和第三步中的具体细节技术特征，实现更好的定点基因插入效果。

本发明还提出：

前文所述基于ShCAST系统的定点基因插入工具用于在原核生物细胞中定点插入目的基因的基因编辑应用。

与现有技术相比，本发明基于ShCAST系统的定点基因插入工具能针对原核生物细胞实施定点基因插入，利用融合TniQ的dcas9蛋白能精准地将长片段目的基因定点插入靶标基因位点，可用于改造菌株性能(如大肠杆菌)，如此可进一步扩展ShCAST系统的应用，为后续该系统的开发和各元件的优化奠定基础，同时也丰富了基因编辑工具箱。

附图说明

图1为本发明背景技术中ShCAST系统的机制简图。

图2至图4依次为本发明实施例1中构建所得pRSF-Duet-TniQ-15linker-dCas9、pCDF-Duet-TnsB-TnsC、pUC19-sgRNA-donor DNA质粒图谱。

图5为本发明实施例2中体内转座的流程示意图。

图6为本发明实施例2中靶向大肠杆菌maeB基因位点junction PCR及桑格尔测序结果图。

图7为本发明实施例3中高通量测序确定两种不同长度linker对插入位置影响结果图。

图8为本发明实施例4中不同linker长度对转座效率影响的结果图。

图9、图10分别为本发明实施例4中作为对照的两个质粒图谱。

具体实施方式

下面参照附图并结合实施例对本发明作进一步详细描述。但是本发明不限于所给出的例子。

实施例1

本实施例为构建质粒，这些质粒用于后续制备本发明定点基因插入工具的各组分。

利用PCR分别扩增：融合TniQ的dCas9蛋白的编码基因序列、TnsB蛋白的编码基因序列(SEQ ID NO.7)、TnsC蛋白的编码基因序列(SEQ ID NO.9)、表达sgRNA 的DNA、以及供体DNA。其中，融合TniQ的dCas9蛋白有两种：一种是dCas9的N端经linker与TniQ连接而成的融合蛋白(简称N端融合蛋白)，dCas9的C端经linker与TniQ连接而成的融合蛋白(简称C端融合蛋白)；dCas9的编码基因序列为SEQ ID NO.1，TniQ的编码基因序列为SEQ ID NO.3，linker的编码基因序列为SEQ ID NO.5。

通过同源重组将上述各PCR回收片段连接至相应的载体上获得重组质粒，并使用化学转化法将重组质粒转入E.coli DH5α感受态；再使用质粒提取试剂盒提取质粒经Sanger测序后获得正确的重组质粒。

通过上述方法构建得到pRSF-Duet-TniQ-15linker-dCas9、pCDF-Duet-TnsB-TnsC、pUC19-sgRNA-donor DNA 质粒结构如图2至图4所示。

本实施例中，表达sgRNA的DNA由scaffold序列和spacer序列组成，其结构为5'-scaffold序列-spacer序列-3'；其中，

scaffold序列为：5'-gttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccg agtcggtgctttt-3'，

spacer序列为靶向E.coli BL21(DE3)的maeB基因位点的具体序列如下文所示。

本实施例中，供体DNA由LE序列、目的基因序列、RE序列构成，其结构为5'-LE序列-目的基因序列-RE序列-3'；其中，

LE序列为5'-ttagacatctccacaaaaggcgtagtgtacagtgacaaattatctgtcgtcggtgacagattaatgtcattgtga ctatttaattgtcgtcgtgacccatcagcgttgcttaattaattgatgacaaattaaatgtcatcaatataatatgctctgcaattattatacaaagcaa ttaaaacaagcggataaaaggacttgctttcaacccacccctaagtttaatagttactga-3'，

RE序列为5'-gcgacagtcaatttgtcattatgaaaatacacaaaagctttttcctatcttgcaaagcgacagctaatttgtcaca atcacggacaacgacatctattttgtcactgcaaagaggttatgctaaaactgccaaagcgctataatctatactgtataaggattttactgatgac aataatttgtcacaacgacatataattagtcactgtacacgtagagacgtagcaatgctacctc-3'，

目的基因序列为待插入的安普霉素的抗性基因，具体序列如下文所示。

以上内容涉及的各序列如下：

dCas9蛋白的编码基因序列：SEQ ID NO.1：

gataagaaatactcaataggcttagctatcggcacaaatagcgtcggatgggcggtgatcactgatgaatataaggttccgtctaaaaagttca

aggttctgggaaatacagaccgccacagtatcaaaaaaaatcttataggggctcttttatttgacagtggagagacagcggaagcgactcgtc

tcaaacggacagctcgtagaaggtatacacgtcggaagaatcgtatttgttatctacaggagattttttcaaatgagatggcgaaagtagatgat

agtttctttcatcgacttgaagagtcttttttggtggaagaagacaagaagcatgaacgtcatcctatttttggaaatatagtagatgaagttgcttat

catgagaaatatccaactatctatcatctgcgaaaaaaattggtagattctactgataaagcggatttgcgcttaatctatttggccttagcgcatat

gattaagtttcgtggtcattttttgattgagggagatttaaatcctgataatagtgatgtggacaaactatttatccagttggtacaaacctacaatca

attatttgaagaaaaccctattaacgcaagtggagtagatgctaaagcgattctttctgcacgattgagtaaatcaagacgattagaaaatctcat

tgctcagctccccggtgagaagaaaaatggcttatttgggaatctcattgctttgtcattgggtttgacccctaattttaaatcaaattttgatttggc

agaagatgctaaattacagctttcaaaagatacttacgatgatgatttagataatttattggcgcaaattggagatcaatatgctgatttgtttttggc

agctaagaatttatcagatgctattttactttcagatatcctaagagtaaatactgaaataactaaggctcccctatcagcttcaatgattaaacgct

acgatgaacatcatcaagacttgactcttttaaaagctttagttcgacaacaacttccagaaaagtataaagaaatcttttttgatcaatcaaaaaa

cggatatgcaggttatattgatgggggagctagccaagaagaattttataaatttatcaaaccaattttagaaaaaatggatggtactgaggaatt

attggtgaaactaaatcgtgaagatttgctgcgcaagcaacggacctttgacaacggctctattccccatcaaattcacttgggtgagctgcatg

ctattttgagaagacaagaagacttttatccatttttaaaagacaatcgtgagaagattgaaaaaatcttgacttttcgaattccttattatgttggtcc

attggcgcgtggcaatagtcgttttgcatggatgactcggaagtctgaagaaacaattaccccatggaattttgaagaagttgtcgataaaggtg

cttcagctcaatcatttattgaacgcatgacaaactttgataaaaatcttccaaatgaaaaagtactaccaaaacatagtttgctttatgagtatttta

cggtttataacgaattgacaaaggtcaaatatgttactgaaggaatgcgaaaaccagcatttctttcaggtgaacagaagaaagccattgttgat

ttactcttcaaaacaaatcgaaaagtaaccgttaagcaattaaaagaagattatttcaaaaaaatagaatgttttgatagtgttgaaatttcaggagt

tgaagatagatttaatgcttcattaggtacctaccatgatttgctaaaaattattaaagataaagattttttggataatgaagaaaatgaagatatctt

agaggatattgttttaacattgaccttatttgaagatagggagatgattgaggaaagacttaaaacatatgctcacctctttgatgataaggtgatg

aaacagcttaaacgtcgccgttatactggttggggacgtttgtctcgaaaattgattaatggtattagggataagcaatctggcaaaacaatatta

gattttttgaaatcagatggttttgccaatcgcaattttatgcagctgatccatgatgatagtttgacatttaaagaagacattcaaaaagcacaagt

gtctggacaaggcgatagtttacatgaacatattgcaaatttagctggtagccctgctattaaaaaaggtattttacagactgtaaaagttgttgat

gaattggtcaaagtaatggggcggcataagccagaaaatatcgttattgaaatggcacgtgaaaatcagacaactcaaaagggccagaaaa

attcgcgagagcgtatgaaacgaatcgaagaaggtatcaaagaattaggaagtcagattcttaaagagcatcctgttgaaaatactcaattgca

aaatgaaaagctctatctctattatctccaaaatggaagagacatgtatgtggaccaagaattagatattaatcgtttaagtgattatgatgtcgat

gccattgttccacaaagtttccttaaagacgattcaatagacaataaggtcttaacgcgttctgataaaaatcgtggtaaatcggataacgttcca

agtgaagaagtagtcaaaaagatgaaaaactattggagacaacttctaaacgccaagttaatcactcaacgtaagtttgataatttaacgaaag

ctgaacgtggaggtttgagtgaacttgataaagctggttttatcaaacgccaattggttgaaactcgccaaatcactaagcatgtggcacaaattt

tggatagtcgcatgaatactaaatacgatgaaaatgataaacttattcgagaggttaaagtgattaccttaaaatctaaattagtttctgacttccga

aaagatttccaattctataaagtacgtgagattaacaattaccatcatgcccatgatgcgtatctaaatgccgtcgttggaactgctttgattaaga

aatatccaaaacttgaatcggagtttgtctatggtgattataaagtttatgatgttcgtaaaatgattgctaagtctgagcaagaaataggcaaagc

aaccgcaaaatatttcttttactctaatatcatgaacttcttcaaaacagaaattacacttgcaaatggagagattcgcaaacgccctctaatcgaa

actaatggggaaactggagaaattgtctgggataaagggcgagattttgccacagtgcgcaaagtattgtccatgccccaagtcaatattgtca

agaaaacagaagtacagacaggcggattctccaaggagtcaattttaccaaaaagaaattcggacaagcttattgctcgtaaaaaagactgg

gatccaaaaaaatatggtggttttgatagtccaacggtagcttattcagtcctagtggttgctaaggtggaaaaagggaaatcgaagaagttaa

aatccgttaaagagttactagggatcacaattatggaaagaagttcctttgaaaaaaatccgattgactttttagaagctaaaggatataaggaa

gttaaaaaagacttaatcattaaactacctaaatatagtctttttgagttagaaaacggtcgtaaacggatgctggctagtgccggagaattacaa

aaaggaaatgagctggctctgccaagcaaatatgtgaattttttatatttagctagtcattatgaaaagttgaagggtagtccagaagataacgaa

caaaaacaattgtttgtggagcagcataagcattatttagatgagattattgagcaaatcagtgaattttctaagcgtgttattttagcagatgccaa

tttagataaagttcttagtgcatataacaaacatagagacaaaccaatacgtgaacaagcagaaaatattattcatttatttacgttgacgaatcttg

gagctcccgctgcttttaaatattttgatacaacaattgatcgtaaacgatatacgtctacaaaagaagttttagatgccactcttatccatcaatcc

atcactggtctttatgaaacacgcattgatttgagtcagctaggaggtgac

dCas9蛋白的氨基酸序列：SEQ ID NO.2：

DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEAT

RLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIV

DEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDK

LFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALS

LGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDI

LRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGG

ASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQED

FYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQ

SFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIV

DLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNE

ENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIR

DKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSP

AIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKEL

GSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDD

SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLS

ELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDF

QFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEI

GKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMP

QVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVE

KGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRK

RMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIE

QISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDR

KRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

TniQ蛋白的编码基因序列：SEQ ID NO.3：

atgatagaggcgccggacgtgaagccgtggctgttcctgatcaaaccgtacgagggtgaaagcctgagccacttcctgggccgttttcgtcgtgcgaaccacctgagcgcgagcggtctgggcaccctggcgggtatcggcgcgattgttgcgcgttgggaacgtttccactttaacccgcgtccgagccagcaagagctggaagcgattgcgagcgtggttgaggtggcggcgcaacgtctggcgcaaatgctgccgccggcgggtgttggcatgcaacacgaaccgatccgtctgtgcggtgcgtgctatgcggagagcccgtgccaccgtattgaatggcagtataagagcgtgtggaaatgcgaccgtcaccaactgaagatcctggcgaaatgcccgaactgccaggcgccgttcaagatgccggcgctgtgggaggatggttgctgccaccgttgccgtatgccgtttgcggaaatggcgaagctgcagaaagtt

TniQ蛋白的氨基酸序列：SEQ ID NO.4：

MIEAPDVKPWLFLIKPYEGESLSHFLGRFRRANHLSASGLGTLAGIGAIVARWERFHFNPRPSQQELEAIASVVEVAAQRLAQMLPPAGVGMQHEPIRLCGACYAESPCHRIEWQYKSVWKCDRHQLKILAKCPNCQAPFKMPALWEDGCCHRCRMPFAEMAKLQKV

linker多肽的编码基因序列：SEQ ID NO.5：

ggaggctctggctcgggaggttcaggaagttcaggcggtagatct

linker多肽的氨基酸序列：SEQ ID NO.6：

GGSGSGGSGSSGGRS

N端融合蛋白的编码基因序列(框中为linker序列)：

N端融合蛋白的氨基酸序列(框中为linker序列)：

C端融合蛋白的编码基因序列(框中为linker序列)：

C端融合蛋白的氨基酸序列(框中为linker序列)：

TnsB蛋白的编码基因序列：SEQ ID NO.7：

atgaacagccagcaaaacccggatctggcggtgcacccgctggcgatcccgatggaaggtctgctgggtgaaagcgcgaccaccctgga

aaagaacgttatcgcgacccagctgagcgaggaagcgcaagtgaaactggaagttattcaaagcctgctggagccgtgcgaccgtaccac

ctacggtcagaagctgcgtgaggcggcggaaaaactgaacgtgagcctgcgtaccgtgcagcgtctggttaagaactgggaacaagatgg

tctggttggcctgacccagaccagccgtgcggacaagggtaaacaccgtatcggcgagttctgggaaaactttattaccaagacctataaag

agggtaacaagggcagcaaacgtatgaccccgaagcaggtggcgctgcgtgttgaagcgaaagcgcgtgagctgaaggacagcaaacc

gccgaactacaagaccgtgctgcgtgttctggcgccgatcctggaaaaacagcaaaaggcgaaaagcattcgtagcccgggttggcgtgg

caccaccctgagcgtgaagacccgtgagggtaaagacctgagcgtggattatagcaaccacgtttggcaatgcgaccacacccgtgtggat

gttctgctggttgaccagcacggcgaaatcctgagccgtccgtggctgaccaccgttattgatacctacagccgttgcatcatgggtattaacct

gggttttgatgcgccgagcagcggtgtggttgcgctggcgctgcgtcatgcgatcctgccgaagcgttacggcagcgaatataaactgcact

gcgagtggggcacctacggtaaaccggagcacttctacaccgacggtggcaaagattttcgtagcaaccacctgagccagattggtgcgca

actgggctttgtgtgccacctgcgtgatcgtccgagcgaaggtggcgtggttgagcgtccgttcaagaccctgaacgaccaactgtttagcac

cctgccgggttataccggcagcaacgttcaggagcgtccggaagacgcggagaaagatgcgcgtctgaccctgcgtgagctggaacagct

gctggtgcgttatatcgttgatcgttacaaccaaagcattgatgcgcgtatgggtgaccagacccgtttcgaacgttgggaggcgggtctgcc

gaccgtgccggttccgatcccggagcgtgacctggatatttgcctgatgaagcagagccgtcgtaccgtgcaacgtggtggctgcctgcagt

ttcaaaacctgatgtaccgtggtgaatatctggcgggttacgcgggcgagaccgttaacctgcgtttcgacccgcgtgatatcaccaccattct

ggtgtaccgtcaggaaaacaaccaagaggtttttctgacccgtgcgcatgcgcagggtctggagaccgaacagctggcgctggatgaggc

ggaagcggcgagccgtcgtctgcgtaccgcgggtaaaaccatcagcaaccagagcctgctgcaagaagtggttgaccgtgatgcgctggt

tgcgaccaagaaaagccgtaaggaacgtcagaaactggagcaaaccgtgctgcgtagcgcggcggttgatgaaagcaaccgtgagagcc

tgccgagccagattgtggagccggacgaggttgaatctacagaaacggttcactctcaatacgaagacattgaggtgtgggactatgaacaa

cttcgtgaagaatatgggtttta

TnsB蛋白的氨基酸序列：SEQ ID NO.8：

MNSQQNPDLAVHPLAIPMEGLLGESATTLEKNVIATQLSEEAQVKLEVIQSLLEPCDRTTY

GQKLREAAEKLNVSLRTVQRLVKNWEQDGLVGLTQTSRADKGKHRIGEFWENFITKTYK

EGNKGSKRMTPKQVALRVEAKARELKDSKPPNYKTVLRVLAPILEKQQKAKSIRSPGWR

GTTLSVKTREGKDLSVDYSNHVWQCDHTRVDVLLVDQHGEILSRPWLTTVIDTYSRCIM

GINLGFDAPSSGVVALALRHAILPKRYGSEYKLHCEWGTYGKPEHFYTDGGKDFRSNHLS

QIGAQLGFVCHLRDRPSEGGVVERPFKTLNDQLFSTLPGYTGSNVQERPEDAEKDARLTL

RELEQLLVRYIVDRYNQSIDARMGDQTRFERWEAGLPTVPVPIPERDLDICLMKQSRRTV

QRGGCLQFQNLMYRGEYLAGYAGETVNLRFDPRDITTILVYRQENNQEVFLTRAHAQGL

ETEQLALDEAEAASRRLRTAGKTISNQSLLQEVVDRDALVATKKSRKERQKLEQTVLRSA

AVDESNRESLPSQIVEPDEVESTETVHSQYEDIEVWDYEQLREEYGF

TnsC蛋白的编码基因序列：SEQ ID NO.9：

atgaccgaggcgcaggcgattgcgaagcaactgggtggcgtgaaaccggacgatgagtggctgcaggcggaaattgcgcgtctgaagg

gtaaaagcatcgtgccgctgcagcaagttaaaaccctgcacgactggctggatggcaagcgtaaagcgcgtaagagctgccgtgtggttgg

cgagagccgtaccggcaaaaccgtggcgtgcgatgcgtaccgttatcgtcacaaaccgcagcaagaagcgggtcgtccgccgaccgttcc

ggtggtttacattcgtccgcaccaaaagtgcggcccgaaagacctgttcaagaaaatcaccgagtacctgaagtatcgtgtgaccaaaggca

ccgttagcgactttcgtgatcgtaccattgaagtgctgaaaggttgcggcgttgagatgctgatcattgacgaagcggatcgtctgaagccgg

agaccttcgcggacgtgcgtgatatcgcggaagacctgggtattgcggtggttctggttggcaccgaccgtctggatgcggtgatcaaacgt

gatgagcaggttctggaacgtttccgtgcgcacctgcgttttggcaagctgagcggcgaagactttaaaaacaccgttgagatgtgggaaca

aatggtgctgaagctgccggttagcagcaacctgaagagcaaagagatgctgcgtatcctgaccagcgcgaccgaaggttatatcggccgt

ctggatgagattctgcgtgaagcggcgatccgtagcctgagcagaggattgaagaagattgacaaggctgttttacaggaagtagctaagga

gtacaaa

TnsC蛋白的氨基酸序列：SEQ ID NO.10：

MTEAQAIAKQLGGVKPDDEWLQAEIARLKGKSIVPLQQVKTLHDWLDGKRKARKSCRV

VGESRTGKTVACDAYRYRHKPQQEAGRPPTVPVVYIRPHQKCGPKDLFKKITEYLKYRVT

KGTVSDFRDRTIEVLKGCGVEMLIIDEADRLKPETFADVRDIAEDLGIAVVLVGTDRLDAV

IKRDEQVLERFRAHLRFGKLSGEDFKNTVEMWEQMVLKLPVSSNLKSKEMLRILTSATEG

YIGRLDEILREAAIRSLSRGLKKIDKAVLQEVAKEYK

sgRNA中针对maeB基因的spacer序列：

acgcgcgcctcttccccttc

供体DNA中安普霉素的抗性基因序列：

atgtcatcagcggtggagtgcaatgtcgtgcaatacgaatggcgaaaagccgagctcatcggtcagcttctcaaccttggggttacccccgg

cggtgtgctgctggtccacagctccttccgtagcgtccggcccctcgaagatgggccacttggactgatcgaggccctgcgtgctgcgctgg

gtccgggagggacgctcgtcatgccctcgtggtcaggtctggacgacgagccgttcgatcctgccacgtcgcccgttacaccggaccttgg

agttgtctctgacacattctggcgcctgccaaatgtaaagcgcagcgcccatccatttgcctttgcggcagcggggccacaggcagagcaga

tcatctctgatccattgcccctgccacctcactcgcctgcaagcccggtcgcccgtgtccatgaactcgatgggcaggtacttctcctcggcgt

gggacacgatgccaacacgacgctgcatcttgccgagttgatggcaaaggttccctatggggtgccgagacactgcaccattcttcaggatg

gcaagttggtacgcgtcgattatctcgagaatgaccactgctgtgagcgctttgccttggcggacaggtggctcaaggagaagagccttcag

aaggaaggtccagtcggtcatgcctttgctcggttgatccgctcccgcgacattgtggcgacagccctgggtcaactgggccgagatccgtt

gatcttcctgcatccgccagaggcgggatgcgaagaatgcgatgccgctcgccagtcgattggc

实施例2

本实施例以实施例1为基础。本实施例为在E.coli BL21(DE3)菌株中针对maeB基因位点进行定点基因插入。

(1)体内转座活性实验

将实施例1构建得到的pCDF-Duet-TnsB-TnsC、pUC19-sgRNA-donor DNA两个质粒共转入E.coli BL21(DE3)中，以链霉素、氨苄青霉素双抗性平板进行筛选，次日挑取单克隆，制备CaCl₂化学感受态细胞。将pRSF-Duet-TniQ-15linker-dCas9质粒通过化转(即化学转化法)至上述新制备的感受态细胞中，使用链霉素、氨苄青霉素及卡那霉素三抗性平板进行筛选，并加入IPTG进行诱导表达促使定点转座发生(相关实验流程图如图5所示)。

(2)junction PCR验证定点转座发生

次日用LB液体培养基挑取单克隆二次培养，加入相应抗生素，培养至对数生长期，加入终浓度为0.1mM的IPTG诱导蛋白表达促使转座反应发生。37℃继续培养20小时后，用LB稀释调整OD600为1.0，离心收集菌体并用无菌水重悬洗涤两次，用200μL无菌水重悬。95℃加热10min以裂解菌体释放基因组DNA，离心后取上清用于后续junction PCR，结果如图6所示。Junction PCR引物设计为一条正向引物在靶基因上，另一条反向引物位于供体DNA的LE或RE上，即只有当发生定点转座时，使用引物对maeB-up-1+LE-4才能检测到相应大小的PCR产物。由图6所示的junction PCR结果分析可知，左图中只有在dCas9的N端融合TniQ时才能在maeB-up-1+LE-4引物对的指引下将相应的条带PCR扩增出来，说明只有N端融合才能发挥定点转座的活性。此外，将采用N端融合蛋白的转座产物用maeB-up-2+Q27引物对扩增(产物约为500bp)，并使用maeB-up-2进行Sanger测序，发现在PAM下游约66bp的序列信息与供体DNA上的LE端吻合，这进一步确证转座的发生。

注：本实施例引物对的具体序列见下文的表3。

实施例3

本实施例以实施例2为基础。本实施例采用高通量测序，通过数据分析进一步确定定点转座插入位置集中的范围。

将实施例2中的经抗生素筛选及IPTG诱导的平板菌全部刮下，重悬混匀后以1:100比例(体积比)转接至5mL培养基中，加入相应抗生素，培养至对数生长期，加入终浓度为0.1mM的IPTG诱导蛋白表达促使转座反应发生。37℃继续培养20小时后，用LB稀释调整OD₆₀₀为1.0，离心收集菌体并用无菌水重悬洗涤两次，用200μL无菌水重悬。95℃加热10min以裂解菌体释放基因组DNA，离心后取上清使用引物对maeB-up-1+LE-4扩增，扩增片段小于500bp。

将该片段经核酸电泳分离杂带、切下目的条带并用试剂盒抽提、纯化琼脂糖胶中的核酸，此样送至测序公司(如上海生工生物工程有限公司)进行高通量测序，选择PCR产物测序项目。经两轮扩增在目的条带的两端加上测序接头，构建文库，上机测序，得到近6万条核酸序列，统计每条序列出现的频次。在这些序列中可能存在一些较短的片段，如仅含有F引物(即正向引物)或R引物(即反向引物)附近的序列，即存在一些不同时含有F引物和R引物的核酸序列，需剔除这些序列之后再进行下一步数据分析。对频次排前20的每条序列进行分析，记录每条序列中LE端的第一个碱基位于PAM下游的距离。图7展示了采用两种不同长度的linker(35aa、15aa)时，针对maeB靶点，dCas9的N端融合TniQ引导TnsB/TnsC发挥定点转座插入位置的比较，由该结果分析可知，不同长度的linker对最终插入位置的影响并不大，均集中分布在PAM下游68bp位置。由于dCas9和Cas12k识别的protospacer的差异，可推测出TniQ在整个转座复合物中的位置可能决定了最终插入位置。

注：本实施例引物对的具体序列见下文的表3，不同长度linker序列见下文的表4。

实施例4

本实施例以实施例2为基础。本实施例通过qPCR确定TniQ和dCas9之间的linker长度对转座效率的影响。

采用实施例2经95℃加热10min裂解菌体获得的菌液作为qPCR模板，按表1顺序及组分配制反应体系，混匀加入白色不透明的qPCR专用八联管中，放入QuantStudio 3实时定量PCR仪中，按表2设置循环程序及溶解曲线。每个样品重复三个复孔，用引物对rssA-F+rssA-R、maeB-up-2+Q27分别对内参基因及目的基因进行定量分析。

以sgRNA和供体DNA分别位于两个质粒上且linker长度为5个氨基酸为对照(sgRNA的序列、供体DNA的序列分别与实施例1相同，两个质粒的图谱分别如图9、图10所示)，通过2-ΔΔCt计算其他组相比对照组转座效率的差异。结果如图8所示，比较五种不同长度的linker对转座效率的影响，通过qPCR计算相对效率可知，linker长度为15个氨基酸相对比较合适，有利于定点转座的发生。

表1qPCR反应体系

表2qPCR反应程序设置

各实施例采用引物对的具体引物序列如表3所示：

表3各实施例采用引物对的具体引物序列

引物名称	序列(5'-3')
		maeB-up-1	gcttcagcgtatggcgatcag
LE-4	cttaggggtgggttgaaagcaagtcct
		maeB-up-2	gactcgtccgattgctgatt
Q27	ctgtcaccgacgacagataatttgtcac
		rssA-F	catgcagtattccaggactc
rssA-R	ggagagcaaatcttgttgc

不同长度linker序列如表4所示：

表4不同长度linker的序列

综合以上各实施例，本发明的基因编辑工具以ShCAST系统为基础，能快速、高效地将供体DNA上的基因片段转移至dCas9靶向的位置，实现基因的定点插入，从而进一步扩充了基因插入工具库并为该系统的进一步开发与研究奠定基础。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.一种基于ShCAST系统的定点基因插入工具，其特征是，由融合TniQ的dCas9蛋白、TnsB蛋白、TnsC蛋白、sgRNA、供体DNA构成；所述融合TniQ的dCas9蛋白由dCas9蛋白的N端经linker多肽与TniQ蛋白连接而成，所述dCas9蛋白的氨基酸序列如SEQ ID NO.2所示，所述TniQ蛋白的氨基酸序列如SEQ ID NO.4所示，所述linker多肽的氨基酸序列为SEQ IDNO.6；所述TnsB蛋白的氨基酸序列为SEQ ID NO.8；所述TnsC蛋白的氨基酸序列为SEQ IDNO.10；

表达sgRNA的DNA由scaffold序列和spacer序列组成，且其结构为5'-scaffold序列-spacer序列-3'，其中，scaffold序列为：5'-gttttagagctagaaatagcaagttaaaataaggctagtccgttatcaa cttgaaaaagtggcaccgagtcggtgctttt-3'，spacer序列根据靶标基因设计而成；

所述供体DNA由LE序列、目的基因序列、RE序列构成，且其结构为5'-LE序列-目的基因序列-RE序列-3'，其中，LE序列为：5'-ttagacatctccacaaaaggcgtagtgtacagtgacaa attatctgtcgtcggtgacagattaatgtcattgtgactatttaattgtcgtcgtgacccatcagcgttgcttaattaattgatgacaaattaaatgtca tcaatataatatgctctgcaattattatacaaagcaattaaaacaagcggataaaaggacttgctttcaacccacccctaagtttaatagttactga-3'，RE序列为：5'-gcgacagtcaatttgtcattatgaaaatacacaaaagctttttcctatcttgcaaagcgacagctaatttgtcacaa tcacggacaacgacatctattttgtcactgcaaagaggttatgctaaaactgccaaagcgctataatctatactgtataaggattttactgatgaca ataatttgtcacaacgacatataattagtcactgtacacgtagagacgtagcaatgctacctc-3'，目的基因序列为待插入的基因序列。

2.根据权利要求1所述的一种基于ShCAST系统的定点基因插入工具，其特征是，所述dCas9蛋白的编码基因序列为SEQ ID NO.1，所述TniQ蛋白的编码基因序列为SEQ ID NO.3，所述linker多肽的编码基因序列选自SEQ ID NO.5、SEQ ID NO.11、SEQ ID NO.13之一；所述TnsB蛋白的编码基因序列为SEQ ID NO.7；所述TnsC蛋白的编码基因序列为SEQ IDNO.9。

3.一种定点基因插入方法，其特征是，采用权利要求1或2所述基于ShCAST系统的定点基因插入工具；

所述定点基因插入方法包括以下步骤：

第一步、针对靶标基因设计表达sgRNA的DNA中的spacer序列；并确定供体DNA中的目的基因；

第二步、将融合TniQ的dCas9蛋白的编码基因序列、TnsB蛋白的编码基因序列、TnsC蛋白的编码基因序列、表达sgRNA的DNA、供体DNA分别构建入质粒；

4.根据权利要求3所述的一种定点基因插入方法，其特征是，第二步中，分别构建含有融合TniQ的dCas9蛋白的编码基因序列的第一质粒，含有TnsB蛋白的编码基因序列和TnsC蛋白的编码基因序列的第二质粒，含有表达sgRNA的DNA和供体DNA的第三质粒。

5.根据权利要求4所述的一种定点基因插入方法，其特征是，第三步中，先将第二质粒、第三质粒以化学转化法共转入E.coli原核表达细胞中，以链霉素、氨苄青霉素双抗性平板进行筛选，次日挑取单克隆，制备CaCl₂化学感受态细胞；再将第一质粒以化学转化法转入该感受态细胞中，以链霉素、氨苄青霉素及卡那霉素三抗性平板进行筛选，之后进行诱导表达。

6.根据权利要求4所述的一种定点基因插入方法，其特征是，所述第一质粒的载体为pRSF-Duet，所述第二质粒的载体为pCDF-Duet，所述第三质粒的载体为pUC19。

7.根据权利要求3所述的一种定点基因插入方法，其特征是，第三步中，所述E.coli原核表达细胞为E.coli BL21(DE3)；采用IPTG进行诱导表达。

8.权利要求1或2所述基于ShCAST系统的定点基因插入工具用于在原核生物细胞中定点插入目的基因的基因编辑应用。