CN117106782A

CN117106782A - gRNA及其生物合成方法

Info

Publication number: CN117106782A
Application number: CN202311335106.2A
Authority: CN
Inventors: 洪浩; 詹姆斯·盖吉; 张娜; 焦学成; 庞会宁; 刘芳; 马翠萍; 王召帅; 贾旭; 崔丽心; 朱文轩; 赵晓岚
Original assignee: Asymchem Laboratories Jilin Co Ltd; Tianjin Asymchem Pharmaceutical Co Ltd
Current assignee: Asymchem Laboratories Jilin Co Ltd; Tianjin Asymchem Pharmaceutical Co Ltd
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2023-11-24
Anticipated expiration: 2043-10-16
Also published as: CN117106782B

Abstract

本发明提供了一种gRNA及其生物合成方法，适用于gRNA合成领域。其中，该生物合成方法包括：利用RNA连接酶将不同底物的3'端和5'端连接形成磷酸二酯键，形成gRNA，gRNA包括天然gRNA或非天然gRNA，底物的数量≥2；底物的连接位点位于gRNA的茎环结构互补区域、茎环结构环状区域或茎环结构间的连接区域中的任意一个或多个位置，底物的内部或底物之间能够进行碱基互补配对，形成gRNA的二级结构；RNA连接酶包括RNA连接酶家族1、2或3中任意的一种或多种酶。能够解决现有技术中合成gRNA纯度低的问题。

Description

gRNA及其生物合成方法

技术领域

本发明涉及gRNA合成领域，具体而言，涉及一种gRNA及其生物合成方法。

背景技术

向导RNA（guide RNA, gRNA）是一段非编码的RNA，在20世纪80年代，它在动鞭毛虫纲动质虫目锥体虫中动质体（kinetoplastid trypanosome）的线粒体（mitochondrion)中被发现，在RNA编辑过程中起向导作用。gRNA收到广泛关注源自CRISPR-Cas9基因编辑技术的发现和应用，该技术利用sgRNA (single guide RNA)准确找到DNA上要编辑的位置——PAM（protospacer adjunct motif)位点，进而Cas9（DNA核酸内切酶）找到对应位置，进行剪切，达到编辑（删除，插入，变更）基因的目的。gRNA是一条同时包含crRNA和tracrRNA的长度约67-142nt的单链RNA，crRNA是长约15-25nt的可变序列，通过互补配对的方式特异性识别编辑的目的基因，tracrRNA是一段固定的序列，负责招募Cas9，根据Cas9的种类不同，tracrRNA的序列不同。

目前最常用的Cas9蛋白是酿脓链球菌（Streptococcus pyogenes）来源的SpCas9，其它可用的Cas9蛋白有金黄色葡萄球菌（Staphylococcus aureus）来源的SaCas9，弗朗西斯氏菌属的Francisella novicida来源的FnCas9，空肠弯曲菌（Campylobacter jejuni）来源的CjCas9，白喉杆菌（Corynebacterium diphtheriae）来源的CdCas9，嗜热链球菌（Streptococcus thermophilus）来源的St1Cas9和脑膜炎奈瑟菌（Neisseriameningitidis）来源的NmeCas9。其中SpCas9、SaCas9、FnCas9和CjCas9的常用的gRNA长度约100nt，St1Cas9和CdCas9常用的gRNA长度约115nt，NmeCas9可用的gRNA长度最长约140nt。尽管各Cas9蛋白需要的gRNA的长度不同，但所有的gRNA都具有类似的结构。

对于链长达到100nt左右的gRNA，在现有技术中可以通过体外转录和固相合成的方法合成。但现有的固相合成方法主要通过引物合成实现，合成规模局限在nmol-μmol级别，难以放大至生产规模。且受限于固相合成的特性，链长的增加会导致纯度和产率的下降，会出现偶联效率降低、载体物理稳定性下降、支链杂质增多等诸多问题。而利用体外转录方式制备的gRNA，gRNA产品的末端序列不准确，影响产品质量。

发明内容

本发明的主要目的在于提供一种gRNA及其生物合成方法，以解决现有技术中合成gRNA纯度低的问题。

为了实现上述目的，根据本发明的第一个方面，提供了一种gRNA的生物合成方法，该生物合成方法包括：利用RNA连接酶将不同底物的3'端和5'端连接形成磷酸二酯键，形成gRNA，上述gRNA包括天然gRNA或非天然gRNA，底物的数量≥2；底物的连接位点位于gRNA的茎环结构互补区域、茎环结构环状区域、或茎环结构间的连接区域（linker）中的任意一个或多个位置，底物的内部或底物之间能够进行碱基互补配对，形成gRNA的二级结构；RNA连接酶包括RNA连接酶家族1、2或3中任意的一种或多种酶。

进一步地，RNA连接酶包括：SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQ ID NO：5、SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9、SEQ ID NO：10、SEQ ID NO：11、SEQ ID NO：12、SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：15、SEQ ID NO：16、SEQ ID NO：17、SEQ ID NO：18、SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQ IDNO：22、SEQ ID NO：23或SEQ ID NO：24所示的RNA连接酶中的一种或多种；或与SEQ ID NO：1~ SEQ ID NO：24中任一所示RNA连接酶具有70%以上同一性的酶，优选为70%以上同一性、75%以上同一性、80%以上同一性、90%以上同一性、95%以上同一性、99%以上同一性、99.5%以上同一性、99.9%以上同一性。

进一步地，底物包括2个或更多个。

进一步地，gRNA的长度为67-146 nt。

进一步地，gRNA的长度为91-104或130-146nt。

进一步地，gRNA的序列包括SEQ ID NO：25、SEQ ID NO：26、SEQ ID NO：27、SEQ IDNO：28、SEQ ID NO：41、SEQ ID NO：42或SEQ ID NO：43中任一项所示的核苷酸序列。

进一步地，底物包括SEQ ID NO：29或由15-25个N碱基组成的核苷酸序列；以及SEQID NO：30和SEQ ID NO：31所示的核苷酸序列；或由15-25个N碱基组成的核苷酸序列和SEQID NO：36所示的核苷酸序列连接而成的序列或SEQ ID NO：32所示的核苷酸序列，以及SEQID NO：33所示的核苷酸序列；由15-25个N碱基组成的核苷酸序列位于SEQ ID NO：36的5’方向；或由15-25个N碱基组成的核苷酸序列和SEQ ID NO：47所示的核苷酸序列连接而成的序列或SEQ ID NO：44所示的核苷酸序列，以及SEQ ID NO：45和SEQ ID NO：46所示的核苷酸序列；由15-25个N碱基组成的核苷酸序列位于SEQ ID NO：36的5’方向；或由15-25个N碱基组成的核苷酸序列和SEQ ID NO：50所示的核苷酸序列连接而成的序列或SEQ ID NO：48所示的核苷酸序列，以及SEQ ID NO：49所示的核苷酸序列；由15-25个N碱基组成的核苷酸序列位于SEQ ID NO：50的5’方向。

进一步地，当底物为2个时，生物合成方法包括：将底物和RNA连接酶混合，底物包括第一底物和第二底物，RNA连接酶将第一底物的5'端的磷酸基团和第二底物3'端的羟基连接形成磷酸二酯键，获得gRNA。

进一步地，第二底物的5'端为5'保护基，第一底物的3'端为3'保护基。

进一步地，当底物为3个时，底物包括第一底物、第二底物和第三底物，生物合成方法包括：将第一底物、第二底物和RNA连接酶混合，第一底物的5'端为磷酸基团，第一底物的3'端为3'保护基，第二底物的5'端和3'端为羟基，RNA连接酶将第一底物的5'端的磷酸基团和第二底物3'端的羟基连接形成磷酸二酯键，获得5'端为羟基的中间产物；对中间产物进行5'磷酸化，获得5'磷酸化中间产物；将5'磷酸化中间产物、第三底物和RNA连接酶混合，将5'磷酸化中间产物的5'端的磷酸基团和第三底物3'端的羟基连接形成磷酸二酯键，获得gRNA；其中，第三底物的5'端为5'保护基。

进一步地，重复利用生物合成方法，将4个或更多个底物进行多次连接和5'磷酸化，每次连接的底物的数量为2个，依次连接获得gRNA。

进一步地，利用模板核酸链指导底物的连接；模板核酸链与不同底物均具有至少3个碱基特异性结合，特异性结合在模板核酸链上的底物的碱基相邻并形成缺刻，获得含有缺刻的双链核苷酸结构，缺刻两端相邻的碱基分别为不同底物的5'端和3'端，5'端为5'磷酸根，3'端为羟基；利用RNA连接酶连接缺刻上下游的5'磷酸根和羟基，形成磷酸二酯键，获得双链核苷酸结构；利用DNA酶消化双链核苷酸结构上的模板核酸链，获得gRNA。

进一步地，模板核酸链的序列包括SEQ ID NO：37、SEQ ID NO：39、SEQ ID NO：40或SEQ ID NO：51所示的核苷酸序列中任一条。

进一步地，模板核酸链与不同底物混合后，高温孵育后缓慢冷却退火或恒温孵育，获得含有缺刻的双链核苷酸结构；恒温孵育的温度包括4~37℃，恒温孵育的时间≥10min；高温孵育后缓慢冷却退火包括：95℃孵育2min，0.5~1.2℃/min降温至12℃，12℃孵育10min后降温至4℃。

进一步地，位于gRNA的3'端的底物的3'端为3'保护基，位于gRNA的5'端的底物的5'端为5'保护基。

进一步地，gRNA的二级结构通过底物自身或底物之间的自发发生的碱基互补配对形成。

进一步地，3'保护基包括但不限于N-乙酰半乳糖胺基团、磷酸基团、-O-NH₂、叠氮基、氰乙基、烯丙基或2-硝基苄基等能够阻止磷酸酯键形成的修饰基团；5'保护基包括但不限于羟基、氢或甲基等能够阻止磷酸酯键形成的修饰基团。

进一步地，底物中包括一个或多个非天然核苷酸，非天然核苷酸包括：具有核糖2'位修饰、核糖骨架修饰、碱基修饰或磷酸骨架修饰中的一种或多种的核糖核苷酸；核糖2'位修饰包括2'-甲氧基修饰、2'-氟修饰、2'-氢修饰、2'-甲氧乙基修饰、2'-FANA修饰、锁核酸修饰或己糖醇核酸修饰；核糖骨架修饰包括将核苷酸中的核糖替换为ribuloNA、TNA、tPhoNA、或dXNA；碱基修饰包括脱氮腺嘌呤C7修饰、脱氮鸟苷C7修饰、胞嘧啶C5修饰或尿苷C5修饰；磷酸骨架修饰包括PS修饰。

为了实现上述目的，根据本发明的第二个方面，提供了一种gRNA，该gRNA包括利用上述生物合成方法制备获得的gRNA。

应用本发明的技术方案，利用上述生物合成方法，通过Rnl1、Rnl2或Rnl3家族的RNA连接酶，将2个或2个以上的底物连接，连接的缺刻位置可位于gRNA的茎环结构上，也可位于茎环结构间的连接区域，从而将多条底物连接为一条完整的RNA链，且底物之间能够自行进行碱基互补配对，从而制备获得具有二级结构的gRNA。利用上述生物合成方法，能够以较高的底物浓度进行反应，产量较高，能够满足工业大规模生产的要求。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明实施例1-3的反应示意图；其中A为利用RNA连接酶拼接三条片段的示意图，B为利用RNA连接酶拼接两条片段的示意图；C为利用RNA连接酶在模版DNA链引导下拼接片段的示意图。

图2示出了根据本发明实施例1的SEQ ID NO：26的二级结构示意图。

图3示出了根据本发明实施例1的SEQ ID NO：28的二级结构示意图。

图4示出了根据本发明实施例1的步骤1的凝胶电泳结果图。

图5示出了根据本发明实施例1的步骤1的UPLC结果图。

图6示出了根据本发明实施例1的步骤2的UPLC结果图。

图7示出了根据本发明实施例1的步骤3的凝胶电泳结果图。

图8示出了根据本发明实施例1的步骤3的UPLC结果图。

图9示出了根据本发明实施例2的凝胶电泳结果图。

图10示出了根据本发明实施例2的UPLC结果图。

图11示出了根据本发明实施例3的凝胶电泳结果图。

图12示出了根据本发明实施例3的UPLC结果图。

图13示出了根据本发明实施例4的步骤1的UPLC结果图。

图14示出了根据本发明实施例4的步骤3的UPLC结果图。

图15示出了根据本发明实施例5的UPLC结果图。

图16示出了根据本发明实施例6的UPLC结果图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

如背景技术所提到的，现有技术中合成gRNA的方法纯度较低，生产效率低，产物纯化困难且成本高，难以满足工业大规模生产的要求。在本申请中发明人尝试开发一种gRNA的生物合成方法，因而提出了本申请的一系列保护方案。

在本申请第一种典型的实施方式中，提供了一种gRNA的生物合成方法，该生物合成方法包括：利用RNA连接酶将不同底物的3'端和5'端连接形成磷酸二酯键，形成gRNA，上述gRNA包括天然gRNA或非天然gRNA，底物的数量≥2；底物的连接位点位于gRNA的茎环结构互补区域、茎环结构环状区域或茎环结构间的连接区域中任意一个或多个位置，底物的内部或底物之间能够进行碱基互补配对，形成gRNA的二级结构；RNA连接酶包括：RNA连接酶家族1、2或3中任意的一种或多种酶。

在一种优选的实施例中，RNA连接酶包括：SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQ ID NO：5、SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9、SEQID NO：10、SEQ ID NO：11、SEQ ID NO：12、SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：15、SEQID NO：16、SEQ ID NO：17、SEQ ID NO：18、SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQID NO：22、SEQ ID NO：23或SEQ ID NO：24所示的RNA连接酶中的一种或多种；或与SEQ IDNO：1~ SEQ ID NO：24中任一所示RNA连接酶具有70%以上同一性的酶，优选为70%以上同一性、75%以上同一性、80%以上同一性、90%以上同一性、95%以上同一性、99%以上同一性、99.5%以上同一性、99.9%以上同一性。

利用上述RNA连接酶，能够催化底物的3'羟基与5'磷酸根连接，形成磷酸二酯键，制备获得天然gRNA或非天然gRNA。在本申请中天然gRNA即为由未被修饰的天然核苷酸A、C、G和U组成的gRNA；非天然gRNA为含有非天然核苷酸的gRNA。利用上述RNA连接酶能够对天然核苷酸进行连接，也能够对非天然核苷酸进行连接。上述连接的缺刻可以在gRNA的茎环结构（包括茎环结构互补区域和茎环结构环状区域）和/或茎环结构间的连接区域，上述RNA连接酶均能够发挥连接活性。上述底物相互之间、或底物自身具有能够进行碱基互补配对的序列，在利用RNA连接酶进行连接前、连接时或连接后，均能够自发地发生碱基互补配对，从而产生空间结构，形成具有二级结构的gRNA。

RNA连接酶包括：

连接酶ligase-1，SEQ ID NO：1，Bacteriophage T4，RNA ligase 1（RNA连接酶家族1，Rnl1）：

MQELFNNLMELCKDSQRKFFYSDDVSASGRTYRIFSYNYASYSDWLLPDALECRGIMFEMDGEKPVRIASRPMEKFFNLNENPFTMNIDLNDVDYILTKEDGSLVSTYLDGDEILFKSKGSIKSEQALMANGILMNINHHRLRDRLKELAEDGFTANFEFVAPTNRIVLAYQEMKIILLNVRENETGEYISYDDIYKDATLRPYLVERYEIDSPKWIEEAKNAENIEGYVAVMKDGSHFKIKSDWYVSLHSTKSSLDNPEKLFKTIIDGASDDLKAMYADDEYSYRKIEAFETTYLKYLDRALFLVLDCHNKHCGKDRKTYAMEAQGVAKGAGMDHLFGIIMSLYQGYDSQEKVMCEIEQNFLKNYKKFIPEGY。

连接酶ligase-2，SEQ ID NO：2，Salmonella phage STP4-a，RNA ligase 2（RNA连接酶家族2，Rnl2）：

MFKKYSSLENHYNNKFISKIRFEGKDGGLWVAREKIHGTNFSIIVSKDSVSACKRSGPILPSESFYGHEIILKNYDESIKTIQRCMNANELGSVSSYQIFGEFAGQGIQKEVDYGEKDFYVFDILVNTQNGNVLYMDDMMMTSFCNEFGFKMAPFIGCGSFDELIQLPNNFTSVIKAYNEAAKDDLKEVNLCVFDPLVTDDNVAEGYVLKPVYPDFFNNGTRIAIKSKNSRFTEKKKSDKPIKPKAVLTSNDSTVLANLCEYSTWNRVSNVISHIGEVKAKDFGKVMGLTIQDIFIEAKREGVDIVHADNPDLVKRELQTVVSNTIREKWLEIVS。

连接酶ligase-3，SEQ ID NO：3，Bacteriophage T4，RNA ligase 2：

MFKKYSSLENHYNSKFIEKLYSLGLTGGEWVAREKIHGTNFSLIIERDKVTCAKRTGPILPAEDFFGYEIILKNYADSIKAVQDIMETSAVVSYQVFGEFAGPGIQKNVDYCDKDFYVFDIIVTTESGDVTYVDDYMMESFCNTFKFKMAPLLGRGKFEELIKLPNDLDSVVQDYNFTVDHAGLVDANKCVWNAEAKGEVFTAEGYVLKPCYPSWLRNGNRVAIKCKNSKFSEKKKSDKPIKAKVELSEADNKLVGILACYVTLNRVNNVISKIGEIGPKDFGKVMGLTVQDILEETSREGITLTQADNPSLIKKELVKMVQDVLRPAWIELVS。

连接酶ligase-4，SEQ ID NO：4，Vibrio phage KVP40，RNA ligase 2：

MSFVKYTSLENSYRQAFVDKCDMLGVREWVALEKIHGANFSFIVEFKPNEAQDGAEFTVTPAKRTSTIGANVMGDYDFYGCTSVVEAHTAKMEAISNWLWARGIINVGETIIVYGELAGKGVQKEVNYGDKDFWAYDILLPETGKFLDWDVVLEACEFAKVKTTHEIARGTLDELLRIDPLFRSFHTPADVDGDNVAEGFVVKQLRNEKRLHNGSRAILKVKNDKFKEKKNKAGKTPRAAVVLTEEQEKLHAAFSCYLTENRLRNVLSKLETVTQKQFGMISGLFIKDAKDEFERDELNETAIARDDWDVIKRSLTNIANEILRKNWLDILDGNF。

连接酶ligase-5，SEQ ID NO：5，Pyrococcus abyssi，RNA ligase 3（RNA连接酶家族3，Rnl3）：

MVSSVYKEILVKLGLTEDRIETLEMKGGIIEDEFDGIRYVRFKDSAGKLRRGTVVIDEEYVIPGFPHIKRIINLRSGIRRIFKRGEFYVEEKVDGYNVRVVMYKGKMLGITRGGFICPFTTERIPDFVPQEFFKDNPNLILVGEMAGPESPYLVEGPPYVKEDIQFFLFDVQEIKTGRSLPVEERLKIAEEYGINHVEVFGKYTKDDVDELYQLIERLSKEGREGIIMKSPDMKKIVKYVTPYANINDIKIGARVFYELPPGYFTSRISRLAFYLAEKRIKGEEFERVAKELGSALLQPFVESIFDVEQEEDIHELFKVRVKRIETAYKMVTHFEKLGLKIEIVDIEEIKDGWRITFKRLYPDATNEIRELIGGKAFVD。

连接酶ligase-6，SEQ ID NO：6，Vibrio phage nt-1，RNA ligase 2：

MSFVKYTSLENSYRQAFVDKCDMLGVRDWVALEKIHGANFSFIVEFDGGYTVTPAKRTSIIGATATGDYDFYGCTSVVEAHKEKVELVANFLWLNEYINLYEPIIIYGELAGKGIQKEVNYGDKDFWAFDIFLPQREEFVDWDTCVAAFTNAEIKYTKELARGTLDELLRIDPLFKSLHTPAEHEGDNVAEGFVVKQLHSEKRLQSGSRAILKVKNEKFKEKKKKEGKTPTKLVLTPEQEKLHAEFSCYLTENRLKNVLSKLGTVNQKQFGMISGLFVKDAKDEFERDELNEVAIDRDDWNAIRRSLTNIANEILRKNWLNILDGNF。

连接酶ligase-7，SEQ ID NO：7，Shigella phage Sf22，RNA ligase 1：

MQELFNNLMELCKDSQRKFFYSDDVSASGRTYRIFSYNYASYSDWLLPDALECRGIMFEMDGEKPVRIASRPMEKFFNLNENPFTMNIDLNDVDYILTKEDGSLVSTYLDGDEILFKSKGSIKSEQALMANGILMNINHHQLRDRLKELAEDGFTANFEFVAPTNRIVLAYQEMKIILLNIRENETGEYISYDDIYKDAALRPYLVERFEVDSPKWIEEAKNAENIEGYVAVMKDGSHFKIKSDWYVSLHSTKSSLDNPEKLFKTIIDGASDDLKAMYADDEYSYRKIEAFETTYLKYLDRALFLVLDCHNKHCGKDRKTYAMEAQGVAKGAGMEHLFGIIMSLYQGYDSQEKVMCEIEQNFLKNYKKFIPEGY。

连接酶ligase-8，SEQ ID NO：8，Vibrio phage VH7D，RNA ligase 1：

MNVQELYKNLMSLADDAEGKFFFADHLSPLGEKFRVFSYHIASYSDWLLPGALEARGIMFQLDDNDEMIRIVSRPMEKFFNLNENPFTMELDLTTTVQLMDKADGSLISTYLSGENFALKSKTSIFSEQAVAANRYIKKPENRDLWEFCDDCTQAGLTVNMEWCAPNNRIVLEYPEAKLVILNIRDNETGDYVSFDDIPQSALMRVKQWLVDEYDPATAHEPDFVEKLRDTKGIEGMILRLANGQSVKIKTQWYVDLHSQKDSVNVPKKLVTTILNGNHDDLYALFADDKPTIERIREFDSHVTKTLTNSFNAVRQFYARNRHLARKDYAIAGQKVLKPWEFGVAMIAYQKQTVEGVYESLVTAYLKRPELAIPEKYLNGV。

连接酶ligase-9，SEQ ID NO：9，Escherichia phage dhaeg，RNA ligase 2：

MFKKYSSLENHYNSKFIEKLRTNGLTGGEWVAREKIHGTNFSLIIERDAVTCAKRTGPILPAEDFYGYEIVLKNYADSIKSIQDIMETSAAVSYQVFGEFAGTGIQKNVDYGDKDFYVFDIIVTTESGDVTYVDDYMMESFCKTFKFKMAPLLGRGKFEDLIKLPNDLDSVLPDYNFTVDNVGLAEANAHVWNAEAKGEVFTAEGYVLKPCYPLWLPNGNRVAIKCKNSKFSEKKKTDKPIKVAVVLSQDDLDLLQQFTDYVTVNRINNVISKIGEVSPKDFGKVMGLTVQDILEEAAREELELTDAENPVEVKKQLIECVKDTLRAVWIELVSK。

连接酶ligase-10，SEQ ID NO：10，Klebsiella phage KP27，RNA ligase 2：

MFKKYSSLTNHYEGKFINGVIMNGLTGGVWVAREKIHGANFSFITDDGITVTPAKRTDVVKPAEDFYGCSAVVAKYSPGIRKMWETLKKTGTYDDLVIQVYGEFAGRGVQKDVDYGEKDFYVFDIRVNGEFLPDNLCSLISRSHGLKMAPLLGYGTFEEIKELPITFESVVNKANSGIGSDNTVYGEFVYPIMDVEEGNIAEGFVMKPVSPAFMPNGERVAIKCKTTKFTEKKAKKATRFNAPVSLSEKDKNQLDEFVCYLTENRVKNVLSKLDLASITAKDFGRIMGLTVQDAIEEISRNHGPFLEQFEDPAMAKKLFVTEAQNMIRPVWGKILNHEF。

连接酶ligase-11，SEQ ID NO：11，Vibrio phage V05，RNA ligase 1：

MTTQELYNHLMTLTDDAEGKFFFADHISPLGEKLRVFSYHIASYSDWLLPGALEARGIMFQLDEQDKMVRIVSRPMEKFFNLNENPFTMDLDLTTTVQLMDKADGSLISTYLTGENFALKSKTSIFSEQAVAANRYIKLPENRDLWEFCDDLTQAGCTVNMEWCAPNNRIVLEYPEAKLVILNIRDNETGDYVSFDDIPLPALMRVKKWLVDEYDPETAHADDFVEKLRATKGIEGMILRLANGQSVKIKTQWYVDLHSQKDSVNVPKKLVTTILNNNHDDLYALFADDKPTIDRIREFDSHVSKTVSASFHAVSQFYVKNRHMSRKDYAIAGQKTLKPWEFGVAMIAYQNQTVEGVYEALVGAYLKRPELLIPEKYLNEA。

连接酶ligase-12，SEQ ID NO：12，Escherichia phage AR1，RNA ligase 2：

MFKKYSSLENHYNSKFIEKLYSLGLTGGEWVAREKIHGTNFSLIIERDKVTCAKRTGPILPAEDFFGYEIILKNYADSIKAVQDIMETSAVVSYQVFGEFAGPGIQKNVDYGDKDFYVFDIIVTTESGDMTYVDDYMMESFCNTFKFKMAPLLGRGKFEELIKLPNDLDSVVQDYNFTVDHAGLVDANKCVWNAEAKGEVFTAEGYVLKPCYPSWLPNRNRVAIKCKNSKFSEKKKSDKPIKAKVELSEADNKLVGILACYVTLNRVNNVISKIGEIGPKDFGKVMGLTVQDILEETSREGITLTQADNPSLIKKELVKMVQDVLRPAWIELVS。

连接酶ligase-13，SEQ ID NO：13，Bacteriophage RM378，RNA ligase 1：

MESMNVKYPVEYLIEHLNSFESPEVAVESLRKEGIMCKNRGDLYMFKYHLGCKFDKIYHLACRGAILRKTDSGWKVLSYPFDKFFNWGEELQPEIVNYYQTLRYASPLNEKRKAGFMFKLPMKLVEKLDGTCVVLYYDEGWKIHTLGSIDANGSIVKNGMVTTHMDKTYRELFWETFEKKYPPYLLYHLNSSYCYIFEMVHPDARVVVPYEEPNIILIGVRSVDPEKGYFEVGPSEEAVRIFNESGGKINLKLPAVLSQEQNYTLFRANRLQELFEEVTPLFKSLRDGYEVVYEGFVAVQEIAPRVYYRTKIKHPVYLELHRIKTTITPEKLADLFLENKLDDFVLTPDEQETVMKLKEIYTDMRNQLESSFDTIYKEISEQVSPEENPGEFRKRFALRLMDYHDKSWFFARLDGDEEKMQKSEKKLLTERIEKGLFK。

连接酶ligase-14，SEQ ID NO：14，Citrobacter phage CkP1，RNA ligase 1：

MKKLFKNLMALCDEADESKFFYRDDISPSGLKYRIFSYNYASYSDWIRPDALECRGIMFEMIDDKPVRIASRPMEKFFNLNETPFTMNLDLSKAKYMLDKADGSLVSTFLDGNILKFKSKSSIKSEQSYFSTAMLTESRHEALLARLLDLASDGFTANFEYVSPDNRIVLPYQEKQLILLNIRDNDTGEYVDYEDIFKDGVLRQYLVQRHEITDSNFVEDIRKLTDIEGFVFVMEDGLRFKLKTDWYCALHHTKDSITNNERLFESIVNNASDDLKAMFAGDEFAVNKINKFEENYLKYLGESLHLINTTYHELRGRDRKDYAIESQNRANKSGLGFLFSIIMKMYNGGMDHDTRVKNLSELFMKNYKQFVPKEFI。

连接酶ligase-15，SEQ ID NO：15，Escherichia phage JN02，RNA ligase 1：

MEKLYYNLLSLCKSSSDRKFFYSDDVSPIGKKYRIFSYNFASYSDWLLPDALECRGIMFEMDGETPVRIASRPMEKFFNLNENPFTLSINLDDVKYLMTKEDGSLVSTYLDGGTVRFKSKGSIKSDQAVSATSILLDIDHKNLADRLLELCNDGFTANFEYVAPTNKIVLTYPEKRLILLNIRDNNTGEYIEYDDIYLDPVFRKYLVDRFEVPEGDWTSDVKSSTNIEGYVAVMKDGSHFKLKTDWYVALHTTRDSISSPEKLFLAIVNGASDDLKAMYADDEFSFKKVELFEKAYLDFLDRSFYICLDTYDKHKGKDRKTYAIEAQAVCKGAQTPWLFGIIMNLYQGGSKEQMMTALESVFIKNHKNFIPEGY。

连接酶ligase-16，SEQ ID NO：16，Klebsiella phage KP179，RNA ligase 1：

MLELYKNLMNLCESSEVAKFFYKDFTGPMDGKFRVFSYHYASYSEWLKPDALECRGIMFEMDGDTPIRIASRPMEKFFNLNENPLTMGIDISDVEYIMDKADGSLVSSYVDDGYLYLKSKTSLYSDQARQASALLNSEEYSSLHQVILELTLDGYTVNMEFVSPNNRVVLAYQEPQLFVLNVRNNTTGEYIKYDDLYANAKIRPYLINAYGISDPTTWVEGVRELEGVEGYIAVLNTGQRFKVKTEWYSALHHTKDSITSNERLFASVVSANSDDLRSLFAGDEYAIKKISAFEQAYLDYLGKSLELCQSFYDEYRGRARKDYAIAAQKATVNQRHLFGVIMNMYEGTVDVDKLLKDLERVFLKYWAGYVPKEYEKEIELSEE。

连接酶ligase-17，SEQ ID NO：17，Vibrio phage nt-1，RNA ligase 1：

MNELYNNLMTLAESAEGKFFFADHLSPQGEKFRVFSYHIASYSDWLLPDALEARGIMFQLDENDEMIRIVSRPMEKFFNLGENPFTMDLDLTTTVQLMDKADGSLISTYLTGDNFALKSKTSIYSEQAVAANRYIKHVDNRDLWEFCDDCAAQNFTVNMEWCAPNNRIVLEYTEPKLIILNIRDNETGQYVSFDDIPIGALTRIKKWLVDEYDPMTAHVDDFVETLKAKKGIEGMILRLASGQSVKIKTTWYVDLHAQKDSVNSPKKLVTTILNKNHDDLYALFADDKPTIERIREFDDHVSKKVVESFHAVSQYYTKNRHLSRKDFAIAGQKALKPWEFGVAMIAYQNQTVEGVVTMLINAYLKRPELLIPEKYLSEV。

连接酶ligase-18，SEQ ID NO：18，Vibrio phage VH7D，RNA ligase 2：

MSFVKYTSLENSYRQAFVDKCDMLGVKEWVALEKIHGANFSFIVEFKPSTEEVPGEMSVTPAKRTSTIGANAMGDYDFYGCTSVVEAHIEKMQDISNWLFANDFIKNDETIIVYGELAGKGIQKEVNYGDKDFWAYDILCPETGEFLDWDVVLKACKFAGVKTTHEIARGTLDELLKIDPLFRSFHTPADVDSENVAEGFVVKQLKAEKRLHNGSRAILKVKNEKFKEKKNKQGKTPRAKVVLTEEQEKLHAAFSCYLTENRLRNVLSKIGKVEAKQFGMVSGLFVKDAKDEFERDERDEVAIPRDDWDVIKRSLVNVANEILRKNWLNIVDGTF。

连接酶ligase-19，SEQ ID NO：19，Klebsiella phage KP15，RNA ligase 2：

MFKKYSSLTNHYEGKFINGVIMNGLTGGVWVAREKIHGANFSFITDDGITVTPAKRTDVVKPAEDFYGCSAVVAKYSPGIRKMWETLKKTGTYDDLVIQVYGEFAGRGVQKDVDYGEKDFYVFDIRVNGEFLPDNLCSLISRSHGLKMAPLLGYGTFEEIKELPITFESVVNKANSGIGSDNTVYGEFVYPIMDVEEGNIAEGFVMKPVSPAFMPNGERVAIKCKTTKFTEKKAKKATRFNAPVSLSEKDKNQLDEFVCYLTENRVKNVLSKLDLASITAKDFGRIMGLTVQDAIEEISRNHGPFIEQFEDPAMAKKLFVTEAQNMIRPVWGKILNHEF。

连接酶ligase-20，SEQ ID NO：20，Escherichia phage JN02，RNA ligase 2：

MFKKYSSLENHYNSKFIEKLYTNGLTTGVWVAREKIHGTNFSLIIERDNVTCAKRTGPILPAEDFYGYEIVLKKYDKAIKAVQEVMESISTSVPVSYQVFGEFAGGGIQKGVDYGEKDFYVFDIIINTESDDTYYMSDYEMQDFCNTFGFKMAPMLGRGTFDSLIMIPNDLDSVLAAYNSTASEDLVEANNCVFDANVIGDNTAEGYVLKPCFPKWLSNGTRVAIKCKNSKFSEKKKSDKPVKTQVPLTEIDKNLLDVLACYVTLNRVNNVISKIGTVTPKDFGKVMGLTVQDILEETSREGIVLTSSDNPNLVKKELVRMVQDVLRPAWIELVS。

连接酶ligase-21，SEQ ID NO：21，Escherichia phage JS98，RNA ligase 2：

MFKKYSSLENHYNSKFIEKLRTNGLTGGEWVAREKIHGTNFSLIIERDAVTCAKRTGPILPAEDFYGYEIVLKNYADSIKSVQHLIESINYQSYQIYGELAGPGIQKNVDYGDKDFYVFDIRVTKEDGTESVLTDTLMEAFCIIHKFKVAPCLATGSFEDLIKLPNDFDSVIPDYNFAVDNAGLTIANSTDFIPKVEGKVFTAEGFVLKPDIPTWLPNGNRVAIKCKNSKFSEKKKSDKPIKAAVVLSQDDMDLMWQFTDYVTVNRINNVISKIGEVSKKDFGKVMGLTVQDILEEAAREELELTDAENPVEVKKQLVECVKDTLRAVWIELVS。

连接酶ligase-22，SEQ ID NO：22，Yersinia phage fPS-2，RNA ligase 2：

MFKKYSSLENHYNSKFIEKLYSLGLTGGEWVAREKIHGTNFSLIIERDKVTCAKRTGPILPAEDFFGYEIILKNYADSIKAVQDIMETSAVVSYQVFGEFAGPGIQKNVDYGDKDFYVFDIIVTTESGGVTYVDDYMMESFCNSFGFKIAPLLGRGKFEDLIKLPNDLDSVVQDYNFTVDHAGLVDANKCVWNAEAKGEVFTAEGYVLKPCYPSWLPNRNRVAIKCKNSKFSEKKKSDKPIKAKVELSEADNKLVGILACYVTLNRVNNVISKIGEIGPKDFGKVMGLTVQDILEETSREGITLTQADNPSLIKKELVKMVQDVLRPAWIELVS。

连接酶ligase-23，SEQ ID NO：23，Thermococcus barophilus，RNA ligase 1：

MVSLHFKHILLKLGLDKERIEILEMKGGIVEDEFEGLRYLRFKDSAKGLRRGTVVFNESDIILGFPHIKRVVHLRNGVKRIFKSKPFYVEEKVDGYNVRVAKVGEKILALTRGGFVCPFTTERIGDFINEQFFKDHPNLILCGEMAGPESPYLVEGPPYVEEDIQFFLFDIQEKRTGRSIPVEERIKLAEEYGIQSVEIFGLYSYEKIDELYELIERLSKEGREGVVMKSPDMKKIVKYVTPYANVNDIKIGSRIFFDLPHGYFMQRIKRLAFYIAEKRIRREDFDEYAKALGKALLQPFVESIWDVAAGEMIAEIFTVRVKKIETAYKMVSHFERMGLNIHIDDIEELGNGYWKITFKRVYDDATKEIRELWNGHAFVD。

连接酶ligase-24，SEQ ID NO：24，Vibrio phage ValKK3，RNA ligase 2：

MSFVKYTSLENSYRQAFVDKCDMLGVKEWVALEKIHGANFSFIVEFKPSTEQVPGEMSVTPAKRTSTIGANAMGDYDFYGCTSVVEAHIEKMQDISNWLFANDFIKNDETIIVYGELAGKGIQKEVNYGDKDFWAYDILCPETGEFLDWDVVLKACKFAGVKTTHEIARGTLDELLKIDPLFRSFHTPAAVDSENVAEGFVVKQLKAEKRLHNGSRAILKVKNEKFKEKKNKQGKTPRAKVVLTEEQEKLHAAFSCYLTENRLRNVLSKIGKVEAKQFGMVSGLFVKDAKDEFERDERDEVAIPRDDWDVIKRSLVNVANEILRKNWLNIVDGTF。

本说明书中的同一性（Identity）是指氨基酸序列或核酸序列之间的“同一性”，即氨基酸序列或核酸序列中的种类相同的氨基酸残基或核苷酸的比率的总计。氨基酸序列或核酸序列的同一性可以利用BLAST（Basic Local Alignment Search Tool）、FASTA等比对程序来确定。

70%、75%、80%、85%、90%、95%、99%以上（比如85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、98.5%、99%、99.5%、99.6%、99.7%、99.8%以上，甚至99.9%以上）同一性且具有相同功能的蛋白质，其活性位点、活性口袋、活性机制、蛋白结构等均和上述序列提供的蛋白质大概率相同。

如本文所用，氨基酸残基缩写如下：丙氨酸(Ala；A)、天冬酰胺(Asn；N)、天冬氨酸(Asp；D)、精氨酸(Arg；R)、半胱氨酸(Cys；C)、谷氨酸(Glu；E)、谷氨酰胺(Gln；Q)、甘氨酸(Gly；G)、组氨酸(His；H)、异亮氨酸(Ile；I)、亮氨酸(Leu；L)、赖氨酸(Lys；K)、蛋氨酸(Met；M)、苯丙氨酸(Phe；F)、脯氨酸(Pro；P)，丝氨酸(Ser；S)、苏氨酸(Thr；T)、色氨酸(Trp；W)、酪氨酸(Tyr；Y)和缬氨酸(Val；V)。

一般情况下，根据取代、替换等规则，性质类似的氨基酸之间相互替换后的效果也类似。例如，在上述蛋白中，可发生保守的氨基酸替换。“保守的氨基酸替换”包括但不限于：

疏水性氨基酸（Ala、Cys、Gly、Pro、Met、Val、Ile、Leu）被其他疏水性氨基酸取代；

侧链粗大的疏水性氨基酸（Phe、Tyr、Trp）被其他侧链粗大的疏水性氨基酸取代；

侧链带正电的氨基酸（Arg、His、Lys）被其他侧链带正电的氨基酸取代；

侧链有极性不带电的氨基酸（Ser、Thr、Asn、Gln）被其他侧链有极性不带电的氨基酸取代。

本领域技术人员也可以根据现有技术中的“blosum62评分矩阵”等本领域技术人员熟知的氨基酸替换规则对氨基酸进行保守替换。

在一种优选的实施例中，底物包括2个或更多个；

在一种优选的实施例中，gRNA的长度为67-142 nt。

在一种优选的实施例中，gRNA的长度为91-104或130-146nt。

gRNA的长度为67-142 nt，包括但不限于67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141或142 nt。

gRNA中包括crRNA和tracrRNA，其中，crRNA的长度为17-24 nt，优选为20 nt；tracrRNA的长度为50-121 nt，优选为80nt。

底物数量包括但不限于2个、3个、4个、5个或更多个，利用上述生物合成方法均能制备获得gRNA。

在一种优选的实施例中，gRNA的序列包括SEQ ID NO：25、SEQ ID NO：26、SEQ IDNO：27、SEQ ID NO：28、SEQ ID NO：41、SEQ ID NO：42或SEQ ID NO：43中任一项所示的核苷酸序列。

在本申请实施例中，对于合成的gRNA是来源于Streptococcus pyogenes的、常用的CRISPR-Cas9系统中使用的100nt的序列和来源于Neisseria meningitidis的CRISPR-Cas9系统中使用的142nt的序列。不同来源的CRISPR-Cas9系统的gRNA均具有如图2所示相似的二级结构（Fuchsbauer et al., 2019; Hirano et al., 2016; Hirano et al.,2019; Hsu et al., 2013; Ran et al., 2015; Yamada et al., 2017），利用上述gRNA的生物合成方法，也能够对适用于其他CRISPR-Cas9系统的gRNA进行合成。

在gRNA序列中，包括15-25nt的可变序列，在上述序列中，碱基N各自独立地选自A、U、G或C中的任意一种。可根据基因编辑所需的crRNA进行灵活改变，从而实现对于不同目标片段的靶向编辑。上述gRNA序列上的其他碱基（非N碱基），也可以根据CRISPR和Cas蛋白的偏好进行设计和改变。

在一种优选的实施例中，底物包括SEQ ID NO：29或由15-25个N碱基组成的核苷酸序列；以及SEQ ID NO：30和SEQ ID NO：31所示的核苷酸序列；或由15-25个N碱基组成的核苷酸序列和SEQ ID NO：36所示的核苷酸序列连接而成的序列或SEQ ID NO：32所示的核苷酸序列，以及SEQ ID NO：33所示的核苷酸序列；由15-25个N碱基组成的核苷酸序列位于SEQID NO：36的5’方向；或由15-25个N碱基组成的核苷酸序列和SEQ ID NO：47所示的核苷酸序列连接而成的序列或SEQ ID NO：44所示的核苷酸序列，以及SEQ ID NO：45和SEQ ID NO：46所示的核苷酸序列；由15-25个N碱基组成的核苷酸序列位于SEQ ID NO：36的5’方向；或由15-25个N碱基组成的核苷酸序列和SEQ ID NO：50所示的核苷酸序列连接而成的序列或SEQID NO：48所示的核苷酸序列，以及SEQ ID NO：49所示的核苷酸序列；由15-25个N碱基组成的核苷酸序列位于SEQ ID NO：50的5’方向。

上述底物的序列中的可变序列（碱基N），如上述描述，能够进行灵活改变。

在一种优选的实施例中，当底物为2个时，生物合成方法包括：将底物和RNA连接酶混合，底物包括第一底物和第二底物，RNA连接酶将第一底物的5'端的磷酸基团和第二底物3'端的羟基连接形成磷酸二酯键，获得gRNA。

第一底物和第二底物的长度可灵活改变，包括但不限于5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135或137nt，保证第一底物和第二底物的长度和为67-142 nt即可。

在一种优选的实施例中，第二底物的5'端为5'保护基，第一底物的3'端为3'保护基。

在一种优选的实施例中，当底物为3个时，底物包括第一底物、第二底物和第三底物，生物合成方法包括：将第一底物、第二底物和RNA连接酶混合，第一底物的5'端为磷酸基团，第一底物的3'端为3'保护基，第二底物的5'端和3'端为羟基，RNA连接酶将第一底物的5'端的磷酸基团和第二底物3'端的羟基连接形成磷酸二酯键，获得5'端为羟基的中间产物；对中间产物进行5'磷酸化，获得5'磷酸化中间产物；将5'磷酸化中间产物、第三底物和RNA连接酶混合，将5'磷酸化中间产物的5'端的磷酸基团和第三底物3'端的羟基连接形成磷酸二酯键，获得gRNA；其中，第三底物的5'端为5'保护基。

在一种优选的实施例中，重复利用生物合成方法，将4个或更多个底物进行多次连接和5'磷酸化，每次连接的底物的数量为2个，依次连接获得gRNA。

利用上述方法，通过分段连接，能够将多条底物逐步连接形成gRNA，防止多条底物混成产生各底物之间的无序连接。中间产物的5'端初始为羟基，能够保证在制备该中间产物时，底物不发生自连。在制备获得中间产物后，利用包括但不限于多聚核苷酸激酶对中间产物进行5'磷酸化，从而实现下一步的连接。在5'磷酸化后、RNA连接前，需要对5'磷酸化酶进行失活处理。

在一种优选的实施例中，利用模板核酸链指导底物的连接；模板核酸链与不同底物均具有至少3个碱基特异性结合，特异性结合在模板核酸链上的底物的碱基相邻并形成缺刻，获得含有缺刻的双链核苷酸结构，缺刻两端相邻的碱基分别为不同底物的5'端和3'端，5'端为5'磷酸根，3'端为羟基；利用RNA连接酶连接缺刻上下游的5'磷酸根和羟基，形成磷酸二酯键，获得双链核苷酸结构；利用DNA酶消化双链核苷酸结构上的模板核酸链，获得gRNA。

在一种优选的实施例中，模板核酸链的序列包括SEQ ID NO：37、SEQ ID NO：39、SEQ ID NO：40或SEQ ID NO：51所示的核苷酸序列中任一条；

在一种优选的实施例中，模板核酸链与不同底物混合后，高温孵育后缓慢冷却退火或恒温孵育，获得获得含有缺刻的双链核苷酸结构；恒温孵育的温度包括4~37℃，恒温孵育的时间为10min及以上；高温孵育后缓慢冷却退火包括：95℃孵育2min，1.2℃/min降温至12℃，12℃孵育10min后降温至4℃。

在一种优选的实施例中，位于gRNA的3'端的底物的3'端为3'保护基，位于gRNA的5'端的底物的5'端为5'保护基。

上述模板核酸链为由脱氧核糖核苷酸组成的DNA单链，底物均能与模板核酸链发生碱基互补配对，因此在上述生物合成方法中，利用模板核酸链能够指导底物的正确排列，防止底物之间发生错误连接。利用模板核酸链指导RNA连接，底物首先结合在模板核酸链上，底物与模板核酸链特异性结合后，底物之间产生缺刻，获得带有缺刻的双链核苷酸结构，缺刻的两端分别为不同底物的5'端和3'端，5'端为5'磷酸根，3'端为羟基。利用RNA连接酶能够连接缺刻两端的5'磷酸根和3'羟基形成磷酸二酯键，获得不带有缺刻的双链核苷酸结构。再利用DNA酶对双链核苷酸结构上的模板核酸链进行消化，即能够获得单链的gRNA。单链gRNA内部具有能够碱互补配对的碱基，自发进行互补配对，能够形成二级结构，获得含有二级结构的gRNA。

对于3个、4个乃至更多个底物，考虑到每步的连接效率，多步连接每多一个底物，收率就会降低。但利用模板核酸链指导底物的连接（夹板法），则可以一步反应，收率基本不变。

在一种优选的实施例中，gRNA的二级结构通过底物自身或底物之间的自发发生的碱基互补配对形成。

上述自发发生的碱基互补配对，在常温或4℃可自发形成，高温孵育后缓慢冷却退火则更有利于形成二级结构。

在一种优选的实施例中，3'保护基包括GalNac（N-乙酰半乳糖胺基团）、磷酸基团、-O-NH₂、叠氮基（-C-N=N⁺=N^-，3'-O-azidomethyl）、氰乙基（-C-CN,3'-O-2-cyanoethyl）、烯丙基（-C-C=C，3'-O-allyl）、2-硝基苄基（3'-O-2-nitrobenzyl）等能够阻止磷酸酯键形成的修饰基团；5'保护基包括羟基、氢或甲基等能够阻止磷酸酯键形成的修饰基团。

上述3'保护基不为羟基即可，上述5'保护基不为磷酸基团即可。对于具有3'端羟基的底物，其5'端不为磷酸基团；具有5'端磷酸基团的底物，其3'端不为羟基基团，均为了防止底物自身产生环化自连，从而影响生物合成方法的产率和产物纯度。通过此种方法也能够制备获得含有修饰的非天然RNA。

在一种优选的实施例中，底物中包括一个或多个非天然核苷酸，非天然核苷酸包括：具有核糖2'位修饰、核糖骨架修饰、碱基修饰或磷酸骨架修饰中的一种或多种的核糖核苷酸；核糖2'位修饰包括2'-甲氧基修饰、2'-氟修饰、2'-氢修饰、2'-甲氧乙基修饰、2'-FANA修饰、锁核酸修饰或己糖醇核酸修饰；核糖骨架修饰包括将核苷酸中的核糖替换为ribuloNA、TNA、tPhoNA、或dXNA；碱基修饰包括脱氮腺嘌呤C7修饰、脱氮鸟苷C7修饰、胞嘧啶C5修饰、尿苷C5修饰；磷酸骨架修饰包括PS修饰。

非天然核酸（xeno-nucleic acid，XNA）是一类具有非天然骨架或核酸碱基的核酸分子。非天然核糖核苷酸，即为具有非天然骨架或核酸碱基的核糖核苷酸。上述底物中含有非天然核酸，连接制备的gRNA中即含有非天然核酸，属于非天然RNA（非天然gRNA）。

其中，锁核酸修饰为；己糖醇核酸修饰为/>；

2'-甲氧基乙基修饰为；2'-甲氧基修饰为；2'氟修饰为/>；2'-FANA为/>；ribuloNA为/>；TNA为/>；tPhoNA为/>；dXNA为/>；PS修饰为 />。上述结构中Base均表示碱基。上述对于非天然核苷酸的修饰参见文献：Duffy K , Arangundy-Franklin S ,Holliger P . Modified nucleic acids: replication, evolution, and next-generation therapeutics[J]. BMC Biology, 2020, 18(1):112。在非天然核苷酸中，2’修饰增加了2’的空间位阻如甲氧基，或改变了2’基团性质如氟代，本申请公开的生物合成方法能够连接2’修饰核酸，故利用上述生物合成方法也能够实现对于具有2’羟基的天然核酸的连接，获得天然gRNA。

在本申请第二种典型的实施方式中，提供了一种gRNA，该gRNA包括利用上述生物合成方法制备获得的gRNA。

下面将结合具体的实施例来进一步详细解释本申请的有益效果。实施例1、2和3的反应示意图如图1所示。

实施例1

ssRNA连接酶连接三段单链RNA形成100nt的gRNA，反应示意图如图1中A所示。

gRNA的序列包括但不限于SEQ ID NO：25、SEQ ID NO：26或SEQ ID NO：27所示的序列，在gRNA序列中，包括15-25nt的可变序列，即位于gRNA 5’端N的数量可以任选为15-25中的任意整数，包括15、16、17、18、19、20、21、22、23、24或25。

SEQ ID NO：25：

NNNNNNNNNNNNNNNGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC；

SEQ ID NO：26：

NNNNNNNNNNNNNNNNNNNNGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC；或

SEQ ID NO：27：

NNNNNNNNNNNNNNNNNNNNNNNNNGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC。

其中碱基N为可根据CRISPR目标片段进行灵活设计的碱基，可各自灵活选择为A、U、G或C。

本实施例中目标合成序列1：SEQ ID NO：28：

GACUGAUAUACACAGGCCGAUGUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC。

上述SEQ ID NO：28所示序列中所有核糖核苷酸的2'位均为甲氧基修饰。

SEQ ID NO：26的二级结构如图2所示，SEQ ID NO：28的二级结构如图3所示。

图2和图3中的3个steam loop即为gRNA的茎环结构，茎环结构中包括碱基互补配对形成的茎环结构互补区域和成环的茎环结构环状区域；20nt和24nt的guide即为碱基N组成的可变区域。

步骤1：将底物g2和g3片段利用RNA连接酶进行连接。

利用RNA连接酶进行连接反应，反应体系为50 mM Tris-HCl(pH7.5)、10 mMMgCl₂、1 mM DTT、100 μM g2、100 μM g3、200 μM ATP、0.2 mg/mL RNA连接酶，反应温度为37℃，反应时间为16 h，反应结束后通过80℃孵育5 min终止反应，获得中间产物g2g3。

利用尿素变性聚丙烯酰胺凝胶电泳对反应体系进行检测，凝胶电泳检测结果如图4所示，blank为未加RNA连接酶的阴性对照组，与blank相比，RNA连接酶ligase-1，ligase-2，ligase-3，ligase-4，ligase-5，ligase-6，ligase-7，ligase-8，ligase-9，ligase-10，ligase-11，ligase-12，ligase-13，ligase-14，ligase-15，ligase-16，ligase-17，ligase-18，ligase-19，ligase-20，ligase-21的反应体系在RNA Marker的50nt和80nt之间检测到新的RNA条带，液质联用分析检测新条带的分子量和g2和g3连接产物理论分子量一致。

利用液相色谱（UPLC）对反应体系进行检测，结果如图5所示，UPLC检测RNA连接酶催化活性如下表（表1）：

表1

。

注：“++”表示20-40%的产物体系纯度,“+++”表示40-60%（不包括端点值40%）的产物体系纯度，“++++”表示60-80%（不包括端点值60%）的产物体系纯度，“+++++”表示80-100%（不包括端点值80%）的产物体系纯度。在本申请中，“产物体系纯度”表示在反应体系中，目标产物与反应体系中总成分（目标产物+剩余底物）的比值，可通过液相色谱结果中不同成分的曲线下面积进行计算。

在高底物浓度条件下进行g2+g3的连接反应，底物浓度为500或700 μM。UPLC分析RNA连接酶催化活性如表2所示。

表2

。

表2中，底物浓度100 μM的反应体系为：50 mM Tris-HCl(pH7.5)、10 mM MgCl₂、1mM DTT、100 μM g2、100 μM g3、200 μM ATP、0.2 mg/mL RNA连接酶，反应温度为37℃，反应时间为16 h，反应结束后通过80℃孵育5 min终止反应；

底物浓度500 μM的反应体系为：50 mM Tris-HCl(pH7.5)、10 mM MgCl₂、1 mMDTT、500 μM g2、500 μM g3、1000 μM ATP、0.2 mg/mL RNA连接酶，反应温度为37℃，反应时间为16 h，反应结束后通过80℃孵育5 min终止反应；

底物浓度700 μM的反应体系为：50 mM Tris-HCl(pH7.5)、10 mM MgCl₂、1 mMDTT、700 μM g2、700 μM g3、1400 μM ATP、0.2 mg/mL RNA连接酶，反应温度为37℃，反应时间为16 h，反应结束后通过80℃孵育5 min终止反应。

步骤2：将76nt中间产物g2g3进行5'磷酸化。

利用T4 Polynucleotide Kinase (T4 PNK，T4多聚核苷酸激酶，Vazyme, N102-01)进行寡核苷酸5'磷酸化，在步骤1体系中，加入终浓度0.25 U/μL T4 PNK、1mM ATP以及对应体积的10X T4 PNK Buffer，37℃反应3 h以上，纯化后制备获得P-g2g3（5'端磷酸化的g2g3）。

UPLC分析磷酸化产物，UPLC结果如图6所示，其中T4 PNK为步骤2制备获得的样品，control为未加入T4 PNK的阴性对照组样品。加入T4 PNK的体系g2g3产物峰消失，且在其右边出现新峰，液质联用鉴定该新峰分子量与P-g2g3的理论分子量相同。

步骤3：将g1和P-g2g3片段利用RNA连接酶进行连接。

配制反应体系为50 mM Tris-HCl(pH7.5)、10 mM MgCl₂、1 mM DTT、20 μM g1、20μM P-g2g3、40 μM ATP、0.2 mg/mL RNA连接酶，反应温度为37℃，反应时间为16 h，反应结束后通过80℃孵育5 min终止反应，获得产品gRNA。

利用尿素变性聚丙烯酰胺凝胶电泳对部分反应体系进行检测，凝胶电泳检测结果如图7所示，在RNA Marker的80nt和150nt之间检测到新的RNA条带，液质联用分析检测新条带的分子量和g1与P-g2g3连接产物gRNA的理论分子量一致。

利用液相色谱（UPLC）对反应体系进行检测，结果如图8所示，UPLC检测RNA连接酶催化活性如下表（表3）：

表3

。

注：“+”表示0-5%（不包括端点值0%）的产物体系纯度，“++”表示5-10%（不包括端点值5%）的产物体系纯度,“+++”表示10-15%（不包括端点值10%）的产物体系纯度，“++++”表示15-20%（不包括端点值15%）的产物体系纯度。在本申请中，“产物体系纯度”表示在反应体系中，目标产物与反应体系中总成分（目标产物+剩余底物）的比值，可通过液相色谱结果中不同成分的曲线下面积进行计算。

g1、g2和g3序列如表4所示。

表4

。

其中，A、C、G或U后的m表示对于该核糖核苷酸的2'甲氧基修饰，g1中含有24个可根据CRISPR目标片段进行设计的碱基，相对应的底物序列包括由24个（可选为15-25个）碱基组成的可变序列。

实施例2

RNA连接酶连接两段50nt的单链RNA形成100nt的gRNA，反应示意图如图1中B所示。

本实施例中目标合成序列1：SEQ ID NO：28：

上述序列所有核糖核苷酸的2'均为甲氧基修饰。

利用RNA连接酶进行g4和g5连接反应，反应体系为50 mM Tris-HCl(pH7.5)、10 mMMgCl₂、1 mM DTT、100 μM g4、100 μM g5、200 μM ATP、0.2 mg/mL RNA连接酶，反应温度为37℃，反应时间为16 h，反应结束后通过80℃孵育5 min终止反应，获得gRNA产物。

利用尿素变性聚丙烯酰胺凝胶电泳对反应体系进行检测，凝胶电泳检测结果如图9所示，blank为未加RNA连接酶的阴性对照组，与blank相比，RNA连接酶ligase-1，ligase-2，ligase-3，ligase-4，ligase-7，ligase-8，ligase-9，ligase-10，ligase-11，ligase-13，ligase-14，ligase-15，ligase-16，ligase-17，ligase-18，ligase-19，ligase-20，ligase-21，ligase-22，ligase-23，ligase-24的反应体系在RNA Marker的80nt和150nt之间检测到新的RNA条带，液质联用分析检测新条带的分子量和gRNA产物理论分子量一致。

利用液相色谱（UPLC）对反应体系进行检测，结果如图10所示，UPLC检测RNA连接酶催化活性如下表（表5）：

表5

。

注：“+”表示0-10%（不包括端点值0%）的产物体系纯度，“++”表示10-20%（不包括端点值10%）的产物体系纯度,“+++”表示20-30%（不包括端点值20%）的产物体系纯度，“++++”表示30-40%（不包括端点值30%）的产物体系纯度，“+++++”表示40-50%（不包括端点值40%）的产物体系纯度。在本申请中，“产物体系纯度”表示在反应体系中，目标产物与反应体系中总成分（目标产物+剩余底物）的比值，可通过液相色谱结果中不同成分的曲线下面积进行计算。

g4和g5序列如表6所示。

表6

。

其中，A、C、G或U后的m表示对于该核糖核苷酸的2'甲氧基修饰，g4中含有24个可根据CRISPR目标片段进行设计的碱基，相对应的底物序列包括含有15-25nt的可变序列N的序列，位于底物序列 5’端N的数量可以任选为15-25中的任意整数，包括15、16、17、18、19、20、21、22、23、24或25，包括但不限于SEQ ID NO 34或SEQ ID NO 35所示的序列；即g4为由15-25nt的可变序列和SEQ ID NO：36所示序列连接而成的序列，可变序列位于SEQ ID NO：36的5’方向。

NNNNNNNNNNNNNNNGUUUUAGAGCUAGAAAUAGCAAGUUA（SEQ ID NO：34），

NNNNNNNNNNNNNNNNNNNNNNNNNGUUUUAGAGCUAGAAAUAGCAAGUUA（SEQ ID NO：35）。

5’-GUUUUAGAGCUAGAAAUAGCAAGUUA-3’（SEQ ID NO：36）。

在高底物浓度条件下进行g4+g5的连接反应，UPLC分析RNA连接酶催化活性如表7所示。

表7

。

表7中，底物浓度100 μM的反应体系为：50 mM Tris-HCl(pH7.5)、10 mM MgCl₂、1mM DTT、100 μM g4、100 μM g5、200 μM ATP、0.2 mg/mL RNA连接酶，反应温度为37℃，反应时间为16 h，反应结束后通过80℃孵育5 min终止反应；

底物浓度300 μM的反应体系为：50 mM Tris-HCl(pH7.5)、10 mM MgCl₂、1 mMDTT、300 μM g4、300 μM g5、600 μM ATP、0.2 mg/mL RNA连接酶，反应温度为37℃，反应时间为16 h，反应结束后通过80℃孵育5 min终止反应。

实施例3

RNA连接酶在模板DNA引导下连接三段单链RNA形成100nt的gRNA，反应示意图如图1中C所示。

本实施例中目标合成序列1：SEQ ID NO：28：

上述序列所有核糖核苷酸的2'均为甲氧基修饰。

利用RNA连接酶进行连接反应，将g1、P-g2（5'磷酸化的g2）和g3片段在有g-D（模板核酸链）的引导下进行连接，反应体系为50 mM Tris-HCl(pH7.5)、10 mM MgCl₂、1 mM DTT、60 μM g1、60 μM P-g2、60 μM g3、60 μM g-D、180 μM ATP、0.2 mg/mL RNA连接酶，反应温度为16℃，反应时间为16 h，反应结束后通过80℃孵育5 min终止反应，加入终浓度0.1 U/μL DNase I，37℃消化4 h，去除g-D夹板。

利用尿素变性聚丙烯酰胺凝胶电泳对反应体系进行检测，凝胶电泳检测结果如图11所示，blank为未加RNA连接酶的阴性对照组，g-D为仅加入模版核酸链的对照组，与blank相比，RNA连接酶ligase-1，ligase-2，ligase-3，ligase-4，ligase-6，ligase-7，ligase-9，ligase-10，ligase-11，ligase-12，ligase-13，ligase-14，ligase-15，ligase-16，ligase-17，ligase-18，ligase-19，ligase-20，ligase-21，ligase-22，ligase-24的反应体系在RNAMarker的80nt和150nt之间检测到新的RNA条带，液质联用分析检测新条带的分子量和gRNA产物理论分子量一致。

利用液相色谱（UPLC）对反应体系进行检测，结果如图12所示，UPLC检测RNA连接酶催化活性如下表（表8）：

表8

。

注：“+”表示0-20%（不包括端点值0%）的产物体系纯度，“++”表示20-40%（不包括端点值20%）的产物体系纯度,“+++”表示40-60%（不包括端点值40%）的产物体系纯度，“++++”表示60-80%（不包括端点值60%）的产物体系纯度，“+++++”表示80-100%（不包括端点值80%）的产物体系纯度。在本申请中，“产物体系纯度”表示在反应体系中，目标产物与反应体系中总成分（目标产物+剩余底物）的比值，可通过液相色谱结果中不同成分的曲线下面积进行计算。

g-D和P-g2序列如表9所示。

表9

。

其中，A、C、G或U后的m表示对于该核糖核苷酸的2'甲氧基修饰，A、C、G或T前的d表示核苷酸为脱氧核糖核苷酸（DNA），g-D中含有12个可根据CRISPR目标片段进行设计的碱基，基于碱基互补配对原则，相对应的模板核酸链中包括3-25nt的可变序列，模板核酸链从5'端至3'端包括：a）能够与底物g3的5'端互补配对的序列；b）能够与底物P-g2互补配对的序列；c）能够与底物g1的3'端互补配对的序列。模板核酸链中，包括3-25nt的可变序列，即位于模板核酸链 3’端N的数量可以任选为3-25中的任意整数，包括3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25，包括但不限于SEQ ID NO：39或SEQ IDNO：40所示的序列；

TGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAACNNN（SEQ ID NO：39），

TGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAACNNNNNNNNNNNNNNNNNNNNNNNNN（SEQ ID NO：40）。

实施例4

ssRNA连接酶连接三段单链RNA形成142nt的gRNA，反应示意图如图1中A所示。

本实施例中目标合成序列2：SEQ ID NO：41：

UGAUAUACACAGGCCGAUGUGGUUGUAGCUCCCUUUCUCAUUUCGGAAACGAAAUGAGAACCGUUGCUACAAUAAGGCCGUCUGAAAAGAUGUGCCGCAACGCUCUGCCCCUUAAAGCCUCUGCUUUAAGGGGCAUCGUUUC。

上述SEQ ID NO：41所示序列中所有核糖核苷酸的2'均为甲氧基修饰。

上述SEQ ID NO：41所示序列的5’端含有21nt的可根据CRISPR目标片段进行设计的可变序列，此种可变序列的长度为15-25 nt，即位于gRNA 5’端N的数量可以任选为15-25中的任意整数，包括15、16、17、18、19、20、21、22、23、24或25。包括但不限于SEQ ID NO：42或SEQ ID NO：43所示的序列。

SEQ ID NO：42：

NNNNNNNNNNNNNNNGUUGUAGCUCCCUUUCUCAUUUCGGAAACGAAAUGAGAACCGUUGCUACAAUAAGGCCGUCUGAAAAGAUGUGCCGCAACGCUCUGCCCCUUAAAGCCUCUGCUUUAAGGGGCAUCGUUUC；

SEQ ID NO：43：

NNNNNNNNNNNNNNNNNNNNNNNNNGUUGUAGCUCCCUUUCUCAUUUCGGAAACGAAAUGAGAACCGUUGCUACAAUAAGGCCGUCUGAAAAGAUGUGCCGCAACGCUCUGCCCCUUAAAGCCUCUGCUUUAAGGGGCAUCGUUUC。

步骤1：将底物Ng2和Ng3片段利用RNA连接酶进行连接。

利用RNA连接酶进行连接反应，反应体系为50 mM Tris-HCl(pH7.5)、10 mMMgCl₂、1 mM DTT、50 μM Ng2、50 μM Ng3、200 μM ATP、0.2 mg/mL RNA连接酶，反应温度为37℃，反应时间为16 h，反应结束后通过80℃孵育5 min终止反应，获得中间产物Ng2Ng3。

利用液相色谱（UPLC）分析，结果如图13所示，RNA连接酶ligase-1，ligase-2，ligase-3，ligase-4，ligase-5，ligase-6，ligase-7，ligase-8，ligase-9，ligase-10，ligase-11，ligase-12，ligase-13，ligase-14，ligase-15，ligase-16，ligase-17，ligase-18，ligase-19，ligase-20，ligase-21的反应体系中检测到新峰生成，质谱鉴定该峰分子量与Ng2和Ng3连接产物理论分子量一致。

步骤2：将84nt 中间产物Ng2Ng3进行5'磷酸化。

利用实施例1中步骤2的方法对Ng2Ng3进行5’端磷酸化，纯化后制备获得P-Ng2Ng3（5'端磷酸化的Ng2Ng3），经质谱鉴定，磷酸化产物分子量正确。

步骤3：将Ng1和P-Ng2Ng3片段利用RNA连接酶进行连接。

配制反应体系为50 mM Tris-HCl(pH7.5)、10 mM MgCl₂、1 mM DTT、20 μM Ng1、20μM P-Ng2Ng3、40 μM ATP、0.2 mg/mL RNA连接酶，反应温度为37℃，反应时间为16 h，反应结束后通过80℃孵育5 min终止反应，获得产品gRNA。

利用液相色谱（UPLC）分析，结果如图14所示，RNA连接酶ligase-1，ligase-2，ligase-3，ligase-4，ligase-5，ligase-6，ligase-7，ligase-8，ligase-9，ligase-10，ligase-11，ligase-12，ligase-13，ligase-14，ligase-15，ligase-16，ligase-17，ligase-18，ligase-19，ligase-20，ligase-21的反应体系中检测到新峰生成，质谱鉴定该峰分子量与Ng1和P-Ng2Ng3连接的产物gRNA(142nt)理论分子量一致。

Ng1、Ng2和Ng3序列如表10所示。

表10

。

其中，A、C、G或U后的m表示对于该核糖核苷酸的2'甲氧基修饰，Ng1的5’端含有21个可根据CRISPR目标片段进行设计的碱基（N），相对应的底物序列包括由21个（可选为15-25个）碱基组成的可变序列。即Ng1包括由15-25nt的可变序列和SEQ ID NO：47所示序列连接而成的序列，可变序列位于SEQ ID NO：47的5’方向。

SEQ ID NO：47：GUUGUAGCUCCCUUUCUC。

实施例5

RNA连接酶连接两段71nt的单链RNA形成142nt的gRNA，反应示意图如图1中B所示。

本实施例中目标合成序列2：SEQ ID NO：41：

利用下述RNA连接酶进行Ng4和Ng5连接反应，反应体系为50 mM Tris-HCl(pH7.5)、10 mM MgCl₂、1 mM DTT、50 μM Ng4、50 μM Ng5、200 μM ATP、0.2 mg/mL RNA连接酶，反应温度为37℃，反应时间为16 h，反应结束后通过80℃孵育5 min终止反应，获得gRNA产物。

利用液相色谱（UPLC）分析，结果如图15所示，RNA连接酶ligase-1，ligase-2，ligase-3，ligase-4，ligase-7，ligase-8，ligase-9，ligase-10，ligase-11，ligase-13，ligase-14，ligase-15，ligase-16，ligase-17，ligase-18，ligase-19，ligase-20，ligase-21，ligase-22，ligase-23，ligase-24的反应体系中检测到新峰生成，质谱鉴定该峰分子量与Ng4和Ng5连接的产物gRNA(142nt)理论分子量一致。

Ng4和Ng5序列如表11所示。

表11

。

其中，A、C、G或U后的m表示对于该核糖核苷酸的2'甲氧基修饰，Ng4中含有21个可根据CRISPR目标片段进行设计的碱基，相对应的底物序列包括由21个（可选为15-25个）碱基组成的可变序列。即Ng4包括由15-25nt的可变序列和SEQ ID NO：50所示序列连接而成的序列，可变序列位于SEQ ID NO：50的5’方向。

SEQ ID NO：50：

GUUGUAGCUCCCUUUCUCAUUUCGGAAACGAAAUGAGAACCGUUGCUACA。

实施例6

RNA连接酶在模板DNA引导下连接三段单链RNA形成142nt的gRNA，反应示意图如图1中C所示。

本实施例中目标合成序列2：SEQ ID NO：41：

利用RNA连接酶进行连接反应，将Ng1、P-Ng2（5'磷酸化的g2）和Ng3片段在有Ng-D（模板核酸链）的引导下进行连接，反应体系为50 mM Tris-HCl(pH7.5)、10 mM MgCl₂、1 mMDTT、60 μM Ng1、60 μM P-Ng2、60 μM Ng3、60 μM Ng-D、180 μM ATP、0.2 mg/mL RNA连接酶，反应温度为16℃，反应时间为16 h，反应结束后通过80℃孵育5 min终止反应。

利用液相色谱（UPLC）分析，结果如图16所示，RNA连接酶ligase-1，ligase-2，ligase-3，ligase-4，ligase-6，ligase-7，ligase-9，ligase-10，ligase-11，ligase-12，ligase-13，ligase-14，ligase-15，ligase-16，ligase-17，ligase-18，ligase-19，ligase-20，ligase-21，ligase-22，ligase-24的反应体系中检测到新峰生成，质谱鉴定该峰分子量与Ng1、P-Ng2和Ng3连接的产物gRNA(142nt)理论分子量一致。

Ng-D和P-Ng2序列如表12所示。

表12

。

其中，A、C、G或U后的m表示对于该核糖核苷酸的2'甲氧基修饰，A、C、G或T前的d表示核苷酸为脱氧核糖核苷酸（DNA），模板核酸链Ng-D从5'端至3'端包括：a）能够与底物Ng3的5'端互补配对的序列；b）能够与底物P-Ng2互补配对的序列；c）能够与底物Ng1的3'端互补配对的序列。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：利用上述生物合成方法，通过Rnl1、Rnl2等家族的RNA连接酶，能够将2个或2个以上的底物，借助或不借助模板核酸链的辅助，实现底物之间的连接，连接的缺刻位置可位于gRNA的茎环结构上，也可位于茎环结构间的连接区域，从而将多条底物连接为一条完整的RNA链，且底物之间能够自行进行碱基互补配对，从而制备获得具有二级结构的gRNA。相较于现有技术中的固相合成方法，本发明公开的生物合成方法不需要固体载体，产物纯度相对较高，产物与杂质链长区别大，易纯化，无支链杂质。相较于现有技术中的体外转录方法，本发明公开的生物合成方法制备的产物纯度相对较高，易于纯化，具有明确的5'和3'端。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种gRNA的生物合成方法，其特征在于，所述生物合成方法包括：

利用RNA连接酶将不同底物的3'端和5'端连接形成磷酸二酯键，形成所述gRNA，所述gRNA包括天然gRNA或非天然gRNA；

所述底物的连接位点位于所述gRNA的茎环结构互补区域、茎环结构环状区域或茎环结构间的连接区域中的任意一个或多个位置，

所述底物的内部或所述底物之间能够进行碱基互补配对，形成所述gRNA的二级结构；

所述RNA连接酶包括RNA连接酶家族1、2和3中任意的一种或多种酶。

2.根据权利要求1所述的生物合成方法，其特征在于，所述RNA连接酶包括：

SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQ ID NO：5、SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9、SEQ ID NO：10、SEQ ID NO：11、SEQ ID NO：12、SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：15、SEQ ID NO：16、SEQ ID NO：17、SEQ ID NO：18、SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQ ID NO：22、SEQ ID NO：23或SEQ IDNO：24所示的RNA连接酶中的一种或多种；或

与SEQ ID NO：1~ SEQ ID NO：24中任一所示RNA连接酶具有70%以上同一性的酶。

3.根据权利要求1所述的生物合成方法，其特征在于，所述底物包括2个或更多个。

4.根据权利要求1所述的生物合成方法，其特征在于，所述gRNA的长度为67-146 nt。

5.根据权利要求1所述的生物合成方法，其特征在于，所述gRNA的序列包括 SEQ IDNO：25、SEQ ID NO：26、SEQ ID NO：27、SEQ ID NO：28、SEQ ID NO：41、SEQ ID NO：42或SEQID NO：43中任一项所示的核苷酸序列。

6.根据权利要求5所述的生物合成方法，其特征在于，所述底物包括

SEQ ID NO：29或由15-25个N碱基组成的核苷酸序列；以及SEQ ID NO：30和SEQ ID NO：31所示的核苷酸序列；或

由15-25个N碱基组成的核苷酸序列和SEQ ID NO：36所示的核苷酸序列连接而成的序列或SEQ ID NO：32所示的核苷酸序列，以及SEQ ID NO：33所示的核苷酸序列；所述由15-25个N碱基组成的核苷酸序列位于SEQ ID NO：36的5’方向；或

由15-25个N碱基组成的核苷酸序列和SEQ ID NO：47所示的核苷酸序列连接而成的序列或SEQ ID NO：44所示的核苷酸序列，以及SEQ ID NO：45和SEQ ID NO：46所示的核苷酸序列；所述由15-25个N碱基组成的核苷酸序列位于SEQ ID NO：36的5’方向；或

由15-25个N碱基组成的核苷酸序列和SEQ ID NO：50所示的核苷酸序列连接而成的序列或SEQ ID NO：48所示的核苷酸序列，以及SEQ ID NO：49所示的核苷酸序列；所述由15-25个N碱基组成的核苷酸序列位于SEQ ID NO：50的5’方向。

7.根据权利要求3所述的生物合成方法，其特征在于，当所述底物为2个时，所述生物合成方法包括：

将所述底物和所述RNA连接酶混合，所述底物包括第一底物和第二底物，所述RNA连接酶将所述第一底物的5'端的磷酸基团和所述第二底物3'端的羟基连接形成所述磷酸二酯键，获得所述gRNA。

8.根据权利要求7所述的生物合成方法，其特征在于，所述第二底物的5'端为5'保护基，所述第一底物的3'端为3'保护基。

9.根据权利要求3所述的生物合成方法，其特征在于，当所述底物为3个时，所述底物包括第一底物、第二底物和第三底物，所述生物合成方法包括：

将所述第一底物、所述第二底物和所述RNA连接酶混合，所述第一底物的5'端为磷酸基团，所述第一底物的3'端为3'保护基，所述第二底物的5'端和3'端为羟基，

所述RNA连接酶将所述第一底物的5'端的磷酸基团和所述第二底物3'端的羟基连接形成所述磷酸二酯键，获得5'端为羟基的中间产物；

对所述中间产物进行5'磷酸化，获得5'磷酸化中间产物；

将所述5'磷酸化中间产物、所述第三底物和所述RNA连接酶混合，所述RNA连接酶将所述5'磷酸化中间产物的5'端的磷酸基团和所述第三底物3'端的羟基连接形成所述磷酸二酯键，获得所述gRNA；

其中，所述第三底物的5'端为5'保护基。

10.根据权利要求9所述的生物合成方法，其特征在于，重复利用所述生物合成方法，将4个或更多个所述底物进行多次连接和所述5'磷酸化，每次连接的所述底物的数量为2个，依次连接获得所述gRNA。

11.根据权利要求1所述的生物合成方法，其特征在于，利用模板核酸链指导所述底物的连接；

所述模板核酸链与不同所述底物均具有至少3个碱基特异性结合，特异性结合在所述模板核酸链上的所述底物的碱基相邻并形成缺刻，获得含有缺刻的双链核苷酸结构，所述缺刻两端相邻的所述碱基分别为不同底物的5'端和3'端，所述5'端为5'磷酸根，所述3'端为羟基；

利用所述RNA连接酶连接所述缺刻上下游的所述5'磷酸根和所述羟基，形成所述磷酸二酯键，获得双链核苷酸结构；

利用DNA酶消化所述双链核苷酸结构上的所述模板核酸链，获得所述gRNA。

12.根据权利要求11所述的生物合成方法，其特征在于，所述模板核酸链的序列包括SEQ ID NO：37、SEQ ID NO：39、SEQ ID NO：40或SEQ ID NO：51所示的核苷酸序列中任一条。

13.根据权利要求11所述的生物合成方法，其特征在于，所述模板核酸链与不同所述底物混合后，恒温孵育或95℃孵育后冷却退火，获得所述含有缺刻的双链核苷酸结构；

所述恒温孵育的温度包括4~37℃，所述恒温孵育的时间≥10min；

所述95℃孵育后冷却退火包括：95℃孵育2min，0.5-1.2℃/min降温至12℃，12℃孵育10min后降温至4℃。

14.根据权利要求11所述的生物合成方法，其特征在于，位于所述gRNA的3'端的底物的3'端为3'保护基，位于所述gRNA的5'端的底物的5'端为5'保护基。

15.根据权利要求1所述的生物合成方法，其特征在于，所述gRNA的二级结构通过底物自身或底物之间的自发发生的碱基互补配对形成。

16.根据权利要求9或14所述的生物合成方法，其特征在于，所述3'保护基包括N-乙酰半乳糖胺基团、磷酸基团、-O-NH₂、叠氮基、氰乙基、烯丙基或2-硝基苄基；所述5'保护基包括羟基、氢或甲基。

17.根据权利要求1至15中任一项所述的生物合成方法，其特征在于，所述底物中包括一个或多个非天然核苷酸，所述非天然核苷酸包括：具有核糖2'位修饰、核糖骨架修饰、碱基修饰或磷酸骨架修饰中的一种或多种的核糖核苷酸；

所述核糖2'位修饰包括2'-甲氧基修饰、2'-氟修饰、2'-氢修饰、2'-甲氧乙基修饰、2'-FANA修饰、锁核酸修饰或己糖醇核酸修饰；

所述核糖骨架修饰包括将核苷酸中的核糖替换为ribuloNA、TNA、tPhoNA或dXNA；

所述碱基修饰包括脱氮腺嘌呤C7修饰、脱氮鸟苷C7修饰、胞嘧啶C5修饰或尿苷C5修饰；

所述磷酸骨架修饰包括PS修饰。

18.一种gRNA，其特征在于，所述gRNA包括利用权利要求1至17中任一项所述的生物合成方法制备获得的所述gRNA。