CN117157397A

CN117157397A - 工程化环状GMP-AMP合酶(cGAS)变体酶

Info

Publication number: CN117157397A
Application number: CN202280026999.XA
Authority: CN
Inventors: 玛吉·塔布加·博拉-加尔斯克; 奥斯卡·阿尔维左; 莉莲·贾丝明·米勒; 阿克西尼娅·柳贝诺娃·佩特科娃
Original assignee: Codexis Inc
Current assignee: Codexis Inc
Priority date: 2021-04-02
Filing date: 2022-04-01
Publication date: 2023-12-01
Also published as: EP4314264A1; US20220325285A1; WO2022212832A1; CA3214975A1; IL305924A

Abstract

本发明提供了工程化环状GMP‑AMP合酶(cGAS)、具有cGAS活性的多肽、和编码这些酶的多核苷酸、以及载体和包含这些多核苷酸和多肽的宿主细胞。还提供了用于产生cGAS酶的方法。本发明还提供了包含cGAS酶的组合物，以及使用工程化cGAS酶的方法。本发明尤其可用于药物化合物的产生。

Description

工程化环状GMP-AMP合酶(cGAS)变体酶

本申请要求2021年4月2日提交的美国临时专利申请系列第63/170,010号的优先权，出于所有目的，该美国临时专利申请通过引用以其整体并入。

发明领域

本发明提供了工程化环状GMP-AMP合酶(cGAS)、具有cGAS活性的多肽、和编码这些酶的多核苷酸、以及载体和包含这些多核苷酸和多肽的宿主细胞。还提供了用于产生cGAS酶的方法。本发明还提供了包含cGAS酶的组合物，以及使用工程化cGAS酶的方法。本发明尤其可用于药物化合物的产生。

对序列表、表格或计算机程序的引用

序列表的正式副本作为ASCII格式的文本文件经由EFS-Web与说明书同时提交，文件名为“CX2-204WO1_ST25.txt”，创建日期为2022年3月31日，且大小为2.26兆字节。经由EFS-Web提交的序列表为本说明书的一部分并且通过引用以其整体并入本文。

发明背景

调节人体对外来DNA的免疫应答的STING通路已经成为癌症疗法的重要的靶。特别地，已知活化STING的环状二核苷酸是活化或增强先天免疫应答的有吸引力的靶。环状二核苷酸可以通过核苷三磷酸底物的环化酶促产生。已知cGAMP(一种环状二核苷酸)起到第二信使的作用，该第二信使通过内质网传感器STING刺激先天免疫。STING的cGAMP活化被证明通过诱导干扰素的产生和刺激树突状细胞在小鼠中具有抗肿瘤作用(Li等人,Sci.Rep.6:19049[2016])。cGAMP是由作为外来核酸的细胞传感器的环状GMP-AMP合酶(cGAS)响应于双链DNA(dsDNA)而产生的(Gao等人,Cell.153:1094-1107[2013])。cGAS活性需要dsDNA的结合，而单链DNA(ssDNA)或RNA配体的结合分别仅产生弱活性或不产生活性。与dsDNA的结合引起cGAS的构象变化，以诱导活性酶状态(Kranzusch等人,Cell Rep.3(5):1362-1368[2013])。

已经产生了若干种cGAS晶体结构，包括鼠cGAS和人类cGAS。这些晶体结构揭示了若干个保守结构域，包括核苷酸转移酶核心、锌指结构域和C-末端结构域(Gao等人,Cell.153(5):1094-1107[2013]；Kranzusch等人,Cell Rep.3(5):1362-1368[2013])。除了结合的dsDNA之外，cGAS还需要二价金属阳离子(通常是Mn²⁺或Mg²⁺)进行活性。cGAS从腺苷三磷酸(ATP)和鸟苷三磷酸(GTP)合成cGAMP。这些底物本身又分别由腺苷酸激酶(AdK)和鸟苷酸激酶(GK)产生。

对于利用环状二核苷酸和非天然环状二核苷酸来刺激免疫的改进的癌症疗法存在需求。具体地，使用工业操作条件产生环状二核苷酸和非天然环状二核苷酸的改进的方法是必要的。一种方法是利用具有改进的性质的工程化多肽来产生核苷三磷酸底物和非天然环状二核苷酸。

发明概述

本发明提供了工程化cGAS酶，所述工程化cGAS酶包含与SEQ ID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列，其中所述工程化cGAS酶包含在所述多肽序列中包含至少一个取代或取代集的多肽，并且其中所述多肽序列的氨基酸位置参考SEQ ID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666编号。在一些实施方案中，多肽序列与SEQ ID NO:2具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中选自以下的一个或更多个位置处包含至少一个取代或取代集：114/389、126、128、131、131/161、135、161、163、163/172/181/201/256/257/389、163/172/181/256/278/334/389、163/172/181/257/278、163/172/256/257/389、163/172/256/278/389、163/181、163/181/201、163/181/201/256/334/389、163/181/201/256/389、163/181/201/257/334、163/181/201/257/334/389、163/181/201/334/389、163/181/201/389、163/181/256、163/181/256/257、163/181/256/257/334/389、163/181/256/257/389、163/181/256/334/389、163/181/256/389、163/181/257、163/181/257/334、163/181/257/334/389、163/181/278/334、163/181/334/389、163/181/389、163/201/256、163/201/256/334、163/201/257/278/334、163/201/257/278/389、163/201/257/334、163/201/257/334/389、163/201/257/389、163/201/334、163/201/389、163/256、163/256/257、163/256/257/334、163/256/257/334/389、163/256/257/389、163/256/278、163/256/334、163/256/334/389、163/256/389、163/257、163/257/278/334、163/257/278/389、163/257/334、163/257/334/389、163/257/389、163/334、163/334/389、163/389、164/177/255、171、172、172/181/201/256/257/278/389、172/181/256/334/389、176、177、179、181、181/201/256/257、181/201/256/257/389、181/201/256/278/334/389、181/201/334、181/256/257、181/256/334、181/257、181/257/334、181/257/475、181/389、201/334、255、256/257/334、256/334、256/334/389、256/389、257、257/278/334/389/392、257/334、257/334/389、257/389、334、334/389、338、341、364、378、388、389和390，其中所述多肽序列的氨基酸位置参考SEQ ID NO:2编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:2具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：114V/389N、126N、126T、128F、128G、131A、131A/161C、131G、131Q、131S、135P、135Q、135V、161E、163N、163N/172Q/181V/201F/256R/257P/389S、163N/172Q/181V/257P/278V、163N/172Q/256R/257P/389S、163N/172Q/256R/278V/389S、163N/181V、163N/181V/201F、163N/181V/201F/256R/389S、163N/181V/201F/257R/334I/389S、163N/181V/201F/389S、163N/181V/201H/256R/334I/389S、163N/181V/201H/256R/389S、163N/181V/201H/257R/334I、163N/181V/201H/334I/389S、163N/181V/201H/389S、163N/181V/256R、163N/181V/256R/257P、163N/181V/256R/257P/334I/389S、163N/181V/256R/257P/389S、163N/181V/256R/334I/389S、163N/181V/256R/389S、163N/181V/257P、163N/181V/257P/334I、163N/181V/257P/334I/389S、163N/181V/257R、163N/181V/257R/334I/389S、163N/181V/278V/334I、163N/181V/334I/389S、163N/181V/389S、163N/201F/256R、163N/201F/256R/334I、163N/201F/257P/278T/334I、163N/201F/257R/334I、163N/201F/257R/334I/389S、163N/201F/334I、163N/201F/389S、163N/201H/257R/278V/389S、163N/256R/257P/334I、163N/256R/257P/389S、163N/256R/257R、163N/256R/257R/334I、163N/256R/257R/334I/389S、163N/256R/257R/389S、163N/256R/334I、163N/256R/389S、163N/257P/278V/334I、163N/257P/278V/389S、163N/257P/334I、163N/257P/389S、163N/257R/334I、163N/334I、163N/334I/389S、163N/389S、163P、163R、163R/172Q/181V/256R/278V/334I/389S、163R/181V/256R/257R/389S、163R/181V/256R/334I/389S、163R/201H/257R/389S、163R/256R、163R/256R/257P、163R/256R/257P/389S、163R/256R/257R/334I/389S、163R/256R/278V、163R/256R/334I、163R/256R/334I/389S、163R/257P、163R/257P/389S、163R/257R、163R/257R/334I/389S、163R/334I、163R/389S、164T/177D/255K、171M、172Q/181V/201H/256R/257R/278V/389S、172Q/181V/256R/334I/389S、172R、176G、176S、177V、179L、179V、181V、181V/201F/256R/257P/389S、181V/201F/256R/257R、181V/201F/334I、181V/201H/256R/278V/334I/389S、181V/256R/257P、181V/256R/334I、181V/257P、181V/257P/334I、181V/257R/475H、181V/389S、201F/334I、255K、256R/257R/334I、256R/334I、256R/334I/389S、256R/389S、257P、257P/334I、257P/389S、257R、257R/278V/334I/389S/392L、257R/334I/389S、257R/389S、334I、334I/389S、338A、338G、338R、341L、341R、364L、364R、378E、388E、388G、388N、388P、388Q、389A、389D、389G、389H、389K、389P、389Q、389R、389S和390Q，其中所述多肽序列的氨基酸位置参考SEQ ID NO:2编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:2具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：G114V/C389N、L126N、L126T、R128F、R128G、V131A、V131A/R161C、V131G、V131Q、V131S、S135P、S135Q、S135V、R161E、G163N、G163N/K172Q/I181V/Y201F/K256R/A257P/C389S、G163N/K172Q/I181V/A257P/I278V、G163N/K172Q/K256R/A257P/C389S、G163N/K172Q/K256R/I278V/C389S、G163N/I181V、G163N/I181V/Y201F、G163N/I181V/Y201F/K256R/C389S、G163N/I181V/Y201F/A257R/L334I/C389S、G163N/I181V/Y201F/C389S、G163N/I181V/Y201H/K256R/L334I/C389S、G163N/I181V/Y201H/K256R/C389S、G163N/I181V/Y201H/A257R/L334I、G163N/I181V/Y201H/L334I/C389S、G163N/I181V/Y201H/C389S、G163N/I181V/K256R、G163N/I181V/K256R/A257P、G163N/I181V/K256R/A257P/L334I/C389S、G163N/I181V/K256R/A257P/C389S、G163N/I181V/K256R/L334I/C389S、G163N/I181V/K256R/C389S、G163N/I181V/A257P、G163N/I181V/A257P/L334I、G163N/I181V/A257P/L334I/C389S、G163N/I181V/A257R、G163N/I181V/A257R/L334I/C389S、G163N/I181V/I278V/L334I、G163N/I181V/L334I/C389S、G163N/I181V/C389S、G163N/Y201F/K256R、G163N/Y201F/K256R/L334I、G163N/Y201F/A257P/I278T/L334I、G163N/Y201F/A257R/L334I、G163N/Y201F/A257R/L334I/C389S、G163N/Y201F/L334I、G163N/Y201F/C389S、G163N/Y201H/A257R/I278V/C389S、G163N/K256R/A257P/L334I、G163N/K256R/A257P/C389S、G163N/K256R/A257R、G163N/K256R/A257R/L334I、G163N/K256R/A257R/L334I/C389S、G163N/K256R/A257R/C389S、G163N/K256R/L334I、G163N/K256R/C389S、G163N/A257P/I278V/L334I、G163N/A257P/I278V/C389S、G163N/A257P/L334I、G163N/A257P/C389S、G163N/A257R/L334I、G163N/L334I、G163N/L334I/C389S、G163N/C389S、G163P、G163R、G163R/K172Q/I181V/K256R/I278V/L334I/C389S、G163R/I181V/K256R/A257R/C389S、G163R/I181V/K256R/L334I/C389S、G163R/Y201H/A257R/C389S、G163R/K256R、G163R/K256R/A257P、G163R/K256R/A257P/C389S、G163R/K256R/A257R/L334I/C389S、G163R/K256R/I278V、G163R/K256R/L334I、G163R/K256R/L334I/C389S、G163R/A257P、G163R/A257P/C389S、G163R/A257R、G163R/A257R/L334I/C389S、G163R/L334I、G163R/C389S、A164T/N177D/R255K、V171M、K172Q/I181V/Y201H/K256R/A257R/I278V/C389S、K172Q/I181V/K256R/L334I/C389S、K172R、P176G、P176S、N177V、F179L、F179V、I181V、I181V/Y201F/K256R/A257P/C389S、I181V/Y201F/K256R/A257R、I181V/Y201F/L334I、I181V/Y201H/K256R/I278V/L334I/C389S、I181V/K256R/A257P、I181V/K256R/L334I、I181V/A257P、I181V/A257P/L334I、I181V/A257R/R475H、I181V/C389S、Y201F/L334I、R255K、K256R/A257R/L334I、K256R/L334I、K256R/L334I/C389S、K256R/C389S、A257P、A257P/L334I、A257P/C389S、A257R、A257R/I278V/L334I/C389S/H392L、A257R/L334I/C389S、A257R/C389S、L334I、L334I/C389S、H338A、H338G、H338R、K341L、K341R、K364L、K364R、K378E、F388E、F388G、F388N、F388P、F388Q、C389A、C389D、C389G、C389H、C389K、C389P、C389Q、C389R、C389S和S390Q，其中所述多肽序列的氨基酸位置参考SEQ ID NO:2编号。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:2具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:2具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:2具有至少95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。

在一些实施方案中，多肽序列与SEQ ID NO:34具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中选自以下的一个或更多个位置处包含至少一个取代或取代集：105/171、123/135/164/181/257/262/286/334/464、123/135/164/262/464、123/135/181/201/286/334/464、123/164/190、123/181/190/201/262/334、123/181/257/286/334、123/181/257/334/464、123/190/262、123/201/262/286/334、123/262/464、126、128、131、135、135/149/181/190/201/262/334/464、135/159/164/181/190/262/286、135/159/164/190/255/262/286/334/464、135/159/181/204/286/334/464、135/159/181/313/334/464、135/164、135/164/190/255/262、135/164/190/286/334/464、135/164/255/262、135/164/255/262/334/464、135/164/464、135/181/190/201/286/334、135/181/190/257/334/464、135/181/201/262/286/334/464、135/181/204/262/334、135/181/257/262/286/334、135/181/257/262/334、135/181/334/464、135/190/255/262/286、135/255/286/313/464、135/437、139、149/164/181/257/286/334/464、149/164/190/262/318/464、149/164/262/286、149/181/201/255/262/286/334/464、159/164/181/190/262/313/464、159/164/181/204/255/334、159/164/262/286、159/190/255/334、161、164、164/177、164/177/280、164/177/280/322/437、164/177/280/334、164/177/280/437、164/177/334、164/181/201/262/464、164/181/257/262/334/464、164/181/257/286/334、164/181/262/286/334/464、164/190/255/286、164/190/262/286/464、164/255/262、164/255/334/464、164/262/286/464、164/280/322/334/437、164/280/437、164/286、164/437、169、171、177/201/255/334、177/255/437、181/190/201/255/334、181/190/257/262/334/464、181/190/257/334、181/190/257/464、181/201/255/262/286/334/464、181/201/262/334、181/201/334、181/257/262/334、181/257/262/334/464、181/257/334、181/262/286/334、181/334、190、190/262/464、190/464、204/286/464、255/334、257、262/464、318、334、340、341、364、388、389、392、395、398、437、445和464，其中所述多肽序列的氨基酸位置参考SEQ ID NO:34编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:34具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：105D/171G、123K/135A/164T/181V/257R/262V/286S/334I/464E、123K/135A/164T/262V/464E、123K/135A/181V/201Y/286S/334I/464E、123K/164T/190I、123K/181V/190I/201Y/262V/334I、123K/181V/257R/286S/334I、123K/181V/257R/334I/464E、123K/190I/262V、123K/201Y/262V/286S/334I、123K/262V/464E、126T、128E、131D、131E、131P、131Y、135A/149L/181V/190I/201Y/262V/334I/464E、135A/159V/164T/181V/190I/262V/286S、135A/159V/164T/190I/255K/262V/286S/334I/464E、135A/159V/181V/204V/286S/334I/464E、135A/159V/181V/313P/334I/464E、135A/164T、135A/164T/190I/255K/262V、135A/164T/190I/286S/334I/464E、135A/164T/255K/262V、135A/164T/255K/262V/334I/464E、135A/164T/464E、135A/181V/190I/201Y/286S/334I、135A/181V/190I/257R/334I/464E、135A/181V/201Y/262V/286S/334I/464E、135A/181V/204V/262V/334I、135A/181V/257R/262V/286S/334I、135A/181V/257R/262V/334I、135A/181V/334I/464E、135A/190I/255K/262V/286S、135A/255K/286S/313P/464E、135A/437N、135H、135P、135R、139A、139D、139G、139H、139T、149L/164T/181V/257R/286S/334I/464E、149L/164T/190I/262V/318P/464E、149L/164T/262V/286S、149L/181V/201Y/255K/262V/286S/334I/464E、159V/164T/181V/190I/262V/313P/464E、159V/164T/181V/204V/255K/334I、159V/164T/262V/286S、159V/190I/255K/334I、161P、164S、164T/177D、164T/177D/280A、164T/177D/280A/322G/437N、164T/177D/280A/334I、164T/177D/280A/437N、164T/177D/334I、164T/181V/201Y/262V/464E、164T/181V/257R/262V/334I/464E、164T/181V/257R/286S/334I、164T/181V/262V/286S/334I/464E、164T/190I/255K/286S、164T/190I/262V/286S/464E、164T/255K/262V、164T/255K/334I/464E、164T/262V/286S/464E、164T/280A/322G/334I/437N、164T/280A/437N、164T/286S、164T/437N、169S、171S、177D/201Y/255K/334I、177D/255K/437N、181V/190I/201Y/255K/334I、181V/190I/257R/262V/334I/464E、181V/190I/257R/334I、181V/190I/257R/464E、181V/201Y/255K/262V/286S/334I/464E、181V/201Y/262V/334I、181V/201Y/334I、181V/257R/262V/334I、181V/257R/262V/334I/464E、181V/257R/334I、181V/262V/286S/334I、181V/334I、190I、190I/262V/464E、190I/464E、204V/286S/464E、255Q/334I、257P、262V/464E、318G、334I、340Q、341L、341R、364T、388W、389A、389G、389P、392E、395A、398W、437N、445Y和464E，其中所述多肽序列的氨基酸位置参考SEQID NO:34编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:34具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：G105D/V171G、R123K/S135A/A164T/I181V/A257R/I262V/N286S/L334I/Q464E、R123K/S135A/A164T/I262V/Q464E、R123K/S135A/I181V/F201Y/N286S/L334I/Q464E、R123K/A164T/L190I、R123K/I181V/L190I/F201Y/I262V/L334I、R123K/I181V/A257R/N286S/L334I、R123K/I181V/A257R/L334I/Q464E、R123K/L190I/I262V、R123K/F201Y/I262V/N286S/L334I、R123K/I262V/Q464E、L126T、R128E、V131D、V131E、V131P、V131Y、S135A/I149L/I181V/L190I/F201Y/I262V/L334I/Q464E、S135A/I159V/A164T/I181V/L190I/I262V/N286S 、S135A/I159V/A164T/L190I/R255K/I262V/N286S/L334I/Q464E 、S135A/I159V/I181V/L204V/N286S/L334I/Q464E、S135A/I159V/I181V/S313P/L334I/Q464E、S135A/A164T、S135A/A164T/L190I/R255K/I262V、S135A/A164T/L190I/N286S/L334I/Q464E、S135A/A164T/R255K/I262V、S135A/A164T/R255K/I262V/L334I/Q464E、S135A/A164T/Q464E、S135A/I181V/L190I/F201Y/N286S/L334I、S135A/I181V/L190I/A257R/L334I/Q464E、S135A/I181V/F201Y/I262V/N286S/L334I/Q464E、S135A/I181V/L204V/I262V/L334I、S135A/I181V/A257R/I262V/N286S/L334I、 S135A/I181V/A257R/I262V/L334I、S135A/I181V/L334I/Q464E 、 S135A/L190I/R255K/I262V/N286S 、S135A/R255K/N286S/S313P/Q464E、S135A/H437N、S135H、S135P、S135R、N139A、N139D、N139G、N139H、N139T、I149L/A164T/I181V/A257R/N286S/L334I/Q464E、I149L/A164T/L190I/I262V/A318P/Q464E 、 I149L/A164T/I262V/N286S 、I149L/I181V/F201Y/R255K/I262V/N286S/L334I/Q464E、I159V/A164T/I181V/L190I/I262V/S313P/Q464E、I159V/A164T/I181V/L204V/R255K/L334I、I159V/A164T/I262V/N286S、I159V/L190I/R255K/L334I、R161P、A164S、A164T/N177D、A164T/N177D/T280A、A164T/N177D/T280A/K322G/H437N、A164T/N177D/T280A/L334I、A164T/N177D/T280A/H437N、A164T/N177D/L334I、A164T/I181V/F201Y/I262V/Q464E、A164T/I181V/A257R/I262V/L334I/Q464E、 A164T/I181V/A257R/N286S/L334I、A164T/I181V/I262V/N286S/L334I/Q464E 、 A164T/L190I/R255K/N286S 、A164T/L190I/I262V/N286S/Q464E、A164T/R255K/I262V、A164T/R255K/L334I/Q464E、A164T/I262V/N286S/Q464E、A164T/T280A/K322G/L334I/H437N、A164T/T280A/H437N、A164T/N286S、A164T/H437N、E169S、V171S、N177D/F201Y/R255K/L334I、N177D/R255K/H437N 、 I181V/L190I/F201Y/R255K/L334I 、I181V/L190I/A257R/I262V/L334I/Q464E 、 I181V/L190I/A257R/L334I 、I181V/L190I/A257R/Q464E、 I181V/F201Y/R255K/I262V/N286S/L334I/Q464E、I181V/F201Y/I262V/L334I、I181V/F201Y/L334I、I181V/A257R/I262V/L334I、I181V/A257R/I262V/L334I/Q464E、I181V/A257R/L334I、I181V/I262V/N286S/L334I、I181V/L334I、L190I、L190I/I262V/Q464E、L190I/Q464E、L204V/N286S/Q464E、R255Q/L334I、A257P、I262V/Q464E、A318G、L334I、E340Q、K341L、K341R、K364T、F388W、S389A、S389G、S389P、H392E、T395A、F398W、H437N、L445Y和Q464E，其中所述多肽序列的氨基酸位置参考SEQ ID NO:34编号。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:34具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:34具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:34具有至少95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。

在一些实施方案中，多肽序列与SEQ ID NO:318具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中选自以下的一个或更多个位置处包含至少一个取代或取代集：131、135/160/286/392、135/204/286、135/286、135/286/392、135/392、139、161、161/204/286/392、164/389、286/392和392，其中所述多肽序列的氨基酸位置参考SEQ ID NO:318编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:318具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：131D、131E、135A/160M/286S/392E、135A/204V/286S、135A/286S、135A/286S/392E、135A/392E、139H、161P、161P/204V/286S/392E、164S/389P、286S/392E和392E，其中所述多肽序列的氨基酸位置参考SEQ ID NO:318编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:318具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：V131D、V131E、S135A/E160M/N286S/H392E、S135A/L204V/N286S、S135A/N286S、S135A/N286S/H392E、S135A/H392E、N139H、R161P、R161P/L204V/N286S/H392E、T164S/S389P、N286S/H392E和H392E，其中所述多肽序列的氨基酸位置参考SEQ IDNO:318编号。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:318具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:318具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:318具有至少95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。

在一些实施方案中，多肽序列与SEQ ID NO:556具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中选自以下的一个或更多个位置处包含至少一个取代或取代集：127、136/303、147、164、164/169、280、299、364、367、382、408、412和413，其中所述多肽序列的氨基酸位置参考SEQ ID NO:556编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:556具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：127H、136R/303H、147S、164A/169S、164S、280S、299K、364L、367Y、382P、408S、412Y和413S，其中所述多肽序列的氨基酸位置参考SEQ ID NO:556编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:556具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：G127H、G136R/R303H、Q147S、T164A/E169S、T164S、T280S、Q299K、K364L、L367Y、T382P、T408S、L412Y和G413S，其中所述多肽序列的氨基酸位置参考SEQ ID NO:556编号。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:556具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:556具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:556具有至少95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。

在一些实施方案中，多肽序列与SEQ ID NO:556具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中选自以下的一个或更多个位置处包含至少一个取代或取代集：127、147、147/189、164、164/169、210、367、408、413和449，其中所述多肽序列的氨基酸位置参考SEQ ID NO:556编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:556具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：127H、147S、147S/189H、164A/169S、164S、210Q、367Y、408S、413S和449M，其中所述多肽序列的氨基酸位置参考SEQ ID NO:556编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:556具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：G127H、Q147S、Q147S/R189H、T164A/E169S、T164S、P210Q、L367Y、T408S、G413S和E449M，其中所述多肽序列的氨基酸位置参考SEQ IDNO:556编号。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:556具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:556具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:556具有至少95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。

在一些实施方案中，多肽序列与SEQ ID NO:556具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中选自以下的一个或更多个位置处包含至少一个取代或取代集：8、127、132、136、136/303、147、150、312和412，其中所述多肽序列的氨基酸位置参考SEQ ID NO:556编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ IDNO:556具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：8D、127H、132A、136K、136R/303H、147A、147G、150S、312R、412E和412Y，其中所述多肽序列的氨基酸位置参考SEQ IDNO:556编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:556具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：G8D、G127H、S132A、G136K、G136R/R303H、Q147A、Q147G、R150S、K312R、L412E和L412Y，其中所述多肽序列的氨基酸位置参考SEQ ID NO:556编号。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:556具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:556具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:556具有至少95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。

在一些实施方案中，多肽序列与SEQ ID NO:566具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中选自以下的一个或更多个位置处包含至少一个取代或取代集：44/210/299/383/413/466、113/210/408/413、206/210/299/382/408/413、210/212/299/382/383、210/212/299/382/383/393/408/413/466、210/212/299/382/383/408、210/212/299/382/383/408/413、210/212/299/382/383/408/413/466、210/212/299/382/383/408/466、210/212/299/382/413、210/212/299/383/408/413、210/212/299/383/408/413/466、210/212/299/383/408/466、210/212/299/413/466、210/212/408/413/466、210/299/382/383/408、210/299/382/383/408/413、210/299/382/383/408/413/466、210/299/382/383/408/466、210/299/382/383/413、210/299/382/383/413/466、210/299/382/408/413/466、210/299/382/408/466、210/299/382/413/466、210/299/383/408、210/299/383/408/413、210/299/383/408/413/466、210/299/383/408/466、210/299/383/413、210/299/408/413、210/299/408/466、210/299/413、210/382/413、212/299/382/383/408/413、212/299/382/383/413/466、212/299/382/408/413、212/299/382/408/413/466、212/299/382/408/466、212/299/382/413、212/299/382/413/466、212/299/383/408、212/299/383/408/413/466、212/299/383/408/466、212/299/383/413、212/299/383/413/466、212/299/408/413、212/299/408/413/466、212/299/413/466、253/299/382/383/408、265、299/382/383/408/413、299/382/383/408/413/466、299/382/408、299/382/408/466、299/382/413、299/383、299/383/408/413、299/383/408/413/466、299/383/408/466、299/408、299/408/413、299/408/413/466、299/408/466、299/413、299/413/466、376、379、382、382/408和474，其中所述多肽序列的氨基酸位置参考SEQ ID NO:566编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:566具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：44S/210Q/299K/383H/413S/466R、113D/210S/408S/413S、206V/210Q/299K/382P/408S/413S、210Q/212D/299K/382P/383H、210Q/212H/299K/382P/383H/393A/408S/413S/466R、210Q/212H/299K/382P/383H/408S、210Q/212H/299K/382P/383H/408S/413S、210Q/212H/299K/382P/383H/408S/413S/466R、210Q/212H/299K/382P/383H/408S/466R、210Q/212H/299K/382P/413S、210Q/212H/408S/413S/466R、210Q/299K/382P/383H/408S、210Q/299K/382P/383H/408S/413S、210Q/299K/382P/383H/408S/413S/466R、210Q/299K/382P/383H/408S/466R、210Q/299K/382P/383H/413S、210Q/299K/382P/383H/413S/466R、210Q/299K/382P/408S/413S/466R、210Q/299K/382P/408S/466R、210Q/299K/382P/413S/466R、210Q/299K/383H/408S、210Q/299K/383H/408S/413S、210Q/299K/383H/408S/413S/466R、210Q/299K/383H/408S/466R、210Q/299K/383H/413S、210Q/299K/408S/413S、210Q/299K/408S/466R、210Q/299K/413S、210Q/382P/413S、210S/212H/299K/382P/383H/408S、210S/212H/299K/383H/408S/466R、210S/212H/299K/413S/466R、210S/212L/299K/382P/383H/408S/413S/466R、210S/212L/299K/383H/408S/413S、210S/212L/299K/383H/408S/413S/466R、210S/299K/382P/383H/408S/413S、210S/299K/383H/408S/413S/466R、212D/299K/413S/466R、212H/299K/382P/383H/408S/413S、212H/299K/382P/408S/413S/466R、212H/299K/382P/408S/466R、212H/299K/382P/413S/466R、212H/299K/383H/408S、212H/299K/383H/408S/413S/466R、212H/299K/383H/408S/466R、212H/299K/383H/413S、212H/299K/383H/413S/466R、212H/299K/413S/466R、212L/299K/382P/383H/413S/466R、212L/299K/382P/408S/413S、212L/299K/382P/413S、212L/299K/383H/408S/466R、212L/299K/408S/413S、212L/299K/408S/413S/466R、212L/299K/413S/466R、253N/299K/382P/383H/408S、265R、299K/382P/383H/408S/413S、299K/382P/383H/408S/413S/466R、299K/382P/408S、299K/382P/408S/466R、299K/382P/413S、299K/383H、299K/383H/408S/413S、299K/383H/408S/413S/466R、299K/383H/408S/466R、299K/408S、299K/408S/413S、299K/408S/413S/466R、299K/408S/466R、299K/413S、299K/413S/466R、376L、379C、382G、382P/408S和474G，其中所述多肽序列的氨基酸位置参考SEQ ID NO:566编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:566具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：F44S/P210Q/Q299K/K383H/G413S/N466R、G113D/P210S/T408S/G413S、F206V/P210Q/Q299K/T382P/T408S/G413S、P210Q/E212D/Q299K/T382P/K383H、P210Q/E212H/Q299K/T382P/K383H/V393A/T408S/G413S/N466R、P210Q/E212H/Q299K/T382P/K383H/T408S、P210Q/E212H/Q299K/T382P/K383H/T408S/G413S、P210Q/E212H/Q299K/T382P/K383H/T408S/G413S/N466R、P210Q/E212H/Q299K/T382P/K383H/T408S/N466R、P210Q/E212H/Q299K/T382P/G413S、P210Q/E212H/T408S/G413S/N466R、P210Q/Q299K/T382P/K383H/T408S、P210Q/Q299K/T382P/K383H/T408S/G413S、P210Q/Q299K/T382P/K383H/T408S/G413S/N466R、P210Q/Q299K/T382P/K383H/T408S/N466R、P210Q/Q299K/T382P/K383H/G413S、P210Q/Q299K/T382P/K383H/G413S/N466R、P210Q/Q299K/T382P/T408S/G413S/N466R、P210Q/Q299K/T382P/T408S/N466R、P210Q/Q299K/T382P/G413S/N466R、P210Q/Q299K/K383H/T408S、P210Q/Q299K/K383H/T408S/G413S、P210Q/Q299K/K383H/T408S/G413S/N466R、P210Q/Q299K/K383H/T408S/N466R、P210Q/Q299K/K383H/G413S、P210Q/Q299K/T408S/G413S、P210Q/Q299K/T408S/N466R、P210Q/Q299K/G413S、P210Q/T382P/G413S、P210S/E212H/Q299K/T382P/K383H/T408S、P210S/E212H/Q299K/K383H/T408S/N466R、P210S/E212H/Q299K/G413S/N466R、P210S/E212L/Q299K/T382P/K383H/T408S/G413S/N466R、P210S/E212L/Q299K/K383H/T408S/G413S、P210S/E212L/Q299K/K383H/T408S/G413S/N466R、P210S/Q299K/T382P/K383H/T408S/G413S、P210S/Q299K/K383H/T408S/G413S/N466R、E212D/Q299K/G413S/N466R、E212H/Q299K/T382P/K383H/T408S/G413S、E212H/Q299K/T382P/T408S/G413S/N466R、E212H/Q299K/T382P/T408S/N466R、E212H/Q299K/T382P/G413S/N466R、E212H/Q299K/K383H/T408S、E212H/Q299K/K383H/T408S/G413S/N466R、E212H/Q299K/K383H/T408S/N466R、E212H/Q299K/K383H/G413S、E212H/Q299K/K383H/G413S/N466R、E212H/Q299K/G413S/N466R、E212L/Q299K/T382P/K383H/G413S/N466R、E212L/Q299K/T382P/T408S/G413S、E212L/Q299K/T382P/G413S、E212L/Q299K/K383H/T408S/N466R、E212L/Q299K/T408S/G413S、E212L/Q299K/T408S/G413S/N466R、E212L/Q299K/G413S/N466R、K253N/Q299K/T382P/K383H/T408S、Q265R、Q299K/T382P/K383H/T408S/G413S、Q299K/T382P/K383H/T408S/G413S/N466R、Q299K/T382P/T408S、Q299K/T382P/T408S/N466R、Q299K/T382P/G413S、Q299K/K383H、Q299K/K383H/T408S/G413S、Q299K/K383H/T408S/G413S/N466R、Q299K/K383H/T408S/N466R、Q299K/T408S、Q299K/T408S/G413S、Q299K/T408S/G413S/N466R、Q299K/T408S/N466R、Q299K/G413S、Q299K/G413S/N466R、Q376L、M379C、T382G、T382P/T408S和E474G，其中所述多肽序列的氨基酸位置参考SEQ ID NO:566编号。在一些实施方案中，工程化cGAS酶包含与SEQ IDNO:566具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:566具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:566具有至少95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。

在一些实施方案中，多肽序列与SEQ ID NO:566具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中选自以下的一个或更多个位置处包含至少一个取代或取代集：210/212/299/382/383、210/212/299/382/383/408/413、210/212/299/382/383/408/413/466、210/212/299/383/408/413/466、210/299/382/383/408、210/299/382/383/408/413、210/299/382/383/408/413/466、210/299/382/383/408/466、210/299/382/383/413、210/299/382/383/413/466、210/299/382/408/466、210/299/383/408、210/299/383/408/413、210/299/383/408/413/466、210/299/383/408/466、210/299/383/413、210/299/408/413、272、299/382/383/408/413、299/382/383/408/413/466、299/382/408、299/382/408/466、299/408/413/466、299/408/466、299/413/466、376和388，其中所述多肽序列的氨基酸位置参考SEQ ID NO:566编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:566具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中的一个或更多个位置处包含选自以下的至少一个取代或取代集：210Q/212D/299K/382P/383H、210Q/212H/299K/382P/383H/408S/413S、210Q/299K/382P/383H/408S、210Q/299K/382P/383H/408S/413S/466R、210Q/299K/382P/383H/408S/466R、210Q/299K/382P/383H/413S、210Q/299K/382P/383H/413S/466R、210Q/299K/382P/408S/466R、210Q/299K/383H/408S、210Q/299K/383H/408S/413S、210Q/299K/383H/408S/413S/466R、210Q/299K/383H/408S/466R、210Q/299K/383H/413S、210Q/299K/408S/413S、210S/212L/299K/382P/383H/408S/413S/466R、210S/212L/299K/383H/408S/413S/466R、210S/299K/382P/383H/408S/413S、272V、299K/382P/383H/408S/413S、299K/382P/383H/408S/413S/466R、299K/382P/408S、299K/382P/408S/466R、299K/408S/413S/466R、299K/408S/466R、299K/413S/466R、376L、376R和388R，其中所述多肽序列的氨基酸位置参考SEQ ID NO:566编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:566具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：P210Q/E212D/Q299K/T382P/K383H、P210Q/E212H/Q299K/T382P/K383H/T408S/G413S、P210Q/Q299K/T382P/K383H/T408S、P210Q/Q299K/T382P/K383H/T408S/G413S/N466R、P210Q/Q299K/T382P/K383H/T408S/N466R、P210Q/Q299K/T382P/K383H/G413S、P210Q/Q299K/T382P/K383H/G413S/N466R、P210Q/Q299K/T382P/T408S/N466R、P210Q/Q299K/K383H/T408S、P210Q/Q299K/K383H/T408S/G413S、P210Q/Q299K/K383H/T408S/G413S/N466R、P210Q/Q299K/K383H/T408S/N466R、P210Q/Q299K/K383H/G413S、P210Q/Q299K/T408S/G413S、P210S/E212L/Q299K/T382P/K383H/T408S/G413S/N466R、P210S/E212L/Q299K/K383H/T408S/G413S/N466R、P210S/Q299K/T382P/K383H/T408S/G413S、E272V、Q299K/T382P/K383H/T408S/G413S、Q299K/T382P/K383H/T408S/G413S/N466R、Q299K/T382P/T408S、Q299K/T382P/T408S/N466R、Q299K/T408S/G413S/N466R、Q299K/T408S/N466R、Q299K/G413S/N466R、Q376L、Q376R和F388R，其中所述多肽序列的氨基酸位置参考SEQ ID NO:566编号。在一些实施方案中，工程化cGAS酶包含与SEQ IDNO:566具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:566具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:566具有至少95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。

在一些实施方案中，多肽序列与SEQ ID NO:666具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中选自以下的一个或更多个位置处包含至少一个取代或取代集：210/212/272/376/413、210/272/376/413、212、212/251/265/376/382/388/474、212/251/265/379/388/413/474、212/251/265/413/474、212/265/376/382/474、212/265/413、212/272/376、212/272/376/382/413、212/272/376/413、272/303/376/388/413、272/376/379、272/376/388/413、272/376/413/455和272/413，其中所述多肽序列的氨基酸位置参考SEQ ID NO:666编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ IDNO:666具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：210S/212D/272V/376R/413S、210S/272V/376L/413S、212D/251Q/265R/376L/382G/388R/474G、212D/251Q/265R/379C/388R/413S/474G、212D/251Q/265R/413S/474G、212D/272V/376L/413S、212D/272V/376R、212E/265R/376R/382G/474G、212E/265R/413S、212E/272V/376L、212E/272V/376L/382G/413S、212E/272V/376R/413S、212P、272V/303H/376R/388R/413S、272V/376L/379C、272V/376L/388R/413S、272V/376L/413S/455G和272V/413S，其中所述多肽序列的氨基酸位置参考SEQ ID NO:666编号。在一些实施方案中，工程化cGAS酶的多肽序列与SEQ ID NO:666具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性，并且其中工程化cGAS酶的多肽在所述多肽序列中一个或更多个位置处包含选自以下的至少一个取代或取代集：Q210S/H212D/E272V/Q376R/G413S、Q210S/E272V/Q376L/G413S、H212D/T251Q/Q265R/Q376L/P382G/F388R/E474G、H212D/T251Q/Q265R/M379C/F388R/G413S/E474G、H212D/T251Q/Q265R/G413S/E474G、H212D/E272V/Q376L/G413S、H212D/E272V/Q376R、H212E/Q265R/Q376R/P382G/E474G、H212E/Q265R/G413S、H212E/E272V/Q376L、H212E/E272V/Q376L/P382G/G413S、H212E/E272V/Q376R/G413S、H212P、E272V/R303H/Q376R/F388R/G413S、E272V/Q376L/M379C、E272V/Q376L/F388R/G413S、E272V/Q376L/G413S/D455G和E272V/G413S，其中所述多肽序列的氨基酸位置参考SEQ ID NO:666编号。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:666具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:666具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。在一些实施方案中，工程化cGAS酶包含与SEQ ID NO:666具有至少95％、96％、97％、98％、99％或更多的序列同一性的多肽序列。

在一些另外的实施方案中，本发明提供了工程化cGAS酶，其中工程化cGAS酶包含与表2-1、表3-1、表4-1、表5-1、表5-2、表5-3、表6-1、表6-2和/或表7-1中所列的至少一种工程化cGAS酶变体的序列至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多相同的多肽序列。

在一些另外的实施方案中，本发明提供了工程化cGAS酶，其中工程化cGAS酶包含与SEQ ID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQID NO:666至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多相同的多肽序列。在一些实施方案中，工程化cGAS酶包括SEQ IDNO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666中所列的变体工程化cGAS酶。

本发明还提供了工程化cGAS酶，其中工程化cGAS酶包含与SEQ ID NO:4-SEQ IDNO:812中的偶数编号序列中所列的至少一种工程化cGAS酶变体的序列至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多相同的多肽序列。

本发明还提供了工程化cGAS酶，其中与野生型白头海雕(Haliaeetusleucocephalus)cGAS酶相比，所述工程化cGAS酶包含至少一种改进的性质。在一些实施方案中，改进的性质包括改进的对底物的活性。在一些另外的实施方案中，底物包括Sp-3’氟-3’-脱氧鸟苷-5’-(1-硫代)-三磷酸(F-thioGTP或化合物(2))和Sp-2’氟-ara-腺苷-5’-1-硫代-三磷酸(F-thioATP或化合物(3))。在一些另外的实施方案中，改进的性质包括改进的化合物(1)的产生，化合物(1)是cGAMP的非天然衍生物。在又一些另外的实施方案中，工程化cGAS酶是纯化的。本发明还提供了组合物，所述组合物包含至少一种本文提供的工程化cGAS酶。

本发明还提供了多核苷酸序列，所述多核苷酸序列编码至少一种本文提供的工程化cGAS酶。在一些实施方案中，编码至少一种工程化cGAS酶的多核苷酸序列包含与SEQ IDNO:1、SEQ ID NO:33、SEQ ID NO:317、SEQ ID NO:555、SEQ ID NO:565和/或SEQ ID NO:665具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多核苷酸序列。在一些实施方案中，编码至少一种工程化cGAS酶的多核苷酸序列包含与SEQ ID NO:1、SEQ ID NO:33、SEQ ID NO:317、SEQ ID NO:555、SEQ ID NO:565和/或SEQ ID NO:665具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性的多核苷酸序列，其中所述工程化cGAS酶的多核苷酸序列在一个或更多个位置处包含至少一个取代。在一些另外的实施方案中，编码至少一种工程化cGAS酶或其功能片段的多核苷酸序列包含与SEQID NO:1、SEQ ID NO:33、SEQ ID NO:317、SEQ ID NO:555、SEQ ID NO:565和/或SEQ ID NO:665的至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性。在又一些另外的实施方案中，多核苷酸序列可操作地连接至控制序列。在一些另外的实施方案中，多核苷酸序列是密码子优化的。在又一些另外的实施方案中，多核苷酸序列包括SEQ ID NO:3-SEQ ID NO:811中的奇数编号序列中所列的多核苷酸序列。

本发明还提供了表达载体，所述表达载体包含至少一种本文提供的多核苷酸序列。本发明还提供了包含至少一种本文提供的表达载体的宿主细胞。在一些实施方案中，本发明提供了包含至少一种本文提供的多核苷酸序列的宿主细胞。

本发明还提供了在宿主细胞中产生工程化cGAS酶的方法，所述方法包括在合适的条件下培养本文提供的宿主细胞，使得产生至少一种工程化cGAS酶。在一些实施方案中，方法还包括从培养物和/或宿主细胞回收至少一种工程化cGAS酶。在一些另外的实施方案中，方法还包括纯化所述至少一种工程化cGAS酶的步骤。

发明描述

本发明提供了工程化环状GMP-AMP合酶(cGAS)、具有cGAS活性的多肽和编码这些酶的多核苷酸、以及载体和包含这些多核苷酸和多肽的宿主细胞。还提供了用于产生cGAS酶的方法。本发明还提供了包含cGAS酶的组合物，以及使用工程化cGAS酶的方法。本发明尤其可用于药物化合物的产生。

除非另外定义，否则本文使用的所有技术术语和科学术语通常具有与本发明所属领域普通技术人员通常理解的相同含义。通常，本文使用的命名法和下文描述的细胞培养、分子遗传学、微生物学、有机化学、分析化学和核酸化学中的实验程序是本领域熟知的并且普遍地采用的那些。这样的技术是熟知的，并且在本领域技术人员熟知的许多教科书和参考著作中进行了描述。对于化学合成和化学分析使用了标准技术或其修改形式。本文(上文和下文两者)提及的所有专利、专利申请、文章和出版物，特此通过引用明确并入本文。

尽管本发明的实践中可使用与本文描述的方法和材料类似或等同的任何合适的方法和材料，但本文也描述了一些方法和材料。应理解，本发明不限于所描述的特定方法、方案和试剂，因为这些可以根据本领域技术人员使用它们的情况而改变。因此，下文紧接着定义的术语通过参考本发明作为整体而被更充分地描述。

应理解，上文的一般描述和下文的详细描述仅是示例性的和说明性的，而不是限制本发明。本文使用的章节标题仅用于组织目的，并且不被解释为限制所描述的主题。数值范围包括限定该范围的数字。因此，本文公开的每个数值范围意图涵盖落在这样的较宽数值范围内的每个较窄数值范围，如同这样的较窄数值范围在本文被全部明确地书写。还意图本文公开的每个最大的(或最小的)数值限制包括每个较低(或较高)的数值限制，如同这样的较低(或较高)数值限制在本文被明确地书写。

缩写和定义

用于遗传编码的氨基酸的缩写是常规的，并且如下：丙氨酸(Ala或A)、精氨酸(Arg或R)、天冬酰胺(Asn或N)、天冬氨酸(Asp或D)、半胱氨酸(Cys或C)、谷氨酸(Glu或E)、谷氨酰胺(Gln或Q)、组氨酸(His或H)、异亮氨酸(Ile或I)、亮氨酸(Leu或L)、赖氨酸(Lys或K)、甲硫氨酸(Met或M)、苯丙氨酸(Phe或F)、脯氨酸(Pro或P)、丝氨酸(Ser或S)、苏氨酸(Thr或T)、色氨酸(Trp或W)、酪氨酸(Tyr或Y)和缬氨酸(Val或V)。

当使用三字母缩写时，除非前面具体地有“L”或“D”，或者从使用缩写的上下文清楚看出，否则氨基酸可以是关于α-碳(Cα)的L-构型或D-构型。例如，“Ala”表示丙氨酸而不指定关于α-碳的构型，而“D-Ala”和“L-Ala”分别表示D-丙氨酸和L-丙氨酸。当使用单字母缩写时，大写字母表示关于α-碳的L-构型的氨基酸，并且小写字母表示关于α-碳的D-构型的氨基酸。例如，“A”表示L-丙氨酸并且“a”表示D-丙氨酸。当多肽序列以一串单字母或三字母缩写(或其混合)呈现时，根据常规惯例将序列呈现为氨基(N)至羧基(C)方向。

用于遗传编码核苷的缩写是常规的并且如下：腺苷(A)；鸟苷(G)；胞苷(C)；胸苷(T)；和尿苷(U)。除非具体描述，否则缩写的核苷可以是核糖核苷或2’-脱氧核糖核苷。核苷可以单独地或总体地指定为核糖核苷或2’-脱氧核糖核苷。当核酸序列以单字母缩写串表示时，序列按照常规惯例呈现为5’至3’方向，并且不示出磷酸。

参考本发明，本文描述中使用的技术和科学术语将具有本领域普通技术人员通常理解的含义，除非另有具体定义。因此，以下术语旨在具有以下含义。

除非上下文另外清楚地指示，否则如本文使用的单数形式“一(a)”、“一(an)”和“该(the)”包括复数指代物。因此，例如对“多肽(a polypeptide)”的提及包括多于一种多肽。

类似地，“包含(comprise、comprises、comprising)”、“包括(include、includes和including)”是可互换的，而不意图是限制性的。因此，如本文使用的，术语“包含(comprising)”及其同根词以其包含性含义被使用(即，等同于术语“包括(including)”及其相应的同根词)。

还应当理解，在各种实施方案的描述中使用术语“包含(comprising)”的情况下，本领域技术人员将理解，在一些特定情况下，可以使用“基本上由...组成(consistingessentially of)”或“由...组成(consisting of)”的语言可选择地描述实施方案。

如本文使用的，术语“约”意指特定值的可接受误差。在一些实例中，“约”意指在给定值范围的0.05％、0.5％、1.0％或2.0％内。在一些实例中，“约”意指在给定值的1、2、3或4个标准偏差内。

如本文使用的，“EC”编号是指生物化学和分子生物学国际联合命名委员会(Nomenclature Committee of the International Union of Biochemistry andMolecular Biology)(NC-IUBMB)的酶命名法。该IUBMB生化分类是基于酶催化的化学反应的酶数字分类系统。

如本文使用的，“ATCC”是指美国典型培养物保藏中心(American Type CultureCollection)，其生物保藏收集物包括基因和菌株。

如本文使用的，“NCBI”是指美国国家生物信息中心(National Center forBiological Information)和其中提供的序列数据库。

如本文使用的，“环状GMP-AMP合酶”(“cGAS”)是催化核苷三磷酸的环化以形成环状二核苷酸，例如GTP和ATP的环化以形成cGAMP的酶。cGAS酶还可以催化修饰的核苷三磷酸，包括硫醇化或氟化的核苷三磷酸的环化。这方面的实例是将Sp-3’氟-3’-脱氧鸟苷-5’-(1-硫代)-三磷酸(F-thioGTP或化合物(2))和Sp-2’氟-ara-腺苷-5’-1-硫代-三磷酸(F-thioATP或化合物(3))转化为化合物(1)的环状二核苷酸，参见下文的方案1。cGAS酶可以是天然存在的，包括野生型白头海雕cGAS酶或在人类、细菌、真菌、植物或其他物种中发现的其他cGAS酶，或者cGAS酶可以是通过遗传工程产生的工程化多肽。

“蛋白”、“多肽”和“肽”在本文中可互换地使用，来表示通过酰胺键共价连接的至少两个氨基酸的聚合物，而不论长度或翻译后修饰(例如糖基化或磷酸化)。该定义中包括D-氨基酸和L-氨基酸、以及D-氨基酸和L-氨基酸的混合物、以及包含D-氨基酸和L-氨基酸以及D-氨基酸和L-氨基酸的混合物的聚合物。

“氨基酸”通过其通常已知的三字母符号或通过IUPAC-IUB生物化学命名委员会推荐的单字母符号在本文被提及。同样地，核苷酸可以通过其通常可接受的单字母代码被提及。

如本文使用的，“亲水氨基酸或残基”是指根据Eisenberg等人(Eisenberg等人,J.Mol.Biol.,179:125-142[1984])的归一化共有疏水性标度，具有表现出小于零的疏水性的侧链的氨基酸或残基。遗传编码的亲水氨基酸包括L-Thr(T)、L-Ser(S)、L-His(H)、L-Glu(E)、L-Asn(N)、L-Gln(Q)、L-Asp(D)、L-Lys(K)和L-Arg(R)。

如本文使用的，“酸性氨基酸或残基”是指当氨基酸被包含在肽或多肽中时，具有表现出小于约6的pKa值的侧链的亲水氨基酸或残基。由于失去氢离子，酸性氨基酸在生理pH通常具有带负电荷的侧链。遗传编码的酸性氨基酸包括L-Glu(E)和L-Asp(D)。

如本文使用的，“碱性氨基酸或残基”是指当氨基酸被包含在肽或多肽中时，具有表现出大于约6的pKa值的侧链的亲水氨基酸或残基。由于与水合氢离子的缔合，碱性氨基酸在生理pH通常具有带正电荷的侧链。遗传编码的碱性氨基酸包括L-Arg(R)和L-Lys(K)。

如本文使用的，“极性氨基酸或残基”是指具有在生理pH不带电荷但具有其中两个原子共同共有的电子对被其中一个原子更紧密地保持(held more closely)的至少一个键的侧链的亲水氨基酸或残基。遗传编码的极性氨基酸包括L-Asn(N)、L-Gln(Q)、L-Ser(S)和L-Thr(T)。

如本文使用的，“疏水氨基酸或残基”是指根据Eisenberg等人(Eisenberg等人,J.Mol.Biol.,179:125-142[1984])的归一化共有疏水性标度，具有表现出大于零的疏水性的侧链的氨基酸或残基。遗传编码的疏水氨基酸包括L-Pro(P)、L-Ile(I)、L-Phe(F)、L-Val(V)、L-Leu(L)、L-Trp(W)、L-Met(M)、L-Ala(A)和L-Tyr(Y)。

如本文使用的，“芳香族氨基酸或残基”是指具有包含至少一个芳香族环或杂芳香族环的侧链的亲水或疏水氨基酸或残基。遗传编码的芳香族氨基酸包括L-Phe(F)、L-Tyr(Y)和L-Trp(W)。尽管L-His(H)由于其杂芳香族氮原子的pKa有时被归类为碱性残基，或因为其侧链包括杂芳香族环而被归类为芳香族残基；但在本文中，组氨酸被归类为亲水残基或为“受限残基(constrained residue)”(参见下文)。

如本文使用的，“受限氨基酸或残基”是指具有受限几何形状的氨基酸或残基。本文中，受限残基包括L-Pro(P)和L-His(H)。组氨酸具有受限的几何形状，因为它具有相对小的咪唑环。脯氨酸具有受限的几何形状，因为它也具有五元环。

如本文使用的，“非极性氨基酸或残基”是指具有在生理pH不带电荷并具有其中两个原子共同共有的电子对通常由两个原子各自同等地保持的键的侧链(即侧链不是极性的)的疏水氨基酸或残基。遗传编码的非极性氨基酸包括L-Gly(G)、L-Leu(L)、L-Val(V)、L-Ile(I)、L-Met(M)和L-Ala(A)。

如本文使用的，“脂肪族氨基酸或残基”是指具有脂肪族烃侧链的疏水氨基酸或残基。遗传编码的脂肪族氨基酸包括L-Ala(A)、L-Val(V)、L-Leu(L)和L-Ile(I)。值得注意的是，半胱氨酸(或“L-Cys”或“[C]”)是不常见的，因为它可以与其他L-Cys(C)氨基酸或其他含硫烷基(sulfanyl)或巯基的氨基酸形成二硫桥。“半胱氨酸样残基”包括半胱氨酸和含有可用于形成二硫桥的巯基部分的其他氨基酸。L-Cys(C)(和具有含-SH侧链的其他氨基酸)以还原的游离-SH或氧化的二硫桥接形式存在于肽中的能力影响L-Cys(C)对肽贡献净疏水特征还是亲水特征。虽然根据Eisenberg的归一化共有标度(Eisenberg等人，1984，上文)，L-Cys(C)表现出0.29的疏水性，但是应当理解，为了本公开内容的目的，L-Cys(C)被分类为其自身独特的组。

如本文使用的，“小氨基酸或残基”是指具有包括总计三个或更少的碳原子和/或杂原子(不包括α-碳和氢)的侧链的氨基酸或残基。根据上文的定义，小氨基酸或残基可以被进一步分类为脂肪族、非极性、极性或酸性小氨基酸或残基。遗传编码的小氨基酸包括L-Ala(A)、L-Val(V)、L-Cys(C)、L-Asn(N)、L-Ser(S)、L-Thr(T)和L-Asp(D)。

如本文使用的，“含羟基的氨基酸或残基”是指含有羟基(-OH)部分的氨基酸。遗传编码的含羟基的氨基酸包括L-Ser(S)、L-Thr(T)和L-Tyr(Y)。

如本文使用的，“多核苷酸”和“核酸”是指共价连接在一起的两个或更多个核苷酸。多核苷酸可以完全包含核糖核苷酸(即RNA)、完全包含2’脱氧核糖核苷酸(即DNA)或包含核糖核苷酸和2’脱氧核糖核苷酸的混合物。虽然核苷通常将经由标准磷酸二酯键连接在一起，但多核苷酸可以包含一个或更多个非标准键。多核苷酸可以是单链或双链的，或者可以包含单链区域和双链区域二者。此外，虽然多核苷酸通常将包含天然存在的编码核碱基(即腺嘌呤、鸟嘌呤、尿嘧啶、胸腺嘧啶和胞嘧啶)，但它还可以包含一种或更多种经修饰的和/或合成的核碱基，诸如例如肌苷、黄嘌呤、次黄嘌呤等。在一些实施方案中，这样的经修饰的或合成的核碱基是编码氨基酸序列的核碱基。

如本文使用的，“核苷”是指包含核碱基(即含氮碱基)和5-碳糖(例如核糖或脱氧核糖)的糖基胺。核苷的非限制性实例包括胞苷、尿苷、腺苷、鸟苷、胸苷和肌苷。相比之下，术语“核苷酸”是指包含核碱基、5-碳糖和一个或更多个磷酸基团的糖基胺。在一些实施方案中，核苷可以被激酶磷酸化以产生核苷酸。

如本文使用的，“核苷二磷酸”是指包含核碱基(即含氮碱基)、5-碳糖(例如核糖或脱氧核糖)和二磷酸(即焦磷酸)部分的糖基胺。在本文的一些实施方案中，“核苷二磷酸”缩写为“NDP”。核苷二磷酸的非限制性实例包括胞苷二磷酸(CDP)、尿苷二磷酸(UDP)、腺苷二磷酸(ADP)、鸟苷二磷酸(GDP)、胸苷二磷酸(TDP)和肌苷二磷酸(IDP)。在一些实施方案中，“核苷二磷酸”可以指非天然核苷二磷酸，诸如化合物(5)。在一些情形中，术语“核苷”和“核苷酸”可以可互换地使用。

如本文使用的，“核苷三磷酸”是指包含核碱基(即含氮碱基)、5-碳糖(例如核糖或脱氧核糖)和三磷酸部分的糖基胺。在本文的一些实施方案中，“核苷三磷酸”缩写为“NTP”。核苷三磷酸的非限制性实例包括胞苷三磷酸(CTP)、尿苷三磷酸(UTP)、腺苷三磷酸(ATP)、鸟苷三磷酸(GTP)、胸苷三磷酸(TTP)和肌苷三磷酸(ITP)。在一些实施方案中，“核苷三磷酸”可以指非天然核苷三磷酸，诸如化合物(3)。在一些情形中，术语“核苷”和“核苷酸”可以可互换地使用。

如本文使用的，“编码序列”是指核酸(例如基因)编码蛋白的氨基酸序列的部分。

如本文使用的，术语“生物催化(biocatalysis)”、“生物催化(biocatalytic)”、“生物转化”和“生物合成”是指使用酶来对有机化合物进行化学反应。

如本文使用的，“野生型”和“天然存在的”指在自然界中发现的形式。例如，野生型多肽或多核苷酸序列为生物体中存在的序列，其可从天然来源分离且未通过人为操作被有意识地修饰。

如本文使用的，当关于细胞、核酸或多肽使用时，“重组”、“工程化”、“变体”、“非天然”和“非天然存在的”是指已经以自然界原本不存在的方式修饰的材料或相应于该材料的天然或自然形式的材料。在一些实施方案中，该细胞、核酸或多肽与天然存在的细胞、核酸或多肽相同，但由合成材料和/或通过使用重组技术操纵产生或衍生。非限制性实例包括，除其他以外，表达自然(非重组)形式的细胞中未发现的基因或表达原本以不同水平表达的自然基因的重组细胞。

术语“序列同一性百分比(％)”在本文中用于指多核苷酸或多肽之间的比较，并通过比较比较窗中两条最佳对齐的序列确定，其中多核苷酸或多肽序列在比较窗中的部分与参考序列相比可以包含添加或缺失(即，空位)，以用于两个序列的最佳对齐。百分比可以通过如下计算：确定两个序列中出现相同核酸碱基或氨基酸残基的位置的数目以产生匹配位置的数目，将匹配位置的数目除以比较窗中位置的总数目，并将结果乘以100以得到序列同一性的百分比。可选择地，百分比可以通过如下计算：确定两个序列中出现相同的核酸碱基或氨基酸残基或者核酸碱基或氨基酸残基与空位对齐的位置的数目以产生匹配位置的数目，将匹配位置的数目除以比较窗中位置的总数目，并将结果乘以100以得到序列同一性的百分比。本领域技术人员理解，存在许多可用于比对两个序列的已建立的算法。用于比较的序列的最佳比对可以通过任何合适的方法进行，包括但不限于Smith和Waterman的局部同源性算法(Smith和Waterman,Adv.Appl.Math.,2:482[1981])，通过Needleman和Wunsch的同源性比对算法(Needleman和Wunsch,J.Mol.Biol.,48:443[1970])，通过Pearson和Lipman的相似性搜索方法(Pearson和Lipman,Proc.Natl.Acad.Sci.USA 85:2444[1988])，通过这些算法的计算机化实现(例如，GCG Wisconsin软件包中的GAP、BESTFIT、FASTA和TFASTA)，或者通过目视检查，如本领域已知的。适合于确定序列同一性和序列相似性百分比的算法的实例包括但不限于BLAST和BLAST 2.0算法，由Altschul等人描述(分别参见Altschul等人,J.Mol.Biol.,215:403-410[1990]；和Altschul等人,Nucl.Acids Res.,3389-3402[1977])。公众可通过美国国家生物技术信息中心网站获得用于进行BLAST分析的软件。该算法包括首先通过鉴定查询序列中长度W的短字来鉴定高评分序列对(HSP)，所述短字在与数据库序列中相同长度的字比对时匹配或满足某一正值的阀值评分T。T被称为邻近字评分阈值(参见，Altschul等人，上文)。这些最初的邻近字击中(word hit)充当启动搜索的种子以找到包含它们的更长HSP。然后字击中沿着每个序列的两个方向延伸直到累积比对评分不能增加的程度。对于核苷酸序列，累积评分使用参数M(用于匹配残基对的奖励评分；总是＞0)和N(用于错配残基的惩罚评分；总是＜0)计算。对于氨基酸序列，评分矩阵用于计算累积评分。在以下情况时，停止字击中在每一个方向的延伸：累积比对评分从其最大达到值下降了量X；由于累积了一个或更多个负评分残基比对，累积评分达到0或小于0；或到达任一序列末端。BLAST算法参数W、T和X决定比对的灵敏度和速度。BLASTN程序(对于核苷酸序列)使用以下作为默认值：字长(W)为11、期望值(E)为10、M＝5、N＝-4、以及两条链的比较。对于氨基酸序列，BLASTP程序使用以下作为默认值：字长(W)为3，期望值(E)为10和BLOSUM62评分矩阵(参见，Henikoff和Henikoff,Proc.Natl.Acad.Sci.USA 89:10915[1989])。序列比对与％序列同一性的示例性确定可以使用GCG Wisconsin软件包(Accelrys,Madison WI)中的BESTFIT或GAP程序，使用提供的默认参数。

如本文使用的，“参考序列”是指用作序列和/或活性比较的基础的定义序列。参考序列可以是更大序列的子集，例如，全长基因或多肽序列的区段。通常，参考序列为至少20个核苷酸或氨基酸残基的长度、至少25个残基的长度、至少50个残基的长度、至少100个残基的长度或核酸或多肽的全长。因为两个多核苷酸或多肽可以各自(1)包含在两个序列之间相似的序列(即，完整序列的一部分)，和(2)可以还包含在两个序列之间趋异的(divergent)序列，所以两个(或更多个)多核苷酸或多肽之间的序列比较通常通过比较两个多核苷酸或多肽在“比较窗”上的序列以鉴定和比较局部区域的序列相似性来进行。在一些实施方案中，“参考序列”可以基于一级氨基酸序列，其中参考序列是可以在一级序列中具有一个或更多个变化的序列。

如本文使用的，“比较窗”是指至少约20个连续核苷酸位置或氨基酸残基的概念性区段，其中序列可以与至少20个连续核苷酸或氨基酸的参考序列进行比较，并且其中序列在比较窗中的部分与参考序列(其不包含添加或缺失)相比，可以包含20％或更少的添加或缺失(即，空位)以用于两个序列的最佳比对。比较窗可以比20个连续残基更长，并任选地包括30、40、50、100或更长的窗。

如本文使用的，当在对给定氨基酸或多核苷酸序列进行编号的情况中使用时，“对应于”、“参考”和“相对于”是指当给定氨基酸或多核苷酸序列与参考序列相比较时对指定参考序列的残基进行编号。换言之，给定聚合物的残基编号或残基位置关于参考序列被指定，而不是通过给定氨基酸或多核苷酸序列内残基的实际数字位置被指定。例如，给定氨基酸序列，诸如工程化cGAS酶的氨基酸序列可以通过引入空位以与参考序列对齐，来优化两个序列之间的残基匹配。在这些情况中，尽管存在空位，对给定氨基酸或多核苷酸序列中的残基关于与其比对的参考序列进行编号。

如本文使用的，“大体同一性”是指在至少20个残基位置的比较窗中、通常在至少30个-50个残基窗中，与参考序列相比，具有至少80％序列同一性、至少85％同一性、至少89％至95％之间序列同一性，或更通常至少99％序列同一性的多核苷酸或多肽序列，其中序列同一性的百分比通过在比较窗上比较参考序列和包含总计为参考序列的20％或更少的缺失或添加的序列来计算。在应用于多肽的一些具体实施方案中，术语“大体同一性”意指当诸如通过程序GAP或BESTFIT使用默认空位权重进行最佳比对时，两个多肽序列共享至少80％的序列同一性，优选地至少89％的序列同一性、至少95％的序列同一性或更高(例如，99％的序列同一性)。在一些实施方案中，在所比较的序列中不相同的残基位置因保守氨基酸取代而不同。

如本文使用的，“氨基酸差异”和“残基差异”是指在多肽序列的一个位置处氨基酸残基相对于参考序列中对应位置处的氨基酸残基的差异。在一些情况下，参考序列具有组氨酸标签，但相对于没有组氨酸标签的等同参考序列，编号维持不变。本文中氨基酸差异的位置通常被称为“Xn”，其中n是指残基差异所基于的参考序列中的对应位置。例如，“与SEQID NO:4相比位置X93处的残基差异”是指对应于SEQ ID NO:4的位置93的多肽位置处的氨基酸残基的差异。因此，如果参考多肽SEQ ID NO:4在位置93处具有丝氨酸，则“与SEQ IDNO:4相比位置X93处的残基差异”是指在对应于SEQ ID NO:4的位置93的多肽位置处的除了丝氨酸以外的任何残基的氨基酸取代。在本文的大多数实例中，在一个位置处的具体氨基酸残基差异指示为“XnY”，其中“Xn”指定如上文描述的对应位置，并且“Y”是在工程化多肽中发现的氨基酸(即，与参考多肽中不同的残基)的单字母标识符。在一些实例中(例如，在实施例中呈现的表格中)，本发明还提供由常规符号“AnB”表示的具体氨基酸差异，其中A为参考序列中的残基的单字母标识符，“n”为参考序列中的残基位置的编号，并且B为工程化多肽的序列中残基取代的单字母标识符。在一些实例中，本发明的多肽可以相对于参考序列包含一个或更多个氨基酸残基差异，其由相对于参考序列存在残基差异的一列指定位置指示。在一些实施方案中，在多于一个氨基酸可以用于多肽的具体残基位置中时，可以使用的各种氨基酸残基由“/”分开(例如，X307H/X307P或X307H/P)。斜线也可用于指示给定变体内的多于一个取代(即，在给定序列中诸如在组合变体中存在多于一个取代)。在一些实施方案中，本发明包括含有一个或更多个氨基酸差异的工程化多肽序列，所述氨基酸差异包括保守氨基酸取代或非保守氨基酸取代。在一些另外的实施方案中，本发明提供了包含保守氨基酸取代和非保守氨基酸取代二者的工程化多肽序列。

如本文使用的，“保守氨基酸取代”是指用具有相似侧链的不同残基取代残基，并且因此通常包括用相同或相似的氨基酸定义类别中的氨基酸取代多肽中的氨基酸。例如但不限于，在一些实施方案中，具有脂肪族侧链的氨基酸被另一种脂肪族氨基酸(例如，丙氨酸、缬氨酸、亮氨酸和异亮氨酸)取代；具有羟基侧链的氨基酸被另一种具有羟基侧链的氨基酸(例如，丝氨酸和苏氨酸)取代；具有芳香族侧链的氨基酸被另一种具有芳香族侧链的氨基酸(例如，苯丙氨酸、酪氨酸、色氨酸和组氨酸)取代；具有碱性侧链的氨基酸被另一种具有碱性侧链的氨基酸(例如，赖氨酸和精氨酸)取代；具有酸性侧链的氨基酸被另一种具有酸性侧链的氨基酸(例如，天冬氨酸或谷氨酸)取代；和/或疏水氨基酸或亲水氨基酸分别被另一种疏水氨基酸或亲水氨基酸取代。

如本文使用的，“非保守取代”是指用具有显著不同的侧链性质的氨基酸取代多肽中的氨基酸。非保守取代可以使用定义的组之间而不是之内的氨基酸，并且影响(a)取代区域中的肽主链的结构(例如，脯氨酸取代甘氨酸)，(b)电荷或疏水性，或(c)侧链体积。例如但不限于，示例性非保守取代可以是用碱性或脂肪族氨基酸取代酸性氨基酸；用小氨基酸取代芳香族氨基酸；和用疏水氨基酸取代亲水氨基酸。

如本文使用的，“缺失”是指通过从参考多肽去除一个或更多个氨基酸对多肽进行的修饰。缺失可以包括去除1个或更多个氨基酸、2个或更多个氨基酸、5个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸或者20个或更多个氨基酸、多达组成参考酶的氨基酸总数的10％或多达氨基酸总数的20％，同时保留酶活性和/或保留工程化cGAS酶的改进的性质。缺失可以涉及多肽的内部部分和/或末端部分。在各种实施方案中，缺失可以包括连续的区段或可以是不连续的。氨基酸序列中的缺失通常用“-”表示。

如本文使用的，“插入”是指通过将一个或更多个氨基酸添加到参考多肽对多肽进行的修饰。插入可以处于多肽的内部部分或者可以是插入到羧基或氨基末端。如本文使用的插入包括如本领域已知的融合蛋白。插入可以是氨基酸的连续区段或由天然存在的多肽中的一个或更多个氨基酸隔开。

术语“氨基酸取代集”或“取代集”是指与参考序列相比，多肽序列中的一组氨基酸取代。取代集可以具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个或更多个氨基酸取代。在一些实施方案中，取代集是指在实施例中提供的表格中列出的任何变体cGAS酶中存在的氨基酸取代的集合。

“功能片段”和“生物活性片段”在本文可互换使用，以指如下多肽：所述多肽具有氨基末端缺失和/或羧基末端缺失和/或内部缺失，但其中剩余的氨基酸序列与和它进行比较的序列(例如，本发明的全长工程化cGAS酶)中的对应位置相同，并且保留全长多肽的基本上全部活性。

如本文使用的，“分离的多肽”是指与其天然伴随的其他污染物(例如蛋白质、脂质和多核苷酸)基本上分开的多肽。该术语包括已经从它们天然存在的环境或表达系统(例如，宿主细胞内或经由体外合成)中取出或纯化的多肽。重组cGAS多肽可以存在于细胞内、存在于细胞培养基中，或以各种形式(诸如裂解物或分离的制品)制备。因此，在一些实施方案中，重组cGAS多肽可以是分离的多肽。

如本文使用的，“大体纯的多肽”或“纯化的蛋白”是指如下组合物，在所述组合物中多肽物质是存在的主要物质(即，在摩尔或重量基础上，它比该组合物中的任何其他单独的大分子物质更丰富)，并且当目标物质构成存在的大分子物质的按摩尔或％重量计至少约50％时，通常是大体纯化的组合物。然而，在一些实施方案中，包含cGAS酶的组合物包含少于50％纯的(例如，约10％、约20％、约30％、约40％或约50％)的cGAS酶。通常，大体纯的cGAS酶组合物构成该组合物中存在的所有大分子物质的按摩尔或％重量计约60％或更多、约70％或更多、约80％或更多、约90％或更多、约95％或更多以及约98％或更多。在一些实施方案中，将目标物质纯化至基本同质(即，通过常规检测方法不能在组合物中检测出污染物物质)，其中该组合物基本上由单一大分子物质组成。溶剂物质、小分子(<500道尔顿)和元素离子物质不被认为是大分子物质。在一些实施方案中，分离的重组cGAS多肽是基本上纯的多肽组合物。

如本文使用的，“改进的酶性质”是指酶的至少一种改进的性质。在一些实施方案中，本发明提供了与参考cGAS多肽和/或野生型cGAS多肽和/或另一种工程化cGAS多肽相比显现出任何酶性质的改进的工程化cGAS多肽。因此，可以确定并比较各种cGAS多肽，包括野生型以及工程化cGAS酶之间的“改进”的水平。改进的性质包括但不限于诸如以下的性质：增加的蛋白表达、增加的热活性(thermoactivity)、增加的热稳定性、增加的pH活性、增加的稳定性、增加的酶活性、增加的底物特异性或亲和力、增加的比活性、增加的对底物或终产物抑制的抗性、增加的化学稳定性、改进的化学选择性、改进的溶剂稳定性、增加的对酸性pH的耐受性、增加的对蛋白水解活性的耐受性(即，降低的对蛋白水解的敏感性)、降低的聚集、增加的溶解度和改变的温度谱(temperature profile)。在另外的实施方案中，该术语用于指cGAS酶的至少一种改进的性质。在一些实施方案中，本发明提供了与参考cGAS多肽和/或野生型cGAS多肽和/或另一种工程化cGAS多肽相比表现出任何酶性质的改进的cGAS多肽。因此，可以确定并比较各种cGAS多肽，包括野生型以及工程化cGAS酶之间的“改进”的水平。

如本文使用的，“增加的酶活性”和“增强的催化活性”是指工程化多肽的改进的性质，可以被表示为与参考酶相比，比活性(例如产生的产物/时间/重量蛋白)的增加或将底物转化为产物的转化百分比(例如使用指定量的酶，在指定的时间段内将起始量的底物转化为产物的转化百分比)的增加。在一些实施方案中，这些术语是指本文提供的工程化cGAS多肽的改进的性质，可以被表示为与参考cGAS酶相比，比活性(例如，产生的产物/时间/重量蛋白)的增加或将底物转化为产物的百分比(例如使用指定量的cGAS酶，在指定时间段内将起始量的底物转化为产物的转化百分比)的增加。在一些实施方案中，这些术语用于指本文提供的改进的cGAS酶。在实施例中提供了确定本发明的工程化cGAS酶的酶活性的示例性方法。与酶活性相关的任何性质都可以被影响，包括典型的酶性质K_m、V_max或k_cat，其变化可以导致酶活性的增加。例如，酶活性的改进可以是对应野生型酶的酶活性的约1.1倍到相比于天然存在的cGAS酶或cGAS多肽所源自的另一种工程化cGAS酶的多达2倍、5倍、10倍、20倍、25倍、50倍、75倍、100倍、150倍、200倍或更大的酶活性。

如本文使用的，“转化”是指将一种或多于一种底物酶促转化(或生物转化)为一种或多于一种对应的产物。“转化百分比”是指在指定条件下在一定时间段内转化为产物的底物的百分比。因此，cGAS多肽的“酶活性”或“活性”可以表示为在特定时间段内底物转化为产物的“转化百分比”。

具有“通用型性质(generalist properties)”的酶(或“通用型酶(generalistenzymes)”)是指与亲本序列相比，对宽范围的底物表现出改进的活性的酶。通用型酶不必对于每种可能的底物都表现出改进的活性。在一些实施方案中，本发明提供了具有通用型性质的cGAS变体，因为相对于亲本基因，它们对宽范围的空间和电子不同的底物表现出相似或改进的活性。此外，本文提供的通用型酶被工程化为跨越宽范围的有差异的分子被改进以增加代谢物/产物的产生。

术语“严格杂交条件”在本文中用于指在该条件下核酸杂交体稳定的条件。如本领域技术人员已知的，杂交体的稳定性反映在杂交体的解链温度(T_m)中。通常，杂交体的稳定性随着离子强度、温度、G/C含量和离液剂的存在而变化。多核苷酸的T_m值可以使用用于预测解链温度的已知方法来计算(参见例如Baldino等人，Meth.Enzymol.,168:761-777[1989]；Bolton等人，Proc.Natl.Acad.Sci.USA 48:1390[1962]；Bresslauer等人，Proc.Natl.Acad.Sci.USA 83:8893-8897[1986]；Freier等人，Proc.Natl.Acad.Sci.USA83:9373-9377[1986]；Kierzek等人，Biochem.,25:7840-7846[1986]；Rychlik等人，Nucl.Acids Res.,18:6409-6412[1990](erratum,Nucl.Acids Res.,19:698[1991])；Sambrook等人，上文；Suggs等人，1981,于Developmental Biology Using Purified Genes,Brown等人，[eds.],pp.683-693,Academic Press,Cambridge,MA[1981]；以及Wetmur,Crit.Rev.Biochem.Mol.Biol.26:227-259[1991])。在一些实施方案中，多核苷酸编码本文公开的多肽，并且在限定的条件下，诸如中度严格或高度严格条件下，与编码本发明的工程化cGAS酶的序列的互补序列杂交。

如本文使用的，“杂交严格性”是指核酸杂交中的杂交条件，诸如洗涤条件。通常，杂交反应在较低严格性的条件下进行，随后是不同的但较高严格性的洗涤。术语“中度严格杂交”是指允许靶DNA结合与靶DNA具有约60％同一性、优选地约75％同一性、约85％同一性以及与靶多核苷酸具有大于约90％同一性的互补核酸的条件。示例性中度严格条件是等同于在50％甲酰胺、5×Denhart溶液、5×SSPE、0.2％ SDS中在42℃杂交，随后在0.2×SSPE、0.2％ SDS中在42℃洗涤的条件。“高严格性杂交”通常是指与如对限定的多核苷酸序列在溶液条件下确定的热解链温度T_m相差约10℃或更小的条件。在一些实施方案中，高严格性条件是指仅允许在0.018M NaCl中在65℃形成稳定杂交体的那些核酸序列的杂交的条件(即，如果杂交体在0.018M NaCl中在65℃是不稳定的，它在如本文设想的高严格性条件下将是不稳定的)。例如，高严格性条件可以通过在等同于在50％甲酰胺、5×Denhart溶液、5×SSPE、0.2％ SDS在42℃的条件杂交，然后在0.1×SSPE和0.1％ SDS中在65℃洗涤提供。另一种高严格性条件是在等同于在含有0.1％(w/v)SDS的5X SSC中在65℃杂交的条件进行杂交和在含有0.1％SDS的0.1×SSC中在65℃洗涤。其他高严格性杂交条件以及中度严格条件在上文引用的参考文献中描述。

如本文使用的，“密码子优化的”是指编码蛋白的多核苷酸的密码子改变为在特定生物体中优先使用的那些密码子，使得编码的蛋白在感兴趣的生物体中有效地表达。尽管遗传密码是简并的，即大多数氨基酸由被称为“同义”(“synonyms”)或“同义”(“synonymous”)密码子的若干密码子表示，但熟知的是，特定生物体的密码子使用是非随机的和对于特定的密码子三联体是有偏倚的。就给定基因、具有共同功能或祖先起源的基因、高表达的蛋白对比低拷贝数蛋白和生物体的基因组的聚集蛋白编码区而言，这种密码子使用偏倚可能更高。在一些实施方案中，可以对编码cGAS酶的多核苷酸进行密码子优化，用于在选择用于表达的宿主生物体中的最佳产生。

如本文使用的，“优选的”、“最佳的”和“高密码子使用偏倚”密码子在单独或组合使用时，可以互换地指在蛋白编码区中以高于编码相同氨基酸的其他密码子的频率使用的密码子。优选的密码子可以根据单个基因、具有共同功能或起源的一组基因、高表达基因中的密码子使用、整个生物体的聚集蛋白编码区中的密码子频率、相关生物体的聚集蛋白编码区中的密码子频率，或它们的组合来确定。其频率随着基因表达的水平而增加的密码子通常是用于表达的最佳密码子。用于确定特定生物体中密码子频率(例如密码子使用、相对同义密码子使用)和密码子偏好的各种方法是已知的，包括多变量分析，例如使用聚类分析或相关性分析，和基因中使用的密码子的有效数目(参见例如，GCG CodonPreference,Genetics Computer Group Wisconsin Package；CodonW,Peden,University ofNottingham；McInerney,Bioinform.,14:372-73[1998]；Stenico等人,Nucl.Acids Res.,222437-46[1994]；以及Wright,Gene 87:23-29[1990])。许多不同的生物体的密码子使用表是可用的(参见例如，Wada等人,Nucl.Acids Res.,20:2111-2118[1992]；Nakamura等人,Nucl.Acids Res.,28:292[2000]；Duret等人,上文；Henaut和Danchin,于Escherichia coli and Salmonella中,Neidhardt等人.(编著),ASM Press,Washington D.C.,第2047-2066页[1996])。用于获得密码子使用的数据源可以依赖于能够编码蛋白的任何可获得的核苷酸序列。这些数据集包括实际已知编码表达的蛋白的核酸序列(例如，完整的蛋白编码序列-CDS)、表达的序列标签(ESTS)，或基因组序列的预测编码区(参见例如，Mount,Bioinformatics: Sequence and Genome Analysis,第8章,Cold Spring HarborLaboratory Press,Cold Spring Harbor,N.Y.[2001]；Uberbacher,Meth.Enzymol.,266:259-281[1996]；以及Tiwari等人,Comput.Appl.Biosci.,13:263-270[1997])。

如本文使用的，“控制序列”包括对本发明的多核苷酸和/或多肽的表达是必需或有利的所有组分。每一个控制序列对于编码多肽的核酸序列可以是天然的或外来的。这样的控制序列包括但不限于，前导序列、多腺苷酸化序列、前肽序列、启动子序列、信号肽序列、起始序列和转录终止子。在最小程度上，控制序列包括启动子和转录及翻译终止信号。控制序列可以与接头一起被提供，以用于导入促进控制序列与编码多肽的核酸序列的编码区的连接的特定限制性位点的目的。

“可操作地连接”在本文被定义为其中控制序列被放置在相对于感兴趣的多核苷酸的适当位置(即，以功能关系)处，使得控制序列指导或调节感兴趣的多核苷酸和/或多肽的表达的配置。

“启动子序列”指被宿主细胞识别用于感兴趣的多核苷酸诸如编码序列的表达的核酸序列。启动子序列包括介导感兴趣的多核苷酸的表达的转录控制序列。启动子可以是在选择的宿主细胞中显示转录活性的任何核酸序列，包括突变、截短的和杂合启动子，并且可以从编码与宿主细胞同源或异源的细胞外或细胞内多肽的基因来获得。

短语“合适的反应条件”是指在酶促转化反应溶液中的那些条件(例如，酶载量(enzyme loading)、底物载量、温度、pH、缓冲剂、助溶剂等的范围)，在所述条件下本发明的cGAS多肽能够将底物转化为期望的产物化合物。一些示例性的“合适的反应条件”在本文中提供。

如本文使用的，“载量”，诸如在“化合物载量”或“酶载量”中，是指在反应起始时组分在反应混合物中的浓度或量。

如本文使用的，在酶促转化反应过程的情况下，“底物”是指由本文提供的工程化酶(例如工程化cGAS多肽)作用的化合物或分子。

如本文使用的，当反应期间存在的特定组分(例如cGAS酶)导致，与相同条件下用相同底物和其他取代物、但不存在感兴趣的组分的情况下进行的反应相比产生更多的产物时，发生反应产物(例如脱氧核糖磷酸类似物)的产率“增加”。

如果与参与催化反应的其他酶相比，特定酶的量少于约2％、约1％、或约0.1％(wt/wt)，则该反应被称为“基本上不含”该酶。

如本文使用的，使液体(例如，培养肉汤)“分级分离”意指应用分离过程(例如，盐沉淀、柱色谱、尺寸排阻和过滤)或这些过程的组合以提供这样的溶液：其中期望的蛋白占溶液中的总蛋白的百分比比在初始液体产物中的更大。

如本文使用的，“起始组合物”是指包含至少一种底物的任何组合物。在一些实施方案中，起始组合物包含任何合适的底物。

如本文使用的，在酶促转化过程的上下文中的“产物”是指酶多肽对底物的作用所产生的化合物或分子。

如本文使用的，“平衡”如本文使用的是指在化学或酶促反应(例如，两种物质A和B的相互转化)中导致化学物质稳定状态浓度的过程，包括立体异构体的相互转化，如由化学或酶促反应的正向速率常数和反向速率常数确定的。

如本文使用的，“烷基(alkyl)”是指具有从1至18个碳原子(包括端点)的，直链的或支链的，更优选地从1个至8个碳原子(包括端点)，并且最优选地1个至6个碳原子(包括端点)的饱和烃基团。具有指定数目的碳原子的烷基在括号中表示(例如(C1-C4)烷基是指1个至4个碳原子的烷基)。

如本文使用的，“烯基”是指具有从2个至12个碳原子(包括端点)的、直链或支链的、包含至少一个双键但任选地包含多于一个双键的基团。

如本文使用的，“炔基”是指具有从2个至12个碳原子(包括端点)的、直链或支链的、包含至少一个三键但任选地包含多于一个三键，并且另外任选地包含一个或更多个双键键合部分的基团。

如本文使用的，“杂烷基”、“杂烯基”和“杂炔基”是指其中一个或更多个碳原子各自独立地被相同或不同的杂原子或杂原子基团替代的如本文定义的烷基、烯基和炔基。可以替代碳原子的杂原子和/或杂原子基团包括但不限于-O-、-S-、-S-O-、-NRα-、-PH-、-S(O)-、-S(O)2-、-S(O)NRα-、-S(O)2NRα-等，包括其组合，其中每个Rα独立地选自氢、烷基、杂烷基、环烷基、杂环烃基、芳基和杂芳基。

如本文使用的，“烷氧基”是指基团“-ORβ”，其中Rβ是如上文定义的烷基基团，包括也如本文定义的任选地被取代的烷基基团。

如本文使用的，“芳基”是指具有单环(例如，苯基)或多于一个稠环(例如，萘基或蒽基)的具有从6个至12个碳原子(包括端点)的不饱和芳族碳环基团。示例性芳基包括苯基、吡啶基、萘基等。

如本文使用的，“氨基”是指基团“-NH2”。被取代的氨基是指基团：-NHRδ、NRδRδ和NRδRδRδ，其中每个Rδ独立地选自被取代的或未被取代的烷基、环烷基、环杂烷基、烷氧基、芳基、杂芳基、杂芳基烷基、酰基、烷氧基羰基、硫烷基、亚磺酰基(sulfenyl)、磺酰基等。典型的氨基基团包括但不限于二甲基氨基、二乙基氨基、三甲基铵、三乙基铵、甲基磺酰基氨基、呋喃基-氧基-磺氨基等。

如本文使用的，“氧/氧代(oxo)”是指＝O。

如本文使用的，“氧基”是指二价基团“-O-”，其可以具有各种取代基以形成不同的氧基基团，包括醚和酯。

如本文使用的，“羧基”是指-COOH。

如本文使用的，“羰基”是指-C(O)-，其可以具有各种取代基以形成不同的羰基基团，包括酸、酸性卤化物、醛、酰胺、酯和酮。

如本文使用的，“烷基氧基羰基”是指-C(O)ORε，其中Rε是如本文定义的烷基基团，其可以被任选地取代。

如本文使用的，“氨基羰基”是指-C(O)NH₂。被取代的氨基羰基是指-C(O)NRδRδ，其中氨基基团NRδRδ是如本文定义的。

如本文使用的，“卤素(halogen)”和“卤代(halo)”是指氟、氯、溴和碘。

如本文使用的，“羟基”是指-OH。

如本文使用的，“氰基”是指-CN。

如本文使用的，“杂芳基”是指在环内具有1至10个碳原子(包括端点)和1至4个选自氧、氮和硫的杂原子(包括端点)的芳族杂环基团。这样的杂芳基基团可以具有单环(例如，吡啶基或呋喃基)或多于一个稠环(例如，吲嗪基(indolizinyl)或苯并噻吩基)。

如本文使用的，“杂芳基烷基”是指被杂芳基取代的烷基(即，“杂芳基-烷基-”基团)，优选地在烷基部分中具有1个至6个碳原子(包括端点)并且在杂芳基部分中具有5个至12个环原子(包括端点)。这样的杂芳基烷基基团的实例是吡啶基甲基等。

如本文使用的，“杂芳基烯基”是指被杂芳基取代的烯基(即，“杂芳基-烯基-”基团)，优选地在烯基部分中具有2个至6个碳原子(包括端点)并且在杂芳基部分中具有5个至12个环原子(包括端点)。

如本文使用的，“杂芳基炔基”是指被杂芳基取代的炔基(即，“杂芳基-炔基-”基团)，优选地在炔基部分中具有2个至6个碳原子(包括端点)并且在杂芳基部分中具有从5个至12个环原子(包括端点)。

如本文使用的，“杂环”、“杂环的”和可互换的“杂环烃基(heterocycloalkyl)”是指具有单环或多于一个稠环的、具有2个至10个碳环原子(包括端点)和1个至4个在环内的选自氮、硫或氧的杂环原子(包括端点)的饱和的或不饱和基团。这样的杂环基团可以具有单环(例如，哌啶基或四氢呋喃基)或多于一个稠环(例如，二氢吲哚基、二氢苯并呋喃或奎宁环基(quinuclidinyl))。杂环的实例包括但不限于呋喃、噻吩、噻唑、噁唑、吡咯、咪唑、吡唑、吡啶、吡嗪、嘧啶、哒嗪、吲嗪、异吲哚、吲哚、吲唑、嘌呤、喹嗪(quinolizine)、异喹啉、喹啉、酞嗪(phthalazine)、萘基吡啶、喹喔啉、喹唑啉、噌啉、蝶啶、咔唑(carbazole)、咔啉(carboline)、菲啶(phenanthridine)、吖啶、菲咯啉(phenanthroline)、异噻唑、吩嗪(phenazine)、异噁唑、吩噁嗪(phenoxazine)、吩噻嗪(phenothiazine)、四氢咪唑(imidazolidine)、咪唑啉(imidazoline)、哌啶、哌嗪、吡咯烷、二氢吲哚等。

如本文使用的，“元环”意图涵盖任何环状结构。术语“元”之前的数字表示构成环的主链原子的数目。因此，例如环己基、吡啶、吡喃和噻喃是6元环，并且环戊基、吡咯、呋喃和噻吩是5元环。

除非另有指定，否则在前述基团中被氢占据的位置可以用以下取代基进一步取代，所述取代基例如但不限于：羟基、氧代、硝基、甲氧基、乙氧基、烷氧基、被取代的烷氧基、三氟甲氧基、卤代烷氧基、氟、氯、溴、碘、卤代、甲基、乙基、丙基、丁基、烷基、烯基、炔基、被取代的烷基、三氟甲基、卤代烷基、羟基烷基、烷氧基烷基、硫基、烷硫基、酰基、羧基、烷氧基羰基、甲酰氨基、被取代的甲酰氨基、烷基磺酰基、烷基亚磺酰基、烷基磺酰基氨基、磺酰氨基、被取代的磺酰氨基、氰基、氨基、被取代的氨基、烷基氨基、二烷基氨基、氨基烷基、酰基氨基、脒基、脒肟基(amidoximo)、羟基甲酰基(hydroxamoyl)、苯基、芳基、被取代的芳基、芳氧基、芳基烷基、芳基烯基、芳基炔基、吡啶基、咪唑基、杂芳基、被取代的杂芳基、杂芳氧基、杂芳基烷基、杂芳基烯基、杂芳基炔基、环丙基、环丁基、环戊基、环己基、环烷基、环烯基、环烷基烷基、被取代的环烷基、环烷基氧基、吡咯烷基、哌啶基、吗啉代、杂环、(杂环)氧基和(杂环)烷基；并且优选的杂原子是氧、氮和硫。应理解，当在这些取代基上存在开放化合价时，它们可以进一步被烷基、环烷基、芳基、杂芳基和/或杂环基团取代，当碳上存在这些开放化合价时，它们可以进一步被卤素和被氧-、氮-或硫-键合的取代基取代，并且当存在多于一个这样的开放化合价时，这些基团可以通过直接形成键或通过与新的杂原子(优选地，氧、氮或硫)形成键而连接以形成环。还应理解，可以进行上文的取代，条件是用取代基替代氢不会对本发明的分子带来不可接受的不稳定性，并且在其他方面在化学上是合理的。

如本文使用的术语“培养”指微生物细胞群体在任何合适的条件(例如，使用液体、凝胶或固体培养基)下的生长。

在一些实施方案中，可使用“重组cGAS多肽”(在本文中也被称为“工程化cGAS多肽”、“变体cGAS酶”、“cGAS变体”和“cGAS组合变体”)。

如本文使用的，“载体”为用于将DNA序列导入到细胞中的DNA构建体。在一些实施方案中，载体为被可操作地连接至能够实现DNA序列中编码的多肽在合适宿主中的表达的合适的控制序列的表达载体。在一些实施方案中，“表达载体”具有可操作地连接至DNA序列(例如，转基因)以驱动在宿主细胞中表达的启动子序列，并且在一些实施方案中，还包含转录终止子序列。

如本文使用的，术语“表达”包括多肽产生所涉及的任何步骤，包括但不限于，转录、转录后修饰、翻译和翻译后修饰。在一些实施方案中，该术语还包括多肽从细胞的分泌。

如本文使用的，术语“产生”指蛋白和/或其他化合物由细胞的产生。意图该术语包括多肽产生所涉及的任何步骤，包括但不限于，转录、转录后修饰、翻译和翻译后修饰。在一些实施方案中，该术语还包括多肽从细胞的分泌。

如本文使用的，如果氨基酸或核苷酸序列(例如，启动子序列、信号肽、终止子序列等)与它被可操作地连接至的另一个序列在自然界中未缔合，则这两个序列为异源的。例如“异源”多核苷酸是通过实验室技术被引入宿主细胞的任何多核苷酸，并且包括从宿主细胞中取出、进行实验室操作并且然后重新引入宿主细胞的多核苷酸。

如本文使用的，术语“宿主细胞”和“宿主菌株”是指包含本文提供的DNA(例如，编码cGAS变体的多核苷酸)的表达载体的合适的宿主。在一些实施方案中，宿主细胞是已经用使用如本领域已知的重组DNA技术构建的载体转化或转染的原核细胞或真核细胞。

术语“类似物”意指与参考多肽具有多于70％序列同一性，但少于100％序列同一性(例如，多于75％、78％、80％、83％、85％、88％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％序列同一性)的多肽。在一些实施方案中，类似物意指包含一个或更多个非天然存在的氨基酸残基(包括但不限于高精氨酸、鸟氨酸和正缬氨酸)以及天然存在的氨基酸的多肽。在一些实施方案中，类似物还包括一个或更多个D-氨基酸残基以及两个或更多个氨基酸残基之间的非肽连接。当用于指化学结构或化合物时，术语“类似物”是指类似的化学结构或化合物，其中与参考化学结构或化合物相比，一个或更多个取代基或化学基团已经被取代。

术语“有效量”意指足以产生期望的结果的量。本领域普通技术人员可以通过使用常规实验确定有效量。

术语“分离的”和“纯化的”用于指从与其天然缔合的至少一种其他组分分开的分子(例如，分离的核酸、多肽等)或其他组分。术语“纯化的”不要求绝对纯度，而是意图作为相对定义。

如本文使用的，“立体选择性”是指在化学或酶促反应中一种立体异构体相比另一种立体异构体优先形成。立体选择性可以是部分的，其中一种立体异构体的形成优于另一种，或者其可以是完全的，其中只形成一种立体异构体。当立体异构体是对映异构体时，立体选择性被称为对映选择性，即两种对映体的总和中一种对映体的分数(通常以百分比报告)。本领域通常可选地报告其为根据下式从中计算的对映体过量(“e.e.”)(通常为百分比)：[主要对映异构体-次要对映异构体]/[主要对映异构体+次要对映异构体]。当立体异构体是非对映异构体时，立体选择性被称为非对映选择性，即两种非对映异构体的混合物中一种非对映异构体的分数(通常报告为百分比)，通常可选地报告为非对映异构体过量(“d.e.”)。对映异构体过量和非对映体过量是立体异构过量的类型。

如本文使用的，“区域选择性”和“区域选择性反应”是指其中一个键形成或断裂方向优先于所有其他可能方向发生的反应。如果区分是完全的，则反应可以是完全(100％)区域选择性的；如果一个位点的反应产物相比其他位点的反应产物占主导地位，则是基本上区域选择性的(至少75％)，或者部分地区域选择性的(x％，其中百分比取决于感兴趣的反应设置)。

如本文使用的，“化学选择性”是指在化学或酶促反应中一种产物相比另一种产物优先形成。

如本文使用的，“pH稳定的”是指与未处理的酶相比，在暴露于高或低的pH(例如4.5-6或8至12)一段时间(例如0.5-24小时)后维持类似活性(例如多于60％至80％)的cGAS多肽。

如本文使用的，“热稳定的”是指与暴露于相同的升高的温度的野生型酶相比，在暴露于升高的温度(例如40-80℃)一定时间段(例如0.5-24h)后，保持相似活性(例如多于60％至80％)的cGAS多肽。

如本文使用的，“溶剂稳定的”是指与暴露于相同浓度的相同溶剂的野生型酶相比，在暴露于不同浓度(例如5％-99％)的溶剂(乙醇、异丙醇、二甲基亚砜[DMSO]、四氢呋喃、2-甲基四氢呋喃、丙酮、甲苯、乙酸丁酯、甲基叔丁基醚等)一定时间段(例如0.5h至24h)后，保持相似活性(多于例如60％至80％)的cGAS多肽。

如本文使用的，“热稳定且溶剂稳定的”是指既热稳定又溶剂稳定的cGAS多肽。

如本文使用的，“任选的”和“任选地”意指随后描述的事件或情形可以发生或可以不发生，并且意指该描述包括当该事件或情形发生的情况和其中该事件或情形不发生的情况。本领域普通技术人员将理解，对于被描述为含有一种或更多种任选的取代基的任何分子，仅意在包括空间上可实现的和/或合成上可行的化合物。

如本文使用的，“任选地被取代的”是指术语或化学基团系列中的所有后续修饰对象(modifier)。例如，在术语“任选地被取代的芳基烷基”中，分子的“烷基”部分和“芳基”部分可以被取代或可以不被取代，并且对于系列“任选地被取代的烷基、环烷基、芳基和杂芳基”，烷基、环烷基、芳基和杂芳基基团彼此独立地可以被取代或可以不被取代。

发明详述

在一些实施方案中，本发明提供了适用于产生环状二核苷酸诸如cGAMP的酶。本发明被开发是为了解决酶产生这些环状二核苷酸的潜在用途。在一些实施方案中，本发明提供了可用于产生化合物的酶，其得到了用于化合物(1)的非天然环状二核苷酸的体外酶促合成方法。

化合物(1)

在一些实施方案中，本发明提供了适用于产生环状二核苷酸的工程化酶。在一些实施方案中，本发明提供了适用于产生非天然环状二核苷酸的工程化酶。在一些实施方案中，非天然环状二核苷酸是硫代和/或氟化的环状二核苷酸。在一些实施方案中，非天然环状二核苷酸是化合物(1)。

cGAMP的非天然衍生物，包括化合物(1)，正在癌症疗法中被研究。已知cGAMP(一种环状二核苷酸)起到第二信使的作用，该第二信使通过内质网传感器STING刺激先天免疫。STING的cGAMP活化被证明通过诱导干扰素的产生和刺激树突状细胞在小鼠中具有抗肿瘤作用(Li等人,Sci.Rep.6:19049[2016])。cGAMP是由作为外来核酸的细胞传感器的环状GMP-AMP合酶(cGAS)响应于双链DNA(dsDNA)而产生的(Gao等人,Cell.153:1094-1107[2013])。cGAS活性需要dsDNA的结合，而单链DNA(ssDNA)或RNA配体的结合分别仅产生弱活性或不产生活性。与dsDNA的结合诱导cGAS向活性酶状态的构象变化(Kranzusch等人,CellRep.3(5):1362-1368[2013])。

已经产生了若干种cGAS晶体结构，包括鼠cGAS和人类cGAS。这些晶体结构揭示了若干个保守结构域，包括核苷酸转移酶核心、锌指结构域和C-末端结构域(Gao等人,Cell.153(5):1094-1107[2013]；Kranzusch等人,Cell Rep.3(5):1362-1368[2013])。除了结合的dsDNA之外，cGAS还需要二价金属阳离子(通常是Mn²⁺或Mg²⁺)进行活性。cGAS能够产生若干种非对映异构体形式的cGAMP，这取决于是(s)核苷三磷酸还是(r)核苷三磷酸被用作底物。期望的非对映异构体形式是(r,r)(化合物)(1))，其是由Sp-3’氟-3’-脱氧鸟苷-5’-(1-硫代)-三磷酸(F-thioGTP或化合物(2))和Sp-2’氟-ara-腺苷-5’-1-硫代-三磷酸(F-thioATP或化合物(3))的cGAS转化产生的。

方案1：通过cGAS产生化合物(1)

然而，野生型cGAS同源物对非天然底物Sp-3’F-thioGTP(化合物(2))和Sp-2’F-thioATP(化合物(3))的活性和非对映选择性是低的，并且产物抑制阻止了工业规模的显著转化。因此，与野生型cGAS相比具有改进的性质的工程化cGAS酶是产生化合物(1)所必需的。cGAS的底物化合物(2)和化合物(3)分别由鸟苷酸激酶和腺苷酸激酶连同乙酸激酶(AcK)产生，乙酸激酶(AcK)使F-thioATP再循环并将鸟苷酸激酶和腺苷酸激酶的核苷二磷酸产物转化为核苷三磷酸，参见方案2。

方案2：用于产生化合物(1)的多酶反应

工程化cGAS多肽

本发明提供了工程化cGAS多肽、编码该多肽的多核苷酸、制备该多肽的方法以及使用该多肽的方法。在描述涉及多肽的情况下，应理解，它还描述了编码该多肽的多核苷酸。在一些实施方案中，本发明提供了与野生型cGAS酶相比具有改进的性质的工程化、非天然存在的cGAS酶。

在一些实施方案中，本发明提供了工程化cGAS酶，其中工程化cGAS酶包含与SEQID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多相同的多肽序列。在一些实施方案中，工程化cGAS酶包括SEQ ID NO:2、SEQ IDNO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666中所列的变体工程化cGAS酶。

本发明还提供了工程化cGAS酶，其中与野生型白头海雕cGAS酶相比，所述工程化cGAS酶包含至少一种改进的性质。在一些实施方案中，改进的性质包括改进的对底物的活性。在一些另外的实施方案中，底物包括Sp-3’F-thioGTP(化合物(2))和Sp-2’F-thioATP(化合物(3))。在一些实施方案中，改进的性质包括降低的底物抑制。在一些实施方案中，改进的性质包括改进的底物耐受性。在一些另外的实施方案中，改进的性质包括改进的化合物(1)的产生。在一些实施方案中，改进的性质包括增加的稳定性。在又一些另外的实施方案中，工程化cGAS酶是纯化的。本发明还提供了组合物，所述组合物包含至少一种本文提供的工程化cGAS酶。

如技术人员将理解的，在一些实施方案中，选择的以上残基差异之一或其组合可以作为核心特征在工程化cGAS酶中保持恒定(即维持)，并且在其他残基位置处的另外的残基差异可以被掺入到序列中以产生具有改进的性质的另外的工程化cGAS多肽。因此，应理解，对于含有以上残基差异中的一个或子集的任何工程化cGAS酶，本发明设想了包含所述残基差异中的一个或子集并且在本文公开的其他残基位置处另外包含一个或更多个残基差异的其他工程化cGAS酶。

在一些实施方案中，工程化cGAS多肽能够以相对于参考多肽SEQ ID NO:2、SEQ IDNO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666的活性至少1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍或更多倍的活性将底物化合物转化为产物化合物。在一些实施方案中，能够以相对于参考多肽SEQ ID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666的活性至少1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍或更多倍的活性将底物化合物转化为产物化合物的工程化cGAS多肽包含具有一个或更多个选自改进的立体选择性、改进的活性、改进的比活性、降低的底物抑制和/或改进的热稳定性的特征的氨基酸序列。

在一些实施方案中，工程化cGAS多肽能够以相对于SEQ ID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666至少1.2倍的活性将底物化合物转化为产物化合物，并且包含选自以下范围内的偶数编号序列的氨基酸序列：SEQ ID NO:4-SEQ ID NO:812。

在一些实施方案中，工程化cGAS多肽能够以相对于SEQ ID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666至少2倍的活性将底物化合物转化为产物化合物，并且包含具有一个或更多个如本文提供的残基差异的氨基酸序列(与SEQ ID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666相比，如果适用的话)。

在一些实施方案中，能够以相对于SEQ ID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666至少2倍的活性将底物化合物转化为产物化合物的工程化cGAS多肽包含选自以下范围内的偶数编号序列的氨基酸序列：SEQ IDNO:4-SEQ ID NO:812。

在一些实施方案中，工程化cGAS多肽能够在HTP测定条件下、在SFP测定条件下或在DSP测定条件下，在F-thioATP和F-thioGTP中的每一种为约1mM-3mM的底物载量，在24h或更短时间内将至少1％至8％以上的底物化合物转化为产物化合物。

在一些实施方案中，具有cGAS活性的工程化多肽包含与以下范围内的偶数编号序列中的一个具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％同一性的氨基酸序列：SEQ ID NO:4-SEQ ID NO:812，以及与SEQ ID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ IDNO:666相比在以下范围内的偶数编号序列中的任何一个中存在的氨基酸残基差异：SEQ IDNO:2-SEQ ID NO:442，如表2-1、表3-1、表4-1、表5-1、表5-2、表5-3、表6-1、表6-2和/或表7-1中提供的。

除了上文指定的残基位置之外，本文公开的任何工程化cGAS多肽还可以包含相对于SEQ ID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQID NO:666在其他残基位置(即，除了在以下范围内的偶数编号序列中的任何一个中包含的残基位置之外的残基位置：SEQ ID NO:4-SEQ ID NO:812)处的其他残基差异。这些其他残基位置处的残基差异可以提供氨基酸序列的另外的变化，而不会不利地影响多肽进行底物向产物的转化的能力。因此，在一些实施方案中，除了选自在以下范围内的偶数编号序列的工程化cGAS多肽中的任何一个中存在的氨基酸残基差异之外：SEQ ID NO:4-SEQ ID NO:812，序列还可以包含与SEQ ID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQID NO:566和/或SEQ ID NO:666相比在其他氨基酸残基位置处的1个-2个、1个-3个、1个-4个、1个-5个、1个-6个、1个-7个、1个-8个、1个-9个、1个-10个、1个-11个、1个-12个、1个-14个、1个-15个、1个-16个、1个-18个、1个-20个、1个-22个、1个-24个、1个-26个、1个-30个、1个-35个、1个-40个、1个-45个或1个-50个残基差异。在一些实施方案中，与参考序列相比的氨基酸残基差异的数目可以是1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个、30个、35个、40个、45个或50个残基位置。在一些实施方案中，与参考序列相比的氨基酸残基差异的数目可以是1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、18个、20个、21个、22个、23个、24个或25个残基位置。在这些其他位置处的残基差异可以是保守变化或非保守变化。在一些实施方案中，与SEQ ID NO:2、SEQ ID NO:34、SEQ IDNO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666的cGAS多肽相比，残基差异可以包括保守取代和非保守取代。

在一些实施方案中，本发明还提供了包含保持本文描述的任何工程化cGAS酶的功能活性和/或改进的性质的该工程化cGAS多肽的片段的工程化多肽。因此，在一些实施方案中，本发明提供了能够在合适的反应条件下将底物化合物转化为产物化合物的多肽片段，其中该片段包含本发明的工程化cGAS酶的全长氨基酸序列的至少约80％、90％、95％、96％、97％、98％或99％，本发明的工程化cGAS酶诸如选自以下范围内的偶数编号序列的示例性工程化cGAS多肽：SEQ ID NO:4-SEQ ID NO:812。

在一些实施方案中，工程化cGAS多肽可以具有包含本文描述的工程化cGAS多肽序列的任何一个中的缺失的氨基酸序列，本文描述的工程化cGAS多肽序列诸如在以下范围内的偶数编号序列的示例性工程化多肽：SEQ ID NO:4-SEQ ID NO:812。因此，对于本发明的工程化cGAS多肽的各种和每一种实施方案，氨基酸序列可以包含1个或更多个氨基酸、2个或更多个氨基酸、3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或20个或更多个氨基酸、多达cGAS多肽的氨基酸总数的10％、多达氨基酸总数的20％、或多达氨基酸总数的30％的缺失，其中本文描述的工程化cGAS酶的相关的功能活性和/或改进的性质被保持。在一些实施方案中，缺失可以包含1个-2个、1个-3个、1个-4个、1个-5个、1个-6个、1个-7个、1个-8个、1个-9个、1个-10个、1个-15个、1个-20个、1个-21个、1个-22个、1个-23个、1个-24个、1个-25个、1个-30个、1个-35个、1个-40个、1个-45个或1个-50个氨基酸残基。在一些实施方案中，缺失的数目可以是1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个、30个、35个、40个、45个或50个氨基酸残基。在一些实施方案中，缺失可以包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、18个、20个、21个、22个、23个、24个或25个氨基酸残基的缺失。

在一些实施方案中，本文的工程化cGAS多肽可以具有与本文描述的工程化cGAS多肽的任何一个相比包含插入的氨基酸序列，本文描述的工程化cGAS多肽诸如在以下范围内的偶数编号序列的示例性工程化多肽：SEQ ID NO:4-SEQ ID NO:812。因此，对于本发明的cGAS多肽的各种和每一种实施方案，插入可以包含1个或更多个氨基酸、2个或更多个氨基酸、3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、20个或更多个氨基酸、30个或更多个氨基酸、40个或更多个氨基酸或50个或更多个氨基酸，其中本文描述的工程化cGAS酶的相关功能活性和/或改进的性质被保持。插入可以是插入到cGAS多肽的氨基末端或羧基末端，或内部部分。

在一些实施方案中，本文的工程化cGAS多肽可以具有以下氨基酸序列，所述氨基酸序列包含选自在以下范围内的偶数编号序列的序列：SEQ ID NO:4-SEQ ID NO:812，和任选地一个或数个(例如多达3个、4个、5个或多达10个)氨基酸残基缺失、插入和/或取代的氨基酸序列。在一些实施方案中，氨基酸序列任选地具有1个-2个、1个-3个、1个-4个、1个-5个、1个-6个、1个-7个、1个-8个、1个-9个、1个-10个、1个-15个、1个-20个、1个-21个、1个-22个、1个-23个、1个-24个、1个-25个、1个-30个、1个-35个、1个-40个、1个-45个或1个-50个氨基酸残基缺失、插入和/或取代。在一些实施方案中，氨基酸序列任选地具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个、30个、35个、40个、45个或50个氨基酸残基缺失、插入和/或取代。在一些实施方案中，氨基酸序列任选地具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、18个、20个、21个、22个、23个、24个或25个氨基酸残基缺失、插入和/或取代。在一些实施方案中，取代可以是保守取代或非保守取代。

在上文的实施方案中，用于工程化多肽的合适的反应条件可以如实施例中描述的。

在一些实施方案中，本发明的多肽是融合多肽，其中工程化多肽与其他多肽融合，所述其他多肽诸如，例如但不限于抗体标签(例如myc表位)、纯化序列(例如用于结合金属的His标签、用于溶解的SUMO标签)和细胞定位信号(例如分泌信号)。因此，本文描述的工程化多肽可以与其他多肽融合或不融合使用。

应理解，本文描述的多肽不限于遗传编码的氨基酸。除了遗传编码的氨基酸之外，本文描述的多肽可以全部地或部分地包含天然存在的和/或合成的非编码氨基酸。本文描述的多肽可以包含的某些常见的非编码氨基酸包括但不限于：遗传编码的氨基酸的D-立体异构体；2,3-二氨基丙酸(Dpr)；α-氨基异丁酸(Aib)；ε-氨基己酸(Aha)；δ-氨基戊酸(Ava)；N-甲基甘氨酸或肌氨酸(MeGly或Sar)；鸟氨酸(Orn)；瓜氨酸(Cit)；叔丁基丙氨酸(Bua)；叔丁基甘氨酸(Bug)；N-甲基异亮氨酸(MeIle)；苯基甘氨酸(Phg)；环己基丙氨酸(Cha)；正亮氨酸(Nle)；萘基丙氨酸(Nal)；2-氯苯丙氨酸(Ocf)；3-氯苯丙氨酸(Mcf)；4-氯苯丙氨酸(Pcf)；2-氟苯丙氨酸(Off)；3-氟苯丙氨酸(Mff)；4-氟苯丙氨酸(Pff)；2-溴苯丙氨酸(Obf)；3-溴苯丙氨酸(Mbf)；4-溴苯丙氨酸(Pbf)；2-甲基苯丙氨酸(Omf)；3-甲基苯丙氨酸(Mmf)；4-甲基苯丙氨酸(Pmf)；2-硝基苯丙氨酸(Onf)；3-硝基苯丙氨酸(Mnf)；4-硝基苯丙氨酸(Pnf)；2-氰基苯丙氨酸(Ocf)；3-氰基苯丙氨酸(Mcf)；4-氰基苯丙氨酸(Pcf)；2-三氟甲基苯丙氨酸(Otf)；3-三氟甲基苯丙氨酸(Mtf)；4-三氟甲基苯丙氨酸(Ptf)；4-氨基苯丙氨酸(Paf)；4-碘代苯丙氨酸(Pif)；4-氨基甲基苯丙氨酸(Pamf)；2,4-二氯苯丙氨酸(Opef)；3,4-二氯苯丙氨酸(Mpcf)；2,4-二氟苯丙氨酸(Opff)；3,4-二氟苯丙氨酸(Mpff)；吡啶-2-基丙氨酸(2pAla)；吡啶-3-基丙氨酸(3pAla)；吡啶-4-基丙氨酸(4pAla)；萘-1-基丙氨酸(1nAla)；萘-2-基丙氨酸(2nAla)；噻唑基丙氨酸(taAla)；苯并噻吩基丙氨酸(bAla)；噻吩基丙氨酸(tAla)；呋喃基丙氨酸(fAla)；高苯丙氨酸(hPhe)；高酪氨酸(hTyr)；高色氨酸(hTrp)；五氟苯丙氨酸(5ff)；苯乙烯基丙氨酸(styrylkalanine，sAla)；蒽基丙氨酸(aAla)；3,3-二苯基丙氨酸(Dfa)；3-氨基-5-苯基戊酸(Afp)；青霉胺(Pen)；1,2,3,4-四氢异喹啉-3-羧酸(Tic)；β-2-噻吩基丙氨酸(Thi)；甲硫氨酸亚砜(Mso)；N(w)-硝基精氨酸(nArg)；高赖氨酸(hLys)；膦酰基甲基苯丙氨酸(pmPhe)；磷酸丝氨酸(pSer)；磷酸苏氨酸(pThr)；高天冬氨酸(hAsp)；高谷氨酸(hGlu)；1-氨基环戊-(2或3)-烯-4-羧酸；哌可酸(pipecolic acid，PA)；氮杂环丁烷-3-羧酸(ACA)；1-氨基环戊烷-3-羧酸；烯丙基甘氨酸(aGly)；炔丙基甘氨酸(pgGly)；高丙氨酸(hAla)；正缬氨酸(nVal)；高亮氨酸(hLeu)、高缬氨酸(hVal)；高异亮氨酸(hIle)；高精氨酸(hArg)；N-乙酰基赖氨酸(AcLys)；2,4-二氨基丁酸(Dbu)；2,3-二氨基丁酸(Dab)；N-甲基缬氨酸(MeVal)；高半胱氨酸(hCys)；高丝氨酸(hSer)；羟基脯氨酸(Hyp)和高脯氨酸(hPro)。本文描述的多肽可以包含的另外的非编码氨基酸对于本领域技术人员将是明显的(参见例如以下中提供的各种氨基酸：Fasman,CRC Practical Handbook of Biochemistry and Molecular Biology,CRC Press,BocaRaton,FL,第3-70页[1989]以及其中引用的参考文献，其全部通过引用并入)。这些氨基酸可以是L-构型或D-构型的。

本领域技术人员将认识到，带有侧链保护基团的氨基酸或残基还可以构成本文描述的多肽。这样的受保护的氨基酸的非限制性实例，其在此情况下属于芳香族类，包括但不限于(保护基团列于括号中)：Arg(tos)、Cys(甲基苄基)、Cys(硝基吡啶亚磺酰基(nitropyridinesulfenyl))、Glu(δ-苄基酯)、Gln(呫吨基)、Asn(N-δ-呫吨基)、His(bom)、His(苄基)、His(tos)、Lys(fmoc)、Lys(tos)、Ser(O-苄基)、Thr(O-苄基)和Tyr(O-苄基)。

本文描述的多肽可以包含的构象上受限制的非编码氨基酸包括但不限于N-甲基氨基酸(L-构型)；1-氨基环戊-(2或3)-烯-4-羧酸；哌可酸；氮杂环丁烷-3-羧酸；高脯氨酸(hPro)和1-氨基环戊烷-3-羧酸。

在一些实施方案中，工程化多肽可以呈各种形式，例如诸如分离的制品、作为基本上纯化的酶、用编码该酶的基因转化的全细胞和/或作为这样的细胞的细胞提取物和/或裂解物。酶可以被冻干、喷雾干燥、沉淀或者呈粗制糊状物的形式，如下文进一步讨论的。

在一些实施方案中，工程化多肽可以被提供于固体支持物诸如膜、树脂、固体载体或其他固相材料上。固体支持物可以包含有机聚合物，诸如聚苯乙烯、聚乙烯、聚丙烯、聚氟乙烯、聚氧乙烯(polyethyleneoxy)和聚丙烯酰胺以及它们的共聚物和接枝物。固体支持物还可以是无机的，诸如玻璃、二氧化硅、可控孔隙玻璃(CPG)、反相二氧化硅或金属诸如金或铂。固体支持物的构型可以呈珠、球、微粒(particle)、颗粒(granule)、凝胶、膜或表面的形式。表面可以是平面的、基本上平面的或非平面的。固体支持物可以是多孔的或无孔的，并且可以具有溶胀特性或非溶胀特性。固体支持物可以被配置为呈孔、凹陷(depression)或其他容器(container)、器皿(vessel)、特征或位置的形式。

在一些实施方案中，本发明的具有cGAS活性的工程化多肽可以被固定在固体支持物上，使得它们保持其相对于参考多肽SEQ ID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQID NO:556、SEQ ID NO:566和/或SEQ ID NO:666的改进的活性、选择性和/或其他改进的性质。在这样的实施方案中，固定的多肽可以促进底物化合物或其他合适的底物向产物的生物催化转化，并且反应完成后容易保留(例如通过保留固定有多肽的珠)并且然后在随后的反应中重新使用或再循环。这样的固定化酶方法允许进一步提高效率和降低成本。因此，还设想，使用本发明的cGAS多肽的任何方法可以使用结合或固定在固体支持物上的相同cGAS多肽进行。

酶固定化的方法是本领域熟知的。工程化多肽可以被非共价地或共价地结合。用于将酶缀合和固定到固体支持物(例如树脂、膜、珠、玻璃等)的各种方法是本领域熟知的(参见例如，Yi等人,Proc.Biochem.,42(5):895-898[2007]；Martin等人,Appl.Microbiol.Biotechnol.,76(4):843-851[2007]；Koszelewski等人,J.Mol.Cat.B:Enzymatic,63:39-44[2010]；Truppo等人,Org.Proc.Res.Dev.,网络出版：dx.doi.org/10.1021/op200157c；Hermanson,Bioconjugate Techniques,第2版,Academic Press,Cambridge,MA[2008]；Mateo等人,Biotechnol.Prog.,18(3):629-34[2002]；和“Bioconjugation Protocols:Strategies and Methods”,于Methodsin Molecular Biology,Niemeyer(编著),Humana Press,New York,NY[2004]；将各参考文献的公开内容通过引用并入本文)。可用于固定本发明的工程化cGAS酶的固体支持物包括但不限于包含具有环氧化物官能团的聚甲基丙烯酸酯、具有氨基环氧化物官能团的聚甲基丙烯酸酯、具有十八烷基官能团的苯乙烯/DVB共聚物或聚甲基丙烯酸酯的珠或树脂。可用于固定本发明的工程化cGAS多肽的示例性固体支持物包括但不限于壳聚糖珠、Eupergit C和SEPABEAD(Mitsubishi)，包括以下不同类型的SEPABEAD：EC-EP、EC-HFA/S、EXA252、EXE119和EXE120。

在一些实施方案中，本文描述的多肽以试剂盒的形式提供。试剂盒中的酶可以单独地存在或作为多于一个酶存在。试剂盒还可以包括用于进行酶促反应的试剂、用于评估酶的活性的底物以及用于检测产物的试剂。试剂盒还可以包括试剂分配器和用于使用试剂盒的使用说明。

在一些实施方案中，本发明的试剂盒包括在不同的可寻址位置处包含多于一个不同cGAS多肽的阵列，其中不同多肽是参考序列的不同变体，所述变体各自具有至少一种不同的改进的酶性质。在一些实施方案中，固定在固体支持物上的多于一个多肽被配置在阵列的多个位置处，所述位置是试剂的自动递送或通过检测方法和/或仪器可寻址的。阵列可以用于测试多肽对各种底物化合物的转化。包含多于一种工程化多肽的这样的阵列及其使用方法是本领域已知的(参见例如，WO2009/008908A2)。

重组多肽可以使用本领域已知的任何合适的方法产生。可以将编码感兴趣的野生型多肽的基因克隆到载体诸如质粒中，并且在期望的宿主诸如大肠杆菌等中表达。重组多肽的变体可以通过本领域已知的各种方法产生。事实上，存在本领域技术人员熟知的各种各样不同的诱变技术。此外，诱变试剂盒还可从许多商业分子生物学供应商获得。产生确定的氨基酸(定点)处的特定取代、基因的局部区域中的特异性突变或随机突变(区域特异性)，或整个基因内的随机诱变(例如，饱和诱变)的方法是可得的。本领域的技术人员已知产生酶变体的许多合适的方法，包括但不限于，使用PCR对单链DNA或双链DNA定点诱变、盒式诱变、基因合成、易错PCR、混编(shuffling)和化学饱和诱变，或本领域已知的任何其他合适的方法。诱变和定向演化方法可以容易地应用于编码酶的多核苷酸，以产生可以被表达、筛选和测定的变体文库。任何合适的诱变和定向演化方法可用于本发明并且是本领域中熟知的(参见例如美国专利第5,605,793号、第5,811,238号、第5,830,721号、第5,834,252号、第5,837,458号、第5,928,905号、第6,096,548号、第6,117,679号、第6,132,970号、第6,165,793号、第6,180,406号、第6,251,674号、第6,265,201号、第6,277,638号、第6,287,861号、第6,287,862号、第6,291,242号、第6,297,053号、第6,303,344号、第6,309,883号、第6,319,713号、第6,319,714号、第6,323,030号、第6,326,204号、第6,335,160号、第6,335,198号、第6,344,356号、第6,352,859号、第6,355,484号、第6,358,740号、第6,358,742号、第6,365,377号、第6,365,408号、第6,368,861号、第6,372,497号、第6,337,186号、第6,376,246号、第6,379,964号、第6,387,702号、第6,391,552号、第6,391,640号、第6,395,547号、第6,406,855号、第6,406,910号、第6,413,745号、第6,413,774号、第6,420,175号、第6,423,542号、第6,426,224号、第6,436,675号、第6,444,468号、第6,455,253号、第6,479,652号、第6,482,647号、第6,483,011号、第6,484,105号、第6,489,146号、第6,500,617号、第6,500,639号、第6,506,602号、第6,506,603号、第6,518,065号、第6,519,065号、第6,521,453号、第6,528,311号、第6,537,746号、第6,573,098号、第6,576,467号、第6,579,678号、第6,586,182号、第6,602,986号、第6,605,430号、第6,613,514号、第6,653,072号、第6,686,515号、第6,703,240号、第6,716,631号、第6,825,001号、第6,902,922号、第6,917,882号、第6,946,296号、第6,961,664号、第6,995,017号、第7,024,312号、第7,058,515号、第7,105,297号、第7,148,054号、第7,220,566号、第7,288,375号、第7,384,387号、第7,421,347号、第7,430,477号、第7,462,469号、第7,534,564号、第7,620,500号、第7,620,502号、第7,629,170号、第7,702,464号、第7,747,391号、第7,747,393号、第7,751,986号、第7,776,598号、第7,783,428号、第7,795,030号、第7,853,410号、第7,868,138号、第7,783,428号、第7,873,477号、第7,873,499号、第7,904,249号、第7,957,912号、第7,981,614号、第8,014,961号、第8,029,988号、第8,048,674号、第8,058,001号、第8,076,138号、第8,108,150号、第8,170,806号、第8,224,580号、第8,377,681号、第8,383,346号、第8,457,903号、第8,504,498号、第8,589,085号、第8,762,066号、第8,768,871号、第9,593,326号、第9,665,694号、第9,684,771号，和所有相关的美国以及PCT和非美国对应专利；Ling等人，Anal.Biochem.,254(2):157-78[1997]；Dale等人，Meth.Mol.Biol.,57:369-74[1996]；Smith,Ann.Rev.Genet.,19:423-462[1985]；Botstein等人，Science,229:1193-1201[1985]；Carter,Biochem.J.,237:1-7[1986]；Kramer等人，Cell,38:879-887[1984]；Wells等人，Gene,34:315-323[1985]；Minshull等人，Curr.Op.Chem.Biol.,3:284-290[1999]；Christians等人，Nat.Biotechnol.,17:259-264[1999]；Crameri等人，Nature,391:288-291[1998]；Crameri，等人，Nat.Biotechnol.,15:436-438[1997]；Zhang等人，Proc.Nat.Acad.Sci.U.S.A.,94:4504-4509[1997]；Crameri等人，Nat.Biotechnol.,14:315-319[1996]；Stemmer,Nature,370:389-391[1994]；Stemmer,Proc.Nat.Acad.Sci.USA,91:10747-10751[1994]；WO 95/22625；WO 97/0078；WO 97/35966；WO 98/27230；WO 00/42651；WO 01/75767；和WO 2009/152336，其全部通过引用并入本文)。

在一些实施方案中，诱变处理后获得的酶克隆通过使酶制品经受指定的温度(或其他测定条件)并测量热处理或其他合适的测定条件后剩余的酶活性的量进行筛选。然后从基因分离含有编码多肽的多核苷酸的克隆，将其测序以鉴定核苷酸序列变化(如果有)，并且用于在宿主细胞中表达酶。测量来自表达文库的酶活性可以使用本领域已知的任何合适的方法(例如，标准生物化学技术，诸如HPLC分析)来进行。

在产生变体之后，可以对它们筛选任何期望的性质(例如，高或增加的活性、或者低或减少的活性、增加的热活性、增加的热稳定性和/或酸性pH稳定性等)。任何合适的反应条件可用于本发明。在一些实施方案中，使用方法来分析工程化多肽进行磷酸化反应的改进的性质。在一些实施方案中，如下文和实施例中进一步描述的，根据工程化cGAS、一种或更多种底物、一种或更多种缓冲剂、一种或更多种溶剂的浓度或量、pH、包括温度和反应时间的条件和/或工程化cGAS多肽被固定在固体支持物上的条件来改变反应条件。

在一些实施方案中，利用另外的反应组分或另外的技术来补充反应条件。在一些实施方案中，这些包括采取措施来稳定酶或防止酶失活、减少产物抑制和/或使反应平衡向期望的产物形成移动。

在一些另外的实施方案中，用于将底物化合物转化成产物化合物的任何上文描述的方法还可以包括一个或更多个选自以下的步骤：产物化合物的提取、分离、纯化、结晶、过滤和/或冻干。用于从通过本文提供的方法产生的生物催化反应混合物提取、分离、纯化和/或结晶产物的方法、技术和方案是普通技术人员已知的和/或通过常规实验可获得。此外，在下文的实施例中提供了说明性方法。

编码工程化多肽的工程化cGAS多核苷酸、表达载体和宿主细胞

本发明提供了编码本文描述的工程化酶多肽的多核苷酸。在一些实施方案中，多核苷酸被可操作地连接至控制基因表达的一个或更多个异源调节序列，以创建能够表达多肽的重组多核苷酸。在一些实施方案中，含有至少一种编码工程化酶多肽的异源多核苷酸的表达构建体被引入适当的宿主细胞以表达对应的酶多肽。

如对本领域技术人员将是明显的，蛋白序列的可得性和对应于多种氨基酸的密码子的知识提供了能够编码主题多肽的所有多核苷酸的说明。遗传编码的简并性(其中相同氨基酸由可选的或同义的密码子编码)允许极大数目的核酸被制备，所有这些核酸编码工程化酶(例如，cGAS)多肽。因此，本发明提供了用于产生编码本文描述的酶多肽的酶多核苷酸的可以被制备的每一种可能变异的方法和组合物，所述变异通过选择基于可能的密码子选项的组合来制备，并且所有这样的变异都被认为针对本文描述的任何多肽具体地公开，包括实施例中(例如，在各个表格中)呈现的氨基酸序列。

在一些实施方案中，密码子优选地被优化以供所选择的宿主细胞用于蛋白产生。例如，细菌中使用的优选的密码子通常用于在细菌中的表达。因此，编码工程化酶多肽的密码子优化的多核苷酸在全长编码区中约40％、50％、60％、70％、80％、90％或大于90％的密码子位置处含有优选的密码子。

在一些实施方案中，酶多核苷酸编码具有酶活性与本文公开的性质的工程化多肽，其中所述多肽包含与选自本文提供的SEQ ID NO的参考序列或任何变体(例如实施例中提供的那些)的氨基酸序列具有至少60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的同一性的氨基酸序列，和与一种或更多种参考多核苷酸或如实施例中公开的任何变体的氨基酸序列相比的一个或更多个残基差异(例如1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个氨基酸残基位置)。在一些实施方案中，参考多肽序列选自SEQ ID NO:2、SEQ ID NO:34、SEQ IDNO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666。

在一些实施方案中，多核苷酸能够与选自本文提供的任何多核苷酸序列的参考多核苷酸序列或其互补序列或者编码本文提供的任何变体酶多肽的多核苷酸序列在高度严格条件下杂交。在一些实施方案中，能够在高度严格条件下杂交的多核苷酸编码包含与参考序列相比具有一个或更多个残基差异的氨基酸序列的酶多肽。

在一些实施方案中，编码本文的工程化酶多肽中的任一个的分离的多核苷酸以各种方式被操纵，以促进酶多肽的表达。在一些实施方案中，编码酶多肽的多核苷酸构成表达载体，其中存在一个或更多个控制序列来调节酶多核苷酸和/或多肽的表达。根据所用的表达载体，在分离的多核苷酸插入载体之前对分离的多核苷酸的操纵可以是期望的或必要的。利用重组DNA方法修饰多核苷酸和核酸序列的技术是本领域熟知的。在一些实施方案中，控制序列包括，除其他以外，启动子、前导序列、多腺苷酸化序列、前肽序列、信号肽序列和转录终止子。在一些实施方案中，基于宿主细胞的选择对合适的启动子进行选择。对于细菌宿主细胞，用于指导本公开内容的核酸构建体的转录的合适启动子包括但不限于从以下获得的启动子：大肠杆菌lac操纵子、天蓝色链霉菌(Streptomyces coelicolor)琼脂糖酶基因(dagA)、枯草芽孢杆菌(Bacillus subtilis)果聚糖蔗糖酶基因(sacB)、地衣芽孢杆菌(Bacillus licheniformis)α-淀粉酶基因(amyL)、嗜热脂肪芽孢杆菌(Bacillusstearothermophilus)麦芽糖淀粉酶基因(amyM)、解淀粉芽孢杆菌(Bacillusamyloliquefaciens)α-淀粉酶基因(amyQ)、地衣芽孢杆菌青霉素酶基因(penP)、枯草芽孢杆菌xylA和xylB基因，以及原核β-内酰胺酶基因(参见，例如，Villa-Kamaroff等人,Proc.Natl Acad.Sci.USA 75:3727-3731[1978])，以及tac启动子(参见，例如，DeBoer等人,Proc.Natl Acad.Sci.USA 80:21-25[1983])。用于丝状真菌宿主细胞的示例性启动子包括但不限于从以下的基因获得的启动子：米曲霉(Aspergillus oryzae)TAKA淀粉酶、米黑根毛霉(Rhizomucor miehei)天冬氨酸蛋白酶、黑曲霉(Aspergillus niger)中性α-淀粉酶、黑曲霉酸稳定型α-淀粉酶、黑曲霉或泡盛曲霉(Aspergillus awamori)葡糖淀粉酶(glaA)、米黑根毛霉脂肪酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、构巢曲霉(Aspergillus nidulans)乙酰胺酶和尖孢镰刀菌(Fusarium oxysporum)胰蛋白酶样蛋白酶(参见，例如WO 96/00787)，以及NA2-tpi启动子(来自黑曲霉中性α-淀粉酶基因和米曲霉磷酸丙糖异构酶基因的启动子的杂合体)，和其突变体、截短的和杂合的启动子。示例性酵母细胞启动子可以来自以下的基因：酿酒酵母(Saccharomyces cerevisiae)烯醇酶(ENO-1)、酿酒酵母半乳糖激酶(GAL1)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)和酿酒酵母3-磷酸甘油酸激酶。用于酵母宿主细胞的其他有用的启动子是本领域已知的(参见例如，Romanos等人,Yeast 8:423-488[1992])。

在一些实施方案中，控制序列也是合适的转录终止子序列(即由宿主细胞识别以终止转录的序列)。在一些实施方案中，终止子序列可操作地连接至编码酶多肽的核酸序列的3’末端。在选择的宿主细胞中有功能的任何合适的终止子可用于本发明中。用于丝状真菌宿主细胞的示例性转录终止子可以从以下的基因获得：米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、黑曲霉α-葡萄糖苷酶和尖孢镰刀菌胰蛋白酶样蛋白酶。用于酵母宿主细胞的示例性终止子可以从以下的基因获得：酿酒酵母烯醇酶、酿酒酵母细胞色素C(CYC1)和酿酒酵母甘油醛-3-磷酸脱氢酶。用于酵母宿主细胞的其他有用的终止子是本领域已知的(参见例如，Romanos等人，上文)。

在一些实施方案中，控制序列也是合适的前导序列(即对由宿主细胞的翻译重要的mRNA的非翻译区)。在一些实施方案中，前导序列可操作地连接至编码酶多肽的核酸序列的5’末端。在选择的宿主细胞中有功能的任何合适的前导序列可用于本发明中。用于丝状真菌宿主细胞的示例性前导序列从以下的基因获得：米曲霉TAKA淀粉酶和构巢曲霉磷酸丙糖异构酶。用于酵母宿主细胞的合适的前导序列从以下的基因获得：酿酒酵母烯醇化酶(ENO-1)、酿酒酵母3-磷酸甘油酸激酶、酿酒酵母α-因子和酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)。

在一些实施方案中，控制序列也是多腺苷酸化序列(即可操作地连接至核酸序列的3’末端的序列，并且其在转录时，被宿主细胞识别为将多腺苷残基添加至转录的mRNA的信号)。在选择的宿主细胞中有功能的任何合适的多腺苷酸化序列可用于本发明中。用于丝状真菌宿主细胞的示例性多腺苷酸化序列包括但不限于以下的基因：米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、尖孢镰刀菌胰蛋白酶样蛋白酶和黑曲霉α-葡糖苷酶。用于酵母宿主细胞的有用的多腺苷酸化序列是已知的(参见例如Guo和Sherman,Mol.Cell.Bio.,15:5983-5990[1995])。

在一些实施方案中，控制序列也是信号肽(即编码连接至多肽的氨基末端并将编码的多肽引导到细胞的分泌途径的氨基酸序列的编码区)。在一些实施方案中，核酸序列的编码序列的5’末端固有地包含信号肽编码区，其与编码分泌的多肽的编码区的区段符合翻译阅读框地(in translation reading frame)天然地连接。可选择地，在一些实施方案中，编码序列的5’末端包含对编码序列而言外来的信号肽编码区。将表达的多肽引导到选择的宿主细胞的分泌途径中的任何合适的信号肽编码区可用于一种或更多种工程化多肽的表达。用于细菌宿主细胞的有效信号肽编码区是包括但不限于从以下的基因获得的那些信号肽编码区：芽孢杆菌NClB 11837麦芽糖淀粉酶、嗜热脂肪芽孢杆菌α-淀粉酶、地衣芽孢杆菌枯草杆菌蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)和枯草芽孢杆菌prsA。另外的信号肽是本领域已知的(参见例如，Simonen和Palva,Microbiol.Rev.,57:109-137[1993])。在一些实施方案中，对于丝状真菌宿主细胞有效的信号肽编码区包括但不限于从以下的基因获得的信号肽编码区：米曲霉TAKA淀粉酶、黑曲霉中性淀粉酶、黑曲霉葡糖淀粉酶、米黑根毛霉天冬氨酸蛋白酶、特异腐质霉(Humicolainsolens)纤维素酶和柔毛腐质霉(Humicola lanuginosa)脂肪酶。用于酵母宿主细胞的有用的信号肽包括但不限于来自以下的基因的那些：酿酒酵母α-因子和酿酒酵母转化酶。

在一些实施方案中，控制序列也是编码定位在多肽的氨基末端处的氨基酸序列的前肽编码区。产生的多肽被称为“前酶(proenzyme)”、“前多肽(propolypeptide)”或“酶原(zymogen)”。前多肽可以通过催化或自动催化前肽从前多肽的裂解被转化为成熟活性多肽。前肽编码区可以从包括但不限于以下的基因的任何合适的来源获得：枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、酿酒酵母α-因子、米黑根毛霉天冬氨酸蛋白酶和嗜热毁丝霉(Myceliophthora thermophila)乳糖酶(参见例如WO 95/33836)。在信号肽和前肽区域两者均存在于多肽的氨基末端时，前肽区域紧邻多肽的氨基末端定位并且信号肽区域紧邻前肽区域的氨基末端定位。

在一些实施方案中，还利用了调节序列。这些序列促进多肽表达相对于宿主细胞生长的调节。调节系统的实例是引起基因的表达响应于化学或物理刺激(包括调节性化合物的存在)被开启或关闭的那些。在原核宿主细胞中，合适的调节序列包括但不限于lac、tac和trp操纵子系统。在酵母宿主细胞中，合适的调节系统包括但不限于ADH2系统或GAL1系统。在丝状真菌中，合适的调节序列包括但不限于TAKAα-淀粉酶启动子、黑曲霉葡糖淀粉酶启动子和米曲霉葡糖淀粉酶启动子。

在另一方面，本发明涉及包含编码工程化酶多肽的多核苷酸，以及根据其待引入的宿主的类型，一个或更多个表达调控区诸如启动子和终止子、复制起点等的重组表达载体。在一些实施方案中，本文描述的各种核酸和控制序列连接在一起以产生重组表达载体，所述重组表达载体包含一个或更多个方便的限制性位点，以允许在这样的位点插入或取代编码酶多肽的核酸序列。可选择地，在一些实施方案中，本发明的核酸序列通过将核酸序列或包含该序列的核酸构建体插入到用于表达的合适的载体中来表达。在涉及产生表达载体的一些实施方案中，编码序列位于载体中，使得编码序列与用于表达的适当的控制序列可操作地连接。

重组表达载体可以是任何合适的载体(例如，质粒或病毒)，其可以方便地进行重组DNA程序并且引起酶多核苷酸序列的表达。载体的选择通常取决于载体与待引入载体的宿主细胞的相容性。载体可以是线性质粒或闭合的环状质粒。

在一些实施方案中，表达载体为自主复制载体(即，作为染色体外的实体存在的载体，其复制独立于染色体复制，诸如质粒、染色体外元件、微型染色体或人工染色体)。载体可以包含用于确保自我复制的任何工具(means)。在一些可选择的实施方案中，载体是其中当被引入宿主细胞中时，被整合到基因组中并与其被整合进的一条或更多条染色体一起复制的载体。此外，在一些实施方案中，利用了单一载体或质粒，或者一起包含待引入宿主细胞的基因组中的总DNA的两种或更多种载体或质粒，和/或转座子。

在一些实施方案中，表达载体包含允许容易选择转化的细胞的一个或更多个选择标记(selectable marker)。“选择标记”是其产物提供杀生物剂或病毒抗性、对重金属的抗性、对营养缺陷型的原养性(prototrophy to auxotrophs)等的基因。细菌的选择标记的实例包括但不限于，来自枯草芽孢杆菌或地衣芽孢杆菌的dal基因，或赋予抗生素抗性诸如氨苄青霉素、卡那霉素、氯霉素或四环素抗性的标记。用于酵母宿主细胞的合适的标记包括但不限于ADE2、HIS3、LEU2、LYS2、MET3、TRP1和URA3。用于在丝状真菌宿主细胞中使用的选择标记包括但不限于amdS(乙酰胺酶；例如来自构巢曲霉(A.nidulans)或米曲霉(A.orzyae))、argB(鸟氨酸氨甲酰转移酶)、bar(膦丝菌素乙酰转移酶；例如来自吸水链霉菌(S.Hygroscopicus))、hph(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清苷-5’-磷酸脱羧酶；例如来自构巢曲霉或米曲霉)、sC(硫酸腺苷酰转移酶(sulfateadenyltransferase))和trpC(邻氨基苯甲酸合酶)，以及其等同物。

在另一个方面，本发明提供了包含至少一种编码本发明的至少一种工程化酶多肽的多核苷酸的宿主细胞，所述多核苷酸被可操作地连接至一个或更多个控制序列用于在宿主细胞中表达工程化酶。适于在表达由本发明的表达载体编码的多肽中使用的宿主细胞是本领域熟知的，并且包括但不限于细菌细胞，诸如大肠杆菌、河流弧菌(Vibriofluvialis)、链霉菌属(Streptomyces)和鼠伤寒沙门氏菌(Salmonella typhimurium)细胞；真菌细胞，诸如酵母细胞(例如，酿酒酵母或巴斯德毕赤酵母(Pichia pastoris)(ATCC保藏登录号201178))；昆虫细胞，诸如果蝇属(Drosophila)S2和夜蛾属(Spodoptera)Sf9细胞；动物细胞，诸如CHO、COS、BHK、293和Bowes黑素瘤细胞；和植物细胞。示例性宿主细胞还包括各种大肠杆菌菌株(例如，W3110(ΔfhuA)和BL21)。细菌的选择标记的实例包括但不限于，来自枯草芽孢杆菌或地衣芽孢杆菌的dal基因，或赋予抗生素抗性诸如氨苄青霉素、卡那霉素、氯霉素和/或四环素抗性的标记。

在一些实施方案中，本发明的表达载体含有允许将载体整合到宿主细胞基因组或独立于基因组在细胞中自主复制载体的元件。在涉及整合到宿主细胞基因组中的一些实施方案中，载体依赖于编码多肽的核酸序列或载体的任何其他元件从而通过同源或非同源重组将载体整合到基因组中。

在一些可选的实施方案中，表达载体含有用于指导通过同源重组整合到宿主细胞的基因组中的另外的核酸序列。另外的核酸序列使载体能够在染色体中的精确位置处整合到宿主细胞基因组中。为了增加在精确位置处整合的可能性，整合元件优选地包含足够数目的核苷酸，诸如100个至10,000个碱基对，优选地400个至10,000个碱基对，并且最优选地800个至10,000个碱基对，它们与相应的靶序列高度同源，以提高同源重组的可能性。整合元件可以是与宿主细胞的基因组中的靶序列同源的任何序列。此外，整合元件可以是非编码或编码核酸序列。在另一方面，载体可以通过非同源重组整合到宿主细胞的基因组中。

对于自主复制，所述载体还可以包含使所述载体能够在所讨论的宿主细胞中自主复制的复制起点。细菌复制起点的实例是P15A ori或者允许在大肠杆菌中复制的质粒pBR322、pUC19、pACYCl77(该质粒具有P15A ori)或pACYC184和允许在芽孢杆菌中复制的pUB110、pE194或pTA1060的复制起点。用于酵母宿主细胞的复制起点的实例是2微米复制起点、ARS1、ARS4、ARS1和CEN3的组合以及ARS4和CEN6的组合。复制起点可以是具有使其在宿主细胞中的功能对温度敏感的突变的复制起点(参见例如，Ehrlich,Proc.Natl.Acad.Sci.USA 75:1433[1978])。

在一些实施方案中，本发明的核酸序列的多于一个拷贝被插入到宿主细胞中以增加基因产物的产生。核酸序列拷贝数的增加可以通过将序列的至少一个另外的拷贝整合到宿主细胞基因组中或者通过将可扩增的选择标记基因与核酸序列包括在一起获得，其中含有选择标记基因的扩增拷贝、以及因此核酸序列的另外拷贝的细胞可以通过在存在适当的选择剂(selectable agent)的情况下培养细胞来选择。

用于本发明的许多表达载体是商业上可得的。合适的商业表达载体包括但不限于p3xFLAGTM^TM表达载体(Sigma-Aldrich Chemicals)，其包含CMV启动子和用于在哺乳动物宿主细胞中表达的hGH多聚腺苷酸化位点、以及用于在大肠杆菌中扩增的pBR322复制起点以及氨苄青霉素抗性标记。其他合适的表达载体包括但不限于pBluescriptII SK(-)和pBK-CMV(Stratagene)，以及源自pBR322(Gibco BRL)、pUC(Gibco BRL)、pREP4、pCEP4(Invitrogen)或pPoly的质粒(参见例如，Lathe等人,Gene 57:193-201[1987])。

因此，在一些实施方案中，将包含编码至少一种变体cGAS酶的序列的载体转化到宿主细胞中，以便允许载体的繁殖和变体cGAS酶的表达。在一些实施方案中，变体cGAS酶被翻译后修饰以去除信号肽，并且在一些情况下，可以在分泌后被裂解。在一些实施方案中，将上文描述的转化的宿主细胞在允许变体cGAS酶表达的条件下在合适的营养培养基中培养。用于培养宿主细胞的任何合适的培养基都可用于本发明，包括但不限于含有适当补充剂的基本培养基或复合培养基。在一些实施方案中，宿主细胞在HTP培养基中生长。合适的培养基从各种商业供应商处可获得或者可以根据公布的配方(例如，在美国典型培养物保藏中心的目录中)制备。

在另一方面，本发明提供了包含编码本文提供的改进的cGAS多肽的多核苷酸的宿主细胞，所述多核苷酸可操作地连接至用于在宿主细胞中表达cGAS酶的一个或更多个控制序列。用于表达由本发明的表达载体编码的cGAS多肽的宿主细胞是本领域熟知的，并且包括但不限于，细菌细胞诸如大肠杆菌、巨大芽孢杆菌(Bacillus megaterium)、开菲尔乳杆菌(Lactobacillus kefir)、链霉菌属和鼠伤寒沙门氏菌细胞；真菌细胞诸如酵母细胞(例如酿酒酵母或巴斯德毕赤酵母(ATCC登录号201178))；昆虫细胞诸如果蝇属S2和夜蛾属Sf9细胞；动物细胞诸如CHO、COS、BHK、293和Bowes黑素瘤细胞；和植物细胞。用于上文描述的宿主细胞的适当的培养基和生长条件是本领域熟知的。

用于表达cGAS酶的多核苷酸可以通过本领域已知的各种方法引入细胞中。技术包括电穿孔、生物弹射粒子轰击、脂质体介导的转染、氯化钙转染和原生质体融合，以及其他。用于将多核苷酸引入到细胞中的各种方法是本领域技术人员已知的。

在一些实施方案中，宿主细胞是真核细胞。合适的真核宿主细胞包括但不限于真菌细胞、藻类细胞、昆虫细胞和植物细胞。合适的真菌宿主细胞包括但不限于子囊菌门(Ascomycota)、担子菌门(Basidiomycota)、半知菌门(Deuteromycota)、接合菌门(Zygomycota)、不完全菌纲(Fungiimperfecti)。在一些实施方案中，真菌宿主细胞是酵母细胞和丝状真菌细胞。本发明的丝状真菌宿主细胞包括真菌亚门(Eumycotina)和卵菌门(Oomycota)的所有丝状形式。丝状真菌的特征在于营养菌丝体，细胞壁由几丁质、纤维素和其他复合多糖组成。本发明的丝状真菌宿主细胞在形态学上不同于酵母。

在本发明的一些实施方案中，丝状真菌宿主细胞是任何合适的属和种，包括但不限于绵霉属(Achlya)、支顶孢属(Acremonium)、曲霉属(Aspergillus)、短梗霉属(Aureobasidium)、烟管菌属(Bjerkandera)、拟蜡孔菌属(Ceriporiopsis)、头孢霉属(Cephalosporium)、金孢属(Chrysosporium)、旋孢腔菌属(Cochliobolus)、棒囊壳属(Corynascus)、隐丛壳属(Cryphonectria)、隐球菌属(Cryptococcus)、鬼伞属(Coprinus)、革盖菌属(Coriolus)、色二孢属(Diplodia)、内座壳属(Endothia)、镰孢菌属(Fusarium)、赤霉属(Gibberella)、粘帚霉属(Gliocladium)、腐质霉属(Humicola)、肉座菌属(Hypocrea)、毁丝霉属(Myceliophthora)、毛霉属(Mucor)、脉孢菌属(Neurospora)、青霉属(Penicillium)、柄孢壳菌属(Podospora)、射脉菌属(Phlebia)、瘤胃壶菌属(Piromyces)、梨孢属(Pyricularia)、根毛霉属(Rhizomucor)、根霉属(Rhizopus)、裂褶菌属(Schizophyllum)、柱顶孢霉属(Scytalidium)、侧孢霉属(Sporotrichum)、篮状菌属(Talaromyces)、嗜热子囊菌属(Thermoascus)、梭孢壳属(Thielavia)、栓菌属(Trametes)、弯颈霉属(Tolypocladium)、木霉属(Trichoderma)、轮枝孢属(Verticillium)和/或小包脚菇属(Volvariella)，和/或其有性型或无性型，及其异名、基名或分类学等同词。

在本发明的一些实施方案中，宿主细胞是酵母细胞，包括但不限于假丝酵母属(Candida)、汉逊酵母属(Hansenula)、酵母属(Saccharomyces)、裂殖酵母属(Schizosaccharomyces)、毕赤酵母属(Pichia)、克鲁维氏酵母属(Kluyveromyces)或耶氏酵母属(Yarrowia)物种的细胞。在本发明的一些实施方案中，酵母细胞是多形汉逊氏酵母(Hansenula polymorpha)、酿酒酵母、卡尔斯伯酵母(Saccharomyces carlsbergensis)、糖化酵母(Saccharomyces diastaticus)、诺地酵母(Saccharomyces norbensis)、克鲁维酵母(Saccharomyces kluyveri)、粟酒裂殖酵母(Schizosaccharomyces pombe)、巴斯德毕赤酵母、芬兰毕赤酵母(Pichia finlandica)、喜海藻糖毕赤酵母(Pichia trehalophila)、库德毕赤酵母(Pichia kodamae)、膜醭毕赤酵母(Pichia membranaefaciens)、仙人掌毕赤酵母(Pichia opuntiae)、耐热毕赤酵母(Pichia thermotolerans)、柳毕赤酵母(Pichiasalictaria)、栋毕赤酵母(Pichia quercuum)、皮杰普氏毕赤酵母(Pichia pijperi)、树干毕赤酵母(Pichia stipitis)、甲醇毕赤酵母(Pichia methanolica)、安格斯毕赤酵母(Pichia angusta)、乳酸克鲁维酵母(Kluyveromyces lactis)、白假丝酵母(Candidaalbicans)或解脂耶氏酵母(Yarrowia lipolytica)。

在本发明的一些实施方案中，宿主细胞是藻类细胞诸如衣藻属(Chlamydomonas)(例如，莱茵衣藻(C.reinhardtii))和席藻属(Phormidium)(席藻属种(P.sp.)ATCC29409)。

在一些其他实施方案中，宿主细胞是原核细胞。合适的原核细胞包括但不限于革兰氏阳性、革兰氏阴性和革兰氏不定(Gram-variable)细菌细胞。任何合适的细菌生物体可用于本发明，包括但不限于农杆菌属(Agrobacterium)、脂环酸芽孢杆菌属(Alicyclobacillus)、鱼腥藻属(Anabaena)、倒囊藻属(Anacystis)、不动杆菌属(Acinetobacter)、热酸菌属(Acidothermus)、节杆菌属(Arthrobacter)、固氮菌属(Azobacter)、芽孢杆菌属(Bacillus)、双歧杆菌属(Bifidobacterium)、短杆菌属(Brevibacterium)、丁酸弧菌属(Butyrivibrio)、布赫纳氏菌属(Buchnera)、Campestris、弯曲杆菌属(Campylobacter)、梭菌属(Clostridium)、棒状杆菌属(Corynebacterium)、着色菌属(Chromatium)、粪球菌属(Coprococcus)、埃希氏菌属(Escherichia)、肠球菌属(Enterococcus)、肠杆菌属(Enterobacter)、欧文氏菌属(Erwinia)、梭杆菌属(Fusobacterium)、粪杆菌属(Faecalibacterium)、弗朗西斯氏菌属(Francisella)、黄杆菌属(Flavobacterium)、地芽孢杆菌属(Geobacillus)、嗜血杆菌属(Haemophilus)、螺杆菌属(Helicobacter)、克雷伯杆菌属(Klebsiella)、乳杆菌属(Lactobacillus)、乳球菌属(Lactococcus)、泥杆菌属(Ilyobacter)、微球菌属(Micrococcus)、微杆菌属(Microbacterium)、中慢生根瘤菌属(Mesorhizobium)、甲基杆菌属(Methylobacterium)、甲基杆菌属(Methylobacterium)、分枝杆菌属(Mycobacterium)、奈瑟菌属(Neisseria)、泛菌属(Pantoea)、假单胞菌属(Pseudomonas)、原绿球藻属(Prochlorococcus)、红细菌属(Rhodobacter)、红假单胞菌属(Rhodopseudomonas)、红假单胞菌属(Rhodopseudomonas)、罗斯氏菌属(Roseburia)、红螺菌属(Rhodospirillum)、红球菌属(Rhodococcus)、栅藻属(Scenedesmus)、链霉菌属(Streptomyces)、链球菌属(Streptococcus)、聚球藻属(Synechococcus)、糖单孢菌属(Saccharomonospora)、葡萄球菌属(Staphylococcus)、沙雷氏菌属(Serratia)、沙门氏菌属(Salmonella)、志贺氏菌属(Shigella)、热厌氧杆菌属(Thermoanaerobacterium)、养障体属(Tropheryma)、土拉菌属(Tularensis)、Temecula、嗜热聚球藻菌属(Thermosynechococcus)、热球菌属(Thermococcus)、脲原体属(Ureaplasma)、黄单胞菌属(Xanthomonas)、木杆菌属(Xylella)、耶尔森菌属(Yersinia)和发酵单胞菌属(Zymomonas)。在一些实施方案中，宿主细胞是农杆菌属、不动杆菌属、固氮菌属、芽孢杆菌属、双歧杆菌属、布赫纳氏菌属、地芽孢杆菌属、弯曲杆菌、梭菌属、棒状杆菌属、埃希氏菌属、肠球菌属、欧文氏菌属、黄杆菌属、乳杆菌属、乳球菌属、泛菌属、假单胞菌属、葡萄球菌属、沙门氏菌属、链球菌属、链霉菌属或发酵单胞菌属的物种。在一些实施方案中，细菌宿主菌株对人类是非致病性的。在一些实施方案中，细菌宿主菌株是工业菌株。许多细菌工业菌株是已知的并适于本发明。在本发明的一些实施方案中，细菌宿主细胞是农杆菌属的物种(例如，放射形农杆菌(A.radiobacter)、发根农杆菌(A.rhizogenes)和悬钩子农杆菌(A.rubi))。在本发明的一些实施方案中，细菌宿主细胞是节杆菌属的物种(例如，金黄色节杆菌(A.aurescens)、柠檬色节杆菌(A.citreus)、球形节杆菌(A.globiformis)、裂烃谷氨酸节杆菌(A.hydrocarboglutamicus)、迈索尔节杆菌(A.mysorens)、烟草节杆菌(A.nicotianae)、石蜡节杆菌(A.paraffineus)、畏光节杆菌(A.protophonniae)、玫瑰色石腊节杆菌(A.roseoparqffinus)、硫磺色节杆菌(A.sulfureus)和产脲节杆菌(A.ureafaciens))。在本发明的一些实施方案中，细菌宿主细胞是芽孢杆菌属的物种(例如，苏云金芽孢杆菌(B.thuringensis)、炭疽芽孢杆菌(B.anthracis)、巨大芽孢杆菌(B.megaterium)、枯草芽孢杆菌(B.subtilis)、迟缓芽孢杆菌(B.lentus)、环状芽孢杆菌(B.circulans)、短小芽孢杆菌(B.pumilus)、灿烂芽孢杆菌(B.lautus)、凝结芽孢杆菌(B.coagulans)、短芽孢杆菌(B.brevis)、坚强芽孢杆菌(B.firmus)、嗜碱芽孢杆菌(B.alcalophilus)、地衣芽孢杆菌(B.licheniformis)、克劳氏芽孢杆菌(B.clausii)、嗜热脂肪芽孢杆菌(B.stearothermophilus)、耐盐芽孢杆菌(B.halodurans)和解淀粉芽孢杆菌(B.amyloliquefaciens))。在一些实施方案中，宿主细胞是工业芽孢杆菌菌株，包括但不限于枯草芽孢杆菌、短小芽孢杆菌、地衣芽孢杆菌、巨大芽孢杆菌、克劳氏芽孢杆菌、嗜热脂肪芽孢杆菌或解淀粉芽孢杆菌。在一些实施方案中，芽孢杆菌宿主细胞是枯草芽孢杆菌、地衣芽孢杆菌、巨大芽孢杆菌、嗜热脂肪芽孢杆菌和/或解淀粉芽孢杆菌。在一些实施方案中，细菌宿主细胞是梭菌属的物种(例如，丙酮丁醇梭菌(C.acetobutylicum)、破伤风梭菌(C.tetani)E88、象牙海岸梭菌(C.lituseburense)、糖丁酸梭菌(C.saccharobutylicum)、产气荚膜梭菌(C.perfringens)和拜氏梭菌(C.beijerinckii))。在一些实施方案中，细菌宿主细胞是棒状杆菌属的物种(例如，谷氨酸棒状杆菌(C.glutamicum)和嗜乙酰乙酸棒状杆菌(C.acetoacidophilum))。在一些实施方案中，细菌宿主细胞是埃希氏菌属的物种(例如，大肠杆菌)。在一些实施方案中，宿主细胞是大肠杆菌W3110。在一些实施方案中，细菌宿主细胞是欧文氏菌属的物种(例如，噬夏孢欧文氏菌(E.uredovora)、胡萝卜软腐欧文氏菌(E.carotovora)、菠萝欧文氏菌(E.ananas)、草生欧文氏菌(E.herbicola)、斑点欧文氏菌(E.punctata)和土欧文氏菌(E.terreus))。在一些实施方案中，细菌宿主细胞是泛菌属的物种(例如，柠檬酸泛菌(P.citrea)和成团泛菌(P.agglomerans))。在一些实施方案中，细菌宿主细胞是假单胞菌属的物种(例如，恶臭假单胞菌(P.putida)、铜绿假单胞菌(P.aeruginosa)、迈氏假单胞菌(P.mevalonii)和假单胞菌属物种(P.sp.)D-0l 10)。在一些实施方案中，细菌宿主细胞是链球菌属的物种(例如，马链球菌(S.equisimiles)、酿脓链球菌(S.pyogenes)和乳房链球菌(S.uberis))。在一些实施方案中，细菌宿主细胞是链霉菌属的物种(例如，生二素链霉菌(S.ambofaciens)、不产色链霉菌(S.achromogenes)、除虫链霉菌(S.avermitilis)、天蓝色链霉菌(S.coelicolor)、生金色链霉菌(S.aureofaciens)、金色链霉菌(S.aureus)、杀真菌素链霉菌(S.fungicidicus)、灰色链霉菌(S.griseus)和变铅青链霉菌(S.lividans))。在一些实施方案中，细菌宿主细胞是发酵单胞菌属的物种(例如，运动发酵单胞菌(Z.mobilis)和解脂发酵单胞菌(Z.lipolytica))。

可用于本发明的许多原核和真核菌株是公众可从许多培养物保藏中心容易地获得的，例如美国典型培养物保藏中心(ATCC)、德国微生物和真菌保藏中心(DeutscheSammlung von Mikroorganismen und Zellkulturen GmbH,DSM)、荷兰中央农业研究中心(Centraalbureau Voor Schimmelcultures,CBS)和美国农业研究服务专利培养物北方区域研究中心(Agricultural Research Service Patent Culture Collection,NorthernRegional Research Center,NRRL)。

在一些实施方案中，宿主细胞被遗传修饰以具有改进蛋白分泌、蛋白稳定性和/或对于蛋白表达和/或分泌期望的其他性质的特性。遗传修饰可以通过遗传工程技术和/或传统的微生物学技术(例如，化学或UV诱变和后续选择)来实现。实际上，在一些实施方案中，重组修饰和经典选择技术的组合用于产生宿主细胞。利用重组技术，核酸分子可以以导致宿主细胞内和/或培养基中cGAS酶变体产量增加的方式被引入、缺失、抑制或修饰。例如，Alp1功能的敲除导致蛋白酶缺陷的细胞，并且pyr5功能的敲除导致具有嘧啶缺陷表型的细胞。在一种遗传工程方法中，同源重组被用于通过在体内特异性靶向基因来诱导靶向基因修饰以抑制所编码的蛋白的表达。在可选的方法中，siRNA、反义和/或核酶技术可用于抑制基因表达。用于减少细胞中蛋白的表达包括但不限于缺失编码该蛋白的全部或部分基因和位点特异性诱变以破坏该基因产物的表达或活性的各种方法，是本领域已知的。(参见例如，Chaveroche等人,Nucl.Acids Res.,28:22e97[2000]；Cho等人,Molec.Plant MicrobeInteract.,19:7-15[2006]；Maruyama和Kitamoto,Biotechnol Lett.,30:1811-1817[2008]；Takahashi等人,Mol.Gen.Genom.,272:344-352[2004]；和You等人,Arch.Microbiol.,191:615-622[2009]，所有这些通过引用并入本文)。随机诱变然后筛选期望的突变也是有用的(参见例如，Combier等人,FEMS Microbiol.Lett.,220:141-8[2003]；和Firon等人,Eukary.Cell 2:247-55[2003]，其中二者均通过引用并入)。

将载体或DNA构建体引入宿主细胞可以使用本领域已知的任何合适方法来完成，包括但不限于磷酸钙转染、DEAE-葡聚糖介导的转染、PEG介导的转化、电穿孔或本领域已知的其他常规技术。在一些实施方案中，可使用大肠杆菌表达载体pCK100900i(参见美国专利第9,714,437号，其特此通过引用并入)。

在一些实施方案中，将本发明的工程化宿主细胞(即“重组宿主细胞”)在经适当修改以激活启动子、选择转化子或扩增cGAS酶多核苷酸的常规营养培养基中培养。培养条件，诸如温度、pH等，是对于选择用于表达的宿主细胞先前使用的那些，并且是本领域技术人员所熟知的。如所述的，对于许多细胞(包括细菌、植物、动物(特别是哺乳动物)和古细菌来源的细胞)的培养和产生，许多标准参考文献和教科书是可用的。

在一些实施方案中，将表达本发明的变体cGAS多肽的细胞在分批发酵或连续发酵条件下生长。经典的“分批发酵”是封闭的系统，其中培养基的组成在发酵开始时就被设定并且在发酵期间不受人为改变的影响。分批系统的一种变化形式是“补料分批发酵”，其也可用于本发明。在这种变化形式中，底物随着发酵的进行而增量添加。当分解代谢物抑制可能会抑制细胞的新陈代谢并且期望在培养基中具有有限量的底物时，补料分批系统是有用的。分批发酵和补料分批发酵是本领域常规且熟知的。“连续发酵”是开放的系统，其中将限定的发酵培养基连续添加到生物反应器中，并同时去除等量的条件培养基进行处理。连续发酵通常将培养物保持在恒定的高密度，其中细胞主要处于对数生长阶段。连续发酵系统努力保持稳定状态生长条件。用于调节连续发酵过程的营养物质和生长因子的方法以及使产物形成速率最大化的技术是在工业微生物学领域熟知的。

在本发明的一些实施方案中，无细胞转录/翻译系统可用于产生一种或更多种变体cGAS酶。若干系统是商购可得的，并且方法是本领域技术人员熟知的。

本发明提供了制备变体cGAS多肽或其生物活性片段的方法。在一些实施方案中，所述方法包括：提供用编码氨基酸序列的多核苷酸转化的宿主细胞，所述氨基酸序列包括与SEQ ID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQID NO:666至少约70％(或至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％)的序列同一性，并且包含如本文提供的至少一种突变；在培养基中在宿主细胞表达编码的变体cGAS多肽的条件下培养转化的宿主细胞；和任选地回收或分离表达的变体cGAS多肽，和/或回收或分离包含表达的变体cGAS多肽的培养基。在一些实施方案中，方法还提供任选地在表达编码的cGAS多肽后裂解转化的宿主细胞，并任选地从细胞裂解物回收和/或分离表达的变体cGAS多肽。本发明还提供了制备变体cGAS多肽的方法，所述方法包括在适于产生变体cGAS多肽的条件下培养用变体cGAS多核苷酸转化的宿主细胞，并回收cGAS多肽。通常，使用本领域熟知的蛋白回收技术，包括本文描述的那些技术，从宿主细胞培养基、宿主细胞或两者回收或分离cGAS多肽。在一些实施方案中，将宿主细胞通过离心收获，通过物理或化学手段破碎，并将所得粗制提取物保留用于进一步纯化。在蛋白的表达中使用的微生物细胞可以通过任何常规方法破碎，包括但不限于冻融循环、声处理、机械破碎和/或使用细胞裂解剂，以及本领域技术人员熟知的许多其他合适的方法。

在宿主细胞中表达的工程化cGAS酶可以使用用于蛋白纯化的本领域已知的技术中的任何一种或更多种从细胞和/或培养基回收，除了其他以外包括，溶菌酶处理、声处理、过滤、盐析、超离心和色谱法。适于裂解细菌(诸如大肠杆菌)和从中高效提取蛋白的溶液是以商品名CelLytic B^TM(Sigma-Aldrich)商业可得的。因此，在一些实施方案中，所得的多肽被回收/分离，并任选地通过本领域已知的许多方法中的任一种来纯化。例如，在一些实施方案中，通过常规方法从营养培养基分离多肽，所述常规方法包括但不限于离心、过滤、萃取、喷雾干燥、蒸发、色谱法(例如，离子交换、亲和、疏水相互作用、色谱聚焦和尺寸排阻)或沉淀。在一些实施方案中，如期望的，在完成成熟蛋白的构型中使用蛋白重折叠步骤。此外，在一些实施方案中，在最终纯化步骤中采用高效液相色谱(HPLC)。例如，在一些实施方案中，本领域中已知的方法可用于本发明(参见例如，Parry等人,Biochem.J.,353:117[2001]；和Hong等人,Appl.Microbiol.Biotechnol.,73:1331[2007]，其二者均通过引用并入本文)。实际上，本领域中已知的任何合适的纯化方法都可用于本发明。

用于分离cGAS多肽的色谱技术包括但不限于，反相色谱、高效液相色谱、离子交换色谱、凝胶电泳和亲和色谱。用于纯化特定酶的条件将部分地取决于诸如净电荷、疏水性、亲水性、分子量、分子形状等因素，这些因素是本领域技术人员已知的。

在一些实施方案中，亲和技术可用于分离改进的cGAS酶。对于亲和色谱纯化，可以使用与cGAS多肽特异性结合的任何抗体。为了产生抗体，可以通过注射cGAS酶来免疫接种各种宿主动物，包括但不限于兔、小鼠、大鼠等。cGAS多肽可以借助于侧链官能团或附接至侧链官能团的接头附接至合适的载体诸如BSA。根据宿主物种，可以使用各种佐剂增强免疫应答，包括但不限于弗氏(完全和不完全)、矿物凝胶诸如氢氧化铝、表面活性物质诸如溶血卵磷脂、普朗尼克多元醇、聚阴离子、肽、油乳剂、钥孔血蓝蛋白(keyhole limpethemocyanin)、二硝基苯酚，以及潜在有用的人类佐剂诸如BCG(卡介苗(Bacillus CalmetteGuerin))和短棒状杆菌(Corynebacterium parvum)。

在一些实施方案中，制备cGAS酶变体并以表达酶的细胞形式、作为粗制提取物或作为分离或纯化的制品使用。在一些实施方案中，将cGAS酶变体制备成冻干剂、粉末形式(例如丙酮粉末)，或者制备为酶溶液。在一些实施方案中，cGAS酶变体是基本上纯的制品形式。

在一些实施方案中，cGAS多肽连接到任何合适的固体基底。固体基底包括但不限于固相、表面和/或膜。固体支持物包括但不限于有机聚合物诸如聚苯乙烯、聚乙烯、聚丙烯、聚氟乙烯、聚氧乙烯(polyethyleneoxy)和聚丙烯酰胺以及它们的共聚物和接枝物。固体支持物还可以是无机的，诸如玻璃、二氧化硅、可控孔隙玻璃(CPG)、反相二氧化硅或金属诸如金或铂。基底的构型可以呈珠、球、微粒、颗粒、凝胶、膜或表面的形式。表面可以是平面的、基本上平面的或非平面的。固体支持物可以是多孔的或无孔的，并且可以具有溶胀或非溶胀特征。固体支持物可以被配置为孔、凹陷或其他容器(container)、器皿(vessel)、特征或位置的形式。多于一种支持物可以被配置在阵列上的多个位置处，所述多个位置是试剂的自动递送或通过检测方法和/或仪器可寻址的。

在一些实施方案中，免疫学方法用于纯化cGAS酶变体。在一种方法中，使用常规方法针对野生型或变体cGAS多肽(例如，针对包含SEQ ID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666中的任何一个的多肽和/或其变体和/或其免疫原性片段)产生的抗体被固定在珠上，在其中变体cGAS酶被结合的条件下与细胞培养基混合，并沉淀。在相关的方法中，可使用免疫色谱法。

在一些实施方案中，变体cGAS酶表达为包含非酶部分的融合蛋白。在一些实施方案中，变体cGAS酶序列与纯化促进结构域融合。如本文使用的，术语“纯化促进结构域”是指介导与其融合的多肽的纯化的结构域。合适的纯化结构域包括但不限于金属螯合肽、允许在固定化金属上纯化的组氨酸-色氨酸模块、结合谷胱甘肽的序列(例如，GST)、血凝素(HA)标签(对应于源自流感血凝素蛋白的表位；参见例如Wilson等人，Cell 37:767[1984])、麦芽糖结合蛋白序列、在FLAGS延伸/亲和纯化系统(例如，从Immunex Corp可得的系统)中利用的FLAG表位，等等。设想用于本文描述的组合物和方法的一种表达载体提供包含与被肠激酶裂解位点隔开的多组氨酸区融合的本发明多肽的融合蛋白的表达。组氨酸残基促进IMIAC(固定化金属离子亲和色谱；例如，见Porath等人,Prot.Exp.Purif.,3:263-281[1992])上的纯化而肠激酶裂解位点为将变体cGAS多肽从融合蛋白分离提供工具。pGEX载体(Promega)也可用于将外来多肽表达为与谷胱甘肽S-转移酶(GST)的融合蛋白。一般来说，这样的融合蛋白是可溶性的，并且可以通过吸附到配体-琼脂糖珠(例如，在GST-融合物的情况下是谷胱甘肽-琼脂糖)而容易地从裂解的细胞中纯化，然后在存在游离配体的情况下洗脱。

因此，在另一个方面，本发明提供了产生工程化酶多肽的方法，其中该方法包括在适于多肽表达的条件下培养能够表达编码工程化酶多肽的多核苷酸的宿主细胞。在一些实施方案中，该方法还包括分离和/或纯化如本文描述的酶多肽的步骤。

用于宿主细胞的适当的培养基和生长条件是本领域熟知的。设想，将用于表达酶多肽的多核苷酸引入细胞的任何合适方法都可用于本发明。合适的技术包括但不限于电穿孔、生物弹射粒子轰击法、脂质体介导的转染、氯化钙转染和原生质体融合。

使用工程化cGAS酶的方法

在一些实施方案中，本文描述的cGAS酶可用于将合适的核苷三磷酸底物诸如F-thioGTP(2)和F-thioATP(3)转化成相应的环状二核苷酸产物诸如化合物(1)的方法。通常，用于进行环化反应的方法包括在存在dsDNA和二价金属阳离子的情况下，使底物化合物与本发明的cGAS多肽在适于形成环状二核苷酸产物的反应条件下接触或孵育，如上文的方案1中示出的。

在本文提供并在实施例中说明的实施方案中，可以在方法中使用的各种合适的反应条件范围包括但不限于底物载量、dsDNA、二价过渡金属、pH、温度、缓冲剂、溶剂体系、多肽载量和反应时间。鉴于本文提供的指导，使用本文描述的工程化cGAS多肽进行底物化合物至产物化合物的生物催化转化的方法的另外的合适的反应条件可以容易地通过常规实验优化，包括但不限于在浓度、pH、温度和溶剂条件的实验反应条件下使工程化cGAS多肽与底物化合物接触，并检测产物化合物。

考虑到例如期望的产物化合物的量、底物浓度对酶活性的影响、反应条件下酶的稳定性和底物向产物的转化百分比，反应混合物中的底物化合物可以变化。在一些实施方案中，合适的反应条件包括对于一种或更多种底物，至少约0.5g/L至约200g/L、1g/L至约200g/L、5g/L至约150g/L、约10g/L至约100g/L、20g/L至约100g/L或约50g/L至约100g/L的底物化合物载量。在一些实施方案中，合适的反应条件包括对于一种或更多种底物，至少约0.5g/L、至少约1g/L、至少约2g/L、至少约5g/L、至少约10g/L、至少约15g/L、至少约20g/L、至少约30g/L、至少约50g/L、至少约75g/L、至少约100g/L、至少约150g/L或至少约200g/L或甚至更大的底物化合物载量。本文提供的底物载量的值是基于F-thioGTP(2)和F-thioATP(3)的分子量；然而，还设想在方法中也可以使用等摩尔量的各种GTP类似物和ATP类似物。

在进行本文描述的cGAS酶介导的方法中，工程化多肽可以以纯化的酶、部分纯化的酶、用编码该酶的一种或更多种基因转化的全细胞、作为这样的细胞的细胞提取物和/或裂解物和/或作为固定在固体支持物上的酶的形式添加到反应混合物中。用编码工程化cGAS酶的一种或更多种基因转化的全细胞，或其细胞提取物、其裂解物，以及分离的酶可以以各种不同的形式使用，包括固体(例如，冻干的、喷雾干燥的等)或半固体(例如，粗制糊状物)。细胞提取物或细胞裂解物可以通过沉淀(硫酸铵、聚乙烯亚胺、热处理等)部分地纯化，随后进行脱盐程序(例如超滤、透析等)，然后冻干。任何酶制品(包括全细胞制品)可以通过使用已知的交联剂(诸如例如戊二醛)交联或固定至固相(例如Eupergit C等)而被稳定。

编码工程化cGAS多肽的一种或更多种基因可以被分别转化到宿主细胞中或一起转化到同一宿主细胞中。例如，在一些实施方案中，可以用编码一种工程化cGAS多肽的一种或更多种基因转化一组宿主细胞，并且可以用编码另一种工程化cGAS多肽的一种或更多种基因转化另一组宿主细胞。两组转化的宿主细胞均可以以全细胞的形式或以源自其的裂解物或提取物的形式一起用于反应混合物。在其他实施方案中，宿主细胞可以用编码多种工程化cGAS多肽的一种或更多种基因转化。在一些实施方案中，工程化多肽可以以分泌多肽的形式被表达，并且含有该分泌多肽的培养基可以用于cGAS酶反应。

在一些实施方案中，本文公开的工程化cGAS多肽的改进的活性和/或选择性提供了其中可以用较低浓度的工程化多肽实现较高转化百分比的方法。在该方法的一些实施方案中，合适的反应条件包括底物化合物载量的约1％(w/w)、2％(w/w)、5％(w/w)、10％(w/w)、20％(w/w)、30％(w/w)、40％(w/w)、50％(w/w)、75％(w/w)、100％(w/w)或更多的工程化多肽量。

在一些实施方案中，工程化多肽以约0.01g/L至约50g/L；约0.05g/L至约50g/L；约0.1g/L至约40g/L；约1g/L至约40g/L；约2g/L至约40g/L；约5g/L至约40g/L；约5g/L至约30g/L；约0.1g/L至约10g/L；约0.5g/L至约10g/L；约1g/L至约10g/L；约0.1g/L至约5g/L；约0.5g/L至约5g/L；或约0.1g/L至约2g/L存在。在一些实施方案中，cGAS多肽以约0.01g/L、0.05g/L、0.1g/L、0.2g/L、0.5g/L、1g/L、2g/L、5g/L、10g/L、15g/L、20g/L、25g/L、30g/L、35g/L、40g/L或50g/L存在。

在一些实施方案中，反应条件还包括能够在反应中用作辅因子的二价金属。通常，二价金属辅因子是镁(即，Mg⁺²)或锰(即，Mn⁺²)；也可以使用钴(即，Co⁺²)。金属离子可以以各种形式提供，诸如氯化镁(MgCl₂)或氯化钴(CoCl₂)。虽然镁离子或锰离子是在天然存在的cGAS酶中发现的金属辅因子，并且在工程化酶中有效地发挥作用，但是应理解，在该方法中可以使用能够用作辅因子的其他二价金属，包括钴离子。在一些实施方案中，反应条件可以包括浓度为约1mM至100mM、1mM至约50mM、25mM至约35mM、约30mM至约60mM或约55mM至约65mM的二价金属辅因子，特别是Co⁺²。在一些实施方案中，反应条件包括约1mM、7.5mM、10mM、20mM、30mM、40mM、50mM、60mM、70mM、80mM、90mM或100mM的二价金属辅因子浓度。

在反应过程期间，反应混合物的pH可以变化。反应混合物的pH可以保持在期望的pH或在期望的pH范围内。这可以通过在反应过程之前和/或反应过程期间添加酸或碱来实现。可选择地，pH可以通过使用缓冲剂来控制。相应地，在一些实施方案中，反应条件包括缓冲剂。用于维持期望的pH范围的合适缓冲剂是本领域已知的，并且通过示例而非限制包括硼酸盐、磷酸盐、2-(N-吗啉基)乙磺酸(MES)、3-(N-吗啉基)丙磺酸(MOPS)、乙酸盐、三乙醇胺和2-氨基-2-羟甲基-丙-1,3-二醇(Tris)等。在一些实施方案中，缓冲剂是tris。在该方法的一些实施方案中，合适的反应条件包括从约0.01M至约0.4M、0.05M至约0.4M、0.1M至约0.3M或约0.1M至约0.2M的缓冲剂(例如，tris)浓度。在一些实施方案中，反应条件包括约0.01M、0.02M、0.03M、0.04M、0.05M、0.07M、0.1M、0.12M、0.14M、0.16M、0.18M、0.2M、0.3M或0.4M的缓冲剂(例如，tris)浓度。

在该方法的实施方案中，反应条件可以包括合适的pH。期望的pH或期望的pH范围可以通过使用酸或碱、合适的缓冲剂、或缓冲和添加酸或碱的组合来保持。反应混合物的pH可以在反应过程之前和/或反应过程期间进行控制。在一些实施方案中，合适的反应条件包括从约4至约10的溶液pH、从约5至约10的pH、从约5至约9的pH、从约6至约9的pH、从约6至约8的pH。在一些实施方案中，反应条件包括约4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10的溶液pH。

在本文的方法的实施方案中，考虑到例如在较高温度时反应速率的增加和在反应时间段期间酶的活性，合适的温度可以用于反应条件。因此，在一些实施方案中，合适的反应条件包括约10℃至约60℃、约10℃至约55℃、约15℃至约60℃、约20℃至约60℃、约20℃至约55℃、约25℃至约55℃或约30℃至约50℃的温度。在一些实施方案中，合适的反应条件包括约10℃、15℃、20℃、25℃、30℃、35℃、40℃、45℃、50℃、55℃或60℃的温度。在一些实施方案中，酶促反应期间的温度可以在整个反应过程中保持在特定温度。在一些实施方案中，酶促反应期间的温度可以在反应过程期间随着温度曲线进行调整。

在一些实施方案中，反应条件可以包括用于稳定或增强反应的表面活性剂。表面活性剂可以包括非离子表面活性剂、阳离子表面活性剂、阴离子表面活性剂和/或两亲性表面活性剂。示例性表面活性剂作为示例而非限制包括壬基苯氧基聚乙氧基乙醇(NP40)、Triton X-100、聚氧乙烯-硬脂胺、十六烷基三甲基溴化铵、油基酰胺硫酸钠(sodiumoleylamidosulfate)、聚氧乙烯-失水山梨醇单硬脂酸酯、十六烷基二甲胺等。可以使用任何可以稳定或增强反应的表面活性剂。反应中待使用的表面活性剂的浓度通常可以为从0.1mg/ml至50mg/ml，特别是从1mg/ml至20mg/ml。

在一些实施方案中，反应条件可以包括消泡剂，消泡剂有助于减少或防止反应溶液中泡沫的形成，诸如当反应溶液被混合或吹扫(sparged)时。消泡剂包括非极性油(例如矿物油、硅酮等)、极性油(例如脂肪酸、烷基胺、烷基酰胺、烷基硫酸酯(alkyl sulfate)等)和疏水物(例如经处理的二氧化硅、聚丙烯等)，其中一些也起到表面活性剂的作用。示例性的消泡剂包括Y-(Dow Corning)、聚二醇共聚物、氧基/乙氧基化醇和聚二甲基硅氧烷。在一些实施方案中，消泡剂可以以约0.001％(v/v)至约5％(v/v)、约0.01％(v/v)至约5％(v/v)、约0.1％(v/v)至约5％(v/v)或约0.1％(v/v)至约2％(v/v)存在。在一些实施方案中，消泡剂可以以约0.001％(v/v)、约0.01％(v/v)、约0.1％(v/v)、约0.5％(v/v)、约1％(v/v)、约2％(v/v)、约3％(v/v)、约4％(v/v)或约5％(v/v)或更多存在，如促进反应所需的。

环化反应中使用的反应物的量通常将根据期望的产物的量以及伴随的所使用的cGAS底物的量而变化。本领域普通技术人员将容易地理解如何改变这些量以将它们定制到期望的生产率和生产规模的水平。

在一些实施方案中，添加反应物的顺序并不关键。反应物可以一起同时添加到溶剂(例如单相溶剂、双相水性共溶剂体系等)中，或者可选择地，一些反应物可以分开添加，而一些反应物可以在不同的时间点一起添加。例如，可以首先将辅因子、cGAS酶和底物添加到溶剂中。

固体反应物(例如酶、盐等)可以以各种不同的形式(包括粉末(例如冻干粉末、喷雾干燥粉末等)、溶液、乳液、悬浮液等)提供给反应。使用本领域普通技术人员已知的方法和设备，可以容易地将反应物冻干或喷雾干燥。例如，蛋白质溶液可以在-80℃以小等分试样冷冻，然后添加到预冷却的冻干室中，随后施加真空。

为了改进当使用水性共溶剂体系时的混合效率，可以首先将cGAS酶和辅因子添加和混合到水相中。然后可以添加并混合有机相，随后添加cGAS酶底物。可选择地，cGAS底物可以在添加到水相中之前在有机相中预混合。

通常允许环化过程继续进行，直到底物向产物的进一步转化不随着反应时间显著地变化(例如，少于10％的底物被转化，或少于5％的底物被转化)。在一些实施方案中，允许反应继续进行，直到有底物向产物的完全或接近完全的转化。底物向产物的转化可以使用已知的方法通过检测底物和/或产物(伴随或不伴随衍生化)来监测。合适的分析方法包括气相色谱、HPLC、MS等。

在该方法的一些实施方案中，合适的反应条件包括对于一种或更多种底物，至少约5g/L、10g/L、20g/L、30g/L、40g/L、50g/L、60g/L、70g/L、100g/L或更多的底物载量，并且其中该方法导致在约48h或更短时间、约36h或更短时间、约24h或更短时间或约3h或更短时间内底物化合物向产物化合物的至少约5％、8％、10％、50％、60％、70％、80％、90％、95％或更大的转化。

在使用工程化cGAS多肽将底物化合物转化为产物化合物的方法的另外的实施方案中，合适的反应条件可以包括加载到反应溶液中的初始底物载量，反应溶液然后与多肽接触。然后该反应溶液进一步补充有以连续或分批添加的另外的底物化合物，对于一种或更多种底物的每一种，以至少约1g/L/h、至少约2g/L/h、至少约4g/L/h、至少约6g/L/h或更高的速率随时间添加。因此，根据这些合适的反应条件，对于一种或更多种底物的每一种，多肽被添加到具有至少约20g/L、30g/L或40g/L的初始底物载量的溶液中。在多肽的这种添加之后，然后以约2g/L/h、4g/L/h或6g/L/h的速率向溶液中连续添加另外的底物，直到对于一种或更多种底物的每一种达到高得多的至少约30g/L、40g/L、50g/L、60g/L、70g/L、100g/L、150g/L、200g/L或更高的最终底物载量。因此，在该方法的一些实施方案中，合适的反应条件包括对于一种或更多种底物的每一种，向具有至少约20g/L、30g/L或40g/L的初始底物载量的溶液中添加多肽，随后以约2g/L/h、4g/L/h或6g/L/h的速率向溶液中添加另外的底物，直到对于一种或更多种底物的每一种达到至少约30g/L、40g/L、50g/L、60g/L、70g/L、100g/L或更多的最终底物载量。该底物补充反应条件允许达到更高的底物载量，同时对于一种或更多种底物的每一种，保持底物向磷酸化产物的至少约50％、60％、70％、80％、90％或更高的底物转化的高转化率。

在一些实施方案中，乙酸激酶和乙酰磷酸在上文的方案2中描绘的总体反应方案中将ADP再循环为ATP。在一些实施方案中，乙酸激酶和乙酰磷酸将ADP类似物再循环为ATP类似物。在一些实施方案中，乙酸激酶和乙酰磷酸将F-thioADP(5)再循环为F-thioATP(3)。

在该方法的一些实施方案中，使用工程化cGAS多肽的反应可以包括以下合适的反应条件：(a)对于每种底物，约3mM的底物载量；(b)约5g/L的工程化多肽；(c)0.3g/L dsDNA；(d)约50mM NaCl；(e)约20％ DMSO；(f)约7.5mM CoCl₂；(g)约7.5的pH；(h)约30℃的温度；(i)100mM Tris，和(j)约18小时的反应时间。

在一些实施方案中，利用另外的反应组分或另外的技术来补充反应条件。这些可以包括采取措施来稳定酶或防止酶失活、减少产物抑制、使反应平衡向产物形成移动。

在另外的实施方案中，用于将底物化合物转化为产物化合物的任何上文描述的方法还可以包括一个或更多个选自以下的步骤：产物化合物的提取、分离、纯化和结晶。用于从通过上文公开的方法产生的生物催化反应混合物提取、分离、纯化和/或结晶产物的方法、技术和方案是普通技术人员已知的和/或可通过常规实验获得的。此外，在下文的实施例中提供了说明性方法。

本发明的多种特征和实施方案在以下代表性实施例中进行了说明，这些实施例旨在说明而非限制。

实验

提供以下实施例，包括实验和获得的结果，仅用于说明的目的，而不应被解释为限制本发明。事实上，下文描述的许多试剂和设备有各种合适的来源。本发明并不意图限于任何试剂或设备项目的任何特定来源。

在以下的实验公开内容中，应用以下缩写：M(摩尔/升)；mM(毫摩尔/升)、uM和μΜ(微摩尔/升)；nM(纳摩尔/升)；mol(摩尔)；gm和g(克)；mg(毫克)；ug和μg(微克)；L和l(升)；ml和mL(毫升)；cm(厘米)；mm(毫米)；um和μm(微米)；sec.(秒)；min(分钟)；h和hr(小时)；U(单位)；MW(分子量)；rpm(每分钟转数)；psi和PSI(每平方英寸磅数)；℃(摄氏度)；RT和rt(室温)；CV(变异系数)；CAM和cam(氯霉素)；PMBS(硫酸多粘菌素B)；IPTG(异丙基β-D-L-硫代吡喃半乳糖苷)；LB(溶原性肉汤)；TB(terrific肉汤)；SFP(摇瓶粉末)；CDS(编码序列)；DNA(脱氧核糖核酸)；RNA(核糖核酸)；nt(核苷酸；多核苷酸)；aa(氨基酸；多肽)；大肠杆菌W3110(常用实验室大肠杆菌菌株，从Coli Genetic Stock Center[CGSC],New Haven,CT可得)；HTP(高通量)；HPLC(高压液相色谱)；HPLC-UV(HPLC-紫外可见检测器)；1H NMR(质子核磁共振波谱)；FIOPC(对阳性对照的改进倍数)；Sigma和Sigma-Aldrich(Sigma-Aldrich,St.Louis,MO)；Difco(Difco Laboratories,BD Diagnostic Systems,Detroit,MI)；Microfluidics(Microfluidics,Westwood,MA)；Life Technologies(Life Technologies,Fisher Scientific,Waltham,MA的一部分)；Amresco(Amresco,LLC,Solon,OH)；Carbosynth(Carbosynth,Ltd.,Berkshire,UK)；Varian(Varian Medical Systems,PaloAlto,CA)；Agilent(Agilent Technologies,Inc.,Santa Clara,CA)；Infors(Infors USAInc.,Annapolis Junction,MD)；和Thermotron(Thermotron,Inc.,Holland,MI)。

实施例1

在pCK110900中产生工程化多肽

将编码来自白头海雕的具有环状GMP-AMP合酶(cGAS)活性的多肽(SEQ ID NO:2)的多核苷酸(SEQ ID NO:1)克隆到pCK110900载体系统中(参见例如，美国专利第9,714,437号，其通过引用以其整体特此并入)，并且随后在lac启动子的控制下在大肠杆菌W3110fhuA中表达。该基因被克隆、纯化，用N-末端his和SUMO标签进行测定，并且残基的编号是基于具有这些N-末端标签的序列。

在96孔形式中，在20℃以200rpm和85％相对湿度(RH)，将单菌落挑取到含有1％葡萄糖和30μg/mL CAM的190μL LB中。将板用空气可透过的密封件(seal)密封，并且生长72小时。培养物通过将10μL的72小时培养物添加到含有1％葡萄糖和20μg/mL CAM的190μL LB中在96孔浅微量滴定板中再生长。将板用空气可透过的密封件密封，并且使培养物在30℃以200rpm和85％ RH生长过夜。在过夜生长后，将20μL的生长培养物转移到含有380μLSuperBroth和30μg/mL CAM的深孔板中。使培养物在37℃以250rpm和85％ RH生长约4小时。当培养物的光密度(OD₆₀₀)达到3-5时，通过添加最终浓度为1mM的IPTG来诱导cGAS基因的表达。在诱导后，在16℃以250rpm和85％ RH继续生长20-24小时。细胞通过以4,000rpm在4℃离心20分钟来收获，并且弃去培养基。将细胞沉淀物储存在-80℃，直到准备使用。

在进行测定之前，将细胞沉淀物重悬于250μL的含有50mM Tris-HCl,pH 7.5与300mM NaCl、1g/L溶菌酶和0.5g/L PMBS的裂解缓冲液中。将板密封，并且在室温在微量滴定板振荡器上以中速摇动2小时。然后将板在4℃以4,000rpm离心15分钟，并且澄清的上清液用于下文描述的HTP测定反应。

摇瓶程序可以用于产生工程化cGAS多肽摇瓶粉末(SFP)，其可用于二次筛选测定和/或用于本文描述的生物催化过程。与HTP测定中使用的细胞裂解物相比，酶的摇瓶粉末(SFP)制品提供了更纯化的工程化酶制品，并且还允许使用更浓缩的酶溶液。为了开始培养，将含有编码感兴趣的工程化多肽的质粒的大肠杆菌的单菌落接种到50mL的含30μg/mL氯霉素和1％葡萄糖的LB中。使培养物在培养箱中在30℃在以250rpm摇动的情况下生长过夜(18-20小时)。将生长培养物稀释到1L摇瓶中的250mL的含30μg/mL CAM的Super Broth中，至最终OD₆₀₀为0.2。使250mL培养物在37℃以250rpm生长4小时，直到OD₆₀₀达到3-6。通过添加IPTG至最终浓度1mM来诱导cGAS基因的表达，并且在16℃继续生长另外18-20小时。通过将培养物转移到预先称重的离心瓶中来收获细胞，然后在4℃以4,000rpm离心20分钟。弃去上清液，并且对剩余的细胞沉淀物进行称重。在一些实施方案中，将细胞储存在-80℃，直到准备使用。对于裂解，将细胞沉淀物以6mL缓冲液/g细胞沉淀物重悬于50mM Tris,pH 7.5和300mM NaCl中。使用110L 处理器系统(Microfluidics)裂解重悬的细胞。通过在4℃以10,000rpm离心60分钟来去除细胞碎片(cell debris)。收集澄清的裂解物，在-80℃冷冻，并且然后使用本领域已知的标准方法冻干。冻干冷冻的澄清裂解物提供了包含粗制工程化多肽的干燥摇瓶粉末。

实施例2

来源于SEQ ID NO:2的工程化多肽的演化和针对改进的环状GMP-AMP合酶(cGAS)活性的筛选

使用编码SEQ ID NO:2的具有cGAS活性的多肽的工程化多核苷酸(SEQ ID NO:1)来产生表2-1的工程化多肽。与起始多肽相比，这些多肽在期望的反应条件下显示出改进的cGAS活性。具有偶数编号的序列标识符的氨基酸序列的工程化多肽从SEQ ID NO:2的“主链”氨基酸序列产生，其与HTP测定一起在下文描述，且分析方法在表8-1中描述。

从SEQ ID NO:1中所列的多核苷酸开始定向演化。使用各种熟知的技术(例如，饱和诱变、先前鉴定的有益氨基酸差异的重组)产生工程化多肽的文库，并且使用HTP测定和测量多肽如方案1中示出的将F-thioGTP(2)和F-thioATP(3)转化为环状二核苷酸产物(1)的能力的分析方法进行筛选。对于实施例2，底物未被氟化，而对于实施例3-实施例7，使用氟化的底物(化合物(2)和化合物(3))。

酶测定在以200μL总体积/孔的96孔深孔(2mL)板中进行，具有以下浓度：25％体积的HTP裂解物、各1mM的thioATP和thioGTP、0.3g/L dsDNA、5mM CoCl₂、100mM NaCl、40mMTris,pH 7.5和20％ DMSO。通过添加以下设置反应：50μL HTP酶裂解物；40μL的含有200mMTris,pH 7.5、500mM NaCl、25mM CoCl₂、1.5g/L dsDNA的反应混合物；10μL的含有各20mM的thioATP和thio-GTP的溶液；60μL水；和40μL DMSO。将反应板热密封并短暂离心。然后将板在30℃以500rpm摇动～18小时。在孵育之后，将HTP反应用50μL/孔的乙腈猝灭，并在台式振荡器上摇动10分钟，然后在4℃以4,000rpm离心10分钟以去除沉淀的蛋白质固体。将稀释的猝灭反应的150μL等分试样转移到96孔Co-star圆底板中，使用表8-1中描述的方法进行LC-MS分析。

使击中(hit)变体在250-mL摇瓶中生长，并产生酶粉末。在30℃以1-20g/L的SF粉末、1mM thioATP、1mM thioGTP、0.3g/L dsDNA、40mM Tris pH 7.5、100mM NaCl和5mMCoCl₂评估酶粉末的活性，持续24小时。

实施例3

来源于SEQ ID NO:34的工程化多肽的演化和针对改进的环状GMP-AMP合酶(cGAS)活性的筛选

使用编码SEQ ID NO:34的具有cGAS活性的多肽的工程化多核苷酸(SEQ ID NO:33)来产生表3-1的工程化多肽。与起始多肽相比，这些多肽在期望的反应条件下显示出改进的cGAS活性。具有偶数编号的序列标识符的氨基酸序列的工程化多肽从SEQ ID NO:34的“主链”氨基酸序列产生，其与HTP测定一起在下文描述，且分析方法在表8-1中描述。

从SEQ ID NO:33中所列的多核苷酸开始定向演化。使用各种熟知的技术(例如，饱和诱变、先前鉴定的有益氨基酸差异的重组)产生工程化多肽的文库，并且使用HTP测定和测量多肽将F-thioGTP(2)和F-thioATP(3)转化为环状二核苷酸产物(1)的能力的分析方法进行筛选。

酶测定在以200μL总体积/孔的96孔深孔(2mL)板中进行，具有以下组分：25％体积的HTP裂解物、各1mM的F-thioATP(3)和F-thioGTP(2)、0.3g/L dsDNA、5mM CoCl₂、100mMNaCl、40mM Tris,pH 7.5和20％ DMSO。通过添加以下设置反应：50μL HTP酶裂解物；40μL的含有200mM Tris,pH 7.5、500mM NaCl、25mM CoCl₂、1.5g/L dsDNA的反应混合物；10μL的含有各20mM的F-thioATP(3)和F-thioGTP(2)的溶液；60μL水；和40μL DMSO。将反应板热密封并短暂离心。然后将板在30℃以500rpm摇动～18小时。

在孵育之后，将HTP反应用50μL/孔的乙腈猝灭，并在台式振荡器上摇动10分钟，然后在4℃以4,000rpm离心10分钟以去除沉淀的蛋白质。将稀释的猝灭反应的150μL等分试样转移到96孔Co-star圆底板中，使用表8-1中描述的方法进行LC-MS分析。

使击中变体在250-mL摇瓶中生长，并产生酶粉末。在30℃以1-20g/L的SF粉末、1mMF-thioATP(3)、1mM F-thioGTP(2)、0.3g/L dsDNA、40mM Tris,pH 7.5、100mM NaCl、5mMCoCl₂、20％ DMSO评估酶粉末的活性，持续23小时。

实施例4

来源于SEQ ID NO:318的工程化多肽的演化和针对改进的环状GMP-AMP合酶(cGAS)活性的筛选

使用编码SEQ ID NO:318的具有cGAS活性的多肽的工程化多核苷酸(SEQ ID NO:317)来产生表4-1的工程化多肽。与起始多肽相比，这些多肽在期望的反应条件下显示出改进的cGAS活性。具有偶数编号的序列标识符的氨基酸序列的工程化多肽从SEQ ID NO:318的“骨架”氨基酸序列产生，其与HTP测定一起在下文描述，且分析方法在表8-1中描述。

从SEQ ID NO:317中所列的多核苷酸开始定向演化。使用各种熟知的技术(例如，饱和诱变、先前鉴定的有益氨基酸差异的重组)产生工程化多肽的文库，并且使用HTP测定和测量多肽将F-thioGTP(2)和F-thioATP(3)转化为环状二核苷酸产物(1)的能力的分析方法进行筛选。

酶测定在以200μL总体积/孔的96孔深孔(2mL)板中进行，具有以下组分：25％体积的HTP裂解物、各1.5mM的F-thioATP(3)和F-thioGTP(2)、0.3g/L dsDNA、5mM CoCl₂、100mMNaCl、40mM Tris,pH 7.5和20％ DMSO。通过添加以下设置反应：50μL HTP酶裂解物；40μL的含有200mM Tris,pH 7.5、500mM NaCl、25mM CoCl₂、1.5g/L dsDNA的反应混合物；15μL的含有各20mM的F-thioATP(3)和F-thioGTP(2)的溶液；55μL水；和40μL DMSO。将反应板热密封并短暂离心。然后将板在25℃以500rpm摇动～18小时。

使击中变体在250-mL摇瓶中生长，并产生酶粉末。在25℃以0.5-1.0g/L的SF粉末、1.5mM F-thioATP(3)、1.5mM F-thioGTP(2)、0.3g/L dsDNA、40mM Tris,pH 7.5、100mMNaCl、5mM CoCl₂、20％ DMSO评估酶粉末的活性，持续18小时。

实施例5

来源于SEQ ID NO:556的工程化多肽的演化和针对改进的环状GMP-AMP合酶(cGAS)活性的筛选

使用编码SEQ ID NO:556的具有cGAS活性的多肽的工程化多核苷酸(SEQ ID NO:555)来产生表5-1、表5-2和表5-3的工程化多肽。与起始多肽相比，这些多肽在期望的反应条件下显示出改进的cGAS活性。具有偶数编号的序列标识符的氨基酸序列的工程化多肽从SEQ ID NO:556的“主链”氨基酸序列产生，其与HTP测定一起在下文描述，且分析方法在表8-1中描述。

从SEQ ID NO:555中所列的多核苷酸开始定向演化。使用各种熟知的技术(例如，饱和诱变、先前鉴定的有益氨基酸差异的重组)产生工程化多肽的文库，并且使用HTP测定和测量多肽将F-thioGTP(2)和F-thioATP(3)转化为环状二核苷酸产物(1)的能力的分析方法进行筛选。

酶测定在以200μL总体积/孔的96孔深孔(2mL)板中进行，具有以下组分：25％体积的在32℃预孵育2小时的HTP裂解物、各2mM的F-thioATP(3)和F-thioGTP(2)、0.1g/LdsDNA、7.5mM CoCl₂、100mM Tris,pH 7.5、50mM NaCl和20％ DMSO。通过添加以下设置反应：50μL的32℃加热的HTP酶裂解物；90μL的含有222mM Tris pH 7.5、111mM NaCl、16.65mMCoCl₂、0.222g/L dsDNA的反应混合物；20μL的含有各20mM的F-thioATP(3)和F-thioGTP(2)的溶液；和40μL DMSO。将反应板热密封并短暂离心。然后将板在25℃以500rpm摇动～18小时。

在以100μL总体积/孔的96孔深孔(2mL)板中重新测试击中变体。使用上文描述的类似程序在100mM Tris,pH 7.5、50mM NaCl、5mM CoCl₂、0.1g/L dsDNA；25μL的在32℃预加热的HTP裂解物、2mM F-thioATP(3)、2mM F-thioGTP(2)和20％ DMSO中评估酶的活性。将反应在25℃孵育20小时。使用上文的条件测试的击中变体在表5-1中列出。

在以100μL总体积/孔的96孔深孔(2mL)板中重新测试来自初始筛选的击中变体以及选定的表现较差的变体。在100mM Tris,pH 7.5、50mM NaCl、7.5mM CoCl₂、0.1g/LdsDNA；25μL未加热的HTP裂解物、2mM F-thioATP(3)、2mM F-thioGTP(2)和20％ DMSO中评估酶的活性。将反应在25℃孵育20小时。使用上文的条件测试的击中变体在表5-2中列出。

还在以100μL总体积/孔的96孔深孔(2mL)板中重新测试来自初始筛选的击中变体以及一些表现较差的变体。在100mM Tris pH 7.5、50mM NaCl、7.5mM CoCl₂、无dsDNA；25％v/v未加热的HTP裂解物、2mM F-thioATP(3)、2mM F-thioGTP(2)和20％ DMSO中评估酶的活性。将反应在25℃孵育20小时。使用上文的条件测试的击中变体在表5-3中列出。

实施例6

来源于SEQ ID NO:566的工程化多肽的演化和针对改进的环状GMP-AMP合酶(cGAS)活性的筛选

使用编码SEQ ID NO:566的具有cGAS活性的多肽的工程化多核苷酸(SEQ ID NO:565)来产生表6-1的工程化多肽。与起始多肽相比，这些多肽在期望的反应条件下显示出改进的cGAS活性。具有偶数编号的序列标识符的氨基酸序列的工程化多肽从SEQ ID NO:566的“主链”氨基酸序列产生，其与HTP测定一起在下文描述，且分析方法在表8-1中描述。

从SEQ ID NO:565中所列的多核苷酸开始定向演化。使用各种熟知的技术(例如，饱和诱变、先前鉴定的有益氨基酸差异的重组)产生工程化多肽的文库，并且使用HTP测定和测量多肽将F-thioGTP(2)和F-thioATP(3)转化为环状二核苷酸产物(1)的能力的分析方法进行筛选。

酶测定在以100μL总体积/孔的96孔深孔(2mL)板中进行，具有以下组分：25％体积的在32℃预孵育1.5-2小时的HTP裂解物、各3mM的F-thioATP(3)和F-thioGTP(2)、0.3g/LdsDNA、7.5mM CoCl₂、100mM Tris,pH 7.5、50mM NaCl和10％ DMSO。通过添加以下设置反应：25μL HTP酶裂解物；25μL的含有400mM Tris,pH 7.5、200mM NaCl、30mM CoCl₂、1.2g/LdsDNA的反应混合物；30μL的含有各10mM的F-thioATP(3)和F-thioGTP(2)的溶液；和20μLDMSO。将反应板热密封并短暂离心。然后将板在30℃以500rpm摇动～18小时。

在孵育之后，将HTP反应用50μL/孔的乙腈猝灭，并在台式振荡器上摇动10分钟，然后在4℃以4,000rpm离心10分钟以去除沉淀的蛋白质。将稀释的猝灭反应的120μL等分试样转移到96孔Co-star圆底板中，使用下文表8-2中描述的方法进行LC-MS分析。

使击中变体在250-mL摇瓶中生长，并产生酶粉末。在30℃以0.5-5g/L的SF粉末、3mM F-thioATP(3)、3mM F-thioGTP(2)、0.3g/L dsDNA、100mM Tris,pH 7.5、50mM NaCl、5mM CoCl₂和20％ DMSO评估酶粉末的活性，持续20小时。

在以100μL总体积/孔的96孔深孔(2mL)板中重新测试击中变体以及一些表现较差的变体。除了高通量裂解物未在32℃预孵育之外，使用如上文描述的类似程序评估变体的活性。使用25％v/v裂解物、各3mM的F-thioATP和F-thioGTP、0.3g/L dsDNA、7.5mM CoCl₂、100mM Tris,pH 7.5、50mM NaCl和20％ DMSO进行反应。将板在30℃孵育～18小时。使用上文的条件测试的击中变体在表6-2中列出。

实施例7

来源于SEQ ID NO:666的工程化多肽的演化和针对改进的环状GMP-AMP合酶(cGAS)活性的筛选

使用编码SEQ ID NO:666的具有cGAS活性的多肽的工程化多核苷酸(SEQ ID NO:665)来产生表7-1的工程化多肽。与起始多肽相比，这些多肽在期望的反应条件下显示出改进的cGAS活性。具有偶数编号的序列标识符的氨基酸序列的工程化多肽从SEQ ID NO:666的“主链”氨基酸序列产生，其与HTP测定一起在下文描述，且分析方法在表8-1中描述。

从SEQ ID NO:665中所列的多核苷酸开始定向演化。使用各种熟知的技术(例如，饱和诱变、先前鉴定的有益氨基酸差异的重组)产生工程化多肽的文库，并且使用HTP测定和测量多肽将F-thioGTP(2)和F-thioATP(3)转化为环状二核苷酸产物(1)的能力的分析方法进行筛选。

酶测定在以100μL总体积/孔的96孔深孔(2mL)板中进行，具有以下组分：25％体积的在32℃预孵育1.5-2小时的HTP裂解物、各3.5mM的F-thioATP(3)和F-thioGTP(2)、0.3g/LdsDNA、7.5mM CoCl₂、100mM Tris,pH 7.5、50mM NaCl和20％ DMSO。通过添加以下设置反应：25μL热处理的HTP酶裂解物；35μL的含有286mM Tris,pH 7.5、143mM NaCl、21.4mMCoCl₂和0.86g/L dsDNA的反应混合物；20μL的含有各17.5mM的F-thioATP(3)和F-thioGTP(2)的溶液；和20μL DMSO。将反应板热密封并短暂离心。然后将板在30℃以500rpm摇动～18小时。

使击中变体在250-mL摇瓶中生长，并产生酶粉末。在30℃以1-8g/L的SF粉末、3.5mM F-thioATP(3)、3.5mM F-thioGTP(2)、0.3g/L dsDNA、100mM Tris,pH 7.5、50mMNaCl、7.5mM CoCl₂和20％ DMSO评估酶粉末的活性，持续18小时。

实施例8

分析方法

表8-1：

表8-2：

出于所有目的，本申请中引用的所有出版物、专利、专利申请和其他文件在此通过引用以其整体并入，其程度如同每个单独的出版物、专利、专利申请或其他文件被单独地指出出于所有目的通过引用并入一样。

虽然已经说明和描述了各种特定实施方案，但是将理解，可以做出各种改变而不偏离本发明的精神和范围。

Claims

1.一种工程化cGAS酶，所述工程化cGAS酶包含与SEQ ID NO:2、SEQ ID NO:34、SEQ IDNO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性的多肽序列，其中所述工程化cGAS酶的多肽序列包含至少一个取代或取代集，并且其中所述多肽序列的氨基酸位置参考SEQ ID NO:2、SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666编号。

2.根据权利要求1所述的工程化cGAS酶，其中所述多肽序列与SEQ ID NO:2具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性，并且其中所述工程化cGAS酶的多肽序列在所述多肽序列中选自以下的一个或更多个位置处包含至少一个取代或取代集：163/201/389、114/389、126、128、131、131/161、135、161、163、163/172/181/201/256/257/389、163/172/181/256/278/334/389、163/172/181/257/278、163/172/256/257/389、163/172/256/278/389、163/181、163/181/201、163/181/201/256/334/389、163/181/201/256/389、163/181/201/257/334、163/181/201/257/334/389、163/181/201/334/389、163/181/201/389、163/181/256、163/181/256/257、163/181/256/257/334/389、163/181/256/257/389、163/181/256/334/389、163/181/256/389、163/181/257、163/181/257/334、163/181/257/334/389、163/181/278/334、163/181/334/389、163/181/389、163/201/256、163/201/256/334、163/201/257/278/334、163/201/257/278/389、163/201/257/334、163/201/257/334/389、163/201/257/389、163/201/334、163/256、163/256/257、163/256/257/334、163/256/257/334/389、163/256/257/389、163/256/278、163/256/334、163/256/334/389、163/256/389、163/257、163/257/278/334、163/257/278/389、163/257/334、163/257/334/389、163/257/389、163/334、163/334/389、163/389、164/177/255、171、172、172/181/201/256/257/278/389、172/181/256/334/389、176、177、179、181、181/201/256/257、181/201/256/257/389、181/201/256/278/334/389、181/201/334、181/256/257、181/256/334、181/257、181/257/334、181/257/475、181/389、201/334、255、256/257/334、256/334、256/334/389、256/389、257、257/278/334/389/392、257/334、257/334/389、257/389、334、334/389、338、341、364、378、388、389和390，其中所述多肽序列的氨基酸位置参考SEQ ID NO:2编号。

3.根据权利要求1所述的工程化cGAS酶，其中所述工程化cGAS酶的所述多肽序列与SEQID NO:34具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性，并且其中所述工程化cGAS酶的所述多肽序列在选自以下的一个或更多个位置处包含至少一个取代或取代集：105/171、123/135/164/181/257/262/286/334/464、123/135/164/262/464、123/135/181/201/286/334/464、123/164/190、123/181/190/201/262/334、123/181/257/286/334、123/181/257/334/464、123/190/262、123/201/262/286/334、123/262/464、126、128、131、135、135/149/181/190/201/262/334/464、135/159/164/181/190/262/286、135/159/164/190/255/262/286/334/464、135/159/181/204/286/334/464、135/159/181/313/334/464、135/164、135/164/190/255/262、135/164/190/286/334/464、135/164/255/262、135/164/255/262/334/464、135/164/464、135/181/190/201/286/334、135/181/190/257/334/464、135/181/201/262/286/334/464、135/181/204/262/334、135/181/257/262/286/334、135/181/257/262/334、135/181/334/464、135/190/255/262/286、135/255/286/313/464、135/437、139、149/164/181/257/286/334/464、149/164/190/262/318/464、149/164/262/286、149/181/201/255/262/286/334/464、159/164/181/190/262/313/464、159/164/181/204/255/334、159/164/262/286、159/190/255/334、161、164、164/177、164/177/280、164/177/280/322/437、164/177/280/334、164/177/280/437、164/177/334、164/181/201/262/464、164/181/257/262/334/464、164/181/257/286/334、164/181/262/286/334/464、164/190/255/286、164/190/262/286/464、164/255/262、164/255/334/464、164/262/286/464、164/280/322/334/437、164/280/437、164/286、164/437、169、171、177/201/255/334、177/255/437、181/190/201/255/334、181/190/257/262/334/464、181/190/257/334、181/190/257/464、181/201/255/262/286/334/464、181/201/262/334、181/201/334、181/257/262/334、181/257/262/334/464、181/257/334、181/262/286/334、181/334、190、190/262/464、190/464、204/286/464、255/334、257、262/464、318、334、340、341、364、388、389、392、395、398、437、445和464，其中所述多肽序列的氨基酸位置参考SEQ ID NO:34编号。

4.根据权利要求1所述的工程化cGAS酶，其中所述工程化cGAS酶的所述多肽序列与SEQID NO:318具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性，并且其中所述工程化cGAS酶的所述多肽序列在选自以下的一个或更多个位置处包含至少一个取代或取代集：131、135/160/286/392、135/204/286、135/286、135/286/392、135/392、139、161、161/204/286/392、164/389、286/392和392，其中所述多肽序列的氨基酸位置参考SEQ ID NO:318编号。

5.根据权利要求1所述的工程化cGAS酶，其中所述工程化cGAS酶的所述多肽序列与SEQID NO:556具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性，并且其中所述工程化cGAS酶的所述多肽序列在选自以下的一个或更多个位置处包含至少一个取代或取代集：127、136/303、147、164、164/169、280、299、364、367、382、408、412和413，其中所述多肽序列的氨基酸位置参考SEQ ID NO:556编号。

6.根据权利要求1所述的工程化cGAS酶，其中所述工程化cGAS酶的所述多肽序列与SEQID NO:556具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性，并且其中所述工程化cGAS酶的所述多肽序列在选自以下的一个或更多个位置处包含至少一个取代或取代集：127、147、147/189、164、164/169、210、367、408、413和449，其中所述多肽序列的氨基酸位置参考SEQ ID NO:556编号。

7.根据权利要求1所述的工程化cGAS酶，其中所述工程化cGAS酶的所述多肽序列与SEQID NO:556具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性，并且其中所述工程化cGAS酶的所述多肽序列在选自以下的一个或更多个位置处包含至少一个取代或取代集：8、127、132、136、136/303、147、150、312和412，其中所述多肽序列的氨基酸位置参考SEQ ID NO:556编号。

8.根据权利要求1所述的工程化cGAS酶，其中所述工程化cGAS酶的所述多肽序列与SEQID NO:566具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性，并且其中所述工程化cGAS酶的所述多肽序列在选自以下的一个或更多个位置处包含至少一个取代或取代集：44/210/299/383/413/466、113/210/408/413、206/210/299/382/408/413、210/212/299/382/383、210/212/299/382/383/393/408/413/466、210/212/299/382/383/408、210/212/299/382/383/408/413、210/212/299/382/383/408/413/466、210/212/299/382/383/408/466、210/212/299/382/413、210/212/299/383/408/413、210/212/299/383/408/413/466、210/212/299/383/408/466、210/212/299/413/466、210/212/408/413/466、210/299/382/383/408、210/299/382/383/408/413、210/299/382/383/408/413/466、210/299/382/383/408/466、210/299/382/383/413、210/299/382/383/413/466、210/299/382/408/413/466、210/299/382/408/466、210/299/382/413/466、210/299/383/408、210/299/383/408/413、210/299/383/408/413/466、210/299/383/408/466、210/299/383/413、210/299/408/413、210/299/408/466、210/299/413、210/382/413、212/299/382/383/408/413、212/299/382/383/413/466、212/299/382/408/413、212/299/382/408/413/466、212/299/382/408/466、212/299/382/413、212/299/382/413/466、212/299/383/408、212/299/383/408/413/466、212/299/383/408/466、212/299/383/413、212/299/383/413/466、212/299/408/413、212/299/408/413/466、212/299/413/466、253/299/382/383/408、265、299/382/383/408/413、299/382/383/408/413/466、299/382/408、299/382/408/466、299/382/413、299/383、299/383/408/413、299/383/408/413/466、299/383/408/466、299/408、299/408/413、299/408/413/466、299/408/466、299/413、299/413/466、376、379、382、382/408和474，其中所述多肽序列的氨基酸位置参考SEQ ID NO:566编号。

9.根据权利要求1所述的工程化cGAS酶，其中所述工程化cGAS酶的所述多肽序列与SEQID NO:666具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性，并且其中所述工程化cGAS酶的所述多肽序列在选自以下的一个或更多个位置处包含至少一个取代或取代集：210/212/299/382/383、210/212/299/382/383/408/413、210/212/299/382/383/408/413/466、210/212/299/383/408/413/466、210/299/382/383/408、210/299/382/383/408/413、210/299/382/383/408/413/466、210/299/382/383/408/466、210/299/382/383/413、210/299/382/383/413/466、210/299/382/408/466、210/299/383/408、210/299/383/408/413、210/299/383/408/413/466、210/299/383/408/466、210/299/383/413、210/299/408/413、272、299/382/383/408/413、299/382/383/408/413/466、299/382/408、299/382/408/466、299/408/413/466、299/408/466、299/413/466、376和388，其中所述多肽序列的氨基酸位置参考SEQ ID NO:666编号。

10.根据权利要求1所述的工程化cGAS酶，其中所述工程化cGAS酶包含SEQ ID NO:34、SEQ ID NO:318、SEQ ID NO:556、SEQ ID NO:566和/或SEQ ID NO:666中所列的变体工程化cGAS酶。

11.根据权利要求1所述的工程化cGAS酶，其中所述工程化cGAS酶包含与SEQ ID NO:2-SEQ ID NO:812中的偶数编号序列中所列的至少一种cGAS酶变体的序列至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同的多肽序列。

12.根据权利要求1所述的工程化cGAS酶，其中所述工程化cGAS酶包含SEQ ID NO:4-SEQ ID NO:812中的偶数编号序列中的至少一种中所列的多肽序列。

13.根据权利要求1-12中任一项所述的工程化cGAS酶，其中与野生型白头海雕(Haliaeetus leucocephalus)cGAS酶相比，所述工程化cGAS酶包含至少一种改进的性质。

14.根据权利要求13所述的工程化cGAS酶，其中所述改进的性质包括改进的对底物的活性。

15.根据权利要求14所述的工程化cGAS酶，其中所述底物包括Sp-3’氟-3’-脱氧鸟苷-5’-(1-硫代)-三磷酸(F-thioGTP或化合物(2))和/或Sp-2’氟-ara-腺苷-5’-1-硫代-三磷酸(F-thioATP或化合物(3))。

16.根据权利要求13所述的工程化cGAS酶，其中所述改进的性质包括改进的化合物(1)的产生。

17.根据权利要求13所述的工程化cGAS酶，其中所述改进的性质包括增加的活性、增加的底物耐受性和/或增加的稳定性。

18.根据权利要求1-17中任一项所述的工程化cGAS酶，其中所述工程化cGAS酶是纯化的。

19.一种组合物，所述组合物包含至少一种根据权利要求1-18中任一项所述的工程化cGAS酶。

20.一种多核苷酸序列，所述多核苷酸序列编码至少一种根据权利要求1-18中任一项所述的工程化cGAS酶。

21.一种多核苷酸序列，所述多核苷酸序列编码至少一种工程化cGAS酶，所述多核苷酸序列包括与SEQ ID NO:1、SEQ ID NO:33、SEQ ID NO:317、SEQ ID NO:555、SEQ ID NO:565和/或SEQ ID NO:665的至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性，其中所述工程化cGAS酶的多核苷酸序列在一个或更多个位置处包含至少一个取代。

22.一种多核苷酸序列，所述多核苷酸序列编码至少一种工程化cGAS酶，所述多核苷酸序列包括与SEQ ID NO:1、SEQ ID NO:33、SEQ ID NO:317、SEQ ID NO:555、SEQ ID NO:565和/或SEQ ID NO:665的至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性。

23.根据权利要求20-22中任一项所述的多核苷酸序列，其中所述多核苷酸序列可操作地连接至控制序列。

24.根据权利要求20-23中任一项所述的多核苷酸序列，其中所述多核苷酸序列是密码子优化的。

25.根据权利要求20-24中任一项所述的多核苷酸序列，其中所述多核苷酸序列包含SEQ ID NO:3-SEQ ID NO:811中的奇数编号序列中所列的多核苷酸序列。

26.一种表达载体，所述表达载体包含至少一种根据权利要求20-25中任一项所述的多核苷酸序列。

27.一种宿主细胞，所述宿主细胞包含至少一种根据权利要求26所述的表达载体。

28.一种宿主细胞，所述宿主细胞包含至少一种根据权利要求20-25中任一项所述的多核苷酸序列。

29.一种在宿主细胞中产生工程化cGAS酶的方法，所述方法包括在合适的条件下培养根据权利要求27和/或28所述的宿主细胞，使得产生至少一种工程化cGAS酶。

30.根据权利要求29所述的方法，所述方法还包括从培养物和/或宿主细胞回收至少一种工程化cGAS酶。

31.根据权利要求29和/或30所述的方法，所述方法还包括纯化所述至少一种工程化cGAS酶的步骤。