CN114667149A - 新型核碱基编辑器及其使用方法 - Google Patents
新型核碱基编辑器及其使用方法 Download PDFInfo
- Publication number
- CN114667149A CN114667149A CN202080077983.2A CN202080077983A CN114667149A CN 114667149 A CN114667149 A CN 114667149A CN 202080077983 A CN202080077983 A CN 202080077983A CN 114667149 A CN114667149 A CN 114667149A
- Authority
- CN
- China
- Prior art keywords
- adenosine deaminase
- domain
- fusion protein
- variant
- cas9
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/78—Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61K—PREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
- A61K31/00—Medicinal preparations containing organic active ingredients
- A61K31/70—Carbohydrates; Sugars; Derivatives thereof
- A61K31/7088—Compounds having three or more nucleosides or nucleotides
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61K—PREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
- A61K48/00—Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P1/00—Drugs for disorders of the alimentary tract or the digestive system
- A61P1/16—Drugs for disorders of the alimentary tract or the digestive system for liver or gallbladder disorders, e.g. hepatoprotective agents, cholagogues, litholytics
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/102—Mutagenizing nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/52—Genes encoding for enzymes or proenzymes
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/16—Hydrolases (3) acting on ester bonds (3.1)
- C12N9/22—Ribonucleases RNAses, DNAses
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61K—PREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
- A61K38/00—Medicinal preparations containing peptides
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
- C12N2310/20—Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Y—ENZYMES
- C12Y305/00—Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
- C12Y305/04—Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
- C12Y305/04004—Adenosine deaminase (3.5.4.4)
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Medicinal Chemistry (AREA)
- Plant Pathology (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Animal Behavior & Ethology (AREA)
- Pharmacology & Pharmacy (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Epidemiology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Gastroenterology & Hepatology (AREA)
- General Chemical & Material Sciences (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Enzymes And Modification Thereof (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
- Peptides Or Proteins (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
- Medicines Containing Material From Animals Or Micro-Organisms (AREA)
Abstract
本发明的特征在于新颖可编程核碱基编辑器包含腺苷脱氨酶结构域以及将其用于多核苷酸编辑的方法。在一些实施方案中,可编程核碱基编辑器编辑与遗传疾病相关的致病突变。
Description
相关申请
本申请为国际PCT申请,其主张于2019年9月9日提交的美国临时申请号62/897,777的优先权;以及主张于2020年2月13日提交的国际PCT申请号PCT/US2020/018195的优先权,其全部内容以引用方式并入本文。
背景技术
核酸序列的靶向编辑,例如,靶向剪切或将特定修饰靶向引入基因组DNA是研究基因功能的一种非常有前景的方法,并且有潜力为人类遗传疾病提供新的治疗方法。目前可用的碱基编辑器包括将靶标C·G碱基对转换为T·A的胞苷碱基编辑器(例如,BE4)和将A·T转换为G·C的腺嘌呤碱基编辑器(例如,ABE7.10)。本领域需要能够以更高的特异性和效率在靶标序列中诱导修饰的改进的碱基编辑器。
发明内容
如下所述,本发明的新型可编程核碱基编辑器包含腺苷脱氨酶结构域(例如,TadA*9或ABE9),以及将其用于多核苷酸编辑的方法。在一些实施方案中,本发明的ABE9编辑多核苷酸,例如,多核苷酸包含与遗传疾病相关的致病突变。
一方面,本发明提供的腺苷脱氨酶包含选自由下述所组成的组的氨基酸位置的改变:SEQ ID NO:1的21、23、25、38、51、54、70、71、72、73、94、124、133、139、146,和158,或在另一种腺苷脱氨酶的相应改变:
在一个实施方案中,腺苷脱氨酶包含选自由下述组成的组的改变:SEQ ID NO:1的R21N、R23H、E25F、N38G、L51W、P54C、M70V、Q71M、N72K、Y73S、M94V、P124W、T133K、D139L、D139M、C146R和A158K,或在另一种腺苷脱氨酶的相应改变。在一个实施方案中,腺苷脱氨酶还包含SEQ ID NO:1的V82T改变,或在另一种腺苷脱氨酶的相应改变。在一个实施方案中,本发明提供的腺苷脱氨酶包含选自由下述所组成的组在两个或更多个的氨基酸位置的改变:SEQ ID NO:1的21、23、25、38、51、54、70、71、72、73、94、124、133、139、146和158,或在另一种腺苷脱氨酶的相应改变。在一个实施方案中,该方面的腺苷脱氨酶及其实施方案包含两个或更多个改变。在一个实施方案中,该方面的腺苷脱氨酶及其实施方案包含三个或更多个改变。在一个实施方案中,该方面的腺苷脱氨酶及其实施方案还包含一个或更多个以下的改变:Y147T、Y147R、Q154S、Y123H和Q154R。在一个实施方案中,该方面的腺苷脱氨酶及其实施方案还包含任何一个以下的组的改变:
E25F+V82S+Y123H;
T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+V82S+Y123H+T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+P124W+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
R23H+V82S+Y123H+Y147R+Q154R;
R21N+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+Y147R+Q154R+A158K;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
V82S+Q154R;
N72K+V82S+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R;
N72K_V82S+Y123H+Y147R+Q154R;
Q71M_V82S+Y123H+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;或
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R。在一个实施方案中,腺苷脱氨酶变体包含如表14或18中所述的任何改变或改变的组。在一个实施方案中,该方面的腺苷脱氨酶及其实施方案包含选自由149、150、151、152、153、154、155、156和157组成的组的残基开始的C末端的缺失。在一个实施方案中,该方面的腺苷脱氨酶及其实施方案还包含选自由Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R的改变。在一个实施方案中,该方面的腺苷脱氨酶及其实施方案是表14、表18或图3A-3C中描述的腺苷脱氨酶变体。3A-3C。
另一方面,本发明提供一种融合蛋白,其中,该融合蛋白包含多核苷酸可编程DNA结合结构域和至少一个碱基编辑器结构域,该碱基编辑器结构域是腺苷脱氨酶变体,其包含在选自下述氨基酸位置所组成的组的改变:SEQ ID NO 1的21、23、25、38、51、54、70、71、72、73、94、124、133、139、146和158,或在另一种腺苷脱氨酶的相应改变:
在一个实施方案中,腺苷脱氨酶变体包含选自由下述组成的组的改变:SEQ ID NO:1的R21N、R23H、E25F、N38G、L51W、P54C、M70V、Q71M、N72K、Y73S、M94V、P124W、T133K、D139L、D139M、C146R和A158K,或在另一种腺苷脱氨酶的相应改变。
另一方面,本发明提供一种融合蛋白,其中,该融合蛋白包含多核苷酸可编程DNA结合结构域和至少一个碱基编辑器结构域,该碱基编辑器结构域是腺苷脱氨酶变体,其包含选自下述所组成的组的改变:SEQ ID NO 1的R21N,R23H,E25F,N38G,L51W,P54C,M70V,Q71M,N72K,Y73S,M94V,P124W,T133K,D139L,D139M,C146R,和A158K,或在另一种腺苷脱氨酶的相应改变。
在任何上述方面及其实施方案的任何融合蛋白的实施方案中,腺苷脱氨酶变体还包含SEQ ID NO:1的V82T改变:或在另一种腺苷脱氨酶的相应改变。
另一方面,本发明提供一种融合蛋白,其中,该融合蛋白包含多核苷酸可编程DNA结合结构域和至少一个碱基编辑器结构域,该碱基编辑器结构域是腺苷脱氨酶变体,其包含V82T的改变和一个或多个选自下述所组成的组的改变:SEQ ID NO 1的R21N,R23H,E25F,N38G,L51W,P54C,M70V,Q71M,N72K,Y73S,M94V,P124W,T133K,D139L,D139M,C146R,和A158K,或在另一种腺苷脱氨酶的相应改变。
在任何上述方面及其实施方案的任何融合蛋白的实施方案中,腺苷脱氨酶变体包含选自由下述所组成的组在两个或更多个的氨基酸位置的改变:SEQ ID NO:1的21、23、25、38、51、54、70、71、72、73、94、124、133、139、146和158,或在另一种腺苷脱氨酶的相应改变。在一个实施方案中,腺苷脱氨酶变体包含两个或更多个改变。在一个实施方案中,腺苷脱氨酶变体包含三个或更多个改变。在一个实施方案中,腺苷脱氨酶变体还包含一个或更多个以下的改变:Y147T、Y147R、Q154S、Y123H和Q154R。在一个实施方案中,腺苷脱氨酶变体包含选自由149、150、151、152、153、154、155、156和157组成的组的残基开始的C末端的缺失。
在上述融合蛋白及其实施方案的实施方案中,碱基编辑器结构域包含腺苷脱氨酶变体单体,其中,该腺苷脱氨酶单体包含一个或多个选自下述所组成的组的改变:SEQ IDNO 1的R21N,R23H,E25F,N38G,L51W,P54C,M70V,Q71M,N72K,Y73S,V82T、M94V、P124W、T133K、D139L、D139M、C146R、和A158K。在一个实施方案中,碱基编辑器结构域包含腺苷脱氨酶异二聚体,该异二聚体包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。在一个实施方案中,腺苷脱氨酶变体还包含选自由Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R所组成的组的改变。在一个实施方案中,碱基编辑器结构域包含腺苷脱氨酶异二聚体,该异二聚体包含TadA*7.10结构域和腺苷脱氨酶变体结构域。在一个实施方案中,腺苷脱氨酶变体包含两个或更多个改变。
在任何上述方面及其实施方案的融合蛋白的另一个实施方案中,腺苷脱氨酶变体是表14、表18或图3A-3C中描述的ABE9(TadA*9脱氨酶变体)。
在任何上述方面及其实施方案的融合蛋白的另一个实施方案中,腺苷脱氨酶变体是截短的ABE8或ABE9,其缺失相对于全长ABE9的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个C末端氨基酸残基。
在任何上述方面及其实施方案的融合蛋白的另一个实施方案中,多核苷酸可编程DNA结合结构域是Cas9、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ结构域。
另一方面,本发明提供了一种融合蛋白,其中该融合蛋白包含多核苷酸可编程DNA结合结构域,该多核苷酸可编程DNA结合结构域包含以下序列:
其中粗体序列表示源自Cas9的序列,斜体序列表示接头序列,加下划线的序列表示二分核定位序列,并且至少一个碱基编辑器结构域包含腺苷脱氨酶变体,该变体包含在选自由下述所组成的的组的氨基酸位置改变:SEQID NO 1的21、23、25、38、51、54、70、71、72、73、94、124、133、138、139、146和158。1.在一个实施方案中,腺苷脱氨酶变体包含选自由下述组成的组的改变:SEQ ID NO:1的R21N、R23H、E25F、N38G、L51W、P54C、M70V、Q71M、N72K、Y73S、M94V、P124W、T133K、D138M、D139L、D139M、C146R和A158K。在另一个实施方案中,腺苷脱氨酶变体包含SEQ ID NO:1的V82T改变。在一个实施方案中,腺苷脱氨酶变体包含两个或更多个所述改变。在一个实施方案中,腺苷脱氨酶变体包含三个或更多个所述改变。在一个实施方案中,腺苷脱氨酶变体还包含选自由Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R所组成的组的改变。在一个实施方案中,腺苷脱氨酶变体包含两个或更多个下述改变:Y147T、Y147R、Q154S、Y123H和Q154R。
在任一上述融合蛋白及其实施方案的实施方案中,腺苷脱氨酶变体包含下述任一组改变:
E25F+V82S+Y123H;
T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+V82S+Y123H+T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+P124W+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
R23H+V82S+Y123H+Y147R+Q154R;
R21N+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+Y147R+Q154R+A158K;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
V82S+Q154R;
N72K+V82S+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R;
N72K+V82S+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R。
在一个实施方案中,腺苷脱氨酶变体包含如表14或表18,或图3A至3C中所述的任何其他改变或改变的组。。
在任何上述方面及其实施方案的融合蛋白的一个实施方案中,多核苷酸可编程DNA结合结构域是金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、化脓性链球菌Cas9(SpCas9)或其变体。
在任何上述方面及其实施方案的融合蛋白的实施方案中,多核苷酸可编程DNA结合结构域包含修饰的SaCas9,其具有改变的原间隔序列相邻基序(PAM)特异性。在一个实施方案中,修饰的SaCas9包含氨基酸取代E782K、N968K和R1015H,或其相应的氨基酸取代。
在任何上述方面及其实施方案的融合蛋白的实施方案中,多核苷酸可编程DNA结合结构域包含SpCas9的变体,其具有改变的原间隔序列相邻基序(PAM)特异性。在一个实施方案中,所述改变的PAM对核酸序列5'-NGA-3'、5'-NGC-3'、5'-NGG-3'、5'-NGT-3'或5”-NGN-3'具有特异性。在一个实施方案中,变体SpCas9包含选自下述的氨基酸取代:D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R,或其相应的氨基酸取代;I322V、S409I、E427G、R654L、R753G(MQKFRAER)或其相应的氨基酸取代;I322V、S409I、E427G、R654L、R753G、R1114G,或其相应的氨基酸取代;或如图3A至3C中所示的氨基酸取代。
在任何上述方面及其实施方案的融合蛋白的一个实施方案中,多核苷酸可编程DNA结合结构域是核酸酶失活或切口酶变体。在一个实施方案中,所述的切口酶变体包含氨基酸置换D10A或其相应的氨基酸取代。
在任何上述方面及其实施方案的融合蛋白的一个实施方案中,腺苷脱氨酶结构域能够将脱氧核糖核酸(DNA)中的腺嘌呤脱氨。
在任何上述方面及其实施方案的融合蛋白的一个实施方案中,腺苷脱氨酶是一种经修饰的腺苷脱氨酶,其在自然界中不存在。
在上述方面的腺苷脱氨酶及其实施方案的一个实施方案中,所述腺苷脱氨酶是TadA脱氨酶。在任何上述方面及其实施方案的融合蛋白的一个实施方案中,腺苷脱氨酶是TadA脱氨酶。在一个实施方案中,TadA脱氨酶是TadA*7.10变体。
在任何上述方面及其实施方案的融合蛋白的一个实施方案中,融合蛋白包含在多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域之间的接头。在一个实施方案中,接头包含氨基酸序列:SGGSSGGSSGSETPGTSESATPES。
在任何上述方面及其实施方案的融合蛋白的一个实施方案中,融合蛋白包含一个或多个核定位信号。在一个实施方案中,核定位信号是二分核定位信号。
在任何上述方面及其实施方案的融合蛋白的一个实施方案中,Cas9是StCas9。
在任何上述方面及其实施方案的融合蛋白的一个实施方案中,Cas9是SaCas9或SpCas9.。
在任何上述方面及其实施方案的融合蛋白的一个实施方案中,Cas9是经修饰的SaCas9或经修饰的SpCas9。在一个实施方案中,修饰的SaCas9包含氨基酸取代E782K、N968K和R1015H,或其相应的氨基酸取代。在一个实施例中,修饰的SaCas9包含下述氨基酸序列:
KRNYILGLAIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRKLINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYKNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPHIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG。
在另一方面,本发明提供了编码任何上述方面及其实施方案的融合蛋白的多核苷酸。
在另一方面,本发明提供了一种细胞,其中该细胞是通过引入下述到该细胞或其祖细胞中而产生的:编码任何上述方面及其实施方案的融合蛋白的多核苷酸,以及靶向碱基编辑器以实现与遗传疾病相关的SNP的A·T至G·C改变的一种或多种引导多核苷酸。在一个实施方案中,细胞是人类细胞。在一个实施方案中,细胞是体外或体内的。在一个实施方案中,遗传疾病是α-1抗胰蛋白酶缺乏症(A1AD)。在一个实施方案中,融合蛋白和所述一种或多种引导多核苷酸在所述细胞中形成复合物。
在另一方面,本发明提供了从上述方面及其实施方案的细胞增殖或扩增的分离的细胞或细胞群。
一方面,本发明提供了在有需要的受试者中治疗遗传疾病的方法,其中,该方法包含向受试者施用任何上述方面及其实施方案中的细胞、分离的细胞或细胞群。在该方法的一个实施方案中,细胞、分离的细胞或细胞群对于受试者而言是自体的、同种异体的或异种的。
一方面,本发明提供一种碱基编辑器系统,其中,该碱基编辑器系统包含多核苷酸可编程DNA结合结构域和至少一个碱基编辑器结构域,该碱基编辑器结构域是腺苷脱氨酶变体,其包含在选自下述所组成的组的氨基酸位置改变:SEQ ID NO 1的21、23、25、38、51、54、70、71、72、73、82、94、124、133、139、146和158,或在另一种腺苷脱氨酶的相应改变:
在一个实施方案中的碱基编辑器系统,腺苷脱氨酶变体包含选自由下述组成的组的改变:SEQ ID NO:1的R21N,R23H,E25F、N38G、L51W、P54C、M70V、Q71M、N72K、Y73S、V82T、M94V、P124W、T133K、D139L、D139M、C146R、和A158K。或在另一种腺苷脱氨酶的相应改变。在一个实施方案中,碱基编辑器还包含一种或多种靶向碱基编辑器的引导多核苷酸,以实现与遗传疾病相关的SNP的A·T至G·C改变。在碱基编辑器系统的一个实施方案中,腺苷脱氨酶变体能够使脱氧核糖核酸(DNA)中的腺嘌呤脱氨。在碱基编辑器系统的一个实施方案中,引导多核苷酸包含核糖核酸(RNA)或脱氧核糖核酸(DNA)。在碱基编辑器系统的一个实施方案中,引导多核苷酸包含CRISPRRNA(crRNA)序列、反式激活CRISPR RNA(tracrRNA)序列或其组合。在一个实施方案中,碱基编辑器系统还包含第二引导多核苷酸。在一个实施方案中,第二引导多核苷酸包含核糖核酸(RNA)或脱氧核糖核酸(DNA)。在一个实施方案中,第二引导多核苷酸包含CRISPR RNA(crRNA)序列、反式激活CRISPR RNA(tracrRNA)序列或其组合。在上述的碱基编辑器系统及其实施方案的一个实施方案中,多核苷酸可编程DNA结合结构域包含Cas9、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、或Cas12j/CasΦ结构域。在一个实施方案中,多核苷酸可编程DNA结合结构域是核酸酶死亡。在一个实施方案中,多核苷酸可编程DNA结合结构域是切口酶。在一个实施方案中,多核苷酸可编程DNA结合结构域包含Cas9结构域。在一个实施方案中,Cas9结构域包含核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9。在一个实施方案中,Cas9结构域包含Cas9切口酶。在一个实施方案中,多核苷酸可编程DNA结合结构域是工程改造的或修饰的多核苷酸可编程DNA结合结构域。在上述碱基编辑器系统及其实施例的一个实施例中,遗传疾病是α-1抗胰蛋白酶缺乏症(A1AD)。
在另一方面,本发明提供了一种用于校正多核苷酸中的单核苷酸多态性(SNP)的方法,该方法包含:将至少一部分位于多核苷酸或其反向互补序列中的靶核苷酸序列与上述方面及其实施方案的任一种融合蛋白,或上述方面及其实施方案的任一种碱基编辑器系统进行接触;以及,通过在碱基编辑器靶向靶核苷酸序列时脱氨来编辑SNP,其中,使SNP或其互补核碱基脱氨来校正SNP。在一个实施方案中,SNP与α-1抗胰蛋白酶缺乏症(A1AD)相关。在一个实施方案中,SNP在SERPINA1基因中并且所述校正包含E342K(PiZ等位基因)改变。
在一个方面中,本文所提供的一种编辑多核苷酸的方法,所述方法包含使靶核苷酸序列与任一种上述方面及其实施方案的融合蛋白或任一种上述方面及其实施方案的碱基编辑器系统接触,从而编辑所述多核苷酸。在该方法的一个实施方案中,编辑导致小于20%的插入缺失形成、小于15%的插入缺失形成、小于10%的插入缺失形成;少于5%的插入缺失形成;少于4%的插入缺失形成;少于3%的插入缺失形成;少于2%的插入缺失形成;少于1%的插入缺失形成;少于0.5%的插入缺失形成;或少于0.1%的插入缺失形成。在该方法的一个实施方案中,编辑不导致易位。
在本文所提供的另一个方面的一种碱基编辑器,其包含ABE9(TadA*9脱氨酶变体),该ABE9包含选自下述的TadA*7.10腺苷脱氨酶变体结构域和Cas9核酸内切酶结构域:
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+A109S突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9;
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+T111R突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9;
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+D119N突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9;
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+H122N突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9;
具有SEQ ID NO:1的I76Y+V82T+Y147d+Q154S突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9;
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+F149Y突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9;
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+T166I突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9;以及
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+D167N突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9。
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+L36H+N157K突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G,R1114G(MQKFRAER)突变的spCas9;
具有SEQ ID NO:1的I76Y+V82T+Y147D+Q154S+F149Y+D167N+L36H+N157K突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G,R1114G(MQKFRAER)突变的SpCas9;
具有SEQ ID NO 1:1的I76Y+V82T+Y147D+Q154S+F149Y+D167N+L36H+N157K+V106W突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G,R1114G(MQKFRAER)突变的SpCas9;
具有SEQ ID NO:1的A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N突变的单TadA*7.10,和具有I322V、S409I、E427G、R654L、R753G、R1114G、MQKFRAER的SpCas9;以及
具有SEQ ID NO:1的A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N+V106W突变的单TadA*7.10,具有突变I322V、S409I、E427G、R654L、R753G、R1114G(MQKFRAER)的SpCas9;以及一种或多种靶向腺苷脱氨酶变体结构域的引导多核苷酸,以实现与遗传疾病相关的SNP的A·T至G·C改变。在该碱基编辑器的一个实施方案中,SNP与α-1抗胰蛋白酶缺乏症(A1AD)相关。
在另一个方面,本文提供了一种载体,其中,该载体包含一个或多个编码ABE9碱基编辑器的多核苷酸,该ABE9碱基编辑器包含选自下述的TadA腺苷脱氨酶结构域和SpCas9核酸内切酶结构域:
具有突变I76Y+V82T+Y147T+Q154S+A109S的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+T111R的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+D119N的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+H122N的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147d+Q154S的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+F149Y的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+T166I的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;以及
具有突变I76Y+V82T+Y147T+Q154S+D167N的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+L36H+N157K的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G、R1114G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147D+Q154S+F149Y+D167N+L36H+N157K的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G、R1114G(MQKFRAER)的SpCas9;
具有突变I76Y+V82T+Y147D+Q154S+F149Y+D167N+L36H+N157K+V106W的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G,R1114G、(MQKFRAER)的SpCas9;
具有突变A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G、R1114G(MQKFRAER)的SpCas9;
具有突变A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N+V106W的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G、R1114G(MQKFRAER)的SpCas9;在一个实施方案中,载体是质粒、病毒或mRNA载体。
在一个方面中,本文所提供的一种组合物,其包含任一种上述方面及其实施方案的融合蛋白或任一种上述方面及其实施方案的碱基编辑器系统。在一个实施方案中,该组合物还包含药学上可接受的赋形剂、稀释剂或载子。
在另一个方面,本发明提供了一种组合物,其包含与引导RNA结合的任何一种上述方面及其实施方案的融合蛋白,其中引导RNA包含与与α-1抗胰蛋白酶缺乏症(A1AD)相关的SERPINA1基因互补的核酸序列。。
在另一个方面,本发明提供了一种组合物,其包含与引导RNA结合的任何一种上述方面及其实施方案的碱基编辑器系统,其中引导RNA包含与与α-1抗胰蛋白酶缺乏症(A1AD)相关的SERPINA1基因互补的核酸序列。。
在任何上述方面及其实施方案的组合物的一个实施方案中,腺苷脱氨酶变体能够将脱氧核糖核酸(DNA)中的腺嘌呤脱氨。
在任何上述方面及其实施方案的组合物的一个实施方案中,融合蛋白或碱基编辑器系统包含:
(i)包含Cas9切口酶;
(ii)包含核酸酶失活的Cas9;
(iii)包含SpCas9变体,其包含图3A至3C中所示的氨基酸取代的组合;或
(iv)包含SpCas9变体,其包含选自I322V、S409I、E427G、R654L、R753G(MQKFRAER);或I322V、S409I、E427G、R654L、R753G、R1114G、(MQKFRAER)的氨基酸序列取代的组合。
在上述任一方面及其实施方案的组合物的一个实施方案中,该组合物还包含药学上可接受的赋形剂、稀释剂或载体,即药物组合物。
一方面,本发明提供了用于治疗疾病或病症的药物组合物,其包含组合物,该组合物还包含药学上可接受的赋形剂、稀释剂或载体。在该药物组合物的一个实施方案中,疾病或病症是α-1抗胰蛋白酶缺乏症(A1AD)。在该药物组合物的一个实施方案中,其中,所述融合蛋白或所述碱基编辑器与引导RNA结合,其中,所述引导RNA包含与α-1抗胰蛋白酶缺乏症(A1AD)相关的SERPINA1基因互补的核酸序列。在药物组合物的一个实施方案中,gRNA和碱基编辑器一起或分开配制。在上述药物组合物及其实施方案的一个实施方案中,所述gRNA包含从5'到3',或其1、2、3、4或5个核苷酸的5'截短片段的核酸序列,其选自一种或多种:
5′-ACCAUCGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAUAAGGCUAGUC CGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′;
5′-CCAUCGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′;
5′-CAUCGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′;
5′-AUCGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′;
5′-UCGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′;或
5′-CGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′。在上述药物组合物及其实施方案的一个实施方案中,该药物组合物还包含适合在哺乳动物细胞中表达的载体,其中,该载体包含编码碱基编辑器的多核苷酸。在药物组合物的一个实施方案中,编码碱基编辑器的多核苷酸是mRNA。在药物组合物的一个实施方案中,载体是病毒载体。在药物组合物的一个实施方案中,病毒载体是逆转录病毒载体、腺病毒载体、慢病毒载体、疱疹病毒载体或腺相关病毒载体(AAV)。在上述任一方面及其实施方案的药物组合物的一个实施方案中,该药物组合物还包含适合在哺乳动物细胞中表达的核糖核颗粒。在任何上述方面及其实施方案的药物组合物的一个实施方案中,所述药物组合物还包含脂质。
另一方面,本发明提供了一种治疗α-1抗胰蛋白酶缺乏症(A1AD)的方法,其中,该方法包含向有需要的受试者施用上述方面及其实施方案中任一项的药物组合物。
另一方面,本发明提供了上述方面及其实施方案中任一项的药物组合物在治疗受试者中的α-1抗胰蛋白酶缺乏症(A1AD)中的用途。
在上述方法或用途的一个实施方案中,受试者是人类。
在上述方面及其实施方案中任一项的的融合蛋白或碱基编辑器系统的一个实施方案中,腺苷脱氨酶变体包含下述任一组改变:
E25F+V82S+Y123H;
T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+V82S+Y123H+T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+P124W+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
R23H+V82S+Y123H+Y147R+Q154R;
R21N+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+Y147R+Q154R+A158K;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
V82S+Q154R;
N72K+V82S+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R;
N72K+V82S+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R。
在一个实施方案中,腺苷脱氨酶变体(例如,TadA*9脱氨酶变体)包含如表14或18中所述的任何改变或改变的组。
如同所属技术领域的技术人员就上述方面及其实施方案的腺苷脱氨酶所理解的,在其他腺苷脱氨酶中的氨基酸改变,其对应于SEQ ID NO:1中所示的氨基酸改变,可以通过进行常规序列比对和评估SEQ ID NO:1的氨基酸序列和其他腺苷脱氨酶(例如TadA脱氨酶等)的序列或其相关部分的相关性和/或同一性来快速地确定,如上所述。在一个实施方案中,另一种腺苷脱氨酶的氨基酸序列包含与SEQ ID NO:1至少85%的序列同一性。在一个实施方案中,另一种腺苷脱氨酶的氨基酸序列包含与SEQ ID NO:1至少90%的序列同一性。在一个实施方案中,另一种腺苷脱氨酶的氨基酸序列包含与SEQ ID NO:1至少95%的序列同一性。在一个实施方案中,另一种腺苷脱氨酶的氨基酸序列包含与SEQ ID NO:1至少98%的序列同一性。在一个实施方案中,另一种腺苷脱氨酶的氨基酸序列包含与SEQ ID NO:1至少99%的序列同一性。
在另一个方面,本发明提供了上述腺苷脱氨酶、融合蛋白、碱基编辑器或碱基编辑器系统及其实施方案,其包含腺苷脱氨酶或腺苷脱氨酶变体,其为TadA*7.10变体,其包含任何一种下述的氨基酸改变或改变的组:V82T;I76Y+V82T;或I76Y+V82T+Y147T+Q154S。
另一方面,本发明提供了腺苷脱氨酶变体,其是TadA*7.10变体,其包含下述氨基酸改变或改变的组中的任一种:V82T;I76Y+V82T;或I76Y+V82T+Y147T+Q154S。
在另一个方面,提供了融合蛋白,其中融合蛋白包含多核苷酸可编程DNA结合域和至少一个碱基编辑域,该碱基编辑域是TadA*7.10腺苷脱氨酶变体,其包含下述氨基酸改变或组中的任一个改动:V82T;I76Y+V82T;或I76Y+V82T+Y147T+Q154S。在一个实施方案中,多核苷酸可编程DNA结合结构域包含Cas9结构域。在一个实施方案中,所述Cas9核酸内切酶结构域包含具有突变I322V,S409I,E427G,R654L,R753G(MQKFRAER)的spCas9。
在上述腺苷脱氨酶变体及其实施方案或上述融合蛋白及其实施方案的一个实施方案中,TadA7*10是单体的。
另一个方面,本文提供的一种碱基编辑器,其包含ABE9(TadA*9脱氨酶变体),该ABE9包含选自下述的TadA*7.10腺苷脱氨酶变体结构域和Cas9核酸内切酶结构域:
具有突变Q154S的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T的单TadA*7.10,和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;或
具有突变I76Y+V82T+Y147T+Q154S的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9。
定义
下述定义补充了本领域中的定义,并且针对当前申请,并且不归咎于任何相关或不相关的案例,例如,任何共同拥有的专利或申请。尽管与本文所述的那些相似或等效的任何方法和材料可用于测试本公开的实践中,但本文描述了优选的材料和方法。因此,本文中使用的术语仅用于描述特定实施例的目的,并不旨在进行限制。
除非另有定义,本文使用的所有技术和科学术语均具有本发明所属领域的技术人员通常理解的含义。下述参考文献为技术人员提供了本发明中使用的许多术语的一般定义:Singleton等人,Dictionary of Microbiology and Molecular Biology(2nded.1994);The Cambridge Dictionary of Science and Technology(Walker ed.,1988);The Glossary of Genetics,5th Ed.,R.Rieger等人(eds.),Springer Verlag(1991);andHale&Marham,The Harper Collins Dictionary of Biology(1991).如本文所用,下述术语具有下述赋予它们的含义,除非另有说明。
在本申请中,除非另有特别说明,否则单数的使用包括复数。必须注意,在说明书中使用的单数形式“一个(a)”、“一个(an)”和“所述(the)”包括复数指称,除非上下文另有明确规定。在本申请中,除非另有说明,否则“或”的使用是指“和/或”。此外,术语“包括(including)”以及诸如“包括(include)”、“包括(includes)”和“包括(included)”等其他形式的使用不是限制性的。
如在本说明书和权利要求中使用的,术语“包含(comprising)”(以及任何形式的包含,例如“包含(comprise)”和“包含(comprises)”)、“具有(having)”(以及任何形式的具有,例如“具有(have)”和“具有(has)”)、“包括(including)”(以及任何形式的包括,例如“包括(includes)”和“包括(include)”)或“含有(containing)”(以及任何形式的含有,例如“含有(contains)”和“含有(contain)”)是包容性或开放性的并且不排除额外的、未提及的元素或方法步骤。预期本说明书中讨论的任何实施方案可关于本公开的任何方法或组合实施,反之亦然。此外,本公开的组成物可用于实现本公开的方法。
术语“约(about)”或“大约(approximately)”是指在由本领域普通技术人员确定的特定值的可接受误差范围内,这将部分取决于如何测量或确定该值,即测量系统。例如,根据本领域的实践,“约”可以表示在1个标准偏差以内或超过1个标准偏差。或者,“约”可以表示给定值的最多20%、最多10%、最多5%或最多1%的范围。或者,特别是对于生物系统或过程,该术语可表示在一个数量级内,例如在值的5倍内、2倍内。在申请和权利要求中描述特定值的情况下,除非另有说明,术语“约”的含义应假定在特定值的可接受误差范围内。
说明书中对“一些实施方案”、“一个(an)实施方案”、“一个(one)实施方案”或“其他实施方案”的引用是指结合实施例描述的特定特征、结构或特性包括在至少一些实施方案中,但不包括必须是本公开的所有实施方案。
“腺苷脱氨酶”是指能够催化腺嘌呤或腺苷水解脱氨的多肽或其片段。在一些实施方案中,所述脱氨酶或脱氨酶结构域是催化腺苷水解脱氨为肌苷或脱氧腺苷水解脱氨为脱氧肌苷的腺苷脱氨酶。在一些实施方案中,所述腺苷脱氨酶催化脱氧核糖核酸(DNA)中腺嘌呤或腺苷的水解脱氨。本文提供的腺苷脱氨酶(例如,工程化的腺苷脱氨酶、进化的腺苷脱氨酶)可以来自任何生物体,例如细菌。
在一些实施方案中,所述脱氨酶或脱氨酶结构域是来自生物体例如人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠的天然存在的脱氨酶的变体。在一些实施方案中,所述脱氨酶或脱氨酶结构域不存在于自然界。例如,在一些实施方案中,脱氨酶或脱氨酶结构域为至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与自然存在的脱氨酶相同。在一些实施方案中,腺苷脱氨酶来自细菌,例如大肠杆菌、金黄色葡萄球菌、伤寒沙门氏菌、腐败希瓦氏菌、流感嗜血杆菌或新月形梭菌。在一些实施方案中,所述腺苷脱氨酶是TadA脱氨酶。在一些实施方案中,所述TadA脱氨酶是大肠杆菌TadA(ecTadA)脱氨酶或其片段。
例如,国际PCT申请号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO 2017/070632)中描述了脱氨酶结构域,它们各自通过引用整体并入本文。此外,请参阅Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)),和Rees,H.A.,等人,“Base editing:precision chemistry on the genome andtranscriptome of living cells.”Nat Rev Genet.2018 Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1,其全部内容以引用方式并入本文。
野生型TadA(wt)腺苷脱氨酶具有下述序列(也称为TadA参考序列):
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD.
在一些实施方案中,所述腺苷脱氨酶包含下述序列的改变:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
(也称为TadA*7.10)。
本发明的新颖核碱基编辑器,其中相对于TadA*7.10参考序列受到改变。
在一些实施方案中,TadA*7.10包含至少一个改变。在一些实施方案中,TadA*7.10包含在氨基酸82和/或166处的改变。在特定实施方案中,上述序列的变体包含下述一个或多个改变:Y147T,Y147R,Q154S,Y123H,V82S,T166R,和/或Q154R。改变Y123H是指TadA*7.10中的改变H123Y回复回Y123H TadA(wt)。在其他实施方案中,TadA*7.10序列的变体包含下述改变中的一个或多个:SEQ ID NO:1的R21N、R23H、E25F、N38G、L51W、P54C、M70V、Q71M、N72K、Y73S、M94V、P124W、T133K、D139L、D139M、C146R和A158K:在一些实施方案中,TadA*7.10序列的变体包含选自下述所组成的组的改变的组合;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。
在其他实施方案中,本发明提供了包含缺失例如TadA*8的腺苷脱氨酶变体,其包含从残基149、150、151、152、153、154、155、156或157开始的C末端的缺失,相对到TadA*7.10、TadA参考序列或另一个TadA中的相应突变。
在又其他实施方案中,所述腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域的同源二聚体,每个结构域具有一个或多个下述改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在其他实施方案中,所述腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如TadA*8)的同源二聚体,每个结构域具有选自下述群组的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在其他实施方案中,所述腺苷脱氨酶变体是包含野生型TadA腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异二聚体,其包含一种或多种下述改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在其他实施方案中,所述腺苷脱氨酶变体是包含野生型TadA腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异二聚体,其包含选自下述群组的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在其他实施方案中,所述腺苷脱氨酶变体是包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异二聚体,其包含一种或多种下述改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在其他实施方案中,所述腺苷脱氨酶变体是包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异二聚体,其包含选自下述的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R或I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。在一个实施方案中,所述腺苷脱氨酶是TadA*8,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
在一些实施方案中,所述TadA*8被截断。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个C末端氨基酸残基。在一些实施方案中所述腺苷脱氨酶变体是全长TadA*8。
在特定实施方案中,腺苷脱氨酶异二聚体包含选自下述之一的TadA*8结构域和腺苷脱氨酶结构域:
金黄色葡萄球菌(S.aureus)TadA:
MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGCSGSLMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN
枯草芽孢杆菌(B.subtilis)TadA:
MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE
鼠伤寒沙门氏菌(S.typhimurium)TadA:
MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV
腐败希瓦氏菌(S.putrefaciens)TadA:
MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE
流感嗜血杆菌F3031(H.influenzae)TadA:
MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNLSIVQSDPTAHAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEKKIEKALLKSLSDK
柄杆菌(C.crescentus)TadA:
MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI
硫还原地杆菌(G.sulfurreducens)TadA:
MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP
TadA*7.10
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD。
“腺苷脱氨酶碱基编辑器8(ABE8)多肽”是指编码ABE8的多核苷酸。
“腺苷脱氨酶碱基编辑器9(ABE9)多肽”或“ABE9”是指如本文定义的碱基编辑器,其包含腺苷脱氨酶变体(TadA*9),该腺苷脱氨酶变体(TadA*9)在如下所示序列的位置sssssss处包含一个或多个改变。在一个实施方案中,腺苷脱氨酶变体(TadA*9)包含下述改变:R21N,R23H,E25F,N38G,L51W,P54C,M70V,Q71M,N72K,Y73S,V82T,M94V,P124W,T133K,D139L,D139M,C146R,和A158K,在下述参考序列中:
参考序列中改变的相关碱基下述划线和粗体显示。在一些实施方案中,ABE9包含相对于参考序列的还改变,如本文所述。
“腺苷脱氨酶碱基编辑器9(ABE9)多肽”是指编码ABE9的多核苷酸。
“α-1抗胰蛋白酶(A1AT)蛋白”是指与UniProt登录号P01009具有至少约95%氨基酸序列同一性的多肽或其片段。在特定的实施方案中,A1AT蛋白包含相对于下述参考序列的一个或多个改变。在一个特定的实施方案中,与A1AD相关的A1AT蛋白包含E342K突变。示例性的A1AT氨基酸序列是>sp|P01009|A1AT_HUMANα-1-抗胰蛋白酶OS=智人OX=9606 GN=SERPINA1 PE=1 SV=3,具有下述氨基酸序列:
MPSSVSWGILLLAGLCCLVPVSLAEDPQGDAAQKTDTSHHDQDHPTFNKITPNLAEFAFSLYRQLAHQSNSTNIFFSPVSIATAFAMLSLGTKADTHDEILEGLNFNLTEIPEAQIHEGFQELLRTLNQPDSQLQLTTGNGLFLSEGLKLVDKFLEDVKKLYHSEAFTVNFGDTEEAKKQINDYVEKGTQGKIVDLVKELDRDTVFALVNYIFFKGKWERPFEVKDTEEEDFHVDQVTTVKVPMMKRLGMFNIQHCKKLSSWVLLMKYLGNATAIFFLPDEGKLQHLENELTHDIITKFLENEDRRSASLHLPKLSITGTYDLKSVLGQLGITKVFSNGADLSGVTEEAPLKLSKAVHKAVLTIDEKGTEAAGAMFLEAIPMSIPPEVKFNKPFVFLMIEQNTKSPLFMGKVVNPTQK.在这个A1AT蛋白序列中,前24个氨基酸构成信号肽(下划线)。基于将信号序列后的氨基酸残基“E”设置为氨基酸“1”来确定在A1AD中突变的序列的位置342(即,E342K)。
“施用(Administering)”在本文中是指向患者或受试者提供本文所述的一种或多种组合物。例如但不限于,施用组成物,例如注射,可以通过静脉内(iv)注射、皮下(sc)注射、皮内(id)注射、腹膜内(ip)注射或肌肉内(im)进行注射。可以采用一种或多种这样的途径。肠胃外施用可以是,例如,通过推注或随时间逐渐灌注。或者,或同时,可以通过口服途径施用。
“药剂”是指任何小分子化合物、抗体、核酸分子或多肽,或其片段。
“改变”是指基因或多肽的序列、表达水平或活性的变化(增加或减少),如通过标准的本领域已知方法(例如本文所述的那些)所检测的。如本文所用,改变包括表达水平的10%变化、25%变化、40%变化和50%或更大的表达水平变化。
“改善”是指减少、抑制、减弱、减弱、阻止或稳定疾病的发展或进展。
“类似物”是指不相同但具有类似功能或结构特征的分子。例如,多肽类似物保留了相应的天然存在的多肽的生物学活性,同时具有相对于天然存在的多肽增强类似物功能的某些生化修饰。这种生化修饰可以增加类似物的蛋白酶抗性、膜渗透性或半衰期,而不改变例如配体结合。类似物可包括非天然氨基酸。
“碱基编辑器(BE)”或“核碱基编辑器(NBE)”是指结合多核苷酸并具有核碱基修饰活性的试剂。在各种实施方案中,碱基编辑器包含核碱基修饰多肽(例如,脱氨酶)和与引导多核苷酸(例如,向导RNA)结合的多核苷酸可编程核苷酸结合结构域。在各种实施方案中,所述试剂是包含具有碱基编辑活性的蛋白质结构域的生物分子复合物,即能够修饰核酸分子(例如,A、T、C、G或U)内的碱基(例如,DNA)。在一些实施方案中,所述多核苷酸可编程DNA结合结构域是与脱氨酶结构域融合或连接。在一个实施方案中,所述试剂是包含具有碱基编辑活性的一个或多个结构域的融合蛋白。在另一个实施方案中,具有碱基编辑活性的蛋白质结构域与引导RNA连接(例如,通过引导RNA上的RNA结合基序和与脱氨酶融合的RNA结合结构域)。在一些实施方案中,具有碱基编辑活性的结构域能够使核酸分子内的碱基脱氨。在一些实施方案中,所述碱基编辑器能够使DNA分子内的一个或多个碱基脱氨。在一些实施方案中,所述碱基编辑器能够使DNA内的胞嘧啶(C)或腺苷(A)脱氨。在一些实施方案中,所述碱基编辑器能够使DNA内的胞嘧啶(C)和腺苷(A)脱氨。在一些实施方案中,所述碱基编辑器是胞苷碱基编辑器(CBE)。在一些实施方案中,所述碱基编辑器是腺苷碱基编辑器(ABE)。在一些实施方案中,所述碱基编辑器是腺苷碱基编辑器(ABE)和胞苷碱基编辑器(CBE)。在一些实施方案中,碱基编辑器是与腺苷脱氨酶融合的无核酸酶活性的Cas9(dCas9)。在一些实施方案中,Cas9是环状重排Cas9(例如,spCas9或saCas9)。环状置换Cas9s是本领域已知的并且描述于例如Oakes等人,Cell176,254–267,2019。在一些实施方案中,碱基编辑器与碱基切除修复抑制剂融合,例如UGI结构域或dISN结构域。在一些实施方案中,融合蛋白包含与脱氨酶融合的Cas9切口酶和碱基切除修复抑制剂,例如UGI或dISN结构域。在其他实施方案中,所述碱基编辑器是无碱基的碱基编辑器。
在一些实施方案中,腺苷脱氨酶是从TadA进化而来的。在一些实施方案中,所述多核苷酸可编程DNA结合结构域是CRISPR相关(例如,Cas或Cpf1)酶。在一些实施方案中,碱基编辑器是与脱氨酶结构域融合的无催化活性的Cas9(dCas9)。在一些实施方案中,碱基编辑器是与脱氨酶结构域融合的Cas9切口酶(nCas9)。在一些实施方案中,碱基编辑器与碱基切除修复抑制剂(BER)融合。在一些实施方案中,碱基切除修复抑制剂是尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方案中,碱基切除修复抑制剂是肌苷碱基切除修复抑制剂。碱基编辑器的细节在国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)中有所描述,它们各自通过引用整体并入本文。另参见Komor,A.C.等人,“无双链DNA切割的基因组DNA中靶碱基的可编程编辑”Nature533,420-424(2016);Gaudelli,N.M.等人,“无DNA切割的基因组DNA中A·T到G·C的可编程碱基编辑”Nature551,464-471(2017);Komor,A.C.等人,“改善的碱基切除修复抑制和噬菌体Mu Gam蛋白产生C:G-到-T:A的碱基编辑器,其具有更高的效率和产品纯度”Science Advances 3:eaao4774(2017)和Rees,H.A.等人,“碱基编辑:基因组和活细胞转录组的精确化学”。NatRev Genet.2018 Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1,其全部内容以引用方式并入本文。.
在一些实施方案中,通过将腺苷脱氨酶变体(例如,TadA*8)克隆到包括环状置换Cas9(例如,spCAS9)和二分核定位序列的支架中来产生碱基编辑器(例如,ABE8或ABE9)。环状置换Cas9s是本领域已知的并且描述于例如Oakes等人,Cell 176,254–267,2019.示例性环状置换序列如下,其中粗体序列表示源自Cas9的序列,斜体序列表示接头序列,以及下划线序列表示双核定位序列。
CP5(with MSP“NGC=带有突变的Pam变体常规Cas9类NGG”PID=蛋白质相互作用结构域和“D10A”切口酶):
在一些实施方案中,所述ABE8选自下述表10、11或13的碱基编辑器。在一些实施方案中,ABE8含有从TadA进化而来的腺苷脱氨酶变体。在一些实施方案中,所述ABE8的腺苷脱氨酶变体是如下述表8、10、11或13中所述的TadA*8变体。在一些实施方案中,腺苷脱氨酶变体是包含一个或多个选自由Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R所组成的群组的改变的TadA*7.10变体(,例如TadA*8)。在各种实施方案中,ABE8包含具有选自下述群组的改变组合的TadA*7.10变体(例如TadA*8):Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。
在一些实施方案中,ABE8是含有一个TadA脱氨酶拷贝的单体构建体,例如TadA*8变体。在一些实施方案中,ABE8是二聚体或异二聚体构建体,其包含多于一个,例如,两个相同或不同TadA脱氨酶的拷贝,例如野生型TadA和TadA*8变体。
在一些实施方案中,所述ABE9选自下述表或14的碱基编辑器。在一些实施方案中,ABE9含有从TadA进化而来的腺苷脱氨酶变体。在一些实施方案中,所述ABE9的腺苷脱氨酶变体是如下述表14中所述的TadA*7变体。在一些实施方案中,腺苷脱氨酶变体包含选自由Y147T、Y147R、Q154S、Y123H、V82S、T166R、Q154R所组成的组中的一个或多个改变。在多种实施方案中,ABE9包含TadA*7.10,其具有选自下述的改变:Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y147T+Q154R;Y147T+Q154S;V82S+Q154S;V82T+Q154S和Y123H+Y147R+Q154R+I76Y,除了表14中所列出的。在一些实施方案中,ABE9是含有一个TadA脱氨酶拷贝的单体构建体,例如TadA*9变体。在一些实施方案中,ABE9是二聚体或异二聚体构建体,其包含多于一个,例如,两个相同或不同TadA脱氨酶的拷贝,例如野生型TadA和TadA*9变体。
在一些实施方案中,所述ABE9碱基编辑器包含序列:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
举例来说,用于本文描述的碱基编辑组合物、系统和方法的腺嘌呤碱基编辑器ABE具有核酸序列(8877个碱基对),(Addgene,Watertown,MA.;Komor NM等人,2017,Sci Adv.,30;3(8):2017 Nov 23;551(7681):464-471.doi:10.1038/nature24644;Koblan LW,等人,Nat Biotechnol.2018 Oct;36(9):843-846.doi:10.1038/nbt.4172。)如下提供。还包括与ABE核酸序列具有至少95%或更高同一性的多核苷酸序列。
ATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACCATGAAACGGACAGCCGACGGAAGCGAGTTCGAGTCACCAAAGAAGAAGCGGAAAGTCTCTGAAGTCGAGTTTAGCCACGAGTATTGGATGAGGCACGCACTGACCCTGGCAAAGCGAGCATGGGATGAAAGAGAAGTCCCCGTGGGCGCCGTGCTGGTGCACAACAATAGAGTGATCGGAGAGGGATGGAACAGGCCAATCGGCCGCCACGACCCTACCGCACACGCAGAGATCATGGCACTGAGGCAGGGAGGCCTGGTCATGCAGAATTACCGCCTGATCGATGCCACCCTGTATGTGACACTGGAGCCATGCGTGATGTGCGCAGGAGCAATGATCCACAGCAGGATCGGAAGAGTGGTGTTCGGAGCACGGGACGCCAAGACCGGCGCAGCAGGCTCCCTGATGGATGTGCTGCACCACCCCGGCATGAACCACCGGGTGGAGATCACAGAGGGAATCCTGGCAGACGAGTGCGCCGCCCTGCTGAGCGATTTCTTTAGAATGCGGAGACAGGAGATCAAGGCCCAGAAGAAGGCACAGAGCTCCACCGACTCTGGAGGATCTAGCGGAGGATCCTCTGGAAGCGAGACACCAGGCACAAGCGAGTCCGCCACACCAGAGAGCTCCGGCGGCTCCTCCGGAGGATCCTCTGAGGTGGAGTTTTCCCACGAGTACTGGATGAGACATGCCCTGACCCTGGCCAAGAGGGCACGCGATGAGAGGGAGGTGCCTGTGGGAGCCGTGCTGGTGCTGAACAATAGAGTGATCGGCGAGGGCTGGAACAGAGCCATCGGCCTGCACGACCCAACAGCCCATGCCGAAATTATGGCCCTGAGACAGGGCGGCCTGGTCATGCAGAACTACAGACTGATTGACGCCACCCTGTACGTGACATTCGAGCCTTGCGTGATGTGCGCCGGCGCCATGATCCACTCTAGGATCGGCCGCGTGGTGTTTGGCGTGAGGAACGCAAAAACCGGCGCCGCAGGCTCCCTGATGGACGTGCTGCACTACCCCGGCATGAATCACCGCGTCGAAATTACCGAGGGAATCCTGGCAGATGAATGTGCCGCCCTGCTGTGCTATTTCTTTCGGATGCCTAGACAGGTGTTCAATGCTCAGAAGAAGGCCCAGAGCTCCACCGACTCCGGAGGATCTAGCGGAGGCTCCTCTGGCTCTGAGACACCTGGCACAAGCGAGAGCGCAACACCTGAAAGCAGCGGGGGCAGCAGCGGGGGGTCAGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGACTCTGGCGGCTCAAAAAGAACCGCCGACGGCAGCGAATTCGAGCCCAAGAAGAAGAGGAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCTCTATGGCTTCTGAGGCGGAAAGAACCAGCTGGGGCTCGATACCGTCGACCTCTAGCTAGAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTAGGGTGCCTAATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGAACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACACTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTCGACGGATCGGGAGATCGATCTCCCGATCCCCTAGGGTCGACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGTATCTGCTCCCTGCTTGTGTGTTGGAGGTCGCTGAGTAGTGCGCGAGCAAAATTTAAGCTACAACAAGGCAAGGCTTGACCGACAATTGCATGAAGAATCTGCTTAGGGTTAGGCGTTTTGCGCTGCTTCGCGATGTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATC
“碱基编辑活性”是指用于化学改变多核苷酸内的碱基。在一个实施方案中,第一个碱基被转化为第二个碱基。在一个实施方案中,所述碱基编辑活性是胞苷脱氨酶活性,例如将靶标C·G转化为T·A。在另一实施方案中,所述碱基编辑活性是腺苷或腺嘌呤脱氨酶活性,例如将靶标A·T转化为C·G。在另一实施方案中,所述碱基编辑活性是胞苷脱氨酶活性,例如将靶标C·G转化为T·A,以及腺苷或腺嘌呤脱氨酶活性,例如将A·T转化为G·C。
术语“碱基编辑器系统”是指用于编辑目标核苷酸序列的核碱基的系统。在多种实施方案中,碱基编辑器(BE)系统包含(1)用于使靶核苷酸序列中的核碱基脱氨的多核苷酸可编程核苷酸结合结构域、脱氨酶结构域(例如,胞苷脱氨酶或腺苷脱氨酶);(2)与多核苷酸可编程核苷酸结合结构域结合的一种或多种引导多核苷酸(例如,引导RNA)。在各种实施方案中,碱基编辑器(BE)系统包含选自腺苷脱氨酶或胞苷脱氨酶的核碱基编辑器结构域,以及具有核酸序列特异性结合活性的结构域。在一些实施方案中,碱基编辑器系统包含(1)碱基编辑器(BE),其包含用于将靶核苷酸序列中的一个或多个核碱基脱氨的多核苷酸可编程DNA结合结构域和脱氨酶结构域;以及(2)与多核苷酸可编程DNA结合结构域结合的一种或多种向导RNA。在一些实施方案中,所述多核苷酸可编程酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,所述碱基编辑器是胞苷碱基编辑器(CBE)。在一些实施方案中,所述碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)。在一些实施方案中,所述碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)或胞苷碱基编辑器(CBE)。
术语“Cas9”或“Cas9结构域”是指RNA引导的核酸酶,其包含Cas9蛋白或其片段(例如,包含Cas9的活性、无活性或部分活性的DNA切割结构域的蛋白,和/或gRNA Cas9的结合域)。Cas9核酸酶有时也称为Casnl核酸酶或CRISPR(成簇的规则间隔短回文重复序列)相关核酸酶。示例性的Cas9是化脓性链球菌Cas9(spCas9),其氨基酸序列提供如下:
术语“Cas12b”或“Cas12b结构域”是指RNA引导的核酸酶,其包含Cas12b/C2c1蛋白或其片段(例如,包含Cas12b的活性、无活性或部分活性的DNA切割结构域的蛋白质,和/或Cas12b的gRNA结合结构域)。其各自的全部内容以引用方式并入本文)。Cas12b异种同源物已在多种物种中进行了描述,包括但不限于脂环酸芽孢杆菌(Alicyclobacillusacidoterrestris)、嗜酸脂环杆菌(Alicyclobacillus acidophilus)(Teng等人,CellDiscov.2018年11月27日;4:63),外村尚芽孢杆菌(Bacillus hisashi)和芽孢杆菌(Bacillus sp.)V3-13。基于本公开内容,其他合适的Cas12b核酸酶和序列对于本领域技术人员将是显而易见的。
在一些实施方案中,包含Cas12b或其片段的蛋白被称为“Cas12b变体”。Cas12b变体与Cas12b或其片段具有同源性。例如,Cas12b变体与野生型Cas12b至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施例中,与野生型Cas12b相比,Cas12b变体可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的氨基酸变化。在一些实施例中,Cas12b变体包含Cas12b的片段(例如,gRNA结合结构域或DNA切割结构域),使得该片段与野生型Cas12b的相应片段至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施例中,所述片段是至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%相同、至少96%、至少97%、至少98%、至少99%或至少99.5%相应野生型Cas12b的氨基酸长度。下述列出了示例性的Cas12b多肽。
Cas12b/C2c1(uniprot.org/uniprot/T0D7A2#2)
sp|T0D7A2|C2C1_ALIAG CRISPR-相关核酸内切酶C2c1 OS=Alicyclobacillusacido-terrestris(菌株ATCC 49025/DSM 3922/CIP 106132/NCIMB 13137/GD3B)PEGN=c2c1=1 SV=1
MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDMKEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGERRHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALYFRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPFFFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEADEAREKSVVLMRDPSGIINRGNWTRQKEFWSMVNQRIEGYLVKQIRSRVPLQDSACENTGDI
AacCas12b(嗜酸脂环杆菌)-WP_067623834
MAVKSMKVKLRLDNMPEIRAGLWKLHTEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECYKTAEECKAELLERLRARQVENGHCGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKAKAEARKSTDRTADVLRALADFGLKPLMRVYTDSDMSSVQWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGEAYAKLVEQKSRFEQKNFVGQEHLVQLVNQLQQDMKEASHGLESKEQTAHYLTGRALRGSDKVFEKWEKLDPDAPFDLYDTEIKNVQRRNTRRFGSHDLFAKLAEPKYQALWREDASFLTRYAVYNSIVRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGEGRHAIRFQKLLTVEDGVAKEVDDVTVPISMSAQLDDLLPRDPHELVALYFQDYGAEQHLAGEFGGAKIQYRRDQLNHLHARRGARDVYLNLSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSEGRVPFCFPIEGNENLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPMDANQMTPDWREAFEDELQKLKSLYGICGDREWTEAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYQKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELLNQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCAREQNPEPFPWWLNKFVAEHKLDGCPLRADDLIPTGEGEFFVSPFSAEEGDFHQIHADLNAAQNLQRRLWSDFDISQIRLRCDWGEVDGEPVLIPRTTGKRTADSYGNKVFYTKTGVTYYERERGKKRRKVFAQEELSEEEAELLVEADEAREKSVVLMRDPSGIINRGDWTRQKEFWSMVNQRIEGYLVKQIRSRVRLQESACENTGDI
BhCas12b(外村尚芽孢杆菌)NCBI Reference Sequence:WP_095142515
称为BvCas12b V4的变体包括相对于上述野生型序列的S893R、K846R和E837G变化。
BvCas12b(芽孢杆菌属V3-13)NCBI参考序列:WP_101661451.1
MAIRSIKLKMKTNSGTDSIYLRKALWRTHQLINEGIAYYMNLLTLYRQEAIGDKTKEAYQAELINIIRNQQRNNGSSEEHGSDQEILALLRQLYELIIPSSIGESGDANQLGNKFLYPLVDPNSQSGKGTSNAGRKPRWKRLKEEGNPDWELEKKKDEERKAKDPTVKIFDNLNKYGLLPLFPLFTNIQKDIEWLPLGKRQSVRKWDKDMFIQAIERLLSWESWNRRVADEYKQLKEKTESYYKEHLTGGEEWIEKIRKFEKERNMELEKNAFAPNDGYFITSRQIRGWDRVYEKWSKLPESASPEELWKVVAEQQNKMSEGFGDPKVFSFLANRENRDIWRGHSERIYHIAAYNGLQKKLSRTKEQATFTLPDAIEHPLWIRYESPGGTNLNLFKLEEKQKKNYYVTLSKIIWPSEEKWIEKENIEIPLAPSIQFNRQIKLKQHVKGKQEISFSDYSSRISLDGVLGGSRIQFNRKYIKNHKELLGEGDIGPVFFNLVVDVAPLQETRNGRLQSPIGKALKVISSDFSKVIDYKPKELMDWMNTGSASNSFGVASLLEGMRVMSIDMGQRTSASVSIFEVVKELPKDQEQKLFYSINDTELFAIHKRSFLLNLPGEVVTKNNKQQRQERRKKRQFVRSQIRMLANVLRLETKKTPDERKKAIHKLMEIVQSYDSWTASQKEVWEKELNLLTNMAAFNDEIWKESLVELHHRIEPYVGQIVSKWRKGLSEGRKNLAGISMWNIDELEDTRRLLISWSKRSRTPGEANRIETDEPFGSSLLQHIQNVKDDRLKQMANLIIMTALGFKYDKEEKDRYKRWKETYPACQIILFENLNRYLFNLDRSRRENSRLMKWAHRSIPRTVSMQGEMFGLQVGDVRSEYSSRFHAKTGAPGIRCHALTEEDLKAGSNTLKRLIEDGFINESELAYLKKGDIIPSQGGELFVTLSKRYKKDSDNNELTVIHADINAAQNLQKRFWQQNSEVYRVPCQLARMGEDKLYIPKSQTETIKKYFGKGSFVKNNTEQEVYKWEKSEKMKIKTDTTFDLQDLDGFEDISKTIELAQEQQKKYLTMFRDPSGYFFNNETWRPQKEYWSIVNNIIKSCLKKKILSNKVEL.
术语“保守氨基酸取代”或“保守突变”是指一个氨基酸被具有共同特性的另一个氨基酸置换。定义单个氨基酸之间共同特性的一种功能方法是分析同源生物的相应蛋白质之间氨基酸变化的标准化频率(Schulz,G.E.and Schirmer,R.H.,Principles of ProteinStructure,Springer-Verlag,New York(1979)).根据这样的分析,可以定义氨基酸组,其中组内的氨基酸优先相互交换,因此在它们对整体蛋白质结构的影响方面彼此最相似(Schulz,G.E.and Schirmer,R.H.,supra).保守突变的非限制性实例包括氨基酸的氨基酸取代,例如精氨酸的赖氨酸和反之亦然,从而可以保持正电荷;谷氨酸对天冬氨酸,反之亦然,以保持负电荷;苏氨酸的丝氨酸,这样可以保持一个游离的-OH;和谷氨酰胺用于天冬酰胺,这样可以保持游离的-NH2。
如本文可互换使用的术语“编码序列”或“蛋白质编码序列”是指编码蛋白质的多核苷酸片段。编码序列也可称为开放阅读框。该区域或序列在靠近5'端的地方有一个起始密码子,在靠近3'端的地方有一个终止密码子。对本文所述的碱基编辑器有用的终止密码子包括下列:
“胞苷脱氨酶”是指能够催化将氨基转化为羰基的脱氨反应的多肽或其片段。在一个实施方案中,胞苷脱氨酶将胞嘧啶转化为尿嘧啶或将5-甲基胞嘧啶转化为胸腺嘧啶。源自海七鳃鳗(Petromyzon marinus胞嘧啶脱氨酶1)的PmCDA1、源自哺乳动物(例如,人、猪、牛、马、猴等)的AID(活化诱导胞苷脱氨酶;AICDA),和APOBEC是示例性的胞苷脱氨酶。
如本文所用,术语“脱氨酶”或“脱氨酶结构域”是指催化脱氨反应的蛋白质或酶。在一些实施方案中,脱氨酶或脱氨酶结构域是胞苷脱氨酶,分别催化胞苷或脱氧胞苷水解脱氨为尿苷或脱氧尿苷。在一些实施方案中,脱氨酶或脱氨酶结构域是胞嘧啶脱氨酶,催化胞嘧啶水解脱氨为尿嘧啶。在一些实施方案中,脱氨酶是腺苷脱氨酶,其催化腺嘌呤水解脱氨为次黄嘌呤。在一些实施方案中,所述腺苷脱氨酶催化腺苷或腺嘌呤(A)水解脱氨为肌苷(I)。在一些实施方案中,所述脱氨酶或脱氨酶结构域是腺苷脱氨酶,分别催化腺苷或脱氧腺苷水解脱氨为肌苷或脱氧肌苷。在一些实施方案中,所述腺苷脱氨酶催化脱氧核糖核酸(DNA)中腺苷的水解脱氨。本文提供的腺苷脱氨酶(例如,工程化的腺苷脱氨酶、进化的腺苷脱氨酶)可来自任何生物体,例如细菌。在一些实施方案中,腺苷脱氨酶来自细菌,例如大肠杆菌、金黄色葡萄球菌、伤寒沙门氏菌、腐败希瓦氏菌、流感嗜血杆菌或新月形梭菌。在一些实施方案中,所述腺苷脱氨酶是TadA脱氨酶。在一些实施方案中,所述脱氨酶或脱氨酶结构域是来自生物体例如人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠的天然存在的脱氨酶的变体。在一些实施方案中,所述脱氨酶或脱氨酶结构域不存在于自然界。例如,在一些实施例中,所述脱氨酶或脱氨酶结构域为至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%或至少99.9%与天然存在的脱氨酶相同。
“检测”是指鉴定待检测分析物的存在、不存在或量。在一个实施方案中,检测多核苷酸或多肽中的序列改变。在另一个实施方案中,检测插入缺失的存在。
“可检测标记”是指一种组合物,当与感兴趣的分子连接时,通过光谱、光化学、生物化学、免疫化学或化学手段使后者可检测。例如,有用的标记包括放射性同位素、磁珠、金属珠、胶体颗粒、荧光染料、电子致密试剂、酶(例如,通常用于酶联免疫吸附测定(ELISA))、生物素、地高辛或半抗原。
“疾病”是指损害或干扰细胞、组织或器官的正常功能的任何病症或病症。
“有效量”是指相对于未治疗的患者或没有疾病的个体(即,健康个体)改善疾病症状所需的试剂或活性化合物(例如本文所述的碱基编辑器)的量,或者是足以引发所需生物反应的试剂或活性化合物的量。用于实践本发明内容以治疗疾病的活性化合物的有效量根据给药方式、受试者的年龄、体重和一般健康而变化。最终,主治医师或兽医将决定适当的量和剂量方案。这种量被称为“有效”量。在一个实施方案中,有效量是本发明的碱基编辑器的量足以在细胞(例如,体外或体内细胞)中引入感兴趣基因的改变。在一个实施方案中,有效量是达到治疗效果所需的碱基编辑器的量。这种治疗效果不需要足以改变受试者、组织或器官的所有细胞中的致病基因,而仅需改变存在于受试者、组织或器官中约1%、5%、10%、25%、50%、75%或更多的细胞中的致病基因。在一个实施方案中,有效量足以改善疾病的一种或多种症状。
在一些实施方案中,本文提供的融合蛋白的有效量,例如,包含nCas9结构域和脱氨酶结构域(例如,腺苷脱氨酶、胞苷脱氨酶)的核碱基编辑器的有效量是指足以诱导对由本文所述的核碱基编辑器特异性结合和编辑的靶位点进行编辑的量。如本领域技术人员将理解的,试剂(例如,融合蛋白)的有效量可以根据各种因素而变化,例如,取决于所需的生物反应,例如,特定等位基因、基因组或靶标被编辑的位点,被靶向的细胞或组织,和/或被使用的试剂。
在一些实施方案中,本文提供的融合蛋白的有效量,例如包含nCas9结构域和脱氨酶结构域的融合蛋白的有效量可以是指足以诱导特异性结合和被融合蛋白编辑的靶位点进行编辑的量。如本领域技术人员将理解的,试剂(例如,融合蛋白、核酸酶、杂合蛋白质、蛋白质二聚体、蛋白质(或蛋白质二聚体)和多核苷酸的复合物,或多核苷酸)的有效量可以根据各种因素而变化,例如,取决于所需的生物反应,例如,特定等位基因、基因组或靶标被编辑的位点,被靶向的细胞或组织,和/或被使用的试剂。
“片段”是指多肽或核酸分子的一部分。该部分包含参考核酸分子或多肽全长的至少约10%、20%、30%、40%、50%、60%、70%、80%或90%。片段可包含10、20、30、40、50、60、70、80、90或100、200、300、400、500、600、700、800、900或1000个核苷酸或氨基酸。
“引导RNA”或“gRNA”是指对靶序列具有特异性并且可以与多核苷酸可编程核苷酸结合结构域蛋白(例如,Cas9或Cpf1)形成复合物的多核苷酸。在一个实施方案中,引导多核苷酸是引导RNA(gRNA)。gRNA可以作为两个或多个RNA的复合物存在,也可以作为单个RNA分子存在。以单个RNA分子形式存在的gRNA可称为单引导RNA(sgRNA),但“gRNA”可互换使用,指以单个分子或两个或多个分子的复合体形式存在的引导RNA。通常,作为单一RNA种类存在的gRNA包含两个结构域:(1)与靶标核酸具有同源性的结构域(例如,引导Cas9复合物与靶标的结合);(2)结合Cas9蛋白的结构域。在一些实施方案中,结构域(2)对应于称为tracrRNA的序列,并且包含茎-环结构。例如,在一些实施方案中,结构域(2)与Jinek等人,Science 337:816-821(2012)中提供的tracrRNA相同或同源,其全部内容以引用方式并入本文。gRNA(例如,包括结构域2的那些)的其他示例可以在题为“Switchable Cas9Nucleases and Uses Thereof”(US20160208288)和题为“Delivery System ForFunctional Nucleases”(US 9,737,604)中找到,全部内容通过引用将其整体并入本文。在一些实施例中,gRNA包含结构域(1)和(2)中的两个或更多个,并且可以被称为“延伸的gRNA”。如本文所述,延伸的gRNA将结合两个或更多个Cas9蛋白并在两个或更多个不同区域结合靶核酸。gRNA包含与靶标位点互补的核苷酸序列,其介导核酸酶/RNA复合物与所述靶标位点的结合,提供核酸酶:RNA复合物的序列特异性。
“异二聚体”是指包含二个结构域的融合蛋白,例如野生型TadA结构域和TadA结构域的变体(例如,TadA*8或TadA*9)或二个变体TadA结构域(例如,TadA*7.10和TadA*8或二个TadA*8结构域;或TadA*7.10和TadA*9或二个TadA*9结构域)。
“杂交”是指互补核碱基之间的氢键,其可以是Watson-Crick、Hoogsteen或反向Hoogsteen氢键。例如,腺嘌呤和胸腺嘧啶是互补的核碱基,它们通过形成氢键配对。
“增加”是指至少10%、25%、50%、75%或100%的正变化。
术语“碱基修复的抑制剂(inhibitor of base repair)”、“碱基修复抑制剂(baserepair inhibitor)”“IBR”或是其他语法等同物是指能够抑制核酸修复酶的活性,例如碱基切除修复酶的活性的蛋白质。在一些实施方案中,所述IBR是肌苷碱基切除修复的抑制剂。碱基修复的示例性抑制剂包括APE1、Endo III、Endo IV、Endo V、Endo VIII、Fpg、hOGG1、hNEIL1、T7 Endol、T4PDG、UDG、hSMUG1和hAAG的抑制剂。在一些实施方案中,所述碱基修复抑制剂是Endo V或hAAG.的抑制剂。在一些实施方案中,所述IBR是Endo V或hAAG的抑制剂。在一些实施方案中,所述IBR是无催化活性的EndoV或无催化活性的hAAG。在一些实施方案中,所述碱基修复抑制剂是无催化活性的EndoV或无催化活性的hAAG。在一些实施方案中,所述碱基修复抑制剂是尿嘧啶糖基化酶抑制剂(UGI)。UGI是指能够抑制尿嘧啶-DNA糖基化酶碱基切除修复酶的蛋白质。在一些实施方案中,UGI结构域包含野生型UGI或野生型UGI的片段。在一些实施方案中,本文提供的UGI蛋白质包括UGI的片段和与UGI或UGI片段同源的蛋白。在一些实施方案中,所述碱基修复抑制剂是肌苷碱基切除修复的抑制剂。在一些实施方案中,所述碱基修复抑制剂是无催化活性的肌苷特异性核酸酶”或“死肌苷特异性核酸酶”。不希望受任何特定理论的束缚,无催化活性的肌苷糖基化酶(例如,烷基腺嘌呤糖基化酶(AAG))可以结合肌苷,但不能产生缺碱基位点或去除肌苷,从而在空间上阻断新形成的肌苷部分免受DNA损伤/修复机制。在一些实施方案中,无催化活性的肌苷特异性核酸酶能够结合核酸中的肌苷但不切割核酸。非限制性示例性无催化活性肌苷特异性核酸酶包括无催化活性烷基腺苷糖基化酶(AAG核酸酶),例如来自人,和无催化活性内切核酸酶V(EndoV核酸酶),例如来自大肠杆菌。在一些实施方案中,无催化活性的AAG核酸酶包含E125Q突变或另一种AAG核酸酶中的相应突变。
“内含肽(intein)”是一种蛋白质片段,它能够自我切除并在称为蛋白质剪接的过程中用肽键连接剩余的片段(外显肽(extein))。内含肽也称为“蛋白质内含子”。内含肽自身切除并连接蛋白质剩余部分的过程在本文中称为“蛋白质剪接”或“内含肽介导的蛋白质剪接”。在一些实施方案中,前体蛋白的内含肽(在内含肽介导的蛋白剪接之前含有内含肽的蛋白)来自两个基因。这种内含肽在本文中被称为分裂内含肽(例如,分裂内含肽-N和分裂内含肽-C)。例如,在藍綠藻(cyanobacteria)中,DNA聚合酶III的催化亚基a的DnaE由两个独立的基因dnaE-n和dnaE-c编码。由dnaE-n基因编码的内含肽在本文中可称为“内含肽-N”。由dnaE-c基因编码的内含肽在本文中可称为“内含肽-C”。
也可以使用其他内含肽系统。例如,已经描述了基于dnaE内含肽、Cfa-N(例如,分裂的内含肽-N)和Cfa-C(例如,分裂的内含肽-C)内含肽对的合成内含肽(例如,在Stevens等人,J Am Chem Soc.2016 Feb.24;138(7):2162-5,以引用方式并入本文)。可根据本公开使用的内含肽对的非限制性实例包括:Cfa DnaE内含肽、Ssp GyrB内含肽、Ssp DnaX内含肽、Ter DnaE3内含肽、Ter ThyX内含肽、Rma DnaB内含肽和Cne Prp8内含肽(例如,如美国专利号8,394,604中所述,通过引用并入本文。
提供了内含肽的示例性核苷酸和氨基酸序列。
DnaE Intein-N DNA:
TGCCTGTCATACGAAACCGAGATACTGACAGTAGAATATGGCCTTCTGCCAATCGGGAAGATTGTGGAGAAACGGATAGAATGCACAGTTTACTCTGTCGATAACAATGGTAACATTTATACTCAGCCAGTTGCCCAGTGGCACGACCGGGGAGAGCAGGAAGTATTCGAATACTGTCTGGAGGATGGAAGTCTCATTAG
GGCCACTAAGGACCACAAATTTATGACAGTCGATGGCCAGATGCTGCCTATAGACGAAATCTTTGAGCGAGAGTTGGACCTCATGCGAGTTGACAACCTTCCTAAT
DnaE Intein-N蛋白:
CLSYETEILTVEYGLLPIGKIVEKRIECTVYSVDNNGNIYTQPVAQWHDRGEQEVFEYCLEDGSLIRATKDHKFMTVDGQMLPIDEIFERELDLMRVDNLPN
DnaE Intein-C DNA:
ATGATCAAGATAGCTACAAGGAAGTATCTTGGCAAACAAAACGTTTATGATATTGGAGTCGAAAGAGATCACAACTTTGCTCTGAAGAACGGATTCATAGCTTCTAAT
Intein-C:MIKIATRKYLGKQNVYDIGVERDHNFALKNGFIASN
Cfa-N DNA:
TGCCTGTCTTATGATACCGAGATACTTACCGTTGAATATGGCTTCTTGCCTATTGGAAAGATTGTCGAAGAGAGAATTGAATGCACAGTATATACTGTAGACAAGAATGGTTTCGTTTACACACAGCCCATTGCTCAATGGCACAATCGCGGCGAACAAGAAGTATTTGAGTACTGTCTCGAGGATGGAAGCATCATACGAGCAACTAAAGATCATAAATTCATGACCACTGACGGGCAGATGTTGCCAATAGATGAGATATTCGAGCGGGGCTTGGATCTCAAACAAGTGGATGGATTGCCA
Cfa-N蛋白:
CLSYDTEILTVEYGFLPIGKIVEERIECTVYTVDKNGFVYTQPIAQWHNRGEQEVFEYCLEDGSIIRATKDHKFMTTDGQMLPIDEIFERGLDLKQVDGLP
Cfa-C DNA:
ATGAAGAGGACTGCCGATGGATCAGAGTTTGAATCTCCCAAGAAGAAGAGGAAAGTAAAGATAATATCTCGAAAAAGTCTTGGTACCCAAAATGTCTATGATATTGGAGTGGAGAAAGATCACAACTTCCTTCTCAAGAACGGTCTCGTAGCCAGCAAC
Cfa-C蛋白:
MKRTADGSEFESPKKKRKVKIISRKSLGTQNVYDIGVEKDHNFLLKNGLVASN
内含肽-N和内含肽-C可以分别融合到分裂Cas9的N端部分和分裂Cas9的C端部分,用于连接分裂Cas9的N端部分和分裂Cas9的C端部分。例如,在一些实施方案中,内含肽-N融合到分裂Cas9的N末端部分的C末端,即形成N--[分裂Cas9的N端部分]-[内含肽-N]--C的结构。在一些实施方案中,内含肽-C融合到分裂Cas9的C末端部分的N末端,即形成N-[内含肽-C]--[分裂Cas9的C末端部分]-C的结构。内含肽介导的蛋白剪接机制用于连接内含肽融合到的蛋白(例如,分裂的Cas9)是本领域已知的,例如,如Shah等人,Chem Sci.2014;5(1):446-461,以引用方式并入本文。用于设计和使用内含肽的方法是本领域已知的并且描述于例如WO2014004336、WO2017132580、US20150344549和US20180127780,它们各自通过引用整体并入本文。
术语“分离的”、“纯化的”或“生物学纯的”是指材料在不同程度上不含在其天然状态下通常伴随的组分。“分离”表示与原始来源或周围环境的分离程度。“纯化”表示高于分离的分离程度。“纯化的”或“生物学纯的”蛋白质充分不含其他材料,使得任何杂质不会实质性地影响蛋白质的生物学特性或引起其他不利后果。即,如果本发明的核酸或肽在通过重组DNA技术生产时基本上不含细胞材料、病毒材料或培养基,或者在化学合成时基本上不含化学前体或其他化学品,则该核酸或肽被纯化。纯度和均匀性通常使用分析化学技术确定,例如聚丙烯酰胺凝胶电泳或高效液相色谱。术语“纯化的”可以表示核酸或蛋白质在电泳凝胶中产生基本上一条带。对于可以进行修饰(例如磷酸化或糖基化)的蛋白,不同的修饰可能会产生不同的分离蛋白,这些蛋白可以单独纯化。
“分离的多核苷酸”是指不含基因的核酸(例如,DNA),所述基因在本发明的核酸分子所源自的生物的天然存在的基因组中位于该基因的侧翼。因此,该术语包括,例如,整合到载体中的重组DNA;进入自主复制的质粒或病毒;或进入原核生物或真核生物的基因组DNA;或作为独立于其他序列的独立分子(例如,通过PCR或限制性内切核酸酶消化产生的cDNA或基因组或cDNA片段)存在。此外,该术语包括从DNA分子转录的RNA分子,以及作为编码额外多肽序列的杂合基因的一部分的重组DNA。
“分离的多肽”是指已与天然伴随的组分分离的本发明内容的多肽。通常,当多肽至少60%(重量)不含蛋白和天然存在的有机分子时,多肽就被分离出来。优选地,制备本发明的多肽是至少75重量%,更优选至少90重量%,并且最优选至少99重量%。本发明的分离的多肽可以,例如,通过从天然来源中提取,通过编码这样的多肽的重组核酸的表达;或通过化学合成蛋白质來获得。纯度可以通过任何合适的方法测量,例如柱色谱、聚丙烯酰胺凝胶电泳或通过HPLC分析。
如本文所用,术语“接头”可指共价接头(例如,共价键)、非共价接头、化学基团或连接两个分子或部分(例如,蛋白质复合物或核糖核复合体的两个组分)的分子,或融合蛋白的两个结构域,例如多核苷酸可编程DNA结合结构域(例如,dCas9)和脱氨酶结构域(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)。接头可以连接碱基编辑器系统的不同组分或组分的不同部分。例如,在一些实施方案中,接头可以连接多核苷酸可编程核苷酸结合域的引导多核苷酸结合结构域和脱氨酶的催化结构域。在一些实施方案中,接头可以连接CRISPR多肽和脱氨酶。在一些实施方案中,接头可以连接Cas9和脱氨酶。在一些实施方案中,接头可以连接dCas9和脱氨酶。在一些实施方案中,接头可以连接nCas9和脱氨酶。在一些实施方案中,接头可以连接引导多核苷酸和脱氨酶。在一些实施方案中,接头可以连接脱氨组分和碱基编辑器系统的多核苷酸可编程核苷酸结合组分。在一些实施方案中,接头可以连接脱氨组分的RNA结合部分和碱基编辑器系统的多核苷酸可编程核苷酸结合组分。在一些实施方案中,接头可以连接脱氨组分的RNA结合部分和碱基编辑器系统的多核苷酸可编程核苷酸结合组分的RNA结合部分。接头可以位于两个基团、分子或其他部分之间或两侧,并通过共价键或非共价相互作用连接到每一个,从而连接这两者。在一些实施方案中,接头可以是有机分子、基团、聚合物或化学部分。在一些实施方案中,所述接头可以是多核苷酸。在一些实施方案中,所述接头可以是DNA接头。在一些实施方案中,所述接头可以是RNA接头。在一些实施例中,接头可包含能够结合配体的适体。在一些实施方案中,配体可以是碳水化合物、肽、蛋白质或核酸。在一些实施方案中,接头可包含可衍生自核糖开关的适体。衍生适体的核糖开关可以选自茶碱核糖开关、焦磷酸硫胺素(TPP)核糖开关、腺苷钴胺素(AdoCbl)核糖开关、S-腺苷甲硫氨酸(SAM)核糖开关、SAH核糖开关、黄素单核苷酸(FMN)核糖开关、四氢叶酸核糖开关、赖氨酸核糖开关、甘氨酸核糖开关、嘌呤核糖开关、GlmS核糖开关或pre-queosine1(PreQ1)核糖开关。在一些实施方案中,接头可包含与多肽或蛋白质结构域例如多肽配体结合的适体。在一些实施方案中,所述多肽配体可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。在一些实施方案中,所述多肽配体可以是碱基编辑器系统组分的一部分。例如,核碱基编辑组分可包含脱氨酶结构域和RNA识别基序。
在一些实施方案中,接头可以是一个氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,所述接头的长度可为约5-100个氨基酸,例如約5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、20-30、30-40、40-50、50-60、60-70、70-80、80-90或90-100个氨基酸长度。在一些实施方案中,接头的长度可为约100-150、150-200、200-250、250-300、300-350、350-400、400-450或450-500个氨基酸。也可以使用更长或更短的接头。也可考虑更长或更短的接头。在一些实施方案中,接头包含氨基酸序列SGSETPGTSESATPES,其也可称为XTEN接头。在一些实施方案中,接头包含氨基酸序列SGGS。在一些实施方案中,接头包含(SGGS)n、(GGGS)n、(GGGGS)n、(G)n、(EAAAK)n、(GGS)n、SGSETPGTSESATPES、或(XP)n基序,或任何这些的组合,其中n独立地是1到30之间的整数,并且其中X是任何氨基酸。在一些实施方案中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,接头包含多个脯氨酸残基并且长度为5-21、5-14、5-9、5-7个氨基酸,例如PAPAP、PAPAPA、PAPAPAP、PAPAPAPA、P(AP)4、P(AP)7、P(AP)10。这种富含脯氨酸的接头也称为“刚性”接头。
在一些实施方案中,接头连接RNA可编程核酸酶的gRNA结合结构域,包括Cas9核酸酶结构域和核酸编辑蛋白(例如胞苷或腺苷脱氨酶)的催化结构域。在一些实施方案中,接头连接dCas9和核酸编辑蛋白。例如,接头位于两个基团、分子或其他部分之间或两侧,并通过共价键连接到每一个,从而连接这两者。在一些实施方案中,所述接头可以是一个氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,所述接头是一个氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施例中,所述接头的长度可为约5-200个氨基酸,例如5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、35、45、50、55、60、60、65、70、70、75、80、85、90、90、95、100、101、102、103、104、105、110、120、130、140、150、160、175、180、190或更多的氨基酸长度。
在一些实施方案中,碱基编辑器的结构域通过包含下述氨基酸序列的接头融合:SGGSSGSETPGTSESATPESSGGS、SGGSSGGSSGSETPGTSESATPESSGGSSGGS或GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATSGGSGGS。在一些实施方案中,碱基编辑器的结构域通过包含氨基酸序列SGSETPGTSESATPES的接头融合,其也可称为XTEN接头。在一些实施方案中,所述接头的长度是24个氨基酸。在一些实施方案中,所述接头包含氨基酸序列SGGSSGGSSGSETPGTSESATPES。在一些实施方案中,所述接头的长度是40个氨基酸。在一些实施方案中,接头包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGS。在一些实施方案中,所述接头的长度是64个氨基酸。在一些实施方案中,所述接头包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGSSGSETPGTSESATPESSGGS SGGS。在一些实施方案中,所述接头的长度是92个氨基酸。在一些实施方案中,接头包含氨基酸序列PGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAP GTSTEPSEGSAPGTSESATPESGPGSEPATS。
“标记”是指在与疾病或病症相关的表达水平或活性方面具有改变的任何蛋白质或多核苷酸。
如本文所用,术语“突变”是指序列(例如核酸或氨基酸序列)内的残基被另一残基取代,或序列内一个或多个残基的缺失或插入。突变在本文中通常通过鉴定原始残基随后是该残基在序列中的位置以及通过新取代残基的身份来描述。用于进行本文提供的氨基酸取代(突变)的各种方法是本领域众所周知的,并且由例如Green and Sambrook,MolecularCloning:A Laboratory Manual(4th ed.,Cold Spring Harbor Laboratory Press,ColdSpring Harbor,N.Y.(2012))提供。在一些实施方案中,当前公开的碱基编辑器可以有效地在核酸(例如,受试者基因组内的核酸)中产生“预期突变”,例如点突变,而不会产生大量非预期突变,例如意外的点突变。在一些实施方案中,预期突变是由与引导多核苷酸(例如,gRNA)结合的特定碱基编辑器(例如,胞苷碱基编辑器或腺苷碱基编辑器)产生的突变,该引导多核苷酸专门设计用于产生预期突变。
通常,在序列(例如,如本文所述的氨基酸序列)中产生或鉴定的突变相对于参考(或野生型)序列,即不包含突变的序列进行编号。本领域技术人员将容易理解如何确定氨基酸和核酸序列中相对于参考序列的突变位置。
术语“非保守性突变”涉及不同组之间的氨基酸置换,例如,色氨酸为赖氨酸,或丝氨酸为苯丙氨酸等。在这种情况下,非保守性氨基酸置换优选不干扰,或抑制功能变体的生物活性。非保守性氨基酸取代可增强功能变体的生物活性,从而与野生型蛋白质相比,功能变体的生物活性增加。
术语“核定位序列”、“核定位信号”或“NLS”是指促进蛋白质输入细胞核的氨基酸序列。核定位序列是本领域已知的并且描述于例如Plank等人的国际PCT申请,PCT/EP2000/011690,2000年11月23日提交,2001年5月31日作为WO/2001/038547公布,其内容以引用方式并入本文以用于它们对示例性核定位序列的公开。在其他实施方案中,所述NLS是优化的NLS,例如由Koblan等人,Nature Biotech.2018 doi:10.1038/nbt.4172所描述。在一些实施方案中,NLS包含氨基酸序列KRTADGSEFESPKKKRKV、KRPAATKKAGQAKKKK、KKTELQTTNAENKTKKL、KRGINDRNFWRGENGRKTR、RKSGKIAAIVVKRPRK、PKKKRKV或MDSLLMNRRKFLYQFKNVRWAKGRRETYLC。
术语“核碱基”、“含氮碱基”或“碱基”在本文中可互换使用,是指形成核苷的含氮生物化合物,核苷又是核苷酸的组分。核碱基形成碱基对并相互堆叠的能力直接导致长链螺旋结构,例如核糖核酸(RNA)和脱氧核糖核酸(DNA)。五种核碱基——腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)——被称为初级或典型。腺嘌呤和鸟嘌呤来源于嘌呤,胞嘧啶、尿嘧啶和胸腺嘧啶来源于嘧啶。DNA和RNA也可以包含其他(非主要)修饰的碱基。非限制性示例性修饰核碱基可包括次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶(m5C)和5-氢甲基胞嘧啶。次黄嘌呤和黄嘌呤可以通过诱变剂的存在产生,它们都是通过脱氨(用羰基取代胺基团)产生的。次黄嘌呤可以由腺嘌呤修饰而成。黄嘌呤可以由鸟嘌呤修饰而成。尿嘧啶可由胞嘧啶脱氨产生。“核苷”由核碱基和五碳糖(核糖或脱氧核糖)组成。核苷的实例包括腺苷、鸟苷、尿苷、胞苷、5-甲基尿苷(m5U)、脱氧腺苷、脱氧鸟苷、胸苷、脱氧尿苷和脱氧胞苷。具有修饰的核碱基的核苷的实例包括肌苷(I)、黄苷(X)、7-甲基鸟苷(m7G)、二氢尿苷(D)、5-甲基胞苷(m5C)和假尿苷(Ψ)。“核苷酸”由核碱基、五碳糖(核糖或脱氧核糖)和至少一个磷酸基团组成。
如本文所用,术语“核酸”和“核酸分子”是指包含核碱基和酸性部分的化合物,例如核苷、核苷酸或核苷酸的聚合物。典型地,聚合性核酸,例如,包含三个或更多个核苷酸的核酸分子为线性分子,其中相邻核苷酸经由磷酸二酯键彼此连接。在一些实施方案中,“核酸”是指单个核酸残基(例如核苷酸和/或核苷)。在一些实施方案中,“核酸”是指包含三个或更多个单独核苷酸残基的寡核苷酸链。如本文所用,术语“寡核苷酸”和“多核苷酸”可交换使用,指核苷酸的聚合物(例如,至少三个核苷酸的串)。在一些实施方案中,“核酸”包括RNA以及单链和/或双链DNA。核酸可以是天然存在的,例如在基因组、转录物、mRNA、tRNA、rRNA、siRNA、snRNA、质粒、粘粒、染色体、染色单体或其他天然存在的核酸分子的上下文中。另一方面,核酸分子可以是非天然存在的分子,例如重组DNA或RNA、人工染色体、工程基因组或其片段,或合成的DNA、RNA、DNA/RNA杂交体、或包括非天然存在的核苷酸或核苷。此外,术语“核酸”、“DNA”、“RNA”和/或类似术语包括核酸类似物,例如具有除磷酸二酯骨架之外的其他骨架的类似物。核酸可由天然来源纯化、使用重组表达系统产生或任选地经纯化、化学合成等。在适当的情况下,例如,在化学合成分子的情况下,核酸可包含核苷类似物如具有经化学修饰的碱基或糖,以及骨架修饰的类似物。除非另有说明,否则核酸序列以5'到3'方向呈现。在一些实施方案中,核酸是或包含天然核苷(例如腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷);核苷类似物(例如,2-氨基腺苷、2-硫胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基-尿苷C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、O(6)-甲基鸟苷和2-硫代胞苷);化学修饰的碱基;生物修饰碱基(例如甲基化碱基);插入的碱基;修饰的糖(2'-例如氟核糖、核糖、2'-脱氧核糖、阿拉伯糖和己糖);和/或修饰的磷酸基团(例如,硫代磷酸酯和5'-N-亚磷酰胺键)。
术语“核酸可编程的DNA结合蛋白”或“napDNAbp”可以与“多核苷酸可编程的核苷酸结合结构域”互换使用,以指与核酸(例如,DNA或RNA)相关的蛋白质,例如引导核酸酸或引导多核苷酸(例如,gRNA),将napDNAbp引导至特定的核酸序列。在一些实施方案中,所述多核苷酸可编程酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,所述多核苷酸可编程酸结合结构域是多核苷酸可编程RNA结合结构域。在一些实施方案中,所述多核苷酸可编程核苷酸结合结构域是Cas9蛋白。Cas9蛋白可以与引导RNA相关联,该引导RNA将Cas9蛋白引导至与引导RNA互补的特定DNA序列。在一些实施方案中,napDNAbp是Cas9结构域,例如核酸酶活性Cas9、Cas9切口酶(nCas9)或核酸酶失活Cas9(dCas9)。核酸可编程DNA结合蛋白的非限制性实例包括Cas9(例如,dCas9和nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i和Cas12j/CasΦ。Cas酶的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(也称为Csn1或Csx12),Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Cas12j/CasΦ、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e,Csc1,Csc2,Csa5,Csn1,Csn2,Csm1,Csm2,Csm3,Csm4,Csm5,Csm6,Cmr1,Cmr3,Cmr4,Cmr5,Cmr6,Csb1,Csb2,Csb3,Csx17,Csx14,Csx10,Csx16,CsaX,Csx3,Csx1,Csx1S,Csx11,Csf1,Csf2,CsO,Csf4,Csd1,Csd2,Cst1,Cst2,Csh1,Csh2,Csa1,Csa2,Csa3,Csa4,Csa5,II型Cas效应蛋白,V型Cas效应蛋白,VI型Cas效应蛋白、CARF、DinG、其同源物或其修饰或工程化形式。其他核酸可编程的DNA结合蛋白也在本公开的范围内,尽管它们可能未在本公开中具体列出。参见,如Makarova等人,“Classification and Nomenclature of CRISPR-Cas Systems:Wherefrom Here?”CRISPR J.2018 Oct;1:325-336.doi:10.1089/crispr.2018.0033;Yan等人,“Functionally diverse type V CRISPR-Cas systems”Science.2019 Jan 4;363(6422):88-91.doi:10.1126/science.aav7271,中已经描述了结合非典型PAM序列的Cas9结构域,其全部内容以引用方式并入本文。
如本文所用,术语“核苷碱基编辑结构域”或“核苷碱基编辑蛋白”是指可催化RNA或DNA中的核苷碱基修饰的蛋白质或酶,例如胞嘧啶(或胞苷)为尿嘧啶(或尿苷)或胸腺嘧啶(或胸苷)和腺嘌呤(或腺苷)到次黄嘌呤(或肌苷)脱氨,以及非模板化的核苷酸添加和插入。在一些实施方案中,所述核碱基编辑结构域是脱氨酶结构域(例如,腺嘌呤脱氨酶或腺苷脱氨酶;或胞苷脱氨酶或胞嘧啶脱氨酶)。在一些实施方案中,所述核碱基编辑结构域是多个脱氨酶结构域(例如,腺嘌呤脱氨酶或腺苷脱氨酶和胞苷或胞嘧啶脱氨酶)。在一些实施方案中,所述核碱基编辑结构域可以是天然存在的核碱基编辑结构域。在一些实施方案中,所述核碱基编辑结构域可以是由天然存在的核碱基编辑结构域改造而来的或进化的核碱基编辑结构域。所述核碱基编辑结构域可以来自任何生物体,例如细菌、人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠。
如本文所用,“获得”如在“获得药剂”中包括合成、购买或以其他方式获得该药剂。
如本文所用,“患者”或“受试者”是指被诊断患有、有风险患有或发展、或怀疑患有或发展疾病或病症的哺乳动物受试者或个体。在一些实施方案中,术语“患者”是指具有高于平均发展疾病或病症的可能性的哺乳动物受试者。示例性患者可以是人类、非人类灵长类动物、猫、狗、猪、牛、猫、马、骆驼、美洲驼、山羊、绵羊、啮齿动物(例如小鼠、兔、大鼠或豚鼠)和其他可以受益于本文公开疗法的哺乳动物。示例性的人类患者可以是男性和/或女性。
“有需要的患者”或“有需要的受试者”在本文中是指被诊断患有、有风险或患有、预定患有或怀疑患有疾病或病症的患者。
术语“致病突变”、“致病变异”、“疾病外壳突变”、“致病变异”、“有害突变”或“易感突变”是指遗传改变或突变,其增加个体对某种疾病或障碍的易感性或倾向性。在一些实施方案中,致病性突变包含至少一种野生型氨基酸被基因编码的蛋白质中的至少一种致病性氨基酸取代。
术语“蛋白”、“肽”、“多肽”及其语法等价物在本文中可互换使用,是指通过肽(酰胺)键连接在一起的氨基酸残基的聚合物。这些术语是指任何大小、结构或功能的蛋白质、肽或多肽。通常,蛋白质、肽或多肽的长度至少为三个氨基酸。蛋白质、肽或多肽可以指单个蛋白质或蛋白质的集合。蛋白质、肽或多肽中的一个或多个氨基酸可以被修饰,例如,通过添加化学实体例如碳水化合物基团、羟基、磷酸基团、法呢基、异法呢基、脂肪酸基团、用于缀合、功能化或其他修饰的接头等。蛋白质、肽或多肽也可以是单分子或可以是多分子复合物。蛋白质、肽或多肽可以只是天然存在的蛋白质或肽的片段。蛋白质、肽或多肽可以是天然存在的、重组的或合成的,或其任何组合。如本文所用,术语“融合蛋白”是指包含来自至少两种不同蛋白质的蛋白质结构域的杂合多肽。一种蛋白质可以位于融合蛋白的氨基末端(N-末端)部分或羧基末端(C-末端)蛋白,从而分别形成氨基末端融合蛋白或羧基末端融合蛋白。蛋白质可以包含不同的结构域,例如,核酸结合结构域(例如,引导蛋白与靶标位点结合的Cas9的gRNA结合结构域)和核酸切割结构域,或核酸编辑蛋白的催化结构域。在一些实施方案中,蛋白质包含蛋白质部分,例如构成核酸结合结构域的氨基酸序列,和有机化合物,例如可以充当核酸切割剂的化合物。在一些实施方案中,蛋白质与核酸例如RNA或DNA形成复合物或缔合。本文提供的任何蛋白质可以通过本领域已知的任何方法产生。例如,本文提供的蛋白质可以通过重组蛋白质表达和纯化产生,这尤其适用于包含肽接头的融合蛋白质。重组蛋白表达和纯化的方法是众所周知的,包括Green和Sambrook,MolecularCloning:A Laboratory Manual(4th ed.,Cold Spring Harbor Laboratory Press,ColdSpring Harbor,N.Y.(2012))所描述的,其全部内容以引用方式并入。
本文公开的多肽和蛋白质(包括其功能部分和功能变体)可包含合成氨基酸代替一种或多种天然存在的氨基酸。此类合成氨基酸是本领域已知的,包括例如氨基环己烷羧酸、正亮氨酸、α-氨基正癸酸、高丝氨酸、S-乙酰氨基甲基-半胱氨酸、反式-3-和反式-4-羟脯氨酸、4-氨基苯丙氨酸、4-硝基苯丙氨酸、4-氯苯丙氨酸、4-羧基苯丙氨酸、β-苯丝氨酸β-羟基苯丙氨酸、苯基甘氨酸、α-萘丙氨酸、环己基丙氨酸、环己基甘氨酸、二氢吲哚-2-羧酸、1,2,3,4-四氢异喹啉-3-羧酸、氨基丙二酸、氨基丙二酸单酰胺、N'-苄基-N'-甲基-赖氨酸、N',N'-二苄基-赖氨酸、6-羟基赖氨酸、鸟氨酸、α-氨基环戊烷羧酸、α-氨基环己烷羧酸、α-氨基环庚烷羧酸、α-(2-氨基-2-降冰片烷)-羧酸、α,γ-二氨基丁酸、α,β-二氨基丙酸、高苯丙氨酸和α-叔丁基甘氨酸。多肽和蛋白质可以与多肽构建体的一个或多个氨基酸的翻译后修饰相关。翻译后修饰的非限制性实例包括磷酸化、酰化(包括乙酰化和甲酰化)、糖基化(包括N-连接和O-连接)、酰胺化、羟基化、烷基化(包括甲基化和乙基化)、泛素化、添加吡咯烷酮羧酸、形成二硫键、硫酸化、肉豆蔻酰化、棕榈酰化、异戊二烯化、法呢基化、香叶基化、糖基化、脂酰化和碘化。
如本文在蛋白质或核酸的上下文中使用的术语“重组”是指在自然界中不存在但为人类工程产物的蛋白质或核酸。例如,在一些实施方案中,重组蛋白或核酸分子包含氨基酸或核苷酸序列,与任何自然发生的序列相比,该序列包含至少一个、至少两个、至少三个、至少四个、至少五个、至少六个或至少七个突变。
“减少”是指至少10%、25%、50%、75%或100%的負变化。
“参考”是指标准或对照条件。在一个实施方案中,所述参考是野生型或健康细胞。在其他实施方案中且不限于,参考是未处理的细胞,其未经受测试条件,或经受安慰剂或生理盐水、培养基、缓冲液和/或不含目标多核苷酸的对照载体。
“参考序列”是用作序列比较基础的定义序列。参考序列可以是特定序列的子集或全部;例如,全长cDNA或基因序列的片段,或完整的cDNA或基因序列。对于多肽,参考多肽序列的长度通常为至少约16个氨基酸、至少约20个氨基酸、至少约25个氨基酸、约35个氨基酸、约50个氨基酸或约100个氨基酸。对于核酸,参考核酸序列的长度通常为至少约50个核苷酸、至少约60个核苷酸、至少约75个核苷酸、约100个核苷酸或约300个核苷酸或其附近或之间的任何整数。在一些实施方案中,参考序列是目的蛋白质的野生型序列。在其他实施方案中,参考序列是编码野生型蛋白质的多核苷酸序列。
术语“RNA可编程核酸酶”和“RNA引导的核酸酶”与一种或多种不是切割靶标的RNA一起使用(例如,结合或缔合)。在一些实施方案中,当与RNA形成复合物时,RNA可编程核酸酶可被称为核酸酶:RNA复合物。通常,结合的RNA被称为引导RNA(gRNA)。在一些实施方案中,RNA可编程核酸酶是(CRISPR相关系统)Cas9核酸内切酶,例如来自化脓性链球菌的Cas9(Csnl)(参见例如“Complete genome sequence of an Ml strain of Streptococcuspyogenes.”Ferretti J.J.等人,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);"CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III."Deltcheva E.,等人,Nature 471:602-607(2011).
由于RNA可编程核酸酶(例如Cas9)使用RNA:DNA杂交来靶向DNA切割位点,因此这些蛋白质原则上能够靶向引导RNA指定的任何序列。使用RNA可编程核酸酶(例如Cas9)进行位点特异性切割(例如,修饰基因组)的方法是本领域已知的(参见例如Cong,L.等人,Multiplex genome engineering using CRISPR/Cas systems.Science 339,819-823(2013);Mali,P.等人,RNA-guided human genome engineering via Cas9.Science 339,823-826(2013);Hwang,W.Y.等人,Efficient genome editing in zebrafish using aCRISPR-Cas system.Nature biotechnology 31,227-229(2013);Jinek,M.等人,RNA-programmed genome editing in human cells.eLife 2,e00471(2013);Dicarlo,J.E.等人,Genome engineering in Saccharomyces cerevisiae using CRISPR-Cassystems.Nucleic acids research(2013);Jiang,W.等人.RNA-guided editing ofbacterial genomes using CRISPR-Cas systems.Nature biotechnology 31,233-239(2013);其全部内容以引用方式并入本文)。
术语“单核苷酸多态性(SNP)”是发生在基因组中特定位置的单个核苷酸的变异,其中每个变异在群体中都存在一定程度(例如,>1%)。例如,在人类基因组的特定碱基位置,C核苷酸可以出现在大多数个体中,但在少数个体中,该位置被A占据。这意味着在该特定位置存在SNP,并且两个可能的核苷酸变异,C或A,被称为该位置的等位基因。SNP是疾病易感性差异的基础。疾病的严重程度和我们身体对治疗的反应方式也是遗传变异的表现。SNP可以落入基因的编码区、基因的非编码区或基因间区(基因之间的区域)。在一些实施方案中,由于遗传密码的简并性,编码序列内的SNP不一定改变所产生蛋白质的氨基酸序列。编码区的SNP有两种类型:同义SNP和非同义SNP。同义SNP不影响蛋白质序列,非同义SNP改变蛋白质的氨基酸序列。所述非同义SNP有两种类型:错义和无义。不在蛋白质编码区的SNP仍然可以影响基因剪接、转录因子结合、信使RNA降解或非编码RNA的序列。受此类SNP影响的基因表达称为eSNP(表达SNP),可以位于基因的上游或下游。单核苷酸变异(SNV)是单个核苷酸的变异,没有任何频率限制,可以在体细胞中出现。体细胞单核苷酸变异也可称为单核苷酸改变。
“特异性结合”是指识别并结合本发明的多肽和/或核酸分子的核酸分子、多肽或其复合物(例如,核酸可编程DNA结合结构域和引导核酸)、化合物或分子,但基本上不识别和结合样品中的其他分子,例如生物样品。
可用于本发明的方法的核酸分子包括编码本发明的多肽或其片段的任何核酸分子。这样的核酸分子不需要与内源核酸序列100%相同,但通常会表现出基本的同一性。与内源序列具有“基本同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。可用于本发明的方法的核酸分子包括编码本发明的多肽或其片段的任何核酸分子。这样的核酸分子不需要与内源核酸序列100%相同,但通常会表现出基本的同一性。与内源序列具有“基本同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。
“杂交”是指在各种严格条件下,在互补多核苷酸序列(例如,本文所述的基因)或其部分之间配对以形成双链分子。(參见,例如,Wahl,G.M.and S.L.Berger(1987)MethodsEnzymol.152:399;Kimmel,A.R.(1987)Methods Enzymol.152:507).
例如,严格盐浓度通常低于约750mM NaCl和75mM柠檬酸三钠,优选低于约500mMNaCl和50mM柠檬酸三钠,更优选低于约250mM NaCl和25mM柠檬酸三钠。可以在不存在有机溶剂例如甲酰胺的情况下获得低严格杂交,而可以在存在至少约35%甲酰胺,更优选至少约50%甲酰胺的情况下获得高严格杂交。严格的温度条件通常包括至少约30℃,更优选至少约37℃,最优选至少约42℃的温度。例如,十二烷基硫酸钠(SDS),以及载体DNA的包含或排除,是本领域技术人员公知的。通过根据需要组合这些不同的条件来实现不同程度的严格性。在一个优选的实施方案中,杂交将在30℃下在750mMNaCl、75mM柠檬酸三钠和1%SDS中发生。在一个更优选的实施方案中,杂交将在37℃下在500mM NaCl、50mM柠檬酸三钠、1%SDS、35%甲酰胺和100μg/ml变性鲑鱼精子DNA(ssDNA)中发生。在一个最优选的实施方案中,杂交将在42℃下在250mM NaCl、25mM柠檬酸三钠、1%SDS、50%甲酰胺和200μg/mlssDNA中发生。这些条件的有用变化对本领域技术人员来说是显而易见的。
对于大多数应用,杂交后的洗涤步骤在严格性方面也会有所不同。洗涤严格条件可以通过盐浓度和温度来定义。如上所述,可以通过降低盐浓度或提高温度来增加洗涤严格性。例如,洗涤步骤的严格盐浓度优选小于约30mM NaCl和3mM柠檬酸三钠,最优选小于约15mM NaCl和1.5mM柠檬酸三钠。洗涤步骤的严格温度条件通常包括至少约25℃,更优选至少约42℃,甚至更优选至少约68℃的温度。在一个实施例中,将发生洗涤步骤在25℃下,在30mM NaCl、3mM柠檬酸三钠和0.1%SDS中。在另一个实施方案中,洗涤步骤将在42℃下在15mM NaCl、1.5mM柠檬酸三钠和0.1%SDS中进行。在更优选的实施方案中,洗涤步骤将在68℃下在15mM NaCl、1.5mM柠檬酸三钠和0.1%SDS中进行。这些条件的其他变化对本领域技术人员来说是显而易见的。杂交技术是本领域技术人员公知的并且描述于例如Benton andDavis(Science 196:180,1977);Grunstein and Hogness(Proc.Natl.Acad.Sci.,USA 72:3961,1975);Ausubel等人(Current Protocols in Molecular Biology,WileyInterscience,New York,2001);Berger and Kimmel(Guide to Molecular CloningTechniques,1987,Academic Press,New York);以及Sambrook等人,Molecular Cloning:ALaboratory Manual,Cold Spring Harbor Laboratory Press,New York.
“分裂”是指分成两个或更多个片段。
“分裂Cas9蛋白”或“分裂Cas9”是指作为由两个单独核苷酸序列编码的N端片段和C端片段提供的Cas9蛋白。对应于Cas9蛋白的N末端部分和C末端部分的多肽可以被剪接以形成“重建的”Cas9蛋白。在特定实施方案中,Cas9蛋白质在蛋白质的无序区域内被分成两个片段,例如,如Nishimasu等人,Cell,Volume 156,Issue 5,pp.935-949,2014中所述,或如在Jiang等人。(2016)Science 351:867-871.PDB file:5F9R,每个都通过引用并入本文。在一些实施方案中,该蛋白质在SpCas9区域内约氨基酸A292-G364、F445-K483或E565-T637之间的任何C、T、A或S处分成两个片段,或在任何其他Cas9、Cas9变体(例如,nCas9、dCas9)或其他napDNAbp。在一些实施方案中,蛋白质在SpCas9 T310、T313、A456、S469或C574处被分成两个片段。在一些实施方案中,将蛋白质分成两个片段的过程称为“分裂”蛋白质。
在其他实施方案中,Cas9蛋白的N末端部分包含氨基酸1-573或1-637化脓链球菌Cas9野生型(SpCas9)(NCBI参考序列:NC_002737.2,Uniprot Reference Sequence:Q99ZW2)和Cas9蛋白的C末端部分包含SpCas9野生型的氨基酸574-1368或638-1368的部分。
分裂的Cas9的C末端部分可以与分裂的Cas9的N末端部分连接以形成完整的Cas9蛋白。在一些实施方案中,Cas9蛋白的C末端部分从Cas9蛋白的N末端部分结束的地方开始。因此,在一些实施方案中,分裂的Cas9的C末端部分包含spCas9的氨基酸(551-651)-1368的一部分。“(551-651)-1368”是指从氨基酸551-651(含)之间的氨基酸开始到氨基酸1368结束。例如,分裂的Cas9的C端部分可以包含spCas9的任一氨基酸的一部分:551-1368、552-1368、553-1368、554-1368、555-1368、556-1368、557-1368、558-1368、559-1368、560-1368、561-1368、562-1368、563-1368、564-1368、565-1368、566-1368、567-1368、568-1368、569-1368、570-1368、571-1368、572-1368、573-1368、574-1368、575-1368、576-1368、577-1368、578-1368、579-1368、580-1368、581-1368、582-1368、583-1368、584-1368、585-1368、586-1368、587-1368、588-1368、589-1368、590-1368、591-1368、592-1368、593-1368、594-1368、595-1368、596-1368、597-1368、598-1368、599-1368、600-1368、601-1368、602-1368、603-1368、604-1368、605-1368、606-1368、607-1368、608-1368、609-1368、610-1368、611-1368,612-1368,613-1368、614-1368、615-1368、616-1368、617-1368、618-1368、619-1368、620-1368、621-1368、622-1368、623-1368、624-1368、625-1368、626-1368、627-1368、628-1368、629-1368、630-1368、631-1368、632-1368、633-1368、634-1368、635-1368、636-1368、637-1368、638-1368、639-1368、640-1368、641-1368、642-1368、643-1368、644-1368、645-1368、646-1368、647-1368、648-1368、649-1368、650-1368或651-1368。在一些实施方案中,分裂的Cas9的C末端部分包含SpCas9蛋白的574-1368或638-1368的一部分。
“受试者”是指哺乳动物,包括但不限于人类或非人类哺乳动物,例如非人类灵长类动物(猴)、牛、马、犬、羊或猫。在一些实施方案中,本文所述的受试者包括多核苷酸序列中的致病突变。
“基本相同”是指多肽或核酸分子与参考氨基酸序列(例如,本文所述的任何一种氨基酸序列)或核酸序列(例如,任何一种本文所述的核酸序列)。在一个实施方案中,这样的序列在氨基酸水平或核酸水平上与用于比较的序列具有至少60%、80%或85%、90%、95%或甚至99%的同一性。
序列同一性通常使用序列分析软件(例如,遗传计算机组的序列分析软件包(Sequence Analysis Software Package of the Genetics Computer Group),威斯康星大学生物技术中心,1710 University Avenue,Madison,Wis.53705,BLAST,BESTFIT,COBALT,EMBOSS Needle,GAP,或PILEUP/PRETTYBOX程式)。此类软件通过为各种替换、缺失和/或其他修饰指定同源性程度来匹配相同或相似的序列。保守取代通常包括下述组内的取代:甘氨酸、丙氨酸;缬氨酸、异亮氨酸、亮氨酸;天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺;丝氨酸、苏氨酸;赖氨酸、精氨酸;和苯丙氨酸、酪氨酸。在确定同一性程度的示例性方法中,可以使用BLAST程序,其中e-3和e-100之间的概率分数表示密切相关的序列。
例如,COBALT与下述参数一起使用:
a)alignment parameters:Gap penalties-11,-1 and End-Gap penalties-5,-1,
b)CDD Parameters:Use RPS BLAST on;Blast E-value 0.003;Find Conservedcolumns and Recompute on,and
c)Query Clustering Parameters:Use query clusters on;Word Size 4;Maxcluster distance 0.8;Alphabet Regular.
例如,EMBOSS与下述参数一起使用:
a)Matrix:BLOSUM62;
b)GAP OPEN:10;
c)GAP EXTEND:0.5;
d)OUTPUT FORMAT:pair;
e)END GAP PENALTY:false;
f)END GAP OPEN:10;and
g)END GAP EXTEND:0.5.
术语“靶位点”是指核酸分子内被脱氨酶(例如胞苷或腺嘌呤脱氨酶)或包含脱氨酶的融合蛋白(例如本文公开的dCas9-腺苷脱氨酶融合蛋白或碱基编辑器)脱氨的序列。
如本文所用,术语“治疗(treat)”、“治疗(treating)”、“治疗(treatment)”等是指减少或改善病症和/或与其相关的症状或获得期望的药理学和/或生理学效果。应当理解,尽管不排除,治疗病症或病症并不要求完全消除病症、病症或与其相关的症状。在一些实施方案中,该作用是治疗性的,即但不限于,该作用部分或完全减少、减弱、消除、减轻、减轻、降低疾病和/或可归因于该疾病的不利症状的强度或治愈该疾病和/或不利症状。在一些实施方案中,该作用是预防性的,即该作用保护或防止疾病或病症的发生或复发。为此,目前公开的方法包括施用治疗有效量的如本文所述的组合物。
“尿嘧啶糖基化酶抑制剂”或“UGI”是指抑制尿嘧啶切除修复系统的药剂。在一个实施方案中,所述试剂是结合宿主尿嘧啶-DNA糖基化酶并防止从DNA中去除尿嘧啶残基的蛋白质或其片段。在一个实施方案中,UGI是能够抑制尿嘧啶-DNA糖基化酶碱基切除修复酶的蛋白质、其片段或结构域。在一些实施方案中,UGI结构域包含野生型UGI或其修改版。在一些实施方案中,UGI结构域包含下文阐述的示例性氨基酸序列的片段。在一些实施方案中,UGI片段包含的氨基酸序列包含下文提供的示例性UGI序列的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或100%相同。在一些实施方案中,UGI包含与示例性UGI氨基酸序列或其片段同源的氨基酸序列,如下所述。在一些实施方案中,所述UGI或其一部分与野生型UGI或UGI序列或其部分至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.5%、至少99.9%或至少99%或100%相同,如下所述。示例性的UGI包含如下氨基酸序列:
>splP14739IUNGI_BPPB2尿嘧啶-DNA糖基化酶抑制剂
MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSD
APEYKPWALVIQDSNGENKIKML。
此处提供的范围应理解为该范围内所有值的简写。例如,1至50的范围被理解为包括来自1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50。
在本文中对变量的任何定义中的化学基团列表的叙述包括将该变量定义为任何单个基团或所列基团的组合。本文对变化的或方面的实施方案的叙述包括作为任何单个实施方案或与任何其他实施方案或其部分组合的实施方案。
本文提供的任何组合物或方法可以与本文提供的任何其他组合物和方法中的一种或多种组合。
本文中的描述和示例详细说明了本公开的实施方案。应当理解,本公开不限于本文描述的特定实施方案并且因此可以变化。本领域技术人员将认识到,对本公开内容存在多种变化和修改,这些变化和修改包含在其范围内。
所有术语都旨在按照本领域技术人员所理解的方式来理解。除非另有定义,本文使用的所有技术和科学术语均具有与本公开所属领域的普通技术人员通常理解的相同含义。
除非另外指明,否则本文公开的一些实施方案的实践采用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的常规技术,这些技术在本领域技术范围内。参见例如Sambrook和Green,Molecular Cloning:A Laboratory Manual,4th Edition(2012);the series Current Protocols in Molecular Biology(F.M.Ausubel,et al.eds.);the series Methods In Enzymology(Academic Press,Inc.),PCR 2:A Practical Approach(M.J.MacPherson,B.D.Hames and G.R.Taylor eds.(1995)),Harlow and Lane,eds.(1988)Antibodies,A Laboratory Manual,and Cultureof Animal Cells:A Manual of Basic Technique and Specialized Applications,6thEdition(R.I.Freshney,ed.(2010)).
尽管可以在单个实施方案的上下文中描述本公开的各种特征,但是也可以单独地或以任何合适的组合来提供这些特征。相反地,尽管为了清楚起见可以在单独的实施方案的上下文中在本文中描述本公开,但是本公开也可以在单个实施方案中实施。此处使用的章节标题仅用于组织目的,不应被解释为限制所描述的主题。
本公开的特征在所附权利要求中具体阐述。通过参考下述阐述说明性实施方案的详细描述,其中利用了本公开的原理,并鉴于如下所述的附图,将获得对本发明的特征和优点的更好理解。
附图说明
图1呈现了一系列图表,显示了指定腺苷碱基编辑器的百分比A>G编辑活性。每个编辑器都用数字表示,其中,例如,433表示pNMG-B433,即ABE8.32。图表中引用的每个编辑器都使用gRNA HRB03、HRB04、HRB08、HRB12和ng-424进行了测试。gRNA序列在实施例3中提供。
图2提供了热图,其描绘在表14中所描述的指定的腺苷碱基编辑器(ABE8和ABE9)的灰色阴影百分比A>G编辑活性。图中表列的每个编辑器使用不同的gRNA HRB03、HRB04、HRB08、HRB12和ng-424进行了测试。
图3A至3C提供了表,其显示本文所述的腺苷碱基编辑器的TadA脱氨酶变体(例如,TadA*9;ABE9)和Cas9(例如,SpCas9)的变体组分。这些ABE9碱基编辑器具有A>G编辑活性,并且可用于校正与alpha-1抗胰蛋白酶疾病(A1AD)相关的SNP突变,例如SERPINA1基因中的PiZ突变。在某些情况下,SpCas9变体对5'-NGC-3'PAM具有特异性。图3A以其质粒编号指代腺苷碱基编辑器。图3B和3C呈现了Tad*7.10氨基酸序列中包括的多种TadA脱氨酶变体和氨基酸突变,以及PAM变体及包括于其的氨基酸突变。
图4A至4D呈现与通过碱基编辑器工程产生改善的核碱基校正率有关的核酸序列、表和图表。图图4A和4B呈现了核酸序列和表,其与通过如图1和4中描述的碱基编辑器工程在原代PiZZ成纤维细胞中产生改进的核碱基校正率有关,并且与由脂质纳米颗粒(LNP)介导的递送和在NSG-PiZ转基因小鼠中的碱基编辑产生的血清α-1抗胰蛋白酶(A1AT)有关,如下述图5A和5B中所述。特别是,图4A显示了编码与A1AD相关的PiZZ突变的靶DNA序列,包括靶位点(靶DNA序列中位置7处的A)。该序列包括20个核苷酸的原间隔序列和非规范spCas9NGC PAM。还显示了位置处A7=野生型(WT)的有益编辑和位置处A5和A7=WT+D341G的编辑。图4B提供了一个表,其描述用于校正PiZ突变的多种碱基编辑器的TadA脱氨酶变体和Cas9PAM变体成分。该表显示了变体(例如,变体(Vars)1-9),其用于获得图4C、4D、5A和5B中提供的结果。4C,4D,5A and 5B.在表中,SpCas9中的氨基酸突变(SpCas9变体)在表的最右边一栏(PAM变体)中描述。“RVRFRAR”SpCas9变体包括下述突变:L1111R+D1135V+G1218R+E1219F+A1322R+R1335A+T1337R。图4C和图4D的柱状图描绘了在使用Neon电穿孔系统以碱基编辑试剂转染的患者来源的PiZZ纤维母细胞(GM11423 Corriel Biorepository)中观察到的编辑率。每次处理由10μl电穿孔缓冲液组成,该缓冲液含有70,000个纤维母细胞、100ng编码碱基编辑器的mRNA和50ngAlpha-1校正gRNA。经过48小时的恢复后,细胞被裂解,并通过靶向扩增子测序检视感兴趣的位点。数据来自两个独立的实验。这些数据和结果证明从NGC PAM识别的优化(变体1-3,图4B和图4C)和TadA脱氨酶的优化(通过在TadA脱氨酶(例如ABE9)中掺入突变)(变体4-9,图4B至图4D),改善了靶碱基编辑效率。
图5A和图5B呈现在NSG-PiZ转基因小鼠中,由脂质纳米颗粒(LNP)介导的递送和碱基编辑产生的血清A1AT增加有关的图。用于校正PiZ突变的各种编辑器的靶位点DNA序列和TadA脱氨酶变体和Cas9 PAM变体成分表如上图4A和图4B。图5A呈现的图表描绘了在用1.5mg/kg的LNP处理后的7天,在来自NSG-PiZ转基因小鼠模型的总肝gDNA中观察到的编辑率,该LNP含有1:1重量比的gRNA和编码碱基编辑器的mRNA。商购可得的NSG-PiZ小鼠(TheJackson Laboratory,Mount Desert Island,ME))在免疫缺陷的NOD-SCIDγ(NSG)背景上表达突变的人类SERPINA1(Glu342Lys突变),其为部分肝切除术后的人类肝细胞提供了稳定的背景。结果表明,ngcABEvar9(图4B)产生了比早期版本变体8更高的编辑率。图5B呈现的图表显示编辑率与血清Alpha-1抗胰蛋白酶(A1AT)(出血后)相对于预处理样品(出血前)的增加具有相关性,如通过MSD三明治免疫测定法测量的。基于这些结果,使用本文所述的TadA脱氨酶变体进行碱基编辑能够解决alpha-1抗胰蛋白酶的缺陷及其潜在的肺部后遗症。
具体实施方式
本发明提供了新型腺嘌呤碱基编辑器(例如,ABE9)和使用这些腺苷脱氨酶变体来编辑靶序列的方法。
核碱基编辑器
本文公开了用于编辑、修饰或改变多核苷酸的靶核苷酸序列的新型碱基编辑器(例如,ABE8和ABE9)或核碱基编辑器。具体而言,新型ABE9碱基编辑器及其组分腺苷脱氨酶描述于下文表14和18中。本文描述了包含多核苷酸可编程核苷酸结合结构域和核碱基编辑结构域(例如,腺苷脱氨酶)的核碱基编辑器或碱基编辑器。多核苷酸可编程核苷酸结合结构域,当与结合的引导多核苷酸(例如,gRNA)结合时,可以特异性结合靶多核苷酸序列(即,通过结合的引导核酸的碱基和靶多核苷酸的碱基之间的互补碱基配对序列),从而将碱基编辑器定位到需要编辑的目标核酸序列。在一些实施方案中,所述靶标多核苷酸序列包含单链DNA或双链DNA。在一些实施方案中,所述靶标多核苷酸序列包含RNA。在一些实施方案中,靶标多核苷酸序列包含DNA-RNA杂交体。
多核苷酸可编程核苷酸结合结构域
应当理解,多核苷酸可编程核苷酸结合结构域还可以包括结合RNA的核酸可编程蛋白。例如,多核苷酸可编程核苷酸结合结构域可以与将多核苷酸可编程核苷酸结合域引导至RNA的核酸相关联。其他核酸可编程的DNA结合蛋白也在本公开的范围内,尽管它们未在本公开中具体列出。
碱基编辑器的多核苷酸可编程核苷酸结合结构域本身可以包含一个或多个结构域。例如,多核苷酸可编程核苷酸结合结构域可包含一个或多个核酸酶结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可包含内切核酸酶或外切核酸酶。在本文中,术语“外切核酸酶”是指能够从游离末端消化核酸(例如,RNA或DNA)的蛋白质或多肽,并且术语“内切核酸酶”是指能够催化(例如,切割)核酸(例如,DNA或RNA)内部的蛋白质或多肽。在一些实施方案中,核酸内切酶可以切割双链核酸的单链。在一些实施方案中,核酸内切酶可以切割双链核酸的双链。在一些实施方案中多核苷酸可编程核苷酸结合结构域可以是脱氧核糖核酸酶。在一些实施方案中多核苷酸可编程核苷酸结合结构域可以是核糖核酸酶。
在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可以切割靶标多核苷酸的零、一条或两条链。在一些情况下,所述多核苷酸可编程核苷酸结合结构域可包含切口酶结构域。在本文中,术语“切口酶”是指包含核酸酶结构域的多核苷酸可编程核苷酸结合结构域,该核酸酶结构域能够切割双链核酸分子(例如,DNA)中的两条链中的仅一条链。在一些实施方案中,切口酶可以通过将一个或多个突变引入活性多核苷酸可编程核苷酸结合结构域来衍生自完全催化活性(例如,天然)形式的多核苷酸可编程核苷酸结合结构域。例如,在多核苷酸可编程核苷酸结合结构域包含源自Cas9的切口酶结构域的情况下,源自Cas9的切口酶结构域可在位置840处包含D10A突变和组氨酸。在此类情况下,残基H840保留催化活性并由此可切割核酸双链体的单链。在另一个实方案中,源自Cas9的切口酶结构域可包含H840A突变,而位置10处的氨基酸残基仍为D。在一些实施方案中,通过去除切口酶活性不需要的全部或部分核酸酶结构域,切口酶可源自具有完全催化活性(例如,天然)形式的多核苷酸可编程核苷酸结合结构域。例如,在多核苷酸可编程核苷酸结合结构域包含源自Cas9的切口酶结构域的情况下,源自Cas9的切口酶结构域可包含RuvC结构域或HNH结构域的全部或部分缺失。
示例性催化活性Cas9的氨基酸序列如下:
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD.
包含包含切口酶域的多核苷酸可编程核苷酸结合结构域的碱基编辑器因此能够在特定多核苷酸靶序列(例如,由结合的引导核酸的互补序列确定)处产生单链DNA断裂(切口)。在一些实施方案中,被包含切口酶结构域(例如,Cas9衍生的切口酶域)的碱基编辑器切割的核酸双链体靶多核苷酸序列的链是未被碱基编辑器编辑的链(即,链被碱基编辑器切割的链与包含要编辑的碱基的链相反)。在其他实施方案中,包含切口酶结构域(例如,Cas9衍生的切口酶结构域)的碱基编辑器可以切割被靶向进行编辑的DNA分子的链。在此类情况下,非靶向链未被切割。
本文还提供了碱基编辑器,其包含催化死亡的多核苷酸可编程核苷酸结合域(即,不能切割靶多核苷酸序列)。在本文中,术语“催化死亡(catalytically dead)”和“核酸酶死亡(nuclease dead)”可互换使用,指具有一个或多个突变和/或缺失导致其无法切割核酸链的多核苷酸可编程核苷酸结合结构域。在一些实施方案中,催化死亡的多核苷酸可编程核苷酸结合结构域碱基编辑器可能由于一个或多个核酸酶结构域中的特定点突变而缺乏核酸酶活性。例如,在碱基编辑器包含Cas9结构域的情况下,Cas9可以包含D10A突变和H840A突变。此类突变使两个核酸酶结构域失活,从而导致核酸酶活性丧失。在其他实施方案中,催化死亡的多核苷酸可编程核苷酸结合结构域可包含催化结构域(例如,RuvC1和/或HNH结构域)的全部或部分的一个或多个缺失。在进一步的实施方案中,催化死亡的多核苷酸可编程核苷酸结合结构域包含点突变(例如,D10A或H840A)以及全部或部分核酸酶域的缺失。
本文还考虑了能够从多核苷酸可编程核苷酸结合结构域的先前功能版本产生催化死亡的多核苷酸可编程核苷酸结合结构域的突变。例如,在催化死亡的Cas9(“dCas9”)的情况下,提供了具有除D10A和H840A以外的突变的变体,这导致核酸酶失活的Cas9。例如,此类突变包括在D10和H840处的其他氨基酸置换,或Cas9核酸酶域内的其他置换(例如,HNH核酸酶亚域和/或RuvC1亚域中的置换)。基于本公开内容和本领域的知识,其他合适的无核酸酶活性的dCas9结构域对于本领域技术人员来说是显而易见的,并且在本公开内容的范围内。这种额外的示例性合适的无核酸酶活性的Cas9域包括但不限于D10A/H840A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突变域(参见,例如Prashant等人,CAS9transcriptional activators for target specificity screening and pairednickases for cooperative genome engineering.Nature Biotechnology.2013;31(9):833-8338,其全部内容以引用方式并入。
可并入碱基编辑器的多核苷酸可编程核苷酸结合结构域的非限制性实方案包括CRISPR蛋白衍生结构域、限制性核酸酶、大范围核酸酶、TAL核酸酶(TALEN)和锌指核酸酶(ZFN)。在一些情况下,碱基编辑器包含多核苷酸可编程核苷酸结合结构域,其包含天然或修饰的蛋白质或其部分,其通过结合的引导核酸能够在CRISPR期间结合核酸序列(即,成簇的规则间隔的短回文重复序列))-介导的核酸修饰。这种蛋白质在本文中称为“CRISPR蛋白”。因此,本文公开了包含多核苷酸可编程核苷酸结合结构域的碱基编辑器,所述多核苷酸可编程核苷酸结合结构域包含CRISPR蛋白质的全部或一部分(即包含CRISPR蛋白质的全部或一部分作为结构域的碱基编辑器,也称为“CRISPR蛋白质”基编辑器的衍生结构域”)。与CRISPR蛋白的野生型或天然版本相比,可以对掺入碱基编辑器的CRISPR蛋白衍生结构域进行修饰。例如,如下所述,CRISPR蛋白衍生的结构域可包含一个或多个相对于CRISPR蛋白的野生型或天然形式的突变、插入、缺失、重排和/或重组。
CRISPR是一种适应性免疫系统,可针对移动遗传元件(病毒、转座元件和接合质粒)提供保护。CRISPR簇包含间隔区、与先行移动元件互补的序列和靶标入侵核酸。CRISPR簇被转录并加工成CRISPR RNA(crRNA)。在第II型CRISPR系统中,正确处理pre-crRNA需要转编码的小RNA(tracrRNA)、内源性核糖核酸酶3(rnc)和Cas9蛋白。tracrRNA作为核糖核酸酶3辅助处理pre-crRNA的引导。随后,Cas9/crRNA/tracrRNA核酸内切切割与间隔物互补的线性或环状dsDNA靶标。与crRNA不互补的靶标链首先通过核酸内切方式切割,然后通过核酸外切方式修剪3′-5'。在自然界中,DNA结合和切割通常需要蛋白质和两种RNA。然而,可以对单引导RNA(“sgRNA”,或简称为“gRNA”)进行工程改造,以便将crRNA和tracrRNA的各个方面整合到单个RNA种类中。参见,如Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,DoudnaJ.A.,Charpentier E.Science 337:816-821(2012),其全部内容在此引入作为参考。Cas9识别CRISPR重复序列中的一个短基序(PAM或原间隔序列相邻基序),以帮助区分自身与非自身。
在一些实施方案中,本文所述的方法可以利用工程化的Cas蛋白。向导RNA(gRNA)是一种短的合成RNA,由Cas结合所需的支架序列和用户定义的~20个核苷酸间隔区组成,该间隔区定义了要修改的基因组(或多核苷酸,例如DNA或RNA)靶标。因此,技术人员可以通过改变gRNA中存在的靶序列来改变Cas蛋白的基因组或多核苷酸靶。Cas蛋白的特异性部分取决于,与基因组其余部分相比,gRNA靶向序列对于基因组核苷酸靶向序列的特异性。在一个实施方案中,Cas蛋白是SpCas9。
在一些实施方案中,gRNA支架序列如下:
GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUU。
在一些实施方案中,gRNA支架序列如下:
GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGGACCGAGUCGGUGCUUUU。
在一个实施方案中,上述gRNA支架的末端尿嘧啶(U)可以任选地包含“mU*mU*mU*U”,其表示2'OMe并且具有硫代磷酸酯键。
在一个实施方案中,RNA支架包含茎环。在一个实施方案中,所述RNA支架包含核酸序列:
GUUUUUGUACUCUCAAGAUUUAAGUAACUGUACAACGAAACUUACACAGUUACUUAAAUCUUGCAGAAGCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACACCCUGUCAUUUUAUGGCAGGGUG.
在一些实施方案中,化脓性链球菌sgRNA支架多核苷酸序列如下:
GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC.
在一个实施方案中,金黄色葡萄球菌支架多核苷酸序列如下:
GUUUUAGUACUCUGUAAUGAAAAUUACAGAAUCUACUAAAACAAGGCAAAAUGCCGUGUUUAUCUCGUCAACUUGUUGGCGAGA.
在一个实施方案中,BhCas12b sgRNA支架具有下述多核苷酸序列:
GUUCUGTCUUUUGGUCAGGACAACCGUCUAGCUAUAAGUGCUGCAGGGUGUGAGAAACUCCUAUUGCUGGACGAUGUCUCUUACGAGGCAUUAGCAC.
在一个实施方案中,BvCas12b sgRNA支架具有下述多核苷酸序列:
GACCUAUAGGGUCAAUGAAUCUGUGCGUGUGCCAUAAGUAAUUAAAAAUUACCCACCACAGGAGCACCUGAAAACAGGUGCUUGGCAC.
在一些实施方案中,掺入碱基编辑器的CRISPR蛋白衍生结构域是当与结合的引导核酸结合时能够结合靶多核苷酸的核酸内切酶(例如,脱氧核糖核酸酶或核糖核酸酶)。在一些实施方案中,掺入碱基编辑器的CRISPR蛋白衍生结构域是当与结合的引导核酸结合时能够结合靶多核苷酸的切口酶。在一些实施方案中,掺入碱基编辑器的CRISPR蛋白衍生结构域是当与结合的引导核酸结合时能够结合靶多核苷酸的催化死亡结构域。在一些实施方案中,由碱基编辑器的CRISPR蛋白衍生结构域结合的靶多核苷酸是DNA。在一些实施方案中,由碱基编辑器的CRISPR蛋白衍生结构域结合的靶多核苷酸是RNA。
可用于本文的Cas蛋白包括第1类和第2类。Cas蛋白的非限制性实例包括Cas1,Cas1B,Cas2,Cas3,Cas4,Cas5,Cas5d,Cas5t,Cas5h,Cas5a,Cas6,Cas7,Cas8,Cas9(也称为Csn1或Csx12)、Cas10,Csy1,Csy2,Csy3,Csy4,Cse1,Cse2,Cse3,Cse4,Cse5e,Csc1,Csc2,Csa5,Csn1,Csn2,Csm1,Csm2,Csm3,Csm4,Csm5,Csm6,Cmr1,Cmr3,Cmr4,Cmr5,Cmr6,Csb1,Csb2,Csb3,Csx17,Csx14,Csx10,Csx16,CsaX,Csx3,Csx1,Csx1S,Csf1,Csf2,CsO,Csf4,Csd1,Csd2,Cst1,Cst2,Csh1,Csh2,Csa1,Csa2,Csa3,Csa4,Csa5,Cas12a/Cpf1,Cas12b/C2c1,Cas12c/C2c3,Cas12d/CasY,Cas12e/CasX,Cas12g,Cas12h,Cas12i,和Cas12j/CasΦ,CARF,DinG,及其同源物或其修饰版本。未经修饰的CRISPR酶可以具有DNA切割活性,例如Cas9,其具有两个功能性核酸内切酶结构域:RuvC和HNH。CRISPR酶可以引导切割靶标序列处的一条或两条链,例如在靶标序列内和/或在靶标序列的互补序列内。例如,CRISPR酶可以引导切割距靶标序列的第一个或最后一个核苷酸约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500或更多碱基对内的一条或两条链。
可以使用编码CRISPR酶的载体,所述CRISPR酶相对于相应的野生型酶突变,使得突变的CRISPR酶缺乏切割含有靶标序列的靶标多核苷酸的一条或两条链的能力。Cas9可指具有至少或至少约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性和/或序列同源性与野生型示例性Cas9多肽(例如,来自化脓链球菌的Cas9)。Cas9可指具有至多或至多约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性和/或序列同源性与野生型示例性Cas9多肽(例如,来自化脓链球菌的)。Cas9可指Cas9蛋白的野生型或修饰形式,其可包含氨基酸变化,例如缺失、插入、取代、变体、突变、融合、嵌合体或其任何组合。
在一些实施方案中,碱基编辑器的CRISPR蛋白衍生结构域可以包括来自溃疡棒状杆菌(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒杆菌(Corynebacteriumdiphtheria)(NCBI Refs:NC_016782.1,NC_016786.1);螺旋原体(Spiroplasmasyrphidicola)(NCBI Refs:NC_021284.1);中間普雷沃菌(Prevotella intermedia)(NCBIRefs:NC_017861.1);中国台湾螺旋体(Spiroplasma taiwanense,China)(NCBI Refs:NC_021846.1);链球菌(Streptococcus iniae)(NCBI Refs:NC_021314.1);波罗的海贝尔氏菌(Belliella baltica)(NCBI Refs:NC_018010.1);扭曲冷弯曲菌(PsychroflexustorquisI)(NCBI Ref:NC_018721.1);嗜热链球菌(Streptococcus thermophilus)(NCBIRefs:YP_820832.1);无害李斯特菌(Listeria innocua)(NCBI Refs:NP_472073.1);曲状杆菌(Campylobacter jejuni)(NCBI Refs:YP_002344900.1);脑膜炎双球菌(Neisseriameningitidis)(NCBI Refs:YP_002342100.1),化脓性链球菌(Streptococcus pyogenes),or金黄色葡萄球菌(Staphylococcus aureus.)
核碱基编辑器的Cas9结构域
Cas9核酸酶序列和结构是本领域技术人员众所周知的(参见,如“Completegenome sequence of an M1 strain of Streptococcus pyogenes.”Ferretti等人,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.等人,Nature 471:602-607(2011);以及“Programmable dual-RNA-guided DNA endonuclease in adaptivebacterial immunity.”Jinek M.等人,Science 337:816-821(2012)全部内容以引用方式并入本文)。Cas9直向同源物已在各种物种中得到描述,包括但不限于化脓链球菌和嗜热链球菌。基于本公开内容,其他合适的Cas9核酸酶和序列对本领域技术人员来说是显而易见的,并且此类Cas9核酸酶和序列包括来自Chylinski,Rhun,and Charpentier,“ThetracrRNA and Cas9 families of type II CRISPR-Cas immunity systems”(2013)RNABiology 10:5,726-737中公开的生物体和基因座的Cas9序列;其全部内容在此引入作为参考。
在一些方面,核酸可编程DNA结合蛋白(napDNAbp)是Cas9结构域。本文提供了非限制性的示例性Cas9结构域。Cas9结构域可以是核酸酶活性Cas9结构域、核酸酶无活性Cas9结构域或Cas9切口酶。在一些实施方案中,所述Cas9结构域是一种具有核酸酶活性的结构域。例如,Cas9结构域可以是切割双链核酸的两条链(例如双链DNA分子的两条链)的Cas9结构域。在一些实施方案中,Cas9结构域包含如本文所述的任一氨基酸序列。在一些实施方案中,所述Cas9结构域包含的氨基酸序列与本文所述的任一氨基酸序列的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。在一些实施方案中,Cas9结构域包含的氨基酸序列与本文所述的任何一种氨基酸序列相比,具有下述1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33,34,35、36、37、38、39、40、41,、42、43、44、45、46、47、48、49、50个或更多个突变。在一些实施方案中,与本文所述的任一氨基酸序列相比,Cas9结构域包含具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100或至少1200个相同的连续氨基酸残基。
在一些实施方案中,提供了包含Cas9片段的蛋白。例如,在一些实施方案中,蛋白包含两个Cas9结构域之一:(1)Cas9的gRNA结合结构域;或(2)Cas9的DNA切割结构域。在一些实施方案中,包含Cas9或其片段的蛋白被称为“Cas9变体”。Cas9变体与Cas9或其片段具有同源性。例如,Cas9变体与野生型Cas9至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,Cas9变体与野生型Cas9相比,可以具有下述1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个突变。在一些实施方案中,Cas9变体包含Cas9的片段(例如,gRNA结合结构域或DNA切割结构域),使得该片段与野生型Cas9的相应片段至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,所述片段是至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%相同、至少96%、至少97%、至少98%、至少99%或至少99.5%相应野生型Cas9的氨基酸长度。在一些实施方案中,所述片段的长度为至少100个氨基酸。在一些实施方案中,所述片段的长度为至少100、150、200、250、300、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250或1300个氨基酸。
在一些实施方案中,本文提供的Cas9融合蛋白包含Cas9蛋白的全长氨基酸序列,例如本文提供的Cas9序列之一。然而,在其他实施方案中,本文提供的融合蛋白不包含全长Cas9序列,而仅包含其一个或多个片段。本文提供了合适的Cas9结构域和Cas9片段的示例性氨基酸序列,并且Cas9结构域和片段的其他合适的序列对本领域技术人员来说是显而易见的。
Cas9蛋白可以与引导RNA相关联,该引导RNA将Cas9蛋白引导至与引导RNA互补的特定DNA序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是Cas9结构域,例如核酸酶活性Cas9、Cas9切口酶(nCas9)或核酸酶失活Cas9(dCas9)。核酸可编程DNA结合蛋白的实例包括但不限于Cas9(例如,dCas9和nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i和Cas12j/CasΦ。Cas酶的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(也称为Csn1或Csx12),Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Cas12j/CasΦ、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e,Csc1,Csc2,Csa5,Csn1,Csn2,Csm1,Csm2,Csm3,Csm4,Csm5,Csm6,Cmr1,Cmr3,Cmr4,Cmr5,Cmr6,Csb1,Csb2,Csb3,Csx17,Csx14,Csx10,Csx16,CsaX,Csx3,Csx1,Csx1S,Csx11,Csf1,Csf2,CsO,Csf4,Csd1,Csd2,Cst1,Cst2,Csh1,Csh2,Csa1,Csa2,Csa3,Csa4,Csa5,II型Cas效应蛋白,V型Cas效应蛋白,VI型Cas效应蛋白、CARF、DinG、其同源物或其修饰或工程化形式。
在一些实施方案中,野生型Cas9对应于来自化脓性链球菌的Cas9(NCBI参考序列:NC_017053.1,核苷酸和氨基酸序列如下)。
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGGCAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAGGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGCGCCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGGGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGATATTCAAAAAGCACAGGTGTCTGGACAAGGCCATAGTTTACATGAACAGATTGCTAACTTAGCTGGCAGTCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAAGTAATGGGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTACAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCATTAAAGACGATTCAATAGACAATAAGGTACTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
(单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施方案中,野生型Cas9对应于或包含下述核苷酸和/或氨基酸序列:
ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCGTTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGCGACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCAAGAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGCCAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGAGTCCTTCCTTGTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAACATAGTAGATGAGGTGGCATATCATGAAAAGTACCCAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGAGGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCACTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGACAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAACCCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTTAGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCACAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCTTATAGCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGACTTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGATGACGATCTCGACAATCTACTGGCACAAATTGGAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTATCTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGTTATCCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGACACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATAAGGAAATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATATTGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACCCATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAACTCAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGGTAGCATTCCACATCAAATCCACTTAGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATCGTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGACCCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAGTCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATAAAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTGACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACTTTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGGGCATGCGTAAACCCGCCTTTCTAAGCGGAGAACAGAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCGCAAAGTGACAGTTAAGCAATTGAAAGAGGACTACTTTAAGAAAATTGAATGCTTCGATTCTGTCGAGATCTCCGGGGTAGAAGATCGATTTAATGCGTCACTTGGTACGTATCATGACCTCCTAAAGATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAATGAAGATATCTTAGAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGAGGAAAGACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAACAGTTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAAACTTATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTCTAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAGCTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATACAAAAGGCACAGGTTTCCGGACAAGGGGACTCATTGCACGAACATATTGCGAATCTTGCTGGTTCGCCAGCCATCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGGATGAGCTAGTTAAGGTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGATGGCACGCGAAAATCAAACGACTCAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATAGAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCATCCTGTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACCTACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAAACCGTTTATCTGATTACGACGTCGATCACATTGTACCCCAATCCTTTTTGAAGGACGATTCAATCGACAATAAAGTGCTTACACGCTCGGATAAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGAGGAAGTCGTAAAGAAAATGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAAGTTCGATAACTTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGACAAGGCCGGATTTATTAAACGTCAGCTCGTGGAAACCCGCCAAATCACAAAGCATGTTGCACAGATACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGATTCGGGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTTCAGAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACCACCATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACTCATTAAGAAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGATTACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACAGGAGATAGGCAAGGCTACAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAGACGGAAATCACTCTGGCAAACGGAGAGATACGCAAACGACCTTTAATTGAAACCAATGGGGAGACAGGTGAAATCGTATGGGATAAGGGCCGGGACTTCGCGACGGTGAGAAAAGTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGACCGGAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAAGCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTGGCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAAAAGTTGAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAATTATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAACCCCATCGACTTCCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTACCAAAGTATAGTCTGTTTGAGTTAGAAAATGGCCGAAAACGGATGTTGGCTAGCGCCGGAGAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATACGTGAATTTCCTGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGATAACGAACAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCTCGACGAAATCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAGCTGATGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGATAAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACTCTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACAACGATAGATCGCAAACGATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTCACCAATCCATCACGGGATTATATGAAACTCGGATAGATTTGTCACAGCTTGGGGGTGACGGATCCCCCAAGAAGAAGAGGAAAGTCTCGAGCGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGGCTGCAGGA
(单下划线:HNH结构域;双下划线:RuvC结构域)。
在一些实施方案中,野生型Cas9对应于来自化脓性链球菌的Cas9
(NCBI参考序列:NC_002737.2(核苷酸序列如下);和Uniprot参考序列:Q99ZW2(氨基酸序列如下):
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
在一些实施方案中,Cas9是指来自下述的Cas9:溃疡棒状杆菌(Corynebacteriumulcerans)(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒杆菌(Corynebacteriumdiphtheria)(NCBI Refs:NC_016782.1,NC_016786.1);螺旋原体(Spiroplasmasyrphidicola)(NCBI Refs:NC_021284.1);中間普雷沃菌(Prevotella intermedia)(NCBIRefs:NC_017861.1);中国台湾螺旋体(Spiroplasma taiwanense,China)(NCBI Refs:NC_021846.1);链球菌(Streptococcus iniae)(NCBI Refs:NC_021314.1);波罗的海贝尔氏菌(Belliella baltica)(NCBI Refs:NC_018010.1);扭曲冷弯曲菌(PsychroflexustorquisI)(NCBI Refs:NC_018721.1);嗜热链球菌(Streptococcus thermophilus)(NCBIRefs:YP_820832.1);无害李斯特菌(Listeria innocua)(NCBI Refs:NP_472073.1);曲状杆菌(Campylobacter jejuni)(NCBI Refs:YP_002344900.1);脑膜炎双球菌(Neisseriameningitidis)(NCBI Refs:YP_002342100.1)或来自任何其他生物体的Cas9。
应当理解,额外的Cas9蛋白(例如,核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9),包括其变体和同系物,在本公开内容的范围内。示例性的Cas9蛋白包括但不限于下述提供的那些。在一些实施方案中,所述Cas9蛋白是核酸酶无活性的Cas9(dCas9)。在一些实施方案中,所述Cas9蛋白是一种Cas9切口酶(nCas9)。在一些实施方案中,所述Cas9蛋白是一种具有核酸酶活性的Cas9。
在一些实施方案中,所述Cas9结构域是一种核酸酶失活的结构域(dCas9)。例如,dCas9结构域可以结合双链核酸分子(例如,通过gRNA分子)而不切割双链核酸分子的任何一条链。在一些实施方案中,核酸酶失活的dCas9结构域包含本文所述氨基酸序列的D10X突变和H840X突变,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸变化。在一些实施方案中,核酸酶失活的dCas9结构域包含本文所述氨基酸序列的D10A突变和H840A突变,或本文提供的任何氨基酸序列中的相应突变。作为一个实例,无核酸酶活性的Cas9结构域包含在克隆载体pPlatTET-gRNA2(登录号BAV54124)中列出的氨基酸序列。
示例性无催化活性的Cas9(dCas9)的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
(参见,例如,Qi等人,“Repurposing CRISPR as an RNA-guided platform forsequence-specific control of gene expression.”Cell.2013;152(5):1173-83,其全部内容以引用方式并入本文)。
基于本公开内容和本领域的知识,其他合适的核酸酶失活的dCas9结构域对于本领域技术人员来说是显而易见的,并且在本公开内容的范围内。这种额外的示例性合适的核酸酶失活的Cas9域包括但不限于D10A/H840A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突变域(参见,例如Prashant等人,CAS9 transcriptional activators for targetspecificity screening and paired nickases for cooperative genomeengineering.Nature Biotechnology.2013;31(9):833-8338,其全部内容以引用方式并入。
在一些实施方案中,Cas9核酸酶具有失活的(例如,经失活的)DNA切割结构域,即,Cas9是切口酶,称为“nCas9”蛋白(对于“切口酶”Cas9)。核酸酶失活的Cas9蛋白可互换地称为“dCas9”蛋白(对于核酸酶-“无活性的”Cas9)或催化失活的Cas9。用于产生具有无活性DNA切割结构域的Cas9蛋白(或其片段)的方法是已知的(参见,如Jinek et al.,Science.337:816-821(2012);Qi等人“Repurposing CRISPR as an RNA-Guided Platformfor Sequence-Specific Control of Gene Expression”(2013)Cell.28;152(5):1173-83,其全部内容以引用方式并入本文)。例如,已知Cas9的DNA切割结构域包括两个子结构域,HNH核酸酶子结构域和RuvC1子结构域。HNH子结构域切割与gRNA互补的链,而RuvC1子结构域切割非互补链。这些子结构域内的突变可以使Cas9的核酸酶活性静默。例如,突变D10A和H840A使化脓性链球菌Cas9的核酸酶活性完全失活 (Jinek et al.,Science.337:816-821(2012);Qi等人,Cell.28;152(5):1173-83(2013))。
在一些实施方案中,所述dCas9结构域包含的氨基酸序列与本文所述的任一Cas9结构域的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。在一些实施方案中,Cas9结构域包含的氨基酸序列与本文所述的任何一种氨基酸序列相比,具有下述1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33,34,35、36、37、38、39、40、41,、42、43、44、45、46、47、48、49、50个或更多个突变。在一些实施方案中,与本文所述的任一氨基酸序列相比,Cas9结构域包含具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100或至少1200个相同的连续氨基酸残基。
在一些实施方案中,dCas9对应于或部分或全部包含具有一个或多个使Cas9核酸酶活性失活的突变的Cas9氨基酸序列。在一些实施方案中,核酸酶失活的dCas9结构域包含本文所述氨基酸序列的D10X突变和H840X突变,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸变化。在一些实施方案中,核酸酶失活的dCas9结构域包含本文所述氨基酸序列的D10A突变和H840A突变,或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,核酸酶失活的Cas9结构域包含克隆载体pPlatTET-gRNA2(登录号BAV54124)中列出的氨基酸序列。
在一些实施方案中,dCas9包含dCas9(D10A和H840A)的氨基酸序列:
在一些实施方案中,示例性催化失活的Cas9(dCas9)的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
(参见,例如,Qi等人,“Repurposing CRISPR as an RNA-guided platform forsequence-specific control of gene expression.”Cell.2013;152(5):1173-83,其全部内容以引用方式并入本文)。
在一些实施方案中,示例性催化失活的Cas9(dCas9)的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
在一些实施方案中,所述Cas9结构域包含D10A突变,而840位的残基在上文提供的氨基酸序列中或在本文提供的任何氨基酸序列中的相应位置处仍为组氨酸
在其他实施方案中,提供了具有除D10A和H840A之外的突变的dCas9变体,其例如导致核酸酶失活的Cas9(dCas9)。例如,此类突变包括在D10和H840处的其他氨基酸置换,或Cas9核酸酶域内的其他置换(例如,HNH核酸酶亚域和/或RuvC1亚域中的置换)。在一些实施方案中,提供了dCas9的变体或同源物,其至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,提供具有较短或较长约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。
基于本公开内容和本领域的知识,其他合适的无核酸酶活性的dCas9结构域对于本领域技术人员来说是显而易见的,并且在本公开内容的范围内。此类额外的示例性合适的核酸酶失活Cas9结构域包括但不限于D10A/H840A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突变体结构域(参见例如Prashant等人,CAS9 transcriptional activatorsfor target specificity screening and paired nickases for cooperative genomeengineering.Nature Biotechnology.2013;31(9):833-838,其全部内容以引用方式并入。
在一些实施方案中,所述Cas9结构域是一种Cas9切口酶。Cas9切口酶可以是仅能够切割双链核酸分子(例如双链DNA分子)的一条链的Cas9蛋白。在一些实施方案中,Cas9切口酶切割双链核酸分子的靶链,意味着Cas9切口酶切割与结合至Cas9的gRNA(例如,sgRNA)碱基配对(互补)的链。在一些实施方案中,Cas9切口酶包含D10A突变并且在位置840处具有组氨酸。在一些实施方案中,Cas9切口酶切割双链核酸分子的非靶标、非碱基编辑链,这意味着Cas9切口酶切割不与与Cas9结合的gRNA(例如,sgRNA)碱基配对的链。在一些实施方案中,Cas9切口酶包含H840A突变并且在位置10处具有天冬氨酸残基或相应的突变。在一些实施方案中,所述Cas9切口酶包含的氨基酸序列与本文所述的任一Cas9切口酶的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。基于本公开内容和本领域的知识,其他合适的Cas9切口酶对于本领域技术人员来说是显而易见的,并且在本公开内容的范围内。
示例性催化活性Cas9切口酶(nCas9)的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
在一些实施方案中,Cas9是指来自古细菌(例如纳米古细菌)的Cas9,其构成单细胞原核微生物的域和界。在一些实施方案中,可编程核苷酸结合蛋白可以是CasX或CasY蛋白,其已被描述在例如,Burstein等人,"New CRISPR-Cas systems from uncultivatedmicrobes."Cell Res.2017 Feb 21.doi:10.1038/cr.2017.21,其全部内容以引用方式并入本文。使用基因组解析的宏基因组学,确定了许多CRISPR-Cas系统,包括在古细菌领域首次报道的Cas9。这种发散的Cas9蛋白在很少被研究的纳米古细菌中被发现,作为活性CRISPR-Cas系统的一部分。在细菌中,发现了两个以前未知的系统,CRISPR-CasX和CRISPR-CasY,它们是迄今为止发现的最紧凑的系统之一。在一些实施方案中,在本文所述的碱基编辑器系统中,Cas9被CasX或CasX的变体替代。在一些实施方案中,在本文所述的碱基编辑器系统中,Cas9被CasY或CasY的变体替代。应当理解,其他RNA引导的DNA结合蛋白可以用作核酸可编程DNA结合蛋白(napDNAbp),并且在本公开的范围内。
在一些实施方案中,本文提供的核酸可编程DNA结合蛋白(napDNAbp)或任何融合蛋白可以是CasX或CasY蛋白。在一些实施方案中,napDNAbp是CasY蛋白。在一些实施方案中,napDNAbp是CasY蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与天然存在的CasX或CasY蛋白相同。在一些实施方案中,可编程核苷酸结合蛋白是天然存在的CasX或CasY蛋白。在一些实施方案中,可编程核苷酸结合蛋白包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的任何CasX或CasY蛋白相同。应当理解,根据本公开也可以使用来自其他细菌物种的CasX和CasY。
示例性的CasX((uniprot.org/uniprot/F0NN87;
uniprot.org/uniprot/F0NH53)tr|F0NN87|F0NN87_SULIHCRISPR-ssociatedCasxprotein OS=冰岛硫化叶菌(strain HVE10/4)GN=SiH_0402PE=4SV=1)氨基酸序列如下:
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYEFGRSPGMVERTRRVKLEVEPHYLIIAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVRIYTISDAVGQNPTTINGGFSIDLTKLLEKRYLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG.
示例性的CasX(>tr|F0NH53|F0NH53_SULIR CRISPR associated protein,CasxOS=冰岛硫化叶菌(strain REY15A)GN=SiRe_0771PE=4SV=1)氨基酸序列如下:
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYKFGRSPGMVERTRRVKLEVEPHYLIMAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVSIYTISDAVGQNPTTINGGFSIDLTKLLEKRDLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG.
Delta變形菌CasX
MEKRINKIRKKLSADNATKPVSRSGPMKTLLVRVMTDDLKKRLEKRRKKPEVMPQVISNNAANNLRMLLDDYTKMKEAILQVYWQEFKDDHVGLMCKFAQPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKLEQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPVKDSDEAVTYSLGKFGQRALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMGTIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQPHTKEGVDfAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFPSFPVVERRENEVDWWNTINEVKKLIDAKRDMGRVFWSGVTAEKRNTILEGYNYLPNENDHKKREGSLENPKKPAKRQFGDLLLYLEKKYAGDWGKVFDEAWERIDKKIAGLTSHIEREEARNAEDAQSKAVLTDWLRAKASFVLERLKEMDEKEFYACEIQLQKWYGDLRGNPFAVEAENRVVDISGFSIGSDGHSIQYRNLLAWKYLENGKREFYLLMNYGKKGRIRFTDGTDIKKSGKWQGLLYGGGKAKVIDLTFDPDDEQLIILPLAFGTRQGREFIWNDLLSLETGLIKLANGRVIEKTIYNKKIGRDEPALFVALTFERREVVDPSNIKPVNLIGVARGENIPAVIALTDPEGCPLPEFKDSSGGPTDILRIGEGYKEKQRAIQAAKEVEQRRAGGYSRKFASKSRNLADDMVRNSARDLFYHAVTHDAVLVFANLSRGFGRQGKRTFMTERQYTKMEDWLTAKLAYEGLTSKTYLSKTLAQYTSKTCSNCGFTITYADMDVMLVRLKKTSDGWATTLNNKELKAEYQITYYNRYKRQTVEKELSAELDRLSEESGNNDISKWTKGRRDEALFLLKKRFSHRPVQEQFVCLDCGHEVHAAEQAALNIARSWLFLNSNSTEFKSYKSGKQPFVGAWQAFYKRRLKEVWKPNA
示例性的CasY((ncbi.nlm.nih.gov/protein/APG80656.1)>APG80656.1 CRISPR-associated protein CasY[未培养的俭菌(Parcubacteria)菌群])氨基酸序列如下:
MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTVPREIVSAINDDYVGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQYGAVFSYTAPGLLKNVAEVRGGSYELTKTLKGSHLYDELQIDKVIKFLNKKEISRANGSLDKLKKDIIDCFKAEYRERHKDQCNKLADDIKNAKKDAGASLGERQKKLFRDFFGISEQSENDKPSFTNPLNLTCCLLPFDTVNNNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYIGIGNSGTAFSNFLGEGFLGRLRENKITELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKLREPKFDNHWGGYRSDINGKLSSWLQNYINQTVKIKEDLKGHKKDLKKAKEMINRFGESDTKEEAVVSSLLESIEKIVPDDSADDEKPDIPAIAIYRRFLSDGRLTLNRFVQREDVQEALIKERLEAEKKKKPKKRKKKSDAEDEKETIDFKELFPHLAKPLKLVPNFYGDSKRELYKKYKNAAIYTDALWKAVEKIYKSAFSSSLKNSFFDTDFDKDFFIKRLQKIFSVYRRFNTDKWKPIVKNSFAPYCDIVSLAENEVLYKPKQSRSRKSAAIDKNRVRLPSTENIAKAGIALARELSVAGFDWKDLLKKEEHEEYIDLIELHKTALALLLAVTETQLDISALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSELRGLAGLMSRKEFITRSAIQTMNGKQAELLYIPHEFQSAKITTPKEMSRAFLDLAPAEFATSLEPESLSEKSLLKLKQMRYYPHYFGYELTRTGQGIDGGVAENALRLEKSPVKKREIKCKQYKTLGRGQNKIVLYVRSSYYQTQFLEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYDALTVALEPVSGSERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTALEITGDSAKILDQNFISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRNRIHHLALKHKAKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADKNLQTTVWGKLAVASEISASYTSQFCGACKKLWRAEMQVDETITTQELIGTVRVIKGGTLIDAIKDFMRPPIFDENDTPFPKYRDFCDKHHISKKMRGNSCLFICPFCRANADADIQASQTIALLRYVKEEKKVEDYFERFRKLKNIKVLGQMKKI.
Cas9核酸酶具有两个功能性核酸内切酶结构域:RuvC和HNH。Cas9在靶标结合后发生构象变化,定位核酸酶结构域以切割靶标DNA的相反链。Cas9介导的DNA切割的最终结果是靶标DNA(PAM序列上游约3-4个核苷酸)内的双链断裂(DSB)。然后通过下述两种一般修复途径之一修复产生的DSB:(1)高效但容易出错的非同源末端连接(NHEJ)途径;或(2)效率较低但保真度高的同源定向修复(HDR)途径。
非同源末端连接(NHEJ)和/或同源定向修复(HDR)的“效率”可以通过任何方便的方法计算。例如,在一些情況下,效率可以用成功HDR的百分比来表示。例如,Surveyor核酸酶测定可用于产生切割产物,并且产物与底物的比率可用于计算百分比。例如,可以使用surveyor核酸酶直接切割含有作为成功HDR的结果的新整合的限制性序列的DNA。更多裂解的底物表明更高的HDR百分比(更高的HDR效率)。作为说明性示例,可以使用下述等式[(裂解产物)/(底物加裂解产物)](例如,(b+c)/(a+b+c)计算HDR的分数(百分比),其中“a”是DNA底物的条带强度,“b”和“c”是切割产物)。
在一些情況下,效率可以用成功NHEJ的百分比来表示。例如,T7核酸内切酶I测定可用于产生切割产物,并且产物与底物的比率可用于计算NHEJ百分比。T7核酸内切酶I切割由野生型和突变DNA链杂交产生的错配异源双链DNA(NHEJ在原始断裂位点产生小的随机插入或缺失(indels))。更多裂解表明更高的NHEJ百分比(更高的NHEJ效率)。作为说明性示例,NHEJ的分数(百分比)可以使用下述等式计算:(1-(1-(b+c)/(a+b+c))1/2)×100,其中“a”是DNA底物的条带强度,“b”和“c”是切割产物(Ran等人,Cell.2013 Sep.12;154(6):1380-9;and Ran et al.,Nat Protoc.2013 Nov.;8(11):2281–2308).
NHEJ修复途径是最活跃的修复机制,它经常导致DSB位点的小核苷酸插入或缺失(indels)。NHEJ介导的DSB修复的随机性具有重要的实际意义,因为表达Cas9和gRNA或引导多核苷酸的细胞群会导致多种突变。在大多数情況下,NHEJ在靶DNA中产生小的插入缺失,导致氨基酸缺失、插入或移码突变,导致靶标基因的开放阅读框(ORF)内的过早终止密码子。理想的最终结果是靶标基因内的功能丧失突变。
虽然NHEJ介导的DSB修复经常破坏基因的开放阅读框,但同源定向修复(HDR)可用于产生特定的核苷酸变化,范围从单个核苷酸变化到大插入,如添加荧光团或标签。
为了利用HDR进行基因编辑,可以使用gRNA和Cas9或Cas9切口酶将包含所需序列的DNA修复模板递送到感兴趣的细胞类型中。修复模板可以包含所需的编辑以及紧邻靶标上游和下游的其他同源序列(称为左右同源臂)。每个同源臂的长度取决于引入的变化的大小,更大的插入需要更长的同源臂。修复模板可以是单链寡核苷酸、双链寡核苷酸或双链DNA质粒。即使在表达Cas9、gRNA和外源修复模板的细胞中,HDR的效率通常也很低(<10%的修饰等位基因)。HDR的效率可以通过同步细胞来提高,因为HDR发生在细胞周期的S和G2阶段。NHEJ中涉及的化学或遗传抑制基因也可以增加HDR频率。
在一些实施方案中,Cas9是经修饰的Cas9。给定的gRNA靶向序列可以在整个基因组中具有额外的位点,其中存在部分同源性。这些位点称为脱靶位点,在设计gRNA时需要加以考虑。除了优化gRNA设计,还可以通过对Cas9的修改来提高CRISPR的特异性。Cas9通过两个核酸酶域RuvC和HNH的联合活性产生双链断裂(DSB)。Cas9切口酶是SpCas9的D10A突变体,保留一个核酸酶结构域并产生DNA切口而不是DSB。切口酶系统还可以与HDR介导的基因编辑相结合,以进行特定的基因编辑。
在一些情況下,Cas9是一种变体Cas9蛋白。变体Cas9多肽具有与野生型Cas9蛋白的氨基酸序列相比相差一个氨基酸的氨基酸序列(例如,具有缺失、插入、取代、融合)。在一些情况下,变体Cas9多肽具有降低Cas9多肽的核酸酶活性的氨基酸变化(例如,缺失、插入或取代)。例如,在一些情况下,变体Cas9多肽具有少于50%、少于40%、少于30%、少于20%、少于10%、少于5%或少于1%的相应的野生型Cas9蛋白的核酸酶活性。在一些情況下,变体Cas9蛋白没有实质性核酸酶活性。当主题Cas9蛋白是没有实质性核酸酶活性的变体Cas9蛋白时,它可以被称为“dCas9”。
在一些情況下,变体Cas9蛋白具有降低的核酸酶活性。例如,变体Cas9蛋白表现出小于约20%、小于约15%、小于约10%、小于约5%、小于约1%或小于约0.1%的野生型Cas9蛋白的核酸内切酶活性,例如野生型Cas9蛋白。
在一些情況下,变体Cas9蛋白可以切割引导靶标序列的互补链,但切割双链引导标靶序列的非互补链的能力降低。例如,变体Cas9蛋白可以具有降低RuvC结构域功能的突变(氨基酸取代)。作为非限制性实例,在一些实施方案中,变体Cas9蛋白具有D10A(在氨基酸位置10处天冬氨酸到丙氨酸)并且因此可以切割双链引导靶标序列的互补链但切割非-双链引导靶标序列的互补链(因此当变体Cas9蛋白切割双链靶核酸时导致单链断裂(SSB)而不是双链断裂(DSB))(参见,例如,Jinek等人,Science.2012 Aug.17;337(6096):816-21).
在一些情況下,变体Cas9蛋白可以切割双链引导靶标序列的非互补链,但切割引导靶标序列的互补链的能力降低。例如,变体Cas9蛋白可以具有降低HNH结构域(RuvC/HNH/RuvC结构域基序)功能的突变(氨基酸取代)。作为非限制性实例,在一些实施方案中,变体Cas9蛋白具有H840A(在氨基酸位置840处组氨酸到丙氨酸)突变,因此可以切割引导靶标序列的非互补链,但切割引导靶标序列的互补链的能力降低(从而导致当变异Cas9蛋白切割双链引导靶标序列时,使用SSB而不是DSB)。此类Cas9蛋白切割引导靶标序列(例如,单链引导靶标序列)的能力降低,但保留结合引导靶标序列(例如,单链引导靶标序列)的能力。
在一些情況下,变体Cas9蛋白切割双链靶标DNA的互补链和非互补链的能力降低。作为非限制性实例,在一些情況下,变体Cas9蛋白包含D10A和H840A突变两者,使得多肽切割双链靶标DNA的互补链和非互补链的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。
作为另一个非限制性实例,在一些情況下,变体Cas9蛋白含有W476A和W1126A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。
作为另一个非限制性实例,在一些情況下,变体Cas9蛋白含有P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。
作为另一个非限制性实例,在一些情況下,变体Cas9蛋白含有H840A、W476A和W1126A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。作为另一个非限制性实例,在一些情況下,变体Cas9蛋白含有H840A、D10A、W476A和W1126A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。在一些实施方案中,变体Cas9在Cas9 HNH结构域(A840H)中的位置840处恢复了催化性His残基。
作为另一个非限制性实例,在一些情況下,变体Cas9蛋白含有H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。作为另一个非限制性实例,在一些情況下,变体Cas9蛋白含有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。在一些情況下,当变体Cas9蛋白含有W476A和W1126A突变或当变体Cas9蛋白含有P475A、W476A、N477A、D1125A、W1126A和D1127A突变时,变体Cas9蛋白不与PAM序列有效结合。因此,在某些这样的情况下,当此类变体Cas9蛋白用于结合方法时,该方法不需要PAM序列。换言之,在一些情況下,当这种变体Cas9蛋白用于结合方法中时,该方法可以包括引导RNA,但是该方法可以在不存在PAM序列的情况下进行(并且结合的特异性是因此由引导RNA的靶向片段提供)。可以突变其他残基以实现上述效果(即灭活一个或其他核酸酶部分)。作为非限制性实例,残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987可以被改变(即,被取代)。此外,丙氨酸取代以外的突变也是合适的。
在一些实施方案中,具有降低的催化活性的变体Cas9蛋白(例如,当Cas9蛋白具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987突变时例如,D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A和/或D986A),变体Cas9蛋白仍然可以以位点特异性方式结合靶标DNA(因为它仍然被引导RNA引导到靶标DNA序列),只要它保留与引导RNA相互作用的能力。
在一些实施方案中,变体Cas蛋白可以是spCas9、spCas9-VRQR、spCas9-VRER、xCas9(sp)、saCas9、saCas9-KKH、SpCas9-MQKFRAER、spCas9-MQKSER、spCas9-LRKIQK或spCas9-LRVSQL。
在一些实施方案中,使用包括氨基酸取代D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(SpCas9-MQKFRAER)并且对改变的PAM 5’-NGC具有特异性的修饰的SpCas9。
化脓性链球菌Cas9的替代品可以包括来自Cpf1家族的RNA引导的核酸内切酶,它们在哺乳动物细胞中显示出切割活性。来自普雷沃氏菌和弗朗西斯菌1(CRISPR/Cpf1)的CRISPR是一种类似于CRISPR/Cas9系统的DNA编辑技术。Cpf1是II类CRISPR/Cas系统的RNA引导的核酸内切酶。这种获得性免疫机制存在于普氏菌和弗朗西斯菌中。Cpf1基因与CRISPR基因座相关,编码内切核酸酶,使用引导RNA来寻找和切割病毒DNA。Cpf1是一种比Cas9更小、更简单的核酸内切酶,克服了CRISPR/Cas9系统的一些限制。与Cas9核酸酶不同,Cpf1介导的DNA切割的结果是具有短3'突出端的双链断裂。Cpf1的交错切割模式可以开辟定向基因转移的可能性,类似于传统的限制酶克隆,可以提高基因编辑的效率。与上述Cas9变体和直向同源物一样,Cpf1还可以将CRISPR可靶向的位点数量扩大到富含AT的区域或富含AT的基因组,这些区域缺乏SpCas9青睐的NGG PAM位点。Cpf1基因座包含一个混合的alpha/beta结构域、一个RuvC-I后跟一个螺旋区域、一个RuvC-II和一个锌指样结构域。Cpf1蛋白具有类似于Cas9的RuvC结构域的RuvC样核酸内切酶结构域。此外,Cpf1没有HNH核酸内切酶结构域,并且Cpf1的N末端没有Cas9的α-螺旋识别叶。Cpf1 CRISPR-Cas结构域架构表明Cpf1在功能上是独一无二的,被归类为2类V型CRISPR系统。Cpf1基因座编码的Cas1、Cas2和Cas4蛋白更类似于I型和III型,而不是来自II型系统。功能性Cpf1不需要反式激活CRISPR RNA(tracrRNA),因此,只需要CRISPR(crRNA)。这有利于基因组编辑,因为Cpf1不仅比Cas9小,而且它的sgRNA分子更小(大约是Cas9的一半核苷酸)。与Cas9靶向的富含G的PAM相比,Cpf1-crRNA复合物通过识别原始间隔物相邻基序5'-YTN-3'来切割靶标DNA或RNA。在鉴定PAM后,Cpf1引入了4或5个核苷酸突出的粘性末端样的DNA双链断裂。
在一些实施方案中,Cas9是对改变的PAM序列具有特异性的Cas9变体。在一些实施方案中,额外的Cas9变体和PAM序列在Miller,S.M.等人,Continuous evolution ofSpCas9 variants compatible with non-G PAMs,Nat.Biotechnol.(2020)中有所描述,其全部内容以引用方式并入本文。在一些实施方案中,Cas9变体没有特定的PAM要求。在一些实施方案中,Cas9变体,例如SpCas9变体对NRNH PAM具有特异性,其中R是A或G并且H是A、C或T。在一些实施方案中,SpCas9变体对PAM序列AAA、TAA、CAA、GAA、TAT、GAT或CAC具有特异性。在一些实施方案中,SpCas9变体包含在位置处1114、1134、1135、1137、1139、1151、1180、1188、1211、1218、1219、1221、1249、1256、1264、1290、1318、1317、1320、1321、1323、1332、1333、1335、1337或1339,或其对应位置处的氨基酸取代。在一些实施方案中,SpCas9变体包含在位置处1114、1135、1218、1219、1221、1249、1320、1321、1323、1332、1333、1335或1337,或其对应位置处的氨基酸取代。在一些实施方案中,SpCas9变体包含在位置处1114、1134、1135、1137、1139、1151、1180、1188、1211、1219、1221、1256、1264、1290、1318、1317、1320、1323、1333或其对应位置处的氨基酸取代。在一些实施方案中,SpCas9变体包含在位置处1114、1131、1135、1150、1156、1180、1191、1218、1219、1221、1227、1249、1253、1286、1293、1320、1321、1332、1335、1339,或其对应位置处的氨基酸取代。在一些实施方案中,SpCas9变体包含在位置处1114、1127、1135、1180、1207、1219、1234、1286、1301、1332、1335、1337、1338、1349,或其对应位置处的氨基酸取代。SpCas9变体的示例性氨基酸取代和PAM特异性显示在表1A-1D中。
表1A
表1B
表1C
表1D
在一些实施方案中,Cas9是脑膜炎奈瑟氏菌(Neisseria meningitidis)Cas9(NmeCas9)或其变体。在一些实施方案中,NmeCas9对NNNNGAYW PAM具有特异性,其中Y是C或T并且W是A或T。在一些实施方案中,NmeCas9对NNNNGYTT PAM具有特异性,其中Y是C或T。在一些实施方案中,NmeCas9对NNNNGTCT PAM具有特异性。在一些实施方案中,所述NmeCas9是Nme1 Cas9。在一些实施方案中,NmeCas9对NNNNGATT PAM、NNNNCCTA PAM、NNNNCCTC PAM、NNNNCCTT PAM、NNNNCCTG PAM、NNNNCCGT PAM、NNNNCCGGPAM、NNNNCCCA PAM、NNNNCCCT PAM、NNNNCCCC PAM、NNNNCCAT PAM、NNNNCCAG PAM、NNNNCCAT PAM或NNNGATT PAM具有特异性。在一些实施方案中,Nme1Cas9对NNNNGATT PAM、NNNNCCTA PAM、NNNNCCTC PAM、NNNNCCTT PAM或NNNNCCTG PAM具有特异性。在一些实施方案中,NmeCas9对CAA PAM、CAAA PAM或CCA PAM具有特异性。在一些实施方案中,所述NmeCas9是Nme2 Cas9。在一些实施方案中,NmeCas9对NNNNCC(N4CC)PAM具有特异性,其中N是A、G、C或T中的任何一个。在一些实施方案中,NmeCas9对NNNNCCGT PAM、NNNNCCGGPAM、NNNNCCCA PAM、NNNNCCCT PAM、NNNNCCCC PAM、NNNNCCAT PAM、NNNNCCAG PAM、NNNNCCAT PAM或NNNGATT PAM具有特异性。在一些实施方案中,所述NmeCas9是Nme3Cas9。在一些实施方案中,NmeCas9对NNNNCAAA PAM、NNNNCC PAM或NNNNCNNN PAM具有特异性。额外的NmeCas9特征和PAM序列,如Edraki等人Mol.Cell.(2019)73(4):714-726所述,以引用的方式全文并入本文。
下述提供了Nme1Cas9的示例性氨基酸序列:
II型CRISPR RNA引导的核酸内切酶Cas9[脑膜炎双球菌]WP_002235162.1
下述提供了Nme2Cas9的示例性氨基酸序列:
II型CRISPR RNA引导的核酸内切酶Cas9[脑膜炎双球菌]WP_002230835.1
核碱基编辑器的Cas12结构域
通常,微生物CRISPR-Cas系统分为1类和2类系统。1类系统具有多亚基效应复合物,而2类系统具有单个蛋白质效应子。例如,Cas9和Cpf1是2类效应子,尽管类型不同(分别为II型和V型)。除了Cpf1,第2类、V型的CRISPR-Cas系统还包括Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i和Cas12j/CasΦ)。参见,例如,Shmakov等人,“Discovery and Functional Characterization of Diverse Class2CRISPR Cas Systems,”Mol.Cell,2015 Nov.5;60(3):385-397;Makarova等人,Classification and Nomenclature of CRISPR-Cas Systems:Where from Here?”CRISPRJournal,2018,1(5):325-336;和Yan等人,“Functionally diverse type V CRISPR-Cassystems,”Science,2019 Jan.4;363:88-91中描述;其全部内容以引用方式并入本文。V型Cas蛋白包含一个RuvC(或RuvC样)核酸内切酶结构域。虽然成熟CRISPR RNA(crRNA)的生产通常不依赖于tracrRNA,但例如,Cas12b/C2c1需要tracrRNA来生产crRNA。Cas12b/C2c1依赖crRNA和tracrRNA进行DNA切割。
本发明内容中考虑的核酸可编程DNA结合蛋白包括归类为第2类V型(Cas12蛋白)的Cas蛋白。Cas第二类、V型蛋白的非限制性实方案包括Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i和Cas12j/CasΦ、其同源物或其修饰形式。如本文所用,Cas12蛋白也可称为Cas12核酸酶、Cas12结构域或Cas12蛋白结构域。在一些实施方案中,本发明的Cas12蛋白包含被内部融合蛋白结构域例如脱氨酶结构域中断的氨基酸序列。
在一些实施方案中,所述Cas12结构域是无核酸酶活性的Cas12结构域或Cas12切口酶。在一些实施方案中,所述Cas12结构域是一种具有核酸酶活性的结构域。例如,所述Cas12结构域可以是在双链核酸(例如双链DNA分子)的一条链上形成切口的Cas12结构域。在一些实施方案中,Cas12结构域包含如本文所述的任一氨基酸序列。在一些实施方案中,所述Cas12结构域包含的氨基酸序列与本文所述的任一氨基酸序列的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。在一些实施方案中,Cas12结构域包含的氨基酸序列与本文所述的任何一种氨基酸序列相比,具有下述1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33,34,35、36、37、38、39、40、41,、42、43、44、45、46、47、48、49、50个或更多个突变。在一些实施方案中,与本文所述的任一氨基酸序列相比,Cas12结构域包含具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100或至少1200个相同的连续氨基酸残基。
在一些实施方案中,提供了包含Cas12片段的蛋白。例如,在一些实施方案中,蛋白包含两个Cas12结构域之一:(1)Cas12的gRNA结合结构域;或(2)Cas12的DNA切割结构域。在一些实施方案中,包含Cas12或其片段的蛋白被称为“Cas12变体”。Cas12变体与Cas12或其片段具有同源性。例如,Cas12变体与野生型Cas12至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,Cas12变体与野生型Cas12相比,可以具有下述1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个突变。在一些实施方案中,Cas12变体包含Cas12的片段(例如,gRNA结合结构域或DNA切割结构域),使得该片段与野生型Cas12的相应片段至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,所述片段是至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%相同、至少96%、至少97%、至少98%、至少99%或至少99.5%相应野生型Cas12的氨基酸长度。在一些实施方案中,所述片段的长度为至少100个氨基酸。在一些实施方案中,所述片段的长度为至少100、150、200、250、300、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250或1300个氨基酸。
在一些实施方案中,Cas12对应于或部分或全部包含具有一个或多个使Cas12核酸酶活性改变的突变的Cas12氨基酸序列。举例来说,此类突变包括Cas12的RuvC核酸酶结构域内的氨基酸取代。在一些实施方案中,提供了Cas12的变体或同源物,其与野生型Cas12至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,提供了Cas12的变体,其具有较短或较长约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。
在一些实施方案中,本文提供的Cas12融合蛋白包含Cas12蛋白的全长氨基酸序列,例如本文提供的Cas12序列之一。然而,在其他实施方案中,本文提供的融合蛋白不包含全长Cas12序列,而仅包含其一个或多个片段。本文提供了合适的Cas12结构域的示例性氨基酸序列,并且Cas12结构域和片段的其他合适的序列对本领域技术人员来说是显而易见的。
通常,第2类V型Cas蛋白具有单一功能性RuvC核酸内切酶结构域(参见,例如,Chen等人,“CRISPR-Cas12a target binding unleashes indiscriminate-stranded DNaseactivity,”Science 360:436-439(2018))。在一些实施方案中,所述Cas12是一种变体Cas12b蛋白。(参见Strecker等人,Nature Communications,2019,10(1):Art.No.:212)。在一个实施方案中,与野生型Cas12蛋白的氨基酸序列相比时,变体Cas12多肽具有相差1、2、3、4、5个或更多个氨基酸(例如,具有缺失、插入、取代、融合)的氨基酸序列。在一些情况下,变体Cas12多肽具有降低Cas12多肽活性的氨基酸变化(例如,缺失、插入或取代)。例如,在一些情况下,变体Cas12是Cas12b多肽,其具有少于50%、少于40%、少于30%、少于20%、少于10%、少于5%或少于1%的相应的野生型Cas12b蛋白的切口酶活性。在某些情况下,变体Cas12b蛋白没有实质性切口酶活性。
在某些情况下,变体Cas12b蛋白具有降低的切口酶活性。例如,变体Cas12b蛋白表现出小于约20%、小于约15%、小于约10%、小于约5%、小于约1%或小于约0.1%的野生型Cas12b蛋白的切口酶活性。
在一些实施方案中,Cas12蛋白包括来自Cas12a/Cpf1家族的RNA引导的核酸内切酶,其在哺乳动物细胞中表现出活性。来自普雷沃氏菌和弗朗西斯菌1(CRISPR/Cpf1)的CRISPR是一种类似于CRISPR/Cas9系统的DNA编辑技术。Cpf1是II类CRISPR/Cas系统的RNA引导的核酸内切酶。这种获得性免疫机制存在于普氏菌和弗朗西斯菌中。Cpf1基因与CRISPR基因座相关,编码内切核酸酶,使用引导RNA来寻找和切割病毒DNA。Cpf1是一种比Cas9更小、更简单的核酸内切酶,克服了CRISPR/Cas9系统的一些限制。与Cas9核酸酶不同,Cpf1介导的DNA切割的结果是具有短3'突出端的双链断裂。Cpf1的交错切割模式可以开辟定向基因转移的可能性,类似于传统的限制酶克隆,可以提高基因编辑的效率。与上述Cas9变体和直向同源物一样,Cpf1还可以将CRISPR可靶向的位点数量扩大到富含AT的区域或富含AT的基因组,这些区域缺乏SpCas9青睐的NGG PAM位点。Cpf1基因座包含一个混合的alpha/beta结构域、一个RuvC-I后跟一个螺旋区域、一个RuvC-II和一个锌指样结构域。Cpf1蛋白具有类似于Cas9的RuvC结构域的RuvC样核酸内切酶结构域。此外,Cpf1不像Cas9,其没有HNH核酸内切酶结构域,并且Cpf1的N末端没有Cas9的α-螺旋识别叶。Cpf1 CRISPR-Cas结构域架构表明Cpf1在功能上是独一无二的,被归类为2类V型CRISPR系统。Cpf1基因座编码的Cas1、Cas2和Cas4蛋白更类似于I型和III型,而不是II型系统。功能性Cpf1不需要反式激活CRISPR RNA(tracrRNA),因此,只需要CRISPR(crRNA)。这有利于基因组编辑,因为Cpf1不仅比Cas9小,而且它的sgRNA分子更小(大约是Cas9的一半核苷酸)。与Cas9靶向的富含G的PAM相比,Cpf1-crRNA复合物通过识别原始间隔物相邻基序5’-YTN-3’或5'-TTTN-3'来切割靶标DNA或RNA。鉴定PAM后,Cpf1引入了一个粘性末端样DNA双链断裂,具有4或5个核苷酸的突出端。
在本发明的一些方面,载体编码一种CRISPR酶,该酶相对于相应的野生型酶发生突变,这样可以使用突变的CRISPR酶,该CRISPR酶缺乏切割含有靶标序列的靶标多核苷酸的一条或两条链的能力。Cas12可指与野生型示例性Cas12多肽(例如,来自外村尚芽孢杆菌的Cas12)具有至少或至少约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性和/或序列同源性。Cas12可指具有至多或至多约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性和/或序列同源性与野生型示例性Cas12多肽(例如,来自外村尚芽孢杆菌(BhCas12b)、芽孢杆菌属V3-13(BvCas12b)和嗜酸脂环杆菌(AaCas12b))。Cas12可指Cas12蛋白的野生型或修饰形式,其可包含氨基酸变化,例如缺失、插入、取代、变体、突变、融合、嵌合体或其任何组合。
在一些实施方案中,BhCas12b引导多核苷酸具有下述序列:
BhCas12b sgRNA支架(下划线)+20nt到23nt引导序列(用Nn表示)
5’
GUUCUGTCUUUUGGUCAGGACAACCGUCUAGCUAUAAGUGCUGCAGGGUGUGAGAAACUCCUAUUGCU GGACGAUGUCUCUUACGAGGCAUUAGCACNNNNNNNNNNNNNNNNNNNN-3’
在一些实施方案中,BvCas12b和AaCas12b引导多核苷酸具有下述序列:
BvCas12b sgRNA支架(下划线)+20nt到23nt引导序列(用Nn表示)
5’
GACCUAUAGGGUCAAUGAAUCUGUGCGUGUGCCAUAAGUAAUUAAAAAUUACCCACCACAGGAGCACC UGAAAACAGGUGCUUGGCACNNNNNNNNNNNNNNNNNNNN-3’
AaCas12b sgRNA支架(下划线)+20nt到23nt引导序列(用Nn表示)
5’
GUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAAC UUCUCAAAAAGAACGAUCUGAGAAGUGGCACNNNNNNNNNNNNNNNNNNNN-3’
核酸可编程DNA结合蛋白
本公开的一些方面提供了融合蛋白,其包含的结构域充当核酸可编程的DNA结合蛋白,其可以用于引导蛋白质,如碱编辑,到特定的核酸(例如,DNA或RNA)序列。在特定实施方案中,融合蛋白包含核酸可编程DNA结合蛋白结构域和脱氨酶结构域。核酸可编程DNA结合蛋白的非限制性实例包括Cas9(例如dCas9和nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i和Cas12j/CasΦ。Cas酶的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(也称为Csn1或Csx12),Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Cas12j/CasΦ、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e,Csc1,Csc2,Csa5,Csn1,Csn2,Csm1,Csm2,Csm3,Csm4,Csm5,Csm6,Cmr1,Cmr3,Cmr4,Cmr5,Cmr6,Csb1,Csb2,Csb3,Csx17,Csx14,Csx10,Csx16,CsaX,Csx3,Csx1,Csx1S,Csx11,Csf1,Csf2,CsO,Csf4,Csd1,Csd2,Cst1,Cst2,Csh1,Csh2,Csa1,Csa2,Csa3,Csa4,Csa5,II型Cas效应蛋白,V型Cas效应蛋白,VI型Cas效应蛋白、CARF、DinG、其同源物或其修饰或工程化形式。其他核酸可编程的DNA结合蛋白也在本公开的范围内,尽管它们可能未在本公开中具体列出。参见,如Makarova等人,“Classification and Nomenclature of CRISPR-Cas Systems:Wherefrom Here?”CRISPR J.2018 Oct;1:325-336.doi:10.1089/crispr.2018.0033;Yan等人,“Functionally diverse type V CRISPR-Cas systems”Science.2019 Jan 4;363(6422):88-91.doi:10.1126/science.aav7271,中已经描述了结合非典型PAM序列的Cas9结构域,其全部内容以引用方式并入本文。
具有与Cas9不同的PAM特异性的核酸可编程DNA结合蛋白的一个实例是来自普雷沃氏菌和弗朗西斯氏菌1(Cpf1)的成簇规则间隔短回文重复序列。与Cas9类似,Cpf1也是2类CRISPR效应子。已经表明,Cpf1介导强大的DNA干扰,其特征与Cas9不同。Cpf1是一种单一的RNA引导的内切核酸酶,缺乏tracrRNA,它利用富含T的原始间隔物相邻基序(TTN、TTTN或YTN)。此外,Cpf1通过交错的DNA双链断裂来切割DNA。在16个Cpf1家族蛋白中,来自胺基酸球菌属和毛螺菌的两种酶被证明在人类细胞中具有有效的基因组编辑活性。Cpf1蛋白是本领域已知的并且之前已经描述过,例如Yamano等人,“Crystal structure of Cpf1 incomplex with guide RNA and target DNA.”Cell(165)2016,p.949-962;其全部内容以引用方式并入本文。.
在本组合物和方法中有用的是核酸酶失活的Cpf1(dCpf1)变体,其可用作引导核苷酸序列可编程的DNA结合蛋白结构域。Cpf1蛋白具有与Cas9的RuvC结构域相似但不具有HNH核酸内切酶结构域的RuvC样核酸内切酶结构域,且Cpf1的N端不具有Cas9的α-螺旋识别叶。Zetsche等人,Cell,163,759-771,2015(通过引用并入本文)表明,Cpf1的RuvC样结构域负责切割两条DNA链并使RuvC样结构域失活灭活Cpf1核酸酶活性。例如,与新生弗朗西斯氏菌Cpf1中的D917A、E1006A或D1255A对应的突变使Cpf1核酸酶活性失活。在一些实施方案中,本公开的dCpf1包含对应于D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A或D917A/E1006A/D122的突变。应当理解,根据本公开可以使用使Cpf1的RuvC结构域失活的任何突变,例如取代突变、缺失或插入。
在一些实施方案中,本文提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是Cpf1蛋白。在一些实施方案中,所述Cpf1蛋白是一种Cpf1切口酶(nCpf1)。在一些实施方案中,所述Cpf1蛋白是核酸酶失活的Cpf1(dCpf1)。在一些实施方案中,所述Cpf1、所述nCpf1或所述dCpf1包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的任何Cpf1蛋白相同。在一些实施方案中,dCpfl包含至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文公开的Cpf1序列相同,并且包含对应于D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A的突变E1006A/D1255A或D917A/E1006A/D1255A。应当理解,根据本公开也可以使用来自其他细菌物种的Cpf1。
野生型弗朗西斯菌Cpf1(D917、E1006和D1255以粗体和下划线表示)
弗朗西斯菌Cpf1 D917A(A917、E1006和D1255以粗体和下划线表示)
弗朗西斯菌Cpf1 E1006A(D917、A1006和D1255以粗体和下划线表示)
弗朗西斯菌Cpf1 D1255A(D917、E1006和A1255以粗体和下划线表示)
弗朗西斯菌Cpf1Cpf1 D917A/E1006A(A917、A1006和D1255以粗体和下划线表示)
弗朗西斯菌Cpf1Cpf1 D917A/D1255A(A917、E1006和A1255以粗体和下划线表示)
弗朗西斯菌Cpf1Cpf1 E1006A/D1255A(D917、A1006和A1255以粗体和下划线表示)
弗朗西斯菌Cpf1Cpf1 D917A/E1006A/D1225A(A917、A1006和A1255以粗体和下划线表示)
在一些实施方案中,融合蛋白中存在的Cas9结构域之一可以被对PAM序列没有要求的引导核苷酸序列可编程的DNA结合蛋白结构域替换。
在一些实施方案中,所述Cas9结构域是来自金黄色葡萄球菌的Cas9结构域(SaCas9)。在一些实施方案中,SaCas9结构域是核酸酶活性的SaCas9、核酸酶失活的SaCas9(SaCas9d)或SaCas9切口酶(SaCas9n)。在一些实施方案中,SaCas9包含N579A突变,或本文提供的任何氨基酸序列中的相应突变。
在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可结合具有非规范PAM的核酸序列。在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可结合具有NNGRRT或NNGRRT PAM序列的核酸序列。在一些实施方案中,SaCas9结构域包含E781X、N967X和R1014X突变中的一个或多个,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SaCas9结构域包含E781K、N967K和R1014H突变中的一个或多个,或本文提供的任何氨基酸序列中的一个或多个相应突变。在一些实施方案中,SaCas9结构域包含E781K、N967K或R1014H突变,或本文提供的任何氨基酸序列中的相应突变。
示例性SaCas9序列
上述加下划线和粗体的残基N579可以突变(例如,突变到A579)以产生SaCas9切口酶。
示例性SaCas9n序列
上述的残基A579可以从N579突变以产生SaCas9切口酶,用下划线和粗体表示。
示例性SaKKH Cas9
上述的残基A579可以从N579突变以产生SaCas9切口酶,用下划线和粗体表示。上述的残基K781、K967和H1014,可以从E781、N967和R1014突变以产生SaKKH Cas9,用下划线和斜体表示。
在一些实施方案中,napDNAbp是一个循环置换。在下述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,以及下划线序列表示二分核定位序列,双下划线序列表示突变。
CP5(带有MSP“NGC”PID和“D10A”切口酶):
在一些实施方案中,核酸可编程DNA结合蛋白(napDNAbp)是微生物CRISPR-Cas系统的单一效应物。微生物CRISPR-Cas系统的单一效应子包括但不限于Cas9、Cpf1、Cas12b/C2c1和Cas12c/C2c3。通常,微生物CRISPR-Cas系统分为1类和2类系统。1类系统具有多亚基效应复合物,而2类系统具有单个蛋白质效应子。例如,Cas9和Cpf1是2类效应子。除了Cas9和Cpf1,三个不同的2类CRISPR-Cas系统(Cas12b/C2c1和Cas12c/C2c3)由Shmakov等人于“Discovery and Functional Characterization of Diverse Class 2 CRISPR CasSystems”,Mol.Cell,2015 Nov.5;60(3):385-397中描述,全部内容以引用方式并入本文。其中两个系统Cas12b/C2c1和Cas12c/C2c3的效应子包含与Cpf1相关的RuvC样核酸内切酶结构域。第三个系统包含一个具有两个预测HEPN RNase结构域的效应子。成熟CRISPR RNA的产生不依赖于tracrRNA,这与Cas12b/C2c1产生的CRISPR RNA不同。Cas12b/C2c1依赖CRISPR RNA和tracrRNA进行DNA切割。
据报道,嗜酸脂环酸杆菌(Alicyclobaccillus acidoterrastris)Cas12b/C2c1(AacC2c1)的晶体结构与嵌合单分子向导RNA(sgRNA)复合。参见如,Liu等人,“C2c1-sgRNAComplex Structure Reveals RNA-Guided DNA Cleavage Mechanism”,Mol.Cell,2017Jan.19;65(2):310-322,其全部内容以引用方式并入本文。在以三元复合物形式与靶标DNA结合的嗜酸脂环酸杆菌C2c1中也报道了晶体结构。参见如,Yang等人,“PAM-dependentTarget DNA Recognition and Cleavage by C2C1 CRISPR-Cas endonuclease”,Cell,2016 Dec.15;167(7):1814-1828,其全部内容以引用方式并入本文。AacC2c1的具有催化能力的构象,包括靶标DNA链和非靶标DNA链,已被独立地捕获在单个RuvC催化口袋内,Cas12b/C2c1介导的切割导致靶标DNA的七核苷酸交错断裂。Cas12b/C2c1三元复合物与先前鉴定的Cas9和Cpf1对应物之间的结构比较证明了CRISPR-Cas9系统使用的机制的多样性。
在一些实施方案中,本文提供的核酸可编程DNA结合蛋白(napDNAbp)或任何融合蛋白可以是Cas12b/C2c1或Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp是Cas12b/C2c1蛋白。在一些实施方案中,napDNAbp是Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与天然存在的Cas12b/C2c1或Cas12c/C2c3蛋白相同。在一些实施方案中,napDNAbp是天然存在的Cas12b/C2c1或Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文提供的任何一种napDNAbp序列相同。应当理解,根据本公开也可以使用来自其他细菌物种的Cas12b/C2c1或Cas12c/C2c3。
一种Cas12b/C2c1((uniprot.org/uniprot/T0D7A2#2)sp|T0D7A2|C2C1_ALIAGCRISPR-associated endonuclease C2c1 OS=嗜酸脂环酸杆菌(strain ATCC 49025/DSM3922/CIP 106132/NCIMB 13137/GD3B)GN=c2c1 PE=1 SV=1)氨基酸序列如下:
MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDMKEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGERRHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALYFRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPFFFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEADEAREKSVVLMRDPSGIINRGNWTRQKEFWSMVNQRIEGYLVKQIRSRVPLQDSACENTGDI
AacCas12b(嗜酸脂环杆菌)-WP_067623834
MAVKSMKVKLRLDNMPEIRAGLWKLHTEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECYKTAEECKAELLERLRARQVENGHCGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKAKAEARKSTDRTADVLRALADFGLKPLMRVYTDSDMSSVQWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGEAYAKLVEQKSRFEQKNFVGQEHLVQLVNQLQQDMKEASHGLESKEQTAHYLTGRALRGSDKVFEKWEKLDPDAPFDLYDTEIKNVQRRNTRRFGSHDLFAKLAEPKYQALWREDASFLTRYAVYNSIVRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGEGRHAIRFQKLLTVEDGVAKEVDDVTVPISMSAQLDDLLPRDPHELVALYFQDYGAEQHLAGEFGGAKIQYRRDQLNHLHARRGARDVYLNLSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSEGRVPFCFPIEGNENLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPMDANQMTPDWREAFEDELQKLKSLYGICGDREWTEAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYQKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELLNQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCAREQNPEPFPWWLNKFVAEHKLDGCPLRADDLIPTGEGEFFVSPFSAEEGDFHQIHADLNAAQNLQRRLWSDFDISQIRLRCDWGEVDGEPVLIPRTTGKRTADSYGNKVFYTKTGVTYYERERGKKRRKVFAQEELSEEEAELLVEADEAREKSVVLMRDPSGIINRGDWTRQKEFWSMVNQRIEGYLVKQIRSRVRLQESACENTGDI
BhCas12b(外村尚芽孢杆菌)NCBI Reference Sequence:WP_095142515
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKK
在一些实施方案中,Cas12b是BvCas12b(V4),其为BhCas12b的变体,并且包含下述相对于BhCas12b的变化:S893R,K846R,和E837G.BhCas12b(V4)is expressed as follows:5′mRNA Cap---5′UTR---bhCas12b---STOP sequence---3′UTR---120polyA tail.
5′UTR:
GGGAAATAAGAGAGAAAAGAAGAGTAAGAAGAAATATAAGAGCCACC
3′UTR(TriLink standard UTR)
GCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTGGGCCTCCCCCCAGCCCCTCCTCCCCTTCCTGCACCCGTACCCCCGTGGTCTTTGAATAAAGTCTGA
bhCas12b的核酸序列(V4)
ATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGAGTCCCAGCAGCCGCCACCAGATCCTTCATCCTGAAGATCGAGCCCAACGAGGAAGTGAAGAAAGGCCTCTGGAAAACCCACGAGGTGCTGAACCACGGAATCGCCTACTACATGAATATCCTGAAGCTGATCCGGCAAGAGGCCATCTACGAGCACCACGAGCAGGACCCCAAGAATCCCAAGAAGGTGTCCAAGGCCGAGATCCAGGCCGAGCTGTGGGATTTCGTGCTGAAGATGCAGAAGTGCAACAGCTTCACACACGAGGTGGACAAGGACGAGGTGTTCAACATCCTGAGAGAGCTGTACGAGGAACTGGTGCCCAGCAGCGTGGAAAAGAAGGGCGAAGCCAACCAGCTGAGCAACAAGTTTCTGTACCCTCTGGTGGACCCCAACAGCCAGTCTGGAAAGGGAACAGCCAGCAGCGGCAGAAAGCCCAGATGGTACAACCTGAAGATTGCCGGCGATCCCTCCTGGGAAGAAGAGAAGAAGAAGTGGGAAGAAGATAAGAAAAAGGACCCGCTGGCCAAGATCCTGGGCAAGCTGGCTGAGTACGGACTGATCCCTCTGTTCATCCCCTACACCGACAGCAACGAGCCCATCGTGAAAGAAATCAAGTGGATGGAAAAGTCCCGGAACCAGAGCGTGCGGCGGCTGGATAAGGACATGTTCATTCAGGCCCTGGAACGGTTCCTGAGCTGGGAGAGCTGGAACCTGAAAGTGAAAGAGGAATACGAGAAGGTCGAGAAAGAGTACAAGACCCTGGAAGAGAGGATCAAAGAGGACATCCAGGCTCTGAAGGCTCTGGAACAGTATGAGAAAGAGCGGCAAGAACAGCTGCTGCGGGACACCCTGAACACCAACGAGTACCGGCTGAGCAAGAGAGGCCTTAGAGGCTGGCGGGAAATCATCCAGAAATGGCTGAAAATGGACGAGAACGAGCCCTCCGAGAAGTACCTGGAAGTGTTCAAGGACTACCAGCGGAAGCACCCTAGAGAGGCCGGCGATTACAGCGTGTACGAGTTCCTGTCCAAGAAAGAGAACCACTTCATCTGGCGGAATCACCCTGAGTACCCCTACCTGTACGCCACCTTCTGCGAGATCGACAAGAAAAAGAAGGACGCCAAGCAGCAGGCCACCTTCACACTGGCCGATCCTATCAATCACCCTCTGTGGGTCCGATTCGAGGAAAGAAGCGGCAGCAACCTGAACAAGTACAGAATCCTGACCGAGCAGCTGCACACCGAGAAGCTGAAGAAAAAGCTGACAGTGCAGCTGGACCGGCTGATCTACCCTACAGAATCTGGCGGCTGGGAAGAGAAGGGCAAAGTGGACATTGTGCTGCTGCCCAGCCGGCAGTTCTACAACCAGATCTTCCTGGACATCGAGGAAAAGGGCAAGCACGCCTTCACCTACAAGGATGAGAGCATCAAGTTCCCTCTGAAGGGCACACTCGGCGGAGCCAGAGTGCAGTTCGACAGAGATCACCTGAGAAGATACCCTCACAAGGTGGAAAGCGGCAACGTGGGCAGAATCTACTTCAACATGACCGTGAACATCGAGCCTACAGAGTCCCCAGTGTCCAAGTCTCTGAAGATCCACCGGGACGACTTCCCCAAGGTGGTCAACTTCAAGCCCAAAGAACTGACCGAGTGGATCAAGGACAGCAAGGGCAAGAAACTGAAGTCCGGCATCGAGTCCCTGGAAATCGGCCTGAGAGTGATGAGCATCGACCTGGGACAGAGACAGGCCGCTGCCGCCTCTATTTTCGAGGTGGTGGATCAGAAGCCCGACATCGAAGGCAAGCTGTTTTTCCCAATCAAGGGCACCGAGCTGTATGCCGTGCACAGAGCCAGCTTCAACATCAAGCTGCCCGGCGAGACACTGGTCAAGAGCAGAGAAGTGCTGCGGAAGGCCAGAGAGGACAATCTGAAACTGATGAACCAGAAGCTCAACTTCCTGCGGAACGTGCTGCACTTCCAGCAGTTCGAGGACATCACCGAGAGAGAGAAGCGGGTCACCAAGTGGATCAGCAGACAAGAGAACAGCGACGTGCCCCTGGTGTACCAGGATGAGCTGATCCAGATCCGCGAGCTGATGTACAAGCCTTACAAGGACTGGGTCGCCTTCCTGAAGCAGCTCCACAAGAGACTGGAAGTCGAGATCGGCAAAGAAGTGAAGCACTGGCGGAAGTCCCTGAGCGACGGAAGAAAGGGCCTGTACGGCATCTCCCTGAAGAACATCGACGAGATCGATCGGACCCGGAAGTTCCTGCTGAGATGGTCCCTGAGGCCTACCGAACCTGGCGAAGTGCGTAGACTGGAACCCGGCCAGAGATTCGCCATCGACCAGCTGAATCACCTGAACGCCCTGAAAGAAGATCGGCTGAAGAAGATGGCCAACACCATCATCATGCACGCCCTGGGCTACTGCTACGACGTGCGGAAGAAGAAATGGCAGGCTAAGAACCCCGCCTGCCAGATCATCCTGTTCGAGGATCTGAGCAACTACAACCCCTACGAGGAAAGGTCCCGCTTCGAGAACAGCAAGCTCATGAAGTGGTCCAGACGCGAGATCCCCAGACAGGTTGCACTGCAGGGCGAGATCTATGGCCTGCAAGTGGGAGAAGTGGGCGCTCAGTTCAGCAGCAGATTCCACGCCAAGACAGGCAGCCCTGGCATCAGATGTAGCGTCGTGACCAAAGAGAAGCTGCAGGACAATCGGTTCTTCAAGAATCTGCAGAGAGAGGGCAGACTGACCCTGGACAAAATCGCCGTGCTGAAAGAGGGCGATCTGTACCCAGACAAAGGCGGCGAGAAGTTCATCAGCCTGAGCAAGGATCGGAAGTGCGTGACCACACACGCCGACATCAACGCCGCTCAGAACCTGCAGAAGCGGTTCTGGACAAGAACCCACGGCTTCTACAAGGTGTACTGCAAGGCCTACCAGGTGGACGGCCAGACCGTGTACATCCCTGAGAGCAAGGACCAGAAGCAGAAGATCATCGAAGAGTTCGGCGAGGGCTACTTCATTCTGAAGGACGGGGTGTACGAATGGGTCAACGCCGGCAAGCTGAAAATCAAGAAGGGCAGCTCCAAGCAGAGCAGCAGCGAGCTGGTGGATAGCGACATCCTGAAAGACAGCTTCGACCTGGCCTCCGAGCTGAAAGGCGAAAAGCTGATGCTGTACAGGGACCCCAGCGGCAATGTGTTCCCCAGCGACAAATGGATGGCCGCTGGCGTGTTCTTCGGAAAGCTGGAACGCATCCTGATCAGCAAGCTGACCAACCAGTACTCCATCAGCACCATCGAGGACGACAGCAGCAAGCAGTCTATGAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAG
在一些实施方案中,所述Cas12b是BvCas12B。在一些实施方案中,Cas12b包含如下文提供的BvCas12b示例性序列中编号的氨基酸取代S893R、K846R和E837G。
BvCas12b(芽孢杆菌属V3-13)NCBI参考序列:WP_101661451.1
MAIRSIKLKMKTNSGTDSIYLRKALWRTHQLINEGIAYYMNLLTLYRQEAIGDKTKEAYQAELINIIRNQQRNNGSSEEHGSDQEILALLRQLYELIIPSSIGESGDANQLGNKFLYPLVDPNSQSGKGTSNAGRKPRWKRLKEEGNPDWELEKKKDEERKAKDPTVKIFDNLNKYGLLPLFPLFTNIQKDIEWLPLGKRQSVRKWDKDMFIQAIERLLSWESWNRRVADEYKQLKEKTESYYKEHLTGGEEWIEKIRKFEKERNMELEKNAFAPNDGYFITSRQIRGWDRVYEKWSKLPESASPEELWKVVAEQQNKMSEGFGDPKVFSFLANRENRDIWRGHSERIYHIAAYNGLQKKLSRTKEQATFTLPDAIEHPLWIRYESPGGTNLNLFKLEEKQKKNYYVTLSKIIWPSEEKWIEKENIEIPLAPSIQFNRQIKLKQHVKGKQEISFSDYSSRISLDGVLGGSRIQFNRKYIKNHKELLGEGDIGPVFFNLVVDVAPLQETRNGRLQSPIGKALKVISSDFSKVIDYKPKELMDWMNTGSASNSFGVASLLEGMRVMSIDMGQRTSASVSIFEVVKELPKDQEQKLFYSINDTELFAIHKRSFLLNLPGEVVTKNNKQQRQERRKKRQFVRSQIRMLANVLRLETKKTPDERKKAIHKLMEIVQSYDSWTASQKEVWEKELNLLTNMAAFNDEIWKESLVELHHRIEPYVGQIVSKWRKGLSEGRKNLAGISMWNIDELEDTRRLLISWSKRSRTPGEANRIETDEPFGSSLLQHIQNVKDDRLKQMANLIIMTALGFKYDKEEKDRYKRWKETYPACQIILFENLNRYLFNLDRSRRENSRLMKWAHRSIPRTVSMQGEMFGLQVGDVRSEYSSRFHAKTGAPGIRCHALTEEDLKAGSNTLKRLIEDGFINESELAYLKKGDIIPSQGGELFVTLSKRYKKDSDNNELTVIHADINAAQNLQKRFWQQNSEVYRVPCQLARMGEDKLYIPKSQTETIKKYFGKGSFVKNNTEQEVYKWEKSEKMKIKTDTTFDLQDLDGFEDISKTIELAQEQQKKYLTMFRDPSGYFFNNETWRPQKEYWSIVNNIIKSCLKKKILSNKVEL
在一些实施方案中,Cas12b是BTCas12b.BTCas12b(Bacillus thermoamylovorans(嗜热淀粉芽孢杆菌))NCBI参考序列:WP_041902512
MATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDVVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPFTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEHKTLEERIKEDIQAFKSLEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKFVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKLVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWGNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSM
在一些实施方案中,napDNAbp是指Cas12c。在一些实施方案中,所述Cas12c是Cas12c1或Cas12c1的变体。在一些实施方案中,所述Cas12是Cas12c2或Cas12c2的变体。在一些实施方案中,所述Cas12蛋白是来自嗜油菌属Oleiphilus sp.HI0009(即OspCas12c)的Cas12c蛋白或OspCas12c的变体。这些Cas12c分子已在Yan等人,“Functionally DiverseType V CRISPR-Cas Systems,”Science,2019 Jan.4;363:88-91中描述;全部内容以引用方式并入本文。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与天然存在的Cas12c1、Cas12c2或OspCas12c蛋白相同。在一些实施方案中,napDNAbp是天然存在的Cas12c1、Cas12c2或OspCas12c蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的任何Cas12c1、Cas12c2或OspCas12c蛋白相同。应当理解,根据本公开也可以使用来自其他细菌物种的Cas12c1、Cas12c2或OspCas12c。
Cas12c1
MQTKKTHLHLISAKASRKYRRTIACLSDTAKKDLERRKQSGAADPAQELSCLKTIKFKLEVPEGSKLPSFDRISQIYNALETIEKGSLSYLLFALILSGFRIFPNSSAAKTFASSSCYKNDQFASQIKEIFGEMVKNFIPSELESILKKGRRKNNKDWTEENIKRVLNSEFGRKNSEGSSALFDSFLSKFSQELFRKFDSWNEVNKKYLEAAELLDSMLASYGPFDSVCKMIGDSDSRNSLPDKSTIAFTNNAEITVDIESSVMPYMAIAALLREYRQSKSKAAPVAYVQSHLTTTNGNGLSWFFKFGLDLIRKAPVSSKQSTSDGSKSLQELFSVPDDKLDGLKFIKEACEALPEASLLCGEKGELLGYQDFRTSFAGHIDSWVANYVNRLFELIELVNQLPESIKLPSILTQKNHNLVASLGLQEAEVSHSLELFEGLVKNVRQTLKKLAGIDISSSPNEQDIKEFYAFSDVLNRLGSIRNQIENAVQTAKKDKIDLESAIEWKEWKKLKKLPKLNGLGGGVPKQQELLDKALESVKQIRHYQRIDFERVIQWAVNEHCLETVPKFLVDAEKKKINKESSTDFAAKENAVRFLLEGIGAAARGKTDSVSKAAYNWFVVNNFLAKKDLNRYFINCQGCIYKPPYSKRRSLAFALRSDNKDTIEVVWEKFETFYKEISKEIEKFNIFSQEFQTFLHLENLRMKLLLRRIQKPIPAEIAFFSLPQEYYDSLPPNVAFLALNQEITPSEYITQFNLYSSFLNGNLILLRRSRSYLRAKFSWVGNSKLIYAAKEARLWKIPNAYWKSDEWKMILDSNVLVFDKAGNVLPAPTLKKVCEREGDLRLFYPLLRQLPHDWCYRNPFVKSVGREKNVIEVNKEGEPKVASALPGSLFRLIGPAPFKSLLDDCFFNPLDKDLRECMLIVDQEISQKVEAQKVEASLESCTYSIAVPIRYHLEEPKVSNQFENVLAIDQGEAGLAYAVFSLKSIGEAETKPIAVGTIRIPSIRRLIHSVSTYRKKKQRLQNFKQNYDSTAFIMRENVTGDVCAKIVGLMKEFNAFPVLEYDVKNLESGSRQLSAVYKAVNSHFLYFKEPGRDALRKQLWYGGDSWTIDGIEIVTRERKEDGKEGVEKIVPLKVFPGRSVSARFTSKTCSCCGRNVFDWLFTEKKAKTNKKFNVNSKGELTTADGVIQLFEADRSKGPKFYARRKERTPLTKPIAKGSYSLEEIERRVRTNLRRAPKSKQSRDTSQSQYFCVYKDCALHFSGMQADENAAINIGRRFLTALRKNRRSDFPSNVKISDRLLDN
Cas12c2
MTKHSIPLHAFRNSGADARKWKGRIALLAKRGKETMRTLQFPLEMSEPEAAAINTTPFAVAYNAIEGTGKGTLFDYWAKLHLAGFRFFPSGGAATIFRQQAVFEDASWNAAFCQQSGKDWPWLVPSKLYERFTKAPREVAKKDGSKKSIEFTQENVANESHVSLVGASITDKTPEDQKEFFLKMAGALAEKFDSWKSANEDRIVAMKVIDEFLKSEGLHLPSLENIAVKCSVETKPDNATVAWHDAPMSGVQNLAIGVFATCASRIDNIYDLNGGKLSKLIQESATTPNVTALSWLFGKGLEYFRTTDIDTIMQDFNIPASAKESIKPLVESAQAIPTMTVLGKKNYAPFRPNFGGKIDSWIANYASRLMLLNDILEQIEPGFELPQALLDNETLMSGIDMTGDELKELIEAVYAWVDAAKQGLATLLGRGGNVDDAVQTFEQFSAMMDTLNGTLNTISARYVRAVEMAGKDEARLEKLIECKFDIPKWCKSVPKLVGISGGLPKVEEEIKVMNAAFKDVRARMFVRFEEIAAYVASKGAGMDVYDALEKRELEQIKKLKSAVPERAHIQAYRAVLHRIGRAVQNCSEKTKQLFSSKVIEMGVFKNPSHLNNFIFNQKGAIYRSPFDRSRHAPYQLHADKLLKNDWLELLAEISATLMASESTEQMEDALRLERTRLQLQLSGLPDWEYPASLAKPDIEVEIQTALKMQLAKDTVTSDVLQRAFNLYSSVLSGLTFKLLRRSFSLKMRFSVADTTQLIYVPKVCDWAIPKQYLQAEGEIGIAARVVTESSPAKMVTEVEMKEPKALGHFMQQAPHDWYFDASLGGTQVAGRIVEKGKEVGKERKLVGYRMRGNSAYKTVLDKSLVGNTELSQCSMIIEIPYTQTVDADFRAQVQAGLPKVSINLPVKETITASNKDEQMLFDRFVAIDLGERGLGYAVFDAKTLELQESGHRPIKAITNLLNRTHHYEQRPNQRQKFQAKFNVNLSELRENTVGDVCHQINRICAYYNAFPVLEYMVPDRLDKQLKSVYESVTNRYIWSSTDAHKSARVQFWLGGETWEHPYLKSAKDKKPLVLSPGRGASGKGTSQTCSCCGRNPFDLIKDMKPRAKIAVVDGKAKLENSELKLFERNLESKDDMLARRHRNERAGMEQPLTPGNYTVDEIKALLRANLRRAPKNRRTKDTTVSEYHCVFSDCGKTMHADENAAVNIGGKFIADIEK
OspCas12c
MTKLRHRQKKLTHDWAGSKKREVLGSNGKLQNPLLMPVKKGQVTEFRKAFSAYARATKGEMTDGRKNMFTHSFEPFKTKPSLHQCELADKAYQSLHSYLPGSLAHFLLSAHALGFRIFSKSGEATAFQASSKIEAYESKLASELACVDLSIQNLTISTLFNALTTSVRGKGEETSADPLIARFYTLLTGKPLSRDTQGPERDLAEVISRKIASSFGTWKEMTANPLQSLQFFEEELHALDANVSLSPAFDVLIKMNDLQGDLKNRTIVFDPDAPVFEYNAEDPADIIIKLTARYAKEAVIKNQNVGNYVKNAITTTNANGLGWLLNKGLSLLPVSTDDELLEFIGVERSHPSCHALIELIAQLEAPELFEKNVFSDTRSEVQGMIDSAVSNHIARLSSSRNSLSMDSEELERLIKSFQIHTPHCSLFIGAQSLSQQLESLPEALQSGVNSADILLGSTQYMLTNSLVEESIATYQRTLNRINYLSGVAGQINGAIKRKAIDGEKIHLPAAWSELISLPFIGQPVIDVESDLAHLKNQYQTLSNEFDTLISALQKNFDLNFNKALLNRTQHFEAMCRSTKKNALSKPEIVSYRDLLARLTSCLYRGSLVLRRAGIEVLKKHKIFESNSELREHVHERKHFVFVSPLDRKAKKLLRLTDSRPDLLHVIDEILQHDNLENKDRESLWLVRSGYLLAGLPDQLSSSFINLPIITQKGDRRLIDLIQYDQINRDAFVMLVTSAFKSNLSGLQYRANKQSFVVTRTLSPYLGSKLVYVPKDKDWLVPSQMFEGRFADILQSDYMVWKDAGRLCVIDTAKHLSNIKKSVFSSEEVLAFLRELPHRTFIQTEVRGLGVNVDGIAFNNGDIPSLKTFSNCVQVKVSRTNTSLVQTLNRWFEGGKVSPPSIQFERAYYKKDDQIHEDAAKRKIRFQMPATELVHASDDAGWTPSYLLGIDPGEYGMGLSLVSINNGEVLDSGFIHINSLINFASKKSNHQTKVVPRQQYKSPYANYLEQSKDSAAGDIAHILDRLIYKLNALPVFEALSGNSQSAADQVWTKVLSFYTWGDNDAQNSIRKQHWFGASHWDIKGMLRQPPTEKKPKPYIAFPGSQVSSYGNSQRCSCCGRNPIEQLREMAKDTSIKELKIRNSEIQLFDGTIKLFNPDPSTVIERRRHNLGPSRIPVADRTFKNISPSSLEFKELITIVSRSIRHSPEFIAKKRGIGSEYFCAYSDCNSSLNSEANAAANVAQKFQKQLFFEL
在一些实施方案中,napDNAbp是指Cas12g、Cas12h或Cas12i,其已在例如,Yan等人,“Functionally Diverse Type V CRISPR-Cas Systems,”Science,2019 Jan.4;363:88-91中描述;其全部内容以引用方式并入本文。通过聚合超过10TB的序列数据,确定了V型Cas蛋白的新分类,这些分类与先前表征的V类蛋白(包括Cas12g、Cas12h和Cas12i)表现出弱相似性。在一些实施方案中,所述Cas12是Cas12g或Cas12g的变体。在一些实施方案中,所述Cas12是Cas12h或Cas12h的变体。在一些实施方案中,所述Cas12是Cas12i或Cas12i的变体。应当理解,其他RNA引导的DNA结合蛋白可以用作napDNAbp,并且在本公开的范围内。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与天然存在的Cas12g、Cas12h或Cas12i蛋白相同。在一些实施方案中,napDNAbp是天然存在的Cas12g、Cas12h或Cas12i蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的任何Cas12g、Cas12h或Cas12i蛋白相同。应当理解,根据本公开也可以使用来自其他细菌物种的Cas12g、Cas12h或Cas12i。在一些实施方案中,所述Cas12i是Cas12i1或Cas12i2。
Cas12g1
MAQASSTPAVSPRPRPRYREERTLVRKLLPRPGQSKQEFRENVKKLRKAFLQFNADVSGVCQWAIQFRPRYGKPAEPTETFWKFFLEPETSLPPNDSRSPEFRRLQAFEAAAGINGAAALDDPAFTNELRDSILAVASRPKTKEAQRLFSRLKDYQPAHRMILAKVAAEWIESRYRRAHQNWERNYEEWKKEKQEWEQNHPELTPEIREAFNQIFQQLEVKEKRVRICPAARLLQNKDNCQYAGKNKHSVLCNQFNEFKKNHLQGKAIKFFYKDAEKYLRCGLQSLKPNVQGPFREDWNKYLRYMNLKEETLRGKNGGRLPHCKNLGQECEFNPHTALCKQYQQQLSSRPDLVQHDELYRKWRREYWREPRKPVFRYPSVKRHSIAKIFGENYFQADFKNSVVGLRLDSMPAGQYLEFAFAPWPRNYRPQPGETEISSVHLHFVGTRPRIGFRFRVPHKRSRFDCTQEELDELRSRTFPRKAQDQKFLEAARKRLLETFPGNAEQELRLLAVDLGTDSARAAFFIGKTFQQAFPLKIVKIEKLYEQWPNQKQAGDRRDASSKQPRPGLSRDHVGRHLQKMRAQASEIAQKRQELTGTPAPETTTDQAAKKATLQPFDLRGLTVHTARMIRDWARLNARQIIQLAEENQVDLIVLESLRGFRPPGYENLDQEKKRRVAFFAHGRIRRKVTEKAVERGMRVVTVPYLASSKVCAECRKKQKDNKQWEKNKKRGLFKCEGCGSQAQVDENAARVLGRVFWGEIELPTAIP
Cas12h1
MKVHEIPRSQLLKIKQYEGSFVEWYRDLQEDRKKFASLLFRWAAFGYAAREDDGATYISPSQALLERRLLLGDAEDVAIKFLDVLFKGGAPSSSCYSLFYEDFALRDKAKYSGAKREFIEGLATMPLDKIIERIRQDEQLSKIPAEEWLILGAEYSPEEIWEQVAPRIVNVDRSLGKQLRERLGIKCRRPHDAGYCKILMEVVARQLRSHNETYHEYLNQTHEMKTKVANNLTNEFDLVCEFAEVLEEKNYGLGWYVLWQGVKQALKEQKKPTKIQIAVDQLRQPKFAGLLTAKWRALKGAYDTWKLKKRLEKRKAFPYMPNWDNDYQIPVGLTGLGVFTLEVKRTEVVVDLKEHGKLFCSHSHYFGDLTAEKHPSRYHLKFRHKLKLRKRDSRVEPTIGPWIEAALREITIQKKPNGVFYLGLPYALSHGIDNFQIAKRFFSAAKPDKEVINGLPSEMVVGAADLNLSNIVAPVKARIGKGLEGPLHALDYGYGELIDGPKILTPDGPRCGELISLKRDIVEIKSAIKEFKACQREGLTMSEETTTWLSEVESPSDSPRCMIQSRIADTSRRLNSFKYQMNKEGYQDLAEALRLLDAMDSYNSLLESYQRMHLSPGEQSPKEAKFDTKRASFRDLLRRRVAHTIVEYFDDCDIVFFEDLDGPSDSDSRNNALVKLLSPRTLLLYIRQALEKRGIGMVEVAKDGTSQNNPISGHVGWRNKQNKSEIYFYEDKELLVMDADEVGAMNILCRGLNHSVCPYSFVTKAPEKKNDEKKEGDYGKRVKRFLKDRYGSSNVRFLVASMGFVTVTTKRPKDALVGKRLYYHGGELVTHDLHNRMKDEIKYLVEKEVLARRVSLSDSTIKSYKSFAHV
Cas12i1
MSNKEKNASETRKAYTTKMIPRSHDRMKLLGNFMDYLMDGTPIFFELWNQFGGGIDRDIISGTANKDKISDDLLLAVNWFKVMPINSKPQGVSPSNLANLFQQYSGSEPDIQAQEYFASNFDTEKHQWKDMRVEYERLLAELQLSRSDMHHDLKLMYKEKCIGLSLSTAHYITSVMFGTGAKNNRQTKHQFYSKVIQLLEESTQINSVEQLASIILKAGDCDSYRKLRIRCSRKGATPSILKIVQDYELGTNHDDEVNVPSLIANLKEKLGRFEYECEWKCMEKIKAFLASKVGPYYLGSYSAMLENALSPIKGMTTKNCKFVLKQIDAKNDIKYENEPFGKIVEGFFDSPYFESDTNVKWVLHPHHIGESNIKTLWEDLNAIHSKYEEDIASLSEDKKEKRIKVYQGDVCQTINTYCEEVGKEAKTPLVQLLRYLYSRKDDIAVDKIIDGITFLSKKHKVEKQKINPVIQKYPSFNFGNNSKLLGKIISPKDKLKHNLKCNRNQVDNYIWIEIKVLNTKTMRWEKHHYALSSTRFLEEVYYPATSENPPDALAARFRTKTNGYEGKPALSAEQIEQIRSAPVGLRKVKKRQMRLEAARQQNLLPRYTWGKDFNINICKRGNNFEVTLATKVKKKKEKNYKVVLGYDANIVRKNTYAAIEAHANGDGVIDYNDLPVKPIESGFVTVESQVRDKSYDQLSYNGVKLLYCKPHVESRRSFLEKYRNGTMKDNRGNNIQIDFMKDFEAIADDETSLYYFNMKYCKLLQSSIRNHSSQAKEYREEIFELLRDGKLSVLKLSSLSNLSFVMFKVAKSLIGTYFGHLLKKPKNSKSDVKAPPITDEDKQKADPEMFALRLALEEKRLNKVKSKKEVIANKIVAKALELRDKYGPVLIKGENISDTTKKGKKSSTNSFLMDWLARGVANKVKEMVMMHQGLEFVEVNPNFTSHQDPFVHKNPENTFRARYSRCTPSELTEKNRKEILSFLSDKPSKRPTNAYYNEGAMAFLATYGLKKNDVLGVSLEKFKQIMANILHQRSEDQLLFPSRGGMFYLATYKLDADATSVNWNGKQFWVCNADLVAAYNVGLVDIQKDFKKK
Cas12i2
MSSAIKSYKSVLRPNERKNQLLKSTIQCLEDGSAFFFKMLQGLFGGITPEIVRFSTEQEKQQQDIALWCAVNWFRPVSQDSLTHTIASDNLVEKFEEYYGGTASDAIKQYFSASIGESYYWNDCRQQYYDLCRELGVEVSDLTHDLEILCREKCLAVATESNQNNSIISVLFGTGEKEDRSVKLRITKKILEAISNLKEIPKNVAPIQEIILNVAKATKETFRQVYAGNLGAPSTLEKFIAKDGQKEFDLKKLQTDLKKVIRGKSKERDWCCQEELRSYVEQNTIQYDLWAWGEMFNKAHTALKIKSTRNYNFAKQRLEQFKEIQSLNNLLVVKKLNDFFDSEFFSGEETYTICVHHLGGKDLSKLYKAWEDDPADPENAIVVLCDDLKNNFKKEPIRNILRYIFTIRQECSAQDILAAAKYNQQLDRYKSQKANPSVLGNQGFTWTNAVILPEKAQRNDRPNSLDLRIWLYLKLRHPDGRWKKHHIPFYDTRFFQEIYAAGNSPVDTCQFRTPRFGYHLPKLTDQTAIRVNKKHVKAAKTEARIRLAIQQGTLPVSNLKITEISATINSKGQVRIPVKFDVGRQKGTLQIGDRFCGYDQNQTASHAYSLWEVVKEGQYHKELGCFVRFISSGDIVSITENRGNQFDQLSYEGLAYPQYADWRKKASKFVSLWQITKKNKKKEIVTVEAKEKFDAICKYQPRLYKFNKEYAYLLRDIVRGKSLVELQQIRQEIFRFIEQDCGVTRLGSLSLSTLETVKAVKGIIYSYFSTALNASKNNPISDEQRKEFDPELFALLEKLELIRTRKKKQKVERIANSLIQTCLENNIKFIRGEGDLSTTNNATKKKANSRSMDWLARGVFNKIRQLAPMHNITLFGCGSLYTSHQDPLVHRNPDKAMKCRWAAIPVKDIGDWVLRKLSQNLRAKNIGTGEYYHQGVKEFLSHYELQDLEEELLKWRSDRKSNIPCWVLQNRLAEKLGNKEAVVYIPVRGGRIYFATHKVATGAVSIVFDQKQVWVCNADHVAAANIALTVKGIGEQSSDEENPDGSRIKLQLTS
碱基编辑器的代表性核酸和蛋白质序列如下:
BhCas12b GGSGGS-ABE8-Xten20 at P153
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
BhCas12b GGSGGS-ABE8-Xten20于K255
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
BhCas12b GGSGGS-ABE8-Xten20于D306
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
BhCas12b GGSGGS-ABE8-Xten20于D980
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
BhCas12b GGSGGS-ABE8-Xten20于K1019
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
对于上述序列,Kozak序列用粗体和下划线表示;underline.dot.underline标记了Kozak序列之后的N-末端核定位信号(NLS);小写字符表示GGGSGGS接头;标记编码ABE8的序列、编码BhCas12b的未修饰的序列;双下划线表示Xten20接头;单下划线表示C-末端NLS;表示GS接头;斜体字符代表3x血凝素(HA)标签的编码序列。
在一些实施方案中,本文提供的核酸可编程DNA结合蛋白(napDNAbp)或任何融合蛋白可以是Cas12j/CasΦ蛋白。Pausch等人描述了Cas12j/CasΦ,“CRISPR-CasΦfromhuge phages is a hypercompact genome editor”,《科学》,2020年7月17日,第1卷。369,第6501期,第333-337页,其通过引用将其全部并入本文。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与天然存在的Cas12j/CasΦ蛋白相同。在一些实施方案中,napDNAbp是天然存在的Cas12j/CasΦ蛋白。在一些实施方案中,所述napDNAbp是核酸酶失活的(死亡的)Cas12j/CasΦ蛋白。应当理解,根据本公开也可以使用来自其他物种的Cas12j/CasΦ。
示例性Cas12j/CasΦ氨基酸序列如下:
>CasΦ-1
MADTPTLFTQFLRHHLPGQRFRKDILKQAGRILANKGEDATIAFLRGKSEESPPDFQPPVKCPIIACSRPLTEWPIYQASVAIQGYVYGQSLAEFEASDPGCSKDGLLGWFDKTGVCTDYFSVQGLNLIFQNARKRYIGVQTKVTNRNEKRHKKLKRINAKRIAEGLPELTSDEPESALDETGHLIDPPGLNTNIYCYQQVSPKPLALSEVNQLPTAYAGYSTSGDDPIQPMVTKDRLSISKGQPGYIPEHQRALLSQKKHRRMRGYGLKARALLVIVRIQDDWAVIDLRSLLRNAYWRRIVQTKEPSTITKLLKLVTGDPVLDATRMVATFTYKPGIVQVRSAKCLKNKQGSKLFSERYLNETVSVTSIDLGSNNLVAVATYRLVNGNTPELLQRFTLPSHLVKDFERYKQAHDTLEDSIQKTAVASLPQGQQTEIRMWSMYGFREAQERVCQELGLADGSIPWNVMTATSTILTDLFLARGGDPKKCMFTSEPKKKKNSKQVLYKIRDRAWAKMYRTLLSKETREAWNKALWGLKRGSPDYARLSKRKEELARRCVNYTISTAEKRAQCGRTIVALEDLNIGFFHGRGKQEPGWVGLFTRKKENRWLMQALHKAFLELAHHRGYHVIEVNPAYTSQTCPVCRHCDPDNRDQHNREAFHCIGCGFRGNADLDVATHNIAMVAITGESLKRARGSVASKTPQPLAAE*
>CasΦ-2
MPKPAVESEFSKVLKKHFPGERFRSSYMKRGGKILAAQGEEAVVAYLQGKSEEEPPNFQPPAKCHVVTKSRDFAEWPIMKASEAIQRYIYALSTTERAACKPGKSSESHAAWFAATGVSNHGYSHVQGLNLIFDHTLGRYDGVLKKVQLRNEKARARLESINASRADEGLPEIKAEEEEVATNETGHLLQPPGINPSFYVYQTISPQAYRPRDEIVLPPEYAGYVRDPNAPIPLGVVRNRCDIQKGCPGYIPEWQREAGTAISPKTGKAVTVPGLSPKKNKRMRRYWRSEKEKAQDALLVTVRIGTDWVVIDVRGLLRNARWRTIAPKDISLNALLDLFTGDPVIDVRRNIVTFTYTLDACGTYARKWTLKGKQTKATLDKLTATQTVALVAIDLGQTNPISAGISRVTQENGALQCEPLDRFTLPDDLLKDISAYRIAWDRNEEELRARSVEALPEAQQAEVRALDGVSKETARTQLCADFGLDPKRLPWDKMSSNTTFISEALLSNSVSRDQVFFTPAPKKGAKKKAPVEVMRKDRTWARAYKPRLSVEAQKLKNEALWALKRTSPEYLKLSRRKEELCRRSINYVIEKTRRRTQCQIVIPVIEDLNVRFFHGSGKRLPGWDNFFTAKKENRWFIQGLHKAFSDLRTHRSFYVFEVRPERTSITCPKCGHCEVGNRDGEAFQCLSCGKTCNADLDVATHNLTQVALTGKTMPKREEPRDAQGTAPARKTKKASKSKAPPAEREDQTPAQEPSQTS
>CasΦ-3
MEKEITELTKIRREFPNKKFSSTDMKKAGKLLKAEGPDAVRDFLNSCQEIIGDFKPPVKTNIVSISRPFEEWPVSMVGRAIQEYYFSLTKEELESVHPGTSSEDHKSFFNITGLSNYNYTSVQGLNLIFKNAKAIYDGTLVKANNKNKKLEKKFNEINHKRSLEGLPIITPDFEEPFDENGHLNNPPGINRNIYGYQGCAAKVFVPSKHKMVSLPKEYEGYNRDPNLSLAGFRNRLEIPEGEPGHVPWFQRMDIPEGQIGHVNKIQRFNFVHGKNSGKVKFSDKTGRVKRYHHSKYKDATKPYKFLEESKKVSALDSILAIITIGDDWVVFDIRGLYRNVFYRELAQKGLTAVQLLDLFTGDPVIDPKKGVVTFSYKEGVVPVFSQKIVPRFKSRDTLEKLTSQGPVALLSVDLGQNEPVAARVCSLKNINDKITLDNSCRISFLDDYKKQIKDYRDSLDELEIKIRLEAINSLETNQQVEIRDLDVFSADRAKANTVDMFDIDPNLISWDSMSDARVSTQISDLYLKNGGDESRVYFEINNKRIKRSDYNISQLVRPKLSDSTRKNLNDSIWKLKRTSEEYLKLSKRKLELSRAVVNYTIRQSKLLSGINDIVIILEDLDVKKKFNGRGIRDIGWDNFFSSRKENRWFIPAFHKAFSELSSNRGLCVIEVNPAWTSATCPDCGFCSKENRDGINFTCRKCGVSYHADIDVATLNIARVAVLGKPMSGPADRERLGDTKKPRVARSRKTMKRKDISNSTVEAMVTA*
>CasΦ-4
MYSLEMADLKSEPSLLAKLLRDRFPGKYWLPKYWKLAEKKRLTGGEEAACEYMADKQLDSPPPNFRPPARCVILAKSRPFEDWPVHRVASKAQSFVIGLSEQGFAALRAAPPSTADARRDWLRSHGASEDDLMALEAQLLETIMGNAISLHGGVLKKIDNANVKAAKRLSGRNEARLNKGLQELPPEQEGSAYGADGLLVNPPGLNLNIYCRKSCCPKPVKNTARFVGHYPGYLRDSDSILISGTMDRLTIIEGMPGHIPAWQREQGLVKPGGRRRRLSGSESNMRQKVDPSTGPRRSTRSGTVNRSNQRTGRNGDPLLVEIRMKEDWVLLDARGLLRNLRWRESKRGLSCDHEDLSLSGLLALFSGDPVIDPVRNEVVFLYGEGIIPVRSTKPVGTRQSKKLLERQASMGPLTLISCDLGQTNLIAGRASAISLTHGSLGVRSSVRIELDPEIIKSFERLRKDADRLETEILTAAKETLSDEQRGEVNSHEKDSPQTAKASLCRELGLHPPSLPWGQMGPSTTFIADMLISHGRDDDAFLSHGEFPTLEKRKKFDKRFCLESRPLLSSETRKALNESLWEVKRTSSEYARLSQRKKEMARRAVNFVVEISRRKTGLSNVIVNIEDLNVRIFHGGGKQAPGWDGFFRPKSENRWFIQAIHKAFSDLAAHHGIPVIESDPQRTSMTCPECGHCDSKNRNGVRFLCKGCGASMDADFDAACRNLERVALTGKPMPKPSTSCERLLSATTGKVCSDHSLSHDAIEKAS*
>CasΦ-5
MSSLPTPLELLKQKHADLFKGLQFSSKDNKMAGKVLKKDGEEAALAFLSERGVSRGELPNFRPPAKTLVVAQSRPFEEFPIYRVSEAIQLYVYSLSVKELETVPSGSSTKKEHQRFFQDSSVPDFGYTSVQGLNKIFGLARGIYLGVITRGENQLQKAKSKHEALNKKRRASGEAETEFDPTPYEYMTPERKLAKPPGVNHSIMCYVDISVDEFDFRNPDGIVLPSEYAGYCREINTAIEKGTVDRLGHLKGGPGYIPGHQRKESTTEGPKINFRKGRIRRSYTALYAKRDSRRVRQGKLALPSYRHHMMRLNSNAESAILAVIFFGKDWVVFDLRGLLRNVRWRNLFVDGSTPSTLLGMFGDPVIDPKRGVVAFCYKEQIVPVVSKSITKMVKAPELLNKLYLKSEDPLVLVAIDLGQTNPVGVGVYRVMNASLDYEVVTRFALESELLREIESYRQRTNAFEAQIRAETFDAMTSEEQEEITRVRAFSASKAKENVCHRFGMPVDAVDWATMGSNTIHIAKWVMRHGDPSLVEVLEYRKDNEIKLDKNGVPKKVKLTDKRIANLTSIRLRFSQETSKHYNDTMWELRRKHPVYQKLSKSKADFSRRVVNSIIRRVNHLVPRARIVFIIEDLKNLGKVFHGSGKRELGWDSYFEPKSENRWFIQVLHKAFSETGKHKGYYIIECWPNWTSCTCPKCSCCDSENRHGEVFRCLACGYTCNTDFGTAPDNLVKIATTGKGLPGPKKRCKGSSKGKNPKIARSSETGVSVTESGAPKVKKSSPTQTSQSSSQSAP*
>CasΦ-6
MNKIEKEKTPLAKLMNENFAGLRFPFAIIKQAGKKLLKEGELKTIEYMTGKGSIEPLPNFKPPVKCLIVAKRRDLKYFPICKASCEIQSYVYSLNYKDFMDYFSTPMTSQKQHEEFFKKSGLNIEYQNVAGLNLIFNNVKNTYNGVILKVKNRNEKLKKKAIKNNYEFEEIKTFNDDGCLINKPGINNVIYCFQSISPKILKNITHLPKEYNDYDCSVDRNIIQKYVSRLDIPESQPGHVPEWQRKLPEFNNTNNPRRRRKWYSNGRNISKGYSVDQVNQAKIEDSLLAQIKIGEDWIILDIRGLLRDLNRRELISYKNKLTIKDVLGFFSDYPIIDIKKNLVTFCYKEGVIQVVSQKSIGNKKSKQLLEKLIENKPIALVSIDLGQTNPVSVKISKLNKINNKISIESFTYRFLNEEILKEIEKYRKDYDKLELKLINEA
>CasΦ-7
MSNTAVSTREHMSNKTTPPSPLSLLLRAHFPGLKFESQDYKIAGKKLRDGGPEAVISYLTGKGQAKLKDVKPPAKAFVIAQSRPFIEWDLVRVSRQIQEKIFGIPATKGRPKQDGLSETAFNEAVASLEVDGKSKLNEETRAAFYEVLGLDAPSLHAQAQNALIKSAISIREGVLKKVENRNEKNLSKTKRRKEAGEEATFVEEKAHDERGYLIHPPGVNQTIPGYQAVVIKSCPSDFIGLPSGCLAKESAEALTDYLPHDRMTIPKGQPGYVPEWQHPLLNRRKNRRRRDWYSASLNKPKATCSKRSGTPNRKNSRTDQIQSGRFKGAIPVLMRFQDEWVIIDIRGLLRNARYRKLLKEKSTIPDLLSLFTGDPSIDMRQGVCTFIYKAGQACSAKMVKTKNAPEILSELTKSGPVVLVSIDLGQTNPIAAKVSRVTQLSDGQLSHETLLRELLSNDSSDGKEIARYRVASDRLRDKLANLAVERLSPEHKSEILRAKNDTPALCKARVCAALGLNPEMIAWDKMTPYTEFLATAYLEKGGDRKVATLKPKNRPEMLRRDIKFKGTEGVRIEVSPEAAEAYREAQWDLQRTSPEYLRLSTWKQELTKRILNQLRHKAAKSSQCEVVVMAFEDLNIKMMHGNGKWADGGWDAFFIKKRENRWFMQAFHKSLTELGAHKGVPTIEVTPHRTSITCTKCGHCDKANRDGERFACQKCGFVAHADLEIATDNIERVALTGKPMPKPESERSGDAKKSVGARKAAFKPEEDAEAAE*
>CasΦ-8
MIKPTVSQFLTPGFKLIRNHSRTAGLKLKNEGEEACKKFVRENEIPKDECPNFQGGPAIANIIAKSREFTEWEIYQSSLAIQEVIFTLPKDKLPEPILKEEWRAQWLSEHGLDTVPYKEAAGLNLIIKNAVNTYKGVQVKVDNKNKNNLAKINRKNEIAKLNGEQEISFEEIKAFDDKGYLLQKPSPNKSIYCYQSVSPKPFITSKYHNVNLPEEYIGYYRKSNEPIVSPYQFDRLRIPIGEPGYVPKWQYTFLSKKENKRRKLSKRIKNVSPILGIICIKKDWCVFDMRGLLRTNHWKKYHKPTDSINDLFDYFTGDPVIDTKANVVRFRYKMENGIVNYKPVREKKGKELLENICDQNGSCKLATVDVGQNNPVAIGLFELKKVNGELTKTLISRHPTPIDFCNKITAYRERYDKLESSIKLDAIKQLTSEQKIEVDNYNNNFTPQNTKQIVCSKLNINPNDLPWDKMISGTHFISEKAQVSNKSEIYFTSTDKGKTKDVMKSDYKWFQDYKPKLSKEVRDALSDIEWRLRRESLEFNKLSKSREQDARQLANWISSMCDVIGIENLVKKNNFFGGSGKREPGWDNFYKPKKENRWWINAIHKALTELSQNKGKRVILLPAMRTSITCPKCKYCDSKNRNGEKFNCLKCGIELNADIDVATENLATVAITAQSMPKPTCERSGDAKKPVRARKAKAPEFHDKLAPSYTVVLREAV*
>CasΦ-9
MRSSREIGDKILMRQPAEKTAFQVFRQEVIGTQKLSGGDAKTAGRLYKQGKMEAAREWLLKGARDDVPPNFQPPAKCLVVAVSHPFEEWDISKTNHDVQAYIYAQPLQAEGHLNGLSEKWEDTSADQHKLWFEKTGVPDRGLPVQAINKIAKAAVNRAFGVVRKVENRNEKRRSRDNRIAEHNRENGLTEVVREAPEVATNADGFLLHPPGIDPSILSYASVSPVPYNSSKHSFVRLPEEYQAYNVEPDAPIPQFVVEDRFAIPPGQPGYVPEWQRLKCSTNKHRRMRQWSNQDYKPKAGRRAKPLEFQAHLTRERAKGALLVVMRIKEDWVVFDVRGLLRNVEWRKVLSEEAREKLTLKGLLDLFTGDPVIDTKRGIVTFLYKAEITKILSKRTVKTKNARDLLLRLTEPGEDGLRREVGLVAVDLGQTHPIAAAIYRIGRTSAGALESTVLHRQGLREDQKEKLKEYRKRHTALDSRLRKEAFETLSVEQQKEIVTVSGSGAQITKDKVCNYLGVDPSTLPWEKMGSYTHFISDDFLRRGGDPNIVHFDRQPKKGKVSKKSQRIKRSDSQWVGRMRPRLSQETAKARMEADWAAQNENEEYKRLARSKQELARWCVNTLLQNTRCITQCDEIVVVIEDLNVKSLHGKGAREPGWDNFFTPKTENRWFIQILHKTFSELPKHRGEHVIEGCPLRTSITCPACSYCDKNSRNGEKFVCVACGATFHADFEVATYNLVRLATTGMPMPKSLERQGGGEKAGGARKARKKAKQVEKIVVQANANVTMNGASLHSP*
>CasΦ-10
MDMLDTETNYATETPAQQQDYSPKPPKKAQRAPKGFSKKARPEKKPPKPITLFTQKHFSGVRFLKRVIRDASKILKLSESRTITFLEQAIERDGSAPPDVTPPVHNTIMAVTRPFEEWPEVILSKALQKHCYALTKKIKIKTWPKKGPGKKCLAAWSARTKIPLIPGQVQATNGLFDRIGSIYDGVEKKVTNRNANKKLEYDEAIKEGRNPAVPEYETAYNIDGTLINKPGYNPNLYITQSRTPRLITEADRPLVEKILWQMVEKKTQSRNQARRARLEKAAHLQGLPVPKFVPEKVDRSQKIEIRIIDPLDKIEPYMPQDRMAIKASQDGHVPYWQRPFLSKRRNRRVRAGWGKQVSSIQAWLTGALLVIVRLGNEAFLADIRGALRNAQWRKLLKPDATYQSLFNLFTGDPVVNTRTNHLTMAYREGVVNIVKSRSFKGRQTREHLLTLLGQGKTVAGVSFDLGQKHAAGLLAAHFGLGEDGNPVFTPIQACFLPQRYLDSLTNYRNRYDALTLDMRRQSLLALTPAQQQEFADAQRDPGGQAKRACCLKLNLNPDEIRWDLVSGISTMISDLYIERGGDPRDVHQQVETKPKGKRKSEIRILKIRDGKWAYDFRPKIADETRKAQREQLWKLQKASSEFERLSRYKINIARAIANWALQWGRELSGCDIVIPVLEDLNVGSKFFDGKGKWLLGWDNRFTPKKENRWFIKVLHKAVAELAPHRGVPVYEVMPHRTSMTCPACHYCHPTNREGDRFECQSCHVVKNTDRDVAPYNILRVAVEGKTLDRWQAEKKPQAEPDRPMILIDNQES*
上述序列中的星号(*)表示STOP密码子。或者,CasΦ-1也称为Cas12j直系同源物1。因此,CasΦ-1-CasΦ-10也可以分别称为Cas12j直系同源物1-10。
引导多核苷酸
在一个实施方案中,引导多核苷酸是引导RNA。如本文所用,术语“引导RNA(gRNA)”及其语法均等物可以指可对靶标DNA具有特异性并且可以与Cas蛋白形成复合物的RNA。RNA/Cas复合物可以帮助将Cas蛋白“引导”到靶标DNA。Cas9/crRNA/tracrRNA核酸内切切割与间隔物互补的线性或环状dsDNA靶标。与crRNA不互补的靶标链首先通过核酸内切方式切割,然后通过核酸外切方式修剪3’-5'。在自然界中,DNA结合和切割通常需要蛋白质和两种RNA。然而,可以对单引导RNA(“sgRNA”,或简称为“gRNA”)进行工程改造,以便将crRNA和tracrRNA的各个方面整合到单个RNA种类中。参见,例如Jinek M.等人,Science 337:816-821(2012),其全部内容在此引入作为参考。Cas9识别CRISPR重复序列中的一个短基序(PAM或原间隔序列相邻基序),以帮助区分自身与非自身。Cas9核酸酶序列和结构是本领域技术人员众所周知的(参见,如“Complete genome sequence of an M1 strain ofStreptococcus pyogenes.”Ferretti,J.J.等人,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and host factorRNase III.”Deltcheva E.等人,Nature 471:602-607(2011);and“Programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity.”Jinek M.等人,Science 337:816-821(2012)全部内容以引用方式并入本文)。Cas9直向同源物已在各种物种中得到描述,包括但不限于化脓链球菌和嗜热链球菌。基于本公开内容,其他合适的Cas9核酸酶和序列对本领域技术人员来说是显而易见的,并且此类Cas9核酸酶和序列包括来自Chylinski,Rhun,and Charpentier,“The tracrRNA and Cas9 families of type IICRISPR-Cas immunity systems”(2013)RNA Biology 10:5,726-737中公开的生物体和基因座的Cas9序列;其全部内容在此引入作为参考。在一些实施方案中,Cas9核酸酶具有无活性(例如,失活)DNA切割结构域,即Cas9是切口酶。
在一些实施方案中,所述引导多核苷酸是至少一种单一引导RNA(“sgRNA”或“gRNA”)。在一些实施方案中,所述引导多核苷酸是至少一种tracrRNA。在一些实施方案中,引导多核苷酸不需要PAM序列来将多核苷酸可编程的DNA结合结构域(例如,Cas9或Cpf1)引导至靶标核苷酸序列。
本文公开的碱基编辑器的多核苷酸可编程核苷酸结合结构域(例如,CRISPR衍生结构域)可以通过与引导多核苷酸关联来识别靶标多核苷酸序列。引导多核苷酸(例如,gRNA)通常是单链的并且可以被编程为位点特异性地结合(即,通过互补碱基配对)多核苷酸的靶标序列,从而将与引导核酸结合的碱基编辑器导向靶标序列。引导多核苷酸可以是DNA。引导多核苷酸可以是RNA。如本领域技术人员将理解的,在引导多核苷酸序列中,尿嘧啶(U)置换序列中的胸腺嘧啶(T)。在一些情况下,所述引导多核苷酸包含天然核苷酸(例如,腺苷)。在一些情况下,所述引导多核苷酸包含非天然(或非天然)核苷酸(例如,肽核酸或核苷酸类似物)。在一些情况下,所述引导核酸序列的靶向区域的长度可以是至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个氨基酸。引导核酸的靶向区域的长度可以在10-30个核苷酸之间,或长度在15-25个核苷酸之间,或长度在15-20个核苷酸之间。在一些实施方案中,引导多核苷酸可以被截短1、2、3、4个等的核苷酸,特别是在5'末端。作为非限制性实例,20个核苷酸长度的引导多核苷酸可以被截短1、2、3、4个等的核苷酸,特别是在5'末端。
在一些实施方案中,引导多核苷酸包含两个或更多个单独的多核苷酸,它们可以通过例如互补碱基配对(例如,双引导多核苷酸)彼此相互作用。例如,引导多核苷酸可包含CRISPR RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)。例如,引导多核苷酸可包含一种或多种反式激活CRISPR RNA(tracrRNA)。
在II型CRISPR系统中,CRISPR蛋白(例如,Cas9)靶向核酸通常需要包含识别靶标序列的序列的第一个RNA分子(crRNA)和包含识别靶标序列的第二个RNA分子(trRNA)之间的互补碱基配对重复序列形成支架区域,稳定引导RNA-CRISPR蛋白复合物。此类双引导RNA系统可用作引导多核苷酸以将本文公开的碱基编辑器引导至靶标多核苷酸序列。
在一些实施方案中,本文提供的碱基编辑器利用单一引导多核苷酸(例如,sgRNA)。在一些实施方案中,本文提供的碱基编辑器利用双引导多核苷酸(例如,双gRNA)。在一些实施方案中,本文提供的碱基编辑器利用一个或多个引导多核苷酸(例如,多重gRNA)。在一些实施方案中,单个引导多核苷酸用于本文所述的不同碱基编辑器。例如,单个引导多核苷酸可用于胞苷碱基编辑器和腺苷碱基编辑器。
在其他实施方案中,引导多核苷酸可在单个分子(即,单分子引导核酸)中包含核酸的多核苷酸靶向部分和核酸的支架部分。例如,单分子引导多核苷酸可以是单引导RNA(sgRNA或gRNA)。在本文中,术语引导多核苷酸序列涵盖能够与碱基编辑器相互作用并将碱基编辑器引导至靶标多核苷酸序列的任何单、双或多分子核酸。
通常,引导多核苷酸(例如,crRNA/trRNA复合物或gRNA)包含“多核苷酸靶向片段”,该片段包括能够识别和结合靶标多核苷酸序列的序列,以及“蛋白质结合片段”,其稳定在碱基编辑器的多核苷酸可编程核苷酸结合结构域组件内引导多核苷酸。在一些实施方案中,引导多核苷酸的多核苷酸靶向区段识别并结合DNA多核苷酸,从而促进DNA中碱基的编辑。在其他情况下,引导多核苷酸的多核苷酸靶向区段识别并结合RNA多核苷酸,从而促进RNA中碱基的编辑。在本文中,“片段”是指分子的一部分或区域,例如,引导多核苷酸中的一段连续核苷酸。片段也可指复合物的区域/区段,使得区段可包含多于一种分子的区域。例如,当引导多核苷酸包含多个核酸分子时,蛋白质结合区段可包括例如沿着互补区域杂交的多个单独分子的全部或一部分。在一些实施方案中,包含两个单独分子的靶向DNA的RNA的蛋白质结合区段可包含(i)长度为100个碱基对的第一RNA分子的40-75个碱基对;(ii)长度为50个碱基对的第二个RNA分子的10-25个碱基对。除非在特定上下文中另有明确定义,否则“片段”的定义不限于特定总碱基对数,不限于来自给定RNA分子的任何特定碱基对数,不限于特定复合物中分离分子的数量,并且可以包括具有任意总长度的RNA分子区域,并且可以包括与其他分子互补的区域。
引导RNA或引导多核苷酸可包含两种或更多种RNA,方案如CRISPR RNA(crRNA)和反式激活crRNA(tracrRNA)。引导RNA或引导多核苷酸有时可包含单链RNA或通过crRNA和tracrRNA的一部分(例如,功能部分)融合形成的单引导RNA(sgRNA)。引导RNA或引导多核苷酸也可以是包含crRNA和tracrRNA的双重RNA。此外,crRNA可以与靶标DNA杂交。
如上所述,引导RNA或引导多核苷酸可以是表达产物。例如,编码引导RNA的DNA可以是包含编码引导RNA的序列的载体。通过用包含编码引导RNA和启动子的序列的分离的引导RNA或质粒DNA转染细胞,可以将引导RNA或引导多核苷酸转移到细胞中。引导RNA或引导多核苷酸也可以以其他方式转移到细胞中,例如使用病毒介导的基因递送。
引导RNA或引导多核苷酸可以是分离的。例如,引导RNA可以以分离的RNA的形式转染到细胞或生物体中。可以使用本领域已知的任何体外转录系统通过体外转录来制备引导RNA。引导RNA可以以分离的RNA的形式而不是以包含引导RNA的编码序列的质粒的形式转移到细胞中。
引导RNA或引导多核苷酸可包含三个区域:5'端的第一区域可与染色体序列中的靶标位点互补,第二内部区域可形成茎环结构,以及第三3'可以是单链的区域。每个引导RNA的第一区域也可以不同,使得每个引导RNA将融合蛋白引导至特定靶标位点。此外,每个引导RNA的第二和第三区域在所有引导RNA中可以相同。
引导RNA或引导多核苷酸的第一区域可与染色体序列中靶标位点的序列互补,使得引导RNA的第一区域可与靶标位点碱基配对。在一些情况下,引导RNA的第一区域可包含或从约10个核苷酸到25个核苷酸(即,从10个核苷酸到核苷酸;或从约10个核苷酸到约25个核苷酸;或从10个核苷酸到约25个核苷酸;或从约10个核苷酸至25个核苷酸)或更多。例如,引导RNA的第一区域与染色体序列中的靶标位点之间的碱基配对区域可以是或可以是约10、11、12、13、14、15、16、17、18、19、20、22、23、24、25或更多个核苷酸的长度。在一些实施方案中,引导RNA的第一区域可以是或可以是大约19、20或21个核苷酸的长度。
引导RNA或引导多核苷酸还可包含形成二级结构的第二区域。例如,由引导RNA形成的二级结构可以包含茎(或发夹)和环。环和茎的长度可以变化。例如,环的长度范围可为约3至10个核苷酸,而茎的长度范围可为约6至20个碱基对。茎可包含一个或多个1至10个或约10个核苷酸的凸起。第二区域的总长度可在约16至60个核苷酸的长度范围内。例如,环的长度可以是或可以是约4个核苷酸,茎可以是或可以是约12个碱基对。
引导RNA或引导多核苷酸还可以在3'端包含基本上可以是单链的第三区域。例如,第三个区域有时与靶标细胞中的任何染色体序列不互补,有时与引导RNA的其余部分不互补。此外,第三区域的长度可以变化。第三区域的长度可以多于或多于约4个核苷酸。例如,第三区域的总长度可在约5至60个核苷酸的长度范围内。
引导RNA或引导多核苷酸可以靶向基因靶标的任何外显子或内含子。在一些情况下,引导可以靶向基因的外显子1或2,在其他情况下;引导可以靶向基因的外显子3或4。组合物可包含均靶向相同外显子的多个引导RNA,或在一些情况下,可包含靶向不同外显子的多个引导RNA。可以靶向基因的外显子和内含子。
引导RNA或引导多核苷酸可以靶向约20个核苷酸或约20个核苷酸的核酸序列。靶标核酸可以少于或少于约20个核苷酸。靶标核酸的长度可为至少或至少约5、10、15、16、17、18、19、20、21、22、23、24、25、30或1-100个核苷酸之间的任何位置。靶标核酸的长度可为至多或至多约5,10,5、10、15、16、17、18、19、20、21、22、23、24、25、30、40、50或1-100个核苷酸之间的任何位置。靶标核酸序列可以是或可以是紧邻PAM的第一个核苷酸的5'处的约20个碱基。引导RNA可以靶向核酸序列。靶标核酸的长度可为至少或至少约1-10、1-20、1-30、1-40、1-50、1-60、1-70、1-80、1-90或1-100个核苷酸。
引导多核苷酸,例如引导RNA,可以指可以与另一种核酸杂交的核酸,例如细胞基因组中的靶标核酸或原型间隔物。引导多核苷酸可以是RNA。引导多核苷酸可以是DNA。引导多核苷酸可以被编程或设计成位点特异性地结合核酸序列。引导多核苷酸可以包含多核苷酸链并且可以称为单引导多核苷酸。引导多核苷酸可以包含两条多核苷酸链并且可以称为双引导多核苷酸。引导RNA可以作为RNA分子导入细胞或胚胎。例如,RNA分子可以在体外转录和/或可以化学合成。RNA可以从合成DNA分子转录,例如基因片段。然后可以将引导RNA作为RNA分子导入细胞或胚胎中。引导RNA也可以以非RNA核酸分子例如DNA分子的形式引入细胞或胚胎中。例如,编码引导RNA的DNA可以与启动子控制序列可操作地连接,以在感兴趣的细胞或胚胎中表达引导RNA。RNA编码序列可以与被RNA聚合酶III(Pol III)识别的启动子序列可操作地连接。可用于表达引导RNA的质粒载体包括但不限于px330载体和px333载体。在一些情况下,质粒载体(例如,px333载体)可包含至少两个引导RNA编码的DNA序列。
用于选择、设计和验证引导多核苷酸例如引导RNA和靶向序列的方法在本文中描述并且是本领域技术人员已知的。例如,为了尽量减少核碱基编辑器系统(例如AID结构域)中脱氨酶结构域潜在底物混杂的影响,可能无意中成为脱氨目标的残基数量(例如,可能潜在驻留在靶标核酸基因座内的ssDNA上)可以被最小化。此外,软件工具可用于优化对应于目标核酸序列的gRNA,例如,最大限度地减少整个基因组的总脱靶活性。例如,对于使用化脓性链球菌Cas9的每个可能的靶向结构域选择,所有脱靶序列(在选定的PAM之前,例如NAG或NGG)都可以在基因组中被识别,其中包含多达特定数量(例如,1、2、3、4、5、6、7、8、9或10)个错配的碱基对。可以识别与靶标位点互补的gRNA的第一个区域,并且可以根据其总预测的脱靶分数对所有第一个区域(例如,crRNA)进行排序;排名靠前的靶标结构域代表那些可能具有最大的目标和最少的脱靶活动的结构域。可以使用本领域已知的和/或如本文所述的方法对候选靶向gRNA进行功能评估。
作为非限制性实例,可使用DNA序列搜索算法来鉴定与Cas9一起使用的引导RNA的crRNA中的靶标DNA杂交序列。gRNA设计可以使用基于公共工具cas-offinder的定制gRNA设计软件进行,如Bae S.、Park J.和Kim J.-S.Cas-OFFinder:A fast and versatilealgorithm that searches for potential off-target sites of Cas9 RNA-guidedendonucleases.Bioinformatics 30,1473-1475(2014).该软件在计算全基因组脱靶倾向后为引导评分。通常,对于长度从17到24的引导,会考虑从完美匹配到7个不匹配的匹配。一旦通过计算确定了脱靶位点,就会为每个引导计算一个总分,并使用Web界面在表格输出中汇总。除了识别与PAM序列相邻的潜在靶位点外,该软件还识别与所选靶标位点相差1、2、3或3个以上核苷酸的所有PAM相邻序列。可以获得靶标核酸序列例如靶标基因的基因组DNA序列并且可以使用公开可用的工具例如RepeatMasker程序筛选重复元件。RepeatMasker在输入DNA序列中搜索重复元素和低复杂性区域。输出是给定查询序列中存在的重复的详细注释。
在鉴定之后,引导RNA的第一区域,例如crRNA,可以根据它们与靶标位点的距离、它们的正交性和5'核苷酸的存在进行分级,以便与相关的PAM序列(例如,5'G基于人类基因组中包含相关PAM的密切匹配的鉴定,例如,化脓性链球菌的NGG PAM,金黄色葡萄球菌的NNGRRT或NNGRRV PAM)。如本文所用,正交性是指人类基因组中包含最少数量的与靶标序列的错配的序列的数量。例如,“高水平正交性”或“良好正交性”可以指在人类基因组中除了预期靶标之外没有相同序列的20聚体靶向域,也没有在靶标中包含一两个错配的任何序列顺序。可以选择具有良好正交性的靶向结构域以最小化脱靶DNA切割。
在一些实施方案中,报导系统可用于检测碱基编辑活性和测试候选引导多核苷酸。在一些实施方案中,报导系统可以包括基于报导基因的测定,其中碱基编辑活性导致报导基因的表达。例如,报导系统可包括包含失活起始密码子的报导基因,例如模板链上从3'-TAC-5'到3'-CAC-5'的突变。靶标C成功脱氨后,相应的mRNA将转录为5'-AUG-3'而不是5'-GUG-3',从而实现报导基因的转译。合适的报导基因对本领域技术人员来说是显而易见的。报导基因的非限制性实例包括编码绿色荧光蛋白(GFP)、红色荧光蛋白(RFP)、荧光素酶、分泌性碱性磷酸酶(SEAP)或其表达对本领域技术人员来说是可检测的和显而易见的任何其他基因的基因。报告系统可用于测试许多不同的gRNA,例如,以确定相应脱氨酶将针对靶标DNA序列的哪些残基。还可以测试靶向非模板链的sgRNA,以评估特定碱基编辑蛋白(例如Cas9脱氨酶融合蛋白)的脱靶效应。在一些实施方案中,此类gRNA可以被设计为使得突变的起始密码子不会与gRNA碱基配对。引导多核苷酸可包括标准核糖核苷酸、修饰的核糖核苷酸(例如假尿苷)、核糖核苷酸异构体和/或核糖核苷酸类似物。在一些实施方案中,所述引导多核苷酸可包含至少一种可检测标记。可检测标记可以是荧光团(例如,FAM、TMR、Cy3、Cy5、德克萨斯红、俄勒冈绿、Alexa Fluors、Halo标签或合适的荧光染料)、检测标签(例如,生物素、地高辛等)、量子点或金粒子。
引导多核苷酸可以化学合成、酶促合成或其组合。例如,可以使用基于亚磷酰胺的标准固相合成方法合成引导RNA。或者,可以通过将编码引导RNA的DNA与被噬菌体RNA聚合酶识别的启动子控制序列可操作地连接来体外合成引导RNA。合适的噬菌体启动子序列的例子包括T7、T3、SP6启动子序列或其变体。在引导RNA包含两个单独的分子(例如,crRNA和tracrRNA)的实施方案中,crRNA可以化学合成并且tracrRNA可以酶促合成。
在一些实施方案中,碱基编辑器系统可以包含多个引导多核苷酸,例如gRNA。例如,gRNA可以靶向一个或多个靶标基因座(例如,至少1个gRNA、至少2个gRNA、至少5个gRNA、至少10个gRNA、至少20个gRNA、至少30个gRNA、至少50个gRNA)包含在碱基编辑器系统中。多个gRNA序列可以串联排列并且优选地由同向重复分开。
编码引导RNA或引导多核苷酸的DNA序列也可以是载体的一部分。此外,载体可以包含额外的表达控制序列(例如,增强子序列、Kozak序列、聚腺苷酸化序列、转录终止序列等)、选择标记序列(例如,GFP或抗生素抗性基因,例如嘌呤霉素)、复制起点、之类的。编码引导RNA的DNA分子也可以是线性的。编码引导RNA或引导多核苷酸的DNA分子也可以是环状的。
在一些实施方案中,碱基编辑器系统的一个或多个组件可由DNA序列编码。此类DNA序列可以一起或单独引入表达系统,例如细胞。例如,可以将编码多核苷酸可编程核苷酸结合结构域和引导RNA的DNA序列引入细胞,每个DNA序列可以是单独分子的一部分(例如,一个包含多核苷酸可编程核苷酸结合域编码序列的载体和第二个含有引导RNA编码序列的载体)或两者可以是同一分子的一部分(例如,一种含有多核苷酸可编程核苷酸结合结构域和引导RNA的编码(和调控)序列的载体)。
引导多核苷酸可以包含一个或多个修饰以提供具有新的或增强的特征的核酸。引导多核苷酸可包含核酸亲和标签。引导多核苷酸可包括合成核苷酸、合成核苷酸类似物、核苷酸衍生物和/或修饰的核苷酸。
在一些情况下,gRNA或引导多核苷酸可包含修饰。可以在gRNA或引导多核苷酸的任何位置进行修饰。可以对单个gRNA或引导多核苷酸进行不止一种修饰。gRNA或引导多核苷酸可以在修饰后进行质量控制。在一些情况下,质量控制可包括PAGE、HPLC、MS或其任何组合。
gRNA或引导多核苷酸的修饰可以是取代、插入、缺失、化学修饰、物理修饰、稳定化、纯化或其任何组合。
gRNA或引导多核苷酸也可以被5'腺苷酸、5'鸟苷-三磷酸帽、5'N7-甲基鸟苷-三磷酸帽、5'三磷酸帽、3'磷酸、3'硫代磷酸、5'磷酸、5'修饰硫代磷酸酯、顺式-Syn胸苷二聚体、三聚体、C12间隔区、C3间隔区、C6间隔区、dSpacer、PC间隔区、rSpacer、间隔区18、间隔区9,3'-3'修饰、5'-5'修饰、脱碱基、吖啶、偶氮苯、生物素、生物素BB、生物素TEG、胆固醇TEG、脱硫生物素TEG、DNP TEG、DNP-X、DOTA、dT-生物素、双生物素、PC生物素、补骨脂素C2、补骨脂素C6、TINA、3'DABCYL、黑洞猝灭剂1、黑洞quencer 2、DABCYL SE、dT-DABCYL、IRDye QC-1、QSY-21、QSY-35、QSY-7、QSY-9、羧基接头、巯基接头、2'-脱氧核糖核苷类似物嘌呤、2'-脱氧核糖核苷类似物嘧啶、核糖核苷类似物、2'-O-甲基核糖核苷类似物、糖修饰的类似物、摆动/通用碱基、荧光染料标记、2'-氟RNA、2'-O-甲基RNA、甲基膦酸酯、磷酸二酯DNA、磷磷酸二酯RNA、硫代磷酸酯DNA、硫代磷酸酯RNA、UNA、假尿苷-5'-三磷酸、5'-甲基胞苷-5'-三磷酸或其任何组合。
在一些情况下,修饰是永久的。在其他情况下,修饰是暂时的。在一些情况下,对gRNA或引导多核苷酸进行了多次修饰。gRNA或引导多核苷酸修饰可以改变核苷酸的理化特性,例如它们的构象、极性、疏水性、化学反应性、碱基配对相互作用或其任何组合。
修饰也可以是硫代磷酸酯替代物。在一些情况下,天然磷酸二酯键可易于被细胞核酸酶快速降解;使用硫代磷酸酯(PS)键替代物对核苷酸间键的修饰可以更稳定地通过细胞降解进行水解。修饰可以增加gRNA或引导多核苷酸的稳定性。修饰还可以增强生物活性。在一些情况下,硫代磷酸酯增强的RNA gRNA可以抑制RNase A、RNase T1、小牛血清核酸酶或其任何组合。这些特性可以使PS-RNA gRNA用于在体内或体外暴露于核酸酶的可能性很高的应用中。例如,可以在gRNA的5'-或”-末端的最后3-5个核苷酸之间引入硫代磷酸(PS)键,这可以抑制外切核酸酶降解。在一些情况下,可以在整个gRNA中添加硫代磷酸酯键以减少核酸内切酶的攻击。
原型间隔物相邻基序
术语“原型间隔物相邻基序(PAM)”或PAM样基序是指紧跟在CRISPR细菌适应性免疫系统中Cas9核酸酶靶向的DNA序列之后的2-6个碱基对DNA序列。在一些实施方案中,PAM可以是5’PAM(即,位于原型间隔物5’端的上游)。在一些实施方案中,PAM可以是3’PAM(即,位于原型间隔物5’端的下游)。
PAM序列对于靶标结合至关重要,但确切的序列取决于Cas蛋白的类型。PAM序列可以是本领域已知的任何PAM序列。合适的PAM序列包括但不限于NGG、NGA、NGC、NGN、NGT、NGTT、NGCG、NGAG、NGAN、NGNG、NGCN、NGCG、NGTN、NNGRRT、NNNRRT、NNGRR(N)、TTTV、TYCV、TYCV、TATV、NNNNGATT、NNAGAAW或NAAAAC。Y是嘧啶;N是任何核苷酸碱基;W是A或T。
本文提供的碱基编辑器可包含CRISPR蛋白衍生结构域,该结构域能够结合包含规范或非规范原型间隔物相邻基序(PAM)序列的核苷酸序列。PAM位点是靠近靶标多核苷酸序列的核苷酸序列。本公开的一些方面提供包含具有不同PAM特异性的全部或部分CRISPR蛋白的碱基编辑器。例如,典型的Cas9蛋白,例如来自化脓性链球菌(spCas9)的Cas9,需要典型的NGG PAM序列来结合特定的核酸区域,其中“NGG”中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C),并且G是鸟嘌呤。PAM可以是CRISPR蛋白质特异性的,并且在包含不同CRISPR蛋白质衍生结构域的不同碱基编辑器之间可以不同。PAM可以是靶标序列的5'或3'。PAM可以是靶标序列的上游或下游。PAM的长度可以是1、2、3、4、5、6、7、8、9、10个或更多个核苷酸。通常,PAM的长度在2-6个核苷酸之间。
在一些实施方案中,PAM是“NRN”PAM,其中,“NRN”中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C),并且R是腺嘌呤(A)或鸟嘌呤(G);或PAM为“NYN”PAM,其中,NYN中的“N”为腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C),并且Y为胞苷(C)或胸腺嘧啶(T),例如,如R.T.Walton等人,2020,Science,10.1126/science.aba8853(2020)中所述,其全部内容以引用方式并入本文)。
表1E中描述了几种PAM变体。
表1E.Cas9蛋白和相应的PAM序列
变体 | PAM |
spCas9 | NGG |
spCas9-VRQR | NGA |
spCas9-VRER | NGCG |
SpCas9-MQKFRAER | NGC |
xCas9(sp) | NGN |
saCas9 | NNGRRT |
saCas9-KKH | NNNRRT |
spCas9-MQKSER | NGCG |
spCas9-MQKSER | NGCN |
spCas9-LRKIQK | NGTN |
spCas9-LRVSQK | NGTN |
spCas9-LRVSQL | NGTN |
SpyMacCas9 | NAA |
Cpf1 | 5’(TTTV) |
在一些实施方案中,所述PAM是NGC。在一些实施方案中,NGC PAM被Cas9变体识别,例如SpCas9变体。在一些实施方案中,NGC PAM变体包括一个或多个选自D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(统称为“MQKFRAER”)的氨基酸取代。
在一些实施方案中,所述PAM是NGT。在一些实施方案中,所述NGT PAM被Cas9变体识别。在一些实施方案中,NGT PAM变体通过在一个或多个残基1335、1337、1135、1136、1218和/或1219处的靶向突变产生。在一些实施方案中,NGT PAM变体通过在一个或多个残基1219、1335、1337、1218处的靶向突变产生。在一些实施方案中,NGT PAM变体通过在一个或多个残基1135、1136、1218、1219和1335处的靶向突变产生。在一些实施方案中,NGT PAM变体选自下述表2和3中提供的一组靶向突变。
表2:残基1219、1335、1337、1218处的NGT PAM变体突变
表3:残基1135,1136、1218、1219和1335处的NGT PAM变体突变
在一些实施方案中,NGT PAM变体选自表2和3中的变体5、7、28、31或36。在一些实施方案中,变体具有改进的NGT PAM识别。
在一些实施方案中,NGT PAM变体在残基1219、1335、1337和/或1218处具有突变。在一些实施方案中,从下述表4中提供的变体中选择具有用于改进识别的突变的NGT PAM变体。
表4:残基1219、1335、1337和1218处的NGT PAM变体突变
变体 | E1219V | R1335Q | T1337 | G1218 |
1 | F | V | T | |
2 | F | V | R | |
3 | F | V | Q | |
4 | F | V | L | |
5 | F | V | T | R |
6 | F | V | R | R |
7 | F | V | Q | R |
8 | F | V | L | R |
在一些实施方案中,NGT PAM选自下表5中提供的变体。
表5.NGT PAM变体
在一些实施方案中所述NGTN变体是变体1。在一些实施方案中,所述NGTN变体是变体2。在一些实施方案中,所述NGTN变体是变体3。在一些实施方案中,所述NGTN变体是变体4。在一些实施方案中,所述NGTN变体是变体5。在一些实施方案中,所述NGTN变体是变体6。
在一些实施方案中,所述Cas9结构域是来自化脓性链球菌的Cas9结构域(SpCas9)。在一些实施方案中,SpCas9结构域是核酸酶活性的SpCas9、核酸酶失活的SpCas9(SpCas9d)或SpCas9切口酶(SpCas9n)。在一些实施方案中,SpCas9包含D9X突变,或本文提供的任何氨基酸序列中的相应突变,其中X是除D之外的任何氨基酸。在一些实施方案中,SpCas9包含D9A突变,或相应突变在本文提供的任何氨基酸序列中。在一些实施方案中,SpCas9结构域、SpCas9d结构域或SpCas9n结构域可结合具有非规范PAM的核酸序列。在一些实施方案中,SpCas9结构域、SpCas9d结构域或SpCas9n结构域可结合具有NGG、NGA或NGCGPAM序列的核酸序列。
在一些实施方案中,SpCas9结构域包含D1135X、R1335X和T1337X突变中的一个或多个,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域包含D1135E、R1335Q和T1337R突变中的一个或多个,或本文提供的任何氨基酸序列中的一个或多个相应突变。在一些实施方案中,SpCas9结构域包含D1135E、R1335Q和T1337R突变,或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,SpCas9结构域包含D1135X、R1335X和T1337X突变中的一个或多个,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域包含D1135V、R1335Q和T1337R突变中的一个或多个,或本文提供的任何氨基酸序列中的一个或多个相应突变。在一些实施方案中,SpCas9结构域包含D1135V、R1335Q和T1337R突变,或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,SpCas9结构域包含D1135X、G1218X、R1335X和T1337X突变中的一个或多个,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域包含D1135V、G1218R、R1335Q和T1337R突变中的一个或多个,或本文提供的任何氨基酸序列中的一个或多个相应突变。在一些实施方案中,SpCas9结构域包含D1135V、G1218R、R1335Q和T1337R突变,或本文提供的任何氨基酸序列中的相应突变。
在一些实施方案中,本文提供的任何融合蛋白的Cas9结构域包含的氨基酸序列为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的Cas9多肽相同。在一些实施方案中,本文提供的任何融合蛋白的Cas9结构域包含本文描述的任何Cas9多肽的氨基酸序列。在一些实施方案中,本文提供的任何融合蛋白的Cas9结构域由本文所述的任何Cas9多肽的氨基酸序列组成。
在一些实方案中,可将本文公开的碱基编辑器的CRISPR蛋白衍生结构域识别的PAM提供给与编码碱基编辑器的插入物(例如,AAV插入物)不同的寡核苷酸上的细胞。在这样的实施方案中,在单独的寡核苷酸上提供PAM可以允许切割否则将不能被切割的靶标序列,因为在与靶标序列相同的多核苷酸上不存在相邻的PAM。
在一个实施方案中,化脓性链球菌Cas9(SpCas9)可用作基因组工程的CRISPR核酸内切酶。但是,也可以使用其他的。在一些实施方案中,不同的核酸内切酶可用于靶向某些基因组靶标。在一些实施方案中,可以使用具有非NGG PAM序列的合成SpCas9衍生变体。此外,已经鉴定了来自不同物种的其他Cas9直向同源物,并且这些“非SpCas9”可以结合也可用于本公开的多种PAM序列。例如,相对较大的SpCas9(大约4kb编码序列)会导致携带SpCas9 cDNA的质粒无法在细胞中有效表达。相反,金黄色葡萄球菌Cas9(SaCas9)的编码序列比SpCas9短约1千碱基,可能使其在细胞中有效表达。与SpCas9类似,SaCas9核酸内切酶能够在体外和小鼠体内修饰哺乳动物细胞中的靶标基因。在一些实施方案中,Cas蛋白可以靶向不同的PAM序列。在一些实施方案中,靶标基因可以与例如Cas9 PAM、5’-NGG相邻。在其他实施方案中,其他Cas9直向同源物可具有不同的PAM要求。例如,其他PAM,例如嗜热链球菌(S.thermophilus)(CRISPR1的5'-NNAGAA和CRISPR3的5'-NGGNG)和脑膜炎奈瑟氏菌(Neisseria meningitidis)菌(5'-NNNNGATT)也可以与靶基因相邻。
在一些实施方案中,对于化脓性链球菌系统,靶标基因序列可以在(即,5'到)5'-NGG PAM之前,并且20-nt引导RNA序列可以与相反链碱基配对以介导与PAM相邻的Cas9裂解。在一些实施方案中,相邻切割可以是或可以是PAM上游的约3个碱基对。在一些实施方案中,相邻切割可以是或可以是PAM上游的约10个碱基对。在一些实施方案中,相邻切割可以是或可以是PAM上游的约0-20个碱基对。例如,相邻的切割可以紧挨着PAM上游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个碱基对。相邻的切割也可以在PAM的下游1到30个碱基对。能够结合PAM序列的示例性SpCas9蛋白的序列如下:
示例性结合PAM的SpCas9的氨基酸序列如下:
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD.
示例性结合PAM的SpCas9n的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD.
示例性结合PAM的Cas9的氨基酸序列如下:
示例性PAM结合SpVQR Cas9的氨基酸序列如下:
示例性PAM结合SpVRER Cas9的氨基酸序列如下:
在一些实施方案中,工程化的SpCas9变体能够识别侧翼为3'H(非G PAM)的原间隔序列相邻基序(PAM)序列(参见表1A至1E)。在一些实施方案中,SpCas9变体识别NRNH PAM(其中R是A或G并且H是A、C或T)。在一些实施方案中,非G PAM是NRRH、NRTH或NRCH(参见例如,Miller,S.M.等人,Continuous evolution of SpCas9 variants compatible withnon-G PAMs,Nat.Biotechnol.(2020),所述內容以引用的方式全文并入本文)。
在一些实施方案中,所述Cas9结构域是重组Cas9结构域。在一些实施方案中,所述Cas9结构域是SpyMacCas9结构域。在一些实施方案中,SpyMacCas9结构域是核酸酶活性的SpyMacCas9、核酸酶失活的SpyMacCas9(SpyMacCas9d)或SpyMacCas9切口酶(SpyMacCas9n)。在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可结合具有非规范PAM的核酸序列。在一些实施方案中,SpyMacCas9结构域、SpCas9d结构域或SpCas9n结构域可结合具有NAA PAM序列的核酸序列。
具有天然5'-NAAN-3'PAM特异性的猕猴链球菌中Spy Cas9的示例性Cas9 A同源物的序列是本领域已知的,并且例如由Jakimo等人(www.biorxiv.org/content/biorxiv/early/2018/09/27/429654.full.pdf)描述,并在下面提供。
SpyMacCas9
MDKKYSIGLDIGTNSVGWAVITDDYKVPSKKFKVLGNTDRHSIKKNLIGALLFGSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLADSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQIYNQLFEENPINASRVDAKAILSARLSKSRRLENLIAQLPGEKRNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNSEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGAYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRGMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGHSLHEQIANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEIQTVGQNGGLFDDNPKSPLEVTPSKLVPLKKELNPKKYGGYQKPTTAYPVLLITDTKQLIPISVMNKKQFEQNPVKFLRDRGYQQVGKNDFIKLPKYTLVDIGDGIKRLWASSKEIHKGNQLVVSKKSQILLYHAHHLDSDLSNDYLQNHNQQFDVLFNEIISFSKKCKLGKEHIQKIENVYSNKKNSASIEELAESFIKLLGFTQLGATSPFNFLGVKLNQKQYKGKKDYILPCTEGTLIRQSITGLYETRVDLSKIGED.
在一些情况下,变体Cas9蛋白包含H840A、P475A、W476A、N477A、D1125A、W1126A和D1218A突变,使得多肽切割靶DNA或RNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。作为另一个非限制性实例,在一些情況下,变体Cas9蛋白含有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A和D1218A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。在一些情況下,当变体Cas9蛋白含有W476A和W1126A突变或当变体Cas9蛋白含有P475A、W476A、N477A、D1125A、W1126A和D1218A突变时,变体Cas9蛋白不与PAM序列有效结合。因此,在某些这样的情况下,当此类变体Cas9蛋白用于结合方法时,该方法不需要PAM序列。换言之,在一些情況下,当这种变体Cas9蛋白用于结合方法中时,该方法可以包括引导RNA,但是该方法可以在不存在PAM序列的情况下进行(并且结合的特异性是因此由引导RNA的靶向片段提供)。可以突变其他残基以实现上述效果(即灭活一个或其他核酸酶部分)。作为非限制性实例,残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987可以被改变(即,被取代)。此外,丙氨酸取代以外的突变也是合适的。
在一些实施方案中,碱基编辑器的CRISPR蛋白衍生结构域可包含具有规范PAM序列(NGG)的Cas9蛋白的全部或部分。在其他实施方案中,碱基编辑器的Cas9衍生结构域可采用非规范PAM序列。此类序列已在本领域中描述并且对技术人员来说是显而易见的。例如,结合非典型PAM序列的Cas9结构域已在Kleintiver,B.P.等人,“Engineered CRISPR-Cas9nucleases with changed PAM specificities”Nature 523,481-485(2015)中进行了描述;以及,Kleintiver,B.P.等人,“Broadening the targeting range of Staphylococcusaureus CRISPR-Cas9 by modifying PAM recognition”Nature Biotechnology 33,1293-1298(2015);R.T.Walton et al.“Unconstrained genome targeting with near-PAMlessengineered CRISPR-Cas9 variants”Science 10.1126/science.aba8853(2020);Hu等人。“Evolved Cas9 variants with broad PAM compatibility and high DNAspecificity,”Nature,2018 Apr.5,556(7699),57-63;S.Miller等人,“Continuousevolution of SpCas9 variants compatible with non-G PAMs”Nat.Biotechnol.,2020Apr;38(4):471-481;每个的全部内容以引用方式并入本文。在一个实例中,S.Miller等人(2020,Id.)描述了共同识别非-G PAM的SpCas9变体,例如sa NRNH PAM(其中,R是A或G、H是A、C或T)。
包含Cas9结构域和胞苷脱氨酶和/或腺苷脱氨酶的融合蛋白
本公开的一些方面提供包含Cas9结构域或其他核酸可编程的DNA结合蛋白和一个或多个腺苷脱氨酶结构域、胞苷脱氨酶结构域和/或DNA糖基化酶结构域的融合蛋白。应当理解,Cas9结构域可以是本文提供的任何Cas9结构域或Cas9蛋白(例如,dCas9或nCas9)。在一些实施方案中,本文提供的任何Cas9结构域或Cas9蛋白(例如,dCas9或nCas9)可以与本文所述的任何腺苷脱氨酶和胞苷脱氨酶融合。本文公开的碱基编辑器的结构域可以以任何顺序排列。
在一些实施方案中,融合蛋白包含下述结构域A-C、A-D或A-E:
NH2-[A-B-C]-COOH;
NH2-[A-B-C-D]-COOH;或
NH2-[A-B-C-D-E]-COOH;
其中A和C或A、C和E,各自包含下述一项或多项:
腺苷脱氨酶结构域或其活性片段,
胞苷脱氨酶结构域或其活性片段,
DNA糖基化酶结构域或其活性片段;以及
其中B或B和D各自包含一个或多个具有核酸序列特异性结合活性的结构域。
在一些实施方案中,融合蛋白包含下述结构:
NH2-[An-Bo-Cn]-COOH;
NH2-[An-Bo-Cn-Do]-COOH;或
NH2-[An-Bo-Cp-Do-Eq]-COOH;
其中A和C或A、C和E,各自包含下述一项或多项:
腺苷脱氨酶结构域或其活性片段,
胞苷脱氨酶结构域或其活性片段,
DNA糖基化酶结构域或其活性片段;以及
其中n是一个整数:1、2、3、4或5,其中p是整数:0、1、2、3、4或5;其中q是整数0、1、2、3、4或5;并且其中B或B和D各自包含具有核酸序列特异性结合活性的结构域;其中o是整数:1、2、3、4或5。
例如但不限于,在一些实施方案中,融合蛋白包含下述结构:
NH2-[腺苷脱氨酶]-[Cas9结构域]-COOH;
NH2-[Cas9结构域]-[腺苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9结构域]-COOH;
NH2-[Cas9结构域]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9结构域]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[Cas9结构域]-[胞苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[胞苷脱氨酶]-[Cas9结构域]-COOH;
NH2-[胞苷脱氨酶]-[腺苷脱氨酶]-[Cas9结构域]-COOH;
NH2-[Cas9结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH;或
NH2-[Cas9结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH.
在一些实施方案中,本文提供的任何Cas12结构域或Cas12蛋白可以与本文提供的任何胞苷或腺苷脱氨酶融合。例如但不限于,在一些实施方案中,融合蛋白包含下述结构:
NH2-[腺苷脱氨酶]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[腺苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas12结构域]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[Cas12结构域]-[胞苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[胞苷脱氨酶]-[Cas12结构域]-COOH;
NH2-[胞苷脱氨酶]-[腺苷脱氨酶]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH;或
NH2-[Cas12结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH.
在一些实施方案中,融合蛋白的腺苷脱氨酶包含TadA*8和胞苷脱氨酶。在一些实施方案中,TadA*8是TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11,TadA*8.12,TadA*8.13,TadA*8.14,TadA*8.15,TadA*8.16,TadA*8.17,TadA*8.18,TadA*8.19,TadA*8.20,TadA*8.28.2A.,或TadA*8.24。在一些实施方案中,融合蛋白的腺苷脱氨酶包含TadA*9和胞苷脱氨酶。
示例性融合蛋白结构包括下述:
NH2-[TadA*8]-[Cas9结构域]-COOH;
NH2-[Cas9结构域]-[TadA*8]-COOH;
NH2-[TadA*8]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[TadA*8]-COOH;
NH2-[TadA*9]-[Cas9结构域]-COOH;
NH2-[Cas9结构域]-[TadA*9]-COOH;
NH2-[TadA*9]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[TadA*9]-COOH;
NH2-[腺苷脱氨酶]-[Cas9/12]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9/12]-[腺苷脱氨酶]-COOH;
NH2-[TadA*8]-[Cas9/12]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9/12]-[TadA*8]-COOH;
NH2-[TadA*9]-[Cas9/12]-[胞苷脱氨酶]-COOH;或
NH2-[胞苷脱氨酶]-[Cas9/12]-[TadA*9]-COOH.
在一些实施方案中,包含胞苷脱氨酶、脱碱基编辑器和/或腺苷脱氨酶和napDNAbp(例如,Cas9结构域)的融合蛋白不包括接头序列。在一些实施方案中,在胞苷脱氨酶和腺苷脱氨酶结构域与napDNAbp之间存在接头。在一些实施方案中,以上通用架构中使用的“-”表示可选接头的存在。在一些实施方案中,胞苷脱氨酶和腺苷脱氨酶以及napDNAbp通过本文提供的任何接头融合。例如,在一些实施方案中,胞苷脱氨酶和腺苷脱氨酶与napDNAbp通过本文提供的任何接头融合。
应当理解,本公开的融合蛋白可以包含一个或多个附加特征。例如,在一些实施方案中,融合蛋白可包含抑制剂、细胞质定位序列、输出序列,例如核输出序列或其他定位序列,以及可用于溶解、纯化或检测融合的序列标签。蛋白质。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载体蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签,也称为组氨酸标签或His-标签、麦芽糖结合蛋白(MBP)-标签、nus-标签、谷胱甘肽-S-转移酶(GST)-标签、绿色荧光蛋白(GFP)-标签、硫氧还蛋白-标签、S-标签、Softags(例如,Softag 1、Softag 3)、链标签、生物素连接酶标签、Flash标签、V5标签和SBP标签。其他合适的序列对本领域技术人员来说是显而易见的。在一些实施方案中,融合蛋白包含一个或多个His标签。
示例性但非限制性,融合蛋白在国际PCT申请号PCT/2017/044935、PCT/US2019/044935和PCT/US2020/016288中进行了描述,其各自全部以引用的方式并入本文。
包含核定位序列(NLS)的融合蛋白
在一些实施方案中,本文提供的融合蛋白还包含一个或多个(例如,2、3、4、5个)核靶向序列,例如核定位序列(NLS)。在一个实施方案中,使用二分NLS。在一些实施方案中,NLS包含促进包含NLS的蛋白质输入细胞核(例如,通过核转运)的氨基酸序列。在一些实施方案中,本文提供的任何融合蛋白还包含核定位序列(NLS)。在一些实施方案中,NLS与融合蛋白的N末端融合。在一些实施方案中,NLS与融合蛋白的C末端融合。在一些实施方案中,NLS与Cas9结构域的N末端融合。在一些实施方案中,NLS融合到nCas9结构域或dCas9域的C端。在一些实施方案中,NLS与脱氨酶的N末端融合。在一些实施方案中,NLS与脱氨酶的C末端融合。在一些实施方案中,NLS通过一个或多个接头与融合蛋白融合。在一些实施方案中,NLS与融合蛋白融合,无需接头。在一些实施方案中,NLS包含本文提供或提及的任一NLS序列的氨基酸序列。额外的核定位序列是本领域已知的并且对技术人员来说是显而易见的。例如,Plank等人,PCT/EP2000/011690中描述了NLS序列,该文献的内容以引用的方式并入本文中,因为它们公开了示例性核定位序列。在一些实施方案中,NLS包含氨基酸序列PKKKRKVEGADKRTADGSEFESPKKKRKV,KRTADGSEFESPKKKRKV,KRPAATKKAGQAKKKK,KKTELQTTNAENKTKKL,KRGINDRNFWRGENGRKTR,RKSGKIAAIVVKRPRKPKKKRKV,或MDSLLMNRRKFLYQFKNVRWAKGRRETYLC。
在一些实施方案中,包含胞苷或腺苷脱氨酶、Cas9结构域和NLS的融合蛋白不包含接头序列。在一些实施方案中,存在一个或多个结构域或蛋白质(例如,胞苷或腺苷脱氨酶、Cas9结构域或NLS)之间的接头序列。在一些实施方案中,在胞苷脱氨酶和腺苷脱氨酶结构域与napDNAbp之间存在接头。在一些实施方案中,下述通用架构中使用的“-”表示存在可选的接头。在一些实施方案中,胞苷脱氨酶和腺苷脱氨酶以及napDNAbp通过本文提供的任何接头融合。例如,在一些实施方案中,胞苷脱氨酶和腺苷脱氨酶与napDNAbp通过本文提供的任何接头融合。
在一些实施方案中,示例性napDNAbp(例如Cas9或Cas12)融合蛋白与胞苷或腺苷脱氨酶和napDNAbp(例如Cas9或Cas12)结构域的一般结构包含下述结构中的任何一种,其中NLS是核定位序列(例如,本文提供的任何NLS),NH2是融合蛋白的N-末端,COOH是融合蛋白的C-末端:
NH2-NLS-[胞苷脱氨酶]-[napDNAbp结构域]-COOH;
NH2-NLS[napDNAbp结构域]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[napDNAbp结构域]-NLS-COOH;
NH2-[napDNAbp结构域]-[胞苷脱氨酶]-NLS-COOH;
NH2-NLS-[腺苷脱氨酶]-[napDNAbp结构域]-COOH;
NH2-NLS[napDNAbp结构域]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[napDNAbp结构域]-NLS-COOH;
NH2-[napDNAbp结构域]-[腺苷脱氨酶]-NLS-COOH;
NH2-NLS-[胞苷脱氨酶]-[napDNAbp结构域]-[腺苷脱氨酶]-COOH;
NH2-NLS-[腺苷脱氨酶]-[napDNAbp结构域]-[胞苷脱氨酶]-COOH;
NH2-NLS-[腺苷脱氨酶][胞苷脱氨酶]-[napDNAbp结构域]-COOH;
NH2-NLS-[胞苷脱氨酶]-[腺苷脱氨酶]-[napDNAbp结构域]-COOH;
NH2-NLS-[napDNAbp结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH;
NH2-NLS-[napDNAbp结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[napDNAbp结构域]-[腺苷脱氨酶]-NLS-COOH;
NH2-[腺苷脱氨酶]-[napDNAbp结构域]-[胞苷脱氨酶]-NLS-COOH;
NH2-[腺苷脱氨酶][胞苷脱氨酶]-[napDNAbp结构域]-NLS-COOH;
NH2-[胞苷脱氨酶]-[腺苷脱氨酶]-[napDNAbp结构域]-NLS-COOH;
NH2-[napDNAbp结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-NLS-COOH;
或
NH2-[napDNAbp结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-NLS-COOH.
在一些实施方案中,NLS存在于接头中或NLS的侧翼是接头,例如本文所述的接头。在一些实施方案中,N末端或C末端NLS是二分NLS。二分NLS包含两个基本氨基酸簇,它们由相对较短的间隔序列分隔(因此二分-2部分,而单部分NLS不是)。核质蛋白的NLS KR[PAATKKAGQA]KKKK是无处不在的二分信号的原型:两个碱性氨基酸簇,由大约10个氨基酸的间隔物隔开。示例性二分NLS的序列如下:PKKKRKVEGADKRTADGSEFESPKKKRKV.
可以使用编码包含一个或多个核定位序列(NLS)的CRISPR酶的载体。例如,可以使用或大约使用1、2、3、4、5、6、7、8、9、10个NLS。CRISPR酶可包含位于或靠近氨末端的NLS,约或多于约1、2、3、4、5、6、7、8、9、10个位于或靠近羧基端的NLS,或任何这些的组合(例如,在氨末端的一个或多个NLS和在羧基末端的一个或多个NLS)。当存在一个以上的NLS时,每个NLS可以独立于其他选择,使得单个NLS可以存在于一个以上的副本中和/或与一个或多个其他NLS存在于一个或多个副本中。
方法中使用的CRISPR酶可包含约6个NLS。当与NLS最接近的氨基酸在距N或C末端的多肽链约50个氨基酸内,例如在1、2、3、4、5、10、15、20、25、30、40或50个氨基酸。
具有内部插入的融合蛋白
本文提供了融合蛋白,其包含与核酸可编程核酸结合蛋白(例如,napDNAbp)融合的异源多肽。异源多肽可以是在天然或野生型napDNAbp多肽序列中未发现的多肽。异源多肽可以在napDNAbp的C末端、napDNAbp的N末端融合至napDNAbp,或插入到napDNAbp的内部位置。在一些实施方案中,异源多肽插入到napDNAbp的内部位置。
在一些实施方案中,异源多肽是脱氨酶或其功能片段。例如,融合蛋白可包含侧翼为Cas9或Cas12(例如,Cas12b/C2c1)多肽的N末端片段和C末端片段的脱氨酶。融合蛋白中的脱氨酶可以是腺苷脱氨酶。在一些实施方案中,腺苷脱氨酶是TadA(例如,TadA*7.10、TadA*8或TadA*9)。在一些实施方案中,所述TadA是TadA*8。如本文所述的TadA序列(例如,TadA7.10、TadA*8或TadA*9)是上述融合蛋白的合适脱氨酶。
所述脱氨酶可以是环状置换脱氨酶。例如,所述脱氨酶可以是环状置换腺苷脱氨酶。在一些实施方案中,所述脱氨酶是环状排列的TadA,在TadA参考序列中编号的氨基酸残基116处环状排列。在一些实施方案中,所述脱氨酶是环状排列的TadA,在TadA参考序列中编号的氨基酸残基136处环状排列。在一些实施方案中,所述脱氨酶是环状排列的TadA,在TadA参考序列中编号的氨基酸残基65处环状排列。
所述融合蛋白可包含多于一种脱氨酶。所述融合蛋白可包含例如1、2、3、4、5或更多种脱氨酶。在一些实施方案中,所述融合蛋白包含一种脱氨酶。在一些实施方案中,所述融合蛋白包含2种脱氨酶。融合蛋白中的两种或更多种脱氨酶可以是腺苷脱氨酶。胞苷脱氨酶或其组合。两种或更多种脱氨酶可以是同型二聚体。两种或更多种脱氨酶可以是异二聚体。两种或多种脱氨酶可以串联插入到napDNAbp中。在一些实施方案中,两种或更多种脱氨酶在napDNAbp中可能不串联。
在一些实施方案中,融合蛋白中的napDNAbp是Cas9多肽或其片段。Cas9多肽可以是变体Cas9多肽。在一些实施方案中,所述Cas9多肽是Cas9切口酶(nCas9)多肽或其片段。在一些实施方案中,所述Cas9多肽是核酸酶死亡的Cas9(dCas9)多肽或其片段。融合蛋白中的Cas9多肽可以是全长Cas9多肽。在一些情况下,融合蛋白中的Cas9多肽可能不是全长Cas9多肽。Cas9多肽可以在例如相对于天然存在的Cas9蛋白的N末端或C末端被截短。Cas9多肽可以是是循环排列的Cas9蛋白。Cas9多肽可以是Cas9多肽的片段、部分或结构域,其仍然能够结合靶标多核苷酸和引导核酸序列。
在一些实施方案中,所述Cas9多肽是化脓性链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)或其片段或变体。
融合蛋白的Cas9多肽可包含与天然存在的Cas9多肽至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。
融合蛋白的Cas9多肽可包含与下文阐述的Cas9氨基酸序列(下文称为“Cas9参考序列”)至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同:
包含侧翼为Cas9多肽的N和C末端片段的异源催化结构域的融合蛋白也可用于本文所述方法中的碱基编辑。包含Cas9和一个或多个脱氨酶结构域,例如腺苷脱氨酶,或包含侧接有Cas9序列的腺苷脱氨酶结构域的融合蛋白也可用于靶标序列的高度特异性和有效的碱基编辑。在一个实施方案中,嵌合Cas9融合蛋白包含插入Cas9多肽内的异源催化结构域(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)。在一些实施方案中,融合蛋白包含插入Cas9内的腺苷脱氨酶结构域和胞苷脱氨酶结构域。在一些实施方案中,腺苷脱氨酶融合在Cas9内并且胞苷脱氨酶融合至C末端。在一些实施方案中,腺苷脱氨酶融合在Cas9内并且胞苷脱氨酶融合至N末端。在一些实施方案中,胞苷脱氨酶融合在Cas9内并且腺苷脱氨酶融合至C末端。在一些实施方案中,胞苷脱氨酶融合在Cas9内并且腺苷脱氨酶融合至N末端。
具有腺苷脱氨酶和胞苷脱氨酶以及Cas9的融合蛋白的示例性结构提供如下:
NH2-[Cas9(腺苷脱氨酶)]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9(腺苷脱氨酶)]-COOH;
NH2-[Cas9(胞苷脱氨酶)]-[腺苷脱氨酶]-COOH;或
NH2-[腺苷脱氨酶]-[Cas9(胞苷脱氨酶)]-COOH。
在一些实施方案中,以上通用架构中使用的“-”表示可选接头的存在。
在各种实施方案中,催化结构域具有DNA修饰活性(例如,脱氨酶活性),例如腺苷脱氨酶活性。在一些实施方案中,腺苷脱氨酶是TadA(例如TadA*7.10)。在一些实施方案中,所述TadA是TadA*8或TadA*9。在一些实施方案中,TadA*8或TadA*9融合在Cas9内并且胞苷脱氨酶融合到C末端。在一些实施方案中,TadA*8或TadA*9融合在Cas9内并且胞苷脱氨酶融合到N末端。在一些实施方案中,胞苷脱氨酶融合在Cas9内并且TadA*8或TadA*9融合到C末端。在一些实施方案中,胞苷脱氨酶融合在Cas9内并且TadA*8或TadA*9融合到N末端。如下提供了具有TadA*8或TadA*9以及胞苷脱氨酶和Cas9的融合蛋白的示例性结构:
NH2-[Cas9(TadA*8 or TadA*9)]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9(TadA*8 or TadA*9)]-COOH;
NH2-[Cas9(胞苷脱氨酶)]-[TadA*8 or TadA*9]-COOH;或
NH2-[TadA*8 or TadA*9]-[Cas9(胞苷脱氨酶)]-COOH。
在一些实施方案中,以上通用架构中使用的“-”表示可选接头的存在。
异源多肽(例如,脱氨酶)可以插入到napDNAbp(例如,Cas9或Cas12(例如,Cas12b/C2c1))的合适位置,例如,使得napDNAbp保持其结合靶标多核苷酸和引导核酸。可以将脱氨酶(例如腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入到napDNAbp中而不损害脱氨酶的功能(例如碱基编辑活性)或napDNAbp(例如结合靶标核酸和引导核酸的能力)。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以插入到napDNAbp中,例如晶体学研究显示的无序区域或包含高温因子或B因子的区域。较不有序、无序或非结构化的蛋白质区域,例如溶剂暴露区域和环,可用于插入而不损害结构或功能。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以插入到napDNAbp的柔性环区或溶剂暴露区中。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)被插入到Cas9或Cas12b/C2c1多肽的柔性环中。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)的插入位置通过Cas9多肽的晶体结构的B因子分析确定。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入Cas9多肽的包含高于平均B因子(例如,与总蛋白或包含无序区域的蛋白质结构域)。B因子或温度因子可以表示原子从其平均位置的波动(例如,由于温度相关的原子振动或晶格中的静态无序)。骨架原子的高B因子(例如,高于平均B因子)可以指示具有相对较高局部迁移率的区域。这样的区域可用于插入脱氨酶而不损害结构或功能。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)可以插入具有Cα原子的残基的位置,该残基的B因子比总蛋白质平均B因子高为50%、60%、70%、80%、90%、100%、110%、120%、130%、140%、150%、160%、170%、180%、190%、200%或大于200%。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)可以插入具有Cα原子的残基的位置,该残基的B因子比包含残基的Cas9蛋白质结构域的平均B因子高为50%、60%、70%、80%、90%、100%、110%、120%、130%、140%、150%、160%、170%、180%、190%、200%或大于200%。包含高于平均B因子的Cas9多肽位置可以包括,例如,上述Cas9参考序列中编号为768、792、1052、1015、1022、1026、1029、1067、1040、1054、1068、1246、12247的残基。包含高于平均B因子的Cas9多肽位置可以包括,例如,上述Cas9参考序列中编号为792-872、792-906和2-791的残基。
异源多肽(例如,脱氨酶)可以插入到napDNAbp中的氨基酸残基处,该氨基酸残基选自:上述Cas9参考序列中编号为768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247、和1248,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,所述异源多肽插入Cas9参考序列中编号768至769、791至792、792至793、1015至1016、1022至1023、1026至1027、1029至1030、1040至1041、1052至1053、1054至1055、1067至1068、1068至1069、1247至1248或1248至1249之间的氨基酸位置,或其相应的氨基酸位置。在一些实施方案中,所述异源多肽插入Cas9参考序列中编号769至770、792至793、793至794、1016至1017、1023至1024、1027至1028、1030至1031、1041至1042、1053至1054、1055至1056、1068至1069、1069至1070、1248至1249或1249至1250之间的氨基酸位置,或其相应的氨基酸位置。在一些实施方案中,所述异源多肽替换选自由下述组成的组的氨基酸残基:上述Cas9参考序列中编号为768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247、和1248,或另一个Cas9多肽中的相应氨基酸残基。应当理解,关于插入位置对上述Cas9参考序列的引用是为了说明的目的。如本文所讨论的插入不限于上述Cas9参考序列的Cas9多肽序列,而是包括在变体Cas9多肽中相应位置的插入,例如Cas9切口酶(nCas9)、核酸酶死亡Cas9(dCas9)、Cas9变体缺少核酸酶结构域、截短的Cas9或缺少部分或完整HNH结构域的Cas9结构域。
异源多肽(例如,脱氨酶)可以插入到napDNAbp中的氨基酸残基处,该氨基酸残基选自:上述Cas9参考序列中编号为768、792、1022、1026、1040、1068和1247,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,所述异源多肽插入上述Cas9参考序列中编号768至769、792至793、1022至1023、1026至1027、1029至1030、1040至1041、1068至1069或1247至1248之间的氨基酸位置,或其相应的氨基酸位置。在一些实施方案中,所述异源多肽插入上述Cas9参考序列中编号769至770、793至794、1023至1024、1027至1028、1030至1031、1041至1042、1069至1070或1248至1249之间的氨基酸位置,或其相应的氨基酸位置。在一些实施方案中,所述异源多肽替换选自由下述组成的组的氨基酸残基:上述Cas9参考序列中编号为768、792、1022、1026、1040、1068和1247,或另一个Cas9多肽中的相应氨基酸残基。
异源多肽(例如,脱氨酶)可以在如本文所述的氨基酸残基处或另一Cas9多肽中的相应氨基酸残基处插入napDNAbp中。在一个实施方案中,异源多肽(例如,脱氨酶)可以插入到napDNAbp中的氨基酸残基处,该氨基酸残基选自:上述Cas9参考序列中编号为1002、1003、1025、1052-1056、1242-1247、1061-1077、943-947、686-691、569-578、530-539、和1066-1077,或另一个Cas9多肽中的相应氨基酸残基。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)可以插入残基的N末端或C末端或替换残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在残基的C末端。
在一些实施方案中,腺苷脱氨酶(例如,TadA)被插入选自由下述组成的组的氨基酸残基处:上述Cas9参考序列中编号为1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,腺苷脱氨酶(例如,TadA)被插入以代替如以上Cas9参考序列中编号的残基792-872、792-906或2-791,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,腺苷脱氨酶插入在选自下组的氨基酸的N末端:上述Cas9参考序列中编号为1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,腺苷脱氨酶插入在选自下组的氨基酸的C末端:上述Cas9参考序列中编号为1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,插入腺苷脱氨酶以替换选自由下述组成的组的氨基酸:上述Cas9参考序列中编号为1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一个Cas9多肽中的相应氨基酸残基。
在一些实施方案中,腺苷脱氨酶(例如,TadA*9)插入到选自下述所组成的组的氨基酸残基:上述Cas9参考序列中编号为1016、1023、1029、1040、1069和1247,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,腺苷脱氨酶(例如,TadA*9)插入到选自下述所组成的组的氨基酸的N末端:上述Cas9参考序列中编号为1016、1023、1029、1040、1069和1247,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,腺苷脱氨酶(例如,TadA*9)插入到选自下述所组成的组的氨基酸的C末端:上述Cas9参考序列中编号为1016、1023、1029、1040、1069和1247,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,腺苷脱氨酶(例如,TadA*9)插入以取代选自下述所组成的组的氨基酸:上述Cas9参考序列中编号为1016、1023、1029、1040、1069和1247,或另一个Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基768处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基768的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基768的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基768,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基791或氨基酸残792处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基791的N末端或氨基酸残基792的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基791的C末端或氨基酸残基792的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基791或氨基酸残基792,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1016处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1016的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1016的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1016,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1022或氨基酸残1023处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1022的N末端或氨基酸残基1023的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1022的C末端或氨基酸残基1023的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1022或氨基酸残基1023,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1026或氨基酸残1029处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1026的N末端或氨基酸残基1029的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1026的C末端或氨基酸残基1029的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1026或氨基酸残基1029,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1040处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1040的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1040的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1040,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1052或氨基酸残1054处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1052的N末端或氨基酸残基1054的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1052的C末端或氨基酸残基1054的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1052或氨基酸残基1054,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1067、或氨基酸残1068、或氨基酸残1069处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1067的N末端、或氨基酸残基1068的N末端、或氨基酸残基1069的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1067的C末端、或氨基酸残基1068的C末端、或氨基酸残基1069的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1067、或氨基酸残1068、或氨基酸残1069,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1246、或氨基酸残1247、或氨基酸残1248处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1246的N末端、或氨基酸残基1247的N末端、或氨基酸残基1248的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1246的C末端、或氨基酸残基1247的C末端、或氨基酸残基1248的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1246、或氨基酸残1247、或氨基酸残1248,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,异源多肽(例如,脱氨酶)被插入到Cas9多肽的柔性环中。柔性环部分可以选自由以上Cas9编号的530-537、569-570、686-691、943-947、1002-1025、1052-1077、1232-1247或1298-1300组成群组的参考序列,或另一个Cas9多肽中的相应氨基酸残基。柔性环部分可以从由下述组成的群组中选择:上述Cas9参考序列中编号为1-529、538-568、580-685、692-942、948-1001、1026-1051、1078-1231或1248-1297,或另一个Cas9多肽中的相应氨基酸残基。
可以将异源多肽(例如,腺嘌呤脱氨酶)插入对应于氨基酸残基的Cas9多肽区域:上述Cas9参考序列中编号为1017-1069、1242-1247、1052–1056、1060-1077、1002-1003、943-947、530-537、568-579、686-691、1242–1247、1298-1300、1066-1077、1052-1056或1066-1077,或另一个Cas9多肽中的相应氨基酸残基。
可以插入异源多肽(例如腺嘌呤脱氨酶)代替Cas9多肽的缺失区域。缺失区域可以对应于Cas9多肽的N末端或C末端部分。在一些实施方案中,缺失区域对应于如以上Cas9参考序列中编号的残基792-872,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,缺失区域对应于如以上Cas9参考序列中编号的残基792-906,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,缺失区域对应于如以上Cas9参考序列中编号的残基2-791,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,缺失区域对应于如以上Cas9参考序列中编号的残基1017-1069,或其相应氨基酸残基。
示例性内部融合碱基编辑器在下表6中提供:
表6:Cas9蛋白中的插入位点
异源多肽(例如,脱氨酶)可以插入到Cas9多肽的结构域或功能结构域内。异源多肽(例如,脱氨酶)可以插入在Cas9多肽的两个结构域或功能结构域之间。例如,在从Cas9多肽中删除结构域之后,可以插入异源多肽(例如,脱氨酶)代替Cas9多肽的结构域或功能结构域。Cas9多肽的结构域或功能结构域可以包括例如RuvC I、RuvC II、RuvC III、Rec1、Rec2、PI或HNH。
在一些实施方案中,所述Cas9多肽缺少一个或多个选自下述群组的结构域:RuvCI、RuvC II、RuvC III、Rec1、Rec2、PI或HNH结构域。在一些实施方案中,所述Cas9多肽缺少核酸酶结构域。在一些实施方案中,所述Cas9多肽缺少HNH结构域。在一些实施方案中,所述Cas9多肽缺少HNH结构域的一部分,使得Cas9多肽具有降低或消除的HNH活性。在一些实施方案中,所述Cas9多肽包含核酸酶结构域的缺失,并且插入脱氨酶以替代核酸酶结构域。在一些实施方案中,所述HNH结构域被删除并且脱氨酶被插入在其位置上。在一些实施方案中,删除一个或多个RuvC结构域,并在其位置插入脱氨酶。
包含异源多肽的融合蛋白的侧翼可以是napDNAbp的N末端和C末端片段。在一些实施方案中,所述融合蛋白包含侧翼为Cas9多肽的N末端片段和C末端片段的脱氨酶。N末端片段或C末端片段可以结合靶标多核苷酸序列。N末端片段的C端或C末端片段的N端可包含Cas9多肽的柔性环的一部分。N末端片段的C端或C末端片段的N端可包含Cas9多肽的α-螺旋结构的一部分。所述N末端片段或所述C末端片段可包含DNA结合结构域。所述N末端片段或所述C末端片段可包含RuvC结构域。所述N末端片段或所述C末端片段可包含HNH结构域。在一些实施方案中,所述N末端片段和所述C末端片段均不包含HNH结构域。
在一些实施方案中,当所述融合蛋白使靶标核碱基脱氨时,N末端Cas9片段的C末端包含接近靶标核碱基的氨基酸。在一些实施方案中,当所述融合蛋白使靶标核碱基脱氨时,C末端Cas9片段的N末端包含接近靶标核碱基的氨基酸。不同脱氨酶的插入位置可以不同,以使靶标核碱基与N末端Cas9片段的C末端或C末端Cas9片段的N末端的氨基酸接近。例如,腺苷脱氨酶的插入位置处可以在选自下述组成的组的氨基酸残基:上述Cas9参考序列中编号为1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一个Cas9多肽中的相应氨基酸残基。
融合蛋白的N末端Cas9片段(即融合蛋白中位于脱氨酶侧翼的N末端Cas9片段)可包含Cas9多肽的N末端。融合蛋白的N末端Cas9片段可包含的长度至少约:100、200、300或400、500、600、700、800、900、1000、1100、1200或1300个氨基酸。融合蛋白的N末端Cas9片段可包含对应于下述氨基酸残基的序列:上述Cas9参考序列中编号为1-56、1-95、1–200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918或1-1000,或另一个Cas9多肽中的相应氨基酸残基。N末端Cas9片段可包含的序列包含:与氨基酸残基至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的序列同一性:上述Cas9参考序列中编号为1-56、1-95、1–200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918或1-1000,或另一个Cas9多肽中的相应氨基酸残基。
融合蛋白的C末端Cas9片段(即融合蛋白中位于脱氨酶侧翼的C末端Cas9片段)可包含Cas9多肽的C末端。融合蛋白的C末端Cas9片段可包含的长度至少约:100、200、300或400、500、600、700、800、900、1000、1100、1200或1300个氨基酸。融合蛋白的C末端Cas9片段可包含对应于下述氨基酸残基的序列:上述Cas9参考序列中编号为1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368或56-1368,或另一个Cas9多肽中的相应氨基酸残基。N末端Cas9片段可包含的序列包含:与氨基酸残基至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的序列同一性:上述Cas9参考序列中编号为1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368或56-1368,或另一个Cas9多肽中的相应氨基酸残基。
融合蛋白的N端Cas9片段和C端Cas9片段合在一起可能不对应于全长天然存在的Cas9多肽序列,例如,如上述Cas9参考序列中所述。
本文所述的融合蛋白可以通过减少非靶位点(例如,脱靶位点)的脱氨作用,例如减少全基因组的假脱氨作用来实现靶向脱氨作用。本文所述的融合蛋白可以在非靶位点处以减少的旁观者脱氨作用实现靶向脱氨作用。与例如包含与Cas9多肽的N末端或C末端融合的脱氨酶的末端融合蛋白相比,不希望的脱氨或脱靶脱氨可以减少至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或至少99%。与例如包含与Cas9多肽的N末端或C末端融合的脱氨酶的末端融合蛋白相比,不需要的脱氨或脱靶脱氨可以减少至少一倍、至少两倍、至少三倍、至少四倍、至少五倍、至少十倍、至少十五倍、至少二十倍、至少三十倍、至少四十倍、至少五十倍、至少60倍、至少70倍、至少80倍、至少90倍或至少一百倍。
在一些实施方案中,融合蛋白的脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)使R环范围内的不超过两个核碱基脱氨。在一些实施方案中,融合蛋白的脱氨酶使R环范围内不超过三个核碱基脱氨。在一些实施方案中,融合蛋白的脱氨酶使R环范围内不超过2、3、4、5、6、7、8、9或10个核碱基脱氨。R环是三链核酸结构,包括DNA:RNA杂交体、DNA:DNA或RNA:RNA互补结构与单链DNA相关联。如本文所用,当靶标多核苷酸与CRISPR复合物或碱基编辑复合物接触时可形成R环,其中引导多核苷酸的一部分,例如,引导RNA,与靶标多核苷酸的一部分杂交并置换,例如,靶标DNA。在一些实施方案中,R-环包含间隔序列和靶标DNA互补序列的杂交区域。R环区可以是长度为约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核碱基对。在一些实施方案中,R-环区的长度为约20个核碱基对。应当理解,如本文所用,R-环区不限于与引导多核苷酸杂交的靶标DNA链。例如,R-环区域内的靶核碱基的编辑可以针对包含与引导RNA互补链的DNA链,或者可以针对作为与引导RNA互补的链的相反链的DNA链。在一些实施方案中,在R环区域中编辑包括将非互补链(原型间隔链)上的核碱基编辑为靶标DNA序列中的引导RNA。
本文所述的融合蛋白可以在不同于规范碱基编辑的编辑窗口中实现靶标脱氨。在一些实施方案中,所述靶标核碱基在靶标多核苷酸序列中PAM序列上游约1至约20个碱基。在一些实施方案中,所述靶标核碱基在靶标多核苷酸序列中PAM序列上游约2至约12个碱基。在一些实施方案中,目标核碱基在PAM序列的远离或上游大约1至9个碱基对、约2至10个碱基对、约3至11个碱基对、约4至12个碱基对、约5至13个碱基对、约6至14个碱基对、约7至15个碱基对、约8至16个碱基对、约9至17个碱基对、约10至18个碱基对、约11至19个碱基对、约12至20个碱基对、约1至7个碱基对、约2至8个碱基对、约3至9个碱基对、约4至10个碱基对、约5至11个碱基对、约6至12个碱基对、约7至13个碱基对、约8至14个碱基对、约9至15个碱基对、约10至16个碱基对、约11至17个碱基对、约12至18个碱基对、约13至19个碱基对、约14至20个碱基对、约1至5个碱基对、约2至6个碱基对、约3至7个碱基对、约4至8个碱基对、约5至9个碱基对、约6至10个碱基对、约7至11个碱基对、约8至12个碱基对、约9至13个碱基对、约10至14个碱基对、约11至15个碱基对、约12至16个碱基对、约13至17个碱基对、约14至18个碱基对、约15至19个碱基对、约16至20个碱基对、约1至3个碱基对、约2至4个碱基对、约3至5个碱基对、约4至6个碱基对、约5至7个碱基对、约6至8个碱基对、约7至9个碱基对、约8至10个碱基对、约9至11个碱基对、约10至12个碱基对、约11至13个碱基对、约12至14个碱基对、约13至15个碱基对、约14至16个碱基对、约15至17个碱基对、约16至18个碱基对、约17至19个碱基对、約18至20个碱基对。在一些实施方案中,靶标核碱基是远离或上游PAM序列的约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多碱基对。在一些实施方案中,靶标核碱基是PAM序列上游的约1、2、3、4、5、6、7、8或9个碱基对。在一些实施方案中,靶标核碱基是PAM序列上游约2、3、4或6个碱基对。
所述融合蛋白可包含多于一种异源多肽。例如,融合蛋白可以另外包含一个或多个UGI结构域和/或一个或多个核定位信号。两个或多个异源域可以串联插入。两个或更多个异源结构域可以插入在这样的位置,使得它们在NapDNAbp中不串联。
融合蛋白可包含脱氨酶和napDNAbp多肽之间的接头。接头可以是肽或非肽接头。例如,接头可以是XTEN、(GGGS)n、(GGGGS)n、(G)n、(EAAAK)n、(GGS)n、SGSETPGTSESATPES。在一些实施方案中,融合蛋白包含N末端Cas9片段和脱氨酶之间的接头。在一些实施方案中,融合蛋白包含C末端Cas9片段和脱氨酶之间的接头。在一些实施方案中,napDNAbp的N末端和C末端片段通过接头与脱氨酶连接。在一些实施方案中,N末端和C末端片段在没有接头的情况下连接到脱氨酶结构域。在一些实施方案中,融合蛋白包含N末端Cas9片段与脱氨酶之间的接头,但不包含C末端Cas9片段与脱氨酶之间的接头。在一些实施方案中,融合蛋白包含C末端Cas9片段与脱氨酶之间的接头,但不包含N末端Cas9片段与脱氨酶之间的接头。
在一些实施方案中,融合蛋白中的napDNAbp是Cas12多肽,例如Cas12b/C2c1,或其片段。Cas12多肽可以是变体Cas12多肽。在其他实施方案中,Cas12多肽的N末端或C末端片段包含核酸可编程DNA结合结构域或RuvC结构域。在其他实施方案中,融合蛋白在Cas12多肽和催化结构域之间含有接头。在其他实施方案中,接头的氨基酸序列是GGSGGS或GSSGSETPGTSESATPESSG。在其他实施方案中,所述接头是刚性的接头。在上述方面的其他实施方式中,接头由GGAGGCTCTGGAGGAAGC或GGCTCTTCTGGATCTGAAACACCTGGCACAAGCGAGAGCGCCACCCCTGAGAGCTCTGGC编码。
包含侧翼为Cas12多肽的N和C末端片段的异源催化结构域的融合蛋白也可用于本文所述方法中的碱基编辑。包含Cas12和一个或多个脱氨酶结构域,例如腺苷脱氨酶,或包含侧接有Cas12序列的腺苷脱氨酶结构域的融合蛋白也可用于靶标序列的高度特异性和有效的碱基编辑。在一个实施方案中,嵌合Cas12融合蛋白包含插入Cas12多肽内的异源催化结构域(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)。在一些实施方案中,融合蛋白包含插入Cas12内的腺苷脱氨酶结构域和胞苷脱氨酶结构域。在一些实施方案中,腺苷脱氨酶融合在Cas12内并且胞苷脱氨酶融合至C末端。在一些实施方案中,腺苷脱氨酶融合在Cas12内并且胞苷脱氨酶融合至N末端。在一些实施方案中,胞苷脱氨酶融合在Cas12内并且腺苷脱氨酶融合至C末端。在一些实施方案中,胞苷脱氨酶融合在Cas12内并且腺苷脱氨酶融合至N末端。具有腺苷脱氨酶和胞苷脱氨酶以及Cas12的融合蛋白的示例性结构提供如下:
NH2-[Cas12(腺苷脱氨酶)]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas12(腺苷脱氨酶)]-COOH;
NH2-[Cas12(胞苷脱氨酶)]-[腺苷脱氨酶]-COOH;或
NH2-[腺苷脱氨酶]-[Cas12([胞苷脱氨酶)]-COOH;
在一些实施方案中,以上通用架构中使用的“-”表示可选接头的存在。
在各种实施方案中,催化结构域具有DNA修饰活性(例如,脱氨酶活性),例如腺苷脱氨酶活性。在一些实施方案中,腺苷脱氨酶是TadA(例如TadA*7.10)。在一些实施方案中,所述TadA是TadA*8或TadA*9。在一些实施方案中,TadA*8或TadA*9融合在Cas12内并且胞苷脱氨酶融合到C末端。在一些实施方案中,TadA*8或TadA*9融合在Cas12内并且胞苷脱氨酶融合到N末端。在一些实施方案中,胞苷脱氨酶融合在Cas12内并且TadA*8或TadA*9融合到C末端。在一些实施方案中,胞苷脱氨酶融合在Cas12内并且TadA*8或TadA*9融合到N末端。如下提供了具有TadA*8或TadA*9以及胞苷脱氨酶和Cas12的融合蛋白的示例性结构:
N-[Cas12(TadA*8或TadA*9)]-[胞苷脱氨酶]-C;
N-[胞苷脱氨酶]-[Cas12(TadA*8或TadA*9)]-C;
N-[Cas12(胞苷脱氨酶)]-[TadA*8或TadA*9]-C;或
N-[TadA*8或TadA*9]-[Cas12([胞苷脱氨酶)]-C。
在一些实施方案中,以上通用架构中使用的“-”表示可选接头的存在。
在一些实施方案中,融合蛋白含有一个或多个催化结构域。在其他实施方案中,一个或多个催化结构域中的至少一个插入Cas12多肽内或融合在Cas12 N末端或C末端。在其他实施方案中,一个或多个催化结构域中的至少一个插入Cas12多肽的环、α螺旋区、非结构化部分或溶剂可及部分内。在一些实施方案中,所述Cas12多肽是Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ。在一些实施方案中,所述Cas12多肽与外村尚芽孢杆菌(Bacillus hisashii)Cas12b、嗜热淀粉芽孢杆菌(Bacillusthermoamylovorans)Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环杆菌(Alicyclobacillus acidiphilus)Cas12b具有至少约85%的氨基酸序列同一性。在一些实施方案中,所述Cas12多肽与外村尚芽孢杆菌(Bacillus hisashii)Cas12b、嗜热淀粉芽孢杆菌(Bacillus thermoamylovorans)Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环杆菌(Alicyclobacillus acidiphilus)Cas12b具有至少约90%的氨基酸序列同一性。在一些实施方案中,所述Cas12多肽与外村尚芽孢杆菌(Bacillus hisashii)Cas12b、嗜热淀粉芽孢杆菌(Bacillus thermoamylovorans)Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环杆菌(Alicyclobacillus acidiphilus)Cas12b具有至少约95%的氨基酸序列同一性。在一些实施方案中,所述Cas12多肽包含或基本上由下述的片段组成:外村尚芽孢杆菌Cas12b、嗜热淀粉芽孢杆菌Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环杆菌Cas12b。
在其他实施方案中,催化结构域插入在BhCas12b或相应的氨基酸位置153-154、255-256、306-307、980-981、1019-1020、534-535、604-605或344-345或Cas12a、Cas12c、Cas2d、Cas12e、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ的相应氨基酸残基。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸P153和S154之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸K255和E256之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸D980和G981之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸K1019和L1020之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸F534和P535之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸K604和G605之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸H344和F345之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸位置147和148、248和249、299和300、991和992或1031和1032或Cas12a、Cas12c、Cas2d、Cas12e、Cas12g、Cas12hCas12i或Cas12j/CasΦ的相应氨基酸残基。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸P147和D148之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸G248和G249之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸P299和E300之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸G991和E992之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸K1031和M1032之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸位置157和158、258和259、310和311、1008和1009或1044和1045或Cas12a、Cas12c、Cas2d、Cas12e、Cas12g、Cas12hCas12i或Cas12j/CasΦ的相应氨基酸残基。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸P157和G158之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸V258和G259之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸D310和P311之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸G1008和E1009之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸G1044和K1045之间。
在其他实施方案中,融合蛋白包含核定位信号(例如,二分核定位信号)。在其他实施方案中,核定位信号的氨基酸序列是MAPKKKRKVGIHGVPAA。在上述方面的其他实施方式中,核定位信号由下述序列编码:
ATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGAGTCCCAGCAGCC.在其他实施方案中,Cas12b多肽含有使RuvC结构域的催化活性沉默的突变。在其他实施方案中,Cas12b多肽D574A、D829A和/或D952A突变。在其他实施方案中,融合蛋白还包含标签(例如,流感血凝素标签)。
在一些实施方案中,融合蛋白包含具有内部融合的核碱基编辑结构域(例如,脱氨酶结构域,例如腺苷脱氨酶结构域)的全部或部分的napDNAbp结构域(例如,Cas12衍生结构域)。在一些实施方案中,所述napDNAbp是Cas12b。在一些实施方案中,碱基编辑器包含BhCas12b结构域及在下表7中所提供的基因座处插入了一个内部融合的TadA*8结构域。
表7:Cas12b蛋白中的插入位点
BhCas12b | 插入位点 | 插入aa之间 |
位置1 | 153 | PS |
位置2 | 255 | KE |
位置3 | 306 | DE |
位置4 | 980 | DG |
位置5 | 1019 | KL |
位置6 | 534 | FP |
位置7 | 604 | KG |
位置8 | 344 | HF |
BvCas12b | 插入位点 | 插入aa之间 |
位置1 | 147 | PD |
位置2 | 248 | GG |
位置3 | 299 | PE |
位置4 | 991 | GE |
位置5 | 1031 | KM |
AaCas12b | 插入位点 | 插入aa之间 |
位置1 | 157 | PG |
位置2 | 258 | VG |
位置3 | 310 | DP |
位置4 | 1008 | GE |
位置5 | 1044 | GK |
作为非限制性实例,可以将腺苷脱氨酶(例如,ABE8.13)插入到BhCas12b中以产生有效编辑核酸序列的融合蛋白(例如,ABE8.13-BhCas12b)。
在一些实施方案中,本文所述的碱基编辑系统包含具有插入到Cas9中的TadA的ABE。在2020年8月28日提交的国际PCT申请号PCT/US2020/048586中描述了具有插入Cas9蛋白的TadA的ABE的示例性序列,其内容以其整体通过引用方式并入本文。
具有降低的排他性的Cas9结构域
典型的Cas9蛋白,例如来自化脓性链球菌(spCas9)的Cas9,需要典型的NGG PAM序列来结合特定的核酸区域,其中“NGG”中的“N”是腺苷(A)、胸苷(T)或胞嘧啶(C),G是鸟苷。这可能会限制编辑基因组内所需碱基的能力。在一些实施方案中,本文提供的碱基编辑融合蛋白可能需要放置在精确位置,例如包含位于PAM上游的靶碱基的区域。参见例如,Komor,A.C.等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016),其全部内容在此引入作为参考。因此,在一些实施方案中,本文提供的任何融合蛋白可以包含能够结合不包含规范(例如,NGG)PAM序列的核苷酸序列的Cas9结构域。结合非规范PAM序列的Cas9结构域已在本领域中描述并且对技术人员来说是显而易见的。例如,在Kleinstiver,B.P.等人,“Engineered CRISPR-Cas9 nucleases with altered PAM specificities”Nature 523,481-485(2015);和Kleinstiver,B.P.等人,“Broadening the targeting range ofStaphylococcus aureus CRISPR-Cas9 by modifying PAM recognition”NatureBiotechnology 33,1293-1298(2015)Nishimasu,H.,等人,“Engineered CRISPR-Cas9nuclease with expanded targeting space”Science.2018 Sep 21;361(6408):1259-1262,Chatterjee,P.,等人,Minimal PAM specificity of a highly similar SpCas9ortholog”Sci Adv.2018 Oct 24;4(10):eaau0766.doi:10.1126/sciadv.aau0766,中已经描述了结合非典型PAM序列的Cas9结构域,其全部内容以引用方式并入本文。
核碱基编辑结构域
本文描述了包含融合蛋白的碱基编辑器,该融合蛋白包括多核苷酸可编程核苷酸结合结构域和核碱基编辑结构域(例如,脱氨酶结构域)。碱基编辑器可以被编程以通过与能够识别靶标序列的引导多核苷酸相互作用来编辑靶标多核苷酸序列中的一个或多个碱基。一旦识别了靶标序列,碱基编辑器就锚定在要进行编辑的多核苷酸上,然后碱基编辑器的脱氨酶结构域组件可以编辑靶标碱基。
在一些实施方案中,所述核碱基编辑结构域包括脱氨酶结构域。在一些实施方案中,碱基编辑器包括将靶标C·G碱基对转化为T·A的胞苷碱基编辑器(例如,BE4)。在一些实施方案中,碱基编辑器包括将A·T转化为G·C的腺苷碱基编辑器(例如,ABE7.10)。如本文特别描述的,脱氨酶结构域包括腺苷脱氨酶。在一些实施方案中,术语“腺嘌呤脱氨酶”和“腺苷脱氨酶”可以互换使用。核碱基编辑蛋白的细节在国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)中有所描述,它们各自通过引用整体并入本文。另参见Komor,A.C.等人,“无双链DNA切割的基因组DNA中靶碱基的可编程编辑”Nature 533,420-424(2016);Gaudelli,N.M.等人,“无DNA切割的基因组DNA中A·T到G·C的可编程碱基编辑”Nature 551,464-471(2017);以及Komor,A.C.等人,“改善的碱基切除修复抑制和噬菌体Mu Gam蛋白产生C:G-到-T:A的碱基编辑器,其具有更高的效率和产品纯度”Science Advances 3:eaao4774(2017),其整体内容以引用方式并入本文。
A到G编辑
在一些实施方案中,本文所述的碱基编辑器可包含脱氨酶结构域,其包括腺苷脱氨酶。碱基编辑器的这种腺苷脱氨酶结构域可以通过将A脱氨形成肌苷(I)来促进将腺嘌呤(A)核碱基编辑为鸟嘌呤(G)核碱基,肌苷(I)具有G的碱基配对特性。腺苷脱氨酶能够脱氧核糖核酸(DNA)中脱氧腺苷残基的腺嘌呤脱氨(即,除去胺基团)。
在一些实施方案中,本文提供的核碱基编辑器可以通过将一个或多个蛋白质结构域融合在一起来制备,从而产生融合蛋白。在某些实施方案中,本文提供的融合蛋白包含一种或多种改善融合蛋白的碱基编辑活性(例如,效率、选择性和特异性)的特征。例如,本文提供的融合蛋白可包含核酸酶活性降低的Cas9结构域。在一些实施方案中,本文提供的融合蛋白可具有不具有核酸酶活性的Cas9结构域(dCas9),或切割双链DNA分子的一条链的Cas9结构域,称为Cas9切口酶(nCas9)。不希望受任何特定理论的束缚,催化残基(例如,H840)的存在保持了Cas9切割含有与靶向A相对的T的非编辑(例如,非脱氨)链的活性。突变Cas9的催化残基(例如,D10到A10)的切割防止包含靶标A残基的编辑链的切割。此类Cas9变体能够基于gRNA定义的靶标序列在特定位置产生单链DNA断裂(缺口),从而修复未编辑的链,最终导致非编辑链上的T到C变化。在一些实施方案中,A-to-G碱基编辑器还包含肌苷碱基切除修复抑制剂,方案如尿嘧啶糖基化酶抑制剂(UGI)结构域或无催化活性的肌苷特异性核酸酶。不希望受任何特定理论的束缚,UGI结构域或无催化活性的肌苷特异性核酸酶可以抑制或阻止脱氨腺苷残基(例如肌苷)的碱基切除修复,这可以提高碱基编辑器的活性或效率。
包含腺苷脱氨酶的碱基编辑器可作用于任何多核苷酸,包括DNA、RNA和DNA-RNA杂交体。在某些实施方案中,包含腺苷脱氨酶的碱基编辑器可以使包含RNA的多核苷酸的靶标A脱氨。例如,碱基编辑器可以包含能够使RNA多核苷酸和/或DNA-RNA杂合多核苷酸的靶A脱氨的腺苷脱氨酶结构域。在一个实施方案中,掺入碱基编辑器的腺苷脱氨酶包含作用于RNA(ADAR,如ADAR1或ADAR2)的全部或部分腺苷脱氨酶。在另一个实施方案中,掺入碱基编辑器的腺苷脱氨酶包含作用于tRNA(ADAT)的全部或部分腺苷脱氨酶。包含腺苷脱氨酶结构域的碱基编辑器也能够使DNA多核苷酸的A核碱基脱氨。在一个实施方案中,碱基编辑器的腺苷脱氨酶结构域包含ADAT的全部或一部分,该ADAT包含一个或多个允许ADAT使DNA中的靶标A脱氨的突变。例如,碱基编辑器可包含来自大肠杆菌的ADAT(EcTadA)的全部或部分,其包含下述突变中的一种或多种:D108N、A106V、D147Y、E155V、L84F、H123Y、I156F或另一种腺苷脱氨酶中的相应突变。
腺苷脱氨酶可以源自任何合适的生物体(例如,大肠杆菌)。在一些实施方案中,腺嘌呤脱氨酶是天然存在的腺苷脱氨酶,其包括一个或多个对应于本文提供的任何突变(例如,ecTadA中的突变)的突变。任何同源蛋白质中的相应残基可以通过例如序列比对和同源残基的测定来鉴定。可以相应地产生对应于本文描述的任何突变(例如,在ecTadA中鉴定的任何突变)的任何天然存在的腺苷脱氨酶(例如,与ecTadA具有同源性)中的突变。
腺苷脱氨酶
在一些实施方案中,本文所述的融合蛋白可包含脱氨酶结构域,其包括腺苷脱氨酶。碱基编辑器的这种腺苷脱氨酶结构域可以通过将A脱氨形成肌苷(I)来促进将腺嘌呤(A)核碱基编辑为鸟嘌呤(G)核碱基,肌苷(I)具有G的碱基配对特性。腺苷脱氨酶能够脱氧核糖核酸(DNA)中脱氧腺苷残基的腺嘌呤脱氨(即,除去胺基团)。
在一些实施方案中,本文提供的腺苷脱氨酶能够使腺嘌呤脱氨。在一些实施方案中,本文提供的腺苷脱氨酶能够使DNA的脱氧腺苷残基中的腺嘌呤脱氨。在一些实施方案中,腺嘌呤脱氨酶是天然存在的腺苷脱氨酶,其包括一个或多个对应于本文提供的任何突变(例如,ecTadA中的突变)的突变。本领域技术人员将能够鉴定任何同源蛋白质中的相应残基,例如通过序列比对和同源残基的确定。因此,本领域技术人员将能够在任何天然存在的腺苷脱氨酶(例如,与ecTadA具有同源性)中产生对应于本文所述的任何突变(例如,在ecTadA中鉴定的任何突变)的突变。在一些实施方案中,所述腺苷脱氨酶来自原核生物。在一些实施方案中,所述腺苷脱氨酶来自细菌。在一些实施方案中,所述腺苷脱氨酶来自大肠杆菌、金黄色葡萄球菌、腐败希瓦氏菌、流感嗜血杆菌、柄杆菌或枯草芽孢杆菌。在一些实施方案中,所述腺苷脱氨酶来自大肠杆菌。
本公开提供了具有增加的效率(>50-60%)和特异性的腺苷脱氨酶变体。特别地,本文所述的腺苷脱氨酶变体更有可能编辑多核苷酸内的所需碱基,并且不太可能编辑不打算改变的碱基(即,“旁观者(bystander)”)。
在特定实施方案中,TadA是PCT/US2017/045381(WO 2018/027078)中描述的TadA中的任一种,该专利通过引用整体并入本文。野生型TadA(TadA(wt))或“TadA参考序列”如下:
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD
在一些实施方案中,本公开内容的核碱基编辑器是包含下述序列改变的腺苷脱氨酶变体:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(也称为TadA*7.10)。
在特定实施方案中,融合蛋白包含单个(例如,作为单体提供)TadA*8变体。在一些实施方案中,TadA*8与Cas9切口酶连接。在一些实施方案中,本公开的融合蛋白包含与TadA*8变体连接的作为野生型TadA(TadA(wt))的异二聚体。在其他实施方案中,本公开的融合蛋白包含与TadA*8变体连接的TadA*7.10的异二聚体。在一些实施方案中,碱基编辑器是包含TadA*8变体单体的ABE8。在一些实施方案中,碱基编辑器是包含TadA*8变体和TadA(wt)的异二聚体的ABE8。在一些实施方案中,碱基编辑器是包含TadA*8变体和TadA*7.10的异二聚体的ABE8。在一些实施方案中,碱基编辑器是包含TadA*8变体的异二聚体的ABE8。在一些实施方案中,TadA*8变体选自表8、10、11、12或13中的一种或多种。
在一些实施方案中,碱基编辑器是包含TadA*9变体的ABE9。在一些实施方案中,碱基编辑器是包含TadA*9变体单体的ABE9。在一些实施方案中,碱基编辑器是包含TadA*9变体和TadA(wt)的异二聚体的ABE9。在一些实施方案中,碱基编辑器是包含TadA*9变体和另一个TadA变体(例如,TadA*7.10)的异二聚体的ABE9。在一些实施方案中,碱基编辑器是包含TadA*9变体的同源二聚体的ABE9。在一些实施方案中,TadA*9变体如本文表14和18中所提供。在一些实施方案中,TadA*9变体选自下文描述的变体以及参考下述序列(称为TadA*7.10):
在一些实施方案中,本发明提供的腺苷脱氨酶(例如,TadA*9)包含选自由下述所组成的组在氨基酸位置处的改变:SEQ ID NO:1的21、23、25、38、51、54、70、71、72、73、94、124、133、139、146,和158,或在另一种腺苷脱氨酶的相应改变。在一些实施方案中,腺苷脱氨酶(例如,TadA*9)包含一个或更多个下述的改变:R21N、R23H、E25F、N38G、L51W、P54C、M70V、Q71M、N72K、Y73S、V82T、M94V、P124W、T133K、D139L、D139M、C146R和A158K,或另一种腺苷脱氨酶的相应改变。参考序列中改变的相关碱基下述划线和粗体显示。
在一些实施方案中,腺苷脱氨酶包含一个或更多个下述的改变的组合:V82S+Q154R+Y147R;V82S+Q154R+Y123H;V82S+Q154R+Y147R+Y123H;Q154R+Y147R+Y123H+I76Y+V82S;V82S+I76Y;V82S+Y147R;V82S+Y147R+Y123H;V82S+Q154R+Y123H;Q154R+Y147R+Y123H+I76Y;V82S+Y147R;V82S+Y147R+Y123H;V82S+Q154R+Y123H;V82S+Q154R+Y147R;V82S+Q154R+Y147R;Q154R+Y147R+Y123H+I76Y;Q154R+Y147R+Y123H+I76Y+V82S;I76Y_V82S_Y123H_Y147R_Q154R;Y147R+Q154R+H123H;和V82S+Q154R.
在一些实施方案中,腺苷脱氨酶包含一个或更多个下述的改变的组合:E25F+V82S+Y123H,T133K+Y147R+Q154R;E25F+V82S+Y123H+Y147R+Q154R;L51W+V82S+Y123H+C146R+Y147R+Q154R;Y73S+V82S+Y123H+Y147R+Q154R;P54C+V82S+Y123H+Y147R+Q154R;N38G+V82T+Y123H+Y147R+Q154R;N72K+V82S+Y123H+D139L+Y147R+Q154R;E25F+V82S+Y123H+D139M+Y147R+Q154R;Q71M+V82S+Y123H+Y147R+Q154R;E25F+V82S+Y123H+T133K+Y147R+Q154R;E25F+V82S+Y123H+Y147R+Q154R;V82S+Y123H+P124W+Y147R+Q154R;L51W+V82S+Y123H+C146R+Y147R+Q154R;P54C+V82S+Y123H+Y147R+Q154R;Y73S+V82S+Y123H+Y147R+Q154R;N38G+V82T+Y123H+Y147R+Q154R;R23H+V82S+Y123H+Y147R+Q154R;R21N+V82S+Y123H+Y147R+Q154R;V82S+Y123H+Y147R+Q154R+A158K;N72K+V82S+Y123H+D139L+Y147R+Q154R;E25F+V82S+Y123H+D139M+Y147R+Q154R;和M70V+V82S+M94V+Y123H+Y147R+Q154R
在一些实施方案中,腺苷脱氨酶包含一个或更多个下述的改变的组合:Q71M+V82S+Y123H+Y147R+Q154R;E25F+I76Y+V82S+Y123H+Y147R+Q154R;I76Y+V82T+Y123H+Y147R+Q154R;N38G+I76Y+V82S+Y123H+Y147R+Q154R;R23H+I76Y+V82S+Y123H+Y147R+Q154R;P54C+I76Y+V82S+Y123H+Y147R+Q154R;R21N+I76Y+V82S+Y123H+Y147R+Q154R;I76Y+V82S+Y123H+D139M+Y147R+Q154R;Y73S+I76Y+V82S+Y123H+Y147R+Q154R;E25F+I76Y+V82S+Y123H+Y147R+Q154R;I76Y+V82T+Y123H+Y147R+Q154R;N38G+I76Y+V82S+Y123H+Y147R+Q154R;R23H+I76Y+V82S+Y123H+Y147R+Q154R;P54C+I76Y+V82S+Y123H+Y147R+Q154R;R21N+I76Y+V82S+Y123H+Y147R+Q154R;I76Y+V82S+Y123H+D139M+Y147R+Q154R;Y73S+I76Y+V82S+Y123H+Y147R+Q154R;V82S+Q154R;N72K_V82S+Y123H+Y147R+Q154R;Q71M_V82S+Y123H+Y147R+Q154R;V82S+Y123H+T133K+Y147R+Q154R;V82S+Y123H+T133K+Y147R+Q154R+A158K;M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R;N72K+V82S+Y123H+Y147R+Q154R;Q71M_V82S+Y123H+Y147R+Q154R;M70V+V82S+M94V+Y123H+Y147R+Q154R;V82S+Y123H+T133K+Y147R+Q154R;V82S+Y123H+T133K+Y147R+Q154R+A158K;和M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R。在一些实施方案中,腺苷脱氨酶是以单体表达。在另一个实施方案中,腺苷脱氨酶是以异二聚体表达。在一些实施方案中,脱氨酶或其他多肽序列缺少甲硫氨酸,例如当其作为融合蛋白的组分而被包括时。这可以改变位置处的编号。然而,所属技术领域的技术人员将理解此类相应突变是指相同的突变,例如Y73S和Y72S以及D139M和D138M。
在一些实施方案中,所述腺苷脱氨酶与本文提供的任何腺苷脱氨酶的任何一个氨基酸序列至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。应当理解,本文提供的腺苷脱氨酶可以包括一个或多个突变(例如,本文提供的任何突变)。本公开提供具有一定百分比同一性的任何脱氨酶结构域加上本文所述的任何突变或其组合。在一些实施方案中,腺苷结构域包含的氨基酸序列与参考序列或本文所述的任何一种腺苷脱氨酶相比,具有下述1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个突变。在一些实施方案中,与本领域已知或本文所述的任一氨基酸序列相比,腺苷脱氨酶包含具有至少5、至少10、至少15、至少20、至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个相同的连续氨基酸残基。
在一些实施方案中,所述TadA脱氨酶是全长大肠杆菌TadA脱氨酶。例如,在某些实施方案中,所述腺苷脱氨酶包含氨基酸序列:
MRRAFITGVFFLSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD.
然而,应当理解,可用于本申请的另外的腺苷脱氨酶对于技术人员是显而易见的并且在本公开的范围内。例如,腺苷脱氨酶可以是作用于tRNA的腺苷脱氨酶(ADAT)的同源物。非限制性地,示例性AD AT同源物的氨基酸序列包括下述:
金黄色葡萄球菌TadA:
MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGCSGSLMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN
枯草芽孢杆菌TadA:
MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE
鼠伤寒沙门氏菌(S.typhimurium)TadA:
MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV
腐败希瓦氏菌(S.putrefaciens)TadA:
MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE
流感嗜血杆菌F3031(H.influenzae)TadA:
AEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEKKIEKALLKSLSDK
柄杆菌(C.crescentus)TadA:
MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI
硫还原地杆菌(G.sulfurreducens)TadA:
MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP
大肠杆菌TadA(ecTadA)的一个实施方案包括下述:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
在一些实施方案中,所述腺苷脱氨酶来自原核生物。在一些实施方案中,所述腺苷脱氨酶来自细菌。在一些实施方案中,所述腺苷脱氨酶来自大肠杆菌、伤寒沙门氏菌、腐败希瓦氏菌、流感嗜血杆菌、柄杆菌或枯草芽孢杆菌。在一些实施方案中,所述腺苷脱氨酶来自大肠杆菌。
在一个实施方案中,本公开的融合蛋白包含与TadA*7.10连接的野生型TadA,其与Cas9切口酶连接。在特定实施方案中,融合蛋白包含单个TadA*7.10结构域(例如,作为单体提供)。在其他实施方案中,ABE7.10编辑器包含能够形成异二聚体的TadA*7.10和TadA(wt)。
在一些实施方案中,所述腺苷脱氨酶与本文提供的任何腺苷脱氨酶的任何一个氨基酸序列至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。应当理解,本文提供的腺苷脱氨酶可以包括一个或多个突变(例如,本文提供的任何突变)。本公开提供具有一定百分比同一性的任何脱氨酶结构域加上本文所述的任何突变或其组合。在一些实施方案中,腺苷结构域包含的氨基酸序列与参考序列或本文所述的任何一种腺苷脱氨酶相比,具有下述1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个突变。在一些实施方案中,与本领域已知或本文所述的任一氨基酸序列相比,腺苷脱氨酶包含具有至少5、至少10、至少15、至少20、至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个相同的连续氨基酸残基。
应当理解,本文提供的任何突变(例如,基于TadA参考序列)可以引入其他腺苷脱氨酶,例如大肠杆菌TadA(ecTadA)、金黄色葡萄球菌TadA(saTadA)或其他腺苷脱氨酶(例如,细菌腺苷脱氨酶)。对于技术人员显而易见的是,可以类似地比对额外的脱氨酶以鉴定可以如本文提供的突变的同源氨基酸残基。因此,可以在具有同源氨基酸残基的其他腺苷脱氨酶(例如,ecTada)中进行在TadA参考序列中鉴定的任何突变。还应当理解,本文提供的任何突变可以单独或以任何组合在TadA参考序列或另一种腺苷脱氨酶中进行。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含D108G、D108N、D108V、D108A或D108Y突变,或另一腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V突变,或另一种腺苷脱氨酶(例如,野生型TadA或ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E155X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E155D、E155G或E155V突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D147X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D147Y突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106X、E155X或D147X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,所述腺苷脱氨酶变体包含E155D、E155G或E155V突变。在一些实施方案中,所述腺苷脱氨酶包含D147Y。
例如,腺苷脱氨酶可以在TadA参考序列中含有D108N、A106V、E155V和/或D147Y突变,或在另一种腺苷脱氨酶(例如,ecTadA)中含有相应的突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的下述突变组(突变组由“;”分隔),或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变:D108N和A106V;D108N和E155V;D108N和D147Y;A106V和E155V;A106V和D147Y;E155V和D147Y;D108N,A106V、和E155V;D108N、A106V、和D147Y;D108N、E155V、和D147Y;A106V、E155V、和D147Y;和D108N、A106V、E155V、和D147Y。然而,应当理解,本文提供的相应突变的任何组合可以在腺苷脱氨酶(例如,ecTadA)中进行。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的下述一种或多种突变:H8X,T17X,L18X,W23X,L34X,W45X,R51X,A56X,E59X,E85X,M94X,I95X,V102X,F104X,A106X,R107X,D108X,K110X,M118X,N127X,A138X,F149X,M151X,R153X,Q154X,I156X,和/或K157X,或另一种腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中,X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含下述TadA参考序列中的一个或多个突变:H8Y、T17S、L18E、W23L、L34S、W45L、R51H、A56E、或A56S、E59G、E85K、或E85G M94L、I95L、V102A、F104L、A106V、R107C、或R107H、或R107P、D108G、或D108N、或D108V、或D108A、或D108Y、K110I、M118K、N127S、A138V、F149Y、M151V、R153C、Q154L、I156D、和/或K157R,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的一个或多个H8X、D108X和/或N127X突变,或另一个腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示存在任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的一种或多种H8Y、D108N和/或N127S突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一种或多种相应突变。
在一些实施方案中,腺苷脱氨酶包含H8X、R26X、M61X、L68X、M70X、A106X、D108X、A109X、N127X、D147X、R152X、Q154X、E155X、K161X、Q163X和/或T166X在TadA参考序列中的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中,X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的下述一个或多个突变:H8Y、R26W、M61I、L68Q、M70V、A106T、D108N、A109T、N127S、D147Y、R152C、Q154H或Q154R、E155G或E155V或E155D、K161Q、Q163H和/或T166P,或另一种腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含在TadA参考序列中一个、两个、三个、四个、五个或六个选自由H8X、D108X、N127X、D147X、R152X和Q154X组成的组的突变,或在另一种腺苷脱氨酶(例如,ecTadA)中的相应突变或突变,其中,X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含一个、两个、三个、四个、五个、六个、七个或八个突变,其选自由TadA参考中的H8X、M61X、M70X、D108X、N127X、Q154X、E155X和Q163X组成的组序列,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变或突变,其中,X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个或五个选自由H8X、D108X、N127X、E155X和T166X所组成的组的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变或突变,其中,X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶包含一个、两个、三个、四个、五个或六个选自由H8X、A106X和D108X所组成的组的突变,或另一种腺苷脱氨酶中的相应突变或突变,其中,X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含一个、两个、三个、四个、五个、六个、七个或八个选自由H8X、R26X、L68X、D108X、N127X、D147X和E155X所组成的组的突变,或另一种腺苷脱氨酶中的相应突变或突变,其中,X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个、六个或七个选自由H8X、R126X、L68X、D108X、N127X、D147X和E155X所组成的组的突变,或在另一种腺苷脱氨酶中的相应突变或突变,其中,X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含在TadA参考序列中一个、两个、三个、四个、五个选自由H8X、D108X、A109X、N127X和E155X所组成的组的突变,或在另一种腺苷脱氨酶中的相应突变或突变,其中,X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、五个或六个选自由H8Y、D108N、N127S、D147Y、R152C和Q154H所组成的组的突变,或在另一种腺苷脱氨酶(例如,ecTadA)中的相应突变或突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个、六个、七个或八个选自由H8Y、M61I、M70V、D108N、N127S、Q154R、E155G和Q163H所组成的组的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变或突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个或五个选自由H8Y、D108N、N127S、E155V和T166P组成的组的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变或突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个或六个选自由H8Y、A106T、D108N、N127S、E155D和K161Q所组成的组的突变,或在另一种腺苷脱氨酶(例如,ecTadA)中的相应突变或突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个、六个、七个或八个选自由H8Y、R26W、L68Q、D108N、N127S、D147Y和E155V所组成的组的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变或突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个或五个选自由H8Y、D108N、A109T、N127S和E155G所组成的组的突变,或在另一种腺苷脱氨酶(例如,ecTadA)中的相应突变或突变。
本文提供的任何突变和任何额外的突变(例如,基于ecTadA氨基酸序列)可以被引入到任何其他腺苷脱氨酶中。本文提供的任何突变可以单独或以任何组合在TadA参考序列或另一种腺苷脱氨酶(例如,ecTadA)中进行。
A到G核碱基编辑蛋白的详细信息在国际PCT申请号PCT/2017/045381(WO2018/027078)和Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C ingenomic DNA without DNA cleavage”Nature,551,464-471(2017),其全部内容通过引用并入本文。
在一些实施方案中,腺苷脱氨酶包含另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108N、D108G或D108V突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V和D108N突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R107C和D108N突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、N127S、D147Y和Q154H突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、N127S、D147Y和E155V突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108N、D147Y和E155V突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N和N127S突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V、D108N、D147Y和E155V突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S2X、H8X、I49X、L84X、H123X、N127X、I156X和/或K160X突变,或另一种腺苷脱氨酶中的一个或多个相应突变,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S2A、H8Y、I49F、L84F、H123Y、N127S、I156F和/或K160S突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一种或多种相应突变。
在一些实施方案中,腺苷脱氨酶包含L84X突变腺苷脱氨酶,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的L84F突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H123X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H123Y突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的I156X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的I156F突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个、六个或七个选自由L84X,A106X、D108X、H123X、D147X、E155X和I156X组成的组的突变,或相应的一个或多个突变在另一种腺苷脱氨酶(例如,ecTadA)中,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含在TadA参考序列中一个、两个、三个、四个、五个或六个选自由S2X、I49X、A106X、D108X、D147X和E155X组成的组的突变,或在另一种腺苷脱氨酶(例如,ecTadA)中的相应突变或突变,其中,X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个或五个选自由H8X、A106X、D108X、N127X和K160X所组成的组的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变或突变,其中,X的存在表示除了野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个、六个或七个选自由L84F、A106V、D108N、H123Y、D147Y、E155V和I156F组成的组的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个或六个选自由S2A、I49F、A106V、D108N、D147Y和E155V组成的组的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个或五个选自由H8Y、A106T、D108N、N127S和K160S组成的组的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变或突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中一个或多个E25X、R26X、R107X、A142X和/或A143X突变,或另一种腺苷脱氨酶中的一个或多个相应突变,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的一个或多个E25M、E25D、E25A、E25R、E25V、E25S、E25Y、R26G、R26N、R26Q、R26C、R26L、R26K、R107P、R107K、R107A、R107N、R107W、R107H、R107S、A142N、A142D、A142G、A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含一个或多个本文所述的对应于TadA参考序列的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一种或多种相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E25X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S和E25Y突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R26X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R26G、R26N、R26Q、R26C、R26L和R26K突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R107X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R107P、R107K、R107A、R107N、R107W、R107H和R107S突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142N、A142D、A142G突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A143X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的一个或多个H36X、N37X、P48X、I49X、R51X、M70X、N72X、D77X、E134X、S146X、Q154X、K157X和/或K161X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的一个或多个H36L、N37T、N37S、P48T、P48L、I49V、R51H、R51L、M70L、N72S、D77G、E134G、S146R、S146C、Q154H、K157N、和/或K161T突变,或另一种腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H36X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H36L突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的N37X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的N37T或N37S突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48T或P48L突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R51X突变,或另一种腺苷脱氨酶中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R51H或R51L突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S146X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S146R或S146C突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的K157X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的K157N突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48S、P48T或P48A突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142N突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的W23X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的W23R或W23L突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R152X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R152P或R52H突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一个实施方案中,腺苷脱氨酶可包含突变H36L、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F和K157N。在一些实施方案中,腺苷脱氨酶包含下述相对于TadA参考序列的突变组合,其中组合的每个突变由“_”分隔并且每个突变组合在括号之间:
(A106V_D108N),
(R107C_D108N),
(H8Y_D108N_N127S_D147Y_Q154H),
(H8Y_D108N_N127S_D147Y_E155V),
(D108N_D147Y_E155V),
(H8Y_D108N_N127S),
(H8Y_D108N_N127S_D147Y_Q154H),
(A106V_D108N_D147Y_E155V),
(D108Q_D147Y_E155V),
(D108M_D147Y_E155V),
(D108L_D147Y_E155V),
(D108K_D147Y_E155V),
(D108I_D147Y_E155V),
(D108F_D147Y_E155V),
(A106V_D108N_D147Y),
(A106V_D108M_D147Y_E155V),
(E59A_A106V_D108N_D147Y_E155V),
(E59A cat dead_A106V_D108N_D147Y_E155V),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156Y),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(D103A_D104N),
(G22P_D103A_D104N),
(D103A_D104N_S138A),
(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(E25G_R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(E25D_R26G_L84F_A106V_R107K_D108N_H123Y_A142N_A143G_D147Y_E155V_I156F),
(R26Q_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(E25M_R26G_L84F_A106V_R107P_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(R26C_L84F_A106V_R107H_D108N_H123Y_A142N_D147Y_E155V_I156F),(L84F_A106V_D108N_H123Y_A142N_A143L_D147Y_E155V_I156F),
(R26G_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(E25A_R26G_L84F_A106V_R107N_D108N_H123Y_A142N_A143E_D147Y_E155V_I156F),
(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(A106V_D108N_A142N_D147Y_E155V),
(R26G_A106V_D108N_A142N_D147Y_E155V),
(E25D_R26G_A106V_R107K_D108N_A142N_A143G_D147Y_E155V),
(R26G_A106V_D108N_R107H_A142N_A143D_D147Y_E155V),
(E25D_R26G_A106V_D108N_A142N_D147Y_E155V),
(A106V_R107K_D108N_A142N_D147Y_E155V),
(A106V_D108N_A142N_A143G_D147Y_E155V),
(A106V_D108N_A142N_A143L_D147Y_E155V),
(H36L_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(N37T_P48T_M70L_L84F_A106V_D108N_H123Y_D147Y_I49V_E155V_I156F),
(N37S_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K161T),
(H36L_L84F_A106V_D108N_H123Y_D147Y_Q154H_E155V_I156F),
(N72S_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F),
(H36L_P48L_L84F_A106V_D108N_H123Y_E134G_D147Y_E155V_I156F),
(H36L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N),
(H36L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T),
(N37S_R51H_D77G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R51L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N),
(D24G_Q71R_L84F_H96L_A106V_D108N_H123Y_D147Y_E155V_I156F_K160E),
(H36L_G67V_L84F_A106V_D108N_H123Y_S146T_D147Y_E155V_I156F),
(Q71L_L84F_A106V_D108N_H123Y_L137M_A143E_D147Y_E155V_I156F),
(E25G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L),
(L84F_A91T_F104I_A106V_D108N_H123Y_D147Y_E155V_I156F),
(N72D_L84F_A106V_D108N_H123Y_G125A_D147Y_E155V_I156F),
(P48S_L84F_S97C_A106V_D108N_H123Y_D147Y_E155V_I156F),
(W23G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(D24G_P48L_Q71R_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L),
(L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(H36L_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(N37S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_K161T),
(L84F_A106V_D108N_D147Y_E155V_I156F),
(R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K161T),
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K161T),
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E_K161T),
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E),
(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R74A_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_R98Q_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_R129Q_D147Y_E155V_I156F),
(P48S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(P48S_A142N),
(P48T_I49V_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_L157N),
(P48T_I49V_A142N),
(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F
(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152H_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_R152P_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T),
(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_R152P_E155V_I156F_K157N).
在某些实施方案中,本文提供的融合蛋白包含一种或多种改善融合蛋白的碱基编辑活性的特征。例如,本文提供的任何融合蛋白可包含具有降低的核酸酶活性的Cas9结构域。在一些实施方案中,本文提供的任何融合蛋白可具有不具有核酸酶活性的Cas9结构域(dCas9),或切割双链DNA分子的一条链的Cas9结构域,称为Cas9切口酶(nCas9)。
在一些实施方案中,所述腺苷脱氨酶是TadA*7.10。在一些实施方案中,TadA*7.10包含至少一个改变。在特定实施方案中,TADA*7.10包含一个或多个下述改变的:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。改变Y123H在本文中也称为H123H(TadA*7.10中的改变H123Y回复回Y123H(wt))。在其他实施方案中,TadA*7.10包含选自下述群组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R。在其他实施方案中,腺苷脱氨酶变体包含相对于TadA*7.10、TadA参考序列,其包含从残基149、150、151、152、153、154、155、156或157开始的C末端的缺失,或另一个TadA中的相应突变。
在其他实施方案中,本公开内容的碱基编辑器是包含腺苷脱氨酶变体(例如,TadA*8)的单体,所述变体包含一个或多个下述改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。在其他实施方案中,腺苷脱氨酶变体(TadA*8)是包含选自下组的改变组合的单体:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在其他实施方案中,碱基编辑器是包含野生型腺苷脱氨酶和腺苷脱氨酶变体(例如,TadA*8)的异二聚体,其包含一个或多个下述改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在其他实施方案中,碱基编辑器包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如,TadA*8)的异二聚体,其包含选自下述的改变的组合的组:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在其他实施方案中,碱基编辑器包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异二聚体,其包含下述改变中的一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在其他实施方案中,碱基编辑器是包含野生型腺苷脱氨酶和腺苷脱氨酶变体结构域(例如TadA*8)的异源二聚体,其包含选自下列群组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在其他实施方案中,碱基编辑器是包含TadA*7.10结构域和腺苷脱氨酶变体(例如,TadA*8)的异二聚体,其包含一个或多个下述改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对于TadA*7.10、TadA参考序列,或另一个TadA中的相应突变。在其他实施方案中,碱基编辑器是包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异源二聚体,其包含选自下组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在一个实施方案中,所述腺苷脱氨酶是TadA*8,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD
在一些实施方案中,所述TadA*8被截断。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个C末端氨基酸残基。在一些实施方案中所述腺苷脱氨酶变体是全长TadA*8。
在一些实施方案中,所述TadA*8是TadA*8.1,TadA*8.2,TadA*8.3,TadA*8.4,TadA*8.5,TadA*8.6,TadA*8.7,TadA*8.8,TadA*8.9,TadA*8.10,TadA*8.11,TadA*8.12,TadA*8.13,TadA*8.14,TadA*8.15,TadA*8.16,TadA*8.17,TadA*8.18,TadA*8.19,TadA*8.20,TadA*8.21,TadA*8.22,TadA*8.23,或TadA*8.24。
在其他实施方案中,本公开内容的碱基编辑器是包含腺苷脱氨酶变体(例如,TadA*8)的单体,所述变体包含一个或多个下述改变:R26C、V88A、A109S、T111R、D119N、H122N、Y147DF149Y、T166I和/或D167N,相对TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在其他实施方案中,腺苷脱氨酶变体(TadA*8)是包含选自下组的改变组合的单体:R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N;V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;V88A+T111R+D119N+F149Y;and A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N,相对于TadA*7.10,TadA参考序列,或另一个TadA中的相应突变。
在其他实施方案中,碱基编辑器是包含野生型腺苷脱氨酶和腺苷脱氨酶变体(例如,TadA*8)的异二聚体,其包含一个或多个下述的改变R26C、V88A、A109S、T111R、D119N、H122N、Y147DF149Y、T166I和/或D167N,相对于TadA*7.10、TadA参考序列,或另一个TadA中的相应突变。在其他实施方案中,碱基编辑器是包含野生型腺苷脱氨酶和腺苷脱氨酶变体结构域(例如TadA*8)的异源二聚体,其包含选自下列群组的改变的组合:R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N;V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;V88A+T111R+D119N+F149Y;and A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N,相对于TadA*7.10,TadA参考序列,或另一个TadA中的相应突变。
在其他实施方案中,碱基编辑器是包含TadA*7.10结构域和腺苷脱氨酶变体(例如,TadA*8)的异二聚体,其包含一个或多个下述改变R26C、V88A,A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和/或D167N,相对于TadA*7.10、TadA参考序列,或另一个TadA中的相应突变。在其他实施方案中,碱基编辑器是包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异源二聚体,其包含选自下组的改变的组合:R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N;V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N;V88A+T111R+D119N+F149Y;and A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N,相对于TadA*7.10,TadA参考序列,或另一个TadA中的相应突变。
在一些实施方案中,所述TadA*8是表8所示的变体。表8显示了TadA氨基酸序列中的某些氨基酸位置编号以及TadA-7.10腺苷脱氨酶中这些位置中存在的氨基酸。表8还显示了在噬菌体辅助非连续进化(PANCE)和噬菌体辅助连续进化(PACE)之后TadA变体相对于TadA*7.10中的氨基酸变化,如M.Richter等人,2020,Nature Biotechnology,doi.org/10.1038/s41587-020-0453-z中所述,其全部内容以引用方式并入本文。在一些实施方案中,TadA*8是TadA*8a、TadA*8b、TadA*8c、TadA*8d或TadA*8e。在一些实施方案中,所述TadA*8是TadA*8e。
表8.其他TadA*8变体
在一个实施方案中,本公开的融合蛋白包含与本文所述的腺苷脱氨酶变体(例如,TadA*8)连接的野生型TadA,所述腺苷脱氨酶变体与Cas9切口酶连接。在特定实施方案中,融合蛋白包含单个TadA*8结构域(例如,作为单体提供)。在其他实施方案中,编辑器包含能够形成异二聚体的TadA*8和TadA(wt)。示例性序列如下:
TadA(wt)或“TadA参考序列”:
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD
TadA*7.10:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
TadA*8:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
在一些实施方案中,所述腺苷脱氨酶与本文提供的任何腺苷脱氨酶的任何一个氨基酸序列至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。应当理解,本文提供的腺苷脱氨酶可以包括一个或多个突变(例如,本文提供的任何突变)。本公开提供具有一定百分比同一性的任何脱氨酶结构域加上本文所述的任何突变或其组合。在一些实施方案中,腺苷结构域包含的氨基酸序列与参考序列或本文所述的任何一种腺苷脱氨酶相比,具有下述1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个突变。在一些实施方案中,与本领域已知或本文所述的任一氨基酸序列相比,腺苷脱氨酶包含具有至少5、至少10、至少15、至少20、至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个相同的连续氨基酸残基。
在特定实施方案中,TadA*8在下述以粗体显示的任何位置处包含一个或多个突变。在其他实施方案中,TadA*8在下述划线所示的任何位置处包含一个或多个突变:
例如,TadA*8包含单独或与下述Y147T、Y147R、Q154S、Y123H和/或Q154R中的任何一种或多种组合的氨基酸位置82和/或166(例如V82S、T166R)的改变,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在特定实施方案中,改变的组合选自下述组成的组:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在一些实施方案中,所述腺苷脱氨酶是TadA*8,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
在一些实施方案中,所述TadA*8被截断。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个C末端氨基酸残基。在一些实施方案中所述腺苷脱氨酶变体是全长TadA*8。
在一个实施方案中,本公开的融合蛋白包含与本文所述的腺苷脱氨酶变体(例如,TadA*8)连接的野生型TadA,其与Cas9切口酶连接。在特定实施方案中,融合蛋白包含单个TadA*8结构域(例如,作为单体提供)。在其他实施方案中,编辑器包含能够形成异二聚体的TadA*8和TadA(wt)。
Cas9与引导RNA的复合物
本公开的一些方面提供了包含本文提供的任何融合蛋白的复合物,以及和融合蛋白的Cas9结构域(例如,dCas9、核酸酶活性Cas9或Cas9切口酶)结合的引导RNA。在一些实施方案中,引导核酸(例如引导RNA)的长度为15-100个核苷酸并且包含与靶标序列互补的至少10个连续核苷酸的序列。在一些实施方案中,引导RNA是15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸长。在一些实施方案中,引导RNA包含15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34 35、36、37、38、39或40个连续核苷酸的序列,其与靶标序列互补的。在一些实施方案中,靶标序列是DNA序列。在一些实施方案中,靶标序列是细菌、酵母、真菌、昆虫、植物或动物的基因组中的序列。在一些实施方案中,靶标序列是人类基因组中的序列。在一些实施方案中,靶标序列的3'端紧邻规范PAM序列(NGG)。在一些实施方案中,靶序列的3'端紧邻非规范PAM序列(例如,表1中列出的序列或5'-NAA-3')。在一些实施方案中,引导核酸(例如,引导RNA)与感兴趣的基因(例如,与疾病或病症相关的基因)中的序列互补。
本公开的一些方面提供了使用本文提供的融合蛋白或复合物的方法。例如,本公开的一些方面提供了包括使DNA分子与本文提供的任何融合蛋白和至少一种引导RNA接触的方法,其中引导RNA长约15-100个核苷酸并且包含至少与靶标序列互补的10个连续核苷酸。在一些实施方案中,靶标序列的3'端紧邻AGC、GAG、TTT、GTG或CAA序列。在一些实施方案中,靶序列的3'端紧邻NGA、NGC、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN或5'(TTTV)序列。
应当理解,各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同,例如,成熟蛋白质的前体和成熟蛋白质本身,物种之间的序列差异可能会影响编号。本领域技术人员将能够通过本领域众所周知的方法,例如通过序列比对和同源残基的测定,鉴定任何同源蛋白质和相应编码核酸中的相应残基。
对于本领域技术人员显而易见的是,为了将本文公开的任何融合蛋白靶向靶标位点,例如包含待编辑突变的位点,通常需要共表达融合蛋白蛋白质和引导RNA。如本文别处更详细解释的,引导RNA通常包含允许Cas9结合的tracrRNA框架和赋予Cas9:核酸编辑酶/结构域融合蛋白序列特异性的引导序列。或者,引导RNA和tracrRNA可以作为两个核酸分子分开提供。在一些实施方案中,引导RNA包含一种结构,其中引导序列包含与靶标序列互补的序列。引导序列的长度通常为20个核苷酸。基于本公开,用于将Cas9:核酸编辑酶/结构域融合蛋白靶向特定基因组靶标位点的合适的引导RNA的序列对于本领域技术人员来说将是显而易见的。此类合适的引导RNA序列通常包含与待编辑的靶标核苷酸上游或下游50个核苷酸内的核酸序列互补的引导序列。本文提供了一些适用于将任何提供的融合蛋白靶向特定靶标序列的示例性引导RNA序列。
额外的結構域
本文所述的碱基编辑器可包括有助于促进多核苷酸的核碱基的核碱基编辑、修饰或改变的任何结构域。在一些实施方案中,碱基编辑器包含多核苷酸可编程核苷酸结合结构域(例如,Cas9)、核碱基编辑结构域(例如,脱氨酶结构域)和一个或多个额外的结构域。在一些实施方案中,额外的结构域可促进碱基编辑器的酶促或催化功能、碱基编辑器的结合功能,或者是可能干扰所需碱基编辑结果的细胞机制(例如酶)的抑制剂。在一些实施方案中,碱基编辑器可包含核酸酶、切口酶、重组酶、脱氨酶、甲基转移酶、甲基化酶、乙酰化酶、乙酰转移酶、转录激活物或转录抑制结构域。
在一些实施方案中,碱基编辑器可包含尿嘧啶糖基化酶抑制剂(UGI)结构域。例如,UGI结构域可以通过抑制由C脱氨所形成的U转化回C核碱基,来提高包含胞苷脱氨酶结构域的碱基编辑器的效率。在某些情况下,对U:G异源双链DNA存在的细胞DNA修复反应可能导致细胞中核碱基编辑效率降低。在此类情况下,尿嘧啶DNA糖基化酶(UDG)可催化从细胞中的DNA去除U,这可启动碱基切除修复(BER),主要导致U:G对回复为C:G对。在这样的情况下,可以在碱基编辑器中抑制BER,所述碱基编辑器包含结合单链、阻断编辑碱基、抑制UGI、抑制BER、保护编辑碱基和/或促进非编辑链修复的一个或多个结构域。因此,本公开内容考虑包含UGI结构域的碱基编辑器融合蛋白。
在一些实施方案中,碱基编辑器包含双链断裂(DSB)结合蛋白的全部或部分作为结构域。例如,DSB结合蛋白可以包括噬菌体Mu的Gam蛋白,其可以结合DSB的末端并且可以保护它们免于降解。See Komor,A.C.等人,“Improved base excision repair inhibitionand bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017),其全部内容在此引入作为参考。
另外,在一些实施方案中,Gam蛋白可以融合到碱基编辑器的N末端。在一些实施方案中,Gam蛋白可以融合到碱基编辑器的C末端。噬菌体Mu的Gam蛋白可以与双链断裂(DSB)的末端结合并保护它们免于降解。在一些实施方案中,使用Gam结合DSB的自由端可以减少碱基编辑过程中插入缺失的形成。在一些实施方案中,174个残基的Gam蛋白融合到碱基编辑器的N末端。参见Komor,A.C.等人,“Improved base excision repair inhibition andbacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017)。在一些实施方案中,一个或多个突变可以改变碱基编辑器结构域相对于野生型结构域的长度。例如,在至少一个结构域中删除至少一个氨基酸可以减少碱基编辑器的长度。在另一种情况下,一个或多个突变不会改变结构域相对于野生型结构域的长度。例如,任何结构域中的替换都不会/不会改变碱基编辑器的长度。
在一些实施方案中,碱基编辑器可以包含核酸聚合酶(NAP)的全部或部分作为结构域。例如,碱基编辑器可以包含真核NAP的全部或一部分。在一些实施方案中,整合到碱基编辑器中的NAP或其部分是DNA聚合酶。在一些实施方案中,整合到碱基编辑器中的NAP或其部分具有转移聚合酶活性。在一些情况下,整合到碱基编辑器中的NAP或其部分是转移损伤DNA聚合酶。在一些实施方案中,整合到碱基编辑器中的NAP或其部分是Rev7、Rev1复合物、聚合酶iota、聚合酶κ或聚合酶eta。在一些实施方案中,整合到碱基编辑器中的NAP或其部分是真核聚合酶α、β、γ、δ、ε、γ、eta、iota、κ、λ、mu或nu组分。在一些实施方案中,并入碱基编辑器中的NAP或其部分包含至少75%、80%、85%、90%、95%、96%、97%、98%、99%、或99.5%与核酸聚合酶(例如,易位DNA聚合酶)相同。
碱基编辑器系统
本文提供的碱基编辑器系统包含下述步骤:(a)使受试者的多核苷酸(例如,双链DNA或RNA、单链DNA或RNA)的靶核苷酸序列与包含腺苷脱氨酶结构域的碱基编辑系统接触,其中,上述结构域与多核苷酸结合结构域融合,从而形成能够在如本文所述的核酸分子和至少一种引导多核酸(例如,gRNA)内的一个或多个碱基处诱导变化的核碱基编辑器,其中,靶核苷酸序列包含被靶向的核碱基对;(b)诱导靶向区域的链分离;(c)将靶向区域单链中的靶核碱基对的第一核碱基转化为第二核碱基;以及(d)切割不超过一条的靶向区域的链,其中与第一核碱基互补的第三核碱基被与第二核碱基互补的第四核碱基置换。应当理解,在一些实施方案中,省略了步骤(b)。在一些实施方案中,靶向核碱基对是一种或多种基因中的多个核碱基对。在一些实施方案中,本文提供的碱基编辑器系统能够多重编辑一个或多个基因中的多个核碱基对。在一些实施方案中,多个核碱基对位于同一基因中。在一些实施方案中,多个核碱基对位于一个或多个基因中,其中至少一个基因位于不同基因座中。
在一些实施方案中,切割的单链(切口链)与引导核酸杂交。在一些实施方案中,切割的单链与包含第一核碱基的链相反。在一些实施方案中,碱基编辑器包含一个Cas9结构域。在一些实施方案中,第一个碱基是腺嘌呤,而第二个碱基不是G、C、A或T。在一些实施方案中,第二个碱基是肌苷。
本文提供用于使用碱基编辑器系统编辑核碱基的系统、组合物和方法。在一些实施方案中,碱基编辑器系统包含碱基编辑器(BE),其包含多核苷酸可编程核苷酸结合域和用于编辑核碱基的核碱基编辑结构域(例如,脱氨酶结构域),以及与多核苷酸可编程核苷酸结合结构域结合的引导多核苷酸(例如,引导RNA)。在一些实施方案中,碱基编辑器系统包含碱基编辑器(BE),其包含多核苷酸可编程核苷酸结合域和用于编辑核碱基的核碱基编辑结构域(例如,脱氨酶结构域),以及与多核苷酸可编程核苷酸结合结构域结合的引导多核苷酸(例如,引导RNA)。在一些实施方案中,所述多核苷酸可编程酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,所述多核苷酸可编程酸结合结构域是多核苷酸可编程RNA结合结构域。在一些情况下,脱氨酶结构域可以是腺嘌呤脱氨酶或腺苷脱氨酶。在一些实施方案中,术语“腺嘌呤脱氨酶”和“腺苷脱氨酶”可以互换使用。在一些情况下,脱氨酶结构域可以是腺嘌呤脱氨酶或腺苷脱氨酶。核碱基编辑蛋白的细节在国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)中有所描述,它们各自通过引用整体并入本文。此外,请参阅Komor,A.C.,等人,“Programmableediting of a target base in genomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNA cleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved base excision repair inhibition and bacteriophage Mu Gamprotein yields C:G-to-T:A base editors with higher efficiency and productpurity”Science Advances 3:eaao4774(2017),其全部内容以引用方式并入本文。
在一些实施方案中,可利用单个引导多核苷酸将脱氨酶靶向靶标核酸序列。在一些实施方案中,可利用一对引导多核苷酸将不同的脱氨酶靶向靶标核酸序列。
碱基编辑器系统的核碱基成分和多核苷酸可编程核苷酸结合成分可以共价或非共价地彼此关联。例如,在一些实施方案中,所述脱氨酶结构域可以通过多核苷酸可编程核苷酸结合结构域靶向靶标核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以是与脱氨酶结构域融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以通过与脱氨酶结构域非共价相互作用或缔合将脱氨酶结构域靶向靶核苷酸序列。例如,在一些实施方案中,核碱基编辑组件,例如脱氨酶组件,可包含额外的异源部分或结构域,其能够与作为多核苷酸可编程核苷酸结合的一部分的额外的异源部分或结构域相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合引导多核苷酸。在一些实施方案中,所述额外的异源部分可能能够结合多肽接头。在一些实施方案中,所述额外的异源部分可能能够结合多核苷酸接头。所述额外的异源部分可以是蛋白质结构域。在一些实施方案中,额外的异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
碱基编辑器系统可还包含引导多核苷酸组件。应当理解,碱基编辑器系统的组件可以通过共价键、非共价相互作用或其关联和相互作用的任何组合彼此关联。在一些实施方案中,脱氨酶结构域可以通过引导多核苷酸靶向靶标核苷酸序列。例如,在一些实施方案中,碱基编辑器系统的核碱基编辑组分,例如脱氨酶组分,可以包含能够与引导多核苷酸的部分或区段(例如,多核苷酸基序)相互作用、缔合或能够与其形成复合物。在一些实施方案中,所述额外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)可以与脱氨酶结构域融合或连接。在一些实施方案中,所述额外的异源部分可能能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合引导多核苷酸。在一些实施方案中,所述额外的异源部分可能能够结合多肽接头。在一些实施方案中,所述额外的异源部分可能能够结合多核苷酸接头。所述额外的异源部分可以是蛋白质结构域。在一些实施方案中,额外的异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
在一些实施方案中,碱基编辑器系统可还包含碱基切除修复(BER)组分的抑制剂。应当理解,碱基编辑器系统的组件可以通过共价键、非共价相互作用或其关联和相互作用的任何组合彼此关联。BER组分的抑制剂可以包括碱基切除修复抑制剂。在一些实施方案中,碱基切除修复抑制剂可以是尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方案中,碱基切除修复抑制剂可以是肌苷碱基切除修复抑制剂。在一些实施方案中,碱基切除修复抑制剂可以通过多核苷酸可编程核苷酸结合域靶向靶核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合域可以与碱基切除修复抑制剂融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以与脱氨酶结构域和碱基切除修复抑制剂融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合域可以通过与碱基切除修复抑制剂非共价相互作用或缔合将碱基切除修复抑制剂靶向靶核苷酸序列。例如,在一些实施方案中,碱基切除修复抑制剂组分可包含额外的异源部分或结构域,其能够与作为多核苷酸可编程核苷酸结合结构域的一部分的额外的异源部分或结构域相互作用、缔合或形成复合物。在一些实施方案中,碱基切除修复抑制剂可以通过引导多核苷酸靶向靶核苷酸序列。例如,在一些实施方案中,碱基切除修复抑制剂可包含能够与部分或区段相互作用、缔合或能够与部分或区段形成复合物的额外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)(例如,多核苷酸基序)引导多核苷酸。在一些实施方案中,所述引导多核苷酸的额外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)可以与碱基切除修复抑制剂融合或连接。在一些实施方案中,所述额外的异源部分可能能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合引导多核苷酸。在一些实施方案中,所述额外的异源部分可能能够结合多肽接头。在一些实施方案中,所述额外的异源部分可能能够结合多核苷酸接头。所述额外的异源部分可以是蛋白质结构域。在一些实施方案中,额外的异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
在一些实施方案中,所述碱基编辑器抑制编辑链的碱基切除修复。在一些实施方案中,所述碱基编辑器保护或结合非编辑链。在一些实施方案中,所述碱基编辑器包含UGI活性。在一些实施方案中,碱基编辑器包含无催化活性的肌苷特异性核酸酶。在一些实施方案中,所述碱基编辑器包含切口酶活性。在一些实施方案中,碱基对的预期编辑在PAM位点的上游。在一些实施方案中,所述碱基对的预期编辑是PAM位点上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,所述碱基对的预期编辑在PAM位点的下游。在一些实施方案中,所述碱基对的预期编辑是PAM位点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。
在一些实施方案中,所述方法不需要规范的(例如,NGG)PAM站点。在一些实施方案中,所述碱基编辑器包含接头或间隔物。在一些实施方案中,所述接头或间隔物的长度是1-25个氨基酸。在一些实施方案中,所述接头或间隔物的长度是5-20个氨基酸。在一些实施方案中,所述接头或间隔物的长度是10、11、12、13、14、15、16、17、18、19或20个氨基酸。
在一些实施方案中,靶标区域包括靶标窗口,其中靶标窗口包含靶标核碱基对。在一些实施方案中,靶标窗口包含1-10个核苷酸。在一些实施方案中,靶标窗口的长度是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,碱基对的预期编辑在靶标窗口内。在一些实施方案中,靶标窗口包括碱基对的预期编辑。在一些实施方案中,所述方法使用本文提供的任何碱基编辑器进行。在一些实施方案中,靶标窗口是脱氨窗口。
在一些实施方案中,腺苷碱基编辑器(ABE)可使DNA中的腺嘌呤脱氨。在一些实施方案中,ABE是通过用天然或工程化的大肠杆菌TadA、人ADAR2、小鼠ADA或人ADAT2替换BE3的APOBEC1组分而产生的。在一些实施方案中,ABE包含进化的TadA变体。在一些实施方案中,ABE是ABE 1.2(TadA*-XTEN-nCas9-NLS)。在一些实施方案中,TadA*包含A106V和D108N突变。
在一些实施方案中,所述ABE是第二代ABE。在一些实施方案中,ABE是ABE2.1,其包含TadA*(TadA*2.1)中的额外突变D147Y和E155V。在一些实施方案中,ABE是ABE2.2,ABE2.1与催化失活版本的人烷基腺嘌呤DNA糖基化酶(具有E125Q突变的AAG)融合。在一些实施方案中,ABE是ABE2.3,ABE2.1与催化灭活版本的大肠杆菌Endo V(用D35A突变灭活)融合。在一些实施方案中,ABE是ABE2.6,其接头长度(32个氨基酸,(SGGS)2-XTEN-(SGGS)2)是ABE2.1中接头的两倍。在一些实施方案中,ABE是ABE2.7,其是与另外的野生型TadA单体相连的ABE2.1。在一些实施方案中,ABE是ABE2.8,其是与另外的TadA*2.1单体拴系的ABE2.1。在一些实施方案中,ABE是ABE2.9,其是进化的TadA(TadA*2.1)与ABE2.1的N-末端的直接融合。在一些实施方案中,ABE是ABE2.10,其是野生型TadA与ABE2.1的N-末端的直接融合。在一些实施方案中,ABE是ABE2.11,其是在TadA*单体的N-末端具有失活E59A突变的ABE2.9。在一些实施方案中,ABE是ABE2.12,其是ABE2.9,在内部TadA*单体中具有失活的E59A突变。
在一些实施方案中,所述ABE是第三代ABE。在一些实施方案中,ABE是ABE3.1,即ABE2.3,带有三个额外的TadA突变(L84F、H123Y和I156F)。
在一些实施方案中,所述ABE是第四代ABE。在一些实施方案中,ABE是ABE4.3,其是带有额外TadA突变A142N(TadA*4.3)的ABE3.1。
在一些实施方案中,所述ABE是第五代ABE。在一些实施方案中,ABE是ABE5.1,其通过将来自存活克隆(H36L、R51L、S146C和K157N)的一组共有突变导入ABE3.1而产生。在一些实施方案中,ABE是ABE5.3,其具有含有融合到内部进化的TadA*的野生型大肠杆菌TadA的异二聚体构建体。在一些实施方案中,ABE是ABE5.2、ABE5.4、ABE5.5、ABE5.6、ABE5.7、ABE5.8、ABE5.9、ABE5.10、ABE5.11、ABE5.12、ABE5.13或ABE5.14,如下表9所示。在一些实施方案中,所述ABE是第六代ABE。在一些实施方案中,ABE是ABE6.1、ABE6.2、ABE6.3、ABE6.4、ABE6.5或ABE6.6,如下表9所示。在一些实施方案中,所述ABE是第七代ABE。在一些实施方案中,ABE是ABE7.1、ABE7.2、ABE7.3、ABE7.4、ABE7.5、ABE7.6、ABE7.7、ABE7.8、ABE7.9或ABE7.10,如下表9所示。
表9.ABE的基因型
在一些实施方案中,所述碱基编辑器是是第八代ABE(ABE8)。在一些实施方案中,所述ABE8含有一个TadA*8变体。在一些实施方案中,ABE8包含单体构建体,其含有TadA*8变体(“ABE8.x-m”)。在一些实施方案中,所述ABE8是ABE8.1-m,其具有包含TadA*7.10和Y147T突变(TadA*8.1)的单体构建体。在一些实施方案中,所述ABE8是ABE8.2-m,其具有包含TadA*7.10和Y147R突变(TadA*8.2)的单体构建体。在一些实施方案中,所述ABE8是ABE8.3-m,其具有包含TadA*7.10和Q154S突变(TadA*8.3)的单体构建体。在一些实施方案中,所述ABE8是ABE8.4-m,其具有包含TadA*7.10和Y123H突变(TadA*8.4)的单体构建体。在一些实施方案中,所述ABE8是ABE8.5-m,其具有包含TadA*7.10和V82S突变(TadA*8.5)的单体构建体。在一些实施方案中,所述ABE8是ABE8.6-m,其具有包含TadA*7.10和T166R突变(TadA*8.6)的单体构建体。在一些实施方案中,所述ABE8是ABE8.7-m,其具有包含TadA*7.10和Q154R突变(TadA*8.7)的单体构建体。在一些实施方案中,所述ABE8是ABE8.8-m,其具有包含TadA*7.10和Y147R、Q154R和Y123H突变(TadA*8.8)的单体构建体。在一些实施方案中,所述ABE8是ABE8.9-m,其具有包含TadA*7.10和Y147R、Q154R和I76Y突变(TadA*8.9)的单体构建体。在一些实施方案中,所述ABE8是ABE8.10-m,其具有包含TadA*7.10和Y147R、Q154R和T166R突变(TadA*8.10)的单体构建体。在一些实施方案中,所述ABE8是ABE8.11-m,其具有包含TadA*7.10和Y147R和Q154R突变(TadA*8.11)的单体构建体。在一些实施方案中,所述ABE8是ABE8.12-m,其具有包含TadA*7.10和Y147T和Q154S突变(TadA*8.12)的单体构建体。
在一些实施方案中,所述ABE8是ABE8.13-m,其具有包含TadA*7.10和Y123H(从H123Y恢复的Y123H)、Y147R、Q154R和I76Y突变(TadA*8.13)的单体构建体。在一些实施方案中,所述ABE8是ABE8.14-m,其具有包含TadA*7.10和I76R和V82S突变(TadA*8.14)的单体构建体。在一些实施方案中,所述ABE8是ABE8.15-m,其具有包含TadA*7.10和V82S和Y147R突变(TadA*8.15)的单体构建体。在一些实施方案中,所述ABE8是ABE8.16-m,其具有包含TadA*7.10和V82S、Y123H(从H123Y恢复的Y123H)和Y147R突变(TadA*8.16)的单体构建体。在一些实施方案中,所述ABE8是ABE8.17-m,其具有包含TadA*7.10和V82S和Q154R突变(TadA*8.17)的单体构建体。在一些实施方案中,所述ABE8是ABE8.18-m,其具有包含TadA*7.10和V82S、Y123H(从H123Y恢复的Y123H)和Q154R突变(TadA*8.18)的单体构建体。在一些实施方案中,所述ABE8是ABE8.19-m,其具有包含TadA*7.10和V82S、Y123H(从H123Y恢复的Y123H)、Y147R和Q154R突变(TadA*8.19)的单体构建体。在一些实施方案中,所述ABE8是ABE8.20-m,其具有包含TadA*7.10和I76Y,V82S、Y123H(从H123Y恢复的Y123H)、Y147R和Q154R突变(TadA*8.20)的单体构建体。在一些实施方案中,所述ABE8是ABE8.21-m,其具有包含TadA*7.10和Y147R和Q154S突变(TadA*8.21)的单体构建体。在一些实施方案中,所述ABE8是ABE8.22-m,其具有包含TadA*7.10和V82S和Q154S突变(TadA*8.22)的单体构建体。在一些实施方案中,所述ABE8是ABE8.23-m,其具有包含TadA*7.10和V82S和Y123H(从H123Y恢复的Y123H)突变(TadA*8.23)的单体构建体。在一些实施方案中,所述ABE8是ABE8.24-m,其具有包含TadA*7.10和V82S、Y123H(从H123Y恢复的Y123H)和Y147T突变(TadA*8.24)的单体构建体。
在一些实施方案中,所述ABE8具有异二聚体构建体,该构建体包含与TadA*8变体(“ABE8.x-d”)融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.1-d,其具有异二聚体构建体,该构建体包含与具有Y147T突变(TadA*8.1)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.2-d,其具有异二聚体构建体,该构建体包含与具有Y147R突变(TadA*8.2)的与TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.3-d,其具有异二聚体构建体,该构建体包含与具有Q154S突变(TadA*8.3)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.4-d,其具有异二聚体构建体,该构建体包含与具有Y123H突变(TadA*8.4)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.5-d,其具有异二聚体构建体,该构建体包含与具有V82S突变(TadA*8.5)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.6-d,其具有异二聚体构建体,该构建体包含与具有T166R突变(TadA*8.6)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.7-d,其具有异二聚体构建体,该构建体包含与具有Q154R突变(TadA*8.7)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.8-d,其具有异二聚体构建体,该构建体包含与具有Y147R、Q154R和Y123H突变(TadA*8.8)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.9-d,其具有异二聚体构建体,该构建体包含与具有Y147R、Q154R和I76Y突变(TadA*8.9)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.10-d,其具有异二聚体构建体,该构建体包含与具有Y147R、Q154R和T166R突变(TadA*8.10)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.11-d,其具有异二聚体构建体,该构建体包含与具有Y147T和Q154R突变(TadA*8.11)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.12-d,其具有异二聚体构建体,该构建体包含与具有Y147T和Q154S突变(TadA*8.12)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.13-d,其具有异二聚体构建体,该构建体包含与具有Y123H(从H123Y还原为Y123H)、Y147R、Q154R和I76Y突变(TadA*8.13)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.14-d,其具有异二聚体构建体,该构建体包含与具有I76Y和V82S突变(TadA*8.14)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.15-d,其具有异二聚体构建体,该构建体包含与具有V82S和Y147R突变(TadA*8.15)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.16-d,其具有异二聚体构建体,该构建体包含与具有V82S、Y123H(从H123Y还原为Y123H)和Y147R突变(TadA*8.16)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.17-d,其具有异二聚体构建体,该构建体包含与具有V82S和Q154R突变(TadA*8.17)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.18-d,其具有异二聚体构建体,该构建体包含与具有V82S、Y123H(从H123Y还原为Y123H)和Q154R突变(TadA*8.18)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.19-d,其具有异二聚体构建体,该构建体包含与具有V82S、Y123H(从H123Y还原为Y123H)、Y147R和Q154R突变(TadA*8.19)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.20-d,其具有异二聚体构建体,该构建体包含与具有I76Y,V82S、Y123H(从H123Y还原为Y123H)、Y147R和Q154R突变(TadA*8.20)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.21-d,其具有异二聚体构建体,该构建体包含与具有Y147R和Q154S突变(TadA*8.21)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.22-d,其具有异二聚体构建体,该构建体包含与具有V82S和Q154S突变(TadA*8.22)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.23-d,其具有异二聚体构建体,该构建体包含与具有V82S和Y123H(从H123Y还原为Y123H)突变(TadA*8.23)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.24-d,其具有异二聚体构建体,该构建体包含与具有V82S、Y123H(从H123Y还原为Y123H)和Y147T突变(TadA*8.24)的TadA*7.10融合的野生型大肠杆菌TadA。
在一些实施方案中,ABE8具有包含与TadA*8变体(“ABE8.x-7”)融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.1-7,其具有包含与具有Y147T突变(TadA*8.1)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.2-7,其具有包含与具有Y147R突变(TadA*8.2)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.3-7,其具有包含与具有Q154S突变(TadA*8.3)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.4-7,其具有包含与具有Y123H突变(TadA*8.4)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.5-7,其具有包含与具有V82S突变(TadA*8.5)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.6-7,其具有包含与具有T166R突变(TadA*8.6)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.7-7,其具有包含与具有Q154R突变(TadA*8.7)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.8-7,其具有包含与具有Y147R、Q154R和Y123H突变(TadA*8.8)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.9-7,其具有包含与具有Y147R、Q154R和I76Y突变(TadA*8.9)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.10-7,其具有包含与具有Y147R、Q154R和T166R突变(TadA*8.10)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.11-7,其具有包含与具有Y147T和Q154R突变(TadA*8.11)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.12-7,其具有包含与具有Y147T和Q154S突变(TadA*8.12)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.13-7,其具有包含与具有Y123H(从H123Y回复的Y123H)、Y147R、Q154R和I76Y突变(TadA*8.13)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.14-7,其具有包含与具有I76Y和V82S突变(TadA*8.14)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.15-7,其具有包含与具有V82S和Y147R突变(TadA*8.15)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.16-7,其具有包含与具有V82S、Y123H(从H123Y回复的Y123H)和Y147R突变(TadA*8.16)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.17-7,其具有包含与具有V82S和Q154R突变(TadA*8.17)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.18-7,其具有包含与具有V82S、Y123H(从H123Y回复的Y123H)和Q154R突变(TadA*8.18)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.19-7,其具有包含与具有V82S、Y123H(从H123Y回复的Y123H)、Y147R和Q154R突变(TadA*8.19)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.20-7,其具有包含与具有I76Y,V82S、Y123H(从H123Y回复的Y123H)、Y147R和Q154R突变(TadA*8.20)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.21-7,其具有包含与具有Y147R和Q154S突变(TadA*8.21)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.22-7,其具有包含与具有V82S和Q154S突变(TadA*8.22)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.23-7,其具有包含与具有V82S、Y123H(从H123Y回复的Y123H)突变(TadA*8.23)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.24-7,其具有包含与具有V82S、Y123H(从H123Y回复的Y123H)和Y147T突变(TadA*8.24)的TadA*7.10融合的TadA*7.10的异二聚体构建体。
在一些实施方案中,ABE是ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m,ABE8.9-m,ABE8.10-m,ABE8.11-m,ABE8.12-m,ABE8.13-m,ABE8.14-m,ABE8.15-m,ABE8.16-m,ABE8.17-m,ABE8.18-m,ABE8.19-m,ABE8.20-m,ABE8.21-m,ABE8.22-m,ABE8.23-m,ABE8.24-m,ABE8.1-d,ABE8.2-d,ABE8.3-d,ABE8.4-d,ABE8.5-d,ABE8.6-d,ABE8.7-d,ABE8.8-d,ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d或ABE8.24-d如下述表10所示。
表10:ABE8碱基编辑器
在一些实施方案中,所述ABE8是ABE8a-m,其具有单体构建体,该单体构建体包含具有R26C、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和D167N突变(TadA*8a)的TadA*7.10。在一些实施方案中,所述ABE8是ABE8b-m,其具有单体构建体,该单体构建体包含具有V88A,A109S、T111R,D119N,H122N,F149Y、T166I和D167N突变(TadA*8b)的TadA*7.10。在一些实施方案中,所述ABE8是ABE8c-m,其具有单体构建体,该单体构建体包含具有R26C,A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变(TadA*8c)的TadA*7.10。在一些实施方案中,所述ABE8是ABE8d-m,其具有单体构建体,该单体构建体包含具有V88A,T111R、D119N和F149Y突变(TadA*8d)的TadA*7.10。在一些实施方案中,所述ABE8是ABE8e-m,其具有单体构建体,该单体构建体包含具有A109S,T111R、D119N,H122N、Y147D、F149Y、T166I和D167N突变(TadA*8e)的TadA*7.10。
在一些实施方案中,ABE8是ABE8a-d,其具有异二聚体构建体,该构建体包含与具有R26C、A109S、T111R、D119、H122N、Y147D、F149Y、T166I,和D167N突变(TadA*8a)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8b-d,其具有异二聚体构建体,该构建体包含与具有V88A,A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变(TadA*8b)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8c-d,其具有异二聚体构建体,该构建体包含与具有R26C、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变(TadA*8c)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8d-d,其具有异二聚体构建体,该构建体包含与具有V88A,T111R、D119N和F149Y突变(TadA*8d)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8e-d,其具有异二聚体构建体,该构建体包含与具有A109S、T111R、D119N、H122N、Y147D、F149Y、T166I,和D167N突变(TadA*8e)的TadA*7.10融合的野生型大肠杆菌TadA。
在一些实施方案中,ABE8是ABE8a-7,其具有异二聚体构建体,该构建体包含与具有R26C、A109S、T111R、D119、H122N、Y147D、F149Y、T166I,和D167N突变(TadA*8a)的TadA*7.10融合的TadA。在一些实施方案中,ABE8是ABE8b-7,其具有包含与具有V88A、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变(TadA*8b)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8c-7,其具有包含与具有R26C、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变(TadA*8c)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8d-7,其具有包含与具有V88A,T111R、D119N和F149Y突变(TadA*8d)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8e-7,其具有异二聚体构建体,该构建体包含与具有A109S、T111R、D119N、H122N、Y147D、F149Y、T166I,和D167N突变(TadA*8e)的TadA*7.10融合的TadA.10。
在一些实施方案中,ABE是ABE8a-m、ABE8b-m、ABE8c-m、ABE8d-m、ABE8e-m、ABE8a-d、ABE8b-d、ABE8c-d、ABE8d-d、或ABE8e-d,如下表11所示。在一些实施方案中,ABE是ABE8e-m或ABE8e-d。当一同使用除了SpCas9以外的Cas同源物(例如SaCas9、SaCas9-KKH、Cas12a同源物(例如LbCas12a、enAs-Cas12a、SpCas9-NG和循环排列的CP1028-SpCas9和CP1041-SpCas9)时,ABEe显示有效率的腺嘌呤碱基编辑活性和低的插入或缺失的形成。除了表11中针对ABE8e显示的突变外,脱靶RNA和DNA编辑通过在TadA结构域中引入V106W取代来减少(如M.Richter等人,2020年,Nature Biotechnology,doi.org/10.1038/s41587-020-0453-z中所述),其全部内容通过引用并入本文)。
表11:其他腺苷脱氨酶碱基编辑器8变体
在一些实施方案中,碱基编辑器(例如,ABE9)通过将腺苷脱氨酶变体(例如,TadA*9)克隆到包括环状置换Cas9(例如,CP5或CP6)和二分核定位序列的支架中而产生。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10、ABE8或ABE9)是NGC PAM CP5变体(S.pyrogenes Cas9或spVRQR Cas9)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10、ABE8或ABE9)是AGA PAM CP5变体(S.pyrogenes Cas9或spVRQR Cas9)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是NGC PAM CP6变体(化脓性链球菌Cas9或spVRQR Cas9)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是AGA PAM CP6变体(化脓性链球菌Cas9或spVRQR Cas9)。
在一些实施方案中,ABE具有如下表12所示的基因型。
表12.ABE的基因型
23 | 26 | 36 | 37 | 48 | 49 | 51 | 72 | 84 | 87 | 105 | 108 | 123 | 125 | 142 | 145 | 147 | 152 | 155 | 156 | 157 | 161 | |
ABE7.9 | L | R | L | N | A | L | N | F | S | V | N | Y | G | N | C | Y | P | V | F | N | K | |
ABE7.10 | R | R | L | N | A | L | N | F | S | V | N | Y | G | A | C | Y | P | V | F | N | K |
如下表13所示,描述了40个ABE8的基因型。指出了ABE进化的大肠杆菌TadA部分中的残留位置。当与ABE7.10突变不同时,显示了ABE8中的突变变化。在一些实施方案中,ABE具有如下表13所示的ABE之一的基因型。
表13.进化的TadA中的残基标识
在一些实施方案中,所述碱基编辑器是ABE8.1,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.1_Y147T_CP5_NGC PAM_单体
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,下划线序列表示二分核定位序列。
在一些实施方案中,所述碱基编辑器是ABE8.1,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
pNMG-B335 ABE8.1_Y147T_CP5_NGC PAM_单体:
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,下划线序列表示二分核定位序列。
在一些实施方案中,所述碱基编辑器是ABE8.14,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
pNMG-357_ABE8.14 with NGC PAM CP5
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,下划线序列表示二分核定位序列。
在一些实施方案中,所述碱基编辑器是ABE8.8-m,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.8-m
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.8-d,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.8-d
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.13-m,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.13-m
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.13-d,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.13-d
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.17-m,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.17-m
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.17-d,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.17-d
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.20-m,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.20-m
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.20-d,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.20-d
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,ABE8选自下述序列:
01.monoABE8.1_bpNLS+Y147T
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
02.monoABE8.1_bpNLS+Y147R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCRFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
03.monoABE8.1_bpNLS+Q154S
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRSVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
04.monoABE8.1_bpNLS+Y123H
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
05.monoABE8.1_bpNLS+V82S
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYSTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
06.monoABE8.1_bpNLS+T166R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSRDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
07.monoABE8.1_bpNLS+Q154R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
08.monoABE8.1_bpNLS+Y147R_Q154R_Y123H
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
09.monoABE8.1_bpNLS+Y147R_Q154R_I76Y
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
10.monoABE8.1_bpNLS+Y147R_Q154R_T166R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSRDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
11.monoABE8.1_bpNLS+Y147T_Q154R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
12.monoABE8.1_bpNLS+Y147T_Q154SMSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRSVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
13.monoABE8.1_bpNLS+H123Y123H_Y147R_Q154R_I76Y
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
14.monoABE8.1_bpNLS+V82S+Q154R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYSTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
ABE9
本文提供了包含腺苷脱氨酶变体的第九代碱基编辑器。本文的表14和18呈现新型的ABE9核碱基编辑器,其中腺苷脱氨酶变体(TadA*9)包含氨基酸序列,该氨基酸序列包含相对于如本文所述的ABE7*10参考序列的改变。表14和18中使用的术语“单体”是指TadA*7.10的单体形式,该TadA*7.10包含表14和18中描述的变化。表14和18中使用的术语“异二聚体”是指与TadA*7.10融合的特定野生型大肠杆菌TadA腺苷脱氨酶,该TadA*7.10包含表14和18中描述的改变和如本文所述的改变。
在一些实施方案中,碱基编辑器还包含包含全部或部分尿嘧啶糖基化酶抑制剂(UGI)的结构域。在一些实施方案中,碱基编辑器包含包含尿嘧啶结合蛋白(UBP)例如尿嘧啶DNA糖基化酶(UDG)的全部或部分的结构域。在一些实施方案中,碱基编辑器包含包含全部或部分核酸聚合酶的结构域。在一些实施方案中,掺入碱基编辑器的核酸聚合酶或其部分是易位DNA聚合酶。
在一些实施方案中,碱基编辑器的域可以包括多个结构域。例如,包含源自Cas9的多核苷酸可编程核苷酸结合域的碱基编辑器可以包含对应于野生型或天然Cas9的REC叶和NUC叶的REC叶和NUC叶。在另一实方案中,碱基编辑器可包含RuvCI结构域、BH结构域、REC1结构域、REC2结构域、RuvCII结构域、L1结构域、HNH结构域、L2结构域、RuvCIII结构域、WED结构域、TOPO结构域或CTD结构域中的一个或多个。在一些实施方案中,碱基编辑器的一个或多个结构域包含相对于包含该结构域的多肽的野生型版本的突变(例如,取代、插入、缺失)。例如,多核苷酸可编程DNA结合结构域的HNH结构域可包含H840A取代。在另一个实方案中,多核苷酸可编程DNA结合结构域的RuvCI结构域可包含D10A取代。
在使用或不使用一个或多个接头结构域(例如,XTEN接头结构域)的情况下,本文公开的碱基编辑器的不同结构域(例如,相邻结构域)可以彼此连接。在一些实施方案中,接头结构域可以是键(例如共价键)、化学基团或连接两个分子或部分的分子,例如融合蛋白的两个结构域,例如第一结构域(例如、Cas9衍生结构域)和第二结构域(例如,腺苷脱氨酶结构域)。在一些实施方案中,接头是共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中,接头是酰胺键的碳氮键。在某些实施方案中,接头是环状或无环、取代或未取代、支链或未支链的脂族或杂脂族接头。在某些实施方案中,接头是聚合的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,接头包含氨基链烷酸的单体、二聚体或聚合物。在一些实施方案中,接头包含氨基链烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在一些实施例中,接头包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中,接头基于碳环部分(例如,环戊烷、环己烷)。在其他实施方案中,接头包含聚乙二醇部分(PEG)。在某些实施方案中,接头包含芳基或杂芳基部分。在某些实施方案中,接头基于苯环。接头可以包括功能化部分以促进亲核试剂(例如,硫醇、氨基)从肽连接到接头。任何亲电子试剂都可以用作接头的一部分。示方案性的亲电子试剂包括但不限于活化酯、活化酰胺、迈克尔受体、卤代烷、芳基卤、酰基卤和异硫氰酸酯。在一些实施方案中,接头连接RNA可编程核酸酶的gRNA结合结构域,包括Cas9核酸酶结构域和核酸编辑蛋白的催化结构域。在一些实施方案中,接头连接dCas9和第二个结构域(例如,UGI、胞苷脱氨酶等)。
通常,接头位于两个基团、分子或其他部分之间或两侧,并通过共价键与每个基团、分子或其他部分连接,从而将两者连接起来。在一些实施方案中,接头可以是一个氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,接头是有机分子、基团、聚合物或化学部分。在一些实施方案中,接头的长度可为约2-100个氨基酸,例如2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150或150-200个氨基酸长度。在一些实施方案中,所述接头是约3至約104(例如5、6、7、8、9、10、11、12、13、14、15、16、17、18、19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,or 100)个氨基酸长度。也可考虑更长或更短的接头。在一些实施方案中,接头结构域包含氨基酸序列SGSETPGTSESATPES,其也可称为XTEN接头。可以使用任何连接融合蛋白结构域的方法(例如,从非常灵活的(SGGS)n、(GGGS)n、(GGGGS)n和(G)n形式的接头到更刚性的接头形式(EAAAK)n、(GGS)n、SGSETPGTSESATPES(参见,例如Guilinger JP,Thompson DB,Liu DR.Fusion ofcatalytically inactive Cas9 to FokI nuclease improves the specificity ofgenome modification.Nat.Biotechnol.2014;32(6):577-82;全部内容以引用方式并入本文)或(XP)n基序,以实现核碱基编辑器活性的最佳长度。在一些实施方案中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,所述接头包含(GGS)n基序,其中n是1、3或7。在一些实施方案中,本文提供的融合蛋白的Cas9结构域通过包含氨基酸序列SGSETPGTSESATPES的接头融合。在一些实施方案中,接头包含多个脯氨酸残基并且长度为5-21、5-14、5-9、5-7个氨基酸,例如,PAPAP、PAPAPA、PAPAPAP、PAPAPAPA、P(AP)4、P(AP)7、P(AP)10(参见,例如,Tan J,Zhang F,Karcher D,Bock R.Engineering of high-precisionbase editors for site-specific single nucleotide replacement.Nat Commun.2019Jan 25;10(1):439;全部内容以引用方式并入本文)。这种富含脯氨酸的接头也称为“刚性”接头。
在另一个实施方案中,碱基编辑器系统包含与脱氨酶(DNA脱氨酶),例如腺苷或胞苷脱氨酶,非共价相互作用的组分(蛋白质),并且短暂地将腺苷或胞苷脱氨酶吸引至靶多核苷酸序列中的靶核碱基以进行特异性编辑,以具有最小或减少的旁观者或靶相邻效应。如此涉及脱氨酶相互作用蛋白的非共价系统和方法用于将DNA脱氨酶吸引到特定的基因组靶核碱基上,并解耦靶上和靶相邻编辑的事件,从而增强更精确的单碱基取代突变的实现。在一个实施方案中,脱氨酶相互作用蛋白结合脱氨酶(例如腺苷脱氨酶或胞苷脱氨酶)而不阻断或干扰脱氨酶的活性(催化)位点与靶核碱基(例如分别为腺苷或胞苷)结合。例如,称为“MagnEdit”的系统涉及与Cas9和gRNA复合物相连的相互作用蛋白质,并且可以吸引共表达的腺苷或胞苷脱氨酶(外源性或内源性)来编辑特定的基因组靶位点,在McCann,J.etal.,2020,“MagnEdit–interacting factors that recruit DNA-editing enzymes tosingle base targets”,Life-Science-Alliance,Vol.3,No.4(e201900606),(doi10.26508/Isa.201900606),其全部内容以引用方式并入本文。在一个实施方案中,DNA脱氨酶是如本文所述的ABE9腺苷脱氨酶变体。在另一个实施方案中,称为“Suntag”的系统涉及将非共价相互作用组分用于将碱基编辑器的蛋白质(例如,腺苷脱氨酶或胞苷脱氨酶)组分或其多个拷贝募集到多核苷酸靶位点以实现在位点上的碱基编辑而减少相邻靶编辑,例如,Tanenbaum,M.E.等人,“A protein tagging system for signal amplification ingene expression and fluorescence imaging,”Cell.2014 October 23;159(3):635–646.doi:10.1016/j.cell.2014.09.039;and in Huang,Y.-H.et al.,2017,“DNAepigenome editing using CRISPR-Cas SunTag-directed DNMT3A,”Genome Biol 18:176.doi:10.1186/s13059-017-1306-z,其各自内容以引用方式整体并入本文。在一个实施方案中,DNA脱氨酶是如本文所述的ABE9腺苷脱氨酶变体。
接头
在某些实施方案中,接头可用于连接本发明的任何肽或肽结构域。接头可以像共价键一样简单,或者它可以是多个原子长度的聚合接头。在某些实施方案中,所述接头是多肽或基于氨基酸。在其他实施方案中,所述接头不是肽样的。在某些实施方案中,所述接头是共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中,所述接头是酰胺键的碳-氮键。在某些实施方案中,所述接头是环状或无环、取代或未取代、支链或未支链的脂族或杂脂族接头。在某些实施方案中,所述接头是聚合的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,所述接头包含氨基链烷酸的单体、二聚体或聚合物。在某些实施方案中,所述接头包含氨基链烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在某些实施方案中,所述接头包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中,所述接头基于碳环部分(例如,环戊烷、环己烷)。在其他实施方案中,所述接头包含聚乙二醇部分(PEG)。在其他实施方案中,所述接头包含氨基酸。在某些实施方案中,所述接头包含肽。在某些实施方案中,所述接头包含芳基或杂芳基部分。在某些实施方案中,接头基于苯环。接头可以包括功能化部分以促进亲核试剂(例如,硫醇、氨基)从肽连接到接头。任何亲电子试剂可以用作接头的一部分。示例性的亲电子试剂包括但不限于活化酯、活化酰胺、迈克尔受体、卤代烷、芳基卤、酰基卤和异硫氰酸酯。
在一些实施方案中,所述接头可以是一个氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,所述接头是键(例如共价键)、有机分子、基团、聚合物或化学部分。在一些实施方案中,所述接头是约3至約104(例如5、6、7、8、9、10、11、12、13、14、15、16、17、18、19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,or 100)个氨基酸长度。
在一些实施方案中,腺苷脱氨酶和napDNAbp通过长度为4、16、32或104个氨基酸的接头融合。在一些实施方案中,接头的长度为约3至约104个氨基酸。在一些实施方案中,本文提供的任何融合蛋白包含通过接头彼此融合的腺苷脱氨酶和Cas9结构域。可以使用脱氨酶结构域(例如,工程化的ecTadA)和Cas9结构域之间的多种接头的长度和柔性(例如,从非常柔性的(GGGS)n、(GGGGS)n和(G)n形式的接头到更为刚性的(EAAAK)n、(SGGS)n、SGSETPGTSESATPES形式的接头(参见例如Guilinger JP、Thompson DB、Liu DR.Fusion ofcatalytically inactive Cas9 to FokI nuclease improves the specificity ofgenome modification.Nat.Biotechnol.2014;32(6):577-82;全部内容以引用方式并入本文)和(XP)n),以实现核碱基编辑器活性的最佳长度。在一些实施方案中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,所述接头包含(GGS)n基序,其中n是1、3或7。在一些实施方案中,本文提供的任何融合蛋白的胞苷脱氨酶和腺苷脱氨酶和Cas9结构域通过包含氨基酸序列SGSETPGTSESATPES的接头(例如,XTEN接头)融合。
在一些实施方案中,靶标区域包括靶标窗口,其中靶标窗口包含靶标核碱基对。在一些实施方案中,靶标窗口包含1-10个核苷酸。在一些实施方案中,靶标窗口的长度是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,碱基对的预期编辑在靶标窗口内。在一些实施方案中,靶标窗口包括碱基对的预期编辑。在一些实施方案中,所述方法使用本文提供的任何碱基编辑器进行。在一些实施方案中,靶标窗口是脱氨窗口。
另外,在某些情况下,Gam蛋白可以融合到碱基编辑器的N末端。在某些情况下,Gam蛋白可以融合到碱基编辑器的C末端。噬菌体Mu的Gam蛋白可以与双链断裂(DSB)的末端结合并保护它们免于降解。在一些实施方案中,使用Gam结合DSB的自由端可以减少碱基编辑过程中插入缺失的形成。在一些实施方案中,174个残基的Gam蛋白融合到碱基编辑器的N末端。参见Komor,A.C.等人,“Improved base excision repair inhibition andbacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017)。在某些情况下,一个或多个突变可以改变碱基编辑器域相对于野生型域的长度。例如,在至少一个结构域中删除至少一个氨基酸可以减少碱基编辑器的长度。在另一种情况下,一个或多个突变不会改变结构域相对于野生型结构域的长度。例如,任何结构域中的替换都不会/不会改变碱基编辑器的长度。
在一些实施方案中,本文提供的碱基编辑融合蛋白需要位于精确位置,例如,靶碱基位于限定区域(例如,“脱氨窗口”)内的位置。在某些情况下,靶标可以在4个碱基区域内。在某些情况下,这种限定的靶标区域可以是PAM上游的大约15个碱基。参见Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),其全部内容以引用方式并入本文。
定义的靶标区域可以是脱氨窗口。脱氨窗口可以是碱基编辑器作用于靶标核苷酸并使其脱氨的限定区域。在一些实施方案中,脱氨窗口在2、3、4、5、6、7、8、9或10个碱基区域内。在一些实施方案中,脱氨窗口是PAM上游的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个碱基。
本公开的碱基编辑器可以包含有助于编辑目标多核苷酸序列的任何结构域、特征或氨基酸序列。方案如,在一些实施方案中,碱基编辑器包含核定位序列(NLS)。在一些实施方案中,碱基编辑器的NLS位于脱氨酶结构域和多核苷酸可编程核苷酸结合结构域之间。在一些实施方案中,碱基编辑器的NLS位于多核苷酸可编程核苷酸结合域的C末端。
可存在于本文公开的碱基编辑器中的其他示例性特征是定位序列,例如细胞质定位序列、输出序列,例如核输出序列或其他定位序列,以及可用于增溶、纯化的序列标签,或融合蛋白的检测。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载体蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签,也称为组氨酸标签或His-标签、麦芽糖结合蛋白(MBP)-标签、nus-标签、谷胱甘肽-S-转移酶(GST)-标签、绿色荧光蛋白(GFP)-标签、硫氧还蛋白-标签、S-标签、Softags(例如,Softag 1、Softag 3)、链标签、生物素连接酶标签、Flash标签、V5标签和SBP标签。其他合适的序列对本领域技术人员来说是显而易见的。在一些实施方案中,融合蛋白包含一个或多个His标签。
可包含在融合蛋白中的蛋白质结构域的非限制性实例包括脱氨酶结构域(例如,腺苷脱氨酶)、尿嘧啶糖基化酶抑制剂(UGI)结构域、表位标签和报告基因序列。
表位标签的非限制性实例包括组氨酸(His)标签、V5标签、FLAG标签、流感血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签。报告基因的例子包括但不限于谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)β-半乳糖苷酶、β-葡萄糖醛酸酶、荧光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和自发荧光蛋白,包括蓝色荧光蛋白(BFP)。额外的蛋白质序列可以包括结合DNA分子或结合其他细胞分子的氨基酸序列,包括但不限于麦芽糖结合蛋白(MBP)、S-标签、Lex A DNA结合结构域(DBD)融合、GAL4 DNA结合结构域融合,和单纯疱疹病毒(HSV)BP16蛋白融合。
使用包含腺苷脱氨酶或胞苷脱氨酶和Cas9结构域的融合蛋白的方法
本公开的一些方面提供了使用本文提供的融合蛋白或复合物的方法。例如,本公开的一些方面提供了包括使DNA分子与本文提供的任何融合蛋白和至少一种引导RNA接触的方法,其中引导RNA长约15-100个核苷酸并且包含至少与靶标序列互补的10个连续核苷酸。在一些实施方案中,靶序列的3'端紧邻规范PAM序列(NGG)。在一些实施方案中,靶序列的3'端未紧邻规范PAM序列(NGG)。在一些实施方案中,靶序列的3'端紧邻AGC、GAG、TTT、GTG或CAA序列。在一些实施方案中,靶序列的3'端紧邻NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN或5′(TTTV)序列。
在一些实施方案中,本发明的融合蛋白用于诱变感兴趣的靶标。特别地,本文所述的腺苷脱氨酶核碱基编辑器(或胞苷脱氨酶核碱基编辑器)能够在靶序列内产生多个突变。这些突变可能会影响靶标的功能。例如,当腺苷脱氨酶核碱基编辑器用于靶向调节区时,调节区的功能被改变,下游蛋白质的表达减少或消除。
应当理解,各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同,例如,成熟蛋白质的前体和成熟蛋白质本身,物种之间的序列差异可能会影响编号。本领域技术人员将能够通过本领域众所周知的方法,例如通过序列比对和同源残基的测定,鉴定任何同源蛋白质和相应编码核酸中的相应残基。
对所属技术领域的技术人员显而易见的是,为了靶向包含如本文公开的Cas9结构域和腺苷脱氨酶(或胞苷脱氨酶)的任何融合蛋白的靶位点,例如要进行编辑的包含突变的位点,通常需要将融合蛋白与引导RNA(例如sgRNA)共表达。如本文别处更详细解释的,引导RNA通常包含允许Cas9结合的tracrRNA框架和赋予Cas9:核酸编辑酶/结构域融合蛋白序列特异性的引导序列。或者,引导RNA和tracrRNA可以作为两个核酸分子分开提供。在一些实施方案中,引导RNA包含一种结构,其中引导序列包含与靶标序列互补的序列。引导序列的长度通常为20个核苷酸。基于本公开,用于将Cas9:核酸编辑酶/结构域融合蛋白靶向特定基因组靶标位点的合适的引导RNA的序列对于本领域技术人员来说将是显而易见的。此类合适的引导RNA序列通常包含与待编辑的靶标核苷酸上游或下游50个核苷酸内的核酸序列互补的引导序列。本文提供了一些适用于将任何提供的融合蛋白靶向特定靶标序列的示例性引导RNA序列。
碱基编辑器效率
CRISPR-Cas9核酸酶已被广泛用于介导靶向基因组编辑。在大多数基因组编辑应用中,Cas9与引导多核苷酸(例如单引导RNA(sgRNA))形成复合物,并在sgRNA序列指定的靶标位点诱导双链DNA断裂(DSB)。细胞主要通过非同源末端连接(NHEJ)修复途径对这种DSB做出反应,这会导致随机插入缺失(indel),从而导致移码突变破坏基因。在存在与DSB侧翼序列高度同源的供体DNA模板的情况下,可以通过称为同源定向修复(HDR)的替代途径实现基因校正。不幸的是,在大多数非扰动条件下,HDR效率低下,取决于细胞状态和细胞类型,并且由更高频率的插入缺失主导。由于与人类疾病相关的大多数已知遗传变异都是点突变,因此需要能够更有效、更干净地进行精确点突变的方法。本文提供的碱基编辑系统提供了一种提供基因组编辑的新方法,无需产生双链DNA断裂,无需供体DNA模板,也无需诱导过量的随机插入和缺失。
本文提供的碱基编辑器能够修饰特定的核苷酸碱基而不产生显着比例的插入或缺失。本文使用的“插入或缺失(indel(s)”指核酸内的核苷碱基的插入或缺失。这种插入或缺失可导致基因编码区内的移码突变。在一些实施方案中,期望产生有效修饰(例如突变或脱氨)核酸内的特定核苷酸而不在靶核苷酸序列中产生大量插入或缺失(即,插入缺失(indels))的碱基编辑器。在某些实施方案中,本文提供的任何碱基编辑器与插入缺失相比能够产生更大比例的预期修饰(例如,点突变或脱氨)。
在一些实施方案中,本文提供的任何碱基编辑器系统导致在靶多核苷酸序列中形成小于50%、小于40%、小于30%、小于20%、小于19%、小于18%、小于17%、小于16%、小于15%、小于14%、小于13%、小于12%、小于11%、小于10%、小于9%、小于8%、小于7%、小于6%、小于5%、小于4%、小于3%、小于2%、小于1%、小于0.9%、小于0.8%、小于0.7%、小于0.6%、小于0.5%、小于0.4%、小于0.3%、小于0.2%、小于0.1%、小于0.09%、小于0.08%、小于0.07%、小于0.06%、小于0.05%、小于0.04%、小于0.03%、小于0.02%或小于0.01%的插入缺失。
在一些实施方案中,包含本文描述的ABE8或ABE9碱基编辑器变体之一的任何碱基编辑器系统导致在靶多核苷酸序列中形成小于50%、小于40%、小于30%、小于20%、小于19%、小于18%、小于17%、小于16%、小于15%、小于14%、小于13%、小于12%、小于11%、小于10%、小于9%、小于8%、小于7%、小于6%、小于5%、小于4%、小于3%、小于2%、小于1%、小于0.9%、小于0.8%、小于0.7%、小于0.6%、小于0.5%、小于0.4%、小于0.3%、小于0.2%、小于0.1%、小于0.09%、小于0.08%、小于0.07%、小于0.06%、小于0.05%、小于0.04%、小于0.03%、小于0.02%或小于0.01%的插入缺失。
在一些实施方案中,包含本文所述的ABE8或ABE9碱基编辑器变体之一的任何碱基编辑器系统导致在靶多核苷酸序列中形成少于0.8%的插入缺失。在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中形成最多0.8%的插入缺失。在一些实施方案中,包含本文所述的ABE8或ABE9碱基编辑器变体之一的任何碱基编辑器系统导致在靶多核苷酸序列中形成少于0.3%的插入缺失。在一些实施方案中,与包含ABE7碱基编辑器之一的碱基编辑器系统相比,包含所述ABE8或ABE9碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中较低的插入缺失形成。在一些实施方案中,与包含ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8或ABE9碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中较低的插入缺失形成。
在一些实施方案中,与包含ABE7碱基编辑器之一的碱基编辑器系统相比,包含本文所述的ABE8或ABE9碱基编辑器变体之一的任何碱基编辑器系统具有插入缺失频率的降低。在一些实施方案中,与包含ABE7碱基编辑器之一的碱基编辑器系统相比,包含本文所述的ABE8或ABE9碱基编辑器变体之一的任何碱基编辑器系统具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%或至少95%插入缺失频率的降低。在一些实施方案中,与包含ABE7.10的碱基编辑器相比,包含本文所述的ABE8碱基编辑器变体之一的碱基编辑器系统具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%或至少95%降低的插入缺失频率。
本公开提供了具有提高的效率和特异性的腺苷脱氨酶变体(例如,ABE8或ABE9变体)。特别地,本文所述的腺苷脱氨酶变体更有可能编辑多核苷酸内的所需碱基,并且不太可能编辑不打算改变的碱基(例如,“旁观者(bystander)”)。
在一些实施方案中,包含本文所述的ABE8或ABE9碱基编辑器变体之一的任何碱基编辑系统具有减少的旁观者编辑或突变。在一些实施方案中,非预期编辑或突变是旁观者突变或旁观者编辑,例如靶标核苷酸序列的靶标窗口中非预期或非靶标位置中的靶标碱基(例如,A或C)的碱基编辑。在一些实施方案中,与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比,包含本文所述的ABE8或ABE9碱基编辑器变体之一的任何碱基编辑系统具有减少的旁观者编辑或突变。在一些实施方案中,与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比,包含本文所述的ABE8或ABE9碱基编辑器变体之一的任何碱基编辑系统已将旁观者编辑或突变减少至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。在一些实施方案中,与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比,包含本文所述的ABE8或ABE9碱基编辑器变体之一的任何碱基编辑系统已将旁观者编辑或突变减少至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍,至少1.6倍,至少1.7倍,至少1.8倍,至少1.9倍,至少2.0倍,至少2.1倍,至少2.2倍,至少2.3倍,至少2.4倍,至少2.5倍至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍。
在一些实施方案中,包含本文所述的ABE8或ABE9碱基编辑器变体之一的任何碱基编辑系统具有减少的虚假编辑。在一些实施方案中,非预期编辑或突变是虚假突变或虚假编辑,方案如,非特异性编辑或引导独立编辑基因组的非预期或非靶标区域中的靶标碱基(例如,A或C)。在一些实施方案中,与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比,包含本文描述的ABE8或ABE9碱基编辑器变体之一的任何碱基编辑系统具有减少的虚假编辑。在一些实施方案中,与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比,包含本文所述的ABE8或ABE9碱基编辑器变体之一的任何碱基编辑系统已将虚假编辑减少至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。在一些实施方案中,与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比,包含本文所述的ABE8或ABE9碱基编辑器变体之一的任何碱基编辑系统已将虚假编辑减少至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍,至少1.6倍,至少1.7倍,至少1.8倍,至少1.9倍,至少2.0倍,至少2.1倍,至少2.2倍,至少2.3倍,至少2.4倍,至少2.5倍至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍。
本公开的一些方面基于下述认识:本文提供的任何碱基编辑器能够有效率地在核酸(例如,受试者基因组内的核酸)中产生预期突变,例如点突变,而不会产生大量意外突变,例如意外点突变(即,旁观者的突变)。在一些实施方案中,本文提供的任何碱基编辑器能够产生至少0.01%的预期突变(即,至少0.01%的碱基编辑效率)。在一些实施方案中,本文提供的任何碱基编辑器能够产生至少0.01%、1%、2%、3%、4%、5%、10%、15%、20%、25%、30%、40%、45%、50%、60%、70%、80%、90%、95%或99%的预期突变。
在一些实施方案中,本文所述的任何ABE8或ABE9碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的碱基编辑效率。在一些实施方案中,碱基编辑效率可以通过计算细胞群中编辑的核碱基的百分比来测量。在一些实施方案中,本文所述的任何ABE8或ABE9碱基编辑器变体,测量一群细胞中经过编辑的核碱基,具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的碱基编辑效率。
在一些实施方案中,与ABE7碱基编辑器相比,本文所述的任何ABE8或ABE9碱基编辑器变体具有更高的碱基编辑效率。在一些实施方案中,与ABE7碱基编辑器(例如ABE7.10)相比,本文所述的任何ABE8或ABE9碱基编辑器变体具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少230%、至少240%、至少250%、至少260%、至少270%、至少280%、至少290%、至少300%、至少310%、至少320%、至少330%,至少340%,至少350%,至少360%,至少370%,至少380%,至少390%、至少400%、至少450%或至少500%更高的碱基编辑效率。
在一些实施方案中,与ABE7碱基编辑器例如ABE7.10相比,本文所述的任何ABE8或ABE9碱基编辑器变体具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍更高的碱基编辑效率。
在一些实施方案中,本文所述的任何ABE8或ABE9碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的在靶碱基编辑效率。在一些实施方案中,本文所述的任何ABE8或ABE9碱基编辑器变体,测量一群细胞中经过编辑的靶核碱基,具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的在靶碱基编辑效率。
在一些实施方案中,与ABE7碱基编辑器相比,本文所述的任何ABE8或ABE9碱基编辑器变体具有更高的在靶碱基编辑效率。在一些实施方案中,与ABE7碱基编辑器(例如ABE7.10)相比,本文所述的任何ABE8或ABE9碱基编辑器变体具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少230%、至少240%、至少250%、至少260%、至少270%、至少280%、至少290%、至少300%、至少310%、至少320%、至少330%,至少340%,至少350%,至少360%,至少370%,至少380%,至少390%、至少400%、至少450%或至少500%更高的在靶碱基编辑效率。
在一些实施方案中,与ABE7碱基编辑器例如ABE7.10相比,本文所述的任何ABE8或ABE9碱基编辑器变体具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍更高的在靶碱基编辑效率。
本文所述的ABE8或ABE9碱基编辑器变体可通过质粒、载体、LNP复合物或mRNA递送至宿主细胞。在一些实施方案中,本文所述的任何ABE8或ABE9碱基编辑器变体作为mRNA递送至宿主细胞。在一些实施方案中,通过基于核酸的递送系统进行递送的ABE8或ABE9碱基编辑器,例如mRNA,以经过编辑的核碱基测量,具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的在靶编辑效率。在一些实施方案中,与通过质粒或载体系统递送的ABE8或ABE9碱基编辑器相比,由mRNA系统递送的ABE8或ABE9碱基编辑器具有更高的碱基编辑效率。在一些实施方案中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8或ABE9碱基编辑器变体具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少230%,至少240%,至少250%,至少260%,至少270%,至少280%,至少290%,至少高于300%,至少310%,至少320%,至少330%、至少340%、至少350%、至少360%、至少370%、至少380%、至少390%、至少400%、至少450%或至少500%的在靶编辑效率。在一些实施方案中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8或ABE9碱基编辑器变体具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍更高的在靶碱基编辑效率。
在一些实施方案中,包含本文描述的ABE8或ABE9碱基编辑器变体之一的任何碱基编辑器系统导致在靶多核苷酸序列中小于50%、小于40%、小于30%、小于20%、小于19%、小于18%、小于17%、小于16%、小于15%、小于14%、小于13%、小于12%、小于11%、小于10%、小于9%、小于8%、小于7%、小于6%、小于5%、小于4%、小于3%、小于2%、小于1%、小于0.9%、小于0.8%、小于0.7%、小于0.6%、小于0.5%、小于0.4%、小于0.3%、小于0.2%、小于0.1%、小于0.09%、小于0.08%、小于0.07%、小于0.06%、小于0.05%、小于0.04%、小于0.03%、小于0.02%或小于0.01%的脱靶编辑。
在一些实施方案中,本文所述的任何ABE8或ABE9碱基编辑器变体,与通过质粒或载体系统递送时相比,在通过mRNA系统递送时具有较低的引导脱靶编辑效率。在一些实施方案中,本文所述的任何ABE8或ABE9碱基编辑器变体,与通过质粒或载体系统递送时相比,在通过mRNA系统递送时,具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、或至少95%的较低的引导脱靶编辑效率。在一些实施方案中,与由质粒或载体系统递送时相比,由mRNA系统递送时,本文所述的任何ABE8或ABE9碱基编辑器变体具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍更低的引导脱靶编辑效率。在一些实施方案中,本文所述的任何ABE8或ABE9碱基编辑器变体,与通过质粒或载体系统递送时相比,在通过mRNA系统递送时具有至少减少约2.2倍的引导脱靶编辑效率。
在一些实施方案中,本文所述的任何ABE8或ABE9碱基编辑器变体,与通过质粒或载体系统递送时相比,在通过mRNA系统递送时具有较低的与引导无关的脱靶编辑效率。在一些实施方案中,本文所述的任何ABE8或ABE9碱基编辑器变体,与通过质粒或载体系统递送时相比,在通过mRNA系统递送时,具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、或至少95%的较低的与引导无关的脱靶编辑效率。在一些实施方案中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8或ABE9碱基编辑器变体具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少5.0倍、至少10.0倍、至少20.0倍、至少50.0倍、至少70.0倍、至少100.0倍、至少120.0倍、至少130.0倍、至少150.0倍更低的与引导无关的脱靶编辑效率。在一些实施方案中,与通过质粒或载体系统递送时相比,当通过mRNA系统递送时,本文描述的ABE8或ABE9碱基编辑器变体在与引导无关的脱靶编辑效率(例如,虚假RNA脱氨)方面具有134.0倍的降低。在一些实施方案中,本文所述的ABE8或ABE9碱基编辑器变体不增加整体基因组的与引导无关的突变率。
本公开的一些方面基于下述认识:本文提供的任何碱基编辑器能够有效地在核酸(例如,受试者基因组内的核酸)中产生预期突变,例如点突变不会产生大量意外突变,例如意外点突变。在一些实施方案中,本文提供的任何碱基编辑器能够产生至少0.01%的预期突变(例如,假脱靶编辑或旁观者编辑)。在一些实施方案中,预期突变是由与gRNA结合的特定碱基编辑器产生的突变,专门设计用于改变或纠正靶基因中的突变。本公开的一些方面基于下述认识:本文提供的任何碱基编辑器能够有效地在核酸(例如受试者基因组内的核酸)中产生预期突变而不产生大量非预期突变。在一些实施方案中,预期突变是由与gRNA结合的特定碱基编辑器产生的突变,专门设计用于改变或纠正预期突变。在一些实施方案中,预期突变是产生终止密码子的突变,例如基因编码区内的提前终止密码子。在一些实施方案中,预期突变是消除终止密码子的突变。在一些实施方案中,预期突变是改变基因剪接的突变。在一些实施方案中,预期突变是改变基因(例如,基因启动子或基因阻遏物)的调控序列的突变。
在一些实施方案中,本文提供的碱基编辑器能够产生大于1:1的预期点突变与插入缺失的比率。在一些实施方案中,本文提供的碱基编辑器能够产生的预期点突变与插入缺失的比率至少1.5:1,至少2:1,至少2.5:1,至少3:1,至少3.5:1,至少4:1,至少4.5:1,至少5:1,至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少8.5:1、至少9:1、至少10:1,至少11:1,至少12:1,至少13:1,至少14:1,至少15:1,至少20:1,至少25:1,至少30:1,至少40:1,至少50:1,至少100:1,至少200:1,至少300:1,至少400:1,至少500:1,至少600:1,至少700:1、至少800:1、至少900:1、或至少1000:1或更多。
可以使用任何合适的方法确定预期突变和插入缺失的数量,例如,如国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632);Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)中所述,其全部内容以引用方式并入本文。
在一些实施方案中,为了计算插入缺失频率,扫描测序读数以寻找与两个10-bp序列的精确匹配,所述两个10-bp序列位于可以发生插入缺失的窗口两侧。如果未找到完全匹配,则从分析中排除读取。如果此插入缺失窗口的长度与参考序列完全匹配,则读取被归类为不包含插入缺失。如果插入缺失窗口比参考序列长或短两个或更多碱基,则测序读数分别被归类为插入或缺失。在一些实施方案中,本文提供的碱基编辑器可以限制核酸区域中插入缺失的形成。在一些实施方案中,该区域位于碱基编辑器靶向的核苷酸处或碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区域。
在靶标核苷酸区域形成的插入缺失的数量可取决于核酸(例如,细胞基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施例中,插入缺失的数量或比例在将靶标核苷酸序列(例如,细胞基因组内的核酸)暴露于碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后确定。应当理解,本文描述的碱基编辑器的特征可以应用于任何融合蛋白,或使用本文提供的融合蛋白的方法。
在一些实施方案中,本文提供的碱基编辑器能够限制核酸区域中插入缺失的形成。在一些实施方案中,该区域位于碱基编辑器靶向的核苷酸处或碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区域。在一些实施方案中,本文提供的任何碱基编辑器能够将核酸区域处插入缺失的形成限制为小于1%、小于1.5%、小于2%、小于2.5%、小于3%、小于3.5%、小于4%、小于4.5%、小于5%、小于6%、小于7%、小于8%、小于9%、小于10%、小于12%、小于15%或小于20%。在核酸区域形成的插入缺失的数量可取决于核酸(例如,细胞基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施方案中,插入缺失的任何数量或比例在将核酸(例如,细胞基因组内的核酸)暴露于碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后确定。
碱基编辑器的细节在国际PCT申请号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO 2017/070632)中有所描述,其各自以引用方式整体并入本文。此外,参见Komor,A.C.,等人,“Programmable editing of a target base in genomic DNAwithout double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),其全部内容以引用方式并入本文。在一些实施方案中,使用本文提供的方法编辑一个或多个基因中的多个核碱基对导致形成至少一个预期突变。在一些实施方案中,所述至少一种预期突变的所述形成导致基因的正常功能的破坏。在一些实施方案中,所述至少一种预期突变的所述形成导致减少或消除由基因编码的蛋白质的表达。应当理解,可以使用本文提供的任何方法或方法的组合来完成多重编辑。
多重编辑
在一些实施方案中,本文提供的碱基编辑器系统能够多重编辑一个或多个基因中的多个核碱基对。在一些实施方案中,多个核碱基对位于同一基因中。在一些实施方案中,多个核碱基对位于一个或多个基因中,其中至少一个基因位于不同基因座中。在一些实施方案中,所述多重编辑可包含一种或多种引导多核苷酸。在一些实施方案中,所述多重编辑可包含一种或多种碱基编辑器系统。在一些实施方案中,所述多重编辑可包含一种或多种具有单个引导多核苷酸的碱基编辑器系统。在一些实施方案中,所述多重编辑可包含一种或多种具有多个引导多核苷酸的碱基编辑器系统。在一些实施方案中,所述多重编辑可包含一个或多个具有单个碱基编辑器系统的引导多核苷酸。在一些实施方案中,多重编辑可包含至少一种不需要PAM序列来靶向结合靶标多核苷酸序列的引导多核苷酸。在一些实施方案中,多重编辑可包含至少一种需要PAM序列来靶向结合靶标多核苷酸序列的引导多核苷酸。在一些实施方案中,多重编辑可以包括至少一种不需要PAM序列靶向结合靶标多核苷酸序列的引导多核苷酸和至少一种需要PAM序列靶向结合靶标多核苷酸序列的引导多核苷酸的混合物。应当理解,使用本文所述的任何碱基编辑器的多重编辑的特征可以应用于使用本文提供的任何碱基编辑器的方法的任何组合。还应当理解,使用本文所述的任何碱基编辑器的多重编辑可以包括多个核碱基对的顺序编辑。
在一些实施方案中,多个核碱基对在一个或多个基因中。在一些实施方案中,多个核碱基对在同一基因中。在一些实施方案中,一个或多个基因中的至少一个基因位于不同基因座中。
在一些实施方案中,所述编辑是编辑至少一个蛋白质编码区中的多个核碱基对。在一些实施方案中,所述编辑是编辑至少一个蛋白质非编码区中的多个核碱基对。在一些实施方案中,所述编辑是编辑至少一个蛋白质编码区和至少一个蛋白质非编码区中的多个核碱基对。
在一些实施方案中,所述编辑与一个或多个引导多核苷酸结合。在一些实施方案中,所述碱基编辑器系统可包含一种或多种碱基编辑器系统。在一些实施方案中,所述碱基编辑器系统可以包含一个或多个碱基编辑器系统与单个引导多核苷酸结合。在一些实施方案中,所述碱基编辑器系统可以包括一个或多个碱基编辑器系统与多个引导多核苷酸相结合。在一些实施方案中,所述编辑与具有单个碱基编辑器系统的一个或多个引导多核苷酸结合。在一些实施方案中,所述编辑与至少一种不需要PAM序列来靶向结合靶多核苷酸序列的引导多核苷酸结合。在一些实施方案中,所述编辑与至少一种引导多核苷酸结合,该引导多核苷酸需要PAM序列靶向结合靶多核苷酸序列。在一些实施方案中,所述编辑与不需要PAM序列靶向结合靶多核苷酸序列的至少一种引导多核苷酸和需要PAM序列靶向结合靶多核苷酸序列的至少一种引导多核苷酸的混合物结合。应当理解,使用本文所述的任何碱基编辑器的多重编辑的特征可以应用于使用本文提供的任何碱基编辑器的方法的任何组合。还应当理解,编辑可以包括多个核碱基对的顺序编辑。
使用碱基编辑器的方法
基因和等位基因的碱基编辑为治疗和基础研究提供了新的和有益的策略。
本公开提供了用于治疗被诊断患有与点突变相关或由点突变引起的疾病的患者的方法,所述点突变可以通过本文提供的碱基编辑器或碱基编辑器系统进行校正。例如,在一些实施方案中,本文提供了一种方法,该方法包括向患有此类疾病(例如,由基因突变引起的疾病,例如单核苷酸多态性(SNP))的受试者施用有效量的核碱基编辑器(腺苷脱氨酶碱基编辑器)校正疾病相关基因中的点突变。在某个方面,本文提供了用于治疗与突变相关或由突变引起的疾病的方法。在一个实施方案中,该疾病是与SERPINA1基因突变相关的α-1抗胰蛋白酶缺乏症(A1AD)。在一个实施方案中,与A1AD相关的致病突变是E342K,例如,如本文实施例3中所述。
应当理解,各个序列中特定位置或残基的编号,例如疾病相关基因或其编码蛋白质的多核苷酸或氨基酸序列,分别取决于所使用的特定蛋白质和编号方案。编号可以不同,例如,成熟蛋白质的前体和成熟蛋白质本身,物种之间的序列差异可以会影响编号。本领域技术人员将能够通过本领域众所周知的方法,例如通过序列比对和同源残基的测定,鉴定任何同源蛋白质和相应编码核酸中的相应残基。
本文提供了使用碱基编辑器或碱基编辑器系统来编辑与疾病或病症相关的靶核苷酸序列中的核碱基的方法。在一些实施方案中,碱基编辑器(例如,包含腺苷脱氨酶和Cas9结构域)的活性导致点突变的校正。在一个实施方案中,碱基编辑器的活性导致突变的校正,其改变剪接受体或供体位点。在一些实施方案中,靶DNA序列包含与疾病或病症相关的G→A点突变,并且其中突变体A碱基的脱氨作用产生与疾病或病症不相关的序列。
在一些实施方案中,靶DNA序列编码蛋白质,并且点突变在密码子中并导致突变密码子编码的氨基酸与野生型密码子相比发生变化。在一些实施方案中,突变体A的脱氨作用导致突变密码子所编码的氨基酸发生变化。在一些实施方案中,突变体A的脱氨作用产生编码野生型氨基酸的密码子。在一些实施方案中,受试者已经或已经被诊断患有疾病或病症。
在一些实施方案中,本文提供的腺苷脱氨酶能够使DNA的脱氧腺苷残基中的腺嘌呤脱氨。本公开的其他方面提供了一种融合蛋白,其包含腺苷脱氨酶(例如,如本文所述将DNA中的脱氧腺苷脱氨的腺苷脱氨酶)和能够结合特定核苷酸序列的结构域(例如,Cas9或Cpfl蛋白)。例如,腺苷可以转化为肌苷残基,其通常与胞嘧啶残基碱基配对。此类融合蛋白尤其可用于核酸序列的靶向编辑。此类融合蛋白可用于体外DNA的靶向编辑,例如,用于产生突变细胞或动物;用于引入靶向突变,例如,用于校正离体细胞中的遗传缺陷,例如,在从受试者获得的细胞中,随后将其重新引入同一受试者或另一受试者;以及用于在体内引入靶向突变。本公开提供了利用脱氨酶和核碱基编辑器的脱氨酶、融合蛋白、核酸、载体、细胞、组合物、方法、试剂盒、系统等。
产生预期的突变
在一些实施方案中,本文提供的方法的目的是通过基因编辑恢复功能障碍基因的功能。在一些实施方案中,功能障碍基因的功能通过引入预期突变来恢复。本文提供的核碱基编辑蛋白可以在体外验证基于基因编辑的人类治疗,例如,通过校正人类细胞培养物中的疾病相关突变。本领域技术人员将理解,本文提供的核碱基编辑蛋白,例如包含多核苷酸可编程核苷酸结合结构域(例如,Cas9)和核碱基编辑结构域(例如,腺苷脱氨酶结构域)的融合蛋白可用于校正任何单点A到G或C到T突变。在第一种情况下,突变体A到I的脱氨作用校正了突变,而在后一种情况下,在与突变体T碱基配对的A的脱氨作用后进行一轮复制,校正了突变。
在一些实施方案中,本公开提供的碱基编辑器能够有效地在核酸(例如,受试者基因组内的核酸)中产生预期突变,例如点突变,而不会产生大量意外突变,例如意外点突变。在一些实施方案中,预期突变是由与引导多核苷酸(例如,gRNA)结合的特定碱基编辑器(例如,腺苷碱基编辑器)产生的突变,该引导多核苷酸(例如,gRNA)专门设计用于产生预期突变。在一些实施方案中,预期突变是与疾病或病症相关的突变。在一些实施方案中,预期突变是与疾病或病症相关的腺嘌呤(A)至鸟嘌呤(G)点突变。在一些实施方案中,预期突变是与疾病或病症相关的胞嘧啶(C)至胸腺嘧啶(T)点突变。在一些实施方案中,预期突变是基因的编码区或非编码区中的腺嘌呤(A)至鸟嘌呤(G)点突变。在一些实施方案中,预期突变是基因的编码区或非编码区中的胞嘧啶(C)至胸腺嘧啶(T)点突变。在一些实施方案中,预期突变是产生终止密码子的点突变,例如基因编码区内的提前终止密码子。在一些实施方案中,预期突变是消除终止密码子的突变。
在一些实施方案中,本文所提供的任何的碱基编辑器能够产生预期突变与非预期突变(即,预期点突变:非预期点突变)的比率大于1:1。1.在一些实施方案中,本文所提供的任何的碱基编辑器能够产生预期突变与非预期突变(即,预期点突变:非预期点突变)的比率至少1:5。1,至少2:1,至少2.5:1,至少3:1,至少3.5:1,至少4:1,至少4.5:1,至少5:1,至少5.5:1,至少6:1,至少6.5:1,至少7:1,至少7.5:1,至少8:1,至少10:1,至少12:1,至少15:1,至少20:1,至少25:1,至少30:1,至少40:1,至少50:1,至少100:1,至少150:1,至少200:1,至少250:1,至少500:1,或至少1000:1,或更多
碱基编辑器的效率的细节在国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)中有所描述,它们各自通过引用整体并入本文。此外,请参阅Komor,A.C.,等人,“Programmable editing of a target base in genomic DNAwithout double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),其全部内容以引用方式并入本文。
在一些实施方案中,编辑一个或多个基因中的多个核碱基对导致至少一个预期突变的形成。在一些实施方案中,至少一个预期突变的形成导致引起疾病的突变的精确校正。应当理解,使用本文所述的碱基编辑器的多重编辑的特征可以应用于使用本文提供的碱基编辑器的方法的任何组合。
融合蛋白在宿主细胞中的表达
使用所属技术领域的技术人员已知的常规方法,本公开的包含腺苷脱氨酶变体的融合蛋白可以在几乎任何感兴趣的宿主细胞中表达,包括但不限于细菌、酵母、真菌、昆虫、植物和动物细胞。例如,可以通过基于cDNA序列为CDS的上游和下游设计合适的引物来克隆编码本公开的腺苷脱氨酶的DNA。克隆的DNA可以直接,或在需要时用限制酶消化后,或在添加合适的接头和/或核定位信号后与编码碱基编辑系统的一种或多种额外组分的DNA连接。碱基编辑系统在宿主细胞中被转译以形成复合体。
编码本文所述的蛋白质结构域的DNA可以通过化学合成DNA获得,或者通过利用PCR方法和Gibson组装法连接合成的部分重叠的寡聚DNA短链以构建编码其全长的DNA。通过化学合成或结合PCR方法或Gibson Assembly方法构建全长DNA的优点是,可以根据引入DNA的宿主以CDS全长形式设计要使用的密码子。在异源DNA的表达中,通过将其DNA序列转化为宿主生物中频繁使用的密码子,预计蛋白质表达水平会增加。作为要使用的宿主中密码子使用频率的数据,例如可以使用在Kazusa DNA研究所的主页中公开的遗传密码使用频率数据库(kazusa.or.jp/codon/index.html),也可以参考显示每个宿主中密码子使用频率的文件。参考获得的数据和要引入的DNA序列,可以将用于DNA序列的密码子中在宿主中显示低使用频率的密码子转换为编码相同氨基酸并显示高使用频率的密码子。
包含编码核酸序列识别模块和/或核酸碱基转化酶的DNA的表达载体可以例如通过将DNA连接到合适表达载体中的启动子的下游来生产。在一些实施方案中,使用动物细胞表达质粒(例如pA1-11、pXT1、pRc/CMV、pRc/RSV、pcDNAI/Neo)和动物病毒载体,例如逆转录病毒、牛痘病毒、腺病毒等。在其他实施方案中,使用大肠杆菌来源的质粒(例如,pBR322、pBR325、pUC12、pUC13);枯草芽孢杆菌来源的质粒(例如pUB110、pTP5、pC194);酵母来源的质粒(例如pSH19、pSH15);昆虫细胞表达质粒(例如pFast-Bac);噬菌体如λ噬菌体等;昆虫病毒载体,例如杆状病毒等(例如,BmNPV、AcNPV);以及诸如此类。
在一些实施方案中,可以使用适合于在给定宿主中基因表达的任何启动子。在使用DSB的常规方法中,由于宿主细胞的存活率有时会因毒性而显着降低,因此期望通过使用诱导启动子在诱导开始时增加细胞数。然而,由于通过表达本公开的核酸修饰酶复合物也可以提供足够的细胞增殖,因此也可以不受限制地使用构成启动子。
例如,但不限于,当宿主是动物细胞时使用:SRα启动子、SV40启动子、LTR启动子、CMV(巨细胞病毒)启动子、RSV(劳斯肉瘤病毒)启动子、MoMuLV(莫洛尼小鼠白血病病毒)LTR、HSV-TK(使用单纯疱疹病毒胸苷激酶)启动子等。其中,CMV启动子、SRα启动子等适合使用。当宿主是大肠杆菌时,适合使用trp启动子、lac启动子、recA启动子、lamda.PL启动子、lpp启动子、T7启动子等。当宿主是芽孢杆菌属时,适合使用SPO1启动子、SPO2启动子、penP启动子等。当宿主是酵母时,适合使用Gal1/10启动子、PHO5启动子、PGK启动子、GAP启动子、ADH启动子等。当宿主是昆虫细胞时,适合使用多角体促进剂、P10促进剂等。当宿主是植物细胞时,适合使用CaMV35S启动子、CaMV19S启动子、NOS启动子等。
除上述以外,表达载体还可以根据需要使用含有增强子、剪接信号、终止子、polyA添加信号、选择标记(例如耐药基因、营养缺陷型互补基因)、复制起点等。
编码本文描述的蛋白质结构域的RNA可以例如通过本身已知的体外转录系统中转录为mRNA来制备,其通过使用编码上述核酸序列识别模组的DNA和/或核酸酸碱基转化酶作为模板的载体。
本公开的融合蛋白可以通过将含有编码核酸序列识别模块和/或核酸碱基转化酶的DNA的表达载体导入宿主细胞并培养宿主细胞而在细胞内表达。
作为动物细胞,细胞系如猴COS-7细胞、猴Vero细胞、中国仓鼠卵巢(CHO)细胞、dhfr基因缺陷型CHO细胞、小鼠L细胞、小鼠AtT-20细胞、小鼠骨髓瘤细胞、大鼠GH3使用人类和其他哺乳动物的iPS细胞、ES细胞等多能干细胞,以及由各种组织制备的原代培养细胞。此外,还可以使用斑马鱼胚胎、非洲爪蟾卵母细胞等。
对于大肠杆菌属,可以使用芽孢杆菌属、酵母菌、昆虫细胞、昆虫、动物细胞等作为宿主细胞。
对于大肠杆菌属,可以使用大肠杆菌K12.cndot.DH1(Proc.Natl.Acad.Sci.USA,60,160(1968)),Escherichia coli JM103(Nucleic Acids Research,9,309(1981)),Escherichia coli JA221(Journal of Molecular Biology,120,517(1978)),Escherichia coli HB101(Journal of Molecular Biology,41,459(1969)),Escherichiacoli C600(Genetics,39,440(1954)),及诸如此类等。
对于芽孢杆菌属,可以使用枯草芽孢杆菌M1114(Gene,24,255(1983))、枯草芽孢杆菌207-21(Journal of Biochemistry,95,87(1984))等。
对于酵母,可以使用酿酒酵母(Saccharomyces cerevisiae)AH22、AH22R.sup.-、NA87-11A、DKD-5D、20B-12、粟酒裂殖酵母(Schizosaccharomyces pombe)NCYC1913、NCYC2036、毕赤酵母(Pichia pastoris)KM71等。
对于病毒为AcNPV时的昆虫细胞,可以使用甘蓝粘虫幼虫来源的建立系细胞(Spodoptera frugiperda细胞;Sf细胞)、源自毛羽虫中肠的MG1细胞、源自毛羽虫卵的HIGHFIVETM细胞、源自芸苔属的细胞、源自盐泽灯蛾(Estigmena acrea)的细胞等。对于BmNPV病毒,可以使用源自家蚕的建立系的细胞(家蚕N细胞;BmN细胞)等作为昆虫细胞。对于Sf细胞,例如,可以使用Sf9细胞(ATCC CRL1711)、Sf21细胞[所有上述,In Vivo,13,213-217(1977)]等。
对于昆虫,例如,可以使用家蚕、果蝇、蟋蟀等的幼虫(Nature,315,592(1985))。
对于植物细胞,可以使用由多种植物(例如水稻、小麦、玉米(maize)等谷类、番茄、黄瓜、茄子等产品作物等、康乃馨、洋桔梗等园林植物、烟草、拟南芥等实验植物,及诸如此类等)所制备的悬浮培养细胞、愈伤组织、原生质体、叶段、根段等。
上述所有宿主细胞都可以是单倍体(单倍体),也可以是多倍体(例如二倍体、三倍体、四倍体等)。在传统的突变引入方法中,突变原则上只引入一个同源染色体以产生异种基因类型。因此,除非发生显性突变,否则不会表达所需的表型,并且纯合子不方便地需要劳力和时间。相较之下,根据本公开,由于可以将突变引入基因组中同源染色体上的任何等位基因,因此即使在隐性突变的情况下也可以在单代中表达所需的表型,由于可以解决传统方法的问题,极为有用。
根据宿主的种类,表达载体可以通过已知的方法(例如溶菌酶法、感受态法、PEG法、CaCl2共沉淀法、电穿孔法、显微注射法、粒子枪法、脂质转染法、农杆菌法等)导入。
大肠杆菌可以根据所述方法转化,例如,Proc.Natl.Acad.Sci.USA,69,2110(1972),Gene,17,107(1982)及此等。
芽孢杆菌属可以根据描述的方法引入载体中,例如,Molecular&GeneralGenetics,168,111(1979)等。
酵母可以根据描述的方法引入载体中,例如,Methods in Enzymology,194,182-187(1991),Proc.Natl.Acad.Sci.USA,75,1929(1978)等。
昆虫细胞和昆虫可以根据描述于,例如,Bio/Technology,6,47-55(1988)等方法引入到载体中。
动物细胞可根据描述于,例如,Cell Engineering additional volume 8,NewCell Engineering Experiment Protocol,263-267(1995)(published by Shujunsha),和Virology,52,456(1973)的方法引入到载体。导入了载体的細胞可以根据宿主的种类按照公知的方法进行培养。
例如,当培养大肠杆菌或芽孢杆菌属时,液体培养基适合用于培养。培养基通常含有转化体生长所必需的碳源、氮源、无机物等。碳源的实例包括葡萄糖、糊精、可溶性淀粉、蔗糖等;氮源的实例包括无机或有机物质,例如铵盐、硝酸盐、玉米浆、蛋白胨、酪蛋白、肉提取物、豆饼、马铃薯提取物等。无机物的实例包括氯化钙、磷酸二氢钠、氯化镁等。培养基可以含有酵母提取物、维生素、生长促进因子等。培养基的pH值约5至约8。
作为培养大肠杆菌的培养基,可以使用例如,含有葡萄糖、酪蛋白氨基酸的M9培养基(Journal of Experiments in Molecular Genetics,431-433,Cold Spring HarborLaboratory,New York 1972)。如有必要,例如,可以将诸如3-β-吲哚基丙烯酸之类的试剂添加到培养基中以确保促进剂的有效功能。通常,大肠杆菌在约15至约43℃下培养。必要时,可进行通气和搅拌。
芽孢杆菌属通常在约30至约40℃培养。必要时,可进行通气和搅拌。
用于培养酵母的培养基的实例包括伯克霍尔德基本培养基(Burkholder minimummedium)(Proc.Natl.Acad.Sci.USA,77,4505(1980)),SD medium containing 0.5%casamino acid(Proc.Natl.Acad.Sci.USA,81,5330(1984))等。培养基的pH值优选为约5至约8。培养物通常保持在约20℃至约35℃。必要时,可进行通气和搅拌。
作为用于培养昆虫细胞或昆虫的培养基,例如,可使用适当含有10%灭活牛血清等添加剂的Grace's Insect培养基(Nature,195,788(1962))。培养基的pH值优选为约6.2至约6.4。培养物通常保持在约27℃。必要时,可进行通气和搅拌。
作为用于培养动物细胞的培养基,例如,使用含有约5到约20%胎牛血清的最低必需培养基(MEM)(Science,122,501(1952))、Dulbecco's modified Eagle medium(DMEM)[Virology,8,396(1959)]、RPMI 1640 medium[The Journal of the American MedicalAssociation,199,519(1967)]、199 medium[Proceeding of the Society for theBiological Medicine,73,1(1950)]等。培养基的pH值优选为约6至约8。培养物通常保持在约30℃至约40℃。必要时,可进行通气和搅拌。
当高等真核细胞,例如动物细胞用作宿主细胞时,将编码本公开的碱基编辑系统(例如,包含腺苷脱氨酶变体)的DNA引入到在诱导型启动子(例如,金属硫蛋白启动子(由重金属离子诱导)、热休克蛋白启动子(由热休克诱导)、Tet-ON/Tet-OFF系统启动子(通过添加或去除四环素诱导)调控下的宿主细胞)或其衍生物)、类固醇反应启动子(由类固醇激素或其衍生物诱导)等),在适当的阶段将诱导物质加入培养基中(或从培养基中去除)以诱导核酸的表达-修饰酶复合物,培养一定时间进行碱基编辑,将突变引入靶基因,实现碱基编辑系统的瞬时表达。
原核细胞例如大肠杆菌等可以利用诱导型启动子。合适的诱导型启动子的实例包括但不限于lac启动子(由IPTG诱导)、cspA启动子(由冷休克诱导)、araBAD启动子(由阿拉伯糖诱导)等。
或者,当使用高等真核细胞,如动物细胞等作为宿主细胞时,上述诱导型启动子也可以用作载体去除机制。即,载体安装有作用在宿主细胞中的复制起点,以及编码复制所必需的蛋白质(例如,SV40和大T抗原、动物细胞的oriP和EBNA-1等)的核酸。编码该蛋白质的核酸的表达受上述诱导型启动子的调控。因此,虽然载体在诱导物质存在的情况下可以自主复制,但当去除诱导物质时,自主复制不可用,载体自然随着细胞分裂而脱落(通过添加不能自主复制Tet-OFF系统载体中的四环素和强力霉素)。
递送系统
本文公开的碱基编辑器可以在病毒载体中包含的核酸上编码。病毒载体可以包括慢病毒、腺病毒、逆转录病毒和腺相关病毒(AAV)。可以根据应用选择病毒载体。例如,AAVs通常用于体内基因传递,因为它们具有温和的免疫原性。腺病毒通常用作疫苗,因为它们诱导强烈的免疫原性反应。病毒载体的包装容量会限制可以包装到载体中的碱基编辑器的大小。例如,AAV的包装容量约为4.5Kb,包括两个145碱基反向末端重复序列(ITR)。
AAV是一种小型的单链DNA依赖性病毒,属于细小病毒家族。4.7kb野生型(wt)AAV基因组由两个基因组成,分别编码四种复制蛋白和三种衣壳蛋白,两侧各有145bp反向末端重复序列(ITR)。病毒粒子由三种衣壳蛋白Vp1、Vp2和Vp3组成,它们以1:1:10的比例从相同的开放阅读框产生,但来自差异剪接(Vp1)和替代转译起始位点(分别为Vp2和Vp3)。Vp3是病毒体中最丰富的亚基,并参与定义病毒向性的细胞表面受体识别。已在Vp1的独特N末端鉴定出一个在病毒感染性中起作用的磷脂酶结构域。
与wt AAV类似,重组AAV(rAAV)利用顺式作用的145bp ITR位于载体转基因盒的侧翼,提供高达4.5kb的外源DNA包装。感染后,rAAV可以表达本发明内容的融合蛋白,并通过环状头尾串联体中游离存在的方式持续存在而不整合到宿主基因组中。尽管有许多使用该系统在体外和体内成功的rAAV实例,但当基因编码序列的长度等于或大于wt AAV基因组。
AAV载体的小包装容量使得大量基因的传递和/或大型生理调控元件的使用具有挑战性。例如,可以通过将要递送的蛋白质分成两个或多个片段来解决这些挑战,其中N端片段与分裂的内含肽-N融合,C端片段与分裂的内含肽融合内含肽-C。然后将这些片段打包成两个或多个AAV载体。如本文所用,“内含子”是指连接侧翼N-末端和C-末端外显子(例如,要连接的片段)的自剪接蛋白质内含子(例如,肽)。某些内含肽用于连接异源蛋白质片段的用途在例如Wood等人,J.Biol.Chem.289(21);14512-9(2014)中被描述。例如,当与分离的蛋白质片段融合时,内含肽IntN和IntC相互识别,将自身剪断并同时连接它们所融合的蛋白质片段的侧翼N和C端外显肽,从而重建来自两个蛋白质片段的全长蛋白质。其他合适的内含肽对本领域技术人员来说是显而易见的。
本发明的融合蛋白的片段的长度可以不同。在一些实施方案中,蛋白质片段的长度从2个氨基酸到约1000个氨基酸。在一些实施方案中,蛋白质片段的长度从5个氨基酸到约500个氨基酸。在一些实施方案中,蛋白质片段的长度从20个氨基酸到约200个氨基酸。在一些实施方案中,蛋白质片段的长度从10个氨基酸到约100个氨基酸。其他长度的合适蛋白质片段对本领域技术人员来说是显而易见的。
在一些实施方案中,核酸酶(例如,Cas9)的一部分或片段与内含肽融合。核酸酶可以融合到内含肽的N末端或C末端。在一些实施方案中,融合蛋白的一部分或片段与内含肽融合并与AAV衣壳蛋白融合。内含肽、核酸酶和衣壳蛋白可以任何排列融合在一起(例如,核酸酶-内含肽-衣壳、内含肽-核酸酶-衣壳、衣壳-内含肽-核酸酶等)。在一些实施方案中,内含肽的N末端与融合蛋白的C末端融合,并且内含肽的C末端与AAV衣壳蛋白的N末端融合。
在一个实施方案中,双AAV载体是通过将一个大的转基因表达盒分成两半(5'和3'端,或头和尾)而产生的,其中盒的每一半都被包装在一个AAV载体中(<5KB)。然后通过两种双AAV载体共感染同一细胞实现全长转基因表达盒的重新组装,然后:(1)5'和3'基因组之间的同源重组(HR)(双AAV重叠载体);(2)ITR介导的5'和3'基因组的尾对头串联(双AAV反式剪接载体);或(3)这两种机制的组合(双AAV混合载体)。在体内使用双AAV载体导致全长蛋白质的表达。双AAV载体平台的使用代表了一种有效且可行的基因转移策略,适用于大小大于4.7kb的转基因。
所述用于设计碱基编辑器的公开的策略可用于生成能够被包装到病毒载体中的碱基编辑器。使用基于RNA或DNA病毒的系统来递送碱基编辑器,利用高度进化的过程将病毒靶向培养中或宿主中的特定细胞,并将病毒有效载荷运送到细胞核或宿主细胞基因组。病毒载体可以直接施用于培养中的细胞、患者(体内),或者它们可以用于体外处理细胞,并且可以任选地将修饰的细胞施用于患者(离体)。常规的基于病毒的系统可以包括用于基因转移的逆转录病毒、慢病毒、腺病毒、腺相关病毒和单纯疱疹病毒载体。逆转录病毒、慢病毒和腺相关病毒基因转移方法可以整合到宿主基因组中,通常会导致插入的转基因长期表达。此外,在许多不同的细胞类型和靶组织中都观察到了高转导效率。
逆转录病毒的趋向性可以通过掺入外来包膜蛋白来改变,扩大靶细胞的潜在目标群体。慢病毒载体是能够转导或感染非分裂细胞并通常产生高病毒滴度的逆转录病毒载体。因此,逆转录病毒基因转移系统的选择将取决于靶标组织。逆转录病毒载体由顺式作用的长末端重复序列组成,其包装能力高达6-10kb的外源序列。最小的顺式作用LTR足以复制和包装载体,然后用于将治疗基因整合到靶标细胞中以提供永久的转基因表达。广泛使用的逆转录病毒载体包括基于鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猿猴免疫缺陷病毒(SIV)、人类免疫缺陷病毒(HIV)及其组合的那些(参见,例如,Buchscher等人,J.Virol.66:2731-2739(1992);Johann等人,J.Virol.66:1635-1640(1992);Sommnerfelt等人,Virol.176:58-59(1990);Wilson等人,J.Virol.63:2374-2378(1989);Miller等人,J.Virol.65:2220-2224(1991);PCT/US94/05700).
逆转录病毒载体,尤其是慢病毒载体,可能需要小于给定长度的多核苷酸序列以有效整合到靶细胞中。例如,长度大于9kb的逆转录病毒载体与较小的病毒载体相比,会导致病毒滴度较低。在一些方面,本公开内容的碱基编辑器具有足够的大小以使得能够通过逆转录病毒载体有效包装和递送到靶标细胞中。在一些情况下,碱基编辑器的大小使得即使在与引导核酸和/或可靶向核酸酶系统的其他组分一起表达时也允许有效包装和递送。
在首选暂时表达的应用中,可以使用基于腺病毒的系统。基于腺病毒的载体能够在许多细胞类型中具有非常高的转导效率并且不需要细胞分裂。使用这样的载体,已经获得了高滴度和表达水平。该载体可以在相对简单的系统中大量生产。腺相关病毒(“AAV”)载体也可用于用靶标核酸转导细胞,例如在核酸和肽的体外生产中,以及用于体内和离体基因治疗程序(参见,例如,West等人,Virology 160:38-47(1987);美国专利号4,797,368;WO93/24641;Kotin,Human Gene Therapy 5:793-801(1994);Muzyczka,J.Clin.Invest.94:1351(1994).重组AAV载体的构建在许多出版物中有所描述,包括美国专利号5,173,414;Tratschin等人,Mol.Cell.Biol.5:3251-3260(1985);Tratschin,等人,Mol.Cell.Biol.4:2072-2081(1984);Hermonat&Muzyczka,PNAS 81:6466-6470(1984);and Samulski等人,J.Virol.63:03822-3828(1989).
因此,本文所述的碱基编辑器可以与病毒载体一起递送。碱基编辑器系统的一种或多种组件可以在一种或多种病毒载体上编码。例如,碱基编辑器和引导核酸可以在单个病毒载体上编码。在其他情况下,碱基编辑器和引导核酸在不同的病毒载体上编码。在任一情况下,碱基编辑器和引导核酸均可与启动子和终止子可操作地连接。
病毒载体上编码的组分的组合可以通过所选病毒载体的货物大小限制来确定。
碱基编辑器的非病毒递送
也可以使用碱基编辑器的非病毒递送方法。一类重要的非病毒核酸载体是纳米颗粒,它可以是有机的或无机的。纳米颗粒在本领域中是众所周知的。任何合适的纳米颗粒设计均可用于递送基因组编辑系统组件或编码此类组件的核酸。例如,有机(例如脂质和/或聚合物)纳米颗粒可适合用作本公开的某些实施方案中的递送载体。用于纳米颗粒制剂和/或基因转移的示例性脂质示于表15(下述)。
表15:
表16列出了用于基因转移和/或纳米颗粒制剂的示方案性聚合物。
表16:
表17总结了编码本文所述融合蛋白的多核苷酸的递送方法。
表17:
在另一方面,基因组编辑系统组件或编码此类组件的核酸,例如核酸结合蛋白,例如Cas9或其变体,以及靶向感兴趣的基因组核酸序列的gRNA的递送,可以通过将核糖核蛋白(RNP)递送至细胞来实现。RNP包含与靶向gRNA复合的核酸结合蛋白(例如Cas9)。可以使用已知方法将RNP递送至细胞,例如电穿孔、核转染或阳离子脂质介导的方法,例如Zuris,J.A.等人,2015,Nat.Biotechnology,33(1):73-80。RNPs有利于在CRISPR基础编辑系统中使用,特别是对于难以转染的细胞,如原代细胞。此外,RNP还可以缓解细胞中蛋白质表达可能出现的困难,特别是当真核启动子(例如CRISPR质粒中使用的CMV或EF1A)未得到良好表达时。有利地,RNP的使用不需要将外源DNA递送到细胞中。此外,由于包含核酸结合蛋白和gRNA复合物的RNP会随时间降解,因此使用RNP有可能限制脱靶效应。以类似于基于质粒的技术的方式,RNP可用于递送结合蛋白(例如,Cas9变体)和引导同源定向修复(HDR)。
用于驱动碱基编辑器编码核酸分子表达的启动子可以包括AAV ITR。这有利于消除对额外启动子元件的需要,该元件会占据载体中的空间。释放的额外空间可用于驱动额外元件的表达,例如引导核酸或选择标记。ITR活性相对较弱,因此可用于降低因所选核酸酶过度表达而导致的潜在毒性。
可以使用任何合适的启动子来驱动碱基编辑器和在适当情况下引导核酸的表达。对于普及的表达,可以使用的启动子包括CMV、CAG、CBh、PGK、SV40、铁蛋白重链或轻链等。对于脑或其他CNS细胞表达,合适的启动子可以包括:SynapsinI适用于所有神经元,CaMKIIalpha适用于兴奋性神经元,GAD67或GAD65或VGAT适用于GABA能神经元等。对于肝细胞表达,合适的启动子包括白蛋白启动子。对于肺细胞表达,合适的启动子可以包括SP-B。对于内皮细胞,合适的启动子可以包括ICAM。对于造血细胞,合适的启动子可以包括IFNβ或CD45。对于成骨细胞,合适的启动子可以包括OG-2。
在一些情况下,本公开的碱基编辑器具有足够小的尺寸以允许单独的启动子驱动碱基编辑器和相容的引导核酸在同一核酸分子内的表达。例如,载体或病毒载体可包含与编码碱基编辑器的核酸可操作连接的第一启动子和与引导核酸可操作连接的第二启动子。
用于驱动引导核酸表达的启动子可以包括:Pol III启动子,例如U6或H1使用PolII启动子和内含子盒来表达gRNA腺相关病毒(AAV)。
本文所述的具有或不具有一个或多个引导核酸的碱基编辑器可以使用腺相关病毒(AAV)、慢病毒、腺病毒或其他质粒或病毒载体类型来递送,特别是使用来自例如美国专利第8,454,972号(腺病毒的制剂、剂量)、美国专利第8,404,658号(AAV的制剂、剂量)和美国专利第5,846,946号(DNA质粒的制剂、剂量),以及来自涉及慢病毒、AAV和腺病毒的临床试验的临床试验和出版物的制剂和剂量。例如,对于AAV,给药途径、制剂和剂量可以如美国专利号8,454,972和涉及AAV的临床试验。对于腺病毒,给药途径、制剂和剂量可以如美国专利号8,404,658和涉及腺病毒的临床试验。对于质粒递送,给药途径、制剂和剂量可以如美国专利号5,846,946和涉及质粒的临床研究。剂量可以基于或外推到平均70公斤的个体(例如成年男性),并且可以针对不同体重和物种的患者、受试者、哺乳动物进行调整。给药频率在医学或兽医从业者(例如,医师、兽医)的范围内,这取决于通常的因素,包括患者或受试者的年龄、性别、一般健康状况、其他状况以及正在解决的特定状况或症状。病毒载体可以注射到感兴趣的组织中。对于细胞类型特异性碱基编辑,碱基编辑器和可选引导核酸的表达可由细胞类型特异性启动子驱动。
对于体内传递,AAV可能优于其他病毒载体。在一些情况下,AAV允许低毒性,这可能是由于纯化方法不需要可以激活免疫反应的细胞颗粒的超速离心。在一些情况下,AAV允许引起插入诱变的可能性很低,因为它不整合到宿主基因组中。
AAV的包装限制为4.5或4.75Kb。这意味着公开的碱基编辑器以及启动子和转录终止子可以适合单个病毒载体。大于4.5或4.75Kb的构建体会导致病毒产量显着降低。比如SpCas9很大,基因本身就超过4.1Kb,很难打包成AAV。因此,本公开的实施方案包括利用长度比常规碱基编辑器短的公开碱基编辑器。在一些示例中,碱基编辑器小于4kb。公开的碱基编辑器可以小于4.5kb、4.4kb、4.3kb、4.2kb、4.1kb、4kb、3.9kb、3.8kb、3.7kb、3.6kb、3.5kb、3.4kb、3.3kb、3.3kb、3.3kb kb、3kb、2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2kb或1.5kb。在一些情况下,所公开的碱基编辑器的长度为4.5kb或更小。
AAV可以是AAV1、AAV2、AAV5或其任意组合。可以根据要靶向的细胞选择AAV的类型;例如,可以选择AAV血清型1、2、5或混合衣壳AAV1、AAV2、AAV5或其任何组合来靶向脑或神经元细胞;并且可以选择AAV4来靶向心脏组织。AAV8可用于递送至肝脏。关于这些细胞的某些AAV血清型的列表可以在Grimm,D.等人,J.Virol.82:5887-5911(2008))中找到。
慢病毒是复杂的逆转录病毒,具有在有丝分裂和有丝分裂后细胞中感染和表达其基因的能力。最常见的慢病毒是人类免疫缺陷病毒(HIV),它使用其他病毒的包膜糖蛋白来靶向广泛的细胞类型。
慢病毒可以如下制备。克隆pCasES10(包含慢病毒转移质粒骨架)后,将低传代(p=5)的HEK293FT接种到T-75烧瓶中,在转染前一天在含有10%胎牛血清且不含抗生素的DMEM中达到50%汇合。20小时后,将培养基更换为OptiMEM(无血清)培养基,4小时后进行转染。用10μg慢病毒转移质粒(pCasES10)和下述包装质粒转染细胞:5μg pMD2.G(VSV-g假型)和7.5μg psPAX2(gag/pol/rev/tat)。可以在4mL OptiMEM中使用阳离子脂质递送剂(50μlLipofectamine 2000和100ul Plus试剂)进行转染。6小时后,将培养基更换为含10%胎牛血清的不含抗生素的DMEM。这些方法在细胞培养过程中使用血清,但优选无血清方法。
慢病毒可以如下纯化。48小时后收获病毒上清液。上清液首先清除碎屑,然后通过0.45μm低蛋白结合(PVDF)过滤器过滤。然后将它们在超速离心机中以24,000rpm的速度旋转2小时。病毒颗粒在50μl DMEM中于4℃下重悬过夜。然后等分并立即在-80℃下冷冻。
在另一个实施方案中,还考虑了基于马传染性贫血病毒(EIAV)的最小非灵长类慢病毒载体。在另一个实施方案中,为一种基于马传染性贫血病毒的慢病毒基因治疗载体,其表达预期通过视网膜下注射递送的血管抑制蛋白内皮抑制素和血管抑制素。在另一个实施方案中,考虑使用自我失活的慢病毒载体。
该系统的任何RNA,例如引导RNA或碱基编辑器编码的mRNA,都可以以RNA的形式递送。可以使用体外转录生成碱基编辑器编码mRNA。例如,可以使用包含下述元件的PCR盒合成核酸酶mRNA:T7启动子、可选的kozak序列(GCCACC)、核酸酶序列和3'UTR,例如来自β珠蛋白-polyA尾部的3'UTR。该盒可用于T7聚合酶的转录。引导多核苷酸(例如,gRNA)也可以使用体外转录从包含T7启动子的盒中转录,然后是序列“GG”和引导多核苷酸序列。
为了增强表达并降低可能的毒性,可以修饰碱基编辑器编码序列和/或引导核酸以包括一种或多种修饰的核苷,例如使用伪U或5-甲基-C。
在一些实施方案中,本公开内容包括修饰细胞或生物体的方法。该细胞可以是原核细胞或真核细胞。该细胞可以是哺乳动物细胞。哺乳动物细胞可以是非人灵长类动物、牛、猪、啮齿动物或小鼠细胞。通过本公开内容的碱基编辑器、组合物和方法引入细胞的修饰可以使得细胞和细胞的后代被改变以改善生物产品的生产,例如抗体、淀粉、醇或其他所需的细胞输出.通过本公开的方法引入细胞的修饰可以使得细胞和细胞的后代包括改变,该改变使所产生的生物产物变化。
该系统可以包括一种或多种不同的载体。在一个方面,碱基编辑器是密码子优化的以表达期望的细胞类型,优选真核细胞,优选哺乳动物细胞或人类细胞。
一般而言,密码子优化是指通过替换至少一个密码子(例如约或多于约1、2、3、4、5、10、15、20、25、50或更多个密码子)与在该宿主细胞的基因中更频繁或最频繁使用的密码子同时保持天然氨基酸序列。各种物种对特定氨基酸的某些密码子表现出特定的偏向性。密码子偏向性(生物体之间密码子使用的差异)通常与信使RNA(mRNA)的转译效率相关,其又被认为取决于,除其它外,被转译密码子的特性和特定转移RNA(tRNA)分子的可用性。细胞中所选tRNA的优势通常反映了肽合成中最常用的密码子。因此,可以基于密码子优化来定制基因以在给定生物体中进行最佳基因表达。密码子使用表很容易获得,例如,在www.kazusa.orjp/codon/上可用的“Codon Usage Database”(2002年7月9日访问)中,这些表可以通过多种方式进行调整。参见,Nakamura,Y.等人,"Codon usage tabulated fromthe international DNA sequence databases:status for the year 2000"Nucl.AcidsRes.28:292(2000).用于密码子优化用于在特定宿主细胞中表达的特定序列的计算机算法也是可用的,例如Gene Forge(Aptagen;Jacobus,PA)也是可用的。在一些实施方案中,编码工程化核酸酶的序列中的一个或多个密码子(例如1、2、3、4、5、10、15、20、25、50或更多或所有密码子)对应于最常用的特定氨基酸的密码子。
包装细胞通常用于形成能够感染宿主细胞的病毒颗粒。这些细胞包括包装腺病毒的293细胞和包装逆转录病毒的psi.2细胞或PA317细胞。用于基因治疗的病毒载体通常是通过产生将核酸载体包装成病毒颗粒的细胞系来产生的。载体通常包含包装和随后整合到宿主中所需的最少病毒序列,其他病毒序列被用于要表达的多核苷酸的表达盒替换。缺失的病毒功能通常由包装细胞系反式提供。例如,用于基因治疗的AAV载体通常仅具有来自AAV基因组的ITR序列,这些序列是包装和整合到宿主基因组中所需的。病毒DNA可以包装在细胞系中,该细胞系包含编码其他AAV基因(即rep和cap)的辅助质粒,但缺少ITR序列。细胞系也可以用腺病毒作为辅助感染。辅助病毒可以促进AAV载体的复制和辅助质粒中AAV基因的表达。在某些情况下,由于缺乏ITR序列,辅助质粒没有大量包装。腺病毒的污染可以通过,例如,热处理来减少,腺病毒对于热处理比AAV更敏感的。
内含肽
在一些实施方案中,核酸酶(例如,Cas9)的一部分或片段与内含肽融合。核酸酶可以融合到内含肽的N末端或C末端。在一些实施方案中,融合蛋白的一部分或片段与内含肽融合并与AAV衣壳蛋白融合。内含肽、核酸酶和衣壳蛋白可以任何排列融合在一起(例如,核酸酶-内含肽-衣壳、内含肽-核酸酶-衣壳、衣壳-内含肽-核酸酶等)。在一些实施方案中,内含肽的N末端与融合蛋白的C末端融合,并且内含肽的C末端与AAV衣壳蛋白的N末端融合。
内含肽(中间蛋白)是在各种不同生物体中发现的自动加工结构域,其执行称为蛋白质剪接的过程。蛋白质剪接是一个多步骤的生化反应,包括肽键的断裂和形成。虽然蛋白质剪接的内源性底物是在含有内含肽的生物体中发现的蛋白质,但内含肽也可用于化学操作几乎任何多肽骨架。
在蛋白质剪接中,内含肽通过切割两个肽键将自身从前体多肽中切除,从而通过形成新的肽键连接侧翼外显肽(外部蛋白质)序列。这种重排发生在转译后(或可能是共转译)。内含肽介导的蛋白质剪接自发发生,只需要内含肽结构域的折叠。
大约5%的内含肽是分裂内含肽,它们被转录和转译为两个独立的多肽,N-内含肽和C-内含肽,每个都融合到一个外显肽上。翻译后,内含肽片段自发地非共价组装成典型的内含肽结构以进行蛋白质反式剪接。蛋白质剪接的机制需要一系列酰基转移反应,导致内含肽-外显肽连接处的两个肽键断裂,并在N-和C-外显肽之间形成新的肽键。该过程通过激活连接N-外显肽和内含肽N末端的肽键而启动。几乎所有内含肽在其N末端都有一个半胱氨酸或丝氨酸,它们攻击C末端N-外显肽残基的羰基碳。这种N到O/S酰基转移是由保守的苏氨酸和组氨酸(称为TXXH基序)以及常见的天冬氨酸促进的,这导致形成线性(硫)酯中间体。接下来,该中间体通过第一个C-外显肽残基(+1)的亲核攻击进行反式(硫代)酯化,该残基是半胱氨酸、丝氨酸或苏氨酸。产生的支化(硫)酯中间体通过独特的转化得到分解:内含肽的高度保守的C端天冬酰胺的环化。该过程由组氨酸(在高度保守的HNF基序中发现)和倒数第二个组氨酸促进,也可能涉及天冬氨酸。这种琥珀酰亚胺形成反应从反应复合物中切除内含肽,并留下通过非肽键连接的外含肽。这种结构以独立于内含肽的方式迅速重排成稳定的肽键。
在一些实施方案中,碱基编辑器(例如,ABE、CBE)的N末端片段与分裂的内含肽-N融合并且C末端片段与分裂的内含肽-C融合。然后将这些片段打包成两个或多个AAV载体。某些内含肽用于连接异源蛋白质片段的用途在例如Wood等人,J.Biol.Chem.289(21);14512-9(2014)中被描述。例如,当与分离的蛋白质片段融合时,内含肽IntN和IntC相互识别,将自身剪断并同时连接它们所融合的蛋白质片段的侧翼N和C端外显肽,从而重建来自两个蛋白质片段的全长蛋白质。其他合适的内含肽对本领域技术人员来说是显而易见的。
在一些实施方案中,ABE在SpCas9的选定区域内的Ala、Ser、Thr或Cys残基处分裂成N和C末端片段。这些区域对应于由Cas9晶体结构分析确定的环区域。每个片段的N末端与内含肽-N融合,每个片段的C末端与内含肽C在氨基酸位置S303、T310、T313、S355、A456、S460、A463、T466、S469、T472、T474、C574、S577、A589和S590,按下述顺序以粗体大写字母表示。
药物组合物
本公开的其他方面涉及包含本文所述的任何碱基编辑器、融合蛋白、融合蛋白-引导多核苷酸复合物,或者经过编辑的细胞的药物组合物。如本文所用,术语“医物组合物”是指配制用于医药用途的组合物。在一些实施方案中,药物组合物还包含药学上可接受的载体。在一些实施方案中,药物组合物包含另外的药剂(例如,用于特异性递送、增加半衰期或其他治疗化合物)。
如本文所用,术语“药学上可接受的载体”是指药学上可接受的材料、组合物或赋形剂,例如液体或固体填充剂、稀释剂、赋形剂、制造助剂(例如,润滑剂、滑石镁、硬脂酸钙或锌、或硬脂酸)或溶剂包封材料,参与将化合物从身体的一个部位(例如,递送部位)运载或运输到另一部位(例如,器官、组织或身体的一部分)。药学上可接受的载体在与制剂的其他成分相容并且对受试者的组织没有伤害的意义上是“可接受的”(例如,生理相容的、无菌的、生理pH等)。
可用作药学上可接受的载体的材料的一些非限制性实例包括:(1)糖类,如乳糖、葡萄糖和蔗糖;(2)淀粉,如玉米淀粉、马铃薯淀粉;(3)纤维素及其衍生物,如羧甲基纤维素钠、甲基纤维素、乙基纤维素、微晶纤维素、醋酸纤维素等;(4)黄蓍胶粉;(5)麦芽;(6)明胶;(7)润滑剂,如硬脂酸镁、十二烷基硫酸钠、滑石粉等;(8)可可脂、栓剂蜡等赋形剂;(9)油类,如花生油、棉籽油、红花油、香油、橄榄油、玉米油、豆油等;(10)二醇类,如丙二醇;(11)多元醇,如甘油、山梨糖醇、甘露糖醇和聚乙二醇(PEG);(12)油酸乙酯、月桂酸乙酯等酯类;(13)琼脂;(14)缓冲剂,如氢氧化镁、氢氧化铝等;(15)海藻酸;(16)无热原水;(17)等渗盐水;(18)林格氏液;(19)乙醇;(20)pH缓冲溶液;(21)聚酯、聚碳酸酯和/或聚酐;(22)填充剂,例如多肽和氨基酸。(23)血清醇,例如乙醇;(23)用于药物制剂的其他无毒相容物质。润湿剂、着色剂、脱模剂、涂层剂、甜味剂、调味剂、加香剂、防腐剂和抗氧化剂也可存在于制剂中。诸如“赋形剂”、“载子”、“药学上可接受的载子”、“媒介物”等术语在本文中可互换使用。
药物组合物可包含一种或多种pH缓冲化合物以将制剂的pH维持在反映生理pH的预定水平,例如在约5.0至约8.0的范围内。水性液体制剂中使用的pH缓冲化合物可以是氨基酸或氨基酸混合物,例如组氨酸或氨基酸混合物,例如组氨酸和甘氨酸。或者,pH缓冲化合物优选是将制剂的pH维持在预定水平,例如在约5.0至约8.0的范围内并且不螯合钙离子的试剂。这种pH缓冲化合物的说明性实例包括但不限于咪唑和乙酸根离子。pH缓冲化合物可以以适合将制剂的pH维持在预定水平的任何量存在。
药物组合物还可包含一种或多种渗透调节剂,即,将制剂的渗透特性(例如,渗透压、渗透压和/或渗透压)调节至接收个体血流和血细胞可接受的水平的化合物。渗透调节剂可以是不螯合钙离子的试剂。渗透调节剂可以是本领域技术人员已知或可获得的调节制剂渗透特性的任何化合物。本领域技术人员可以凭经验确定给定渗透调节剂用于本发明制剂的适用性。合适类型的渗透调节剂的说明性实例包括但不限于:盐,例如氯化钠和乙酸钠;糖类,例如蔗糖、右旋糖和甘露醇;氨基酸,如甘氨酸;以及一种或多种这些药剂和/或药剂类型的混合物。渗透调节剂可以以足以调节制剂渗透特性的任何浓度存在。
在一些实施方案中,药物组合物被配制用于递送至受试者,例如用于基因编辑。施用本文所述的药物组合物的合适途径包括但不限于:局部、皮下、经皮、皮内、病灶内、关节内、腹膜内、膀胱内、经粘膜、牙龈、牙内、耳蜗内、经鼓膜、器官内、硬膜外、鞘内、肌肉内、静脉内、血管内、骨内、眼周、瘤内、脑内和脑室内给药。
在一些实施方案中,将本文所述的药物组合物局部施用至患病部位,例如肿瘤部位。在一些实施方案中,本文所述的药物组合物通过注射、通过导管、通过栓剂或通过植入物给予受试者,植入物为多孔、无孔或凝胶状材料,包括膜,例如唾液酸膜,或纤维。
在其他实施方案中,本文所述的药物组合物在控释系统中递送。在一个实施方案中,可以使用泵(参见,例如,Langer,1990,Science 249:1527-1533;Sefton,1989,CRCCrit.Ref.Biomed.Eng.14:201;Buchwald等人,1980,Surgery 88:507;Saudek等人,1989,N.Engl.J.Med.321:574).在另一个实施方案中,可以使用聚合材料。(参见,例如,MedicalApplications of Controlled Release(Langer and Wise eds.,CRC Press,Boca Raton,Fla.,1974);Controlled Drug Bioavailability,Drug Product Design andPerformance(Smolen and Ball eds.,Wiley,New York,1984);Ranger and Peppas,1983,Macromol.Sci.Rev.Macromol.Chem.23:61.也可参见Levy等人,1985,Science 228:190;During等人,1989,Ann.Neurol.25:351;Howard et ah,1989,J.Neurosurg.71:105.)其他控释系统有讨论,例如在Langer,同上。
在一些实施方案中,根据常规程序将药物组合物配制成适于静脉内或皮下施用至受试者例如人的组合物。在一些实施方案中,用于通过注射给药的药物组合物是无菌等渗用途的溶液,用作增溶剂和局部麻醉剂例如利多卡因以缓解注射部位的疼痛。通常,成分以单位剂型单独提供或混合在一起提供,例如,作为指示活性剂量的密封容器如安瓿或小袋中的干燥冻干粉或无水浓缩物。当药物通过输液给药时,可以用装有无菌药用级水或盐水的输液瓶进行分配。当药物组合物通过注射给药时,可以提供无菌注射用水或盐水的安瓿,以便在给药前可以混合成分。
用于全身给药的药物组合物可以是液体,例如无菌盐水、乳酸林格氏溶液或汉克氏溶液。此外,药物组合物可以是固体形式并在使用前立即重新溶解或悬浮。还考虑了冻干形式。药物组合物可包含在脂质颗粒或囊泡中,例如脂质体或微晶,其也适用于肠胃外给药。颗粒可以具有任何合适的结构,例如单层或多层,只要其中包含组合物。化合物可以被包裹在含有融合脂质二油酰磷脂酰乙醇胺(DOPE)、低水平(5-10mol%)阳离子脂质的“稳定质粒-脂质颗粒”(SPLP)中,并通过聚乙二醇(PEG)涂层稳定(Zhang Y.P.等人,GeneTher.1999,6:1438-47).带正电荷的脂质如N-[1-(2,3-二油酰氧基)丙基]-N,N,N-三甲基-甲基硫酸铵或“DOTAP”特别优选用于此类颗粒和囊泡。这种脂质颗粒的制备是众所周知的。参见,例如,美国专利号4,880,635;4,906,477;4,911,928;4,917,951;4,920,016;和4,921,757;其中每一个都通过引用并入本文。
例如,本文所述的药物组合物可以作为单位剂量给药或包装。当用于本公开的药物组合物时,术语“单位剂量”是指适合作为受试者的单位剂量的物理上离散的单位,每个单位包含经计算以产生期望的治疗效果的预定量的活性物质和所需的稀释剂;即,载子(carrier)或媒介物(vehicle)。
此外,该药物组合物可以作为药物试剂盒提供,该试剂盒包含(a)含有冻干形式的本发明化合物的容器和(b)含有药学上可接受的稀释剂(例如,用于重构或稀释本发明的冻干化合物。任选地与这种容器相关联的可以是由管理药物或生物产品的制造、使用或销售的政府机构规定的形式的通知,该通知反映了制造、使用或销售机构对人类给药的批准。
在另一方面,包括含有可用于治疗上述疾病的材料的制品。在一些实施方案中,制品包括容器和标签。合适的容器包括例如瓶子、小瓶、注射器和试管。容器可由多种材料制成,例如玻璃或塑料。在一些实施方案中,容器容纳有效治疗本文所述疾病的组合物并且可以具有无菌进入口。例如,容器可以是静脉内溶液袋或具有可被皮下注射针刺穿的塞子的小瓶。组合物中的活性剂是本发明的化合物。在一些实施方案中,容器上或与容器相关的标签表明组合物用于治疗选择的疾病。制品可还包括第二容器,其包含药学上可接受的缓冲液,例如磷酸盐缓冲盐水、林格氏液或葡萄糖溶液。从商业和用户的角度来看,它还可以包括其他所需的材料,包括其他缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明的包装插页。
在一些实施方案中,本文所述的任何融合蛋白、gRNA、复合物和/或细胞作为药物组合物的一部分提供。在一些实施方案中,药物组合物包含本文提供的任何融合蛋白。在一些实施方案中,药物组合物包含本文提供的任何复合物。在一些实施方案中,药物组合物包含核糖核蛋白复合物,该复合物包含与gRNA和阳离子脂质形成复合物的RNA引导的核酸酶(例如Cas9)。在一些实施方案中,药物组合物包含gRNA、核酸可编程DNA结合蛋白、阳离子脂质和药学上可接受的赋形剂。在一些实施方案中,药物组合物包含由本文所述的产品、系统和方法所编辑的细胞。药物组合物可任选地包含一种或多种额外的治疗活性物质。
治疗遗传疾病的方法
本发明还提供了治疗与遗传疾病相关的致病性突变的方法,该方法包含向受试者(例如,哺乳动物,如人类)施用治疗有效量的药物组合物,该药物组合物包含编码碱基编辑器系统(例如,碱基编辑器和gRNA)的多核苷酸。在一个实施方案中,遗传疾病是α-1抗胰蛋白酶缺乏症(A1AD)。在一些实施方案中,碱基编辑器是包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域的融合蛋白。以碱基编辑器和一种或多种引导多核苷酸转导受试者的细胞,该多核苷酸靶向碱基编辑器以实现核酸序列的A·T至G·C改变(如果细胞以腺苷脱氨酶结构域转导),该核酸序列包含相对于野生型序列的突变。
本文的方法包括向受试者(包括被鉴定为需要此种治疗的受试者,或怀疑有患病风险并且需要此种治疗的受试者)施用有效量的本文所述的组合物。识别需要这种治疗的受试者可以是受试者或医疗保健专业人员的判断,并且可以是主观的(例如,意见)或客观的(例如,可通过测试或诊断方法测量)。
通常,治疗方法包含施用治疗有效量的药物组合物,该药物组合物包含例如编码碱基编辑器的载体和靶向有需要其的受试者(例如,人类患者)的感兴趣基因的gRNA。此类治疗将适当地施用于患有、易于患有,或处于遗传疾病风险中的受试者,特别是人类受试者。在一个实施方案中,遗传疾病是α-1抗胰蛋白酶缺乏症(A1AD)。
在一个实施方案中,提供了一种监测治疗进展的方法。该方法包括在患有或易于患有与疾病相关的疾病或其症状的受试者中确定诊断标志物(标记(Marker)),(例如,与疾病相关的SNP)或诊断测量(例如,筛选、测定)水平的步骤。致病性突变,其中受试者已被给予足以治疗疾病或其症状的治疗量的本文的组合物。可以将方法中确定的标志物水平与健康正常对照或与其他患病患者中的已知标志物水平进行比较,以确立受试者的疾病状态。在优选的实施方案中,在确定第一水平之后的时间点确定受试者中标志物的第二水平,并且将这两个水平进行比较以监测疾病进程或治疗的功效。在某些优选的实施方案中,在根据本发明的治疗开始之前确定受试者中标志物的治疗前的水平;接着可以将该标志物的治疗前的水平与治疗开始后受试者体内的标志物水平进行比较,以确定治疗的功效。
在一些实施方案中,将本文提供的组合物施用于受试者,例如施用于人类受试者,以在受试者内实现靶向基因组修饰。在一个实施方案中,基因组修饰如本文实施例3中所述,并且遗传疾病是α-1抗胰蛋白酶缺乏症(A1AD)。在一些实施方案中,细胞获自受试者并与本文提供的任何药物组合物接触。在一些实施方案中,任选地在细胞中实现或检测到所需基因组修饰之后,从受试者取出并将与药物组合物离体接触的细胞重新引入受试者。递送包含核酸酶的药物组合物的方法是已知的,并且描述于例如美国专利号6,453,242、6,503,717、6,534,261、6,599,692、6,607,882、6,689,558、6,824,978、6,933,113、6,979,539、7,013,219和7,163,824,所有这些的公开内容通过引用整体并入本文。尽管本文提供的医药组合物的描述主要涉及适合于施用于人的医药组合物,但本领域技术人员将理解此类组合物通常适合于施用于各种动物或生物体,例如,兽医用。
为使组合物适合于对各种动物给药而对适合对人给药的医药组合物进行修饰是众所周知的,并且普通的兽医药理学家可以仅通过普通的实验(如果有的话)来设计和/或进行这种修饰。考虑给予药物组合物的受试者包括但不限于人类和/或其他灵长类动物;哺乳动物、驯养动物、宠物和商业相关的哺乳动物,例如牛、猪、马、羊、猫、狗、小鼠和/或大鼠;和/或鸟类,包括商业相关的鸟类,例如鸡、鸭、鹅和/或火鸡。
本文所述的医药组合物的制剂可以通过药理学领域中已知或以后开发的任何方法来制备。通常,此类制备方法包括将活性成分与赋形剂和/或一种或多种其他辅助成分结合的步骤,然后,如果需要和/或需要,将产品成型和/或包装成所需的单剂量或多剂量单位。药物制剂可另外包含药学上可接受的赋形剂,如本文所用,其包括任何和所有溶剂、分散介质、稀释剂或其他液体载体、分散或悬浮助剂、表面活性剂、等渗剂、增稠剂或乳化剂、防腐剂固体粘合剂、润滑剂等,适合于所需的特定剂型。Remington’s The Science andPractice of Pharmacy,21st Edition,A.R.Gennaro(Lippincott,Williams&Wilkins,Baltimore,MD,2006;以引用方式整体并入本文)公开了用于配制药物组合物的各种赋形剂及其制备的已知技术。另见PCT申请号PCT/US2010/055131(公开号WO2011/053982A8,2010年11月2日提交的),通过引用整体并入本文,提供用于生产包含核酸酶的药物组合物的其他合适的方法、试剂、赋形剂和溶剂。
除非任何常规赋形剂介质与物质或其衍生物不相容,例如通过产生任何不希望的生物效应或以有害方式与药物组合物的任何其他成分相互作用,否则其用途被认为是在本公开的范围。
如上所述的组合物可以有效量给药。有效量将取决于给药方式、所治疗的特定病症和期望的结果。它还可能取决于病症的阶段、受试者的年龄和身体状况、同时治疗的性质(如果有的话)以及医师公知的类似因素。对于治疗应用,该量足以达到医学上所需的结果。
试剂盒
本公开的各个方面提供包含碱基编辑器系统的试剂盒。在一个实施方案中,该试剂盒包含核酸构建体,该核酸构建体包含编码核碱基编辑器融合蛋白的核苷酸序列。融合蛋白包含脱氨酶(例如腺嘌呤脱氨酶)和核酸可编程DNA结合蛋白(napDNAbp)。在一些实施方案中,试剂盒包含至少一种能够靶向感兴趣的核酸分子的引导RNA。在一些实施方案中,该试剂盒包含包含编码至少一种引导RNA的核苷酸序列的核酸构建体。在一些实施方案中,试剂盒包含由本文所述的碱基编辑器产品、系统和方法所编辑的细胞。在一些实施方案中,试剂盒包含本文提供的任何药物组合物。在某些实施方案中,该试剂盒可用于调理受试者以进行移植或植入。
在一些实施方案中,该试剂盒提供了使用该试剂盒编辑一个或多个突变的说明,该突变可能与疾病、病理学、病症或病状有关。说明通常包括关于使用试剂盒编辑核酸分子的信息。在其他实施方案中,说明包括下述至少一项:注意事项、警告、临床研究和/或参考。说明可以直接印在容器上(如果有),或者作为贴在容器上的标签,或者作为单独的纸张、小册子、卡片或文件夹提供在容器中或随容器一起提供。在还的实施方案中,试剂盒可以包括标签或单独的插页(包装插页)形式的用于合适的操作参数的说明。在又一个实施方案中,试剂盒可以包括一个或多个容器,其中装有合适的阳性和阴性对照或对照样品,用作检测、校准或标准化的标准。试剂盒可还包括第二容器,其包含药学上可接受的缓冲液,例如(无菌)磷酸盐缓冲盐水、林格氏溶液或葡萄糖溶液。从商业和用户的角度来看,它还可以包括其他所需的材料,包括其他缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明的包装插页。
实施例
下述实施例仅提供于说明目的,并不旨在限制本文提供的权利要求的范围。
实施例1。碱基编辑器中的PAM变体验证
新型CRISPR系统和PAM变体使碱基编辑器(例如,表14和18中列出的ABE9)能够编辑存在于感兴趣的多核苷酸中的突变。已经评估和验证了几种新的PAM变体。PAM评估和碱基编辑器的细节在例如国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)中有所描述,它们各自通过引用整体并入本文。此外,参见Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),其各自的全部内容以引用方式并入本文。
实施例2。使用ABE8或ABE9进行基因编辑
为了生成ABE9碱基编辑器,以ABE8.20(异二聚体_(WT)+(TadA*7.10+Q154R)作为模板开始生成了一个合成文库,该模板在ABE8.20的多个位置包含所有可能的氨基酸取代。对于选择,一次靶向4个位点进行A到G碱基编辑,从而允许在4种不同的选择条件下存活和生长。表14中描述的碱基编辑器与下文提供的gRNA结合使用,以编辑包含人类HEK293细胞中改变的靶多核苷酸。示例性靶序列如下:
HRB03
GCTGGCAGCAAGGGCGGCGCTGG
HRB04
GCAGCCGCACCCTCAAGCAACGG
HRB08
GTAGCTGACTCACTGCTAGCTGG
HRB12
GAGTCCGAGCAGAAGAAGAAGGG
ng-424
GATGAGAAGGAGAAGTTCTTAGG
用于靶向感兴趣的多核苷酸的引导RNA选自下述:
HRB03
5′-GCUGGCAGCAAGGGCGGCGCUGG-3′
HRB04
GCAGCCGCACCCUCAAGCAACGG
HRB08
GUAGCUGACUCACUGCUAGCUGG
HRB12
GAGUCCGAGCAGAAGAAGAAGGG
ng-424
GAUGAGAAGGAGAAGUUCUUAGG
测试了与上述gRNA复合的腺苷碱基编辑器的A>G编辑活性。ABE9.1-ABE9.58(pNMG-B531-634)的活性的A>G编辑活性显示在图1和图2中。表14和表18中提供了每个ABE9编辑器中相对于ABE7*10的改变。还测试了ABE8.32、ABE8.33、ABE8.39和ABE8.40的活性。ABE8.32是一个单体,包括下述改变:V82S+Q154R+Y147R+Y123H(pNMG-B433)。ABE8.33(pNMG-B434)是一个单体,包括下述改变:Q154R+Y147R+Y123H+I76Y V82S,ABE8.39(pNMG-B440),其是一个二聚体,包括下述改变:V82S+Q154R+Y147R+Y123H,ABE8.40(pNMG-B441),其是一个二聚体,包括下述改变:Q154R+Y147R+Y123H+I76Y+V82S。该测试的结果在图1和2中量化,以其质粒编号指代腺苷碱基编辑器。
实施例3。用ABE9校正α-1-抗胰蛋白酶缺乏症(A1AD)突变
Alpha-1抗胰蛋白酶缺乏症(A1AD)是一种影响肝脏(肝细胞)的疾病,并以常染色体共显性方式遗传。Alpha-1抗胰蛋白酶(A1AT)是一种糖蛋白蛋白酶抑制剂,由人类14号染色体上的SERPINA1基因编码。A1AT主要在肝脏合成并分泌到血液中;健康成人中A1AT的典型血清浓度为1.5-3.0g/L(20-52μmol/L)。A1AT从血液中扩散到肺间质和肺泡衬里液中,在那里它使中性粒细胞弹性蛋白酶失活并保护肺组织免受蛋白酶介导的损伤。
超过100种SERPINA1基因的遗传变异已经被描述,但并非所有变异都与疾病有关。这些遗传变异的字母名称是基于它们在凝胶电泳上的迁移速度。最常见的变体是M(中等迁移率)等位基因(PiM),两个最常见的缺陷等位基因是PiS和PiZ(后者的迁移速度最慢)。几种不产生可测量的血清蛋白的突变已经描述;这些被称为“无效”等位基因。最常见的基因型是MM,它产生正常血清水平的alpha-1抗胰蛋白酶。大多数严重缺陷的个体是Z等位基因(ZZ)的纯合子。在美国,超过60,000名A1AD患者具有严重的ZZ表型。Z蛋白在肝细胞内质网中的产生过程中发生错误折叠和聚合;这些异常聚合物被困在肝脏中,大大降低了A1AT的血清水平。A1AT产生不足或不稳定会导致A1AD患者出现肝脏和/或肺部病变。A1AD患者的肝脏疾病是由肝细胞中异常A1AT蛋白的积累和随之而来的细胞反应引起的,包括自噬、内质网应激反应和细胞凋亡。A1AT循环水平降低导致肺中的中性粒细胞弹性蛋白酶活性增加。蛋白酶和抗蛋白酶的失衡导致与这种病理相关的肺部疾病。
A1AD可使患者易患肝细胞癌。虽然纯合ZZ基因型是肝病发展所必需的,但杂合Z突变可以作为其他疾病的遗传修饰因子,增加更严重肝病的风险,例如丙型肝炎感染和囊性纤维化肝病。
A1AD最常见的两种临床变异是E264V(PiS)和E342K(PiZ)等位基因。临床单核苷酸变体E342K(PiZ)会导致A1AT蛋白不稳定和/或失活,从而导致肝和肺毒性。遗传是常染色体共显性遗传。超过一半的A1AD患者携带至少一个E342K突变拷贝。
包含如本文所述的ABE9的碱基编辑器和碱基编辑器系统,例如表14和18,以及图1和2。如图3A-3C所示,在纠正SERPINA1基因中的致病突变方面特别有用,例如E342K(PiZ等位基因)。在特定示例中,将位置7处的A编辑为G以将PiZ等位基因恢复为野生型等位基因。(图4A)。
在该实施例中,选择的ABE9构建体,例如,如图1和5所示。在图3A-3C和4B中,评估了在表达包含E342K突变(HEK293T-E342K)的A1AT的HEK293细胞中的碱基编辑活性。在实验中,使用250ng gRNA质粒和750ng编码TadA脱氨酶的质粒,使用针对HEK293细胞优化的高效、低毒性DNA转染试剂Mirus TransIT293以3μl:1μg的比例瞬时转染HEK293T-E342K细胞变体,例如TadA*9(图4B)。HEK293T-E342K细胞通过电穿孔(Neon电穿孔)转染,使用2.5μgABE9 mRNA和1000ng gRNA[191],长度为20个核苷酸(nt)。作为spCas9碱基编辑器的sgRNA提供的gRNA主干(支架)如下:5′-GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′。为spCas9碱基编辑器作为sgRNA提供的另一种gRNA支架如下:5′-GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGGACCGAGU CGGUGCUUUU-3′。在一个实施方案中,上述gRNA支架的末端尿嘧啶(U)可以任选地包含“mU*mU*mU*U,”其表示2'OMe并具有硫代磷酸酯键。在所述方法中有用的指导RNA包括下述内容:5′-ACCAUCGACAAGAAAGGGACUGA GUUUUAGAGCUAGAAAUAGC AAGUUAAAAU AAGGCUAGUC CGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′;
5′-CCAUCGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′;
5′-CAUCGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′;
5′-AUCGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′;
5′-UCGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′;
5′-CGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′.
在质粒转染(四天后)和RNA电穿孔(两天后)后,用0.05%SDS、25μg/ml蛋白酶K、10mM Tris pH 8.0的简单裂解缓冲液提取基因组DNA,然后在85℃下进行热灭活。在MiSeq上对基因组位点进行PCR扩增和测序。如前所述分析结果并由本领域技术人员针对每个位置处的基本频率和插入/缺失百分比进行实践。indel计算的细节在国际PCT申请号PCT/2017/045381和PCT/US2016/058344中进行了描述,个别都以引用方式整体并入本文。此外,参见“Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature,551,464-471(2017);and Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),其全部内容以引用方式整体并入本文。
ABE9碱基编辑器(图3A至3C和4B)的碱基编辑活性在HEK293T-E342K细胞中使用长度为19或20个核苷酸的引导RNA进行测定。gRNA由不同的制造商生产,即德国AxoLabs和加利福尼亚州门洛帕克的Synthego。如图4C和4D所示,的包含TadA脱氨酶变体(其包含V82T突变)的碱基编辑器相对于对照编辑器(AVT686)显示出高水平的效率和特异性,并提供与通过持续的编辑器工程在原代PiZZ成纤维细胞中提高核碱基校正率相关的数据和结果。如图5A呈现的一个图表,其显示了使用含有如图4B(特别是LNP递送的变体8和9)所示的TadA*脱氨酶变体的碱基编辑器,显示靶等位基因的特定碱基编辑与总肝gDNA中的旁观者编辑的图。图5B显示了与通过脂质纳米颗粒(LNP)介导的递送和NSG-PiZ转基因小鼠中使用含有TadA*脱氨酶变体的碱基编辑器(例如图4B,特别是变体8和9)所示的碱基编辑产生的血清A1AT增加相关的数据和结果图。
在各种实验中,编码ABE9碱基编辑器的质粒(例如mRNA质粒)包含TadA*9腺苷脱氨酶变体组分,包括某些突变,例如本文所述,和Cas9组分,例如SpCas9变体组分,包括氨基酸突变赋予Cas9蛋白(例如,SpCas9)结合5'-NGC-3'PAMs的能力,其使用如图3A-3C和下述:
具有突变I76Y+V82T+Y147T+Q154S+A109S的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+T111R的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+D119N的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+H122N的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147d+Q154S的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+F149Y的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+T166I的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;以及
具有突变I76Y+V82T+Y147T+Q154S+D167N的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+L36H+N157K的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G、R1114G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147D+Q154S+F149Y+D167N+L36H+N157K的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G、R1114G、MQKFRAER的SpCas9;
具有突变I76Y+V82T+Y147D+Q154S+F149Y+D167N+L36H+N157K+V106W的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G、R1114G、MQKFRAER的SpCas9;
单ABE9e:具有突变A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N的TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G、R1114G、MQKFRAER的SpCas9;以及
单ABE9e:具有突变A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N+V106W的TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G、R1114G、MQKFRAER的SpCas9。
ABE9碱基编辑器还为靶向腺嘌呤(A)碱基与旁观者A提供了精确编辑(即A·T到G·C转换),并在A1AD靶位点实现高效、治疗相关的编辑。例如,通过使用ABE9对E342K进行碱基编辑进行精确的突变校正,能够恢复循环AAT水平(例如,恢复到5-15μM以上的水平)并改善患有A1AD的受试者的肺和肝功能。在实施方案中,可以将ABE9碱基编辑器引入细胞中或通过脂质纳米颗粒(LNP)介导的递送施用以增加血清A1AT碱基编辑,例如,在NSG-PiZ转基因小鼠中。
实施例4。材料和方法
本文所述的实施例中提供的结果是使用下述材料和方法获得的。
可用于本发明的ABE相对于ABE7*10(如上文所述的ABE7*10的氨基酸序列)具有下述一种或多种氨基酸改变:R21N,R23H,E25F,N38G,L51W,P54C,M70V,Q71M,N72K,Y73S,V82T,M94V,P124W,T133K,D139L,D139M,C146R,和A158K。
可用于本发明的腺苷脱氨酶结构域包含下述改变的组合:V82S+Q154R+Y147R;V82S+Q154R+Y123H;V82S+Q154R+Y147R+Y123H;Q154R+Y147R+Y123H+I76Y+V82S;V82S+I76Y;V82S+Y147R;V82S+Y147R+Y123H;V82S+Q154R+Y123H;Q154R+Y147R+Y123H+I76Y;V82S+Y147R;V82S+Y147R+Y123H;V82S+Q154R+Y123H;V82S+Q154R+Y147R;V82S+Q154R+Y147R;Q154R+Y147R+Y123H+I76Y;Q154R+Y147R+Y123H+I76Y+V82S;I76Y_V82S_Y123H_Y147R_Q154R;Y147R+Q154R+H123H;和V82S+Q154R.
可用于本发明的其他腺苷脱氨酶结构域包含下述改变的组合:E25F+V82S+Y123H,T133K+Y147R+Q154R;E25F+V82S+Y123H+Y147R+Q154R;L51W+V82S+Y123H+C146R+Y147R+Q154R;Y73S+V82S+Y123H+Y147R+Q154R;P54C+V82S+Y123H+Y147R+Q154R;N38G+V82T+Y123H+Y147R+Q154R;N72K+V82S+Y123H+D139L+Y147R+Q154R;E25F+V82S+Y123H+D139M+Y147R+Q154R;Q71M+V82S+Y123H+Y147R+Q154R;E25F+V82S+Y123H+T133K+Y147R+Q154R;E25F+V82S+Y123H+Y147R+Q154R;V82S+Y123H+P124W+Y147R+Q154R;L51W+V82S+Y123H+C146R+Y147R+Q154R;P54C+V82S+Y123H+Y147R+Q154R;Y73S+V82S+Y123H+Y147R+Q154R;N38G+V82T+Y123H+Y147R+Q154R;R23H+V82S+Y123H+Y147R+Q154R;R21N+V82S+Y123H+Y147R+Q154R;V82S+Y123H+Y147R+Q154R+A158K;N72K+V82S+Y123H+D139L+Y147R+Q154R;E25F+V82S+Y123H+D139M+Y147R+Q154R;和M70V+V82S+M94V+Y123H+Y147R+Q154R
可用于本发明的其他腺苷脱氨酶包含下述改变的组合:Q71M+V82S+Y123H+Y147R+Q154R;E25F+I76Y+V82S+Y123H+Y147R+Q154R;I76Y+V82T+Y123H+Y147R+Q154R;N38G+I76Y+V82S+Y123H+Y147R+Q154R;R23H+I76Y+V82S+Y123H+Y147R+Q154R;P54C+I76Y+V82S+Y123H+Y147R+Q154R;R21N+I76Y+V82S+Y123H+Y147R+Q154R;I76Y+V82S+Y123H+D139M+Y147R+Q154R;Y73S+I76Y+V82S+Y123H+Y147R+Q154R;E25F+I76Y+V82S+Y123H+Y147R+Q154R;I76Y+V82T+Y123H+Y147R+Q154R;N38G+I76Y+V82S+Y123H+Y147R+Q154R;R23H+I76Y+V82S+Y123H+Y147R+Q154R;P54C+I76Y+V82S+Y123H+Y147R+Q154R;R21N+I76Y+V82S+Y123H+Y147R+Q154R;I76Y+V82S+Y123H+D139M+Y147R+Q154R;Y73S+I76Y+V82S+Y123H+Y147R+Q154R;andV82S+Q154R;N72K_V82S+Y123H+Y147R+Q154R;Q71M_V82S+Y123H+Y147R+Q154R;V82S+Y123H+T133K+Y147R+Q154R;V82S+Y123H+T133K+Y147R+Q154R+A158K;M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R;N72K_V82S+Y123H+Y147R+Q154R;Q71M_V82S+Y123H+Y147R+Q154R;M70V+V82S+M94V+Y123H+Y147R+Q154R;V82S+Y123H+T133K+Y147R+Q154R;V82S+Y123H+T133K+Y147R+Q154R+A158K;和M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R。在一些实施方案中,腺苷脱氨酶是以单体表达。在另一个实施方案中,腺苷脱氨酶是以异二聚体表达。
下表提供了在本发明的方法中有用的载体的描述。
在表18中,显示了相对于ABE 7*10参考序列具有改变的新型ABE9核碱基编辑器。表18中使用的术语“单体”是指TadA*7.10的单体形式,该TadA*7.10包含表18中描述的变化。表18中使用的术语“异二聚体”是指与TadA*7.10融合的特定野生型大肠杆菌TadA,该TadA*7.10包含表18中描述的改变。
克隆
本文描述了所使用的靶多核苷酸的DNA序列和gRNA以及引物。对于gRNA,呈现了下述支架序列:GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUC CGUUAUCAAC UUGAAAAAGUGGCACCGAGU CGGUGCUUUU.gRNA包括支架序列和用于多核苷酸的间隔序列(靶序列),所述多核苷酸包含如本文所述的或如基于所属技术领域的技术人员的知识所定的并且如所属技术领域的技术人员所理解的致病突变。
碱基编辑的方法是本领域已知的。参见例如Komor,A.C.等人,“无双链DNA切割的基因组DNA中靶碱基的可编程编辑”Nature 533,420-424(2016);Gaudelli,N.M.等人,“无DNA切割的基因组DNA中A·T到G·C的可编程碱基编辑”Nature 551,464-471(2017);Komor,A.C.等人,“改善的碱基切除修复抑制和噬菌体Mu Gam蛋白产生C:G-到-T:A的碱基编辑器,其具有更高的效率和产品纯度”Science Advances 3:eaao4774(2017)和Rees,H.A.等人,“碱基编辑:基因组和活细胞转录组的精确化学”。Nat Rev Genet.2018 Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1.
使用VeraSeq ULtra DNA聚合酶(Enzymatics)或Q5 Hot Start High-FidelityDNA Polymerase(New England Biolabs)进行PCR。使用USER cloning(New EnglandBiolabs)构建的碱基编辑器(BE)质粒。脱氨酶基因被合成为gBlocks基因片段(IntegratedDNA Technologies)。可用于本发明的Cas9基因在下文列出并在本文中描述。Cas9基因是从先前报道的质粒中获得的。将脱氨酶和融合基因克隆到上面表17中描述的载体中(大肠杆菌密码子优化)。sgRNA表达质粒是使用定点诱变构建的。
简而言之,根据制造商的说明使用T4多核苷酸激酶(New England Biolabs)进行用于本发明的引物的5'磷酸化。接下来,根据制造商的说明,使用Q5 Hot Start High-Fidelity Polymerase(New England Biolabs)进行PCR,其中磷酸化引物和编码感兴趣基因的质粒作为模板。根据制造商的说明,PCR产物与DpnI(20U,New England Biolabs)在37℃下培养1小时,在QIAprep旋转柱(Qiagen)上纯化,并使用QuickLigase(New EnglandBiolabs)连接。使用Mach1感受态细胞(ThermoFisher Scientific)进行DNA载体扩增。
ssDNA的体外脱氨酶测定
使用标准方法获得所有ssDNA底物的序列。所有Cy3标记的底物均来自IntegratedDNA Technologies(IDT)。根据制造商的说明,使用TNT T7快速偶联转录/转译试剂盒(Promega)在体外表达脱氨酶,其使用1μg质粒。蛋白质表达后,在CutSmart缓冲液(NewEngland Biolabs)(50mM醋酸钾、29mM Tris-醋酸盐、10mM醋酸镁、100μg ml-1BSA)中将5μl裂解物与35μl ssDNA(1.8μM)和USER酶(1个单位)混合,并在37℃下孵育2小时。在10%TBE-尿素凝胶(Bio-Rad)上,从全长未修饰的底物上分离切割的含U底物。
碱基编辑器的表达和纯化
用质粒(例如编码表17中描述的碱基编辑器的质粒)转化大肠杆菌BL21 STAR(DE3)感受态细胞(ThermoFisher Scientific)。所得表达菌株在含有100μg ml-1卡那霉素的Luria-Bertani(LB)肉汤中于37℃培养过夜。将细胞以1:100的比例稀释到相同的生长培养基中,并在37℃下生长至OD600=~0.6。在2小时内将培养物冷却至4℃,并以0.5mM添加异丙基-β-d-1-硫代吡喃半乳糖苷(IPTG)以诱导蛋白质表达。约16小时后,通过4,000g离心收集细胞并重悬于裂解缓冲液(50mM tris(羟甲基)-氨基甲烷(Tris)-HCl(pH 7.5)、1MNaCl、20%甘油、10mM tris)中(2-羧乙基)膦(TCEP,Soltec Ventures))。通过超声裂解细胞(20秒脉冲开启,20秒脉冲关闭,总共8分钟,输出功率为6W),并在以25,000g离心15分钟后分离裂解物上清液。将裂解物与His-Pur镍-次氮基乙酸(nickel-NTA)树脂(ThermoFisher Scientific)在4℃下孵育1小时以捕获带有His标签的融合蛋白。将树脂转移到柱子上并用40ml裂解缓冲液洗涤。在添加有285mM咪唑的裂解缓冲液中洗脱带有His标签的融合蛋白,并通过超滤(Amicon-Millipore,100-kDa分子量截止)浓缩至1ml总体积。将蛋白质在含有50mM三(羟甲基)-氨基甲烷(Tris)-HCl(pH 7.0)、0.1M NaCl、20%甘油、10mMTCEP的低盐纯化缓冲液中稀释至20ml,然后上样到SP Sepharose Fast流动树脂(GE LifeSciences)。用40ml此种低盐缓冲液洗涤树脂,用5ml含有50mM三(羟甲基)-氨基甲烷(Tris)-HCl(pH 7.0)、0.5M NaCl、20%甘油、10mM TCEP的活性缓冲液洗脱蛋白质。洗脱的蛋白质通过SDS-PAGE进行定量。
sgRNA的体外转录
根据制造商的说明,使用TranscriptAid T7 High Yield Transcription Kit(ThermoFisher Scientific)在体外转录包含T7启动子和其后的20-bp sgRNA靶序列的线性DNA片段。根据制造商的说明,使用MEGAclear试剂盒(ThermoFisher Scientific)纯化sgRNA产物,并通过紫外吸光度进行定量。
Cy3缀合的dsDNA底物的制备
通常,未标记的序列链(例如80-nt未标记链的序列)作为来自IDT的PAGE纯化的寡核苷酸进行排序。与每个80-nt底物的3'末端互补的25-nt Cy3标记的引物被排序为来自IDT的HPLC纯化的寡核苷酸。为了生成Cy3标记的dsDNA底物,将80-nt链(5μl的100μM溶液)与NEBuffer 2(38.25μl的50mM NaCl、10mM Tris-HCl、10mM MgCl2、1mM DTT、pH 7.9溶液,New England Biolabs))中的Cy3标记引物(5μl的100μM溶液)与dNTP(0.75μl的100mM溶液)混合并加热至95℃5分钟,然后逐渐冷却以每秒0.1℃的速度降温至45℃。在此粘合期之后,添加Klenow exo-(5U,New England Biolabs)并将反应在37℃下孵育1小时。溶液用缓冲液PB(250μl,Qiagen)和异丙醇(50μl)稀释,并在QIAprep离心柱(Qiagen)上纯化,用50μlTris缓冲液洗脱。
dsDNA上的脱氨酶测定。
将纯化的融合蛋白(20μl的1.9μM的活性缓冲液)与1当量的适当sgRNA组合,并在环境温度下孵育5分钟。加入Cy3标记的dsDNA底物至终浓度为125nM,所得溶液在37℃下孵育2小时。通过添加缓冲液PB(100μl,Qiagen)和异丙醇(25μl)从融合物中分离dsDNA,并在EconoSpin微量离心柱(Epoch Life Science)上纯化,用20μl CutSmart缓冲液(NewEngland Biolabs)洗脱)。将USER酶(1U,New England Biolabs)添加到纯化、编辑的dsDNA中,并在37℃下孵育1小时。通过将5μl反应溶液与15μl基于DMSO的上样缓冲液(5mM Tris、0.5mM EDTA、12.5%甘油、0.02%溴酚蓝、0.02%二甲苯青色,80%DMSO)。在10%TBE-尿素凝胶(Bio-Rad)上将全长的含C底物与任何切割的含U编辑底物分离,并在GE AmershamTyphoon成像仪上成像。
用于高通量测序的体外编辑dsDNA的制备
寡核苷酸获取自IDT。互补序列在Tris缓冲液中组合(5μl的100μM溶液)并通过加热至95℃5分钟进行粘合,然后以0.1℃/s的速率逐渐冷却至45℃,以产生60-bp dsDNA底物。将纯化的融合蛋白(20μl 1.9μM的活性缓冲液)与1当量的适当sgRNA结合,并在环境温度下孵育5分钟。添加60-mer dsDNA底物至终浓度为125nM,所得溶液在37℃下孵育2小时。通过添加缓冲液PB(100μl,Qiagen)和异丙醇(25μl)从融合物中分离dsDNA,并在EconoSpin微量离心柱(Epoch Life Science)上纯化,用20μl Tris缓冲液洗脱。根据制造商的说明,使用高通量测序引物对和VeraSeq Ultra(Enzymatics)通过PCR扩增得到的编辑DNA(1μl用作模板),扩增13个循环。PCR反应产物使用RapidTips(Diffinity Genomics)进行纯化,纯化的DNA使用含有测序接头的引物通过PCR扩增,如前所述在MiSeq高通量DNA测序仪(Illumina)上进行纯化和测序。
细胞培养
将表达靶多核苷酸的HEK293T(ATCC CRL-3216)和U2OS(ATCC HTB-96)维持在Dulbecco's Modified Eagle's Medium plus GlutaMax(ThermoFisher)中,并补充有10%(v/v)胎牛血清(FBS),温度为37℃及含5%的二氧化碳。HCC1954细胞(ATCC CRL-2338)维持在如上所述补充的RPMI-1640培养基(ThermoFisher Scientific)中。永生化细胞(TaconicBiosciences)在Dulbecco’s Modified Eagle’s Medium plus GlutaMax(ThermoFisherScientific)中培养,并补充有10%(v/v)胎牛血清(FBS)和200μg ml-1遗传霉素(ThermoFisher Scientific)。
转染
HEK293T细胞接种在48孔胶原蛋白涂层BioCoat板(Corning)上,并以大约85%的汇合度转染。简而言之,根据制造商的方案,每孔使用1.5μl Lipofectamine 2000(ThermoFisher Scientific)转染750ng BE和250ng sgRNA表达质粒。根据制造商的说明(使用程式Q-001用于HEK293T细胞的V试剂盒),使用适当的Amaxa Nucleofector II程式转染HEK293T细胞。
基因组DNA样本的高通量DNA测序
3天后收获转染的细胞,并根据制造商的说明使用Agencourt DNAdvance GenomicDNA Isolation Kit(Beckman Coulter)分离基因组DNA。用侧翼高通量测序引物对通过PCR扩增在靶和脱靶基因组区域。根据制造商的说明,使用5ng基因组DNA作为模板,使用Phusion高保真DNA聚合酶(ThermoFisher)进行PCR扩增。分别确定每个引物对的循环数,以确保反应在扩增的线性范围内停止。使用RapidTips(Diffinity Genomics)纯化PCR产物。使用含有测序接头的引物通过PCR扩增纯化的DNA。使用Quant-iT PicoGreen dsDNA AssayKit(ThermoFisher)和KAPA Library Quantification Kit-Illumina(KAPA Biosystems)对产物进行凝胶纯化和定量。如前所述(Pattanayak,Nature Biotechnol.31,839–843(2013)),在Illumina MiSeq上对样品进行测序。
数据分析
使用MiSeq Reporter(Illumina)自动对测序读数进行解复用,并使用自定义Matlab分析单个FASTQ文件。使用Smith-Waterman算法将每个读数与适当的参考序列成对对齐。Q分数低于31的碱基调用被Ns替换,因此在计算核苷酸频率时被排除在外。此种处理产生的预期MiSeq碱基调用错误率约为千分之一。其中读数和参考序列不包含空位的比对序列存储在比对表中,从该比对表中可以列出每个基因座的碱基频率。使用先前描述的标准(Zuris,et al.,Nature Biotechnol.33,73–80(2015))以自定义Matlab脚本对插入缺失频率进行量化。扫描测序读数以精确匹配两个10bp序列,此些序列位于可能出现插入缺失的窗口两侧。如果没有找到精确匹配,则从分析中排除读数。如果该插入缺失窗口的长度与参考序列完全匹配,则该读数被分类为不包含插入缺失。如果插入缺失窗口是两个或比参考序列更长或更短的碱基,则测序读数分别被分类为插入或缺失。
其他实施方案
从前面的描述中,很明显可以对这里描述的本发明进行变化和修改以将其用于各种用途和条件。这样的实施方案也在所附权利要求的范围内。
在本文中对变量的任何定义中的元素列表的叙述包括将该变量定义为任何单个元素或所列元素的组合(或子组合)。此处对实施方案的叙述包括作为任何单个实施方案或与任何其他实施方案或其部分组合的实施方案。
以引用方式并入
本说明书中提及的所有出版物、专利和专利申请均在此以引用方式并入本文,其程度就如同每个单独的出版物、专利或专利申请被具体地和单独地指示为以引用方式并入一样。除非另有说明,本说明书中提及的出版物、专利和专利申请通过引用整体并入本文。
Claims (125)
2.根据权利要求1所述的腺苷脱氨酶,其包含选自由下述组成的组的改变:SEQ ID NO:1的R21N、R23H、E25F、N38G、L51W、P54C、M70V、Q71M、N72K、Y73S、M94V、P124W、T133K、D139L、D139M、C146R和A158K,或在另一种腺苷脱氨酶的相应改变。
3.根据权利要求1或2所述的腺苷脱氨酶,其进一步包含SEQ ID NO:1的V82T改变,或在另一种腺苷脱氨酶的相应改变。
4.根据权利要求1至3中任一项所述的腺苷脱氨酶,其包含在选自由下述所组成的组的二个或更多氨基酸位置的改变:所述SEQ ID NO:1的21、23、25、38、51、54、70、71、72、73、94、124、133、139、146和158,或在另一种腺苷脱氨酶的相应改变。
5.根据权利要求1至4中任一项所述的腺苷脱氨酶,其包含二个或更多的该改变。
6.根据权利要求1至5中任一项所述的腺苷脱氨酶,其中包含三个或更多的该改变。
7.根据权利要求1至6中任一项所述的腺苷脱氨酶,其还包含一个或更多的以下的改变:Y147T、Y147R、Q154S、Y123H和Q154R。
8.根据权利要求1至7中任一项所述的腺苷脱氨酶,其中,所述腺苷脱氨酶包含任一个以下的组的改变:
E25F+V82S+Y123H;
T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+V82S+Y123H+T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+P124W+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
R23H+V82S+Y123H+Y147R+Q154R;
R21N+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+Y147R+Q154R+A158K;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
V82S+Q154R;
N72K+V82S+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R;
N72K_V82S+Y123H+Y147R+Q154R;
Q71M_V82S+Y123H+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;或
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R。
9.根据权利要求1至8中任一项所述的腺苷脱氨酶,其包含选自由149、150、151、152、153、154、155、156和157所组成的组的残基开始的C末端的缺失。
10.根据权利要求1至6中任一项所述的腺苷脱氨酶,其还包含选自由Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R所组成的组的改变。
11.根据权利要求1至6任一项所述的腺苷脱氨酶,其为一种表14、表18或图3A至3C所描述的腺苷脱氨酶变体。
13.根据权利要求12所述的腺苷脱氨酶变体,其中,所述的腺苷脱氨酶变体包含选自由下述所组成的组的改变:SEQ ID NO:1的R21N、R23H、E25F、N38G、L51W、P54C、M70V、Q71M、N72K、Y73S、M94V、P124W、T133K、D139L、D139M、C146R和A158K,或在另一种腺苷脱氨酶的相应改变。
14.一种融合蛋白,其包含多核苷酸可编程DNA结合结构域和至少一个碱基编辑器结构域,该碱基编辑器结构域是腺苷脱氨酶变体,其包含选自下述所组成的组的改变:SEQ IDNO 1的R21N,R23H,E25F,N38G,L51W,P54C,M70V,Q71M,N72K,Y73S,M94V,P124W,T133K,D139L,D139M,C146R,和A158K,或在另一种腺苷脱氨酶的相应改变。
15.根据权利要求12至14中任一项所述的融合蛋白,其中,所述腺苷脱氨酶变体还包含SEQ ID NO:1的V82T改变,或在另一种腺苷脱氨酶的相应改变。
16.一种融合蛋白,其包含多核苷酸可编程DNA结合结构域和至少一个碱基编辑器结构域,该碱基编辑器结构域是腺苷脱氨酶变体,其包含V82T的改变和一个或多个选自下述所组成的组的改变:所述SEQ ID NO 1的R21N,R23H,E25F,N38G,L51W,P54C,M70V,Q71M,N72K,Y73S,M94V,P124W,T133K,D139L,D139M,C146R,和A158K,或在另一种腺苷脱氨酶的相应改变。
17.根据权利要求12至16中任一项所述的融合蛋白,所述腺苷脱氨酶变体包含选自由下述所组成的组的两个或更多个氨基酸位置的改变:所述SEQ ID NO:1的21、23、25、38、51、54、70、71、72、73、94、124、133、139、146和158,或在另一种腺苷脱氨酶的相应改变。
18.根据权利要求12至17中任一项所述的融合蛋白,其中,所述腺苷脱氨酶变体包含二个或更多个该改变。
19.根据权利要求12至17中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含三个或更多个该改变。
20.根据权利要求12至19中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体还包含以下一个或多个改变:Y147T、Y147R、Q154S、Y123H和Q154R。
21.根据权利要求12至20中任一项所述的融合蛋白,其中,所述腺苷脱氨酶变体包含任一个以下的组的改变:
E25F+V82S+Y123H;
T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+V82S+Y123H+T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+P124W+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
R23H+V82S+Y123H+Y147R+Q154R;
R21N+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+Y147R+Q154R+A158K;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
V82S+Q154R;
N72K+V82S+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R;
N72K+V82S+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;或
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R。
22.根据权利要求12至20中任一项所述的融合蛋白,其中,所述腺苷脱氨酶变体包含选自由149、150、151、152、153、154、155、156和157组成的组中的残基开始的C末端的缺失。
23.根据权利要求12至20中任一项所述的融合蛋白,其中,所述碱基编辑器结构域包含腺苷脱氨酶变体单体,其中,所述腺苷脱氨酶单体包含一个或更多个选自下述所组成的组的改变:SEQ ID NO 1的R21N,R23H,E25F,N38G,L51W,P54C,M70V,Q71M,N72K,Y73S,V82T、M94V、P124W、T133K、D139L、D139M、C146R、和A158K。
24.根据权利要求12至17中任一项所述的融合蛋白,其中,所述碱基编辑器结构域包含腺苷脱氨酶异二聚体,所述腺苷脱氨酶异二聚体包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。
25.根据权利要求24所述的融合蛋白,其中,所述腺苷脱氨酶变体还包含选自由下述所组成的组的改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。
26.根据权利要求12至17中任一项所述的融合蛋白,其中,所述碱基编辑器结构域包含腺苷脱氨酶异二聚体,所述异二聚体包含TadA*7.10结构域和腺苷脱氨酶变体结构域。
27.根据权利要求26所述的融合蛋白,其中,所述腺苷脱氨酶变体还包含二个或更多个该改变。
28.根据权利要求12至17中任一项所述的融合蛋白,其中,所述碱基编辑器包含异二聚体,所述异二聚体包含TadA*7.10结构域和腺苷脱氨酶变体,所述腺苷脱氨酶变体包含任一个以下的组的改变:
E25F+V82S+Y123H;
T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+V82S+Y123H+T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+P124W+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
R23H+V82S+Y123H+Y147R+Q154R;
R21N+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+Y147R+Q154R+A158K;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
V82S+Q154R;
N72K+V82S+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R;
N72K+V82S+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;或
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R。
29.根据权利要求12至17中任一项所述的融合蛋白,其中,所述腺苷脱氨酶变体是表14、表18或图3A至3C中描述的ABE9或TadA*9脱氨酶变体。
30.根据权利要求12至29中任一项所述的融合蛋白,其中,所述腺苷脱氨酶变体是截短的ABE8或ABE9,其缺失相对于全长ABE9的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个C-末端氨基酸残基。
31.根据权利要求12至30中任一项所述的融合蛋白,其中,所述多核苷酸可编程DNA结合结构域是Cas9、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ结构域。
32.一种融合蛋白,其包含多核苷酸可编程DNA结合结构域,所述多核苷酸可编程DNA结合结构域包含以下序列:
EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFMQPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAKFLQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPRAFKYFDTTIARKEYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDGGSGGSGGSGGSGGSGGSGGMDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEGADKRTADGSEFESPKKKRKV*,其中粗体序列表示源自Cas9的序列,斜体序列表示接头序列,加下划线的序列表示二分核定位序列,并且至少一个碱基编辑器结构域包含腺苷脱氨酶变体,所述变体包含在选自由下述所组成的组的氨基酸位置的改变:SEQ ID NO 1的21、23、25、38、51、54、70、71、72、73、94、124、133、138、139、146和158。
33.根据权利要求32所述的腺苷脱氨酶变体,其中,所述腺苷脱氨酶变体包含选自由下述所组成的组的改变:SEQ ID NO:1的R21N、R23H、E25F、N38G、L51W、P54C、M70V、Q71M、N72K、Y73S、M94V、P124W、T133K、D138M、D139L、D139M、C146R和A158K。
34.根据权利要求33所述的融合蛋白,其中,所述腺苷脱氨酶变体包含SEQ ID NO:1的V82T改变。
35.根据权利要求33或34所述的融合蛋白,其中,所述腺苷脱氨酶变体包含二个或更多个该改变。
36.根据权利要求33或34所述的融合蛋白,其中,所述腺苷脱氨酶变体包含三个或更多个该改变。
37.根据权利要求33或34所述的融合蛋白,其中,所述腺苷脱氨酶变体还包含选自由下述所组成的组的改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。
38.根据权利要求33或34所述的融合蛋白,其中,所述腺苷脱氨酶变体包含二个或更多个以下改变:Y147T、Y147R、Q154S、Y123H和Q154R。
39.根据权利要求32项所述的融合蛋白,其中,所述腺苷脱氨酶变体包含任一个以下的组的改变:
E25F+V82S+Y123H;
T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+V82S+Y123H+T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+P124W+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
R23H+V82S+Y123H+Y147R+Q154R;
R21N+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+Y147R+Q154R+A158K;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
V82S+Q154R;
N72K+V82S+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R;
N72K+V82S+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R;或
或表14的任何其他改变或其的组。
40.根据权利要求12至39中任一项所述的融合蛋白,其中,所述多核苷酸可编程DNA结合结构域是金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、化脓性链球菌Cas9(SpCas9)或其变体。
41.根据权利要求12至40中任一项所述的融合蛋白,其中,所述多核苷酸可编程DNA结合结构域包含经修饰的SaCas9,其具有改变的原间隔序列相邻基序(PAM)特异性。
42.根据权利要求41所述的融合蛋白,其中,所述经修饰的SaCas9包含氨基酸取代E782K、N968K和R1015H,或其相应的氨基酸取代。
43.根据权利要求12至40中任一项所述的融合蛋白,其中,所述多核苷酸可编程DNA结合结构域包含SpCas9的变体,其具有经改变的原间隔序列相邻基序(PAM)特异性。
44.根据权利要求43所述的融合蛋白,其中所述经改变的PAM对核酸序列5'-NGA-3'、5'-NGC-3'、5'-NGG-3'、5'-NGT-3'或5”-NGN-3'具有特异性。
45.根据权利要求43或44所述的融合蛋白,其中,所述变体SpCas9包含选自以下的氨基酸取代:
D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R,或其相应的氨基酸取代;
I322V、S409I、E427G、R654L、R753G、(MQKFRAER)或其相应的氨基酸取代;
I322V、S409I、E427G、R654L、R753G、R1114G或其相应的氨基酸取代;或如图3A-3C中所示的氨基酸取代。
46.根据权利要求12至45中任一项所述的融合蛋白,其中所述多核苷酸可编程DNA结合结构域为核酸酶失活或切口酶变体。
47.根据权利要求46所述的融合蛋白,其中所述切口酶变体包含氨基酸取代D10A或其相应的氨基酸取代。
48.根据权利要求12至47中任一项所述的融合蛋白,其中,所述腺苷脱氨酶结构域能够使脱氧核糖核酸(DNA)中的腺嘌呤脱氨。
49.根据权利要求12至47中任一项所述的融合蛋白,其中,所述腺苷脱氨酶是一种经修饰的腺苷脱氨酶,其于自然界中不存在。
50.根据权利要求12至49中任一项所述的融合蛋白,其中,所述腺苷脱氨酶是一种TadA脱氨酶。
51.根据权利要求50所述的融合蛋白,其中,所述TadA脱氨酶是一种TadA*7.10变体。
52.根据权利要求12至51中任一项所述的融合蛋白,其包含在所述多核苷酸可编程DNA结合结构域和所述腺苷脱氨酶结构域之间的接头。
53.根据权利要求52所述的融合蛋白,其中所述接头包含氨基酸序列:
SGGSSGGSSGSETPGTSESATPES。
54.根据权利要求12至53中任一项所述的融合蛋白,其包含一种或多种核定位信号。
55.根据权利要求54所述的融合蛋白,其中所述核定位信号是二分核定位信号。
56.根据权利要求12至55中任一项所述的融合蛋白,其中,所述Cas9是StCas9。
57.根据权利要求12至55中任一项所述的融合蛋白,其中,所述Cas9是SaCas9或SpCas9。
58.根据权利要求12至55中任一项所述的融合蛋白,其中,所述Cas9是经修饰的SaCas9或经修饰的SpCas9。
59.根据权利要求58所述的融合蛋白,其中所述经修饰的SaCas9包含E782K、N968K和R1015H的氨基酸取代,或其相应的氨基酸取代。
60.根据权利要求59所述的融合蛋白,其中所述经修饰的SaCas9包含氨基酸序列:
KRNYILGLAIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRKLINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYKNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPHIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG。
61.一种编码根据权利要求12至60中任一项所述的融合蛋白的多核苷酸。
62.一种通过引入细胞内产生的细胞或其祖细胞:
一种编码根据权利要求12至60中任一项所述的融合蛋白的多核苷酸,以及
一种或多种靶向碱基编辑器的引导多核苷酸,以实现与遗传疾病相关的SNP的A·T至G·C改变。
63.根据权利要求62所述的细胞,其中,所述细胞为人类细胞。
64.根据权利要求62或63所述的细胞,其中,所述细胞为体外或体内的。
65.根据权利要求62至64中任一项所述的细胞,其中,所述遗传疾病是α-1抗胰蛋白酶缺乏症(A1AD)。
66.根据权利要求62至65中任一项所述的细胞,其中,所述融合蛋白和所述一种或多种引导多核苷酸在所述细胞中形成复合物。
67.一种从根据权利要求62至66中任一项所述的细胞增殖或扩增的分离的细胞或细胞群。
68.一种在有需要的受试者中治疗遗传疾病的方法,所述方法包含向受试者施用根据权利要求62至67中任一项所述的细胞。
69.根据权利要求68所述的方法,其中所述细胞对于所述受试者是自体的、同种异体的或异种的。
71.根据权利要求70所述的碱基编辑器,其中,所述腺苷脱氨酶变体包含选自由下述所组成的组的改变:SEQ ID NO:1的R21N、R23H、E25F、N38G、L51W、P54C、M70V、Q71M、N72K、Y73S、V82T、M94V、P124W、T133K、D139L、D139M、C146R和A158K,或在另一种腺苷脱氨酶的相应改变。
72.根据权利要求70或71所述的碱基编辑器,其还包含一种或多种靶向碱基编辑器的引导多核苷酸,以实现与遗传疾病相关的SNP的A·T至G·C改变。
73.根据权利要求70至72中任一项所述的碱基编辑器系统,其中,所述腺苷脱氨酶变体能够使脱氧核糖核酸(DNA)中的腺嘌呤脱氨。
74.根据权利要求73所述的碱基编辑器系统,其中,所述引导多核苷酸包含核糖核酸(RNA)或脱氧核糖核酸(DNA)。
75.根据权利要求74所述的碱基编辑器系统,其中所述引导多核苷酸包含CRISPR RNA(crRNA)序列、反式激活CRISPR RNA(tracrRNA)序列或其组合。
76.根据权利要求72所述的碱基编辑器系统,其还包含第二引导多核苷酸。
77.根据权利要求76所述的碱基编辑器系统,其中,所述第二引导多核苷酸包含核糖核酸(RNA)或脱氧核糖核酸(DNA)。
78.根据权利要求76所述的碱基编辑器系统,其中,所述第二引导多核苷酸包含CRISPRRNA(crRNA)序列、反式激活CRISPR RNA(tracrRNA)序列或其组合。
79.根据权利要求70至78中任一项所述的碱基编辑器系统,其中,所述多核苷酸可编程DNA结合结构域包含Cas9、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ结构域。
80.根据权利要求79所述的碱基编辑器系统,其中,所述多核苷酸可编程DNA结合结构域为核酸酶无活性。
81.根据权利要求79所述的碱基编辑器系统,其中,所述多核苷酸可编程DNA结合结构域是切口酶。
82.根据权利要求79所述的碱基编辑器系统,其中,所述多核苷酸可编程DNA结合结构域包含Cas9结构域。
83.根据权利要求82所述的碱基编辑器系统,其中,所述Cas9结构域包含无活性的核酸酶Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9。
84.根据权利要求83所述的碱基编辑器系统,其中,所述Cas9结构域包含Cas9切口酶。
85.根据权利要求70至84中任一项所述的碱基编辑器系统,其中,所述多核苷酸可编程DNA结合结构域是工程化的或经修饰的多核苷酸可编程DNA结合结构域。
86.根据权利要求72所述的碱基编辑器系统,其中,所述遗传疾病是α-1抗胰蛋白酶缺乏症(A1AD)。
87.一种校正多核苷酸中单一核苷酸多态性(SNP)的方法:
将至少一部分位于多核苷酸或其反向互补序列中的靶核苷酸序列与根据权利要求12至60中任一项所述的融合蛋白或根据权利要求70至85中任一项所述的碱基编辑系统接触;以及,通过在碱基编辑器靶向靶核苷酸序列时脱氨来编辑SNP,其中,使SNP或其互补核碱基脱氨来校正SNP。
88.根据权利要求87所述的方法,其中,所述SNP与α-1抗胰蛋白酶缺乏症(A1AD)相关。
89.根据权利要求87或88所述的方法,其中,所述SNP在SERPINA1基因中并且所述校正包含E342K(PiZ等位基因)改变。
90.一种编辑多核苷酸的方法,所述方法包含使靶核苷酸序列与根据权利要求12至60中任一项所述的融合蛋白或根据权利要求70至85中任一项所述的碱基编辑器系统接触,从而编辑所述多核苷酸。
91.根据权利要求90所述的方法,其中,所述编辑导致小于20%的插入缺失形成、小于15%的插入缺失形成、小于10%的插入缺失形成;少于5%的插入缺失形成;少于4%的插入缺失形成;少于3%的插入缺失形成;少于2%的插入缺失形成;少于1%的插入缺失形成;少于0.5%的插入缺失形成;或少于0.1%的插入缺失形成。
92.根据权利要求91所述的方法,其中,所述编辑不导致易位。
93.一种碱基编辑器,其包含ABE9,所述ABE9包含选自下述的的TadA*7.10腺苷脱氨酶变体结构域和Cas9核酸内切酶结构域:
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+A109S突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9;
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+T111R突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9;
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+D119N突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9;
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+H122N突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9;
具有SEQ ID NO:1的I76Y+V82T+Y147d+Q154S突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9;
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+F149Y突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9;
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+T166I突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9;以及
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+D167N突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G(MQKFRAER)突变的spCas9;
具有SEQ ID NO:1的I76Y+V82T+Y147T+Q154S+L36H+N157K突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G,R1114G(MQKFRAER)突变的spCas9;
具有SEQ ID NO:1的I76Y+V82T+Y147D+Q154S+F149Y+D167N+L36H+N157K突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G,R1114G(MQKFRAER)突变的SpCas9;
具有SEQ ID NO 1:1的I76Y+V82T+Y147D+Q154S+F149Y+D167N+L36H+N157K+V106W突变的单TadA*7.10,和具有I322V,S409I,E427G,R654L,R753G,R1114G(MQKFRAER)突变的SpCas9;
具有SEQ ID NO:1的A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N突变的单TadA*7.10,和具有I322V、S409I、E427G、R654L、R753G、R1114G、MQKFRAER的SpCas9;以及
具有SEQ ID NO:1的A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N+V106W突变的单TadA*7.10,具有突变I322V、S409I、E427G、R654L、R753G、R1114G(MQKFRAER)的SpCas9;以及一种或多种靶向腺苷脱氨酶变体结构域的引导多核苷酸,以实现与遗传疾病相关的SNP的A·T至G·C改变。
94.根据权利要求93所述的碱基编辑器,其中,所述SNP与α-1抗胰蛋白酶缺乏症(A1AD)相关。
95.一种载体,其包含一个或多个编码ABE9碱基编辑器的多核苷酸,所述ABE9碱基编辑器包含选自下述的TadA腺苷脱氨酶结构域和SpCas9核酸内切酶结构域:
具有突变I76Y+V82T+Y147T+Q154S+A109S的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+T111R的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+D119N的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+H122N的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147d+Q154S的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+F149Y的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+T166I的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;以及
具有突变I76Y+V82T+Y147T+Q154S+D167N的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147T+Q154S+L36H+N157K的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G、R1114G(MQKFRAER)的spCas9;
具有突变I76Y+V82T+Y147D+Q154S+F149Y+D167N+L36H+N157K的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G、R1114G(MQKFRAER)的SpCas9;
具有突变I76Y+V82T+Y147D+Q154S+F149Y+D167N+L36H+N157K+V106W的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G,R1114G、(MQKFRAER)的SpCas9;
具有突变A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G、R1114G(MQKFRAER)的SpCas9;
具有突变A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N+V106W的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G、R1114G(MQKFRAER)的SpCas9。
96.根据权利要求95所述的载体,其为质粒、病毒或mRNA载体。
97.一种组合物,其包含根据权利要求12至60中任一项所述的融合蛋白或根据权利要求70至85中任一项所述的碱基编辑器系统。
98.根据权利要求97所述的组合物,其还包含药学上可接受的赋形剂、稀释剂或载子。
99.一种组合物,其包含与引导RNA结合的根据权利要求12至60中任一项所述的融合蛋白,其中,所述引导RNA包含与α-1抗胰蛋白酶缺乏症(A1AD)相关的SERPINA1基因互补的核酸序列。
100.一种组合物,其包含与引导RNA结合的根据权利要求70至85中任一项所述的碱基编辑器系统,其中,所述引导RNA包含与α-1抗胰蛋白酶缺乏症(A1AD)相关的SERPINA1基因互补的核酸序列。
101.根据权利要求97至100中任一项所述的组合物,其中,所述腺苷脱氨酶变体能够使脱氧核糖核酸(DNA)中的腺嘌呤脱氨。
102.根据权利要求97至101中任一项所述的组合物,其中,所述融合蛋白或碱基编辑器系统
(i)包含Cas9切口酶;
(ii)包含核酸酶失活的Cas9;
(iii)包含SpCas9变体,其包含图3A至3C中所示的氨基酸取代的组合;或
(iv)包含SpCas9变体,其包含选自I322V、S409I、E427G、R654L、R753G(MQKFRAER);或I322V、S409I、E427G、R654L、R753G、R1114G、(MQKFRAER)的氨基酸序列取代的组合。
103.根据权利要求99至102所述的组合物,其还包含药学上可接受的赋形剂、稀释剂或载子。
104.一种用于治疗疾病或病症的药物组合物,其包含根据权利要求98的组合物。
105.根据权利要求104所述的药物组合物,其中,所述疾病或病症与α-1抗胰蛋白酶缺乏症(A1AD)相关。
106.根据权利要求105所述的药物组合物,其中,所述融合蛋白或所述碱基编辑器与引导RNA结合,其中,所述引导RNA包含与α-1抗胰蛋白酶缺乏症(A1AD)相关的SERPINA1基因互补的核酸序列。
107.根据权利要求106所述的药物组合物,其中所述gRNA和所述碱基编辑器一起或分开配制。
108.如权利要求98或103至107中任一项所述的药物组合物,其中,所述gRNA包含从5'到3'的核酸序列,或其1、2、3、4或5个核苷酸的5'截短片段,其选自一种或多种:
5′-ACCAUCGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′;
5′-CCAUCGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′;
5′-CAUCGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′;
5′-AUCGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′;
5′-UCGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′;或
5′-CGACAAGAAAGGGACUGA GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUCCGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU-3′。
109.根据权利要求98或103至108中任一项所述的药物组合物,还包含适合在哺乳动物细胞中表达的载体,其中,所述载体包含编码所述碱基编辑器的多核苷酸。
110.根据权利要求109所述的药物组合物,其中,所述编码碱基编辑器的多核苷酸为mRNA。
111.根据权利要求109所述的药物组合物,其中,所述载体为人类载体。
112.根据权利要求111所述的药物组合物,其中,所述病毒载体为逆转录病毒载体、腺病毒载体、慢病毒载体、疱疹病毒载体或腺相关病毒载体(AAV)。
113.根据权利要求98或103至108中任一项所述的药物组合物,还包含适合在哺乳动物细胞中表达的载体。
114.根据权利要求98或103至108中任一项所述的药物组合物,还包含脂质。
115.一种治疗α-1抗胰蛋白酶缺乏症(A1AD)的方法,所述方法包括向有需要的受试者施用根据权利要求98或103至114中任一项所述的药物组合物。
116.一种根据权利要求98或103至114中任一项所述的药物组合物用于治疗受试者中的α-1抗胰蛋白酶缺乏症(A1AD)的用途。
117.根据权利要求115所述的方法或根据权利要求116所述的用途,其中所述受试者为人。
118.根据权利要求70至86中任一项所述的碱基编辑器系统,其中所述腺苷脱氨酶变体包含下述改变的组中的任一组:
E25F+V82S+Y123H;
T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+V82S+Y123H+T133K+Y147R+Q154R;
E25F+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+P124W+Y147R+Q154R;
L51W+V82S+Y123H+C146R+Y147R+Q154R;
P54C+V82S+Y123H+Y147R+Q154R;
Y73S+V82S+Y123H+Y147R+Q154R;
N38G+V82T+Y123H+Y147R+Q154R;
R23H+V82S+Y123H+Y147R+Q154R;
R21N+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+Y147R+Q154R+A158K;
N72K+V82S+Y123H+D139L+Y147R+Q154R;
E25F+V82S+Y123H+D139M+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
E25F+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82T+Y123H+Y147R+Q154R;
N38G+I76Y+V82S+Y123H+Y147R+Q154R;
R23H+I76Y+V82S+Y123H+Y147R+Q154R;
P54C+I76Y+V82S+Y123H+Y147R+Q154R;
R21N+I76Y+V82S+Y123H+Y147R+Q154R;
I76Y+V82S+Y123H+D139M+Y147R+Q154R;
Y73S+I76Y+V82S+Y123H+Y147R+Q154R;
V82S+Q154R;
N72K+V82S+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R;
N72K+V82S+Y123H+Y147R+Q154R;
Q71M+V82S+Y123H+Y147R+Q154R;
M70V+V82S+M94V+Y123H+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R;
V82S+Y123H+T133K+Y147R+Q154R+A158K;或
M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R。
119.根据权利要求1至118中任一项所述的腺苷脱氨酶、融合蛋白、碱基编辑器或碱基编辑器系统,其中所述腺苷脱氨酶或腺苷脱氨酶变体是TadA*7.10变体,其包含以下氨基酸改变或改变的组中的任一种:
V82T;
I76Y+V82T;或
I76Y+V82T+Y147T+Q154S。
120.一种腺苷脱氨酶变体,其为TadA*7.10变体,其包含以下氨基酸改变或改变的组中的任一种:
V82T;
I76Y+V82T;或
I76Y+V82T+Y147T+Q154S。
121.一种融合蛋白,其包含多核苷酸可编程DNA结合结构域和至少一个碱基编辑器结构域,该碱基编辑器结构域是TadA*7.10腺苷脱氨酶变体,其包含下述氨基酸改变或改变的组中的任一种:
V82T;
I76Y+V82T;或
I76Y+V82T+Y147T+Q154S。
122.根据权利要求121所述的融合蛋白,其中所述多核苷酸可编程DNA结合结构域包含Cas9核酸内切酶结构域。
123.根据权利要求122所述的融合蛋白,其中所述Cas9核酸内切酶结构域包含具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9。
124.根据权利要求121所述的腺苷脱氨酶变体或权利要求121至123中任一项所述的融合蛋白,其中所述TadA7*10是单体的。
125.一种核碱基编辑器,其包含TadA*7.10腺苷脱氨酶变体结构域和选自以下的Cas9核酸内切酶结构域:
具有突变V82T的monoTadA*7.10和具有I322V、S409I、E427G、R654L、R753G突变的spCas9(MQKFRAER);
具有突变I76Y+V82T的单TadA*7.10,和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9;或
具有突变I76Y+V82T+Y147T+Q154S的单TadA*7.10和具有突变I322V、S409I、E427G、R654L、R753G(MQKFRAER)的spCas9。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962897777P | 2019-09-09 | 2019-09-09 | |
US62/897,777 | 2019-09-09 | ||
USPCT/US2020/018195 | 2020-02-13 | ||
PCT/US2020/018195 WO2020168135A1 (en) | 2019-02-13 | 2020-02-13 | Compositions and methods for treating alpha-1 antitrypsin deficiency |
PCT/US2020/049975 WO2021050571A1 (en) | 2019-09-09 | 2020-09-09 | Novel nucleobase editors and methods of using same |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114667149A true CN114667149A (zh) | 2022-06-24 |
Family
ID=74867196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080077983.2A Pending CN114667149A (zh) | 2019-09-09 | 2020-09-09 | 新型核碱基编辑器及其使用方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20230075877A1 (zh) |
EP (1) | EP4028026A4 (zh) |
JP (1) | JP2022546608A (zh) |
KR (1) | KR20220076467A (zh) |
CN (1) | CN114667149A (zh) |
AU (1) | AU2020344547A1 (zh) |
CA (1) | CA3153624A1 (zh) |
WO (1) | WO2021050571A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115820691A (zh) * | 2022-07-25 | 2023-03-21 | 安徽农业大学 | 一种基于LbCpf1变体的水稻碱基编辑系统和应用 |
CN115975986A (zh) * | 2022-08-22 | 2023-04-18 | 山东舜丰生物科技有限公司 | 突变的Cas12j蛋白及其应用 |
CN116836962A (zh) * | 2023-06-28 | 2023-10-03 | 微光基因(苏州)有限公司 | 工程化的腺苷脱氨酶及碱基编辑器 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230101597A1 (en) * | 2019-02-13 | 2023-03-30 | Beam Therapeutics Inc. | Compositions and methods for treating alpha-1 antitrypsin deficiency |
EP4337701A1 (en) | 2021-05-10 | 2024-03-20 | Mammoth Biosciences, Inc. | Effector proteins and methods of use |
WO2023052366A1 (en) | 2021-09-28 | 2023-04-06 | INSERM (Institut National de la Santé et de la Recherche Médicale) | Base editing approaches for the treatment of beta-hemoglobinopathies |
WO2023099591A1 (en) | 2021-12-01 | 2023-06-08 | INSERM (Institut National de la Santé et de la Recherche Médicale) | Methods for increasing fetal hemoglobin content by editing the +55-kb region of the erythroid-specific bcl11a enhancer |
WO2023144104A1 (en) | 2022-01-25 | 2023-08-03 | INSERM (Institut National de la Santé et de la Recherche Médicale) | Base editing approaches for the treatment of βeta-thalassemia |
WO2023196802A1 (en) | 2022-04-04 | 2023-10-12 | The Broad Institute, Inc. | Cas9 variants having non-canonical pam specificities and uses thereof |
WO2023212715A1 (en) | 2022-04-28 | 2023-11-02 | The Broad Institute, Inc. | Aav vectors encoding base editors and uses thereof |
WO2023217888A1 (en) | 2022-05-10 | 2023-11-16 | Institut National de la Santé et de la Recherche Médicale | Base editing approaches for correcting the cd39 (cag>tag) mutation in patients suffering from βeta-thalassemia |
WO2023217904A1 (en) | 2022-05-10 | 2023-11-16 | Institut National de la Santé et de la Recherche Médicale | Syncitin-1 fusion proteins and uses thereof for cargo delivery into target cells |
WO2024018056A1 (en) | 2022-07-22 | 2024-01-25 | Institut National de la Santé et de la Recherche Médicale | Base editing approaches for correcting the ivs2-1 (g>a) mutation in patients suffering from βeta-thalassemia |
WO2024040083A1 (en) | 2022-08-16 | 2024-02-22 | The Broad Institute, Inc. | Evolved cytosine deaminases and methods of editing dna using same |
WO2024063273A1 (en) * | 2022-09-23 | 2024-03-28 | Institute For Basic Science | Novel adenine deaminase variants and a method for base editing using the same |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109295186A (zh) * | 2018-09-30 | 2019-02-01 | 中山大学 | 一种基于全基因组测序检测腺嘌呤单碱基编辑系统脱靶效应的方法及其在基因编辑中的应用 |
WO2019079347A1 (en) * | 2017-10-16 | 2019-04-25 | The Broad Institute, Inc. | USES OF BASIC EDITORS ADENOSINE |
CN109957569A (zh) * | 2017-12-22 | 2019-07-02 | 中国科学院遗传与发育生物学研究所 | 基于cpf1蛋白的碱基编辑系统和方法 |
CN110214180A (zh) * | 2016-10-14 | 2019-09-06 | 哈佛大学的校长及成员们 | 核碱基编辑器的aav递送 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK3207130T3 (da) * | 2014-10-14 | 2019-11-11 | Halozyme Inc | Sammensætninger af Adenosin Deaminase-2 (ADA2), varianter deraf og fremgangsmåder til anvendelse af samme |
EP3494215A1 (en) * | 2016-08-03 | 2019-06-12 | President and Fellows of Harvard College | Adenosine nucleobase editors and uses thereof |
WO2018089664A1 (en) * | 2016-11-11 | 2018-05-17 | The Regents Of The University Of California | Variant rna-guided polypeptides and methods of use |
-
2020
- 2020-09-09 AU AU2020344547A patent/AU2020344547A1/en active Pending
- 2020-09-09 KR KR1020227011386A patent/KR20220076467A/ko unknown
- 2020-09-09 WO PCT/US2020/049975 patent/WO2021050571A1/en unknown
- 2020-09-09 CN CN202080077983.2A patent/CN114667149A/zh active Pending
- 2020-09-09 EP EP20863422.0A patent/EP4028026A4/en active Pending
- 2020-09-09 JP JP2022514994A patent/JP2022546608A/ja active Pending
- 2020-09-09 US US17/641,343 patent/US20230075877A1/en active Pending
- 2020-09-09 CA CA3153624A patent/CA3153624A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110214180A (zh) * | 2016-10-14 | 2019-09-06 | 哈佛大学的校长及成员们 | 核碱基编辑器的aav递送 |
WO2019079347A1 (en) * | 2017-10-16 | 2019-04-25 | The Broad Institute, Inc. | USES OF BASIC EDITORS ADENOSINE |
CN109957569A (zh) * | 2017-12-22 | 2019-07-02 | 中国科学院遗传与发育生物学研究所 | 基于cpf1蛋白的碱基编辑系统和方法 |
CN109295186A (zh) * | 2018-09-30 | 2019-02-01 | 中山大学 | 一种基于全基因组测序检测腺嘌呤单碱基编辑系统脱靶效应的方法及其在基因编辑中的应用 |
Non-Patent Citations (2)
Title |
---|
LUKE W KOBLAN等: "Improving cytidine and adenine base editors by expression optimization and ancestral reconstruction", NAT BIOTECHNOL, vol. 36, no. 09 * |
张爱霞等: "基于CRISPR/Cas9系统的单碱基基因编辑技术及其在医药研究中的应用", 中国药理学与毒理学杂志, no. 07 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115820691A (zh) * | 2022-07-25 | 2023-03-21 | 安徽农业大学 | 一种基于LbCpf1变体的水稻碱基编辑系统和应用 |
CN115820691B (zh) * | 2022-07-25 | 2023-08-22 | 安徽农业大学 | 一种基于LbCpf1变体的水稻碱基编辑系统和应用 |
CN115975986A (zh) * | 2022-08-22 | 2023-04-18 | 山东舜丰生物科技有限公司 | 突变的Cas12j蛋白及其应用 |
CN115975986B (zh) * | 2022-08-22 | 2023-08-08 | 山东舜丰生物科技有限公司 | 突变的Cas12j蛋白及其应用 |
CN116836962A (zh) * | 2023-06-28 | 2023-10-03 | 微光基因(苏州)有限公司 | 工程化的腺苷脱氨酶及碱基编辑器 |
CN116836962B (zh) * | 2023-06-28 | 2024-04-05 | 微光基因(苏州)有限公司 | 工程化的腺苷脱氨酶及碱基编辑器 |
Also Published As
Publication number | Publication date |
---|---|
CA3153624A1 (en) | 2021-03-18 |
EP4028026A1 (en) | 2022-07-20 |
AU2020344547A1 (en) | 2022-03-24 |
US20230075877A1 (en) | 2023-03-09 |
JP2022546608A (ja) | 2022-11-04 |
KR20220076467A (ko) | 2022-06-08 |
EP4028026A4 (en) | 2023-09-06 |
WO2021050571A1 (en) | 2021-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114667149A (zh) | 新型核碱基编辑器及其使用方法 | |
AU2019266327A1 (en) | Methods of editing single nucleotide polymorphism using programmable base editor systems | |
US20220401530A1 (en) | Methods of substituting pathogenic amino acids using programmable base editor systems | |
CN112601816A (zh) | 使用可编程碱基编辑器系統遏止病原性突变的方法 | |
CN114096666A (zh) | 治疗血红素病变的组合物和方法 | |
CN114040970A (zh) | 使用腺苷脱氨酶碱基编辑器编辑疾病相关基因的方法,包括遗传性疾病的治疗 | |
US20220387622A1 (en) | Methods of editing a single nucleotide polymorphism using programmable base editor systems | |
CN114072509A (zh) | 脱氨反应脱靶减低的核碱基编辑器和使用其修饰核碱基靶序列的方法 | |
US20230101597A1 (en) | Compositions and methods for treating alpha-1 antitrypsin deficiency | |
CN114190093A (zh) | 使用腺苷酸脱氨酶碱基编辑器破坏疾病相关基因的剪接受体位点,包括用于治疗遗传性疾病 | |
WO2020231863A1 (en) | Compositions and methods for treating hepatitis b | |
WO2021041885A2 (en) | Compositions and methods for editing a mutation to permit transcription or expression | |
CN114026237A (zh) | 用于治疗1a型糖原贮积病的组成物和方法 | |
KR20230158476A (ko) | 유전자 요법을 위한 재조합 광견병 바이러스 | |
WO2023115012A2 (en) | Compositions and methods for the treatment of spinal muscular atrophy (sma) | |
AU2022353130A1 (en) | Compositions and methods for treating hepatitis b virus infection | |
CN116685684A (zh) | 用于治疗1a型糖原贮积症的组合物和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |