CN115312122B - 一种CRISPR-Cas酶可突变位点推荐方法和装置 - Google Patents

一种CRISPR-Cas酶可突变位点推荐方法和装置 Download PDF

Info

Publication number
CN115312122B
CN115312122B CN202211245583.5A CN202211245583A CN115312122B CN 115312122 B CN115312122 B CN 115312122B CN 202211245583 A CN202211245583 A CN 202211245583A CN 115312122 B CN115312122 B CN 115312122B
Authority
CN
China
Prior art keywords
mutable
crispr
sites
cas enzyme
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211245583.5A
Other languages
English (en)
Other versions
CN115312122A (zh
Inventor
李文慧
李占卫
李永前
崔斌
郑飞
唐进
王无可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202211245583.5A priority Critical patent/CN115312122B/zh
Publication of CN115312122A publication Critical patent/CN115312122A/zh
Application granted granted Critical
Publication of CN115312122B publication Critical patent/CN115312122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种CRISPR‑Cas酶可突变位点推荐方法和装置,该方法分三个层次推荐蛋白突变位点:1)基于蛋白质碱性氨基酸比例推荐单突变位点;2)基于蛋白3D结构空间距离推荐双突变位点;3)基于空间距离聚类推荐多突变位点。本发明在蛋白质序列同源比对的基础上,利用同源蛋白的碱性氨基酸比例、蛋白质3D结构空间距离等信息预测、排序、推荐可突变位点,相较于传统的定向进化技术实现了可突变位点的高效筛选,降低了寻找可突变位点的湿实验成本,其实现方法简单灵活、使用推荐的位点进行突变得到的Cas酶活性显著增强。这些优势使得基于本发明的CRISPR‑Cas酶活性增强工具在基因功能研究、致病位点修复等多种领域具有较高的应用价值。

Description

一种CRISPR-Cas酶可突变位点推荐方法和装置
技术领域
本发明涉及生物信息技术领域,特别涉及一种CRISPR-Cas酶可突变位点推荐方法和装置。
背景技术
酶是由活细胞产生的通过加速化学反应作为生物催化剂的一类蛋白质。细胞中几乎所有的新陈代谢过程都需要酶促反应,才能以足够快的速度维持生命。像所有的催化剂一样,酶通过降低活化能来提高反应速率。有些酶能使底物向产物的转化速度提高数百万倍,而有些酶的活性却不高,因此酶的改造就显得尤为重要。
目前蛋白酶的改造主要通过定向进化技术实现,也即在试管中模拟达尔文进化过程。通过随机突变,人为制造大量的突变,按照特定的需要和目的给与选择压力,筛选出具有期望特征的蛋白酶,实现分子水平的模拟。定向进化技术不但会耗费大量的人力、物力、财力而且难以完成对序列空间的全面搜索。
发明内容
本发明的目的在于提供一种CRISPR-Cas酶可突变位点推荐方法,以克服现有技术中的不足。
为实现上述目的,本发明提供如下技术方案:
本申请公开了一种CRISPR-Cas酶可突变位点推荐方法,具体包括如下步骤:
S1、由CRISPR-Cas酶的氨基酸序列,查找CRISPR-Cas酶的同源序列;
S2、在步骤S1中得到的同源序列中去除不含CRISPR-Cas结构域的部分,得到筛选后的同源序列,并进行多序列比对;
S3、基于多序列比对结果计算单位点的碱性氨基酸比例;并根据碱性氨基酸比例大小进行排序,根据排序结果得到若干个单可突变位点;
S4、计算单可突变位点两两之间的空间距离;并根据空间距离的大小进行排序,根据排序结果得到若干个双可突变位点;
S5、根据双可突变位点的空间信息以及在氨基酸序列的位置信息进行空间距离聚类;筛选包含两个或以上双可突变位点的分类,作为推荐的多可突变位点。
作为优选,步骤S3具体包括如下子步骤:
S31、基于多序列比对的结果,统计CRISPR-Cas酶每个氨基酸位置上在筛选后的同源序列集合中酸性氨基酸、碱性氨基酸、中性氨基酸的数量;
S32、计算CRISPR-Cas酶每个氨基酸位置上在筛选后的同源序列集合中碱性氨基酸的比例;
S33、按照碱性氨基酸比例从大到小进行排序,根据排序结果得到推荐的单可突变位点。
作为优选,步骤S33中,根据排序结果取前50个氨基酸位点作为推荐的单可突变位点。
作为优选,步骤S33中,根据排序结果取占CRISPR-Cas酶的氨基酸序列长度的10%~15%的氨基酸位点作为推荐的单可突变位点。
作为优选,步骤S4具体包括如下子步骤:
S41、获取CRISPR-Cas酶的空间结构的三维结构;
S42、获取CRISPR-Cas酶中每个氨基酸的中心碳原子在三维结构中的坐标;
S43、计算单可突变位点两两之间的欧式距离;
S44、根据距离从大到小进行排序,并根据排序结果得到推荐的双可突变位点。
作为优选,步骤S44中,根据排序结果取前30个氨基酸位点作为推荐的双可突变位点。
作为优选,步骤S44中,根据排序结果取前60%的数量作为推荐的双可突变位点。
作为优选,步骤S5具体包括如下子步骤:
S51、获取CRISPR-Cas酶的空间结构的三维结构;
S52、获取双可突变位点的中心碳原子在三维结构中的坐标以及在氨基酸序列的位置作为聚类特征;
S53、以双可突变位点数量除以3作为K值,进行K-means聚类;
S54、根据聚类结果,筛选包含两个或以上双可突变位点的分类,作为推荐的多可突变位点。
本申请还公开了一种CRISPR-Cas酶可突变位点推荐装置,包括如包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于上述的一种CRISPR-Cas酶可突变位点推荐方法。
本申请还公开了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述的一种CRISPR-Cas酶可突变位点推荐方法。
本发明的有益效果:
本发明一种CRISPR-Cas酶可突变位点推荐方法,通过该方法使得找到突变位点的时间从以前的2个月缩短到1周;且使用推荐的突变位点对酶进行改造使酶活性提高46%以上。
本发明的特征及优点将通过实施例结合附图进行详细说明。
附图说明
图1是本发明一种CRISPR-Cas酶可突变位点推荐方法的流程示意图;
图2是本发明一种CRISPR-Cas酶可突变位点推荐装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参阅图1,本发明实施例提供一种CRISPR-Cas酶可突变位点推荐方法,具体包括如下步骤:
S1、由CRISPR-Cas酶的氨基酸序列,查找CRISPR-Cas酶的同源序列;
S2、在步骤S1中得到的同源序列中去除不含CRISPR-Cas结构域的部分,得到筛选后的同源序列,并进行多序列比对;
S3、基于多序列比对结果计算单位点的碱性氨基酸比例;并根据碱性氨基酸比例大小进行排序,根据排序结果得到若干个单可突变位点;
S4、计算单可突变位点两两之间的空间距离;并根据空间距离的大小进行排序,根据排序结果得到若干个双可突变位点;
S5、根据双可突变位点的空间信息以及在氨基酸序列的位置信息进行空间距离聚类;筛选包含两个或以上双可突变位点的分类,作为推荐的多可突变位点。
在一种可行的实施例中,步骤S3具体包括如下子步骤:
S31、基于多序列比对的结果,统计CRISPR-Cas酶每个氨基酸位置上在筛选后的同源序列集合中酸性氨基酸、碱性氨基酸、中性氨基酸的数量;
S32、计算CRISPR-Cas酶每个氨基酸位置上在筛选后的同源序列集合中碱性氨基酸的比例;
S33、按照碱性氨基酸比例从大到小进行排序,根据排序结果得到推荐的单可突变位点。
步骤S33中,根据排序结果取前50个氨基酸位点作为推荐的单可突变位点。
在一种可行的实施例中,步骤S33中,根据排序结果取占CRISPR-Cas酶的氨基酸序列长度的10%~15%的氨基酸位点作为推荐的单可突变位点。
在一种可行的实施例中,步骤S4具体包括如下子步骤:
S41、获取CRISPR-Cas酶的空间结构的三维结构;
S42、获取CRISPR-Cas酶中每个氨基酸的中心碳原子在三维结构中的坐标;
S43、计算单可突变位点两两之间的欧式距离;
S44、根据距离从大到小进行排序,并根据排序结果得到推荐的双可突变位点。
在一种可行的实施例中,步骤S44中,根据排序结果取前30个氨基酸位点作为推荐的双可突变位点。
在一种可行的实施例中,步骤S44中,根据排序结果取前60%的数量作为推荐的双可突变位点。
在一种可行的实施例中,步骤S5具体包括如下子步骤:
S51、获取CRISPR-Cas酶的空间结构的三维结构;
S52、获取双可突变位点的中心碳原子在三维结构中的坐标以及在氨基酸序列的位置作为聚类特征;
S53、以双可突变位点数量除以3作为K值,进行K-means聚类;
S54、根据聚类结果,筛选包含两个或以上双可突变位点的分类,作为推荐的多可突变位点。
实施例:
步骤一:由CRISPR-Cas酶的氨基酸序列,查找CRISPR-Cas酶的同源序列
本实施列中使用blastp查找同源序列;
软件地址:
https://blast.ncbi.nlm.nih.gov/Blast.cgiPROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome;
参数设置:Max target sequences = 5000;Word size = 2;其他参数保持默认;
在步骤S2中得到的同源序列中去除不含CRISPR-Cas结构域的部分,并进行多序列比对;
本实施列中过滤同源序列:
遍历第一步的结果确保每个同源序列的Region区域必须包含1个或以上特征性结构域,如RuvC、HNH、REC、HEPN等。
查找同源序列Region信息地址为:
https://www.ncbi.nlm.nih.gov/protein/DAH22471;
本实施了中使用对使用软件MAFFT对筛选获得的同源蛋白序列进行多序列比对;
步骤三:基于多序列比对结果分别计算1)单位点碱性氨基酸比例、2)双位点空间距离及3)多位点空间距离,用以预测、排序和推荐目标蛋白的可突变位点。
(1)推荐单可突变位点
方法:将氨基酸划分为3类,即酸性(包含天冬氨酸、谷氨酸);碱性(包含组氨酸、精氨酸、赖氨酸);中性(除了酸性及碱性氨基酸以外的氨基酸)。基于多序列比对的结果,计算目标蛋白每个氨基酸位置上在对齐的同源蛋白集合中碱性氨基酸比例(即碱性氨基酸与碱性氨基酸、酸性氨基酸及中性氨基酸之和的比值),然后按碱性氨基酸比例从大到小排序取前50个氨基酸位点或占目标蛋白序列长度10%~15%的氨基酸位点,作为推荐的单可突变位点,如下表一所示:
表一
Figure 225949DEST_PATH_IMAGE001
(2)推荐推荐双可突变位点:
序列三维结构来源:Alphafold2预测,预测结果是该序列的三维结构文件(扩
展名是pdb),如下表二;
表二
Figure 674247DEST_PATH_IMAGE002
忽略其他原子只保留中心碳原子,用碳原子的三维坐标代表该氨基酸在三维结构中的坐标,计算(1)获得的单可突变位点两两之间的欧式距离:
Figure 860509DEST_PATH_IMAGE003
其中x,y,z表示中心碳原子的三维坐标;
按照距离从小到大排序前30或单可变位点的前60%,作为推荐的双可突变位点,如下表三:
表三
Figure 786877DEST_PATH_IMAGE004
(3)推荐多可突变位点:
双可突变位点的空间坐标信息结合位点在氨基酸序列的位置进行空间距离聚类。
空间聚类使用K-means
1、K值的确定公式:k = 向下取整(候选位点总数/3)+ 1;
2、选用Kmeans++初始化聚类的质心(聚类的簇中所有点的中心);
a、从输入的数据点集合中随机选择一个点作为第一个聚类的质心;
b、对于数据集中的每一个点x,计算它与已选择的最近的质心的距离D(x);
c、使用加权概率分布随机选择一个新数据点作为新的质心,其中选择点 x 的概率P(x) 与 D(x)2 成正比 :
Figure 761436DEST_PATH_IMAGE005
;其中
Figure 115057DEST_PATH_IMAGE006
表示所有的点到质心的距离平方和
d、重复(b), (c)直到获得k个质心;得到m1,m2,…, mk
3、对于每个数据x(i)计算其应该属于的类
Figure 788615DEST_PATH_IMAGE007
arg min即argument of the minimum,指函数达到最小值的一组参数值,c(i)代表数据x(i)与k个类中距离最近的那个类,c(i)的值是1到k中的一个。质心mj代表我们对属于同一个类的样本中心点的猜测。
4、对于每一个类,重新计算该类的质心,即该类所有点的均值:
Figure 518673DEST_PATH_IMAGE008
,其中{c(i)=j}表示在第j个聚类中
对以上流程3、4反复迭代,直到最大迭代次数超过300次,或对于每个数据到其聚类质心的距离平方和
Figure 921973DEST_PATH_IMAGE009
,该次迭代的J相比上次迭代的J差值小于0.0001。
聚类结果为:
第一组:18、43
第二组:149、167
第三组:232、257、266、281
第四组:93、102、107
第五组:384、386、414
第六组:452、456、469
最后,湿实验验证推荐可突变位点的活性。
湿实验验证单位点突变体活性如下:
Figure DEST_PATH_IMAGE010
(WT代表野生蛋白酶;T18R代表将蛋白酶的第18位从氨基酸T突变为氨基酸R;14.31等数值代表活性的荧光读数);
湿实验验证多位点突变体活性如下:
Figure 571129DEST_PATH_IMAGE011
(双位点突变体活性)
Figure DEST_PATH_IMAGE012
(多位点突变体活性)
以含有495个氨基酸的cas9蛋白酶为例:
在实验流程上,传统的基于定向进化查找突变位点至少需要3轮湿实验来找到最终突变体,3轮湿实验也即第一轮引入随机突变找到活性增强的单突变位点,第二轮组合活性增强的单突变位点找到活性增强的双突变位点,第三轮组合活性增强的双突变位点找到多突变位点;本方法却只需要两轮湿实验,也即对50个位点进行湿实验找到活性增强的单位点,通过算法推荐双突变位点及多突变位点,对这些组合进行湿实验即可找到最终突变体。
在实验数量上,传统方法找到活性增强的单突变体至少要做495个位点的湿实验,而本方法仅需50个位点即可找到。找到活性增强的多突变体传统方法难以穷尽位点组合而本方法仅需要做37组湿实验。
假设50个位点的湿实验需要3天,使用本方法我们用时7天。而传统方法找单突变位点至少24天找双突变位点至少12天找多突变位点至少6天共计42天;
通过上述中的突变体与野生蛋白酶比值可知,使用推荐的突变位点对酶进行改造使酶活性最大提高46%以上。
本发明一种CRISPR-Cas酶可突变位点推荐装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图2所示,为本发明一种CRISPR-Cas酶可突变位点推荐装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种CRISPR-Cas酶可突变位点推荐装置。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种CRISPR-Cas酶可突变位点推荐方法,其特征在于,具体包括如下步骤:
S1、由CRISPR-Cas酶的氨基酸序列,查找CRISPR-Cas酶的同源序列;
S2、在步骤S1中得到的同源序列中去除不含CRISPR-Cas结构域的部分,得到筛选后的同源序列,并进行多序列比对;
S3、基于多序列比对结果计算单位点的碱性氨基酸比例;并根据碱性氨基酸比例大小进行排序,根据排序结果得到若干个单可突变位点;
S4、计算单可突变位点两两之间的空间距离;并根据空间距离的大小进行排序,根据排序结果得到若干个双可突变位点;
S5、根据双可突变位点的空间信息以及在氨基酸序列的位置信息进行空间距离聚类;筛选包含两个或以上双可突变位点的分类,作为推荐的多可突变位点。
2.如权利要求1所述的一种CRISPR-Cas酶可突变位点推荐方法,其特征在于,步骤S3具体包括如下子步骤:
S31、基于多序列比对的结果,统计CRISPR-Cas酶每个氨基酸位置上在筛选后的同源序列集合中酸性氨基酸、碱性氨基酸、中性氨基酸的数量;
S32、计算CRISPR-Cas酶每个氨基酸位置上在筛选后的同源序列集合中碱性氨基酸的比例;
S33、按照碱性氨基酸比例从大到小进行排序,根据排序结果得到推荐的单可突变位点。
3.如权利要求2所述的一种CRISPR-Cas酶可突变位点推荐方法,其特征在于:步骤S33中,根据排序结果取前50个氨基酸位点作为推荐的单可突变位点。
4.如权利要求2所述的一种CRISPR-Cas酶可突变位点推荐方法,其特征在于:步骤S33中,根据排序结果取占CRISPR-Cas酶的氨基酸序列长度的10%~15%的氨基酸位点作为推荐的单可突变位点。
5.如权利要求1所述的一种CRISPR-Cas酶可突变位点推荐方法,其特征在于,步骤S4具体包括如下子步骤:
S41、获取CRISPR-Cas酶的空间结构的三维结构;
S42、获取CRISPR-Cas酶中每个氨基酸的中心碳原子在三维结构中的坐标;
S43、计算单可突变位点两两之间的欧式距离;
S44、根据距离从大到小进行排序,并根据排序结果得到推荐的双可突变位点。
6.如权利要求5所述的一种CRISPR-Cas酶可突变位点推荐方法,其特征在于:步骤S44中,根据排序结果取前30个氨基酸位点作为推荐的双可突变位点。
7.如权利要求5所述的一种CRISPR-Cas酶可突变位点推荐方法,其特征在于:步骤S44中,根据排序结果取前60%的数量作为推荐的双可突变位点。
8.如权利要求1所述的一种CRISPR-Cas酶可突变位点推荐方法,其特征在于,步骤S5具体包括如下子步骤:
S51、获取CRISPR-Cas酶的空间结构的三维结构;
S52、获取双可突变位点的中心碳原子在三维结构中的坐标以及在氨基酸序列的位置作为聚类特征;
S53、以双可突变位点数量除以3作为K值,进行K-means聚类;
S54、根据聚类结果,筛选包含两个或以上双可突变位点的分类,作为推荐的多可突变位点。
9.一种CRISPR-Cas酶可突变位点推荐装置,其特征在于:包括如包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-8任一项所述的一种CRISPR-Cas酶可突变位点推荐方法。
10.一种计算机可读存储介质,其特征在于:其上存储有程序,该程序被处理器执行时,实现权利要求1-8任一项所述的一种CRISPR-Cas酶可突变位点推荐方法。
CN202211245583.5A 2022-10-12 2022-10-12 一种CRISPR-Cas酶可突变位点推荐方法和装置 Active CN115312122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211245583.5A CN115312122B (zh) 2022-10-12 2022-10-12 一种CRISPR-Cas酶可突变位点推荐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211245583.5A CN115312122B (zh) 2022-10-12 2022-10-12 一种CRISPR-Cas酶可突变位点推荐方法和装置

Publications (2)

Publication Number Publication Date
CN115312122A CN115312122A (zh) 2022-11-08
CN115312122B true CN115312122B (zh) 2022-12-16

Family

ID=83867809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211245583.5A Active CN115312122B (zh) 2022-10-12 2022-10-12 一种CRISPR-Cas酶可突变位点推荐方法和装置

Country Status (1)

Country Link
CN (1) CN115312122B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111139259A (zh) * 2020-01-18 2020-05-12 潍坊医学院 一种提高基因编辑中同源重组效率的方法
CN111849932A (zh) * 2020-06-28 2020-10-30 天津大学 八氢番茄红素脱氢酶突变体及其应用
CN113284562A (zh) * 2021-06-07 2021-08-20 中国农业科学院农业基因组研究所 一种酶的改良方法
CN113593639A (zh) * 2021-08-05 2021-11-02 湖南大学 一种用于病毒基因组变异分析、监测方法和系统
CN113628683A (zh) * 2021-08-24 2021-11-09 慧算医疗科技(上海)有限公司 一种高通量测序突变检测方法、设备、装置及可读存储介质
CN114882949A (zh) * 2022-06-29 2022-08-09 华中农业大学 基于氨基酸序列比对的蛋白家族系统发育分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020014577A1 (en) * 2018-07-13 2020-01-16 Allele Biotechnology And Pharmaceuticals, Inc. Methods of achieving high specificity of genome editing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111139259A (zh) * 2020-01-18 2020-05-12 潍坊医学院 一种提高基因编辑中同源重组效率的方法
CN111849932A (zh) * 2020-06-28 2020-10-30 天津大学 八氢番茄红素脱氢酶突变体及其应用
CN113284562A (zh) * 2021-06-07 2021-08-20 中国农业科学院农业基因组研究所 一种酶的改良方法
CN113593639A (zh) * 2021-08-05 2021-11-02 湖南大学 一种用于病毒基因组变异分析、监测方法和系统
CN113628683A (zh) * 2021-08-24 2021-11-09 慧算医疗科技(上海)有限公司 一种高通量测序突变检测方法、设备、装置及可读存储介质
CN114882949A (zh) * 2022-06-29 2022-08-09 华中农业大学 基于氨基酸序列比对的蛋白家族系统发育分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Prediction of Enzyme Catalytic Sites from Sequence Using Neural Networks》;Swati Pande等;《2007 IEEE Symposium on Computational Intelligence and Bioinformatics and Computational Biology》;20071231;第1-2页 *
《脂肪酶活性中心区域进化提高酶动力学稳定性和催化活性》;谢渊;《中国博士学位全文数据库》;20141015(第10期);第1-147页 *
《香菇基因组中L-半胱氨酸亚砜裂解酶同源蛋白的生物信息学分析》;王莹等;《菌物学报》;20181231;第37卷(第12期);第1608-1619页 *

Also Published As

Publication number Publication date
CN115312122A (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
Ronen et al. netSmooth: Network-smoothing based imputation for single cell RNA-seq
Mitra et al. Multi-objective evolutionary biclustering of gene expression data
Ibragimov et al. Gedevo: an evolutionary graph edit distance algorithm for biological network alignment
Cabreros et al. Detecting community structures in hi-c genomic data
Gori et al. Clustering genes of common evolutionary history
Hao et al. SOMDE: a scalable method for identifying spatially variable genes with self-organizing map
CN105849555B (zh) 用于错误校正的序列读数迭代聚类
Yu et al. Incorporating nonlinear relationships in microarray missing value imputation
Sheng et al. A differential evolution with adaptive neighborhood mutation and local search for multi-modal optimization
CN115312122B (zh) 一种CRISPR-Cas酶可突变位点推荐方法和装置
Banka et al. Evolutionary biclustering of gene expressions
Liu et al. Characteristic gene selection via weighting principal components by singular values
Le et al. Multi-task regression learning for prediction of response against a panel of anti-cancer drugs in personalized medicine
Zheng et al. Identifying individual-specific microbial DNA fingerprints from skin microbiomes
Sheng et al. A niching genetic k-means algorithm and its applications to gene expression data
CN115331754A (zh) 基于哈希算法的分子分类方法
Lall et al. Generating realistic cell samples for gene selection in scRNA-seq data: A novel generative framework
Muzio et al. networkGWAS: a network-based approach to discover genetic associations
Liu et al. Isocell: An approach to enhance single cell clustering by integrating isoform-level expression through orthogonal projection
Ding et al. A genetic algorithm for clustering on image data
Peng et al. Detecting the Maximum Similarity Bi-Clusters of Gene Expression Data with Evolutionary Computation
Li et al. A comparative study for identifying the chromosome-wide spatial clusters from high-throughput chromatin conformation capture data
Das et al. Evolutionary biclustering with correlation for gene interaction networks
Czekaj et al. Classification of genomic data: Some aspects of feature selection
EP2653991B1 (en) Prediction of horizontally transferred gene

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant