CN115312122B

CN115312122B - 一种CRISPR-Cas酶可突变位点推荐方法和装置

Info

Publication number: CN115312122B
Application number: CN202211245583.5A
Authority: CN
Inventors: 李文慧; 李占卫; 李永前; 崔斌; 郑飞; 唐进; 王无可
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2022-12-16
Anticipated expiration: 2042-10-12
Also published as: CN115312122A

Abstract

本发明公开了一种CRISPR‑Cas酶可突变位点推荐方法和装置，该方法分三个层次推荐蛋白突变位点：1）基于蛋白质碱性氨基酸比例推荐单突变位点；2）基于蛋白3D结构空间距离推荐双突变位点；3）基于空间距离聚类推荐多突变位点。本发明在蛋白质序列同源比对的基础上，利用同源蛋白的碱性氨基酸比例、蛋白质3D结构空间距离等信息预测、排序、推荐可突变位点，相较于传统的定向进化技术实现了可突变位点的高效筛选，降低了寻找可突变位点的湿实验成本，其实现方法简单灵活、使用推荐的位点进行突变得到的Cas酶活性显著增强。这些优势使得基于本发明的CRISPR‑Cas酶活性增强工具在基因功能研究、致病位点修复等多种领域具有较高的应用价值。

Description

一种CRISPR-Cas酶可突变位点推荐方法和装置

技术领域

本发明涉及生物信息技术领域，特别涉及一种CRISPR-Cas酶可突变位点推荐方法和装置。

背景技术

酶是由活细胞产生的通过加速化学反应作为生物催化剂的一类蛋白质。细胞中几乎所有的新陈代谢过程都需要酶促反应，才能以足够快的速度维持生命。像所有的催化剂一样，酶通过降低活化能来提高反应速率。有些酶能使底物向产物的转化速度提高数百万倍，而有些酶的活性却不高，因此酶的改造就显得尤为重要。

目前蛋白酶的改造主要通过定向进化技术实现，也即在试管中模拟达尔文进化过程。通过随机突变，人为制造大量的突变，按照特定的需要和目的给与选择压力，筛选出具有期望特征的蛋白酶，实现分子水平的模拟。定向进化技术不但会耗费大量的人力、物力、财力而且难以完成对序列空间的全面搜索。

发明内容

本发明的目的在于提供一种CRISPR-Cas酶可突变位点推荐方法，以克服现有技术中的不足。

为实现上述目的，本发明提供如下技术方案：

本申请公开了一种CRISPR-Cas酶可突变位点推荐方法，具体包括如下步骤：

S1、由CRISPR-Cas酶的氨基酸序列，查找CRISPR-Cas酶的同源序列；

S2、在步骤S1中得到的同源序列中去除不含CRISPR-Cas结构域的部分，得到筛选后的同源序列，并进行多序列比对；

S3、基于多序列比对结果计算单位点的碱性氨基酸比例；并根据碱性氨基酸比例大小进行排序，根据排序结果得到若干个单可突变位点；

S4、计算单可突变位点两两之间的空间距离；并根据空间距离的大小进行排序，根据排序结果得到若干个双可突变位点；

S5、根据双可突变位点的空间信息以及在氨基酸序列的位置信息进行空间距离聚类；筛选包含两个或以上双可突变位点的分类，作为推荐的多可突变位点。

作为优选，步骤S3具体包括如下子步骤：

S31、基于多序列比对的结果，统计CRISPR-Cas酶每个氨基酸位置上在筛选后的同源序列集合中酸性氨基酸、碱性氨基酸、中性氨基酸的数量；

S32、计算CRISPR-Cas酶每个氨基酸位置上在筛选后的同源序列集合中碱性氨基酸的比例；

S33、按照碱性氨基酸比例从大到小进行排序，根据排序结果得到推荐的单可突变位点。

作为优选，步骤S33中，根据排序结果取前50个氨基酸位点作为推荐的单可突变位点。

作为优选，步骤S33中，根据排序结果取占CRISPR-Cas酶的氨基酸序列长度的10%~15%的氨基酸位点作为推荐的单可突变位点。

作为优选，步骤S4具体包括如下子步骤：

S41、获取CRISPR-Cas酶的空间结构的三维结构；

S42、获取CRISPR-Cas酶中每个氨基酸的中心碳原子在三维结构中的坐标；

S43、计算单可突变位点两两之间的欧式距离；

S44、根据距离从大到小进行排序，并根据排序结果得到推荐的双可突变位点。

作为优选，步骤S44中，根据排序结果取前30个氨基酸位点作为推荐的双可突变位点。

作为优选，步骤S44中，根据排序结果取前60%的数量作为推荐的双可突变位点。

作为优选，步骤S5具体包括如下子步骤：

S51、获取CRISPR-Cas酶的空间结构的三维结构；

S52、获取双可突变位点的中心碳原子在三维结构中的坐标以及在氨基酸序列的位置作为聚类特征；

S53、以双可突变位点数量除以3作为K值，进行K-means聚类；

S54、根据聚类结果，筛选包含两个或以上双可突变位点的分类，作为推荐的多可突变位点。

本申请还公开了一种CRISPR-Cas酶可突变位点推荐装置，包括如包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于上述的一种CRISPR-Cas酶可突变位点推荐方法。

本申请还公开了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述的一种CRISPR-Cas酶可突变位点推荐方法。

本发明的有益效果：

本发明一种CRISPR-Cas酶可突变位点推荐方法，通过该方法使得找到突变位点的时间从以前的2个月缩短到1周；且使用推荐的突变位点对酶进行改造使酶活性提高46%以上。

本发明的特征及优点将通过实施例结合附图进行详细说明。

附图说明

图1是本发明一种CRISPR-Cas酶可突变位点推荐方法的流程示意图；

图2是本发明一种CRISPR-Cas酶可突变位点推荐装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

参阅图1，本发明实施例提供一种CRISPR-Cas酶可突变位点推荐方法，具体包括如下步骤：

S1、由CRISPR-Cas酶的氨基酸序列，查找CRISPR-Cas酶的同源序列；

在一种可行的实施例中，步骤S3具体包括如下子步骤：

步骤S33中，根据排序结果取前50个氨基酸位点作为推荐的单可突变位点。

在一种可行的实施例中，步骤S33中，根据排序结果取占CRISPR-Cas酶的氨基酸序列长度的10%~15%的氨基酸位点作为推荐的单可突变位点。

在一种可行的实施例中，步骤S4具体包括如下子步骤：

S41、获取CRISPR-Cas酶的空间结构的三维结构；

S43、计算单可突变位点两两之间的欧式距离；

在一种可行的实施例中，步骤S44中，根据排序结果取前30个氨基酸位点作为推荐的双可突变位点。

在一种可行的实施例中，步骤S44中，根据排序结果取前60%的数量作为推荐的双可突变位点。

在一种可行的实施例中，步骤S5具体包括如下子步骤：

S51、获取CRISPR-Cas酶的空间结构的三维结构；

S53、以双可突变位点数量除以3作为K值，进行K-means聚类；

实施例：

步骤一：由CRISPR-Cas酶的氨基酸序列，查找CRISPR-Cas酶的同源序列

本实施列中使用blastp查找同源序列；

软件地址：

https://blast.ncbi.nlm.nih.gov/Blast.cgiPROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome；

参数设置：Max target sequences = 5000；Word size = 2；其他参数保持默认；

在步骤S2中得到的同源序列中去除不含CRISPR-Cas结构域的部分，并进行多序列比对；

本实施列中过滤同源序列：

遍历第一步的结果确保每个同源序列的Region区域必须包含1个或以上特征性结构域，如RuvC、HNH、REC、HEPN等。

查找同源序列Region信息地址为：

https://www.ncbi.nlm.nih.gov/protein/DAH22471；

本实施了中使用对使用软件MAFFT对筛选获得的同源蛋白序列进行多序列比对；

步骤三：基于多序列比对结果分别计算1）单位点碱性氨基酸比例、2）双位点空间距离及3）多位点空间距离，用以预测、排序和推荐目标蛋白的可突变位点。

（1）推荐单可突变位点

方法：将氨基酸划分为3类，即酸性（包含天冬氨酸、谷氨酸）；碱性（包含组氨酸、精氨酸、赖氨酸）；中性（除了酸性及碱性氨基酸以外的氨基酸）。基于多序列比对的结果，计算目标蛋白每个氨基酸位置上在对齐的同源蛋白集合中碱性氨基酸比例（即碱性氨基酸与碱性氨基酸、酸性氨基酸及中性氨基酸之和的比值），然后按碱性氨基酸比例从大到小排序取前50个氨基酸位点或占目标蛋白序列长度10%～15%的氨基酸位点，作为推荐的单可突变位点，如下表一所示：

表一

（2）推荐推荐双可突变位点：

序列三维结构来源：Alphafold2预测，预测结果是该序列的三维结构文件（扩

展名是pdb），如下表二；

表二

忽略其他原子只保留中心碳原子，用碳原子的三维坐标代表该氨基酸在三维结构中的坐标，计算（1）获得的单可突变位点两两之间的欧式距离：

其中x，y，z表示中心碳原子的三维坐标；

按照距离从小到大排序前30或单可变位点的前60%，作为推荐的双可突变位点，如下表三：

表三

（3）推荐多可突变位点：

双可突变位点的空间坐标信息结合位点在氨基酸序列的位置进行空间距离聚类。

空间聚类使用K-means

1、K值的确定公式：k = 向下取整(候选位点总数/3）+ 1；

2、选用Kmeans++初始化聚类的质心（聚类的簇中所有点的中心）；

a、从输入的数据点集合中随机选择一个点作为第一个聚类的质心；

b、对于数据集中的每一个点x，计算它与已选择的最近的质心的距离D(x)；

c、使用加权概率分布随机选择一个新数据点作为新的质心，其中选择点 x 的概率P(x) 与 D(x)2 成正比：

；其中

表示所有的点到质心的距离平方和

d、重复(b), (c)直到获得k个质心；得到m₁，m₂,…, m_k；

3、对于每个数据x(i)计算其应该属于的类

；

arg min即argument of the minimum，指函数达到最小值的一组参数值，c⁽ⁱ⁾代表数据x⁽ⁱ⁾与k个类中距离最近的那个类，c⁽ⁱ⁾的值是1到k中的一个。质心m_j代表我们对属于同一个类的样本中心点的猜测。

4、对于每一个类，重新计算该类的质心，即该类所有点的均值：

，其中{c⁽ⁱ⁾=j}表示在第j个聚类中

对以上流程3、4反复迭代，直到最大迭代次数超过300次，或对于每个数据到其聚类质心的距离平方和

，该次迭代的J相比上次迭代的J差值小于0.0001。

聚类结果为：

第一组：18、43

第二组：149、167

第三组：232、257、266、281

第四组：93、102、107

第五组：384、386、414

第六组：452、456、469

最后，湿实验验证推荐可突变位点的活性。

湿实验验证单位点突变体活性如下：

（WT代表野生蛋白酶；T18R代表将蛋白酶的第18位从氨基酸T突变为氨基酸R；14.31等数值代表活性的荧光读数）；

湿实验验证多位点突变体活性如下：

（双位点突变体活性）

（多位点突变体活性）

以含有495个氨基酸的cas9蛋白酶为例：

在实验流程上，传统的基于定向进化查找突变位点至少需要3轮湿实验来找到最终突变体，3轮湿实验也即第一轮引入随机突变找到活性增强的单突变位点，第二轮组合活性增强的单突变位点找到活性增强的双突变位点，第三轮组合活性增强的双突变位点找到多突变位点；本方法却只需要两轮湿实验，也即对50个位点进行湿实验找到活性增强的单位点，通过算法推荐双突变位点及多突变位点，对这些组合进行湿实验即可找到最终突变体。

在实验数量上，传统方法找到活性增强的单突变体至少要做495个位点的湿实验，而本方法仅需50个位点即可找到。找到活性增强的多突变体传统方法难以穷尽位点组合而本方法仅需要做37组湿实验。

假设50个位点的湿实验需要3天，使用本方法我们用时7天。而传统方法找单突变位点至少24天找双突变位点至少12天找多突变位点至少6天共计42天；

通过上述中的突变体与野生蛋白酶比值可知，使用推荐的突变位点对酶进行改造使酶活性最大提高46%以上。

本发明一种CRISPR-Cas酶可突变位点推荐装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图2所示，为本发明一种CRISPR-Cas酶可突变位点推荐装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种CRISPR-Cas酶可突变位点推荐装置。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种CRISPR-Cas酶可突变位点推荐方法，其特征在于，具体包括如下步骤：

S1、由CRISPR-Cas酶的氨基酸序列，查找CRISPR-Cas酶的同源序列；

2.如权利要求1所述的一种CRISPR-Cas酶可突变位点推荐方法，其特征在于，步骤S3具体包括如下子步骤：

3.如权利要求2所述的一种CRISPR-Cas酶可突变位点推荐方法，其特征在于：步骤S33中，根据排序结果取前50个氨基酸位点作为推荐的单可突变位点。

4.如权利要求2所述的一种CRISPR-Cas酶可突变位点推荐方法，其特征在于：步骤S33中，根据排序结果取占CRISPR-Cas酶的氨基酸序列长度的10%~15%的氨基酸位点作为推荐的单可突变位点。

5.如权利要求1所述的一种CRISPR-Cas酶可突变位点推荐方法，其特征在于，步骤S4具体包括如下子步骤：

S41、获取CRISPR-Cas酶的空间结构的三维结构；

S43、计算单可突变位点两两之间的欧式距离；

6.如权利要求5所述的一种CRISPR-Cas酶可突变位点推荐方法，其特征在于：步骤S44中，根据排序结果取前30个氨基酸位点作为推荐的双可突变位点。

7.如权利要求5所述的一种CRISPR-Cas酶可突变位点推荐方法，其特征在于：步骤S44中，根据排序结果取前60%的数量作为推荐的双可突变位点。

8.如权利要求1所述的一种CRISPR-Cas酶可突变位点推荐方法，其特征在于，步骤S5具体包括如下子步骤：

S51、获取CRISPR-Cas酶的空间结构的三维结构；

S53、以双可突变位点数量除以3作为K值，进行K-means聚类；

9.一种CRISPR-Cas酶可突变位点推荐装置，其特征在于：包括如包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8任一项所述的一种CRISPR-Cas酶可突变位点推荐方法。

10.一种计算机可读存储介质，其特征在于：其上存储有程序，该程序被处理器执行时，实现权利要求1-8任一项所述的一种CRISPR-Cas酶可突变位点推荐方法。