CN113990394B

CN113990394B - 向导rna作用靶点的筛选方法、计算机存储介质及电子设备

Info

Publication number: CN113990394B
Application number: CN202111257801.2A
Authority: CN
Inventors: 胡杨俊; 韩永红; 许晓静
Original assignee: Yunzhou Biotechnology Guangzhou Co ltd
Current assignee: Yunzhou Biotechnology Guangzhou Co ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2023-01-24
Anticipated expiration: 2041-10-27
Also published as: CN113990394A

Abstract

本发明提供了一种向导RNA作用靶点的筛选方法、计算机存储介质及电子设备，方法包括以下步骤：S1、从基因序列库中获取PAM序列；S2、将PAM序列的NGG以及PAM序列的前n个碱基取出，生成向导RNA；S3、将向导RNA与基因序列库比对，判断向导RNA的基因在基因序列库中的位置；S4、获取向导RNA中每个基因上游的m个碱基，以及对应基因的碱基区域的向导RNA，在含有基因的向导RNA进行打靶，剔除没有基因的向导RNA；S5、剔除含有连续a个T的向导RNA；S6、剔除没有在转录本外显子上的向导RNA；S7、获取未被剔除的向导RNA，筛选含有设定前缀的转录本的向导RNA；S8、获取步骤S7得到的向导RNA的基因，形成具有设定前缀的转录本序列；S9、截取转录本序列中预定长度的序列。

Description

向导RNA作用靶点的筛选方法、计算机存储介质及电子设备

技术领域

本发明涉及基因编辑领域，更具体地，涉及一种向导RNA作用靶点的筛选方法、计算机存储介质及电子设备。

背景技术

随着DNA测序技术的发展，众多生物的基因组序列信息已被公布，随后科研人员把转向对基因功能信息挖掘作为研究重点。基因敲除动物模型一直以来是在活体动物上从事基因功能研究、寻找合适药物作用靶点的重要工具。但是传统的基因敲除方法需要通过复杂的打靶载体构建、胚胎干细胞(ES细胞)的筛选、嵌合体繁育等一系列步骤，不仅操作流程繁琐，对实验人员的技术要求很高，而且成本高，耗时长，效率低。

例如，现有工具Cas-Designer所存在的缺陷为：需要一个基因一个基因的处理，耗时长，更不尽人意的是，基因必须根据NCBI数据库获取基因组序列，然后判断序列长度，小于或者等于1kb才可以进行筛选。假如序列的长度5kb，需要分5次进行筛选，该序列假如进行第二次筛选，也同样需要分成5次，比较繁琐，耗时长。

发明内容

为解决上述技术问题，一方面，本发明提供一种向导RNA作用靶点的筛选方法。

根据本发明实施例的向导RNA作用靶点的筛选方法，包括以下步骤：

S1、从基因序列库中获取PAM序列；

S2、将所述PAM序列的NGG以及所述PAM序列的前n个碱基取出，生成向导RNA，其中n为自然数；

S3、将所述向导RNA与所述基因序列库比对，判断所述向导RNA的基因在所述基因序列库中的位置；

S4、获取所述向导RNA中每个基因上游的m个碱基，以及对应基因的碱基区域的所述向导RNA，在含有基因的所述向导RNA进行打靶，剔除没有基因的所述向导RNA；

S5、剔除含有连续a个T的所述向导RNA；

S6、剔除没有在转录本外显子上的所述向导RNA；

S7、获取未被剔除的所述向导RNA，筛选含有设定前缀的转录本的所述向导RNA；

S8、获取步骤S7得到的所述向导RNA的基因，并将外显子组合，形成具有所述设定前缀的转录本序列；

S9、截取所述转录本序列中预定长度的序列。

根据本发明实施例的向导RNA作用靶点的筛选方法，筛选方法更严谨，能够得到更有价值的序列库。根据基因ID可以批量筛选作用靶点，质量更高，速度快，客户使用更方便。

根据本发明的一些实施例，所述基因序列库为NCBI，所述PAM序列为所述基因库序列中的序列正链和序列负链。

根据本发明的一些实施例，n＝20，m＝20。

根据本发明的一些实施例，步骤S4包括：将有打靶的位置按照顺序生成唯一的ID号，最终生成没有筛选的向导RNA背景库。

根据本发明的一些实施例，a≥4。

根据本发明的一些实施例，步骤S7包括：给每个所述向导RNA赋值，同时增加靶转录本SNP标识，生成数据库。

根据本发明的一些实施例，给每个所述向导RNA赋值的方法为：

所述向导RNA的序列中GC含量与分值成反比；

所述向导RNA的序列中连续碱基数量与分值成反比；

所述向导RNA的脱靶率与分值成反比。

根据本发明的一些实施例，步骤S9中，截取所述转录本序列中10％-65％之间的序列长度。

第二方面，本发明实施例提供一种计算机存储介质，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如上述实施例所述的方法。

根据本发明第三方面实施例的电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令；所述处理器用于调用并执行所述一条或多条计算机指令，从而实现如上述任一实施例所述的方法。

附图说明

图1为本发明实施例的向导RNA作用靶点的筛选方法的流程图；

图2为本发明实施例的电子设备的示意图。

附图标记：

电子设备100；

存储器110；操作系统111；应用程序112；

处理器120；网络接口130；输入设备140；硬盘150；显示设备160。

具体实施方式

下面将结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

下面首先对本申请中涉及的相关名词进行解释说明。

脱氧核糖核酸(DNA)：生物细胞内含有的四种生物大分子之一核酸的一种。DNA携带有合成RNA和蛋白质所必需的遗传信息，是生物体发育和正常运作必不可少的生物大分子。

gRNA：向导RNA。

正链：与RNA序列相同的DNA单链。

负链：通常把单链DNA(或RNA)遗传物质的互补链称为负链，模板本身为负链。

PAM序列：NGG。

基因：是产生一条多肽链或功能RNA所需的全部核苷酸序列。基因支持着生命的基本构造和性能。储存着生命的种族、血型、孕育、生长、凋亡等过程的全部信息。环境和遗传的互相依赖，演绎着生命的繁衍、细胞分裂和蛋白质合成等重要生理过程。

内含子：又称间隔顺序，指一个基因或mRNA分子中无编码作用的片段。

外含子：断裂基因中的编码序列。

转录本：由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA。

Transcript Coverage：靶转录本。

Guide Score：分值。

NCBI:现有的基因序列库。

SNP(单核苷酸多态性):主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。

基因(遗传因子)：产生一条多肽链或功能RNA所需的全部核苷酸序列。

下面首先结合附图具体描述根据本发明实施例的向导RNA作用靶点的筛选方法。

如图1所示，根据本发明实施例的向导RNA作用靶点的筛选方法包括以下步骤：

S1、从基因序列库中获取PAM序列；

S2、将所述PAM序列的NGG以及所述PAM序列的前n个碱基取出，生成向导RNA(gRNA)，其中n为自然数；

S5、剔除含有连续a个T的所述向导RNA；

S6、剔除没有在转录本外显子上的所述向导RNA；

S9、截取所述转录本序列中预定长度的序列。

换言之，根据本发明实施例的向导RNA作用靶点的筛选方法，作用靶点的筛选出来的库，可以用于网站载体系统gRNA元件的搜索，根据基因ID搜索得到的批量的gRNA序列，客户可以在搜索得到的gRNA序列中选择满足自己需求的序列插入gRNA元件中，构建所需的载体。其中，设定前缀可以是NM和NR前缀。

由此，根据本发明实施例的向导RNA作用靶点的筛选方法，通过设置更多的筛选条件，筛选方法更严谨，能够得到更有价值的序列库。根据基因ID可以批量筛选作用靶点，质量更高，速度快，客户使用更方便。

根据本发明的一个实施例，所述基因序列库为NCBI，所述PAM序列为所述基因库序列中的序列正链和序列负链。其中，n＝20。

也就是说，筛选作用靶点之前，首先需要生成向导RNA，其生成过程为：取NCBI库的基因组序列正链和负链序列，将PAM序列NGG以及PAM序列前20个碱基取出，生成gRNA。

在本发明的一些具体实施方式中，步骤S4包括：将有打靶的位置按照顺序生成唯一的ID号，最终生成没有筛选的向导RNA背景库。其中，m＝20。

具体地，通过上述步骤得到的gRNA和NCBI库里面比对判断出基因位置，然后获取gRNA序列中每个基因上游的20个碱基以及该基因的碱基区域这一段gRNA，在含基因的gRNA序列进行打靶，没有基因的gRNA序列忽略。其中，有打靶的位置按顺序生成唯一的ID号，gRNA ID的格式为基因名称+gRNA+序号(例如：hRHO[gRNA#422])；最终生成没有任何筛选，穷尽所有可能的gRNA背景库。

接着，根据上述步骤得到的向导RNA序列，进一步筛选掉不符合以下条件的向导RNA：

第一，移除含连续4个T及以上的gRNA序列；

第二，没有在转录本外显子上的gRNA序列。

根据本发明的一个实施例，在进一步筛选掉不符合条件的向导RNA之后，在步骤S7中还包括：给每个所述向导RNA赋值，同时增加靶转录本SNP标识，生成数据库。

具体地，给每个所述向导RNA赋值的方法为：

所述向导RNA的序列中GC含量与分值成反比；

所述向导RNA的序列中连续碱基数量与分值成反比；

所述向导RNA的脱靶率与分值成反比。

换句话说，根据上述步骤获取的gRNA序列，给每条gRNA序列一个分值(GuideScore)。分值综合以下条件：序列GC含量越高，分值越低；连续碱基越多，分值越低；脱靶率越高，分值越低等。同时增加Transcript Coverage和SNP标识，生成最终的数据库；

分值的作用：综合上述条件得出每个gRNA的一个分值，该分值会存储在数据库中。用户在网站搜索gRNA ID，分值越高，就排序表格的最前面，供客户选择。

其中，Transcript Coverage表示靶转录本，表示打靶多少转录本，根据打靶转录本的数量在对应的gRNA序列打上标识。

SNP表示实验的基因根据NCBI库来比对，判断有没有SNP，有就在对应的gRNA序列打上标识，因为这可能影响打靶效果。

上述步骤最终得到的gRNA序列的转录本有以下类型：NM、XM、NR、XR以及其他(NM、XM、NR、XR是现有NCBI库的转录本公开的前缀标识)；筛选含NM和NR前缀的转录本的gRNA序列。

最后，根据筛选得到的gRNA，获取出里面的基因，将基因里面的外显子组合，形成NM或者NR前缀的转录本，截取该转录本序列中10％到65％之间的序列长度。

总而言之，根据本发明实施例的向导RNA作用靶点的筛选方法，筛选方法更严谨，能够得到更有价值的序列库，根据基因ID可以批量筛选作用靶点，质量更高，速度快，客户使用更方便。

另外，本发明实施例还提供了一种计算机存储介质，所述计算机存储介质包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现上述任一所述的方法。

也就是说，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器运行时，使得所述处理器执行上述任一所述的方法。

如图2所示，本发明实施例提供了一种电子设备100，包括存储器110和处理器120，所述存储器110用于存储一条或多条计算机指令，所述处理器120用于调用并执行所述一条或多条计算机指令，从而实现上述任一所述的方法。

也就是说，电子设备100包括：处理器120和存储器110，在所述存储器110中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器120执行上述任一所述的方法。

进一步地，如图2所示，电子设备100还包括网络接口130、输入设备140、硬盘150、和显示设备160。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器120代表的一个或者多个中央处理器(CPU)，以及由存储器110代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口130，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，并可以保存在硬盘150中。

所述输入设备140，可以接收操作人员输入的各种指令，并发送给处理器120以供执行。所述输入设备140可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备160，可以将处理器120执行指令获得的结果进行显示。

所述存储器310，用于存储操作系统运行所必须的程序和数据，以及处理器120计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器110可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器110旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器110存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统111和应用程序112。

其中，操作系统111，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序112，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序112中。

上述处理器120，当调用并执行所述存储器110中所存储的应用程序和数据，具体的，可以是应用程序112中存储的程序或指令时，将第一集合和第二集合中的一者分散发送至所述第一集合和第二集合中的另一者所分布的节点，其中，所述另一者分散存储于至少两个节点；并根据所述第一集合的节点分布和所述第二集合的节点分布，分节点地进行交集处理。

本发明上述实施例揭示的方法可以应用于处理器120中，或者由处理器120实现。处理器120可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器120中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器120可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器110，处理器120读取存储器110中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，处理器120还用于读取所述计算机程序，执行上述任一所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种向导RNA作用靶点的筛选方法，其特征在于，包括以下步骤：

S1、从基因序列库中获取PAM序列；

S4、获取所述向导RNA中每个基因上游的m个碱基，以及对应基因的碱基区域的所述向导RNA，在含有基因的所述向导RNA进行打靶，剔除没有基因的所述向导RNA，其中m为自然数；

S5、剔除含有连续a个T的所述向导RNA，其中a为自然数；

S6、剔除没有在转录本外显子上的所述向导RNA；

S7、获取未被剔除的所述向导RNA，筛选含有设定前缀的转录本的所述向导RNA，筛选含NM和NR前缀的转录本的gRNA序列，前缀包括NCBI库的转录本公开的前缀标识NM、XM、NR、XR；

S9、截取所述转录本序列中预定长度的序列，

其中，步骤S7包括：给每个所述向导RNA赋值，同时增加靶转录本SNP标识，生成数据库，给每个所述向导RNA赋值的方法为：

所述向导RNA的序列中GC含量与分值成反比；

所述向导RNA的序列中连续碱基数量与分值成反比；

所述向导RNA的脱靶率与分值成反比。

2.根据权利要求1所述的方法，其特征在于，所述基因序列库为NCBI，所述PAM序列为所述基因库序列中的序列正链和序列负链。

3.根据权利要求1所述的方法，其特征在于，n=20，m=20。

4.根据权利要求1所述的方法，其特征在于，步骤S4包括：将有打靶的位置按照顺序生成唯一的ID号，最终生成没有筛选的向导RNA背景库。

5.根据权利要求1所述的方法，其特征在于，a≥4。

6.根据权利要求1所述的方法，其特征在于，步骤S9中，截取所述转录本序列中10%-65%之间的序列长度。

7.一种计算机存储介质，其特征在于，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如权利要求1-6中任一项所述的方法。

8.一种电子设备，包括存储器和处理器，其特征在于，

所述存储器用于存储一条或多条计算机指令；

所述处理器用于调用并执行所述一条或多条计算机指令，从而实现如权利要求1-6中任一项所述的方法。