CN104504304B - 一种成簇的规律间隔的短回文重复序列识别方法及装置 - Google Patents

一种成簇的规律间隔的短回文重复序列识别方法及装置 Download PDF

Info

Publication number
CN104504304B
CN104504304B CN201410614178.5A CN201410614178A CN104504304B CN 104504304 B CN104504304 B CN 104504304B CN 201410614178 A CN201410614178 A CN 201410614178A CN 104504304 B CN104504304 B CN 104504304B
Authority
CN
China
Prior art keywords
crispr
generation
generation crispr
sequence
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410614178.5A
Other languages
English (en)
Other versions
CN104504304A (zh
Inventor
周丰丰
葛瑞泉
麦国琴
王普
刘记奎
赵苗苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201410614178.5A priority Critical patent/CN104504304B/zh
Publication of CN104504304A publication Critical patent/CN104504304A/zh
Application granted granted Critical
Publication of CN104504304B publication Critical patent/CN104504304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种成簇的规律间隔的短回文重复序列识别方法,所述方法包括:根据源文件中的DR模板确定第一代CRISPR,将相邻第一代CRISPR之间的待定间隔序列中缺失的DR添加后确定第二代CRISPR,将第二代CRISPR中的SPACER的相似度低于预设阈值的CRISPR确定为第三代CRISPR,将两端携带有DR的第三代CRISPR确定为第四代CRISPR,本发明实施例可以减少误报或忽略截断的DR,提高CRISPR识别的准确性和全面性。

Description

一种成簇的规律间隔的短回文重复序列识别方法及装置
技术领域
本发明涉及基因序列识别技术领域,尤其涉及一种成簇的规律间隔的短回文重复序列识别方法。
背景技术
DNA是一种分子,可组成遗传指令,引导生物发育与生命机能运作;RNA是以DNA的一条链为模板,以碱基互补配对原则,转录而形成的一条单链,主要功能是实现遗传信息在蛋白质上的表达,是遗传信息传递过程中的桥梁;成簇的规律间隔的短回文重复序列(CRISPR,Clustered regularly interspaced short palindromic repeats)是最近几年才发现的原核生物中的调控RNA;CRISPR结构一般由一系列高度保守的直接重复序列(DR)和其间具有一定长度的间隔(spacer)组成。DR的长度范围一般从23到47bp(bp(basepair):碱基对,可用来表示DNA分子片段长度),spacer长度一般在0.6-2.5倍DR长度。Spacers来自细菌噬菌体或质粒,CRISPR结构的领导者一般位于CRISPR一侧,作为转录启动子。CRISPR(短回文重复序列)的相关(CAS)基因,毗邻CRISPR,编码CAS蛋白包括DNA或RNA结合蛋白,核酸酶,螺旋酶和聚合酶。CRISPR-CAS系统可以针对特定的DNA序列,在多种生物体上切割、添加、灭活或激活靶基因,有用于人类基因治疗的潜力,包括肌肉分化,癌症和炎症相关的疾病,其基本结构如图2所示。
目前CRISPR识别方法主要有,如:piler-cr,CRT,CRISPRFinder等,它们可以从一个给定的基因组或基因片段文件识别出其中的CRISPR。PILER-cr是在PILER软件包的基础上改进的,PILER软件包可以识别多种重复类型,包括串联数组,分散家庭,终端重复等。piler-cr基于序列自身比较查找重复序列,构建堆,然后进行CRISPR的识别、合并与确认。CRT基于改进的K-mer方法,识别准确率和效率都比较高。SPRFinder是一个Web工具来识别CRISPR结构,网页上内容经人工修正,准确率较高。以上方法,piler-cr有时会错误地识别DR边界或截断DR,准确性不高,CRT、CRISPRFinder要求CRISPR的重复数量至少为2个及以上,CRT有时误将串联重复作为CRISPR,产生假阳性。CRISPRFinder程序脚本运行结果中偶尔会有一些误报和忽略截断的DR。
常用的基因序列比对软件有:BLAST:basic local alignment search tool局部序列比对基本检索工具;RepeatMasker:基因组重复序列识别软件;ClustalW2:用于DNA序列和蛋白质序列的多序列比对工具。
发明内容
本发明实施例提供一种成簇的规律间隔的短回文重复序列识别方法,可以减少误报或忽略截断的DR,提高CRISPR识别的准确性和全面性。
本发明实施例提供了一种成簇的规律间隔的短回文重复序列识别方法,其可包括:
A1、接收存储有DNA序列的源文件;
B1、提取所述源文件中符合指定条件的直接重复序列DR模板,根据所述DR模板确定第一代CRISPR;计算所述DR模板之间的第一相似度,将所述第一相似度大于第一预设阈值的所述DR模板设置为已归类DR模板;所述指定条件包括所述DR的长度大于等于24bp、小于等于47bp,且所述DR的数量至少为两个;
C1、查找相邻的所述第一代CRISPR之间的待定间隔序列,确定所述待定间隔序列与所述第一代CRISPR中的DR相同或相似度大于第一指定阈值,将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR;
D1、计算所述第二代CRISPR中的SPACER的第二相似度,若所述第二相似度小于第二预设阈值,则确定所述SPACER对应的CRISPR为第三代CRISPR;
E1、确定所述第三代CRISPR中间位置的DR为标准DR,判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR;若是,则将所述标准DR加入所述第三代CRISPR,并将更新后的第三代CRISPR确定为第四代CRISPR,提取所述第四代CRISPR以及所述第四代CRISPR中的SPACER和DR的位置和序列信息,并将所述位置和序列信息发送至结果文件。
本发明实施例提供了一种成簇的规律间隔的短回文重复序列识别装置,所述装置包括:
接收单元,用于接收存储有DNA序列的源文件;
第一识别单元,用于提取所述源文件中符合指定条件的直接重复序列DR模板,根据所述DR模板确定第一代CRISPR;计算所述DR模板之间的第一相似度,将所述第一相似度大于第一预设阈值的所述DR模板设置为已归类DR模板;所述指定条件包括所述DR的长度大于等于24bp、小于等于47bp,且所述DR的数量至少为两个;
第二识别单元,用于查找相邻的所述第一代CRISPR之间的待定间隔序列,确定所述待定间隔序列与所述第一代CRISPR中的DR相同或相似度大于第一指定阈值,将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR;
第三识别单元,用于计算所述第二代CRISPR中的SPACER的第二相似度,若所述第二相似度小于第二预设阈值,则确定所述SPACER对应的CRISPR为第三代CRISPR;
第四识别单元,用于确定所述第三代CRISPR中间位置的DR为标准DR,判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR;若是,则将所述标准DR加入所述第三代CRISPR,并将更新后的第三代CRISPR确定为第四代CRISPR,提取所述第四代CRISPR以及所述第四代CRISPR中的SPACER和DR的位置和序列信息,并将所述位置和序列信息发送至结果文件。
由上可见,本发明实施例能够针对源文件中的DNA序列,通过四个层次不同过滤标准进行筛选,可以减少误报或忽略截断的DR,提高CRISPR识别的准确性和全面性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的成簇的规律间隔的短回文重复序列识别方法的第一实施例流程示意图;
图2为本发明实施例提供的CRISPR的一种基本结构示意图;
图3为本发明实施例提供的待定间隔序列的结构示意图;
图4为本发明实施例提供的双序列局部动态规划方法的序列比对得分示意图;
图5为本发明实施例提供的成簇的规律间隔的短回文重复序列识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例提供的成簇的规律间隔的短回文重复序列识别方法的第一实施例流程示意图。本实施例中所描述的CRISPR识别方法,包括步骤:
S101,接收存储有DNA序列的源文件;
在一些可行的实施方式中,本发明实施例中所描述的源文件可以为Festa格式文件,可以在NCBI(National Center for Biotechnology Information)美国国立生物技术信息中心网站(http://www.ncbi.nlm.nih.gov/)上下载,也可以是自己测试的Fasta文件,也可以将多个这样的Fasta文件放在同一目录,批处理执行。
S102,提取所述源文件中符合指定条件的直接重复序列DR模板,根据所述DR模板确定第一代CRISPR;计算所述DR模板之间的第一相似度,将所述第一相似度大于第一预设阈值的所述DR模板设置为已归类DR模板;所述指定条件包括所述DR的长度大于等于24bp、小于等于47bp,且所述DR的数量至少为两个;
在一些可行的实施方式中,本发明实施例中所描述的DR模板可以通过基因组重复序列识别软件RepeatMasker来查找,可以通过使用局部序列比对基本检索工具BLAST计算所述DR模板之间的第一相似度,所述第一预设阈值的取值区间可以为[0.8,1];由于在使用RepeatMasker进行DR模板查找时可能存在DR丢失的情况,因此,可通过步骤S103进一步筛选第一代CRISPR。
S103,查找相邻的所述第一代CRISPR之间的待定间隔序列,确定所述待定间隔序列与所述第一代CRISPR中的DR相同或相似度大于第一指定阈值,将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR;
由于识别出的第一代CRISPR中存在如图3所示的待定间隔序列,且所述待定间隔序列可能丢失与相邻CRISPR中的DR相同或相似度大于第一指定阈值(如0.8)的DR,因此,需要查找相邻的所述第一代CRISPR之间的待定间隔序列,确定所述待定间隔序列与所述第一代CRISPR中的DR相同或相似度大于第一指定阈值,将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR;具体实现中,以上步骤具体可以通过根据所述归类DR模板获得每个DR在所述DNA序列中的位置信息,根据所述位置信息以及第一代CRISPR中的DR与间隔序列SPACER之间的距离找到相邻的第一代CRISPR之间的待定间隔序列,若所述待定间隔序列的长度小于指定长度,则计算所述待定间隔序列与所述相邻的第一代CRISPR中的DR的相似度,若所述相似度大于第一指定阈值,将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR。
其中,所述指定长度可以是所述第一代CRISPR中的两个DR的长度加上一个SPACE的长度,也可以是测试人员预设的其他指定长度。
具体实现中,所述待定间隔序列与所述相邻的第一代CRISPR中的DR的相似度具体可以通过动态规划算法计算,使用双序列局部动态规划方法计算序列比对得分矩阵计算公式为
式中,所述i、所述j表示所述双序列中的序列序号,所述S(i,j)表示序列i和序列j的序列比对得分值;如图4所示,图4中的首行和首列代表比对的两个微阵列序列,每个白色背景单元格(除了首行和首列)代表一个序列比对得分S(i,j)值;
所述f(xi,yj)的计算公式为
式中,所述i、所述j表示所述双序列中的序列序号,所述a、所述b分别表示(A,T,C,G)中的一个序列字符,所述f(xi,yi)表示打分函数;打分函数除了以上的固定打分策略外,还可以用空位罚分,仿射空位罚分等模型;
其中,所述第二指定阈值可以根据测试人员的需要预设,取值范围优选[0.5,1]。
S104,计算所述第二代CRISPR中的SPACER的第二相似度,若所述第二相似度小于第二预设阈值,则确定所述SPACER对应的CRISPR为第三代CRISPR;
在一些可行的实施方式中,所述第二代CRISPR中的SPACER的第二相似度具体可以通过多序列比对工具ClustalW2来计算;
S105,确定所述第三代CRISPR中间位置的DR为标准DR,判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR;若是,则将所述标准DR加入所述第三代CRISPR,并将更新后的第三代CRISPR确定为第四代CRISPR,提取所述第四代CRISPR以及所述第四代CRISPR中的SPACER和DR的位置和序列信息,并将所述位置和序列信息发送至结果文件。
在一些可行的实施方式中,所述第三代CRISPR的两端是否存在与所述标准DR相同的DR具体可以通过使用局部比对工具BLAST来判断。
具体实现中,所述结果文件可以是gff3文件,可以用Argo等可视化基因组软件查看分析,结果文件中还可以包含每个CRISPR的DR和SPACER序列信息。
本发明实施例能够针对源文件中的DNA序列,通过四个层次不同过滤标准进行筛选,可以减少误报或忽略截断的DR,提高CRISPR识别的准确性和全面性。
参见图5,是本发明实施例提供的成簇的规律间隔的短回文重复序列识别装置的实施例结构示意图。本实施例中所描述的CRISPR识别装置,包括:
501,接收单元,用于接收存储有DNA序列的源文件;
502,第一识别单元,用于提取所述源文件中符合指定条件的直接重复序列DR模板,根据所述DR模板确定第一代CRISPR;计算所述DR模板之间的第一相似度,将所述第一相似度大于第一预设阈值的所述DR模板设置为已归类DR模板;所述指定条件包括所述DR的长度大于等于24bp、小于等于47bp,且所述DR的数量至少为两个;
503,第二识别单元,用于查找相邻的所述第一代CRISPR之间的待定间隔序列,确定所述待定间隔序列与所述第一代CRISPR中的DR相同或相似度大于第一指定阈值,将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR;
504,第三识别单元,用于计算所述第二代CRISPR中的SPACER的第二相似度,若所述第二相似度小于第二预设阈值,则确定所述SPACER对应的CRISPR为第三代CRISPR;
505,第四识别单元,用于确定所述第三代CRISPR中间位置的DR为标准DR,判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR;若是,则将所述标准DR加入所述第三代CRISPR,并将更新后的第三代CRISPR确定为第四代CRISPR,提取所述第四代CRISPR以及所述第四代CRISPR中的SPACER和DR的位置和序列信息,并将所述位置和序列信息发送至结果文件。
本发明实施例能够针对源文件中的DNA序列,通过四个层次不同过滤标准进行筛选,可以减少误报或忽略截断的DR,提高CRISPR识别的准确性和全面性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种成簇的规律间隔的短回文重复序列识别方法,其特征在于,包括以下步骤:
A1、接收存储有DNA序列的源文件;
B1、提取所述源文件中符合指定条件的直接重复序列DR模板,根据所述DR模板确定第一代CRISPR;计算所述DR模板之间的第一相似度,将所述第一相似度大于第一预设阈值的所述DR模板设置为已归类DR模板;所述指定条件包括所述DR的长度大于等于24bp、小于等于47bp,且所述DR的数量至少为两个;
C1、查找相邻的所述第一代CRISPR之间的待定间隔序列,确定所述待定间隔序列与所述第一代CRISPR中的DR相同或相似度大于第一指定阈值,将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR;
D1、计算所述第二代CRISPR中的SPACER的第二相似度,若所述第二相似度小于第二预设阈值,则确定所述SPACER对应的CRISPR为第三代CRISPR;
E1、确定所述第三代CRISPR中间位置的DR为标准DR,判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR;若是,则将所述标准DR加入所述第三代CRISPR,并将更新后的第三代CRISPR确定为第四代CRISPR,提取所述第四代CRISPR以及所述第四代CRISPR中的SPACER和DR的位置和序列信息,并将所述位置和序列信息发送至结果文件。
2.根据权利要求1所述的方法,其特征在于,所述步骤B1中计算所述DR模板之间的第一相似度包括:
用局部序列比对基本检索工具BLAST计算所述DR模板之间的第一相似度。
3.根据权利要求1所述的方法,其特征在于,所述步骤C1查找相邻的所述第一代CRISPR之间的待定间隔序列,确定所述待定间隔序列与所述第一代CRISPR中的DR相同或相似度大于第一指定阈值,将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR包括:
根据所述已归类DR模板获得每个DR在所述DNA序列中的位置信息,根据所述位置信息以及第一代CRISPR中的DR与间隔序列SPACER之间的距离找到相邻的第一代CRISPR之间的待定间隔序列,若所述待定间隔序列的长度小于指定长度,则计算所述待定间隔序列与所述相邻的第一代CRISPR中的DR的相似度,若所述相似度大于第一指定阈值,将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR。
4.根据权利要求1所述的方法,其特征在于,所述步骤D1中计算所述第二代CRISPR中的SPACER的第二相似度包括:
利用多序列比对工具ClustalW2提取所述第二代CRISPR中的SPACER,并计算所述SPACER的第二相似度。
5.根据权利要求1所述的方法,其特征在于,所述步骤E1中判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR包括:
使用局部比对工具BLAST判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR。
6.一种成簇的规律间隔的短回文重复序列识别装置,其特征在于,所述装置包括:
接收单元,用于接收存储有DNA序列的源文件;
第一识别单元,用于提取所述源文件中符合指定条件的直接重复序列DR模板,根据所述DR模板确定第一代CRISPR;计算所述DR模板之间的第一相似度,将所述第一相似度大于第一预设阈值的所述DR模板设置为已归类DR模板;所述指定条件包括所述DR的长度大于等于24bp、小于等于47bp,且所述DR的数量至少为两个;
第二识别单元,用于查找相邻的所述第一代CRISPR之间的待定间隔序列,确定所述待定间隔序列与所述第一代CRISPR中的DR相同或相似度大于第一指定阈值,将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR;
第三识别单元,用于计算所述第二代CRISPR中的SPACER的第二相似度,若所述第二相似度小于第二预设阈值,则确定所述SPACER对应的CRISPR为第三代CRISPR;
第四识别单元,用于确定所述第三代CRISPR中间位置的DR为标准DR,判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR;若是,则将所述标准DR加入所述第三代CRISPR,并将更新后的第三代CRISPR确定为第四代CRISPR,提取所述第四代CRISPR以及所述第四代CRISPR中的SPACER和DR的位置和序列信息,并将所述位置和序列信息发送至结果文件。
7.根据权利要求6所述的装置,其特征在于,
所述第一识别单元,具体用于使用局部序列比对基本检索工具BLAST计算所述DR模板之间的第一相似度。
8.根据权利要求6所述的装置,其特征在于,
所述第二识别单元,具体用于根据所述已归类DR模板获得每个DR在所述DNA序列中的位置信息,根据所述位置信息以及第一代CRISPR中的DR与间隔序列SPACER之间的距离找到相邻的第一代CRISPR之间的待定间隔序列,若所述待定间隔序列的长度小于指定长度,则计算所述待定间隔序列与所述相邻的第一代CRISPR中的DR的相似度,若所述相似度大于第一指定阈值,将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR。
9.根据权利要求6所述的装置,其特征在于,
所述第三识别单元,具体用于利用多序列比对工具ClustalW2提取所述第二代CRISPR中的SPACER,并计算所述SPACER的第二相似度。
10.根据权利要求6所述的装置,其特征在于,
所述第四识别单元,具体用于使用局部比对工具BLAST判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR。
CN201410614178.5A 2014-11-03 2014-11-03 一种成簇的规律间隔的短回文重复序列识别方法及装置 Active CN104504304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410614178.5A CN104504304B (zh) 2014-11-03 2014-11-03 一种成簇的规律间隔的短回文重复序列识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410614178.5A CN104504304B (zh) 2014-11-03 2014-11-03 一种成簇的规律间隔的短回文重复序列识别方法及装置

Publications (2)

Publication Number Publication Date
CN104504304A CN104504304A (zh) 2015-04-08
CN104504304B true CN104504304B (zh) 2017-08-25

Family

ID=52945701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410614178.5A Active CN104504304B (zh) 2014-11-03 2014-11-03 一种成簇的规律间隔的短回文重复序列识别方法及装置

Country Status (1)

Country Link
CN (1) CN104504304B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2853829C (en) 2011-07-22 2023-09-26 President And Fellows Of Harvard College Evaluation and improvement of nuclease cleavage specificity
US20150044192A1 (en) 2013-08-09 2015-02-12 President And Fellows Of Harvard College Methods for identifying a target site of a cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9737604B2 (en) 2013-09-06 2017-08-22 President And Fellows Of Harvard College Use of cationic lipids to deliver CAS9
US9388430B2 (en) 2013-09-06 2016-07-12 President And Fellows Of Harvard College Cas9-recombinase fusion proteins and uses thereof
US9228207B2 (en) 2013-09-06 2016-01-05 President And Fellows Of Harvard College Switchable gRNAs comprising aptamers
CA2930015A1 (en) 2013-11-07 2015-05-14 Editas Medicine, Inc. Crispr-related methods and compositions with governing grnas
US11053481B2 (en) 2013-12-12 2021-07-06 President And Fellows Of Harvard College Fusions of Cas9 domains and nucleic acid-editing domains
US10077453B2 (en) 2014-07-30 2018-09-18 President And Fellows Of Harvard College CAS9 proteins including ligand-dependent inteins
IL294014B2 (en) 2015-10-23 2024-07-01 Harvard College Nucleobase editors and their uses
IL308426A (en) 2016-08-03 2024-01-01 Harvard College Adenosine nuclear base editors and their uses
US11661590B2 (en) 2016-08-09 2023-05-30 President And Fellows Of Harvard College Programmable CAS9-recombinase fusion proteins and uses thereof
US11542509B2 (en) 2016-08-24 2023-01-03 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
SG11201903089RA (en) 2016-10-14 2019-05-30 Harvard College Aav delivery of nucleobase editors
WO2018119359A1 (en) 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
US11898179B2 (en) 2017-03-09 2024-02-13 President And Fellows Of Harvard College Suppression of pain by gene editing
EP3592777A1 (en) 2017-03-10 2020-01-15 President and Fellows of Harvard College Cytosine to guanine base editor
JP7191388B2 (ja) 2017-03-23 2022-12-19 プレジデント アンド フェローズ オブ ハーバード カレッジ 核酸によってプログラム可能なdna結合蛋白質を含む核酸塩基編集因子
US11560566B2 (en) 2017-05-12 2023-01-24 President And Fellows Of Harvard College Aptazyme-embedded guide RNAs for use with CRISPR-Cas9 in genome editing and transcriptional activation
CN111801345A (zh) 2017-07-28 2020-10-20 哈佛大学的校长及成员们 使用噬菌体辅助连续进化(pace)的进化碱基编辑器的方法和组合物
US11319532B2 (en) 2017-08-30 2022-05-03 President And Fellows Of Harvard College High efficiency base editors comprising Gam
CN111757937A (zh) 2017-10-16 2020-10-09 布罗德研究所股份有限公司 腺苷碱基编辑器的用途
WO2020191243A1 (en) 2019-03-19 2020-09-24 The Broad Institute, Inc. Methods and compositions for editing nucleotide sequences
DE112021002672T5 (de) 2020-05-08 2023-04-13 President And Fellows Of Harvard College Vefahren und zusammensetzungen zum gleichzeitigen editieren beider stränge einer doppelsträngigen nukleotid-zielsequenz

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014093709A1 (en) * 2012-12-12 2014-06-19 The Broad Institute, Inc. Methods, models, systems, and apparatus for identifying target sequences for cas enzymes or crispr-cas systems for target sequences and conveying results thereof
CN103981256A (zh) * 2014-04-15 2014-08-13 中国人民解放军疾病预防控制所 一种沙门氏菌crispr分型方法
WO2014128324A1 (es) * 2013-02-22 2014-08-28 Universidad De Alicante Método para detectar inserciones de espaciadores en estructuras crispr
CN104059977A (zh) * 2014-06-25 2014-09-24 上海交通大学 一种沙门氏菌血清型鉴定方法及其试剂盒

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014093709A1 (en) * 2012-12-12 2014-06-19 The Broad Institute, Inc. Methods, models, systems, and apparatus for identifying target sequences for cas enzymes or crispr-cas systems for target sequences and conveying results thereof
WO2014128324A1 (es) * 2013-02-22 2014-08-28 Universidad De Alicante Método para detectar inserciones de espaciadores en estructuras crispr
CN103981256A (zh) * 2014-04-15 2014-08-13 中国人民解放军疾病预防控制所 一种沙门氏菌crispr分型方法
CN104059977A (zh) * 2014-06-25 2014-09-24 上海交通大学 一种沙门氏菌血清型鉴定方法及其试剂盒

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"CRISPR结构与功能研究进展";杨超杰等;《军事医学》;20130228;第37卷(第2期);第155-158页 *
"E-CRISP:fast CRISPR target site identification";Michaela Spitzer等;《NATURE METHODS》;20140228;第11卷(第2期);第122-123页 *
"Genome-wide identification of CRISPR Cas9 off-targets in human genome";Jinzhi Duan等;《Cell Research》;20140831;第24卷(第8期);第1009-1012页 *
"Identification of CRISPR and riboswitch related RNAs among novel noncoding RNAs of the euryarchaeon Pyrococcus abyssi";Kounthéa Phok等;《BMC Genomics》;20110613;第12卷;第1-15页 *
"PILER-CR:Fast and accurate identification of CRISPR repeats";Robert C Edgar;《BMC Bioinformatics》;20070120;第8卷;第1-6页 *
"嗜热链球菌中CRISPR序列的检测与同源性分析";邓凯波等;《食品科学》;20130215;第34卷(第3期);第153-157页 *

Also Published As

Publication number Publication date
CN104504304A (zh) 2015-04-08

Similar Documents

Publication Publication Date Title
CN104504304B (zh) 一种成簇的规律间隔的短回文重复序列识别方法及装置
CN106446600B (zh) 一种基于CRISPR/Cas9的sgRNA的设计方法
US20200399719A1 (en) Systems and methods for analyzing viral nucleic acids
CN105886616B (zh) 一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法
Sakakibara et al. Stochastic context-free grammers for tRNA modeling
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
KR20160073406A (ko) 방향성 비순환 구조에서 쌍형성된-말단 데이터를 사용하기 위한 시스템 및 방법
Kolpakov et al. Searching for gapped palindromes
CN110692101A (zh) 用于比对靶向的核酸测序数据的方法
Williams et al. Plant microRNA prediction by supervised machine learning using C5. 0 decision trees
CN115394361B (zh) 用于构建微生物基因组数据库的方法、设备和介质
Han et al. Structural alignment of pseudoknotted RNA
WO2011073680A1 (en) Improvements relating to hash tables
CN105528532A (zh) 一种rna编辑位点的特征分析方法
CN113539369B (zh) 一种优化的kraken2算法及其在二代测序中的应用
NL2013120B1 (en) A method for finding associated positions of bases of a read on a reference genome.
Cai et al. Concod: an effective integration framework of consensus-based calling deletions from next-generation sequencing data
Martin Algorithms and tools for the analysis of high throughput DNA sequencing data
Park et al. Benchmark study for evaluating the quality of reference genomes and gene annotations in 114 species
Yehdego et al. Secondary structure predictions for long RNA sequences based on inversion excursions: preliminary results
KR102110017B1 (ko) 분산 처리에 기반한 miRNA 분석 시스템
Liu SICM6A: identifying m6A site across species by transposed GRU network
CN105631243A (zh) 病原微生物的检测方法及装置
Fu et al. Improvement of TRANSFAC matrices using multiple local alignment of transcription factor binding site sequences
CN116386713A (zh) 基因编辑酶脱靶位点的检测方法、装置和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant