CN104504304B

CN104504304B - 一种成簇的规律间隔的短回文重复序列识别方法及装置

Info

Publication number: CN104504304B
Application number: CN201410614178.5A
Authority: CN
Inventors: 周丰丰; 葛瑞泉; 麦国琴; 王普; 刘记奎; 赵苗苗
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2014-11-03
Filing date: 2014-11-03
Publication date: 2017-08-25
Anticipated expiration: 2034-11-03
Also published as: CN104504304A

Abstract

本发明实施例公开了一种成簇的规律间隔的短回文重复序列识别方法，所述方法包括：根据源文件中的DR模板确定第一代CRISPR，将相邻第一代CRISPR之间的待定间隔序列中缺失的DR添加后确定第二代CRISPR，将第二代CRISPR中的SPACER的相似度低于预设阈值的CRISPR确定为第三代CRISPR，将两端携带有DR的第三代CRISPR确定为第四代CRISPR，本发明实施例可以减少误报或忽略截断的DR，提高CRISPR识别的准确性和全面性。

Description

一种成簇的规律间隔的短回文重复序列识别方法及装置

技术领域

本发明涉及基因序列识别技术领域，尤其涉及一种成簇的规律间隔的短回文重复序列识别方法。

背景技术

DNA是一种分子，可组成遗传指令，引导生物发育与生命机能运作；RNA是以DNA的一条链为模板，以碱基互补配对原则，转录而形成的一条单链，主要功能是实现遗传信息在蛋白质上的表达，是遗传信息传递过程中的桥梁；成簇的规律间隔的短回文重复序列(CRISPR，Clustered regularly interspaced short palindromic repeats)是最近几年才发现的原核生物中的调控RNA；CRISPR结构一般由一系列高度保守的直接重复序列(DR)和其间具有一定长度的间隔(spacer)组成。DR的长度范围一般从23到47bp(bp(basepair):碱基对,可用来表示DNA分子片段长度)，spacer长度一般在0.6-2.5倍DR长度。Spacers来自细菌噬菌体或质粒，CRISPR结构的领导者一般位于CRISPR一侧，作为转录启动子。CRISPR(短回文重复序列)的相关(CAS)基因，毗邻CRISPR，编码CAS蛋白包括DNA或RNA结合蛋白，核酸酶，螺旋酶和聚合酶。CRISPR-CAS系统可以针对特定的DNA序列，在多种生物体上切割、添加、灭活或激活靶基因，有用于人类基因治疗的潜力，包括肌肉分化，癌症和炎症相关的疾病，其基本结构如图2所示。

目前CRISPR识别方法主要有，如：piler-cr，CRT，CRISPRFinder等，它们可以从一个给定的基因组或基因片段文件识别出其中的CRISPR。PILER-cr是在PILER软件包的基础上改进的，PILER软件包可以识别多种重复类型，包括串联数组，分散家庭，终端重复等。piler-cr基于序列自身比较查找重复序列，构建堆，然后进行CRISPR的识别、合并与确认。CRT基于改进的K-mer方法，识别准确率和效率都比较高。SPRFinder是一个Web工具来识别CRISPR结构，网页上内容经人工修正，准确率较高。以上方法，piler-cr有时会错误地识别DR边界或截断DR，准确性不高，CRT、CRISPRFinder要求CRISPR的重复数量至少为2个及以上，CRT有时误将串联重复作为CRISPR，产生假阳性。CRISPRFinder程序脚本运行结果中偶尔会有一些误报和忽略截断的DR。

常用的基因序列比对软件有：BLAST：basic local alignment search tool局部序列比对基本检索工具；RepeatMasker：基因组重复序列识别软件；ClustalW2：用于DNA序列和蛋白质序列的多序列比对工具。

发明内容

本发明实施例提供一种成簇的规律间隔的短回文重复序列识别方法，可以减少误报或忽略截断的DR，提高CRISPR识别的准确性和全面性。

本发明实施例提供了一种成簇的规律间隔的短回文重复序列识别方法，其可包括：

A1、接收存储有DNA序列的源文件；

B1、提取所述源文件中符合指定条件的直接重复序列DR模板，根据所述DR模板确定第一代CRISPR；计算所述DR模板之间的第一相似度，将所述第一相似度大于第一预设阈值的所述DR模板设置为已归类DR模板；所述指定条件包括所述DR的长度大于等于24bp、小于等于47bp，且所述DR的数量至少为两个；

C1、查找相邻的所述第一代CRISPR之间的待定间隔序列，确定所述待定间隔序列与所述第一代CRISPR中的DR相同或相似度大于第一指定阈值，将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR；

D1、计算所述第二代CRISPR中的SPACER的第二相似度，若所述第二相似度小于第二预设阈值，则确定所述SPACER对应的CRISPR为第三代CRISPR；

E1、确定所述第三代CRISPR中间位置的DR为标准DR，判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR；若是，则将所述标准DR加入所述第三代CRISPR，并将更新后的第三代CRISPR确定为第四代CRISPR，提取所述第四代CRISPR以及所述第四代CRISPR中的SPACER和DR的位置和序列信息，并将所述位置和序列信息发送至结果文件。

本发明实施例提供了一种成簇的规律间隔的短回文重复序列识别装置，所述装置包括：

接收单元，用于接收存储有DNA序列的源文件；

第一识别单元，用于提取所述源文件中符合指定条件的直接重复序列DR模板，根据所述DR模板确定第一代CRISPR；计算所述DR模板之间的第一相似度，将所述第一相似度大于第一预设阈值的所述DR模板设置为已归类DR模板；所述指定条件包括所述DR的长度大于等于24bp、小于等于47bp，且所述DR的数量至少为两个；

第二识别单元，用于查找相邻的所述第一代CRISPR之间的待定间隔序列，确定所述待定间隔序列与所述第一代CRISPR中的DR相同或相似度大于第一指定阈值，将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR；

第三识别单元，用于计算所述第二代CRISPR中的SPACER的第二相似度，若所述第二相似度小于第二预设阈值，则确定所述SPACER对应的CRISPR为第三代CRISPR；

第四识别单元，用于确定所述第三代CRISPR中间位置的DR为标准DR，判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR；若是，则将所述标准DR加入所述第三代CRISPR，并将更新后的第三代CRISPR确定为第四代CRISPR，提取所述第四代CRISPR以及所述第四代CRISPR中的SPACER和DR的位置和序列信息，并将所述位置和序列信息发送至结果文件。

由上可见，本发明实施例能够针对源文件中的DNA序列，通过四个层次不同过滤标准进行筛选，可以减少误报或忽略截断的DR，提高CRISPR识别的准确性和全面性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的成簇的规律间隔的短回文重复序列识别方法的第一实施例流程示意图；

图2为本发明实施例提供的CRISPR的一种基本结构示意图；

图3为本发明实施例提供的待定间隔序列的结构示意图；

图4为本发明实施例提供的双序列局部动态规划方法的序列比对得分示意图；

图5为本发明实施例提供的成簇的规律间隔的短回文重复序列识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明实施例提供的成簇的规律间隔的短回文重复序列识别方法的第一实施例流程示意图。本实施例中所描述的CRISPR识别方法，包括步骤：

S101，接收存储有DNA序列的源文件；

在一些可行的实施方式中，本发明实施例中所描述的源文件可以为Festa格式文件，可以在NCBI(National Center for Biotechnology Information)美国国立生物技术信息中心网站(http://www.ncbi.nlm.nih.gov/)上下载，也可以是自己测试的Fasta文件，也可以将多个这样的Fasta文件放在同一目录，批处理执行。

S102，提取所述源文件中符合指定条件的直接重复序列DR模板，根据所述DR模板确定第一代CRISPR；计算所述DR模板之间的第一相似度，将所述第一相似度大于第一预设阈值的所述DR模板设置为已归类DR模板；所述指定条件包括所述DR的长度大于等于24bp、小于等于47bp，且所述DR的数量至少为两个；

在一些可行的实施方式中，本发明实施例中所描述的DR模板可以通过基因组重复序列识别软件RepeatMasker来查找，可以通过使用局部序列比对基本检索工具BLAST计算所述DR模板之间的第一相似度，所述第一预设阈值的取值区间可以为[0.8,1]；由于在使用RepeatMasker进行DR模板查找时可能存在DR丢失的情况，因此，可通过步骤S103进一步筛选第一代CRISPR。

S103，查找相邻的所述第一代CRISPR之间的待定间隔序列，确定所述待定间隔序列与所述第一代CRISPR中的DR相同或相似度大于第一指定阈值，将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR；

由于识别出的第一代CRISPR中存在如图3所示的待定间隔序列，且所述待定间隔序列可能丢失与相邻CRISPR中的DR相同或相似度大于第一指定阈值(如0.8)的DR，因此，需要查找相邻的所述第一代CRISPR之间的待定间隔序列，确定所述待定间隔序列与所述第一代CRISPR中的DR相同或相似度大于第一指定阈值，将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR；具体实现中，以上步骤具体可以通过根据所述归类DR模板获得每个DR在所述DNA序列中的位置信息，根据所述位置信息以及第一代CRISPR中的DR与间隔序列SPACER之间的距离找到相邻的第一代CRISPR之间的待定间隔序列，若所述待定间隔序列的长度小于指定长度，则计算所述待定间隔序列与所述相邻的第一代CRISPR中的DR的相似度，若所述相似度大于第一指定阈值，将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR。

其中，所述指定长度可以是所述第一代CRISPR中的两个DR的长度加上一个SPACE的长度，也可以是测试人员预设的其他指定长度。

具体实现中，所述待定间隔序列与所述相邻的第一代CRISPR中的DR的相似度具体可以通过动态规划算法计算，使用双序列局部动态规划方法计算序列比对得分矩阵计算公式为

式中，所述i、所述j表示所述双序列中的序列序号，所述S(i，j)表示序列i和序列j的序列比对得分值；如图4所示，图4中的首行和首列代表比对的两个微阵列序列，每个白色背景单元格(除了首行和首列)代表一个序列比对得分S(i，j)值；

所述f(x_i，y_j)的计算公式为

式中，所述i、所述j表示所述双序列中的序列序号，所述a、所述b分别表示(A，T，C，G)中的一个序列字符，所述f(x_i，y_i)表示打分函数；打分函数除了以上的固定打分策略外，还可以用空位罚分，仿射空位罚分等模型；

其中，所述第二指定阈值可以根据测试人员的需要预设，取值范围优选[0.5,1]。

S104，计算所述第二代CRISPR中的SPACER的第二相似度，若所述第二相似度小于第二预设阈值，则确定所述SPACER对应的CRISPR为第三代CRISPR；

在一些可行的实施方式中，所述第二代CRISPR中的SPACER的第二相似度具体可以通过多序列比对工具ClustalW2来计算；

S105，确定所述第三代CRISPR中间位置的DR为标准DR，判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR；若是，则将所述标准DR加入所述第三代CRISPR，并将更新后的第三代CRISPR确定为第四代CRISPR，提取所述第四代CRISPR以及所述第四代CRISPR中的SPACER和DR的位置和序列信息，并将所述位置和序列信息发送至结果文件。

在一些可行的实施方式中，所述第三代CRISPR的两端是否存在与所述标准DR相同的DR具体可以通过使用局部比对工具BLAST来判断。

具体实现中，所述结果文件可以是gff3文件，可以用Argo等可视化基因组软件查看分析，结果文件中还可以包含每个CRISPR的DR和SPACER序列信息。

本发明实施例能够针对源文件中的DNA序列，通过四个层次不同过滤标准进行筛选，可以减少误报或忽略截断的DR，提高CRISPR识别的准确性和全面性。

参见图5，是本发明实施例提供的成簇的规律间隔的短回文重复序列识别装置的实施例结构示意图。本实施例中所描述的CRISPR识别装置，包括：

501，接收单元，用于接收存储有DNA序列的源文件；

502，第一识别单元，用于提取所述源文件中符合指定条件的直接重复序列DR模板，根据所述DR模板确定第一代CRISPR；计算所述DR模板之间的第一相似度，将所述第一相似度大于第一预设阈值的所述DR模板设置为已归类DR模板；所述指定条件包括所述DR的长度大于等于24bp、小于等于47bp，且所述DR的数量至少为两个；

503，第二识别单元，用于查找相邻的所述第一代CRISPR之间的待定间隔序列，确定所述待定间隔序列与所述第一代CRISPR中的DR相同或相似度大于第一指定阈值，将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR；

504，第三识别单元，用于计算所述第二代CRISPR中的SPACER的第二相似度，若所述第二相似度小于第二预设阈值，则确定所述SPACER对应的CRISPR为第三代CRISPR；

505，第四识别单元，用于确定所述第三代CRISPR中间位置的DR为标准DR，判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR；若是，则将所述标准DR加入所述第三代CRISPR，并将更新后的第三代CRISPR确定为第四代CRISPR，提取所述第四代CRISPR以及所述第四代CRISPR中的SPACER和DR的位置和序列信息，并将所述位置和序列信息发送至结果文件。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种成簇的规律间隔的短回文重复序列识别方法，其特征在于，包括以下步骤：

A1、接收存储有DNA序列的源文件；

2.根据权利要求1所述的方法，其特征在于，所述步骤B1中计算所述DR模板之间的第一相似度包括：

用局部序列比对基本检索工具BLAST计算所述DR模板之间的第一相似度。

3.根据权利要求1所述的方法，其特征在于，所述步骤C1查找相邻的所述第一代CRISPR之间的待定间隔序列，确定所述待定间隔序列与所述第一代CRISPR中的DR相同或相似度大于第一指定阈值，将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR包括：

根据所述已归类DR模板获得每个DR在所述DNA序列中的位置信息，根据所述位置信息以及第一代CRISPR中的DR与间隔序列SPACER之间的距离找到相邻的第一代CRISPR之间的待定间隔序列，若所述待定间隔序列的长度小于指定长度，则计算所述待定间隔序列与所述相邻的第一代CRISPR中的DR的相似度，若所述相似度大于第一指定阈值，将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR。

4.根据权利要求1所述的方法，其特征在于，所述步骤D1中计算所述第二代CRISPR中的SPACER的第二相似度包括：

利用多序列比对工具ClustalW2提取所述第二代CRISPR中的SPACER，并计算所述SPACER的第二相似度。

5.根据权利要求1所述的方法，其特征在于，所述步骤E1中判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR包括：

使用局部比对工具BLAST判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR。

6.一种成簇的规律间隔的短回文重复序列识别装置，其特征在于，所述装置包括：

接收单元，用于接收存储有DNA序列的源文件；

7.根据权利要求6所述的装置，其特征在于，

所述第一识别单元，具体用于使用局部序列比对基本检索工具BLAST计算所述DR模板之间的第一相似度。

8.根据权利要求6所述的装置，其特征在于，

所述第二识别单元，具体用于根据所述已归类DR模板获得每个DR在所述DNA序列中的位置信息，根据所述位置信息以及第一代CRISPR中的DR与间隔序列SPACER之间的距离找到相邻的第一代CRISPR之间的待定间隔序列，若所述待定间隔序列的长度小于指定长度，则计算所述待定间隔序列与所述相邻的第一代CRISPR中的DR的相似度，若所述相似度大于第一指定阈值，将所述待定间隔序列与所述相邻的第一代CRISPR合并为第二代CRISPR。

9.根据权利要求6所述的装置，其特征在于，

所述第三识别单元，具体用于利用多序列比对工具ClustalW2提取所述第二代CRISPR中的SPACER，并计算所述SPACER的第二相似度。

10.根据权利要求6所述的装置，其特征在于，

所述第四识别单元，具体用于使用局部比对工具BLAST判断所述第三代CRISPR的两端是否存在与所述标准DR相同或相似度大于第二指定阈值的DR。