CN102682226B

CN102682226B - 一种核酸测序信息处理系统及方法

Info

Publication number: CN102682226B
Application number: CN201210112811.1A
Authority: CN
Inventors: 盛司潼
Original assignee: 盛司潼
Current assignee: Shenzhen Malt Accelerator Technology Co., Ltd.
Priority date: 2012-04-18
Filing date: 2012-04-18
Publication date: 2015-09-30
Anticipated expiration: 2032-04-18
Also published as: CN102682226A

Abstract

本发明涉及信息处理领域，提供了一种核酸测序信息处理系统及方法。所述系统包括：用于将每条核酸序列片段进行分段建立短片段的短片段建立单元；用于根据短片段的长度建立参考序列索引并存储短片段，得数据库的数据库建立单元，用于将每条核酸序列片段分段建立的短片段分别单独在数据库中进行匹配的序列匹配单元。其中，还包括一种基于该系统的方法。本发明的技术方案能够实现核酸序列片段准确快速的匹配。

Description

一种核酸测序信息处理系统及方法

技术领域

本发明涉及信息处理领域，更具体地说，涉及一种核酸测序信息处理系统及方法。

背景技术

在全球的努力下，人类已经完成了多种生物的核酸测序，在第二代核酸测序技术中，人类充分利用已知的核酸来对个体进行测序，寻找个体的突变的基因，从而为个体外在的表现性提供可靠的依据。

现有技术中，将经过测序、分析得到多条核酸序列片段(称reads，一条核酸序列片段称为read)，将每条read随机分成4段，依次标记为a，b，c，d。将a与b，c，d分别组合形成短核酸序列片段，也即形成三条短片段(称seeds，单条短片段称seed)，三条seeds分别为ab，ac，ad。利用这三条seeds分别与参考序列比对，允许至多两个错配(也即允许seeds中有两个碱基与参考序列上的碱基不同)。该比对的方式为：第一、在参考序列上查找ab，如果完全比对上(也即没有错配)，则可以得到ab在参考序列上的所有起始位置，然后在参考序列上对应的起始位置上找到序列c和序列d。情况有如下几种：①c上有2个错配，d完全比对上；②c有1个错配，d有1个错配；③c有1个错配，d完全比对上；④c完全比对上，d有2个错配；⑤c完全比对上，d有1个错配；⑥c、d完全比对上。第二、如果参考序列上没有找到ab，就在参考序列上查找ac，如果完全比对上，则可以得到ac在参考序列上的所有起始位置，然后在参考序列上对应的位置上找到序列b和序列d。情况有如下几种：①b有2个错配，d完全比对上，②b有1个错配，d有1个错配，③b有1个错配，d完全比对上。第三、如果参考序列上也没找到ac，就在参考序列上查找ad，如果完全比对上，则可以得到ad在参考序列上的所有起始位置，然后在参考序列上对应的起始位置上找到前面序列a和序列b，只有一种情况：b有1个错配，c有1个错配。第四、如果参考序列也没找到ad，说明该read不满足最多2个错配的要求。

在测序中，由于测序装置、测序方法、测序人员的操作等出现误差均会出现错配，所以在实际reads比对中，允许有错配的情况。根据概率的原理，允许a出现与比对序列不一致的碱基的概率与b，c，d出现与比对序列不一致的碱基的概率一样，而只要当a中存在不一致的碱基，利用该技术方案比对时，均舍弃该read，导致reads的比对的精度非常低下。同时，该技术方案中，当ab没有比对上时，要比对ac，ac没有比对上时，要比对ad，这样a参与了多次比对，这势必会影响比对的速度，也即reads比对的效率比较低下。

因此需要一种核酸测序信息的处理系统及方法，能够准确快速的实现核酸序列片段的匹配。

发明内容

本发明的目的在于提供一种核酸测序信息的处理系统及方法，旨在解决现有技术核酸序列片段匹配不准确且匹配效率低的问题。

为了实现发明目的，一种核酸测序信息的处理系统包括：短片段建立单元、数据库建立单元和序列匹配单元。其中：所述短片段建立单元，用于将每条核酸序列片段进行分段建立短片段，并将每条核酸序列片段分段所得的短片段发给数据库建立单元和序列匹配单元；所述数据库建立单元，用于根据短片段的长度建立并存储参考序列索引，得数据库；所述序列匹配单元，用于将每条核酸序列片段分段建立的短片段分别单独在数据库中进行匹配，得匹配结果。

其中，所述短片段建立单元可包括第一决策模块和第一分段模块；所述第一决策模块，用于获取最短的一条核酸序列片段，并将该核酸序列片段和该核酸序列片段的碱基个数发给第一分段模块；所述第一分段模块，用于对最短的一条核酸序列片段进行分段得多条短片段，并完成其他核酸序列片段的分段建立短片段；所述其他核酸序列的分段方式与最短的一条核酸序列片段分段方式相同。

其中，所述数据库建立单元可包括第一索引模块和第一标引模块；所述第一索引模块，用于建立长度与短片段等长的参考序列索引，并将参考序列索引发给第一标引模块；所述第一标引模块，用于对参考序列索引按顺序进行标记，得数据库；所述数据库中参考序列索引中任意相邻的两个索引，前一个索引的第2到最后一位的碱基和后一索引的第1到倒数第二位的碱基相同。

其中，所述短片段建立单元可包括第二决策模块和第二分段模块；所述第二决策模块，用于按长度对核酸序列片段进行分类，得多类核酸序列片段，并将结果发给第二分段模块；所述第二分段模块，用于对每类核酸序列片段中最短的一条核酸序列片段进行分段得多条短片段，并完成该类其他核酸序列片段的分段建立短片段；所述其他核酸序列的分段方式与每类核酸序列片段中最短的一条核酸序列片段分段方式相同。

其中，所述数据库建立单元可包括第二索引模块和第二标引模块；所述第二索引模块，用于根据每类核酸序列片段建立的短片段的长度建立参考序列索引，并将参考序列索引发给第二标引模块；所述第二标引模块，用于对每类所述参考序列索引分别按顺序进行标记，得每类核酸序列片段对应的数据库。

上述任一方案中，所述系统还包括碱基识别单元或核酸测序单元中的一个，和/或数据输出单元；所述碱基识别单元，用于识别碱基，得核酸序列片段，并将识别的核酸序列片段发送给短片段建立单元；所述核酸测序单元，用于对核酸进行测序，得核酸序列片段，并将核酸序列片段发给短片段建立单元；所述数据输出单元，用于输出匹配结果。为了更好地实现发明目的，一种核酸测序信息的处理方法包括以下步骤：

步骤A、将每条核酸序列片段进行分段，建立短片段。步骤B、根据短片段的长度建立并存储参考序列索引，得数据库。步骤C、把每条核酸序列片段分段建立的短片段分别单独在数据库中进行匹配，得匹配结果。

其中，所述步骤A中，允许每条核酸序列片段中不匹配的碱基个数为N，则每条核酸序列片段至少分成N+1段，得每条核酸序列片段的至少N+1条短片段；其中，N为自然数。

其中，所述步骤A可包括：

步骤A1、获取核酸序列片段中最短的一条核酸序列片段，长度为x；

步骤A2、对最短的一条核酸序列片段进行分段，x/(N+φ)＝y……m；

当m＝0时，将该核酸序列片段依次均分成N+φ段，得N+φ条短片段，每条短片段的长度为y；

当0＜m＜y时，将该核酸序列片段依次等分成N+φ段，得N+φ条长度为y的短片段，剩余的部分m单独作为一条短片段，得N+φ+1条短片段；

步骤A3、将每条核酸序列片段依次分成长度为y的短片段，若核酸序列片段有剩余且剩余长度小于y，则将剩余的部分单独作为一条短片段；所述x为最短的一条核酸序列片段的碱基个数；x，y，φ均为正整数，m为小于y的自然数。

其中，所述步骤B包括：步骤B1、建立长度为y的参考序列索引，得核酸序列片段对应的参考序列索引；步骤B2、对参考序列索引按顺序进行标记，得数据库。

其中，所述步骤A可包括：步骤A1、将核酸序列片段按长度进行分类，得长度不同的多类核酸序列片段；步骤A2、对每类核酸序列片段分别进行分段。当核酸序列片段能够均分成N+φ段时，将核酸序列片段均分成N+φ段，得N+φ条短片段；当核酸序列片段不能均分成N+φ段时，将核酸序列片段依次均分成N+φ段，每段长度为z，剩余长度小于z，则将剩余的部分单独作为一条短片段，得N+φ+1条短片段；所述φ，z为正整数。

其中，所述步骤B可包括：步骤B1、建立每类核酸序列片段对应的参考序列索引。参考序列索引的长度与每类核酸序列片段分段得到的短片段中长度最长的短片段等长，得每类核酸序列片段对应的参考序列索引；

步骤B2、对每类核酸序列片段对应的参考序列索引分别按顺序进行标记，得多个数据库。

所述步骤C包括：

C1、在数据库中依次匹配一条核酸序列片段分段建立的多条短片段中的每条短片段；所述核酸序列片段匹配的参考序列索引与核酸序列片段分段建立的短片段是一一对应的；

如果第b条短片段完全匹配上，得第b条短片段在数据库中参考序列索引上的起始位置，则进行步骤C2；如果没有完全匹配上，循环步骤C1的操作；

C2、在该起始位置的前b-1个参考序列索引上匹配该核酸序列片段建立的前b-1条短片段，在该起始位置后参考序列索引相连的位置上匹配该核酸序列片段的第b+1条短片段之后的短片段；

当允许N个碱基错配时，该核酸序列片段中剩下的短片段与参考序列索引匹配允许错配的碱基数小于等于N，得一条核酸序列片段的序列；否则，舍弃该核酸序列片段；

C3、重复步骤C1到C2的操作，直到所有核酸序列片段均完成匹配。

其中，所述方法在步骤A之前还包括：步骤A0、利用核酸检测装置对未知核酸进行测序，得测序数据；步骤A’、数据处理装置对测序数据进行识别，得核酸序列片段对应的碱基。

其中，步骤C匹配结果包括每条核酸序列片段的序列和每条核酸序列片段的起始位置。

由上可知，本发明通过建立数据库，实现了每个短片段单独与数据库中的参考序列索引进行匹配，使得匹配的速度更快并且匹配准确度更高。

附图说明

图1是本发明一个实施例中核酸测序信息的处理系统的结构示意图。

图2是本发明一个实施例中短片段建立单元和数据库建立单元的结构示意图。

图3是本发明另一个实施例中短片段建立单元和数据库建立单元的结构示意图。

图4是本发明一个实施例中核酸测序信息的处理方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。

本发明提出第一实施例，如图1所示。本实施例的核酸测序信息的处理系统，其包括：短片段建立单元、数据库建立单元和序列匹配单元。短片段建立单元中分段建立的短片段的条数或长度可以根据需要来输入，也可以是系统默认的。数据库建立单元存储的是参考序列索引。为了便于理解，以下将进一步详细说明。

(1)短片段建立单元1，用于将每条核酸序列片段进行分段建立短片段，并将每条核酸序列片段分段所得的短片段发给数据库建立单元2和序列匹配单元3。

所述核酸序列片段包含碱基序列的片段，所述碱基包括但不限于DNA或RNA中的碱基。如该核酸序列片段可以为5’-AUCCAGGCUAUACCG-3’或5’-ATGGTTCCGGCTTACTAGTAG-3’等。该核酸序列片段的长度无特殊限制。优选的，该核酸序列片段的长度大于等于20bp，此时，通过分段建立的短片段可实现快速匹配，并且精度高。该核酸片段分段的建立的短片段的长度无特殊限制，如将核酸序列片段5’-ATTCACCGGCATCAT-3’分段为ATTCA和CCGGC和ATCAT的短片段或者分段为ATTCACCGGC和ATCAT的短片段。优选的，短片段的长度大于等于8bp，从而克服了某短片段太短，而使得某一条能匹配的位置过多，而同一条核酸序列片段建立的其他短片段不能在相应的位置匹配上，从而导致实际不能匹配上的核酸序列片段的多条短片段也参与了匹配，从而浪费大量的时间，使得匹配的整体速度大大减慢的问题。

(2)数据库建立单元2，用于根据短片段的长度建立参考序列索引，并存储短片段，建立数据库。

所述参考序列为已知的序列，例如人类基因组计划中所测得的人的基因序列，病毒的基因序列等等。而该核酸片段为与已知参考序列为同一物种上的碱基序列。

(3)序列匹配单元3，用于将每条核酸序列片段分段建立的短片段在数据库中进行匹配，得匹配结果。

每条核酸序列片段分段建立的短片段进行组合后在数据库中进行匹配，或者每条核酸序列片段分段建立的短片段分别单独在数据库中进行匹配。例如核酸序列为5’-GGCCACCTTCACTTTGCGGACTGAA-3’，分段建立了四个短片段分别为GGCCACCT和TCACTTTG和CGGACTGA和A，其中，记这四个短片段分别依次为a1，a2，a3，a4，则可实行a1a2，a1a3，a1a4短片段的组合或者a1a2a3，a1a2a4等短片段的组合，利用短片段的组合与数据库中的参考序列索引进行匹配。

优选的，序列匹配单元3，用于将每条核酸序列片段分段建立的短片段分别单独在数据库中进行匹配，得匹配结果，则分别拿a1，a2，a3，a4与数据库中的参考序列索引进行匹配。本优选的方案中，如果a1出现不匹配的碱基，则短片段a2进行匹配，短片段a2不匹配则进行短片段a3的匹配，所以本优选的方案中a1不匹配时，可进行后续的短片段的匹配，不会出现遗漏的情况。现有技术方案中，如果a1出现错配，就认为整条核酸序列片段不能匹配上，与现有技术方案相比，本优选的技术方案大大提高了核酸序列片段匹配的准确性。

本实施例的处理系统从整体上实现了核酸测序信息的处理系统的准确性和高效性。基于第一实施例，本发明提出第二实施例，如图2所示。本实施例中，所述短片段建立单元可包括第一决策模块和第一分段模块。以下对所述的两个模块进行详细阐述。

(1)第一决策模块111，用于获取最短的一条核酸序列片段，并将该核酸序列片段和该核酸序列片段的碱基个数发给第一分段模块111。

从所有的核酸序列片段中选出一条最短的核酸序列片段，该核酸序列的长度为q。获取最短的一条核酸序列片段的方式不限，可以通过冒泡法筛选获得，也可以通过其他方式筛选获得。

选择最短的一条核酸序列片段的目的在于以便于第一分段模块112分段，使用户根据最短的核酸片段和允许错配的碱基个数确定分段的段数，而不至于设定的分段建立的短片段太短，而使短片段匹配时浪费大量时间，并且匹配不准确。

(2)第一分段模块112，用于对最短的一条核酸序列片段进行分段得多条短片段，并完成其他核酸序列片段的分段建立短片段；所述其他核酸序列片段的分段方式与最短的一条核酸序列片段分段方式相同。一条核酸序列片段分段时，建立短片段除了最后一条短片段外，其他短片段的长度均相同，最后一条短片段与其他短片段长度相等或者比其他短片段短。

将最短的一条核酸序列片段进行分段，其所分的短片段的条数没有特殊限制，可以根据允许错配的碱基数来设定，也可以根据允许错配的碱基数和核酸序列片段的长度来选择，但要求保证至少有一条短片段能够完全匹配上。优选的，最短的一条核酸序列片段进分段建立的短片段的条数为允许错配的碱基的个数n加φ，φ≥1，也即允许错配的碱基的个数为n(n≥0)，则最短的一条核酸序列片段进分段建立的短片段的条数为n+φ。此处分段根据需要选择φ，当核酸序列片段较长时，可以选择φ较大，当核酸序列片段较短是，可以选择较小的φ。以下给出一详细的短片段分段建立的示例：如果一条核酸序列片段的长度为p，允许错配的碱基个数为n，n＝0时，不分段；n＞0时，则有p/n＝c0……t0，如果0＜t0＜c0，则分段建立的短片段的长度为c0，则其他核酸序列片段建立的短片段长度也为c0，每条核酸序列片段剩余的一部分单独作为一条短片段；如果t0＝0，则p/(n+1)＝c1……t1，0≤t1＜c1，则分段建立的短片段的长度为c1，则其他核酸序列片段建立的短片段长度为c1，每条核酸序列片段剩余的一部分单独作为一条短片段。如最短的一条核酸序列片段分段建立的多条短片段的长为12,12,12,10，则12为多条短片度中最长的短片段的长度。

针对分段建立的短片段的条数，本实施例给出一示例，见下表。

其中，Read为最短的一条核酸序列片段的长度，其所分的短片段可以根据需要来选择。

本实施例的技术方案能够保证有一条短片段能够完全匹配上，其他短片段在匹配上的短片段的基础上，在数据库中进行匹配。本技术方案实现了不同核酸序列片段的分段，建立为后续数据库的建立提供了基础，只需建立一个数据库，既可以实现所有核酸序列片段的匹配，减少了数据库建立的复杂程度，也使得分段建立短片段更方便。

本实施例中，所述数据库建立单元包括第一索引模块和第一标引模块。以下将对这两个模块进行详细的阐述。

(1)第一索引模块211，用于建立长度与短片段等长的参考序列索引，并将参考序列索引发给第一标引模块212。

针对所述的建立长度与短片段等长的参考序列索引，本实施例给出一示例，如：核酸序列片段的长度L，允许错配的碱基的个数为r，若L/(r+w)＝d……s，其中，L，r，w，d，s均为自然数，s＜d。若0＜s＜d，则r+w-1为允许对核酸序列片段分段建立的短片段的条数，短片段r+w条短片段的长为d，最后一条短片段的长为s；若s＝0，则r+w为允许对核酸序列片段分段建立的短片段的条数，短片段的长为d。本实施例中建立长度与短片段等长的参考序列索引，其参考序列索引的长度即为d。

(2)第一标引模块212，用于对参考序列索引按顺序进行标记，得数据库。所述数据库中参考序列索引中任意相邻的两个索引，前一个索引的第2到最后一位的碱基和后一索引的第1到倒数第二位的碱基相同。

针对参考序列索引的标记，本发明给出一实施例，所分短片段的长度为12，以下只给出部分参考序列索引及其标记，如整个参考序列的2076位置开始的参考序列为5’-……GACCAUCCAAAGGAACUUCA GUAACCCAUCA……-3’。则根据短片段的长度建立的部分数据库见下表。

序号	参考序列索引	序号	参考序列索引
					GACCAUCCAAAG		AGGAA CUUCA GU
	ACCAUCCAAAGG		GGAA CUUCA GUA
					CCAUCCAAAGGA		GAACUUCAGUAA
	CAUCCAAAGGAA		AACUUCAGUAAC
				2080	AUCCAAAGGAAC	2092	ACUUCAGUAACC
	UCCAAAGGAACU		CUUCAGUAACCC
					CCAAAGGAACUU		UUCAGUAACCCA
	CAAAGGAACUUC		UCAGUAACCCAU
					AAAGGAACUUCA		CAGUAACCCAUC
2085	AAGGAACUUCAG	2095	AGUAACCCAUCA

按照上述方式建立数据库中，参考序列索引中的序号(也即标记)表示方式不限，优选的采用二进制来表示这样可以节约大量的数据存储空间。序号可以按顺序依次标记如1，2，3，……，也可以按照某个等差数列在相应位置标记，如2，10，18，……，其标记方式不限。

假设一条核酸序列片段为ACCAUCCAAAGGAACUTC，允许错配的个数为1，建立的短片度的长度为12，6，该短片度分别为a短片段：ACCAUCCAAAGG，b短片段：AACUTC，在数据库中查找，a短片段匹配上的位置为2077，再在2077+12的位置匹配b短片段，允许1个错配，则2077+12匹配上，也即2089匹配上，也即该核酸序列短片段匹配上，匹配的起始位置为2077。假设一条核酸序列片段为ACCAUCCGGAGGAACUUC，允许错配的个数为1，建立的短片度的长度为12，6，该短片度分别为a短片段：ACCAUCCGGAGG，b短片段：AACUUC，在数据库中查找，a短片段不能完全匹配上，则对b片段进行匹配，b短片段匹配上的位置的起始位置为2089，则在2089-12的位置上再对a短片段，允许一个错配，a短片段无法匹配上，所以认为该核酸序列片段不能匹配。本实施例中，实现了数据库的建立，并可以节约大量的存储空间，根据短片段的长度来建立，使得短片段匹配是能准确快速的匹配。

针对第一实施例，本发明提出第三实施例，如图3所示。所述短片段建立单元可包括第二决策模块和第二分段模块。

(1)第二决策模块121，用于按长度对核酸序列片段进行分类，得多类核酸序列片段，并将结果发给第二分段模块122。

核酸序列片段的长短不一样，根据核酸序列片段的长度来进行分类，可以得到多类核酸序列片段的长度，本实施例中给出一示例，见下表。

其中，核酸序列片段的长度根据核酸序列的长度分布来进行设定分类，该分类的方式不限，可以按照每个长度的分为一类，一个区间段的长度分为一类。

(2)第二分段模块122，用于对每类核酸序列片段中最短的一条核酸序列片段进行分段得多条短片段，并完成该类其他核酸序列片段的分段建立短片段；所述其他核酸序列的分段方式与每类核酸序列片段中最短的一条核酸序列片段分段方式相同。其中，该模块自动选取每类核酸序列片段中最短的一条核酸序列片段，并对最短的核酸序列片段进行分段建立短片段，每类核酸序列片段都按照该类最短的核酸序列片段进行分段建立短片段的长度进行分段建立短片段。该短片段的长度是值最长的短片段，比如最短的一条核酸序列片段长度为20，分段建立的短片段的长度分别为7,7,6。则7为该短片段的长度。一条核酸序列片段分段时，建立短片段除了最后一条短片段外，其他短片段的长度均相同，最后一条短片段与其他短片段长度相等或者比其他短片段短。

对每类核酸序列片段进行分段，如果允许错配数为z，则分段建立的短片段数为z+φ，φ≥1。根据第二模块中的表，如果允许错配数为1，优选的，进行分段建立的短片段的长度可见下表。

该表中，每条核酸序列片段按照上述的核酸片段所在的类别分别进行建立短片段，每条核酸序列片段按照上述的方式进行分类，剩下的一部分作为一条单独的短片段，如16的Read(核酸序列片段)分段建立的两条短片段的长度分别为14，8；28的Read分段建立的两条短片段的长度为14，14。其中，本实施例中所述短片段的长度是指在其类别中最长的短片段的长度。需要说明的是，每类核酸序列片段所分的短片段的条数并不要求均相同。

本实施例中，该短片段建立方式具备更大的灵活性，根据核酸序列片段的长度的不同来建立不同长度的短片段序列。从而使得分段建立的短片段更有效，以提高匹配的速度。

本实施例中，所述数据库建立单元可包括第二索引模块和第二标引模块。

(1)第二索引模块221，用于根据每类核酸序列片段建立的短片段的长度建立参考序列索引，并将结果发给第二标引模块222。

根据每类核酸序列片段建立的短片段的长度建立参考序列索引，下表中有一示例。

上表中，每类Read中短片段的长度分别为8，14，20，则所建立的参考序列索引的长度分别为8，14，20。得三类核酸序列片段对应的参考序列索引。

(2)第二标引模块222，用于对所述每类核酸序列片段对应的参考序列索引分别按顺序进行标记，得每类核酸序列片段对应的数据库。

如第二索引模块中的示例，对所分的三类核酸序列片段对应的参考序列索引分别进行标记，得三类数据库。下面给出一示例，以下只给出部分参考序列索引及其标记，如整个参考序列的2076位置开始的参考序列为5’-……GACCAUCCAAAGGAACUUCAGUAACCCAUCA……-3’，根据核酸序列长度建立的短片段的长度为8,14,20对应的数据库分别如下：根据核酸序列片段建立的短片段的长度为8对应建立的数据库如下表中所示。

序号	参考序列索引	序号	参考序列索引
				2076	GACCAUCC	2088	GAACUUCA
	ACCAUCCA		AACUUCA G
					CCAUCCAA		ACUUCA GU
2079	CAUCCAAA	2091	CUUCA GUA
					AUCCAAAG		UUCA GUAA
	UCCAAAGG		UCA GUAAC
				2082	CCAAAGGA	2094	CA GUAACC
	CAAAGGAA		A GUAACCC
					AAAGGAAC		GUAACCCA
2085	AAGGAACU	2097	UAACCCAU
					AGGAACUU		AACCCAUC
	GGAACUUC		ACCCAUCA

根据核酸序列片段建立的短片段的长度为14对应建立的数据库如下表中所示。

序号	参考序列索引	序号	参考序列索引
				2076	GACCAUCCAAAGGA	2085	AAGGAACUUCAGUA
	ACCAUCCAAAGGAA		AGGAACUUCAGUAA
					CCAUCCAAAGGAAC		GGAACUUCAGUAAC
2079	CAUCCAAAGGAACU	2088	GAACUUCAGUAACC
					AUCCAAAGGAACUU		AACUUCAGUAACCC
	UCCAAAGGAACUUC		ACUUCAGUAACCCA
				2082	CCAAAGGAACUUCA	2091	CUUCAGUAACCCAU
	CAAAGGAACUUCAG		UUCAGUAACCCAUC
					AAAGGAACUUCAGU		UCAGUAACCCAUCA

根据核酸序列片段建立的短片度的长度为20对应建立的数据库如下表中所示。

序号	参考序列索引	序号	参考序列索引
				2076	GACCAUCCAAAGGAACUUCA	2082	CCAAAGGAACUUCAGUAACC
	ACCAUCCAAAGGAACUUCAG		CAAAGGAACUUCAGUAACCC
					CCAUCCAAAGGAACUUCAGU		AAAGGAACUUCAGUAACCCA
2079	CAUCCAAAGGAACUUCAGUA	2085	AAGGAACUUCAGUAACCCAU
					AUCCAAAGGAACUUCAGUAA		AGGAACUUCAGUAACCCAUC
	UCCAAAGGAACUUCAGUAAC		GGAACUUCAGUAACCCAUCA

按照上述方式建立数据库，参考序列索引中的序号(也即标记)，优选的采用二进制来表示，这样可以节约大量的数据存储空间。序号可以按顺序依次标记如1，2，3，……，也可以按照某个等差数列在相应位置标记，如6，12，18，……，其标记方式不限。

本实施例中，实现了数据库的建立，并可以节约大量的存储空间，根据短片段的长度来建立，使得短片段匹配是能准确快速的匹配。

本实施例中，序列匹配单元的匹配方式如下：假设一条核酸序列片段为ACCAUCCAAAGGAACUTC，允许错配的个数为1，建立的短片度的长度为14，4，该短片度分别为a短片段：ACCAUCCAAAGGAA，b短片段：CUTC，在根据核酸序列片段建立的短片段的长度为14对应建立的数据库中查找，a短片段匹配上的位置为2077，再在2077+14的位置匹配b短片段，允许1个错配，则2077+14匹配上，也即2091匹配上，也即该核酸序列短片段匹配上，匹配的起始位置为2077。假设一条核酸序列片段为ACCAUCCGGAGGAACUUC，允许错配的个数为1，建立的短片度的长度为14，4，该短片度分别为a短片段：ACCAUCCGGAGGAA，b短片段：CUUC，在根据核酸序列片段建立的短片段的长度为14对应建立的数据库中查找，a短片段不能完全匹配上，则对b片段进行匹配，b短片段匹配上的位置的起始位置为2091，则在2091-14的位置上再对a短片段，允许一个错配，a短片段无法匹配上，所以认为该核酸序列片段不能匹配。

本实施例的整个技术方案，实现了核酸序列片段建立的灵活性，根据需要来选择短片段的长度，可避免短片段的长度太长或太短的问题而出现匹配速度慢，相比现有技术，大大提高了匹配的速度和精确，同时，数据库的存储方式也使得存储占用的空间更小。

针对上述任一实施例，本发明提出第四实施例。所述系统还可包括碱基识别单元。以下将对本系统做进一步的说明。

(1)碱基识别单元，用于识别碱基，得核酸序列片段，并将识别的核酸序列片段发送给短片段建立单元。

该碱基识别单元将测序所得的图像信号转换成碱基，得到每条核酸序列片段，也即该核酸序列片段为一个个的碱基组成。该碱基识别的方式无特殊限制，现有技术中的碱基识别的方式均适用与本发明中。优选的，该碱基识别采用图像配准技术来实现。在此不给出详述。

基于第四实施例，所述系统还可包括核酸测序单元。

(2)核酸测序单元，用于对核酸进行测序，得核酸序列片段，并将核酸序列片段发给短片段建立单元。

该核酸序列单元可包括用于测序的核酸检测装置和数据处理装置。其中，所述核酸序列检测装置用于对未知的核酸进行测序，得测序数据；所述数据处理装置用于对测序数据进行处理，得核酸序列片段。该核酸测序装置和数据处理装置无特殊限制，市场上销售的核酸检测装置和对应的数据处理装置均适用于本发明，该核酸检测装置可以是高通量基因测序仪、基因芯片等，该数据处理装置可以是携带数据处理程序的计算机，单片机等。

基于第四实施例，所述系统还可包括数据输出单元。

(3)数据输出单元，用于输出匹配结果。

对于不能匹配上的核酸序列片段，该输出单元优选的输出方式是不显示不能匹配上的核酸序列。该数据输出单元与序列匹配单元连接，用于将匹配的结果输出，使用者更容易观察。该输出的结果方式不限。

根据第三实施例中的匹配结果，以下针对输出单元的输出内容给出一示例，输出单元输出所有匹配上的核酸序列片段。

核酸序列片段	匹配起始位置	错配位置	错配数
				ACCAUCCAAAGGAACUTC	2077		1

以下给出另一示例，输出单元输出所有匹配上的核酸序列片段的短片段。

短片段	匹配起始位置	错配位置	错配数
				ACCAUCCAAAGGAA	2077	0
CUTC	2091	2093	1

上述输出结果可以清楚的显示出核酸序列片段在参考序列上的位置，已经错配的位置，根据输出结果进行后续的小RNA分析、疾病分析等。

本实施例的技术方案实现了基因从检测从核酸测序到结果输出的整个过程，从而使得系统功能性更高、更易用。

本发明提出第五实施例，如图4所示。一种核酸测序信息的处理方法，可包括下面详述的步骤。

步骤S1、将每条核酸序列片段进行分段，建立短片段。

步骤S2、根据短片段的长度建立并存储参考序列索引，得数据库。

步骤S3、把每条核酸序列片段分段建立的短片段分别单独在数据库中进行匹配，得匹配结果。

优选的，利用短片段依次单独与数据库中的参考序列索引进行匹配。本优选的方案中，如果a1出现不匹配的碱基，则短片段a2进行匹配，短片段a2不匹配则进行短片段a3的匹配，所以本优选的方案中a1不匹配时，可进行后续的短片段的匹配，不会出现遗漏的情况。现有技术方案中，如果a1出现错配，就认为整条核酸序列片段不能匹配上，与现有技术方案相比，本优选的技术方案大大提高了核酸序列片段匹配的准确性。

本实施例中，所述步骤S1中，允许每条核酸序列片段中不匹配的碱基个数为N，则每条核酸序列片段至少分成N+1段，得每条核酸序列片段的至少N+1条短片段；其中，N为自然数。

本技术方案中短片段的数允许错配碱基的个数多，保证了必有一条短片段能够在数据库中匹配上，从而其他短片段在允许错配的情况能够参与匹配。

以下对步骤S1提出一技术方案，并做进一步的说明。

所述步骤S1可包括下述的步骤。

步骤S101、获取核酸序列片段中最短的一条核酸序列片段，长度为x。

获取最短的一条核酸序列片段，目的在于用于根据最短的一条核酸序列片段的长度确定最佳的分段长度。例如允许错配的碱基个数为3，核酸序列片段的长度为45，则可以允许建立4条短片段，分别长为12，12，12，9。而不至于根据随机的核酸序列长度来分而是核酸序列片段过长，而使建立的短片段过长，使得匹配的速度过慢。

步骤S102、对最短的一条核酸序列片段进行分段，x/(N+φ)＝y……m。

当0＜m＜y时，将该核酸序列片段依次等分成N+φ段，得N+φ条长度为y的短片段，剩余的部分m单独作为一条短片段，得N+φ+1条短片段。

步骤S103、将每条核酸序列片段依次分成长度为y的短片段，若核酸序列片段有剩余且剩余长度小于y，则将剩余的部分单独作为一条短片段；所述x为最短的一条核酸序列片段的碱基个数；x，y，φ均为正整数，m为小于y的自然数。

本实施例中的步骤S1使得后续数据库的建立更方便，只需建立一种数据库即可，从而提高了系统的可操作性。

以下对步骤S2提出一技术方案，并做进一步的详细说明。

所述步骤S2可包括下述的步骤。

步骤S201、建立长度为y的参考序列索引，得核酸序列片段对应的参考序列索引。

该步骤中，对参考序列进行分段得参考序列索引。所述参考序列为已知序列，该序列为已经公布的序列，比如人类基因组测序得到的人的基因序列；某种族的动物的序列。所述长度y为最短的一条核酸序列片段建立的短片段的长度，所述短片段的长度表示该短片段中最长的短片的长。

步骤S202、对参考序列索引按顺序进行标记，得数据库。

所述数据库中参考序列索引任意相邻两个索引，前一个索引的第2到最后一位的碱基和后一索引的第1到倒数第二位的碱基相同。

针对参考序列索引的标记方式无特殊限制，可以按顺序依次标记也可以按照等差数列进行标记，优选为等差数列标记，不用所有位置都标记，从而节约大量的数据库的存储空间。其标记序号的方式不限，优选的，利用二进制进行标记，这样可以节约大量的存储空间。

本实施例中，参考序列的存储需要大量的存储空间，将其建立数据库所需要的存储空间更大，而本实施例节约了大量的存储空间。

以下针对步骤S1提出另一技术方案，并做进一步的详细说明。

所述步骤S1可包括下述的步骤。

步骤S111、将核酸序列片段按长度进行分类，得长度不同的多类核酸序列片段。

该核酸序列片段按长度进行分类时，在同一类中的长度范围无特殊限制。优选的，分类时，所在同一类核酸序列片段中最长的核酸序列片段和最短核酸序列片段的长度差不超过8。

步骤S112、对每类核酸序列片段分别进行分段。

本实施例中，当核酸序列片段能够均分成N+φ段时，将核酸序列片段均分成N+φ段，得N+φ条短片段；当核酸序列片段不能均分成N+φ段时，将核酸序列片段依次均分成N+φ段，每段长度为z，剩余长度小于z，则将剩余的部分单独作为一条短片段，得N+φ+1条短片段；所述φ，z为正整数。

本技术方案中，对核酸序列片段进行分类，使得通过不同类核酸序列片段建立的短片段的长度更适中，分段更容易，从而提高匹配的效率。

以下针对步骤S2提出另一技术方案，并做进一步的详细说明。

所述步骤S2可包括下述的步骤。

步骤S211、建立每类核酸序列片段对应的参考序列索引。参考序列索引的长度与每类核酸序列片段分段得到的短片段中长度最长的短片段等长，得每类核酸序列片段对应的参考序列索引。

该步骤中，对参考序列进行分段得参考序列索引。所述参考序列为已知序列，该序列为已经公布的序列，比如人类基因组测序得到的人的基因序列；某种族的动物的序列。所述短片段中长度最长的短片段等长，给出一示例，如核酸序列片段长为35，分段建立3条短片段，每条短片段为12,12,11，其中12即为短片段中长度最长的短片段。

步骤S212、对每类核酸序列片段对应的参考序列索引分别按顺序进行标记，得多个数据库。

所述步骤S3包括下述的步骤。

步骤S31、在数据库中上依次匹配一条核酸序列片段分段建立的多条短片段中的每条短片段；所述核酸序列片段匹配的参考序列索引与核酸序列片段分段建立的短片段是一一对应的；

其中，所述一条核酸序列片段分段建立的多条短片段，如果分段只建立了一条短片段，利用该条短片段在参考序列索引上进行匹配；如果分段建立了多条短片段，利用每条短片段依次在与该核酸序列片段对应的数据库张依次进行匹配。

如果第b条短片段完全匹配上，得第b条短片段在数据库中的参考序列索引上的起始位置，则进行步骤S32；如果没有完全匹配上，循环步骤S31的操作。需要说明的是，所述循环步骤S31，只是循环的操作。也即当第x条短片段没有匹配上时，进行x+1条短片段的匹配，依次按照上述操作来进行。

步骤S32、在该起始位置的前b-1个参考序列索引上匹配该核酸序列片段建立的前b-1条短片段，在该起始位置后参考序列索引相连的位置上匹配该核酸序列片段的第b+1条短片段之后的短片段；

当允许N个碱基错配时，该核酸序列片段中剩下的短片段与参考序列索引匹配允许错配的碱基数小于等于N，得一条核酸序列片段的序列；否则，舍弃该核酸序列片段。

步骤S33、重复步骤S31到S32的操作，直到所有核酸序列片段均完成匹配。

本实施例中利用短片段在数据库中匹配，使得匹配效率更高，更准确。同时，根据本实施例中匹配的结果，我们可以了解到基因突变的位点，对生物性状的了解及其疾病治疗提供了参考依据。

所述方法中，上述实施例中，当进行匹配后，所得的结果无特殊限制，优选的，包括每条核酸序列片段的序列和每条核酸序列片段的起始位置。

根据上述方法中建立短片段，建立数据库，并进行匹配。

建立短片段：将每条核酸序列片段进行分段，建立短片段。假设某一条核酸序列片段为：ATCCUTACGACCATCGTTCACCT，允许错配的个数为2，建立的短片段为a短片段：ATCCUTAC，b短片段：GACCATCG，c短片段：TTCACCT。

建立数据库：根据短片段的长度建立并存储参考序列索引，得数据库。假设参考序列的从4260开始的参考序列为5’-……TTACATCCTTAGGACCATCGTTCACCTAGGTTACCTTCTGGTTAC……-3’，建立的数据库见下表。

序号	参考序列索引	序号	参考序列索引
				4260	TTACATCC		GTTCACCT
	TACATCCT	4080	TTCACCTA
					ACATCCTT		TCACCTAG
	CATCCTTA		CACCTAGG
					ATCCTTAG		ACCTAGGT
4065	TCCTTAGG		CCTAGGTT
					CCTTAGGA	4085	CTAGGTTA
	CTTAGGAC		TAGGTTAC
					TTAGGACC		AGGTTACC
	TAGGACCA		GGTTACCT
				4070	AGGACCAT		GTTACCTT
	GGACCATC	4090	TTACCTTC
					GACCATCG		TACCTTCT
	ACCATCGT		ACCTTCTG
					CCATCGTT		CCTTCTGG
4075	CATCGTTC		CTTCTGGT
					ATCGTTCA	4095	TTCTGGTT
	TCGTTCAC		TCTGGTTA
					CGTTCACC		CTGGTTAC

进行匹配：把每条核酸序列片段分段建立的短片段分别单独在数据库中进行匹配。首先，将a短片段在数据库中进行匹配，无完全匹配上的位置；再对b短片段在数据库中进行匹配，b短片段完全匹配上的位置为4072，再在4072+8的位置上匹配c短片段，c短片段完全匹配上，再在4072-8的位置上开始匹配a短片段，在允许最多两个错配的情况下，a短片段匹配上，所以该核酸序列片段匹配上。

针对该核酸序列匹配的结果的显示给出一示例，参见下表。

核酸序列片段	匹配起始位置	错配位置	错配数
				ATCCTTAGGACCATCGTTCACCT	4264	4268,4271	2

本实施例的技术方案能够为用户提供可视化的输出结果，用户可以根据输出结果对核酸序列片段进行分析，从而为后续的研究提供基础。

在所述方法中，所述步骤S1之前还可包括以下步骤。

步骤S0、利用核酸检测装置对未知核酸进行测序，得测序数据。

所述核酸序列检测装置用于对未知的核酸进行测序，得测序数据。该核酸测序装置无特殊限制，市场上销售的核酸检测装置和对应的数据处理装置均适用于本发明，该核酸检测装置可以是高通量基因测序仪、基因芯片等。

步骤S0’、数据处理装置对测序数据进行识别，得核酸序列片段对应的碱基。

所述数据处理装置无特殊限制，可以是携带数据处理程序的计算机，单片机等。该数据处理装置获得测序数据，对测序数据采用识别，得到一个一个的碱基，根据碱基所在的位置得到核酸序列片段。对于测序图像的识别方式，无特殊现在，本实施例中优选用图像匹配技术来实现碱基识别。

上述步骤S0和步骤S0’可以包含任意一个，或者两者均包括。

应当说明的是，本发明典型的应用但不限于核酸测序信息匹配，在其他类似的信息处理中也可使用本发明所阐述的方法和系统。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种核酸测序信息的处理系统，其特征在于，所述系统包括：短片段建立单元、数据库建立单元和序列匹配单元；

所述短片段建立单元，用于将每条核酸序列片段进行分段建立短片段，并将每条核酸序列片段分段所得的短片段发给数据库建立单元和序列匹配单元；

所述数据库建立单元，用于根据短片段的长度建立并存储参考序列索引，得数据库；

所述序列匹配单元，用于将每条核酸序列片段分段建立的短片段分别单独在数据库中进行匹配，得匹配结果；

所述短片段建立单元包括第一决策模块和第一分段模块；

所述第一决策模块，用于获取最短的一条核酸序列片段，并将该核酸序列片段和该核酸序列片段的碱基个数发给第一分段模块；

所述第一分段模块，用于对最短的一条核酸序列片段进行分段得多条短片段，并完成其他核酸序列片段的分段建立短片段；所述其他核酸序列的分段方式与最短的一条核酸序列片段分段方式相同。

2.根据权利要求1所述的核酸测序信息的处理系统，其特征在于，所述数据库建立单元包括第一索引模块和第一标引模块；

所述第一索引模块，用于建立长度与短片段等长的参考序列索引，并将参考序列索引发给第一标引模块；

所述第一标引模块，用于对参考序列索引按顺序进行标记，得数据库；

所述数据库中参考序列索引中任意相邻的两个索引，前一个索引的第2到最后一位的碱基和后一索引的第1到倒数第二位的碱基相同。

3.一种核酸测序信息的处理系统，其特征在于，所述系统包括：短片段建立单元、数据库建立单元和序列匹配单元；

所述短片段建立单元包括第二决策模块和第二分段模块；

所述第二决策模块，用于按长度对核酸序列片段进行分类，得多类核酸序列片段，并将结果发给第二分段模块；

所述第二分段模块，用于对每类核酸序列片段中最短的一条核酸序列片段进行分段得多条短片段，并完成该类其他核酸序列片段的分段建立短片段；所述该类其他核酸序列的分段方式与该类核酸序列片段中最短的一条核酸序列片段分段方式相同。

4.根据权利要求3所述的核酸测序信息的处理系统，其特征在于，所述数据库建立单元包括第二索引模块和第二标引模块；

所述第二索引模块，用于根据每类核酸序列片段建立的短片段的长度建立参考序列索引，并将参考序列索引发给第二标引模块；

所述第二标引模块，用于对所述每类参考序列索引分别按顺序进行标记，得每类核酸序列片段对应的数据库。

5.根据权利要求1至4中任一项所述的核酸测序信息的处理系统，其特征在于，所述系统还包括碱基识别单元或核酸测序单元中的一个，和/或数据输出单元；

所述碱基识别单元，用于识别碱基，得核酸序列片段，并将识别的核酸序列片段发送给短片段建立单元；

所述核酸测序单元，用于对核酸进行测序，得核酸序列片段，并将核酸序列片段发给短片段建立单元；

所述数据输出单元，用于输出匹配结果。

6.一种核酸测序信息的处理方法，其特征在于，包括以下步骤：

A、将每条核酸序列片段进行分段，建立短片段；

B、根据短片段的长度建立并存储参考序列索引，得数据库；

C、把每条核酸序列片段分段建立的短片段分别单独在数据库中进行匹配，得匹配结果；

所述步骤A包括：

A1、获取核酸序列片段中最短的一条核酸序列片段；

A2、对最短的一条核酸序列片段进行分段，得多条短片段；

A3、对其他核酸序列片段进行分段，所述其他核酸序列片段的分段方式与最短的一条核酸序列片段的分段方式相同。

7.根据权利要求6所述的核酸测序信息的处理方法，其特征在于，在所述步骤A中，允许每条核酸序列片段中不匹配的碱基个数为N，则每条核酸序列片段至少分成N+1段，得每条核酸序列片段的至少N+1条短片段；其中，N为自然数。

8.根据权利要求7所述的核酸测序信息的处理方法，其特征在于，所述步骤A包括：

A1、获取核酸序列片段中最短的一条核酸序列片段，长度为x；

A2、对最短的一条核酸序列片段进行分段，x/（N+φ）=y……m；

A3、将每条核酸序列片段依次分成长度为y的短片段，若核酸序列片段有剩余且剩余长度小于y，则将剩余的部分单独作为一条短片段；

所述x为最短的一条核酸序列片段的碱基个数；x，y，φ均为正整数，m为小于y的自然数。

9.根据权利要求8所述的核酸测序信息的处理方法，其特征在于，所述步骤B包括：

B1、建立长度为y的参考序列索引，得核酸序列片段对应的参考序列索引；

B2、对参考序列索引按顺序进行标记，得数据库。

10.一种核酸测序信息的处理方法，其特征在于，包括以下步骤：

A、将每条核酸序列片段进行分段，建立短片段；

B、根据短片段的长度建立并存储参考序列索引，得数据库；

所述步骤A包括：

A1、将核酸序列片段按长度进行分类，得长度不同的多类核酸序列片段；

A2、对每类核酸序列片段分别进行分段；

所述步骤A2包括：

A21、获取每类核酸序列片段中最短的一条核酸序列片段；

A22、对每类核酸序列片段中最短的一条核酸序列片段进行分段得多条短片段；

A23、对每类核酸序列片段中的其他核酸序列片段进行分段；所述每类核酸序列片段中的其他核酸序列片段的分段方式与该类核酸序列片段中最短的一条核酸序列片段分段方式相同。

11.根据权利要求10所述的核酸测序信息的处理方法，其特征在于，在所述步骤A中，允许每条核酸序列片段中不匹配的碱基个数为N，则每条核酸序列片段至少分成N+1段，得每条核酸序列片段的至少N+1条短片段；其中，N为自然数。

12.根据权利要求10所述的核酸测序信息的处理方法，其特征在于，所述步骤B包括：

B1、建立每类核酸序列片段对应的参考序列索引；

参考序列索引的长度与每类核酸序列片段分段得到的短片段中长度最长的短片段等长，得每类核酸序列片段对应的参考序列索引；

B2、对每类核酸序列片段对应的参考序列索引分别按顺序进行标记，得多个数据库。

13.根据权利要求6或10所述的核酸测序信息的处理方法，其特征在于，所述步骤C包括：

C1、在数据库中依次匹配一条核酸序列片段分段建立的多条短片段中的每条短片段；

14.根据权利要求6或10所述的核酸测序信息的处理方法，其特征在于，所述方法在步骤A之前还包括：

A0、利用核酸检测装置对未知核酸进行测序，得测序数据；

A’、数据处理装置对测序数据进行识别，得核酸序列片段对应的碱基。

15.根据权利要求6或10所述的核酸测序信息的处理方法，其特征在于，步骤C匹配结果包括每条核酸序列片段的序列和每条核酸序列片段的起始位置。