一种提升测序平台文库拆分率的标签序列混库方法和装置
技术领域
本发明涉及测序技术领域,尤其涉及一种提升测序平台文库拆分率的标签序列混库方法和装置。
背景技术
测序平台,尤其是Illumina测序平台要求测序同一个循环(cycle)的碱基较为平衡,即最好保证每个循环每个碱基含量在25%左右。如果达不到要求,由于A、C碱基共用红激光,G、T碱基共用绿激光,至少也要保证每个循环要分别存在两个激发光中的1个碱基以保障机器能正常聚焦和运行,否则会在相应的循环出现测序质量差或者读N情况。
标签序列(index),例如华大基因研发的不同标签序列的编号对应的序列差异各异,按照现有的标签序列两两混库(pooling,或称池化)方法,无法保证每个循环都至少能存在两种激发光中各自对应的1个碱基。因而在实际标签序列测序时,出现了标签序列个别循环读N,影响文库拆分率或者整体标签序列数据较差,直接导致数据无法拆分或者拆分率低。
发明内容
本发明针对现有标签序列测序拆分率低的问题,提供一种提升测序平台文库拆分率的标签序列混库方法和装置。
根据本发明的第一方面,本发明提供一种提升测序平台文库拆分率的标签序列混库方法,包括:
将多个标签序列中每个位置的A、C碱基替换为同一个符号,将G、T碱基替换为另一个符号,从而将每个标签序列转换成由两种符号表示的序列;
选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。
进一步地,将标签序列中每个位置的A、C碱基替换为符号A,将G、T碱基替换为符号B。
进一步地,上述标签序列的长度是4-10个碱基,优选6-8个碱基。
进一步地,选取二者转换后在≥4个位置有差异的序列进行混库。
进一步地,上述测序平台是Illumina Hiseq/Miseq测序平台。
根据本发明的第二方面,本发明提供一种提升测序平台文库拆分率的标签序列混库装置,包括:
序列转换单元,用于将多个标签序列中每个位置的A、C碱基替换为同一个符号,将G、T碱基替换为另一个符号,从而将每个标签序列转换成由两种符号表示的序列;
序列比对单元,用于选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。
进一步地,将标签序列中每个位置的A、C碱基替换为符号A,将G、T碱基替换为符号B。
进一步地,上述标签序列的长度是4-10个碱基,优选6-8个碱基。
进一步地,选取二者转换后在≥4个位置有差异的序列进行混库。
进一步地,上述测序平台是Illumina Hiseq/Miseq测序平台。
本发明的标签序列混库方法,对标签序列的碱基作转化处理,并且设定两两混库的差异标准,根据设置的标签序列混库(index pooling)组合规则,确保标签序列测序成功率达到100%,标签序列的拆分率达到90%以上。
附图说明
图1为本发明一个实施方案的标签序列混库方法的流程图。
图2为本发明一个实施方案的标签序列混库装置的结构框图。
图3:本发明实施例1中标签序列混库组合的实际测序标签序列的拆分率情况;图中Library表示文库,Index表示标签序列,mismatch表示错配,Total表示总计,Reads表示读段数,Bases表示碱基数,Sum表示合计。
图4为本发明实施例2中标签序列混库组合1)的实际测序标签序列的拆分率情况;图中Library表示文库,Index表示标签序列,mismatch表示错配,Total表示总计,Reads表示读段数,Bases表示碱基数,Sum表示合计。
图5为本发明实施例2中标签序列混库组合2)的实际测序标签序列的拆分率情况;图中Library表示文库,Index表示标签序列,mismatch表示错配,Total表示总计,Reads表示读段数,Bases表示碱基数,Sum表示合计。
图6为本发明实施例3中两个混库文库的实际测序标签序列的拆分率情况;图中Library表示文库,Index表示标签序列,mismatch表示错配,Total表示总计,Reads表示读段数,Bases表示碱基数,Sum表示合计。
图7为本发明对比例1中3个混库文库的实际测序标签序列的拆分率情况;图中Library表示文库,Index表示标签序列,mismatch表示错配,Total表示总计,Reads表示读段数,Bases表示碱基数,Sum表示合计。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
本发明中,所谓“标签序列(index)”是指在测序中用于区分不同测序序列的短核苷酸序列,一般用来区分不同来源的样本,标签序列可以是测序接头或引物序列的一部分。使用标签序列能够将不同的样本,例如不同来源(如不同的文库)的样本混合在一起上机测序。测序之后的序列分别都带有各自的标签序列,按照标签序列对不同样本进行拆分,在进行后续信息学的分析。因此,拆分率成为衡量标签序列有效性的重要指标。
标签序列拆分率与标签序列测序成功率,是两个有相互关联也有区别的概念。由于测序平台本身存在一定测序错误率,无法实现标签序列完全100%拆分。标签序列测序成功率的定义是标签序列拆分率达到90%以上,后面的数据标签序列拆分率均达到了90%,就认为标签序列测序成功率为100%。
本发明中,混库(pooling)也称为池化,就是指至少两种不同标签序列的混合使用,在实际应用中通常涉及两种标签序列的混库,因此本发明主要涉及的是两两标签序列混库(index pooling)。
如图1所示,本发明的一个实施方案的标签序列混库方法包括如下步骤:
S102:将多个标签序列中每个位置的A、C碱基替换为同一个符号,将G、T碱基替换为另一个符号,从而将每个标签序列转换成由两种符号表示的序列。
本发明之所以将每个位置的A、C碱基替换为同一个符号,将G、T碱基替换为另一个符号,其依据是在测序平台上,尤其是Illumina测序平台(例如Illumina Hiseq/Miseq测序平台)上,A、C碱基共用红激光,G、T碱基共用绿激光。
经过上述替换以后,每一条标签序列都转换成由两种符号表示的序列,从而实现了四种碱基符号表示的标签序列到两种符号表示的标签序列的转化。在此基础上,标签序列之间的差异性比较转化成两种符号表示的标签序列之间每一对应位置的符号差异的比较。
在本发明中,用于替换A、C碱基的符合以及用于替换G、T碱基的符合可以是任何可识别的两种有差异的符号,不限于某种特定的符号。在使用计算机运行的情况下,任何可被计算机识别的符合均可作为本发明中的符号使用。从简便的角度出发,在本发明的一个优选的实施方案中,将标签序列中每个位置的A、C碱基替换为符号A,将G、T碱基替换为符号B。
S104:选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。
在进行测序数据的后续数据拆分时,标签序列的拆分允许碱基容错1个错配或者2个N可以拆分,即两两标签序列对应循环序列之间的差异必须要大于2个。也就是,对于由两个标签序列组成的标签序列组合,在转换后需要在大于2个位置有差异,才能作为可以进行混库的序列组合。
标签序列的长度一般在4-10个碱基,优选6-8个碱基。标签序列组合中的两两序列应当具有相同的序列长度。例如,华大基因开发使用的标签序列一般具有8个碱基的长度。在此情况下,转换后需要在大于2个位置有差异,例如在3个、4个、5个、6个、7个或8个位置有差异。一般而言,在3个位置有差异即可实现90%以上的标签序列拆分率和100%的标签序列测序成功率。然而,为了保证更高的标签序列拆分率,在允许的条件下,最好选用在更多个位置有差异的序列进行两两组合。我们发现,在越多位置有差异的两两序列,越能提高标签序列的拆分率。
需要说明的是,差异位置的个数是指将四个碱基表示的标签序列按照规则转换成两个符号表示的序列以后的差异位置的个数。一般而言,经转换以后差异位置的个数会减少,例如对于两条有8个碱基的标签序列,在用四个碱基表示的情况下,有5个碱基差异,经转换以后可能只有3个位置差异。从发明的思想而言,本发明并不仅是关注序列转换之前的差异位置的个数,更重要的是关注转换之后的差异位置的个数。
对应于本发明的标签序列混库方法,本发明还提供一种标签序列混库装置,如图2所示,包括:序列转换单元202,用于将多个标签序列中每个位置的A、C碱基替换为同一个符号,将G、T碱基替换为另一个符号,从而将每个标签序列转换成由两种符号表示的序列;序列比对单元204,用于选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。
以下通过实施例详细说明本发明的技术方案和效果,需要说明的是,实施例仅是示例性的,并不构成对本发明保护范围的限制。
实施例1
2个DNA文库编号分别为:WHBRAootMAAFDEAAPEI-30、HUMggzEAAADAAA-129,将两个文库混库上机(注意:实施例中文库名称仅仅是用于区分不同文库的一串符号,没有特定的技术性含义;文库名称后面的数字,如30和129表示标签序列的编号)。
30、129号标签序列的具体核苷酸序列:
30号:GCTTAATG;
129号:ACAGAGTG。
将A、C碱基替换为符号A,将G、T碱基替换为符号B,替换后各标签序列的信息如下:
30号:BABBAABB;
129号:AAABABBB。
从上面序列信息可看出标签30和标签129的核苷酸经替换后具有差异的位置共有3个,图3示出了这两个混库文库的实际测序标签序列的拆分率情况,可直观看出拆分率达到了95.74%。
实施例2
对于4个辣椒DNA文库,其文库号分别为:CAPgsdG1AAD96FAAPEI-14、CAPgsdG1ABD96FABPEI-39、CAPgsdG2ADD96FAAPEI-45、CAPgsdG2ACD96FAAPEI-40;按照数据量要求需要两两文库进行混库上机(注意:实施例中文库名称仅仅是用于区分不同文库的一串符号,没有特定的技术性含义;文库名称后面的数字,如14、39、45和40表示标签序列的编号)。
14、39、45和40号标签序列的具体核苷酸序列如下:
14号:AGAGATCT;
39号:TCCAGTAG;
45号:ACTACAAG;
40号:TTGTCTAG。
A、C碱基替换为符号A,将G、T碱基替换为符号B,替换后各标签序列的信息如下:
14号:ABABABAB;
39号:BAAABBAB;
45号:AABAAAAB;
40号:BBBBABAB。
从上面序列信息可看出标签14和标签40的核苷酸经替换后具有差异的位置共有2个,标签14和标签39的核苷酸经替换后具有差异的位置共有4个,标签45和标签40的核苷酸经替换后具有差异的位置共有4个。将两两标签序列混库组合上机策略制定如下:
组合1)CAPgsdG1AAD96FAAPEI-14和CAPgsdG1ABD96FABPEI-39;
组合2)CAPgsdG2ADD96FAAPEI-45和CAPgsdG2ACD96FAAPEI-40。
将文库混库之后进行上机测序。
图4示出了标签序列混库组合1)的实际测序标签序列的拆分率情况,可直观看出拆分率为98.22%。
图5示出了标签序列混库组合2)的实际测序标签序列的拆分率情况,可直观看出拆分率为97.99%。
可见,上述标签序列混库组合1)和标签序列混库组合2)中,各自的拆分率均达到了90%以上,说明标签序列测序质量优异。表明,本发明的方法不仅保障了此数据能够正常拆分,也再次彰显了其对提升数据拆分率即数据有效利用率的有效性。
实施例3
2个DNA文库编号分别为:WHHUMuwoRAAHDEAAPEI-75、WHHUMuwoRAABDEAAPEI-79。
75、79标签序列的具体核苷酸序列:
75号:TACTATGA;
79号:CTTATAGA。
A、C碱基替换为符号A,将G、T碱基替换为符号B,替换后各标签序列的信息如下:
75号:BAABABBA;
79号:ABBABABA。
从上面序列信息可看出标签75和标签79的核苷酸经替换后具有差异的位置共有6个,将两个DNA文库混合上机测序。图6示出了这两个混库文库的实际测序标签序列的拆分率情况,可直观看出拆分率达到了98.31%。
对比例1
3个DNA文库编号分别为:TRDHUMknrTBKRAAPEI-213、TRDHUMknrTBLRAAPEI-214、TRDHUMknrTBMRAAPEI-215。
213、214、215标签序列的具体核苷酸序列:
213号:AGTCAA;
214号:AGTTCC;
215号:ATGTCA。
在本发明之前的现有技术中,只要标签序列编号不同的文库即可混库上机,故安排其进行了上机测序。
图7示出了截取的这3个混库文库的实际测序标签序列的拆分率情况,可直观看出拆分率为46.14%。这导致一条道(lane)损失了一半多的数据量。
按照本发明的转换规则,分析标签序列213、214和215号。A、C碱基替换为符号A,将G、T碱基替换为符号B,替换后各标签序列的信息如下:
213号:ABBAAA;
214号:ABBBAA;
215号:ABBBAA。
从上面序列信息发现其组成碱基转换后其仅在第4位碱基存在差异。
该对比例的结果再次表明本发明的方法对提升数据拆分率即数据有效利用率的有效性。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。