CN111445956A

CN111445956A - 一种二代测序平台的基因组数据高效利用方法和装置

Info

Publication number: CN111445956A
Application number: CN202010328112.5A
Authority: CN
Inventors: 黄毅; 陈海新; 杨玲; 吴玲清; 刘久成
Original assignee: Suzhou Jiyinjia Biomedical Engineering Co ltd; Beijing Jiyinjia Medical Laboratory Co ltd
Current assignee: Suzhou Jiyinjia Biomedical Engineering Co ltd; Beijing Jiyinjia Medical Laboratory Co ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-07-24
Anticipated expiration: 2040-04-23
Also published as: CN111445956B

Abstract

本发明公开了一种二代测序平台的基因组数据高效利用方法和装置，其中，所述方法包括：(1)对二代测序原始数据进行质控，质控中保留中部或尾部包含接头序列的读对；(2)质控达标的数据与参考基因组进行比对后，获得全长比对、部分比对以及未比对上三种比对情况；(3)针对三种比对情况，分别捕获插入片段的起点和终点，统计插入片段的长度。本发明方法保留了更多短片段的数据，以及准确定位插入片段的起点和终点，准确剔除测序数据中的外源序列，该方法可以有效提高血浆中检测到的短片段ctDNA含量，有助于二代测序数据在在液体活检中的高效应用。

Description

一种二代测序平台的基因组数据高效利用方法和装置

技术领域

本发明涉及生物信息技术领域，具体涉及一种基于二代测序设备双末端测序策略的基因组数据的处理方法与装置。

背景技术

测序成本的大幅下降，以及近年来的科研进展加快，使得基于第二代测序技术的产品能够普及到临床的诊断和辅助治疗方面。当前二代测序仪主流为双端测序策略，读段读长分别为100bp和150bp。当一部分来自于人类基因组的DNA片段短于100bp时，这部分DNA片段在采用100bp或150bp的测序策略时，测序读长除了包含插入片段序列，末端还会包含不等长的非插入片段的干扰序列，如接头序列或其他建库辅助序列。干扰序列太长导致测序读段在数据标准分析过程中会在多个质控环节被剔除，从而导致部分测序数据丢失。

细胞游离DNA(cfDNA)存在于人类的循环血浆、尿液和其他体液中。cfDNA由双链DNA片段组成，这些片段非常短(<200碱基对[bp])，在健康个体中，血浆cfDNA被认为主要来源于造血系正常细胞的凋亡，而来自其他组织的贡献很小。对于肿瘤患者来说，肿瘤细胞能释放大量携带来自肿瘤细胞的大量突变信息的DNA到血液中，简称为循环肿瘤DNA(ctDNA)。血浆中ctDNA含量很低，且血浆中ctDNA片段比cfDNA更短。人体血液样本中长度小于100bp的遗传片段的比重能高达20％，尿液的cfDNA则比例更大。这部分短DNA片段如果能够被保留，可以有效减少数据流失，防止数据失真，从而提高检测癌症患者外周血中cfDNA基因组改变的灵敏度，有助于检测点突变和以前无法检测到的拷贝数变异。而且通过片段选择，甚至可以减少非肿瘤来源的cfDNA的占比，提高下游分析的信噪比。

目前主要是通过实验方法进行片段的选择，比如高通量自动化DNA片段回收系统，或者通过采用读长为50bp的双端测序策略。这些方法都在一定程度上增加了额外的实验或测序成本。

发明内容

因此，本发明要解决的技术问题在于，克服现有技术中并没有能够在不增加额外的实验或测序成本的情况下实现提高低于测序读长的核酸短片段检出量的问题，本发明提供一种不增加任何额外的实验和测序成本的基础上，利用常规的二代测序数据，在生物信息分析过程中通过特殊的质控步骤和比对结果过滤步骤，保留了更多短片段的数据的基因组数据高效利用方法，并提供了该方法的装置。

一种二代测序平台的基因组数据高效利用方法，包括：

(1)对二代测序原始数据进行质控，质控中保留中部或尾部包含接头序列的读对；

(2)质控达标的数据与参考基因组进行比对后，获得全长比对、部分比对以及未比对上三种比对情况；

(3)针对三种比对情况，分别捕获插入片段的起点和终点，统计插入片段的长度。

所述二代测序原始数据为Illumina、BGISEQ或Gene⁺Seq二代测序平台的测序数据；优选的，选择Gene⁺Seq 2000或Gene⁺Seq 200二代测序平台进行测序的数据，测序策略为双末端测序，读对包含两个成对读段，分别是读段1和读段2，读段长度为100bp或150bp。

所述质控包括保留质量过滤阈值为Q20需大于80％的读段，去除N的比例大于碱基总数10％的读段，剔除读段起始端的接头序列，保留读段中部或尾部包含接头序列的读段。

所述质控达标的数据与人类参考基因组采用bwa-MEM软件进行比对，bwa-MEM软件的参数-T设置为0，-k设置为17，-D设置为0.1。

三种比对情况通过比对结果文件中的标签列和Cigar字段进行区分；

所述全长比对的情况是读段1和读段2中的Cigar字段除了M外无其它字符串，且插入片段的长度大于测序读长；

所述部分比对的情况是读段1和读段2中的Cigar字段除了M外还具有S字符串或H字符串；

所述未比对上的情况是读段1和读段2中任一读段比对不上参考基因组。

所述比对情况为全长比对时，对捕获的插入片段的起点和终点以及插入片段的长度不做处理。

所述比对情况为部分比对时，对部分比对的结果进行过滤，过滤条件包括：读段1和读段2的起始端能比对到参考基因组，均大于30bp，且读段1和读段2比对到基因组的部分是互补的，比对结果质量值大于1；所述比对结果质量值为MAPQ值。

所述比对情况为部分比对时，插入片段的大小借助读段1和读段2的测序起点作为锚点，读段1和读段2的测序起始端的比对位置分别作为插入片段的比对起点和终点，进而得到准确的插入片段长度；根据插入片段长度对读段1和读段2进行尾端序列的剔除处理，并根据具体剔除长度对Cigar字段进行更新。

所述比对情况为未比对上时，使用局部比对软件对序列进行片段化比对；比对要求为：找出读段和参考基因组之间所有匹配程度超过指定阈值的区间，并仅保留读段1和读段2测序起始端比对到相同位置且读段1比对片段和读段2比对片段为反向互补的情况。

所述比对情况为未比对上时，局部比对软件为BLAST，指定阈值为：比对长度超过30bp，一致性超过90％。

针对三种比对情况，若测序读段还包含其它用于提高测序准确性和降噪功能的建库辅助序列，插入片段长度还需扣除掉建库辅助序列的长度。

一种二代测序平台的基因组数据高效利用的装置，包括：

质控模块，实现对测序数据进行质控、过滤，保留中部或尾部包含接头序列的读段；

比对模块，实现对质控达标数据与人类参考基因组进行比对，获得全长比对、部分比对以及未比对上三种比对情况；

计算模块，实现对不同比对情况的读对，分别准确捕获片段起点和终点，统计插入片段长度。

本发明技术方案，具有如下优点：

1.本发明在不增加任何额外的实验和测序成本的基础上，利用常规的二代测序数据，在生物信息分析过程中通过特殊的质控步骤和比对结果过滤步骤，保留了更多短片段的数据，以及准确定位插入片段的起点和终点，准确剔除测序数据中的外源序列。

2.本发明的方法可以用于提高血浆中检测到的短片段ctDNA含量，有助于克服二代测序数据在癌症早期诊断、微小残留疾病检测中应用的局限性，有助于二代测序数据在在液体活检中的高效应用。

附图说明

图1为本发明方法的流程图；

图2为读对全长比对参考基因组示意图；

图3为读对部分比对参考基因组示意图；

图4为未比对上的读段BLAST比对参考基因组示意图。

其中，附图中对应的附图标记如下：

1-插入片段，2-接头不等长序列，3-接头序列或/和建库辅助序列。

具体实施方式

提供下述实施例是为了更好地进一步理解本发明，并不局限于所述最佳实施方式，不对本发明的内容和保护范围构成限制，任何人在本发明的启示下或是将本发明与其他现有技术的特征进行组合而得出的任何与本发明相同或相近似的产品，均落在本发明的保护范围之内。

实施例中未注明具体实验步骤或条件者，按照本领域内的文献所描述的常规实验步骤的操作或条件即可进行。所用试剂和仪器未注明生产厂商者，均为可以通过市购获得的常规试剂或仪器，本发明中涉及的软件程序均是常规软件。

实施例1

一种二代测序平台的基因组数据高效利用方法，如图1所示，包括：

(1)对构建好的文库进行二代测序，对测序数据进行质控、过滤；

采集1名肿瘤患者的外周血(北京吉因加医学检验实验室提供)应用Gene+Seq2000测序平台进行全基因组测序，测序策略为双末端测序，测序读长为100bp。

二代测序原始数据下机后，在使用前，常规的方法通常首先会进行数据的过滤处理，去除包含去接头污染的读段、低质量的reads以及测序读N的读段，该N表示无法确定碱基信息。接头污染的读段是指当文库构建的部分插入片段小于测序读长时，会在测序的中部或末端出现测到不等长接头序列的情况，那么含有接头序列的插入片段即为接头污染的读段。由于接头序列非样本本身实际插入片段的序列，故需要在测序完成后进行去除，以免影响到样本碱基的随机性和信息分析的准确性。

本发明方法则保留这部分短插入片段，具体为：本发明应用fastp软件对下机数据进行质控时，质量过滤阈值为Q20需大于80％的读段才保留，去除N的比例大于碱基总数的10％的读段，而接头处理只剔除读段起始端的接头序列，对于读段中部或尾部包含接头序列的情况，不做处理保留输出。

(2)上述步骤获得的质控达标数据与人参考基因组进行比对，不执行比对质量值过滤，获得全长比对、部分比对以及未比对上三种比对情况；具体如下：

中部或尾部包含了接头冗余序列的读段，将会影响比对质量分值。为了保留所有的比对结果，使用bwa-MEM软件将质控达标的读段比对到人类参考基因组序列，比对结果不进行质量值过滤(bwa参数设置-T minimum score to output 0-k minimum seed length17-D drop chains shorter than FLOAT fraction of the longest overlapping chain0.1)。

读对包含两个成对读段，分别是读段1和读段2；当一个读对的两个读段被比对到参考基因组时，根据比对结果文件的标签列(flag)或Cigar字段可获取读对的比对情况，可分为三种比对情况，包括全长比对、部分比对以及未比对上。

第一种情况：全长比对。读段1和读段2都能全长比对的情况是二者的Cigar字段除了M外无其它字符串，插入片段的长度大于测序读长的，如图2所示。

第二种情况：部分比对。部分比对主要是由于读段的中部或者尾部包含接头序列，如图3所示，导致比对结果的准确度降低，比对的地位出现偏差，出现软剪辑读段和硬剪辑读段，其中，软剪辑读段是读段被比对到参考基因组时，一条读段被切成两段，匹配到不同的区域，截取的部分会出现在比对结果文件中，在Cigar字段中以S字符串标记，而硬剪辑读段截取部分不会出现在比对结果文件中，在Cigar字段中以H字符串标记。

第三种情况：未比对上。未比对上的读段是因为读段中间或末端包含了太多的非插入片段的序列。如：接头序列或其他建库辅助序列，干扰序列太长导致未能比对上参考基因组，如图4所示。包括读段1和读段2均比对不上参考基因组，或者，其中一段能比对上参考基因组、另外一段读段比对不上参考基因组的情况。

(3)针对上述三种比对情况，分别用不同的方法准确捕获片段起点和终点，统计插入片段长度，保留目标长度的短片段序列；具体如下：

针对第一种情况：全长比对

这种情况原始比对结果文件中比对的位置和插入片段的长度评估是正确的，无需做处理。表1展示了其中部分校正前后读对全长比对参考基因组的统计结果作为示例，其中读段1标签为99，代表了PAIRED,PROPER_PAIR,MREVERSE,READ1，读段2标签为147代表了PAIRED,PROPER_PAIR,REVERSE,READ2。

表1

针对第二种情况：部分比对

对部分比对的结果进行过滤，过滤条件包括：读段1和读段2的起始端能比对到参考基因组，均大于30bp，且读段1和读段2比对到基因组的部分是互补的，MAPQ值大于1。

插入片段的大小需借助读段1和读段2的测序起点作为锚点，读段1和读段2的测序起始端的比对位置分别作为插入片段的比对起点和终点，从而得到准确的插入片段长度。根据插入片段长度对读段1和读段2进行剔除尾端序列处理，并根据具体剔除长度对Cigar值进行更新。表2展示了其中部分校正前后读对部分比对参考基因组的统计结果作为示例，如：读对中的读段1比对到1号染色体的12279217，Cigar字段为79M21S，即只有79个碱基为完整比对到参考基因组的序列，21个碱基可能为接头序列，未比对到参考基因组；读段2比对到1号染色体的12279295位置，Cigar字段未22S78M，结合标签147对其进行转换，根据其比对起点为12279294；比对长度为78个碱基序列，得出校正后的插入片段大小长度为78bp，并将读段1和读段2的Cigar均校正为78M。

表2

针对第三种情况：未比对上

针对未必对上的读段，使用局部比对软件BLAST对序列进行片段化比对，找出读段和参考基因组间所有比对长度超过30bp，一致性超过90％的区间。为了保证准确性，我们对BLAST的结果进行过滤，仅保留读段1和读段2测序起始端比对到相同位置且读段1比对片段和读段2比对片段为反向互补的情况。BLAST未比对上或者不符合过滤条件的读段将被去除。表4展示了校正前后比对不上参考基因组的结果统计情况，经BLAST软件比对后找回的短片段。

表3

实施例2

一种二代测序平台的基因组数据高效利用装置，其用于实现基因组数据高效利用方法，具体包括：

对比例

本对比例为标准流程，即，应用常规流程对同一样本数据进行处理。本对比例中与实施例1的区别在于：质控步骤中，过滤掉所有包含接头序列的读段，Q20>80％；比对步骤中，过滤比对质量值小于30的读段。

对比实施例1中的方法和对比例的标准流程对短片段数据的保留效果，结果参见表4。

表4

通过表4的数据可以发现，本发明方法能很好的保留片段长度<100的短片段，提高比对率，实现高效利用测序数据。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种二代测序平台的基因组数据高效利用方法，其特征在于，包括：

2.根据权利要求1所述的二代测序平台的基因组数据高效利用方法，其特征在于，所述二代测序原始数据为Illumina、BGISEQ或Gene⁺Seq二代测序平台的测序数据；优选的，选择Gene⁺Seq 2000或Gene⁺Seq 200二代测序平台进行测序的数据，测序策略为双末端测序；读对包含两个成对读段，分别是读段1和读段2，读段长度为100bp或150bp。

3.根据权利要求1或2所述的二代测序平台的基因组数据高效利用方法，其特征在于，所述质控包括保留质量过滤阈值为Q20需大于80％的读段，去除N的比例大于碱基总数10％的读段，剔除读段起始端的接头序列，保留读段中部或尾部包含接头序列的读段。

4.根据权利要求1-3任一所述的二代测序平台的基因组数据高效利用方法，其特征在于，所述质控达标的数据与人类参考基因组采用bwa-MEM软件进行比对，bwa-MEM软件的参数-T设置为0，-k设置为17，-D设置为0.1。

5.根据权利要求1-4任一所述的二代测序平台的基因组数据高效利用方法，其特征在于，三种比对情况通过比对结果文件中的标签列和Cigar字段进行区分；

6.根据权利要求5所述的二代测序平台的基因组数据高效利用方法，其特征在于，所述比对情况为全长比对时，对捕获的插入片段的起点和终点以及插入片段的长度不做处理。

7.根据权利要求1-6任一所述的二代测序平台的基因组数据高效利用方法，其特征在于，对部分比对的结果进行过滤，过滤条件包括：读段1和读段2的起始端能比对到参考基因组，均大于30bp，且读段1和读段2比对到基因组的部分是互补的，比对结果质量值大于1。

8.根据权利要求5-7任一所述的二代测序平台的基因组数据高效利用方法，其特征在于，所述比对情况为部分比对时，插入片段的大小借助读段1和读段2的测序起点作为锚点，读段1和读段2的测序起始端的比对位置分别作为插入片段的比对起点和终点，进而得到准确的插入片段长度；根据插入片段长度对读段1和读段2进行尾端序列的剔除处理，并根据具体剔除长度对Cigar字段进行更新。

9.根据权利要求5-8任一所述的二代测序平台的基因组数据高效利用方法，其特征在于，所述比对情况为未比对上时，使用局部比对软件对序列进行片段化比对；比对要求为：找出读段和参考基因组之间所有匹配程度超过指定阈值的区间，并仅保留读段1和读段2测序起始端比对到相同位置且读段1比对片段和读段2比对片段为反向互补的情况。

10.根据权利要求9所述的二代测序平台的基因组数据高效利用方法，其特征在于，所述比对情况为未比对上时，局部比对软件为BLAST，指定阈值为：比对长度超过30bp，一致性超过90％。

11.根据权利要求1所述的二代测序平台的基因组数据高效利用方法，其特征在于，针对三种比对情况，若测序读段还包含建库辅助序列，插入片段长度还需扣除掉建库辅助序列的长度。

12.一种二代测序平台的基因组数据高效利用的装置，其特征在于，包括：