CN103993069B

CN103993069B - 病毒整合位点捕获测序分析方法

Info

Publication number: CN103993069B
Application number: CN201410109470.1A
Authority: CN
Inventors: 丘坤龙; 何铭辉
Original assignee: BGI Technology Solutions Co Ltd
Current assignee: BGI Technology Solutions Co Ltd
Priority date: 2014-03-21
Filing date: 2014-03-21
Publication date: 2020-04-28
Anticipated expiration: 2034-03-21
Also published as: CN103993069A

Abstract

一种病毒整合位点捕获测序分析方法，该方法包括：将人的参考序列和病毒的参考序列合并在一起，构建一个混合参考序列；读取测序数据，过滤其中不合格的部分，得到过滤后的测序数据；利用比对软件将处理后的测序数据比对到混合参考序列上，获取一个比对结果，然后对该比对结果进行处理，得到一个用于检测病毒整合的比对结果；根据该用于检测病毒整合的比对结果，执行相应的操作，获取病毒整合的相关序列；综合上述相关序列的比对信息，获取病毒整合位点在参考序列上的坐标；综合整合位点的坐标信息，得到并输出病毒整合结果。利用本发明可以获得具有高精确度的病毒整合位点信息。

Description

病毒整合位点捕获测序分析方法

技术领域

本发明属于基因工程技术、生物信息技术领域，尤其涉及一种病毒（HBV）整合位点捕获测序分析的方法。

背景技术

肿瘤病毒主要分为DNA病毒和RNA病毒。DNA病毒引起癌变的作用机理在于，病毒感染细胞后通过早期基因编码的转化蛋白结合或者作用于细胞的抑癌蛋白P53或者Rb上，从而引起P53或者Rb失活，导致细胞无限增殖和生长失控，最终诱发细胞转化和肿瘤形成。而RNA病毒基因组携带有病毒癌基因，其通过病毒癌基因转录翻译产生的蛋白引起宿主细胞转化和致癌作用。某些既不含有病毒癌基因，也不优先插入和整合在细胞癌基因附近的RNA病毒，则通过自身基因组P40tax调节蛋白以反式激活细胞增殖的相关基因表达，从而引起细胞无限增殖和诱发癌症的发生。此外对于HBV、HPV等整合性的病毒，则通过病毒的部分序列整合到宿主基因组中，引起相关基因表达的上调或者下调以及染色体的不稳定性，从而使正常的细胞向无限增殖的肿瘤细胞转化，所以研究病毒与宿主之间的整合关系对于阐明与病毒相关的肿瘤的发生发展机制具有重要的科学意义。

传统的研究方法主要有染色体步行PCR、qPCR、FISH等，但是这些方法存在工作繁琐、通量低、无法精确定位和确定整合拷贝数等缺陷，大大限制了该研究领域的发展。随着二代高通量测序的发展，产生了通过全基因组测序的方法（如全基因组鸟枪法WGS，whole-genome shotgun）研究病毒整合情况。虽然WGS测序分辨率达到单碱基水平并且一次性把所有整合事件进行检测，但是现阶段高昂的价格依然限制了其应用。

因而，本领域仍需对病毒整合位点捕获方法进行改进，以进一步优化测序结果，获得具有高精确度的整合位点信息。

发明内容

鉴于传统的方法（染色体步行PCR、qPCR、FISH等）存在无法精确定位和确定整合拷贝数等缺陷，对后续信息分析造成困难事实，本发明提供一种新的序列捕获及其分析方法（即病毒整合位点捕获分析方法）。本发明根据病毒的序列来设计捕获芯片（或称为病毒芯片）的捕获探针，把宿主基因组片段化之后再与捕获芯片杂交，在捕获到病毒序列同时也把整合位点附近的宿主DNA序列捕获下来，后续对捕获下来的序列进行测序以及生物信息分析，以达到全基因组水平检测病毒的整合位点和热点、病毒分型的目的。

一种病毒整合位点捕获测序分析方法，该方法包括：参考序列构建步骤，将人的参考序列和病毒的参考序列合并在一起，构建一个混合参考序列；数据过滤步骤，读取测序数据，过滤该测序数据中不合格的部分，得到过滤后的测序数据；数据比对步骤，利用比对软件将处理后的测序数据比对到混合参考序列上，获取一个比对结果，然后对该比对结果进行处理，得到一个用于检测病毒整合的比对结果；序列获取步骤，根据该用于检测病毒整合的比对结果，执行相应的操作，获取病毒整合的相关序列；整合位点获取步骤，综合上述相关序列的比对信息，获取病毒整合位点在混合参考序列上的坐标；分析结果输出步骤，综合整合位点的坐标信息，得到并输出病毒整合结果。

进一步地，在整合位点获取步骤之后、分析结果输出步骤之前，所述病毒整合位点捕获测序分析方法还包括：整合位点进阶分析步骤，根据病毒整合位点的坐标，寻找比对结果中支持整合的异常双末端测序序列对的数目，并统计整合位点处的深度、整合位点上下游预设范围的平均深度；所述分析结果输出步骤还包括，综合整合位点的坐标信息、异常双末端测序序列对的数目和深度信息对整合位点进行过滤，得到并输出乙肝病毒整合结果。

进一步地，所述序列获取步骤包括：序列获取步骤一，从比对结果中挑出截短比对上的测序序列，根据比对位置将相似度大于预设值的序列合并，然后利用比对软件，将被截掉的部分重新比对到混合参考序列上；序列获取步骤二，从比对结果中挑出两端都比对不上的双末端测序序列，将测通的双末端测序序列连成一条长序列，然后利用比对软件，将连接好的长序列比对回混合参考序列上。

本发明提供的是一种准确有效的病毒（HBV）序列捕获方法，能够更全面获得病毒（HBV）在样本中整合相关序列。通过与WGS（whole-genome shotgun，全基因组鸟枪法）数据比较，发现病毒（HBV）整合位点捕获测序与WGS数据一致性很高，并且能找到很多WGS找不到的低频整合位点，从而可以看出病毒（HBV）整合位点捕获测序具有更高的灵敏度。病毒（HBV）整合位点捕获测序与传统的方法，以及WGS方法相比，具有如下优势：

1）与人全基因组重测序相比，相同的数据量可得到更高深度，更可靠的整合位点信息。

2）可在全基因组范围内查找病毒整合位点，获得全面的断点信息。

3）可以通过对临床活体内病毒性癌基因组直接测序，更准确，省时省力。

本发明的方法特别可以应用于病毒分子分型、检测病毒整合位点和热点及寻找疾病标志物，以下通过乙肝病毒（HBV）整合位点捕获测分析方法对本发明进行详细说明。当然，本发明中所采用的方法也可以运用于其它病毒的检测。利用本发明可以获得具有高精确度的病毒整合位点信息。

附图说明

图1是乙肝病毒（HBV）整合位点捕获测序产品策略图；

图2是乙肝病毒（HBV）捕获技术流程图；

图3是乙肝病毒（HBV）整合位点捕获测序信息分析流程图；

图4是本发明所使用的软截短reads的示意图；

图5是软截短reads中比对上的部分和被截短的部分的示意图；

图6是合并后的截短序列示意图；

图7是过早截短的软截短reads的示意图；

图8是确定病毒整合位点的示意图；

图9是产生K-mer的示意图；

图10是截短序列重比对的示意图；

图11是乙肝病毒正向整合的示意图；

图12是乙肝病毒反向整合的示意图；

图13是寻找异常paired end reads的示意图；

图14是断点附近的微同源序列鉴别示意图；

图15是检测病毒整合断点处的小片段插入的示意图；

图16是整合的病毒片段的示意图。

具体实施方式

为了使本发明的描述更易于理解，以下先对具体实施方式部分用到的专业术语进行解释说明。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明应用于带有显示屏幕和输入设备的电子装置（如各种医疗检测设备）中。所述显示屏幕可以是触摸屏等显示装置，所述输入设备可以是键盘等输入装置。所述电子装置还包括通过数据线或信号线相连的存储器和处理器，及其它必要的电子元器件和系统软件，在此不再一一赘述。

所述电子装置中运行有病毒整合位点捕获测序信息分析系统（以下也简称为“系统”），该系统存储于电子装置的存储器中，用于根据病毒的序列来设计捕获芯片（或称为病毒芯片）的捕获探针，把宿主基因组片段化之后再与捕获芯片杂交，在捕获到病毒序列同时也把整合位点附近的宿主DNA序列捕获下来，后续对捕获下来的序列进行测序以及生物信息分析，以达到全基因组水平检测病毒的整合位点和热点、病毒分型的目的，具体方法流程参阅图1至图16的描述。

在本实施例中，所述病毒整合位点捕获测序信息分析系统可以提供一个或多个模块，所述一个或多个模块被存储在所述电子装置的存储器中并被配置成由一个或多个处理器执行，以完成本发明。本发明所称的模块是完成一特定功能的计算机程序段，比程序更适合于描述软件在计算机中的执行过程，以下各流程图中的步骤皆由相应的软件模块完成。

如图1和图2所示所示，本发明采取的文库构建策略中，病毒（HBV）整合位点捕获测序文库一般选择插入片段为170bp的文库，采用新的MyGenostics新平台进行序列捕获。

如图1和图2所示，本发明采取的测序策略中，测序平台为Hiseq2000，病毒（HBV）整合位点捕获测序文库测序一般为PE101。

本发明的测序流程包括：

1）文库构建策略：病毒（HBV）整合位点捕获测序文库一般选择插入片段为170bp（1bp=1碱基对）的文库，采用新的MyGenostics新平台进行序列捕获；

2）测序策略：测序平台为Hiseq2000，病毒（HBV）整合位点捕获测序文库测序一般为PE101；

3）实验流程：文库构建随机首先将至少3ug的基因组DNA打断成主带集中于170bp长的DNA片段，随后进行DNA片段末端修复，在片段的3’段加上“A”，然后连接文库接头，进行PCR，构建出初始杂交文库。将构建的初始杂交文库与病毒芯片进行杂交，富集目的片段，洗脱后进行PCR扩增，得到最终的杂交文库。最后，采取PE101的测序策略上机测序，得到每个样品的过滤后的下机数据(clean data)至少1Gb。

本发明的信息分析内容包括：

1)去除接头污染和低质量数据；

2)比对，产出数据的统计；

3)病毒分型，SNP、InDel检测、注释及统计；

4)检测全基因组水平的病毒整合位点和热点；

5)病毒整合支持reads和整合频率统计；

6)对人基因组上整合基因和整合位点附近基因进行Pathway，GO富集分析；

7）定制化信息分析。

在本发明中，将人的DNA参考序列和乙肝病毒的DNA参考序列合并在一起，构建一个人和乙肝病毒的混合参考序列。

本发明中，建库初始的DNA总量≥6ug(样品总量为满足2次及2次以上建库的样品标准，1次用量为3ug)；>1ug起始的建库也可以尝试，但是成功率约在70-80%，且有效数据比例会降低。

本发明中，样品纯度在OD260/280=1.8～2.0为佳。

本发明中，样品的浓度越高越好，最低>50ng/ul。

本发明中，DNA样品判定标准：Level A为满足两次及两次以上建库的样品标准，Level B为满足一次建库的样品标准。

表1病毒（HBV）整合位点捕获测序样品判定标准

在本发明中，所述打断DNA片段为170bp，该片段大小是指打断后进行电泳主带的位置。

在本发明中，在进行DNA片段末端修复时，在片段的3’段加上“A”，然后连接文库接头，进行PCR，构建出初始杂交文库。

在本发明中，捕获芯片的捕获探针根据病毒的序列进行设计，再将构建的初始杂交文库与病毒芯片（即捕获芯片）进行杂交。将目的片段经过富集、洗脱、扩增后得到最终的杂交文库。

在本发明中，测序可以在高通量测序平台上进行，如Illumina Solexa或Roche454等。采取PE101的测序策略上机测序，得到每个样品的clean data至少1Gb。

如图3所示，是本发明乙肝病毒（HBV）整合位点捕获测序信息分析流程图。

步骤S10，构建混合参考序列。

本发明中，将人的DNA参考序列和乙肝病毒的DNA参考序列合并在一起，构建一个人和乙肝病毒的混合参考序列（以下简称“混合参考序列”或“参考序列”）。

本发明中，如下所示，测序数据以fq格式保存：

步骤S11，读取测序数据，过滤该测序数据中不合格的部分。在本发明中，在对测序数据质控（接头污染，读N问题等）中，测序数据过滤策略为去除含adapter(接头)的reads（读序）、去除含N比例大于10%的reads及去除低质量reads(质量值Q≤5的碱基数占整条read的50％以上)。

步骤S12，获取过滤后的测序数据，最后得到高质量的测序数据。

步骤S13，判断处理后的测序数据的质量是否合格。本发明中，对测序数据的质量要求Q20>83%（Q20表示碱基质量值大于等于20的碱基所占的百分比）。

在本发明中，为了评估本发明的方法的优势，本发明拿病毒（HBV）整合位点捕获测序检测到的HBV整合的结果与全基因组测序检测出的HBV整合的结果进行比较，得到的结果如下表所示：

表2与全基因组测序数据病毒整合结果的一致性

与全基因组测序数据比较，发现本发明使用的病毒捕获测序与全基因组测序数据得到的结果一致性很高，并且能找到很多全基因组测序数据找不到的低频整合位点，从而可以看出病毒捕获测序具有更高的灵敏度。

步骤S14，利用比对软件将处理后的测序数据比对到混合参考序列上，获取一个SAM格式(http://samtools.sourceforge.net/SAMv1.pdf)的比对结果。本发明中，可采用BWA（Burrows-Wheeler Aligner）比对软件将测序序列与混合参考序列做比对分析。

步骤S15，对所述比对结果做排序、标记建库时扩增导致的重复等一系列处理，得到一个用于检测病毒整合的比对结果。

步骤S16，根据该用于检测病毒整合的比对结果，执行相应的操作，获取病毒整合的相关序列。包括：从比对结果中挑出两端都比对不上的双末端测序序列（paired-endreads），将测通的双末端测序序列连成一条长序列，然后用BWA的bwasw命令，将连接好的长序列比对回混合参考序列上（步骤S161至步骤S163）；从比对结果中挑出那些截短比对上的测序序列（即“测序数据”中的序列，测序仪生成的序列），根据比对位置将高度相似的序列合并，例如，将相似度大于85％（默认值，可以调整）的序列合并，然后用BWA比对软件，将被截掉的部分重新比对到混合参考序列上（步骤S165至步骤S167）。

具体而言，本发明根据SAM格式比对结果的软截短reads(soft-clipped reads，如图4所示)，初步筛选出与病毒整合或DNA结构变异相关的reads。软截短reads分为两种，第一种是因为reads末端测序质量值很低而截短的，第二种是reads跨过了DNA结构变异或病毒整合的断点，BWA采用动态规划算法进行的截短。第二种reads才是本发明所需要的soft-clipping reads。这种reads所对应的配偶reads（mate reads）一般是能够全长（可能会有错配和小的插入缺失）比对到特定的位置。如果一个read因为末端测序质量值而截短，BWA比对结果中，有一个XC标志位。本发明根据XC标志位，初步筛选出符合本发明要求的软截短reads。

软截短reads可以分为比对上的和被截短的两部分，一般情况下，比对上的部分都是靠近其mate reads，如图5所示。

本发明根据软截短reads比对上部分的比对位置和reads被截短的方向，将软截短reads分成若干组，同一组内的软截短reads将截短的部分进行合并，如果两条序列的一致率达到85%（默认值，可以调整），则认为这两条序列来自同一个断点，将这两条序列合并成一条最长序列。如此循环，来自于同一断点的同一方向的截短序列将会被合并成一条最长序列。合并后的最长序列分为两种，一种是左端截短序列，另一种是右端截短序列，如图6所示。

本发明会对比对不准确的软截短reads进行校正，然后再与前面合并好的截短序列进行合并。比对结果中，由于质量值或其它原因，会出现一些异常比对的软截短reads，这些reads本来正确的情况下，应该在X处截短，结果却在X-n或者X+m处就截短了。如图7所示，圈中的reads便是过早截短的软截短reads。在这种情况下，本发明会根据两个比对位置的差异，将过早截短reads的截短部分的序列补充一部分，到比对上的那部分序列中（如图7所示，圈圈中R3左端的R2部分，即R1与R3交界处到中间垂直虚线处的序列，便会被补充到左边的R1序列中），再与合并后的比对上的序列进行比较，如果两者一致率达到85%，则合并成一个序列，同时reads支持数加上1。

在信息完整的情况下，每一个大的DNA结构变异或者病毒整合造成的断点上的reads，都会既有左端截短的软截短reads又有右端截短的软截短reads，左端截短的若干软截短reads可以合并成一个长的左端截短的一致性序列，右端截短的若干软截短reads可以合成一个长的右端截短的一致性序列。这两种一致性序列都会有一个比对位置，如图8所示的pos1和pos2，本发明根据这两种一致性序列的比对位置，可以确定一部分病毒整合位点。

步骤S17，综合以上序列的比对信息，获取病毒整合位点在参考序列上的坐标（或称之为“病毒整合位置”）。本发明采用根据左端截短的软截短的一致性序列和右端截短的软截短一致性序列的匹配情况和比对上部分的比对位置，去确定断点（连接点）。以右端截短的软截短为例，一致性序列比对上的部分,首先第一次生成长度为K的一段碱基序列K-mer，如果一致率序列比对上的部分长度为L，则第一次生成的K-mer的数量为L-K+1（如图9所示）。然后遍历一端左端截短的一致性序列，把左端的截短部分第二次生成长度为K的K-mer，如果左端截短序列长度为M，则第二次生成的K-mer数量为M-K+1个。拿第二次生成的K-mer与第一次生成的K-mer进行匹配，如果有两个K-mer完全匹配，则左边截短的软截短序列可以初步定位到右边截短的软截短序列上。之后根据两者的相对位置，进行全长一致性匹配，如果两者的一致率达到0.85，则认为这两条软截短一致性序列来自同一断点，两者比对上的位置，便是断点的两个断开位置。左端截短的软截短与右端截短的软截短方法类似，在此不再赘述。

图9中所用的方法是针对比较理想的既有左截短软截短序列支持又有右截短软截短序列支持的断点，还有一部分断点只有左截短软截短序列支持或者只有右截短软截短序列支持，这种情况采用的方法是将软截短序列的截短部分比对回参考序列，如果截短序列唯一比对到参考序列上，则根据其比对位置和先前软截短序列比对上的部分的比对位置确定一个断点。如图10所示，中间的一段细线（R4+R5）便是软截短序列，其中R4部分是比对上的部分，其比对位置为pos1，R5部分是被截短的部分，最下方的长条（R6）代表参考序列(reference)。把软截短序列的截短部分比对回参考序列（即混合参考序列），可以唯一比对到pos2，这时，可以根据pos1和pos2确定一个断点。

本发明会对乙肝病毒整合序列的整合方向进行严格检测和区分，在软截短序列中，如果软截短序列的比对上的部分和被截掉的部分都是正向比对回参考序列，那么此乙肝病毒直接正向整合到人的基因组，若软截短序列的比对上的部分和被截掉的部分一个正向比对到参考序列，一个负向比对到参考序列，那么此病毒整合的整合方式是：乙肝病毒序列先发生了一个倒置（inversion），然后再整合到人的基因组中。图11和图12中，中间部分代表病毒序列，左右两侧部分代表人的序列。图11表示正向整合，图12表示反向（倒置）整合。

步骤S18，根据病毒整合位点的坐标信息，寻找比对结果中支持整合的异常双末端测序序列对的数目，并统计整合位点处的深度、整合位点上下游200bp范围（默认值，可以调整）的平均深度。本发明基于软截短reads找到DNA结构变异和病毒整合的断点后，还会根据特定算法寻找异常paired end reads的支持，那些既有软截短reads支持，又有异常pairedend reads支持的病毒整合是可靠性比较高的整合。图13中，跨过中间虚线的那对reads便是异常paired end reads。为了确定异常paired end reads,首先要基于比对结果计算出平均插入片断长度L和标偏差sd，比对结果中记录的某paired end reads的插入片断长度记为RL。则异常paired end reads必须满足以下两个条件：

1.RL<L–4*sd或者RL>L+4*sd；

2.在up_chr（上游染色体）与down_chr（下游染色体）不相同的条件下，L–4*sd<=|pos2‐pos1+1|+|pos4‐pos3+1|<=L+4*sd。其中，pos1、post2、post3、post4分别是相应read的相应位置在参考序列上的坐标。

其中，条件一表示只要比对结果中记录的paired end reads的插入片断长度小于平均插入片断长度L减去4倍标准差或者大于平均插入片断长度L加上4倍标准差，本发明就判定这些paired end reads是异常的paired end reads，用作支持病毒整合的候选。

条件二表示在上游染色体和下游染色体不同的条件下，比对结果显示的插入片断长度是0，这个0意味着插入片断长度异常，|pos2‐pos1+1|表示上游片断的长度，|pos4‐pos3+1|表示下游片断的长度，两者相加，便是整个片断的实际长度，只要这个长度大于或等于平均插入片断长度L减去4倍标准差并且小于或等于平均插入片断长度L加上4倍标准差，本发明就判定这个paired end reads是支持病毒整合的异常paired end reads。

步骤S19，综合整合位点的坐标信息、异常双末端测序序列对的数目和深度信息对整合位点进行过滤，输出最终的乙肝病毒整合结果。

当人DNA断点和病毒DNA/RNA断点附近有微同源序列时，本发明可以鉴别出微同源的序列及其长度。如图14所示，病毒整合后的连接序列为

中间的CCCCC属于病毒和人的微同源(micro-homology)序列，其断开位置可以在A点，也可以在中间5个C中的任何一个C后面。本发明的方法会记录其最左端的位置（如A点）、微同源长度和微同源序列。

本发明还可以检测病毒整合断点处的小片断插入。如图15所示，正常情况下，是A和B点发生连接，而中间多了一段ACGTC，这种情况本发明也可以检测出来。具体方法是被截短的序列比对回参考序列时，这段新序列ACGTC比对不回参考序列，本发明会对这段序列进行标记，以检测出该段新序列ACGTC。

最理想的病毒整合情况是，人的DNA序列在某处发个断开，断开后会产生两个断点，这两个断点分别接上病毒序列。这时，会产生两个连接处（junction position），如图16所示。但是，因为病毒整合后，会导致DNA结构不稳定，很可能两个连接点只能检测到一个。如果两个连接点都存在，本发明可以把两个连接点都检测出来，并给出整合的病毒片断的坐标。也有一种情况是人的DNA序列先发生了一个缺失，再在缺失处整合进一段病毒序列，这种情况本发明也可以检测出来。

从上述内容可知，本发明能够更全面获得病毒（HBV）在样本中整合相关序列。通过与WGS（whole-genome shotgun，全基因组鸟枪法）数据比较，发现病毒（HBV）整合位点捕获测序与WGS数据一致性很高，并且能找到很多WGS找不到的低频整合位点，从而可以看出本发明病毒（HBV）整合位点捕获测序具有更高的灵敏度。

与人全基因组重测序相比，相同的数据量本发明可得到更高深度，更可靠的整合位点信息，可在全基因组范围内查找病毒整合位点，获得全面的断点信息，且可以通过对临床活体内病毒性癌基因组直接测序，更准确，省时省力。

Claims

1.一种病毒整合位点捕获测序分析方法，其特征在于，该方法包括：

参考序列构建步骤，将人的参考序列和病毒的参考序列合并在一起，构建一个混合参考序列；

数据过滤步骤，读取测序数据，过滤该测序数据中不合格的部分，得到过滤后的测序数据；

数据比对步骤，利用比对软件将处理后的测序数据比对到混合参考序列上，获取一个比对结果，然后对该比对结果进行处理，得到一个用于检测病毒整合的比对结果；

序列获取步骤，根据该用于检测病毒整合的比对结果，执行相应的操作，获取病毒整合的相关序列；

整合位点获取步骤，综合上述相关序列的比对信息，获取病毒整合位点在混合参考序列上的坐标；及

分析结果输出步骤，综合整合位点的坐标信息，得到并输出病毒整合结果，

所述数据过滤步骤包括：

去除含接头的测序序列、不明确碱基型的碱基N的比例大于预设值的测序序列、及质量低于预设要求的测序序列，所述预设要求为：质量值Q≤5的碱基数占整个测序序列的50%以上；

所述序列获取步骤包括：

序列获取步骤一，从比对结果中挑出截短比对上的测序序列，根据比对位置将相似度大于预设值的序列合并，然后利用比对软件，将被截掉的部分重新比对到混合参考序列上；及

序列获取步骤二，从比对结果中挑出两端都比对不上的双末端测序序列，将测通的双末端测序序列连成一条长序列，然后利用比对软件，将连接好的长序列比对回混合参考序列上。

2.如权利要求1所述的病毒整合位点捕获测序分析方法，其特征在于，在整合位点获取步骤之后、分析结果输出步骤之前，还包括：

整合位点进阶分析步骤，根据病毒整合位点的坐标，寻找比对结果中支持整合的异常双末端测序序列对的数目，并统计整合位点处的深度、整合位点上下游预设范围的平均深度，

所述异常双末端测序序列的寻找方法包括：

根据比对结果计算出平均插入片断长度和标偏差，则异常双末端测序序列满足以下条件一与条件二：

条件一，比对结果中记录的双末端测序序列的插入片断长度小于平均插入片断长度减去4倍标准差或者大于平均插入片断长度加上4倍标准差；

条件二，在上游染色体和下游染色体不同的条件下，整个片断的实际长度大于或等于平均插入片断长度减去4倍标准差并且小于或等于平均插入片断长度加上4倍标准差。

3.如权利要求2所述的病毒整合位点捕获测序分析方法，其特征在于，所述序列获取步骤一包括：

根据比对结果中的软截短reads比对上的部分的比对位置和reads被截短的方向，将软截短reads分成若干组，同一组内的软截短reads将截短的部分进行合并；

如果两条序列的一致率达到预设值，则判定该两条序列来自同一个断点，将这两条序列合并成一条最长序列，重复该步骤，将来自于同一断点的同一方向的截短序列合并成一条最长序列。

4.如权利要求3所述的病毒整合位点捕获测序分析方法，其特征在于，所述序列获取步骤还包括：

对比对不准确的软截短reads进行校正，然后再与已经合并好的截短序列进行合并，合并后的最长序列包括：左端截短的若干软截短reads合并成的左端截短一致性序列，右端截短的若干软截短reads合并成的右端截短一致性序列；

所述对比对不准确的软截短reads进行校正的步骤包括：

根据两个比对位置的差异，将过早截短reads的截短部分的序列补充指定部分到比对上的那部分序列中，再与合并后的比对上的序列进行比较，如果两者一致率达到预设值，则合并成一个序列，同时reads支持数加上1。

5.如权利要求4所述的病毒整合位点捕获测序分析方法，其特征在于，所述整合位点获取步骤包括：

根据左端截短一致性序列和右端截短一致性序列的匹配结果和比对上部分的比对位置，确定整合位点在混合参考序列上的坐标。

6.如权利要求5所述的病毒整合位点捕获测序分析方法，其特征在于，所述整合位点获取步骤包括：

如果采用右端截短一致性序列，针对一致性序列比对上的部分，首先第一次生成长度为K的一段碱基序列K-mer，如果一致率序列比对上的部分长度为L，则第一次生成的K-mer的数量为L-K+1；

遍历一端左端截短的一致性序列，将左端的截短部分第二次生成长度为K的K-mer，如果左端截短序列长度为M，则第二次生成的K-mer数量为M-K+1个；

将第二次生成的K-mer与第一次生成的K-mer进行匹配，如果有两个K-mer完全匹配，则将左边截短的软截短序列初步定位到右边截短的软截短序列上；及

根据两者的相对位置，进行全长一致性匹配，如果两者的一致率达到预设值，则判定该两条软截短一致性序列来自同一断点，两者比对上的位置，即是断点的两个断开位置。

7.如权利要求6所述的病毒整合位点捕获测序分析方法，其特征在于，所述整合位点获取步骤还包括：

如果一部分断点只有左截短软截短序列支持或者只有右截短软截短序列支持，则将软截短序列的截短部分比对回混合参考序列，如果截短序列唯一比对到混合参考序列上，则根据其比对位置和先前软截短序列比对上的部分的比对位置确定一个断点。

8. 如权利要求6所述的病毒整合位点捕获测序分析方法，其特征在于，所述分析结果输出步骤包括：

如果软截短序列的比对上的部分和被截掉的部分都是正向比对回混合参考序列，则分析结果判定该病毒正向整合到人的基因组；及

若软截短序列的比对上的部分和被截掉的部分一个正向比对到混合参考序列，另外一个负向比对到混合参考序列，则分析结果判定该病毒反向整合到人的基因组。