CN110021351B

CN110021351B - 分析碱基连锁强度以及基因分型方法和系统

Info

Publication number: CN110021351B
Application number: CN201810796970.5A
Authority: CN
Inventors: 孙宇辉; 王欧; 王婧琬; 李伟阳; 王珑龙; 方明艳; 刘晓
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2023-04-28
Anticipated expiration: 2038-07-19
Also published as: CN110021351A

Abstract

本发明涉及生物信息领域，具体涉及一种分析碱基连锁强度以及基因分型方法和系统。分析碱基连锁强度的方法，包括：(1)基于长片段核酸获取测序结果，所述测序结果由多个测序读段构成，所述多个测序读段的至少一部分携带条形码序列，对应相同所述长片段核酸的所述测序读段携带相同的条形码序列，对应不同所述长片段核酸的所述测序读段携带不同的条形码序列；(2)基于所述测序结果，确定共有条形码序列，所述共有条形码同时支持所述第一位点碱基和所述第二位点碱基；(3)基于所述共有条形码序列的数目，确定碱基之间的连锁强度。并基于连锁强度，利用种子延伸策略确定分型方法以及系统。所获得分型的连续性和完整性均很高。

Description

分析碱基连锁强度以及基因分型方法和系统

技术领域

本发明涉及生物信息领域，具体涉及一种分析碱基连锁强度以及基因分型的方法和系统。

背景技术

人类基因组是二倍体基因组，两条单体型分别来自父亲和母亲。平均每1000个碱基，会出现1个杂合位点，在这样的位点上，父亲和母亲携带不一样的碱基型。传统的全基因组鸟枪法可以将生物DNA随机打断成无数的小片段混合测序，最终只能检测出孤立的杂合位点信息，很难获得不同杂合位点上各个碱基型之间的连锁关系，即单倍体型别信息。

如何确定杂合位点上各个碱基性之间的连锁关系，还需要进一步改进。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种分析碱基连锁强度以及基因分型方法和系统。

本发明是基于发明人的如下发现所完成的：

目前华大基因的LFR(long read fragment)建库技术可以将DNA先打断较长的片段，每个片段加上特定的化学标记，最终他们测序获得的read上同样会有这样的标记，以此作为后续信息分析中的重要分型依据。LFR技术通过Nature发布，不仅能准确鉴检测基因组上的突变，还可通过分型显示哪些突变位点出现在同一个亲本染色体上。而利用全基因组鸟枪法判断多个疾病相关的变异位点是否存在于相同或不同的父母来源的染色体上，在临床环境下是不可行的。但是,LFR技术需要较高的建库时间和人工成本，因此实验层面，正在优化流程，发展新的单管建库技术，实现在短时间内实现高效率建库测序，真正的将这一技术应用到临床上

根据本发明的第一方面，本发明提供了一种对第一位点碱基和第二位点碱基的连锁强度进行分析的方法，包括：(1)获取测序结果，所述测序结果来是通过对测序文库进行测序获得的，所述测序文库是基于长片段核酸构建的，所述测序结果由多个测序读段构成，所述多个测序读段的至少一部分携带条形码序列，其中，对应相同所述长片段核酸的所述测序读段携带相同的所述条形码序列，对应不同所述长片段核酸的所述测序读段携带不同的所述条形码序列；(3)基于所述测序结果，确定共有条形码序列，其中，所述共有条形码同时支持所述第一位点碱基和所述第二位点碱基；(4)基于所述共有条形码序列的数目，确定所述第一位点碱基和所述第二位点碱基之间的连锁强度。

通过利用长片段核酸构建测序文库，使得所获得的测序读段上携带有条形码序列，其中来自于相同长片段核酸的测序读段上携带有相同的条形码序列，来自于不同长片段核酸的测序读段上携带有不同的条形码序列；然后根据测序结果，确定支持第一位点碱基和第二位点碱基的共有条形码的数目，根据该数目，确定第一位点碱基和第二位点碱基之间的连锁强度。

其中在本文中，所述“支持第一位点碱基和第二位点碱基的共有条形码”或者表达方式“共有条形码同时支持第一位点碱基和第二位点碱基”的含义是，在含有共有条形码的测序读段中既有携带第一位点碱基的测序读段，也有携带第二位点碱基的测序读段。例如，将测序读段与参考基因组进行比对时，能够比对上第一位点并且对应第一位点碱基类型的测序读段有10个，其携带的条形码序列有5种，分别记为A、B、C、D、E，类似的，能够比对上第二位点并且对应第二位点碱基类型的测序读段有10个，其携带的条形码序列有5种，分别记为A、B、C、G、H，则条形码序列A、B、C则作为共有条形码序列，能够同时支持第一位点碱基和第二位点碱基。

在本文中所使用的术语“连锁强度”用于表征两个位点碱基存在于同一条染色体上的概率，连锁强度越高，则两个位点碱基存在于同一条染色体上的概率越高，反之亦然。例如，在相同的分析条件下，当A和B两个SNP的连锁强度为10，而A和C两个SNP的连锁强度为1，则A和B两个SNP存在于同一条染色体上的概率比A和C存在于同一条染色体上的概率要高。

在本文中使用的术语“第一位点碱基”和“第二位点碱基”是想表达在不同的位点，即分别在第一位点和第二位点，出现预定的碱基类型，例如在第一位点到底是碱基A还是碱基G，在第二位点到底是碱基C还是碱基T；若预先认为第一位点是碱基A，第二位点是碱基C，即所说的预定的碱基类型，则可以通过以上分析方法确定第一位点碱基A和第二位点碱基C的连锁强度。同样地，若认为第一位点是碱基G，第二位点是碱基T，通过以上分析方法可以确定第一位点碱基G和第二位点碱基T的连锁强度。通过比较第一位点碱基和第二位点碱基的连锁强度，来确定第一位点和第二位点碱基的类型。这里所说的“预定的碱基类型”或者“第一位点碱基”或者“第二位点碱基”并不受特别限制，可以是SNP，也可以是插入缺失突变(indel)等。

根据本发明的实施例，以上对第一位点碱基和第二位点碱基的连锁强度进行分析的方法可以进一步附加如下技术特征：

根据本发明的实施例，所述长片段核酸来自于细胞全基因组的至少一部分。

根据本发明的实施例，所述长片段核酸来自于多个细胞全基因组的至少一部分。

根据本发明的实施例，所述多个细胞来自于相同的生物个体。

根据本发明的实施例，所述长片段核酸的长度不小于1kb。

根据本发明的实施例，所述条形码是通过下列步骤确定的：

(3-1)基于所述测序结果，确定支持所述第一位点碱基的第一测序读段集合和支持所述第二位点碱基的第二测序读段集合；以及

(3-2)确定所述第一测序读段集合和所述第二测序读段集合的共有条形码序列。

根据本发明的第二方面，本发明提供了一种对第一位点碱基和第二位点碱基的连锁强度进行分析的系统。根据本发明的实施例，所述系统包括：测序数据获得单元，所述测序数据获得单元用来获取测序结果，所述测序结果来是通过对测序文库进行测序获得的，所述测序文库是基于长片段核酸构建的，所述测序结果由多个测序读段构成，所述多个测序读段的至少一部分携带条形码序列，其中，对应相同所述长片段核酸的所述测序读段携带相同的所述条形码序列，对应不同所述长片段核酸的所述测序读段携带不同的所述条形码序列；共有条形码序列确定单元，所述共有条形码序列确定与所述测序数据获得单元相连，所述共有条形码序列确定单元基于所述测序结果，确定共有条形码序列，其中，所述共有条形码同时支持所述第一位点碱基和所述第二位点碱基；连锁强度确定单元，所述连锁强度确定单元与所述共有条形码序列确定单元相连，所述连锁强度确定单元基于所述共有条形码序列的数目，确定所述第一位点碱基和所述第二位点碱基之间的连锁强度。

根据本发明的实施例，以上对第一位点碱基和第二位点碱基的连锁强度进行分析的系统，可以进一步包括如下技术特征：

根据本发明的实施例，所述长片段核酸的长度不小于1kb。

根据本发明的实施例，所述共有条形码确定单元包括基于所述测序结果，确定支持所述第一位点碱基的第一测序读段集合和支持所述第二位点碱基的第二测序读段集合；以及

确定所述第一测序读段集合和所述第二测序读段集合的共有条形码序列。

根据本发明的第三方面，本发明提供了一种分型方法，包括：(1)基于测序结果，确定多个杂合位点碱基；(2)在所述多个杂合位点碱基中，选择一个杂合位点碱基作为种子；(3)确定每个剩余杂合位点碱基与所述种子的连锁强度；(4)基于所述连锁强度，确定延伸杂合位点碱基，并将所述延伸杂合位点碱基合并入所述种子中；(5)重复步骤(3)和(4)，直到步骤(4)中所得到的所述连锁强度均为0，其中，所述测序结果来是通过对测序文库进行测序获得的，所述测序文库是基于长片段核酸构建的，所述测序结果由多个测序读段构成，所述多个测序读段的至少一部分携带条形码序列，其中，对应相同所述长片段核酸的所述测序读段携带相同的所述条形码序列，对应不同所述长片段核酸的所述测序读段携带不同的所述条形码序列，

每个所述剩余杂合位点碱基与所述种子的连锁强度是通过下列步骤确定的：

(a)针对每个所述剩余杂合位点碱基，根据本发明第一方面任一实施例所述的方法，确定与所述种子中每个杂合位点碱基的所述连锁强度；

(b)将步骤(a)中得到的所述连锁强度进行加和，以便获得所述剩余杂合位点碱基与所述种子的连锁强度。

根据本发明的实施例，以上分型的方法可以进一步附加如下技术特征：

根据本发明的实施例，所述多个杂合位点碱基位于相同编号的染色体上。

根据本发明的实施例，在步骤(2)中，选择最上游的杂合位点碱基作为种子。

根据本发明的实施例，在步骤(4)中，选择所述连锁强度最高的所述杂合位点碱基作为所述延伸杂合位点碱基。

根据本发明的实施例，在步骤(4)中，当所述连锁强度最高的所述杂合位点碱基的数目大于1时，进一步基于所述杂合位点碱基在染色体上的位置进行选择所述延伸杂合位点碱基。

根据本发明的实施例，当所述连锁强度最高的所述杂合位点碱基的数目大于1时，在所述连锁强度最高的所述杂合位点碱基中选择最上游的杂合位点碱基作为所述延伸杂合位点碱基。

根据本发明的实施例，所述方法进一步包括：

(6)在所述剩余杂合位点碱基中，选择一个杂合位点碱基作为新种子，并重复(3)～(4)。

根据本发明的第四方面，本发明提供了一种分型设备，包括：杂合位点碱基确定系统，所述杂合位点碱基确定系统基于测序结果，确定多个杂合位点碱基；起始种子确定系统，所述起始种子确定系统与所述杂合位点碱基确定系统相连，所述起始种子确定系统在所述多个杂合位点碱基中，选择一个杂合位点碱基作为种子；连锁强度分析系统，所述连锁强度分析系统与所述起始种子确定系统相连，所述连锁强度分析系统确定每个剩余杂合位点碱基与所述种子的连锁强度；种子延伸系统，所述种子延伸系统与所述连锁强度分析系统相连，所述种子延伸系统基于所述连锁强度，确定延伸杂合位点碱基，并将所述延伸杂合位点碱基合并入所述种子中；

其中，所述测序结果来是通过对测序文库进行测序获得的，所述测序文库是基于长片段核酸构建的，所述测序结果由多个测序读段构成，所述多个测序读段的至少一部分携带条形码序列，其中，对应相同所述长片段核酸的所述测序读段携带相同的所述条形码序列，对应不同所述长片段核酸的所述测序读段携带不同的所述条形码序列，

(a)针对每个所述剩余杂合位点碱基，根据本发明第一方面任一实施例所述的方法，与所述种子中每个杂合位点碱基的所述连锁强度；

根据本发明的实施例，以上分型设备可以进一步附加如下技术特征：

根据本发明的实施例，在所述起始种子确定系统中，选择最上游的杂合位点碱基作为种子。

根据本发明的实施例，在所述种子延伸系统中，选择所述连锁强度最高的所述杂合位点碱基作为所述延伸杂合位点碱基。

根据本发明的实施例，在所述种子延伸系统中，当所述连锁强度最高的所述杂合位点碱基的数目大于1时，进一步基于所述杂合位点碱基在染色体上的位置进行选择所述延伸杂合位点碱基。

根据本发明的第五方面，本发明提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如根据本发明第一方面或者根据本发明第三方面中任一实施例所述的方法。

根据本发明的第六方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如根据本发明第一方面或者根据本发明第三方面任一实施例所述的方法。

本发明所取得的有益效果为：我们用了国际标准样品NA12878做了横向测试，比较了我们的方法与HapCut2工具的效果。结果表明，无论是准确度还是连续性，都比HapCut2具备更优异的表现。我们选取了人类基因组2.2M个杂合位点作为准确度测试对象，我们的方法分型出99.56％以上的位点，short switch error为0.0017，long switch error为0.00054，而HapCut2工具则在分型准确度上的表现则略输一筹。在分型连续性方面，我们主要采用N50这个指标，长度达13M。无论是准确度还是连续性上，本发明在单倍体分型领域具备相当大的优势。

附图说明

图1是根据本发明的实施例提供的分型示意图。

图2是根据本发明的实施例提供的基因组测序读段比对示意图。

图3是根据本发明的实施例提供的采用不同处理方式所获得的分型效果图。

图4是根据本发明的实施例提供的对第一位点碱基和第二位点碱基的连锁强度进行分析的系统的示意图。

图5是根据本发明的实施例提供的分型设备的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明设计了一种“种子延伸”的策略进行分型，可以尽可能完整和连续地对生物样本的基因组进行全面的分型。该分型方法借助于DNA条形码标记方法，对不同位点碱基的连锁强度进行分析。其中在获得长片段核酸后，会对它们加上特有的条形码(barcode)标记，即，来自同一个DNA长片段的reads带有相同的barcode。在测序后，这些reads混合起来，进行杂合SNP的查找和过滤，在高可信度的杂合SNP获得后，再重新将每个杂合位点两两之间的连锁关系的强弱进行量化。

为此，根据本发明的一个方面，本发明提供了一种对第一位点碱基和第二位点碱基的连锁强度进行分析的方法，包括：(1)获取测序结果，所述测序结果是通过对测序文库进行测序获得的，所述测序文库是基于长片段核酸构建的，所述测序结果由多个测序读段构成，所述多个测序读段的至少一部分携带条形码序列，其中，对应相同所述长片段核酸的所述测序读段携带相同的所述条形码序列，对应不同所述长片段核酸的所述测序读段携带不同的所述条形码序列；(2)基于所述测序结果，确定共有条形码序列，其中，所述共有条形码同时支持所述第一位点碱基和所述第二位点碱基；(3)基于所述共有条形码序列的数目，确定所述第一位点碱基和所述第二位点碱基之间的连锁强度。

本发明中利用长片段核酸构建测序文库，可以根据本领域技术人员已知的利用长片段核酸构建测序文库。例如可以根据专利申请号为PCT/CN2016/079278的专利中的记载，构建测序文库。或者根据专利申请号为PCT/CN2016/070789的专利中的记载，构建测序文库。例如看可以根据如下方法构建长片段DNA文库，包括如下步骤：(1)对长片段DNA依次进行转座酶断裂、引入dUTP扩增和去除dUTP，得到断裂片段；(2)将带有不同条形码的测序结头单链A和与其部分互补的带有不同标签的测序接头单链B以单链的形式分别加入含有所述断裂片段的体系中反应，使所述断裂片段两端连接测序接头，通过测序接头单链A和测序接头单链B中标签序列的排列组合，使每份所述断裂片段对应的测序接头均相互区别，得到连接不同测序接头的产物；所述带有不同标签的测序接头单链A和所述带有不同标签的测序接头单链B退火可成所述测序接头；(3)以所述连接测序接头后的产物为模板，以与所述测序接头匹配的引物，进行PCR扩增，得到的PCR扩增产物为连接不同测序接头的PCR扩增产物；(4)用所述连接不同测序接头的PCR扩增产物构建文库，即得到长片段DNA文库。

进一步地，通过以上方法确定位点碱基之间的连锁强度后，本发明的发明人在研究过程中发现：通过利用种子延伸策略，可以实现基因分型。所述分型方法如图1所示，包括如下步骤：

第一步，我们通过传统的比对和变异检测手段，获得四个高准确度的杂合位点：A₁/T₁,T₂/G₂,G₃/C₃,A₄/C₄。

第二步，取最前面的杂合位点上的两个碱基A/T作为一对“种子”，分别是A₁和T₁。

第三步，将种子与其他杂合位点上的碱基进行连锁强度计算，最强的碱基位点，则将在下一步延伸前合并进入种子内。

连锁强度取决于连接两个碱基的barcode数量，在示意图中用数字标注，如：A₁-C₃的连锁强度为2，T₁-G₃的连锁强度为1，A₁-G₃的连锁强度为0，T₁-C₃的连锁强度为0。我们很轻易地可以计算出两种延伸可能的强度：

组合1(A₁-C₃和T₁-G₃)强度为3；

组合2(A₁-G₃和T₁-C₃)强度为0。

所以该步骤中，我们采用更高强度的组合1将G₃/C₃延伸至种子中去。

当连锁强度相同时，不同位置的碱基将不会被平等对待，在相同的连锁强度下，染色体最上游的碱基优先级最高，被合并入种子中。

第四步，重复第三步的操作，将剩下的杂合位点T₂/G₂和A₄/C₄合并进种子，直至不再有杂合位点能与种子内的任何一个位点位于同一个长片段DNA上。分型被迫断开后，重新开始后续的种子查找和延伸过程。

这套种子延伸策略，可以尽可能完整和连续地对人类基因组进行全面的分型，因此，我们将采用这套策略的分型工具命名为“LongHap”。值得注意的是，为了保证分型的准确性，如果某个barcode在某个位点支持两个不同的碱基型，那么在连锁强度计算过程中将排除该barcode。

通过本发明的方法进行分型，借助于长片段建库的方法，使得来自于同一长片段，同一染色体的位点上连接有相同的条形码序列。根据本发明的实施例，可以将文献Singletube bead-based DNA co-barcoding for cost effective and accurate sequencing,haplotyping,and assembly,Ou Wang etal,.部分或者全部援引在本文中。可以通过以下步骤构建长片段文库，例如：沿着长基因组DNA分子，每200-1000碱基对插入一个杂合序列作为插入序列。该步骤可以通过转座子实现：将转座子介导的DNA和珠子混合，每个珠子上包括大约40000拷贝数的接头序列，每个接头序列包括一个特异性的条形码序列，一个常用的PCR引物位点，一个常用的捕获序列，其中，捕获序列用来和转座子介导的DNA进行互补配对。当长基因组DNA被珠子捕获，转座子与条形码序列连接，使得来自于一个长基因组DNA分子的序列上都带有相同的条形码序列。然后将转座子移除，并利用PCR引物位点进行扩增，构建测序文库。根据本发明的实施例，所述条形码序列具体指的是3*10bp的碱基或者是3*9bp的碱基或者是3*11bp的碱基等，采用三联体形式的条形码序列可以在不增加合成成本的情况下，使得条形码的种类尽可能的多。当然，本领域其他常用的长片段DNA建库技术技术，例如10X等测序技术也可以用来构建长片段测序文库，进一步用来分析碱基的连锁强度，实现基因分型。

根据本发明的另一方面，本发明提供了一种对第一位点碱基和第二位点碱基的连锁强度进行分析的系统，如图4所示。所述系统包括：测序数据获得单元，共有条形码序列确定单元和连锁强度确定单元，所述共有条形码序列确定单元与所述测序数据获得单元相连，所述连锁强度确定单元与所述共有条形码序列确定单元相连；其中，所述测序数据获得单元用来获取测序结果，所述测序结果是通过对测序文库进行测序获得的，所述测序文库是基于长片段核酸构建的，所述测序结果由多个测序读段构成，所述多个测序读段的至少一部分携带条形码序列，其中，对应相同所述长片段核酸的所述测序读段携带相同的所述条形码序列，对应不同所述长片段核酸的所述测序读段携带不同的所述条形码序列；所述共有条形码序列确定单元基于所述测序结果，确定共有条形码序列，其中，所述共有条形码同时支持所述第一位点碱基和所述第二位点碱基；所述连锁强度确定单元基于所述共有条形码序列的数目，确定所述第一位点碱基和所述第二位点碱基之间的连锁强度。

根据本发明的又一方面，本发明提供了一种分型设备，如图5所示。所述分型设备包括：杂合位点碱基确定系统，起始种子确定系统，连锁强度分析系统和种子延伸系统，所述起始种子确定系统与所述杂合位点碱基确定系统相连，所述连锁强度分析系统与所述起始种子确定系统相连，所述种子延伸系统与所述连锁强度分析系统相连；其中，所述杂合位点碱基确定系统基于测序结果，确定多个杂合位点碱基，其中所述测序结果来是通过对测序文库进行测序获得的，所述测序文库是基于长片段核酸构建的，所述测序结果由多个测序读段构成，所述多个测序读段的至少一部分携带条形码序列，其中，对应相同所述长片段核酸的所述测序读段携带相同的所述条形码序列，对应不同所述长片段核酸的所述测序读段携带不同的所述条形码序列；所述起始种子确定系统在所述多个杂合位点碱基中，选择一个杂合位点碱基作为种子；所述连锁强度分析系统确定每个剩余杂合位点碱基与所述种子的连锁强度；所述种子延伸系统基于所述连锁强度，确定延伸杂合位点碱基，并将所述延伸杂合位点碱基合并入所述种子中；其中，每个所述剩余杂合位点碱基与所述种子的连锁强度是通过下列步骤确定的：(a)针对每个所述剩余杂合位点碱基，利用本发明提供的对第一位点碱基和第二位点碱基的连锁强度进行分析的方法，确定与所述种子中每个杂合位点碱基的所述连锁强度；(b)将步骤(a)中得到的所述连锁强度进行加和，以便获得所述剩余杂合位点碱基与所述种子的连锁强度。

根据本发明的实施例，在所述起始种子确定系统中，可以选择最上游的杂合位点碱基作为起始种子。在所述种子延伸系统中，可以选择所述连锁强度最高的杂合位点碱基作为延伸杂合位点碱基。当所述连锁强度最高的所述杂合位点碱基的数目大于1时，在所述连锁强度最高的杂合位点碱基中选择最上游的杂合位点碱基作为延伸杂合位点碱基。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例1

我们采用NA12878这个样本进行stLFR建库和高通量测序，获得了碱基数量为600G，随机抽取其中的86G，相当于29层的全基因组覆盖，过滤后，剩下17层的有效覆盖。Reads比对到基因组的比对率为96.81％，覆盖了91.39％的基因组区域。

然后比较了基于三个不同的DNA大片段建库技术，分别对获得测序数据，分析了测序深度情况，结果如图2所示。其中，图2中wafer Gen data指的是基于不同于single tube技术的5184孔板技术所获得的测序数据，10Xdata指的是美国10X genomics公司生成DNA大片段数据的技术所获得测序数据，Single-Tube data指的是采用3*10bp的碱基作为条形码序列，根据文献Single tube bead-based DNA co-barcoding for cost effective andaccurate sequencing,haplotyping,and assembly,Ou Wang etal,中的记载进行stLFR建库。图2的横坐标表示测序深度，纵坐标表示对应深度的碱基数量。从图2可以看出，无论是采用10X建库技术，还是通过WaferGen技术，或者是Single-tube技术，所获得测序数据的深度都较均一。其中，采用Single-Tube技术所获得的测序数据更为均一。

在这样的数据质量下，我们将原始的600G下机数据分别随机抽取100G、200G、360G三组，并基于连锁强度执行种子延伸策略，最终获得全面的全基因组分型，与600G比较分型效果的好坏。

表1不同数据对应的结果

	100G	200G	360G	600G
					N50	4603775	9013814	10643703	13051566
AN50	4794612.24	9149954.46	10999297.9	13143897.4
					short switch error	0.00196817	0.0017874	0.00183964	0.00177181
long switch error	0.00053402	0.00053453	0.00046514	0.00054865
					phased ratio	0.97257626	0.99244467	0.99496204	0.99565265
input variant count	2154411	2223462	2246544	2258846
					phased variant count	2095329	2206663	2235226	2249026

其中，N50代表在基因组50％处的最短序列的长度，N50值越大，代表数据组装的质量越好。AN50为调整后的N50值，AN50值考虑了各个contig的长度以及它们所包含的全部杂合突变数量和能够分型的杂合突变数量，对contig的长度进行了调整(例如某个contig为12KB，其包含的全部杂合突变数为8个，能够分型出的杂合突变数为5个，则调整后的contig的长度为5/8*12KB，即为7.5KB)，然后根据调整后的contig的大小，来计算得到AN50值，其中AN50值越高，说明分型连续性越高。Short switch error指的是单个碱基的分型错误，Long switch error指的是超过1个碱基的连续分型错误。Phased ratio代表的是能够分型出的杂合突变比例，该比例越高，说明分型的完整性越好。input variant count指的是用于分型的全部突变数目，phased variant count指的是能够分型出的突变数目，phasedratio即为比对率，是能够分型出的突变数目占用于分型的全部突变数目的比值。从表格中可以看出，随着数据量越来越大，比对率也越来越高，而且当数据量为200G时，比对率就达到了99.2％以上。

因此，从以上数据可以看出，随着数据量从100G逐步提高到600G，N50、AN50、杂合marker被分型的比例等指标获得明显的增长，即：分型连续性和完整性得到提高，而分型错误率变化并不明显。我们可以得到这样一个结论，尽可能多的数据量会更好地提升分型效果。

类似地，我们从不同染色体角度观察分型结果，我们可以发现不同染色体间的差异并不是特别明显：

表2不同染色体对应结果

最后，我们也从多个角度比较了LongHap与现有软件HapCut2(https://github.com/vibansal/HapCUT2)的分型效果，如图3所示。从图3不难得到结论，在600G的stLFR数据量下，LongHap在分型连续性和准确性上，全面超越HapCut2。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接或彼此可通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种对第一位点碱基和第二位点碱基的连锁强度进行分析的方法，其特征在于，包括：

（1）获取测序结果，所述测序结果是通过对测序文库进行测序获得的，所述测序文库是基于长片段核酸构建的，所述测序结果由多个测序读段构成，所述多个测序读段的至少一部分携带条形码序列，其中，对应相同所述长片段核酸的所述测序读段携带相同的所述条形码序列，对应不同所述长片段核酸的所述测序读段携带不同的所述条形码序列；

（2）基于所述测序结果，确定共有条形码序列，其中，所述共有条形码序列同时支持所述第一位点碱基和所述第二位点碱基；

（3）基于所述共有条形码序列的数目，确定所述第一位点碱基和所述第二位点碱基之间的连锁强度。

2.根据权利要求1所述的方法，其特征在于，所述长片段核酸来自于细胞全基因组的至少一部分；

任选地，所述长片段核酸来自于多个细胞全基因组的至少一部分；

任选地，所述多个细胞来自于相同的生物个体；

任选地，所述长片段核酸的长度不小于1kb；

任选地，所述共有条形码序列是通过下列步骤确定的：

（2-1）基于所述测序结果，确定支持所述第一位点碱基的第一测序读段集合和支持所述第二位点碱基的第二测序读段集合；以及

（2-2）确定所述第一测序读段集合和所述第二测序读段集合的共有条形码序列。

3.一种对第一位点碱基和第二位点碱基的连锁强度进行分析的系统，其特征在于，包括：

测序数据获得单元，所述测序数据获得单元用来获取测序结果，所述测序结果是通过对测序文库进行测序获得的，所述测序文库是基于长片段核酸构建的，所述测序结果由多个测序读段构成，所述多个测序读段的至少一部分携带条形码序列，其中，对应相同所述长片段核酸的所述测序读段携带相同的所述条形码序列，对应不同所述长片段核酸的所述测序读段携带不同的所述条形码序列；

共有条形码序列确定单元，所述共有条形码序列确定单元与所述测序数据获得单元相连，所述共有条形码序列确定单元基于所述测序结果，确定共有条形码序列，其中，所述共有条形码序列同时支持所述第一位点碱基和所述第二位点碱基；

连锁强度确定单元，所述连锁强度确定单元与所述共有条形码序列确定单元相连，所述连锁强度确定单元基于所述共有条形码序列的数目，确定所述第一位点碱基和所述第二位点碱基之间的连锁强度。

4.根据权利要求3所述的系统，其特征在于，所述长片段核酸来自于细胞全基因组的至少一部分；

任选地，所述多个细胞来自于相同的生物个体；

任选地，所述长片段核酸的长度不小于1kb；

任选地，所述共有条形码序列确定单元包括基于所述测序结果，确定支持所述第一位点碱基的第一测序读段集合和支持所述第二位点碱基的第二测序读段集合；以及

5.一种分型方法，其特征在于，包括：

1）基于测序结果，确定多个杂合位点碱基；

2）在所述多个杂合位点碱基中，选择一个杂合位点碱基作为种子；

3）确定每个剩余杂合位点碱基与所述种子的连锁强度；

4）基于所述连锁强度，确定延伸杂合位点碱基，并将所述延伸杂合位点碱基合并入所述种子中；

5）重复步骤3）和4），直到步骤3）中所得到的所述连锁强度均为0，

其中，

所述测序结果是通过对测序文库进行测序获得的，所述测序文库是基于长片段核酸构建的，所述测序结果由多个测序读段构成，所述多个测序读段的至少一部分携带条形码序列，其中，对应相同所述长片段核酸的所述测序读段携带相同的所述条形码序列，对应不同所述长片段核酸的所述测序读段携带不同的所述条形码序列，

（a）针对每个所述剩余杂合位点碱基，根据权利要求1或2所述的方法，确定与所述种子中每个杂合位点碱基的所述连锁强度；

（b）将步骤（a）中得到的所述连锁强度进行加和，以便获得所述剩余杂合位点碱基与所述种子的连锁强度。

6.根据权利要求5所述的分型方法，其特征在于，所述多个杂合位点碱基位于相同编号的染色体上；

任选地，在步骤2）中，选择最上游的杂合位点碱基作为种子；

任选地，在步骤4）中，选择所述连锁强度最高的所述杂合位点碱基作为所述延伸杂合位点碱基；

任选地，在步骤4）中，当所述连锁强度最高的所述杂合位点碱基的数目大于1时，进一步基于所述杂合位点碱基在染色体上的位置进行选择所述延伸杂合位点碱基；

任选地，当所述连锁强度最高的所述杂合位点碱基的数目大于1时，在所述连锁强度最高的所述杂合位点碱基中选择最上游的杂合位点碱基作为所述延伸杂合位点碱基；

任选地，所述方法进一步包括：

6）在所述剩余杂合位点碱基中，选择一个杂合位点碱基作为新种子，并重复3）~4）。

7.一种分型设备，其特征在于，包括：

杂合位点碱基确定系统，所述杂合位点碱基确定系统基于测序结果，确定多个杂合位点碱基；

起始种子确定系统，所述起始种子确定系统与所述杂合位点碱基确定系统相连，所述起始种子确定系统在所述多个杂合位点碱基中，选择一个杂合位点碱基作为种子；

连锁强度分析系统，所述连锁强度分析系统与所述起始种子确定系统相连，所述连锁强度分析系统确定每个剩余杂合位点碱基与所述种子的连锁强度；

种子延伸系统，所述种子延伸系统与所述连锁强度分析系统相连，所述种子延伸系统基于所述连锁强度，确定延伸杂合位点碱基，并将所述延伸杂合位点碱基合并入所述种子中；

其中，

所述测序结果来是通过对测序文库进行测序获得的，所述测序文库是基于长片段核酸构建的，所述测序结果由多个测序读段构成，所述多个测序读段的至少一部分携带条形码序列，其中，对应相同所述长片段核酸的所述测序读段携带相同的所述条形码序列，对应不同所述长片段核酸的所述测序读段携带不同的所述条形码序列，

（a）针对每个所述剩余杂合位点碱基，根据权利要求1或2所述的方法，与所述种子中每个杂合位点碱基的所述连锁强度；

8.根据权利要求7所述的设备，其特征在于，所述多个杂合位点碱基位于相同编号的染色体上；

任选地，在所述起始种子确定系统中，选择最上游的杂合位点碱基作为种子；

任选地，在所述种子延伸系统中，选择所述连锁强度最高的所述杂合位点碱基作为所述延伸杂合位点碱基；

任选地，在所述种子延伸系统中，当所述连锁强度最高的所述杂合位点碱基的数目大于1时，进一步基于所述杂合位点碱基在染色体上的位置进行选择所述延伸杂合位点碱基；

任选地，当所述连锁强度最高的所述杂合位点碱基的数目大于1时，在所述连锁强度最高的所述杂合位点碱基中选择最上游的杂合位点碱基作为所述延伸杂合位点碱基。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如权利要求1或2所述的方法或者权利要求5或6所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1或2所述的方法或者权利要求5或6所述的方法。