CN104134016B

CN104134016B - 分子水平上的系谱重建的装置和方法

Info

Publication number: CN104134016B
Application number: CN201410371632.9A
Authority: CN
Inventors: 闫军; 张彦丽; 吴俊�; 张莹莹; 吴成琼
Original assignee: Beijing Polytron Technologies Inc
Current assignee: Beijing Polytron Technologies Inc
Priority date: 2014-07-30
Filing date: 2014-07-30
Publication date: 2017-12-15
Anticipated expiration: 2034-07-30
Also published as: CN104134016A

Abstract

本发明公开了一种分子水平上的系谱重建的方法和装置。该方法包括以下步骤：对系谱内所有样品两两进行染色体比对，得到所有样品中两两相比所得的相同染色体区段信息；根据所有样品中两两相比所得的相同染色体区段信息，对全基因组进行遗传区块划分，得到多个不同类型的遗传区块；根据每个遗传区块的类型的不同，对系谱内的所有样品进行遗传区块组划分，得到多组遗传区块样品组；根据系谱中各样品间已知的遗传关系，对每组遗传区块样品组中的每个样品的遗传区块的遗传起源进行推断，得到系谱内所有样品的遗传区块的遗传起源；从而完成分子水平上的系谱重建。本发明的方法且具有严谨、功能全面、操作简单以及兼容性好的突出优势。

Description

分子水平上的系谱重建的装置和方法

技术领域

本发明涉及生物技术领域，具体而言，涉及一种分子水平上的系谱重建的装置和方法。

背景技术

随着二代测序技术的发展，全基因组水平上IBS(Identity by state)和IBD(Identity by decent)检测已广泛应用于系谱内样品遗传关系分析领域。目前基于全基因组变异检测的IBS和IBD检测方法已经比较成熟，例如广泛使用的Plink、Beagle fastIBD、GERMLINE等和最新发表的Beagle refinedIBD、IBDseq、HapFABIA等。但是这些方法主要应用于对人类等高等哺乳动物的研究中，例如根据系谱关系和IBD数据研究不同种族人类的亲缘关系，从而推断人类进化历史；或根据IBD数据反推系谱结构，然后进行系谱重建。

不同于人类等高等哺乳动物群体，对于植物学研究来说，在遗传育种领域，自交为育种的常规手段，由此产生了许多自交产生的系谱群体；另外，由于某些原因往往难以获得一个系谱内全部样品的数据，影响了系谱的连贯和完整性。因此，目前为止，对以上所述复杂系谱在DNA分子水平上进行遗传关系的重建尚无有效的方法可用。

发明内容

本发明旨在提供一种分子水平上的系谱重建的装置和方法，以解决现有技术中无法重建植物分子水平上的系谱的缺陷。

为了实现上述目的，根据本发明的一个方面，提供了一种分子水平上的系谱重建的方法，该方法包括以下步骤：对系谱内所有样品两两进行染色体比对，得到所有样品中两两相比所得的相同染色体区段信息；根据所有样品中两两相比所得的相同染色体区段信息，对全基因组进行遗传区块划分，得到多个不同类型的遗传区块；根据每个遗传区块的类型的不同，对系谱内的所有样品进行遗传区块组划分，得到多组遗传区块样品组；根据系谱中各样品间已知的遗传关系，对每组遗传区块样品组中的每个样品的遗传区块的遗传起源进行推断，得到系谱内所有样品的遗传区块的遗传起源；从而完成分子水平上的系谱重建。

进一步地，系谱为自交多代产生的系谱、回交多代产生的系谱或者部分样品的数据缺失的系谱。

进一步地，当系谱为部分样品的数据缺失的系谱时，方法在得到多组遗传区块样品组步骤后，还包括对数据缺失的部分样品的遗传区块的类型进行推断的步骤。

进一步地，对数据缺失的部分样品的遗传区块的类型进行推断的步骤中，当数据缺失的部分样品的双亲、配偶及子一代的遗传区块类型都存在时，推断的原则是：如果子代的遗传区块类型与配偶的遗传区块类型不同，而与双亲中其一的遗传区块类型相同，那么数据缺失的部分样品的遗传区块类型与子一代的遗传区块类型相同；如果子代的遗传区块类型与配偶的遗传区块类型相同，且双亲的遗传区块类型相同，那么数据缺失的部分样品的遗传区块类型与双亲的遗传区块类型相同；当数据缺失的部分样品的双亲的遗传区块类型不存在时，推断的原则是：如果子代的遗传区块类型与配偶的遗传区块类型不同，那么数据缺失的部分样品与子代的遗传区块类型相同；当数据缺失的部分样品的子一代的遗传区块类型不存在时，推断的原则是：如果双亲的遗传区块类型相同，那么数据缺失的部分样品的遗传区块类型与双亲的遗传区块类型相同；当数据缺失的部分样品的双亲之一和子一代的遗传区块类型存在时，推断的原则是：如果双亲之一的遗传区块类型和子一代的遗传区块类型相同，那么数据缺失的部分样品与双亲之一和子一代的遗传区块类型相同。

进一步地，系谱为单一直系同源系谱或由直系同源系谱和非直系同源系谱构成的系谱。

进一步地，当系谱为由直系同源系谱和非直系同源系谱构成的系谱时，方法还包括：在对多组遗传区块样品组中的每个样品的各遗传区块的遗传起源进行推断之前，按照直系同源关系对非直系同源系谱进行系谱拆分的步骤；以及在对多组遗传区块样品组中的每个样品的各遗传区块的遗传起源进行推断之后，对非直系同源系谱进行系谱整合的步骤。

进一步地，系谱拆分的步骤中拆分的原则是：拆分后的直系同源系谱尽可能少，且非直系同源系谱间的重叠样品也尽可能少，优选重叠样品为1个。

进一步地，对非直系同源系谱进行系谱整合的步骤中根据系谱内每个样品对应一个标记名称的原则，对系谱内每两个具有重叠样品的非直系同源系谱进行系谱整合；重复系谱整合的步骤，完成系谱内所有具有重叠样品的非直系同源系谱之间的系谱整合。

进一步地，系谱整合的原则是：如果一个重叠样品在直系同源系谱和非直系同源系谱中有不同的标记名称，那么以重叠样品所在的直系同源系谱的标记名称为准；如果一个重叠样品在两个非直系同源系谱中都属于直系同源系谱内的样品或都属于非直系同源系谱内的样品，那么重叠样品以在先输入的非直系同源系谱的名称为准。

进一步地，对系谱内所有样品两两进行染色体比对，得到所有样品中两两相比所得的相同染色体区段信息的步骤中，采用IBDseq算法对系谱内所有样品两两进行IBD区块信息比对，得到所有样品中两两相比所得的IBD信息。

根据本发明的另一方面，提供了一种分子水平上的系谱重建的装置，该装置包括：染色体比对模块，用以生成包含系谱内所有的样品经两两比对得到的相同染色体区段信息的文件；遗传区块拆分模块，与染色体比对模块相连，通过读取包含系谱内所有的样品经两两比对得到的相同染色体区段信息的文件以将待重建系谱物种的全基因组拆分成多个遗传区块，得到多个不同类型的遗传区块；遗传区块样品分组模块，与遗传区块拆分模块相连，以根据每个遗传区块的类型对系谱内所有样品进行遗传区块组的划分，得到多组遗传区块样品组；分子遗传起源推断模块，与遗传区块样品分组模块相连，以对每组遗传区块样品组中的每个样品的遗传区块的遗传起源进行推断，得到系谱内所有样品的遗传区块的遗传起源，从而完成分子水平上的系谱重建。

进一步地，当系谱为部分样品的数据缺失的系谱时，装置还包括缺失样品推断模块，缺失样品推断模块设置在遗传区块样品分组模块与分子遗传起源推断模块之间，用以对数据缺失的部分样品的遗传区块的类型进行推断。

进一步地，缺失样品推断模块对数据缺失的部分样品的遗传区块的类型进行推断的原则是：当数据缺失的部分样品的双亲、配偶及子一代的遗传区块类型都存在时，推断的原则是：如果子代的遗传区块类型与配偶的遗传区块类型不同，而与双亲中其一的遗传区块类型相同，那么数据缺失的部分样品的遗传区块类型与子一代的遗传区块类型相同；如果子代的遗传区块类型与配偶的遗传区块类型相同，且双亲的遗传区块类型相同，那么数据缺失的部分样品的遗传区块类型与双亲的遗传区块类型相同；当数据缺失的部分样品的双亲的遗传区块类型不存在时，推断的原则是：如果子代的遗传区块类型与配偶的遗传区块类型不同，那么数据缺失的部分样品与子代的遗传区块类型相同；当数据缺失的部分样品的子一代的遗传区块类型不存在时，推断的原则是：如果双亲的遗传区块类型相同，那么数据缺失的部分样品的遗传区块类型与双亲的遗传区块类型相同；当数据缺失的部分样品的双亲之一和子一代的遗传区块类型存在时，推断的原则是：如果双亲之一的遗传区块类型和子一代的遗传区块类型相同，那么数据缺失的部分样品与双亲之一和子一代的遗传区块类型相同。

进一步地，系谱为由单一直系同源系谱或由直系同源系谱和非直系同源系谱构成的系谱。

进一步地，当系谱群体为由直系同源系谱和非直系同源系谱构成的系谱时，装置还包括：系谱拆分模块，设置在遗传区块分组模块及分子遗传起源推断模块之间，用以将系谱群体内的非直系同源系谱进行系谱拆分；系谱整合模块，设置在分子遗传起源推断模块与系谱重建模块之间，用以将系谱内的非直系同源系谱进行系谱整合。

进一步地，系谱拆分模块中系谱拆分的原则是：拆分后的直系同源系谱尽可能少；且非直系同源系谱间的重叠样品也尽可能少，优选重叠样品为个。

进一步地，系谱整合模块中包括多个系谱整合子单元；每个系谱整合子单元用于根据系谱内每个样品对应一个标记名称的原则，对系谱内每两个具有重叠样品的非直系同源系谱进行系谱整合。

进一步地，每个系谱整合子单元对系谱内每两个具有重叠样品的非直系同源系谱进行系谱整合的原则是：如果一个重叠样品在直系同源系谱和非直系同源系谱中有不同的标记名称，那么以重叠样品所在的直系同源系谱的标记名称为准；如果一个重叠样品在两个非直系同源系谱中都属于直系同源系谱内的样品或都属于非直系同源系谱内样品，那么重叠样品以在先输入的非直系同源系谱的名称为准。

进一步地，染色体比对模块为IBD检测模块。

应用本发明的技术方案，通过对系谱内所有样品进行两两比对得到的全基因组水平上两两相同的染色体区段信息，对全基因组染色体划分成多个不同类型的遗传区块，并按照每个遗传区块类型的不同把系谱内的所有样品进行分组，对分组后的每个样品的遗传区块类型结合已知系谱中各样品间的遗传关系进行的遗传起源的推断，便可完成分子水平上的系谱重建。该方法操作简单，能够快速完成分子水平上的系谱重建。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明的一个典型实施例中分子水平上系谱重建的方法的流程图；

图2示出了本发明的一个典型实施例中分子水平上系谱重建的方法的操作示意图；

图3示出了本发明另一种优选实施例中分子水平上系谱重建的方法的流程图；

图4示出了本发明的另一种优选实施例中分子水平上系谱重建的方法的操作示意图；

图5示出了本发明一种典型实施例中分子水平上系谱重建的装置；

图6示出了本发明另一种优选实施例中分子水平上系谱重建的装置；以及

图7和图8示出了本发明实施例1中所得到的分子水平上所重建的各遗传区块的遗传关系。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

需要说明的是，本发明所说的“分子水平上的系谱重建”是指对已知结构的系谱中的每个样品按照其各遗传区块的样品来源或祖先起源重新从DNA分子水平上建立的遗传关系。

正如背景技术部分所提到的，现有技术中的IBS和IBD检测方法仅适用于动物系谱群体内样品的遗传关系分析，而不适用于植物系谱群体内样品在分子水平上的遗传关系的分析。为了弥补这一缺陷，在本发明一种典型的实施方式中，提供了一种分子水平上的系谱重建的方法，如图1所示，该方法包括以下步骤：对系谱内所有样品两两进行染色体比对，得到所有样品中两两相比所得的相同染色体区段信息；根据所有样品中两两相比所得的相同染色体区段信息，对全基因组进行遗传区块划分，得到多个不同类型的遗传区块；根据每个遗传区块的类型的不同，对系谱内的所有样品进行遗传区块组划分，得到多组遗传区块样品组；根据系谱中各样品间已知的遗传关系，对每组遗传区块样品组中的每个样品的遗传区块的遗传起源进行推断，得到系谱内所有样品的遗传区块的遗传起源；从而完成分子水平上的系谱重建。

本发明的上述分子水平上系谱重建的方法，通过对系谱内所有样品进行两两比对得到的全基因组水平上两两相同的染色体区段信息，对全基因组染色体划分成多个不同类型的遗传区块，并按照每个遗传区块类型的不同把系谱内的所有样品进行分组，对分组后的每个样品的遗传区块类型结合已知系谱中各样品间的遗传关系进行的遗传起源的推断，便可完成分子水平上的系谱重建。该方法操作简单，能够快速完成分子水平上的系谱重建。

本发明的上述方法，不仅适合应用于动物的亲缘关系或进化历史的研究中，而且还适用于植物的亲缘关系或历史进化研究中。本发明中，当上述系谱为植物系谱时，可以为自交多代产生的系谱、回交多代产生的系谱或者部分样品的数据缺失的系谱。对于植物系谱中所存在的上述复杂系谱，本发明的上述方法也能够实现其在分子水平上的系谱重建，从而为植物的亲缘关系或进化历史的研究提供有力的分析工具。

在本发明中，当上述系谱为部分样品的数据缺失的系谱时，如图3所示，上述方法在得到多组遗传区块样品组步骤后，还包括对数据缺失的部分样品的遗传区块的类型进行推断的步骤。通过对数据缺失部分样品的遗传区块的类型进行推断，尽管推断的结果未必能真实反映缺失样品的遗传区块类型，但作为过渡，保证了系谱的完整性，同时不会改变和影响其上一代和下一代的遗传区块类型。

根据系谱内数据缺失的部分样品的近亲样品的遗传区块类型，对数据缺失的部分样品的遗传区块类型和分组进行推断。推断的依据是根据近亲的遗传区块类型可推断的数据缺失的部分样品的最大可能性的遗传区块类型。

在上述推断的原则的前提下，具体地，当数据缺失的部分样品的双亲、配偶及子一代的遗传区块类型都存在时，推断的原则是如果子代的遗传区块类型与配偶的遗传区块类型不同，而与双亲中其一的遗传区块类型相同，那么数据缺失的部分样品的遗传区块类型与子一代的遗传区块类型相同；如果子代的遗传区块类型与配偶的遗传区块类型相同，且双亲的遗传区块类型相同，那么数据缺失的部分样品的遗传区块类型与双亲的遗传区块类型相同；当数据缺失的部分样品的双亲的遗传区块类型不存在时，推断的原则是：如果子代的遗传区块类型与配偶的遗传区块类型不同，那么数据缺失的部分样品与子代的遗传区块类型相同；当数据缺失的部分样品的子一代的遗传区块类型不存在时，推断的原则是：如果双亲的遗传区块类型相同，那么数据缺失的部分样品的遗传区块类型与双亲的遗传区块类型相同；当数据缺失的部分样品的双亲之一和子一代的遗传区块类型存在时，推断的原则是：如果双亲之一的遗传区块类型和子一代的遗传区块类型相同，那么数据缺失的部分样品与双亲之一和子一代的遗传区块类型相同。

经过上述对数据缺失的部分样品进行遗传区块类型的推断，有效地提升了系谱的完整性和连贯性，使得现有样品的数据都可以完全有效地得到利用，不丢失任何系谱遗传信息，为部分样品的数据缺失的系谱在分子水平上的系谱重建奠定了基础。

本发明的上述方法所适用的系谱可以是单一直系同源系谱，也可以是由直系同源系谱和非直系同源系谱构成的系谱。当系谱为由直系同源系谱和非直系同源系谱构成的系谱时，如图3所示，上述方法还包括：在对多组遗传区块样品组中的每个样品的各遗传区块的遗传起源进行推断之前，按照直系同源关系对非直系同源系谱进行系谱拆分的步骤；以及在对多组遗传区块样品组中的每个样品的各遗传区块的遗传起源进行推断之后，对非直系同源系谱进行系谱整合的步骤。

由于直系同源系谱和非直系同源系谱所构成的系谱相比单纯的直系同源系谱要复杂，直系同源系谱和非直系同源系谱之间存在一个或几个共同的样品，这样的样品称为重叠样品。由于重叠样品的存在，与其相关的近亲样品的各遗传区块的遗传起源相对比较复杂，因此，在进行遗传起源推断之前通过系谱拆分，可以将多个非直系同源系谱全部拆分成单一的直系同源系谱，并按照单一直系同源系谱的系谱结构对各样品的遗传区块的遗传起源进行推断便变得非常容易实现，且推断的准确性相对较高。同样，在完成遗传起源推断后，还需要对拆分的非直系同源系谱进行整合，以使其恢复成一个完整的系谱。

在本发明的上述方法中，非直系同源系谱的拆分的目的是为了更方便、准确地对系谱内各样品的遗传区块的类型进行遗传起源的推断，因此，任何能够实现上述目的的拆分原则都适用于本发明。在本发明一种优选的实施例中，上述非直系同源系谱拆分时的系谱拆分原则是：拆分后的直系同源系谱尽可能少；且非直系同源系谱间的重叠样品也尽可能少，优选重叠样品为1个。拆分后的直系同源系谱及非直系同源系谱间的重叠样品越少，遗传起源推断就相对越简单，后续系谱整合起来也越容易；反之，遗传起源推断就越复杂，后续系谱整合的难度也越大。

在本发明的上述方法中，对非直系同源系谱进行系谱整合的目的是将各遗传区块类型的遗传起源进行推断之后，对拆分后的每两个具有重叠样品的非直系同源系谱整合成到一起，形成一个小的系谱，形成的小系谱又基于与其共有重叠样品的另外的非整合的非直系同源系谱或已经整合过一次或多次的小的系谱再次进行整合，如此重复，直至将所有具有重叠样品的非直系同源系谱全部整合为一个完整的系谱。

在系谱整合过程中，根据系谱内每个样品对应一个标记名称的原则，如果一个重叠样品在直系同源系谱和非直系同源系谱中有不同的标记名称，那么以重叠样品所在的直系同源系谱的标记名称为准；如果一个重叠样品在两个非直系同源系谱中都属于直系同源系谱内的样品或都属于非直系同源系谱内的样品，那么重叠样品以在先输入的非直系同源系谱的名称为准。对重叠样品的遗传区块的遗传来源按照这一原则来进行命名，使得存在于两个不同的非直系同源系谱的重叠样品按照其标记名称的命名原则而整合在一起，也实现了对系谱内来源于重叠样品的其他样品的遗传区块的遗传来源的更新。

在本发明的上述方法中，在对系谱内所有样品两两进行染色体比对，得到所有样品中两两相比所得的相同染色体区段信息的步骤中，除了可以采用本申请的对每条染色体自动调用IBDseq算法一次性地完成对系谱内所有样品两两进行IBD区块信息比对，得到所有样品中两两相比所得的IBD信息外，还可采用其它主流的IBD检测算法进行样品间IBD区域检测，通过格式转换成后续分析兼容的格式即可。

在本发明又一种优选的实施例中，上述方法还包括了统计绘图的步骤，该步骤是根据系谱内所有样品的遗传区块的遗传来源信息，对系谱内遗传区块来源和个数进行统计，并绘制遗传区块在染色体上的分布和传递关系。该步骤能够以图表的形式直观地展示所有样品在分子水平上的遗传关系，为研究同一物种在分子水平上的进化或不同物种在分子水平上的亲缘关系提供了有力的工具。

在本发明另一种典型的实施方式中，如图5所示，提供了一种分子水平上的系谱重建的装置，该装置包括：染色体比对模块、遗传区块拆分模块、遗传区块样品分组模块和分子遗传起源推断模块，染色体比对模块用以生成包含系谱内所有的样品经两两比对得到的相同染色体区段信息的文件；遗传区块拆分模块与染色体比对模块相连，通过读取包含系谱内所有的样品经两两比对得到的相同染色体区段信息的文件以将待重建的系谱物种的全基因组拆分成多个遗传区块，得到多个不同类型的遗传区块；遗传区块样品分组模块与遗传区块拆分模块相连，以根据每个遗传区块的类型对系谱内所有样品进行遗传区块组的划分，得到多组遗传区块样品组；分子遗传起源推断模块与遗传区块样品分组模块相连，以对每组遗传区块样品组中的每个样品的遗传区块的遗传起源进行推断，得到系谱内所有样品的遗传区块的遗传起源，从而完成分子水平上的系谱重建。

本发明的上述分子水平上系谱重建的装置，通过染色体比对模块、遗传区块拆分模块以及遗传区块样品分组模块将系谱内所有样品按照遗传区块类型的不同分成了不同的组别，最后通过分子起源推断模块读取完整的样品遗传区块分组信息和已知的直系同源系谱的结构信息，实现了对系谱内每个样品的每个染色体的遗传区块的来源的推断，进而完成所有样品在分子水平上的系谱重建。本发明的上述装置通过简单的几个模块便可实现直系同源系谱内所有样品在分子水平上的系谱重建，且操作简单、处理方便。

本发明的上述装置，不仅能够处理动物系谱，也能够处理存在自交、回交的植物系谱或部分样品的数据缺失的植物系谱，能够实现其在分子水平上的系谱重建，从而为植物的亲缘关系或进化历史的研究提供有力的分析工具。

在本发明的上述装置中，当系谱为部分样品的数据缺失的系谱时，如图6所示，上述装置还包括缺失样品推断模块，设置在遗传区块样品分组模块与分子遗传起源推断模块之间，用以对数据缺失的部分样品的遗传区块的类型进行推断。通过缺失样品推断模块，完成了数据缺失部分样品的遗传区块的类型的推断，尽管推断的结果未必能真实反映缺失样品的遗传区块类型，但作为过渡，保证了系谱的完整性，同时不会改变和影响其上一代和下一代的遗传区块类型。

在本发明上述装置中，缺失样品推断模块对数据缺失的部分样品的遗传区块的类型进行推断的总的原则是根据近亲的遗传区块类型可推断的数据缺失的部分样品的最大可能性的遗传区块类型。

上述缺失样品推断模块对数据缺失的部分样品的遗传区块的类型进行推断具体情形如下：当数据缺失的部分样品的双亲、配偶及子一代的遗传区块类型都存在时，推断的原则是：如果子代的遗传区块类型与配偶的遗传区块类型不同，而与双亲中其一的遗传区块类型相同，那么数据缺失的部分样品的遗传区块类型与子一代的遗传区块类型相同；如果子代的遗传区块类型与配偶的遗传区块类型相同，且双亲的遗传区块类型相同，那么数据缺失的部分样品的遗传区块类型与双亲的遗传区块类型相同；当数据缺失的部分样品的双亲的遗传区块类型不存在时，推断的原则是：如果子代的遗传区块类型与配偶的遗传区块类型不同，那么数据缺失的部分样品与子代的遗传区块类型相同；当数据缺失的部分样品的子一代的遗传区块类型不存在时，推断的原则是：如果双亲的遗传区块类型相同，那么数据缺失的部分样品的遗传区块类型与双亲的遗传区块类型相同；当数据缺失的部分样品的双亲之一和子一代的遗传区块类型存在时，推断的原则是：如果双亲之一的遗传区块类型和子一代的遗传区块类型相同，那么数据缺失的部分样品与双亲之一和子一代的遗传区块类型相同。

缺失样品推断模块对数据缺失的部分样品的遗传区块类型的推断，有效地提升了系谱的完整性和连贯性，使得现有样品的数据都可以完全有效地得到利用，不丢失任何系谱遗传信息，为部分样品的数据缺失的系谱在分子水平上的系谱重建奠定了基础。

本发明的上述装置所适用的系谱可以是单一直系同源系谱，也可以是由直系同源系谱和非直系同源系谱构成的系谱。当系谱为由直系同源系谱和非直系同源系谱构成的系谱时，如图6所示，上述装置还包括系谱拆分模块和系谱整合模块，系谱拆分模块设置在遗传区块分组模块及分子遗传起源推断模块之间，用以将系谱群体内的非直系同源系谱进行系谱拆分；系谱整合模块设置在分子遗传起源推断模块与系谱重建模块之间，用以将系谱内的非直系同源系谱进行系谱整合。

上述系谱拆分模块和系谱整合模块通过对直系同源系谱和非直系同源系谱之间的重叠样品拆分到两个系谱中，以利于对重叠样品以及与重叠样品有亲缘关系的样品之间的遗传区块的遗传起源进行推断。同时，系谱整合模块又实现了将拆分后的两个非直系同源系谱基于共有的重叠样品进行合二为一。

在本发明的上述系谱拆分模块是为了更方便、准确地对系谱内各样品的遗传区块的类型进行遗传起源的推断，因此，任何能够实现上述目的的拆分模块都适用于本发明。在本发明中，上述系谱拆分模块的拆分原则是：拆分后的直系同源系谱尽可能少；且非直系同源系谱间的重叠样品也尽可能少，优选重叠样品为1个。拆分后的直系同源系谱及非直系同源系谱间的重叠样品越少，遗传起源推断就相对越简单，后续系谱整合起来也越容易；反之，遗传起源推断就越复杂，后续系谱整合的难度也越大。

在本发明的上述装置中，系谱整合模块能够将拆分后的重叠样品及其子一代和亲一代样品的各遗传区块类型的遗传起源进行推断之后，对拆分后的每两个具有重叠样品的非直系同源系谱整合成到一起，形成一个小的系谱，形成的小系谱又基于与其共有重叠样品的另外的非整合的非直系同源系谱或已经整合过一次或多次的小的系谱再次进行整合，如此重复，直至将所有具有重叠样品的非直系同源系谱全部整合为一个完整的系谱。在本发明一种优选的实施例中，上述系谱整合模块中包括多个系谱整合子单元；每个系谱整合子单元用于根据系谱内每个样品对应一个标记名称的原则，对系谱内每两个具有重叠样品的非直系同源系谱进行系谱整合。

在本发明的上述每个系谱整合子单元中，根据系谱内每个样品对应一个标记名称的原则，如果一个重叠样品在直系同源系谱和非直系同源系谱中有不同的标记名称，那么以重叠样品所在的直系同源系谱的标记名称为准；如果一个重叠样品在两个非直系同源系谱中都属于直系同源系谱内的样品或都属于非直系同源系谱内的样品，那么重叠样品以在先输入的非直系同源系谱的名称为准。对重叠样品的遗传区块的遗传来源按照这一原则来进行命名，使得存在于两个不同的非直系同源系谱的重叠样品按照其标记名称的命名原则而整合在一起，也实现了对系谱内来源于重叠样品的其他样品的遗传区块的遗传来源的更新。

在本发明的上述装置中，上述染色体比对模块除了可以采用本发明的对每条染色体自动调用IBDseq算法一次性地完成对系谱内所有样品两两进行IBD区块信息比对，得到所有样品中两两相比所得的IBD信息的IBD检测模块外，还可采用其它主流的基于IBD算法进行样品间IBD区域检测的IBD检测模块，只需将格式转换成后续分析兼容的格式即可。本发明的IBD检测模块在IBDseq算法的基础上进行了改进，能够快速完成所有样品所有染色体的IBD区域检测，操作十分简单。

在本发明又一种优选的实施例中，上述装置还包括了统计绘图模块，该模块与分子遗传起源推断模块相连或与系谱整合模块相连，用于根据系谱内所有样品的遗传区块的遗传来源信息，对系谱内遗传区块来源和个数进行统计，并绘制遗传区块在染色体上的分布和传递关系。该模块能够以图表的形式直观地展示所有样品在分子水平上的遗传关系，为研究同一物种在分子水平上的进化或不同物种在分子水平上的亲缘关系提供了有力的工具。

下面将结合具体的实施例来进一步说明本发明的有益效果。

实施例1

实施例1的对象为7个样品所组成的直系同源系谱，已知样品A3是样品A1和A2的子一代，样品A3和样品A4样品是A5的亲一代，样品A5和A6的子一代样品为A7，系谱中7个样品的高通量测序数据都存在，下面按照图1所示的流程从分子水平上重建该系谱：

采用IBDseq算法对该系谱内的7个样品两两进行IBD区块信息比对，如图2所示，将样品A1和样品A2进行IBD区块检测，得到样品A1和样品A2之间所共有的染色体信息；同理，再将A1和样品A3进行IBD区块检测，得到样品A1和样品A3之间所共有的染色体信息，如上所述，还需要进行A1和A4、A1和A5、A1和A6、A1和A7、A2和A3、A2和A4、...以及A6和A7，即所有样品以数学组合的方式进行比对，共完成C₇ ²次相比，得到所有两两样品间共有的染色体区块信息；

根据上述所有样品中两两相比所得的相同染色体区段信息，对全基因组进行遗传区块划分，比如，样品A1与样品A2所共有的染色体区段和样品A1和样品A3所共有的染色体区段中有部分重叠，则将样品A1和A2所共有的染色体区段叫做遗传区块1，将重叠部分的染色体区段叫做遗传区块2，将样品A1和A3所共有的染色体区段叫做遗传区块3，剩余样品按照与已经出现的样品之间共有的染色体区段是否与遗传区块1、2或3相同，相同则不再增加遗传区块，若不相同，则增加新的遗传区块或在遗传区块1、2或3上进一步划分，得到多个不同的遗传区块；

根据样品A1和A2具有相同的遗传区块1，而A3不具有，因此，对于遗传区块1来说，A1、A2属于遗传区块1组，而A3不属于遗传区块1组，其他样品依次类推；对于遗传区块2来说，A1、A2和A3均属于遗传区块2组，其他样品根据是否具有该遗传区块进行分组；剩余的遗传区块组按照上述原则将7个样品分成属于和不属于两个组别，从而得到多个遗传区块组；

根据已知的系谱结构，如图2所示，对系谱内的每个样品的各个遗传区块的起源进行推断，如果某一遗传区块的类型与该遗传区块组中的最早的祖先样品的遗传区块类型相同，则该遗传区块的起源即为该祖先样品，若与祖先样品均不同，则为该样品本身。即对于样品A1和A2来说，其所有的遗传区块的遗传起源均推断为A1自身和A2自身；对于样品A3来说，其遗传区块1的起源为样品A3自身，其遗传区块2的起源为样品A1或A2，其遗传区块3的起源为样品A1，其余的遗传区块的起源均为该遗传区块组中最早的祖先样品或该样品本身。当每个样品完成了上述遗传区块的起源推断，则得到了各样品不同遗传区块在分子水平上的遗传关系。

上述各样品在分子水平上的遗传关系以最简单的三样品系谱为例来说明，如图7所示，图7中，每个样品对应一种颜色，每种颜色代表一个遗传区块的样本起源。当所对应的遗传区块改变时，每个样品所对应的颜色也相应发生改变。由于A1和A2没有亲本，A3的亲本为A1和A2，所以，A1或A2的染色体区块全部起源于其本身；而A3的染色体区块不同区域来源于A1或A2或者其本身，如此重复，完成7个样品各遗传区块类型的推断，最终得到如图8所示的各样品的各遗传区块在分子水平上的遗传关系，图8中子代A3、A5、A7区块是从上面亲代传下来的，而样品A1、A2、A4和A6没有亲本，不存在传递关系，所以用单一图案表示。

实施例2

实施例2的对象为由分属不同直系同源系谱的9个样品所组成的系谱，已知样品A3是样品A1和A2的子一代，样品A3和样品B3样品是A5的亲一代，样品A5和A6的子一代样品为A7，样品B3的亲一代为B1和B2；其中样品A6的高通量测序数据缺失。下面按照图3所示的流程从分子水平上重建该系谱：

对系谱内9个样品进行IBD区块检测、遗传区块划分以及按遗传区块类型对9个样品进行分组的步骤同实施例1；

为了保证系谱的连续性和数据的完整性，需要根据近亲的遗传区块类型推断数据缺失的样品A6的最大可能性的遗传区块类型：

当样品A6的双亲、配偶及子一代的遗传区块类型都存在时，推断的原则是：如果子代的遗传区块类型与配偶的遗传区块类型不同，而与双亲中其一的遗传区块类型相同，那么样品A6的遗传区块类型与其子一代的遗传区块类型相同；如果子代的遗传区块类型与配偶的遗传区块类型相同，且双亲的遗传区块类型相同，那么样品A6的遗传区块类型与双亲的遗传区块类型相同；

当样品A6的双亲的遗传区块类型不存在时，推断的原则是：如果子代的遗传区块类型与配偶的遗传区块类型不同，那么样品A6的遗传区块类型与子代的遗传区块类型相同；

当样品A6的子一代的遗传区块类型不存在时，推断的原则是：如果双亲的遗传区块类型相同，那么样品A6的遗传区块类型与双亲的遗传区块类型相同；

当样品A6的双亲之一和子一代的遗传区块类型存在时，推断的原则是：如果双亲之一的遗传区块类型和子一代的遗传区块类型相同，那么样品A6与其双亲之一和其子一代的遗传区块类型相同；

按照上述原则推断出样品A6的遗传区块类型，下一步按照拆分后的直系同源系谱尽可能少；且非直系同源系谱间的重叠样品也尽可能少，最好重叠样品为1个的原则对上述两个非直系同源系谱进行系谱拆分，如图4中所示，按照拆分后只有一个重叠样品B3的原则将上述包含9个样品的两个非直系同源系谱拆分成两个同源系谱；

两个同源系谱中每个样品的遗传区块的起源推断的步骤同实施例1，得到了每个样品在各自同源系谱内的遗传区块的遗传起源；

最后，进行系谱整合的步骤，系谱整合的原则是重叠样品B3在直系同源系谱和非直系同源系谱中有不同的标记名称，那么以直系同源系谱的标记名称为准，即为B3。此步骤中，如果重叠样品在两个非直系同源系谱中都属于直系同源系谱内的样品或都属于非直系同源系谱内样品(图4中未示出)，那么重叠样品以在先输入的非直系同源系谱的名称为准，这样系谱整合后，便得到了推断出各遗传区块起源的所有样品，即实现了各个样品在分子水平上的各遗传区块的遗传关系。

从以上的描述中，可以看出，本发明的实施例充分考虑了可能存在的部分样品数据缺失的复杂系谱的结构，针对不同的情况，采用了对数据缺失的部分样品进行遗传区块类型的推断的步骤、对由非单一直系同源系谱构成的系谱进行系谱拆分和系谱整合等步骤，使得对系谱内所有样品的遗传区块类型的遗传起源推断相对简单、准确，从而突破了现有技术无法对上述复杂系谱在DNA分子水平上进行系谱重建的瓶颈，使得任何具有上述特点的复杂系谱在DNA分子水平上的系谱重建成为可能。此外，当某一系谱中上述情况均存在时，同时采用上述步骤即可实现其在分子水平上的系谱重建。

而且，当系谱为自交或者回交产生的系谱，则系谱结构图中体现为父母本都为相同的样品名称或者其一为上面若干代曾出现的样品名称，这样的系谱结构并不会影响本发明的方法中遗传区块来源的推断原则，故不需要特殊处理便可用此方法进行起源推断，相比现有技术，本发明的方法且具有严谨、功能全面、操作简单以及兼容性好的突出优势。

显然，本领域的技术人员应该明白，本发明的上述的一些模块或一些步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分子水平上的系谱重建的方法，其特征在于，所述方法包括以下步骤：

对系谱内所有样品两两进行染色体比对，得到所有样品中两两相比所得的相同染色体区段信息；

根据所述所有样品中两两相比所得的相同染色体区段信息，对全基因组进行遗传区块划分，得到多个不同类型的遗传区块；

根据每个所述遗传区块的类型的不同，对所述系谱内的所有样品进行遗传区块组划分，得到多组遗传区块样品组；

根据所述系谱中各样品间已知的遗传关系，对每组所述遗传区块样品组中的每个样品的所述遗传区块的遗传起源进行推断，得到系谱内所有样品的遗传区块的遗传起源；从而完成所述分子水平上的系谱重建；

所述系谱为由直系同源系谱和非直系同源系谱构成的系谱，所述方法还包括：

在对所述多组遗传区块样品组中的每个样品的各所述遗传区块的遗传起源进行推断之前，按照直系同源关系对所述非直系同源系谱进行系谱拆分的步骤；以及

在对所述多组遗传区块样品组中的每个样品的各所述遗传区块的遗传起源进行推断之后，对所述非直系同源系谱进行系谱整合的步骤。

2.根据权利要求1所述的方法，其特征在于，所述系谱为自交多代产生的系谱、回交多代产生的系谱或者部分样品的数据缺失的系谱。

3.根据权利要求2所述的方法，其特征在于，当所述系谱为部分样品的数据缺失的系谱时，所述方法在得到所述多组遗传区块样品组步骤后，还包括对数据缺失的所述部分样品的所述遗传区块的类型进行推断的步骤。

4.根据权利要求3所述的方法，其特征在于，对数据缺失的所述部分样品的所述遗传区块的类型进行推断的步骤中，

当数据缺失的所述部分样品的双亲、配偶及子一代的遗传区块类型都存在时，推断的原则是：

如果子代的遗传区块类型与配偶的遗传区块类型不同，而与双亲中其一的遗传区块类型相同，那么数据缺失的所述部分样品的所述遗传区块类型与子一代的遗传区块类型相同；

如果子代的遗传区块类型与配偶的遗传区块类型相同，且双亲的遗传区块类型相同，那么数据缺失的所述部分样品的所述遗传区块类型与双亲的遗传区块类型相同；

当数据缺失的所述部分样品的双亲的遗传区块类型不存在时，推断的原则是：如果子代的遗传区块类型与配偶的遗传区块类型不同，那么所述数据缺失的所述部分样品与子代的遗传区块类型相同；

当数据缺失的所述部分样品的子一代的遗传区块类型不存在时，推断的原则是：如果双亲的遗传区块类型相同，那么所述数据缺失的所述部分样品的遗传区块类型与双亲的遗传区块类型相同；

当数据缺失的所述部分样品的双亲之一和子一代的遗传区块类型存在时，推断的原则是：如果所述双亲之一的遗传区块类型和所述子一代的遗传区块类型相同，那么数据缺失的所述部分样品与所述双亲之一和所述子一代的遗传区块类型相同。

5.根据权利要求1所述的方法，其特征在于，所述系谱拆分的步骤中拆分的原则是：拆分后的直系同源系谱尽可能少，且非直系同源系谱间的重叠样品也尽可能少。

6.根据权利要求5所述的方法，其特征在于，所述重叠样品为1个。

7.根据权利要求1所述的方法，其特征在于，对所述非直系同源系谱进行系谱整合的步骤中根据系谱内每个样品对应一个标记名称的原则，对所述系谱内每两个具有重叠样品的非直系同源系谱进行系谱整合；

重复所述系谱整合的步骤，完成所述系谱内所有具有重叠样品的非直系同源系谱之间的系谱整合。

8.根据权利要求7所述的方法，其特征在于，所述系谱整合的原则是：

如果一个重叠样品在直系同源系谱和非直系同源系谱中有不同的标记名称，那么以所述重叠样品所在的直系同源系谱的标记名称为准；

如果一个重叠样品在两个非直系同源系谱中都属于直系同源系谱内的样品或都属于非直系同源系谱内的样品，那么所述重叠样品以在先输入的所述非直系同源系谱的名称为准。

9.根据权利要求1所述的方法，其特征在于，所述对系谱内所有样品两两进行染色体比对，得到所有样品中两两相比所得的相同染色体区段信息的步骤中，采用IBDseq算法对系谱内所有样品两两进行IBD区块信息比对，得到所有样品中两两相比所得的IBD信息。

10.一种分子水平上的系谱重建的装置，其特征在于，所述装置包括：

染色体比对模块，用以生成包含系谱内所有的样品经两两比对得到的相同染色体区段信息的文件；

遗传区块拆分模块，与所述染色体比对模块相连，通过读取所述包含系谱内所有的样品经两两比对得到的相同染色体区段信息的文件以将待重建系谱物种的全基因组拆分成多个遗传区块，得到多个不同类型的遗传区块；

遗传区块样品分组模块，与所述遗传区块拆分模块相连，以根据每个所述遗传区块的类型对所述系谱内所有样品进行遗传区块组的划分，得到多组遗传区块样品组；

分子遗传起源推断模块，与所述遗传区块样品分组模块相连，以对每组所述遗传区块样品组中的每个样品的所述遗传区块的遗传起源进行推断，得到系谱内所有样品的遗传区块的遗传起源，从而完成所述分子水平上的系谱重建；

所述系谱为由直系同源系谱和非直系同源系谱构成的系谱，所述装置还包括：

系谱拆分模块，设置在所述遗传区块分组模块及所述分子遗传起源推断模块之间，用以将所述系谱群体内的非直系同源系谱进行系谱拆分；

系谱整合模块，设置在所述分子遗传起源推断模块与所述系谱重建模块之间，用以将所述系谱内的非直系同源系谱进行系谱整合。

11.根据权利要求10所述的装置，其特征在于，所述系谱为自交多代产生的系谱、回交多代产生的系谱或者部分样品的数据缺失的系谱。

12.根据权利要求11所述的装置，其特征在于，当所述系谱为部分样品的数据缺失的系谱时，所述装置还包括缺失样品推断模块，所述缺失样品推断模块设置在所述遗传区块样品分组模块与分子遗传起源推断模块之间，用以对数据缺失的所述部分样品的遗传区块的类型进行推断。

13.根据权利要求12所述的装置，其特征在于，所述缺失样品推断模块对数据缺失的所述部分样品的所述遗传区块的类型进行推断的原则是：

14.根据权利要求10所述的装置，其特征在于，所述系谱拆分模块中所述系谱拆分的原则是：拆分后的直系同源系谱尽可能少；且非直系同源系谱间的重叠样品也尽可能少。

15.根据权利要求14所述的装置，其特征在于，所述重叠样品为1个。

16.根据权利要求10所述的装置，其特征在于，所述系谱整合模块中包括多个系谱整合子单元；每个所述系谱整合子单元用于根据系谱内每个样品对应一个标记名称的原则，对所述系谱内每两个具有重叠样品的非直系同源系谱进行系谱整合。

17.根据权利要求16所述的装置，其特征在于，每个所述系谱整合子单元对所述系谱内每两个具有重叠样品的非直系同源系谱进行系谱整合的原则是：

如果一个重叠样品在两个非直系同源系谱中都属于直系同源系谱内的样品或都属于非直系同源系谱内样品，那么所述重叠样品以在先输入的所述非直系同源系谱的名称为准。

18.根据权利要求10所述的装置，其特征在于，所述染色体比对模块为IBD检测模块。