CN112154508A

CN112154508A - 血缘同源网络中的群落分配和基因变异起源

Info

Publication number: CN112154508A
Application number: CN201980033508.2A
Authority: CN
Inventors: J·K·伯恩斯; J·M·格兰卡; S·哈特雷; L·多劳德
Original assignee: Dna Family Network Co ltd
Current assignee: Dna Family Network Co ltd
Priority date: 2018-04-05
Filing date: 2019-04-04
Publication date: 2020-12-29
Also published as: NZ769586A; BR112020020430A2; EP3776556A1; IL277776A; AU2019248875A1; EP3776556A4; US20220076782A1; MX2020010414A; US11238957B2; CA3095996A1; US20210057041A1; RU2020135985A; JP2021521511A; US11984196B2; WO2019193551A1

Abstract

公开了用于表征感兴趣的变异并且基于所获得的遗传信息来预测个体到群落的分配的技术。为了表征变异，参考个体的DNA数据集被访问并且被用于生成具有附加个体的簇群。参考个体在基因位点处携带变异，并且附加个体与参考个体共享IBD。簇群的族谱数据的统计信息被生成。基于统计信息，总结了变异特征的结果被生成。为了确定个体是否属于群落，个体的单倍型子集被输入到群落特定模型中。模型使用训练样本以用于训练，训练样本各自包括参考个体的单倍型和标识参考个体是否属于群落的标签。基于模型的输出，确定个体是否为群落成员。

Description

血缘同源网络中的群落分配和基因变异起源

相关申请的交叉引用

本申请要求于2018年4月5日提交的美国临时专利申请62/653,416以及于2018年4月5日提交的美国临时专利申请62/653,420的权益，其通过引用整体并入本文。

背景技术

所公开的实施例涉及评估其中感兴趣的变异可能已出现并传播的种群，以及从人与人之间的遗传关系的模式中发现历史种群。

尽管从遗传学上讲，人类几乎是完全相同的，但是人类DNA的细微差异是造成个体之间的一些可见差异的原因。实际上，通过比较个体DNA的这些细微差异，可以检测到暗示来自最近共同祖先遗传的长染色体片段，然后使用所检测到的这些片段来估计两个体相关的亲近度。在种群遗传学文献中，标识暗示最近共同遗传的片段的过程被称为血缘同源(IBD)分析。IBD分析可以被用于预测种群中任两个体之间的家族关系(例如，第二代表亲)。从遗传多态性数据了解种群结构是遗传学中的重要课题。该领域中使用最广泛的方法是基于等位基因频率变化的建模。这些方法阐明了例如人群迁移的历史模式。例如，美国(US)的先前遗传学研究有助于阐明近期移民的多样性与世界其他地区(例如，欧洲、非洲)有关。

发明内容

本文公开了用以表征感兴趣变异的技术。表征化可以提供有关携带任何感兴趣变异的种群的起源、迁移模式以及历史和当代地理位置的见解。由于许多变异与表型相关联(例如，性状、疾病或其他可观察到的特性)，因此了解变异的起源和分布可以深入了解相关联表型的病因，并且可以扩展到定位高危种群。

在一个实施例中，用以表征感兴趣变异的方法包括从个体获得DNA数据集。个体的基因型基于DNA数据集来确定。访问参考DNA数据集的集合。每个参考DNA数据集与参考个体相关联，并且每个参考个体是基因位点处变异的携带者。在一些实施例中，表型或单倍型也可以被选择。簇群被生成，簇群包括参考个体以及与参考个体共享血缘同源(IBD)的附加个体。簇群可以基于参考个体与附加个体之间的IBD亲和关系来生成。在一些实施例中，簇群包括表示个体的节点以及表示个体之间的IBD亲和关系的加权边。为了表征变异，所标识的簇群基于关于簇群中个体的信息，使用族谱数据(例如，出生位置、姓氏、祖先出生位置、住所)来注释。族谱数据的统计信息被生成来表征变异。总结变异表征的结果被生成。如果确定个体在基因位点处与簇群共享IBD，则提供总结变异特征的报告以用于显示。

在各个实施例中，本文所公开的技术可以附加地被用于基于所获得的遗传信息来预测个体对群落的分配。获得针对个体的DNA数据集。个体的基因型基于DNA数据集来确定。基因型被定相来生成个体的单倍型，并且个体的单倍型的子集被选择。子集基于感兴趣群落的特征来选择。单倍型的子集被输入到群落特定的模型中，以确定个体是否是群落的成员。模型使用训练样本来进行训练，其中每个训练样本包括参考个体的单倍型的组以及标识参考个体是否属于群落的标签。属于群落的参考个体具有表示群落的一个或多个单倍型的组。表示群落的单倍型可以通过对已知群落成员的个体中共同的单倍型进行富集分析来标识。基于模型的输出，确定个体是否为群落成员。

附图说明

图1图示了根据一个实施例的计算系统的系统环境的图。

图2是根据一个实施例的计算系统的架构的框图。

图3A图示了根据一个实施例的血缘同源(IBD)网络，IBD网络表示基因位点处的IBD共享。

图3B图示了根据一个实施例的跨染色体的基因位点处的IBD共享。

图4图示了根据一个实施例的富集出生位置的示例图形表示。

图5图示了根据一个实施例的在各个地理位置处绘制的位点处IBD的富集出生位置的示例图形表示。

图6图示了根据一个实施例的使用其单倍型的群落内部和外部的个体之间的DNA数据的视觉区别。

图7是图示了根据一个实施例的表征变异的方法的流程图。

图8是图示了根据一个实施例的使用模型来预测个体是否是群落成员的方法的流程图。

图9是图示了根据一个实施例的表征变异的附加方法的流程图。

附图仅出于例示的目的描绘了各种实施例。本领域技术人员将从以下讨论中容易地认识到，在不脱离本文所述原理的情况下，可以采用本文所示的结构和方法的备选实施例。

具体实施方式

图1图示了根据一个实施例的计算系统130的系统环境100的图。图1所示的系统环境100包括用户设备110、网络120、脱氧核糖核酸(DNA)提取服务125和计算系统130。在备选配置中，系统环境100中可以包括不同、更少和/或附加的组件。

客户端设备110是能够经由网络120来接收用户输入以及发送和/或接收数据的一个或多个计算设备。在一个实施例中，客户端设备110是计算机系统，例如，台式计算机或膝上型计算机。备选地，客户端设备110可以是具有计算机功能的设备，例如，个体数字助理(PDA)、移动电话、智能电话或另一合适的设备。客户端设备110被配置为经由网络120进行通信。在一个实施例中，客户端设备110执行允许客户端设备110的用户经由客户端设备的用户接口115来与计算系统130交互的应用。例如，客户端设备110执行网络浏览器应用，以使得能够经由网络120而在客户端设备110和计算系统130之间进行交互。在另一实施例中，用户接口115采用图形用户接口的形式，作为由计算机系统130发布并安装在用户设备110上的软件应用程序的一部分。在又一实施例中，客户端设备110借助在客户端设备110的本机操作系统(例如，

或ANDROID^TM)上运行的应用程序编程接口(API)来与计算系统130交互。

客户端设备110被配置为使用有线和/或无线通信系统，经由网络120来进行通信，网络120可以包括局域网和/或广域网的任何组合。在一个实施例中，网络120使用标准通信技术和/或协议。例如，网络120包括使用诸如以太网、802.11、全球微波接入互通性(WiMAX)、3G、4G、码分多址(CDMA)、数字订户线(DSL)等技术的通信链路。用于经由网络120进行通信的联网协议的示例包括多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)和文件传输协议(FTP)。通过网络120交换的数据可以使用任何适当的格式(例如，超文本标记语言(HTML)或可扩展标记语言(XML))来表示。在一些实施例中，网络120的全部或一些通信链路可以使用任何适当的一个或多个技术来加密。

个体提供DNA样本(或DNA数据集)来分析其遗传数据。在一个实施例中，个体使用样本收集试剂盒来提供DNA样本(例如，唾液)，可以根据DNA处理技术(例如，DNA测序)而从DNA样本中可靠地提取出遗传数据。DNA提取服务125接收样本并且例如通过从样本中提取DNA并标识DNA内存在的单核苷酸多态性(SNP)的基因型值来从遗传数据估计基因型。在该实例中的结果是针对每个SNP部位的二倍体基因型。计算系统130从DNA提取服务125接收遗传数据，并且将遗传数据存储在包含DNA二倍体基因型的DNA样本存储库中。在一些实施例中，DNA样本存储库中存储的遗传数据可以经由一个或多个指针而与用户数据存储库中的用户相关联。

计算系统130对DNA进行处理来标识个体对之间共享的IBD，并且使用该信息来标识个体样本中的簇群。在一个实施例中，簇群包括样本中相对于样本中的其他个体表现出彼此之间更高的IBD连接密度的个体。簇群可以使用有关组内个体的表型特征和族谱数据的信息以用于注释，并且被用于开发允许将通常新的个体分配给这些簇群的模型。

图2是根据一个实施例的计算系统130的架构的框图。在图2所示的实施例中，计算系统130包括用户数据存储库205、DNA样本存储库210、IBD网络存储库215、样本处理引擎220、定相引擎225、IBD估计引擎230、变异起源引擎235和群落预测引擎240。附加地，功能可以以与所描述的方式不同的方式而分布在各元素之间。在各种实施例中，计算系统130可以包括不同、更少和/或附加的组件。

计算系统130在用户数据存储库205中维护用户数据。用户数据存储库205为计算系统130的每个用户维护用户数据。在用户存储库205中为每个用户存储的数据量和类型可以基于对应用户提供的信息而有所不同。用户可以经由用户设备110的用户接口115来提供数据。例如，可以在用户接口的元素中提示用户回答与用户有关的问题，该问题可以被处理来获得族谱和调查数据。族谱数据的示例包括姓名(名字、姓氏、中间名、后缀)、出生位置、出生日期、死亡日期、婚姻信息、血统、家族史等。在某些情况下，家族史可以采用个体的系谱的形式(例如，所记录的家族关系)。与用户相关联的系谱信息包括一个或多个指定节点。系谱中的每个指定节点表示与所存储的DNA样本相对应的个体本身或个体的祖先。因此，节点表示系谱成员，系谱成员既可以是个体本身，也可以是可能已将遗传物质传给相关联个体的个体。族谱数据还可以包括计算系统130的用户之间的遗传连接。调查数据的示例包括：关于个体表型的信息，例如，物理性状(例如，身高、头发、皮肤色素沉着、雀斑、苦味、耳垂类型、虹膜模式、男性型秃发、卷发)；关于健康表型的信息(例如，乳糖耐受性、咖啡因消耗、疟疾抵抗、诺如病毒抵抗、肌肉表现、酒精泛红)和关于个人喜好的信息(例如，喜欢和不喜欢)。用户数据存储库205还可以包括从DNA存储库210中存储的DNA样本推断出的信息以及从个体接收的信息。例如，与哪些个体在遗传上有关、他们之间的关系、他们有多少代上溯的共享共同祖先、共享IBD的百分比、个体属于哪个群落的一部分、个体携带的变异等相关信息。

用户数据存储库205还包括从DNA样本生成的个体的基因型。基因型可以由样本处理引擎220或第三方服务生成。用户数据存储库205也可以包括个体的单倍型。单倍型通过对基因型定相来生成。在一个实施例中，用户数据存储库205包含关于对应个体是携带者的已知变异的信息(例如，变异类型、变异位置、与变异相关联的表型)。该信息可以从计算系统130、第三方数据库获得或使用第三方软件来获得。

计算系统130将个体的DNA样本保存在DNA样本存储库210中。DNA样本可以包含个体DNA的全部或部分以及对应元数据。DNA样本存储库210中存储的数据可以存储链接到用户的一个或多个DNA样本。在各种实施例中，DNA样本存储库210存储指针，该指针指向与和个体相关联的用户数据存储库205相关联的位置。

样本处理引擎220经由用户设备110的用户接口115或DNA提取服务125而从个体接收、处理和存储数据。为了收集用户数据(例如，族谱和调查数据)，样本处理引擎可以被配置为在用户设备110上提供交互式用户接口，交互式用户接口提供接口元素，用户可以在接口元素中提供族谱数据和调查数据。这些数据可以经由例如对普查记录、城镇或政府记录或任何其他印刷或在线材料执行的光学字符识别(OCR)而被手动提供或自动提取。

为了收集DNA样本，样本处理引擎220被配置为经由DNA提取服务125来接收DNA样本或来自第三方来源的样本数据。样本处理引擎220可以将DNA样本发送到DNA样本存储库210和定相引擎225。样本处理引擎220标识常染色体SNP，使得个体在常染色体上的二倍体基因型可以被计算定相。例如，对于一个个体，700,000个常染色体SNP可以被标识来估计基因型定相。样本处理引擎220将所标识的SNP提供给定相引擎225，定相引擎225基于所标识的SNP集合来对个体的二倍体基因型进行定相，从而为每个用户生成单倍型集合。

定相引擎225对DNA样本进行定相，使得个体的单倍型IBD可以由估计引擎230、变异起源引擎235和群落预测引擎240使用。单倍型集合由变异起源引擎235使用来表征感兴趣的变异。单倍型集合由群落预测引擎240使用来确定个体在群落中的成员身份。定相引擎225针对每个二倍体基因型生成经估计的单倍型对。经估计的单倍型被存储在用户数据存储库205和IBD网络存储库215中。定相引擎225将经定相的基因型存储在用户数据存储库205中。为了对基因型集合进行定相来生成两个单倍型数据集，通过引用并入于2015年10月19日提交的标题为“Haplotype Phasing Models”的美国专利申请号15/591,099，用于所有目的。

IBD估计引擎230根据用户数据存储库205中存储的个体对之间的经定相的基因型数据(单倍型)来估计IBD片段。IBD片段是在个体对中标识的染色体片段，该染色体片段从最近的共同祖先推断地继承而来。通常，密切相关的个体共享相对大量的IBD片段，并且IBD片段往往具有更长的长度(单独，或跨一个或多个染色体的聚合)，而关系更远的个体共享相对较少的IBD片段，并且这些片段往往更短(单独，或跨一个或多个染色体的聚合)。例如，虽然近亲成员经常共享高达71cM的IBD(例如，第三代表亲)，但远亲相关个体可以共享少于12cM的IBD。关于两个个体之间的IBD片段的相关程度可以被称为IBD亲和关系。

IBD估计被用于建立IBD网络，IBD网络标识在基因位点处共享全基因组IBD和/或IBD的个体。变异起源引擎235和群落预测引擎240使用这些网络来标识作为特定变异的携带者的个体和作为遗传群落的一部分的个体。

在一些实施例中，IBD网络可以被用于构造被称为参考面板的数据集，该数据集可以被用于训练模型。这些模型进而可以被用于基于其DNA样本来生成有关哪些群集与假设用户(例如，新用户)相关的预测。例如，簇群可以包括作为特定变异的携带者的个体、作为群落一部分的个体、在基因位点处共享IBD的个体等。对于关于簇群和参考面板生成的更多详细信息，题为“Discovering Population Structure from Patterns of Identity-By-Descent”美国专利申请号15/168,011出于所有目的，通过引用结合于此。

变异起源引擎235表征变异的起源。变异的表征可以提供有关携带感兴趣变异的种群的起源、迁移模式以及历史和当代地理分布的见解。由于变异通常与性状、疾病或其他表型相关联，因此了解变异的起源和分布也可能有助于理解与性状、疾病或其他表型相关联的病因。为此，变异起源引擎235对与变异相关联的用户的族谱数据执行富集分析，以标识不同时段期间富集的出生位置。在一些实施例中，用户选择一个或多个目标变异的集合来表征。用户可以使用用户设备110上的用户接口115的交互式接口元素来选择目标变异。变异选择可以服从标准。标准的示例包括跨种群的等位基因频率、相关联的文献或已知功能、选择压力以及常染色体或性相关的继承。

变异起源引擎235可以在各个地理位置的地图上绘制变异表征的结果。所描述的图形地图和曲线图是有用的，因为在各种实现方式中，它们可以经由用户接口115呈现给用户。然而，图形地图和曲线图的实际生成对于确定针对给定变异来注释的地理位置并不是绝对必要的。以上描述可以完全借助非图形方法来完成，也就是通过基于IBD亲和关系的数据，在一个或多个感兴趣变异的基因位点处进行簇群、访问簇群的族谱数据并对簇群的族谱数据进行统计分析来确定变异的表征，而无需在用户接口上向用户呈现结果来完成。在一些实施例中，变异起源引擎235向已提交基因型和历史家族记录并且已被标识为变异的可能携带者的用户生成变异表征报告。例如，报告可以包括当前和历史分布、与变异相关联的表型，从其继承性状的家族成员/祖先、变异起源的年限和位置等。报告可以在用户接口上呈现给簇群中的个体。

群落预测引擎240使用经训练的群落特定模型来标识个体属于哪个群落。因此，训练过程产生模型的集合，模型被配置为预测给定个体是否属于每个群落。例如，群落预测引擎240标识每个用户可以被分类到零个、一个或多个群落。模型训练和测试将在下文详细讨论。

一旦模型被训练，群落预测引擎240就可以基于新用户的遗传样本，使用模型来预测新用户是哪个群落(如有)的成员。系统可以在无需重建IBD网络或重新训练模型的情况下，使用这些群落预测来提供详细说明个体的预测群落成员身份的报告。在一些实施例中，报告包括用户所属群落的二分类。在其他实施例中，报告包括用户DNA样本中属于每个群落的部分。例如，报告可以得出结论，用户从爱尔兰群落获得了30％的DNA，而从芬兰群落获得了70％的DNA。为此，用户的单倍型与表示群落的单倍型的组之间的重叠量被用于确定用户从特定群落继承的DNA的部分。

图3A图示了根据一个实施例的血缘同源(IBD)网络300，血缘同源(IBD)网络300示出了基因位点处共享的IBD。IBD网络包括节点，每个节点对应于来自用户数据存储库205的个体中的一个。一个节点与另一节点之间的每个边基于两个节点之间的IBD估计而具有权重、数值。例如，边可以表示IBD网络中两个节点之间的IBD亲和关系。更具体地，IBD估计引擎230限定从两个个体(例如，i和j)之间共享的IBD分段的总长度到网络中边链接节点i和j的权重的映射(也被称为“亲和关系度量”)。在一个或多个实施例中，亲和关系度量是介于0和1之间的实数。例如，如果节点i和j之间共享的IBD分段的总长度大于65cM(例如，第三代表亲)，则边链接节点i和j的值等于或大于0.97。备选地，如果共享IBD分段的总长度为4-10cM或更短(例如，关系远的表亲或远亲)，则边的权重为0。

IBD估计引擎230可以使用各种算法来将IBD网络划分为两个或更多个簇群。簇群可以被生成来标识在基因位点处共享IBD的个体。例如，IBD在感兴趣变异的基因位点处共享。类似地，簇群可以被生成来标识共享表示群落的单倍型的个体。例如，IBD在仅在特定群落富集的单倍型集合的基因位点处共享。

在某些情况下，簇群和群落可以互换使用。根据粒度，各种簇群可以表示不同的遗传群落，例如，种族和种族群体、移民群体、当地祖先。对于IBD网络，计算系统130可以应用一个或多个簇群技术(例如，K-均值、卢旺簇群等)来生成节点的一个或多个簇群。例如，在一个实施例中，通过选择将关于IBD网络定义的模块化目标最大化的簇群来标识IBD网络中的簇群。以该方式从网络中标识的簇群通常被称为“群落”。尽管在一个或多个实施例中可以采用模块化最大化算法来标识簇群，但是术语“群落”并不是在模块化最大化簇群的严格技术意义上使用的，而是更普遍地用于指代通过采用在网络分析或机器学习领域开发的若干现有网络簇群方法中的任一个，在网络中标识的簇群。

网络中的个体可以共享全基因组IBD，或者他们可以在基因位点处共享IBD。如图3A所示，IBD网络300强调在感兴趣变异的基因位点处与感兴趣变异的携带者共享IBD的个体。携带者(肯定是变异的携带者的个体)被表示为较大的节点。例如，节点(圆圈)A 305、B310、C 315、D 320和E 325表示变异的携带者。网络中边的权重可以被计算来标识在感兴趣变异的基因位点处共享IBD的个体。与携带者共享IBD但并非肯定是变异的携带者的个体被表示为网络中的较小节点，例如，个体330。节点经由边而被连接到网络中的其他节点。例如，个体330经由边335被连接到携带者E 325。

图3B图示了根据一个实施例的跨染色体的基因位点处共享的IBD。感兴趣变异可以通过利用已知样本(肯定携带变异的个体的DNA样本)和未知样本(不肯定携带变异的个体的DNA样本)之间的IBD程度来检测。例如，计算系统130可以基于已知数量的样本和未知样本之间的IBD共享来预测可能是感兴趣变异的携带者的附加用户。在一些实施例中，在感兴趣变异的基因位点处，未知样本与已知样本进行比较。在图3B中，跨染色体340的基因组位置沿x轴表示。y轴指示IBD共享组345，其中每个行是样本与已知携带者样本的IBD关系。阴影的颜色或程度指示沿染色体的各个位置处共享IBD的样本数。颜色或阴影越浅，在该位置处共享IBD的样本越多。例如，白色区域图示了已确认具有变异的匹配项，而深色IBD共享样本已被确认不具有变异。这图示了检测样本中具有IBD的未知变异对已知具有变异的所有样本子集的功效。具有IBD的样本中只有一个或几个样本预计不具有感兴趣变异。

图4图示了根据一个实施例的示例富集出生位置。为了表征变异，变异起源引擎235执行富集分析来标识与变异相关联的簇群内的富集出生位置。富集出生位置是在不同时段中，簇群中过多表示的出生位置。为了生成簇群，变异起源引擎235标识作为变异的携带者的个体(“参考个体”或“携带者”)以及与携带者共享IBD的个体。携带者可以使用用户数据存储库205、IBD网络存储库215中存储的信息或来自第三方服务或软件的信息来标识。在一些实施例中，如果个体与一个或多个携带者共享全基因组IBD，则个体被标识。例如，如果个体与一个或多个携带者共享全基因组IBD的阈值量，则个体被标识。在其他实施例中，仅当个体与一个或多个携带者共享变异单倍型的位点处的IBD时，个体才被标识。在变异单倍型的基因位点处为IBD的个体也可能携带变异。这是因为，如果个体的单倍型具有长共享片段，则他们很可能在该单倍型中拥有所有相同的遗传信息。因此，变异起源引擎235可以使用跨越变异的区域的IBD网络来标识和表征可能携带目标变异的个体。

基于携带者和个体之间的IBD亲和关系，个体被添加到簇群，IBD亲和关系由IBD估计引擎230使用个体的基因型来计算。例如基因型405A-D的基因型被用于将个体401A、401B、401C和401D标识为与变异(例如，变异X)相关联的簇群的节点。在一些实施例中，如果对应个体与一个或多个携带者之间的IBD亲和关系高于阈值IBD亲和关系，则个体被添加到簇群。通过标识与携带者共享IBD的附加用户，与仅使用已知携带者来表征变异时相比，变异起源引擎235可以以更高的统计置信度来表征变异的起源。然而，在一些实施例中，变异可以仅使用作为感兴趣变异的已知携带者的用户的数据来表征。

变异起源引擎230提取用户数据，例如，与对应簇群中每个节点以及节点亲属(例如，祖先)相关联的族谱数据(例如，族谱数据410A-D)。族谱数据的示例可以包括家族历史、出生日期、出生位置、住所、死亡日期、职业、政治和/或宗教信仰、婚姻等。使用该数据，变异起源引擎235生成统计信息来标识富集出生位置。用于标识富集出生位置的统计信息可以包括优势比和频率。优势比被定义为在给定位置处，个体是变异的携带者的机率，而不是个体不是变异的携带者的机率。

频率被定义为在地理位置中出生的携带感兴趣变异、性状、单倍型、基因型等(和/或与携带感兴趣变异的个体共享IBD)的个体在地理位置处出生的个体总数量中所占的比例。富集出生位置可以被定义为优势比至少为阈值(例如，5)或对数频率至少为阈值(例如，0.9)的所有舍入的经纬度网格点的集合，指示出生位置相对丰富的地理位置。在其他实施例中，不同的统计信息可以被用来标识富集出生位置。富集分析可以在不同且区分的时段内重复，以表征变异的历史。例如，与变异X相关联的簇群的富集分析将密歇根州底特律标识为簇群在不同时段期间(例如，公元1930年至1960年之间)的富集出生位置。附加富集分析可以在不同且附加的时段期间执行，以标识变异的历史分布和/或变异X的迁移模式。富集分析的结果和簇群的其他族谱数据被用于表征与簇群相关联的变异。例如，与变异相关联的迁移模式、当前和历史分布、平均寿命、变异起源等可以被标识。表征可以以报告或其他任何适当格式被呈现为如图5中所讨论的地图。对于与本公开中讨论的任何富集分析有关的更多信息，出于所有目的，题为“Genetic and Genealogical Analysis forIdentification of Birth Location and Surname Information”的美国专利申请公开US2017/0011042通过引入并入。

在一些实施例中，变异起源引擎235可以使用IBD作为证据来评估来自创始者种群的变异的分析有效性。如果已知变异来自创始者，则变异起源引擎235可以通过评估变异的已知携带者在变异周围和包括变异的基因位点处是否彼此共享IBD来提供对该变异的分析验证。附加地，变异起源引擎235确认并非所有已知的变异携带者与对变异不是“正”的DNA样本(例如，已知不携带变异的个体的DNA样本)共同共享IBD。

当IBD估计引擎230标识在感兴趣变异的基因位点处共享IBD的附加用户时，变异起源引擎235将变异的表征提供给附加用户。在一些实施例中，变异起源引擎235将附加用户添加到簇群，并且使用附加用户的DNA样本和族谱数据，使用各种统计检验(例如，费舍尔精确检验、卡方检验等)来重新执行富集分析。在一些实施方案中，相似的分析可以对表型或单倍型执行来表征感兴趣的表型或单倍型。

图5图示了根据一个实施例的在各个地理位置处绘制的富集位点处IBD的出生位置的示例图形表示。地图可以被用于将常见变异的已知地理分布可视化。附加地，地图可以被用于指示任何所选稀有变异的可能来源和背景种群。在一些实施例中，用户选择哪些地理位置应被包括在地图中。在其他实施例中，地理位置基于所确定的富集位置而被自动包括在地图中。类似地，在一些实施例中，用户可以选择应在地图中包括哪些时段，并且在其他实施例中，时段基于变异的表征而被自动地包括。

所示的图示500描绘了在公元1700年至公元1800年之间出生、是感兴趣变异、性状、表型、单倍型等的携带者并且在美国或欧洲出生的个体的出生位置。如图5所示，变异广泛分布于北欧和美国东海岸。附加地，东海岸可能已成为变异在美国的进入点。用户还可以使用用户接口来选择不同或附加变异来表征。为了表征不同或附加变异，统计过滤器可以根据归属于某个种群或簇群所需的数量的IBD共享来调整。经调整的统计过滤器被应用于簇群中的个体来产生经更新的簇群。备选地，新的簇群可以基于不同和/或附加感兴趣变异的基因位点来生成。

在富集分析期间计算的统计信息的示例包括优势比和频率。优势比被定义为在给定位置处，个体是变异的携带者的机率，而不是个体不是变异的携带者的机率。优势比510的对数被用于生成从视觉上描述网格点的图，其中最大的对数优势比由标签或可区分的形状来可视地指示。例如，圆圈指示对数优势比在1到3之间；星号指示对数优势比在3到5之间；正方形指示对数优势比在5到7之间等。以该方式，突出显示的图形地图位置对应于由感兴趣变异的携带者不成比例地表示的出生位置。例如，公元1700年至公元1800年之间在丹麦525出生的个体很可能是变异(例如，变异X)的携带者。

频率被定义为在地理位置出生的具有感兴趣变异、性状、单倍型、基因型等(和/或与具有感兴趣变异的个体共享IBD)的个体在地理位置处出生的个体总数量中所占的比例。频率可以针对不同的时段来计算，以标识感兴趣变异、性状、单倍型或基因型的起源、迁移模式以及历史和当代分布。对数频率515被用于生成在视觉上描绘了网格点的图，其中最大频率比由标签或标记的大小可视地指示。标记的大小指示变异在特定位置中的对数频率515。如图所示，圆圈越大，在特定位置中出生的个体越常携带变异。例如，如图示500所示，在美国520的东海岸，在东海岸出生的人通常是变异X的携带者，或与变异X的携带者共享IBD。

图6图示了根据一个实施例的使用其单倍型600在群落内部和外部的个体之间的DNA数据集的视觉区别。这些区别被用于预测个体是否归属于群落。为此，用户的单倍型被输入到一个或多个群落特定模型中作为特征向量。如下所述，根据哪些特征(即，富集单倍型)被选择并被用于训练群落特定模型，每个模型将接收不同的特征向量。富集单倍型是在群落成员之中唯一共同的单倍型。因此，对于每个模型(因此，对于每个群落)，与群落分类相关的估计IBD将有所不同。在一个实施例中，每个模型计算得分，例如，二进制得分、概率或似然度(例如，p值)，以确定所输入的特征向量是否归属于群落。在一个实现方式中，如果由经训练的模型计算的概率超过阈值数值，则个体被分类为归属于给定群落。在一些实施例中，群落预测引擎240设置阈值数值。在其他实施例中，用户可以选择阈值数值。对于每个模型，将个体分类为群落的阈值可以相同或不同。群落预测模块的输出既包括个体属于群落的二分类，又包括每个群落的概率。在某些实施例中，输出包括个体DNA样本中属于每个群落的部分。例如，用户的单倍型和表示群落的单倍型的组之间的重叠量可以被用于确定个体从特定群落继承的DNA部分。

在图6中，每一行表示个体，每一列表示感兴趣群落内唯一的共同单倍型(例如，富集单倍型)。富集单倍型601使用以下描述的富集分析来标识。为了更容易地可视化属于或不属于群落的个体的单倍型之间的区别，其单倍型在虚线上方示出的个体605属于群落A，而其单倍型在虚线下方示出的个体610不属于群落A。富集单倍型601不表示单个个体的单倍型。相反，它们表示最能表示群落的单倍型，并且可以被用作模型和/或分类器中的特征。因此，个体不需要具有单倍型集合中的所有单倍型，也不需要具有其他个体的所有相同单倍型来成为同一群落的一部分。

基于他们具有的群落的富集单倍型的数量，个体被标识为属于群落。他们携带的群落的单倍型越丰富，他们属于该群落的可能性就越大。如图所示，具有群落A的至少阈值数量的富集单倍型的个体是群落A的成员。类似地，携带少于群落A的阈值数量的富集单倍型的个体也不是群落A的成员。例如，个体A 615是群落A的15个富集单倍型中的12个富集单倍型(例如，单倍型620和单倍型630)的携带者，且个体H 625仅是群落A的15个富集单倍型中的4个富集单倍型的携带者。

模型使用针对每个群落创建的训练和测试数据集来训练。训练和测试数据集通过对属于感兴趣群落的个体和不属于感兴趣群落的个体的基因型进行定相来生成。模型的训练可以被监督。例如，训练和测试数据集中的每个个体可以具有指示他们是否属于群落的二进制标签。如果已知个体属于群落，则个体被标记“1”。类似地，如果已知个体不属于群落，则个体被标记为“0”。正训练集包括已知属于群落的个体的单倍型的组。负训练集包括已知不属于群落的个体的单倍型的组。

群落成员的基因型被分析来在每个窗口处找到共同的单倍型。例如，共同的单倍型的窗口长度为64、128和512个SNP。对共同的单倍型执行富集分析来发现与其他群落相比，在感兴趣群落中更可能观察到哪些共同的单倍型(“富集单倍型”)601。在一个实施例中，费舍尔精确检验在富集分析期间被使用来标识富集单倍型。在另一实施例中，卡方检验被使用来标识富集单倍型。Bonferroni校正可以被用于避免假正例。富集单倍型(也被称为参考单倍型)在群落特定模型中用作特征。模型可以是线性或非线性的，并且可以包括随机森林分类器、SVM、神经网络、决策树。针对训练和测试数据集中的每个个体生成特征向量。特征向量中的每个元素对应于参考单倍型，并且每个元素的值指示个体中是否存在参考单倍型。例如，如果个体具有特征，则特征向量中的对应元素的值为“1”，并且如果个体不具有特征，则特征向量中的对应元素的值为“0”。

群落预测引擎240生成数据帧，数据帧包括具有其特征向量的个体和指示他们是否属于群落的标签。模型被应用于数据帧，模型的性能然后被测量。模型分析可以基于所选择的单倍型的长度(例如，64、128、512个SNP)来多次执行。在一些实施例中，在分析期间，不同长度的单倍型被混合。在其他实施例中，在分析期间，单个长度的单倍型被使用。最终模型参数和权重基于模型性能来选择。

图7是图示了根据一个实施例的表征变异的方法700的流程图。个体的DNA样本被获得705。个体的基因型基于DNA样本来确定710。参考DNA样本集合被访问715。每个参考DNA样本与作为基因位点处等位基因(或变异)的携带者的参考个体相关联。包括参考个体和附加个体的簇群被生成720。簇群可以基于参考个体和附加个体之间的IBD亲和关系来生成720。附加个体可以与参考个体或变异的基因位点处的IBD共享全基因组IBD。簇群中个体的族谱数据被获得。例如，簇群中每个个体的出生位置和出生年份以及每个体的祖先。簇群的族谱数据的统计信息被生成725。例如，变异的优势比和频率被生成725来标识簇群的富集出生位置。一旦确定730个体与簇群在基因位点处共享IBD，就提供735基于族谱数据的统计信息而总结了变异的表征的报告，以进行显示。在其他实施例中，在无需与作为携带者的个体共享IBD的情况下，用户可以访问变异、性状、表型、单倍型等的表征。

图8是图示了根据一个实施例的使用模型来预测个体是否是群落成员的方法800的流程图。DNA数据集从个体获得805。个体的基因型基于DNA数据集来确定810。个体的基因型被定相815来生成个体的单倍型。个体的单倍型的子集被选择820。例如，单倍型的子集基于感兴趣群落来选择。不同的单倍型子集可以针对每个感兴趣群落来选择。单倍型子集被输入825到使用训练样本训练的模型中。每个训练样本包括参考个体的单倍型的组和标识参考个体是否归属于群落的标签。基于模型的输出，确定830个体是否是群落的成员。为了确定个体是否是附加群落的成员，不同的单倍型子集被输入到不同的群落特定模型中。例如，存在用于确定个体是否属于爱尔兰群落、犹太群落或者芬兰群落的模型。

图9是图示了根据一个实施例的表征变异的另一方法900的流程图。接收请求905，该请求用以生成计算系统用户的一个或多个变异的目标集合的报告。标识一个或多个携带者的组910，一个或多个携带者是已知携带目标集合中指定的一个或多个变异的携带者。访问携带者的DNA数据集915。访问附加个体的DNA数据集925，附加个体在包括目标集合中指定的一个或多个变异的基因位点处与至少一个携带者共享血缘同源(IBD)。携带者和附加个体的族谱数据被访问925。基于一个或多个变异与携带者和附加个体的族谱数据之间的关联性，生成总结一个或多个变异的表征的结果930。

IV.附加考虑

为了例示的目的已呈现了实施例的前述描述；它并不旨在穷举或将专利权限制为所公开的精确形式。相关领域的技术人员可以理解，根据以上公开，许多修改和变化是可能的。

该描述的某些部分根据算法和信息操作的符号表示来描述实施例。这些算法描述和表示通常由数据处理领域的技术人员用来将其工作的实质有效地传达给本领域的其他技术人员。这些操作虽然在功能上、计算上或逻辑上进行了描述，但应理解为由计算机程序或等效电路、微代码等来实现。此外，在不失一般性的情况下，有时将这些操作布置称为引擎也很方便。所描述的操作及其相关联的引擎可以以软件、固件、硬件或其任何组合来体现。

本文描述的步骤、操作或过程中的任一个可以单独地或与其他设备组合地利用一个或多个硬件或软件引擎来执行或实现。在一个实施例中，软件引擎使用计算机程序产品来实现，计算机程序产品包括包含计算机程序代码的计算机可读介质，计算机程序代码可以由计算机处理器执行来执行所描述的任何或所有步骤、操作或过程。

实施例还可以涉及用于执行本文中的操作的装置。该装置可以被具体地构造用于所需目的和/或它可以包括由计算机中存储的计算机程序选择性地激活或重新配置的通用计算设备。这样的计算机程序可以被存储在非暂时性、有形计算机可读存储介质中，或者适合于存储电子指令的任何类型的介质中，这些介质可以被耦合到计算机系统总线。此外，说明书中提到的任何计算系统可以包括单个处理器，或者可以是采用多个处理器设计来提高计算能力的架构。

实施例还可以涉及通过本文描述的计算过程生产的产品。这样的产品可以包括由计算过程产生的信息，其中信息被存储在非瞬态、有形计算机可读存储介质上，并且可以包括计算机程序产品的任何实施例或本文所述的其他数据组合。

最后，出于可读性和指导性目的，主要选择了说明书中使用的语言，并且该语言未被选择来划定或限制专利权。因此，旨在使得专利权的范围不受该详细描述的限制，而是由基于此的申请所发布的任何权利要求来限制。因此，实施例的公开内容旨在例示专利权的范围，而不是限制专利权的范围。

Claims

1.一种计算机实现的方法，包括：

接收请求，所述请求用以生成计算系统的用户的一个或多个变异的目标集合的报告；

标识一个或多个携带者的组，所述一个或多个携带者被已知携带所述目标集合中指定的所述一个或多个变异；

访问所述携带者的DNA数据集；

访问附加个体的DNA数据集，所述附加个体在基因位点处与所述携带者中的至少一个携带者共享血缘同源(IBD)，所述基因位点包括所述目标集合中指定的所述一个或多个变异；

访问所述携带者和所述附加个体的族谱数据；以及

基于所述一个或多个变异与所述携带者和所述附加个体的所述族谱数据之间的关联性，生成总结所述一个或多个变异的表征的结果。

2.根据权利要求1所述的方法，其中生成所述结果包括：

对所述携带者和所述附加个体的所述族谱数据执行富集分析，以确定富集出生位置的集合；

在富集出生位置的所述集合中标识与所述一个或多个变异的起源相关联的一个或多个位置；以及

基于所述富集分析的所述结果来标识所述一个或多个变异的分布。

3.根据权利要求1所述的方法，其中生成所述结果包括：

构造地图，所述地图示出了所述一个或多个变异在不同地理位置中的所述表征，所述一个或多个变异的所述表征包括所述变异的历史、所述变异的起源、所述变异的迁移模式或所述变异的当前分布中的一个或多个。

4.根据权利要求1所述的方法，其中所述一个或多个变异的所述表征被显示在各个地理位置的地图上，所述地图指示所述一个或多个变异在所述各个地理位置内的所述表征。

5.根据权利要求4所述的方法，其中所述各个地理位置的所述地图与指示以下一项或多项的不同时段相关联：与所述变异的历史相关联的时段、与所述变异的起源相关联的时段、与所述变异的迁移模式相关联的时段、或者与所述变异的当前分布相关联的时段。

6.根据权利要求1所述的方法，其中所述一个或多个变异的表征还包括：

对所述簇群的所述族谱数据执行富集分析，以标识与所述一个或多个变异相关联的一个或多个富集位置。

7.根据权利要求1所述的方法，其中族谱数据包括出生位置、出生日期、家族历史、职业、住所、婚姻、死亡日期。

8.根据权利要求1所述的方法，生成总结一个或多个变异的表征的结果还包括：

执行所述族谱数据在不同的时段内的富集分析，以确定所述不同时段内的富集位置的集合。

9.根据权利要求1所述的方法，还包括：

接收用以表征不同变异的请求；

响应于接收到所述请求：

标识被已知携带所述不同变异的一个或多个携带者的第二组；

访问一个或多个携带者的所述第二组的DNA数据集；

访问个体的DNA数据集，所述个体在包括所述不同变异的基因位点处，与携带者的所述第二群组的至少一个所述携带者共享血缘同源(IBD)；

访问一个或多个携带者的所述第二组和所述个体的族谱数据；以及

提供报告以用于显示，所述报告总结所述不同变异的表征，所述表征基于一个或多个携带者的所述第二组和所述个体的所述族谱数据。

10.根据权利要求1所述的方法，还包括：

通过以下方式，确定针对一个或多个变异的所述目标集合中的变异的测定的分析有效性：

确定所述携带者和所述附加个体的所述DNA数据集在所述变异的基因位点处彼此共享IBD；以及

确定所述携带者和所述附加个体的所述DNA数据集与被已知在所述变异的所述基因位点处不携带所述变异的个体不共享IBD。

11.一种计算机实现的方法，包括：

从个体获得DNA数据集；

基于所述DNA数据集来确定所述个体的基因型；

访问参考DNA数据集的集合，参考DNA数据集的所述集合中的每个参考DNA数据集与参考个体相关联，每个参考个体是基因位点处的变异的携带者；

生成包括所述参考个体以及附加个体的簇群，所述附加个体与所述参考个体共享血缘同源(IBD)，所述簇群基于所述参考个体与所述附加个体之间的IBD亲和关系被生成；

生成所述簇群的族谱数据的统计信息；

确定所述个体在所述基因位点处与所述簇群共享IBD；以及

提供报告以用于显示，所述报告总结所述变异的表征，所述表征基于所述簇群的所述族谱数据的所述统计信息。

12.根据权利要求11所述的方法，还包括：

基于所述参考个体和所述个体之间的IBD亲和关系，将所述个体添加到所述簇群来产生经更新的簇群；

生成所述经更新的簇群的所述族谱数据的统计信息；以及

提供报告以用于显示，所述报告总结所述变异的表征，所述表征基于所述经更新的簇群的所述族谱数据的所述统计信息。

13.根据权利要求11所述的方法，其中所述变异的所述表征包括以下一项或多项：所述变异的历史、所述变异的起源、所述变异的迁移模式以及所述变异的当前分布。

14.根据权利要求11所述的方法，其中所述变异的所述表征被显示在各个地理位置的地图上，所述地图指示所述变异在所述各个地理位置内的所述表征。

15.根据权利要求14所述的方法，所述各个地理位置的所述地图与指示以下一项或多项的不同时段相关联：与所述变异的历史相关联的时段、与所述变异的起源相关联的时段、与所述变异的迁移模式相关联的时段、或者与所述变异的当前分布相关联的时段。

16.根据权利要求11所述的方法，生成所述族谱数据的统计信息还包括：

对所述簇群的所述族谱数据执行富集分析来标识与所述变异相关联的一个或多个富集位置。

17.根据权利要求11所述的方法，其中族谱数据包括出生位置、出生日期、家族历史、职业、住所、婚姻、死亡日期。

18.根据权利要求11所述的方法，其中所述簇群包括多个节点，其中每个节点对应于参考个体或与所述参考个体共享IBD的附加个体，并且其中节点之间的边指示所述参考个体与所述附加个体之间的IBD亲和关系。

19.根据权利要求11所述的方法，生成族谱数据的统计信息还包括：

执行所述族谱数据在不同的时段内的富集分析，以确定所述不同时段内的富集位置的集合；以及

针对所述不同的时段，生成所述族谱数据在富集位置的所述集合处的统计信息。

20.根据权利要求11所述的方法，还包括：

接收用以表征不同变异的请求；

响应于接收到所述请求，对归属于所述簇群所需的数量的IBD共享应用统计过滤器，以产生经更新的簇群；

生成所述经更新的簇群的所述族谱数据的统计信息；以及

提供报告以用于显示，所述报告总结所述不同变异的表征，所述表征基于所述经更新的簇群的所述族谱数据的所述统计信息。

21.根据权利要求11所述的方法，还包括：

通过以下方式来确定针对所述变异的测定的分析有效性：

确定所述DNA数据集簇群在所述变异的基因位点处彼此共享IBD；以及

确定所述簇群的所述DNA数据集与被已知在所述变异的所述基因位点处不携带所述变异的个体不共享IBD。

22.一种计算机实现的方法，包括：

接收用以表征计算机系统的用户的目标变异的请求；

访问一个或多个携带者的组的DNA数据集，所述一个或多个携带者被已知携带所述目标变异；

生成簇群，所述簇群包括一个或多个携带者的所述组以及附加个体，所述附加个体与一个或多个携带者的所述组中的至少一个携带者共享血缘同源(IBD)，所述簇群基于所述携带者和所述附加个体之间的IBD亲和关系被生成；

访问所述簇群的族谱数据；以及

对所述族谱数据执行富集分析；

提供所述目标变异的表征以用于显示，所述表征基于所述富集分析的结果。

23.根据权利要求22所述的方法，其中所述目标变异服从选择标准，所述选择标准包括以下至少一项：跨种群的等位基因频率、相关联的文献；已知功能、选择压力、或者常染色体或伴性继承。

24.根据权利要求22所述的方法，其中所述附加个体在所述目标变异的基因位点处与一个或多个携带者的所述组中的至少一个携带者共享IBD。

25.根据权利要求23所述的方法，其中所述附加个体与一个或多个携带者的所述组中的至少一个携带者共享IBD全基因组。

26.根据权利要求22所述的方法，其中所述簇群的所述族谱数据包括出生年份和出生位置。

27.根据权利要求22所述的方法，其中提供所述目标变异的表征以用于显示还包括：

生成各个地理位置的地图，所述地图总结所述目标变异在所述各个地理位置内的所述表征。

28.根据权利要求27所述的方法，所述各个地理位置的所述地图与指示以下一项或多项的不同时段相关联：与所述目标变异的历史相关联的时段、与所述目标变异的起源相关联的时段、与所述目标变异的迁移模式相关联的时段、或与所述目标变异的当前分布相关联的时段。

29.根据权利要求22所述的方法，其中执行所述富集分析包括标识在不同时段期间、在所述簇群中被过度表示的一个或多个出生位置。

30.一种包含计算机程序代码的非瞬态计算机可读存储介质，所述计算机程序代码在由一个或多个处理器执行时，使所述一个或多个处理器执行以下步骤，包括：

访问所述携带者的DNA数据集；

访问所述携带者和所述附加个体的族谱数据；以及

31.根据权利要求30所述的非瞬态计算机可读存储介质，其中生成所述结果包括：

32.根据权利要求30所述的非瞬态计算机可读存储介质，其中生成所述结果包括：

构造地图，所述地图示出了所述变异在不同地理位置中的所述表征，变异的所述表征包括所述变异的历史、所述变异的起源、所述变异的迁移模式或所述变异的当前分布中的一个或多个。

33.根据权利要求30所述的非瞬态计算机可读存储介质，其中所述一个或多个变异的所述表征被显示在各个地理位置的地图上，所述地图指示所述一个或多个变异在所述各个地理位置内的所述表征。

34.根据权利要求30所述的非瞬态计算机可读存储介质，其中所述各个地理位置的所述地图与指示以下一项或多项的不同时段相关联：与所述变异的历史相关联的时段、与所述变异的起源相关联的时段、与所述变异的迁移模式相关联的时段、或者与所述变异的当前分布相关联的时段。

35.根据权利要求30所述的非瞬态计算机可读存储介质，其中所述一个或多个变异的表征还包括：

36.根据权利要求30所述的非暂时性计算机可读存储介质，其中族谱数据包括出生位置、出生日期、家族历史、职业、住所、婚姻、死亡日期。

37.根据权利要求30所述的非瞬态计算机可读存储介质，生成总结一个或多个变异的表征的结果还包括：

执行所述族谱数据在不同时段内的富集分析，以确定在所述不同时段内的富集位置的集合。

38.根据权利要求30所述的非瞬态计算机可读存储介质，进一步包含计算机程序代码，所述计算机程序代码在由所述硬件处理器执行时，使所述硬件处理器执行步骤，所述步骤包括：

39.一种存储计算机程序代码的非瞬态计算机可读存储介质，所述计算机程序代码在由一个或多个处理器执行时，使所述一个或多个处理器执行步骤，所述步骤包括：

从个体获得DNA数据集；

基于所述DNA数据集来确定所述个体的基因型；

生成所述簇群的族谱数据的统计信息；

确定所述个体在所述基因位点处与所述簇群共享IBD；以及

40.根据权利要求39所述的非瞬态计算机可读存储介质，还包括代码，所述代码在由所述硬件处理器执行时，使所述硬件处理器执行步骤，所述步骤包括：

生成所述经更新的簇群的所述族谱数据的统计信息；以及

41.根据权利要求39所述的非瞬态计算机可读存储介质，其中所述变异的所述表征包括以下一项或多项：所述变异的历史、所述变异的起源、所述变异的迁移模式以及所述变异的当前分布。

42.根据权利要求39所述的非瞬态计算机可读存储介质，其中所述变异的所述表征被显示在各个地理位置的地图上，所述地图指示所述变异在所述各个地理位置内的所述表征。

43.根据权利要求42所述的非瞬态计算机可读存储介质，所述各个地理位置的所述地图与指示一项或多项的不同时段相关联：与所述变异的历史相关联的时段、与所述变异的起源相关联的时段、与所述变异的迁移模式相关联的时段、或与所述变异的当前分布相关联的时段。

44.根据权利要求39所述的非瞬态计算机可读存储介质，生成所述族谱数据的统计信息还包括：

45.根据权利要求39所述的非瞬态计算机可读存储介质，其中族谱数据包括出生位置、出生日期、家族历史、职业、住所、婚姻、死亡日期。

46.根据权利要求39所述的非瞬态计算机可读存储介质，其中所述簇群包括多个节点，其中每个节点对应于参考个体或与所述参考个体共享IBD的附加个体，并且其中节点之间的边指示所述参考个体与所述附加个体之间的IBD亲和关系。

47.根据权利要求39所述的非瞬态计算机可读存储介质，还包括计算机程序代码，所述计算机程序代码在由所述硬件处理器执行时，使所述硬件处理器执行步骤，所述步骤包括：

通过以下方式来确定针对所述变异的测定的分析有效性：

48.一种存储计算机程序代码的非瞬态计算机可读存储介质，所述计算机程序代码在由一个或多个处理器执行时，使所述一个或多个处理器执行步骤，所述步骤包括：

接收用以表征计算机系统的用户的目标变异的请求；

访问所述簇群的族谱数据；以及

对所述族谱数据执行富集分析；

49.根据权利要求48所述的非瞬态计算机可读存储介质，其中所述目标变异基于标准来选择，所述标准包括以下至少一项：跨种群的等位基因频率、相关联的文献；已知功能、选择压力、或者常染色体或伴性继承。

50.根据权利要求48所述的非瞬态计算机可读存储介质，其中所述附加个体在所述目标变异的基因位点处与一个或多个携带者的所述组中的至少一个携带者共享IBD。

51.根据权利要求48所述的非暂时性计算机可读存储介质，其中所述附加个体与所述一个或多个携带者的所述组中的至少一个携带者共享IBD全基因组。

52.根据权利要求48所述的非瞬态计算机可读存储介质，其中所述簇群的所述族谱数据包括出生年份和出生位置。

53.根据权利要求48所述的非瞬态计算机可读存储介质，其中提供所述目标变异的表征以用于显示还包括：

生成各个地理位置的地图，所述地图指示所述目标变异在所述各个地理位置内的所述表征。

54.一种方法，包括：

从个体获得DNA数据集；

基于所述DNA数据集来确定所述个体的基因型；

将所述基因型定相来生成所述个体的单倍型；

选择所述个体的单倍型的子集；

将所述个体的单倍型的所述子集输入模型中，所述模型基于训练样本被训练，每个训练样本包括参考个体的单倍型的组、以及标识所述参考个体是否属于群落的标签，属于所述群落的所述参考个体具有表示所述群落的单倍型的所述组；以及

基于所述模型的输出来确定所述个体是否为所述群落的成员。

55.根据权利要求54所述的方法，其中所述模型通过以下方式被训练：

将所述参考个体的基因型定相；

在所述基因型的每个窗口处标识共同的单倍型；

对所述共同的单倍型执行富集分析来标识富集单倍型的集合；

针对每个参考个体生成特征向量，所述特征向量具有二进制元素的集合，每个二进制元素与富集单倍型相关联，每个二进制元素的值指示所述参考个体是否具有所述富集单倍型；

生成数据帧，所述数据帧包括具有其特征向量的所述参考个体以及标识所述参考个体是否属于所述群落的所述标签；

将所述模型应用于所述数据帧，所述富集单倍型是所述模型的特征；以及

基于所述模型的性能来调整所述模型的所述参数。

56.根据权利要求54所述的方法，其中所述训练样本中的至少正训练样本通过以下方式被生成：

将属于所述群落的所述参考个体中的一个参考个体的DNA数据集定相，以生成所述参考个体的单倍型；

关于所述群落，对所述单倍型执行富集分析；以及

标识所述参考个体的表示所述群落的单倍型的一个或多个组；

提取单倍型的所述一个或多个组作为所述正训练样本；

将所述正训练样本与所述参考个体属于所述群落的正标签相关联。

57.根据权利要求56所述的方法，其中所述训练样本中的至少负训练样本通过以下方式来生成：

获取被已知不属于所述群落的参考个体的DNA数据集；

提取单倍型的一个或多个组作为所述负训练样本，单倍型的所提取的所述一个或多个组与属于所述群落的所述参考个体中的所述一个参考个体的单倍型的所述一个或多个组处于相同的基因位点处；以及

将所述负训练样本与所述参考个体不属于所述群落的负标签相关联。

58.根据权利要求54所述的方法，其中所述模型是二元分类器，所述二元分类器被训练为输出标记所述个体是否为所述群落的成员的结果。

59.根据权利要求54所述的方法，其中所述模型是随机森林分类器、支持向量机、或者神经网络。

60.根据权利要求54所述的方法，其中所述模型确定所述个体的表示所述群落的单倍型的所述子集的一部分。

61.根据权利要求54所述的方法，其中确定所述个体是否为所述群落的成员还包括确定个体与属于所述群落的所述参考个体之间的共同的单倍型的总量。

62.根据权利要求54所述的方法，其中共同的单倍型是来自一条或多条染色体的共同的单倍型的总量，所述共同的单倍型继承自所述个体和所述参考个体中的一个参考个体的共同的祖先。

63.根据权利要求54所述的方法，其中使用富集分析来确定在群落中更可能观察到哪些单倍型，而标识所述参考单倍型。

64.根据权利要求54所述的方法，其中所述模型是非线性分类器，所述非线性分类器选自包括支持向量机、一个或多个决策树、或者神经网络的组。

65.根据权利要求54所述的方法，其中所述个体的单倍型的所述子集的基因位点对应于所述训练样本中的至少一个训练样本的单倍型的所述组的相同基因位点。

66.一种包含计算机程序代码的非瞬态计算机可读存储介质，所述计算机程序代码在由一个或多个处理器执行时，使所述一个或多个处理器执行步骤，所述步骤包括：

从个体获得DNA数据集；

基于所述DNA数据集来确定所述个体的基因型；

将所述基因型定相来生成所述个体的单倍型；

选择所述个体的单倍型的子集；

67.根据权利要求66所述的非瞬态计算机可读存储介质，其中所述模型通过以下方式被训练：

将所述参考个体的基因型定相；

在所述基因型的每个窗口处标识共同的单倍型；

基于所述模型的性能来调整所述模型的所述参数。

68.根据权利要求66所述的非瞬态计算机可读存储介质，其中所述训练样本中的至少正训练样本通过以下方式被生成：

关于所述群落，对所述单倍型执行富集分析；以及

提取单倍型的所述一个或多个组作为所述正训练样本；

69.根据权利要求66所述的非瞬态计算机可读存储介质，其中所述训练样本中的负训练样本通过以下方式被生成：

获取被已知不属于所述群落的参考个体的DNA数据集；

70.根据权利要求66所述的非瞬态计算机可读存储介质，其中确定所述个体是否为所述群落的成员还包括确定个体与属于所述群落的所述参考个体之间的共同的单倍型的总量。

71.根据权利要求66所述的非瞬态计算机可读存储介质，其中共同的单倍型是来自一条或多条染色体的共同的单倍型的总量，所述一条或多条染色体继承自所述个体和所述参考个体中的一个参考个体的共同祖先。

72.根据权利要求66所述的非瞬态计算机可读存储介质，其中使用富集分析来确定在群落中更可能观察到哪些单倍型，而标识所述参考单倍型。

73.根据权利要求66所述的非瞬态计算机可读存储介质，其中所述个体的所述单倍型的所述子集的基因位点对应于所述训练样本中的至少一个训练样本的单倍型的所述组的相同基因位点。