CN111279420A

CN111279420A - 用于利用基因组数据分析中的亲缘关系的系统和方法

Info

Publication number: CN111279420A
Application number: CN201880068979.2A
Authority: CN
Inventors: J·斯泰普尔斯; L·哈贝格; J·里德
Original assignee: Regeneron Pharmaceuticals Inc
Current assignee: Regeneron Pharmaceuticals Inc
Priority date: 2017-09-07
Filing date: 2018-09-07
Publication date: 2020-06-12
Anticipated expiration: 2038-09-07
Also published as: KR20200065000A; JP7277438B2; WO2019051238A1; IL272927A; AU2018327326A1; MX2020002665A; US20190205502A1; SG11202001747XA; JP2020533679A; AU2023282218A1; CN111247599A; JP2020532989A; US20190074092A1; JP2023103325A; EP3679575A1; CN117746978A; CN111279420B; KR102648634B1; MX2020002664A; IL272963A

Abstract

提供了用于鉴定群体中的复合杂合突变(CHM)和从头突变(DNM)的方法、非暂时性计算机实现的方法和系统。还提供了通过利用群体的亲缘关系来对群体中的遗传变异进行定相的方法。还提供了一种人类群体中亲缘关系的预测模型。

Description

用于利用基因组数据分析中的亲缘关系的系统和方法

相关申请的交叉引用

本申请要求2017年9月7日提交的美国临时专利申请号62/555,597的权益，该美国临时专利申请的全部内容据此以引用方式并入。此外，2018年9月7日提交的标题名称为“System and Method for Predicting Relatedness in a Human Population(用于人类群体亲缘关系预测模型的系统和方法)”的共同待审的申请的全部内容也以引用方式并入。

技术领域

本公开总体上涉及用于分析基因组数据并使用大群体同期群中的亲缘关系将罕见的遗传变异与疾病和疾病易感性联系起来的方法和系统。更具体地，本公开涉及用于通过血统建立身份，以及将遗传变异定相(phasing)为复合杂合突变或从头突变的系统和方法。

背景技术

人类疾病状况不仅由环境因素导致并受到环境因素影响，而且还由遗传因素导致并受到遗传因素影响。因此，了解人类群体中的遗传变异对于了解人类疾病的病因和进展以及鉴定用于治疗这些疾病的新颖药物靶标非常重要。

关于这一点医疗保健群体的遗传研究特别有用，因为可获得广泛的医疗保健数据，这简化了对遗传变异如何影响人类疾病状况的研究。在过去，此类研究通常基于全基因组遗传连锁分析来绘制疾病基因座的图谱，一旦所述疾病基因座被鉴定出，就可以在分子水平上进一步详细分析所述疾病基因座。

在过去的几年中，高通量DNA测序技术的广泛可用性已允许对数十万人的基因组进行并行测序。在理论上，这些数据代表着可用于破译人类疾病的遗传基础的强大信息来源。然而，这些不断增长的数据集要求不断革新生物信息学工具和分析管线，以继续有效地处理这些极大的数据集。此外，亲缘关系和家族结构在这些大型数据集中的效用及其在变异的鉴定和表征中可利用的程度尚未得到充分认识和利用。

仍然需要用于分析大规模基因组数据的改进的生物信息学工具。本公开满足了该需求。

发明内容

在一个方面，本公开提供了通过利用群体的亲缘关系来定相群体中的遗传变异的方法，所述方法包括：从获自多个人类受试者的核酸序列样本的数据集中去除低质量的序列变异；为所述样本中的一个或多个中的每一个建立祖先总纲命名；从所述数据集中去除低质量样本；生成对祖先总纲内的受试者的第一按血统身份估计；独立于受试者的祖先总纲生成受试者的第二按血统身份估计；基于第二按血统身份估计中的一个或多个，将受试者聚类为主要一级家族网络；生成主要一级家族网络内的受试者的第三按血统身份估计；合并第一按血统身份估计和第三按血统身份估计以获得合并的按血统身份估计；基于合并的按血统身份估计来构建样本的次要一级家族网络；以及根据合并的按血统身份估计和次要一级家族网络来定相变异是否为复合杂合突变(compound heterozygous mutation，CHM)；或者根据合并的按血统身份估计和次要一级家族网络而将变异鉴定为从头突变(denovo mutation，DNM)。

在一些示例性实施方案中，合并第一按血统身份估计和第三按血统身份估计包括用第三按血统身份估计所独有的成对按血统身份估计来增强第一按血统身份估计。

在一些示例性实施方案中，将变异定相为复合杂合突变(CHM)包括：(1)根据群体等位基因频率对变异进行定相；(2)去除在哈迪-温伯格平衡(Hardy-Weinbergequilibrium，HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(quality by depth，QD)为约2或更小的单核苷酸多态性(SNP)，或读段深度(read depth，DP)小于约5的SNP，或者交替等位基因平衡(alternate allele balance，AB)为约10％或更小的SNP，或它们的组合；以及去除QD为约2或更低的插入或缺失(INDELS)，DP小于约5的INDELS，或AB为约10％或更低的INDELS，或它们的组合；(3)选择剩余变异作为潜在复合杂合突变(potential compound heterozygousmutation，pCHM)，其中在同一样本和同一基因中有一对或多对变异；以及(4)将pCHM定相为顺式或反式pCHM，然后将定相为反式pCHM的pCHM分类为CHM。

在一些示例性实施方案中，将变异定相为复合杂合突变包括：去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约3或更小的SNP，或读段深度(DP)小于约7的SNP，或者交替等位基因平衡(AB)为约15％或更小的SNP，或它们的组合；以及去除QD为约5或更低的插入或缺失(INDELS)，DP小于约10的INDELS，或AB为约20％或更低的INDELS，或它们的组合。

在一些示例性实施方案中，所述方法还包括：(1)根据功能效应优先级对CHM进行评分，以及(2)选择每个样本的每个基因中具有最高功能效应优先级评分的CHM，以便当人类在同一基因中具有多于一个CHM时，鉴定出最有可能导致蛋白质功能抑制的CHM。

在一些示例性实施方案中，将变异定相为从头突变包括：(1)鉴定呈次要一级家族网络及其三联体(trio)的样本中的变异；(2)为呈三联体的亲本样本和对应的子代样本中的变异分配基因型似然度评分，计算变异为从头突变的概率，以及在计算出的概率具有统计学显著性时将变异鉴定为可能的从头突变；(3)鉴定呈三联体的子代样本中的变异，以及当在任一呈三联体的亲本样本中均不存在所述变异时，将所述变异鉴定为可能的从头突变；(4)通过以下方式过滤经鉴定的可能的从头突变：去除子代样本中的基因型质量(genotype quality，GQ)注释小于约35的可能的从头突变，或者在来自多个人类受试者的样本中交替等位基因计数(alternate allele count，AC)为10或更大的可能的从头突变，或者子代样本中的读段深度(DP)小于约7且替代的DP小于约4的可能的从头突变，或者在任一亲本样本中等位基因平衡(AB)大于约2％的可能的从头突变，或者子代样本中的等位基因平衡(AB)小于约15％的可能的从头突变，或者子代样本中的AB大于约90％的可能的从头突变，或者在任一亲本样本中具有交替的等位基因纯合性的可能的从头突变，或它们的组合；以及(5)组合过滤的经鉴定的可能的从头突变，从而形成可能的从头突变数据集。

在一些示例性实施方案中，所述方法还包括：当可能的从头突变的等位基因平衡在子代样本中为约0.15或更大并且在每个亲本样本中为约0.02或更小，并且不具有小于约40的映射质量，并且不具有小于约2的测序深度对质量的影响(QD)值，并且在各样本中的MAC小于约20，并且在具有可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段(soft-clipped read)，并且不是单聚物运行大于约4次的INDEL时，将可能的从头突变数据集中的所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，所述方法还包括：当所述中等置信度从头突变在亲本样本中的基因型质量注释为约90或更大，并且在每个亲本样本中的读段深度为约10或更大，并且在子代样本中的替代读段深度为约7或更大，并且SNP的QD大于约3，并且INDEL的QD大于约5时，将所述中等置信度从头突变分类为高置信度从头突变。

在一个方面，本公开提供了一种用于鉴定群体中的复合杂合突变(CHM)的方法，所述方法包括：鉴定来自多个人类受试者的DNA序列样本中的变异；基于经鉴定的变异来建立受试者的祖先总纲命名；生成对祖先总纲内的受试者的第一按血统身份估计；独立于受试者的祖先总纲生成受试者的第二按血统身份估计；基于第二按血统身份估计中的一个或多个，将受试者聚类为主要一级家族网络；生成主要一级家族网络内的受试者的第三按血统身份估计；合并第一按血统身份估计和第三按血统身份估计以获得合并的按血统身份估计；基于合并的按血统身份估计构建次要一级家族网络；根据群体等位基因频率对样本中的变异进行定相；基于同一受试者和基因中存在两个或更多个变异，将经定相的变异分类为潜在的CHM；以及用同一受试者和基因中的另一种变异将潜在的CHM定相为顺式或反式，然后将定相为反式的潜在CHM分类为CHM。

在一些示例性实施方案中，所述方法还包括在建立受试者的祖先总纲命名之前过滤经鉴定的变异。

在一些示例性实施方案中，所述方法还包括在生成受试者的第一按血统身份估计和第二按血统身份估计之前过滤经鉴定的变异。

在一些示例性实施方案中，对变异进行过滤包括去除在来自多个人类受试者的样本中交替等位基因频率大于约10％的变异，或p值＞约10^-6的违反哈迪-温伯格平衡(HWE)的变异，或者在来自多个人类受试者的样本中缺失响应(missing calls in)＞约5％的变异，或它们的组合。

在一些示例性实施方案中，所述方法还包括在已过滤经鉴定的变异之后去除低质量样本。

在一些示例性实施方案中，低质量样本是D-统计＞0.12或20x读段覆盖率(readcoverage)＜75％或同时符合两种情况的样本。

在一些示例性实施方案中，按血统身份估计包括对样本对之间的IBD 0、1和2值的全基因组计算。

在一些示例性实施方案中，所述方法还包括在已经根据群体等位基因频率对变异进行定相之后过滤所述变异。

在一些示例性实施方案中，过滤根据群体等位基因频率定相的变异包括去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约2或更小的SNP，或读段深度(DP)小于约5的SNP，或者交替等位基因平衡(AB)为约10％或更小的SNP，或它们的组合；以及去除QD为约2或更低的插入或缺失(insertions or deletions，INDELS)，DP小于约5的INDELS，或AB为约10％或更低的INDELS，或它们的组合。

在一些示例性实施方案中，根据群体等位基因频率对变异进行定相包括将人类受试者的DNA序列样本分成基因组区段，所述基因组区段具有近似相等的大小，在基因间区域中的大量区段重叠和断裂点。

在一些示例性实施方案中，将潜在的CHM基于三联体数据、或亲本-子代数据、或全同胞数据、或远亲数据或它们的组合进行定相，或基于次要等位基因计数(minor allelecount，MAC)进行定相；或基于群体等位基因频率进行定相；或它们的组合。

在一些示例性实施方案中，所述方法还包括根据功能效应优先级对CHM进行评分，以及选择每个样本的每个基因中具有最高功能效应优先级评分的CHM，从而获得医学相关突变的集合。

在一些示例性实施方案中，DNA序列样本包含外显子组序列。

在一些示例性实施方案中，多个人类受试者包括大于10K的受试者。

在一些示例性实施方案中，通过使用柯尔莫哥罗夫-斯米尔诺夫(Kolmogorov-Smirnov，KS)检验将样本的实际等位基因平衡分布与预期的等位基因平衡分布进行比较来确定低质量样本的D-统计。

在一些示例性实施方案中，过滤根据群体等位基因频率定相的变异包括去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约3或更小的SNP，或读段深度(DP)小于约7的SNP，或者交替等位基因平衡(AB)为约15％或更小的SNP，或它们的组合；以及去除QD为约5或更低的插入或缺失(INDELS)，DP小于约10的INDELS，或AB为约20％或更低的INDELS，或它们的组合。

在另一方面，本公开提供了用于鉴定群体中的复合杂合突变(CHM)的非暂时性计算机实现的方法。通常，非暂时性计算机实现的方法包括使用计算装置的数据处理器以鉴定来自多个人类受试者的DNA序列样本中的变异；使用数据处理器以基于经鉴定的变异来建立受试者的祖先总纲命名；使用数据处理器以生成对祖先总纲内的受试者的第一按血统身份估计；使用数据处理器以独立于受试者的祖先总纲生成受试者的第二按血统身份估计；使用所述数据处理器以基于第二按血统身份估计中的一个或多个，将受试者聚类为主要一级家族网络；使用数据处理器以生成主要一级家族网络内的受试者的第三按血统身份估计；使用数据处理器以合并第一按血统身份估计和第三按血统身份估计以获得合并的按血统身份估计；使用数据处理器以基于合并的按血统身份估计构建次要一级家族网络；使用数据处理器以根据群体等位基因频率对样本中的变异进行定相；使用数据处理器以基于同一受试者和基因中存在两个或更多个变异，将经定相的变异分类为潜在的CHM；以及使用数据处理器以用同一受试者和基因中的另一种变异将潜在的CHM定相为顺式或反式，然后将定相为反式的潜在CHM分类为CHM。

在一些示例性实施方案中，非暂时性计算机实现的方法还包括在建立受试者的祖先总纲命名之前，使用数据处理器来过滤经鉴定的变异。

在一些示例性实施方案中，非暂时性计算机实现的方法还包括在生成受试者的第二按血统身份估计之前，使用数据处理器以过滤经鉴定的变异。

在一些示例性实施方案中，对变异进行过滤包括去除在来自多个人类受试者的样本中交替等位基因频率大于约10％的变异，或p值＞约10^-6的违反哈迪-温伯格平衡(HWE)的变异，或者在来自多个人类受试者的样本中缺失响应＞约5％的变异，或它们的组合。

在一些示例性实施方案中，非暂时性计算机实现的方法还包括在已过滤经鉴定的变异之后，使用数据处理器以去除低质量的样本。

在一些示例性实施方案中，低质量样本是D-统计＞0.12或20x读段覆盖率＜75％或同时符合两种情况的样本。

在一些示例性实施方案中，非暂时性计算机实现的方法还包括在已经根据群体等位基因频率对变异进行定相之后，使用数据处理器过滤变异。

在一些示例性实施方案中，过滤根据群体等位基因频率定相的变异包括去除在哈迪-温伯格平衡之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约2或更小的SNP，或读段深度(DP)小于约5的SNP，或者交替等位基因平衡(AB)为约10％或更小的SNP，或它们的组合；以及去除QD为约2或更低的插入或缺失(INDELS)，DP小于约5的INDELS，或AB为约10％或更低的INDELS，或它们的组合。

在一些示例性实施方案中，将潜在的CHM基于三联体数据、或亲本-子代数据、或全同胞数据、或远亲数据或它们的组合进行定相，或基于次要等位基因计数(MAC)进行定相；或基于群体等位基因频率进行定相；或它们的组合。

在一些示例性实施方案中，非暂时性计算机实现的方法还包括使用数据处理器以根据功能效应优先级对CHM进行评分，以及选择每个样本的每个基因中具有最高功能效应优先级评分的CHM，从而获得医学相关突变的集合。

在一些示例性实施方案中，DNA序列样本包含外显子组序列。

在一些示例性实施方案中，通过使用KS检验将样本的实际等位基因平衡分布与预期的等位基因平衡分布进行比较来确定低质量样本的D-统计。

在另一方面，本公开提供了用于实现所述方法和非暂时性计算机实现的方法的系统。所述系统通常包括数据处理器；存储器，所述存储器与所述数据处理器耦接；以及程序，所述程序存储在所述存储器中，所述程序包括用于以下的指令：鉴定来自多个人类受试者的DNA序列样本中的变异；基于经鉴定的变异来建立受试者的祖先总纲命名；生成对祖先总纲内的受试者的第一按血统身份估计；独立于受试者的祖先总纲生成受试者的第二按血统身份估计；基于第二按血统身份估计中的一个或多个，将受试者聚类为主要一级家族网络；生成主要一级家族网络内的受试者的第三按血统身份估计；合并第一按血统身份估计和第三按血统身份估计以获得合并的按血统身份估计；基于合并的按血统身份估计构建次要一级家族网络；根据群体等位基因频率对样本中的变异进行定相；基于同一受试者和基因中存在两个或更多个变异，将经定相的变异分类为潜在的CHM；以及用同一受试者和基因中的另一种变异将潜在的CHM定相为顺式或反式，然后将定相为反式的潜在CHM分类为CHM。

在一些示例性实施方案中，程序包括用于在建立受试者的祖先总纲命名之前过滤经鉴定的变异的指令。

在一些示例性实施方案中，该程序包括用于在生成受试者的第一按血统身份估计和第二按血统身份估计之前过滤经鉴定的变异的指令。

在一些示例性实施方案中，程序包括用于在已过滤经鉴定的变异之后去除低质量样本的指令。

在一些示例性实施方案中，所述程序包括用于在已经根据群体等位基因频率对变异进行定相之后过滤所述变异的指令。

在一些示例性实施方案中，过滤根据群体等位基因频率定相的变异包括去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约2或更小的SNP，或读段深度(DP)小于约5的SNP，或者交替等位基因平衡(AB)为约10％或更小的SNP，或它们的组合；以及去除QD为约2或更低的插入或缺失(INDELS)，DP小于约5的INDELS，或AB为约10％或更低的INDELS，或它们的组合。

在一些示例性实施方案中，所述程序包括用于根据功能效应优先级对CHM进行评分，以及选择每个样本的每个基因中具有最高功能效应优先级评分的CHM，从而获得医学相关突变的集合的指令。

在一些示例性实施方案中，DNA序列样本包含外显子组序列。

在另一方面，本公开提供了用于鉴定群体中的从头突变(DNM)的方法。通常，所述方法包括鉴定来自多个人类受试者的DNA序列样本中的变异；基于经鉴定的变异来建立受试者的祖先总纲命名；生成对祖先总纲内的受试者的第一按血统身份估计；独立于受试者的祖先总纲生成受试者的第二按血统身份估计；基于第二按血统身份估计中的一个或多个，将受试者聚类为主要一级家族网络；生成主要一级家族网络内的受试者的第三按血统身份估计；合并第一按血统身份估计和第三按血统身份估计以获得合并的按血统身份估计；基于合并的按血统身份估计构建核家族；鉴定核家族中的变异；为来自构建的核家族中呈三联体的每个亲本和子代的样本中的变异分配基因型似然度评分，并计算所述变异是从头突变的概率，以及独立地原始鉴定子代样本中在任一呈三联体的亲本样本中均不存在的变异，并计算所述变异是从头突变的概率，然后将这两种概率组合，从而形成可能的从头突变的数据集。

在一些示例性实施方案中，所述方法还包括在生成受试者的第二按血统身份估计之前过滤经鉴定的变异。

在一些示例性实施方案中，基因型似然度评分基于来自多个核家族中的多个人类受试者的DNA序列样本。

在一些示例性实施方案中，所述方法还包括在已经基于基因型似然度评分计算出变异是从头突变的概率之后，过滤变异。

在一些示例性实施方案中，所述方法还包括在已经基于原始鉴定子代样本中在任一亲本样本中均不存在的变异计算出变异为从头突变的概率之后，过滤所述变异。

在一些示例性实施方案中，过滤所述变异包括去除子代样本中的基因型质量(GQ)注释小于约35的变异，或者在各样本中交替等位基因计数(AC)为10或更大的变异，或者子代样本中的读段深度(DP)小于约7且替代的DP小于约4的变异，或者在任一亲本样本中等位基因平衡(AB)大于约2％的变异，或者子代样本中的等位基因平衡(AB)小于约15％的变异，或者子代样本中的AB大于约90％的变异，或者在任一亲本样本中具有交替的等位基因纯合性的变异，或它们的组合。

在一些示例性实施方案中，所述方法还包括用质量控制度量为变异作注释。

在一些示例性实施方案中，所述方法还包括在已经基于原始鉴定子代样本中在任一亲本样本中均不存在的变异而鉴定出可能的从头突变之后，基于样本BAM文件数据来过滤变异。

在一些示例性实施方案中，所述方法还包括当子代样本中的可能的从头突变的等位基因平衡为约0.15或更大时，将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，所述方法还包括当在每个亲本样本中可能的从头突变的等位基因平衡为约0.02或更小时，将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，所述方法还包括当可能的从头突变不具有小于约40的映射质量时，将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，所述方法还包括当可能的从头突变不具有小于约2的测序深度对质量的影响(QD)值时，将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，所述方法还包括当各样本中可能的从头突变的MAC小于约20时，将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，所述方法还包括当可能的从头突变在所述可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段时，将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，所述方法还包括当可能的从头突变不是单聚物运行大于约4次的INDEL时，将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，所述方法还包括：当可能的从头突变的等位基因平衡(AB)在子代样本中为约0.15或更大并且在每个亲本样本中为约0.02或更小，并且不具有小于约40的映射质量(MQ)，并且不具有小于约2的测序深度对质量的影响(QD)值，并且在各样本中的次要等位基因计数(MAC)小于约20，并且在具有可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段，并且不是单聚物运行大于约4次的INDEL时，将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，所述方法还包括：当所述中等置信度从头突变在亲本样本中的基因型质量(GQ)注释为约90或更大，并且在每个亲本样本中的读段深度(DP)为约10或更大，并且在子代样本中的替代DP为约7或更大，并且SNP的QD大于约3，并且INDEL的QD大于约5时，将所述中等置信度从头突变分类为高置信度从头突变。

在一些示例性实施方案中，DNA序列样本包含外显子组序列。

在另一方面，本公开提供了用于鉴定群体中的从头突变(DNM)的非暂时性计算机实现的方法。通常，非暂时性计算机实现的方法包括使用计算装置的数据处理器以鉴定来自多个人类受试者的DNA序列样本中的变异；使用数据处理器以基于经鉴定的变异来建立受试者的祖先总纲命名；使用数据处理器以生成对祖先总纲内的受试者的第一按血统身份估计；使用数据处理器以独立于受试者的祖先总纲生成受试者的第二按血统身份估计；使用数据处理器以基于第二按血统身份估计中的一个或多个，将受试者聚类为主要一级家族网络；使用数据处理器以生成主要一级家族网络内的受试者的第三按血统身份估计；使用数据处理器以合并第一按血统身份估计和第三按血统身份估计以获得合并的按血统身份估计；使用数据处理器以基于合并的按血统身份估计构建核家族；使用数据处理器以鉴定核家族中的变异；使用数据处理器以为来自构建的核家族中呈三联体的每个亲本和子代的样本中的变异分配基因型似然度评分，并计算所述变异是从头突变的概率，以及独立地原始鉴定子代样本中在任一呈三联体的亲本样本中均不存在的变异，并计算所述变异是从头突变的概率，然后将这两种概率组合，从而形成可能的从头突变的数据集。

在一些示例性实施方案中，对变异进行过滤包括去除在来自多个人类受试者的样本中交替等位基因频率大于约10％的变异，或p值＞约10^-6的违反哈迪-温伯格平衡的变异，或者在来自多个人类受试者的样本中缺失响应＞约5％的变异，或它们的组合。

在一些示例性实施方案中，非暂时性计算机实现的方法还包括在已经基于基因型似然度评分计算出变异是从头突变的概率之后，使用数据处理器以过滤所述变异。

在一些示例性实施方案中，非暂时性计算机实现的方法还包括：在已经基于原始鉴定子代样本中在任一亲本样本中均不存在的变异计算出变异为从头突变的概率之后，使用数据处理器以过滤所述变异。

在一些示例性实施方案中，所述非暂时性计算机实现的方法还包括使用数据处理器以用质量控制度量为变异作注释。

在一些示例性实施方案中，所述非暂时性计算机实现的方法还包括在已经基于原始鉴定子代样本中在任一亲本样本中均不存在的变异而鉴定出可能的从头突变之后，使用数据处理器以基于样本BAM文件数据来过滤变异。

在一些示例性实施方案中，所述非暂时性计算机实现的方法还包括当子代样本中的可能的从头突变的等位基因平衡为约0.15或更大时，使用数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，所述非暂时性计算机实现的方法还包括当在每个亲本样本中可能的从头突变的等位基因平衡为约0.02或更小时，使用数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，非暂时性计算机实现的方法还包括当可能的从头突变不具有小于约40的映射质量时，使用数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，非暂时性计算机实现的方法还包括当可能的从头突变不具有小于约2的测序深度对质量的影响(QD)值时，使用数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，非暂时性计算机实现的方法还包括当各样本中可能的从头突变的MAC小于约20时，使用数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，非暂时性计算机实现的方法还包括当可能的从头突变在所述可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段时，使用数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，非暂时性计算机实现的方法还包括括当可能的从头突变不是单聚物运行大于约4次的INDEL时，使用数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，所述非暂时性计算机实现的方法还包括：当可能的从头突变的等位基因平衡(AB)在子代样本中为约0.15或更大并且在每个亲本样本中为约0.02或更小，并且不具有小于约40的映射质量(MQ)，并且不具有小于约2的测序深度对质量的影响(QD)值，并且在各样本中的次要等位基因计数(MAC)小于约20，并且在具有可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段，并且不是单聚物运行大于约4次的INDEL时，使用数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，所述非暂时性计算机实现的方法还包括：当所述中等置信度从头突变在亲本样本中的基因型质量(GQ)注释为约90或更大，并且在每个亲本样本中的读段深度(DP)为约10或更大，并且在子代样本中的替代DP为约7或更大，并且SNP的QD大于约3，并且INDEL的QD大于约5时，使用数据处理器以将所述中等置信度从头突变分类为高置信度从头突变。

在一些示例性实施方案中，DNA序列样本包含外显子组序列。

在另一方面，本公开提供了系统。所述系统可以例如用于实现方法和非暂时性计算机实现的方法。所述系统通常包括数据处理器；存储器，所述存储器与所述数据处理器耦接；以及程序，所述程序存储在所述存储器中，所述程序包括用于以下的指令：鉴定来自多个人类受试者的DNA序列样本中的变异；基于经鉴定的变异来建立受试者的祖先总纲命名；生成对祖先总纲内的受试者的第一按血统身份估计；独立于受试者的祖先总纲生成受试者的第二按血统身份估计；基于第二按血统身份估计中的一个或多个，将受试者聚类为主要一级家族网络；生成主要一级家族网络内的受试者的第三按血统身份估计；合并第一按血统身份估计和第三按血统身份估计以获得合并的按血统身份估计；基于合并的按血统身份估计构建核家族；鉴定核家族中的变异；为来自构建的核家族中呈三联体的每个亲本和子代的样本中的变异分配基因型似然度评分，并计算所述变异是从头突变的概率，以及独立地原始鉴定子代样本中在任一呈三联体的亲本样本中均不存在的变异，并计算所述变异是从头突变的概率，然后将这两种概率组合，从而形成可能的从头突变的数据集。

在一些示例性实施方案中，该程序包括用于在生成受试者的第二按血统身份估计之前过滤经鉴定的变异的指令。

在一些示例性实施方案中，所述程序包括用于在已经基于基因型似然度评分计算出变异是从头突变的概率之后，过滤变异的指令。

在一些示例性实施方案中，所述程序包括用于在已经基于原始鉴定子代样本中在任一亲本样本中均不存在的变异计算出变异为从头突变的概率之后，过滤所述变异的指令。

在一些示例性实施方案中，所述程序包括用于用质量控制度量为变异作注释的指令。

在一些示例性实施方案中，所述程序包括用于在已经基于原始鉴定子代样本中在任一亲本样本中均不存在的变异而鉴定出可能的从头突变之后，基于样本BAM文件数据来过滤变异的指令。

在一些示例性实施方案中，所述程序包括用于子代样本中的可能的从头突变的等位基因平衡为约0.15或更大时，将所述可能的从头突变分类为中等置信度从头突变的指令。

在一些示例性实施方案中，所述程序包括用于当在每个亲本样本中可能的从头突变的等位基因平衡为约0.02或更小时，将所述可能的从头突变分类为中等置信度从头突变的指令。

在一些示例性实施方案中，所述程序包括用于当可能的从头突变不具有小于约40的映射质量时，将所述可能的从头突变分类为中等置信度从头突变的指令。

在一些示例性实施方案中，所述程序包括用于当可能的从头突变不具有小于约2的测序深度对质量的影响(QD)值时，将所述可能的从头突变分类为中等置信度从头突变的指令。

在一些示例性实施方案中，所述程序包括用于当各样本中可能的从头突变的MAC小于约20时，将所述可能的从头突变分类为中等置信度从头突变的指令。

在一些示例性实施方案中，所述程序包括用于当可能的从头突变在所述可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段时，将所述可能的从头突变分类为中等置信度从头突变的指令。

在一些示例性实施方案中，所述程序包括用于当可能的从头突变不是单聚物运行大于约4次的INDEL时，将所述可能的从头突变分类为中等置信度从头突变的指令。

在一些示例性实施方案中，所述程序包括用于以下的指令：当可能的从头突变的等位基因平衡(AB)在子代样本中为约15％或更大并且在每个亲本样本中为约2％或更小，并且不具有小于约40的映射质量(MQ)，并且不具有小于约2的测序深度对质量的影响(QD)值，并且在各样本中的次要等位基因计数(MAC)小于约20，并且在具有可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段，并且不是单聚物运行大于约4次的INDEL时，将所述可能的从头突变分类为中等置信度从头突变。

在一些示例性实施方案中，所述程序包括用于以下的指令：当所述中等置信度从头突变在亲本样本中的基因型质量(GQ)注释为约90或更大，并且在每个亲本样本中的读段深度(DP)为约10或更大，并且在子代样本中的替代DP为约7或更大，并且SNP的QD大于约3，并且INDEL的QD大于约5时，将所述中等置信度从头突变分类为高置信度从头突变。

在一些示例性实施方案中，DNA序列样本包含外显子组序列。

在一些示例性实施方案中，所述方法、非暂时性计算机实现的方法或系统包括：为来自构建的核家族中呈三联体的每个亲本和子代的样本中的变异分配基因型似然度评分，并计算所述变异是从头突变的概率；以及选择这样的变异，所述变异是从头突变的概率非常高；以及独立地原始鉴定子代样本中响应的变异，所述响应的变异在任一呈三联体的亲本样本中均未响应，然后将两组从头突变合并，从而形成可能的从头突变的数据集。

在另一方面，本公开提供了一种人类群体中的亲缘关系的预测模型。预测模型可以通过包括以下步骤的过程来制备：建立第一群体数据集；执行120年的烧入阶段(burn-inphase)以建立第二群体数据集；以及通过进行以下步骤来修改第二群体数据集：(a)将第二群体数据集中的个体根据所述个体的年龄移动至年龄池；(b)从第二群体数据集中的单身男性和单身女性中随机选择比亲表兄妹更远亲相关的成对的单身男性和单身女性，并使他们以指定的按年龄结婚参数(marriage by age parameter)结婚，其中选择所述对，直到达到结婚率参数所指定的结婚次数；(c)使已婚夫妇以指定的离婚率离婚，其中从第二群体数据集中随机选择已婚夫妇并在离婚时标记为单身；(d)从第二群体数据集中以指定比率随机选择成对的单身男性和单身女性或已婚夫妇，并允许他们根据指定的生育率生育，直到达到目标数目的成功受孕，其中亲本被局限为比亲表兄妹更远亲相关的，并且其中第二群体数据集中的所有个体被限制为每年生育一个孩子；(e)允许第二群体数据集中的个体以指定死亡率和指定按年龄死亡参数去世；(f)允许个体迁移至第二群体数据集中或从第二群体数据集迁移出，从而保持群体的年龄和性别分布以及第二群体数据集中已婚育龄个体的比例；以及(g)允许个体在第二群体数据集内移动，由此将来自子群体的个体随机选择并随机分配至另一个子群体(如果存在的话)，直到子群体之间达到指定的移动率；以一年间隔重复步骤(a)至(g)持续预定年数，其中将步骤施加至由先前重复产生的群体数据集。

在一些示例性实施方案中，建立第一群体数据集还包括指定多个子群体和大小。

在一些示例性实施方案中，建立第一群体数据集还包括将各年龄分配给第一群体数据集中在零与最大育龄之间的个体。

在一些示例性实施方案中，最大育龄为49岁。

在一些示例性实施方案中，执行烧入阶段还包括：使第二群体数据集中的个体的出生数目和死亡数目保持相等，并且使个体的净迁移率为零。

在一些示例性实施方案中，执行烧入阶段还包括：当第二群体数据集的个体的年龄超过最小育龄时，将所述个体从未成年人池移动至交配池；以及当个体的年龄超过最大育龄时，将所述个体从交配池移动至老年池；以及如果个体移居外国或去世，则将所述个体从所有年龄池中去除。

在一些示例性实施方案中，最小育龄为15岁，并且最大育龄为49岁。

在另一方面，本公开提供一种使用预测模型的方法，其中随机执行确定个体。

在另一方面，本公开提供了一种使用预测模型的方法，其中以聚类方式执行确定个体。

在一些示例性实施方案中，确定个体还包括收集关于确定的个体的亲缘关系数据和相关统计，包括确定的个体之间的一级或二级关系，或两者。

附图说明

图1是其中通过利用群体的亲缘关系来对群体中的遗传变异进行定相/鉴定的示例性实施方案的流程图。

图2是其中鉴定了群体中的复合杂合突变(CHM)的示例性实施方案的流程图。

图3是其中鉴定了群体中的从头突变(DNM)的示例性实施方案的流程图。

图4是根据示例性实施方案建立人类群体中亲缘关系预测模型的方法的流程图。

图5A至图5D表示其中确定按血统身份的示例性实施方案的流程图。

图6A至图6C表示其中鉴定/定相群体中的复合杂合突变(CHM)的示例性实施方案的流程图。

图7A和图7B是其中鉴定群体中的从头突变(DNM)的示例性实施方案的流程图。DNM响应、过滤和置信度排名工作流程。GQ＝基因型质量；MAC是DiscovEHR中的次要等位基因计数；DP＝DNM位点处的读段深度；AD＝交替等位基因深度；AB＝交替等位基因平衡；MQ＝映射质量；QD＝在接合中被称为DiscovEHR pVCF的DNM位点的测序深度对质量的影响；均聚物INDEL是具有大于4个具有相同核苷酸的连续碱基对的INDEL。被列入黑名单的基因包括PDE4DIP、PRAMEF1、PABPC3、NBPF10、NBPF14、嗅觉基因(OR*)、MUC基因(MUC*)，以及HLA基因(HLA-*)。

图8A、图8B、图8C和图8D表示这样的方案，所述方案提供了对不同类型的基于群体的基因组研究和对应的采样方法的概述，并说明了大量确定会增加家族结构并影响应使用的统计分析方法。小图A示出了以下的示例性图示：(1)传统的基于群体的基因组研究(灰色框)；(2)基于保健群体的基因组(HPG)研究(绿色框)，以及(3)基于家族的基因组研究(黄色框)；小图B示出了上述三种确定方法中的家族结构的线型图。小图C示出了上述三种确定方法中的家族结构散点图(线表示根据上述三种确定方法确定的一级和二级成对关系)；小图D示出了基于家族结构水平分为四类的统计分析方法。

图9是示例性实施方案的流程图，所述示例性实施方案概述了进行级联分析以确定所分析的数据集(DiscovEHR数据集；参见实施例)中潜在的复合杂合突变(pCHM)的相位。

图10是示例性操作环境。

图11示出了被配置用于执行所公开的方法的多个系统部件。

图12A、图12B、图12C和图12D示出了根据示例性实施方案的在来自DiscovEHR同期群的前61K经测序的个体中发现的亲缘关系。小图A示出了IBD0对照IBD1的曲线；小图B示出了直方图，所述直方图绘制了所分析的同期群中一级家族网络的大小分布；小图C示出了包含25个经测序的个体的一级家族网络谱系，所述一级家族网络谱系是根据成对的IBD估计重建的；并且小图D示出了这样的方案，所述方案描述了具有7,084个个体的最大二级家族网络。

图13A和图13B示出了在DiscovEHR同期群内的亲缘关系的累积是通过示例性实施方案确定的数据集中所确定的个体的数目的函数。

图14A和图14B示出了根据示例性实施方案，在61K DiscovEHR参与者中一级亲属关系的确定与模拟群体的随机确定之间的比较。小图A示出了一级亲属关系的确定，并且小图B示出了具有多于一个一级亲属关系的个体的数目的确定。

图15A、图15B、图15C和图15D示出了根据示例性实施方案的模拟群体和与在确定的DiscovEHR同期群内的一级亲缘关系的累积的确定拟合。小图A示出了成对的一级亲属关系的累积；小图B示出了所确定的具有一个或多个一级亲属关系的参与者的比例；小图C示出了模拟的确定投影，所述模拟的确定投影具有一级关系数目的上限和下限；并且小图D示出了模拟投影，所述模拟投影具有所确定的具有一个或多个一级亲属关系的参与者的比例的上限和下限。

图16A、图16B、图16C和图16D示出了来自根据示例性实施方案确定的经扩展的DiscovEHR同期群的前92K经测序的个体。小图A示出了IBD0对照IBD1的曲线；小图B示出了直方图，所述直方图绘制了所分析的同期群中一级家族网络的大小分布；小图C示出了包含25个经测序的个体的一级家族网络谱系，所述一级家族网络谱系是根据成对的IBD估计重建的；并且小图D示出了这样的方案，所述方案描述了具有7,084个个体的最大二级家族网络。

图17A和图17B示出了根据示例性实施方案，92K经扩展的DiscovEHR参与者中的一级亲属关系的确定与模拟群体的随机确定之间的比较。小图A示出了一级亲属关系的确定，并且小图B示出了具有多于一个一级亲属关系的个体的数目的确定

图18A、图18B、图18C和图18D示出了根据示例性实施方案的模拟群体和与在扩展的DiscovEHR同期群中的一级亲缘关系的累积的确定拟合。小图A示出了成对的一级亲属关系的累积；小图B示出了所确定的具有一个或多个一级亲属关系的参与者的比例；小图C示出了模拟的确定投影，所述模拟的确定投影具有一级关系数目的上限和下限；并且小图D示出了模拟投影，所述模拟投影具有所确定的具有一个或多个一级亲属关系的参与者的比例的上限和下限。

图19A、图19B、图19C和图19D示出了根据示例性实施方案的模拟群体和与在确定的DiscovEHR同期群内的一级和二级亲缘关系的累积的确定拟合。小图A示出了成对的一级和二级亲属关系的累积；小图B示出了所确定的具有一个或多个一级和二级亲属关系的参与者的比例；小图C示出了模拟的确定投影，所述模拟的确定投影具有一级和二级关系数目的上限和下限；并且小图D示出了模拟投影，所述模拟投影具有所确定的具有一个或多个一级和二级亲属关系的参与者的比例的上限和下限。

图20A、图20B、图20C和图20D示出了根据示例性实施方案的模拟群体和与在确定的经扩展的DiscovEHR同期群内的一级和二级亲缘关系的累积的确定拟合。小图A示出了成对的一级和二级亲属关系的累积；小图B示出了所确定的具有一个或多个一级和二级亲属关系的参与者的比例；小图C示出了模拟的确定投影，所述模拟的确定投影具有一级和二级关系数目的上限和下限；并且小图D示出了模拟投影，所述模拟投影具有所确定的具有一个或多个一级和二级亲属关系的参与者的比例的上限和下限。

图21A、图21B、图21C和图21D示出了根据示例性实施方案的在DiscovEHR同期群中的每个个体和每个基因中鉴定出的复合杂合突变(CHM)和从头突变(DNM)的数目。小图A示出了DiscovEHR同期群中每个个体的CHM数目；小图B示出了DiscovEHR同期群中每个基因的CHM数目；小图C示出了DiscovEHR同期群中具有三联体的儿童中的外显子高置信度DNM的数目的分布；并且小图D示出了每个基因的非同义DNM的数目。

图22是图表，示出了根据示例性实施方案的针对DiscovEHR数据集鉴定出的定相的复合杂合突变(CHM)变异之间的基因组距离的范围。

图23A、图23B和图23C示出了来自DiscovEHR同期群的重建谱系，证明了已知的致病变异的种族隔离，所述致病变异包括针对(A)主动脉瘤、(B)长QT综合征和(C)甲状腺癌的变异。

图24是来自经测序的DiscovEHR的重构谱系，所述经测序的DiscovEHR包括在LDLR中具有串联重复的22/29个携带者和来自经测序的同期群的十个未受影响的相关(一级或二级)个体。

图25是示例性实施方案的判定级联，用于确定92K Discover参与者中潜在的复合杂合突变(pCHM)的相位。

图26A、图26B、图26C和图26D示出了根据示例性实施方案的经扩展的DiscovEHR同期群，所述经扩展的DiscovEHR同期群是针对鉴定出的复合杂合突变(CHM)和从头突变(DNM)的结果。小图A示出了DiscovEHR同期群中每个个体的CHM数目的分布；小图B示出了每个基因的CHM数目的分布；小图C示出了DiscovEHR同期群中具有三联体的儿童中3，415个外显子高置信度和中等置信度DNM的分布；并且小图D示出了在具有1个或更多个的2，802个基因中非同义DNM的分布。

图27是图表，示出了根据示例性实施方案的针对经扩展的DiscovEHR鉴定出的定相的复合杂合突变(CHM)变异之间的基因组距离的范围。

图28是根据示例性实施方案的同期群概况，其示出了在经扩展的DiscovEHR数据集中鉴定出的家族三联体、具有亲本年龄的家族三联体、具有1+个外显子DNM的先证者(proband)、外显子DNM、中/高置信度DNM、单核苷酸DNM、中/高置信度变异和随机变异的数目。

图29示出了根据示例性实施方案的在经扩展的DiscovEHR同期群中每个置信度水平和每个人的鉴定出的DNM的数目。小图A示出了在经扩展的DiscovEHR同期群中每个置信度水平的DNM的数目的分布，并且小图B示出了在经扩展的DiscovEHR同期群中每个个体的DNM的数目的分布，其中DNM是根据示例性实施方案鉴定的。

图30是根据示例性实施方案的直方图，所述直方图绘示了在经扩展的DiscovEHR同期群中每个功能效应DNM中鉴定出的DNM的数目的分布。

图31是根据示例性实施方案的直方图，该直方图绘制了在经扩展的DiscovEHR同期群中每种类型的DNM(转换、颠换和插入或缺失(indel))中鉴定出的DNM的数目的分布。

图32是根据示例性实施方案的直方图，所述直方图绘示了在经扩展的DiscovEHR同期群中每种类型的单核苷酸DNM(→)中鉴定出的DNM的数目的分布。

图33是根据示例性实施方案的直方图，所述直方图绘制了在经扩展的DiscovEHR同期群中每染色体的每10M外显子碱基对中鉴定出的DNM的数目的分布。

图34是根据示例性实施方案的条形图，所述条形图绘示了在经扩展的DiscovEHR同期群中已知富含CG二核苷酸(常规表示为CpG，“p”代表两个碱基之间的磷酸根)的基因组区域中出现的DNM或随机选择的变异的百分比的分布。

图35示出了重建的谱系预测的图像，所述重建的谱系预测包含在LDLR中具有新颖的致FH串联重复的25/37个携带者和来自经扩展的DiscovEHR测序同期群的20个非携带者的相关(一级或二级)个体。

图36A和图36B示出了根据示例性实施方案的在DiscovEHR同期群中出生时父亲和母亲的年龄与在子代中鉴定出的外显子DNM的数目之间的关系。

图37是根据示例性实施方案的图表，所述图表示出了DiscovEHR同期群中子代出生时母亲和父亲的年龄与在子代中鉴定出的DNM之间的相关性的图。

图38是根据示例性实施方案的直方图，其绘制了对在经扩展的DiscovEHR同期群中鉴定出的DNM和随机变异的致病性预测。

具体实施方式

术语“一个(种)”应理解为是指“至少一个(种)”；并且术语“约”和“大约”应被理解为允许如本领域普通技术人员应理解的标准变化；并且其中提供了范围，包括端点。

先前的大规模人类基因组研究通常收集了多个不同地理区域和/或医疗保健系统中的人类样本，并将它们组合以生成同期群以供分析。尽管这些同期群中的采样的个体总数通常很高，但是这些同期群中的亲缘关系和家族结构程度却趋于相对较低。在基因组分析中通常使用的许多统计方法，包括关联分析和主分量分析，都要求所有样本均不相关。否则，这些测试的统计输出将偏倚，从而导致膨胀的p值和假阳性结果(图8)(Kang等人，(2010)，Nature Publishing Group 42，348-354；Sun和Dimitromanolakis(2012)，MethodsMol.Biol.850，47-57；Devlin和Roeder(1999)，Biometrics 55，997-104；以及Voight和Pritchard(2005)，PLoS Genet 1，e32-10)。

如果数据集仅具有少数密切相关的样本，则从数据集中去除家族结构是可行的选项(Lek等人，(2016)，Nature Publishing Group 536，285-291；Fuchsberger等人，(2016)，Nature Publishing Group 536，41-47；Locke等人，(2015)，Nature 518，197-206；以及Surendran等人，(2016)Nat Genet 48，1151-1161)。如果不相关的数据子集足以用于统计分析(诸如计算主分量(PC)，然后将剩余的样本投影到这些PC上)，则去除家族结构也是可能的选项(Dewey等人，(2016)，Science 354，aaf6814-aaf6814)。存在许多方法可以帮助研究人员保留最大大小的不相关个体集合(Staples等人，(2013)，Genet.Epidemiol.37，136-141；Chang等人，(2015)，Gigascience 4，7)。遗憾的是，去除相关个体不仅减少了样本量，而且还丢弃了有价值的关系信息。实际上，如果数据集甚至具有中等水平的家族结构，则对于许多分析来说此类信息丢失是不可接受的。

本公开至少部分地基于以下认识：关于多个受试者的基因组样本的数据集内的家族和谱系结构以及亲缘关系的信息是有用的，因为其为允许研究罕见的遗传变异(例如，复合杂合突变和/或从头突变)与疾病之间的关联等的许多分析开辟了途径。

本公开还至少部分地基于以下认识：全基因组范围的按血统身份(IBD)估计是量化多个受试者的基因组样本的数据集内以及两对个体之间的亲缘关系水平的极好的度量。

已经开发出几种对精确的成对关系建模的统计方法。例如，使用混合模型的全基因组关联研究具有更好的能力并且优于不对混杂亲缘关系进行建模的方法(Kang等人(2010)，Nature Publishing Group 42，348-354；Zhang等人(2010)，Nat Genet 42，355-360；Yang等人(2014)，Nat Genet 46，100-106；以及Kirkpatrick和Bouchard-

(2016)，arXivq-bio.QM)，但是混合模型无法充分利用家族结构中包含的信息，并且可能无法实际成比例扩大成具有数十万个样本以及数十万至数千个表型的数据集。成对关系也可以用于无谱系的QTL连锁分析中(Day-Williams等人(2011)，Genet.Epidemiol.35，360-370)。存在用于对群体结构和家族结构进行建模以进行成对关系估计(PCrelate)(Conomos等人(2016)，Am.J.Hum.Genet.98，127-148)和主分量分析(PC-AiR)的另外软件包(Conomos等人(2015)，Genet.Epidemiol.39，276-293)。

与传统的全基因组关联研究相反，最近和将来的大规模基因组研究(例如，在本公开中体现的那些研究)趋于对来自各个地理区域的数十万参与者进行采样。结果，这些研究确定了大得多的比例的来自同一地理区域的人，以及因此采样的数据集内的家族和谱系结构，以鉴定出在传统群体范围关联分析中未得到充分认识的家族中分离的罕见变异。

由于几个原因，此类大规模基因组研究的数据富集了家族结构和远亲隐秘亲缘关系。第一，例如经由医疗保健系统群体研究大量来自特定地理区域的样本，并且随着从单个群体中确定了更多的样本，确定的成对相关个体的数目组合地增加(图8A)。第二，由于共享的保险覆盖和便利性，居住在相同地理区域的家族可能会从同一医疗保健系统中的同一医生获得医疗保健。第三，共享的遗传和环境因素可增加某些家族的医疗保健互动的频率。在具有低迁移率的群体中，家族结构和远亲隐秘亲缘关系都更加明显(Henn等人(2012)，PLoSONE 7，e34267)。家族结构的影响可以通过采样方法对连锁的影响、基于谱系的分析、IBD建模和不相关因素的分析来观察(图8，小图D)。“连锁”是指使用一个或多个信息谱系的传统连锁分析；“基于谱系的分析”是指超出连锁的统计方法，该统计方法使用包括无关个体的更大同期群内的谱系结构；“IBD建模”是指在不使用整个谱系结构的情况下对个体之间的成对关系建模的分析；并且“无关性分析”是指假设同期群中的所有个体都不相关的分析。

本公开集中在家族结构上，并且使用真实和模拟数据两者展示了高层级的家族结构。本公开的改进之一在于，其比传统方法更准确和可靠地鉴定和/或定相复合杂合突变(CHM)和/或从头突变(DNM)(参见实施例部分中公开的数据)。

因此，本公开提供了通过利用群体的亲缘关系来对确定的群体中的遗传变异定相的方法。在图1中提供了概述示例性定相方法的流程。

该方法可以应用于不同群体中的各种类型的遗传变异。可以评估的遗传变异类型的非限制性实例包括点突变、插入、缺失、倒位、重复和多聚化。群体类型的非限制性实例包括单一医疗保健网络群体；多医疗保健网络群体；在种族、文化或社交上同类或异类的群体；混合年龄群体或同龄群体；地理上集中或分散的群体；或它们的组合。可以获取遗传变异的方法的非限制性实例包括以下步骤：

-样本制备和测序(Dewey等人(2016)，Science 354，aaf6814-1至aaf6814-10)；

-在测序完成时，将来自每个测序轮次的原始数据都收集到本地缓冲存储装置中，并上传到DNAnexus平台(Reid等人(2014)；BMCBioinformatics 15，30)进行自动分析。

-使用CASAVA(Illumina Inc.，San Diego，CA)生成样本级读段文件，并使用BWA-mem与GRCh38比对(Li和Durbin(2009)；Bioinformatics 25，1754-176；Li(2013)；arXiv q-bio.GN)。

-使用GATK(McKenna等人(2010)；Genome Res.20，1297-1303)和Picard处理所得的BAM文件以分类、标记重复，并对推定的插入或缺失周围的读段执行局部重比对。

-使用Ensemb185基因定义用snpEFF(Cingolani等人，(2012)；Fly(Austin)6，80-92)为经测序的变异作注释，以确定对转录物和基因的功能效应。

应当理解的是，方法不限于上述步骤中的任一者，并且可以通过任何合适的方法进行序列变异的获取。

图1是其中通过利用群体的亲缘关系来对群体中的遗传变异进行定相/鉴定的示例性实施方案的流程图。可以通过任何合适的方法在步骤1处从获自多个人类受试者的核酸序列样本的数据集中去除低质量序列变异。此类方法的非限制性实例包括PLINK(Chang等人(2015)；Gigascience 4，7)和实施例中公开的那些。

可以通过任何合适的方法在步骤2处为样本中的一个或多个的每一个样本建立祖先总纲命名。此类方法的非限制性实例包括PLINK(Chang等人(2015)；Gigascience 4，7)和实施例中公开的那些。

可以在步骤3处通过任何合适的方法从数据集中去除低质量样本。此类方法的非限制性实例包括在Dewey等人(2016)，Science 354，aaf6814-1至aaf6814-10中公开的那些，以及实施例中公开的那些。

可以通过任何合适的方法在步骤4处生成对祖先总纲内的受试者的第一按血统身份估计。此类方法的非限制性实例包括PLINK(Chang等人(2015)；Gigascience 4，7)和实施例中公开的那些。

可以在步骤5和步骤6处独立于受试者的祖先总纲生成受试者的第二按血统身份估计，可以通过任何合适的方法基于第二按血统身份估计中的一个或多个将受试者聚类为主要一级家族网络。此类方法的非限制性实例包括PLINK(Chang等人(2015)；Gigascience4，7)和实施例中公开的那些。

可以通过任何合适的方法在第一步骤7处生成主要一级家族网络内的受试者的第三按血统身份估计。此类方法的非限制性实例包括PLINK(Chang等人(2015)；Gigascience4，7)和实施例中公开的那些。

可以通过任何合适的方法在步骤8处合并第一按血统身份估计和第三按血统身份估计以获得合并的按血统身份估计。此类方法的非限制性实例包括PLINK(Chang等人(2015)；Gigascience 4，7)和实施例中公开的那些。

可以通过任何合适的方法在步骤9处基于合并的按血统身份估计来构建受试者的次要一级家族网络。此类方法的非限制性实例包括PLINK(Chang等人(2015)；Gigascience4，7)和实施例中公开的那些。

可以通过任何合适的方法在步骤10处根据合并的按血统身份估计和次要一级家族网络来定相变异是否为复合杂合突变(CHM)；或者可以通过任何合适的方法根据合并的按血统身份估计和次要一级家族网络而将变异鉴定为从头突变(DNM)。此类的方法的非限制性实例包括在图6和图7中以及在实施例中公开的那些。

为了说明但不限于用于生成按血统身份(IBD)估计以及使用所述IBD估计来将基因变异定相为复合杂合突变(CHM)或潜在的复合杂合突变(pCHM)，或从头突变(DNM)的方法，图5至图7提供了基本的操作逻辑。在逻辑中标识的程序(例如，EAGLE、PLINK等)对于它们被标识的步骤是示例性的，但是应理解的是，此类程序不是执行此类步骤的唯一方式。

将变异定相为复合杂合突变(CHM)可包括：(1)根据群体等位基因频率对变异进行定相；(2)去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约2或更小的SNP，或读段深度(DP)小于约5的SNP，或者交替等位基因平衡(AB)为约10％或更小的SNP，或它们的组合；以及去除QD为约2或更低的插入或缺失(INDELS)，DP小于约5的INDELS，或AB为约10％或更低的INDELS，或它们的组合；(3)选择剩余变异作为潜在复合杂合突变(pCHM)，其中在同一样本和同一基因中有一对或多对变异；以及(4)将pCHM定相为顺式或反式pCHM，然后将定相为反式pCHM的pCHM分类为CHM。可以通过任何合适的方法(包括但不限于EAGLE(Loh等人(2016)，Nat Genet 48，1443-1448))促进根据群体等位基因频率对变异进行定。可以通过任何合适的方法(包括实施例中所述的那些)去除不满足某些选择标准的变异，将剩余的变异选择为潜在的复合杂合突变，并且对所述潜在的复合杂合突变进行定相。这些示例性实施方案也在图6中示出。

将变异体定相为复合杂合突变可包括：去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约3或更小的SNP，或读段深度(DP)小于约7的SNP，或者交替等位基因平衡(AB)为约15％或更小的SNP，或它们的组合；以及去除QD为约5或更低的插入或缺失(INDELS)，DP小于约10的INDELS，或AB为约20％或更低的INDELS，或它们的组合。这些步骤可以如本文其他地方所描述的那样进行，将排除参数设置为更严格的水平时除外。

在一些示例性实施方案中，所述方法还包括：(1)根据功能效应优先级对CHM进行评分，以及(2)选择每个样本的每个基因中具有最高功能效应优先级评分的CHM，以便当人类在同一基因中具有多于一个CHM时，鉴定出最有可能导致蛋白质功能抑制的CHM。这些步骤可以通过任何合适的方法进行，所述任何合适的方法包括但不限于SIFT(Loh等人(2016)；Nat Genet 48，1443-1448)(损伤)、PolyPhen2HDIV45(损伤和可能损伤)、PolyPhen2HVAR(损伤和可能损伤)、LRT46(有害)和MutationTaster(Schwarz等人(2014)；Nat.Methods 11，361-362)(自动引起疾病和引起疾病)。

将变异定相为从头突变可包括：(1)鉴定呈次要一级家族网络及其三联体的样本中的变异；(2)为呈三联体的亲本样本和对应的子代样本中的变异分配基因型似然度评分，计算变异为从头突变的概率，以及在计算出的概率具有统计学显著性时将变异鉴定为可能的从头突变；(3)鉴定呈三联体的子代样本中的变异，以及当在任一呈三联体的亲本样本中均不存在所述变异时，将所述变异鉴定为可能的从头突变；(4)通过以下方式过滤经鉴定的可能的从头突变：去除子代样本中的基因型质量(GQ)注释小于约35的可能的从头突变，或者在样本中交替等位基因计数(AC)为10或更大的可能的从头突变，或者子代样本中的读段深度(DP)小于约7且替代的DP小于约4的可能的从头突变，或者在任一亲本样本中等位基因平衡(AB)大于约2％的可能的从头突变，或者子代样本中的等位基因平衡(AB)小于约15％的可能的从头突变，或者子代样本中的AB大于约90％的可能的从头突变，或者在任一亲本样本中具有交替的等位基因纯合性的可能的从头突变，或它们的组合；以及(5)组合过滤的经鉴定的可能的从头突变，从而形成可能的从头突变数据集。这些步骤可以通过任何合适的方法进行，包括实施例中所述的那些。这些示例性实施方案也在图7中示出。

在一些示例性实施方案中，所述方法还包括：当可能的从头突变的等位基因平衡在子代样本中为约0.15或更大并且在每个亲本样本中为约0.02或更小，并且不具有小于约40的映射质量，并且不具有小于约2的测序深度对质量的影响(QD)值，并且在各样本中的MAC小于约20，并且在具有可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段，并且不是单聚物运行大于约4次的INDEL时，将可能的从头突变数据集中的所述可能的从头突变分类为中等置信度从头突变。在一些示例性实施方案中，所述方法还包括：当所述中等置信度从头突变在亲本样本中的基因型质量注释为约90或更大，并且在每个亲本样本中的读段深度为约10或更大，并且在子代样本中的替代读段深度为约7或更大，并且SNP的QD大于约3，并且INDEL的QD大于约5时，将所述中等置信度从头突变分类为高置信度从头突变。可以以所述方式中的任一者来实践这两个示例性实施方案，包括但不限于在实施例中公开的那些方式。

本公开还提供了用于鉴定群体中的复合杂合突变(CHM)的方法。在图2中提供了说明用于鉴定CHM的方法的示例的流程图。

该方法可以应用于通过任何方法衍得到的来自任何类型的人类受试者的任何类型的DNA序列样本。变异的非限制性实例包括点突变、插入、缺失、倒位、重复和多聚化。人类受试者类型的非限制性实例包括来自以下的人类受试者：单一医疗保健网络群体；多医疗保健网络群体；在种族、文化或社交上同类或异类的群体；混合年龄群体或同龄群体；地理上集中或分散的群体；或它们的组合。可以以许多方式中的任何一种来获取DNA序列样本，所述方式包括但不限于在Dewey等人(2016)，Science 354，aaf6814-1至aaf6814-10中公开的那些。

在一些示例性实施方案中，DNA序列样本包含外显子组序列。可以通过常用方法中的任一种，或如在Dewey等人(2016)，Science 354，aaf6814-1至aaf6814-10中描述的方法来分离外显子组DNA。

可以通过任何合适的方法在步骤11处鉴定来自多个人类受试者的DNA序列样本中的变异。可以鉴定出变异的方法的非限制性实例包括以下步骤：

-使用CASAVA软件(Illumina Inc.，San Diego，CA)生成样本级读段文件，并使用BWA-mem与GRCh38比对(Li和Durbin(2009)；Bioinformatics 25，1754-176；Li(2013)；arXiv q-bio.GN)。

-使用Ensembl85基因定义用snpEFF(Cingolani等人，(2012)；Fly(Austin)6，80-92)为经测序的变异作注释，以确定对转录物和基因的功能效应。

图2是其中鉴定了群体中的复合杂合突变(CHM)的示例性实施方案的流程图。可以在步骤12处基于经鉴定的变异来建立受试者的祖先总纲命名；可以在步骤13处生成祖先总纲内的受试者的第一按血统身份估计；可以在步骤14处独立于受试者的祖先总纲生成受试者的第二按血统身份估计；可以在步骤15处基于第二按血统身份估计中的一个或多个，将受试者聚类为主要一级家族网络；可以在步骤16处生成主要一级家族网络内的受试者的第三按血统身份估计；可以在步骤17处合并第一按血统身份估计和第三按血统身份估计以获得合并的按血统身份估计；以及可以通过任何合适的方法在步骤18处基于合并的按血统身份估计来构建次要一级家族网络。此类方法的非限制性实例包括PLINK(Chang等人(2015)；Gigascience 4，7)和实施例中公开的那些。在一些示例性实施方案中，按血统身份估计包括对样本对之间的IBD 0、1和2值的全基因组计算。

可以通过任何合适的方法(包括但不限于EAGLE(Loh等人(2016)，Nat Genet 48，1443-1448))在步骤19处根据群体等位基因频率对样本中的变异进行定相。

可以在步骤20处基于相同受试者和基因中两种变异的存在而将一对经定相的变异分类为潜在的CHM，所述存在是通过测试同一个人的基因中杂合的pLoF和/或有害错义变异的所有可能组合而确定的。

可以在步骤21处将潜在的CHM定相为顺式或反式，并且可以将定相为反式的潜在的CHM分类为CHM。可以通过任何合适的方法对潜在的CHM进行定相。在非限制性实例中，使用用EAGLE进行的基于群体等位基因频率的定相和基于谱系/关系的定相的组合来确定潜在的CHM是顺式还是反式相位(该示例性过程也在图9中示出)。

在一些示例性实施方案中，所述方法还包括在建立所述受试者的所述祖先总纲命名之前过滤所述经鉴定的变异；以及在一些示例性实施方案中，所述方法还包括在生成受试者的第二按血统身份估计之前过滤经鉴定的变异。可以通过任何合适的方法来过滤所述变异。此类方法的非限制性实例包括PLINK(Chang等人(2015)；Gigascience 4，7)和实施例中公开的那些。

在一些示例性实施方案中，对变异进行过滤包括去除在来自多个人类受试者的样本中交替等位基因频率大于约10％的变异，或p值＞约10^-6的违反哈迪-温伯格平衡(HWE)的变异，或者在来自多个人类受试者的样本中缺失响应＞约5％的变异，或它们的组合。可以通过任何合适的方法(包括实施例中所述的那些)去除不满足某些选择标准的变异，将剩余的变异选择为潜在的复合杂合突变，并且对所述潜在的复合杂合突变进行定相。这些示例性实施方案也在图6中示出。

在一些示例性实施方案中，所述方法还包括在已过滤经鉴定的变异之后去除低质量样本。可以通过任何合适的方法来去除低质量样本。此类方法的非限制性实例包括在Dewey等人(2016)，Science 354，aaf6814-1至aaf6814-10中公开的那些方法(通常是已知的)，以及实施例中公开的那些方法。在一些示例性实施方案中，将参数调整为使得D-统计＞0.12或20x读段覆盖率＜75％或同时符合两种情况的样本均为被去除的低质量样本。

合并第一按血统身份估计和第三按血统身份估计可包括用第三按血统身份估计所独有的成对按血统身份估计来增强第一按血统身份估计，这可以通过例如但不限于PLINK(Chang等人(2015)；Gigascience 4，7)，以及实施例中公开的那些方法来促进。

在一些示例性实施方案中，所述方法还包括在已经根据群体等位基因频率对变异进行定相之后过滤所述变异，在一些示例性实施方案中，根据群体等位基因频率对变异进行定相可包括将人类受试者的DNA序列样本分成基因组区段，所述基因组区段具有近似相等的大小，在基因间区域中的大量区段重叠和断裂点。可以通过任何合适的方法(包括但不限于EAGLE(Loh等人(2016)，Nat Genet 48，1443-1448))促进根据群体等位基因频率对变异进行定。过滤根据群体等位基因频率定相的变异可包括去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约2或更小的SNP，或读段深度(DP)小于约5的SNP，或者交替等位基因平衡(AB)为约10％或更小的SNP，或它们的组合；以及去除QD为约2或更低的插入或缺失(INDELS)，DP小于约5的INDELS，或AB为约10％或更低的INDELS，或它们的组合。过滤根据群体等位基因频率定相的变异可包括去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约3或更小的SNP，或读段深度(DP)小于约7的SNP，或者交替等位基因平衡(AB)为约15％或更小的SNP，或它们的组合；以及去除QD为约5或更低的插入或缺失(INDELS)，DP小于约10的INDELS，或AB为约20％或更低的INDELS，或它们的组合。可以通过任何合适的方法(包括实施例中所述的那些)去除不满足某些选择标准的变异，将剩余的变异选择为潜在的复合杂合突变，并且对所述潜在的复合杂合突变进行定相。这些示例性实施方案也在图6中示出。

可将潜在的CHM基于三联体数据、或亲本-子代数据、或全同胞数据、或远亲数据或它们的组合进行定相，或基于次要等位基因计数(MAC)进行定相；或基于群体等位基因频率进行定相；或它们的组合。可以通过本领域中通常使用的任何合适的方法来促进定相。在非限制性实例中，使用用EAGLE进行的基于群体等位基因频率的定相与基于谱系/关系的定相的组合来对潜在的CHM进行定相。该示例性过程也在图9中示出。

在一些示例性实施方案中，所述方法还包括根据功能效应优先级对CHM进行评分，以及选择每个样本的每个基因中具有最高功能效应优先级评分的CHM，从而获得医学相关突变的集合。这些步骤可以通过任何合适的方法进行，所述任何合适的方法包括但不限于SIFT(Loh等人(2016)；Nat Genet 48，1443-1448)(损伤)、PolyPhen2HDIV(损伤和可能损伤)、PolyPhen2HVAR(损伤和可能损伤)、LRT(有害)和MutationTaster(Schwarz等人(2014)；Nat.Methods 11，361-362)(自动引起疾病和引起疾病)。

本公开还提供了用于鉴定群体中的从头突变(DNM)的方法。在图3中提供了说明用于鉴定DNM的方法的示例的流程图。

DNA序列样本包含外显子组序列或是外显子组序列。可以通过常用方法中的任一种，或如在Dewey等人(2016)，Science 354，aaf6814-1至aaf6814-10中描述的方法来分离外显子组DNA。

可以通过任何合适的方法鉴定22来自多个人类受试者的DNA序列样本中的变异。可以鉴定出变异的方法的非限制性实例包括以下步骤：

应当理解的是，本公开不限于上述步骤中的任一者，并且可以通过任何合适的方法进行序列变异的获取。

图3是其中鉴定了群体中的从头突变(DNM)的示例性实施方案的流程图。可以在步骤23处基于经鉴定的变异来建立受试者的祖先总纲命名；可以在步骤24处生成祖先总纲内的受试者的第一按血统身份估计；可以在步骤25处独立于受试者的祖先总纲生成受试者的第二按血统身份估计；可以在步骤26处基于第二按血统身份估计中的一个或多个，将受试者聚类为主要一级家族网络；可以在步骤27处生成主要一级家族网络内的受试者的第三按血统身份估计；以及可以通过任何合适的方法在步骤28处合并第一按血统身份估计和第三按血统身份估计以获得合并的按血统身份估计。此类方法的非限制性实例包括PLINK(Chang等人(2015)；Gigascience 4，7)和实施例中公开的那些。按血统身份估计可包括对样本对之间的IBD 0、1和2值的全基因组计算。

此外，可以在步骤29处基于合并的按血统身份估计来构建核家族；可以在步骤30处鉴定核家族中的变异；可以在步骤31处为来自构建的核家族中呈三联体的每个亲本和子代的样本中的变异分配基因型似然度评分，并且可以计算所述变异是从头突变的概率；以及可以独立地原始鉴定子代样本中在任一呈三联体的亲本样本中均不存在的变异，并且可以计算所述变异是从头突变的概率，然后将这两组可能的从头突变组合，从而形成可能的从头突变的数据集。进行上述步骤的方法的非限制性实例包括实施例中公开的那些。

对所述变异进行过滤可包括去除在来自多个人类受试者的样本中交替等位基因频率大于约10％的变异，或p值＞约10^-6的违反哈迪-温伯格平衡(HWE)的变异，或者在来自多个人类受试者的样本中缺失响应＞约5％的变异，或它们的组合。可以通过任何合适的方法(包括实施例中所述的那些)去除不满足某些选择标准的变异，将剩余的变异选择为潜在的复合杂合突变，并且对所述潜在的复合杂合突变进行定相。

在一些示例性实施方案中，所述方法还包括在已过滤经鉴定的变异之后去除低质量样本。可以通过任何合适的方法来去除低质量样本。此类方法的非限制性实例包括在Dewey等人(2016)，Science 354，aaf6814-1至aaf6814-10中公开的那些方法(通常是已知的

并且因此在本文中不再进一步详述)，以及在实施例中公开的那些。在一些示例性实施方案中，将参数调整为使得D-统计＞0.12或20x读段覆盖率＜75％或同时符合两种情况的样本均为被去除的低质量样本。在一些示例性实施方案中，通过使用KS检验将样本的实际等位基因平衡分布与预期的等位基因平衡分布进行比较来确定低质量样本的D-统计。

过滤所述变异可包括去除子代样本中的基因型质量(GQ)注释小于约35的变异，或者在各样本中交替等位基因计数(AC)为10或更大的变异，或者子代样本中的读段深度(DP)小于约7且替代的DP小于约4的变异，或者在任一亲本样本中等位基因平衡(AB)大于约2％的变异，或者子代样本中的等位基因平衡(AB)小于约15％的变异，或者子代样本中的AB大于约90％的变异，或者在任一亲本样本中具有交替的等位基因纯合性的变异，或它们的组合。当可能的从头突变的等位基因平衡(AB)在子代样本中为约15％或更大并且在每个亲本样本中为约2％或更小，并且不具有小于约40的映射质量(MQ)，并且不具有小于约2的测序深度对质量的影响(QD)值，并且在各样本中的次要等位基因计数(MAC)小于约20，并且在具有可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段，并且不是单聚物运行大于约4次的INDEL时，将所述可能的从头突变分类为可能发生的中等置信度从头突变。当所述中等置信度从头突变在亲本样本中的基因型质量(GQ)注释为约90或更大，并且在每个亲本样本中的读段深度(DP)为约10或更大，并且在子代样本中的替代DP为约7或更大，并且SNP的QD大于约3，并且INDEL的QD大于约5时，将所述中等置信度从头突变分类为可能发生的高置信度从头突变。这些步骤可以通过任何合适的方法进行

，包括实施例中所述的那些。这些示例性实施方案也在图7中示出。

如本文所用的术语D-统计是指可以生成并用于鉴定低质量样本的QC度量。样本的低质量可由污染引起，这可导致下游分析出现问题。样本的D-统计可以例如通过将样本的实际等位基因平衡分布与参考等位基因平衡分布(例如，预期的等位基因平衡分布)进行比较来计算。可以例如根据没有任何污染迹象的多个样本来计算参考分布，所述没有任何污染迹象的多个样本是使用与用于查询待分析样本的平台相同的平台捕获并测序的。如本文所用的D统计QC度量的值等于在计算p值之前根据K-S(柯尔莫哥罗夫-斯米尔诺夫)检验生成的D统计。D-统计不具有单位。来自K-S检验的D统计产生在0与1之间的值，其中1表示参考分布与样本分布的累积分布之间的最大差异。在一些示例性实施方案中，通过将样本的实际等位基因平衡分布与根据K-S检验计算的预期等位基因平衡分布/参考等位基因平衡分布进行比较来鉴定低质量样本。在一些示例性实施方案中，经确定具有特定D-统计值的样本被认为是低质量样本，并且被从进一步的分析中去除。在一些示例性实施方案中，被认为是低质量并且要被去除的样本的D-统计值＞0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1、0.11或0.12。在一个优选实施方案中，被认为是低质量并要去除的样本的D-统计值＞约0.12。在一个甚至更优选的实施方案中，被认为是低质量并要去除的样本的D-统计值＞0.12。

所描述或例示的任何方法都可以作为非暂时性计算机实现的方法和/或系统来实践。为此目的，可以使用本领域普通技术人员已知的任何合适的计算机系统。

图10示出了可以操作本方发明的法和系统的示例性环境201的各个方面。本发明的方法可以在采用数字设备和模拟设备两者的各种类型的网络和系统中使用。本文提供了功能描述，并且相应功能可以通过软件、硬件或软件和硬件的组合来执行。

环境201可以包括本地数据/处理中心210。本地数据/处理中心210可以包括一个或多个网络，诸如局域网，以促进一个或多个计算装置之间的通信。一个或多个计算装置可用于存储、处理、分析、输出和/或可视化生物数据。环境201可以任选地包括医学数据提供者220。医学数据提供者220可包括一个或多个生物数据源。例如，医学数据提供者220可以包括一个或多个健康系统，所述一个或多个健康系统有权访问一个或多个患者的医学信息。医学信息可以包括例如病史、医学专业观察和评论、实验室报告、诊断、医嘱、处方、生命体征、体液平衡、呼吸功能、血液参数、心电图、x射线、CT扫描、MRI数据、实验室测试结果、诊断、预后、评估、入院和出院记录，以及患者登记信息。医学数据提供者220可以包括一个或多个网络，诸如局域网，以促进一个或多个计算装置之间的通信。一个或多个计算装置可用于存储、处理、分析、输出和/或可视化医学信息。医学数据提供者220可以对医学信息进行去标识，并且可以将去标识的医学信息提供给本地数据/处理中心210。去标识的医学信息可包括每个患者的唯一标识符，以便在将医学信息保持在去标识状态下的同时将一个患者的医学信息与另一个患者的医学信息区分开。去标识的医学信息防止了将患者的身份与其特定医学信息相关联。本地数据/处理中心210可以分析去标识的医学信息，以为每个患者分配一个或多个表型(例如，通过分配国际疾病分类“ICD”代码和/或目前使用的医疗服务术语“CPT”代码)。

环境201可包括NGS测序设施230。NGS测序设施230可包括一个或多个测序仪(例如，Illumina HiSeq 2500、Pacific Biosciences PacBio RS II等)。一个或多个测序仪可经配置用于外显子组测序、全外显子组测序、RNA测序、全基因组测序、靶向测序等。在一个示例性方面，医学数据提供者220可以提供来自与该去标识的医学信息相关的患者的生物样本。唯一标识符可用于维持生物样本与对应于所述生物样本的去标识的医学信息之间的关联。NGS测序设施230可以基于生物样本对每个患者的外显子组进行测序。为了在测序之前贮存生物样本，NGS测序设施230可包括生物库(例如，来自Liconic Instruments)。可以在管(每个管与一名患者相关联)中接纳生物样本，每个管可以包括条形码(或其他标识符)，所述条形码可被扫描以自动将样本记录到本地数据/处理中心210中。NGS测序设施230可包括一个或多个机器人，所述一个或多个机器人用于一个或多个测序阶段以确保统一的数据和有效的不间断操作。因此，NGS测序设施230可以每年对数万个外显子组进行测序。在一个方面，NGS测序设施230具有每月对至少1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10,000个、11,000个或12,000个全外显子组进行测序的功能能力。

可以将由NGS测序设施230生成的生物数据(例如，原始测序数据)传送到本地数据/处理中心210，所述本地数据/处理中心210可以然后将所述生物数据传送到远程数据/处理中心240。远程数据/处理中心240可包括基于云的数据存储和处理中心，所述基于云的数据存储和处理中心包括一个或多个计算装置。本地数据/处理中心210和NGS测序设施230可以直接经由一条或多条高容量光纤线路将数据传递至远程数据/处理中心240或从远程数据/处理中心240传递出数据，尽管也可以考虑其他的数据通信系统(例如，互联网)。在示例性方面，远程数据/处理中心240可包括第三方系统，例如亚马逊网络服务(DNAnexus)。远程数据/处理中心240可以促进分析步骤的自动化，并且允许以安全的方式与一个或多个合作者250共享数据。在从本地数据/处理中心210接收到生物数据之后，远程数据/处理中心240可以使用生物信息学工具执行一系列自动化的管线步骤以进行初级和次级数据分析，从而产生每个样本的带注释的变异文件。来自此类数据分析的结果(例如，基因型)可以传送回本地数据/处理中心210，并且例如可以集成到实验室信息管理系统(LaboratoryInformation Management System，LIMS)中以维持每个生物样本的状态。

然后，本地数据/处理中心210可以利用经由NGS测序设施230和远程数据/处理中心240获得的生物数据(例如，基因型)与去标识的医学信息(包括经鉴定的表型)的组合来鉴定基因型与表型之间的关联。例如，本地数据/处理中心210可以施加表型优先方法，在所述表型优先方法中表型被定义为在某些疾病区域中可具有治疗潜力，例如心血管疾病的血脂极端。另一个示例是对肥胖患者进行研究以鉴定似乎受保护而免受典型合并症影响的个体。另一种方法是使用基因型和假设开始，所述假设为例如基因X参与导致疾病Y或保护免受疾病Y。

在一个示例性方面，一个或多个合作者250可以经由网络(诸如互联网260)访问生物数据和/或去标识的医学信息中的一些或全部。

在一个示例性方面，在图11中示出了本地数据/处理中心210和/或远程数据/处理中心240中的一个或多个可包括一个或多个计算装置，所述一个或多个计算装置包括遗传数据部件300、表型数据部件310、遗传变异-表型关联数据部件320，和/或数据分析部件330中的一个或多个。遗传数据部件300、表型数据部件310和/或遗传变异-表型关联数据部件320可以被配置用于以下中的一者或多者：序列数据的质量评定、与参考基因组的读段比对、变异鉴定、变异注释、表型鉴定、变异-表型关联鉴定、数据可视化，它们的组合等。

在一个示例性方面，所述部件中的一个或多个可以采取全硬件实施方案、全软件实施方案、或组合软件和硬件方面的实施方案的形式。此外，所述方法和系统可以采取计算机可读存储介质上的计算机程序产品的形式，所述计算机可读存储介质具有在所述存储介质中体现的计算机可读程序指令(例如，非暂时性计算机软件)。更特别地，本发明的方法和系统可以采用网络实现的计算机软件的形式。可以利用任何合适的计算机可读存储介质，包括硬盘、CD-ROM、光学存储装置，或磁性存储装置。

在一个示例性方面，遗传数据部件300可以被配置用于为一个或多个遗传变异进行功能注释。遗传数据部件300还可被配置为用于存储、分析、接收一种或多种遗传变异等。可以根据获自一个或多个患者(受试者)的序列数据(例如，原始序列数据)为一种或多种遗传变异作注释。例如，可以根据至少100,000个、200,000个、300,000个、400,000个或500,000个受试者中的每一个为一种或多种遗传变异作注释。为一个或多个遗传变异进行功能注释的结果是遗传变异数据的生成。举例来说，遗传变异数据可包括一个或多个变异响应格式(Variant Call Format，VCF)文件。VCF文件是用于表示SNP、插入或缺失和/或结构变异响应的文本文件格式。评定变异对转录物/基因的功能影响，并鉴定潜在的功能丧失(potential loss-of-function，pLoF)候选者。使用Ensembl75基因定义用snpEff为变异作注释，然后进一步处理每个变异(和基因)的功能注释。

如本文所提供的用数字和/或字母连续标记方法步骤，并不意味着将方法或其任何示例性实施方案限制为特定指示次序。

在整个说明书中引用了各种出版物，包括专利、专利申请、公开的专利申请、登录号、技术文章和学术文章。这些引用的参考文献中的每一个均以引用方式全文并入本文件中。

通过参考以下实施例将更充分地理解本公开，以下实施例被提供用于更详细地描述本公开。它们旨在说明，而不应解释为限制本公开的范围。

实施例

实施例1.1

对具有61K人类外显子组的同期群中的关系估计和亲缘关系说明

分析了具有61K人类外显子组的同期群。该同期群源于2014年发起的通过再生元遗传学中心(Regeneron Genetics Center，RGC)和盖辛格健康系统(Geisinger HealthSystem，GHS)进行的研究(Dewey等人(2016)，Science 354，aaf6814-aaf6814)。这项DiscovEHR研究对为具有低迁移率的群体服务的单一医疗保健系统中的患者进行了密集采样。61K人类外显子组同期群在本文中称为DiscovEHR数据集。在DiscovEHR数据集中鉴定出了大量的家族结构，并且本文公开的模拟预测，当研究确定目标是250K的人时，数据集中70％-80％的个体将具有一级或二级亲属关系。

使用按血统身份(IBD)估计来鉴定数据集内的不同类型的家族关系，并且使用PRIMUS(Staples等人，(2014)，Am.J.Hum.Genet.95，553-564)来将成对的关系分类为不同的家族类别并重建谱系(在实施例8中进一步解释)。由于根据全外显子测序(WES)数据准确估计远亲的IBD比例的局限性，仅包括DiscovEHR数据集样本中估计的一级、二级和高置信度三级关系。

在数据集中总共鉴定出了20个单卵双胞胎、8,802个亲本子代关系、6,122个全同胞关系，以及约20,000个二级关系(图12A)。由于二级和三级关系的IBD共享分布彼此重叠，因此在本研究中选择了两个预期均值之间的一半硬截断(hard cutoff halfway)。三级关系(在图12A中用星号标记)的准确估计由于外显子组数据的技术局限性以及在更远亲的关系类别(例如，四级和五级)的预期平均IBD比例周围加宽和重叠的变化，而是挑战性的。接下来，将个体视为节点并将关系视为边缘以生成无向图。仅使用一级关系，就鉴定出了7,684个相连的分量，这些分量被称为一级家族网络。图12B示出了一级家族网络的大小分布，所述大小分布的范围是2至25个测序个体。同样，发现了7,136个二级家族网络；最大的包含7,123个个体(整个数据集的约12％；图12D)。在图12D中，二级家族网络内的一级家族网络被描绘为根据网络中的个体数目成比例定大小的红框(包括图12C中所示的一级家族网络谱系)。单一个体被描绘为通过二级关系连接的黑色节点，所述二级关系被绘制为蓝色边缘。

在二级家族网络内也可鉴定出约4,500个三级关系。放宽指示的祖先分组中的IBD估计的最小IBD截止值，在DiscovEHR数据集中鉴定出了远超过50K的三级关系。虽然具有欧洲祖先的个体仅占DiscovEHR数据集的96.5％(参见下表1a)，但是数据集中发现的绝大多数(＞99％)成对关系涉及具有欧洲祖先的个体(参见下表1b)。无论如何，在具有同一非欧洲祖先的人之间并且在具有不同祖先的个体之间存在许多关系。例如，在这样的DiscovEHR数据集中发现了三联体，所述DiscovEHR数据集具有欧洲父亲和东亚母亲，他们的子代因为与参考群体不匹配而被分配为具有未知的祖先。

表1a(DiscovEHR数据集的祖先分解)

表1b(一级和二级关系中所涉及的个体的祖先背景的完整分解)

累积亲属关系比率远超过凭经验(图13A)并且经由模拟(图14A)累积亲属关系比率远超过确定样本的比率而确定的样本的比率。附加的成对关系的累积导致这些关系中涉及更多的个体。当前，在DiscovEHR数据集中，61K个体的50.4％具有一个或多个一级或二级亲属关系(图13B)。

实施例1.2

对具有92K人类外显子组的同期群中的关系估计和亲缘关系说明

分析了具有92455个人类外显子组的更大临床同期群。该同期群源自2014年发起的通过再生元遗传学中心(Regeneron Genetics Center，RGC)和盖辛格健康系统(Geisinger Health System，GHS)进行的进行中研究(Staples等人，(2018)，Am.J.Hum.Genet.102(5)：874-889)。该经扩展的DiscoverEHR同期群也是来自为宾夕法尼亚州中部的具有低迁移率的大部分农村群体提供服务的单一医疗保健系统的参与者的密集样本。

包含经制备和测序的前61K样本的组(实施例1.1)被称为“VCRome组”。剩余的31K样本组是通过相同方法制备的，区别在于代替经NimbleGen探测的捕获，使用IDT的xGen探针的略微修改版本，其中使用补充探针来捕获被NimbleGen VCRome捕获试剂覆盖，但被标准xGen探针不良覆盖的基因组区域。将捕获的片段与链霉亲和素缀合的珠粒结合，并根据制造商(IDT)推荐的方案通过一系列严格的洗涤去除非特异性DNA片段。第二组样本被称为“xGen组”。用GATK产生变异响应。使用GATK对每个样本的在推定的插入或缺失周围的经比对的标记了重复的读段进行局部重新比对。使用GATK的HaplotypeCaller来处理经INDEL重新比对、标记了重复的读段，以鉴定样本与基因组参考以基因组变异响应格式(genomicvariant call format，gVCF)不同的所有外显子位置。基因分型是通过对每个样本和具有50个随机选择的样本的训练集使用GATK的GenotypeGVCF，从而输出单样本变异响应格式(variant call format，VCF)文件以鉴定出与参考相比的单核苷酸变异(single-nucleotide variant，SNV)和插入或缺失而完成的。然后，使用单样本VCF文件来创建伪样本，所述伪样本包含来自两组中的单样本VCF文件的所有可变位点。此外，通过使用所述伪样本联合调用200个单样本gVCF文件以迫使每个样本在两个捕获集的所有可变位点处有响应或无响应，来创建针对VCRome集的独立pVCF文件。合并所有200个样本的pVCF文件以创建VCRome pVCF文件，并重复该过程以创建xGen pVCF文件。将VCRome和xGen pVCF文件组合以创建联合pVCF文件。将序列读段与GRCh38进行比对，并通过使用Ensembl 85基因定义为变异作注释。基因定义局限于54,214个转录物，对应于19,467个基因，所述基因是编码蛋白质的，具有注释的开始和终止。在样本QC过程之后，仍有92,455个外显子组需要分析。

从具有92,455个个体的经扩展的DiscovEHR数据集，鉴定出了43个单卵双胞胎、16,476个亲本-子代关系、10,479个全同胞关系和39,000个二级关系(图16，小图A)。将个体视为节点并将关系视为边缘以生成无向图。仅使用一级关系，就鉴定出了12,594个相连的分量，这些分量被称为一级家族网络。图16，小图B示出了一级家族网络的大小分布，所述大小分布的范围是2至25个测序个体。类似地，鉴定出了10,173个二级家族网络，最大的二级家族网络包括19,968个个体(整个据集的22％；图16，小图C)。还鉴定出了二级家族网络中的约5,300个二级关系。在不考虑二级家族网络的情况下对祖先分组内的IBD估计使用较低的IBD截止值(PIJ_HAT＞0.09875)，在湖北分扩展的DiscovEHR同期群中鉴定出；噁超过100,000个三级关系。假定经扩展的DiscovEHR个体中的95.9％具有欧洲祖先(表2a)，则发现的绝大多数(98.6％)成对关系是在两个具有欧洲祖先的个体之间就不足为奇(表2b)。尽管如此，鉴定出了在具有相同非欧洲祖先的人之间以及在具有不同祖先的个体之间的许多关系；例如，存在若干个三联体具有一个欧洲亲本、一个东亚亲本，以及这样的子代，所述子代的祖先由于所述子代的基因组的混血性而未被分配为超级居群。重要的是，凭经验(图17A)和经由模拟(图18A)，确定了累积亲属关系比率远超过确定样本的比率。这是预料之中的，因为随着数据量的增加，数据集中可能的成对关系的数目组合地增加，并且数据集中先前不相关的个体变成参与新鉴定出的关系的可能性也增加。当前，经扩展的DiscovEHR同期群中的个体的39％可能在数据集中具有至少一种一级亲属关系，并且参与者的56％在数据集中具有一种或多种一级或二级亲属关系(图17，小图B)。

表2a(经扩展的DiscovEHR数据集的祖先分解)

表2b(对经扩展的DiscovEHR数据集中的一级和二级关系中涉及的个体的祖先背景的完整分解)

实施例2

使用SimProgenv进行模拟和亲缘关系投影

为了对DiscovEHR和经扩展的DiscovEHR数据集中的关系网络的生长进行建模、理解和预测，开发了抑制模拟框架(以下简称“SimProgeny”)，该模拟框架能够模拟数百年来分散在多个子群体中的数百万人的谱系。根据这些模拟的群体，可以对各种采样方法进行建模，并估计研究人员应期望针对给定的一组群体和采样参数找到的亲缘关系的量(参见实施例17)。

使用SimProgeny来模拟DiscovEHR和经扩展的DiscovEHR群体，并分别根据它们确定前61K和前92K参与者。模拟表明，DiscovEHR和经扩展的DiscovEHR参与者不是从群体中随机采样的，而是所述数据集富集了近亲属关系。如图14A和图14B所示，真实数据是在以由晕线连接的标点表示的周期性“冻结”处计算的。还采取了在61K人冻结中鉴定出的样本和关系，然后搅乱确定次序以证明61K DiscovEHR参与者的前半部分相对于后半部分而言富含一级关系。使用与确定DiscovEHR所根据的实际群体相似的参数模拟各种量的群体。然后从这些群体中的每一个执行随机确定，以查看最密切地拟合真实数据的群体大小。一个关键的要点是，这些群体大小都不与实际数据拟合，并且随机确定方法是不良的拟合。与随机确定相比富集一级亲属关系的不同确定方法可以产生更好的拟合。图14A示出，大小为270K的有效采样群体中一级亲属关系对的确定密切拟合真实数据的被搅乱版本，但低估了低于61K确定的参与者的亲属关系对的数目，并且大大高估了高于61K参与者的亲属关系对的数目。图14B示出了为270K的群体在具有一个或多个一级亲属关系的个体的数目方面最密切地拟合被搅乱的真实数据，但是是与真实数据的不良拟合。

使用经扩展的DiscovEHR数据集观察到了相似的结果(图17A和图17B)。然后将在92K人冻结中鉴定出的样本和关系搅乱，以证明92K经扩展的DiscovEHR参与者的前半部分相对于后半部分而言富含一级关系。然后从这些群体中的每一个执行随机确定，以查看最密切地拟合真实数据的群体大小。图17A示出，大小为403K的有效采样群体中一级亲属关系对的确定密切拟合真实数据的被搅乱版本，但低估了低于92K确定的参与者的亲属关系对的数目，并且大大高估了高于92K参与者的亲属关系对的数目。图17B示出了为403K的群体在具有一个或多个一级亲属关系的个体的数目方面最密切地拟合被搅乱的真实数据，但是是与真实数据的不良拟合，表明未随机确定经扩展的DiscovEHR参与者。

通过使用聚类确定方法(参见实施例17)来对近亲属关系的富集进行建模，所述聚类确定方法产生与DiscovEHR(图15A和图15B)和经扩展的DiscovEHR(图18A和图18B)的真实数据更好拟合的模拟。对于图15和图18两者，真实数据是在以由晕线连接的标点表示的周期性“冻结”处计算的。大多数模拟参数是基于关于真实群体人口统计学的信息和DiscovEHR确定方法设置的。然而，以下两个参数是未知的，并且是基于与实际数据的拟合而选择的：1)样本确定所根据的有效群体大小，以及2)在先前确定了一级亲属关系的情况下增大的确定某人的机会，这被称为“聚类确定”。所有小图均示出了相同的三种模拟群体大小，所述三种模拟群体大小跨越所估计的有效群体大小。聚类确定是通过随机确定个体以及1级亲属关系的泊松分布的随机数(在图例中指出了泊松分布λ值)来模拟的。这些模拟结果表明有效采样群体大小为约475K个个体，并且λ为0.2的泊松分布与一级亲属关系的富集最密切匹配。这与以下理解是一致的：在该实施例中当前参与者中的大多数居住于某个本地地理区域(诸如宾夕法尼亚州丹维尔地区)中(约500K个个体)，而不是在整个GHS流域区域(catchment area)中平均分布(＞250万个个体)。

在鉴定出了与实际数据合理拟合的模拟参数之后，使用SimProgeny来获得对随着DiscovEHR和经扩展的DiscovEHR研究扩展到250K参与者的目标应预期到的一级关系的量的预测。结果表明，如果以相同的方式继续参与者的确定，则对于DiscovEHR(图15C)和经扩展的DiscovEHR(图18C)应预期获得约150K的一级关系，涉及约60％的DiscovEHR参与者(图15D)并且涉及约60％的经扩展的DiscovEHR参与者(图18D)。

然后，将模拟分析扩展成包括二级关系，并且模拟结果表明，使用250K参与者时，应预期到涉及DiscovEHR(图19)和经扩展的DiscovEHR(图20)中的个体的超过70％的远超过200K的组合的一级和二级关系。为了进行该分析，真实数据是在附图中以由晕线连接的标点表示的周期性“冻结”处计算的。大多数模拟参数是基于关于真实群体人口统计学的信息和DiscovEHR确定方法设置的。所有小图均示出了相同的三种模拟群体大小，所述三种模拟群体大小跨越所估计的有效群体大小。通过随机确定个体以及1级亲属关系的泊松分布的随机数和2级亲属关系的单独随机数来模拟聚类确定(两种泊松分布都具有在图例中指示的λ)。

模拟结果证明了DiscovEHR HPG研究中的亲缘关系的明显富集，并且提供了对预期当另外参与者的确定继续时将看到的大量亲缘关系的关键洞察力。

实施例3.1

利用亲缘关系，而不是将其视为DicoverEHR数据集的损害变量

使用谱系重建工具PRIMUS在DiscovEHR数据集中重建所有7,684个一级家族网络(Staples等人(2014)，Am.J.Hum.Genet.95，553-564.)，并且当考虑IBD估计和报告的年龄时，发现这些谱系的98.9％是独特重建的。这些谱系包括1,081个核家族(925个三联体、134个四分体、19个五分体(quintet)和3个六分体(sextet))；下表3显示了按血统进行的三联体分解。将1,081个核家族分解为它们的单独三联体分量。例如，四分体(quartet)将被拆分为两个具有相同亲本的三联体。因为DiscovEHR同期群大多数是欧洲人，因此三联体中的绝大多数都包括具有欧洲祖先的个体。具有未知祖先的个体通常是具有不同祖先背景的亲本的子代，例如EAS-EUR-未知三联体中的所有三个人都包括EUR父亲和EAS母亲，从而产生混血子代。因为没有与这些EUR-EAS混血个体紧密匹配的参考群体，因此他们因祖先未知而退出(fell out)。

表3(按照祖先总纲对三联体的分解)

图12C示出了DiscovEHR数据集中鉴定出的最大一级谱系，所述最大一级谱系包含25个经测序的个体。这些关系和谱系以若干方式使用，包括以下方式。

复合杂合突变

人类遗传学的主要目标是更好地了解人类基因组中每个基因的功能。纯合功能丧失(loss-of-function，LoF)突变是用于通过分析这些“人类敲除”(knockout，KO)的表型效应来深入了解基因功能的强大工具。罕见的(MAF＜1％)纯合LoF已经在最近的大规模测序研究中得到了突出显示，并且对于鉴定许多基因-表型相互作用至关重要(Lek等人(2016)，Nature Publishing Group 536，285-291；Dewey等人(2016)，Science 354，aaf6814-aaf6814；Saleheen等人(2017)，Nature Publishing Group 544，235-239；以及Narasimhan等人(2016)，Science 352，474-477)。虽然具有两个杂合LoF的罕见复合杂合突变(CHM)在功能上等同于罕见的纯合KO，但是它们在这些大型测序研究中很少被询问(Lek等人(2016)，Nature Publishing Group 536，285-29l；Dewey等人(2016)，Science 354，aaf6814-aaf6814；以及Saleheen等人(2017)，Nature Publishing Group 544，235-239)。LoF的罕见CHM的准确鉴定是有价值的，因为(1)罕见的CHM大大增加了人类基因KO的数目，从而提高了统计能力；(2)罕见的CHM KO可能涉及可能缺乏纯合携带者的极其罕见的杂合突变；并且(3)罕见的CHM为“人类KO项目”提供了更完整的KO集合(Saleheen等人(2017)，Nature Publishing Group 544，235-239；Perdigoto(2017)，Nat.Rev.Genet.18，328-329)。

对DiscovEHR数据集中的罕见CHM执行了调查。首先，鉴定出了39,459个高质量的潜在CHM(pCHM)，所述高质量的pCHM由成对的罕见杂合变异组成，所述成对的罕见杂合变异是推定的LoF(pLoF，即无义、移码或剪接位点突变)或具有强烈的有害迹象的错义变异(参见实施例10)。其次，使用用EAGLE进行的基于等位基因频率的定相和用重建谱系和关系数据进行的基于谱系的定相的组合来对pCHM进行定相(图9)。EAGLE基于三联体验证以91.4％的准确度对pCHM进行了定相(参见下表4)。然而，因为该同期群内有广泛的谱系和关系数据，因此可以基于这些数据以约100％的准确度对近三分之一的pCHM进行定相(参见下表4)，从而将不准确的定相减少估计的31％。定相的pCHM跨越了从单身的人至1％MAF的整个范围(参见下表5)。

表4(使用不同定相方法对潜在复合杂合突变(pCHM)进行定相的准确度)

使用重建的三联体对在三联体子代中发生的MAF＜1％并且MAC＞1的所有pCHM进行定相，并假定为“真相”。排除了这样的任何pCHM，在所述pCHM中贡献变异中的一个或多个被确定为在子代中是从头的。然后使用三联体定相的pCHM来评估其他定相方法。通过以下方式来评估EAGLE的准确度：从每个重建的核家族中去除一个子代的所有一级亲属关系，然后对剩余数据集中的所有变异进行定相。将EAGLE定相的pCHM与三联体定相的pCHM进行比较。

表5(按次要等位基因频率(MAF)和次要等位基因计数(MAC)对61K DiscovEHR参与者中发现的pCHM的分解)

由于pCHM的准确度对于极其罕见的变异而言趋于降低，因此使用两种pCHM变异中较罕见者的MAF来将pCHM分桶(bin)到它们相应的频率桶中。使用关系数据对MAC为1的pCHM进行定相，并将其假定为不是pCHM携带者中的从头突变。pCHM的未知定相是由于一个或两个pCHM变异被通过EAGLE过滤掉(MAC＝1或缺失＞10％)并且缺少用于定相的关系数据的结果。

在处理后，将pCHM的39％定相为反式的，从而产生具有在61K个个体中的11375个中分布的13,335个罕见有害CHM的高置信度集合(平均值＝0.22；最大值＝6；图21，小图A)。顺式pCHM变异之间的中位基因组距离(5，308bp)略小于反式变异之间的中位距离(11,201bp；图22)的一半。将近三分之一的CHM涉及至少一个pLoF，并且CHM的9.8％由两个pLoF变异组成(参见下表6)。在19,467个靶向基因中，超过3,385个包含一个或多个CHM携带者(参见下表7)，并且1,555个(46％)具有多于一个携带者。基于ExAC pLI评分，估计11个具有多于85个CHM携带者的基因是在基因组中最LoF耐受的(Lek等人(2016)，NaturePublishing Group 536，285-291)(参见下表8)。

表6(对61K DiscovEHR参与者中罕见的CHM有贡献的功能类别和变异类型的分解)

该表提供了对由罕见(＜1％MAF)pLoF和错义变异组成的CHM的分解。还显示了这些CHM中有多少是由插入或缺失-插入或缺失、插入或缺失-SNP和SNP-SNP配对组成的。

表7(在61K DiscovEHR参与者中，具有受预测的罕见(＜1％MAF)功能丧失突变和预测的有害突变影响的两种转录物的基因的数量。)

预测的仅功能丧失变异

预测的功能丧失+有害的错义变异

表8(具有最高CHM数目的基因根据ExAC pLI评分而被预测为功能丧失耐受的。)

对于11个具有最多CHM的基因，显示的是通过ExAC报告的pLI评分。还显示了通过将所有基因按照它们的pLI评分进行排名，然后除以具有报告pLi评分的基因总数而计算出的每个基因的LoF耐受性百分位数。

*ExAC未报告SSPO的pLI评分

为了获得更稳健的人类敲除基因的集合并证明CHM的加入值，将CHM与在61KDiscovEHR参与者中发现的3,915个纯合pLoF组合。pLoF-pLoF CHM使具有≥1个和≥10个个体具有推定KO的基因的数目分别增加了15％和54％(参见上表6)。当错义变异被视为据预测破坏蛋白质功能时，在KO分析中包含的CHM的益处甚至更加显著：CHM提供了具有≥1个携带者的28％或更多的基因和具有≥10个携带者的246％或更多的基因，其中两种基因拷贝都据预测被完全敲除或破坏。

三联体验证结果表明，基于家族关系的定相是100％准确的(750/750个pCHM)，而EAGLE定相较不准确，准确度为91.4％(459/502个pCHM；参见上表3)。还对190pCHM执行了Illumina读取数据的可视化验证(115个顺式和79个反式；126个EAGLE定相的和74个谱系/关系定相的)。可视化验证显示，谱系/关系和EAGLE定相的总体准确度分别为95.8％和89.9％(参见下表9)。虽然基于Illumina读取的验证结果与三联体验证结果一致，但应注意的是，基于Illumina读取的验证准确度结果低于通过三联体定相确定的定相准确度。据信，该差异可能是由于在易于测序和出现变异响应错误的有问题的小外显子区域中富集了假阳性pCHM。

表9(两种变异都可以用Illumina 75碱基对读段进行定相的190pCHM的定相验证结果)

从两种变异都在彼此的75个碱基对之内的61K DiscovEHR参与者中随机选择200个pCHM，然后通过查看跨越两种变异的读取栈(read stack)来可视化地验证定相。十个(5％)不能可靠地使用读取栈进行定相，因为没有重叠两种变异的读取，或者读段提供相互矛盾的结果(即一些读段指示顺式，而其他读段指示反式)。

从头突变

从头突变(DNM)是一类罕见变异，其由于纯化选择的减少而更有可能在人类中产生极端表型。最近的测序研究已表明DNM是人类遗传疾病的主要驱动力(de Ligt等人(2012)，N.Engl.J.Med.367，1921-1929；Deciphering Developmental Disorders Study(2017).Prevalence and architecture of de novo mutations in developmentaldisorders.Nature Publishing Group 542，433-438；以及Fromer等人(2014)，PublishingGroup 506，179-184)，表明DNM是更好地了解基因功能的有价值的工具。

使用从DiscovEHR数据集重建的核家族来放心地调用在呈三联体的1,262个可用儿童中的887个分布的1,800个中等和高置信度外显子DNM(参见实施例12)。每个个体的DNM的平均数目为1.43，其中最大值为49(图21C)。PolyPhen2预测DNM的28.2％(N＝507)为“可能损伤性的”，并且附加8.6％(N＝154)为“可能损伤性的”。DNM分布在1，597个基因中(图21D)，其中只有一个基因接受大于五个DNM。DNM的最常见类型是非同义SNV(57.17％)，其次是同义SNV(25.56％)。下表10提供了DNM类型的完整分解，并显示属于不同功能类别的DNM比例与在发育障碍儿童的DNM的最近研究中发现的那些密切匹配。

表10(与最近进行的对4,293个三联体的发育延迟外显子组研究相比，在DiscovEHR同期群中发现的中等和高置信度外显子DNM的类型的分解)

*解密发育障碍研究(DDD)(Deciphering Developmental Disorders Study(2017).Prevalence and architecture of de novo mutations in developmentaldisorders.Nature Publishing Group 542，433-438)。DDD论文还报告了我们分析中或该表中未包括的其他类别的57个DNM；百分比也作了相应调整。

试图对跨越所有功能类别的23个高置信度和30个中等置信度和47个低置信度DNM执行可视化验证。八个中等置信度和两个低置信度变异不能可靠地称为真或假阳性DNM。在剩余的那些中，可以将23/23(100％)高置信度、19/22(86％)中等置信度和12/43(28％)低置信度DNM验证为真阳性的。可视化验证还证实，具有＞10个DNM的个体中的大多数(40/49)潜在DNM可能是假阳性响应。

谱系中的变异和表型隔离

将从DiscovEHR数据集中重建的谱系数据用于区分新颖/罕见的群体变异和家族变异，并用来鉴定在全群体关联分析中未得到充分认识的家族中隔离的高渗透性疾病变异。尽管这并不旨在调查通过这些谱系传播的所有已知的孟德尔致病变异，但已鉴定出了一些示例性示例，包括家族性主动脉瘤(图23，小图A)、长QT综合征(图23，小图B)、甲状腺癌(图23，小图C)和家族性高胆固醇血症(FH；图24)(Maxwell，EK等人(2017).Profiling copynuMber variation and disease associatiohs from 50,726 DiscovEHR Studyexomes)。FH示例是特别令人感兴趣的，因为重建了具有LDLR中新颖的致家族性高胆固醇血症的串联重复的27/29个携带者。该谱系中还包括五个附加的携带者(未绘示)。升高的LDL和总胆固醇以及升高的冠状动脉疾病和早发性缺血性心脏病的患病率(男性的“年龄IHD”＜55，并且女性的“年龄IHD”＜65)与重复携带者隔离。他们共同的祖先历史提供了以下证据，他们都从回溯约六代人的祖先那里继承了该复制事件。其余两个样本是彼此的一级亲属关系，但是未成功进行基因分型，因此无法与更大的谱系相关联。

测序研究继续收集和测序越来越高比例的人类群体，并揭示了人类亲缘关系的极其复杂、相互交织的本质。在DiscovEHR数据集中鉴定出了约35K的一级和二级关系，重建了7,684个谱系，并发现了具有超过7,000个参与者的二级家族网络。对创始者群体的研究已经凸显了关系的复杂性(Old Order Amish(McKusick，V.A.，HOSTETLER，J.A.，和EGELAND，J.A.(1964).GENETIC STUDIES OF THE AMISH，BACKGROUND AND POTENTIALITIES.BullJohns Hopkins Hosp115，203-222)，Hutterites(Ober等人(2001)，The American Journalof Human Genetics 69，1068-1079)，以及Ashkenazi Jews(Gusev等人(2012)，Mol.Biol.Evol，29，473-486))，并且对非创始者群体的最近研究报告了广泛的亲缘关系水平(UK Biobank(Bycroft等人(2017).Genome-wide genetic data on～500,000UKBiobank participant)、NHAMES(Malinowski等人(2015)，Front Genet 6，317)，以及AncestryDNA(Han等人(2017)，Nat Commun 8，14238.)。曾经只有大型测序同期群中的少数几个个体参与其中，但密切关系很可能涉及基于保健群体的大型基因组(HPG)研究中较大比例(即使不是大多数)的个体。在本文中通过模拟和实际数据证明了可以获得大量密切的家族关系、核家族和信息丰富的谱系。由于家族倾向于访问相同的医疗保健系统并且具有相似的遗传和环境疾病风险，因此在针对HPG研究收集的数据集中该观察可能更加突出。越来越清楚的是，不再能够仅仅从关联研究中去除密切相关的成对个体，就知道其只是整个同期群的一小部分。获取最大大小的不相关集合的传统方法将显著减小HPG同期群的大小，这不适用于对这些类型的同期群执行的许多关键疾病-表型分析。相反，需要新方法来利用此处概述的亲缘关系信息。

在该研究中，已展示了几种如何利用亲缘关系信息的方式。首先，提高罕见复合杂合突变(CHM)的定相准确度。尽管使用EAGLE获得了CHM的准确定相，但基于谱系和关系的定相却要精确得多，从而将pCHM定相误差减少了估计31％。当包含具有＞1％MAF的变异时，基于关系的pCHM定相的准确度可能会略有下降，因为使用成对关系进行定相假设了如果两个变异一起出现在两个亲属关系中，则它们是顺式的并且已经一起与共同的祖先隔离。存在两个独立隔离的常见变异将在多个人中一起出现的高得多的可能性，从而导致通过算法将其不正确地定相为顺式。对于常见变异，使用群体等位基因频率进行定相可能比基于关系的定相更合适。

其次，使用HPG研究鉴定出的关系的谱系重建提供了有价值的三联体和信息丰富的谱系，所述了有价值的三联体和信息丰富的谱系可以以多种方式使用。使用了1,262个重建的三联体来查找1,800个DNM，并且可以通过经扩展的谱系来追踪已知的致病突变。随着对群体的更大部分进行测序，信息丰富的谱系的数目和大小将继续增加，从而提供了甚至更丰富的谱系数据集。谱系和亲缘关系对于极为罕见的变异特别有用，因为通过谱系传播罕见变异提供了对以下的有力证据：该罕见变异是真实的，并且允许使用更传统的孟德尔遗传方法。当在后续研究中与DiscovEHR的重新联系患者并招募附加家族成员以将小型增大成中型谱系的能力组合时，谱系尤其变得可用。

与其将亲缘关系视为需要解决的麻烦，不如将其视为利用有价值的、尚未开发的遗传见解来源的机会。基于基因组的精确医学时代开始，出现了对能够有效挖掘不断增长的测序同期群中所包含的家族结构和远亲缘关系的创新方法和工具的迫切需求。

实施例3.2

利用亲缘关系，而不是鉴其视为经扩展的DicoverEHR数据集的损害变量

通过使用谱系重建工具PRIMUS重建经扩展的DiscovEHR数据集中的12,574个一级家族网络的谱系结构。当我们考虑LBD估计并报告参与者年龄时，发现这些谱系中的98.9％明确地重建为单个谱系结构。这些谱系包括2,192个核家族(1,841个三联体、297个四分体、50个五分体、3个六分体，以及1个七分体)。表11显示了按血统对三联体的分解。图14，小图C示出了最大的一级谱系，所述最大的一级谱系包含34个经测序的个体。

表11(按照祖先总纲对三联体的分解)

复合杂合突变

57,355个由成对的罕见杂合变异组成的高质量pCHM被识别为推定的LoF(pLoF；即无义、移码或剪接位点突变)，或具有强烈的有害迹象的错义变异。其次，通过使用用EAGLE进行的基于等位基因频率的定相和用重建的谱系和关系数据的基于谱系的定相的组合对pCHM进行定相(图25)。三联体验证表明，EAGLE以平均89.1％的准确度对pCHM进行了定相(下表12)。然而，由于该同期群内的广泛谱系和关系数据，因此对25.2％的pCHM进行了分阶段，定相了25.2％的pCHM，并且其中33.8％的CHM具有高度准确的三联体和关系定相数据(R98.0％；表12)，从而使反式CHM的不准确定相减少了约三分之一。定相的pCHM跨越了从单身的人至1％MAF的整个频率范围(参见下表13)。

表12(使用不同定相方法对潜在复合杂合突变(pCHM)进行定相的准确度)

表13(按次要等位基因频率(MAF)和次要等位基因计数(MAC)对92K经扩展的DiscovEHR参与者中发现的pCHM的分解)

在处理后，将pCHM的40.3％定相为反式的，从而产生具有在92K个个体的17,533个中分布的20,947个罕见有害CHM的高置信度集合(平均值为每个人约0.23；最大值为每个人约10；图26，小图A)。顺式pCHM变异之间的中位基因组距离(5，955bp)略高于反式的pCHM之间的中位基因组距离(11,600bp；图27)的一半。将近三分之一的CHM涉及至少一个pLoF，并且CHM的8.9％由两个pLoF变异组成(参见下表14)。在19,467个靶向基因中，超过4,216个包含一个或多个CHM携带者(参见下表15)，而2,468个具有多于一个携带者(图26，小图B)。ExAC pLI评分表明，具有多于125个CHM携带者的10个基因可能是基因组中最LoF耐受的。(参见下表16)。

表14(对92K经扩展的DiscovEHR参与者中罕见的CHM有贡献的功能类别和变异类型的分解)

表15(在92K经扩展的DiscovEHR参与者中，具有受预测的罕见(＜1％MAF)功能丧失突变和预测的有害突变影响的两种转录物的基因的数量。)

预测的仅功能丧失变异

预测的功能丧失+有害的错义变异

表16(具有最高CHM数目的基因根据ExAC pLI评分而被预测为功能丧失耐受的。)

对于10个具有最多CHM的基因，显示了通过ExAC3报告的pLI评分。还显示了通过将所有基因按照它们的pLI评分进行排名，然后除以具有报告pLi评分的基因总数而计算出的每个基因的LoF耐受性百分位数。

*ExAC未报告SSPO的pLI评分

为了获得其中同一个体中基因的两个拷贝都被敲除或破坏的更稳健的基因集合，并且为了证明CHM的加入值，我们将CHM与在92K DiscovEHR参与者中发现的6，560个罕见的(MAF＜1％)纯合pLoF组合。pLoF-pLoF CHM分别使R 1和R 20个体中被敲除的基因的数目增加了15％和61％(参见下表16)。当我们考虑到据预测会破坏蛋白质功能的错义变异时，在KO分析中包括CHM的益处就更为显著。在92K参与者中发现了组合的20,364个罕见的纯合pLOF和有害错义变异。纯合pLoF或预测的有害错义变异的携带者提供了许多基因，所述许多基因据预测将被完全敲除或破坏。然而，包含C HM的携带者提供了在R 1个体中被敲除或破坏的26％或更多的基因，以及在R20个体中被敲除或破坏的397％或更多的基因(表15)。

从头突变

从92K经扩展的DiscovEHR参与者重建的核家族可以秘密地调用在呈三联体的2,602个可用儿童中的1,783个中分布的3,415个中等和高置信度外显子DNM(平均值为约1.31；最大值为约48；图26，小图C)。PolyPhen2预测DNM的29.1％(n为约995)为“可能损伤性的”，并且附加9.2％(n为约316)为可能损伤性的。DNM分布在2,802个基因中(图26，小图D)，并且TTN接收最多的DNM(九个)。DNM的最常见的类型是非同义SNV(58.5％)，其次是同义SNV(24.3％)。表17提供了DNM类型的完整分解，并显示属于不同功能类别的DNM比例通常与在发育障碍儿童的DNM的最近研究中发现的那些匹配。如在图7中描述的，遵循了DNM响应、过滤和置信度排名工作流程。从具有92,455个经测序的GHS外显子组的同期群中，鉴定出了2,602个三联体(图28)。从三联体中鉴定出了6,645个外显子DNM，所述三联体是基于低、中等和高置信度DNM分选的。使用从经扩展的DiscovEHR数据集重建的家族来放心地调用来自2,602个家族三联体的3,409个中等和高置信度外显子DNM和3,045个单核苷酸DNM(图29，小图A和小图B)。同期群中大多数个体具有少于5个DNM。此外，从具有92,455个经测序的GHS外显子组的同期群中，鉴定出了2，602个三联体，将所述三联体基于低、中等和高置信度变异进行分选，以提供73，192个中/高置信度变异，从而产生10,000个随机变异。

DNM的最常见类型是非同义SNV，其次是同义SNV。终止损失SNV是最不常见的DNM。此结果与针对包含61K外显子组测序数据的DiscovEHR同期群获得的结果相似(参见下表17)。图30提供了在经扩展的DiscovEHR同期群中发现的中等和高置信度外显子DNM(n＝3409)的类型的完整分解，并显示了属于不同功能效应类别的DNM的比例。

表17(与最近进行的对4,293个三联体的发育延迟外显子组研究相比，在经扩展的DiscovEHR同期群中发现的中等和高置信度外显子DNM的类型的分解)

图3l提供了在经扩展的DiscovEHR同期群中发现的中等和高置信度外显子DNM(n＝3409)的类型的分解，并显示了由转换、颠换和插入或缺失引起的DNM的比例。在经扩展的DiscovEHR中发现的中等和高置信度外显子DNM(n＝3409)中，由于转换引起的突变的数目为2038，由于颠换引起的突变的数目为1007，并且由于插入或缺失引起的突变的数目为364。因此，转换比颠换的比率(Ti∶Tv)为2∶1，这与从其他研究中获得的转换比颠换的比率相似。在单核苷酸DNM(n＝3045)中，半胱氨酸变为胸腺嘧啶和鸟嘌呤变为腺嘌呤是最常见的突变(图32)。

中等和高置信度DNM均匀地分布在常染色体中。单向卡方检验(χ²检验)显示10M的外显子碱基对的DNM不会显著偏离随机分布(p＝0.045)(图33)。

CG二核苷酸(通常称为CpG，“p”代表两个碱基之间的磷酸根)的突变负责人类中致病种系突变的三分之一(Cooper和Krawczak(1990)；Hum.Genet.85：55-74)。在中/高置信度DNM(n＝3,409)中，DNM的约13％被说明为是由于CpG岛处的DNM。在随机变异(n＝10,000)中，DNM的约10％被说明为是由于CpG岛处的DNM。在CpG岛处DNM比随机变异更有可能发生(χ²＝32.3661，df值＝1；p值＝1.28E-08)(图34)。由于这些位点的高度可突变性，这是预期的。

试图对跨越所有功能类别的23个高置信度、30个中等置信度和47个低置信度DNM执行可视化验证。八个中等置信度和两个低置信度变异不能可靠地称为真阳性DNM或假阳性DNM。在剩余的那些中，将23/23(100％)高置信度、19/22(86％)中等置信度和12/43(28％)低置信度DNM验证为真阳性的。可视化验证还证实，具有大于10个DNM的个体中的大多数(40/49)潜在DNM最有可能是假阳性响应。

谱系中的变异和表型隔离

将从92K经扩展的DiscovEHR参与者中重建的谱系数据用于区分罕见的群体变异和家族变异，并利用它来鉴定在各家族中隔离的高渗透性疾病变异。尽管这并非旨在调查经由这些谱系传播的所有已知的孟德尔致病变异，但是与DiscoverEHR数据集类似，已鉴定出了家族性主动脉瘤、长QT综合征、甲状腺癌和家族性高胆固醇血症(FH[MLM：143890]；图35)。在更新CNV响应时，已经发现了92K外显子组中具有引起FH的串联重复的37个携带者。基于此，将37个携带者中的30个重建为单个经扩展的谱系。携带者共同的祖先历史提供了以下证据，他们都从回溯约六代人的祖先那里继承了该复制事件。尽管剩余的七个携带者中的两个是彼此的二级亲属关系，但是基因分型阵列数据不可用于确认剩余的七个携带者也与图36中的其他携带者远亲相关。对于图36中描述的谱系，根据来自每个个体的外显子组数据确定携带者和非携带者的状态，并且发现升高的最大LDL水平(符号下的值)以及升高的冠状动脉疾病(CAD，红色填充)和纯高胆固醇血症(ICD 272.0；蓝色)的患病率与复制携带者隔离。还发现五个附加的携带者(未绘示)是该谱系中的个体的远亲(七级至九级亲属关系)(图36)。

实施例4

患者和样本

通过将预测模型应用于同期群而收集了两组数据-(A)具有61,720个去标识的患者的外显子组的DicovEHR同期群，以及(B)具有92,455个去标识的患者的外显子组的经扩展的DicovEHR同期群。

对从盖辛格卫生系统(GHS)获得的两个同期群中所有去标识的患者-参与者进行测序。所有参与者都同意参加

社区健康倡议组织(Carey等人(2016)，Genet.Med.18，906-913)并贡献了DNA样本用于以Regeneron-GHS DiscovEHR研究进行基因组分析(Dewey等人(2016)，Science 354，aaf6814-aaf6814)。所有患者的外显子组均与对应的去标识的电子健康记录(electronic health record，EHR)相关联。先前已经公布了前50,726个经测序的个体的更详细描述(Dewey等人(2016)，Science 354，aaf6814-aaf6814；Abul-Husn等人(2016)，Science354，aaf7000-aaf7000)。

该研究并未专门针对参与研究的家族，但其富集了经常与医疗系统互动的具有慢性健康问题的成年人以及来自冠状动脉导管插入实验室(Coronary CatheterizationLaboratory)和肥胖治疗服务(Bariatric Service)的参与者。

实施例5

样本制备、测序、变异响应和样本QC

样本制备和测序先前已在Dewey等人中有所描述(Dewey等人(2016)，Science354，aaf6814-aaf6814)。

在测序完成时，将来自每个Illumina Hiseq 2500轮次的原始数据收集到本地缓冲存储器中，然后上传到DNAnexus平台(Reid等人(2014)15，30)进行自动分析。使用CASAVA(Illumina Inc.，San Diego，CA)生成样本级读段文件，并使用BWA-mem与GRCh38比对(Li和Durbin(2009)；Bioinformatics 25，1754-1760；Li，H.(2013)；arXivq-bio.GN)。使用GATK和Picard处理所得的BAM文件以分类、标记重复，并对推定的插入或缺失周围的读段执行局部重比对。使用Ensembl85基因定义用snpEFF(Cingolani等人，(2012)；Fly(Austin)6，80-92)为经测序的变异作注释，以确定对转录物和基因的功能效应。基因定义局限于54,214个转录物，对应于19,467个基因，所述基因是编码蛋白质的，具有注释的开始和终止。

排除了具有通过高纯合性比率、低序列数据覆盖率或无法被验证为真正的单卵双胞胎的遗传上鉴定的重复指示的低质量DNA序列数据的个体；保留61,019个外显子组用于分析。关于样本制备、测序、变异响应和变异注释的附加信息在Dewey等人(2016)，Science354，aaf6814-1至aaf6814-10中有报道。

实施例6

主分量和祖先估计

使用PLINKv1.9将数据集与HapMap3合并(International HapMap 3 Consortium，Altshuler等人(2010)；Nature Publishing Group 467，52-58)，并且仅保留了两个数据集中的SNP。还应用了以下PLINK过滤器：--maf 0.1--geno 0.05--仅snps--hwe 0.00001。计算HapMap3样本的主分量(PC)分析，然后使用PLINK将每个样本在数据集中投影到这些PC上。将HapMap3样本的PC用于训练五个祖先总纲中的每一个的核密度估计器(kerneldensity estimator，KDE)：非洲(AFR)、混血美洲(AMR)、东亚(EAS)、欧洲(EUR)和南亚(SAS)。使用KDE来计算每个样本属于每个总纲的可能性。对于每个样本，基于所述可能性来分配祖先总纲。如果样本具有可能性＞0.3的两个祖先分组，则将AFR分配到EUR上，将AMR分配到EUR上，将AMR分配到EAS上，将SAS分配到EUR上，将AMR分配到AFR上；以其在其它情况下为“未知”(这样做是为了对EUR和EAS群体提供严格的估计，并对数据集中更混血的群体提供包含性的估计)。如果零个或多于两个祖先分组具有足够高的可能性，则将样本分配为祖先“未知”。将具有未知祖先的样本从基于祖先的按血统身份(IBD)计算中排除。

实施例7

IBD估计

通过使用以下标志对完整数据集运行PLINK，可以过滤出高质量的常用变异：--maf 0.1--geno 0.05--仅snp--hwe 0.00001。然后采用两种并举的方法从外显子组数据中获得准确的IBD估计。首先，计算在如根据祖先分析所确定的同一祖先总纲(例如AMR、AFR、EAS、EUR和SAS)内的个体之间的IBD估计。使用以下PLINK标志来获得对二级关系的IBD估计：--基因组--最小为0.1875。由于所有样本都共享相似的祖先等位基因，因此这允许更准确的关系估计；然而，该方法无法预测具有不同祖先背景的个体(例如欧洲父亲和亚洲母亲的子代)之间的关系。

其次，为了捕捉具有不同祖先的个体之间的一级关系，使用--最小0.3PLINK选项在所有个体之间计算IBD估计。然后将个体分组到一级家族网络中，在一级家族网络中网络节点是个体并且边缘是一级关系。将每个一级家族网络经由prePRIMUS管线运行(Staples等人(2014)；Am.J.Hum.Genet.95，553-564)，这使得样本的祖先与适当的祖先次要等位基因频率匹配，以改善IBD估计。此过程可以准确估计每个家族网络内的个体之间的一级和二级关系(最小PI_HAT为0.15)。

最后，通过将来自家族网络得出的IBD估计的任何缺失关系添加到基于祖先的IBD估计中，将来自上述两种方法的IBD估计进行组合。该方法导致了对具有相似祖先的所有样本之间的二级关系和所有样本之间的一级关系的准确IBD估计。

根据具有不同祖先背景的大型外显子组测序数据集准确估计三级亲属关系的IBD比例是挑战性的，因为由于人为夸大的IBD估计，该分析通常会导致过多数目的预测三级关系。在祖先特异性IBD分析期间，使用--最小为0.09875的截止值来了解DiscovEHR和经扩展的DiscovEHR同期群中可能存在多少个三级关系，但这些均未用于定相或基于谱系的分析中的任一者。相反地，对于在此公开的基于关系的分析，仅使用在一级和二级家族网络中鉴定出的高置信度三级关系。

实施例8

谱系重建

使用PRIMUSv1.9.0对在DiscovEHR和经扩展的DiscovEHR同期群中鉴定出的所有一级家族网络进行重建。将组合的IBD估计与遗传上得出的性别和EHR报告的年龄一起提供给PRIMUS。指定PI_HAT＞0.375的亲缘关系截止值以将重建限制在一级家族网络中，并指定为0.1875的截止值以限定二级网络。

实施例9

基于等位基因频率的定相

使用EAGLEv2.3对来自61,019个外显子组的所有双等位基因变异进行定相(Loh等人(2016)；Nat Genet 48，1443-1448)。为了使DNAnexus内的分析并行化，将基因组分为约40K变异的重叠区段，其中最小重叠为500个变异和250K个碱基对。由于目标是对基因内的推定的复合杂合突变进行定相，因此要注意使区段断裂点在基因间区域中发生。

执行将EAGLE所提供的genetic_map_hg19.txt.gz文件从hg19替换成(1ift-over)GRCh38，并去除切换染色体或改变染色体内的相对次序的所有变异，从而导致染色体位置和cM位置在分选时不会同时为不断增加的次序。在大多数情况下，该QC步骤去除了着丝粒周围的倒位。还去除了映射到替代染色体的SNP。总共，从遗传图谱文件中去除了330万个SNP中的仅2,783个。将每个区段的数据作为PLINK格式的文件提供给EAGLE，并使用以下EAGLE命令行参数在DNAnexus上运行：

--geneticMapFile＝genetic_map_hg19_withX.txt.GRCh38_liftov er.txt.gz

--maxMissingPerIndiv 1

--genoErrProb 0.01

--numThreads＝16

实施例10

复合杂合响应

目标是获得推定的功能丧失(pLoF)变异的高置信度复合杂合突变(CHM)响应，以鉴定具有可能被敲除或破坏的两个基因拷贝的人。如果变异导致移码、终止密码子增益、终止密码子损失、起始密码子增益、起始密码子损失或剪接受体或供体改变变异，则将所述变异分类为pLoF。创建第二经扩展的潜在有害变异集合，所述第二经扩展的潜在有害变异集合包括pLOF以及可能的破坏性错义变异，所述变异是通过以下所有五种方法预测为有害而定义的：SIFT(Loh等人(2016)；Nat Genet 48，1443-1448)(损伤)、PolyPhen2HDIV(损伤和可能损伤)、PolyPhen2HVAR(损伤和可能损伤)、LRT(有害)和MutationTaster(Schwarz等人(2014)；Nat.Methods 11，361-362)(自动引起疾病和引起疾病)。

通过测试同一个人的基因内杂合pLoF和/或有害错义变异的所有可能组合，来鉴定罕见(交替等位基因计数＜1％)的潜在复合杂合突变(pCHM)。排除了所有在哈迪-温伯格平衡(HWE)之外的变异(用PLINK计算出的p值＜10^-15(Chang等人(2015)；Gigascience 4，7.))，所述变异在61K样本中超过10％缺失，或在同一个个体的10个碱基对内具有另一变异。还排除了QD＜3、AB＜15％并且读段深度＜7的SNP和QD＜5、AB＜20％和读段深度＜10的INDELS。在过滤之后，获得了39,459个高质量pCHM，所述pCHM分布在25,031个个体中，并且如果pCHM变异被定相为反式的，则所述pCHM可敲除或破坏一个人基因的两个拷贝的功能。

下一步骤是对pCHM进行定相。将用EAGLE进行的基于群体等位基因频率的定相与基于谱系/关系的定相的组合用于确定pCHM是顺式还是反式的。图9描绘了pCHM定相工作流程，所述pCHM定相工作流程用于获得对DiscovEHR数据集中的每个pCHM的最准确的定相。图2描绘了pCHM定相工作流程，所述pCHM定相工作流程用于获得对经扩展的DiscovEHR数据集中的每个pCHM的最准确的定相。谱系和关系定相被证明比EAGLE定相更准确，因此优先使用谱系和关系数据进行定相。下表18描述了用于确定不同类型的家族关系的pCHM定相的逻辑。对于所有剩余的pCHM，使用上述EAGLE定相的数据。排除了变异中的一个或两个为单变异的任何EAGLE定相的pCHM，因为具有单变异的EAGLE相定相准确度与随机猜测没有显著差异(关于DiscovEHR数据集，参见下表19，并且关于经扩展的DiscovEHR数据集，参见表20)。在DiscovEHR数据集中，发现如果pCHM中的两个变异具有小于100的相同次要等位基因计数(MAC)，则它们几乎总是顺式的(在我们的三联体中37个中发生了36个)，这超过了EAGLEpCHM定相的准确度。在经扩展的DiscovEHR数据集中，发现如果pCHM中的两个变异具有小于100的相同次要等位基因计数(MAC)，则它们几乎总是顺式的(在三联体中22个中发生了22个)，这超过了EAGLE pCHM定相的准确度。

表18(用于基于谱系的定相的逻辑)

从每个关系的最高规则开始按次序应用这些规则。“？”结果意味着无法对pCHM进行定相。“不可用”结果表明该结果不应该发生，并且很可能是测序错误或其他变异的非孟德尔传播的结果。PC_rel是指亲本-子代关系的非pCHM携带者。“罕见”是指MAF＜1％，其包括本文使用的所有变异。

表19(按分桶的次要等位基因频率(MAF)对pCHM进行EAGLE定相的准确度)

将MAF＜1％的所有pCHM都按照构成pCHM的两种变异中较不频繁的变异进行分桶。通过比较pCHM的EAGLE定相与使用三联体确定的定相来确定正确的响应和准确度。还提供了在三联体内被确定为顺式或反式的不正确EAGLE定相的pCHM的数目。排除了在呈三联体的子代中一种或两种变异被确定为从头的pCHM。尽管MAC＞6的pCHM都具有在百分之九十几的相似准确度，但是当MAC在2与6之间时准确度有所下降。与随机猜测相比，EAGLE的单变异定相没有表现地明显更好，因此，从定相的pCHM结果中排除了EAGLE定相的单变异，在测量EAGLE定相的pCHM的整体准确度时也如此。

表20(按分桶的次要等位基因频率(MAF)对pCHM进行EAGLE定相的准确度)

将MAF＜1％的所有pCHM都按照构成pCHM的两种变异中较不频繁的变异进行分桶。通过比较pCHM的EAGLE定相与使用三联体确定的定相来确定正确的响应和准确度。我们还提供了在三联体内被确定为顺式或反式的不正确EAGLE定相的pCHM的数目。我们排除了在呈三联体的子代中一种或两种变异被确定为从头的pCHM。尽管MAC＞9的pCHM的准确度都具有相似的百分之九十准确度，但是当MAC在2与9之间时EAGLE pCHM定相的准确度有所下降。与随机猜测相比，包含单变异的pCHM的EAGLE定相没有表现地明显更好，因此，从定相的pCHM结果中排除了EAGLE定相的单变异，在测量EAGLE定相的pCHM的整体准确度时也如此。*由于EAGLE对单变异的低定相准确度，因此去除了2,838个包含单变异的pCHM。因此，剩余的401个单变异仅使用三联体和关系数据进行定相。

为了获得整个数据集中进行EAGLE pCHM定相的准确度的良好度量，在整个数据集上运行EAGLE，从而排除每个核家族中一个子代的所有一级亲属关系。这种修剪是必要的，因为与数据集中没有亲本的样本相比，包含亲本单倍型提高了呈三联体的子代的定相准确度。

最后，如果一个人的同一基因内存在多于一个pCHM，则仅保留具有最强有害性的pCHM(参见下表21)。可以对所有pCHM的99％进行定相，并鉴定出13,335个罕见的复合杂合突变(CHM)。

表21(促成pCHM的变异的功能效应优先级)

在个人在同一基因中有2个或更多个反式pCHM的情况下，使用该表中的值来鉴定和保留最有害的pCHM。通过以下方式来计算效应评分：将两种变异的功能效应评分相加，然后如果对不影响所有基因转录物，则对该对进行罚分。评分较低的pCHM被认为是最有害的并被保留。

实施例11.1

DiscovEHR数据集的复合杂合突变验证

通过将定相预测与用三联体和Illumina读段进行的定相进行比较，来评估定相准确度。首先，通过使用三联体定相的pCHM作为真相来评估pCHM的定相准确度。由于每个家族关系的定相方法均独立于三联体定相执行，因此只要pCHM携带者是呈三联体的子代，就可以得到每个关系类别的定相准确度的很好度量。上面的表4和表12显示，对于这些罕见的pCHM，基于家族关系的定相的准确度为100％准确的。DiscovEHR和经扩展的DiscovEHR数据集，EAGLE定相较不准确地分别为91.4％和89.1％。对于DiscovEHR数据集，以不同的次要等位基因频率范围评估EAGLE在定相pCHM时的准确度，发现当MAC大于6时其始终达到大于95％的准确度，并且对于MAC在2-6之间时其准确度为约77％(参见上表19)。EAGLE定相仅在具有单变异时表现较差，这是可以预期的。

其次，尝试通过在Integrative Genomics Viewer(IGV)中查看读取栈来验证具有短Illumina读段(约75bp)的200pCHM(Robinson等人(2011)；Nat.Biotechnol.29，24-26)，以了解这两种变异是在相同的读段上还是独立出现。在该验证期间，应注意到由这样的两个缺失组成的pCHM，其中第一缺失的末端在第二缺失的10bp之内，所述两个缺失实际上是单一的大缺失，被不正确地称为了两个单独的缺失(N＝在39,459个pCHM中1,109个)。由于只有15个被定相为反式的(整个CHM数据集的约0.1％)，因此这些pCHM并未被从总体分析中排除，而是在选择200个pCHM进行验证时被排除。可以使用读段来决定性地对使用短读段随机选择的200个pCHM中的190个进行定相。其余的十个显示出顺式和反式定相两者的读段迹象，这最有可能是由于变异中的一种或两种均为假阳性响应。

实施例11.2

经扩展的DiscovEHR数据集的复合杂合突变验证

对于DiscovEHR数据集，上表12显示，对于罕见的pCHM，基于家族的定相的准确度为99.6％(1060/1064pCHM)。EAGLE定相的准确度较差，为89.1％(766/860个pCHM；上表12)。对EAGLE在不同的次要等位基因频率范围内的pCHM定相准确度进行评估以找到EAGLE在MAC大于9的情况下始终达到大于90％的准确度，并且在MAC在2与9之间的的情况下达到约77％的准确度(参见上表20)。EAGLE定相仅在具有单变异时表现较差。

其次，尝试通过在Integrative Genomics Viewer(IGV)中查看读取栈来验证具有短Illumina读段(975bp)的200pCHM(Robinson等人(2011)；Nat.Biotechnol.29，24-26)，以了解这两种变异是在相同的读段上还是独立出现。通过使用短读段选择了190个(115个顺式和79个反式；126个EAGLE定相的和74个谱系或关系定相的)pCHM。其余的十个显示出顺式和反式定相两者的读段迹象，这最有可能是由于变异中的一种或两种均为假阳性响应。可视化验证显示，谱系和关系定相和EAGLE定相的总体准确度分别为95.8％和89.9％(参见表22)。虽然基于Illumina读取的验证结果与三联体验证结果一致，但是基于Illumina读取的验证准确度结果低于使用三联体的定相准确度。该差异最可能是由于在易于测序和出现变异响应错误的有问题的小外显子区域中富集了假阳性pCHM。

表22.两种变异都可以用Illumina 75碱基对读段进行定相的190pCHM的定相验证结果

从92K经扩展的DiscovEHR参与者中随机选择了200个pCHM，其中两种变异都在彼此的75个碱基对之内，并通过查看跨越两种变异的读取栈来可视化地验证定相。十个(5％)不能可靠地使用读取栈进行定相，因为没有重叠两种变异的读取，或者读段提供相互矛盾的结果(即一些读段指示顺式，而其他读段指示反式)。

实施例12

从头突变(DNM)检测

将来自两种检测DNM的不同方法的结果合并在一起。第一种方法是TrioDeNovo(Wei等人(2015)；Bioinformatics 31，1375-1381)，该方法读取每个子代可变位点处子代和亲本的基因型可能性。将这些可能性输入到贝叶斯框架中以计算子代变异为DNM的后验可能性。第二种程序是DeNovoCheck(https：//sourceforge.net/projects/denovocheck)，其在在de Ligt等人的补充方法中进行了描述(de Ligt等人(2012)；N.Engl.J.Med.367，1921-1929)。DeNovoCheck采用了一组候选DNM，该一组候选DNM被鉴定为在子代中响应并且在任一亲本中不响应。然后，通过检查BAM文件来验证是否在子代中存在该变异并且在两个亲本中都没有该变异。过滤掉这些潜在的DNM，并使用各种QC度量来评估联合集合中每个DNM的置信度水平。图7示出了该DNM响应过程，说明了我们应用的变异过滤器，并提供了用于将每个DNM分类为低置信度、中等置信度或高置信度的标准。

实施例13.1

用于DiscovEHR数据集中受孕时的亲本年龄与子代中的DNM数目之间的相关性的测试

对于此分析，排除了具有多于10个DNM的样本作为异常值(N＝6个被排除的样本)，这可能表明存在技术伪像或体细胞变异。母本和父本的年龄是高度相关的(rho＝0.78，p＝1.2×10^-262)；当共同建模时，两者由于共线性而都不显著(0.0053个母本DNM/年，p＝0.48；0.0076个母本DNM/年，p＝0.26；泊松回归)(图36A和图36B)。然后将亲本的年龄差异(父本年龄-母本年龄)与出生时的母本或父本的年龄一起进行测试。父本和母本的年龄被证明都可以等同地预测DNM的数目(即，在给定母本或父本年龄的情况下，年龄差异与DNM数目不是显著相关的)。

关于出生时母本年龄(0.012 DNM/年，p＝0.011；泊松回归；图37)和父本年龄(0.011 DNM/年；p＝0.007)还观察到了外显子DNM的数目的增加，这与其他报告一致(Deciphering Developmental Disorders Study(2017).Nature 542，433-438；Kong等人(2012)Nature542，433-438；Rahbari等人(2016)Nat.Genet.48，126-133；以及Wong等人(2016)Nat.Commun.7，10486)。值得注意的是，出生时母本和父本的年龄在数据集中高度相关(rho＝0.78，p＝1.2×10^-262；图38)，因此比率不是累加的，并且也没有鉴别出可区分为驱动因素的任何显著差异。

实施例13.2

用于经扩展的DiscovEHR数据集中受孕时的亲本年龄与子代中的DNM数目之间的相关性的测试

在测试亲本受孕时的年龄与子代中的DNM数目之间的相关性时，经扩展的DiscoverEHR同期群显示了与DiscovEHR同期群类似的结果。关于出生时的母本年龄(0.011DNM/年，p＝7.3×10^-4；泊松回归；图37)和父本年龄(0.010DNM/年；p＝5.6×10^-4)两者，均观察到了外显子DNM的数目的增长，这与其它报道一致。值得注意的是，出生时的母本和父本的年龄在数据集中高度相关(r＝0.79；图39)；因此比率不是累加的，并且也没有鉴定出作为驱动因素的显著差异。

使用泊松分布时，父本年龄与每个人的DNM数目相关(n＝2587，系数＝0.010，p＝5.67E-4)。同样，使用泊松分布时，母本年龄与每个人的DNM数目相关(n＝2587，系数＝0.011，p＝7.35E-4)。此外，父本和母本的年龄也相互关联(R²＝0.79；p＜10E-308)。

使用功能预测算法-SIFT(损伤)、PolyPhen2 HDIV(损伤和可能损伤)、PolyPhen2HVAR(损伤和可能损伤)、LRT(有害)和MutationTaster(Schwarz等人(2014)；Nat.Methods11，361-362)(自动引起疾病和引起疾病)，预测了DNM的致病性。DNM的致病性预测与随机变异分布的致病性预测显著不同(图38)。较高百分比的DNM还具有非致病性的一致预测。通过5/5算法将DNM预测为致病性的可能性是1.8倍高。随机变异具有不一致的致病性预测的可能性是1.5倍高。

实施例14

LDLR串联重复远亲谱系估计

虽然不可能了解我们同期群中的去标识的个体的真实家族史，但是使用PRIMUS(Staples等人(2014)；Am.J.Hum.Genet.95，553-564.)重建谱系、ERSA(Huff等人(2011)；Genome Res.21，768-774.)远亲关系估计和PADRE的(Staples等人(2016)；The AmericanJoumal of Human Genetics 99，154-162)关联谱系的能力来确定LDLR中的新型串联复制的突变携带者的最佳谱系表示(Maxwell等人(2017).Profiling copy number variationand disease associations from 50,726DiscovEHR Study exomes)。先前使用HumanOmniExpress阵列数据来估计更远亲的关系。

实施例15

SimProgeny

SimProgeny能够模拟具有分散在一个或多个子群体中的数百万人的群体，并跟踪他们数百年来的后裔。为了在简单化和现实之间找到良好的平衡，选择了用户可以进行调整的几个关键群体水平参数(参见下表23)。选择这些参数是为了提供真实的群体和家族谱系结构的良好近似，同时保持模拟工具相对简单。默认值基于美国人口统计数据。已将默认值设置为适用于这两个同期群，并且可以通过用SimProgeny代码(web资源)修改包含的配置文件来轻松自定义这些参数，以对不同的群体建模。有关群体模拟过程的详细说明，参见实施例17。

表23(SimProgeny中使用的模拟参数和默认值)

对于针对DiscovEHR同期群开发的框架集合，生育能力结束为49岁，并且对于针对经扩展的DiscovEHR同期群开发的框架集合，生育能力结束是50岁。

除了对群体建模之外，SimProgeny还模拟了以下两种确定方法来从群体中选择个体建模以进行遗传研究：随机确定和聚类采样。随机确定为群体中的每个个体提供了相等的无替代确定的机会。聚类采样是一种富集近亲属关系的方法，并且其是通过随机选择个体以及他们的一级和二级亲属关系来完成的。一级亲属关系的数目是通过从具有用户指定的一级确定λ(默认值为0.2)的泊松分布进行值采样而确定的。二级亲属关系的数目以相同的方式确定，并且默认二级确定λ是0.03。有关SimProgeny确定选项的附加信息，参见实施例17。

实施例16

基本DiscovEHR群体的模拟及其确定

为了不使模拟模型过于复杂，模拟包含起始大小为200K、300K。400K、450K、500K、550K、600K和1000K的各个群体。将SimProgeny参数(参见上表23)用公开可得的国家级、州级和县级数据以及我们自身对如何经由GHS确定个体的理解进行了调谐。所选参数的源以补充文件Simulation_parameters.xls可得。由于GHS主要为迁移率往往低于城市地区的农村地区提供服务，因此宾夕法尼亚州(PA)的迁入率和迁出率平均值降低。将模拟用120年的烧入期运行，然后进行101年。模拟群体增长了约15％，这与20世纪中叶以来PA的增长相似。

执行随机确定和聚类确定两者。对于这两种确定方法，为了在合作开始时对GHS生物库中个体的随机测序次序进行建模，对群体的前5％的确定次序(使用ordered_sampling_proportion参数指定)进行搅乱。尽管该参数的选择对随机确定没有影响并且对聚类确定中成对关系的累积的影响可忽略不计，但它确实会通过引起拐点而影响在数据集中通过聚类采样确定的具有一个或多个亲属关系的个体的比例，λ值越高，则拐点越明显。如果我们要对真实数据的冻结过程进行建模或对来自生物库的测序样本与新近确定的个体之间的更平滑过渡进行建模，则此拐点将不太明显。

实施例17

SimProgeny群体和确定模拟过程

通过初始化用户指定的子群体数目和大小来开始模拟。最初将年龄分配在零与最大可育年龄(默认为49)之间。群体中的个体驻留在以下三个基于年龄的池中的一个中：青少年池、可育池或年老池。如果个体低于可育年龄(默认15岁)，则将其分配到子群体的未成年人池中；如果个体在可育年龄范围内(默认为15至49岁)，则将其分配到子群体的交配池中。当他们的年龄超过最低可育年龄时，他们将从未成年人池移到交配池中。同样，一旦他们超过最大可育年龄，它们就会从交配池移至老年池。如果个体移居或去世，则将他们从所有年龄池中去除。建立初始群体后，将模拟执行达120年的烧入阶段以建立与输入参数更密切匹配的家族关系和年龄分布，同时要求出生和死亡人数相等且净迁移率为零。在烧入后，用提供的群体增长和迁移率运行模拟达指定的年数。除非另有说明，否则模拟以一年增量进行，并且每年在每个子群体中执行以下步骤：

1.年龄-将年龄超出其年龄池的个体移动到下一年龄池。

2.法院-模拟单身男性和单身女性缔结一夫一妻制的婚姻。该过程对于获得实际数目的全同胞关系很重要。从具有单身育龄男性和女性的池中随机选择成对的男性和女性，并根据他们在其年龄时结婚的机会(这由男性和女性“按年龄结婚”参数指定)使他们成功结婚。抽取多个对，直到成功结婚的次数达到如结婚率所定义的。夫妻被限制比亲表兄妹更远亲相关的。在烧入阶段期间，结婚率加倍，直到达到用户指定的初始结婚率为止(默认为已结婚池的66％)。

3.拆分-以指定的离婚率模拟男性和女性离婚。随机选择夫妻，并且将两个个体都标记为单身。

4.混合-模拟群体内一年中可能发生的所有生育。以由全同胞率定义的比率从单身可育年龄池或已婚池中随机选择母本/父本对(默认为已婚夫妇所有的所有生育的88％)。抽取多对并进行生育尝试，直到达到目标数目的成功受孕(默认出生率是每人0.0219个出生)。成功受孕发生的机会取决于准妈妈的年龄和相应的生育率。亲本被限制为比亲表兄妹更远亲相关的，并且所有个体被限制为每年生育一个子代。

5.剔除-模拟个体去世。使用死亡率(默认为每人0.0095死亡)来确定给定年份中群体内的预期死亡人数。使用男性和女性的按年龄死亡参数来对随机选择的个体将去世的机会进行加权。如果介于0与1之间的随机数超过该人在其年龄死亡的可能性，则该个体将被保留，并选择另一个个体。将不幸的个体添加到已故池中，并从其他任何活体池中去除。所有高于120岁的个体将自动加入到已故池中，并计入该年的目标死亡人数中。

6.迁移-模拟到群体中的迁入和从群体的迁出。迁出是通过从交配池中随机选择个体并将其与其配偶(如果已婚且为育龄的话)一起从群体中去除而进行的。记录离开的青少年和老年个体的比例以及育龄已婚夫妇的数目。迁入是以维持年龄分布和育龄已婚夫妇的数目的方式进行的。首先，从现有群体中随机选择青少年，并将具有相同性别和年龄的新个体添加到青少年池中，并重复该过程，直到已经添加了适当比例的青少年为止。对老年个体重复相同的过程。接下来，从现有群体中选择两个育龄个体，并添加两个具有相应年龄的新个体。一个被分配为男性，另一个被分配为女性，然后使两个迁入者结婚。重复此步骤，直到已婚夫妇的数目得到补充。最后，以与用于增加新的青少年相同的过程来增加育龄个体，并重复该过程，直到达到目标迁入者数目为止。该过程有助于维持群体的年龄和性别分布，以及已婚育龄个体的比例。

7.移植-模拟在子群体中移动的人。为了模拟子群体之间缺乏基因隔离，个体可以在整个群体中的子群体之间移动。在整个群体中使用单移动速率。从子群体随机选择个体，并随机分配给其他子群体中的一个，直到获得所需的移植数量。如果只有一个子群体或如果移植率是0(默认值为每年总移植群体的1％)，则不发生该步骤。

进行指定时长的模拟，从而跟踪每个创始者及其后裔。

执行随机确定和聚类确定两者。对于这两种确定方法，为了在我们的合作开始时对GHS生物库中个体的随机测序次序进行建模，对群体的前5％的确定次序(使用ordered_sampling_proportion参数指定)进行搅乱。尽管该参数的选择对随机确定没有影响并且对聚类确定中成对关系的累积的影响可忽略不计，但它确实会通过引起拐点而影响在数据集中通过聚类采样确定的具有一个或多个亲属关系的个体的比例，λ值越高，则拐点越明显。如果要对真实数据的冻结过程进行建模或对来自生物库的测序样本与新近确定的个体之间的更平滑过渡进行建模，则此拐点将不太明显。在用户希望在移动到下一组子群体之前模拟根据一个或多个子群体的确定的情况下，用户可以指定子群体确定次序。默认设置是首先将所有子群体分组，并从中确定它们是否是单个群体。用户还可以指定在移动到其他子群体或整个群体之前确定的群体的初始比例。该程序以ped文件格式建立了针对整个群体的输出、按照确定次序的确定样本列表，以及汇总了有用的群体和确定统计的几个结果文件。

实施例18

使用谱系结构来帮助鉴定给定表型的遗传原因的方法通常涉及关联映射、连锁分析或两者上的创新变化。此类方法包括MORGAN31、pVAAST15、FBAT(www.hsph.harvard.edu/fbat/fbat.htm)、QTDT(csg.sph.umich.edu/abecasis/qtdt/)、ROADTRIPS、rareIBD和RV-GDT。要使用的适当方法取决于表型、遗传模式、祖先背景、谱系结构/大小、谱系数目和无关数据集的大小。除了使用关系和谱系直接询问基因-表型关联外，它们还可以以多种其他方式用于生成附加或改进的数据：谱系-感知插补、谱系-感知定相、孟德尔错误检查、复合杂合敲除检测和从头突变响应，以及变异响应验证。

本公开不限于以上描述和例示的示例性实施方案，而是能够在所附权利要求书的范围内进行变化和修改。

Claims

1.一种通过利用群体的亲缘关系来对所述群体中的遗传变异进行定相的方法，所述方法包括：

为所述样本中的一个或多个中的每一个建立祖先总纲命名；

生成对祖先总纲内的受试者的第一按血统身份估计；

独立于所述受试者的祖先总纲生成所述受试者的第二按血统身份估计；

基于所述第二按血统身份估计中的一个或多个，将所述受试者聚类为主要一级家族网络；

生成所述主要一级家族网络内的受试者的第三按血统身份估计；

合并所述第一按血统身份估计和所述第三按血统身份估计以获得合并的按血统身份估计；

基于所述合并的按血统身份估计来构建所述样本的次要一级家族网络，以及

根据所述合并的按血统身份估计和所述次要一级家族网络来定相所述变异是否为复合杂合突变(CHM)；或者根据所述合并的按血统身份估计和所述次要一级家族网络而将所述变异鉴定为从头突变(DNM)。

2.根据权利要求l所述的方法，其中合并所述第一按血统身份估计和所述第三按血统身份估计包括用所述第三按血统身份估计所独有的成对按血统身份估计来增强所述第一按血统身份估计。

3.根据权利要求1或2所述的方法，其中将所述变异定相为复合杂合突变(CHM)包括：

根据群体等位基因频率对所述变异进行定相；

去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约2或更小的SNP，或读段深度(DP)小于约5的SNP，或者交替等位基因平衡(AB)为约10％或更小的SNP，或它们的组合；以及去除QD为约2或更低的插入或缺失(INDELS)，DP小于约5的INDELS，或AB为约10％或更低的INDELS，或它们的组合；

选择剩余变异作为潜在复合杂合突变(pCHM)，其中在同一样本和同一基因中有一对或多对变异；以及

将pCHM定相为顺式或反式pCHM，然后将定相为反式pCHM的pCHM分类为CHM。

4.根据权利要求3所述的方法，其中将所述变异定相为复合杂合突变包括：

去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约3或更小的SNP，或读段深度(DP)小于约7的SNP，或者交替等位基因平衡(AB)为约15％或更小的SNP，或它们的组合；以及去除QD为约5或更低的插入或缺失(INDELS)，DP小于约10的INDELS，或AB为约20％或更低的INDELS，或它们的组合。

5.根据权利要求3或4所述的方法，其还包括：

根据表型严重性对CHM进行评分，以及

选择每个样本的每个基因中具有最高表型严重性评分的CHM，以便当人类在同一基因中具有多于一个CHM时，鉴定出最有可能导致蛋白质功能抑制的CHM。

6.根据权利要求1至5中任一项所述的方法，其中将变异定相为从头突变包括：

鉴定呈次要一级家族网络及其三联体的样本中的变异；

为呈三联体的亲本样本和对应的子代样本中的变异分配基因型似然度评分，计算变异为从头突变的概率，以及在计算出的概率具有统计学显著性时将变异鉴定为可能的从头突变；

鉴定呈三联体的子代样本中的变异，以及当在任一呈三联体的亲本样本中均不存在所述变异时，将所述变异鉴定为可能的从头突变；

通过以下方式过滤经鉴定的可能的从头突变：去除子代样本中的基因型质量(GQ)注释小于约35的可能的从头突变，或者在样本中交替等位基因计数(AC)为10或更大的可能的从头突变，或者子代样本中的读段深度(DP)小于约7且替代的DP小于约4的可能的从头突变，或者在任一亲本样本中等位基因平衡(AB)大于约2％的可能的从头突变，或者子代样本中的等位基因平衡(AB)小于约15％的可能的从头突变，或者子代样本中的AB大于约90％的可能的从头突变，或者在任一亲本样本中具有交替的等位基因纯合性的可能的从头突变，或它们的组合；以及

组合过滤的经鉴定的可能的从头突变，从而形成可能的从头突变数据集。

7.根据权利要求6所述的方法，其还包括：

当可能的从头突变的等位基因平衡在子代样本中为约0.15或更大并且在每个亲本样本中为约0.02或更小，并且不具有小于约40的映射质量，并且不具有小于约2的测序深度对质量的影响(QD)值，并且在各样本中的MAC小于约20，并且在具有可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段，并且不是单聚物运行大于约4次的INDEL时，将可能的从头突变数据集中的所述可能的从头突变分类为中等置信度从头突变。

8.根据权利要求7所述的方法，其还包括：

当所述中等置信度从头突变在亲本样本中的基因型质量注释为约90或更大，并且在每个亲本样本中的读段深度为约10或更大，并且在子代样本中的替代读段深度为约7或更大，并且SNP的QD大于约3，并且INDEL的QD大于约5时，将所述中等置信度从头突变分类为高置信度从头突变。

9.根据权利要求1至8中任一项所述的方法，其还包括从所述数据集中去除低质量样本，其中所述低质量样本是D-统计＞0.12或20x读段覆盖率＜75％或同时符合两种情况的样本。

10.一种鉴定群体中的复合杂合突变(CHM)的方法，所述方法包括：

鉴定来自多个人类受试者的DNA序列样本中的变异；

基于所述经鉴定的变异来建立所述受试者的祖先总纲命名；

生成对祖先总纲内的所述受试者的第一按血统身份估计；

独立于所述受试者的所述祖先总纲生成所述受试者的第二按血统身份估计；

生成所述主要一级家族网络内的所述受试者的第三按血统身份估计；

基于所述合并的按血统身份估计构建次要一级家族网络；

根据群体等位基因频率对样本中的变异进行定相；

基于同一受试者和基因中存在两个或更多个变异，将所述经定相的变异分类为潜在的CHM；以及

用所述同一受试者和基因中的另一种变异将潜在的CHM定相为顺式或反式，然后将定相为反式的潜在CHM分类为CHM。

11.根据权利要求10所述的方法，其还包括在建立所述受试者的所述祖先总纲命名之前过滤所述经鉴定的变异。

12.根据权利要求10所述的方法，其还包括在生成所述受试者的所述第二按血统身份估计之前过滤所述经鉴定的变异。

13.根据权利要求11或12所述的方法，其中对变异进行过滤包括去除在来自多个人类受试者的样本中交替等位基因频率大于约10％的变异，或p值＞约10^-6的违反哈迪-温伯格平衡(HWE)的变异，或者在来自多个人类受试者的样本中缺失响应＞约5％的变异，或它们的组合。

14.根据权利要求11至13中任一项所述的方法，其还包括在已过滤所述经鉴定的变异之后去除所述低质量样本。

15.根据权利要求14所述的方法，其中所述低质量样本是D-统计＞0.12或20x读段覆盖率＜75％或同时符合两种情况的样本。

16.根据权利要求10至15中任一项所述的方法，其中合并所述第一按血统身份估计和所述第三按血统身份估计包括用所述第三按血统身份估计所独有的成对按血统身份估计来增强所述第一按血统身份估计。

17.根据权利要求10至16中任一项所述的方法，其中所述按血统身份估计包括对样本对之间的IBD 0、1和2值的全基因组计算。

18.根据权利要求10至17中任一项所述的方法，其还包括在已经根据群体等位基因频率对变异进行定相之后过滤所述变异。

19.根据权利要求18所述的方法，其中过滤根据群体等位基因频率定相的变异包括：去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约2或更小的SNP，或读段深度(DP)小于约5的SNP，或者交替等位基因平衡(AB)为约10％或更小的SNP，或它们的组合；以及去除QD为约2或更低的插入或缺失(INDELS)，DP小于约5的INDELS，或AB为约10％或更低的INDELS，或它们的组合。

20.根据权利要求10至19中任一项所述的方法，其中根据群体等位基因频率对变异进行定相包括将人类受试者的DNA序列样本分成基因组区段，所述基因组区段具有近似相等的大小，在基因间区域中的大量区段重叠和断裂点。

21.根据权利要求10至20中任一项所述的方法，其中将潜在的CHM基于三联体数据、或亲本-子代数据、或全同胞数据、或远亲数据或它们的组合进行定相，或基于次要等位基因计数(MAC)进行定相；或基于群体等位基因频率进行定相；或它们的组合。

22.根据权利要求10至20中任一项所述的方法，其还包括根据表型严重性对CHM进行评分，以及选择每个样本的每个基因中具有最高表型严重性评分的CHM，从而获得医学相关突变的集合。

23.根据权利要求10至22中任一项所述的方法，其中DNA序列样本包括外显子组序列。

24.根据权利要求10至23中任一项所述的方法，其中所述多个人类受试者包括大于10K的受试者。

25.根据权利要求15所述的方法，其中通过使用柯尔莫哥罗夫-斯米尔诺夫检验将样本的实际等位基因平衡分布与预期的等位基因平衡分布进行比较来确定低质量样本的D-统计。

26.根据权利要求19所述的方法，其中过滤根据群体等位基因频率定相的变异包括：去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约3或更小的SNP，或读段深度(DP)小于约7的SNP，或者交替等位基因平衡(AB)为约15％或更小的SNP，或它们的组合；以及去除QD为约5或更低的插入或缺失(INDELS)，DP小于约10的INDELS，或AB为约20％或更低的INDELS，或它们的组合。

27.一种用于鉴定群体中的复合杂合突变(CHM)的非暂时性计算机实现的方法，所述方法包括：

使用计算装置的数据处理器以鉴定来自多个人类受试者的DNA序列样本中的变异；

使用所述数据处理器以基于所述经鉴定的变异来建立受试者的祖先总纲命名；

使用所述数据处理器以生成对所述祖先总纲内的所述受试者的第一按血统身份估计；

使用所述数据处理器以独立于所述受试者的所述祖先总纲生成所述受试者的第二按血统身份估计；

使用所述数据处理器以基于所述第二按血统身份估计中的一个或多个，将所述受试者聚类为主要一级家族网络；

使用所述数据处理器以生成所述主要一级家族网络内的所述受试者的第三按血统身份估计；

使用所述数据处理器以合并所述第一按血统身份估计和所述第三按血统身份估计以获得合并的按血统身份估计；

使用所述数据处理器以基于所述合并的按血统身份估计构建次要一级家族网络；

使用所述数据处理器以根据群体等位基因频率对所述样本中的变异进行定相；

使用所述数据处理器以基于同一受试者和基因中存在两个或更多个变异，将所述经定相的变异分类为潜在的CHM；以及

使用所述数据处理器以用同一受试者和基因中的另一种变异将所述潜在的CHM定相为顺式或反式，然后将定相为反式的所述潜在CHM分类为CHM。

28.根据权利要求27所述的非暂时性计算机实现的方法，所述方法还包括在建立所述受试者的所述祖先总纲命名之前，使用所述数据处理器以过滤所述经鉴定的变异。

29.根据权利要求27或28所述的非暂时性计算机实现的方法，所述方法还包括在生成所述受试者的所述第二按血统身份估计之前，使用所述数据处理器以过滤所述经鉴定的变异。

30.根据权利要求28或29所述的非暂时性计算机实现的方法，其中对变异进行过滤包括去除在来自多个人类受试者的样本中交替等位基因频率大于约10％的变异，或p值＞约10^-6的违反哈迪-温伯格平衡(HWE)的变异，或者在来自多个人类受试者的样本中缺失响应＞约5％的变异，或它们的组合。

31.根据权利要求28至30中任一项所述的非暂时性计算机实现的方法，所述方法还包括在已过滤所述经鉴定的变异之后，使用所述数据处理器以去除低质量样本。

32.根据权利要求31所述的非暂时性计算机实现的方法，其中所述低质量样本是D-统计＞0.12或20x读段覆盖率＜75％或同时符合两种情况的样本。

33.根据权利要求27至32中任一项所述的非暂时性计算机实现的方法，其中合并所述第一按血统身份估计和所述第三按血统身份估计包括用所述第三按血统身份估计所独有的成对按血统身份估计来增强所述第一按血统身份估计。

34.根据权利要求27至31中任一项所述的非暂时性计算机实现的方法，其中所述按血统身份估计包括对样本对之间的IBD 0、1和2值的全基因组计算。

35.根据权利要求27至32中任一项所述的非暂时性计算机实现的方法，所述方法还包括在已经根据群体等位基因频率对变异进行定相之后，使用所述数据处理器以过滤所述变异。

36.根据权利要求35所述的非暂时性计算机实现的方法，其中过滤根据群体等位基因频率定相的变异包括：去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约2或更小的SNP，或读段深度(DP)小于约5的SNP，或者交替等位基因平衡(AB)为约10％或更小的SNP，或它们的组合；以及去除QD为约2或更低的插入或缺失(INDELS)，DP小于约5的INDELS，或AB为约10％或更低的INDELS，或它们的组合。

37.根据权利要求27至35中任一项所述的非暂时性计算机实现的方法，其中根据群体等位基因频率对变异进行定相包括将人类受试者的DNA序列样本分成基因组区段，所述基因组区段具有近似相等的大小，在基因间区域中的大量区段重叠和断裂点。

38.根据权利要求27至37中任一项所述的非暂时性计算机实现的方法，其中将潜在的CHM基于三联体数据、或亲本-子代数据、或全同胞数据、或远亲数据或它们的组合进行定相，或基于次要等位基因计数(MAC)进行定相；或基于群体等位基因频率进行定相；或它们的组合。

39.根据权利要求27至38中任一项所述的非暂时性计算机实现的方法，所述方法还包括使用所述数据处理器以根据表型严重性对CHM进行评分，以及选择每个样本的每个基因中具有最高表型严重性评分的CHM，从而获得医学相关突变的集合。

40.根据权利要求27至39中任一项所述的非暂时性计算机实现的方法，其中DNA序列样本包括外显子组序列。

41.根据权利要求27至39中任一项所述的非暂时性计算机实现的方法，其中所述多个人类受试者包括大于10K的受试者。

42.根据权利要求32所述的非暂时性计算机实现的方法，其中通过使用柯尔莫哥罗夫-斯米尔诺夫检验将样本的实际等位基因平衡分布与预期的等位基因平衡分布进行比较来确定低质量样本的D-统计。

43.根据权利要求36所述的非暂时性计算机实现的方法，其中过滤根据群体等位基因频率定相的变异包括：去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约3或更小的SNP，或读段深度(DP)小于约7的SNP，或者交替等位基因平衡(AB)为约15％或更小的SNP，或它们的组合；以及去除QD为约5或更低的插入或缺失(INDELS)，DP小于约10的INDELS，或AB为约20％或更低的INDELS，或它们的组合。

44.一种系统，其包括：

数据处理器；存储器，所述存储器与所述数据处理器耦接；以及程序，所述程序存储在所述存储器中，所述程序包括用于以下的指令：

鉴定来自多个人类受试者的DNA序列样本中的变异；

基于所述经鉴定的变异来建立所述受试者的祖先总纲命名；

生成对祖先总纲内的所述受试者的第一按血统身份估计；

基于所述合并的按血统身份估计构建次要一级家族网络；

根据群体等位基因频率对样本中的变异进行定相；

45.根据权利要求44所述的系统，其中所述程序包括用于在建立所述受试者的所述祖先总纲命名之前过滤所述经鉴定的变异的指令。

46.根据权利要求44或45所述的系统，其中所述程序包括用于在生成所述受试者的所述第二按血统身份估计之前过滤所述经鉴定的变异的指令。

47.根据权利要求44至46中任一项所述的系统，其中对变异进行过滤包括去除在来自多个人类受试者的样本中交替等位基因频率大于约10％的变异，或p值＞约10^-6的违反哈迪-温伯格平衡(HWE)的变异，或者在来自多个人类受试者的样本中缺失响应＞约5％的变异，或它们的组合。

48.根据权利要求45至47中任一项所述的系统，其中所述程序包括用于在已过滤所述经鉴定的变异之后去除低质量样本的指令。

49.根据权利要求48所述的系统，其中所述低质量样本是D-统计＞0.12或20x读段覆盖率＜75％或同时符合两种情况的样本。

50.根据权利要求44至49中任一项所述的系统，其中合并所述第一按血统身份估计和所述第三按血统身份估计包括用所述第三按血统身份估计所独有的成对按血统身份估计来增强所述第一按血统身份估计。

51.根据权利要求44至50中任一项所述的系统，其中所述按血统身份估计包括对样本对之间的IBD 0、1和2值的全基因组计算。

52.根据权利要求44至51中任一项所述的系统，其中所述程序包括用于在已经根据群体等位基因频率对变异进行定相之后过滤所述变异的指令。

53.根据权利要求52所述的系统，其中过滤根据群体等位基因频率定相的变异包括：去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约2或更小的SNP，或读段深度(DP)小于约5的SNP，或者交替等位基因平衡(AB)为约10％或更小的SNP，或它们的组合；以及去除QD为约2或更低的插入或缺失(INDELS)，DP小于约5的INDELS，或AB为约10％或更低的INDELS，或它们的组合。

54.根据权利要求44至53中任一项所述的系统，其中根据群体等位基因频率对变异进行定相包括将人类受试者的DNA序列样本分成基因组区段，所述基因组区段具有近似相等的大小，在基因间区域中的大量区段重叠和断裂点。

55.根据权利要求44至53中任一项所述的系统，其中将潜在的CHM基于三联体数据、或亲本-子代数据、或全同胞数据、或远亲数据或它们的组合进行定相，或基于次要等位基因计数(MAC)进行定相；或基于群体等位基因频率进行定相；或它们的组合。

56.根据权利要求44至55中任一项所述的系统，其中所述程序包括用于以下的指令：根据表型严重性对CHM进行评分，以及选择每个样本的每个基因中具有最高表型严重性评分的CHM，从而获得医学相关突变的集合。

57.根据权利要求44至56中任一项所述的系统，其中DNA序列样本包括外显子组序列。

58.根据权利要求44至57中任一项所述的系统，其中所述多个人类受试者包括大于l0K的受试者。

59.根据权利要求49所述的系统，其中通过使用柯尔莫哥罗夫-斯米尔诺夫检验将样本的实际等位基因平衡分布与预期的等位基因平衡分布进行比较来确定低质量样本的D-统计。

60.根据权利要求53所述的系统，其中过滤根据群体等位基因频率定相的变异包括：去除在哈迪-温伯格平衡(HWE)之外或在同一样本中另一变异的10个碱基对之内或同时符合两种情况的变异；以及去除测序深度对质量的影响(QD)为约3或更小的SNP，或读段深度(DP)小于约7的SNP，或者交替等位基因平衡(AB)为约15％或更小的SNP，或它们的组合；以及去除QD为约5或更低的插入或缺失(INDELS)，DP小于约10的INDELS，或AB为约20％或更低的INDELS，或它们的组合。

61.一种用于鉴定群体中的从头突变(DNM)的方法，所述方法包括：

鉴定来自多个人类受试者的DNA序列样本中的变异；

基于所述经鉴定的变异来建立所述受试者的祖先总纲命名；

生成对祖先总纲内的所述受试者的第一按血统身份估计；

基于合并的按血统身份估计构建核家族；

鉴定核家族中的变异；

为来自构建的核家族中呈三联体的每个亲本和子代的样本中的变异分配基因型似然度评分，并计算所述变异是从头突变的概率；以及选择这样的变异，所述变异是从头突变的概率非常高；以及独立地原始鉴定子代样本中响应的变异，所述响应的变异在任一呈三联体的亲本样本中均未响应，然后将两组从头突变合并，从而形成可能的从头突变的数据集。

62.根据权利要求61所述的方法，其还包括在建立所述受试者的所述祖先总纲命名之前过滤所述经鉴定的变异。

63.根据权利要求61或62所述的方法，其还包括在生成所述受试者的所述第二按血统身份估计之前过滤所述经鉴定的变异。

64.根据权利要求62或63所述的方法，其中对变异进行过滤包括去除在来自多个人类受试者的样本中交替等位基因频率大于约10％的变异，或p值＞约10^-6的违反哈迪-温伯格平衡(HWE)的变异，或者在来自多个人类受试者的样本中缺失响应＞约5％的变异，或它们的组合。

65.根据权利要求62至64中任一项所述的方法，其还包括在已过滤所述经鉴定的变异之后去除所述低质量样本。

66.根据权利要求65所述的方法，其中所述低质量样本是D-统计＞0.12或20x读段覆盖率＜75％或同时符合两种情况的样本。

67.根据权利要求61至65中任一项所述的方法，其中合并所述第一按血统身份估计和所述第三按血统身份估计包括用所述第三按血统身份估计所独有的成对按血统身份估计来增强所述第一按血统身份估计。

68.根据权利要求61至66中任一项所述的方法，其中所述按血统身份估计包括对样本对之间的IBD 0、1和2值的全基因组计算。

69.根据权利要求61至68中任一项所述的方法，其中所述基因型似然度评分基于来自多个核家族中的多个人类受试者的DNA序列样本。

70.根据权利要求61至68中任一项所述的方法，其还包括在已经基于所述基因型似然度评分计算出变异是从头突变的概率之后，过滤所述变异。

71.根据权利要求61至70中任一项所述的方法，其还包括在已经基于原始鉴定子代样本中在任一亲本样本中均不存在的变异计算出所述变异为从头突变的概率之后，过滤所述变异。

72.根据权利要求70或71所述的方法，其中过滤所述变异包括去除子代样本中的基因型质量(GQ)注释小于约35的变异，或者在各样本中交替等位基因计数(AC)为10或更大的变异，或者子代样本中的读段深度(DP)小于约7且替代的DP小于约4的变异，或者在任一亲本样本中等位基因平衡(AB)大于约2％的变异，或者子代样本中的等位基因平衡(AB)小于约15％的变异，或者子代样本中的AB大于约90％的变异，或者在任一亲本样本中具有交替的等位基因纯合性的变异，或它们的组合。

73.根据权利要求61至71中任一项所述的方法，其还包括使用质量控制度量为所述变异作注释。

74.根据权利要求61至73中任一项所述的方法，其还包括在已经基于原始鉴定子代样本中在任一亲本样本中均不存在的变异而鉴定出可能的从头突变之后，基于样本BAM文件数据来过滤所述变异。

75.根据权利要求61至74中任一项所述的方法，其还包括当子代样本中的可能的从头突变的等位基因平衡为约0.15或更大时，将所述可能的从头突变分类为中等置信度从头突变。

76.根据权利要求61至75中任一项所述的方法，其还包括当在每个亲本样本中可能的从头突变的等位基因平衡为约0.02或更小时，将所述可能的从头突变分类为中等置信度从头突变。

77.根据权利要求61至76中任一项所述的方法，其还包括当可能的从头突变不具有小于约40的映射质量时，将所述可能的从头突变分类为中等置信度从头突变。

78.根据权利要求61至77中任一项所述的方法，其还包括当可能的从头突变不具有小于约2的测序深度对质量的影响(QD)值时，将所述可能的从头突变分类为中等置信度从头突变。

79.根据权利要求61至78中任一项所述的方法，其还包括当各样本中可能的从头突变的MAC小于约20时，将所述可能的从头突变分类为中等置信度从头突变。

80.根据权利要求61至79中任一项所述的方法，其还包括当可能的从头突变在所述可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段时，将所述可能的从头突变分类为中等置信度从头突变。

81.根据权利要求61至80中任一项所述的方法，其还包括当可能的从头突变不是单聚物运行大于约4次的INDEL时，将所述可能的从头突变分类为中等置信度从头突变。

82.根据权利要求61至81中任一项所述的方法，其还包括当可能的从头突变的等位基因平衡(AB)在子代样本中为约0.15或更大并且在每个亲本样本中为约0.02或更小，并且不具有小于约40的映射质量(MQ)，并且不具有小于约2的测序深度对质量的影响(QD)值，并且在各样本中的次要等位基因计数(MAC)小于约20，并且在具有可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段，并且不是单聚物运行大于约4次的INDEL时，将所述可能的从头突变分类为中等置信度从头突变。

83.根据权利要求82所述的方法，其还包括当所述中等置信度从头突变在亲本样本中的基因型质量(GQ)注释为约90或更大，并且在每个亲本样本中的读段深度(DP)为约10或更大，并且在子代样本中的替代DP为约7或更大，并且SNP的QD大于约3，并且INDEL的QD大于约5时，将所述中等置信度从头突变分类为高置信度从头突变。

84.根据权利要求61至83中任一项所述的方法，其中DNA序列样本包括外显子组序列。

85.根据权利要求61至84中任一项所述的方法，其中所述多个人类受试者包括大于10K的受试者。

86.根据权利要求66所述的方法，其中通过使用柯尔莫哥罗夫-斯米尔诺夫检验将样本的实际等位基因平衡分布与预期的等位基因平衡分布进行比较来确定低质量样本的D-统计。

87.一种用于鉴定群体中的从头突变(DNM)的非暂时性计算机实现的方法，所述方法包括：

使用数据处理器以基于经鉴定的变异来建立受试者的祖先总纲命名；

使用数据处理器以生成对祖先总纲内的受试者的第一按血统身份估计；

使用数据处理器以独立于受试者的祖先总纲生成受试者的第二按血统身份估计；

使用数据处理器以基于第二按血统身份估计中的一个或多个，将受试者聚类为主要一级家族网络；

使用数据处理器以生成主要一级家族网络内的受试者的第三按血统身份估计；

使用数据处理器以合并第一按血统身份估计和第三按血统身份估计以获得合并的按血统身份估计；

使用数据处理器以基于合并的按血统身份估计构建核家族；

使用数据处理器以鉴定核家族中的变异；

88.根据权利要求87所述的非暂时性计算机实现的方法，所述方法还包括在建立所述受试者的所述祖先总纲命名之前，使用所述数据处理器以过滤所述经鉴定的变异。

89.根据权利要求87或88所述的非暂时性计算机实现的方法，所述方法还包括在生成所述受试者的所述第二按血统身份估计之前，使用所述数据处理器以过滤所述经鉴定的变异。

90.根据权利要求88至89中任一项所述的非暂时性计算机实现的方法，其中对变异进行过滤包括去除在来自多个人类受试者的样本中交替等位基因频率大于约10％的变异，或p值＞约10^-6的违反哈迪-温伯格平衡(HWE)的变异，或者在来自多个人类受试者的样本中缺失响应＞约5％的变异，或它们的组合。

91.根据权利要求88至90中任一项所述的非暂时性计算机实现的方法，所述方法还包括在已过滤所述经鉴定的变异之后，使用所述数据处理器以去除低质量样本。

92.根据权利要求91所述的非暂时性计算机实现的方法，其中所述低质量样本是D-统计＞0.12或20x读段覆盖率＜75％或同时符合两种情况的样本。

93.根据权利要求87至92中任一项所述的非暂时性计算机实现的方法，其中合并所述第一按血统身份估计和所述第三按血统身份估计包括用所述第三按血统身份估计所独有的成对按血统身份估计来增强所述第一按血统身份估计。

94.根据权利要求87至93中任一项所述的非暂时性计算机实现的方法，其中所述按血统身份估计包括对样本对之间的IBD 0、1和2值的全基因组计算。

95.根据权利要求87至94中任一项所述的非暂时性计算机实现的方法，其中所述基因型似然度评分基于来自多个核家族中的多个人类受试者的DNA序列样本。

96.根据权利要求87至95中任一项所述的非暂时性计算机实现的方法，所述方法还包括在已经基于基因型似然度评分计算出变异是从头突变的概率之后，使用所述数据处理器以过滤所述变异。

97.根据权利要求87至96中任一项所述的非暂时性计算机实现的方法，所述方法还包括在已经基于原始鉴定子代样本中在任一亲本样本中均不存在的变异计算出变异为从头突变的概率之后，使用所述数据处理器以过滤所述变异。

98.根据权利要求96或97所述的非暂时性计算机实现的方法，其中过滤所述变异包括去除子代样本中的基因型质量(GQ)注释小于约35的变异，或者在各样本中交替等位基因计数(AC)为10或更大的变异，或者子代样本中的读段深度(DP)小于约7且替代的DP小于约4的变异，或者在任一亲本样本中等位基因平衡(AB)大于约2％的变异，或者子代样本中的等位基因平衡(AB)小于约15％的变异，或者子代样本中的AB大于约90％的变异，或者在任一亲本样本中具有交替的等位基因纯合性的变异，或它们的组合。

99.根据权利要求87至98中任一项所述的非暂时性计算机实现的方法，所述方法还包括：使用所述数据处理器以用质量控制度量为所述变异作注释。

100.根据权利要求87至99中任一项所述的非暂时性计算机实现的方法，所述方法还包括在已经基于原始鉴定子代样本中在任一亲本样本中均不存在的变异而鉴定出可能的从头突变之后，使用所述数据处理器以基于样本BAM文件数据来过滤所述变异。

101.根据权利要求87至100中任一项所述的非暂时性计算机实现的方法，所述方法还包括当子代样本中的可能的从头突变的等位基因平衡为约0.15或更大时，使用所述数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

102.根据权利要求87至101中任一项所述的非暂时性计算机实现的方法，所述方法还包括当在每个亲本样本中可能的从头突变的等位基因平衡为约0.02或更小时，使用所述数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

103.根据权利要求87至102中任一项所述的非暂时性计算机实现的方法，所述方法还包括当可能的从头突变不具有小于约40的映射质量时，使用所述数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

104.根据权利要求87至103中任一项所述的非暂时性计算机实现的方法，所述方法还包括当可能的从头突变不具有小于约2的测序深度对质量的影响(QD)值时，使用所述数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

105.根据权利要求87至104中任一项所述的非暂时性计算机实现的方法，所述方法还包括当各样本中可能的从头突变的MAC小于约20时，使用所述数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

106.根据权利要求87至105中任一项所述的非暂时性计算机实现的方法，所述方法还包括当可能的从头突变在所述可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段时，使用所述数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

107.根据权利要求87至106中任一项所述的非暂时性计算机实现的方法，所述方法还包括当可能的从头突变不是单聚物运行大于约4次的INDEL时，使用所述数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

108.根据权利要求87至107中任一项所述的非暂时性计算机实现的方法，所述方法还包括当可能的从头突变的等位基因平衡(AB)在子代样本中为约0.15或更大并且在每个亲本样本中为约0.02或更小，并且不具有小于约40的映射质量(MQ)，并且不具有小于约2的测序深度对质量的影响(QD)值，并且在各样本中的次要等位基因计数(MAC)小于约20，并且在具有可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段，并且不是单聚物运行大于约4次的INDEL时，使用所述数据处理器以将所述可能的从头突变分类为中等置信度从头突变。

109.根据权利要求108所述的非暂时性计算机实现的方法，所述方法还包括当所述中等置信度从头突变在亲本样本中的基因型质量(GQ)注释为约90或更大，并且在每个亲本样本中的读段深度(DP)为约10或更大，并且在子代样本中的替代DP为约7或更大，并且SNP的QD大于约3，并且INDEL的QD大于约5时，使用所述数据处理器以将所述中等置信度从头突变分类为高置信度从头突变。

110.根据权利要求87至109中任一项所述的非暂时性计算机实现的方法，其中DNA序列样本包括外显子组序列。

111.根据权利要求87至110中任一项所述的非暂时性计算机实现的方法，其中所述多个人类受试者包括大于10K的受试者。

112.根据权利要求92所述的非暂时性计算机实现的方法，其中通过使用柯尔莫哥罗夫-斯米尔诺夫检验将样本的实际等位基因平衡分布与预期的等位基因平衡分布进行比较来确定低质量样本的D-统计。

113.一种系统，其包括：

鉴定来自多个人类受试者的DNA序列样本中的变异；

基于所述经鉴定的变异来建立所述受试者的祖先总纲命名；

生成对祖先总纲内的所述受试者的第一按血统身份估计；

基于合并的按血统身份估计构建核家族；

鉴定核家族中的变异；

114.根据权利要求113所述的系统，其中所述程序包括用于在建立所述受试者的所述祖先总纲命名之前过滤所述经鉴定的变异的指令。

115.根据权利要求113或114所述的系统，其中所述程序包括用于在生成所述受试者的所述第二按血统身份估计之前过滤所述经鉴定的变异的指令。

116.根据权利要求114或115所述的系统，其中对变异进行过滤包括去除在来自多个人类受试者的样本中交替等位基因频率大于约10％的变异，或p值＞约10^-6的违反哈迪-温伯格平衡(HWE)的变异，或者在来自多个人类受试者的样本中缺失响应＞约5％的变异，或它们的组合。

117.根据权利要求114至116中任一项所述的系统，其中所述程序包括用于在已过滤所述经鉴定的变异之后去除低质量样本的指令。

118.根据权利要求117所述的系统，其中所述低质量样本是D-统计＞0.12或20x读段覆盖率＜75％或同时符合两种情况的样本。

119.根据权利要求113至118中任一项所述的系统，其中合并所述第一按血统身份估计和所述第三按血统身份估计包括用所述第三按血统身份估计所独有的成对按血统身份估计来增强所述第一按血统身份估计。

120.根据权利要求113至119中任一项所述的系统，其中所述按血统身份估计包括对样本对之间的IBD 0、1和2值的全基因组计算。

121.根据权利要求113至120中任一项所述的系统，其中所述基因型似然度评分基于来自多个核家族中的多个人类受试者的DNA序列样本。

122.根据权利要求113至121中任一项所述的系统，其中所述程序包括用于在已经基于基因型似然度评分计算出变异是从头突变的概率之后，过滤变异的指令。

123.根据权利要求113至122中任一项所述的系统，其中所述程序包括用于在已经基于原始鉴定子代样本中在任一亲本样本中均不存在的变异计算出变异为从头突变的概率之后，过滤所述变异的指令。

124.根据权利要求122或123所述的系统，其中过滤所述变异包括去除子代样本中的基因型质量(GQ)注释小于约35的变异，或者在各样本中交替等位基因计数(AC)为10或更大的变异，或者子代样本中的读段深度(DP)小于约7且替代的DP小于约4的变异，或者在任一亲本样本中等位基因平衡(AB)大于约2％的变异，或者子代样本中的等位基因平衡(AB)小于约15％的变异，或者子代样本中的AB大于约90％的变异，或者在任一亲本样本中具有交替的等位基因纯合性的变异，或它们的组合。

125.根据权利要求113至124中任一项所述的系统，其中所述程序包括用于用质量控制度量为所述变异作注释的指令。

126.根据权利要求113至125中任一项所述的系统，其中所述程序包括用于在已经基于原始鉴定子代样本中在任一亲本样本中均不存在的变异而鉴定出可能的从头突变之后，基于样本BAM文件数据来过滤变异的指令。

127.根据权利要求113至126中任一项所述的系统，其中所述程序包括用于子代样本中的可能的从头突变的等位基因平衡为约0.15或更大时，将所述可能的从头突变分类为中等置信度从头突变的指令。

128.根据权利要求113至127中任一项所述的系统，其中所述程序包括用于当在每个亲本样本中可能的从头突变的等位基因平衡为约0.02或更小时，将所述可能的从头突变分类为中等置信度从头突变的指令。

129.根据权利要求113至128中任一项所述的系统，其中所述程序包括用于当可能的从头突变不具有小于约40的映射质量时，将所述可能的从头突变分类为中等置信度从头突变的指令。

130.根据权利要求113至129中任一项所述的系统，其中所述程序包括用于当可能的从头突变不具有小于约2的测序深度对质量的影响(QD)值时，将所述可能的从头突变分类为中等置信度从头突变的指令。

131.根据权利要求113至130中任一项所述的系统，其中所述程序包括用于当各样本中可能的从头突变的MAC小于约20时，将所述可能的从头突变分类为中等置信度从头突变的指令。

132.根据权利要求113至131中任一项所述的系统，其中所述程序包括用于当可能的从头突变在所述可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段时，将所述可能的从头突变分类为中等置信度从头突变的指令。

133.根据权利要求113至132中任一项所述的系统，其中所述程序包括用于当可能的从头突变不是单聚物运行大于约4次的INDEL时，将所述可能的从头突变分类为中等置信度从头突变的指令。

134.根据权利要求113至133中任一项所述的系统，其中所述程序包括用于以下的指令：当可能的从头突变的等位基因平衡(AB)在子代样本中为约15％或更大并且在每个亲本样本中为约2％或更小，并且不具有小于约40的映射质量(MQ)，并且不具有小于约2的测序深度对质量的影响(QD)值，并且在各样本中的次要等位基因计数(MAC)小于约20，并且在具有可能的从头突变的携带者中的变异位点处具有约3个或更少的软剪切读段，并且不是单聚物运行大于约4次的INDEL时，将所述可能的从头突变分类为中等置信度从头突变。

135.根据权利要求134所述的系统，其中所述程序包括用于以下的指令：当所述中等置信度从头突变在亲本样本中的基因型质量(GQ)注释为约90或更大，并且在每个亲本样本中的读段深度(DP)为约10或更大，并且在子代样本中的替代DP为约7或更大，并且SNP的QD大于约3，并且INDEL的QD大于约5时，将所述中等置信度从头突变分类为高置信度从头突变。

136.根据权利要求113至135中任一项所述的系统，其中DNA序列样本包括外显子组序列。

137.根据权利要求113至136中任一项所述的系统，其中所述多个人类受试者包括大于10K的受试者。

138.根据权利要求118所述的系统，其中通过使用柯尔莫哥罗夫-斯米尔诺夫检验将样本的实际等位基因平衡分布与预期的等位基因平衡分布进行比较来确定低质量样本的D-统计。