CN115956131A

CN115956131A - 使用局部祖源的多基因性状预测

Info

Publication number: CN115956131A
Application number: CN202180041802.5A
Authority: CN
Inventors: D·普鲁士; A·古廷; E·侯格斯; J·兰彻伯里
Original assignee: Meliard Gene Co
Current assignee: Meliard Gene Co
Priority date: 2020-04-20
Filing date: 2021-04-16
Publication date: 2023-04-11
Also published as: EP4139490A2; EP4139490A4; US20230260658A1; MX2022013260A; JP2023523924A; BR112022021351A2; KR20230042213A; CA3176329A1; WO2021216380A2; CO2022016664A2; AU2021259184A1; WO2021216380A3

Abstract

本文提供了用于确定用于医疗用途的多基因性状和风险如癌症性状和风险的方法以及用于治疗其风险被鉴定和/或评估的疾病的方法。本发明的方法可以提供多基因得分，其通过风险基因座的等位基因的祖源起源将局部祖源考虑在内。多基因得分可以提供在确定祖源混合的群体的多基因性状和风险方面惊人地增加的准确性。

Description

使用局部祖源的多基因性状预测

技术领域

本发明涉及遗传学和医学领域。更具体地，本发明涉及用于预测用于医疗用途的多基因性状和风险以及治疗可评估其风险的疾病的方法。

背景技术

使用基因组测量来确定各种生物学性状的程度或表现是可取的。最近，对生物学性状进行基因型分型已经涉及预测临床病症的风险。方法已经涉及对多态性基因座进行基因型分型并确定多基因风险得分以表征临床病症的预期。

使用此类多基因组风险得分来评估临床病症的预期，而不管祖源(ancestry)如何。然而，来自基因组数据的风险得分依赖于鉴定要使用的多态性基因座。此外，多基因风险得分对于用于所述测量的特定群体而言是特定的，因此受所述群体内的祖源的影响。

用于产生多基因风险得分的常规方法的缺点是在特定群体中鉴定的多态性基因座不能提供不同群体中的准确的多基因风险得分。

例如，在欧洲起源的群体中鉴定的多态性基因座不能提供研究不足和/或遗传多样化的群组(包括祖源混合的群体，如同时具有非洲人和欧亚人祖源的群体)中的准确的多基因风险得分。更具体地，在欧洲起源的群体中鉴定的多态性基因座不能提供美国非裔美国人和美国拉丁美洲人群体的准确的多基因风险得分。

一种用于利用混合祖源群体鉴定多态性基因座的方法一直是审查来自定义群体的某些混合的受试者。然而，这在减少可用信息和得分的准确性方面产生了缺点。

另一种方法是针对所述群体的受试者的祖源组成调整最终得分。不幸的是，这在依赖假定的基因型特征方面产生了缺点。

一般而言，常规方法仅考虑研究受试者的总体祖源组成，这无法提供准确的得分。

需要一种用于确定多基因风险得分的高效且准确的方法，所述方法在预测能力方面具有增加的准确性和减少的误差。有利的临床风险算法可以改善医疗护理和患者治疗。

迫切需要用于评估临床病症(如癌症)的风险的方法。需要可以高效地达到医疗护理目的的方法。

发明内容

本发明提供了用于确定用于医疗用途的多基因性状和风险的方法以及用于治疗其风险被鉴定和/或评估的疾病的方法。

在一些方面，本发明的方法可以提供对具有任何不同和/或混合起源祖源的患者中的临床风险的优越预测。本发明的方法可以提供不依赖于患者自我报告祖源的多基因风险预测。此外，本发明的方法可以提供不依赖于所谓的“遗传”祖源组成的多基因风险预测。

在某些方面，本发明的临床实用性包括以既不受限于也不依赖于所述患者自我报告祖源或所谓的遗传祖源组成的方式，对包括非裔美国人患者在内的具有非欧洲人祖源的患者和具有任意混合祖源以及具有部分非洲遗传根源的拉丁美洲人和欧裔美国人祖源的患者中的临床风险的优越预测。

在一些方面，本发明的方法可以提供考虑局部祖源在内的多基因得分。可以通过风险基因座的等位基因的祖源起源将局部祖源考虑在内。

通过本发明的方法获得的多基因得分可以提供在确定祖源混合的群体的多基因性状和风险方面惊人地增加的准确性。

多基因性状的例子包括癌症(如乳腺癌)和其他疾病的可能性。

在其他方面，确定多基因性状和风险可以包括鉴定和利用基因组风险基因座。基因组风险基因座可以与性状相关联，即使所述基因组风险基因座可能与基因组效应和性状间接相关。

在本发明的一些实施方案中，间接效应基因组风险基因座可能与仅在特定或局部祖源群组中的性状相关联。

本发明的方法可以通过评估和包括局部祖源群组的贡献提供惊人地准确的多基因性状和风险确定。

本发明的实施方案考虑基于多种基因组风险基因座以得分的形式确定多基因性状和风险的水平。可以离散地鉴定和定义基因组风险基因座，使得可以通过对受试者进行基因型分型来进行准确的确定。

在某些方面，所述基因组风险基因座可以包括特定性状的基因组风险标记物，其与可提供祖源信息的另外的风险标记物组合。所述提供祖源信息的标记物可以邻接和/或侧接某些基因组风险标记物。所述提供祖源信息的标记物可以提供有关局部祖源群组的贡献的信息。

在某些实施方案中，多基因性状和/或风险的得分可以包括确定要与基因组风险标记物组合的另外的提供祖源信息的风险标记物的权重。

本发明的实施方案包括：

一种用于评估受试者中的生物学性状的方法，所述方法包括：

测量来自所述受试者的样品中的基因型，所述基因型具有以所述性状的性状风险标记物为中心的窗口，其中所述窗口包含侧接所述风险标记物的另外的提供祖源信息的标记物；

使用具有混合祖源的参考群体对所述基因型进行定相以确定每个窗口中的单倍型；

计算每个窗口的局部祖源起源的比值；以及

使用所述性状风险标记物和每个窗口的局部祖源起源的比值来计算所述受试者中的所述生物学性状的多基因风险得分，其中根据所述窗口的局部祖源起源调整所述得分。

性状风险标记物的数量可以是1-10,000。计算局部祖源起源的比值可以包括将每个窗口内的定相基因型划分为连续的非重叠拼块，每个非重叠拼块具有多达约300个另外的提供祖源信息的标记物，并且使用所述参考群体中的单倍型的经验频率来计算每个拼块中的每个所述单倍型的祖源起源的比值。每个拼块可以包含1-100个所述另外的提供祖源信息的标记物。每个拼块可以包含5-20个所述另外的提供祖源信息的标记物。所述窗口的宽度可以为约1MB。可以通过NGS确定所述基因型。可以用测序芯片确定所述基因型。所述生物学性状可以是癌症可能性。所述基因组风险标记物可以是癌症标记物。所述另外的提供祖源信息的标记物可以是SNP标记物或插入缺失标记物。所述基因组风险标记物可以是乳腺癌SNP标记物。计算多基因风险得分可以包括将每个等位基因对所述多基因风险得分的增量贡献计算为：局部祖源特定的风险效应β乘以基因型分型的风险等位基因的数量，所述数量为零或1，再减去群体特定的风险等位基因频率。

本发明进一步包括用于为患有疾病的受试者推荐疗法的方法，所述方法包括：

测量来自所述受试者的样品中的基因型，所述基因型包括与所述性状相关联的风险标记物，并且还包括侧接所述风险标记物的另外的提供祖源信息的标记物；

计算每个窗口的局部祖源起源的比值；以及

使用所述性状风险标记物和每个窗口的局部祖源起源的比值来计算所述受试者中的所述生物学性状的多基因风险得分，其中根据所述窗口的局部祖源起源调整所述得分；以及

基于所述风险得分超过阈值水平推荐用于所述疾病的疗法。所述疾病可以是癌症或乳腺癌。所述疗法可以是以下中的一种：用于所述疾病的疗法；监测期，接着是用于所述疾病的疗法；或逐渐减少用于所述疾病的疗法。所述疗法可以是以下中的一种或多种：手术、冷冻消融、放射疗法、骨髓移植、化学疗法、免疫疗法、激素疗法、干细胞疗法、药物疗法、生物疗法以及药物、预防性或治疗性化合物的施用。

本发明还包括用于鉴定从治疗中受益的患有疾病的受试者的方法，所述方法包括：

计算每个窗口的局部祖源起源的比值；

基于指示需要治疗或超过阈值水平的风险得分来鉴定从所述疾病的治疗中受益的患有所述疾病的受试者。所述疾病可以是癌症或乳腺癌。

本发明的实施方案还考虑用于治疗有需要的受试者中的疾病的方法，所述方法包括：

计算每个窗口的局部祖源起源的比值；

向所述受试者施用以下中的一种：用于所述疾病的疗法；监测期，接着是用于所述疾病的疗法；或逐渐减少用于所述疾病的疗法。

另外的实施方案包括用于监测患有疾病的受试者的反应的方法，所述方法包括：

计算每个窗口的局部祖源起源的比值；

本发明包括用于预测患有疾病的受试者的方法，所述方法包括：

计算每个窗口的局部祖源起源的比值；

基于所述风险得分，预测所述受试者具有所述疾病的不良预后，所述风险得分指示需要疗法或超过阈值水平。

其他实施方案包括用于评估受试者中的疾病风险的系统，所述系统包括：

用于接收来自所述受试者的样品的基因组数据的处理器；

用于执行以下步骤的一个或多个处理器：

计算每个窗口的局部祖源起源的比值；以及

使用所述性状风险标记物和每个窗口的局部祖源起源的比值来计算所述受试者中的所述生物学性状的多基因风险得分；以及

用于显示和/或报告所述风险得分的显示器。

还包括一种具有存储在其中的用于由处理器执行的指令的非暂时性机器可读存储介质，所述指令使所述处理器执行用于评估受试者中的疾病风险的方法的步骤，所述方法包括：

接收来自所述受试者的样品的基因组数据；

测量所述样品中的基因型，所述基因型具有以所述性状的性状风险标记物为中心的窗口，其中所述窗口包含侧接所述风险标记物的另外的提供祖源信息的标记物；

计算每个窗口的局部祖源起源的比值；

向处理器发送用于显示和/或报告所述风险得分的输出。

附图说明

图1显示了将亚厘摩区域分块为短的局部单倍型。可以使用公共数据集中的单倍型频率来准确地区分局部非洲人祖源与欧洲人祖源。显示了9个窗口，每个窗口12个标记物。非裔美国人(AfrAm)中非洲人局部祖源的可能性。

图2显示了IBS(伊比利亚/西班牙)数据集作为1000Genomes(G1K)欧洲人的一部分在局部祖源作图中展现出每个基因座多达2-3个非洲人单倍型。G1K中的一些欧洲人次要等位基因携带者显现出具有非常像非洲人的连锁不平衡(LD)模式。欧洲人(虚线)，非洲人(实线)。

图3显示了局部/全局祖源分布并且AF正如所预期的那样。rs132390的预测的种族起源的分布。经验非裔美国人(虚线)，G1K非洲人(实线)，G1K欧洲人(短划线)。

图4显示了如预期的那样具有广泛分布的17％的欧洲人全局祖源平均值。

图5显示了来自欧洲人局部祖源区段的经验MAF(y轴)与G1K MAF值(x轴)。

图6显示了来自非洲人局部祖源区段的经验MAF(y轴)与G1K MAF值(x轴)。

图7显示了可能需要许多标记物用于欧洲人/非洲人局部祖源分配。可以使用相对较少量的侧接标记物(x轴)实现局部非洲人/欧洲人祖源鉴定的90％至95％的惊人地高准确性。95％准确性(短划线)，90％准确性(实线)。

图8显示了可能需要许多标记物用于欧洲人/EAS局部祖源分配。可以使用相对较少量的侧接标记物(x轴)实现区分欧洲人祖源与东亚人祖源鉴定的90％至95％的惊人地高准确性。95％准确性(短划线)，90％准确性(实线)。

图9显示了具有未定相基因型的局部祖源分配的错误率。图9显示了3个SNP基因座即rs258809、rs10759243和rs1550623的结果，并且y轴展示了根据侧接基因座的数量的局部祖源解卷积的错误率。

具体实施方式

本发明包括用于在多基因风险预测中使用局部祖源提供对于所有受试者的准确的风险评估的方法，而不管祖源如何。

本发明的实施方案还提供了在祖源多样化和遗传混合群体中的可靠性状关联。

本公开文本提供了用于多个候选基因座的关联研究的各种方法，所述多个候选基因座的特征可以在于更广泛的连锁不平衡(LD)模式。大部分或全部不会对性状产生直接影响。

本发明的实施方案可以提供临床风险管理、风险量级评估以及多基因风险得分和非临床性状预测。本发明的方法可以提供对于所有受试者、甚至混合基因型都准确的预测能力。

本公开文本的各个方面包括对多态性基因座进行基因型分型并且以多基因得分的形式组合基因型以预测临床病症的风险或生物学性状的表现程度。

在一些实施方案中，多基因得分预测可能对于发现它们的群体和祖源是特定的。

在其他实施方案中，多个性状风险标记物可以与另外的提供祖源信息的标记物一起使用以提供对于所述性状的多基因风险预测。

在某些实施方案中，所述多个性状风险标记物可以是1-10,000个标记物或1-1000个标记物或1-100个标记物。

一些风险标记物可以出现在基因型的窗口中。所述窗口可以是约±0.5MB，其是1MB窗口；或±1MB或±2MB。在某些实施方案中，所述窗口可以是可用于将基因型定相的任何大小。

本发明可以为研究不足和遗传多样化群组提供风险预测可移植性。在某些实施方案中，本发明可以为祖源混合的群体(如同时具有非洲人和欧亚人祖源的群体，包括美国的非裔美国人和拉丁美洲人)提供风险预测可移植性。

在其他方面，本文提供了用于对不同群体之间的性状关联的可移植预测的方法。本文的实施方案可以提供改进的多基因风险预测，甚至在关于所述性状的等位基因效应是间接性质的情况下。在某些实施方案中，多种直接效应基因座可能仍未被发现，但可以通过连锁不平衡与所发现的基因座建立联系。多种直接效应基因座可以通过厘摩量级的遗传距离分隔开。

本发明的各个方面可以提供用于鉴定基因型的每个等位基因及其祖源的独特方法。

本发明的其他方面可以提供用于确定多基因风险得分以预测生物学性状的独特方法。

在一些方面，大型关联研究可以以更大的能力来打破连锁不平衡(LD)模式，并专注于更少的基因座。在一些实施方案中，单个最佳候选SNP可能不是真正的直接效应等位基因。

在其他方面，可以在不同祖源的群体中检索候选SNP与真正的直接效应等位基因之间的LD模式。

在某些方面，可以在欧洲人群体中发现一种或多种风险SNP。所述风险SNP可能在东亚人群体中保持显著性，并且可能具有降低的比值比。一些欧洲SNP可以用于非洲人群体。

在一些实施方案中，GWAS的遗传距离分辨率可以在0.1cM范围内，这意味着候选SNP与真正的风险基因座之间的LD模式预计会在几个1000代(20,000至60,000年)后消失。例如，在这个时间范围内，欧亚人群体可能彼此之间具有显著的共同祖源，但与非洲人却没有显著的共同祖源。

在其他实施方案中，局部和全局的遗传祖源可以与相似的等位基因一起使用，以实现不同的间接效应。通过GWAS研究鉴定的等位基因很少是一个祖源群体独有的。然而，比值比和平均得分值二者均可以在祖源之间广泛变化。文化或自我报告祖源与遗传祖源之间的差距可能是巨大的。遗传祖源可以准确地告知SNP-性状效应大小。

在某些实施方案中，当群体在历史上最近混合且特征性祖源染色体块>>0.1cM时，则只有DNA区段的局部祖源可以告知效应计算。

对于非裔美国人局部祖源，主要的来源群体可能平均超过80％是西非人，而低于20％是欧洲人，具有很大差异。平均欧洲人区段大小可以接近30cM，其中有许多较短的区段，低标记物密度研究可能混合使用。

本发明考虑计算定相基因组中的局部祖源。

在一些实施方案中，局部单倍型可以是提供祖源信息的。

在其他方面，本发明提供了将亚厘摩区域分块为短的局部单倍型。在某些方面，可以使用参考数据集中的单倍型频率来准确地区分局部非洲人祖源与欧洲人祖源。

本发明的实施方案可以使千年历史的混血人曝光。祖源参考群体在历史≥0.1cM的时间范围内可能经历了有限的混合。可以观察到伊比利亚半岛的低水平非洲混血人，并且可以通过远古DNA研究将其追溯至罗马时代以及部分追溯至卡利法特(Kalifate)时代。IBS(伊比利亚/西班牙)参考数据集可以是1000Genomes Europeans的一部分，并且可以在局部祖源作图中提供每个基因座多达2-3个非洲人单倍型。

在一些实施方案中，可以使用高密度基因阵列。所述阵列可以包括从2x 10⁵到5x10⁶个SNP。

在某些实施方案中，可以使用高密度AXIOM阵列。

在其他实施方案中，乳腺癌风险标记物可以在窗口中与另外的侧接SNP一起使用。所述窗口可以是约±0.5MB，其是1MB窗口。

乳腺癌风险标记物的一些例子在以下文献中给出：Prediction of breastcancer risk based on profiling with common genetic variants,Mavaddat等人,JNatl Cancer Inst.,2015,4月8日,第107卷(5)。

乳腺癌风险标记物的一些例子在以下文献中给出：Characterizing GeneticSusceptibility to Breast Cancer in Women of African Ancestry,Feng等人,CancerEpidemiol Biomarkers Prev.,2017,7月,第26卷(7),第1016-1026页。

乳腺癌风险标记物的一些例子在以下文献中给出：Early Diagnosis of BreastCancer,Wang等人,Sensors(Basel),2017,7月,第17卷(7),第1572页。

在某些方面，使用1000Genomes计划的非洲人和欧洲人参考数据集，用Beagle5.1将基因型定相。定相的基因型可以分为每个约15个标记物的非重叠拼块。可以计算每个拼块的非洲人起源相比于欧洲人起源的比值。

在其他方面，全局祖源校正的多基因风险得分可以惊人地比平均祖源校正的多基因风险得分更准确。

在一些方面，局部祖源校正的多基因风险得分可以惊人地比全局祖源校正的多基因风险得分更准确。

在其他方面，可以通过逻辑回归评价多基因风险得分与乳腺癌之间的关联。所述逻辑回归可以针对年龄和家族史以及其他变量进行调整。所述逻辑回归可以包括年龄和家族史的参数或数据以及其他变量。

在另外的方面，侧接标记物可以从定相的1000Genomes基因型逐个添加，以在每次迭代时最大化局部祖源区分。

在某些方面，有利地，少量的侧接标记物可以用于实现局部非洲人/欧洲人祖源鉴定的90％至95％准确性。

在其他实施方案中，区分欧洲人祖源与东亚人祖源的艰巨任务可能需要少于约20个侧接的另外的SNP标记物。

多基因风险得分

本发明的各个方面考虑了用于计算多基因得分的方法，所述方法将风险基因座的等位基因的祖源起源即局部祖源考虑在内。

本发明的方法可以使用任何数量的性状风险标记物。用于确定本发明的局部祖源校正的多基因风险得分的方法可以使用表2中所示的一组标记物中的任何3个或更多个标记物、或任何5个或更多个标记物、或任何10个或更多个标记物。

本发明的各个方面考虑了用于在针对风险基因座的等位基因的祖源起源即局部祖源进行调整的情况下计算多基因得分的方法。

在一些实施方案中，局部祖源调整可以显著改进在预测祖源混合群体中的性状(如乳腺癌)时的多基因得分可移植性。

在其他实施方案中，间接效应风险基因座可以仅与祖源群组之一中的性状相关联。在其他实施方案中，风险等位基因可以具有直接效应，所述直接效应的大小在局部祖源的范围内可以是相似的。

本发明的实施方案提供了用于准确地测量等位基因对风险预测的局部祖源依赖性贡献的方法。与基于研究受试者的总体祖源组成的常规调整相比，本发明的方法可以提供具有惊人地提高的准确性的风险预测。

本公开文本的方法可以包括用于鉴定所有临床或性状相关基因型的祖源起源的步骤。

在某些实施方案中，可以使用与可评分基因座相邻的许多另外的提供祖源信息的基因座的基因型。

在其他实施方案中，特定权重可以被应用到可评分基因座，这依赖于它们的祖源起源，即局部祖源。

本发明的方法的步骤可以包括对匿名的非裔美国人受试者进行基因型分型。基因型分型可以通过任何方法进行，所述方法包括NDS、定制芯片或NGS和芯片的组合。

在一些实施方案中，已知乳腺癌风险标记物的子集可以在以每个已知风险标记物为中心的窗口中与另外的标记物一起使用。所述子集可以在公共的非洲人和欧洲人对照中具有较高的等位基因频率，以及所述另外的标记物之间较低的连锁不平衡。

另外的标记物的例子包括SNP和插入缺失。

在某些实施方案中，所述基因型可以是定相的单倍型。基因型定相可以通过已知的方法进行。

用于单倍型估计的方法的例子包括隐马尔可夫模型(HMM)、PHASE、吉布斯采样、fastPHASE、BEAGLE、单倍型聚类建模、IMPUTE2、MaCH、SHAPEIT1、HAPI-UR和SHAPEIT2。

在另外的实施方案中，基因型定相可以基于相似性因子利用错配来进行。

在其他步骤中，用于单倍型估计的方法可以使用非洲人和欧洲人参考数据集。

参考数据集的例子包括1000Genomes计划。参考数据集的例子包括超过10⁵个基因组的公共和/或私人集合。

在另外的实施方案中，定相的基因型窗口可以分成连续的非重叠拼块。每个拼块可以包括多个标记物。在某些实施方案中，拼块可以含有多达约300个标记物、或1-100个标记物、或2-50个标记物、或5-40个标记物、或5-20个标记物。

本发明的方法的另外的步骤可以包括计算每个拼块中每个单倍型的非洲人起源相比于欧洲人起源的比值。在某些步骤中，可以使用参考集中单倍型的经验频率来计算每个单倍型的非洲人起源相比于欧洲人起源的比值。对于在参考集中不存在的单倍型，可以使用每个集0.5次观察的频率。在所有参考集中都不存在的单倍型可以被认为是非洲人或欧洲人的可能性相等。

在一些实施方案中，可以根据等式I找到基因座的祖源起源属于非洲人相比于属于欧洲人的比值。

其中K是单倍型拼块的数量，h_i是拼块i处的单倍型，N(h_i,A)和N(h_i,E)是非洲人(A)和欧洲人(E)参考集中的观察到的计数，并且N(E)/N(A)是各个参考集中单倍型的总数。

在其他实施方案中，含有风险SNP的每个等位基因的整个区段的非洲人祖源起源相比于欧洲人祖源起源的总比值可以计算为所述区段内所含所有拼块单倍型的比值的乘积。可以根据等式II分配每个等位基因属于“欧洲人祖源”相比于“非洲人祖源”的分数概率，即分数局部祖源。

LA＝1/(p_A|E+1) 等式II。

在另外的实施方案中，每个研究受试者的欧洲人祖源的总分数即全局祖源GA可以根据等式III计算为所有基因座的分数欧洲人局部祖源的平均值。

本发明的方法的其他步骤可以包括将每个等位基因对所述多基因风险得分的增量贡献计算为：局部祖源特定的风险效应β乘以基因型分型的风险等位基因的数量，其中GT_SNP可以为零或1，再减去群体特定的风险等位基因频率。

在一些实施方案中，欧洲人局部祖源的局部祖源特定的β可以是已知的。对于在非洲人研究中未能显示出显著且一致的效应的风险标记物，可以假定非洲人祖源特定的β等于零。非洲人局部祖源的局部祖源特定的β也可以是已知的，或者可以假定为零。在某些实施方案中，对于在非洲人群体研究中具有边际显著效应的风险标记物，可以假定非洲人祖源特定的β是从欧洲人研究中按比例缩小的β。

在一些方面中，可以基于以下假设来计算比较性常规多基因风险得分(cPRS)：可以使用等于相应全局祖源平均值的权重(对于欧洲人祖源为GAA且对于非洲人祖源为(1-GAA))内插祖源群组的相应β即β_A，SNP和β_E，SNP。根据等式IV和V，常规得分可以以混合的群体特定的次要等位基因频率MAF_AA，SNP为中心。

其中

在某些方面，比较或常规方法可以涉及全局祖源调整，其可以根据等式VI使用每个受试者的实际全局祖源来内插祖源β。

在其他方面中，本发明的实施方案可以提供用于局部祖源调整的方法，所述方法可以根据等式VII使用每个特定等位基因属于欧洲人的分数可能性LA，并且将得分的两个祖源分量都以相应的祖源次要等位基因频率MAF_A，SNP和MAF_E，SNP为中心来内插祖源β。

在某些方面，可以通过使用欧洲人祖源相比于非洲人祖源的平均百分比在欧洲人局部祖源特定的β与非洲人局部祖源特定的β之间内插来计算平均非裔美国人群体特定的β。可以通过使用每个特定受试者中欧洲人祖源相比于非洲人祖源的实际百分比在欧洲人局部祖源特定的β与非洲人局部祖源特定的β之间内插来计算全局祖源校正的β。

癌症得分和治疗

癌症疗法可以包括手术、冷冻消融、放射疗法、骨髓移植、化学疗法、免疫疗法、激素疗法、干细胞疗法、药物疗法、生物疗法以及药物、包括例如生物药剂或外源活性药剂在内的预防性或治疗性化合物的施用。

治疗的例子包括减肥手术干预、物理疗法、饮食和饮食补充。

癌症生物疗法的例子包括过继细胞转移、血管生成抑制剂、卡介苗疗法、生物化学疗法、癌症疫苗、嵌合抗原受体(CAR)T细胞疗法、细胞因子疗法、基因疗法、免疫检查点调节剂、免疫缀合物、单克隆抗体、溶瘤病毒疗法和靶向药物疗法。

癌症手术的例子包括乳房切除术、部分乳房切除术、完全乳房切除术、单纯性乳房切除术、改良根治性乳房切除术、根治性乳房切除术和哈耳斯蒂特氏根治性乳房切除术。

癌症药物的例子包括批准用于预防乳腺癌的药物，包括易维特(盐酸雷洛昔芬)、盐酸雷洛昔芬和柠檬酸他莫昔芬。

癌症药物的例子包括批准用于治疗乳腺癌的药物，包括阿贝西利、白蛋白结合型紫杉醇(紫杉醇白蛋白稳定的纳米颗粒配制品)、Ado-恩美-曲妥珠单抗、癌伏妥(依维莫司)、依维莫司口服混悬液片(依维莫司)、阿培利司、阿那曲唑、阿可达(帕米膦酸二钠)、瑞宁得(阿那曲唑)、阿诺新(依西美坦)、阿特利珠单抗、卡培他滨、环磷酰胺、多西他赛、盐酸多柔比星、Ellence(盐酸表柔比星)、Enhertu(Fam-曲妥珠单抗-德鲁替康-nxki)、盐酸表柔比星、甲磺酸艾瑞布林、依维莫司、依西美坦、5-FU(氟尿嘧啶注射液)、Fam-曲妥珠单抗-德鲁西康-nxki、法乐通(托瑞米芬)、芙仕得(氟维司群)、Femara(来曲唑)、氟尿嘧啶注射液、氟维司群、盐酸吉西他滨、健择(盐酸吉西他滨)、醋酸戈舍瑞林、Halaven(甲磺酸艾瑞布林)、Herceptin Hylecta(曲妥珠单抗和透明质酸酶-oysk)、赫赛汀(曲妥珠单抗)、爱博斯(帕博西尼)、伊沙匹隆、Ixempra(伊沙匹隆)、Kadcyla(Ado-恩美-曲妥珠单抗)、Kisqali(瑞博西尼)、二甲苯磺酸拉帕替尼、来曲唑、利普卓(奥拉帕尼)、醋酸甲地孕酮、甲氨蝶呤、马来酸来那替尼、Nerlynx(马来酸来那替尼)、奥拉帕尼、紫杉醇、紫杉醇白蛋白稳定的纳米颗粒配制品、帕妥珠单抗、帕米膦酸二钠、Perjeta(帕妥珠单抗)、帕妥珠单抗、Piqray(阿培利司)、瑞博西尼、甲苯磺酸他拉唑帕尼、Talzenna(甲苯磺酸他拉唑帕尼)、柠檬酸他莫昔芬、泰素帝(多西他赛)、泰圣奇(阿特利珠单抗)、噻替哌、托瑞米芬、曲妥珠单抗、曲妥珠单抗和透明质酸酶-oysk、Trexall(甲氨蝶呤)、泰立沙(二甲苯磺酸拉帕替尼)、Verzenio(阿贝西利)、硫酸长春碱、希罗达(卡培他滨)和诺雷得(醋酸戈舍瑞林)。

如本文所用，术语“疾病”包括表现在例如身体的功能失调或错误的器官、部位、结构或系统中的任何障碍、病症、疾病、病痛。

如本文所用，术语“样品”包括从受试者分离的任何生物样品。样品可以包括但不限于单个细胞或多个细胞、细胞碎片、体液等分试样、全血、血小板、血清、血浆、红血细胞、白血细胞或白细胞、内皮细胞、组织活检、滑液、淋巴液、腹水和间质液或细胞外液。术语“样品”还涵盖细胞之间的空间中的液体，包括滑液、龈沟液、骨髓、脑脊液(CSF)、唾液、粘液、痰、精液、汗液、尿液或任何其他体液。血液样品可以包括全血或其任何级分，包括血细胞、红血细胞、白血细胞或白细胞、血小板、血清和血浆。

如本文所用，术语“受试者”包括人以及哺乳动物。

在一些实施方案中，本发明可以提供用于推荐治疗方案的方法，包括退出治疗方案。

在其他实施方案中，比值比可以向临床医生提供受试者的生物学状态的预后情况。此类实施方案可以提供受试者特定的预后信息，其可以为疗法决策提供信息，并且还可以方便监测疗法反应。此类实施方案可以导致惊人地改进的治疗，如疾病的更好控制或者实现症状改善的受试者比例的增加。

如本文所用，术语“生物”、“生物疗法”和/或“生物制药”可以包括从生物物质制造或提取的药物疗法产品。生物制剂可以包括疫苗、血液或血液组分、过敏原制剂、体细胞、基因疗法、组织、重组蛋白和活细胞；并且可以以由糖、蛋白质、核酸、活细胞或组织或其组合组成。

如本文所用，术语“治疗方案”、“疗法”和/或“治疗”可以包括受试者的任何临床管理以及旨在维持、改善、或者以其他方式改变受试者的状况的干预，无论是生物干预、化学干预、物理干预或其组合。

如本文所用，术语“施用”可以包括通过方法或途径将组合物放置到受试者中，所述方法或途径导致所述组合物至少部分定位在所需位点，使得产生所需效果。施用途径包括局部和全身施用二者。通常，与受试者的整个身体相比，局部施用导致更多的组合物被递送到特定位置，而全身施用导致递送到受试者的基本整个身体。“施用”还包括对受试者的身体进行物理动作，包括物理疗法以及脊椎按摩治疗、按摩和针灸。

设备和系统

如本文所用，术语机器可读存储介质可以包括例如用机器可读数据或数据阵列编码的数据存储材料。当使用采用指令(用于使用所述数据)编程的机器时，所述数据和机器可读存储介质可以能够用于各种目的。这些目的包括存储、访问和操纵与随时间而变的受试者或群体的风险或响应于治疗的风险相关的信息或者用于炎性疾病的药物发现的信息。包含基因组测量结果的数据可以在可编程计算机上执行的计算机程序中实现，所述可编程计算机可以包括处理器、数据存储系统、一个或多个输入设备、一个或多个输出设备。可以将程序代码应用于输入数据以执行本文所述的功能，并生成输出信息。然后可以将输出信息应用于一个或多个输出设备。计算机可以是例如个人计算机、微型计算机或工作站。

如本文所用，术语计算机程序可以是以高水平程序性或面向对象的编程语言实现的指令代码以与计算机系统通信。所述程序可以以机器或汇编语言实现。所述编程语言也可以是编译或解释语言。每个计算机程序可以存储在存储介质或设备(如ROM或磁盘)上，并且可以是由可编程计算机可读的，以用于在计算机读取存储介质或设备以执行所述程序时配置和操作计算机。可以认为健康相关或基因组数据管理系统被实现为计算机可读存储介质，其配置有计算机程序，其中所述存储介质使计算机以可执行各种功能的特定方式运行。

结论

将本文特别提及的所有出版物、专利和文献通过引用以其整体并入于此以用于所有目的。

本文具体定义的词语具有在本公开文本的整体上下文中提供的含义，并且如本领域技术人员通常理解的那样。如本文所使用的，单数形式“一个”、“一种”和“所述”包括复数。

虽然结合各个实施方案描述了本公开文本，但本公开文本并不旨在限于此类实施方案。相反，如本领域技术人员将理解的，本公开文本涵盖各种替代方案、修改和等同物。

除非另外定义，否则本文中使用的所有技术和科学术语都具有与本发明所属领域的普通技术人员通常所理解相同的含义。尽管与本文所述的方法和材料类似或等同的那些方法和材料可以用于本发明的实践或测试，但以下描述了合适的方法和材料。此外，本文的材料、方法以及实施例仅仅是说明性的并不意在是限制性的。

尽管为了理解清楚的目的，已经通过说明和示例的方式对前述公开文本进行了一些详细描述，但是本领域技术人员将理解，可以在本发明和所附权利要求的范围内实践各种改变和修改。

实施例

实施例1：对于标记物的基因型窗口

在针对风险基因座的等位基因的局部祖源起源进行调整的情况下计算多基因风险得分。为了鉴定所有临床或性状相关基因型的祖源起源，使用与可评分基因座相邻的多个另外的提供祖源信息的基因座的基因型。

使用1000Genomes计划的非洲人和欧洲人参考数据集作为参考，用Beagle 5.1将基因型定相。定相的基因型的每个1MB窗口分成各自具有15个SNP标记物的连续非重叠拼块。

图1显示了将亚厘摩区域分块为短的局部单倍型。使用公共数据集中的单倍型频率来准确地区分局部非洲人祖源与欧洲人祖源。图1显示了使用了12个标记物的9个窗口。非裔美国人中非洲人局部祖源的可能性。

实施例2：局部祖源和比较计算

图2显示了IBS(伊比利亚/西班牙)数据集作为1000Genomes(G1K)欧洲人的一部分在局部祖源作图中展现出每个基因座多达2-3个非洲人单倍型。G1K中的一些欧洲人次要等位基因携带者具有非常像非洲人的LD模式。欧洲人(虚线)，非洲人(实线)。

图3显示了局部/全局祖源分布和等位基因频率(AF)的比较正如所预期的那样。rs132390的预测的种族起源的分布。经验非裔美国人(虚线)，G1K非洲人(实线)，G1K欧洲人(短划线)。

图4显示了正如所预期的那样，欧洲人全局祖源平均值为17％，分布广泛。

图5显示了来自欧洲人局部祖源区段的经验MAF(y轴)与G1K MAF值(x轴)。图5显示了风险标记物的局部祖源来源的经验祖源等位基因频率(AF)估计值与欧洲人和非洲人中的等位基因频率的公共可获得的估计值密切匹配。因此，局部祖源计算以惊人的准确性估计染色体区段的祖源组成，并且还将局部祖源分配至每个风险等位基因。

实施例3：计算局部祖源的比值

根据等式I，使用参考集中单倍型的经验频率计算每个拼块中每个单倍型的非洲人祖源起源相比于欧洲人祖源起源的比值。将一个参考集中不存在的单倍型分配至每个集0.5次观察的频率。所有参考集中不存在的单倍型被认为是非洲人与欧洲人的可能性相等。

含有风险SNP的每个等位基因的整个区段的非洲人祖源起源相比于欧洲人祖源起源的总比值计算为所述区段内所含所有拼块单倍型的比值的乘积。根据等式II找到每个等位基因属于“欧洲人祖源”相比于“非洲人祖源”的分数概率或分数局部祖源LA。

根据等式III将每个研究受试者的欧洲人祖源的总分数或全局祖源GA计算为所有基因座的分数欧洲人局部祖源的平均值。

每个等位基因对多基因风险得分的增量贡献计算为：局部祖源特定的风险效应(β)乘以基因型分型的风险等位基因的数量，再减去群体特定的风险等位基因频率，其中GT_SNP＝0或1。

欧洲人局部祖源的局部祖源特定的β获得自Mavaddat(J Natl Cancer Inst.,2015,4月8日,第107卷(5))。非洲人局部祖源的局部祖源特定的β是直接从Feng(CancerEpidemiol Biomarkers Prev.,2017,7月,第26卷(7),第1016-1026页)得到的，或者是从Feng和Wang(Sensors(Basel),2017,7月,第17卷(7),第1572页)估计的。根据Feng和Wang的估计，对于名义上显著的乳腺癌风险关联，只要与Mavaddat的风险估计一致，就假定后者也适用于非洲人局部祖源，即泛祖源风险标记物。对于在非洲人研究中未能显示出显著且一致的效应的Mavaddat中的风险标记物，假定非洲人祖源特定的β等于零。任选地，对于在非洲人群体研究中具有边际显著效应的风险标记物，假定非洲人祖源特定的β是从欧洲人研究中按比例缩小的β。

实施例4：多基因风险得分

基于以下假设来计算比较性常规多基因风险得分(cPRS)：使用等于相应全局祖源平均值的权重(对于欧洲人祖源为GAA且对于非洲人祖源为(1-GAA))内插祖源群组的相应β即β_A,SNP和β_E,SNP。根据等式IV和V，常规得分以混合的群体特定的次要等位基因频率MAF_AA,SNP为中心。

用于全局祖源调整的比较性常规方法是根据等式VI进行计算的，所述方法可以使用每个受试者的实际全局祖源来内插祖源β。

计算局部祖源调整，其可以使用每个特定等位基因属于欧洲人的分数可能性LA内插祖源β。根据等式VII，得分的两个祖源分量都以相应祖源次要等位基因频率MAF_A,SNP和MAF_E,SNP为中心。

通过使用欧洲人祖源相比于非洲人祖源的平均百分比在欧洲人局部祖源特定的β与非洲人局部祖源特定的β之间内插来计算平均非裔美国人群体特定的β。通过使用每个特定受试者中欧洲人祖源相比于非洲人祖源的实际百分比在欧洲人局部祖源特定的β与非洲人局部祖源特定的β之间内插来计算全局祖源校正的β。

实施例5：对于乳腺癌状态的局部祖源校正的多基因风险得分的准确性

通过本发明计算的局部祖源校正的多基因风险得分(PRS)惊人地比常规“全局”祖源校正的PRS和常规平均祖源校正的PRS更准确。

在一组4615名匿名的非裔美国人患者中，通过针对年龄和家族史调整的逻辑回归评价多基因风险得分与性状乳腺癌状态之间的关联。

通过本发明的局部祖源校正方法计算的多基因风险得分与性状乳腺癌状态之间的关联惊人地比常规“全局”祖源校正方法和常规“平均”祖源校正方法更准确。

表1显示了用一组64个风险标记物获得的结果，其中假定19个影响欧洲人和非洲人祖源环境中的乳腺癌风险。如表1所示，本发明的用于确定局部祖源校正的多基因风险得分的方法惊人地比常规“全局祖源校正的”或“平均祖源校正的”方法更优越且更准确。表1中的p值显示出通过本发明的用于在通过使用局部祖源调整或校正的情况下确定多基因风险得分的方法实现了大于3倍的增强。

表1：如通过本发明和比较方法确定的多基因风险得分与性状乳腺癌状态之间的关联

(1)cPRS：常规平均祖源校正的多基因风险得分

(2)全局：“全局”祖源校正的多基因风险得分

(3)局部：本发明的局部祖源校正的多基因风险得分

表2显示了64个风险标记物的组。

表2：SNP变体

实施例6：对于局部祖源的标记物

图7显示了可能需要许多标记物用于欧洲人/非洲人局部祖源分配。相对较少量的侧接标记物(x轴)可以用于实现局部非洲人/欧洲人祖源鉴定的90％至95％的惊人地高准确性。95％准确性(短划线)，90％准确性(实线)。

图8显示了可能需要许多标记物用于欧洲人/EAS局部祖源分配。相对较少量的侧接标记物(x轴)可以用于实现区分欧洲人祖源与东亚人祖源鉴定的90％至95％的惊人地高准确性。95％准确性(短划线)，90％准确性(实线)。

Claims

1.一种用于评估受试者中的生物学性状的方法，所述方法包括：

计算每个窗口的局部祖源起源的比值；以及

使用所述性状风险标记物和每个窗口的局部祖源起源的比值来计算所述受试者中的所述生物学性状的多基因风险得分。

2.根据权利要求1所述的方法，其中使用所述另外的提供祖源信息的标记物确定所述窗口的局部祖源起源。

3.根据权利要求1所述的方法，其中性状风险标记物的数量是1-10,000。

4.根据权利要求1所述的方法，其中计算所述局部祖源起源的比值包括将每个窗口内的定相基因型划分为连续的非重叠拼块，每个非重叠拼块具有多达约300个另外的提供祖源信息的标记物，并且使用所述参考群体中的单倍型的经验频率来计算每个拼块中的每个所述单倍型的祖源起源的比值。

5.根据权利要求4所述的方法，其中每个拼块包含1-100个所述另外的提供祖源信息的标记物。

6.根据权利要求4所述的方法，其中每个拼块包含5-20个所述另外的提供祖源信息的标记物。

7.根据权利要求1所述的方法，其中所述窗口的宽度为约1MB。

8.根据权利要求1所述的方法，其中通过NGS确定所述基因型。

9.根据权利要求1所述的方法，其中用测序芯片确定所述基因型。

10.根据权利要求1所述的方法，其中所述生物学性状是癌症可能性。

11.根据权利要求1所述的方法，其中所述基因组风险标记物是癌症标记物。

12.根据权利要求1所述的方法，其中所述另外的提供祖源信息的标记物是SNP标记物或插入缺失标记物。

13.根据权利要求1所述的方法，其中所述基因组风险标记物是乳腺癌SNP标记物。

14.根据权利要求1所述的方法，其中所述计算多基因风险得分包括将每个等位基因对所述多基因风险得分的增量贡献计算为：局部祖源特定的风险效应β乘以基因型分型的风险等位基因的数量，所述数量为零或1，再减去群体特定的风险等位基因频率。

15.一种用于为患有疾病的受试者推荐疗法的方法，所述方法包括：

计算每个窗口的局部祖源起源的比值；

基于指示需要某种疗法的风险得分推荐所述疗法用于所述疾病。

16.根据权利要求15所述的方法，其中所述疾病是癌症。

17.根据权利要求15所述的方法，其中所述疾病是乳腺癌。

18.根据权利要求15所述的方法，其中所述疗法是以下中的一种：

用于所述疾病的疗法；

监测期，接着是用于所述疾病的疗法；

逐渐减少用于所述疾病的疗法。

19.根据权利要求15所述的方法，其中所述疗法是以下中的一种或多种：手术、冷冻消融、放射疗法、骨髓移植、化学疗法、免疫疗法、激素疗法、干细胞疗法、药物疗法、生物疗法以及药物、预防性或治疗性化合物的施用。

20.一种用于鉴定从治疗中受益的患有疾病的受试者的方法，所述方法包括：

计算每个窗口的局部祖源起源的比值；

基于指示需要所述治疗的风险得分来鉴定从所述疾病的治疗中受益的患有所述疾病的受试者。

21.根据权利要求20所述的方法，其中所述疾病是癌症。

22.根据权利要求20所述的方法，其中所述疾病是乳腺癌。

23.根据权利要求20所述的方法，其中所述治疗是以下中的一种：

用于所述疾病的疗法；

监测期，接着是用于所述疾病的疗法；

逐渐减少用于所述疾病的疗法。

24.根据权利要求20所述的方法，其中所述治疗是以下中的一种或多种：手术、冷冻消融、放射疗法、骨髓移植、化学疗法、免疫疗法、激素疗法、干细胞疗法、药物疗法、生物疗法以及药物、预防性或治疗性化合物的施用。

25.一种用于治疗有需要的受试者中的疾病的方法，所述方法包括：

计算每个窗口的局部祖源起源的比值；以及

使用所述性状风险标记物和每个窗口的局部祖源起源的比值来计算所述受试者中的所述生物学性状的多基因风险得分，其中所述多基因风险得分指示需要治疗所述受试者；以及

向所述受试者施用以下中的一种：

用于所述疾病的疗法；

监测期，接着是用于所述疾病的疗法；

逐渐减少用于所述疾病的疗法。

26.根据权利要求25所述的方法，其中所述疗法是选自以下中的一种或多种的癌症疗法：手术、冷冻消融、放射疗法、骨髓移植、化学疗法、免疫疗法、激素疗法、干细胞疗法、药物疗法、生物疗法以及药物、预防性或治疗性化合物的施用。

27.一种用于监测患有疾病的受试者的反应的方法，所述方法包括：

计算每个窗口的局部祖源起源的比值；以及

28.一种用于预测患有疾病的受试者的方法，所述方法包括：

计算每个窗口的局部祖源起源的比值；

基于所述风险得分预测所述受试者具有所述疾病的不良预后。

29.一种用于评估受试者中的疾病风险的系统，所述系统包括：

用于接收来自所述受试者的样品的基因组数据的处理器；

用于执行以下步骤的一个或多个处理器：

计算每个窗口的局部祖源起源的比值；以及

用于显示和/或报告所述风险得分的显示器。

30.一种具有存储在其中的用于由处理器执行的指令的非暂时性机器可读存储介质，所述指令使所述处理器执行用于评估受试者中的疾病风险的方法的步骤，所述方法包括：

接收来自所述受试者的样品的基因组数据；

计算每个窗口的局部祖源起源的比值；

向处理器发送用于显示和/或报告所述风险得分的输出。