CN105861664A

CN105861664A - 使用祖先数据进行基因组分析的方法和系统

Info

Publication number: CN105861664A
Application number: CN201610237029.0A
Authority: CN
Inventors: D·A·斯特普汉; J·韦塞尔; M·卡尔吉尔; E·哈尔珀林
Original assignee: Navigenics Inc
Current assignee: Navigenics Inc
Priority date: 2007-09-26
Filing date: 2008-09-26
Publication date: 2016-08-17
Also published as: CN101842496A; JP2010539947A; US20090099789A1; CA2700975A1; WO2009042975A1; JP5491400B2; EP2215253A1; AU2008304205B2; EP2215253B1; AU2008304205A8; AU2008304205A1; EP2215253A4; AU2008304205B8; US20130013217A1

Abstract

本发明提供了通过分析个体的基因组谱(genomic profile)和使用祖先数据来确定基因型和表型之间的相关性而评估个体的基因型与表型之间的相关性的方法和系统。

Description

使用祖先数据进行基因组分析的方法和系统

本申请是申请日为2008年9月26日、申请号为200880114465.2、发明名称为“使用祖先数据进行基因组分析的方法和系统”的发明专利申请的分案申请。

交叉引用

本申请要求于2007年9月26日提交的美国临时申请60/975,495的优先权，其全部内容通过引用方式结合在此。

背景技术

人类基因组测序和人类基因组学中的其它最新发展表明：任意两个人之间的基因组组成可具有超过99.9％的相似性。但是个体间存在的相对较小数量的DNA变异会导致表型性状的差异，并与许多人类疾病、对各种不同疾病的易感性和对疾病治疗的响应相关。个体间的DNA差异出现在编码和非编码区，并包括在基因组DNA序列中的特定位点上的碱基改变以及DNA的插入和缺失。出现在基因组单个碱基位置上的改变被称为单核苷酸多态性或“SNP”。

尽管SNP在人类基因组中相对罕见，但是它们占个体间DNA序列变异的大多数，在人类基因组中每1200个碱基对会出现大约1次(参见国际HapMap计划，www.hapmap.org)。随着可获得更多的人类遗传信息，人们逐渐了解到SNP的复杂性。随之，人们发现基因组中SNP的出现与各种疾病和症状的存在和/或易感性相关。

随着这些相关性的发现和人类遗传学中的其它进展，医学和个人保健总体上会朝向个性化的途径发展，其中患者特别地根据他或她的基因组信息来进行适当的医疗和其它选择。有可能影响考虑的一个重要因素为个体的祖先数据(家系)或种族。例如，由于各种可能的原因例如重组率的差异、选择压力或种群瓶颈(bottleneck)，不同的群体可具有不同的连锁不平衡模式。因此，如果已对群体A进行了研究而在该群体中获得了与表型相关的遗传变异的特定优势比(odds ratio)，并不能在群体B中也假定具有相同的优势比。因此，需要向个体和他们的保健提供者(care-giver)提供个体特定的个人基因组信息(包括祖先数据)以最终提供个性化的医疗和其它决定。

发明内容

本发明提供了用于评估个体表型的基因型相关性的方法，包括：a)获得所述个体的遗传样品；b)产生所述个体的基因组谱；c)通过比较所述个体的基因组谱和目前的人类基因型-表型相关性数据库来确定所述个体的基因型与表型之间的相关性；d)向所述个体或所述个体的医疗保健管理者报告来自步骤(c)的结果；e)在附加的人类基因型相关性已知时，用该附加的人类基因型相关性来更新人类基因型相关性的数据库；f)通过将步骤c)的个体基因组谱或其部分与附加的人类基因型相关性相比较并确定个体的附加的基因型相关性来更新个体的基因型相关性；和g)向个体或个体的医疗保健管理者报告步骤f)的结果。

本发明进一步提供了评估个体的基因型相关性的商业方法，包括：a)获得个体的遗传样品；b)产生个体的基因组谱；c)通过将个体的基因组谱与人类基因型相关性的数据库相比较来确定个体的基因型相关性；d)以加密方式向个体提供确定个体的基因型相关性的结果；e)在附加的人类基因型相关性已知时，用附加的人类基因型相关性来更新人类基因型相关性的数据库；f)通过将个体的基因组谱或其部分与附加的人类基因型相关性相比较和确定个体的附加的基因型相关性来更新个体的基因型相关性；和g)向个体或个体的医疗保健管理者提供更新个体的基因型相关性的结果。

本发明的另一方面为产生个体的表型谱的方法，包括：a)提供包括规则的规则集，各规则表明至少一种基因型与至少一种表型之间的相关性；b)提供包括多个个体中的每一个的基因组谱的数据集，其中各基因组谱包括多个基因型；c)定期地使用至少一条新的规则来更新规则集，其中该至少一条新的规则表明之前未在规则集中相互关联的基因型和表型之间的相关性；d)将各新的规则应用于至少一个个体的基因组谱，因而对于该个体将至少一种基因型与至少一种表型相关联；和任选地e)产生包括个体的表型谱的报告。

本发明还提供了一种系统，包括：a)包括规则的规则集，各规则表明至少一种基因型与至少一种表型之间的相关性；b)定期地使用至少一条新的规则来更新规则集的代码，其中该至少一条新的规则表明之前未在规则集中相互关联的基因型与表型之间的相关性；c)包括多个个体的基因组谱的数据库；d)将规则集应用于个体的基因组谱以确定个体的表型谱的代码；和e)产生各个体的报告的代码。

本发明还进一步提供了用于评估个体的基因型相关性的方法，包括：(a)比较(i)包括与表型相关的遗传变异的第一连锁不平衡(LD)模式和(ii)包括该遗传变异的第二LD模式，其中第一LD模式为第一个体群体的LD模式和第二LD模式为第二个体群体的LD模式；(b)由(a)的比较确定第二群体中遗传变异与表型相关的概率；(c)包括使用步骤(b)的概率，由个体的基因组谱评估所述表型的基因型相关性；和(d)向所述个体或所述个体的医疗保健管理者报告包括步骤(c)的基因型相关性的结果。在一些实施方式中，该方法还进一步包括(e)使用附加的遗传变异来更新所述结果。

该概率可为优势比(OR)，其中OR可源自已知的OR。例如已知的OR可以为与第一群体的表型相关的遗传变异的OR，例如在科技期刊上公布的对于遗传变异(例如SNP)的OR。在一些实施方式中，第一群体和第二群体具有相似的LD模式。本发明还提供了评估个体的基因型相关性的方法，包括：(a)确定第一个体群体中多个遗传变异中的每一个的原因遗传变异概率；(b)确定作为第二个体群体中所述多个遗传变异中的每一个的概率的步骤(a)中的各所述概率；(c)包括使用步骤(b)的概率从个体的基因组谱评估基因型相关性；和(d)向个体或个体的医疗保健管理者报告包括来自步骤(c)的基因型相关性的结果。在一些实施方式中，该方法还进一步包括(e)使用附加的遗传变异来更新所述结果。

已知的遗传变异(例如SNP)可为具有在科技期刊中公布的OR的遗传变异。该概率可为优势比(OR)，且步骤(a)的各遗传变异可以接近于与第一群体中的表型相关的已知遗传变异。例如，各遗传变异可与已知的遗传变异连锁不平衡。

在此公开的方法和系统的一些实施方式中，基因型相关性作为GCI评分报告。第二群体通常具有不同于第一群体的家系，且所述个体具有第二群体的家系。在一些实施方式中，原因遗传变异是未知的。遗传变异可为单核苷酸多态性(SNP)。

本发明的另一方面为以加密或非加密的方式在网络上进行传输，上述的方法和系统。报告可以通过在线入口、通过纸件或通过电子邮件进行。使用的基因组谱可被产生和来自遗传样品。第三方可产生基因组谱、获得遗传样品，或既获得样品也产生基因组谱。遗传样品可为DNA或RNA，且从选自下述的生物样品获得：血液、头发、皮肤、唾液、精液、尿液、粪便、汗液和口腔样品。基因组谱可存放在加密的数据库或保险库中。此外，基因组谱可为单核苷酸多态性谱，且在一些实施方式中，基因组谱可包括截短、插入、缺失或重复。基因组谱可通过使用高密度DNA微阵列、RT－PCR、DNA测序或多种技术的组合产生。

本发明的方法还包括包含任何HapMap群体(YRI、CEU、CHB、JPT、ASW、CHD、GIH、LWK、MEX、MKK、TSI)的群体或任何其它的群体，例如但不限于非裔美国人、高加索人、德系犹太人、西班牙系犹太人(Sepharadic Jewish)、印度人、太平洋岛民、中东人、德鲁兹人、贝都因人、南欧人、斯堪的纳维亚人、东欧人、北非人、巴斯克人、西非人或东非人。

通过引用加入

本说明书中提到的所有出版物和专利申请均通过引用的方式结合在此，就好像每篇出版物或专利申请均特定地和个别地说明通过引入方式结合在此一样。

附图简述

图1为显示本发明的方法方面的流程图。

图2为基因组DNA质量控制措施的例子。

图3为杂交质量控制措施的例子。

图4为来自具有测试的SNP和效应评价的公开文献的典型基因型相关性的表。A-I)表示单个基因座的基因型相关性；J)表示两个基因座的基因型相关性；K)表示三个基因座的基因型相关性；L)为A-K中使用的种族和国家缩写的索引；M)为A-K中的表型名称缩写(Short Phenotype Name)缩略词的索引、遗传率和遗传率的参考文献。

图5A-J为具有效应评价的典型基因型相关性的表。

图6A-F为典型基因型相关性和估计的相对危险度的表。

图7为示例报告。

图8为用于分析和通过网络传送基因组谱和表型谱的系统的示意图。

图9为表明本发明的商业方法方面的流程图。

图10为示意图，表明所公布的具有特定优势比的CEU(高加索人家系/种族)的SNP不能假定在具有不同的祖先背景的不同群体(YRI，约鲁巴人家系/种族，参见HapMap计划(http://hapmap.org/hapmappopulations.html.en))中相同。

具体实施方式

本发明提供了基于存储的个体或个体组的基因组谱来产生表型谱的方法和系统，以及基于存储的基因组谱容易地产生原始的和更新的表型谱的方法和系统。通过从由个体获得的生物样品确定基因型来产生基因组谱。得自个体的生物样品可以是可从中获得遗传样品的任何样品。样品可来自口腔拭子、唾液、血液、头发或任何其它类型的组织样品。然后可从生物样品确定基因型。基因型可以是任何遗传性变型或生物标志物，例如单核苷酸多态性(SNP)、单倍体型或基因组序列。基因型可以是个体的完整基因组序列。基因型可由产生成千或上百万的数据点的高通量分析获得，例如对于大多数或所有已知的SNP的微阵列分析。在另一些实施方式中，还可以通过高通量测序来确定基因型。

基因型形成个体的基因组谱。基因组谱被数字化地存储，且方便地在任何时间点访问以产生表型谱。通过应用使基因型与表型相关或关联的规则来产生表型谱。可以基于表明基因型与表型之间的相关性的科学研究来制定规则。该相关性可由一个或多个专家组成的委员会评议(curated)或确定。通过将规则应用于个体的基因组谱，可以确定个体的基因型与表型之间的相关性。个体的表型谱将具有这一确定性。该确定可为个体的基因型与给定的表型之间的正相关性，从而个体具有给定的表型或将会产生该表型。或者，也可确定为个体不会具有或不会产生给定的表型。在其它的实施方式中，该确定可以是危险因子、估计值或者个体具有或将产生表型的概率。

可以基于多种规则进行确定，例如，可以将多种规则应用于基因组谱以确定个体基因型与特定表型的关联。确定过程也可以包括特定于个体的因素，例如种族、性别、生活方式、年龄、环境、家族病史、个人病史和其它已知表型。特定因素的并入可以通过修正现有的规则来包括这些因素。或者，可由这些因素产生单独的规则，且在已应用现有的规则之后应用到个体的表型确定中。

表型可以包括任何可测定的性状或者特性，例如对于某种疾病的易感性或者对于药物治疗的反应。可以包括的其它表型是躯体和精神性状，例如，身高、体重、头发颜色、眼睛颜色、晒斑敏感性、尺码、记忆力、智力、乐观程度、整体性情。表型也可以包括与其他个体或生物体的遗传比较。例如，个体可能对他们的基因组谱与名人的基因组谱之间的相似性感兴趣。他们也可能使他们的基因组谱与其它生物体(例如细菌、植物或其它动物)进行比较。

在本发明的另一方面中，组合并分析了关于多种遗传标记与一种或多种疾病或状态的关联的信息以获得遗传综合指数(Genetic Composite Index、GCI)评分(例如PCT公布No.WO2008/067551中描述的，其通过引用方式结合在此)。这一评分包括了已知的危险因子以及其它信息和假设，例如，等位基因频率和疾病的流行度。GCI可以用于定量评估疾病或者状态与一系列遗传标记的综合效应的关联。GCI评分可以用于基于现有科学研究向未受过遗传学训练的人提供有关与相关群体相比其个体患病风险的可靠的(例如，稳固的)、可理解的和/或直观的认识。GCI评分可以用于生成GCI Plus评分，如PCT公布No.WO2008/067551中所述。GCI plus评分可包括所有的GCI假设，包括状态的风险(例如，终生风险)、年龄限定的流行度和/或年龄限定的发病率。然后个体的终生风险可以计算为与个体GCI评分除以平均GCI评分成比例的GCI Plus评分。平均GCI评分可以由具有相似家系背景的个体组确定，例如一组高加索人、亚洲人、东印度人或者其他具有共同家系背景的组。所述组可以由至少5、10、15、20、25、30、35、40、45、50、55或60个个体组成。在某些实施方式中，平均值可以由至少75、80、95或100个个体确定。GCI Plus评分可以通过确定个体的GCI评分，用平均相对风险去除该GCI评分，并乘以状态或表型的终生风险来确定。例如，使用来自PCT公布No.WO2008/067551的数据(例如图22和/或图25以及图24的信息)来计算GCI Plus评分(例如图19)。

本发明包括使用此处描述的GCI评分，本领域普通技术人员将会容易地认识使用GCI评分或其变化来代替在此描述的GCI评分。在一个实施方式中，对于各感兴趣的疾病或者状态生成GCI评分。可以集中这些GCI评分以形成个体的风险谱。GCI评分可被数字化存储，从而在任何时间点均可容易地使用它们来产生风险谱。风险谱可以按照大的疾病分类进行分解，例如，癌症、心脏病、代谢紊乱、精神紊乱、骨病或者老年病(age on-setdisorder)。大的疾病分类可以进一步被分解成子类。例如，对于如癌症的大的分类，可以例如按类型(肉瘤、癌瘤或者白血病等)或者按组织特异性(神经、乳腺、卵巢、睾丸、前列腺、骨、淋巴结、胰腺、食道、胃、肝、脑、肺、肾等)列出癌症的子类。

在另一个实施方式中，对个体产生GCI评分，向他们提供容易理解的关于个体获得至少一种疾病或状态的风险或对于至少一种疾病或状态的易感性的信息。在一个实施方式中，对于不同的疾病或状态生成多项GCI评分。在另一实施方式中，可以通过在线入口访问至少一项GCI评分。或者，可以以纸件形式提供至少一项GCI评分，后续的更新也以纸件形式提供。在一个实施方式中，向注册用户提供对于至少一项GCI评分的访问，该注册用户是预订服务的个体。在一个替代的实施方式中，向非注册用户提供访问权限，其中他们可以具有访问他们的GCI评分中的至少一项的受限的访问权限，或者他们可以允许生成他们的GCI评分中的至少一项的初始报告，但是仅通过付费订制才生成更新的报告。在另一实施方式中，医疗保健管理者和提供者，例如护理人员、医生和遗传顾问，也可以具有访问个体GCI评分中的至少一项的权限。。

总之，对于个体所确定的相关表型的集合组成该个体的表型谱。表型谱可以通过在线入口访问。或者，表型谱可以按照在特定时间存在的形式以纸件形式提供，后续的更新也以纸件形式提供。表型谱也可以通过在线入口提供。该在线入口可以任选地为加密的在线入口。表型谱的访问权可以提供给注册用户，该注册用户为订制生成表型与基因型之间的相关性的规则、确定个体的基因组图谱、将规则应用于基因组图谱和生成个体的表型谱的服务的个体。访问权也可以提供给非注册用户，其中他们可以具有访问他们的表型谱和/或报告的有限权限，或者可以允许生成初始报告或表型谱，但是只有通过付费订制才生成更新的报告。医疗保健管理者和提供者，例如护理人员、医生和遗传顾问也可以具有表型谱的访问权。

在本发明的另一方面中，可以为注册用户和非注册用户生成基因组谱，并且进行数字存储，但是对于表型谱和报告的访问可以限于注册用户。在另一变型中，注册用户和非注册用户都可以访问其基因型谱和表型谱，但是非注册用户具有受限制的访问权限或者允许生成有限的报告，然而注册用户具有完整的访问权限并且可以允许生成完整报告。在另一实施方式中，注册用户和非注册用户最初可以具有完全的访问权限或者完整的初始报告，但仅注册用户可以访问基于其存储的基因组谱更新的报告。

也可以有基本注册模式。基本注册可以提供表型谱，其中注册用户可以选择将所有现有规则应用于他们的基因组谱，或者将现有规则的子集应用于他们的基因组谱。例如，他们可以选择仅应用可处置(actionable)的疾病表型的规则。基本注册可以在注册等级内具有不同水平。例如，不同的水平可以取决于注册用户想要与他们的基因组图谱关联的表型数目，或者取决于可以访问他们的表型谱的人员的数目。基本注册的另一水平可以将特定于个体的因素，例如早已知道的表型(如年龄、性别或者病史)并入他们的表型谱。

基本注册的再另一个水平可以允许个体生成对于疾病或状态的至少一项GCI评分。如果由于用于生成至少一项GCI评分的分析中的变化而导致至少一项GCI评分的任何变化，这一水平的变型形式可以进一步允许个体指定生成对于疾病或者状态的至少一项GCI评分的自动更新。在一些实施方式中，可以通过电子邮件、语音信息、文本信息、邮递或传真向个体通告自动更新。

注册用户也可以生成具有他们的表型谱以及关于表型的信息(例如关于表型的遗传和医疗信息)的报告。例如，报告中可以包括群体中表型的流行度、用于相关的遗传变异、引起表型的分子机制、对于表型的治疗方法、对于表型的治疗选择和预防性行动。在其它实施方式中，报告还可以包括例如个体的基因型与其他个体(如名人或者其他知名人士)的基因型之间的相似性的信息。关于相似性的信息可以是，但不限于同源性百分比、相同变异的数目和可能相似的表型。这些报告可以进一步包括至少一项GCI评分。

如果在线访问报告，则报告也可以提供连接到具有关于表型的进一步信息的其他位置的链接、连接到具有相同表型或者一个或多个相似表型的人的在线支持小组和留言板的链接、联系在线遗传顾问或医生的链接或者连接到安排遗传顾问或医师的电话或现场预约的链接。如果报告是纸件形式，则信息可以是上述链接的站点位置或者遗传顾问或医生的电话号码和地址。注册用户也可以选择哪些表型包括在他们的表型谱中和哪些信息包括在他们的报告中。表型谱和报告也可以被个体的医疗保健管理者或提供者取得，例如护理人员、医生、精神病医生、心理学家、治疗专家或者遗传顾问。注册用户也能够选择是否表型谱和报告或者其部分内容由个体的医疗保健管理者或提供者得到。

本发明也可以包括注册的高级水平。注册的高级水平在生成初始表型谱和报告之后数字化地保持其基因组谱，并且注册用户能够利用由最近的研究得到的更新的相关性生成表型谱和报告。在另一实施方式中，注册用户能够利用由最近的研究得到的更新的相关性生成风险谱和报告。由于研究揭示出基因型与表型、疾病或者状态之间的新的相关性，基于这些新的相关性将产生新的规则，并且新的规则能够应用于已经存储和保持的基因组谱。新的规则可以关联先前未与任何表型关联的基因型、使基因型与新的表型相关联、修正现有的相关性或者基于新发现的基因型与疾病或状态之间的关联提供调整GCI评分的基础。可以通过电子邮件或者其它电子方式告知注册用户新的相关性，并且如果是感兴趣的表型，他们可以选择用新的相关性更新他们的表型谱。注册用户可以选择为每次更新付费、为在指定时间期限(例如，3个月、6个月或者1年)内的多次更新或无限次更新付费的注册方式。另一注册水平可以是，无论何时基于新的相关性产生了新的规则，注册用户使他们的表型谱或者风险谱自动更新，而不是个体选择何时更新他们的表型谱或风险谱。

在注册的另一方面，注册用户可以向非注册用户介绍以下服务：生成表型与基因型之间的相关性规则，确定个体的基因组谱，将规则应用于基因组谱，并且生成个体的表型谱。注册用户通过介绍可以使注册用户得到优惠的服务订制价格或者使其现有的注册升级。被介绍的个体可以在有限时间内免费访问或者享受折扣注册价格。

可以对于人类和非人类个体生成表型谱和报告以及风险谱和报告。例如，个体可包括其它的哺乳动物，例如牛、马、羊、犬或猫。如在此所使用的，注册用户是通过购买或支付一项或多项服务而订制服务的人类个体。服务可以包括，但不限于以下一种或者多种：确定他们自己或另一个体(例如注册用户的孩子或宠物)的基因组谱；获得表型谱；更新表型谱和获得基于他们的基因组谱和表型谱的报告。。

在本发明的另一方面，可以从个体聚集得出“区域部署(field-deployed)”机制以生成个体的表型谱。在优选实施方式中，个体可以具有基于遗传信息生成的初始表型谱。例如，生成包括对于不同表型的危险因子以及建议的治疗或预防措施的初始表型谱。例如，表型谱可以包括对于关于某一状态的可利用的药物治疗的信息和/或对于饮食变化或锻炼方案的建议。个体可以选择去看医生或遗传顾问或者通过网络入口或电话接触医生或遗传顾问以讨论他们的表型谱。个体可以决定采取某种行动路线，例如，采用特定的药物治疗、改变他们的饮食等。

而后，个体可以随后提交生物样品以评估其身体状态的变化和危险因子的可能变化。个体可以通过直接将生物样品提交给生成基因组谱和表型谱的机构(或者相关机构，例如由生成遗传分布图和表型谱的实体定约的机构)确定该变化。或者，个体可以利用“区域部署”机制，其中个体可以将他们的唾液、血液或者其它生物样品提交到其家庭处的检测装置中，由第三方进行分析，且数据经传输以包括在另一表型谱中。例如，个体可以接收基于其遗传数据的初始表型报告从而向具有增大的心肌梗死(MI)终生风险的个体报告。该报告也可以具有预防措施的建议以降低MI的风险，例如降胆固醇药物和饮食改变。个体可以选择接触遗传顾问或医生以讨论该报告和预防措施并且决定改变他们的饮食。在采用新的饮食一段时间之后，个体可以去看他们的个人医生以测量其胆固醇水平。可以将新的信息(胆固醇水平)传送(例如，通过Internet)给具有基因组信息的实体，并且新的信息用于生成具有心肌梗死和/或其它状态的新的危险因子的个体的新表型谱。

个体也可以使用“区域部署”机制或者直接机制以确定其对于具体药物治疗的个体反应。例如，个体可以测量其对于药物的反应，并且该信息可以用于确定更有效的治疗。可测定的信息包括，但不限于代谢产物水平、葡萄糖水平、离子水平(例如，钙、钠、钾、铁)、维生素、血细胞计数、体重指数(BMI)、蛋白质水平、转录物水平、心率等，这些信息能够通过容易利用的方法确定并且能够包括在算法中以与初始基因组谱结合来确定修正的整体风险评估评分。

术语“生物样品”是指可从中分离个体的遗传样品的任何生物样品。

在此使用的“遗传样品”是指从个体获得的或源自个体的DNA和/或RNA。

在此使用的术语“基因组”是指人类细胞核中发现的整套染色体DNA。术语“基因组DNA”是指人类细胞核中天然存在的一个或多个染色体DNA分子，或染色DNA分子的部分。

术语“基因组谱”是指关于个体基因的一组信息，例如是否存在特定的SNP或突变。基因组谱包括个体的基因型。基因组谱还可以是个体的基本上完整的基因组序列。在一些实施方式中，基因组谱可为至少60％、80％或95％的完整的个体基因组序列。基因组谱可为大约100％的完整的个体基因组序列。提到基因组谱时，“其一部分”是指完整基因组的基因组谱的子集的基因组谱。

术语“基因型”是指个体DNA的特定的遗传组成。基因型可包括个体的遗传性变型和遗传标记。遗传标记和遗传性变型可包括核苷酸重复、核苷酸插入、核苷酸缺失、染色体转位、染色体复制或拷贝数变异。拷贝数变异可包括微卫星重复、核苷酸重复、着丝粒重复或端粒重复。基因型还可以是SNP、单倍体型或二倍体型(diplotype)。单倍体型可指基因座或等位基因。单倍体型还被称作统计学关联的单个染色单体的一组单核苷酸多态性(SNP)。二倍体型是一组单倍体型。

术语单核苷酸多态性或“SNP”是指在染色体上相对于存在于人类种群中一基因座上的含氮碱基的同一性表现出变异(例如至少1个百分点(1％))的特定基因座。例如，在一个个体在给定基因的特定核苷酸位置上可能具有腺苷(A)的情况下，另一个体可能在这一位置上有胞嘧啶(C)、鸟嘌呤(G)或者胸腺嘧啶(T)，从而在这个特定位置上存在SNP。

此处使用的术语“SNP基因组谱”是指整个个体全基因组DNA序列的SNP位置上给定的个体DNA的碱基含量。“SNP谱”可指整个基因组谱，或可指其部分，例如可与特定的基因或特定的基因组相关的更局部的SNP谱。

术语“表型”用于描述个体的定量性状或者特征。表型包括，但不限于医学和非医学状态。医学状态包括疾病和紊乱。表型也可以包括身体性状如发色、生理性状如肺容量、精神性状如记忆保持、情绪性状如愤怒控制能力、种族特征如种族背景、家系特征如个体出身位置以及年龄特征如年龄期待或不同表型的发病年龄。表型也可以是单基因的，其中据认为一个基因可能与表型相关联；或者是多基因的，其中一个以上的基因与表型相关联。

“规则”用于定义基因型与表型之间的相关性。规则可以通过数值定义相关性，例如通过百分率、危险因子或者置信度评分。规则可以包括多个基因型与表型的相关性。“规则集”包括一个以上的规则。“新规则”可以是表明其规则目前尚不存在的基因型与表型之间的相关性的规则。新规则可以将未关联的基因型与表型相关联。新规则也可以将已经与表型相关联的基因型与先前不关联的表型相关联。“新规则”也可以是由其它因素(包括另一规则)修正的现有规则。现有规则可以由于个体的已知特征，例如种族、家系、地理、性别、年龄、家族史或其它先前确定的表型，而进行修正。

如在此所使用的，“基因型相关性”指个体基因型(例如某一突变或多个突变的存在)与倾向于发生一种表型(例如特定疾病、状态、身体状态和/或精神状态)的可能性之间的统计相关性。在特定基因型存在下观察到特定表型的频率决定了基因型相关性的程度或者出现特定的表型的可能性。例如，正如在此所详述的，导致载脂蛋白E4同种型的SNP与倾向于早发型阿尔茨海默氏病相关。基因型相关性也可以指其中不倾向于产生表型的相关性或者负相关性。基因型相关性也可以表示个体具有表型或者倾向于发生表型的评估。可以由数值表示基因型相关性，例如百分数、相对风险因子、效应评价或者置信度评分。

术语“表型谱”是指与个体的一个基因型或者多个基因型相关的多个表型的集合。表型谱可以包括通过将一条或多条规则应用于基因组谱所产生的信息或者有关应用于基因组谱的基因型相关性的信息。可以通过应用将多个基因型与表型关联的规则生成表型谱。概率或评估可以表示为数值，例如百分数、数字的危险因子或者数字的置信区间。概率也可以表示为高、中或低。表型谱也可以表明表型是否存在或者产生表型的风险。例如，表型谱可以表明蓝眼睛的存在或者发生糖尿病的高风险。表型谱也可以表明预测的预后、治疗效果或者对医学状态的治疗的反应。

术语风险谱是指对于一种以上的疾病或状态的GCI评分的集合。GCI评分基于对个体基因型与一种或多种疾病或状态之间的关联的分析。风险谱可以显示按疾病分类分组的GCI评分。进一步，风险谱还可以显示如何随个体年龄或者多种危险因子的调整而预测GCI评分的变化的信息。例如，对于特定疾病的GCI评分可以考虑饮食变化或者采取的预防措施(停止吸烟、服药、双侧根治性乳房切除术、子宫切除术)的效应。GCI评分可以显示为数值计量、图形显示、听觉反馈或者任何前述方式的组合。

在此使用的术语“在线入口”是指个体通过计算机和互联网网站、电话或者允许对信息进行类似访问的其它方式方便地访问的信息源。在线入口可以是加密网站。该网站可以提供与其它加密和非加密网站的链接，例如连接具有个体的表型谱的加密网站的链接或者连接非加密网站(如共有特定表型的个体的留言板)的链接。

除非特别表明，本发明的实施可以利用本领域技术人员能力范围内的分子生物学、细胞生物学、生物化学和免疫学的常规技术和使用说明。这些常规技术包括核酸分离、聚合物阵列合成、杂交、连接和使用标记物的杂交检测。合适的技术的特定的例子在此例证和作为参考。但是，也可以使用其它等效的常规方法。其它的常规的技术和描述可参见标准实验室手册和教科书，例如Genome Analysis:A Laboratory Manual Series(Vols.I-IV),PCR Primer:A Laboratory Manual,Molecular Cloning:A Laboratory Manual(均来自Cold Spring Harbor Laboratory Press)；Stryer,L.(1995)Biochemistry(4th Ed.)Freeman,New York；Gait,“Oligonucleotide Synthesis:A Practical Approach”1984,IRL Press,London,Nelson和Cox(2000)；Lehninger,Principles of Biochemistry 3rdEd.,W.H.Freeman Pub.,New York,N.Y.；和Berg等人(2002)Biochemistry,5th Ed.,W.H.Freeman Pub.,New York,N.Y.，其全部通过引用方式结合在此。

本发明的方法包括分析个体基因组谱以向个体提供关于表型的分子信息。正如在此所详述的，个体提供生成个人基因组谱的遗传样品。通过使基因组谱与已确立和验证的人类基因型相关性的数据库相比较，查询个体基因组谱有关基因型相关性的数据。已确立和验证的基因型相关性的数据库可以来自同行评议(peer-reviewed)的文献，并且由本领域中一个或多个专家(例如遗传学家、流行病学家或者统计学家)的委员会进一步评判，并进行验证。在优选实施方式中，规则基于经验证的基因型相关性制定，并应用于个体的基因组谱以生成表型谱。个体基因组谱的分析结果(表型谱)以及解释和支持性信息一起提供给个体或个人的医疗保健管理者，从而给予对个体保健进行个性化选择的能力。

本发明的方法在图1中详细描述，其中首先生成个体的基因组谱。个体基因组谱将包括有关基于遗传变异和遗传标记的个体基因的信息。遗传变异是基因型，其组成基因组谱。这些遗传变异或者遗传标记包括，但不限于单核苷酸多态性、单和/或多核苷酸重复、单和/或多核苷酸缺失、微卫星重复(通常具有5～1,000重复单元的小量核苷酸重复)、二核苷酸重复、三核苷酸重复、序列重排(包括易位和重复)、拷贝数变异(在特定基因座上的缺失和增加)等。其它遗传变异包括染色体重复和易位以及着丝粒重复和端粒重复。

基因型还可包括单倍体型和二倍体型。在一些实施方式中，基因组谱可具有至少100000、300000、500000或1000000个基因型。在一些实施方式中，基因组谱为个体的基本完整的基因组序列。在其它的实施方式中，基因组谱为至少60％、80％或95％的个体的完整基因组序列。基因组谱可为大约100％的个体的完整基因组序列。包含靶物质的遗传样品包括但不限于未扩增的基因组DNA或RNA样品或扩增的DNA(或cDNA)。靶物质可为包含特别感兴趣的遗传标记的基因组DNA的特定区域。

在图1的102步骤中，个体的遗传样品从个体的生物样品中分离出来。这样的生物样品包括但不限于血液、头发、皮肤、唾液、精液、尿液、粪便、汗液、口腔和不同身体组织。在一些实施方式中，组织样品可直接由个体收集，例如个体可使用拭子从他们的颊内侧获得口腔样品。其它的样品例如唾液、精液、尿液、粪便或汗液也可由个体自己提供。其它生物样品可以由保健专业人员(例如抽血者、护士或者医生)提取。例如，血液样品可以由护士从个体抽取。组织活检可以由保健专业人员进行，并且保健专业人员也可以利用试剂盒以有效地获得样品。可以移取小的柱面皮肤样品或者使用针移取小的组织或流体样品。

在一些实施方式中，向个体提供具有用于个体生物样品的样品采集容器的试剂盒。试剂盒也可以提供个体直接采集其自身样品的说明书，例如需提供多少头发、尿、汗液或者唾液。试剂盒也可以包括个体要求由保健专业人员提取组织样品的说明书。试剂盒可以包括可由第三方采集样品的场所，例如可以将试剂盒提供给随后从个体采集样品的保健机构。试剂盒还可以提供用于将样品递送至样品处理机构的返回包装，在该机构中遗传物质从生物样品中分离(步骤104)。

DNA或RNA的遗传样品可根据几种已知的生化和分子生物学方法的任一种从生物样品中进行分离，例如参见Sambrook等人,Molecular Cloning:A Laboratory Manual(Cold Spring Harbor Laboratory,New York)(1989)。还存在几种用于从生物样品中分离DNA或RNA的市售的试剂盒和试剂，例如可从DNA Genotek、Gentra Systems、Qiagen、Ambion和其它供应商购买的那些。口腔样品试剂盒很容易购买到，例如从EpicentreBiotechnologies购买的MasterAmp^TMBuccal Swab DNA提取试剂盒，且从血样中提取DNA的试剂盒也容易购买到，例如从Sigma Aldrich购买的Extract-N-Amp^TM。可以通过使用蛋白酶消化组织和加热、离心样品和使用酚－氯仿来提取不想要的物质并使DNA留在水相中来从其它的组织中获得DNA。可使用乙醇沉淀法来进一步分离DNA。

在一个优选的实施方案中，从唾液中分离基因组DNA。例如，使用可从DNA Genotek购买的DNA自收集试剂盒技术，个体可采集用于临床处理的唾液样品。样品可以便利地在室温下进行储存和运输。在将样品转移到用于处理的适合的实验室之后，通过热变性和蛋白酶消化样品(通常使用收集试剂盒供应商提供的试剂，在50℃下至少一个小时)来分离DNA。然后离心样品，使用乙醇沉淀上清液。DNA沉淀悬浮于适于后续分析的缓冲液中。

在另一个实施方式中，RNA可用作遗传样品。特别地，表达的遗传变异可从mRNA中识别。术语“信使RNA”或“mRNA”包括但不限于前mRNA转录物、转录物加工中间体、准备用于一个基因或多个基因的翻译和转录的成熟mRNA或者源自mRNA转录物的核酸。转录物加工可以包括剪接、编辑和降解。如在此所使用的，源自mRNA转录物的核酸是指mRNA转录物或其子序列最终充当其合成模板的核酸。因此，由mRNA反转录的cDNA、从cDNA扩增的DNA、从扩增的DNA转录的RNA等都是源自mRNA转录物。可以使用本领域已知的方法从几种身体组织中的任意一种分离RNA，例如使用从PreAnalytiX获得的PAXgene^TM血液RNA系统从未分级的(unfractionated)全血中分离RNA。典型地，mRNA将用于反转录cDNA，cDNA随后被使用或进行扩增以用于基因变异分析。

基因组谱分析之前，遗传样品通常会从DNA或从RNA反转录的cDNA进行扩增。可通过一些方法来扩增DNA，其中许多方法使用PCR。参见例如PCR Technology:Principles andApplications for DNA Amplification(Ed.H.A.Erlich,Freeman Press,NY,N.Y.,1992)；PCR Protocols:A Guide to Methods and Applications(Eds.Innis等人,AcademicPress,San Diego,Calif.,1990)；Mattila等人,Nucleic Acids Res.19,4967(1991)；Eckert等人,PCR Methods and Applications 1,17(1991)；PCR(Eds.McPherson等人,IRLPress,Oxford)；和美国专利No.4,683,202,4,683,195,4,800,159 4,965,188和5,333,675,其全部通过引用方式结合在本文中。

其它合适的扩增方法包括连接酶链反应(LCR)(例如Wu和Wallace,Genomics 4,560(1989),Landegren等人，Science 241,1077(1988)和Barringer等人.Gene 89:117(1990))、转录扩增(Kwoh等人，Proc.Natl.Acad.Sci.USA 86:1173-1177(1989)和WO88/10315)、自主序列复制(Guatelli等人，Proc.Nat.Acad.Sci.USA,87:1874-1878(1990)和WO90/06995)、目标多聚核苷酸序列的选择性扩增(美国专利No.6,410,276)、共有序列引物聚合酶链反应(CP-PCR)(美国专利No.4,437,975)、任机引物聚合酶链反应(AP-PCR)(美国专利No.5,413,909,5,861,245)、基于核酸的序列扩增(NABSA)、滚环扩增(RCA)、多重替换扩增(MDA)(美国专利No.6,124,120和6,323,009)和环对环扩增(C2CA)(Dahl等人Proc.Natl.Acad.Sci 101:4548-4553(2004))。(参见美国专利No.5,409,818,5,554,517,和6,063,603，其全部通过引用方式结合在本文)。还可使用的其它的扩增方法描述在美国专利No.5,242,794,5,494,810,5,409,818,4,988,617,6,063,603和5,554,517中和美国专利申请序列号No.09/854,317中，其全部通过引用方式结合在本文中。

使用几种方法中的任意方法来进行步骤106中基因组谱的产生。可以使用几种方法中的任一种来进行基因组谱的产生。本领域中已知几种方法可识别遗传变异，它们包括但不限于通过几种方法的任意一种的DNA测序、基于PCR的方法、片段长度多态性分析(限制性片段长度多态性(RFLP)、分裂片段长度多态性(CFLP))、使用等位基因特异性的寡核苷酸作为模板的杂交方法(例如TaqMan分析和微阵列，其进一步在此描述)、使用引物延伸反应的方法、质谱(例如MALDI-TOF/MS方法)等，例如Kwok,Pharmocogenomics1:95-100(2000)中描述的。其它的方法包括侵入物方法，例如单重(monoplex)和二重(biplex)侵入物分析(例如可从Third Wave Technologies，Madison,WI获得的，且描述于Olivier等人，Nucl.AcidsRes.30:e53(2002)中)。

在一个实施方式中，高密度DNA阵列被用于SNP识别和谱产生。这样的阵列是可从Affymetrix和Illumina获得的(例如参见Affymetrix500K测试手册,Affymetrix,Santa Clara,CA(在此引入作为参考)；humanHap650Y基因型微球芯片,Illumina,San Diego,CA)。

例如，可通过使用Affymetrix Genome Wide Human SNP阵列6.0对多于900000个的SNP进行基因分型来产生SNP谱。或者，可以通过使用Affymetrix GeneChip HumanMapping 500K Array Set确定通过全基因组采样分析的多于500000个SNP。在这些测定中，人类基因组的子集使用限制性酶消化的、接头连接的人类基因组DNA通过单引物扩增反应来扩增。如图2所示，然后可以确定连接的DNA的浓度。而后扩增的DNA断裂，并且在继续步骤106前确定样品的质量。如果样品符合PCR和片段化标准，则对样品进行变性、标记和随后与涂覆的石英面上特定位置的小DNA探针组成的微阵列进行杂交。监测随扩增的DNA序列变化的与各探针杂交的标记物的量，从而产生序列信息和最终的SNP基因分型。

根据厂商的指导来使用Affymetrix GeneChip 500K阵列。简而言之，简要地说，首先用NspI或StyI限制性内切核酸酶消化分离的基因组DNA。然后消化的DNA与分别与NspI或StyI限制酶切DNA退火的NspI或StyI接头寡核苷酸连接。然后连接后的包含接头的DNA通过PCR进行扩增以产生在约200至1100碱基对之间的扩增DNA片段，这由凝胶电泳所证实。符合扩增标准的PCR产物进行纯化和定量以进行片段化。PCR产物用DNase I进行断裂以达到最佳的DNA芯片杂交。断裂之后，DNA片段应小于250碱基对，并且平均为约180碱基对，这通过凝胶电泳证实。然后使用末端脱氧核苷酸转移酶以生物素化合物标记符合片段化标准的样品。接着将标记的片段变性，而后杂交到GeneChip 250K阵列中。杂交之后，在扫描前按三步的处理过程对阵列进行染色，所述的三部处理过程由下列步骤组成：抗生蛋白链菌素藻红蛋白(SAPE)染色，随后是利用生物素化的抗抗生蛋白链菌素抗体(山羊)的抗体扩增步骤，和用抗生蛋白链菌素藻红蛋白(SAPE)的最终染色。在标记之后，阵列用阵列保持缓冲液覆盖，然后用例如Affymetrix GeneChip Scanner 3000的扫描仪进行扫描。

在Affymetrix GeneChip Human Mapping 500K Array Set扫描后，按照制造商的指导进行数据分析，如图3所示。简要地说，使用GeneChip操作软件(GCOS)获得原始数据。也可以通过使用Affymetrix GeneChip Command Console^TM获得数据。获得初始数据后用GeneChip基因分型分析软件(GTYPE)进行分析。为了本发明的目的，排除GTYPE调用率(callrate)小于80％的样品。然后用BRLMM和/或SNiPer算法分析对样品进行检验。排除BRLMM调用率小于95％或者SNiPer调用率小于98％的样品。最终，进行关联分析，并且排除SNiPer质量指数小于0.45和/或哈迪-温伯格(Hardy-Weinberg)p-值小于0.00001的样品。

替代DNA微阵列分析或在DNA微阵列分析以外，可通过其它基于杂交的方法检测遗传变异如SNP和突变，例如使用TaqMan方法和其变型。TaqMan PCR、反复TaqMan和实时PCR(RT-PCR)的其它变型(例如Livak等人，Nature Genet.,9,341–32(1995)和Ranade等人Genome Res.,11,1262–1268(2001)中描述的)也可用于在此公开的方法中。在一些实施方式中，特定遗传变异(例如SNP)的探针被标记形成TaqMan探针。该探针通常为大约至少12、15、18或20个碱基对长度。它们可为大约10－70、15－60、20－60或18－22个碱基对长度。探针在5’末端标记有报告标记物，例如荧光团和在3’末端标记有该标记物的猝灭剂。报告标记物可为当处于邻近猝灭剂的位置(例如探针的长度)时其荧光被抑制或猝灭的任何荧光分子。例如，报告标记物可为荧光团例如6-羧基荧光素(FAM)、四氯荧光素(TET)或其衍生物，和猝灭剂四甲基若丹明(TAMRA)、二氢环吡咯并吲哚三肽(MGB)或其衍生物。

当报告荧光团和猝灭剂处于邻近位置(由探针长度分隔)时，荧光被猝灭。当探针与目标序列(例如样品中包含SNP的序列)退火时，具有5’到3’核酸外切酶活性的DNA聚合酶(例如Taq聚合物)可延长引物，核外切酶活性切除探针，从而将猝灭剂与报告荧光团分离，因而报告荧光团可发荧光。该过程可以重复，例如在RT-PCR中。TaqMan探针通常与位于被设计用于扩增序列的两个引物之间的目标序列互补。因此，PCR产物的聚积可与释放的荧光团的聚积相关，这是因为各探针可与新产生的PCR产物进行杂交。释放的荧光团可被测量，因而存在的目标序列的量可被确定。用于高通量基因分型的RT-PCR方法可被使用。

还可通过DNA测序来识别遗传变异。可以使用DNA测序对个体基因组序列的主要部分或者全部进行测序。通常，常用的DNA测序是基于聚丙烯酰胺凝胶分级分离以解析链端片段群(Sanger等人，Proc.Natl.Acad.Sci.USA 74:5463-5467(1977))。已经开发出来的和继续进行开发的替代方法提高了DNA测序的速度和简便性。例如，高通量和单分子测序平台可从454Life Sciences(Branford,CT)(Margulies等人，Nature 437:376-380(2005))、Solexa(Hayward,CA)、Helicos BioSciences Corporation(Cambridge,MA)(美国申请序列号No.11/167046，于2005年6月23日提交)和Li-Cor Biosciences(Lincoln,NE)(美国申请序列号No.11/118031，于2005年4月29日提交)商购得到，或者正由它们进行开发。

在步骤106中产生个体的基因组谱之后，该谱在步骤108中被数字化地存储，该谱可以加密的模式被数字化存储。基因组谱被编码成计算机可读形式，以作为数据集的部分进行存储，并可作为数据库进行存储，其中基因组谱可“储蓄(banked)”，并可之后再次使用。数据集包括多个数据点，其中各数据点涉及个体。各数据点可以具有多个数据元素。一个数据元素为一独特的标识符，用于识别个体的基因组谱。它也可以是条形码。另一数据元素为基因型信息，例如SNP或个体基因组的核苷酸序列。对应基因型信息的数据元素也可包括在数据点中。例如，如果基因型信息包括微阵列分析识别的SNP，那么其它的数据元素可包括微阵列SNP识别号、SNP rs号和多态性核苷酸。其它的数据元素可为基因型信息的染色体位置、数据的质量量度、原始数据文档、数据的图像和提取强度得分。

个体的特异性因素，例如身体数据、医学数据、种族、家系、地理、性别、年龄、家族史、已知表型、人口数据、暴露数据(exposure data)、生活方式数据、行为数据和其它已知表型，也可以被引入作为数据元素。例如，因素可包括但不限于个体的出生地、父母和/或祖父母、亲缘家系、居住地、祖先的居住地、环境条件、已知的健康状况、已知的药物相互作用、家庭健康状况、生活方式条件、饮食、运动习惯、婚姻状态和身体测量数据(例如体重、身高、胆固醇水平、心率、血压、葡萄糖水平和本领域已知的其它测量)。个体的亲戚或者祖先(例如，父母和祖父母)的上述因素也可以加入作为数据元素，和用于确定个体的表型或症状的风险。

特定因素可以从调查表或者从个体的医疗保健管理者处获得。然后，可以访问来自“储蓄”的谱的信息并且按所需要进行使用。例如，在个体的基因型相关性的初始评估中，将分析个体的全部信息(通常在整个基因组上的或者从整个基因组取得的SNP或其它基因组序列)用于确定基因型相关性。在后续的分析中，可以按需要或适当地访问来自存储的或储蓄的基因组谱的全部信息或者其一部分。

基因组谱与基因型相关性数据库的比较

在步骤110中，基因型相关性是来自科技文献的。遗传变异的基因型相关性由已经对是否存在一种或多种感兴趣的表型性状和对基因型谱进行了测试的个体的群体所进行的分析确定。然后对基因型谱中各遗传变异或多态性的等位基因进行检测以确定是否特定的等位基因的存在与感兴趣的性状相关联。可以通过标准统计方法进行相关性分析，并记录遗传变异与表型特征之间的统计学显著的相关性。比如，可能确定，多态性A的等位基因A1的存在与心脏病相关。作为进一步的例子，可能发现在多态性A的等位基因A1和多态性B的等位基因B1的组合存在与癌症风险的增大相关。分析的结果可以在同行评议文献中公布，由其它研究组进行确认，和/或由专家委员会(例如，遗传学家、统计学家、流行病学家和医生)进行分析，并且也可以进行验证。

图4、5和6中为基因型与表型之间的相关性的实例，其中应用于基因组谱的基因型与表型之间的规则基于这些相关性。例如，图4A和B中，各行对应于表型/基因座/种族，其中图4C至I包括这些行中各行的相关性的进一步的信息。作为例子，在图4A中，如图4M表型名称缩写的索引中所注明的BC的“表型名称缩写”为乳腺癌的缩写。在BC_4(其为基因座的类名)这一行中，基因LSP1与乳腺癌相关。如图4C中所示，对于这一相关性确认的公开的或者功能性的SNP为rs3817198，而公开的风险等位基因为C，非风险等位基因为T。公开的SNP和等位基因通过出版物(例如，图4E-G中的基本的公开文献)确认。在图4E的LSP1的实例中，基本的公开文献为Easton等人,Nature 447:713-720(2007)。

可选地，可从存储的基因组谱中产生相关性。例如，具有存储的基因组谱的个体可同时具有存储的已知的表型信息。存储的基因组谱和已知的表型的分析可产生基因型相关性。作为一个例子，具有储存的基因组谱的250位个体还具有之前他们被诊断为患有糖尿病的存储信息。进行他们的基因组谱的分析，并与未患有糖尿病的个体对照组进行比较。然后确定出：之前被诊断为患有糖尿病的个体比对照组具有更高的带有特定遗传性变型的比率，且可在该特定的遗传性变型和糖尿病之间确定基因型相关性。

在步骤112中，基于遗传性变型与特定的表型之间的确立的相关性来形成规则。例如，规则可以基于例如表1中所列的相关的基因型与表型产生。基于相关性的规则可引入其它的因素如性别(例如图4)或种族(图4和5)如图4和5中的效应评价。由规则产生的其它量度可以评估如图6中的相对风险增加。效应评价和估计的相对风险增加可以来自公开的文献，或者由公开的文献进行计算。或者，规则可以基于由存储的基因组谱和先前已知的表型产生的相关性。

在一个优选的实施方式中，遗传性变型为SNP。尽管SNP出现在单个位点时，携带在某一位点处的特定SNP等位基因的个体通常可预测在其它的位点处携带特定的SNP等位基因。SNP与使个体易发疾病或状态的等位基因的相关性通过连锁不平衡产生，其中在群体中两个或多个基因座上的等位基因发生非随机关联的频率大于或者小于预计通过重组随机形成而得到的频率。

其它的遗传标记或变异(例如核苷酸重复或插入)也可以与已经显示为与特定的表型相关的遗传标记发生连锁不平衡。例如，核苷酸插入与表型相关，并且SNP与核苷酸插入发生连锁不平衡。基于SNP与表型之间的相关性形成规则。也可以形成基于核苷酸插入与表型之间的相关性的规则。可以将任一规则或者两个规则应用于基因组图谱，因为一个SNP的存在可以给出某一危险因子，另一规则可以给出另一危险因子，并且当它们结合时可以增大风险。

通过连锁不平衡，易发疾病的等位基因与SNP的特定等位基因或者SNP的特定等位基因的组合共分离。沿着染色体的SNP等位基因的特定组合被称为单倍体型，它们组合出现的DNA区域被称为单倍体区块。尽管单倍体区块可包括一个SNP，表示在个体之间表现出低的单体型多样性且通常具有低重组频率的2个或多个邻近的SNP的系列。可以通过鉴定位于单倍体型区块中的一个或多个SNP进行单体体型的鉴定。因此，SNP谱通常可用于识别单倍体区块，而不是必须识别在特定的单倍体区块中的所有SNP。

SNP单倍体模式和疾病、状态或身体状态之间的基因型相关性逐渐成为已知。对于特定的疾病而言，将已知具有该疾病的一组人的单倍体型模式与无该疾病的一组人相比较。通过分析许多个体，可以确定在群体中多态性的频率，并且随后这些频率或基因型可以与特定的表型(例如疾病或者状态)相关联。已知的SNP-疾病相关性的实例包括在与年龄相关性黄斑变性中补体因子H的多态性(Klein等人，Science:308:385-389,(2005))和邻近与肥胖相关的INSIG2基因的变异(Herbert等人，Science:312:279-283(2006))。其它已知的SNP相关性包括含CDKN2A和B的9p21区中的多态性，例如与心肌梗塞相关的rs10757274、rs2383206、rs13333040、rs2383207和rs10116277(Helgadottir等人,Science 316:1491-1493(2007)；McPherson等人，Science 316:1488-1491(2007))。

SNP可为功能性的或非功能性的。例如，功能性的SNP对细胞功能有效，因此会产生表型，而非功能性的SNP不具有功能，但可以与功能性SNP发生连锁不平衡。SNP也可以是同义的或者非同义的。同义的SNP是其中不同形式导致相同多肽序列的SNP，且为非功能性SNP。如果SNP导致不同多肽，那么SNP是非同义的并且可以是或不是功能性的。用于识别二倍体型(其2个或多个单倍体型)中的单倍体型的SNP或其它的遗传标记可用于使表型和二倍体型相关。有关个体的单倍体型、二倍体型和SNP谱的信息可为个体的基因组谱。

在优选的实施方式中，对于基于与表型关联的另一遗传标记形成连锁不平衡的遗传标记产生的规则，该遗传标记可以具有大于0.5的r²或D’得分，该得分通常在本领域中用于确定连锁不平衡。在优选的实施方式中，得分大于0.6、0.7、0.8、0.90、0.95或0.99。结果，在本发明中，用于将表型与个体的基因组谱关联的遗传标记可以相同或者不同于与表型相关的功能性的或公开的SNP。例如，使用BC_4，测试SNP和公开的SNP是相同的，正如测试的风险和非风险等位基因与公开的风险和非风险等位基因是相同的(图4A和C)。但是，对于BC_5，CASP8及其与乳腺癌的相关性，测试SNP与其功能性的或公开的SNP不同，正如测试的风险和非风险等位基因对于公开的风险和非风险等位基因一样。测试的和公开的等位基因相对于基因组的正链定向，并且从这些列中可以推断纯合型风险或非风险基因型，这可以生成用于例如注册用户的个体的基因组谱的规则。

测试SNP可以为“直接(DIRECT)”或“标签(TAG)”SNP(图4E-G，图5)。直接SNP为与公开的或功能性SNP相同的测试SNP，例如对于BC_4。使用欧洲人和亚洲人的SNP rs1073640，直接SNP也可以用于乳腺癌的FGFR2相关性，其中次要等位基因为A且另一等位基因为G(Easton等人，Nature 447:1087-1093(2007))。也是在欧洲人和亚洲人中的乳腺癌的FGFR2相关性的另一公开的或功能性的SNP为rs1219648(Hunter等人，Nat.Genet.39:870-874(2007))。标签SNP为测试SNP与功能性或公开的SNP不同的SNP，如对于BC_5。标签SNP还可用于其它的遗传性变型，例如CAMTA1(rs4908449)、9p21(rs10757274、rs2383206、rs13333040、rs2383207、rs10116277)、COL1A1(rs1800012)、FVL(rs6025)、HLA-DQA1(rs4988889、rs2588331)、eNOS(rs1799983)、MTHFR(rs1801133)和APC(rs28933380)的SNP。

SNP的数据库可从例如International HapMap计划(参见www.hapmap.org,TheInternational HapMap Consortium,Nature 426:789-796(2003),和The InternationalHapMap Consortium,Nature 437:1299-1320(2005))、Human Gene Mutation Database(HGMD)公开数据库(参见www.hgmd.org)和单核苷酸多态性数据库(dbSNP)(参见www.ncbi.nlm.nih.gov/SNP/)中公开获得。这些数据库提供了SNP单倍体型，或使得能够确定SNP单倍体模式。因此，这些SNP数据库使得能够检测作为大范围的疾病和状态(例如癌症、炎性疾病、心血管病、神经变性疾病和传染病)的基础的遗传危险因子。这些疾病或状态可以是可处置的，其中当前存在其处理和治疗方法。处理可以包括预防处理和改善症状和状态的处理，包括改变生活方式。

还可以研究许多其它的表型，例如身体性状、生理性状、精神性状、情绪性状、种族、家系和年龄。身体性状可以包括身高、发色、眼睛颜色、躯体或者例如精力、耐力和敏捷性的性状。精神性状可以包括智力、记忆能力或者学习能力。种族和家系可以包括家系或种族的鉴定，或者个体的祖先源于哪里。年龄可以是确定个体的实际年龄，或者是个体的遗传学特征使其相对于总的群体所处的年龄。例如，个体的实际年龄为38岁，但是其遗传学特征可以确定其记忆能力或身体健康状态可能为平均28岁。另外的年龄性状可以是个体的预计寿命。

其它的表型还可包括非医学状态，例如“娱乐”表型。这些表型可以包括与知名个体的对比，例如，外国贵族、政治家、名人、发明家、运动员、音乐家、艺术家、商业人士和声名狼藉的个体(例如罪犯)。其它“娱乐”表型可以包括与其它生物体的对比，例如，细菌、昆虫、植物或者非人类的动物。例如，个体可能感兴趣看看其基因组谱与其宠物狗或前任总统的基因组谱对比会如何。

在步骤114中，规则被应用到存储的基因组谱以产生步骤116的表型谱。例如，图4、5或6中的信息可能形成规则或测试的基础，以应用于个体的基因组谱。规则可以包括图4中关于测试SNP和等位基因以及效应评价的信息，其中，效应评价的UNITS为效应评价的单位，例如OR，或优势比(95％置信区间)或者平均值。在优选实施方式中效应评价可以是基因型风险(图4C-G)，例如对于纯合子的风险(homoz或RR)、风险杂合子(heteroz或RN)和非风险纯合子(homoz或NN)。在其它实施方式中，效应评价可以为携带者风险，其为RR或RN对NN。在再其它的实施方式中，效应评价可以基于等位基因、等位基因风险，例如R对N。这里也存在两个基因座(图4J)或三个基因座(图4K)的基因型效应评价(例如，对于两个基因座效应评价的9种可能的基因型组合：RRRR、RRNN等)。在图4H和I中还记录了公共HapMap中的测试SNP频率。

对于状态的估计风险可基于美国专利公布No.20080131887和PCT公布No.WO2008/067551中列举的SNP。在一些实施方式中，对于状态的风险可基于至少1个SNP。例如，对个体患阿尔茨海默病(AD)、结肠直肠癌(CRC)、骨关节炎(OA)或脱落性青光眼(XFG)的风险的评估可基于1个SNP(例如rs4420638用于AD，rs6983267用于CRC，rs4911178用于OA和rs2165241用于XFG)。对于其它的状态而言，例如肥胖(BMIOB)、格雷夫斯病(GD)或血色素沉着症(HEM)，个体的估计风险可以基于至少1或2个SNP(例如rs9939609和/或rs9291171用于BMIOB；DRB1*0301DQA1*0501和/或rs3087243用于GD；rs1800562和/或rs129128用于HEM)。对于如但不限于心肌梗塞(MI)、多发性硬化(MS)或牛皮癣(PS)的状态，1、2或3个SNP可用于评估个体对于该状态的风险(例如rs1866389、rs1333049和/或rs6922269用于MI；rs6897932、rs12722489和/或DRB1*1501用于MS；rs6859018、rs11209026和/或HLAC*0602用于PS)。对于评估个体患多动腿综合征(RLS)或乳糜泻(CelD)的风险，可使用1、2、3或4个SNP(例如rs6904723、rs2300478、rs1026732和/或rs9296249用于RLS；rs6840978、rs11571315、rs2187668和/或DQA1*0301DQB1*0302用于CelD)。对于前列腺癌(PC)或狼疮(SLE)而言，可使用1、2、3、4或5个SNP来评估个体患PC或SLE的风险(例如rs4242384、rs6983267、rs16901979、rs17765344和/或rs4430796用于PC；rs12531711、rs10954213、rs2004640、DRB1*0301和/或DRB1*1501用于SLE)。对于评估个体患黄斑变性(AMD)或风湿性关节炎(RA)的终生风险而言，可使用1、2、3、4、5或6个SNP(例如rs10737680、rs10490924、rs541862、rs2230199、rs1061170和/或rs9332739用于AMD；rs6679677、rs11203367、rs6457617、DRB*0101、DRB1*0401和/或DRB1*0404用于RA)。对于估计个体患乳腺癌(BC)的个体终生风险而言，可使用1、2、3、4、5、6或7个SNP(例如rs3803662、rs2981582、rs4700485、rs3817198、rs17468277、rs6721996和/或rs3803662)。对于估计个体患克罗恩氏病(CD)或2型糖尿病(T2D)的终生风险而言，可使用1、2、3、4、5、6、7、8、9、10或11个SNP(例如rs2066845、rs5743293、rs10883365、rs17234657、rs10210302、rs9858542、rs11805303、rs1000113、rs17221417、rs2542151和/或rs10761659用于CD；rs13266634、rs4506565、rs10012946、rs7756992、rs10811661、rs12288738、rs8050136、rs1111875、rs4402960、rs5215和/或rs1801282用于T2D)。在一些实施方式中，作为用于确定风险的基础的SNP可与上述SNP或其它SNP(例如美国专利公布No.20080131887和PCT公布No.WO2008/067551中的)发生连锁不平衡。

个体的表型谱可包括多种表型。特别地，无论在有症状、症状前或无症状的个体(包括一种或多种疾病/状态的易感等位基因的携带者)中，通过本发明的方法评估病人患疾病或其它状态(例如，可能的药物反应，包括代谢、功效和/或安全性)的风险使得能够对多种不相关的疾病和状态的易感性进行预后或者诊断分析。因此，这些方法提供了对于疾病或状态的个体易感性的总体评价而不需要预先设想任何特定疾病或状态的测试。例如，本发明的方法使得能够基于个体基因组谱对表1、图4、5或6中所列的多种状态中的任何一种的个体易感性进行评估。评估优选提供了有关这些状态中的2种或多种的信息，并且更优选这些状态中的3、4、5、10、20、50、100或者甚至更多种状态的信息。在优选实施方式中，将至少20条规则应用于个体的基因组谱而得到表型谱。在其它的实施方式中，将至少50条规则应用于个体的基因组谱。表型的单一的规则可以应用于单基因的表型。多于一条的规则也可以用于单一表型，例如多基因的表型或单一基因中的多个遗传性变型会影响具有表型的概率。

个体患者的基因组谱的最初筛选之后，当知道附加的核苷酸变型时，通过与这些附加的核苷酸变型(例如，SNP)的比较进行(或采用)个体基因型相关性的更新。例如，步骤110可以由搜索科学文献以寻找新基因型相关性的遗传学领域的一名或多名普通技术人员定期地进行，如，每天、每周或每月进行。然后，新基因型相关性可以进一步由本领域中的一位或多位专家的委员会确认。而后，步骤112可以以基于新的确认有效的相关性使用新规则定期地更新。

新规则可以包括在现有规则之外的基因型或者表型。例如，未与任何表型关联的基因型被发现与新的或现有的表型相关。新规则也可以用于先前无基因型与其关联的表型间的相关性。新规则也可以确定用于已具有现有规则的基因型和表型。例如，现有基于基因型A与表型A之间的相关性的规则。新的研究揭示了基因型B与表型A相关，因而产生基于这一相关性的新规则。另一个例子为发现表型B与基因型A相关，并因此制定新规则。

可以在发现基于已知的但没有在公开的科学文献中进行初始确认的相关性时制定规则。例如，可能有人报道，基因型C与表型C相关。另外的出版物报道，基因型D与表型D相关。表型C和D是相关的症状，例如表型C可以是呼吸急促，而表型D是较小的肺容量。利用现有存储的具有基因型C和D以及表型C和D的个体的基因组谱通过统计学方法，或者通过进一步的研究可以发现和确认基因型C与表型D或者基因型D与表型C之间的相关性。然后，可以基于新发现的和确认的相关性生成新规则。在另一实施方式中，可以研究存储的具有特定或相关表型的多个个体的基因型谱来确定这些个体共有的基因型，并且可以确定相关性。基于这一相关性可以生成新规则。

也可以制定规则以修正现有规则。例如，基因型与表型之间的相关性可能部分地由已知个体特征确定，例如，种族、家系、地理、性别、年龄、家族史或者个体的任何其它已知表型。可以制定基于这些已知个体特征的规则并且引入现有规则中以提供修正的规则。选择应用修正的规则将取决于个体的特定个体因素。例如，规则可能基于当个体具有基因型E时个体具有表型E的概率为35％。但是，如果个体为特定的种族，所述概率是5％。新规则可以基于这一结果制定并且应用于具有该特定种族特性的个体。或者，可以应用确定值为35％的现有规则，然后应用基于该表型的种族特征的另一规则。基于已知个体特征的规则可以由科技文献确定或者基于对存储的基因组谱的研究确定。在产生了新规则时，可以在步骤114中添加新的规则并将其应用于基因组谱，或者可以定期地应用它们，例如一年至少一次。

疾病的个体风险的信息也可以随着更高分辨率SNP基因组谱的技术进步得到扩展。如上所述，使用用于扫描500,000个SNP的微阵列技术可以很容易地生成初始SNP基因组谱。考虑到单倍体区块的特性，这一数字可用于个体基因组中所有SNP的典型谱。但是，在人类基因组中估计通常发生大约1000万个SNP(International HapMap计划；www.hapmap.org)。随着能够以更高细节水平对SNP进行实用和经济的解析(例如1,000,000、1,500,000、2,000,000、3,000,000或更多SNP的微阵列)的或者全基因组测序方面的技术进步，可以生成更详细的SNP基因组谱。同样，计算机分析方法学方面的进展使得能够获得更精细的SNP基因组谱的经济分析和SNP-疾病相关性主数据库的更新。

在步骤116生成表型谱之后，注册用户或者其医疗保健管理者可以如步骤118中通过在线入口或网站访问他们的基因组谱或表型谱。也可以将包括表型谱和其它关于表型谱和基因组谱的信息的报告提供给注册用户或其医疗保健管理者，如步骤120和122中所述。可以将报告打印出来、存储在注册用户的电脑里或者在线察看。

图7示出了示例的在线报告。注册用户可以选择显示单一表型或者多于一个的表型。注册用户也可以具有不同的察看选项，例如，如图7中所示“快速查看(Quick View)”选项。表型可以是医学状态并且在快速报告中的不同处理和症状可以链接至其它包含有关处理的进一步信息的网页。例如，通过点击药物，会导向包括关于剂量、费用、副作用和功效的信息的网站。也可以将药物与其它治疗进行比较。网站也可以包括导向药物制造商的网站的链接。另一链接可以向注册用户提供生成药物性基因组学(pharmacogenomic)谱的选项，这将包括基于其基因组谱的信息如他们对于药物的可能反应。也可以提供对于药物的替代方案的链接，例如预防性行为(如康体和减轻体重)；并且也可以提供对于饮食补充、饮食计划的链接及对于附近的健身俱乐部、健康诊所、保健及康复提供者、都市型spa(day spa)等的链接。也可以提供教育和情报视频、可利用的治疗的概要、可能的疗法和一般性建议。

在线报告也可以提供安排个人医生或遗传咨询预约的链接或者访问在线遗传顾问或医生的链接，从而为注册用户提供询问更多关于其表型谱的信息的机会。在线报告上也可以提供在线遗传咨询和医师询问的链接。

也可以以其它形式查看报告，例如对于单一表型的综合观察，其中提供了对于各个类别的更多详情。例如，可以存在关于注册用户出现表型的可能性的更详细的统计；关于典型症状或表型的更多信息，例如医学状态的代表症状或者身体非医学状态(如身高)的范围；或者关于基因和遗传性变型的更多信息，例如群体流行度，如在世界上或者在不同国家中，或者在不同年龄范围或性别中的群体流行度。在另一实施方式中，报告可以是“娱乐”表型的报告，例如，个体基因组谱与知名个体(如阿尔伯特·爱因斯坦)的基因组谱的相似性。报告可以显示个体基因组谱与爱因斯坦的个体基因组谱之间的百分比相似性，并且可以进一步显示爱因斯坦的预测IQ和该个体的预测IQ。进一步的信息可以包括总群体的基因组谱和其IQ与该个体和爱因斯坦的基因组谱和IQ比较的情况。

在另一实施方式中，报告可以显示已与注册用户的基因组谱相关联的所有表型。在其它的实施方式中，报告可以仅显示确定与个体的基因组谱正相关的表型。个体可以选择以其它形式显示表型的特定亚类，例如仅医学表型或者仅可处置的医学表型。例如，可处置的表型及其相关的基因型可以包括克罗恩氏病(与IL23R和CARD15相关)、1型糖尿病(与HLA-DR/DQ相关)、狼疮(与HLA-DRB1相关)、牛皮癣(HLA-C)、多发性硬化症(HLA-DQA1)、格雷夫斯病(HLA-DRB1)、风湿性关节炎(HLA-DRB1)、2型糖尿病(TCF7L2)、乳腺癌(BRCA2)、结肠癌(APC)、情景记忆(KIBRA)和骨质疏松症(COL1A1)。个体还可选择在他们的报告中显示表型的子类，例如，仅医学状态的炎性疾病或仅非医学状态的身体性状。

交付并传送至个体的信息可以是加密的和保密的，并且可以控制个体对这些信息的访问。由复杂基因组谱得到的信息可以作为管理部门批准的、可理解的、医疗相关的和/或具有高度影响的数据提供给个体。信息也可以是具有一般的意义，而与医疗无关。可以通过几种方式向个体加密地传送信息，所述方式包括，但不限于入口界面和/或邮寄。更优选地，信息通过入口界面加密地(如果个体如此选择)向个体提供，其中个体对该入口界面具有安全和保密的访问权限。这一界面优选通过在线的、互联网站入口提供，或者可选择地，通过电话或允许提供私密、安全和易于使用的访问的其它方式。基因组谱、表型谱和报告通过网络的数据传输向个体或其医疗保健管理者提供。

因此，图8为显示了可以通过其生成表型谱和报告的代表性示例逻辑设备的框图。图8显示了计算机系统(或者数字设备)800，其用于接收和存储基因组谱、分析基因型相关性、基于基因型相关性生成规则、将规则应用于基因组谱和产生表型谱和报告。计算机系统800可以理解为能够从介质811和/或网络端口805读取指令的逻辑设备，该网络端口805能够任选地与具有固定介质812的服务器809相连。图8中显示的系统包括CPU 801、磁盘驱动器803、任选的输入设备(例如键盘815和/或鼠标816)以及任选的监视器807。与本地或远方位置的服务器809的数据通信可以通过所示的通信媒介完成。通信媒介可以包括传送和/或接收数据的任何手段。例如，通信媒介可以是网络连接、无线连接或者互联网连接。该连接可在环球网中提供通讯。可以想到，与本发明相关的数据可在该网络或连接中传送以由某一方822接收和/或查看。接收方822可以为个体、注册用户、医疗保健提供者或医疗保健管理者，但不限于此。在一个实施方式中，计算机可读的介质包括适于传送生物样品或基因型相关性的分析结果的介质。所述介质可以包括关于个体对象的表型谱的结果，其中使用在此所描述的方法得到这一结果。

个人入口将优选用作个体接收和评价基因组数据的基本界面。入口将使个体能够跟踪其样品从收集到测试的过程并能够跟踪结果。通过入口访问，基于其基因组谱向个体介绍常见遗传病的相对风险。注册用户可以通过入口选择将哪些规则应用于其基因组谱。

在一个实施方式中，一个或多个网页将具有表型的列表和靠近每个表型有一个方框，注册用户可以选择方框以将其包括在他们的表型谱中。表型可以链接至与该表型有关的信息，以帮助注册用户明智地选择关于他们希望包括在其表型谱中的表型。网页也可以具有按疾病分组(例如可处置的疾病或不可处置的疾病)组织的表型。例如，注册用户可以仅选择可处置的表型，例如HLA-DQA1和乳糜泻。注册用户也可以选择显示表型的症状前或症状后治疗。例如，个体可以选择具有症状前治疗的可处置表型(在进一步筛查以外)，对于乳糜泻为无谷蛋白饮食的症状前治疗。另一实例可以是阿尔茨海默氏病，症状前治疗为他汀类药物、锻炼、维生素和精神作用。血栓形成是另一实例，症状前治疗是避免口服避孕药和避免长时间久坐。具有经批准的症状后治疗的表型的实例为与CFH有关的湿性AMD，其中个体可以进行对其状态的激光治疗。

表型也可以按疾病或状态的类型或种类进行组织，例如神经学、心血管、内分泌、免疫等等。表型也可以分组为医学和非医学表型。在网页上的表型的其它分类可以按照身体性状、生理性状、精神性状或情绪性状进行。网页可以进一步提供通过选择一个方框而选择一组表型的分区。例如，选择所有表型、仅与医学相关的表型、仅非医学相关的表型、仅可处置的表型、仅不可处置的表型、不同的疾病组或者“娱乐”表型。“娱乐”表型可以包括与名人或其他知名个体的对比，或者与其它动物或甚至其它生物体的对比。可用于对比的基因组谱的列表也可以在网页上提供以用于由注册用户选择而与注册用户的基因组谱对比。

在线入口也可以提供搜索引擎，以帮助注册用户浏览入口、检索特定表型或者检索由其表型谱或报告所揭示的特定术语或信息。也可以由入口提供访问搭配的服务和提供的产品的链接。也可以提供连接到支持小组、留言板和具有共同或相似表型的个体的聊天室的另外的链接。在线入口也可以提供连接到具有更多与注册用户表型谱中的表型有关的信息的其它地址的链接。在线入口也可以提供允许注册用户与朋友、家人或医疗保健管理者分享其表型谱和报告的服务。注册用户可以选择在表型谱中显示他们希望与其朋友、家人或医疗保健管理者分享的表型。

表型谱和报告向个体提供了个人化基因型相关性。向个体提供的基因型相关性能够用于确定个人保健和生活方式选择。如果发现了在遗传性变型与可进行治疗的疾病之间的强相关性，遗传性变型的检查有助于确定开始治疗疾病和/或个体监测。在存在统计学上显著的相关性但不认为是强相关性的情况下，个体可以与个人医生讨论该信息并决定适当、有益的行动方案。就特定基因型相关性而言可能有益于个体的潜在行动方案包括进行治疗处理、监测潜在的治疗需要或治疗效果或者在饮食、锻炼和其它个人习惯/活动等方面改变生活方式。例如，可处置表型(如乳糜泻)可以进行无谷蛋白饮食的症状治疗。同样，通过药物基因组学，基因型相关性信息可应用于预测必须用特定药物或药物疗程进行治疗的个体的可能反应，例如特定药物治疗的可能的效力或安全性。

注册用户可以选择将基因组谱和表型谱提供给其医疗保健管理者，例如医生或遗传顾问。基因组谱和表型谱可以由医疗保健管理者直接访问，由注册用户打印出一份以交给医疗保健管理者，或者通过在线入口(例如通过在线报告上的链接)将其直接发送给医疗保健管理者。

这一相关信息的传递将使患者能够与其医生协调行动。特别是，在患者与其医生间的讨论可以通过个人入口和连接到医学信息的链接以及使患者的基因组信息结合到其医学记录中的能力而成为可能。医学信息可以包括预防和健康信息。通过本发明提供给个体患者的信息将能够使患者做出对于其医疗保健的明智选择。在这一方式中，患者能够选择可以帮助他们避免和/或延迟其个体基因组谱(遗传的DNA)具有较高可能导致的疾病。另外，患者将能够采用适合其个人本身的特定医疗需要的治疗方案。个体也将具有访问其基因型数据的能力，如果他们发生疾病并需要这一信息帮助其医生形成治疗对策。

基因型相关性信息也可与遗传咨询结合以用于向考虑生育的夫妇提出建议，以及提出对于母亲、父亲和/或孩子的潜在遗传关注。遗传顾问可以向具有显示特定状态或疾病的较高风险的表型谱的注册用户提供信息和支持。他们可以解释关于该病症的信息、分析遗传模式和复发风险并与注册用户讨论可用选择。遗传顾问也可以提供支持性咨询以向注册用户推荐社区或国家支持服务。遗传咨询可以包括特定注册计划。在一些实施方式中，遗传咨询可以安排在所请求的24小时内且可在如晚上、星期六、星期日和/或假日的时间内提供。

个体的入口也将便于传递初始筛查以外的附加信息。个体将被告知有关其个人遗传图谱的新的科学发现，例如关于其目前或潜在状态的新的治疗或预防对策的信息。新发现也可以传递给其保健管理者。在优选实施方式中，通过电子邮件向注册用户或其保健提供者通告关于注册用户的表型谱中的表型的新基因型相关性和新研究。在其它实施方式中，将“娱乐”表型的电子邮件发送给注册用户，例如电子信件可以告知他们其基因组谱的77％与阿伯拉罕·林肯的基因组谱相同以及进一步的信息通过在线入口提供。

本发明也提供了一种用于生成新规则、修正规则、组合规则、定期用新规则更新规则集、安全地维持基因组谱数据库、将规则应用于基因组谱以确定表型谱和用于生成报告的计算机代码系统。计算机代码告知注册用户新的或者修正的相关性和新的或者修正的报告，例如具有新的预防和健康信息、关于开发中的新治疗方法的信息或可获得的新治疗的报告。

商业方法

本发明提供了基于比较患者的基因组谱和建立的医学相关核苷酸变异的临床来源数据库来评估个体的基因型相关性的商业方法。本发明还提供了使用存储的个体基因组谱来评估最初未知的新的相关性以产生个体的更新的表型谱的方法，其中无需个体再提交另一份生物样品。图9为表明商业方法的流程图。

在个体因为多种常见人类疾病、状态和身体状态的基因型相关性而最初请求和购买个人基因组谱时，在步骤101中部分地产生本发明的商业方法的收入流。请求和购买可以通过许多来源进行，包括但不限于在线网络入口、在线健康服务和个体的个人医生或者类似的个人医疗关注的来源。在替代的实施方式中，基因组谱可以免费提供，并且可以在随后的步骤(例如步骤103)中生成收入流。

注册用户或者消费者做出购买表型谱的请求。响应于需求和购买向消费者提供采集试剂盒以用于采集在步骤103中进行遗传样品分离的生物样品。当在线、通过电话或其它消费者不易于亲身获得采集试剂盒的来源做出请求时，通过快递提供采集试剂盒，例如提供当日或隔夜交付的速递服务。采集试剂盒中包括的是样品的容器以及用于将样品快速递送至生成基因组谱的实验室的包装材料。试剂盒也可以包括将样品送至样品处理机构或实验室的说明和(可以通过在线入口)访问其基因组谱和表型谱的说明。

正如以上所详细说明的，可以从多种类型的生物样品中的任何一种类型获得基因组DNA。优选地，使用商购的采集试剂盒(例如从DNA Genotek购得的试剂盒)从唾液中分离基因组DNA。唾液和这一试剂盒的使用使得能够进行无损伤样品采集，因为消费者很方便在来自采集试剂盒的容器中提供唾液样品，然后密封该容器。另外，唾液样品可以在室温下储存和运输。

在将生物样品存放在采集或标本容器中后，在步骤105中消费者把样品递送至进行处理的实验室。典型地，消费者可以使用在采集试剂盒中提供的包装材料通过例如同日或隔夜快递服务的快速递送将样品递送/寄送至实验室。

处理样品并生成基因组图谱的实验室可以遵循适当的政府机构指导和规定。例如，在美国，处理实验室可以被例如食品与药品管理局(FDA)或医疗保险和医疗补助服务中心(Centers for Medicare and Medicaid Services)(CMS)的一个或多个联邦机构和/或一个或多个州立机构管理。在美国，可以依照1988年的Clinical Laboratory ImprovementAmendments(CLIA)授权或批准临床实验室。

在步骤107中，如先前描述的实验室对样品进行处理以分离DNA或RNA的遗传样品。然后，在步骤109中，对分离的遗传样品进行分析和生成基因组谱。优选地，生成基因组SNP谱。如上所述，可使用几种方法来产生SNP谱。优选地，高密度阵列(例如可从Affymetrix或Illumina购买的平台)被用于SNP的识别和谱的产生。例如，如以上更详细地描述的，使用Affymetrix GeneChip assay生成SNP谱。随着科技的发展，可能存在可产生高密度SNP谱的其它的技术供应商。在另一个实施方式中，注册用户的基因组谱是注册用户的基因组序列。

产生个体的基因组谱之后，优选在步骤111中将基因型数据加密和输入，并在步骤113中存储到加密的数据库或保险库中，其中信息被存储用于将来参考。基因组谱和相关的信息可为保密的，按照个体和/或者他或她的个人医生的指令对访问这一私有信息和基因组图谱进行限制。其他人(例如个体的家人和遗传顾问)也可以由注册用户许可访问。

数据库或保险库可以就地位于处理实验室处。或者，数据库可以位于独立的场所。在这一情况下，在步骤111中可以将由处理实验室生成的基因组谱数据输送到包括数据库的单独的机构。

在生成个体的基因组谱之后，随后在步骤115中将个体的遗传变异与已确定的医学上相关的遗传性变型的临床数据库相对比。或者，基因型相关性可以不是医学相关的但仍包括在基因型相关性数据库中，例如，如眼睛颜色的身体性状，或者如与名人基因组谱的相似性的“娱乐”表型。

医疗相关的SNP可以通过科技文献和相关的来源建立。非SNP遗传变异也可与表型建立相关性。一般而言，SNP与特定疾病的相关性是通过将已知患有疾病的人们的组的单倍体模式与未患疾病的人们的组相比较而建立的。通过分析许多个体，可以确定群体中的多态性频率，反过来这些基因型频率可与特定的表型相关联，例如疾病或状态。可选地，表型可为非医学状态。

相关的SNP和非SNP遗传性变型还可通过分析存储的个体基因谱而不是通过可得到的公开文献而确定。具有存储的基因组图谱的个体可以揭示先前已经确定的表型。可以将对个体的基因型和揭示的表型的分析与没有该表型的个体相对比以确定而后可以应用于其它基因组谱的相关性。确定其基因组谱的个体可以填写关于先前已经确定的表型的调查表。调查表可以包括有关医学和非医学状态的问题，例如先前诊断的疾病、医学状态的家族史、生活方式、身体性状、精神性状、年龄、社会生活、环境等。

在一个实施方式中，如果个体填写了调查表，他们就可以免费确定其基因组谱。在一些实施方式中，个体定期填写调查表以免费访问其表型谱和报告。在其它实施方式中，填写了调查表的个体可以给予注册升级，以便他们具有比其先前的注册水平更高的访问权限，或者他们可以以较低的价格购买或更新注册。

为了保证科学精确性和重要性，在步骤121中存放在医学相关的遗传性变型数据库中的所有信息首先由研究/临床顾问组核准，同时如果在步骤119中被授权的话，由适当的政府机构检查和监督。例如在美国，FDA可以通过核准用于确认遗传性变型(通常为SNP、转录物水平或突变)相关数据的算法进行监督。在步骤123中，为了附加的遗传性变型-疾病或者状态相关性，对科学文献和其它相关来源进行监控，并且在确认它们的精确性和重要性后，以及经过政府机构的检查和批准后，这些附加的基因型相关性在步骤125中加入主数据库中。

经核准和验证的医学相关遗传性变型的数据库与个体全基因组谱相结合将有利地允许对大量疾病或状态进行遗传风险评估。在汇编个体的基因组谱之后，可以通过将个体的核苷酸(遗传)变型或遗传标记与已经与特定表型(例如疾病、状态或身体状态)相关联的人类核苷酸变型的数据库相比较而确定个体基因型相关性。通过将个体基因组谱与基因型相关性的主数据库相比较，可以告知个体是否发现他们对于遗传危险因子是阳性或阴性的以及程度如何。个体将收到有关大范围的经科学验证的疾病状态(例如，阿尔茨海默氏病、心血管病、凝血)的相对风险和/或患病体质数据。例如，可以包括表1中的基因型相关性。另外，数据库中的SNP疾病相关性可以包括，但不限于图4中所示的那些相关性。也可以包括图5和6中的其它相关性。本发明的商业方法因此提供了对于大量疾病和状态的风险分析而无需预先了解那些疾病和状态可能导致什么风险。

在其它实施方式中，与全基因组个体图谱相结合的基因型相关性为非医学相关表型，例如“娱乐”表型或例如发色的身体性状。在优选的实施方式中，如上所述，将规则或规则集应用于个体的基因组谱或SNP谱。将规则应用到基因组谱产生了个体的表型谱。

因此，当发现和验证新的相关性时，用附加的基因型相关性扩展人类基因型相关性的主数据库。在需要时或适当时，可以通过访问来自存储在数据库中的个体基因组谱中的相关信息进行更新。例如，获知的新基因型相关性可以基于特定的基因变型。然后，可以通过仅仅获取和比较个体的完整基因组谱中仅该基因的部分而确定个体是否可能受该新的基因型相关性的影响。

优选对基因组查询的结果进行分析和解释以便以可以理解的形式呈递给个体。然后，在步骤117中，如上面详细描述的通过邮寄或通过在线入口界面以安全、机密的方式向患者提供初始筛查的结果。

报告可以包括表型谱以及关于表型谱中表型的基因组信息，例如，关于所涉及的基因的基本遗传学信息或者遗传性变型在不同群体中的统计学信息。可以包括在报告中的基于表型谱的其它信息是预防对策、健康信息、治疗方法、症状认识、早期检测方案、介入方案以及表型的进一步鉴定和分类。在个体基因组图谱的初始筛查之后，进行或可以进行可控的、适度的更新。

当新的基因型相关性出现并且被验证和核准时，结合主数据库的更新，对个体基因组图谱进行更新或者可获得更新。基于新的基因型相关性的新规则可以应用于初始基因组图谱以提供更新的表型谱。在步骤127中通过将个体的基因组图谱的相关部分与新的基因型相关性相比较，可以生成更新的基因型相关性谱。例如，如果基于特定基因中的变异发现新的基因型相关性，则可以就新的基因型相关性对个体基因组图谱的该基因部分进行分析。在这一情况下，一种或多种新的规则可被应用来产生更新的表型谱，而不是具有已经应用的规则的整个规则集。个体的更新的基因型相关性的结果在步骤129中以加密的方式提供。

初始的和更新的表型谱可以是提供给注册用户或消费者的服务。可以提供基因组图谱分析的不同注册水平及其组合。同样地，注册水平可以发生变化以向个体提供他们希望接受的具有其基因型相关性的服务量的选择。这样，提供的服务等级将随着个体购买的服务注册水平发生改变。

注册用户的入门级注册可以包括基因组谱和初始表型谱。这可以是基础注册水平。在基础注册水平内可以有不同的服务等级。例如，特定的注册水平可以提供对于遗传咨询、在治疗或预防特定疾病方面具有特别专业知识的医生和其它服务选项的介绍。可以在线或通过电话获得遗传咨询。在另一实施方式中，注册的价格可能取决于个体选择用于其表型谱的表型的数量。另一选项可能为是否注册用户选择访问在线遗传咨询。

在另一情况中，注册可以提供初始的全基因组的基因型相关性，同时在数据库中维持个体的基因组谱；如果个体如此选择的话，这一数据库可以是加密的。在这一初始分析之后，后续分析和附加的结果可以在个体请求和另外付款时完成。这可以是高级注册水平。

在本发明商业方法的一个实施方式中，进行个体风险的更新并且在注册基础上可以向个体提供相应信息。购买高级注册的注册用户可以获得更新。对于基因型相关性分析的注册可以根据个体偏好提供新基因型相关性的特定类型或亚类的更新。例如，个体可能仅希望获悉存在已知治疗或预防过程的基因型相关性。为了帮助个体决定是否进行另外的分析，可以向个体提供关于已可利用的另外的基因型相关性的信息。这一信息可以方便地邮寄或发送电子邮件给注册用户。

在高级注册中，可以存在更多的服务等级，例如在基础注册中所提及的那些。可以在高等级中提供其它的注册模式。例如，最高等级可以向注册用户提供无限制的更新和报告。当确定新的相关性和规则时，可以更新注册用户的谱。在这一等级中，注册用户也可以允许无限制数目的个体进行访问，例如家庭成员和医疗保健管理者。注册用户也可以无限制地访问在线遗传顾问和医生。

在高等级内的下一注册水平可以提供更多限制的方面，例如有限次数的更新。注册用户可以在注册期间内对其基因组谱进行有限次数的更新，例如，一年4次。在另一注册水平中，注册用户可以一周一次、一月一次或一年一次对其存储的基因组谱进行更新。在另一实施方式中，注册用户仅可以具有可以选择更新其基因组谱的有限数目的表型。

个人入口也将方便地使个体能够维持对于风险或相关性更新和/或信息更新的注册，或者请求更新的风险评估和信息。如上所述，可以提供不同的注册水平以使个体能够选择各种水平的基因型相关性结果和更新，并且注册用户可以通过其个人入口选择不同注册水平。

这些注册选项中的任一项将对本发明商业方法的收入流作出贡献。本发明商业方法的收入流也通过添加新的消费者和注册用户而增加，其中新的基因组谱加入到数据库中。

表1：具有与表型相关的遗传性变型的代表性基因。

引入祖先数据

本发明还提供了通过引入祖先数据使用基因组谱使表型相关的方法和系统，例如在此描述的方法和系统。因此，评估个体的基因型相关性可被表达或报告为GCI评分，并可在产生GCI评分中引入祖先数据。例如，用于确定GCI评分的OR可以基于个体的家系或种族被改变。

个体发生某些状态的风险通常取决于个体的遗传和环境。当试图基于遗传学估计该风险时，目前的研究可能受到仅所有遗传学标记或变异(例如SNP)中的一部分可被测量的事实的限制。特别地，对于复杂的疾病而言，许多遗传和环境因素的复杂相互作用会导致状态的发生，因此可能存在多种边缘性地影响风险的遗传变异，例如SNP。目前的全基因组关联(Whole-Genome-Association，WGA)研究通常独立地考虑基因组中的各区域，并试图在所有其它的遗传因素和环境因素保持为未知时回答：该区域中特定的SNP中的突变是如何影响该状态的风险的。从算术上，这些研究主要估计了随SNP变化的风险概率的边缘分布(这些分布在此称为SNP的效应)。

发生状态的风险可能不仅受一种遗传变异或SNP的影响，而是会受多种SNP或其它遗传变异和环境因素的影响。因此，如果两个群体在基因组中具有不同的等位基因分布并处于影响他们的环境因素之中的话，那么各群体中特定的遗传变异(例如SNP)的效应可能存在潜在的差异。当该SNP民另一SNP、其它的遗传变异或环境因素之间存在基因－基因或基因－环境相互作用时，尤其会出现这种情况。但是，即使当不存在相互作用时，其它的遗传和环境因素的不同“背景分布”也可能影响遗传变异例如SNP的效应。因此，不局限于理论，不同的群体对于相同的遗传性变型(例如SNP)可具有不同的效应大小。但是事实上，在其SNP效应大小已在多于一个群体中测量过的几乎所有已知的状态中，测量的效应或者相互非常接近，或者彼此处于至少95％的CI内。因此，在一些实施方式中，可以在本发明中使用的简化的假设是：遗传变异(例如原因SNP)的效应大小事实上在所有的群体中是相同的。

不幸的是，即使假设效应大小在群种中相同，仍然存在原因遗传变异可能未知的限制，例如原因SNP不能被或未被基因分型。幸运的是，基因组中很接近的SNP或其它遗传变异可能是相关的，例如在LD中，因此即使原因SNP未进行测量，标签SNP也可用作原因的代替(参见例如图10)。但是，由于各种可能的原因(例如重组率的变化、选择压力或种群瓶颈)，不同的群体可能会具有不同的连锁不平衡模式。因此，在一些实施方式中，如果已对群体A中进行了研究，从而在该群体中获得了特定的优势比，不能假定群体B中也具有相同的优势比。这个可由下面的例子说明(参见图10)。例如，已在高加索人(CEU)群体中进行了研究，并且已报道了SNP中的一个(“公布的SNP”)具有大的效应大小。在该例子中，公布的SNP属于与原因SNP共同的LD区块，因此，原因SNP和公布的SNP之间的r²(相关系数的平方)为1；尽管布置不同，公布的SNP和原因SNP优选在CEU群中是相关的。但是，在另一群体(在这种情况中为YRI，约鲁巴人)中，有可能公布的SNP和原因SNP处于不同的LD区块中。在极端的情况中，他们具有r²＝0，其中他们在该群体中相互独立。在这种情况下，如果在YRI群中进行了相同的研究，不会对公布的SNP中检测到效应。因此，忽略消费者优先的群体和最初研究的群体中的LD模式来评估YRI个体的风险是错误的。图10中的例子为一个极端的例子，但是在现实中，可能以较低极端性的结果存在相似的模式。

因此，在一些实施方式中，本发明提供了评估个体基因型相关性的方法，包括比较具有不同家系的群体之间的基因座。例如，取决于如LD模式的因素，第一群体中出现的优势比可以应用在第二群体中，或在第二群体中发生变化。例如，由于YRI具有比CEU低的LD，对于AS(亚洲人)而言，使用的优势比可按以下列顺序为AS、YRI(约鲁巴人)、CEU(高加索人/欧洲人)家系/种族研究中的优势比。在一些实施方式中，基因座特异性的家系可用于混合的群体。

在一些实施方式中，第一和第二群体的群体可包括但不限于任何其它的群体，例如非裔美国人、高加索人、德系犹太人、西班牙系犹太人、印度人、太平洋岛民、中东人、德鲁兹人、贝都因人、南欧人、斯堪的纳维亚人、东欧人、北非人、巴斯克人、西非人、东非人。除非特别说明，第一和第二群体的群体可包括但不限于任何HapMap群体(YRI、CEU、CHB、JPT、ASW、CHD、GIH、LWK、MEX、MKK、TSI)。HapMap群体的描述可参见http://hapmap.org/ hapmappopulations.html.en和附件中。

在一些实施方式中，用于评估个体的基因型与表型之间的相关性的方法可包括：比较与表型相关的包括遗传变异(例如SNP)的第一连锁不平衡(LD)模式和包括遗传变异(例如SNP)的第二LD模式，其中第一LD模式为第一个体群体的LD模式和第二LD模式为第二个体群体的LD模式；通过比较，确定第二群体中与表型相关的遗传变异的概率；和从个体的基因组谱，通过使用概率来评估表型的基因型相关性；和向所述个体或所述个体的医疗保健管理者报告包括所述基因型相关性的结果。

例如，假定已针对第一群体A报告了公布的SNP P，其具有优势比OR[P,A]，且原因SNP是未知的。同样在该例子中，假定对于第二群体B，如果样本大小足够大的话，优势比C在A和B中是相同的，也就是OR[C,A]＝OR[C,B]。因此，如果C的位置是已知的，且OR[C,A]是已知的，那么B中的LD模式可用于估计最佳的标签SNP，以在群体中捕获C。但是，在一些实施方式中，C的位置是未知的，且C的优势比也是未知的。但是，对于每个SNP S和值X而言，概率可以计算为：假定群体A中S和P之间的相关系数以及P为具有优势比OR[P,A]的公布的SNP，Prob[S＝C,OR[C,A]＝X]|r²(P,S)，在A,P,OR[P,A]]中，即S是优势比为X(假定无限的样本大小)的原因SNP的概率。为了计算该概率，在实际的研究中，利用优势比S比优势比C小的事实，并可以回答假定对于足够大的样本大小OR[S,A]应该接近X时，发生此现象的概率是多少的问题。给定原因SNP的分布和他们的效应大小，标签SNP的预期效应大小可通过计算由不同的SNP作为原因得到的效应大小的期待值(加权平均值)来确定。

在图10给出的例子中，既然LD区块为完美的LD，CEU区块中的所有SNP具有作为原因的相同概率以及具有相同的效应大小分布(即log优势比为正常分布，其中置信区间确定其标准差)。但是，当YRI中公布的SNP意在标记原因时，该SNP的预期优势比为公布的优势比和1之间的加权平均值，其中权重对应涉及的LD区块的长度。

因此，在一些实施方式中，OR的改变可由下述方法确定：包括但不限于在第一个体群体或参照群体(例如上述例子中描述的CEU)中对多个遗传变异中的每一个确定原因遗传变异概率(例如OR)。然后OR可被用于从另一个体群体或参照组(例如YRI)的个体基因组谱评估基因型相关性，从而向所述个体或所述个体的医疗保健管理者报告包括来自步骤(c)的所述基因型相关性的结果。因此，用于计算其作为原因遗传变异(例如原因SNP)的概率的各遗传变异通常与第一群体中表型相关的已知遗传变异(例如公布的遗传变异，例如公布的SNP)接近。在一些实施方式中，用于计算其作为原因遗传变异(例如原因SNP)的概率的各遗传变异与已知的或公布的遗传变异发生连锁不平衡。

例如，再次假定已在第一群体A中报告了公布的SNP P，其具有优势比OR[P,A]，且原因SNP C是未知的，并假定对于第二群体B，如果样本大小足够大，A和B中的优势比C是相同的，即OR[C,A]＝OR[C,B]。例子中的另一假设为：对于研究的群体和个体群体而言，LD模式已知的。例如，尽管该例子可扩展到其它群体，但假定已对CEU群体(第一群体)进行了研究，且所述个体属于YRI群体(第二群体)。在每个位置上，假定存在风险等位基因R和非风险等位基因N。给定的SNP中三种可能的基因型为RR、RN和NN。对于给定的SNP S，基因型G(可为RR、RN或NN)和个体组I，组I中在SNP S处具有基因型G的个体数目表示为F(S,I,G)。因此，公布的SNP P中对CEU群体测量的优势比为其中CA和CT代表病例和对照群体。类似地，使用f(S,I,G)来表示群体I中基因型G的频率。对于SNP S₁和S₂对而言，假定个体在S₂处具有G₂(在CEU中)，使用P_CEU(S₁,G₁|S₂,G₂)表示个体在SNP S₁处具有基因型G₁的概率。使用相似的符号来表示第二群体YRI。

在一些实施方式中，算法被用于确定第二群体的OR，因此用于评估个体的基因型与表型之间的相关性，例如通过使用GCI评分。例如，此处公开的算法的输入和输出可包括下面提供的信息：

1)SNP(例如HapMap中公开的那些)和另一特定的SNP P(其为公布的SNP)的列表。

2)来自上述SNP的在研究中测定的SNP的列表。

3)对于公布的SNP P，假定已知下述之一：

(a)来自病例和对照研究的基因型计数，也就是每个基因型G的F(P,CA,G)值和F(P,CT,G)值是已知的。

(b)或者，假定对于SNP P，基因型的优势比、它们的置信区间、病例和对照的总数是已知的。

4)对于每对SNP S₁,S₂和每对基因型G₁,G₂而言，为算法提供P_CEU(S₁,G₁|S₂,G₂)和P_YRI(S₁,G₁|S₂,G₂)(该信息可从HapMap或其它参考数据集中获得)。

然后在假定研究中的个体数非常大(接近无穷多)的情况下，算法可以对邻近P的每个SNP S输出SNP的预期优势比。当样本大小接近无穷的时候，算法会假定CEU(即第一群体)和YRI(即第二群体)的原因C的优势比接近相同的数目。

因此，此处公开的算法可包括下面的主要步骤(同时参见实施例5)：

1)基于参考数据集得到LD概率。

2)如果它们不是作为输入(可选的1-b)，得到计数F(P,CA,G)、F(P,CT,G)。

3)在CEU中，对于P处病例和对照的基因型频率，采集n(n非常大，例如>>1000000)个样品。取样是基于给出计数的f(P,CA,G)、f(P,CT,G)的后验分布。

4)对于频率的各种情况和对于各SNP S：

(a)基于P的频率和基于P_CEU计算f(S,CA,G)和f(S,CT,G)。

(b)基于S中采样的等位基因频率产生F(S,CA,G)、F(S,CT,G)的情况。

(c)基于F(S)和基于f(S)(后者为渐近意义上的p值)计算S的p值。

(d)基于所有测量的SNP S来得到最小p值。如果其不是P，则拒绝该情况。

(e)如果不拒绝该情况，那么该情况与基于f(S)的最小p值一起被保留；这将会是该情况的原因SNP。

5)之前的阶段产生了一组原因SNPsC₁,…,C_n和它们相应的优势比。对于各该原因，假定YRI群具有相同的优势比。

(a)该信息与C_i处YRI中的基因型频率一起被用于估计每一基因型G的频率f_YRI(C_i,CA,G)。

(b)LD信息被用于估计每一SNP S的f_YRI(S,CA,G),f_YRI(S,CT,G)，并基于这些频率来计算渐近的优势比。

(c)对于各SNP S，渐近的优势比在所有情况中平均，从而产生预期的渐近优势比。

在一些实施方式中，祖先数据可用于评估个体他们的亚组，例如本发明提供了用于评估个体的参考亚组的方法，包括：获得个体的遗传样品；产生个体的基因组谱；通过比较个体的基因组谱与当前的种族、地理来源或家系的人类基因型相关性数据库来确定个体的一个或多个参考亚组；和向个体或个体的医疗保健管理者报告步骤c)中得到的结果。

在一方面，参考数据集包括来自个体的多组基因分型数据，其中基本上整个基因组被用于本发明中。在一个实施方式中，参考数据包括来自多个个体的基本上完整基因组的基因分型数据。其中在一个实施方式中，基本上完整的基因组是指在覆盖至少80％的个体基因组中的遗传标记被检测到，包括但不限于至少81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％基因组覆盖。在另一个实施方式中，来自参考数据中包括的个体的至少75％的基因分型数据集包括来自覆盖各个体的基因组的至少80％的遗传标记的信息。在进一步的实施方式中，来自对照数据中包括的个体的大于75％(包括但不限于大于76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)的基因分型数据集包括来自覆盖各个体的基因组的至少80％的遗传标记的信息。

在一个实施方式中，参考数据集包括多个遗传标记的信息，该遗传标记包括但不限于核苷酸重复、核苷酸插入、核苷酸缺失、染色体转位、染色体复制、拷贝数变异、微卫星重复、核苷酸重复、着丝粒重复或端粒重复或者SNP。在另一个实施方式中，参考数据集包括基本上限于单个遗传标记(例如SNPS或微卫星)的信息。其中，参考集中包括的遗传标记的至少80％为相同类型的，包括但不限于至少81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的遗传标记。

在另一个实施方式中，参考数据集基本上由整个基因组SNP基因分型数据组成。在一些实施方式中，通过使用用于SNP的识别和谱产生的高密度DNA阵列的个体基因组的分析得到SNP数据。这种阵列包括但不限于那些可从Affymetrix和Illumina购买的阵列(参见Affymetrix500K Assay Manual,Affymetrix,Santa Clara,CA(在此引入作为参考)；humanHap650Y基因分型微球芯片,Illumina,San Diego,CA)。在一些实施方式中，参考集基本由使用Affymetrix Genome Wide Human SNP Array 6.0对多于900000个SNP进行基因分型而产生的SNP数据组成。在替代的实施方式中，通过完整基因组采样分析的多于500000个SNP可使用Affymetrix GeneChip Human Mapping 500K ArraySet确定。

在另一个实施方式中，参考数据集包括有关各个体的种族、地理起源和/或家系的信息，包括其基因型数据。在一个实施方式中，所述信息存在于参考数据集中，例如HapMap或Genographic Project(https://www3.nationalgeographic.com/genographic/)。在另一个实施方式中，所述信息是自我报告的，例如由注册用户或非注册用户报告。在另一个实施方式中，注册用户可收到自我报告有关他们的种族、地理起源和/或家系的信息的奖励。在另一个实施方式中，注册用户可收到自我报告有关他们的疾病状态的信息(例如有关他们可能显示出症状或具有遗传的预倾向的任何疾病或状况的信息)的奖励。在另一个实施方式中，个体收到允许使用这一信息和在至少一个参考数据集中的个体基因型的奖励。在一些实施方式中，奖励可以是金钱奖励、提供服务的折扣、提供免费服务、提供服务升级(例如提高注册用户状态，从基础类别升到高级会员类别)、对相关人提供免费或打折服务，或向第三方供应商(例如Amazon、Starbucks、WebMD)提供打折、免费或信用服务。在相关的实施方式中，公开涉及他们的种族、地理起源和/或家系或者疾病状态的注册用户或非注册用户可被告知该公开信息的可能用途和给予提供或撤回他们的告知同意的机会。

在一个实施方式中，参考数据集包括来自具有不同的种族、地理起源和/或家系的多个个体的信息。在另一个实施方式中，参考数据集包括来自所述参考数据集中代表的各种族、地理起源和/或家系的类的一个以上的个体。在另一个实施方式中，参考数据集包括来自所述参考数据集中代表的各种族、地理起源和/或家系的类的5个以上的个体。在另一个实施方式中，参考数据集包括来自所述参考数据集中代表的各种族、地理起源和/或家系的类的10个以上的个体。在另一个实施方式中，参考数据集包括来自所述参考数据集中代表的各种族、地理起源和/或家系的类的20个以上的个体。

在另一个实施方式中，分析参考集中的组合数据以使种族、地理起源和/或家系与至少一种疾病或状态和遗传标记关联性相联系。在另一个实施方式中，自我报告的种族、地理起源和/或家系可用于标记特定的疾病或状态用于风险分析。在另一个实施方式中，个体的种族、地理起源和/或家系与他们的基因型相关，以用于具有相似或共有的种族、地理起源和/或家系的个体的亚组内遗传标记与疾病或状态之间的关联的进一步分析(例如计算机上的(in silico)群体遗传研究)。例如，已知具有共同的种族、地理起源和/或家系的个体(例如德系犹太人)的某些组，他们的孩子患有例如泰-萨克斯病的几率要高很多。对自己确认为德系犹太人的个体的分析可以在分析个体的遗传标记时考虑该信息以进行修正。

在另一个实施方式中，参考数据集中的数据可分层为参考数据亚组。当作为整体考虑时，群体可包括可能具有不同的等位基因频率的多个亚组。群体中存在具有不同的等位基因频率的多个亚组可使关联研究提供较少信息。在采样的亚组中不同的基本等位基因频率可能与各组内的疾病或状态无关，且它们可能导致连锁不平衡或疾病相关性的错误结论。将个体的基因型与参考数据亚组而不是整个参考数据集进行比较，可降低由假的等位基因关联造成的错误的几率。各参考数据亚组中的数据可根据至少一种共有的特征(例如共有的种族、地理起源和/或家系)进行组织。其数据包括在各亚组中的个体的基因型可被进一步分析以确定指示特定的种族、地理起源和/或家系的共同遗传标记。在替代的实施方式中，参考集中组合的数据可用于与至少一种疾病或状态相关的且还与至少一种种族、地理起源和/或家系相关的遗传标记。

在一个实施方式中，个体的至少一种自我报告的种族、地理起源和/或祖先特征被用于修正个体基因型的分析。修正的分析可集中在与疾病或状态相关的遗传标记上，其同时也是至少一个自我识别的种族、地理起源和/或祖先亚组共有的。在替代的实施方式中，基于个体的基因型来确定与个体的种族、地理起源和/或家系相关的信息。例如，个体的基因型与至少一种参考数据集相比较，并用于确定有关个体的种族、地理起源和/或家系的信息。然后将该信息引入个体基因型的分析，以用于与至少一种疾病或状态相关联。该分析可以集中在与至少一种疾病或状态相关联的遗传标记上，其也可以是至少一种种族、地理起源和/或家系共有的。

在另一个实施方式中，有关个体的种族、地理起源和/或家系的信息和来自个体遗传标记的分析的信息两者都被用于确定个体共有特定的种族、地理起源和/或家系的几率。通过结合两种类型的信息，从基因型分析获得的信息可用于验证个体的自我报告的种族、地理起源和/或家系，和用于纠正任何错误。在一个实施方式中，有关个体的种族、地理起源和/或家系的信息是自我报告的。在替代的一个实施方式中，有关个体的种族、地理起源和/或家系的信息是评估得到的。评估个体的种族、地理起源和/或家系可提供连续的手段以在复杂疾病或状态的研究中评估群体的结构。基于个体自我报告的信息，可能在种族、地理起源和/或祖先分组中存在相当数量的异质性。例如，可以基于公布的等位基因频率来估计个体种族、地理起源和/或祖先比例(例如欧洲、北非、土著居民等)。估计的种族、地理起源和/或祖先比例的例子可用于代替自我报告的信息来研究至少一种遗传标记与至少一种疾病或状态之间的关联。然后遗传风险模型可用于确定是否调节估计的个体种族、地理起源和/或祖先比例比不调节种族、地理起源和/或祖先的模型或基于自我报告的信息的模型能够更好地拟合数据。然后提供最好的拟合的模型可用于确定个体获得至少一种疾病或状态的风险。

在另一个实施方式中，根据对个体完整基因组的贡献，基于来自基因型和/或自我报告的数据的个体的种族、地理起源和/或家系信息可用于算术地确定与个体最接近的一个或多个参考亚组。例如，如果可以确定个体的基因型表明他/她共有表示多于一种种族、地理起源和/或家系的遗传标记。这种确定可包括可能性和任选地置信区间(例如存在X％±Y)，至少个体的亲戚中的一个是来自特定的种族、地理和/或祖先起源。然后该确定可用于告知个体在共有相似的种族、地理和/或祖先起源的个体中通常与至少一种疾病或状态相关的遗传标记以及他们获得所述至少一种疾病或状态的风险。在另一个实施方式中，可以产生包括有关各种不同的种族来源、地理起源和/或祖先来源对个体整个基因组的贡献的信息的报告。例如，报告可以以百分比描述在个体的整个基因组中聚积的祖先来源，例如20％来自非洲，30％来自亚洲，50％来自欧洲。在进一步的实施方式中，这种报告可任选地包括置信区间(例如20％±3来自非洲，30％±5来自亚洲，50％±2来自欧洲)。

在另一个实施方式中，个体的确定的种族、地理起源和/或家系可用于基于特定的基因座的分析确定个体获得至少一种疾病或状态的风险。在一个相关的实施方式中，可以对表征个体从具有特定的种族、地理起源和/或家系的亲属遗传所述基因座的可能性以及在所述基因座的等位基因与至少一种疾病或状态之间的关联性的至少一个基因座产生报告。在另一个实施方式中，可集合至少两个基因座特异性的关联结果来确定个体获得至少一种疾病或状态的组合风险。

在另一个实施方式中，可确定与之前的关联研究中报告的那些个体具有不同的种族、地理起源和/或家系的个体获得至少一种疾病或状态的风险。在另一个实施方式中，可确定具有独特或罕见的种族、地理起源和/或家系而使其难于或不可能发现用来比较个体的基因型的参考数据亚组的个体获得至少一种疾病或状态的风险。例如，个体可能想知道他/她获得与他的种族、地理起源和/或家系直接相关的遗传疾病的风险。一些尤其罕见的疾病，例如眼咽肌肉萎缩症，仅在群体中小的局部的组中被发现。具有这一特性的疾病通常可追溯到单个发作者或有限数目的之前的疾病携带者。对于具有这一特性的疾病而言，如果可以确定个体与最初的发作者或疾病携带者无关，那么该个体通常可从风险组中排除出去。在一个实施方式中，对具有共同的遗传背景或共同的种族、地理起源和/或家系的其它个体进行一个或多个关联研究是有利的。其中，个体的种族、地理起源和/或家系通过评估或通过自我报告信息确定。这些研究可结合个体的基因型、种族、地理起源和/或家系以及至少一种疾病或状态的情况的信息。可以比较来自至少两个研究的结果以确定是否在遗传标记的等位基因与至少一种疾病或状态之间观察到相似的关联。结果可取决于研究的各群体中的相关结构和等位基因频率以及它们之间的关系。此外，所述研究可用于识别与对所述至少一种疾病或状态的易感性相关的遗传标记。在一个实施方式中，缺乏至少一个遗传标记的至少一个等位基因可用于排除个体患至少一种疾病或状态的风险。在替代的实施方式中，对于至少一个遗传标记存在至少一个等位基因可用于将个体划分为具有患至少一种疾病或状态的风险。

下面的实施例用于阐明和解释本发明。本发明的范围不受这些实施例的限制。

实施例

实施例1：SNP谱的产生和分析

向个体提供试剂盒(例如从DNA Genotek购买的)中的样品管，个体将唾液样品(大约4ml)置于该管中，其中基因组DNA将会从唾液样品中提取。唾液样品被送至CLIA授权的实验室用于加工和分析。样品通常置于易于向个体提供的收集试剂盒的运输容器中通过隔夜邮寄方式被送至机构。

在一个优选的实施方式中，基因组DNA从唾液中分离出来。例如，使用来自DNAGenotek的DNA自我收集试剂盒技术，个体收集用于临床处理的大约4ml唾液的样本。将样品送至合适的实验室用于处理之后，通过热变性和蛋白酶消化样品来分离DNA，通常使用收集试剂盒厂商提供的试剂，在50℃下进行至少一个小时处理。然后离心样品，使用乙醇沉淀上清液。DNA沉淀悬浮于适于后续分析的缓冲液中。

根据公知的方法和/或收集试剂盒厂商提供的那些方法，个体的基因组DNA从唾液样品中分离出来。一般而言，样品首先被热变性和蛋白酶消化。然后，离心样品，保留上清液。然后使用乙醇来沉淀上清液，得到含大约5-16μg的基因组DNA的沉淀。将DNA沉淀悬浮在10mM Tris pH 7.6,1mM EDTA(TE)中。使用阵列厂商提供的仪器和说明，通过将基因组DNA和市售的高密度SNP阵列(例如可从Affymetrix或Illumina购买的)进行杂交来产生SNP谱。个体的SNP谱被存放加密的数据库或保险库中。

通过与建立的、医疗相关的SNP(其在基因组中的存在与特定的疾病或状态相关)的临床得到的数据库进行比较，查询患者的数据结构的风险给予SNP。数据库包括特定的SNP或SNP单倍体型与特定的疾病或状态之间的统计学相关性的信息。例如，如实施例III所示，载脂蛋白E基因中的多态性产生了该蛋白质的不同同型体，其反过来与发生阿尔茨海默病的统计学相关性相关。另一个例子是，具有凝血蛋白因子V(被称为因子V Leiden)变型的个体具有增加的凝血倾向。表1示出了其中与疾病或状态表型相关的SNP的许多基因。数据库中信息的科学精确性和重要性已被研究/临床咨询委员会认可，并可由政府机构监督。随着科学界出现更多的SNP疾病相关性，数据库被不断更新。

通过在线入口或邮件安全地向患者提供个体的SNP谱的分析结果。向患者提供解释和支持性信息，例如对于实施例IV中的因子V Leiden显示的信息。对个体的SNP谱信息的安全访问(例如通过在线入口)将有助于与患者的医生进行讨论，并给予个体个性化医疗的选择。

实施例2：基因型相关性的更新

响应于初始确定个体基因型相关性的的请求，产生了基因组谱，建立了基因型相关性，并向个体提供了结果，如实施例I所示。初始确定个体的基因型相关性之后，在另外的基因型相关性已知时，后续的更新的相关性被确定或可被确定。注册用户享有高级水平的注册且他们的基因型谱被保留在加密的数据库中。更新的相关性是在存储的基因型谱上进行的。

例如，最初的基因型相关性(例如上述实施例I中描述的)可能已经确定：特定的个体不具有ApoE4，因此不具有早发性阿尔茨海默病的倾向，和该个体不具有因子V Leiden。在该初始确定之后，新的相关性可能成为已知的和确立的，从而在特定基因(假设基因XYZ)中的多态性与特定的状态(假定状态321)相关。这一新的基因型相关性被添加到人类基因型相关性的主数据库中。然后通过首先从加密的数据库中存储的特定个体的基因组谱中找到相关的基因XYZ数据来向特定的个体提供更新。特定个体的相关基因XYZ数据与基因XYZ的更新的主数据库信息相比较。特定个体对状态321的易感性或遗传倾向从该比较中确定。该确定的结果被添加到特定个体的基因型相关性。向特定个体提供有关特定个体是否对状态321具有易感性或遗传倾向的更新的结果，同时提供解释和支持性信息。

实施例3：ApoE4基因座和阿尔茨海默病的相关性

已经表明，阿尔茨海默病(AD)的风险与载脂蛋白E(APOE)基因中的多态性有关，该多态性产生了三种APOE的同种型，被称为ApoE2、ApoE3和ApoE4。同种型之间在在APOE蛋白质中的残基112和158位置上的1或2个氨基酸不同。ApoE2包含112/158cys/cys；ApoE3包含112/158cys/arg；和ApoE4包含112/158arg/arg。如表2所示，阿尔茨海默病在较早年龄的发作的风险随着APOEε4基因拷贝数而增加。同样，如表3所示，AD的相对风险随着APOEε4基因拷贝数而增加。

表2：AD风险等位基因的流行度(Corder等人,Science:261:921-3,1993)

APOEε4拷贝	流行度	阿耳茨海默氏病的风险	发作年龄
				0	73％	20％	84
1	24％	47％	75
				2	3％	91％	68

表3：具有ApoE4的AD相对风险(Farrer等人,JAMA:278:1349-56，1997)

APOE基因型	优势比
		ε2ε2	0.6
ε2ε3	0.6
		ε3ε3	1.0
ε2ε4	2.6
		ε3ε4	3.2
ε4ε4	14.9

实施例4：因子V Leiden阳性患者的信息

以下信息是可能提供给具有显示出存在因子V Leiden基因的基因组SNP分布图的个体的信息的示例。该个体可具有在初始报告中可以提供信息的基础注册。

什么是因子V Leiden？

其是指存在由一个人的父母遗传的特定基因。因子V Leiden是凝血需要的蛋白质因子V(5)的变型。具有因子V缺失的人更可能严重流血，而具有因子V Leiden的人的血液凝血倾向增加。

携带因子V Leiden基因的人们形成血凝(血栓形成)的风险比群体中的其它人高5倍。但是许多具有该基因的人从不出现血凝块。在英国和美国，群体的5％携带一个或多个因子V Leiden基因，这远多于将实际患血栓症的人的数量。

你如何会有因子V Leiden？

因子V的基因是从一个人的父母遗传的。正如所有遗传性特征，一个基因遗传自母亲而一个遗传自父亲。由此，可能遗传：两个正常基因或者一个因子V Leiden基因和一个正常基因或者两个因子V Leiden基因。具有一个因子V Leiden基因将导致稍高的发生血栓症的风险，但是具有两个基因导致大得多的风险。

因子V Leiden的症状是什么？

除非你出现凝血(血栓形成)，否则没有任何症状。

什么是危险信号？

最常见的问题是在腿部的血凝块。腿部肿胀、疼痛和发红显示出这一问题。在更稀有的病例中，可能出现肺部血凝块(肺血栓症)，其导致呼吸困难。根据血凝块的尺寸，这一病症的严重程度从几乎不能被察觉到患者发生严重的呼吸困难。在甚至更稀有的病例中，血凝块可能发生在手臂或其它身体部位。由于这些凝块形成在输送血液至心脏的静脉而不是形成在动脉(其从心脏输出血液)中，因子V Leiden不会使冠状动脉血栓形成的风险增大。

什么可以避免血凝块？

因子V Leiden仅轻微增大导致血凝块的风险，并且许多具有这一状态的人永不会发生血栓症。一个人可以做许多事情来避免导致血凝块。避免以同一姿势久站或久坐。当长途旅行时，重要的是有规律地锻炼――必须使血液不“静置不动”。熬夜或吸烟将极大地增大出现血凝块的风险。携带因子V Leiden基因的妇女不应该服避孕丸，因为这将显著增大患血栓症的机会。携带因子V Leiden基因的妇女也应该在妊娠前咨询其医生，因为这也会增大血栓形成的风险。

医生如何发现你具有因子V Leiden？

因子V Leiden的基因可在血液样品中发现。

腿部或胳膊的凝血可通常通过超声检查进行检测。

在将一种物质注入血液中以使血凝块显现后，血凝块也可由X射线检测。在肺里的血块更难于找到，但是通常医生将使用放射性物质去测试肺内血流的分布和流至肺内的空气的分布。这两种分布模式应该相匹配——不匹配表示存在血凝块。

如何处理因子V Leiden？

具有因子V Leiden的人们不需要进行治疗，除非他们的血液开始凝结，在这种情况下，医生将开出稀释血液(抗凝血的)药物，例如华法林(例如，苄丙酮香豆素钠)或者肝素以防止进一步的血凝块。治疗通常将持续三至六个月，但是如果存在几个血凝块，则可能需要更长时间。在重症的情况下，药物治疗的过程可能无限期地持续；在极稀有的情况下，血凝块可能需要手术移除。

在孕期如何处理因子V Leiden？

携带2个因子V Leiden基因的女性在孕期需要接受肝素促凝药物的治疗。相同的治疗适用于本身先前有血凝块或者有血凝家族史的仅携带一个因子V Leiden基因的妇女。

所有携带因子V Leiden基因的女性在孕期的后半段中可能需要穿着特殊的长筒袜以防止血凝块。产后，她们可开抗凝药物肝素。

预后

出现血凝块的风险随年龄增大，但是在对100名携带该基因的人进行的随年龄的调查中，发现仅少数曾患过血栓症。国家遗传顾问学会(The National Society forGenetic Counselors(NSGC))可以提供你所在地区中遗传顾问的列表以及关于建立家族史的信息。在www.nsgc.org/consumer上搜寻他们的在线数据库。

实施例5：产生具有不同家系的个体的优势比

1.基于参考数据集得到LD概率。

计算在SNP S₁,S₂处具有基因型对(G₁,G₂)的HapMap个体的数目，以产生两个SNP的联合分布。使用Bayes法则合并各SNP的边缘分布来估计P_CEU(S₁,G₁|S₂,G₂)(CEU为公布的或第一群体)和P_YRI(S₁,G₁|S₂,G₂)(YRI为第二群体,个体的祖先)。

2.如果它们不作为输入给出(可选的1-b)，得到计数F(P,CA,G),F(P,CT,G)。

如果计数不作为输入给出，下述方程组用于得到它们：

F(P,CA,NN)+F(P,CA,NR)+F(P,CA,RR)＝N

F(P,CT,NN)+F(P,CT,NR)+F(P,CT,RR)＝M

O R (P, C E U, R R) = \frac{F (P, C A, R R) F (P, C T, N N)}{F (P, C A, N N) F (P, C T, R R)}

O R (P, C E U, R N) = \frac{F (P, C A, R N) F (P, C T, N N)}{F (P, C A, N N) F (P, C T, R N)}

\frac{1}{F (P, C A, N N)} + \frac{1}{F (P, C A, R P)} + \frac{1}{F (P, C T, N N)} + \frac{1}{F (P, C T, R R)} = {(\frac{\log (\frac{U B (P, C E U, R R)}{O R (P, C E U . R R)})}{1.96})}^{2}

\frac{1}{F (P, C A, N N)} + \frac{1}{F (P, C A, R N)} + \frac{1}{F (P, C T, N N)} + \frac{1}{F (P, C T, R N)} = {(\frac{l o g (\frac{U B (P, C E U, R N)}{O R (P, C E U . R N)})}{1.96})}^{2}

在上述方程中，UB(P,CEU,G)为公布SNP P的基因型G的优势比的置信区间上限。M和N分别为研究中对照和病例的数目。

存在具有6个变量的6个方程。列举所有的F(P,CA,NN)和F(P,CA,RN)值。对于各对值而言，确定其它变量的2－4方程是通过解一组线性方程得到的，最后两个方程用于确认。运行时间由N²决定。

3.在CEU中采集在P处的病例和对照的基因型频率的n个(n非常大，例如>> 1000000)情况。采样是基于给定计数的f(P,CA,G),f(P,CT,G)的后验分布。

假定f(P)(看到F(P)的几率)可在多项分布的假定下进行计算。通过假定在可能的f(P)值上的均匀先验，已知概率Prob(f(P)|F(P))αProb(F(P)|f(P))。MCMC方法被用于使用Gibbs采样器从该分布中采样。

4.对于频率的各种情况和各SNP S：

a)基于p的频率和P _CEU 来计算f(S,CA,G)和f(S,CT,G)

公式用于估计该情况中的S处的频率。相似的公式可用作对照。

b)基于S的采样等位基因频率来产生F(S,CA,G),F(S,CT,G)的情况。这是通过假定代表S处的基因型的多项随机变量进行的。

c)基于F(S)和基于f(S)来计算S的p值(后者为渐近意义上的p值)。

基于F(S)，Armitage-Trend检验被用于计算p值。为了计算渐近的p值，假定N个病例和N个对照的样本大小，具有与预期匹配的计数，例如F(S,CA,G)假定为Nf(S,CA,G)。

d)基于所有测量的SNP S的F(S)得到最小p值。如果这不是P，那么该情况被拒绝。

e)如果该情况不被拒绝，那么基于f(S)保持该情况和最小p值；这是该情况的原因SNP。

5.之前的阶段产生了一组原因SNPsC₁,…,C_n和它们相应的优势比。对于各该原因而言，假定YRI群体具有相同的优势比。

a)该信息和C _i 处YRI中的基因型频率一起被用于估计每一基因型G的频率f _YRI(C_i,CA,G)。

为此，解下述方程：

因为f_YRI(S,CT,G)被假定从对照群体(HapMap)中已知，所以在该方程中存在三个缺失的变量。因此上组方程组为一组线性方程，且可被有效地解出。

b)LD信息被用于估计每一SNP S的f_YRI(S,CA,G),f_YRI(S,CT,G)，并基于这些频率来计算渐近的优势比。这是通过与步骤4(a)相似的方式进行的。

c)对于各SNP S而言，渐近的优势比为所有情况的平均值，产生了预期的渐近优势比。

然后该优势比可用于确定个体的基因型相关性。

尽管在此显示和描述了本发明的一些优选实施方式，本领域普通技术人员明白这些实施方式仅在于提供一些例子。在不偏离本发明的情况下，本领域技术人员可以做出一些变化、改变和替换。可以明白的是，对本发明实施方式的各种不同的替换可用于实施本发明。下面的权利要求限定了本发明的范围，这些权利要求和它们的等同物的范围内的方法和结构包括在此。

Claims

1.一种建立用于评估个体的基因型与表型之间的相关性的数据库的方法，包括：

(a)比较：

(i)包含与表型相关的遗传变异的第一连锁不平衡(LD)模式，其中所述第一LD模式为第一个体群体的模式；和

(ii)包含所述遗传变异的第二LD模式，其中所述第二LD模式为第二个体群体的模式；

(b)在包含代码的计算机系统上由所述个体的基因组谱评估基因型与表型之间的相关性，其中所述计算机系统通过(a)中的所述比较确定在所述第二群体中所述遗传变异与所述表型相关的概率来进行所述评估，其中所述代码包含规则集，各规则表明至少一种基因型与至少一种表型之间的相关性，且所述计算机系统将所述规则应用于所述个体的基因组谱，所述概率为等位基因或基因型优势比(OR)；

(c)包括使用步骤(b)中的所述概率由所述个体的基因组谱来评估所述表型的基因型相关性，其中所述基因型与表型的相关性作为GCI评分报告；和

(d)将所述基因组谱和所述相关性存放在数据库中；

其中所述遗传变异为单核苷酸多态性(SNP)，且其中所述OR源自已知的OR，其中所述已知的OR用于与所述第一群体的所述表型相关的所述遗传变异。

2.根据权利要求1所述的方法，其中所述第一群体和所述第二群体具有相似的LD模式。

3.一种建立用于评估个体的基因型与表型之间的相关性的数据库的方法，包括：

(a)在第一个体群体中确定多个遗传变异中每一个的原因遗传变异概率；

(b)确定作为第二个体群体中所述多个遗传变异中的每一个的概率的步骤(a)中的各所述概率，所述概率为等位基因或基因型优势比(OR)；

(c)包括使用步骤(b)中的所述概率由所述个体的基因组谱来评估基因型与表型之间的相关性，其中所述基因型与表型的相关性作为GCI评分报告；和

(d)将所述基因组谱和所述相关性存放在数据库中；

其中所述遗传变异为单核苷酸多态性(SNP)。

4.根据权利要求3所述的方法，其中步骤(a)的各所述遗传变异接近于与所述第一群体中的表型相关的已知遗传变异。

5.根据权利要求4所述的方法，其中步骤(a)的各所述遗传变异与所述已知遗传变异连锁不平衡。

6.根据权利要求1或3所述的方法，其中所述第二群体与所述第一群体的家系不同。

7.根据权利要求1或3所述的方法，其中所述个体属于所述第二群体的家系。

8.根据权利要求1或3所述的方法，其中所述原因遗传变异为未知的。

9.根据权利要求1或3所述的方法，其中所述报告包括通过网络传输所述结果。

10.根据权利要求1或3所述的方法，其中所述报告通过在线入口进行。

11.根据权利要求1或3所述的方法，其中所述报告通过纸件或电子邮件进行。

12.根据权利要求1或3所述的方法，其中所述报告包括加密形式报告。

13.根据权利要求1或3所述的方法，其中所述报告包括非加密形式报告。

14.根据权利要求1或3所述的方法，其中产生所述基因组谱是通过第三方进行的。

15.根据权利要求1或3所述的方法，其中所述基因组谱是从遗传样品产生的。

16.根据权利要求15所述的方法，其中第三方获得所述遗传样品。

17.根据权利要求15所述的方法，其中所述遗传样品为DNA。

18.根据权利要求15所述的方法，其中所述遗传样品为RNA。

19.根据权利要求15所述的方法，其中遗传样品从选自血液、头发、皮肤、唾液、精液、尿液、粪便、汗液和口腔样品的生物样品获得。

20.根据权利要求1或3所述的方法，其中所述基因组谱为单核苷酸多态性谱。

21.根据权利要求1或3所述的方法，其中所述基因族谱包括截短、插入、缺失或重复。

22.根据权利要求1或3所述的方法，其中所述基因组谱使用高密度DNA微阵列产生。

23.根据权利要求1或3所述的方法，其中所述基因组谱使用RT－PCR产生。

24.根据权利要求1或3所述的方法，其中所述基因组谱使用DNA测序产生。

25.根据权利要求1或3所述的方法，进一步包括(e)使用附加的遗传变异更新所述结果。

26.根据权利要求1或3所述的方法，其中权利要求1所述的群体包括任意的HapMap群体(YRI、CEU、CHB、JPT、ASW、CHD、GIH、LWK、MEX、MKK、TSI)，或任意其它的群体，例如但不限于非裔美国人、高加索人、德系犹太人、西班牙系犹太人、印度人、太平洋岛民、中东人、德鲁兹人、贝都因人、南欧人、斯堪的纳维亚人、东欧人、北非人、巴斯克人、西非人或东非人。