CN102187344A

CN102187344A - 用于综合多种环境与遗传风险因子的方法和系统

Info

Publication number: CN102187344A
Application number: CN2009801408119A
Authority: CN
Inventors: E·哈尔佩林; J·维瑟尔; M·卡吉尔; D·A·斯特潘
Original assignee: Navigenics Inc
Current assignee: Navigenics Inc
Priority date: 2008-09-12
Filing date: 2009-09-11
Publication date: 2011-09-14
Also published as: BRPI0918889A2; GB201104128D0; JP2012502398A; GB2477868A; TWI423151B; AU2009291577A1; EP2335174A1; KR20110074527A; US20100070455A1; TW201033910A; WO2010030929A1; JP2015007985A

Abstract

本发明提供了用于将多种环境和遗传风险因子引入个体基因组谱的方法和系统。所述方法包括通过综合多种遗传风险因子、环境风险因子或其组合来评价个体基因型与至少一种疾病或病症之间的关联。

Description

用于综合多种环境与遗传风险因子的方法和系统

相关性和表型谱

基因组谱用于生成表型谱。基因组谱通常以数字化形式存储，并且在任何时间点都易于访问以产生表型谱。通过应用使基因型与表型相关或关联的规则来产生表型谱。通常使用计算机来应用规则。可以基于表明基因型与表型之间的相关性的科学研究来制定规则。该相关性可由一个或多个专家组成的委员会评议(curated)或确定。通过将规则应用于个体的基因组谱，可以确定个体的基因型与表型之间的相关性。个体的表型谱将具有这一确定。该确定可为个体的基因型与给定的表型之间的正相关性，从而个体具有给定的表型或将会产生该表型。或者，也可确定个体不具有或不会产生给定的表型。在其他的实施方式中，该确定可以是风险因子、估计值或者个体具有或将产生表型的概率。

可以基于多种规则进行确定，例如，可以将多种规则应用于基因组谱以确定个体基因型与特定表型的关联。确定过程也可以结合个体特有的因素，例如种族、性别、生活方式(例如，饮食和锻炼习惯)、年龄、环境(例如，居住位置)、家族病史、个体病史和其他已知表型。特定因素的结合可以通过修改现有的规则来包括这些因素。或者，可由这些因素产生单独的规则，且在已应用现有的规则之后应用于个体的表型确定。

表型可以包括任何可测定的性状或者特性，例如对于某种疾病的易感性或者对于药物治疗的反应。可以包括的其他表型是身体和精神性状，例如，身高、体重、头发颜色、眼睛颜色、晒斑敏感性、体形(size)、记忆力、智力、乐观程度和整体性情。表型也可以包括与其他个体或生物体的遗传比较。例如，个体可能对他们的基因组谱与名人的基因组谱之间的相似性感兴趣。他们也可能使他们的基因组谱与其他生物体(例如细菌、植物或其他动物)进行比较。总之，对于个体所确定的相关表型的集合组成该个体的表型谱。

遗传变异和表型之间的关系可从科学文献中获知。遗传变异的相关性由已经对是否存在一种或多种感兴趣的表型性状和对其基因型谱进行了测试的个体的群体所进行的分析确定。对基因型谱中各遗传变异或多态性的等位基因进行检测以确定是否特定的等位基因的存在与感兴趣的性状相关联。可以通过标准统计方法进行相关性分析，并记录遗传变异与表型特征之间的统计学显著的相关性。例如，可以确定，多态性A的等位基因A1的存在与心脏病相关。作为进一步的例子，可能发现多态性A的等位基因A1和多态性B的等位基因B1的组合存在与癌症风险的增大相关。分析的结果可以在同行评论的文献中公布，由其他研究组进行确认，和/或由专家委员会(例如，遗传学家、统计学家、流行病学家和医生)进行分析，并且也可以进行评议。例如，在美国公开20080131887和PCT公开WO/2008/067551(二者在此完整引入)中所记载的相关性可用于本文所述的实施方式中。

可选地，可从存储的基因组谱中产生相关性。例如，具有存储的基因组谱的个体也可具有存储的已知的表型信息。存储的基因组谱和已知的表型的分析可产生基因型相关性。例如，具有储存的基因组谱的250位个体也具有之前他们被诊断为患有糖尿病的存储信息。进行他们的基因组谱的分析并与未患有糖尿病的个体对照组进行比较。然后确定出：之前被诊断为患有糖尿病的个体比对照组具有更高的带有特定遗传变异体的比率，因而可在该特定的遗传变异体和糖尿病之间形成基因型关联。

基于遗传变异体与特定的表型之间的确立的相关性来制定规则。规则可以根据在美国公开2008013188和PCT公开WO/2008/067551中所记载相关的的基因型和表型来生成，且一些规则可结合例如性别和种族的其他因素来生成效应评估。由规则产生的其他量度可以评估相对风险增加。效应评估和估计的相对风险增加可以来自公开的文献，或者由公开的文献进行计算。或者，规则可以基于由存储的基因组谱和先前已知的表型产生的相关性。

遗传变异可包括SNP。尽管SNP出现在单个位点处，但在某一位点处携带特定SNP等位基因的个体通常可预测地在其他的位点处携带特定的SNP等位基因。SNP与使个体易发疾病或病症的等位基因的相关性通过连锁不平衡产生，其中在群体中两个或多个基因座上的等位基因存在非随机关联的频率大于或者小于由通过重组的随机形成而预期的频率。

其他的遗传标记或变异(例如核苷酸重复或插入)也可以与已经显示为与特定的表型相关的遗传标记发生连锁不平衡。例如，核苷酸插入与表型相关，而SNP与核苷酸插入存在连锁不平衡。形成基于SNP与表型之间的相关性的规则。也可以形成基于核苷酸插入与表型之间的相关性的规则。可以将任一规则或者两个规则应用于基因组谱，因为一个SNP的存在可以给出某一风险因子，另一规则可以给出另一风险因子，并且当它们结合时可以增大风险。

通过连锁不平衡，易发疾病的等位基因与SNP的特定等位基因或者SNP的特定等位基因的组合共分离(cosegregate)。沿着染色体的SNP等位基因的特定组合被称为单体型，它们组合出现的DNA区域被称为单体型区块。尽管单体型区块可由一个SNP组成，但是单体型区块一般代表在个体之间表现出低的单体型多样性且通常具有低重组频率的一串连续2个或多个SNP。可以通过鉴定位于单体型区块中的一个或多个SNP进行单体型的鉴定。因此，SNP谱通常可用于识别单体型区块，而不是必须识别在特定的单体型区块中的所有SNP。

SNP单体型模式和疾病、病症或身体状态之间的基因型相关性逐渐变得已知。对于特定的疾病而言，将已知具有该疾病的一组人的单体型模式与无该疾病的一组人相比较。通过分析许多个体，可以确定在群体中多态性的频率，并且随后这些频率或基因型可以与特定的表型(例如疾病或者病症)相关联。已知的SNP-疾病相关性的实例包括在与年龄相关的黄斑变性中补体因子H的多态性(Klein等人，Science：308：385-389，(2005))和与肥胖症相关的邻近INSIG2基因的变异(Herbert等人，Science：312：279-283(2006))。其他已知的SNP相关性包括含CDKN2A和B的9p21区中的多态性，例如与心肌梗塞相关的rs10757274、rs2383206、rs13333040、rs2383207和rs10116277(Helgadottir等人，Science 316：1491-1493(2007)；McPherson等人，Science 316：1488-1491(2007))。

SNP可为功能性的或非功能性的。例如，功能性的SNP对细胞功能的效应，因此会产生表型，而非功能性的SNP对功能无影响，但可以与功能性SNP发生连锁不平衡。SNP也可以是同义的或者非同义的。同义的SNP是其中不同形式导致相同多肽序列的SNP，且为非功能性SNP。如果SNP导致不同多肽，那么SNP是非同义的并且可以是或不是功能性的。用于识别二倍体型(其为2个或多个单体型)中的单体型的SNP或其他的遗传标记可用于使表型和二倍体型相关。有关个体的单体型、二倍体型和SNP谱的信息可存在于个体的基因组谱中。

典型地，对于基于与表型关联的另一遗传标记形成连锁不平衡的遗传标记产生的规则，该遗传标记具有大于0.5的r²或D’得分(该得分通常在本领域中用于确定连锁不平衡)。该得分可大于大约0.5、0.6、0.7、0.8、0.90、0.95或0.99。结果，用于将表型与个体的基因组谱关联的遗传标记可以相同或者不同于与表型相关的功能性的或公开的SNP。在一些实施方式中，测试SNP也可能还未鉴定，但使用公开的SNP信息，可以基于另一分析方法(例如TaqMan)鉴定等位基因差异或SNP。例如，公开的SNP是rs1061170，但测试SNP尚未鉴定。可以通过利用公开的SNP的LD分析鉴定测试SNP。或者，可以不使用测试SNP，而是用TaqMan或其他相当的分析方法评价具有该测试SNP的个体基因组。

测试SNP可以是“直接(DIRECT)”或“标签(TAG)”SNP。直接SNP是与公开的或功能性SNP相同的测试SNP。例如，使用欧洲人和亚洲人的SNP rs1073640(其中次要等位基因为A且另一等位基因为G)，直接SNP也可以用于FGFR2与乳腺癌的相关性(Easton等人，Nature447：1087-1093(2007))。欧洲人和亚洲人中可以是FGFR2与乳腺癌的相关性的直接SNP的另一公开的或功能性的SNP是rs1219648(Hunter等人，Nat.Genet.39：870-874(2007))。标签SNP为测试SNP不同于功能性的或公开的SNP的情况。标签SNP也可以用于其他遗传变异体，例如，对于CAMTA1(rs4908449)、9p21(rs10757274、rs2383206、rs13333040、rs2383207、rs10116277)、COL1A1(rs1800012)、FVL(rs6025)、HLA-DQA1(rs4988889、rs2588331)、eNOS(rs1799983)、MTHFR(rs1801133)和APC(rs28933380)的SNP。

SNP的数据库可从例如International HapMap Project(参见www.hapmap.org，The International HapMap Consortium，Nature426：789-796(2003)，和The International HapMap Consortium，Nature437：1299-1320(2005))、Human Gene Mutation Database(HGMD)公开数据库(参见www.hgmd.org)和单核苷酸多态性数据库(dbSNP)(参见www.ncbi.nlm.nih.gov/SNP/)中公开获得。这些数据库提供了SNP单体型，或使得能够确定SNP单体型模式。因此，这些SNP数据库使得能够检测作为大范围的疾病和病症(例如癌症、炎性疾病、心血管病、神经变性疾病和传染病)的基础的遗传风险因素。这些疾病或病症可以是可处置的，其中当前存在处理和治疗方法。处理可以包括预防处理以及改善症状和病症的处理，包括改变生活方式。

还可以检验许多其他的表型，例如身体性状、生理性状、精神性状、情绪性状、种族、家系和年龄。身体性状可以包括身高、发色、眼睛颜色、身体或者例如精力、耐力和敏捷性的性状。精神性状可以包括智力、记忆能力或者学习能力。种族和家系可以包括祖先或种族的鉴定，或者个体的祖先源于哪里。年龄可以是确定个体的实际年龄，或者是个体的遗传学特征使其相对于总的群体所处的年龄。例如，个体的实际年龄为38岁，但是其遗传学特征可以确定其记忆能力或身体健康状况可能为平均28岁。另一年龄性状可以是个体的预计寿命。

其他的表型还可包括非医学状况，例如“娱乐”表型。这些表型可以包括与知名个人例如外国贵族、政治家、名人、发明家、运动员、音乐家、艺术家、商业人士和声名狼藉的个体(例如罪犯)的对比。其他“娱乐”表型可以包括与其他生物体例如细菌、昆虫、植物或者非人类的动物的对比。例如，个体可能有兴趣看看其基因组谱与其宠物狗或前任总统的基因组谱对比会如何。

对存储的基因组谱应用规则以生成表型谱。例如，来自公开资源或存储的基因组谱的相关性数据可形成规则或测试的基础，以应用于个体的基因组谱。规则可以包括关于测试SNP和等位基因以及效应评价的信息，例如OR或优势比(95％置信区间)或者平均值。效应评价可以是基因型风险，例如对于纯合子的风险(homoz或RR)、风险杂合子(heteroz或RN)和非风险纯合子(homoz或NN)。效应评价也可以是携带者风险，其为RR或RN对NN。效应评价可以基于等位基因，例如等位基因风险，例如R对N。这里也存在2、3、4或更多个基因座的基因型效应评价(例如，对于两个基因座效应评价的9种可能的基因型组合：RRRR、RRNN等)。

对于病症的估计风险可基于美国专利公布20080131887和PCT公布WO2008/067551中列举的SNP。在一些实施方式中，对于病症的风险可基于至少1个SNP。例如，对个体患阿尔茨海默病(AD)、结肠直肠癌(CRC)、骨关节炎(OA)或皮脱落性青光眼(XFG)的风险的评估可基于1个SNP(例如rs4420638用于AD，rs6983267用于CRC，rs4911178用于OA和rs2165241用于XFG)。对于其他的病症而言，例如肥胖(BMIOB)、格雷夫斯病(GD)或血色素沉着症(HEM)，个体的估计风险可以基于至少1个或2个SNP(例如rs9939609和/或rs9291171用于BMIOB；DRB1*0301 DQA1*0501和/或rs3087243用于GD；rs1800562和/或rs129128用于HEM)。对于例如但不限于心肌梗塞(MI)、多发性硬化(MS)或牛皮癣(PS)的病症，1、2或3个SNP可用于评估个体患该病症的风险(例如，rs1866389、rs1333049和/或rs6922269用于MI；rs6897932、rs12722489和/或DRB1*1501用于MS；rs6859018、rs11209026和/或HLAC*0602用于PS)。对于评估个体患多动腿综合征(RLS)或乳糜泻(celiac disease)(CelD)的风险，可使用1、2、3或4个SNP(例如rs6904723、rs2300478、rs1026732和/或rs9296249用于RLS；rs6840978、rs11571315、rs2187668和/或DQA1*0301 DQB1*0302用于CelD)。对于前列腺癌(PC)或狼疮(SLE)而言，可使用1、2、3、4或5个SNP来评估个体患PC或SLE的风险(例如rs4242384、rs6983267、rs16901979、rs17765344和/或rs4430796用于PC；rs12531711、rs10954213、rs2004640、DRB1*0301和/或DRB1*1501用于SLE)。为了评估个体患黄斑变性(AMD)或类风湿性关节炎(RA)的终生风险，可使用1、2、3、4、5或6个SNP(例如rs10737680、rs10490924、rs541862、rs2230199、rs1061170和/或rs9332739用于AMD；rs6679677、rs11203367、rs6457617、DRB*0101、DRB1*0401和/或DRB1*0404用于RA)。为了估计个体患乳腺癌(BC)的终生风险，可使用1、2、3、4、5、6或7个SNP(例如rs3803662、rs2981582、rs4700485、rs3817198、rs17468277、rs6721996和/或rs3803662)。为了估计个体患克罗恩氏病(CD)或2型糖尿病(T2D)的终生风险，可使用1、2、3、4、5、6、7、8、9、10或11个SNP(例如rs2066845、rs5743293、rs10883365、rs17234657、rs10210302、rs9858542、rs11805303、rs1000113、rs17221417、rs2542151和/或rs10761659用于CD；rs13266634、rs4506565、rs10012946、rs7756992、rs10811661、rs12288738、rs8050136、rs1111875、rs4402960、rs5215和/或rs1801282用于T2D)。在一些实施方式中，用作确定风险的基础的SNP可与上述SNP或其他SNP(例如美国专利公布20080131887和PCT公布WO2008/067551中)发生连锁不平衡。

个体的表型谱可包括多种表型。特别地，无论在有症状、症状前或无症状的个体(包括一种或多种疾病/病症的易感等位基因的携带者)中，通过本文公开的方法评估病人患疾病或其他病症(例如，可能的药物反应，包括代谢、功效和/或安全性)的风险使得能够对多种不相关的疾病和病症的易感性进行预后或者诊断分析。因此，这些方法提供了个体对于疾病或病症的易感性的总体评价，而不需要预先设想任何特定疾病或病症的测试。例如，本发明的方法使得能够基于个体基因组谱对美国专利公布20080131887和PCT公布WO2008/067551中所列的几种病症中的任何一种的个体易感性进行评价。而且，这些方法允许评价一种或多种表型或病症的个体估计终生风险或相对风险。

该评估提供了关于2种或更多种这些病症的信息，并且可以包括至少3种、4种、5种、10种、15种、18种、20种、25种、30种、35种、40种、45种、50种、100种或甚至更多种这些病症。表型的单一规则可以应用于单基因的表型。多于一条的规则也可以用于单一表型，例如多基因表型或其中单一基因中的多个遗传变异会影响具有该表型的概率的单基因表型。

在个体患者的基因组谱的最初筛选之后，当知道另外的遗传变异时，可以通过与这些另外的遗传变异(例如，SNP)的比较进行(或可以获得)个体基因型相关性的更新。例如，更新可以由浏览科学文献以寻找新基因型相关性的遗传学领域的一名或多名普通技术人员定期地进行，例如，每天、每周或每月进行。然后，新基因型相关性可以进一步由本领域中的一位或多位专家的委员会确认。

新规则可以包括不存在现有规则的基因型或者表型。例如，未与任何表型关联的基因型被发现与新的或现有的表型相关。新规则也可以用于先前无基因型与其关联的表型间的相关性。也可以确定用于已具有现有规则的基因型和表型的新规则。例如，存在基于基因型A与表型A之间的相关性的规则。新的研究揭示基因型B与表型A相关，因而产生基于这一相关性的新规则。另一个实例为发现表型B与基因型A相关，并因此制定新规则。

规则也可以根据基于已知的但没有在公开的科学文献中进行初始确认的相关性的发现制定。例如，可能有人报道，基因型C与表型C相关。另外的出版物报道，基因型D与表型D相关。表型C和D是相关的症状，例如表型C可以是呼吸急促，而表型D是较小的肺容量。利用现存储的具有基因型C和D以及表型C和D的个体的基因组谱通过统计学方法，或者通过进一步的研究，可以发现和确认基因型C与表型D或者基因型D与表型C之间的相关性。然后，可以基于新发现的和确认的相关性生成新规则。在另一实施方式中，可以研究存储的具有特定或相关表型的多个个体的基因型谱来确定这些个体共有的基因型，并且可以确定相关性。基于这一相关性可以生成新规则。

也可以制定规则以修改现有规则。例如，基因型与表型之间的相关性可能部分地由已知个体特征确定，例如，种族、家系、地理、性别、年龄、家族史或者个体的任何其他已知表型。可以制定基于这些已知个体特征的规则并且引入现有规则中，以提供修改的规则。选择待应用的修改规则将取决于个体的特定个体因素。例如，规则可能基于当个体具有基因型E时个体具有表型E的概率为35％。但是，如果个体为特定的种族，所述概率是5％。新规则可以基于这一结果制定并且应用于具有该特定种族特性的个体。或者，可以应用确定值为35％的现有规则，然后应用基于该表型的种族特征的另一规则。基于已知个体特征的规则可以由科技文献确定或者基于对存储的基因组谱的研究确定。在产生了新规则时，可添加新的规则并将其应用于基因组谱，或者可以定期地应用它们，例如一年至少一次。

个体的疾病风险的信息也可以随着允许更高分辨率SNP基因组谱的技术进步而得到扩展。如上所述，使用用于扫描500000个SNP的微阵列技术可以很容易地生成初始SNP基因组谱。考虑到单体型区块的特性，这一数字可用于个体基因组中所有SNP的典型谱。但是，在人类基因组中估计通常发生大约1000万个SNP(International HapMap Project；www.hapmap.org)。随着能够以更高细节水平对SNP进行实用和经济的解析(例如1,000,000、1,500,000、2,000,000、3,000,000或更多SNP的微阵列)的或者全基因组测序方面的技术进步，可以生成更详细的SNP基因组谱。同样，计算机分析方法学方面的进展使得能够经济地进行更精细的SNP基因组谱分析和SNP-疾病相关性主数据库的更新。

在一些实施方式中，可以从个体搜集“区域部署(field-deployed)”机制，并结合到个体的表型谱中。例如，个体可以具有基于遗传信息生成的初始表型谱。生成的初始表型谱包括不同表型的风险因子，以及个人行动计划中报告的建议处理或预防措施。表型谱可以包括关于对于某一病症的可利用的药物治疗的信息和/或对于饮食变化或锻炼方案的建议。个体可以选择去看医生或遗传顾问或者通过网络入口或电话联系医生或遗传顾问以讨论他们的表型谱。个体可以决定采取某种行动路线，例如，采用特定的药物治疗、改变他们的饮食，以及在其个人行动计划中建议的其他可能的行动。而后，个体可以随后提交生物样品以评估其身体状况的变化和风险因子的可能变化。

个体可以通过直接将生物样品提交给生成基因组谱和表型谱的机构(或者相关机构，例如由生成遗传谱和表型谱的实体签约的机构)确定该变化。或者，个体可以利用“区域部署”机制，其中个体可以将他们的唾液、血液或者其他生物样品提交到在其家庭处的检测装置中，由第三方进行分析，且数据经传输以引入另一表型谱中。例如，个体可以接收基于其遗传数据的初始表型报告从而向具有增大的心肌梗塞(MI)终生风险的个体报告。该报告也可以具有预防措施的建议以降低MI的风险，例如降胆固醇药物和饮食改变。个体可以选择联系遗传顾问或医生以讨论该报告和预防措施并且决定改变他们的饮食。在采用新的饮食一段时间之后，个体可以去看他们的个人医生以检测其胆固醇水平。可以将新的信息(胆固醇水平)传送(例如，通过互联网)给具有基因组信息的实体，并且新的信息用于生成具有心肌梗塞和/或其他病症的新的风险因子的该个体的新表型谱。

个体也可以使用“区域部署”机制或者直接机制，以确定其对于具体药物治疗的个体反应。例如，个体可以测量其对药物的反应，并且该信息可以用于确定更有效的治疗。可测量的信息包括但不限于：代谢物水平、葡萄糖水平、离子水平(例如，钙、钠、钾、铁)、维生素、血细胞计数、身体质量指数(BMI)、蛋白质水平、转录物水平、心率等，这些信息能够通过容易利用的方法确定并且能够包括在算法中以与初始基因组谱结合来确定修正的整体风险评估评分。风险评估评分可以是GCI得分。

遗传综合指数(GCI)

在一些实施方式中，组合并分析了关于多种遗传标记或变异与一种或多种疾病或病症的相关性的信息以获得遗传综合指数(GCI)得分。例如，GCI得分可以对于表型由不同的遗传变异的存在与否并入一个或多个优势比或相对风险。GCI得分可以合并来自各种遗传变异的至少2、3、4、5、6、7、8、9或10个优势比或相对风险。

这一得分包括了已知的风险因子以及其他信息和假设，例如，等位基因频率和疾病的流行度。GCI可以用于定量评估疾病或者病症与一系列遗传标记的综合效应的关联。GCI得分可以用于基于现有科学研究向未受过遗传学训练的人提供有关与相关群体相比其个体患病风险的可靠的(例如，稳固的)、可理解的和/或直观的认识。

GCI得分可以用于生成GCI Plus评分。本文公开的方法包括使用此处描述的GCI得分，且本领域普通技术人员将会容易地认识到使用GCIPlus评分或其变型来代替在此描述的GCI得分。GCI plus评分可包括所有的GCI假设，包括病症的风险(例如，终生风险)、年龄限定的流行度和/或年龄限定的发病率。然后个体的终生风险可以计算为与个体GCI得分除以平均GCI得分成比例的GCI Plus评分。平均GCI得分可以由具有相似家系背景的一组个体确定，例如一组高加索人、亚洲人、东印度人或者其他具有共同家系背景的组。所述组可以由至少5、10、15、20、25、30、35、40、45、50、55或60个个体组成。在某些实施方式中，平均值可以由至少75、80、95或100个个体确定。GCI Plus评分可以通过确定个体的GCI得分，将该GCI得分除以平均相对风险和乘以病症或表型的终生风险来确定。例如，使用来自美国专利公布20080131887和PCT公布WO/2008/067551的数据，可来确定个体的GCI或GCI Plus评分。该评分可以用于生成关于个体的表型谱中一种或多种病症的遗传风险(例如估计的终生风险)的信息。该方法允许计算一种或多种表型或者病症的估计终生风险或者相对风险。单个病症的风险可以基于一个或者多个SNP。例如，对于表型或病症的估计风险可以基于至少2、3、4、5、6、7、8、9、10、11或12个SNP，其中用于估计风险的SNP可以为公开的SNP、测试SNP或以上两者。

可对各种感兴趣的疾病或者病症生成GCI得分。可以集中这些GCI得分以形成个体的风险谱。GCI得分可被数字化存储，从而在任何时间点均可容易地获取它们来产生风险谱。风险谱可以按照大的疾病分类进行分类，例如，癌症、心脏病、代谢紊乱、精神紊乱、骨病或者老年病(age on-set disorder)。大的疾病分类可以进一步被分解成子类。例如，对于如癌症的大的分类，可以例如按类型(肉瘤、癌瘤或者白血病等)或者按组织特异性(神经、乳腺、卵巢、睾丸、前列腺、骨、淋巴结、胰腺、食道、胃、肝、脑、肺、肾等)列出癌症的子类。进一步，风险谱可以显示如何随个体年龄或者多种风险因子的调整而预测GCI得分的变化的信息。例如，对于特定疾病的GCI得分可以考虑饮食变化或者采取的预防措施(停止吸烟、服药、双侧根治性乳房切除术、子宫切除术等)的效应。

可对个体生成GCI得分，这向他们提供容易理解的关于个体获得至少一种疾病或病症的风险或对于至少一种疾病或病症的易感性的信息。对单种疾病或病症或多种疾病或病症可生成一项或多项GCI得分。该一项或多项GCI得分可以通过在线入口访问。或者，可以以纸件形式提供一项或多项GCI得分，后续的更新也以纸件形式提供。纸件可邮寄给个体或其保健管理者或面交。

对于不同基因座的组合效应生成可靠GCI得分的方法可以是基于各研究的基因座的已报告的个体风险。例如，鉴定感兴趣的疾病或病症，然后查询信息来源(包括，但不限于数据库、专利出版物和科学文献)以寻找有关疾病或病症与一个或多个遗传基因座的关联的信息。这些信息来源经过评议并使用质量标准进行评估。在一些实施方式中，评估过程包括多个步骤。在其他实施方式中，以多个质量标准评估信息来源。源自信息来源的信息用于对于感兴趣的各疾病或病症的一个或多个基因座鉴定优势比或者相对风险。

在替代的实施方式中，对于至少一个遗传基因座的优势比(OR)或相对风险(RR)不能由信息来源中提供或获得。然后使用(1)相同基因座的多个等位基因的报告OR、(2)来自数据集(例如HapMap数据集)的等位基因频率和/或(3)来自可利用资源(例如，CDC、National Center for Health Statistics等)的疾病/病症流行度计算RR以得出所有感兴趣的等位基因的RR。在一个实施方式中，分别或独立地评估相同基因座的多个等位基因的OR。在优选的实施方式中，结合相同基因座的多个等位基因的OR以说明在不同等位基因的OR之间的相依性(dependency)。在一些实施方式中，建立的疾病模型(包括但不限于如积性、加性(additive)、Harvard改良的、显性效应的模型)用于生成按照所选模型表示个体风险的中间评分。

可以使用的方法用来分析感兴趣的疾病或病症的多个模型，并且将由这些不同模型得到的结果相关联；这使得可能通过选择特定疾病模型而引入的可能误差最小化。这一方法使得由信息来源得到的流行度、等位基因频率和OR评估中的合理误差对相对风险计算的影响最小化。不受到理论的限制，由于流行度评估对RR的影响的“线性”或单调特性，不正确地估计流行度对最终排位评分只有很少或没有影响；条件是相同的模型一致地应用于生成报告的所有个体。

本文所述的方法也可考虑将环境/行为/人口数据作为附加的“基因座”。在相关的方法中，这些数据可以获自信息来源，例如医学或科学文献或数据库(例如，吸烟与肺癌的关联或者来自保险业健康风险评估)。本文也公开了对一种或多种复杂疾病产生的GCI得分。复杂疾病可以被多个基因、环境因素及它们的相互作用影响。当研究复杂疾病时，需要分析大量可能的相互作用。用于校正多重比较的方法，例如Bonferroni校正，可用于生成GCI得分。或者，当测试是独立的或者显示特定类型的相依性时，可以使用Simes检验来控制整体显著性水平(也称为“族误差率(familywise error rate)”)(Sarkar S.，Ann Stat 26：494-504(1998))。如果对于1，...，K中的任意k，p_(k)≤αk/K，那么Simes检验拒绝所有K检验特异性零假设为真的全局零假设(Simes，R.J.，Biometrika 73：751-754(1986))。

可在多基因和多环境因子分析的情况中使用的其他实施方式控制误发现率(false-discovery rate)，即错误拒绝的拒绝零假设的预期比例。正如在微阵列研究中，当零假设的一部分可以假定为错误时，这一方法可能是特别有用的。Devlin等人(Genet.Epidemiol.25：36-47(2003))提出了当在多基因座关联研究中测试大量可能的基因×基因相互作用时控制误发现率的Benjamini和Hochberg(J.R.Stat.Soc.Ser.B 57：289-300(1995))步进(step-up)程序的变型。Benjamini和Hochberg程序与Simes检验有关；设定k^*＝maxk以致p_(k)≤αk/K，其拒绝所有对应于p₍₁₎，...，

的k^*零假设。事实上，当所有零假设为真时，Benjamini和Hochberg程序简化为Simes检验(Benjamini和Yekutieli，Ann.Stat.29：1165-1188(2001))。

本文还提供了对个体的排位，其中个体基于其中间评分与个体的群体比较进行排位以产生最终排位评分，这可以表示为在群体中的排位，例如第99百分位或第99、98、97、96、95、94、93、92、91、90、89、88、87、86、85、84、83、82、81、80、79、78、77、76、75、74、73、72、71、70、69、65、60、55、50、45、40、40、35、30、25、20、15、10、5或0百分位。排位评分可以显示为范围，例如第100至第95百分位、第95至第85百分位、第85至第60百分位或者在第100至第0百分位之间的任何子范围。个体也可按四分法进行排位，例如最高的第75四分位或者最低的第25四分位。个体也可与群体中的平均或中位评分比较而进行排位。

在一个实施方式中，个体与之比较的群体包括大量来自不同地理和种族背景的人，例如全球性群体。或者，个体与之比较的群体限于特定的地理、家系、种族、性别、年龄(例如，胎儿、新生儿、儿童、少年、青年、成年人、老年人)、或疾病状态(例如，有症状的、无症状的、携带者、早发、迟发)。在一些实施方式中，个体与之比较的群体源自公开和/或私人信息来源报道的信息。

GCI得分可使用多步法生成。例如，开始时，对于要研究的各病症，计算源自各遗传标记的优势比的相对风险。对于p＝0.01、0.02、...、0.5的每个流行度值，HapMap CEU群体的GCI得分基于流行度和HapMap等位基因频率计算。如果在变化的流行度下GCI得分不变，则考虑的唯一假设为存在积性模型。否则，可以确定该模型对流行度敏感。对于未检出值(no-call value)的任何组合，获得相对风险和评分在HapMap群体中的分布。对于各新个体，个体得分与HapMap分布比较并且所得评分为个体在这一群体中的排位。由于过程中所作的假设的原因，报告的评分的分辨率可能较低。群体将划分成分位点(3-6个箱元(bin))，并且报告的箱元将是其中个体排位落入的一个。基于例如对于各疾病的评分的分辨率的考虑，箱元的数量对不同疾病可以是不同的。在不同HapMap个体的评分之间不相上下的情况下，将使用平均排位。

较高的GCI得分可以解释为具有获得或被诊断具有病症或疾病的增大的风险的指示。通常使用数学模型推导出GCI得分。GCI得分可以基于说明作为关于群体和/或疾病或病症的信息的基础的不完全特性的数学模型。数学模型可以包括作为计算GCI得分的部分基础的至少一个假设，其中该假设包括但不限于：给定优势比值的假设；病症的流行度已知的假设；群体中的基因型频率已知的假设；和/或消费者来自与研究所使用的群体和与HapMap相同的家系背景的假设；合并风险为个体遗传标记的不同风险因子的积的假设。GCI也可以包括基因型的多基因型频率为各SNP或个体遗传标记(例如，不同SNP或遗传标记在整个群体内是独立的)的等位基因频率的积的假设。

积性模型

可以在归因于遗传标记集合的风险是归因于个别遗传标记的风险的积的假设下计算GCI得分。因此，不同遗传标记与其他遗传标记无关地造成疾病的风险。形式上，存在具有风险等位基因r₁、...、r_k和非风险等位基因n₁、...、n_k的k个遗传标记。在SNP i中，三个可能的基因型值表示为r_ir_i、n_ir_i和n_in_i。个体的基因型信息可以通过向量(g₁、...、g_k)描述，其中根据i位置上风险等位基因的数目，g_i可以是0、1或2。通过由

表示与i位置上纯合非风险等位基因相比的相同位置上杂合基因型的相对风险。换言之，相似地，r_ir_i基因型的相对风险表示为

在积性模型下，假定具有基因型(g₁、...、g_k)的个体的风险为

评估相对风险

在另一实施方式中，对于不同遗传标记的相对风险是已知的，并且积性模型可以用于风险评价。但是，在一些涉及相关性研究的实施方式中，研究设计防止报告相对风险。在一些病例对照研究中，相对风险不能在没有进一步的假设的情况下直接由数据计算。代替报告相对风险，通常的方式是报告基因型的优势比(OR)，其是携带给定疾病风险基因型(r_ir_i或n_ir_i)的机率相对于不携带给定疾病风险基因型的机率的比。形式上，

{OR}_{i}^{1} = \frac{P (D | n_{i} r_{i} |)}{P (D | n_{i} r_{i} |)} \cdot \frac{1 - P (D | n_{i} n_{i} |)}{1 - P (D | n_{i} r_{i} |)}

{OR}_{i}^{2} = \frac{P (D | r_{i} r_{i} |)}{P (D | n_{i} n_{i} |)} \cdot \frac{1 - P (D | n_{i} n_{i} |)}{1 - P (D | r_{i} r_{i} |)}

由优势比找到相对风险可能要求额外的假设。例如，假设整个种群中的等位基因频率

和

已知或经过评估(这些可以由现有的数据集，例如包括120个染色体的HapMap数据集进行评估)，和/或假设疾病的流行度p＝p(D)是已知的。由前述三个等式可以得到：

p＝a·P(D|n_in_i)+b·P(D|n_ir_i)+c·P(D|r_ir_i)

{OR}_{i}^{1} = \frac{P (D | n_{i} r_{i} |)}{P (D | n_{i} r_{i} |)} \cdot \frac{1 - P (D | n_{i} n_{i} |)}{1 - P (D | n_{i} r_{i} |)}

{OR}_{i}^{2} = \frac{P (D | r_{i} r_{i} |)}{P (D | n_{i} n_{i} |)} \cdot \frac{1 - P (D | n_{i} n_{i} |)}{1 - P (D | r_{i} r_{i} |)}

通过相对风险的定义，在除以pP(D|n_in_i)项后，第一等式可以改写为：

\frac{1}{P (D | n_{i} n_{i})} = \frac{a + b λ_{1}^{i} + c λ_{2}^{i}}{p}

并且因此，后两个等式可以改写为：

{OR}_{i}^{1} = λ_{1}^{i} \cdot \frac{(a - p) + b λ_{1}^{i} + c λ_{c}^{i}}{a + (b - p) λ_{1}^{i} + c λ_{2}^{i}}

(1)

{OR}_{i}^{2} = λ_{2}^{i} \cdot \frac{(a - p) + b λ_{1}^{i} + c λ_{2}^{i}}{a + b λ_{1}^{i} + (c - p) λ_{2}^{i}}

应注意到，当a＝1(非风险等位基因频率为1)时，等式系统1等同于在Zhang和Yu(JAMA，280：1690-1691(1998))中的Zhang和Yu公式，将其全部内容引入作为参考。与Zhang和Yu公式相反，一些实施方式考虑到群体中的等位基因频率，其可能影响相对风险。另外，一些实施方式考虑到相对风险的相互依赖性，这与独立地计算各相对风险相反。

等式系统1可以改写为具有至多四个可能的解的两个二次方程。梯度下降算法(gradient descent algorithm)可以用于求解这些方程，其中起点设定为优势比，例如

和

例如：

f_{1} (λ_{1}, λ_{2}) = {OR}_{i}^{1} (a + (b - p) λ_{1}^{i} + c λ_{2}^{i}) - λ_{1}^{i} \cdot ((a - p) + b λ_{1}^{i} + c λ_{2}^{i})

f_{2} (λ_{1}, λ_{2}) = {OR}_{i}^{2} (a + {bλ}_{1}^{i} + {(c - p) λ}_{2}^{i}) - λ_{2}^{i} \cdot ((a - p) + b λ_{1}^{i} + c λ_{2}^{i})

找到这些方程的解相当于找到函数g(λ₁，λ₂)＝f₁(λ₁，λ₂)²+f₂(λ₁，λ₂)²的最小值。

因此，

\frac{dg}{d λ_{1}} = 2 f_{1} (λ_{1}, λ_{2}) \cdot b \cdot (λ_{2} - {OR}_{2}) + 2 f_{2} (λ_{1}, λ_{2}) (2 b λ_{1} + c λ_{2} + a - {OR}_{1} b - p + {OR}_{1} p)

\frac{dg}{d λ_{2}} = 2 f_{2} (λ_{1}, λ_{2}) \cdot c \cdot (λ_{1} - {OR}_{1}) + 2 f_{1} (λ_{1}, λ_{2}) (2 c λ_{2} + b λ_{1} + a - {OR}_{2} c - p + {OR}_{2} p)

在这一实例中，通过设定x₀＝OR₁，y₀＝OR₂，将值[epsilon]＝10^-10在整个算法中设定为容差常数(tolerance constant)。在迭代i中，定义

而后，设

定

x_{i} = x_{i - 1} - γ \frac{dg}{d λ_{1}} (x_{i - 1}, y_{i - 1})

y_{i} = y_{i - 1} - γ \frac{dg}{d λ_{2}} (x_{i - 1}, y_{i - 1})

重复迭代直到g(x_i，y_i)＜容差，其中在提供的代码中容差设定为10^-7。

在这一实施例中，这些方程给出了a、b、c、p、OR₁和OR₂的不同值的正解。

相对风险评估的稳定性

在一些实施方式中，测定了不同参数(流行度、等位基因频率和优势比误差)对相对风险评估值的影响。为了测定等位基因频率和流行度估计值对相对风险值的影响，计算来自一组不同优势比和不同等位基因频率的值的相对风险(在HWE下)，并且这些计算的结果对于在0至1范围内的流行度值绘图。另外，对于固定的流行度值，所得的相对风险可以作为风险等位基因频率的函数绘图。在p＝0时，λ₁＝OR₁，且λ₂＝OR₂，和当p＝1时，λ₁＝λ₂＝0。这可以直接从所述等式计算。另外，在一些实施方式中，当风险等位基因频率高时，λ₁更接近于线性函数，并且λ₂更接近于具有有界二次导数的凹函数。在极限情况下，当c＝1时，λ₂＝OR₂+p(1-OR₂)，并且

如果OR₁≈OR₂，后者同样接近于线性函数。当风险等位基因频率低时，λ₁和λ₂接近函数1/p的行为。在极限情况下，当c＝0时，

这表明，对于高的风险等位基因频率，不正确的流行度估计值将不会显著地影响所得的相对风险。另外，对于低的风险等位基因频率，如果用流行度值p′＝αp替代正确的流行度p，那么所得的相对风险将偏离至多

倍。

计算GCI得分

在一个实施方式中，使用代表相关群体的参考集计算GCI。这一参考集可以为HapMap中的群体之一或者另一基因型数据集。

在该实施方式中，GCI按照如下计算：对于k个风险基因座中的每一个，使用等式系统1或如下所述由优势比计算相对风险。然后，计算参考集中各个个体的积性评分，这是所有基因座的相对风险的积。积性评分隐含地假设，不同的SNP对于疾病或病症具有独立的效应，但该模型可扩展到其中某些相互作用为已知的情况。具有积性评分s的个体的GCI是参考数据集中具有s′≤s的评分的所有个体的分数。例如，如果参考集中50％的个体具有小于s的积性评分，那么该个体的最终GCI得分将为0.5。如果已知不同的基因型或单体型组合的优势比或相对风险(在一些情况下可在文献中找到这些)，可概括GCI来说明SNP-SNP相互作用。

如本文所述，积性模型可用于GCI得分中，但是其他模型也可用于确定GCI得分的目的。其他适当的模型包括，但不限于：

加性模型。在加性模型下，具有基因型(g₁，...g_k)的个体的风险假设为

GCI (g_{1}, . . ., g_{k}) = Σ_{i = 1}^{k} λ_{g_{i}}^{i} .

广义加性模型。在广义加性模型中，假设存在函数f以使得具有基因型(g₁，...g_k)的个体的风险为

Harvard改良评分(Het)。这一评分由Colditz等人(Cancer Causes and Controls，11：477-488(2000))得出，将其全部内容引入本文作为参考。虽然函数f以优势比值而不是相对风险进行运算，但是Het评分本质上是广义加性评分。这在相对风险难以评估的情况中可能是有用的。为了定义函数f，中间函数g定义为：

g (x) = \{\begin{matrix} 0 & 1 < x \leq 1.09 \\ 5 & 1.09 < x \leq 1.49 \\ 10 & 1.49 < x \leq 2.66 \\ 25 & 2.99 < x \leq 6.99 \\ 20 & 6.99 < x \end{matrix}

接着计算的量，其中

为整个参考群体中SNP i的杂合个体的频率。则函数f定义为f(x)＝g(x)/het，并且Harvard改良评分(Het)简单地定义为

Harvard改良评分(Hom)。除了值het被值

其中

为具有纯合风险等位基因的个体的频率，所代替以外，这一评分与Het评分相似。

最大优势比。在这一模型中，假设遗传标记之一(具有最大优势比的一个)给出了整个对象组的组合风险的下界。形式上，具有基因型(g₁，...g_k)的个体的评分为

在实施例1中说明了评分间的比较，在实施例2中说明了GCI得分的评估。

将模型扩展至任意数量的变异

模型可以扩展至发生任意数量的可能变异的情况。先前的考虑涉及存在三个可能的变异(nn、nr、rr)的情况。通常，当已知多SNP关联时，可以在群体中发现任意数量的变异。例如，当两个遗传标记之间的相互作用与病症相关联时，存在九种可能的变异体。这导致了八个不同优势比值。

为了概括原始公式，可以假设存在k+1种可能的变异a₀，...，a_k，其具有频率f₀，f₁，...，f_k，测定的优势比为1，OR₁，...，OR_k以及未知的相对风险值为1，λ₁，...，λ_k。可以进一步假设，所有相对风险和优势比相对于a₀测定，并且因此，

和

基于：

p = Σ_{i = 0}^{k} f_{i} P (D | a_{i}),

可以确定

{OR}_{i} = λ_{i} \frac{Σ_{i = 0}^{k} f_{i} λ_{i} - p}{Σ_{i = 0}^{k} f_{i} λ_{i} - λ_{i} p} .

而且，如果设定

这导致如下等式：

λ_{i} = \frac{C \cdot {OR}_{i}}{C - p + {OR}_{i} p},

并且因此，

C = Σ_{i = 0}^{k} f_{i} λ_{i} = Σ_{i = 0}^{k} \frac{C \cdot {OR}_{i} f_{i}}{C - p + {OR}_{i} p},

或

1 = Σ_{i = 0}^{k} \frac{{OR}_{i} f_{i}}{C - p + {OR}_{i} p} .

后者是具有一个变量(C)的方程。这一方程可以产生许多不同的解(基本上，最多k+1个不同的解)。标准优化工具(例如梯度下降)可以用于找到最接近C₀＝∑f_it_i解。

本文也提供了用于风险因子us定量的稳定的评分构架。虽然不同遗传模型可以导致不同的评分，但是结果通常是相关的。因此，风险因子的定量通常不依赖于所使用的模型。

评估相对风险病例对照研究

本文也提供了在病例对照研究中由多等位基因的优势比评价相对风险的方法。与先前的方法相反，该方法考虑了等位基因频率、疾病的流行度和在不同等位基因的相对风险间的相依性。测量了该方法对模拟的病例对照研究的表现，发现它是极准确的。

方法

在测试特定SNP与疾病D的关联性的情况下，R和N表示这一特定SNP的风险和非风险等位基因。P(RR|D)、P(RN|D)和P(NN|D)表示分别假设个人对于风险等位基因是纯合的、对于非风险等位基因是杂合的或纯合的情况下受到疾病影响的概率。f_RR、f_RN和f_NN用于表示群体中三个基因型的频率。使用这些定义，相对风险定义为

λ_{RR} = \frac{P (D | RR)}{P (D | NN)}

λ_{RN} = \frac{P (D | RN)}{P (D | NN)}

λ_{RR} = \frac{P (RR | D) f_{NN}}{P (NN | D) f_{RR}}

λ_{RN} = \frac{P (D | RN) f_{NN}}{P (D | NN) f_{RR}}

因此，如果已知基因型的频率，人们可以使用它们计算相对风险。群体中基因型的频率不能从病例-对照研究本身计算，因为它们取决于疾病在群体中的流行度。特别是，如果疾病的流行度为p(D)，则：

f_RR＝P(RR|D)p(D)+P(RR|～D)(1-p(D))

f_RN＝P(RN|D)p(D)+P(RN|～D)(1-p(D))

f_NN＝P(NN|D)p(D)+P(NN|～D)(1-p(D))

当p(D)足够小时，基因型的频率可以接近对照群体中的基因型频率，但是当流行度高时，这将不会是准确的估计值。但是，如果给出参照数据集(例如，HapMap[引用])，人们可以基于参照数据集估计基因型频率。

大多数新近的研究不使用参照数据集估计相对风险，并且仅报告优势比。优势比可以写为

{OR}_{RR} = \frac{P (RR | D) P (NN | ~ D)}{P (NN | D) P (RR | ~ D)}

{OR}_{RN} = \frac{P (RN | D) P (NN | ~ D)}{P (NN | D) P (RN | ~ D)}

由于通常不需要具有群体中等位基因频率的估计值，所以优势比通常是有利的；为了计算优势比，通常所需要的是病例和对照中的基因型频率。

在一些情况中，基因型数据本身是不可得的，但是概括数据(例如优势比)是可得的。在基于来自先前的病例-对照研究的结果进行后设分析(meta-analysis)时就是这样。在这一情况下，证明了如何从优势比得到相对风险。使用以下等式显示的事实：

p(D)＝f_RRP(D|RR)+f_RNP(D|RN)+f_NNP(D|NN)

如果这一等式除以P(D|NN)，我们得到

\frac{p (D)}{p (D | NN)} = f_{RR} λ_{RR} + f_{RN} λ_{RN} + f_{NN}

这使得优势比能够写成以下形式：

{OR}_{RR} = \frac{P (D | RR) (1 - P (D | NN))}{P (D | NN) (1 - P (D | RR))} = λ_{RR} \frac{\frac{p (D)}{p (D | NN)} - p (D)}{\frac{p (D)}{p (D | NN)} - p (D) λ_{RR}} =

λ_{RR} \frac{f_{RR} λ_{RR} + f_{RN} λ_{RN} + f_{NN} - p (D)}{f_{RR} λ_{RR} + f_{RN} λ_{RN} + f_{NN} - p (D) λ_{RR}}

通过类似计算，得到以下等式系统：

{OR}_{RR} = λ_{RR} \frac{f_{RR} λ_{RR} + f_{RN} λ_{RN} + f_{NN} - p (D)}{f_{RR} λ_{RR} + f_{RN} λ_{RN} + f_{NN} - p (D) λ_{RR}}

{OR}_{RN} = λ_{RN} \frac{f_{RR} λ_{RR} + f_{RN} λ_{RN} + f_{NN} - p (D)}{f_{RR} λ_{RR} + f_{RN} λ_{RN} + f_{NN} - p (D) λ_{RN}}

方程1

如果已知优势比、群体中的基因型频率和疾病的流行度，则可以通过求解这一方程组得到相对风险。

应注意到，存在两个二次方程，因此它们具有最多四个解。但是，如以下所示，对于这一方程通常存在一个可能的解。

应注意到，当f_NN＝1时，等式系统1等同于Zhang和Yu公式；但是，这里考虑了群体中的等位基因频率。而且，我们的方法考虑了如下事实：两个相对风险彼此相关，而先前的方法提出独立地计算各相对风险。

多等位基因基因座的相对风险。如果考虑多标记或其他多等位基因变异，计算略微复杂。a₀、a₁、...、a_k表示可能的k+1个等位基因，其中a₀为非风险等位基因。假设k+1个可能的等位基因在群体中的等位基因频率为f₀、f₁、f₂、...、f_k。对于等位基因i，相对风险和优势比定义为

λ_{i} = \frac{P (D | a_{i})}{P (D | a_{0})}

{OR}_{i} = \frac{P (D | a_{i}) (1 - P (D | a_{0}))}{P (D | a_{0}) (1 - P (D | a_{i}))} = λ_{i} \frac{1 - P (D | a_{0})}{1 - P (D | a_{i})}

以下等式适用于疾病的流行度：

p (D) = Σ_{i = 0}^{k} f_{i} P (D | a_{i})

因此，通过将等式两侧都除以p(D|a₀)，我们得到：

\frac{p (D)}{P (D | a_{0})} = Σ_{i = 0}^{k} f_{i} λ_{i}

从而得到：

{OR}_{i} = λ_{i} \frac{Σ_{i = 0}^{k} f_{i} λ_{i} - p (D)}{Σ_{i = 0}^{k} f_{i} λ_{i} - λ_{i} p (D)},

通过设定

得到

因此，通过C的定义，得出：

1 = Σ_{i = 0}^{k} f_{i} \frac{λ_{i}}{C} = Σ_{i = 0}^{k} \frac{f_{i} {OR}_{i}}{p (D) {OR}_{i} + C - p (D)} .

这是具有一个变量C的多项式方程。一旦确定了C，就确定了相对风险。多项式为k+1次，因此我们预计具有至多k+1个解。但是，由于方程的右侧严格地减化为C的函数，那么对于这一方程可能通常仅存在一个解。然后使用对分检索(binary search)找到这个解，因为该解界于C＝1和

之间。

相对风险评估的稳定性。测定各不同参数(流行度、等位基因频率和优势比误差)对于相对风险估计值的影响。为了测量等位基因频率和流行度估计值对相对风险值的影响，由一组不同优势比、不同等位基因频率的值(在HWE下)计算相对风险，并且针对在0至1范围内的流行度值对这些计算的结果进行绘图。

另外，对于固定的流行度值，所得的相对风险作为风险-等位基因频率的函数绘图。很明显，在所有情况下当p(D)＝0时，λ_RR＝OR_RR和λ_RN＝OR_RN，并且当p(D)＝1时，λ_RR＝λ_RN＝0。这可以由等式1直接计算得到。另外，当风险等位基因频率高时，λ_RR接近于线性性质，并且λ_RN接近于具有有界二次导数的凹函数。当风险等位基因频率低时，λ_RR和λ_RN接近于函数1/p(D)的表现。这意味着对于高的风险-等位基因频率，流行度的错误估计值通常不会很大地影响所得的相对风险。

优势比相对于相对风险。在流行病学文献中，相对风险常被认为是直接的和富有信息的风险量度。但是，在通常的病例-对照研究和全基因组关联研究中，不能直接计算相对风险。相对风险通常可通过前瞻性研究来估计，在前瞻性研究中在较长的时间内对一组健康个体进行研究。相反，优势比常在病例-对照研究中报告。优势比是病例与对照之间携带风险等位基因概率的比值。对于罕见的疾病，优势比是相对风险的良好近似；但是，对于常见的疾病，优势比可导致对风险的错误估计，其中甚至当风险少量增加时，优势比也可能非常高。

相对终生风险相对于相对风险。相对风险隐含地假定了所有的对照当前都未患有疾病。当估计患病的可能性时，这是相关的。但是，如果需要对终生进行风险估计或对个体患上某种病症的终生风险进行估计，则需要考虑一些对照最后会患上该疾病的事实。相对终生风险被定义为携带有风险等位基因r的个体一生中患上该病症的风险与携带非风险等位基因的个体一生中患上该病症的风险的比值。这不同于病例-对照研究中相对风险的标准应用，后者基于流行度信息。

可能的k+1等位基因由a₀、a₁，...，a_k表示，其中a₀是非风险等位基因。假设了对于k+1个可能的等位基因在群体中的等位基因频率f₀、f₁、f₂、...、f_k。进一步假定研究的个体可被分为三个组：CA、Y和Z。CA表示病例，而Y和Z是对照。与Z组的个体相反，假定Y组的个体最终会患上该病症。Y和Z的组合由CO表示，Y和CA的组合由D表示。假定|Y|＝α|CO|＝α(|Y|+|Z|)，其中α是在其一生中会患上该病症的对照的分数。注意到α是平均终生风险的上限。取决于疾病发作的年龄以及对照的年龄，α可能小于平均寿命。

相对风险和优势比现在可表示为：

{OR}_{i} = \frac{P (a_{i} | CA) P (a_{0} | CO)}{P (a_{0} | CA) P (a_{i} | CO)}

优势比可以写为

{OR}_{i} = \frac{P (a_{i} | CA) P (a_{0} | CO)}{P (a_{0} | CA) P (a_{i} | CO)} = \frac{P (a_{i} | CA)}{P (a_{0} | CA)} \cdot \frac{αP (a_{0} | Y) + (1 - α) P (a_{0} | Z)}{αP (a_{0} | Y) + (1 - α) P (a_{0} | Z)} =

= \frac{P (CA | a_{i})}{P (CA | a_{0})} \cdot \frac{αP (Y | a_{0}) + (1 - α) P (Z | a_{0})}{αP (Y | a_{i}) + (1 - α) P (Z | a_{i})} =

= \frac{P (CA | a_{i})}{P (CA | a_{0})} \cdot \frac{αP (CA | a_{0}) + (1 - α) P (Z | a_{0})}{αP (CA | a_{i}) + (1 - α) P (Z | a_{i})}

第一行与第二行的推导基于贝叶斯定律，而第三行基于CA和Y是基本相同的群体的事实，从而P(CA|a_i)＝P(Y|a_i)。现在使用P(Z|a_i)＝1-P(CA|a_i)的事实得到：

{OR}_{i} = \frac{P (CA | a_{i})}{P (CA | a_{0})} \cdot \frac{(2 α - 1) P (CA | a_{0}) + 1 - α}{(2 α - 1) P (CA | a_{i}) + 1 - α} = λ_{i} \cdot \frac{(2 α - 1) P (CA | a_{0}) + 1 - α}{(2 α - 1) P (CA | a_{i}) + 1 - α}

如前所述，

其中p(D)是平均终生风险。因此，使用等式

优势比可改写为：

{OR}_{i} = λ_{i} \cdot \frac{(2 α - 1) P (D) + (1 - α) C}{(2 α - 1) P (D) λ_{i} + (1 - α) C} .

因此，如果给定了C，可以通过指定

λ_{i} = \frac{(1 - α) C \cdot {OR}_{i}}{(2 α - 1) P (D) (1 - {OR}_{i}) + (1 - α) C}

得出相对终生风险，可以通过求解方程

1 = Σ_{i = 0}^{k} f_{i} \frac{λ_{i}}{C} = Σ_{i = 0}^{k} \frac{f_{i} (1 - α) {OR}_{i}}{(2 α - 1) p (D) (1 - {OR}_{i}) + (1 - α) C}

得到C。

可以证明，通过定义C和优势比，C＞(2α-1)p(D)(OR_i-1)。因此，右侧是C的递减函数，其可通过应用对分检索得出。

基于GCI的终生风险估计。GCI大体上提供了所有相关SNP中，与具有非风险等位基因的个体相比的个体相对风险。为了计算个体的终生风险，可以获得个体终生风险与平均终生风险的积，且该乘积除以整个群体的平均终生风险。该计算值与平均终生风险和相对风险的定义一致。为了计算平均终生风险，列出所有可能的基因型，且将计算为其在各单一SNP中的变异体的相对风险的乘积的相对风险相加。

环境遗传综合指数(EGCI)

在某些实施方式中，将环境因子引入GCI得分，从而生成环境遗传综合指数(EGCI)得分。EGCI得分可以通过计算机计算或确定。环境因子可以包括非遗传因子，例如但不仅限于饮食因素、运动习惯的因素、以及其他生活方式或个体选择(例如个人关系、工作和家庭条件)。例如，吸烟(频率和/或吸烟量、尼古丁摄入水平等)、药物使用(类型、数量、药物使用频率)和饮酒(例如，量和频率)可以是引入GCI评分以产生EGCI得分的环境因子。其他环境因子可以包括食品类型、量和摄入的频率。其他因素可能包括个体的运动方案，例如某些类型的身体活动的强度、类型、长度和频率。

再其他的环境因子可以包括个体的生活环境，例如农村地区、市区环境或一定人口密度或污染水平的城市。例如，可以考虑个体的居住地，例如个体的工作或家庭环境中的烟雾水平或空气质量。也可以考虑个体的睡眠习惯、个人关系(例如单身或已婚、或近亲属、朋友、家庭关系的数量)、社会地位、职业(高/低压力、责任水平、工作满意度、与同事和上级的关系等)。

因此，环境因子可以是但不仅限于：个体的出生地、居住地、生活方式状况；饮食、运动习惯和个人关系。环境因子也可以是个体的物理测量，例如身体质量指数、血压、心率、葡萄糖水平、代谢物水平、离子水平、身高、体重、胆固醇水平、维生素水平、血细胞计数、蛋白质水平和转录物水平。EGCI还可以整合一个以上的环境因子，例如，至少1、2、3、4、5、10、12、15、20、25或更多的环境因子。

环境因子可以在造成疾病或病症的风险方面与一个或多个遗传因素彼此独立。环境因子也可以在造成疾病或病症的风险方面与一个或多个的其他环境因子彼此独立。在一些实施方式中，环境因子可能不是与一个或多个遗传因素无关的。在再其他的实施方式中，环境因子可能不是与其他环境因子无关的。环境因子可能不是与其它遗传因素或环境因子无关的，但是当引入EGCI得分中时，环境因子可以在计算EGCI得分时(如实施例5中所述)被假设为独立的。在一些实施方式中，对于个体引入的环境因子可能是个体家庭(例如，如实施例4所示)或朋友的环境因子，或由个体的家庭或朋友的行为造成的环境因子。例如，个体可能与吸烟的朋友或家人一直生活，因此暴露于烟可能是引入该个体的EGCI中的环境因子。

引入GCI中以生成EGCI的环境因子可以具有对于疾病或病症的至少大约1.0的相对风险因子。相对风险因子可以为大约1或2，或至少大约1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8或1.9。在一些实施方式中，相对风险因子可以为至少大约2、3、4、5、6、7、8、9或10。在再其他的实施方式中，环境因子的相对风险因子可以为至少大约12、15、20、25、30、25、40、45或50。

在一些实施方式中，引入GCI中以生成EGCI的环境因子对于疾病或病症可以具有至少大约1.0的优势比(OR)。相对风险因子可以为大约1或2，或至少大约1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8或1.9。在一些实施方式中，OR可以为至少大约2、3、4、5、6、7、8、9或10。在再其他的实施方式中，环境因子的OR可以为至少大约12、15、20、25、30、35、40、45或50。

可以产生对于疾病或病症的EGCI，其中，疾病或病症的遗传度可小于大约95％。在一些实施例中，对于具有小于大约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％或90％的遗传度的疾病或病症计算EGCI。

个人行动计划

本文公开的个性化行动计划提供了基于个体的基因组谱的有意义的、可操作的信息以改善个体的健康。行动计划提供了就特定基因型相关性而言可能有益于个体的行动方案，并可包括进行治疗处理、监测潜在的治疗需要或治疗效果或者在饮食、锻炼和其他个人习惯/活动等方面改变生活方式，这些可根据个体基因组谱定制入个性化行动计划中。或者，可以基于个体基因组谱给予其特定的等级，另外可任选地包括其他信息，例如家族史、现有的生活习惯和环境，例如但不限于工作条件、工作环境、个人关系、家庭环境等。也可引入其他信息，包括种族、性别和年龄。也可将各种饮食和锻炼预防策略的优势比及其与降低疾病或病症风险的相关性引入分级系统。

例如，可以基于个体的GCI或EGCI得分生成个性化行动计划。另外，个性化行动计划可针对个体进行修改或更新，例如，个体的环境因子可能发生改变或更新，从而生成更新的EGCI得分。个体的个性化行动计划可能被修改或更新，例如由更新的EGCI得分生成，或由关于与以前未知的疾病或病症相关的遗传信息的新科学信息产生的修订或更新的GCI得分生成。

例如，如果个体或其保健管理者起初要求自动更新例如注册计划，可将修改或更新的个性化行动计划自动传送至个体或其保健管理者。或者，仅当个体或其保健管理者要求时，才传送更新的个性化行动计划。个性化行动计划也可基于多个因素进行修改和更新。例如，个体可以分析多个遗传相关性，所得的结果用于修改现有的建议、增加另外的建议或删除初始个性化行动计划中的建议。在一些实施方式中，个体可改变某些生活方式习惯/环境，或获知更多有关家族史、现有生活方式习惯和环境(例如但不局限于工作条件、工作环境、个人关系、家庭环境等)的信息，或希望包括更新的年龄，以获得综合了这些变化的个性化行动计划。例如，个体可能已经遵循其初始的个性化行动计划，例如减少其饮食中的胆固醇，因此可以修改其个性化行动计划建议或降低其患心脏疾病的风险或倾向。

基于个体遵循了个性化行动计划中的建议或个体可作出的或想到的其他变化，个性化行动计划也可预测将来的建议。例如，个体年龄的增加导致骨质疏松风险增加，但是取决于钙的量或其他生活习惯，例如个性化行动计划中的习惯，可降低该风险。

个性化行动计划可以单独的报告形式与个体的表型谱和/或基因组谱一起报告给个体或其保健管理者。或者，个性化行动计划也可独立地报告。然后个体可以遵循其个性化行动计划中建议的行动。在实施其计划中的任何行动之前，个体可以选择咨询其保健管理者。

提供的个性化行动计划也可将许多条件特异性的信息与一组统一的行动步骤联合起来。个性化行动计划也可合并以下因素，包括但不限于：各病症的流行度、与各病症相关的疼痛的相对量以及各病症的治疗类型。例如，如果个体的心肌梗塞的风险升高(例如，表现为更高的GCI或GCI Plus评分)，个体可以让个性化行动计划中包括增加水果、蔬菜和谷物的食用。但是，个体也可易感乳糜泻，因此会存在对小麦麸质的过敏性。因此，增加小麦的食用可能是禁忌的，并可以在个性化行动计划中表明。

个性化行动计划可提供药物建议、非药物建议或两者。例如，个性化行动计划可包括用于预防的建议药物，例如用于易感心肌梗塞个体的降胆固醇的药物，及咨询医生。个性化行动计划也可提供非药物建议，例如遵循个性化生活方式计划，包括基于个体基因组谱的锻炼方案和饮食计划。

个性化行动计划建议可以是特定的等级、标签或分类系统。各建议可由数字、颜色和/或字母方案或值进行分级或分类。可先对建议分类，再进行分级。可使用多种变型，例如不同的分级方案(使用字母、数字或颜色；字母、数字和/或颜色的组合；在一个或多个分级方案中的不同类型的建议)。

例如，确定个体的基因组谱，并基于该其基因组谱将个性化行动计划中对个体的建议分成3类：“A”表示不利或负面的作用；“N”表示中性或没有显著的作用，“B”表示有益的或正面的作用。将该系统作为一个实例，被分为A类的个体的治疗包括个体对其有不良反应的药物，分成N类的治疗对个体没有任何显著的正面或负面作用，分成B类的治疗有益于个体的健康。使用相同的分类系统，饮食计划也可被分成A、B和N类。例如，个体过敏的食物或应该特别避免的食物(例如，对于易感糖尿病或龋齿的个体应该避免的糖)将被分为A类。对个体健康没有显著作用的食物被分成N类。特别有益于个体的食物被分成B类，例如，如果个体胆固醇过高，低胆固醇的食物将被分成B类。个体的锻炼方案也可基于这个相同的系统。例如，个体可能易感心脏病且应该避免剧烈的锻炼，因此跑步可能是A类活动，而步行或一定节奏的慢跑可能是B类活动。对于某个个体，站立一段时间可能是N类活动，但是对于易感静脉曲张的另一个体是A类活动。

另外，在A、N或B的各个分类中，可以存在进一步的分类水平，例如按照影响从最低到最高分成1至5级。例如，分成A1类的治疗表示有轻微的负面作用，例如轻微的恶心，A2类表示治疗引起呕吐，而A5治疗会引起严重的不良反应，例如过敏性休克。相反，B1类治疗对个体有轻微的正面作用，而B5类对个体有显著的正面作用。例如，如果个体易感肺癌或成长时暴露于二手烟，个体不吸烟可以是B5类，而不易感肺癌的个体可以使该因子为B4类。

也可通过不同的颜色表示不同的分类，例如，A可以是红色调，且为表示对个体健康从低到高的作用，其色度可以从淡红色至暗红色，淡红表示对个体健康负面影响较低，暗红色表示对个体健康有严重的不良作用。该系统也可以是连续的色谱、数字或字母。例如，除了A、N和B和/或其内的小类，分类可以为从A至G，其中A表示严重负面影响个体健康的食物、治疗、生活方式习惯、环境以及其他因素，D表示具有正面或负面的最小作用的因素，G表示非常有益于个体健康的因素。或者，除了从A至G，数字或颜色也可表示影响个体健康的食物、治疗、生活方式习惯、环境和其他因素的连续的谱。

在一些实施方式中，可对个性化行动计划中特殊的治疗、药物或其他生活方式的元素进行分类、标记或分级。例如，个体可具有包括锻炼方案和饮食计划的个性化行动计划。锻炼方案可包含一种或多种等级或分类。例如，锻炼方案的等级可以是如表1中的A至E，其中各字母对应于一种或多种类型的锻炼，包括有关活动类型、时间长度、给定时间范围内的次数、在各个水平下的次数的信息，从而给个体推荐锻炼方案。

表1：锻炼方案：心血管活动

在一个实施方式中，基于个体的基因组谱，个体的个性化行动计划可具有A等级，因此推荐给个体的锻炼方案将选自表1中A栏的选项以进行其心血管锻炼。类似地，相似的负重训练系统也可以是该个体锻炼方案中的一部分，并且会给个体推荐A等级的负重锻炼选项。在一些实施方式中，可与个体的基因组谱一起引入因素以确定个体的锻炼方案等级，所述因素例如但不限于：个体现有的饮食、锻炼、其他个人习惯/活动、任选的其他信息，例如家族史、现有的生活方式习惯和地理，例如但不限于工作条件、工作环境、个人关系、家庭环境、种族、性别、年龄和其他因素。另外，随着个体生活方式习惯的改变，或知道和引入了更多的因素，个体的等级也可发生变化，例如，如果个体遵循个性化行动计划中的推荐的活动，开始等级为A，个体可要求更新个性化行动计划，从而评价和确定现在个体处于B等级。或者，个体的个性化行动计划可提供关于个体何时应该考虑从A等级更换至B等级以使其健康最大化的时间线。

个性化行动计划也可具有饮食计划的分级系统。例如，对饮食计划的分级可以是从1至5的体系，其中各个数字对应于脂肪、纤维、蛋白质、糖和其他建议个体在其饮食中添加的营养素、特定的比例大小、卡路里值的特定分组和/或与个体应该将其作为饮食的其他食物的分组。基于个体的基因组谱，个性化行动计划可给予个体等级2，因此个体推荐的饮食计划将是在等级2下的饮食选择。

在另一实施方式中，可以对个体食物进行分类。例如，给予等级2的个体应该选择分类也为2的特定食物。例如，特定的蔬菜、肉类、水果、乳制品及其他分类为2的食物，不能选择其他分类的食物。例如，芦笋是分类为2的蔬菜，而甜菜分类为3，因此个体在其饮食中应该较多地包括芦笋，而不应是甜菜。

在另一实施方式中，基于个体基因组谱给予个体其应遵循的饮食类型等级的建议，该建议是个体在其饮食中应该具有的饮食类型中营养物类型的细目分类。等级可以是包括形状、颜色、数字和/或字母的可视化表示形式。等级可以是包括形状、颜色、数字和/或字母的可视化表示形式。例如，发现个体易患结肠癌和糖尿病，给予个体代表在个体饮食中应该具有的推荐的食物类型中的不同营养物的比例的符号。不同类型的食物，例如但不局限于具体的水果、蔬菜、碳水化合物、肉类、乳制品等，以相同的方案表示。以与给予个体的符号最接近的符号分级的食物将是对个体推荐的食物。

在一些实施方式中，可与个体的基因组谱一起引入因素以形成个性化行动计划，从而影响给予个体饮食计划的等级，所述因素例如但不限于：个体现有的饮食、锻炼、其他个人习惯/活动、任选的其他信息，例如家族史、现有的生活方式习惯和环境，例如但不限于工作条件、工作环境、个人关系、家庭环境、种族、性别、年龄和其他因素。另外，随着个体生活方式习惯的改变，或者知道或引入了更多的因素，个体的等级也可改变。例如，如果个体遵循了个性化行动计划中推荐的活动，在其饮食计划起始等级为1(这是一种胆固醇极低的饮食计划)的情况下，个体可以要求更新引入其生活方式习惯中的变化的个性化行动计划以使得个体具有改善的胆固醇水平，更新的个性化行动计划可显示个体现在更适合遵循等级2的饮食计划，或可以选择等级1和2中的饮食计划。或者，个体的起始个性化行动计划可提供个体何时应该考虑从等级1转换至等级2的时间线，或基于预定计划在不同等级的不同饮食计划之间改变其饮食计划，以使其健康最大化。

个性化行动计划中的等级可以用于不同分级系统的组合。例如，等级为从A到E的锻炼方案系统和等级为从1到5的饮食计划系统可用于给予个体其个性化行动计划中的A1等级。因此，推荐个体遵循等级A的锻炼方案和等级1的饮食计划。或者，锻炼和饮食方案可使用单个分级系统。例如，个体在个性化行动计划中可以给予特定的等级，例如等级C，以使得对个体推荐的锻炼和饮食方案都在C分类下。在其他实施方式中，也包括了其他类型的建议，例如其他生活方式活动和习惯。例如，除了锻炼和饮食方案，在单个分级系统下也可包括其他建议，例如治疗、工作环境类型、社会活动类型。或者，不同的分级系统也可用于其他建议。例如，字母可以用于推荐的锻炼方案，数字可用于饮食方案，颜色可用于药物建议。

在一些实施方式中，使用二元分级系统以使得建议类型成对分组。该系统可类似于Myers Briggs Type Indicator(MBTI)系统。在MBTI系统中，有四对偏好或二分(dichotomies)，个体被置于各对中的一个。个体的偏好是1)外向或内向，2)发送(sending)或直觉，3)思维或感觉，及4)判断或感知。可使用系统中的变化来确定基于个体的基因组谱的对个体的建议，以改善其健康。

例如，个体的饮食可以是A或B，其中A表示特定类型的营养物的混合，B表示不同的混合。或者，可将具体的食物类型分成A或B组。个体的锻炼方案可具有另一个二元分类，例如H或L，其中H表示个体应该参与高强度锻炼，L表示低强度运动。如此，个体可被分类为AH。另一个二元分类可用于社会接触。例如，个体可能有合群(S)或不合群(U)的遗传倾向，如此，建议可包括活动的类型或个体应该避免或寻找的人群，以减轻压力和促进其健康。

个性化行动计划也可更新以包括基于个体知晓的信息的因素，包括科学信息或来自个体的信息(例如“区域部署”或直接机制)，例如代谢物水平、葡糖糖水平、离子水平(例如钙、钠、钾、铁)、维生素类、血细胞计数、身体质量指数(BMI)、蛋白质水平、转录物水平、心率等，这些信息可通过容易获得的方法确定，并且当其被知晓时，例如通过实时监测，可以在个性化行动计划中包括这些因素。个性化行动计划可以修改，例如，基于遵循计划的个体，该计划也可影响个体可具有的一种或多种病症的倾向。例如，可以更新个体的GCI得分。

社区和激励

本公开提供了基于个体的基因组谱的表型谱和个性化行动计划，使得个体能很好地了解其健康状况，以及个性化的选择促进个体的健康。本发明也提供了社区，例如在线社区，其能提供对个体的支持和激励以使个体遵循其个性化行动计划。对个体改善其健康的激励，例如，通过遵循其个性化行动计划改善其健康，也可包括金钱奖励。

个体可参加到社区，例如在线社区，其中个体或其保健管理者有权访问个体的基因组谱、表型谱和/或个性化行动计划。个体可以通过个人在线入口选择使基因组谱、表型谱和/或个性化行动计划对所有社区、社区的子集提供或对所有社区均不提供。朋友、家人或同事可以为在线社区的一部分。例如，在线社区(如www.enmeon.com和www.changefire.com)为本领域已知的激励个体达到其目标的社区。在本公开中，个体使用其表型谱例如GCI得分作为基线或通过达到其个性化行动计划中的目标参与支持和激励个体改善其健康和身体状况的在线社区或成为这些社区的成员。在线社区可限于个体的朋友、家人或同事，或朋友、家人和同事的集合。个体也可将其先前不认识的其他在线社区成员包括在内。在线社区也可以是雇主资助的社区。个体可与具有相似表型谱、行动计划的其他人组成小组，彼此激励以实现其目标。个体可与在线社区中的其他人进行竞赛，以提高其GCI得分和/或实现其个性化行动计划的目标。

例如，个体的报告，例如其GCI得分和个性化行动计划，可以对在线社区中个体的家人和朋友是可见的。个体可选择或选定其报告对谁可见和/或可访问。在线形式可包括包含个性化行动计划项目的清单或重要事件量度，其中个体可标出其个性化行动计划的完成或进展。GCI得分可随进展或完成而更新并反映在在线报告中。个体也可输入已经改变的因素，例如生活方式改变、锻炼方案的改变、饮食改变和其他也可改变个体的报告的因素。家人和朋友可看到个体的进步，以及个体生活的改变，和他们怎么反映或改变个体的GCI得分。在线入口可允许个体查看初始和后续的报告。个体也可接受来自朋友和家人的反馈和评论。家人和朋友可留下支持性和激励性的评论。

在线社区也可通过推进个体个性化行动计划和/或提高其GCI得分、降低其患疾病的风险或倾向，提供对个体的激励以改善其健康。激励也可提供给不在在线社区中的个体。例如，雇主资助的在线社区可提供健康计划，其中当个体达到特定目标，例如提高其对于疾病的GCI得分时，雇主给予更多的津贴、提供额外假期、或捐助个体的健康储蓄账户，从而降低其患疾病的倾向。或者，社区不一定是在线的，且个体向为雇主处理健康计划的指定人员提交提高的GCI得分。

也可用其他激励来激发个体通过提高其GCI得分和/或遵循其个性化行动计划来改善其健康。当达到某个目标时，例如提高其GCI得分特定百分比或数值，或从一个分类到另一分类(即，高风险到低风险)，或通过实现个性化行动计划中的某一目标时，个体可接受兑现奖励的积分。例如，个体可实现了特定数值的GCI得分降低，以在特定时间范围内实现对疾病风险的最大降低、完成个性化行动计划的目标或完成个性化行动计划的大多数目标。

朋友、家人和/或雇主可提供积分和/或奖励，也许通过购买积分和/或奖励并将其作为对提高其GCI得分和/或实现其个性化行动计划的奖励给予个体。个体也可因为在他人，例如其他同事、朋友、家人或具有同样目标的在线社区成员的组之前达到目标而接受积分/奖励。例如，最先实现将GCI得分降低特定数值、在某一时间范围内实现患疾病风险的最大降低、完成个性化行动计划的目标或完成个性化行动计划的大多数目标的个体。个体可接受现金、或兑现现金的积分作为奖励。其他奖励可包括药品、保健品、健康俱乐部成员资格、spa治疗、医疗程序、监测健康的设备、遗传测试、旅游等，例如本文描述的服务的注册、或者上述项目的折扣、补助或补偿。

激励可由朋友、家人和雇主赞助。医药公司、健康俱乐部、医疗设备公司、spas等也可资助激励。赞助者可以广告、或征募进行交换，例如，医药俱乐部可能意图获得个体的基因组谱以作为数据或进行临床试验。另外，激励可用来鼓励个体参与到激发个体改善其健康的社区，例如本文描述的在线社区。

访问谱图和个性化行动计划

可以向个体提供包含基因组谱、表型谱和其他与表型谱和基因组谱相关的信息(例如个性化行动计划)的报告。保健管理者和提供者例如护理人员、医生和遗传顾问也可以具有对报告的访问权。报告可以被打印、保存在计算机上或在线浏览。或者，该谱和行动计划可以以纸件的形式提供。它们也可保存在纸上或计算机可读介质上，例如在某时时间在线提供，随后的更新通过纸件、计算机可读介质或在线形式提供。可以通过计算机生成和输出结果。它们可以存储在计算机可读介质上。

基因组谱、表型谱以及个性化行动计划可通过在线入口访问，在线入口是个体可使用计算机和互联网、电话或其他相似的信息访问方法容易地访问的信息来源。该在线入口可以任选地为加密的在线入口或网站。该网站可以提供与其他加密和非加密网站的链接，例如连接至具有个体的表型谱的加密网站的链接或者连接至非加密网站(如共有特定表型的个体的留言板)的链接。

报告可以是个体的GCI得分、GCI Plus或EGCI评分(如在本文中所述，报告GCI得分也包括报告GCI、GCI Plus和/或EGCI评分的方法)。例如，对于一种或多种病症，评分可使用显示器可视化。显示屏(例如，计算机监视器或电视屏)用于可视化显示，例如具有相关信息的个人入口。在另一实施方式中，显示装置是静态显示装置，例如打印页面。显示可以包括但不限于以下一种或多种：箱元(例如，1-5、6-10、11-15、16-20、21-25、26-30、31-35、36-40、41-45、46-50、51-55、56-60、61-65、66-70、71-75、76-80、81-85、86-90、91-95、96-100)、彩色或灰度梯度、温度表、量表、饼图、柱形图或棒图。在另一实施方式中，温度表用于显示GCI得分和疾病/病症流行度。温度表可显示随着报告的GCI得分变化的水平，例如，温度表可以显示随GCI得分增大的色度变化(例如，从较低GCI得分的蓝色逐渐变化至较高GCI得分的红色)。在相关实施方式中，温度表显示随报告的GCI得分变化的水平和随风险级别增大的色度变化。

也可使用听觉反馈向个体传送个体的GCI得分。例如，听觉反馈可以是风险等级是高或低的口头说明。听觉反馈也可以是特定的GCI得分的叙述，例如数字、百分位、范围、四分位或者与群体GCI得分的平均数或中位数的比较。在一个实施方式中，有生命的人亲自或者通过通信装置，例如电话(陆上线路电话、便携式电话或卫星电话)传递听觉反馈，或者通过个体入口传送听觉反馈。听觉反馈也可以通过自动系统(例如计算机)传送。听觉反馈可以是作为互动声音反应(IVR)系统的部分传递，该系统是一种允许计算机使用正常电话呼叫检测语音和按键音的技术。个体可以通过IVR系统与中央服务器互动。IVR系统可以对事先录制或动态产生的音频作出反应以与个体互动并且向他们提供其风险等级的听觉反馈。个体可以呼叫由IVR系统回答的号码。在任选地输入认证码、安全码或经过语音识别程序后，IVR系统可以要求个体从菜单中选择选项，例如按键音或语音菜单。这些选项中的一个可以向个体提供他或她的风险等级。

个体的GCI得分使用显示装置可视化并且使用听觉反馈传送，例如通过个人入口。该组合可以包括GCI得分的可视显示和听觉反馈，其讨论GCI得分与个体的整体健康的相关性和可能的预防措施，例如其个性化行动计划。

个体可访问不同的报告选项。例如，在线接入点，例如在线入口可使得个体基于其基因组谱显示单个或多个表型谱。注册用户也可以具有不同的察看选项，例如，“快速查看(Quick View)”选项，以获得单个或多个病症的简单概况。也可以选择“全局查看”选项，其中提供了各类别的详细信息。例如，可以存在关于个体出现表型的可能性的更详细的统计；关于典型症状或表型的更多信息，例如医学病症的典型症状或者身体非医学状况(如身高)的范围；或者关于基因和遗传变异的更多信息，例如群体发病率，如在世界上或者在不同国家中，或者在不同年龄范围或性别中的群体发病率。例如，许多病症的估计终生风险的概况可存在“快速查看”选项中，而有关特定病症例如前列腺癌或克罗恩氏病的更多的信息可以为其他查看选项。对于不同的查看选项可存在不同的组合和变型。

个体选择的表型可以是医学病症，并且在报告中的不同治疗和症状可以链接至其他包含有关治疗的进一步信息的网页。例如，通过点击药物，会导向包括关于剂量、费用、副作用和功效的信息的网页。也可以将药物与其他治疗进行比较。网页也可以包括导向药物制造商的网站的链接。另一链接可以向注册用户提供生成的药物基因组(pharmacogenomic)谱的选项，这将包括如基于其基因组谱他们对于药物的可能反应的信息。也可以提供对于药物的替代方案的链接，例如预防性行为(如康体和减轻体重)；并且也可以提供对于饮食补充、饮食计划的链接及对于附近的健康俱乐部、健康诊所、保健及康复提供者、都市型spa(day spa)等的链接。也可以提供教育和情报视频、可利用的治疗的概要、可能的疗法和一般性建议。

在线报告也可以提供安排个人医生或遗传咨询预约的链接或者访问在线遗传顾问或医生的链接，从而为注册用户提供询问更多关于其表型谱的信息的机会。在线报告上也可以提供在线遗传咨询和医师询问的链接。

在另一实施方式中，报告可以是“娱乐”表型的报告，例如，个体基因组谱与知名个体(如阿尔伯特·爱因斯坦)的基因组谱的相似性。报告可以显示个体基因组谱与爱因斯坦的个体基因组谱之间的百分比相似性，并且可以进一步显示爱因斯坦的预测IQ和该个体的预测IQ。进一步的信息可以包括总群体的基因组谱及IQ与该个体和爱因斯坦的基因组谱及IQ比较的情况。

在另一实施方式中，报告可以显示已与个体的基因组谱相关联的所有表型。在其他实施方式中，报告可以仅显示与个体的基因组谱正相关的表型。在其他形式中，个体可以选择显示表型的某些亚类，例如仅医学表型或者仅可处置的医学表型。例如，可处置的表型及其相关的基因型可以包括克罗恩氏病(与IL23R和CARD15相关)、1型糖尿病(与HLA-DR/DQ相关)、狼疮(与HLA-DRB1相关)、牛皮癣(HLA-C)、多发性硬化症(HLA-DQA1)、格雷夫斯病(HLA-DRB1)、类风湿性关节炎(HLA-DRB1)、2型糖尿病(TCF7L2)、乳腺癌(BRCA2)、结肠癌(APC)、情景记忆(KIBRA)和骨质疏松症(COL1A1)。个体还可选择在他们的报告中显示表型的子类，例如，仅医学病症的炎性疾病或仅非医学病症的身体性状。在一些实施方式中，个体可以选择通过突出显示计算了估计风险的那些病症、仅具有较高风险的病症或仅具有较低风险的病症而显示对该个体计算了估计风险的所有病症。

提交并传送至个体的信息可以是加密的和保密的，并且可以控制个体对这些信息的访问。由复杂基因组谱得到的信息可以作为管理部门批准的、可理解的、医疗相关的和/或具有高度影响的数据提供给个体。信息也可以是具有一般的意义，而与医疗无关。可以通过几种方式向个体加密地传送信息，所述方式包括但不限于入口界面和/或邮寄。更优选地，信息通过入口界面加密地(如果个体如此选择的话)向个体提供，其中个体对该入口界面具有加密和保密的访问权限。这一界面优选通过在线的、互联网站入口提供，或者可选择地，通过电话或允许提供私密、安全和易于使用的访问的其他方式。基因组谱、表型谱和报告通过网络的数据传输向个体或其保健管理者提供。

因此，通过可生成报告的典型示例逻辑设备可以包括计算机系统(或电子设备)，其接受并存储基因组谱，分析基因型相关性，基于对基因型相关性的分析生成规则，将生成的规则应用于基因组谱，并产生表型谱、个性化行动计划和报告。计算机系统可以理解为能够从介质和/或网络端口读取指令的逻辑设备，该网络端口能够任选地与具有固定介质的服务器相连。系统可以包括CPU、磁盘驱动器、任选的输入设备(例如键盘和/或鼠标)以及任选的监视器。数据通信可通过到达本地或远端服务器的所示通信媒介完成。通信媒介可以包括传送和/或接收数据的任何手段。例如，通信媒介可以是网络连接、无线连接或者互联网连接。该连接可在互联网中提供通讯。可以预想到，与本公开相关的数据可在该网络或连接中传送以由某一方接收和/或查看。接收方可以为但不限于个体、医疗保健提供者或保健管理者。在一个实施方式中，计算机可读的介质包括适于传送生物样品或基因型相关性的分析结果的介质。所述介质可以包括关于个体表型谱和/或个体行动计划的结果，其中使用本文所描述的方法得到这一结果。

个人入口可用作个体接收和评价基因组数据的基本界面。入口将使个体能够跟踪其样品从收集到测试的过程并能够跟踪结果。通过入口访问，基于其基因组谱向个体介绍常见遗传病的相对风险。个体可以通过入口选择将哪些规则应用于其基因组谱。

在一个实施方式中，一个或多个网页将具有表型的列表和靠近每个表型有一个方框，注册用户可以选择方框以将其包括在他们的表型谱中。表型可以链接至与该表型有关的信息，以帮助注册用户明智地选择关于他们希望包括在其表型谱中的表型。网页也可以具有按疾病分组(例如可处置的疾病或不可处置的疾病)组织的表型。例如，个体可以仅选择可处置的表型，例如HLA-DQA1和乳糜泻。注册用户也可以选择显示表型的症状前或症状后治疗。例如，个体可以选择具有症状前治疗的可处置表型(在进一步筛查以外)，对于乳糜泻为无谷蛋白饮食的症状前治疗。另一实例可以是阿尔茨海默氏病，症状前治疗为他汀类药物、锻炼、维生素和精神作用。血栓形成是另一实例，症状前治疗是避免口服避孕药和避免长时间久坐。具有经批准的症状后治疗的表型的实例为与CFH有关的湿性AMD，其中个体可以获得对其病症的激光治疗。

表型也可以按疾病或病症的类型或种类进行组织，例如神经、心血管、内分泌、免疫等。表型也可以分组为医学和非医学表型。在网页上的表型的其他分组可以按照身体性状、生理性状、精神性状或情绪性状进行。网页可以进一步提供通过选择一个方框而选择一组表型的分区。例如，选择所有表型、仅与医学相关的表型、仅非医学相关的表型、仅可处置的表型、仅不可处置的表型、不同的疾病组或者“娱乐”表型。“娱乐”表型可以包括与名人或其他知名个体的对比，或者与其他动物或甚至其他生物体的对比。可用于对比的基因组谱的列表也可以在网页上提供以用于由个体选择而与该个体的基因组谱对比。

在线入口也可以提供搜索引擎以帮助个体浏览入口、检索特定表型或者检索由其表型谱或报告所揭示的特定术语或信息。也可以由入口提供访问搭配的服务和提供的产品的链接。也可以提供连接到支持小组、留言板和具有共同或相似表型的个体的聊天室的另外的链接。在线入口也可以提供连接到具有更多与个体表型谱中的表型有关的信息的其他地址的链接。在线入口也可提供服务使个体与朋友、家人、同事或保健管理者分享其表型谱和报告，且可选择哪些表型显示在其想与朋友、家人、同事或保健管理者分享的表型谱中。

表型谱和报告向个体提供了个体化基因型相关性。用于生成个性化行动计划的基因型相关性给个体提供了更多的知识和机会来确定其个人健康和生活方式的选择。如果发现了在遗传变异与可进行治疗的疾病之间的强相关性，遗传变异的检测可能有助于确定开始治疗疾病和/或个体监测。在存在统计学上显著的相关性但不认为是强相关性的情况下，个体可以与个人医生讨论该信息并决定适当的、有益的行动方案。就特定基因型相关性而言可能有益于个体的潜在行动方案包括进行治疗处理、监测潜在的治疗需要或治疗效果或者在饮食、锻炼和其他个人习惯/活动等方面改变生活方式，这些可根据个体基因组谱定制入个性化行动计划中。其他个人信息，例如现有的习惯和活动也可引入个性化行动计划中。例如，可处置表型(如乳糜泻)可以进行无谷蛋白饮食的症状前治疗，并在个性化行动计划中提供。同样，通过药物基因组学，基因型相关性信息可应用于预测必须用特定药物或药物疗程进行治疗的个体的可能反应，例如特定药物治疗的可能的效力或安全性。

基因型相关性信息也可与遗传咨询结合以用于向考虑生育的夫妇提出建议，以及对母亲、父亲和/或孩子提出潜在的遗传关注。遗传顾问可以向具有显示特定病症或疾病的较高风险的表型谱的个体提供信息和支持。他们可以解释关于该病症的信息、分析遗传模式和复发风险并与注册用户讨论可用的选择。遗传顾问也可以提供支持性咨询以向注册用户推荐社区或国家支持服务。遗传咨询可以包括特定注册计划。遗传咨询选项也可以包括安排在所请求的24小时内且可在如晚上、星期六、星期日和/或假日的非传统时间内提供的遗传咨询。

个体的入口也可有助于传递初始筛查以外的附加信息。个体可被告知有关其个人遗传图谱的新的科学发现，例如关于其目前或潜在病症的新的治疗或预防对策的信息。新发现也可以传递给其保健管理者。新发现也可被引入更新的或修改的个性化行动计划。可通过电子邮件向个体或其保健提供者通告关于个体的表型谱中的表型的新基因型相关性和新研究。例如，可将“娱乐”表型的电子邮件发送给个体，例如电子信件可以告知他们其基因组谱的77％与阿伯拉罕·林肯的基因组谱相同，以及通过在线入口提供进一步的信息。

本文也提供了告知注册用户新的或者修正的相关性、新的或者修正的规则和新的或者修正的报告的计算机代码，例如新的预防和健康信息、关于开发中的新治疗方法的信息或可获得的新治疗。本文也提供了一种用于生成新规则、修正规则、组合规则、定期用新规则更新规则集、安全地维持基因组谱数据库、将规则应用于基因组谱以确定表型谱、生成个性化行动计划和报告的计算机代码系统，包括对不同注册级别的个体赋予不同访问权限和选择的计算机编码。

注册

可以对人类或非人类个体生成基因组谱、表型谱和报告，包括个性化行动计划。例如，个体可包括其他的哺乳动物，例如牛、马、羊、犬或猫。个体可以是个人的宠物，宠物的所有者可能需要个性化行动计划来增强其宠物的健康及延长其寿命。个体或其保健管理者可以是注册用户。当用于本文时，注册用户是通过购买或支付一项或多项服务而订制服务的人类个体。服务可以包括但不限于以下一种或者多种：确定他们自己或另一个体(例如注册用户的孩子或宠物)的基因组谱；获得表型谱；更新表型谱和获得基于他们的基因组谱和表型谱的报告(包括个性化行动计划)。

注册用户可以选择将基因组谱和表型谱或报告提供给其保健管理者，例如医生或遗传顾问。基因组谱和表型谱可以由保健管理者直接访问，由注册用户打印出一份以交给保健管理者，或者通过在线入口(例如通过在线报告上的链接)将其直接发送给保健管理者。

可以对注册用户和非注册用户生成基因组谱并以数字化形式存储，但是可以仅限注册用户访问表型谱和报告。例如，可以给注册用户提供至少一项GCI得分的访问权限，但是不提供给非注册用户。在另一变型中，注册用户和非注册用户都可以访问其基因型谱和表型谱，但是非注册用户具有受限制的访问权限或者允许生成有限的报告，而注册用户具有完整的访问权限并且可以允许生成完整报告。在另一实施方式中，注册用户和非注册用户最初可以具有完全的访问权限或者完整的初始报告，但仅注册用户可以访问基于其存储的基因组谱更新的报告。例如，向非注册用户提供访问权限，其中他们可以具有访问他们的GCI得分中的至少一项的受限的访问权限，或者他们可以生成他们的GCI得分中的至少一项的初始报告，但是仅通过付费订制才生成更新的报告。保健管理者和提供者，例如护理人员、医生和遗传顾问，也可以具有访问个体GCI得分中的至少一项的权限。

在一些实施方式中，对EGCI得分的访问权限可能会基于各种注册水平而受限。例如，个体可以注册具有自己的EGCI得分，但对于其GCI得分或具有EGCI得分的特定病症或疾病具有受限的访问权限。或者，可以向非注册用户提供GCI得分和向注册用户提供EGCI得分。注册水平也可能基于个体更新或修改它们的环境因子以产生更新或修正的EGCI得分而变化。例如，个体可以追求持续注册以具有对于系统的无限制的访问权限来更新他们的环境因子。或者，个体可以选择不进行持续注册，但对每次更新他们的环境因子生成新的EGCI得分付费。EGCI得分的更新也可能引入新的科学信息，例如在遗传多态性与疾病或病症之间发现的新关联、或其他遗传因素以及它们与一种或多种疾病或病症关联。个体也可以选择基于他们可能要改变的环境因子来生成EGCI得分。例如，个体可以考虑移居至某城市，因而个体可以输入或选择某些与该城市相关的环境因子，以观察对于他们的EGCI得分的影响。

其他注册模型可以包括提供表型谱的注册模型，其中注册用户可以选择将所有现有规则应用于他们的基因组谱，或者将现有规则的子集应用于他们的基因组谱。例如，他们可以选择仅应用可处置的疾病表型的规则。注册可以是使得在单个注册等级内具有不同的水平的等级的。例如，不同的水平可以取决于注册用户想要与他们的基因组谱关联的表型数目，或者取决于可以访问他们的表型谱的人员的数目。

注册的另一水平可以将个体特有的因素，例如早已知道的表型(如年龄、性别或者病史)引入他们的表型谱。基本注册的再另一个水平可以允许个体生成对于疾病或病症的至少一项GCI得分。如果由于用于生成至少一项GCI得分的分析中的变化而导致至少一项GCI得分的任何变化，这一水平的变型形式可以进一步允许个体指定生成对于疾病或者病症的至少一项GCI得分的自动更新。在一些实施方式中，可以通过电子邮件、语音信息、文本信息、邮递或传真向个体通告自动更新。

注册用户也可以生成具有他们的表型谱以及关于表型的信息(例如关于表型的遗传和医疗信息)的报告。个体可访问的不同的信息量可以取决于个体具有的注册水平。例如，个体可具有的不同查看选项取决于个体的注册水平，例如未注册用户或较基础的注册的快速查看选项，但是对于完全注册的个体可访问全面查看选项。

例如，不同的注册水平可以具有对可包含在报告中的信息的访问权限的不同的变型或组合，这些信息包括但不限于：群体中表型的流行度、用于相关的遗传变异、引起表型的分子机制、对于表型的治疗方法、对于表型的治疗选项和预防性行动。在其他实施方式中，报告还可以包括例如个体的基因型与其他个体(如名人或者其他知名人士)的基因型之间的相似性的信息。关于相似性的信息可以是但不限于：同源性百分比、相同变异的数目和可能相似的表型。这些报告可以进一步包括至少一项GCI得分。

如果在线访问报告，则基于注册水平的其他选项可以包括连接到具有关于表型的进一步信息的其他位置的链接、连接到具有相同表型或者一个或多个相似表型的人的在线支持小组和留言板的链接、连接在线遗传顾问或医生的链接或者连接到安排遗传顾问或医师的电话或现场预约的链接。如果报告是纸件形式，则信息可以是上述链接的站点位置或者遗传顾问或医生的电话号码和地址。注册用户也可以选择哪些表型包括在他们的表型谱中和哪些信息包括在他们的报告中。表型谱和报告也可以被个体的保健管理者或提供者取得，例如护理人员、医生、精神病医生、心理学家、治疗专家或者遗传顾问。注册用户也能够选择是否表型谱和报告或者其部分内容由个体的保健管理者或提供者得到。

另一注册水平可以是在生成初始表型谱和报告之后数字化地保持其基因组谱，并且向注册用户提供利用由最近的研究得到的更新的相关性生成表型谱和报告的机会。注册用户能够利用由最近的研究得到的更新的相关性生成风险谱和报告。由于研究揭示出基因型与表型、疾病或者病症之间的新的相关性，基于这些新的相关性将产生新的规则，并且新的规则能够应用于已经存储和保持的基因组谱。新的规则可以关联先前未与任何表型关联的基因型，使基因型与新的表型相关联，修正现有的相关性，或者基于新发现的基因型与疾病或病症之间的关联提供调整GCI得分的基础。可以通过电子邮件或者其他电子方式告知注册用户新的相关性，并且如果是感兴趣的表型，他们可以选择用新的相关性更新他们的表型谱。注册用户可以选择为每次更新付费、为在指定时间期限(例如，3个月、6个月或者1年)内的多次更新或无限次更新付费的注册方式。另一注册水平可以是，无论何时基于新的相关性产生了新的规则，注册用户使他们的表型谱或者风险谱自动更新，而不是个体选择何时更新他们的表型谱或风险谱。

注册用户也可以向非注册用户介绍以下服务：生成表型与基因型之间的相关性规则，确定个体的基因组谱，将规则应用于基因组谱和生成个体的表型谱。注册用户的介绍可以使注册用户得到优惠的服务订制价格或者使其现有的注册升级。被介绍的个体可以在有限时间内免费访问或者享受折扣注册价格。

以下实施例举例说明和解释了本文的实施方式。本公开的范围不受这些实施例的限制。

实施例

实施例1：GCI得分的评估

WTCCC数据(Wellcome Trust Case Control Consortium，Nature.447：661-678(2007))用于测试GCI构架。该数据集含有大约14000个被划分为7个基于疾病表型的亚群的个体和一个1500个来自英国血液服务对照组(UK Blood Service Control Group)的样本的未受影响的对照亚群的基因型。在三种不同的疾病情况中测试GCI：2型糖尿病、克罗恩病和类风湿性关节炎，它们在其遗传度和平均终生风险方面会有很大不同。因此，分析限于2型糖尿病、克罗恩病和类风湿性关节炎亚群和对照组。使用在文献报道为与这些病症的任一种显著相关并且符合一系列质量标准的SNP(参见表2)。

表2：2型糖尿病、克罗恩病和类风湿性关节炎的等位基因频率和相对风险

1：如本文所述，使用GCI方法计算这里所提供的相对风险。

2：等位基因频率取自HapMap计划的CEU群体。

3：Sandhu等人，Nat Genet.39：951-3(2007).

4：Scott等人，Science.316：1341-5(2007).

5：Wellcome Trust Case Control Consortium，Nature.447：661-78(2007).

6：Zeggini等人，Science.316：1336-41(2007).

7：Salonen等人，Am J Hum Genet.81：338-45(2007).

8：Remmers等人，N Engl J Med.357：977-86(2007).

9：Kyogoku等人，Am J Hum Genet.75：504-7(2004).

对于这些SNP中的每一个，如本文所述，根据在WTCCC数据集中发现的经验分布计算相对终生风险，且GCI公式用于计算每个个体的估计风险。一些已知的风险变异不存在于WTCCC使用的Affymetrix 500K基因芯片阵列上，因此GCI的可预测性预计可能比下面的分析中存在的可预测性更好。

接受者操作曲线(ROC)(The Statistical Evaluation of Medical Tests for Classification and Prediction，MS Pepe.Oxford StatisticalScience Series，Oxford University Press(2003))用于评价GCI用于对病症的预测测试的能力。对于理想的测试，选择阈值t使得具有大于t的得分的所有个体发生该病症，而具有小于t的得分的所有个体不发生该病症。然而，在实践中，对于任何给定的阈值，存在一定分数的假阳性和假阴性分配。ROC曲线图解地描绘了假阳性率和真阳性率之间的关系，因此可以用于指导检测灵敏度和特异性之间的平衡。ROC曲线下面积(AUC)用作比较不同的风险评估得分的定量测量。AUC也可以显示与病症的遗传原因得到充分理解的最佳方案相比的任何得分的相对益处。一般而言，AUC值越大，该类别的得分越好。如果随机进行分类，预计AUC为0.5，最佳得分(即，其中，在某个阈值时真阳性分数为1和假阳性分数为0的得分函数)的AUC等于1。

为了获得用于比较的基线，使用逻辑回归来计算最佳模型，所述最佳模型利用了SNP之间的相互作用来拟合数据。如果SNP是s₁，s₂，...，s_n，则模型假定分对数(logit)是X＝a₁s₁+a₂s₂+...+a_ns_n+a₁₂s₁₂+...+a_n-1，ns_n-1，n，其中s_ij是s_i和s_j之间的相互作用。拟合概率用作风险的估计，并且形成用于这些风险估计的ROC曲线。该模型考虑了SNP之间的逐对相互作用，因此其至少应该与通常不考虑它们的GCI得分一样精确。此外，如果存在SNP对之间的连锁不平衡，逻辑回归可能很难容纳这种相关性，而GCI通常会忽略它。因此，将逻辑回归分析模型与所提出的GCI得分比较使得能够测量各种假设对于GCI的预测能力的影响。图1显示对于三种疾病状况的ROC曲线，而表3给出它们的AUC。对于所有的三种疾病，GCI和逻辑回归的AUC都非常相似(表3)，从而得出结论：至少对于这些疾病和这些SNP，SNP-SNP相互作用不会给风险评估增加实质性信息。因此，SNP-SNP相互作用可以忽略的假定是合理的，只要先前的研究中没有证据表明存在该相互作用。

表3：在三种不同的得分下对于三种不同的疾病的ROC曲线下面积

1：完全的遗传信息已知时的理想得分

将GCI ROC曲线与理论疾病模型相比较。该疾病模型假定疾病受到环境和遗传因素的影响，并且两种因素是独立的。表型P表示为P＝G+E，其中G是遗传风险，E是环境风险。第一种模型(也被称为连续模型)假定G和E分别以标准偏差σ_G、σ_E正态分布，并且对于固定的α，如果P＞α，则个体在其一生中会出现该病症。由于许多复杂疾病的遗传度h是已知的，利用h＝σ_G ²/(σ_G ²+σ_E ²)、平均终生风险为Pr(P＞α)的限制来固定σ_G、σ_E和α。由于对于各测试病症而言，遗传度和平均终生风险是已知的，因此可以根据疾病设置模型参数。生成基于该模型的分布P的100000个随机样本。假定对于各个个体G是已知的(但E和疾病状态是未知的)，基于G生成ROC曲线。这代表了其中完全理解了遗传风险的最佳方案，并且可对于每个个体准确地进行测量。对于这种疾病模型，最佳方案的AUC只取决于疾病的遗传度和平均终生风险，而不依赖于σ_G、σ_E或α的选择。

这一第一模型的ROC曲线下面积的理论最大值只取决于疾病的平均终生风险(ALTR)和遗传度。使得σ_e表示环境变量的变异和σ_g表示遗传变量的变异。在此模型中，遗传变量(G)和环境变量(E)是正态分布的。当遗传变量精确地已知而环境变量未知时，获得ROC曲线理论最大值。如果G+E＞α，个体是真实病例，否则为真实对照。对于遗传变量选择任何截止值，高于截止值的个体被视为病例，其余的为对照。真阳性分数(TPF)是称为病例的真实病例的分数；而假阳性分数(FTP)是称为病例的真实对照的分数。对于不同的截止值，TPF相对于FPF为我们提供了ROC曲线。

下式给出了个体的遗传变量大于某些截止的概率：

其中β＝c/σ_g。

个体的遗传变量大于截止值且个体是真实病例的概率是：

其中，

γ = α / \sqrt{{σ_{g}}^{2} + {σ_{e}}^{2}} .

对于任何非零的平均终生风险，γ是固定的，因为α随

线性增加。

根据定义，遗传度h＝σ_g ²/(σ_g ²+σ_e ²)。

先前的二重积分中括号内的积分可以用误差函数erf来表示。由于正态分布的累积分布函数为

括号内的积分为

因此，个体

是真实病例且其遗传变量大于c的概率可以表示为：

其中，f(h)和g(h)是遗传度的一些函数。将

代入这个方程，我们可以看到

因此，P(G＞c且G+E＞α)可以表示为

Σ_{β / \sqrt{2}}^{\infty} e^{- t^{2}} (0.5 - 0.5 \erf (γf (h) - g (h) t)) dt / \sqrt{π} .

类似地，个体是真实对照且其遗传变量大于c的概率，即

因此，对于任何给定β的真阳性分数只取决于h和ALTR，因为：TPF＝P(G＞c且G+E＞α)/ALTR。

这适用于假阳性分数，因为FPF＝P(G＞c且G+E＜＝α)/[1-ALTR]。因此，基于所有可能β值下的TPF和FPF，理论ROC曲线下的总面积与σ_e和σ_g无关。

在第二模型(或离散模型，前一模型的变型)中，假设G＝∑λ_iX_i+Y，其中Y以标准变差σ_Y正态分布，而X_i～B(2，p_i)以二项式分布。在这种情况下，X_i对应于具有大效应的SNP，Y代表许多其他小的遗传效应；如果存在足够的小遗传效应，可以预期：它们总和的渐进行为将根据正态分布。通过适当地设置参数λ、σ_Y和p，可以控制大影响的相对风险。选择这些参数，使得相对风险接近于实际数据中观测的值(见表4)。类似于前一模型，如果G是已知的(但E未知)，且大效应SNP的相对风险和风险-等位基因频率是固定的，那么离散模型的ROC曲线下面积仅依赖于疾病的遗传度和平均终生风险。

对于疾病模型2获得了类似于模型1的结果。特别地，如果已知与疾病相关的SNP的相对风险和风险-等位基因频率(p_i)是固定的，那么，ROC曲线下的总面积只取决于疾病的遗传度和平均终生风险。在此模型中，遗传变量是G＝∑λ_iX_i+G1。在本文中，G1～N(0，σ_g1)和X_is根据二项式分布B(2，p_i)而分布，其中p_i是基因座i的风险-等位基因的等位基因频率。B(2，p_i)给出了基因座i处个体的风险-等位基因拷贝数。X_i＝0表示对于非风险-等位基因是纯合的，X_i＝1表示杂合的，和X_i＝2表示对于风险-等位基因是纯合的。正常变量表示未知的遗传分量。如前所述，环境变量E也是具有均值0和标准偏差σ_e的正态分布。P＝G+E产生表型，且具有P＞α的个体患病，而其余是对照。选择α以使得患病个体的分数等于疾病的平均终生风险。

此模型的遗传度为h＝[σ_g1 ²+∑2λ_i ²p_i(1-p_i)]/[σ_g1 ²+σ_e ²+∑2λ_i ²p_i(1-p_i)]。让我们假设对于杂合基因型的已知SNP的相对风险是固定的，并由RN_i表示。根据定义，杂合子的相对风险为：RN_i＝Pr(G+E＞α|X_i＝1)/Pr(G+E＞α|X_i＝0)＝[∑Pr(G1+E＞α-z-λ_i)Pr(W＝z)]/[∑Pr(G1+E＞α-z)P(W＝z)]，其中，对于所有不等于i的j，W＝∑λ_jX_j。erf表示误差函数，和erfc表示互补误差函数(即，1-erf(x))。由于

以互补误差函数表示的相对风险为：

Σ 0.5 erfc [(α - z - λ_{i}) / \sqrt{2 ({σ_{g 1}}^{2} + {σ_{e}}^{2})}] \Pr (W = z) / Σ 0.5 erfc [(a -

因此，如果具有疾病截止值α的λ_is代表对于对于

的一些选择的SNP的解(这些可能是或不是唯一的)，则如果G1和E的标准偏差发生L倍的改变，具有截止值Lα的Lλ_is必然是解。这一点得到遵循，因为z总是λ_is的线性组合。因此，

和

独立于

且只取决于遗传度和ALTR。

根据定义，h(σ_g1 ²+σ_e ²)＝(1-h)∑2λ_i ²p_i(1-p_i)+σ_g1 ²。因此，这意味着：σ_g1 ²/(σ_g1 ²+σ_e ²)＝h-(1-h))∑2λ_i ²p_i(1-p_i)/(σ_g1 ²+σ_e ²)。由于

和p_i独立于σ_g1 ²/(σ_g1 ²+σ_e ²)只是遗传度和ALTR的函数。使Z＝∑λ_iX_i和V表示X_i值的向量。则如果对于V＝v来说Z＝z，

只是遗传度、ALTR和V的函数，并独立于

真阳性分数定义为Pr(G＞c&G+E＞α)/Pr(G+E＞α)，其中，c表示遗传变量的截止值。使β＝c/σ_g1。TPF的分子(numerator)可以计算为：

利用误差函数表示正态分布的累积分布函数，Pr(G＞c&G+E＞α)为：

ΣPr (V = v, Z = z) {&Integral;}_{β σ_{g 1} - z}^{\infty} e^{- x^{2} / 2 {σ_{g 1}}^{2}} (0.5 - 0.5 \erf [r (h, ALTR, v) - s (h, ALTR) x / \sqrt{2} σ_{g 1}]) dx / \sqrt{2 π} σ_{g 1},

其中，r和s是某些函数。将

代入这个方程，我们可以观察到

因此，P(G＞c且G+E＞α)可以表示为：

ΣPr (V = v, Z = z) {&Integral;}_{(β / \sqrt{2}) - b (h, ALTR, v)}^{\infty} e^{- t^{2}} (0.5 - 0.5 \erf [r (h, ALTR, v) - s (h, ALTR) t]) dt / \sqrt{π} .

类似地，个体是真实对照且其遗传变量大于c的概率，即P(G＞c和

α) = ΣPr (V = v, Z = z) {&Integral;}_{(β / \sqrt{2}) - b (h, ALTR, v)}^{\infty} e^{- t^{2}} (0.5 + 0.5 \erf [r (h, ALTR, v) - s (h, ALTR) t]) dt / \sqrt{π} .

如果p_is是固定的，则ALTR＝P(G+E＞α)和Pr(V＝v，Z＝z)是固定的。因此，对于任何给定β的真阳性分数只取决于h和ALTR。这同样适用于假阳性分数，因为FPF＝P(G＞c且G+E＜＝α)/[1-ALTR]。因此，基于所有可能β值下的TPF和FPF，理论ROC曲线下的总面积不依赖于σ_e、σ_g和λ_is。

求解

1-(σ_g1 ²/(h(σ_g1 ²+σ_e ²)))＝(1-h)∑2λ_i ²p_i(1-p_i)/(h(σ_g1 ²+σ_e ²))。所以，

因为LHS总是小于1。通过使用下面的迭代过程，可以同时获得所有

的解。

起初，假设存在唯一的SNP(即，假设对于所有不等于i的j，λ_j＝0)，确定对于每个SNP的

这可以使用0和之间的对半检索来实现，因为RN_i随

而增加。

这些值是对于的初始猜测。然后，1)假设其他SNP的

等于以前所计算的，确定

2)假设其他SNP的

等于以前所计算的，确定

3)假设其他SNP的

等于以前所计算的，确定

如果所有的RN_i值足够接近观测值，那么停止。如果没有，返回步骤1。

因此，提出了在所有遗传变异性而不是环境变异性已知和建模的情况下产生的两组最佳ROC曲线。第一模型假设存在许多累积的小的遗传效应(因此，遗传效应由正态分布的随机变量代表)，而第二模型假设除了许多具有小的效应的其他遗传变异以外存在少数具有大的效应的遗传变异。这两种模型考虑了病症的遗传度和终生风险，从而基于目前已知的遗传风险因素导致未知的遗传风险因素的实际外推。图1显示这些方案的ROC曲线，表3给出了其面积。曲线下的GCI面积比最佳理论类属模型小，这表明另外的未知遗传变异和/或相互作用预计将影响这些疾病。

根据图1，预测模型的改进最有可能只带来对于本文讨论的三种病症的额外的遗传变异的发现。了解迄今已捕捉到多大百分比的遗传因素是非常有用的。使用以下主要假设：主要遗传因素已经被发现，且存在许多其他未发现具有较低风险的相对遗传因素，得到了使用ROC曲线方法对这一量的估计。

评估另外的独立常见(次要等位基因频率10％或更高)变异的潜在数量，其中每个这种变量对于纯合风险变异产生1.1的相对风险和对于杂合变异产生1.05的相对风险，基本上提供这种变异的数量的评估足够获得具有与理论最佳限度同样大的AUC的ROC曲线。

对于三种病症的每一种，遗传因素被假定是已知的遗传因素(如表2所示)，除了一些未知数量k的具有相对低风险的变异。基于10万个体的模拟，需要近1600个另外的变异来解释2型糖尿病的遗传变异。这是直观的，因为按照现有知识，2型糖尿病的AUC是相当低的，尽管具有64％的高遗传度值。对于克罗恩病和类风湿性关节炎，结果更是惊人，因为预期分别发现13958和6237个另外的遗传因素。因此，对于这些病症，目前已知的遗传变异占总遗传变异的4％-14％(见表4)。但这些结果受以下事实制约：没有其他大的效应预期将被发现，但实际上仍有一些大的效应是由于SNP-SNP或SNP-环境相互作用或其他研究较少的变异(例如，拷贝数变异、罕见的变异、外遗传变异)。

表4：三种疾病缺失的低效应遗传变异的估计数量

*各具有1.10的纯合子相对风险、1.05的杂合子相对风险和10％的次要等位基因频率

实施例2：未知SNP-SNP相互作用的理论效应

GCI得分基于以下假设：所有的SNP彼此独立，且它们对这种疾病的风险具有独立的影响。如图1所示，本文研究的三个例子在GCI模型和其中通过逻辑回归包括SNP之间的成对依赖性的模型之间没有显示出显著的差异。存在一些其中SNP-SNP的相互作用确实存在于其他疾病中且必须加以考虑的已知例子(例如，Zheng等人，NEngl J Med.358：910-919(2008))。如果这些相互作用是已知的，它们可以很容易地被引入GCI模型中。然而，重要的是要理解未知的SNP-SNP的相互作用对于风险估计的效应。

为了更详细地探索相互作用的问题，数据集在其中，相对风险对于数据集中的单对SNP非独立的相互作用模型中模拟。使用以基于对于风险评估的两种方法绘制ROC曲线的模拟病例-对照数据。首先，计算根据相互作用模型的个体相对风险。然后，根据假定积性模型的GCI方法分配相对风险。如图2和表5中所观察的，ROC曲线只有当相互作用因子非常高时才显著不同。

表5：不同相互作用情况的曲线下面积(AUC)

1.这两栏对应于其中存在SNP-SNP相互作用的情况，其中基因型的特定组合的效应是边际效应乘积的两倍。

2.这两栏对应于其中存在SNP-SNP相互作用的情况，其中基因型的特定组合的效应是边际效应的乘积的10倍。

然而，SNP对之间的这类强相互作用很可能已在全基因组范围的相关性研究中发现，发现两个进入这样强烈的相互作用的SNP没有可探测的主效应将会是非常出人意料的。特别地，全基因组的相关性研究经常报告，测试到SNP-SNP相互作用但并没有发现显著的相互作用(例如，Barrett等人，Nature Genet.40：955-962(2008))。因此，当对于一系列SNP的文献中没有报告这种相互作用时，简单积性测试的分类精确度显著地不同于包括相互作用的真实模型的分类精确度是不太可能的。

为了测试未知SNP-SNP相互作用的效应，根据下面的模型对数据进行模拟。使λ_i表示对于基因型(g_i)的特定组合的疾病相对风险，p表示发生该疾病的平均概率(即终生风险)。根据相对风险的定义，λ_i＝P(疾病|g_i)/P(疾病|g₀)。在这里，g₀表示发生这种疾病的可能性最小的基因型。在简单积性模型中，将不同基因座的相对风险相乘以得到总相对风险。因此，

其中，λ_ij表示第j个基因座的相对风险。在相互作用模型中，假设基因型的一种组合的相对风险的特定对是相对风险的乘积的2或10倍大；这个数字被称为相互作用因数。对于所有其他SNP，相对风险性被假设是独立的。因此，例如，如果SNP x和y相互作用，那么该对的相对风险，对于(g_ix，g_iy)的特定组态是K＝2λ_ixλ_iy，对于其他组合是K＝λ_i1λ_i2。在这种情况下的总风险是

基于这种模型，对100,000个随机抽取的样本分配了疾病状态标签。基于相互作用模型，分配给个体的概率为P(疾病|g_i)＝Cλ_i的情况，其中C是归一化因子，λ_i是个体i的相对风险。选择C使得病例的分数接近于疾病的平均终生风险。这导致相互作用模型下病例和对照的大的模拟数据。

实施例3：测量风险估计中的绝对误差

ROC曲线用作评价诊断的一种量度，因为它提供了区分健康和生病的个体的测试能力的定量测量。然而，当估计终生风险时，如果不使用正确的概率评估，ROC曲线可能不是理想的量度。特别地，对于任何给定的评分函数对f1(G)和f2(G)，函数的ROC曲线是一致的，只要f1是f2的单调增函数。例如，我们可以简单地赋值f2(G)＝log(f1(G))，而且在这种情况下通过使用f1和f2评分来评估风险，我们将精确地获得一样的ROC曲线。然而，这两个函数可能对于个体产生非常不同的概率风险评估。因此，ROC曲线不一定是对于报告概率风险的测试的良好量度。对于概率风险评估，提供更多信息的测试是真实风险概率和评估风险概率之间的平均绝对差异。

由于患病的真实概率是未知的，模拟了其中病例-对照数据用于计算GCI参数(即相对风险)的情况，然后应用GCI风险评估到另一独立模拟的群体。用于模拟的疾病模型假设疾病的遗传因素可以被分解成少数大效应和近似正态分布的大量的小效应(如上所述)。由于大多数疾病在生命的后期被诊断，向模型引入疾病的发作年龄。对于基于该模型确定为患病的每个个体，疾病的发作年龄基于发病年龄的一些分布(正态分布，均值＝50和SD＝13)。因此，在模拟中，一些对照事实上可能是在特定时间点还没有被诊断的病例。为了产生年龄匹配的病例-对照研究的实际模拟，重复模拟遗传和环境因素以及个体的发病年龄。选择从0到100之间的均匀分布的个体年龄。重复进行这一过程，直到获得1万个病例。对于这些病例中的每一个，通过固定他们的年龄和模拟个体的遗传和环境因素直至其中一个被认为是对照来生成年龄匹配的对照。这一过程产生具有10,000个病例和10,000个对照的年龄匹配的病例-对照数据集。利用如本文所述的GCI方法，评估基于该病例-对照数据集的每个SNP的优势比，然后用于计算与疾病相关的每个SNP的相对风险。

这些模拟用来测试所得的风险评估。根据真实疾病模型产生500个个体。由于疾病模型是已知的，计算这些个体中的每一个患病的准确风险。这些“真实风险评估”用作准确度衡量的基线。将GCI风险评估与该基线以及其中相对终生风险由优势比取代的GCI的变型进行比较。

在图3中，对于具有25％的平均终生风险和64％的遗传度的模拟的疾病(图3a)与具有42％的平均终生风险和57％的遗传度的疾病(图3b)的相对误差绝对值的分布进行绘图。这些值大致对应于2型糖尿病和心肌梗塞的终生风险和遗传度。当使用相对风险时和当使用优势比时，GCI之间存在差异。当ROC曲线用来定量风险评估的准确性时，这种差异不会被注意到。由GCI所产生的误差正常不会超过5％。这是根据以下假设：所有遗传风险是已知的且这种疾病模型充分代表现实情况。

实施例4：遗传风险评估和家族史

与使用基因型信息来估计疾病风险相反，使用家族史评估疾病风险是临床上常见的做法。问题起因于与家族史相比使用基因型信息的额外的价值。为了解决这些问题，模拟了其中父母疾病状态信息已知的情况，且这种信息用作对于个体的疾病风险的测试。本测试的假阳性和真阳性率与通过基因型测试获得的相当。

离散疾病模型用于模拟。根据在对于疾病的各SNP位置的等位基因频率，生成对于100,000个父母亲对的随机基因型。该基因型被认为在基因座上是独立的。对于各个三人组，孩子是由随机选择来自各基因座独立的各亲本的一个等位基因生成。孩子的遗传正常成分简单地为双亲的归一化平均，而环境因子是父母的环境因子的组合，且是独立的环境因素。因此，如果父亲和母亲的表型分别是P_F和P_M，其中P_F＝X_F+G_F+E_F且P_M＝X_G+G_M+E_M，(其中，X是二项式遗传分布，G～N(0，σ_G)和E～N(0，σ_E)是正态分布的遗传和环境因子)，那么孩子的表型被假定是P_C＝X_C+(G_F+G_M)/√2+a(E_F+E_M)+bE_C，其中E_C～N(0，σ_E)代表孩子的独立环境变量，X_C是产生大效应的遗传因素。病症的遗传度施加约束条件2a²+b²＝1。因此，参数b决定了父母的环境对孩子的影响。如果b＝1，父母的环境不影响孩子；而当b＝0时，孩子们的环境完全由父母决定。根据这些模拟，计算简单分类测试的真阳性和假阳性分数，其中，如果他或她的父母都是病例，孩子被标记为病例，否则被认为是对照。这个测试是家族史测试。

如上面所述，对应于基因型基础测试的理论极限的该测试与ROC曲线相比。如图4所示，家族史测试的灵敏度和特异性严重依赖于参数b的选择。一些结论可以源自这些图表。首先，很显然对于所有这三种疾病模型，存在着家族史低于GCI测试的情况，并且存在其中家族史占优的其他情况，这取决于b的值。但是，在大多数情况下，这两项测试给出了相当类似的结果。然而，家族史测试的灵敏度和特异性值取决于b，它在群体中是固定的，而GCI测试允许全范围的特异性和灵敏度值。例如，在克罗恩病的例子中，通过允许稍多的假阳性，可以使用GCI测试增加真阳性的数量至接近98％，而家族史测试的真阳性率限于65％。

实施例5：已知环境因素改善预测

为了评估已知的环境因素对疾病预测的潜在影响，环境和基因型数据用来评估风险。在这里，表明了2型糖尿病、克罗恩病和类风湿性关节炎(其具有非常不同的遗传度和平均终生的风险值)的环境因素利用。假设所有SNP以及所有环境因素的风险都是独立的。这种假设不一定成立，但如下文进一步所述的，这基本上不会影响结果。基于这种假设，概括了其中将环境因素考虑在内的情况的GCI。产生的方法被称为EGCI。基于群体中的基因型和表型频率，模拟了10万个个体集的基因型和表型值。基于积性模型，对这些个体的疾病状态赋值。

基于纯遗传因素的GCI与新的广义EGCI比较。2型糖尿病、克罗恩病和类风湿性关节炎的ROC曲线可以在图5中找到。环境因素的附加值对于克罗恩病和类风湿关节炎不是明显的，但对于2型糖尿病是显著的。这由以下事实驱动：身体质量指数关键性地影响2型糖尿病的风险(如果体重指数＞35，则具有42.1的相对风险)。请注意，对于疾病如克罗恩病，预期环境因素不发挥重要作用，因为这一病症的遗传度为大约80％。

实施例6：疾病的假设终生风险中的误差

人类基因组计划、HapMap项目和相关的举措已经产生基准人类基因组序列、常见的遗传变异的目录以及一些基准群体的单体型图谱。此外，这一信息与测试整个基因组上的变异与所有种类的性状和疾病之间的关联的具有成本效益的技术相结合，已经产生几十个显示为与常见疾病的风险明确地统计上相关的变异。在评估疾病的概率性前症状风险时，可以与群体衍生的环境风险因子数据非常类似地使用这些常见的变异。

GCI，就像特定数量的所有评估，需要可能使风险评估偏差的一系列假设。特别地，由GCI得分作出的假设是，构成原因的SNP的等位基因频率和效应大小是已知的，且SNP-SNP的相互作用是已知的。此外，假设平均终生风险是已知的。这些假设在实践中可能不成立，但如本文所述，这些假设的轻微偏差不会显著地改变风险评估。特别地，如先前通过模拟研究和通过WTCCC数据分析的例子所表明的，弱的SNP-SNP相互作用对于GCI几乎没有影响，而且终生风险评估的偏差不会改变相对风险评估的准确性(也参见图6)。

ROC曲线基于以下假设：疾病的平均终生风险是已知的，且这个值用来计算在疾病的理论模型中赋值疾病状态的截止值。然而，从群体数据获得的评估可能不准确，而这些误差可以极大地影响基于GCI的患病风险。在本文的计算中，假设平均终生风险等于这些粗略估计(LTR′)。

如图6A所示，对作为用于计算的假设风险的函数的基于GCI的平均终生风险与该疾病的真实平均终生风险之间的误差作图。如图6B所示，对作为假设的平均终生风险的函数的基于GCI的平均终生风险与假设的平均终生风险之间的绝对误差作图。

尽管在此显示和描述了本发明的一些优选实施方式，本领域普通技术人员明白这些实施方式仅在于提供一些实例。在不偏离本发明的情况下，本领域技术人员可以做出一些变化、改变和替换。可以理解的是，对本发明实施方式的各种不同的替代方式可用于实施本发明的实施方式。下面的权利要求意图限定本发明的范围，这些实施方式和它们的等同方式范围内的方法和结构包括在本发明内。

Claims

1.一种生成对于个体的疾病或病症的环境遗传综合指数(EGCI)得分的方法，包括：

(a)从所述个体的遗传样本生成基因组谱；

(b)从所述个体获得至少一个环境因子，其中，所述环境因子对于所述疾病或病症具有至少为大约1的相对风险；

(c)使用计算机，从所述基因组谱和所述至少一个环境因子生成EGCI得分；和

(d)向所述个体或所述个体的保健管理者报告由所述计算机获得和输出的所述EGCI得分。

2.根据权利要求1所述的方法，其中，所述相对风险为至少大约1.1、1.2、1.3、1.4或1.5。

3.根据权利要求1所述的方法，其中，所述相对风险为至少大约2、3、4、5、10、12、15、20、25、30、25、40、45或50。

4.根据权利要求1所述的方法，其中，所述至少一个环境因子具有至少大约1的优势比(OR)。

5.根据权利要求4所述的方法，其中，所述OR为至少大约1.1、1.2、1.3、1.4或1.5。

6.根据权利要求4所述的方法，其中，所述OR为至少大约2、3、4、5、10、12、15、20、25、30、25、40、45或50。

7.根据权利要求1所述的方法，其中，所述至少一个环境因子选自所述个体的出生地、居住地点、生活方式状况；饮食、运动习惯和个人关系。

8.根据权利要求7所述的方法，其中，所述生活方式状况为吸烟或饮酒。

9.根据权利要求1所述的方法，其中，所述至少一个环境因子为所述个体的身体测量。

10.根据权利要求9所述的方法，其中，所述个体的所述身体测量选自身体质量指数、血压、心率、葡萄糖水平、代谢物水平、离子水平、体重、身高、胆固醇水平、维生素水平、血细胞计数、蛋白质水平和转录水平。

11.根据权利要求1所述的方法，其中，生成所述EGCI得分使用至少2个环境因子。

12.根据权利要求1所述的方法，其中，在生成所述EGCI得分中假设所述至少一个环境因子是对于所述疾病或病症的独立风险因子。

13.根据权利要求1所述的方法，其中，所述疾病或病症具有小于大约95％的遗传度。

14.根据权利要求1所述的方法，其中，所述疾病或病症具有小于大约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％或90％的遗传度。

15.根据权利要求1所述的方法，其中，第三方获得所述遗传样本。

16.根据权利要求1所述的方法，其中，由第三方生成所述基因组谱。

17.根据权利要求1所述的方法，其中，所述报告包括通过网络传输所述EGCI得分。

18.根据权利要求1所述的方法，其中，所述报告是通过在线入口进行。

19.根据权利要求1所述的方法，其中，所述报告是通过纸件或通过电子邮件。

20.根据权利要求1所述的方法，其中，所述报告包括以加密方式报告。

21.根据权利要求1所述的方法，其中，所述报告包括以非加密方式报告。

22.根据权利要求1所述的方法，其中，所述遗传样本为DNA。

23.根据权利要求1所述的方法，其中，所述遗传样本为RNA。

24.根据权利要求1所述的方法，其中，所述遗传样本从选自血液、毛发、皮肤、唾液、精液、尿液、粪便物质、汗液和口腔样本的生物样品获得。

25.根据权利要求1所述的方法，其中，所述个体的基因组谱存入加密的数据库或保险库。

26.根据权利要求1所述的方法，其中，所述基因组谱为单核苷酸多态性谱。

27.根据权利要求1所述的方法，其中，所述基因组谱包括平截、插入、缺失或重复。

28.根据权利要求1所述的方法，其中，所述基因组谱使用高密度DNA微阵列来生成。

29.根据权利要求1所述的方法，其中，所述基因组谱使用RT-PCR来生成。

30.根据权利要求1所述的方法，其中，所述基因组谱使用DNA测序来生成。

31.根据权利要求1所述的方法，进一步包括(e)用附加或修改的环境因子更新所述EGCI得分。